小编lol*_*ter的帖子

numpy np.array与np.matrix(性能)

通常在使用numpy时我发现这个区别很烦人 - 当我从矩阵中提取一个向量或一行然后用np.arrays 执行操作时,通常会出现问题.

为了减少麻烦,我有时只是为了简单而使用np.matrix(将所有np.arrays转换为np.matrix).但是,我怀疑有一些性能影响.任何人都可以评论这些可能是什么以及原因?

看起来如果它们都只是引擎盖下的数组,元素访问只是一个偏移计算来获得值,所以我不确定没有读完整个源的差异可能是什么.

更具体地说,它具有什么性能影响:

v = np.matrix([1, 2, 3, 4])
# versus the below
w = np.array([1, 2, 3, 4])
Run Code Online (Sandbox Code Playgroud)

谢谢

python numpy

7
推荐指数
2
解决办法
5298
查看次数

sklearn:在RandomizedSearchCV中使用Pipeline?

我希望能够在sklearn中的RandomizedSearchCV构造中使用管道.但是现在我认为只支持估算器.以下是我希望能够做到的一个例子:

import numpy as np

from sklearn.grid_search import RandomizedSearchCV
from sklearn.datasets import load_digits
from sklearn.svm import SVC
from sklearn.preprocessing import StandardScaler    
from sklearn.pipeline import Pipeline

# get some data
iris = load_digits()
X, y = iris.data, iris.target

# specify parameters and distributions to sample from
param_dist = {'C': [1, 10, 100, 1000], 
          'gamma': [0.001, 0.0001], 
          'kernel': ['rbf', 'linear'],}

# create pipeline with a scaler 
steps = [('scaler', StandardScaler()), ('rbf_svm', SVC())]
pipeline = Pipeline(steps)

# do search
search = RandomizedSearchCV(pipeline, 
param_distributions=param_dist, …
Run Code Online (Sandbox Code Playgroud)

python numpy machine-learning scikit-learn

7
推荐指数
2
解决办法
3872
查看次数

在Spark脚本中插入Scala解释器?

我正在使用Scala 2.11.8和Spark 2.1.0.我对Scala完全不熟悉.

是否有一种简单的方法来添加单行断点,类似于Python:

import pdb; pdb.set_trace()
Run Code Online (Sandbox Code Playgroud)

我将被放入Scala shell中,我可以检查脚本中执行行的内容是什么?(我也很满意脚本的结尾......)

我目前正在开始我的脚本:

$SPARK_HOME/bin/spark-submit --class "MyClassName" --master local target/scala-2.11/my-class-name_2.11-1.0.jar
Run Code Online (Sandbox Code Playgroud)

有没有办法做到这一点?将极大地帮助调试.

编辑:这个其他SO帖子的解决方案不是很有帮助/需要很多样板+不起作用.

debugging interpreter scala

7
推荐指数
1
解决办法
361
查看次数

为什么我的卷积例程与 numpy 和 scipy 的不同?

我想手动编码一个 1D 卷积,因为我正在使用内核进行时间序列分类,我决定制作著名的 Wikipedia 卷积图像,如图所示。

在此处输入图片说明

这是我的脚本。我正在使用数字信号卷积标准公式

import numpy as np 
import matplotlib.pyplot as plt
import scipy.ndimage

plt.style.use('ggplot')

def convolve1d(signal, ir):
    """
    we use the 'same' / 'constant' method for zero padding. 
    """
    n = len(signal)
    m = len(ir)
    output = np.zeros(n)

    for i in range(n):
        for j in range(m):
            if i - j < 0: continue
            output[i] += signal[i - j] * ir[j]

    return output

def make_square_and_saw_waves(height, start, end, n):
    single_square_wave = []
    single_saw_wave = [] …
Run Code Online (Sandbox Code Playgroud)

python numpy matplotlib convolution scipy

7
推荐指数
1
解决办法
1793
查看次数

mysql:使用SET还是很多列?

我正在使用PHP和MySQL.我有以下记录:

  • 具有分层的各种"事件类型"的事件(事件可以有多个类别和子类别,但是有固定数量的此类别和子类别)(带时间戳)

设置表的最佳方法是什么?我是否应该有一堆列(30左右)带有枚举的是或否表示该类别的成员资格?或者我应该使用MySQL SET数据类型? http://dev.mysql.com/tech-resources/articles/mysql-set-datatype.html

基本上我有表现,我希望能够检索给定类别的所有事件的ID.只是寻找一些有关最有效的方法的见解.

php mysql database database-design

6
推荐指数
1
解决办法
4264
查看次数

如何在Pyspark中运行脚本并在完成后放入IPython shell?

我想运行一个spark脚本并放入一个IPython shell来交互式地检查数据.

同时运行:

$ IPYTHON=1 pyspark --master local[2] myscript.py
Run Code Online (Sandbox Code Playgroud)

$ IPYTHON=1 spark-submit --master local[2] myscript.py
Run Code Online (Sandbox Code Playgroud)

一旦完成,退出IPython.

这看起来很简单,但找不到如何在任何地方做到这一点.

python ipython apache-spark

6
推荐指数
1
解决办法
6818
查看次数

github页面提供javascript/d3可视化

我想提供javascript脚本并让它们运行,以便人们可以访问我的*.github.io页面并查看那里的可视化.

这可能吗?如果是这样,我怎么可能将javascript嵌入降价?

javascript markdown github d3.js github-pages

6
推荐指数
1
解决办法
1821
查看次数

org.apache.spark.ml.feature.Tokenizer中的NullPointerException

我想分别在titledescription字段上分别使用TF-IDF功能,然后将这些功能组合在一起,VectorAssembler以便最终的分类器可以对这些功能进行操作.

如果我使用简单的单个串行流,它工作正常

titleTokenizer -> titleHashingTF -> VectorAssembler
Run Code Online (Sandbox Code Playgroud)

但是我需要两个:

titleTokenizer       -> titleHashingTF 
                                                -> VectorAssembler
descriptionTokenizer -> descriptionHashingTF
Run Code Online (Sandbox Code Playgroud)

代码在这里:

import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import org.apache.spark.sql.SparkSession

import org.apache.spark.ml.{Pipeline, PipelineModel}
import org.apache.spark.ml.classification.LogisticRegression
import org.apache.spark.ml.feature.{HashingTF, Tokenizer, StringIndexer, VectorAssembler}
import org.apache.spark.ml.linalg.Vector
import org.apache.spark.sql.Row

import org.apache.spark.ml.evaluation.BinaryClassificationEvaluator

import org.apache.log4j.{Level, Logger}


object SimplePipeline {
    def main(args: Array[String]) {

        // setup boilerplate
        val conf = new SparkConf()
            .setAppName("Pipeline example")
        val sc = new SparkContext(conf)
        val spark = SparkSession
            .builder()
            .appName("Session for SimplePipeline") …
Run Code Online (Sandbox Code Playgroud)

scala machine-learning apache-spark

6
推荐指数
1
解决办法
2219
查看次数

Vue.js"npm run build"但是Vue.js没有绑定DOM /工作

来自Vue.js的新手.在Mac OS上使用版本:

$ npm --version
4.6.1
$ vue --version
2.8.1
Run Code Online (Sandbox Code Playgroud)

我正在使用webpack-simpleinit和vue-cli for vue 2.0.我在我的Django项目文件夹中创建了一个文件夹,用于调用vue frontend.目录结构:

$ tree 
??? README.md
??? asnew
?   ??? __init__.py
?   ??? migrations
?   ??? models.py
?   ??? settings.py
?   ??? templates
?       ??? index.html
?   ??? urls.py
?   ??? views.py
?   ??? wsgi.py
??? frontend
?   ??? node_modules
?   ??? package.json
?   ??? src
?       ??? App.vue
?       ??? assets
?       ??? components
?       ?   ??? SearchPageResult.vue
?       ??? main.js
?       ??? …
Run Code Online (Sandbox Code Playgroud)

javascript django vue.js vue-loader vuejs2

6
推荐指数
1
解决办法
2019
查看次数

如何在 CodePipeline 中处理 ECS 部署以更改任务定义

我正在使用两个容器部署 ECS Fargate 任务:1 个反向代理 nginx 和 1 个 python 服务器。对于每个我有一个 ECR 存储库,我有一个 CI/CD CodePipeline 设置

CodeCommit -> CodeBuild -> CodeDeploy

此流程适用于简单的代码更改。但是如果我想添加另一个容器怎么办?我当然可以更新 mybuildspec.yml以添加容器的构建,但我还需要 1) 更新我的任务定义,以及 2) 将此任务定义分配给我的服务。

问题:

1) 如果我在 CodeBuild 阶段使用 CLI 创建新的任务定义并将其与我的服务相关联,这不会触发部署吗?然后我的 CodeDeploy 会尝试再次部署,所以我最终会部署两次?

2) 这种方法最终会创建一个新的任务定义并在每次部署时更新服务。这很糟糕吗?我是否应该有一些逻辑来拉下最新的任务修订版并将 JSON 与 CodeCommit 版本进行比较,并且仅在存在差异时才进行更新?

谢谢!

amazon-ecs aws-code-deploy aws-codepipeline aws-codebuild

6
推荐指数
1
解决办法
1308
查看次数