小编ohr*_*uus的帖子

如何解释numpy.correlate和numpy.corrcoef值?

我有两个1D阵列,我想看到他们的相互关系.我应该在numpy中使用什么程序?我正在使用numpy.corrcoef(arrayA, arrayB)并且numpy.correlate(arrayA, arrayB)两者都给出了一些我无法理解或理解的结果.有人可以阐明如何理解和解释这些数值结果(最好用一个例子)?谢谢.

python numpy scipy correlation

26
推荐指数
3
解决办法
3万
查看次数

定义一个接受Spark DataFrame中的对象数组的UDF?

使用Spark的DataFrame时,需要使用用户定义函数(UDF)来映射列中的数据.UDF要求显式指定参数类型.在我的情况下,我需要操作由对象数组组成的列,我不知道要使用什么类型.这是一个例子:

import sqlContext.implicits._

// Start with some data. Each row (here, there's only one row) 
// is a topic and a bunch of subjects
val data = sqlContext.read.json(sc.parallelize(Seq(
  """
  |{
  |  "topic" : "pets",
  |  "subjects" : [
  |    {"type" : "cat", "score" : 10},
  |    {"type" : "dog", "score" : 1}
  |  ]
  |}
  """)))
Run Code Online (Sandbox Code Playgroud)

使用内置org.apache.spark.sql.functions函数对列中的数据执行基本操作相对简单

import org.apache.spark.sql.functions.size
data.select($"topic", size($"subjects")).show

+-----+--------------+
|topic|size(subjects)|
+-----+--------------+
| pets|             2|
+-----+--------------+
Run Code Online (Sandbox Code Playgroud)

并且通常很容易编写自定义UDF来执行任意操作

import org.apache.spark.sql.functions.udf
val enhance = udf { topic : …
Run Code Online (Sandbox Code Playgroud)

scala user-defined-functions dataframe apache-spark apache-spark-sql

26
推荐指数
1
解决办法
1万
查看次数

为什么用户流浪者不输入密码就可以"sudo su - "?

我是一个关于流浪汉的新生.我刚刚发现我可以通过"sudo su - "更改为root,而无需在Vagrant监督的盒子内输入密码.奇怪的是,我检查了"/ etc/sudoers",并没有发现用户流浪者.有人可以解释一下吗?

sudo vagrant

13
推荐指数
2
解决办法
1万
查看次数

如何在Spark/Scala中使用频率计数的文本文件创建一个二元组?

我想要一个文本文件并创建一个没有用"."分隔的所有单词的二元组,删除任何特殊字符.我正在尝试使用Spark和Scala来做到这一点.

本文:

朋友你好.怎么是
你今天?再见,我的朋友.

应该产生以下内容:

你好,
我的朋友,2
你怎么样,1
你今天,1
今天再见,1
再见我,1

scala n-gram apache-spark

5
推荐指数
1
解决办法
6084
查看次数

scikit-learn中的“得分必须返回数字” cross_val_score错误

也许这是一个愚蠢的问题,但是我不明白cross_val_score下面代码中的函数给我的错误。也许答案是X样本格式的,看到的正是崩溃消息中显示的内容,但是我不知道如何解决。这是我的项目中的代码,带有一些随机值。

import numpy as np
from sklearn import mixture,cross_validation

np.random.seed(0)
n_samples = 300
C = np.array([[0., -0.7], [3.5, .7]])
X = np.r_[np.dot(np.random.randn(n_samples, 2), C),
          np.random.randn(n_samples, 2) + np.array([20, 20])]

clf = mixture.GMM(n_components=2, covariance_type='full')
score = cross_validation.cross_val_score(clf, X)
Run Code Online (Sandbox Code Playgroud)

给我错误:

ValueError: scoring must return a number, got (<type 'numpy.ndarray'>) instead
Run Code Online (Sandbox Code Playgroud)

python numpy machine-learning scikit-learn

5
推荐指数
1
解决办法
1075
查看次数

Python:没有名为suds的模块

我安装了python 2.7.9.当我运行我的脚本时,我收到以下错误:

from suds.client import client  
ImportError: No module named suds.client
Run Code Online (Sandbox Code Playgroud)

所以我从以下位置下载了suds库:

https://fedorahosted.org/releases/s/u/suds/python-suds-0.4.tar.gz

并提取并使用command(python setup.py install)安装它.
已安装的suds文件放在Directory C:\Python27\Lib\site-packagesas中suds-0.4-py2.7.egg.但是当我再次运行我的脚本时,我发现了同样的错误.

我错过了什么吗?

python suds

5
推荐指数
1
解决办法
7687
查看次数

将元组直接解压缩到scala中的类

Scala能够在执行各种操作时将元组解压缩为多个局部变量,例如,如果我有一些数据

val infos = Array(("Matt", "Awesome"), ("Matt's Brother", "Just OK"))
Run Code Online (Sandbox Code Playgroud)

而不是做一些丑陋的事情

infos.map{ person_info => person_info._1 + " is " + person_info._2 }
Run Code Online (Sandbox Code Playgroud)

我可以选择更优雅

infos.map{ case (person, status) => person + " is " + status }
Run Code Online (Sandbox Code Playgroud)

我经常想知道的一件事是如何将元组直接解压缩到比如在类构造函数中使用的参数.我想象的是这样的:

case class PersonInfo(person: String, status: String)
infos.map{ case (p: PersonInfo) => p.person + " is " + p.status }
Run Code Online (Sandbox Code Playgroud)

如果PersonInfo有方法,甚至更好:

infos.map{ case (p: PersonInfo) => p.verboseStatus() }
Run Code Online (Sandbox Code Playgroud)

但当然这不起作用.如果已经有人问过这个道歉 - 我还没有找到直接答案 - 有没有办法做到这一点?

scala iterable-unpacking

3
推荐指数
1
解决办法
692
查看次数