小编Q Y*_*ang的帖子

如何在numpy数组和向量行之间执行包含操作?

现在我有一个numpy数组,

[[1 2]
 [3 4]
 [2 5]]
Run Code Online (Sandbox Code Playgroud)

和一个矢量.

[2,
 5,
 2]
Run Code Online (Sandbox Code Playgroud)

我想在数组和向量行之间执行包含操作.换句话说,我想检查第一行是否[1, 2]包含2,第二行是否[3, 4]包含5.预期的输出看起来像:

[True, False, True] 
Run Code Online (Sandbox Code Playgroud)

我怎么能实现这个功能?提前谢谢了.

python numpy

8
推荐指数
3
解决办法
330
查看次数

从 pyspark.sql 中的列表创建数据框

我完全迷失在有线情况下。现在我有一个清单li

li = example_data.map(lambda x: get_labeled_prediction(w,x)).collect()
print li, type(li)
Run Code Online (Sandbox Code Playgroud)

输出就像,

[(0.0, 59.0), (0.0, 51.0), (0.0, 81.0), (0.0, 8.0), (0.0, 86.0), (0.0, 86.0), (0.0, 60.0), (0.0, 54.0), (0.0, 54.0), (0.0, 84.0)] <type 'list'>
Run Code Online (Sandbox Code Playgroud)

当我尝试从此列表创建数据框时:

m = sqlContext.createDataFrame(l, ["prediction", "label"])
Run Code Online (Sandbox Code Playgroud)

它抛出了错误消息:

TypeError                                 Traceback (most recent call last)
<ipython-input-90-4a49f7f67700> in <module>()
 56 l = example_data.map(lambda x: get_labeled_prediction(w,x)).collect()
 57 print l, type(l)
---> 58 m = sqlContext.createDataFrame(l, ["prediction", "label"])
 59 '''
 60 g = example_data.map(lambda x:gradient_summand(w, x)).sum()

/databricks/spark/python/pyspark/sql/context.py in createDataFrame(self, data, schema, samplingRatio) …
Run Code Online (Sandbox Code Playgroud)

python dataframe apache-spark apache-spark-sql pyspark

4
推荐指数
1
解决办法
1万
查看次数