相关疑难解决方法(0)

如何将Vector拆分为列 - 使用PySpark

上下文:我有DataFrame2列:单词和向量.其中"vector"的列类型是VectorUDT.

一个例子:

word    |  vector
assert  | [435,323,324,212...]

Run Code Online (Sandbox Code Playgroud)

我希望得到这个:

word   |  v1 | v2  | v3 | v4 | v5 | v6 ......
assert | 435 | 5435| 698| 356|....

Run Code Online (Sandbox Code Playgroud)

题:

如何使用PySpark为每个维度拆分包含多列向量的列？

提前致谢

python apache-spark apache-spark-sql pyspark apache-spark-ml

sed*_*ben

2019 01-07

32
推荐指数

1
解决办法

2万
查看次数

如何将 pyspark 数据框列转换为 numpy 数组

我正在尝试将具有大约 9000 万行的 pyspark 数据框列转换为 numpy 数组。

我需要数组作为scipy.optimize.minimize函数的输入。

我尝试过转换为 Pandas 和使用collect()，但这些方法非常耗时。

我是 PySpark 的新手，如果有更快更好的方法来做到这一点，请帮忙。

谢谢

这就是我的数据框的样子。

+----------+
|Adolescent|
+----------+
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
+----------+

Run Code Online (Sandbox Code Playgroud)

python numpy apache-spark pyspark

Vai*_*thi

2019 09-30

2
推荐指数

1
解决办法

5255
查看次数

标签统计

apache-spark ×2

pyspark ×2

python ×2

apache-spark-ml ×1

apache-spark-sql ×1

numpy ×1

如何将Vector拆分为列 - 使用PySpark

如何将 pyspark 数据框列转换为 numpy 数组

标签 统计

标签统计