上下文:我有DataFrame2列:单词和向量.其中"vector"的列类型是VectorUDT.
一个例子:
word | vector
assert | [435,323,324,212...]
Run Code Online (Sandbox Code Playgroud)
我希望得到这个:
word | v1 | v2 | v3 | v4 | v5 | v6 ......
assert | 435 | 5435| 698| 356|....
Run Code Online (Sandbox Code Playgroud)
题:
如何使用PySpark为每个维度拆分包含多列向量的列?
提前致谢
python apache-spark apache-spark-sql pyspark apache-spark-ml
我正在尝试将具有大约 9000 万行的 pyspark 数据框列转换为 numpy 数组。
我需要数组作为scipy.optimize.minimize函数的输入。
我尝试过转换为 Pandas 和使用collect(),但这些方法非常耗时。
我是 PySpark 的新手,如果有更快更好的方法来做到这一点,请帮忙。
谢谢
这就是我的数据框的样子。
+----------+
|Adolescent|
+----------+
| 0.0|
| 0.0|
| 0.0|
| 0.0|
| 0.0|
| 0.0|
| 0.0|
| 0.0|
| 0.0|
| 0.0|
+----------+
Run Code Online (Sandbox Code Playgroud)