小编Vai*_*thi的帖子

如何将 pyspark 数据框列转换为 numpy 数组

我正在尝试将具有大约 9000 万行的 pyspark 数据框列转换为 numpy 数组。

我需要数组作为scipy.optimize.minimize函数的输入。

我尝试过转换为 Pandas 和使用collect(),但这些方法非常耗时。

我是 PySpark 的新手,如果有更快更好的方法来做到这一点,请帮忙。

谢谢

这就是我的数据框的样子。

+----------+
|Adolescent|
+----------+
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
|       0.0|
+----------+
Run Code Online (Sandbox Code Playgroud)

python numpy apache-spark pyspark

2
推荐指数
1
解决办法
5255
查看次数

标签 统计

apache-spark ×1

numpy ×1

pyspark ×1

python ×1