如何遍历 spark 数据帧的一列并逐一访问其中的值?

Fas*_*sty 5 apache-spark-sql pyspark

我有火花数据框 在这里

我想一一获取一列的值并需要将其分配给某个变量? 如何在 pyspark 中完成。对不起,我是一个新手,可以使用 spark 和 stackoverflow。请原谅我的问题不够清晰

Man*_*que 0

我不明白你到底在问什么,但是如果你想将它们存储在 Spark 提供的数据帧之外的变量中,最好的选择是选择你想要的列并将其存储为 panda 系列(如果它们是不是很多,因为你的记忆力有限)。

from pyspark.sql import functions as F

var = df.select(F.col('column_you_want')).toPandas()
Run Code Online (Sandbox Code Playgroud)

然后你可以像普通的 pandas 系列一样对其进行迭代。