小编VME*_*oli的帖子

将 Pyspark 中 Dataframe 中的不同值转换为列表

我试图在 Pyspark 的数据框中获取列的不同值,以便他们将它们保存在一个列表中,目前该列表包含“Row(no_children=0)”,但我只需要该值,因为我将使用它用于我代码的另一部分。

所以,理想情况下只有 all_values=[0,1,2,3,4]

all_values=sorted(list(df1.select('no_children').distinct().collect()))
all_values


[Row(no_children=0),
 Row(no_children=1),
 Row(no_children=2),
 Row(no_children=3),
 Row(no_children=4)]
Run Code Online (Sandbox Code Playgroud)

这需要大约 15 秒才能运行,这正常吗?

非常感谢!

pyspark

3
推荐指数
1
解决办法
4362
查看次数

标签 统计

pyspark ×1