我试图在 Pyspark 的数据框中获取列的不同值,以便他们将它们保存在一个列表中,目前该列表包含“Row(no_children=0)”,但我只需要该值,因为我将使用它用于我代码的另一部分。
所以,理想情况下只有 all_values=[0,1,2,3,4]
all_values=sorted(list(df1.select('no_children').distinct().collect()))
all_values
[Row(no_children=0),
Row(no_children=1),
Row(no_children=2),
Row(no_children=3),
Row(no_children=4)]
Run Code Online (Sandbox Code Playgroud)
这需要大约 15 秒才能运行,这正常吗?
非常感谢!
pyspark ×1