pyspark 数据框中所有列的总计数为零

Har*_*jan 6 python dataframe pyspark

我需要找到 pyspark 数据框中所有列的零百分比。如何查找数据框中每列的零计数?

PS:我尝试将数据帧转换为 pandas 数据帧并使用 value_counts。但对于大型数据集来说,推断其观察结果是不可能的。

Zil*_*g Z 6

“如何查找数据框中每列的零计数?”

第一的:

import pyspark.sql.functions as F
df_zero = df.select([F.count(F.when(df[c] == 0, c)).alias(c) for c in df.columns])
Run Code Online (Sandbox Code Playgroud)

第二:然后你可以看到计数(与.show()相比,这给你更好的视野。而且速度没有太大区别):

df_zero.limit(2).toPandas().head()
Run Code Online (Sandbox Code Playgroud)

享受!:)