Python/Pyspark - 计数NULL,空和NaN

qwe*_*rtz 3 python pyspark

我想在列中计算NULL,空和NaN值.我试过这样的:

df.filter( (df["ID"] == "") | (df["ID"].isNull()) | ( df["ID"].isnan()) ).count()
Run Code Online (Sandbox Code Playgroud)

但我总是收到此错误消息:

TypeError: 'Column' object is not callable
Run Code Online (Sandbox Code Playgroud)

有谁知道可能是什么问题?

提前谢谢了!

Psi*_*dom 15

isnan不是属于Column该类的方法,您需要导入它:

from pyspark.sql.functions import isnan
Run Code Online (Sandbox Code Playgroud)

并使用它像:

df.filter((df["ID"] == "") | df["ID"].isNull() | isnan(df["ID"])).count()
Run Code Online (Sandbox Code Playgroud)

  • 你有什么想法我可以在这个查询中检查多列吗?df["Col1, Col2, Col3"] == "" (3认同)