spark数据帧灌注不计算空值

Geo*_*ler 1 sql null group-by apache-spark apache-spark-sql

我有一个spark DataFrame,它按聚合计数的列分组:

df.groupBy('a').agg(count("a")).show

+---------+----------------+
|a        |count(a)        |
+---------+----------------+
|     null|               0|
|      -90|           45684|
+---------+----------------+


df.select('a').filter('aisNull').count
Run Code Online (Sandbox Code Playgroud)

回报

warning: there was one feature warning; re-run with -feature for details
res9: Long = 26834
Run Code Online (Sandbox Code Playgroud)

这清楚地表明最初没有计算空值.

这种行为的原因是什么?我本来期望(如果null完全包含在分组结果中)正确地查看计数.

Rap*_*oth 5

是的,count应用于特定列不计算空值.如果要包含空值,请使用:

df.groupBy('a).agg(count("*")).show
Run Code Online (Sandbox Code Playgroud)