Geo*_*ler 1 sql null group-by apache-spark apache-spark-sql
我有一个spark DataFrame,它按聚合计数的列分组:
df.groupBy('a').agg(count("a")).show
+---------+----------------+
|a |count(a) |
+---------+----------------+
| null| 0|
| -90| 45684|
+---------+----------------+
df.select('a').filter('aisNull').count
Run Code Online (Sandbox Code Playgroud)
回报
warning: there was one feature warning; re-run with -feature for details
res9: Long = 26834
Run Code Online (Sandbox Code Playgroud)
这清楚地表明最初没有计算空值.
这种行为的原因是什么?我本来期望(如果null
完全包含在分组结果中)正确地查看计数.
是的,count
应用于特定列不计算空值.如果要包含空值,请使用:
df.groupBy('a).agg(count("*")).show
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
2696 次 |
最近记录: |