我遇到的情况是,列中可能有空值,需要在组中求和。
如果我在组中遇到空值,我希望该组的总和为空。但 PySpark 默认情况下似乎会忽略空行并对其余非空值求和。
例如:
dataframe = dataframe.groupBy('dataframe.product', 'dataframe.price') \
.agg(f.sum('price'))
Run Code Online (Sandbox Code Playgroud)
预期输出是:
但我得到: