小编Mr.*_*r.P的帖子

Spark 数据框不添加具有空值的列

我正在尝试通过在我的数据框中添加两个现有列来创建一个新列。

原始数据框

???????????????
? cola ? colb ?
???????????????
? 1    ? 1    ?
? null ? 3    ?
? 2    ? null ?
? 4    ? 2    ?
???????????????
Run Code Online (Sandbox Code Playgroud)

派生列的预期输出

??????????????????????
? cola ? colb ? colc ?
??????????????????????
? 1    ? 1    ?    2 ?
? null ? 3    ?    3 ?
? 2    ? null ?    2 ?
? 4    ? 2    ?    6 ?
??????????????????????
Run Code Online (Sandbox Code Playgroud)

当我使用 df = df.withColumn('colc',df.cola+df.colb) 时,它不会添加具有空值的列。

我得到的输出是:

??????????????????????
? cola ? colb …
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark

4
推荐指数
1
解决办法
4941
查看次数

标签 统计

apache-spark ×1

pyspark ×1

python ×1