Spark DataFrameWriterignoreNullFields 不工作

Question

我有一个包含多个具有不同架构的空值的 DataFrame

df.show(false)
+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
|null|null|1   |a   |
+----+----+----+----+

我试图将此数据帧作为 JSON 文件写入 HDFS，但 Spark 在写入 JSON 时忽略了 null 字段。这是可以理解的，因为默认 ignoreNullFields设置为true

但即使当我使用

spark.write.option("ignoreNullFields", "false").json(...)

或者

spark.write.option("ignoreNullFields", false).json(...)

包含空值的列将被省略。

使用该选项时我遗漏了什么吗ignoreNullFields？

Answer 1

正确的方法是：

df.coalesce(1).write.mode('overwrite').json(ignoreNullFields=False,path="a")

还保留仅包含空值的列