如何在pyspark中将具有空值的数据框写入CSV

Question

我正在使用下面的代码写入CSV文件。

df.coalesce(1).write.format("com.databricks.spark.csv").option("header", "true").option("nullValue"," ").save("/home/user/test_table/")

当我执行它时，出现以下错误：

java.lang.UnsupportedOperationException：CSV数据源不支持null数据类型。

谁能帮忙吗？

Answer 1

我遇到了同样的问题（没有使用该命令和选项nullValue），我通过使用该fillna方法解决了它。

我还意识到 fillna 不能与一起使用_corrupt_record，所以我放弃了，因为我不需要它。

df = df.drop('_corrupt_record')
df = df.fillna("")
df.write.option('header', 'true').format('csv').save('file_csv')