在pyspark中读取带有换行符的CSV

Question

在pyspark中读取带有换行符的CSV我想用pyspark读取"合法"(它遵循RFC4180)在某些行中有分隔线(CRLF)的CSV.下一个代码示例显示了使用Notepad ++打开它时的样子:

我尝试使用format ='com.databricks.spark.csv使用sqlCtx.read.load读取它.在这些特定情况下,结果数据集显示两行而不是一行.我使用的是Spark 2.1.0.2版本.

是否有任何命令或替代方式来读取csv,这使得我只能将这两行读作一个？

Answer 1

您可以使用“csv”而不是 Databricks CSV - 最后一个现在重定向到默认的 Spark 阅读器。但是，这只是一个提示:)

Spark 2.2 中添加了新选项 - wholeFile. 如果你这样写：

spark.read.option("wholeFile", "true").csv("file.csv")

它将读取所有文件并处理多行 CSV。

Spark 2.1 中没有这样的选项。您可以使用读取文件sparkContext.wholeTextFile或仅使用较新的版本