mji*_*cua 5 csv python-3.x apache-spark pyspark
在pyspark中读取带有换行符的CSV我想用pyspark读取"合法"(它遵循RFC4180)在某些行中有分隔线(CRLF)的CSV.下一个代码示例显示了使用Notepad ++打开它时的样子:
我尝试使用format ='com.databricks.spark.csv使用sqlCtx.read.load读取它.在这些特定情况下,结果数据集显示两行而不是一行.我使用的是Spark 2.1.0.2版本.
是否有任何命令或替代方式来读取csv,这使得我只能将这两行读作一个?
您可以使用“csv”而不是 Databricks CSV - 最后一个现在重定向到默认的 Spark 阅读器。但是,这只是一个提示:)
Spark 2.2 中添加了新选项 - wholeFile. 如果你这样写:
spark.read.option("wholeFile", "true").csv("file.csv")
Run Code Online (Sandbox Code Playgroud)
它将读取所有文件并处理多行 CSV。
Spark 2.1 中没有这样的选项。您可以使用读取文件sparkContext.wholeTextFile或仅使用较新的版本