读取文件时为什么会收到“分区值:[空行]”日志消息?

zyx*_*xue 9 apache-spark apache-spark-sql

我正在使用Spark SQL读取csv,我也收到很多这样的消息:

...some.csv, range: 20971520-24311915, partition values: [empty row]
Run Code Online (Sandbox Code Playgroud)

为什么说它是空行?分区真的是空的吗?

Pio*_*zyk 10

从文件中读取数据的文件和Spark分区都不为空。

由于两件事,日志消息可能会有些混乱:

在您的情况下,目录结构是平坦的或不包含分区名称(例如/path/to/partition/1/hello/3.14),因此没有Hive样式的分区,因此您会[empty row]在消息中看到。