zyx*_*xue 9 apache-spark apache-spark-sql
我正在使用Spark SQL读取csv,我也收到很多这样的消息:
...some.csv, range: 20971520-24311915, partition values: [empty row]
Run Code Online (Sandbox Code Playgroud)
为什么说它是空行?分区真的是空的吗?
Pio*_*zyk 10
从文件中读取数据的文件和Spark分区都不为空。
由于两件事,日志消息可能会有些混乱:
/path/to/partition/a=1/b=hello/c=3.14他们会a,b并c和他们的价值观:1,hello和3.14。如果外部表已分区,它们也可以来自Hive Metastore。InternalRow,而不包装在集合中。在您的情况下,目录结构是平坦的或不包含分区名称(例如/path/to/partition/1/hello/3.14),因此没有Hive样式的分区,因此您会[empty row]在消息中看到。
| 归档时间: |
|
| 查看次数: |
2121 次 |
| 最近记录: |