小编Ada*_*dam的帖子

Spark会在读取时保持镶木地板分区吗?

找到这个问题的答案我遇到了很多麻烦.假设我写了一个数据框到镶木地板,我使用repartition结合partitionBy得到一个很好的分区镶木地板文件.见下文:

df.repartition(col("DATE")).write.partitionBy("DATE").parquet("/path/to/parquet/file")
Run Code Online (Sandbox Code Playgroud)

现在稍后我想阅读镶木地板文件,所以我做了这样的事情:

val df = spark.read.parquet("/path/to/parquet/file")
Run Code Online (Sandbox Code Playgroud)

数据帧是否被分区"DATE"?换句话说,如果镶木地板文件被分区,火花在将其读入火花数据帧时会保持分区.还是随机分区?

此答案的原因和原因也是有帮助的.

scala partitioning apache-spark parquet

9
推荐指数
1
解决办法
2914
查看次数

标签 统计

apache-spark ×1

parquet ×1

partitioning ×1

scala ×1