Max*_*ind 2 hadoop partitioning hdfs apache-spark apache-spark-sql
我以一种方式分区数据,我只想在另一种方式中分区.所以它基本上会是这样的:
sqlContext.read().parquet("...").write().partitionBy("...").parquet("...")
Run Code Online (Sandbox Code Playgroud)
我想知道这是否会触发随机播放或所有数据都将在本地重新分区,因为在此上下文中,分区仅表示HDFS中的目录,来自同一分区的数据不必在同一节点上写入HDFS中的相同目录.
既没有parititionBy也没有bucketBy改组数据.但有些情况下,首先重新分区数据可能是一个好主意:
df.repartition(...).write.partitionBy(...)
Run Code Online (Sandbox Code Playgroud)
否则,输出文件的数量受分区列的数量*分区列的基数限制.
| 归档时间: |
|
| 查看次数: |
489 次 |
| 最近记录: |