我读过很多关于 Spark 分桶的文章,但仍然无法清楚地了解它。但此外,到目前为止我所理解的是“分桶就像分区内的分区,它用于具有非常高基数的候选者,这有助于避免重新洗牌操作”。
即使在 Spark 文档中,也找不到足够的解释。粘贴文档中的示例
peopleDF.write.bucketBy(42, "姓名").sortBy("年龄").saveAsTable("people_bucketed")
这里无法理解数字“42”是如何决定分桶的。请帮助理解同样的内容。另外,任何关于分桶的更清晰的解释也很棒。
apache-spark ×1