小编ami*_*mar的帖子

我读过很多关于 Spark 分桶的文章，但仍然无法清楚地了解它。但此外，到目前为止我所理解的是“分桶就像分区内的分区，它用于具有非常高基数的候选者，这有助于避免重新洗牌操作”。

即使在 Spark 文档中，也找不到足够的解释。粘贴文档中的示例

peopleDF.write.bucketBy(42, "姓名").sortBy("年龄").saveAsTable("people_bucketed")

这里无法理解数字“42”是如何决定分桶的。请帮助理解同样的内容。另外，任何关于分桶的更清晰的解释也很棒。

5
推荐指数

1
解决办法

1880
查看次数

小编ami_mar的帖子