小编Ale*_*aev的帖子

Spark中bucketBy和partitionBy有什么区别？

比如我要保存一张表，这两种策略有什么区别？

桶由：

someDF.write.format("parquet")
      .bucketBy(4, "country")
      .mode(SaveMode.OverWrite)
      .saveAsTable("someTable")

Run Code Online (Sandbox Code Playgroud)

分区依据：

someDF.write.format("parquet")
      .partitionBy("country") # <-- here is the only difference
      .mode(SaveMode.OverWrite)
      .saveAsTable("someTable")

Run Code Online (Sandbox Code Playgroud)

我猜想，第一种情况下的bucketBy会创建4个包含国家/地区的目录，而partitionBy将在“国家/地区”列中创建与多个唯一值一样多的目录。这是正确的理解吗？

hadoop partitioning hdfs apache-spark pyspark

Ale*_*aev

lucky-day

8
推荐指数

2
解决办法

6623
查看次数

标签统计

apache-spark ×1

hadoop ×1

hdfs ×1

partitioning ×1

pyspark ×1

Spark中bucketBy和partitionBy有什么区别？

桶由：

分区依据：

标签 统计

小编Ale_aev的帖子

标签统计