小编Ale*_*aev的帖子

Spark中bucketBy和partitionBy有什么区别?

比如我要保存一张表,这两种策略有什么区别?

桶由:

someDF.write.format("parquet")
      .bucketBy(4, "country")
      .mode(SaveMode.OverWrite)
      .saveAsTable("someTable")
Run Code Online (Sandbox Code Playgroud)

分区依据:

someDF.write.format("parquet")
      .partitionBy("country") # <-- here is the only difference
      .mode(SaveMode.OverWrite)
      .saveAsTable("someTable")
Run Code Online (Sandbox Code Playgroud)

我猜想,第一种情况下的bucketBy会创建4个包含国家/地区的目录,而partitionBy将在“国家/地区”列中创建与多个唯一值一样多的目录。这是正确的理解吗?

hadoop partitioning hdfs apache-spark pyspark

8
推荐指数
2
解决办法
6623
查看次数

标签 统计

apache-spark ×1

hadoop ×1

hdfs ×1

partitioning ×1

pyspark ×1