abh*_*ala 17 partitioning apache-spark
我试图了解如何在Apache Spark中完成分区.你能帮忙吗?
这是场景:
count.txt10 MB大小的文件以下创建了多少个分区?
rdd = sc.textFile(count.txt)
Run Code Online (Sandbox Code Playgroud)
文件大小是否对分区数有影响?
mrm*_*reg 21
默认情况下,为每个HDFS分区创建一个分区,默认情况下为64MB(来自Spark编程指南).
可以传递另一个参数defaultMinPartitions,该参数会覆盖spark将创建的最小分区数.如果不重写此值,则spark将创建至少与之相同的分区spark.default.parallelism.
由于spark.default.parallelism应该是群集中所有计算机的核心数,因此我认为在您的案例中至少会创建3个分区.
您还repartition可以coalesce使用RDD来更改分区数,从而影响可用并行度的总量.
| 归档时间: |
|
| 查看次数: |
11100 次 |
| 最近记录: |