相关疑难解决方法(0)

RDD中的分区数和Spark中的性能

在Pyspark中,我可以从列表中创建RDD并确定要有多少分区:

sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)

Run Code Online (Sandbox Code Playgroud)

我决定对RDD进行分区的分区数量如何影响性能？这取决于我的机器核心数量如何？

performance apache-spark rdd pyspark

31
推荐指数

2
解决办法

3万
查看次数

标签统计

apache-spark ×1

performance ×1

rdd ×1