相关疑难解决方法(0)

RDD中的分区数和Spark中的性能

在Pyspark中,我可以从列表中创建RDD并确定要有多少分区:

sc = SparkContext()
sc.parallelize(xrange(0, 10), 4)
Run Code Online (Sandbox Code Playgroud)

我决定对RDD进行分区的分区数量如何影响性能?这取决于我的机器核心数量如何?

performance apache-spark rdd pyspark

31
推荐指数
2
解决办法
3万
查看次数

标签 统计

apache-spark ×1

performance ×1

pyspark ×1

rdd ×1