在Pyspark中,我可以从列表中创建RDD并确定要有多少分区:
sc = SparkContext() sc.parallelize(xrange(0, 10), 4)
我决定对RDD进行分区的分区数量如何影响性能?这取决于我的机器核心数量如何?
performance apache-spark rdd pyspark
apache-spark ×1
performance ×1
pyspark ×1
rdd ×1