SPARK分区和工作核心有什么区别?

iKh*_*tib 1 java hadoop apache-spark

我用它Standalone Spark Cluster来处理几个文件.当我执行驱动程序时,使用它的核心在每个工作程序上处理数据.

现在,我已经读到了Partitions,但如果它与工作核心不同,我就不会得到它.

设置cores numberpartition numbers?之间有区别吗?

rak*_*esh 6

简单视图:分区与核心数量

当您调用RDD操作时,

  • 为它创建"作业".所以,约伯是一份提交给火花的作品.
  • 工作分为基于洗牌边界的"STAGE"!
  • 每个阶段根据RDD上的分区数进一步划分为任务.所以Task是spark的最小工作单元.
  • 现在,可以同时执行多少这些任务取决于"可用的核心数量"!