Apache Spark：一个执行程序可以在 spark 中保存多少个分区？执行者之间的分区如何分布（机制）？

Question

我有兴趣了解以下火花并行和分区的细节

一个执行器可以在 spark 中保存多少个分区？
执行者之间的分区如何分布（机制）？
如何设置分区的大小。想知道相关的配置参数。
执行器是否将所有分区存储在内存中？如果不是，当溢出到磁盘时，它是将整个分区溢出到磁盘还是将部分分区溢出到磁盘？5 当每个执行程序有 2 个内核但该执行程序中有 5 个分区时

Answer 1

这不是正确的看待方式。执行者什么都不持有，它只是工作。

Spark 在核心、内存和磁盘方面都是可扩展的。与您的问题相关的后两个意味着，如果分区不能全部放入工作线程的内存中，那么该分区或更多分区将全部溢出到磁盘。