pyt*_*nic 5 hadoop scala hadoop-yarn apache-spark
例如,如果执行程序的数量是40,但任务数是80,这意味着每个执行程序将并行运行两个任务.此外,我的函数(执行哪些任务)不是正常的函数,但我在其中调用程序.因此,每项任务实际上需要几分钟才能完成.所以,我的问题是,Spark如何管理它?这些任务会共享执行程序的JVM吗?核心数量如何,它将在这两个任务之间分配?如果不希望这两个任务同时运行,但是以循环方式执行它们,也就是说,运行第一个任务与所有执行程序的核心,并且只有在完成后运行第二个任务,该怎么办?
这取决于您如何分配资源,即核心数量、每个执行程序的核心数量以及分配给执行程序的内存。它还取决于您如何编程以获得最大并行度。
它还取决于您如何编码以获得最大并行度。如果有两个任务并且它们彼此独立,那么它们将并行运行。如果一个任务依赖于前一个任务的结果,它们将串行执行。
是的,通过创建两个执行器并向其分配可用的核心,可以将核心数量分为两个任务。
为了以循环方式执行任务,您需要定义分区方案并根据它分配资源。这将确保每个任务在其他任务之后执行。
| 归档时间: |
|
| 查看次数: |
1821 次 |
| 最近记录: |