Spark with GPU：如何强制每个执行器执行 1 个任务

Question

Spark with GPU：如何强制每个执行器执行 1 个任务

我在具有N 个从属节点的集群上运行 Spark 2.1.0 。每个节点有 16 个核心（8 个核心/cpu 和 2 个 cpu）和 1 个 GPU。我想使用映射进程来启动 GPU 内核。由于每个节点只有 1 个 GPU，因此我需要确保两个执行器不在同一个节点上（同时）尝试使用 GPU，并且两个任务不会同时提交给同一个执行器。

如何强制 Spark 每个节点有一个执行程序？

我已经尝试过以下方法：

--设置： spark.executor.cores 16在$SPARK_HOME/conf/spark-defaults.conf

--设置： SPARK_WORKER_CORES = 16并SPARK_WORKER_INSTANCES = 1在$SPARK_HOME/conf/spark-env.sh

和，

--conf = SparkConf().set('spark.executor.cores', 16).set('spark.executor.instances', 6)直接在我的 Spark 脚本中设置（当我想要N =6 进行调试时）。

这些选项根据需要在不同节点上创建 6 个执行器，但似乎每个任务都分配给同一个执行器。

以下是我最近输出的一些片段（这使我相信它应该按我想要的方式工作）。

17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/0 on worker-20170217110853-10.128.14.208-35771 (10.128.14.208:35771) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/0 on hostPort 10.128.14.208:35771 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/1 on worker-20170217110853-10.128.9.95-59294 (10.128.9.95:59294) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/1 on hostPort 10.128.9.95:59294 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/2 on worker-20170217110853-10.128.3.71-47507 (10.128.3.71:47507) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/2 on hostPort 10.128.3.71:47507 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/3 on worker-20170217110853-10.128.9.96-50800 (10.128.9.96:50800) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/3 on hostPort 10.128.9.96:50800 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/4 on worker-20170217110853-10.128.3.73-60194 (10.128.3.73:60194) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/4 on hostPort 10.128.3.73:60194 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor added: app-20170217110910-0000/5 on worker-20170217110853-10.128.3.74-42793 (10.128.3.74:42793) with 16 cores
17/02/17 11:09:10 INFO StandaloneSchedulerBackend: Granted executor ID app-20170217110910-0000/5 on hostPort 10.128.3.74:42793 with 16 cores, 16.0 GB RAM 
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/1 is now RUNNING
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/3 is now RUNNING
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/4 is now RUNNING
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/2 is now RUNNING
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/0 is now RUNNING
17/02/17 11:09:10 INFO StandaloneAppClient$ClientEndpoint: Executor updated: app-20170217110910-0000/5 is now RUNNING
17/02/17 11:09:11 INFO StandaloneSchedulerBackend: SchedulerBackend is ready for scheduling beginning after reached minRegisteredResourcesRatio: 0.0 

My RDD has 6 partitions.

Run Code Online (Sandbox Code Playgroud)

重要的是启动了 6 个执行器，每个执行器都有不同的 IP 地址，每个执行器都有 16 个核心（正是我所期望的）。该短语My RDD has 6 partitions.是我的代码在重新分区 RDD 后的打印语句（以确保每个执行器有 1 个分区）。

然后，就发生了这种情况……6 个任务中的每一个都被发送到同一个执行器！

17/02/17 11:09:12 INFO TaskSchedulerImpl: Adding task set 0.0 with 6 tasks
17/02/17 11:09:17 INFO CoarseGrainedSchedulerBackend$DriverEndpoint: Registered executor NettyRpcEndpointRef(null) (10.128.9.95:34059) with ID 1
17/02/17 11:09:17 INFO TaskSetManager: Starting task 0.0 in stage 0.0 (TID 0, 10.128.9.95, executor 1, partition 0, PROCESS_LOCAL, 6095 bytes)
17/02/17 11:09:17 INFO TaskSetManager: Starting task 1.0 in stage 0.0 (TID 1, 10.128.9.95, executor 1, partition 1, PROCESS_LOCAL, 6095 bytes)
17/02/17 11:09:17 INFO TaskSetManager: Starting task 2.0 in stage 0.0 (TID 2, 10.128.9.95, executor 1, partition 2, PROCESS_LOCAL, 6095 bytes)
17/02/17 11:09:17 INFO TaskSetManager: Starting task 3.0 in stage 0.0 (TID 3, 10.128.9.95, executor 1, partition 3, PROCESS_LOCAL, 6095 bytes)
17/02/17 11:09:17 INFO TaskSetManager: Starting task 4.0 in stage 0.0 (TID 4, 10.128.9.95, executor 1, partition 4, PROCESS_LOCAL, 6095 bytes)
17/02/17 11:09:17 INFO TaskSetManager: Starting task 5.0 in stage 0.0 (TID 5, 10.128.9.95, executor 1, partition 5, PROCESS_LOCAL, 6095 bytes)

Run Code Online (Sandbox Code Playgroud)

为什么？我该如何解决它？ 问题是，此时所有 6 个任务都竞争同一个 GPU，并且 GPU 无法共享。

Answer 1

Tra*_*isJ 4

我尝试了 Samson Scharfrichter 评论中的建议，但它们似乎不起作用。但是，我发现： http: //spark.apache.org/docs/latest/configuration.html#scheduling其中包括spark.task.cpus. 如果我将其设置为 16 和spark.executor.cores16，那么我似乎会为每个执行者分配一项任务。

归档时间：	8 年，10 月前
查看次数：	3418 次
最近记录：	8 年，9 月前