YARN:Spark中执行者数量和执行者核心之间有什么区别?

AIR*_*AIR 9 emr hadoop-yarn apache-spark

我在AWS EMR上学习Spark.在这个过程中,我试图理解执行者数量( - num-executors)和执行者核心(--executor-cores)之间的区别.请问有人请告诉我吗?

此外,当我试图提交以下工作时,我收到错误:

spark-submit --deploy-mode cluster --master yarn --num-executors 1 --executor-cores 5   --executor-memory 1g -–conf spark.yarn.submit.waitAppCompletion=false wordcount.py s3://test/spark-example/input/input.txt s3://test/spark-example/output21

Error: Unrecognized option: -–conf
Run Code Online (Sandbox Code Playgroud)

mar*_*ios 9

执行程序数是执行应用程序的不同纱线容器(思考进程/ JVM)的数量.

执行程序核心数是每个执行程序(容器)中获得的线程数.

因此,你的spark应用程序的并行性(运行的并发线程数/任务数)是#executors X #executor-cores.如果您有10个执行程序和5个执行程序核心,您将(希望)同时运行50个任务.