AIR*_*AIR 9 emr hadoop-yarn apache-spark
我在AWS EMR上学习Spark.在这个过程中,我试图理解执行者数量( - num-executors)和执行者核心(--executor-cores)之间的区别.请问有人请告诉我吗?
此外,当我试图提交以下工作时,我收到错误:
spark-submit --deploy-mode cluster --master yarn --num-executors 1 --executor-cores 5 --executor-memory 1g -–conf spark.yarn.submit.waitAppCompletion=false wordcount.py s3://test/spark-example/input/input.txt s3://test/spark-example/output21
Error: Unrecognized option: -–conf
Run Code Online (Sandbox Code Playgroud)
执行程序数是执行应用程序的不同纱线容器(思考进程/ JVM)的数量.
执行程序核心数是每个执行程序(容器)中获得的线程数.
因此,你的spark应用程序的并行性(运行的并发线程数/任务数)是#executors X #executor-cores.如果您有10个执行程序和5个执行程序核心,您将(希望)同时运行50个任务.
| 归档时间: |
|
| 查看次数: |
4786 次 |
| 最近记录: |