Abh*_*tre 4 apache-spark google-cloud-dataproc airflow airflow-scheduler google-cloud-composer
我正在尝试使用 Airflow 的DataProcSparkOperator在 Dataproc 上执行 Spark jar 。该 jar 位于 GCS 上,我正在动态创建 Dataproc 集群,然后在新创建的 Dataproc 集群上执行此 jar。
我能够与气流的DataProcSparkOperator使用默认设置执行此,但我不能够配置星火作业属性(例如--master,--deploy-mode,--driver-memory等)。从气流的文档中没有得到任何帮助。也尝试了很多东西,但没有成功。帮助表示赞赏。
要通过 DataProcSparkOperator 配置 Spark 作业,您需要使用dataproc_spark_properties参数。
例如,您可以这样设置deployMode:
DataProcSparkOperator(
dataproc_spark_properties={ 'spark.submit.deployMode': 'cluster' })
Run Code Online (Sandbox Code Playgroud)
在此答案中,您可以找到更多详细信息。
| 归档时间: |
|
| 查看次数: |
2479 次 |
| 最近记录: |