如何在 Airflow 中将 Spark 作业属性传递给 DataProcSparkOperator?

Abh*_*tre 4 apache-spark google-cloud-dataproc airflow airflow-scheduler google-cloud-composer

我正在尝试使用 Airflow 的DataProcSparkOperator在 Dataproc 上执行 Spark jar 。该 jar 位于 GCS 上,我正在动态创建 Dataproc 集群,然后在新创建的 Dataproc 集群上执行此 jar。

我能够与气流的DataProcSparkOperator使用默认设置执行此,但我不能够配置星火作业属性(例如--master--deploy-mode--driver-memory等)。从气流的文档中没有得到任何帮助。也尝试了很多东西,但没有成功。帮助表示赞赏。

Igo*_*hak 7

要通过 DataProcSparkOperator 配置 Spark 作业,您需要使用dataproc_spark_properties参数。

例如,您可以这样设置deployMode

DataProcSparkOperator(
    dataproc_spark_properties={ 'spark.submit.deployMode': 'cluster' })
Run Code Online (Sandbox Code Playgroud)

此答案中,您可以找到更多详细信息。