将自定义 job_id 提供给 Google Dataproc 集群以运行 pig/hive/spark 作业

abh*_*jha 0 google-cloud-dataproc

是否有任何标志可用于为 dataproc 作业提供自定义 job_id 。我正在使用这个命令来运行 Pig 作业。

gcloud dataproc 作业提交 pig --cluster my_cluster --file my_queries.pig

我使用类似的命令来提交 pyspark/hive 作业。

该命令自行创建一个 job_id ,以后跟踪它们很困难。

Ped*_*tre 5

阅读 gcloud 代码,您可以看到名为 id 的参数用作作业名称

https://github.com/google-cloud-sdk/google-cloud-sdk/blob/master/lib/googlecloudsdk/command_lib/dataproc/jobs/submitter.py#L56

因此您只需将 --id 添加到 gcloud 命令中

gcloud dataproc jobs submit spark --id this-is-my-job-name --cluster my-cluster --class com.myClass.Main --jars gs://my.jar