将自定义 job_id 提供给 Google Dataproc 集群以运行 pig/hive/spark 作业

Question

是否有任何标志可用于为 dataproc 作业提供自定义 job_id 。我正在使用这个命令来运行 Pig 作业。

gcloud dataproc 作业提交 pig --cluster my_cluster --file my_queries.pig

我使用类似的命令来提交 pyspark/hive 作业。

该命令自行创建一个 job_id ，以后跟踪它们很困难。

Answer 1

阅读 gcloud 代码，您可以看到名为 id 的参数用作作业名称

因此您只需将 --id 添加到 gcloud 命令中

gcloud dataproc jobs submit spark --id this-is-my-job-name --cluster my-cluster --class com.myClass.Main --jars gs://my.jar