Google Dataproc pyspark 批处理作业的自定义容器映像

kon*_*odi 5 pyspark google-cloud-dataproc google-cloud-dataproc-serverless

我正在探索新推出的 google dataproc serverless。在提交作业时,我想使用自定义图像(想要使用--container-image参数),以便我的所有 python 库和相关文件都已存在于服务器中,以便作业可以更快地执行。

我用谷歌搜索,只找到了这个Dataproc 自定义图像,它讨论了自定义 dataproc 图像。我没有看到其他任何东西。

您能否确认上述自定义镜像链接是否正确,或者我们是否需要使用任何其他基础镜像来构建容器 docker 镜像?

Igo*_*hak 4

否,以上链接适用于 GCE 集群上 Dataproc 的自定义虚拟机映像。

要为Dataproc Serveless for Spark创建自定义容器映像,请按照指南进行操作。

附带说明一下,所有与 Dataproc Serverless 相关的文档均位于https://cloud.google.com/dataproc-serverless网站上。