标签: google-cloud-dataproc-serverless

在无服务器 Dataproc GCP 中安装 python 软件包

我想在 Serverless Dataproc 上安装一些 python 包(例如:python-json-logger)。有没有办法执行初始化操作来在无服务器 dataproc 中安装 python 包?请告诉我。

python google-cloud-platform dataproc google-cloud-dataproc-serverless

6
推荐指数
1
解决办法
2746
查看次数

Google Dataproc pyspark 批处理作业的自定义容器映像

我正在探索新推出的 google dataproc serverless。在提交作业时,我想使用自定义图像(想要使用--container-image参数),以便我的所有 python 库和相关文件都已存在于服务器中,以便作业可以更快地执行。

我用谷歌搜索,只找到了这个Dataproc 自定义图像,它讨论了自定义 dataproc 图像。我没有看到其他任何东西。

您能否确认上述自定义镜像链接是否正确,或者我们是否需要使用任何其他基础镜像来构建容器 docker 镜像?

pyspark google-cloud-dataproc google-cloud-dataproc-serverless

5
推荐指数
1
解决办法
1587
查看次数

如何强制删除 dataproc 无服务器批次

我正在运行 pyspark dataproc 无服务器批处理。它已经运行了太长时间,所以我决定将其删除。但 GCP 控制台和 CLI 都不允许我删除该批次。

我尝试的命令是

gcloud dataproc batches delete <Batch ID> --region=us-central1
Run Code Online (Sandbox Code Playgroud)

我收到以下错误:

ERROR: (gcloud.dataproc.batches.delete) FAILED_PRECONDITION: Cannot delete non terminal batch 'Batch(<project-id/batch-id>)'; current state: 'RUNNING'

google-cloud-dataproc google-cloud-dataproc-serverless

4
推荐指数
1
解决办法
1358
查看次数