将 docker 用于谷歌云数据流依赖项

bw4*_*4sz 6 python opencv google-cloud-platform google-cloud-dataflow

我对使用 Google Cloud Dataflow 并行处理视频很感兴趣。我的工作同时使用 OpenCV 和 tensorflow。是否可以只在 docker 实例中运行工作人员,而不是按照描述从源安装所有依赖项:

https://cloud.google.com/dataflow/pipelines/dependencies-python

我本来希望有一个 docker 容器的标志,它已经位于谷歌容器引擎中。

Pab*_*blo 3

2021年更新

Dataflow 现在支持自定义 Docker 容器。您可以按照以下说明创建自己的容器:

https://cloud.google.com/dataflow/docs/guides/using-custom-containers

简而言之,Beam 在dockerhub.io/apache/beam_${language}_sdk:${version}.

在您的 Dockerfile 中,您将使用其中之一作为基础:

FROM apache/beam_python3.8_sdk:2.30.0
# Add your customizations and dependencies
Run Code Online (Sandbox Code Playgroud)

然后,您可以将此映像上传到容器注册表(例如 GCR 或 Dockerhub),然后指定以下选项:--worker_harness_container_image=$IMAGE_URI

还有冰!你有一个客户容器。


无法修改或切换默认的 Dataflow 工作容器。您需要根据文档安装依赖项。