数据流管道中的外部 Python 依赖项

ree*_*106 3 python google-cloud-dataflow apache-beam

python 依赖项可以加载到 Google Cloud Dataflow 管道中吗?

我想使用gensim 的短语建模器,它逐行读取数据以自动检测常用短语/二元组(经常出现在彼此旁边的两个词)。

因此,管道的第一次运行会将每个句子传递给这个短语建模器。

然后第二次通过管道将采用相同的短语建模器并将这个短语建模器应用于每个句子,以确定应该一起建模的短语。例子:

  • 如果machinelearning频繁地出现在语料库中,它们将被转换为单个单词machine_learning

这可以在 Dataflow 中完成吗?

可以pip install gensim在工作机器上强制传递构建/需求文件吗?

小智 9

您可以查看此页面以管理管道中的依赖项:

https://beam.apache.org/documentation/sdks/python-pipeline-dependencies

示例:对于 PyPI 上的包,您可以通过添加以下命令行选项来使用需求文件:

--requirements_file requirements.txt