在 Dataflow 流水线处理完所有数据后执行操作

use*_*121 5 google-cloud-dataflow

批处理 Dataflow 作业处理完所有数据后是否可以执行操作?具体来说,我想将管道刚刚处理的文本文件移动到不同的 GCS 存储桶。我不确定将它放在我的管道中的哪个位置以确保它在数据处理完成后执行一次。

Gra*_*ley 4

我不明白为什么您需要执行此管道后执行操作。您可以使用侧面输出将文件写入多个存储桶,并在管道完成后自行保存副本。

如果这对您不起作用(无论出于何种原因),那么您可以简单地以阻塞执行模式运行管道,即 use pipeline.run().waitUntilFinish(),然后编写其余的代码(执行复制)。

[..]
// do some stuff before the pipeline runs
Pipeline pipeline = ...
pipeline.run().waitUntilFinish();
// do something after the pipeline finishes here
[..]
Run Code Online (Sandbox Code Playgroud)