bfa*_*bry 6 google-cloud-dataflow
我正在试图弄清楚我们如何"播种"某些流式数据流作业的窗口状态.场景是我们有一个论坛消息流,我们希望一直为每个主题发出一个运行的消息计数,因此我们有一个带有全局窗口的流数据流作业,并且每次有一个主题的记录进入时都会触发到目前为止一切都很好.但是在流源之前,我们有一个大文件,我们想要处理这些文件以获取历史记录,因为主题永远存在,我们需要历史计数来通知流源的输出,所以我们很友好'我需要相同的逻辑来运行文件,然后在文件耗尽时开始在流源上运行,同时保持窗口状态.
目前的想法:
编辑:最新选项,以及我们要做的是,编写计算工作,使事件到达的顺序无关紧要,因此我们只需将存档推送到pub/sub主题,一切都会奏效.这适用于这种情况,但显然它影响下游消费者(需要支持更新或撤消),所以我有兴趣知道人们有什么其他解决方案来播种他们的窗口状态.
| 归档时间: |
|
| 查看次数: |
203 次 |
| 最近记录: |