小编Tho*_*mas的帖子

复杂Dataflow作业的体系结构

我们正在从流媒体源中构建相当复杂的Dataflow作业.特别是,我们有两个模型,它们共享一组指标,并且大致使用相同的数据源计算得出.作业对稍大的数据集执行连接.

你有关于如何设计这类工作的指导方针吗？任何指标,行为或我们在做出决定时必须考虑的任何事项？

以下是我们想到的几个选项,以及我们如何比较它们:

选择1:一份大工作

在一个大型工作中实施一切.考虑常见指标,然后计算特定于模型的指标.

优点

写得更简单.
工作之间没有依赖关系
减少计算资源？

缺点

如果一个零件断裂,则无法计算两个模型.

选项2:使用Pub/Sub管道的多个作业

将公共度量计算提取到专用作业,从而产生3个作业,使用Pub/Sub连接在一起.

优点

如果其中一个模型工作失败,则更具弹性.
可能更容易执行持续更新.

缺点

需要启动所有作业才能拥有完整的管道:依赖关系管理.

google-cloud-dataflow

Tho*_*mas

2017 07-07

10
推荐指数

1
解决办法

408
查看次数

在DirectPipelineRunner上使用自定义DataFlow无界源

我正在编写一个从Kafka 0.8读取的自定义DataFlow无界数据源.我想使用DirectPipelineRunner在本地运行它.但是,我得到以下stackstrace:

Exception in thread "main" java.lang.IllegalStateException: no evaluator registered for Read(KafkaDataflowSource)
        at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner$Evaluator.visitTransform(DirectPipelineRunner.java:700)
        at com.google.cloud.dataflow.sdk.runners.TransformTreeNode.visit(TransformTreeNode.java:219)
        at com.google.cloud.dataflow.sdk.runners.TransformTreeNode.visit(TransformTreeNode.java:215)
        at com.google.cloud.dataflow.sdk.runners.TransformHierarchy.visit(TransformHierarchy.java:102)
        at com.google.cloud.dataflow.sdk.Pipeline.traverseTopologically(Pipeline.java:252)
        at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner$Evaluator.run(DirectPipelineRunner.java:662)
        at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner.run(DirectPipelineRunner.java:374)
        at com.google.cloud.dataflow.sdk.runners.DirectPipelineRunner.run(DirectPipelineRunner.java:87)
        at com.google.cloud.dataflow.sdk.Pipeline.run(Pipeline.java:174)

Run Code Online (Sandbox Code Playgroud)

这是有道理的,因为我没有在任何时候为我的自定义源注册评估者.

阅读https://github.com/GoogleCloudPlatform/DataflowJavaSDK,似乎只有有限来源的评估者才能注册.为自定义无界源定义和注册求值程序的推荐方法是什么？

google-cloud-dataflow

Tho*_*mas

lucky-day

7
推荐指数

1
解决办法

668
查看次数