dat*_*ser 5 google-cloud-dataflow apache-beam
org.apache.beam.sdk.transforms.Reshuffle的目的是什么?在文档中,目的定义为:
一个PTransform返回与其输入等效的PCollection,但在操作上提供GroupByKey的一些副作用,特别是防止通过id合并周围的转换,检查点和重复数据删除。
防止周围变换融合的好处是什么?我认为融合是一种优化措施,可以防止不必要的步骤。实际用例会有所帮助。
在几种情况下,您可能需要重新整理数据。以下内容并非详尽无遗,但应为您提供有关您可能会改组的想法:
这意味着在您的ParDo之后并行度会增加。如果您在这里没有破坏融合,您的管道将无法将数据拆分到多台计算机中进行处理。
考虑DoFn为每个输入元素生成一百万个输出元素的极端情况。考虑此ParDo在其输入中接收10个元素。如果您不中断此高扇形ParDo及其下游转换之间的融合,则尽管您将拥有数百万个元素,但它只能在10台计算机上运行。
想象一下,您的管道消耗9个10MB的文件和一个10GB的文件。如果每个文件都是由一台计算机读取的,则您的一台计算机将比其他计算机拥有更多的数据。
如果不重新整理此数据,则在管道运行时,大多数计算机将处于空闲状态。改组它使您可以重新平衡要在计算机之间更均匀地处理的数据。
| 归档时间: |
|
| 查看次数: |
853 次 |
| 最近记录: |