小编G B*_*G B的帖子

为什么#sideInput()方法在Dataflow beta中从Context移动到ProcessContext

我想知道为什么这个#sideInput()方法移到了ProcessContext课堂?以前我可以在#startBundle()方法中做一些额外的处理并缓存结果.这样做#processElement()听起来效率低下.当然,我可以在将数据传递给视图之前进行预处理,但是仍然需要调用#sideInput()每个元素的开销......

谢谢,G

google-cloud-dataflow

4
推荐指数
1
解决办法
379
查看次数

TextIO.Write - 是否附加或替换输出文件(Google Cloud Dataflow)

我找不到任何关于它的文档,所以我想知道如果输出文件已经存在(在gs:// bucket中)是什么行为?

谢谢,G

google-cloud-dataflow

3
推荐指数
1
解决办法
544
查看次数

Google Cloud Dataflow 上的内存分析

调试数据流作业的内存问题的最佳方法是什么?

我的工作因 GC OOM 错误而失败,但是当我在本地对其进行分析时,我无法重现确切的场景和数据量。

我现在在“n1-highmem-4”机器上运行它,我再也看不到错误了,但是工作非常慢,所以显然使用具有更多 RAM 的机器不是解决方案:)

感谢您的任何建议,G

google-cloud-dataflow

3
推荐指数
1
解决办法
2399
查看次数

基于公共密钥分析数据的简单方法

处理映射到特定键的所有记录并输出该数据的多个记录的最简单方法是什么.

例如(合成示例),假设我的密钥是日期,并且值是具有测量温度的日内时间戳.我想在一天内将温度分类为高/平均/低(再次,低于/高于平均值1 stddev).

输出将是原始温度及其新分类.

使用Combine.PerKey(CombineFn),每个键只允许使用#extractOutput()方法输出一个输出.

谢谢

google-cloud-dataflow

2
推荐指数
1
解决办法
254
查看次数

从Dataflow中的压缩文件中读取

有没有办法(或任何类型的黑客)从压缩文件中读取输入数据?我的输入包含几百个文件,这些文件是用gzip压缩生成的,解压缩它们有点单调乏味.

谢谢,Genady

google-cloud-dataflow

2
推荐指数
1
解决办法
1678
查看次数

标签 统计

google-cloud-dataflow ×5