我想知道为什么这个#sideInput()方法移到了ProcessContext课堂?以前我可以在#startBundle()方法中做一些额外的处理并缓存结果.这样做#processElement()听起来效率低下.当然,我可以在将数据传递给视图之前进行预处理,但是仍然需要调用#sideInput()每个元素的开销......
谢谢,G
我找不到任何关于它的文档,所以我想知道如果输出文件已经存在(在gs:// bucket中)是什么行为?
谢谢,G
调试数据流作业的内存问题的最佳方法是什么?
我的工作因 GC OOM 错误而失败,但是当我在本地对其进行分析时,我无法重现确切的场景和数据量。
我现在在“n1-highmem-4”机器上运行它,我再也看不到错误了,但是工作非常慢,所以显然使用具有更多 RAM 的机器不是解决方案:)
感谢您的任何建议,G
处理映射到特定键的所有记录并输出该数据的多个记录的最简单方法是什么.
例如(合成示例),假设我的密钥是日期,并且值是具有测量温度的日内时间戳.我想在一天内将温度分类为高/平均/低(再次,低于/高于平均值1 stddev).
输出将是原始温度及其新分类.
使用Combine.PerKey(CombineFn),每个键只允许使用#extractOutput()方法输出一个输出.
谢谢
有没有办法(或任何类型的黑客)从压缩文件中读取输入数据?我的输入包含几百个文件,这些文件是用gzip压缩生成的,解压缩它们有点单调乏味.
谢谢,Genady