小编Ale*_*vey的帖子

如何为数据流指定工作者数量?

我有一个大约90GB的大型导入文件,由我用Java编写的数据流处理.使用PipelineOptionsFactory的默认设置,我的工作需要很长时间才能完成.如何增加工人数量以提高绩效?

谢谢

google-cloud-dataflow apache-beam

10
推荐指数
0
解决办法
1065
查看次数

使用数据流删除重复项

我有一个大数据文件(1 TB)的数据导入BigQuery.每行包含一个键.在导入数据并创建我的PCollection以导出到BigQuery时,我想确保我不会根据此键值导入重复记录.在我的Java程序中执行此操作的最有效方法是什么?

谢谢

google-cloud-dataflow

3
推荐指数
1
解决办法
2362
查看次数

标签 统计

google-cloud-dataflow ×2

apache-beam ×1