小编Ale*_*vey的帖子

我有一个大约90GB的大型导入文件,由我用Java编写的数据流处理.使用PipelineOptionsFactory的默认设置,我的工作需要很长时间才能完成.如何增加工人数量以提高绩效？

谢谢

10
推荐指数

0
解决办法

1065
查看次数

我有一个大数据文件(1 TB)的数据导入BigQuery.每行包含一个键.在导入数据并创建我的PCollection以导出到BigQuery时,我想确保我不会根据此键值导入重复记录.在我的Java程序中执行此操作的最有效方法是什么？

谢谢

3
推荐指数

1
解决办法

2362
查看次数

小编Ale_vey的帖子