我有一个大约90GB的大型导入文件,由我用Java编写的数据流处理.使用PipelineOptionsFactory的默认设置,我的工作需要很长时间才能完成.如何增加工人数量以提高绩效?
谢谢
google-cloud-dataflow apache-beam
我有一个大数据文件(1 TB)的数据导入BigQuery.每行包含一个键.在导入数据并创建我的PCollection以导出到BigQuery时,我想确保我不会根据此键值导入重复记录.在我的Java程序中执行此操作的最有效方法是什么?
google-cloud-dataflow
google-cloud-dataflow ×2
apache-beam ×1