Ale*_*vey 3 google-cloud-dataflow
我有一个大数据文件(1 TB)的数据导入BigQuery.每行包含一个键.在导入数据并创建我的PCollection以导出到BigQuery时,我想确保我不会根据此键值导入重复记录.在我的Java程序中执行此操作的最有效方法是什么?
谢谢
Rez*_*kni 7
以下可能值得一看
https://cloud.google.com/dataflow/java-sdk/JavaDoc/com/google/cloud/dataflow/sdk/transforms/RemoveDuplicates
归档时间:
10 年,8 月 前
查看次数:
2362 次
最近记录:
7 年,4 月 前