使用数据流删除重复项

Ale*_*vey 3 google-cloud-dataflow

我有一个大数据文件(1 TB)的数据导入BigQuery.每行包含一个键.在导入数据并创建我的PCollection以导出到BigQuery时,我想确保我不会根据此键值导入重复记录.在我的Java程序中执行此操作的最有效方法是什么?

谢谢