使用大集合或具有集合的等效地图是否合适？

Question

使用大集合或具有集合的等效地图是否合适？

我有一些从companyId识别的不同公司收集的数据点,每个数据点的名称属性可能在一家公司或不同公司之间重复.问题是按名称属性对属于不同公司的所有数据点进行分组,这意味着如果公司已经存在于该组中,我们将忽略该数据点.

例如,数据点是:

companyId数据点名称
1 --------------------- A
1 --------------------- A
1 --------------------- B
2 --------------------- A
3-- -------------------乙

结果将是:

数据点名称组

A =================(1,A)(2,A)
B =================(1,B )(2,B)

我们可以看到公司1的第二个数据点A被忽略了.

据我所知,有两种方法可以进行重复数据删除工作.
1.建立一个Map<String(data point name), Set<Long(companyId)>>

Map<String, Set<Long>> dedup = new HashMap<>();
for(DataPoint dp : datapoints){
    String key = dp.getName();
    if(!dedup.contains(key)){
        dedup.put(key, new HashSet<Long>());
    }
    if(dedup.get(key).contains(dp.getCompanyId()){
        continue;
    }
    dedup.get(key).add(dp.getCompanyId());
}

Run Code Online (Sandbox Code Playgroud)

2.建立一个大的 Set<String>

Set<String> dedup;
for(DataPoint dp : datapoints){
    String key = dp.getName() + dp.getCompanyId();
    if(dedup.contains(key)){
        continue;
    }
    dedup.add(key);
}

Run Code Online (Sandbox Code Playgroud)

那么哪一个更好或更合适？