小编mik*_*keP的帖子

在大规模数据上删除java中的重复项

我有以下问题.我正在使用和API连接到某个地方并将数据作为输入流.目标是在删除重复行后保存数据.由第10,15,22列定义的重复.

我正在使用多个线程获取数据.目前我首先将数据保存到csv文件中,然后删除重复项.我想在读数据时这样做.数据量约为1000万条记录.我的内存有限,我可以使用.该机器有32GB的内存,但我有限,因为有其他应用程序使用它.

我在这里阅读有关使用哈希映射 但我不确定我有足够的记忆力来使用它.

有没有人建议如何解决这个问题?

java

6
推荐指数
1
解决办法
533
查看次数

标签 统计

java ×1