我有以下问题.我正在使用和API连接到某个地方并将数据作为输入流.目标是在删除重复行后保存数据.由第10,15,22列定义的重复.
我正在使用多个线程获取数据.目前我首先将数据保存到csv文件中,然后删除重复项.我想在读数据时这样做.数据量约为1000万条记录.我的内存有限,我可以使用.该机器有32GB的内存,但我有限,因为有其他应用程序使用它.
我在这里阅读有关使用哈希映射 但我不确定我有足够的记忆力来使用它.
有没有人建议如何解决这个问题?
java
java ×1