我真的很难过这个问题,因此我已经停止工作了一段时间.我使用非常大的数据.我每周得到大约200GB的.txt数据.数据范围可达5亿行.其中很多都是重复的.我猜只有20gb是独一无二的.我有几个自定义程序,包括哈希删除重复项,外部删除重复项,但似乎没有工作.最新的一个是使用临时数据库,但需要几天时间才能删除数据.
所有程序的问题在于它们在某一点之后崩溃,并且在这些程序上花了大量资金后,我以为我会上网看看是否有人可以提供帮助.我知道这已经在这里得到了回答,我花了最近3个小时在这里读了大约50个线程,但似乎没有像我这样的大数据集.
谁能为我推荐任何东西?它需要超级准确和快速.最好不要基于内存,因为我只有32GB的内存工作.