Shi*_*raj 15 c# string duplicates
我必须从极大的文本文件中删除重复的字符串(100 Gb +)
因为在内存中由于数据的大小,重复删除是没有希望的,所以我尝试过bloomfilter但是没有超出5000万字符串之类的东西.
总字符串就像1万亿+
我想知道解决这个问题的方法是什么..
我最初的尝试是,将文件分成子文件数,对每个文件进行排序,然后将所有文件合并在一起......
如果你有比这更好的解决方案,请告诉我,
谢谢..
| 归档时间: |
|
| 查看次数: |
1657 次 |
| 最近记录: |