如何在两个非常大的文件中找到常用字符串?

Sky*_*ark 8 string algorithm file

我有两个非常大的文件(它们都不适合内存).每个文件在每一行都有一个字符串(其中没有空格,长度为99/100/101个字符).

更新:字符串不是任何排序顺序.
Update2:我在Windows上使用Java.

现在我想弄清楚找出两个文件中出现的所有字符串的最佳方法.

我一直在考虑使用外部合并排序来对两个文件进行排序然后进行比较,但我不确定这是否是最好的方法.由于字符串大多数都是相同的长度,我总是想知道为每个字符串计算某种哈希是否是个好主意,因为这样可以使字符串之间的比较更容易,但那意味着我必须存储哈希值计算我到目前为止从文件中遇到的字符串,以便稍后在将它们与其他字符串进行比较时可以使用它们.我无法确定最佳方式.我在寻找你的建议.

当您提出解决方案时,如果有超过2个文件并且必须计算出所有文件中出现的字符串,请说明解决方案是否有效.

Leo*_*ard 18

你还没有说过你正在做什么平台,所以我假设你正在使用Windows,但是在不太可能的情况下,你在Unix平台上,标准工具会为你做.

sort file1 | uniq > output
sort file2 | uniq >> output
sort file3 | uniq >> output
...
sort output | uniq -d
Run Code Online (Sandbox Code Playgroud)

  • uniq -d删除单独出现的行,并仅打印重复行的单个副本. (2认同)

Chr*_*son 0

文件中的数据有顺序吗?我问的原因是,虽然逐行比较需要很长时间,但逐行浏览一个文件,同时在另一个文件中进行二进制搜索会快得多。但只有当数据以特定方式排序时,这才有效。