快速找到两个大文本文件之间的差异

Question

我有两个3GB的文本文件,每个文件有大约8000万行.它们共享99.9%的相同行(文件A有60,000个唯一行,文件B有80,000个唯一行).

如何在两个文件中快速找到这些独特的行？是否有任何现成的命令行工具？我正在使用Python,但我认为找到一个有效的Pythonic方法加载文件并进行比较的可能性较小.

任何建议表示赞赏.

Answer 1

如果订单很重要,请尝试comm实用程序.如果订单无关紧要,sort file1 file2 | uniq -u.