我有 10 个文本文件,每行包含 65 个十六进制值字符。每个文本文件大小为 6.5GB(有 99999999 行)
IEfile1-6.5GB, file2-6.5GB, file3-6.5GB, file4-6.5GB, ... file10-6.5GB
我需要在所有这 10 个文本文件中找到重复行,并且我需要能够知道哪个重复行来自哪个文件以及有多少个文件有重复行?
我怎样才能做到这一点?
我目前正在使用这个命令:
sort *.txt | uniq -d > dup
Run Code Online (Sandbox Code Playgroud)
但它挂起,有时甚至崩溃。如果我想检查 65GB 的文件,我的计算机内存是否需要双倍大小,即是否需要安装更多内存?
还有其他方法可以做到这一点吗?
我有一个文本文件(大小超过 1GB),它包含如下行:
1083021106e581c71003b987a75f18543cf5858b9fcfc5e04c0dddd79cd18764a865ba86d027de6d1900dc171e4d90a0564abbce99b812b821bd0d7d37aad72ead19c17
10840110dbd43121ef0c51a8ba62193eac247f57f1909e270eeb53d68da60ad61519f19cfb0511ec2431ca54e2fcabf6fa985615ec06def5ba1b753e8ad96d0564aa4c
1084011028375c62fd132d5a4e41ffef2419da345b6595fba8a49b5136de59a884d878fc9789009843c49866a0dc97889242b9fb0b8c112f1423e3b220bc04a2d7dfbdff
10880221005f0e261be654e4c52034d8d05b5c4dc0456b7868763367ab998b7d5886d64fbb24efd14cea668d00bfe8048eb8f096c3306bbb31aaea3e06710fa8c0bb8fca71
108501103461fca7077fc2f0d895048606b828818047a64611ec94443e52cc2d39c968363359de5fc76df48e0bf3676b73b1f8fea5780c2af22c507f83331cc0fbfe6ea9
1085022100a4ce8a09d1f28e78530ce940d6fcbd3c1fe2cb00e7b212b893ce78f8839a11868281179b4f2c812b8318f8d3f9a598b4da750a0ba6054d7e1b743bb67896ee62
1086022100638681ade4b306295815221c5b445ba017943ae59c4c742f0b1442dae4902a56d173a6f859dc6088b6364224ec17c4e2213d9d3c96bd9992b696d7c13b234b50
Run Code Online (Sandbox Code Playgroud)
所有字符串都像下面这样凝视,......
10830110
1083021
10840110
10840110
1088022100
10850110
1085022100
1086022100
Run Code Online (Sandbox Code Playgroud)
我需要单独的 8 个文件,如何使用 sed 命令