我有 ~30k 文件。每个文件包含约 10 万行。一行不包含空格。单个文件中的行已排序且无重复。
我的目标:我想找到两个或多个文件中的所有重复行,以及包含重复条目的文件的名称。
一个简单的解决方案是这样的:
cat *.words | sort | uniq -c | grep -v -F '1 '
Run Code Online (Sandbox Code Playgroud)
然后我会跑:
grep 'duplicated entry' *.words
Run Code Online (Sandbox Code Playgroud)
你看到更有效的方法吗?
performance large-files shell-script text-processing deduplication