gre*_*olf 17 linux text-processing uniq
我的问题类似于这个问题,但有几个不同的限制:
\n分隔符的词表——每行一个词。文件大小从 2GB 到 10GB 不等。我已经尝试了这两种方法,但它们都因内存不足错误而失败。
sort -u wordlist.lst > wordlist_unique.lst
Run Code Online (Sandbox Code Playgroud)
awk '!seen[$0]++' wordlist.lst > wordlist_unique.lst
awk: (FILENAME=wordlist.lst FNR=43601815) fatal: assoc_lookup: bucket-ahname_str: can't allocate 10 bytes of memory (Cannot allocate memory)Run Code Online (Sandbox Code Playgroud)
我可以尝试哪些其他方法?
lae*_*ade 20
尝试使用带有-o/--output=FILE选项的sort而不是重定向输出。您也可以尝试buffer-size使用-S/设置--buffer-size=SIZE。另外,尝试-s/ --stable。并阅读手册页,它提供了我提供的所有信息。
您可以使用的完整命令可能适用于您正在执行的操作:
sort -us -o wordlist_unique.lst wordlist.lst
Run Code Online (Sandbox Code Playgroud)
您可能还想阅读以下 URL:
http://www.gnu.org/s/coreutils/manual/html_node/sort-invocation.html
这比手册页更彻底地解释了排序。
| 归档时间: |
|
| 查看次数: |
11100 次 |
| 最近记录: |