假设我有一堆文本文件,其中包含小说、非小说、报纸文章等(给定语言中的随机文本示例。)
我想要一个给定单词的频率列表,首先是最常见的单词。
我可以写一些 C 代码来做到这一点,但如果有更快的方法来做到这一点,我想知道。(当我说更快时,我指的是编码时间,而不是运行时间。)
为了更快的编码时间,这是我现在成功尝试的:
printf '%s\n' $(cat *.txt) | sort | uniq -c | sort -gr | less
Run Code Online (Sandbox Code Playgroud)