在列表中列出最常见的单词的最简单方法是什么？

Question

假设我有一堆文本文件，其中包含小说、非小说、报纸文章等（给定语言中的随机文本示例。）

我想要一个给定单词的频率列表，首先是最常见的单词。

我可以写一些 C 代码来做到这一点，但如果有更快的方法来做到这一点，我想知道。（当我说更快时，我指的是编码时间，而不是运行时间。）

Answer 1

为了更快的编码时间，这是我现在成功尝试的：

printf '%s\n' $(cat *.txt) | sort | uniq -c | sort -gr | less

@Korgan Rivera - 你要求的称为“停止词”或“停止列表”请参阅我的答案http://unix.stackexchange.com/questions/41479/find-n-most-frequent-words-in- a-file/41480#41480 了解如何执行此操作。 (2认同)