在列表中列出最常见的单词的最简单方法是什么?

Kor*_*era 5 text-processing

假设我有一堆文本文件,其中包含小说、非小说、报纸文章等(给定语言中的随机文本示例。)

我想要一个给定单词的频率列表,首先是最常见的单词。

我可以写一些 C 代码来做到这一点,但如果有更快的方法来做到这一点,我想知道。(当我说更快时,我指的是编码时间,而不是运行时间。)

Gil*_*not 4

为了更快的编码时间,这是我现在成功尝试的:

printf '%s\n' $(cat *.txt) | sort | uniq -c | sort -gr | less 
Run Code Online (Sandbox Code Playgroud)

  • @Korgan Rivera - 你要求的称为“停止词”或“停止列表”请参阅我的答案http://unix.stackexchange.com/questions/41479/find-n-most-frequent-words-in- a-file/41480#41480 了解如何执行此操作。 (2认同)