我想在文本文件中找到 10 个最常见的单词。首先,解决方案应该针对击键进行优化(换句话说 - 我的时间)。其次,对于业绩。以下是我目前获得前 10 名的条件:
cat test.txt | tr -c '[:alnum:]' '[\n*]' | uniq -c | sort -nr | head -10
6 k
2 g
2 e
2 a
1 r
1 k22
1 k
1 f
1 eeeeeeeeeeeeeeeeeeeee
1 d
Run Code Online (Sandbox Code Playgroud)
我可以制作一个 java、python 等程序,我将 (word, numberOfOccurences) 存储在字典中并对值进行排序,或者我可以使用 MapReduce,但我针对击键进行了优化。
是否存在误报?有没有更好的办法?