我真的很抱歉这个其他的菜鸟问题,但我无法弄清楚这里发生了什么.我想计算文件中单词的频率,其中单词是逐行的.该文件非常大,所以这可能是问题(在这个例子中它计数300k行)
我执行此命令:
cat .temp_occ | uniq -c | sort -k1,1nr -k2 > distribution.txt
Run Code Online (Sandbox Code Playgroud)
问题是它给了我一个小小的错误:它认为我的语言不同.例如,第一个条目是:
306 continua
278 apertura
211 eventi
189 murah
182 giochi
167 giochi
Run Code Online (Sandbox Code Playgroud)
你可以看到,与giochi重复两次
在文件的底部它变得更糟,它看起来像这样:
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 win
1 winchester
1 wind
1 wind
Run Code Online (Sandbox Code Playgroud)
对于所有的话
对于这个愚蠢的问题,我真的很抱歉,但我有点贝壳编程的菜鸟.我究竟做错了什么?
非常感谢