从文本中去除最常用的词

Ano*_*ous 3 shell-script text-processing

我有一个简单的问题,但不幸的是我什至不知道从哪里开始(我才刚刚开始)。所以,我想做的是最终增加我的词汇量。我想到了从新闻文章中去除最常用的词。我找到了 5,000 个最常用单词的列表并保存了它。去掉最常用的单词后,我可以在 TextSTAT 中创建一个语料库并进行词频计数并选择我想通过这种方式学习的单词。但是如何从我要保存的文章中删除最常用的单词列表中的单词?

Bru*_*ger 5

假设您有名为“news.articles1”、“news.articles2”等的文件,并且您在名为“stop.words”的文件中有常用词

cat news.articles* | tr -s '[:blank:]' '[\n*]' |
tr '[:upper:]' '[:lower:]' | fgrep -v -f stop.words 
Run Code Online (Sandbox Code Playgroud)

该管道的输出应该不包含您常用的单词。您可能需要通过管道中的附加步骤删除所有标点符号,例如:

tr -d '[:punct:]'
Run Code Online (Sandbox Code Playgroud)

“stop.words”的英文版本通常在/usr/share/groff/<version>/eign.