我有一个简单的问题,但不幸的是我什至不知道从哪里开始(我才刚刚开始)。所以,我想做的是最终增加我的词汇量。我想到了从新闻文章中去除最常用的词。我找到了 5,000 个最常用单词的列表并保存了它。去掉最常用的单词后,我可以在 TextSTAT 中创建一个语料库并进行词频计数并选择我想通过这种方式学习的单词。但是如何从我要保存的文章中删除最常用的单词列表中的单词?
shell-script text-processing
shell-script ×1
text-processing ×1