Word中使用Python的文本频率,但忽略了停用词

dem*_*mos 4 python google-app-engine frequency-analysis word-frequency

这给了我文本中单词的频率:

 fullWords = re.findall(r'\w+', allText)

 d = defaultdict(int)

 for word in fullWords :
          d[word] += 1

 finalFreq = sorted(d.iteritems(), key = operator.itemgetter(1), reverse=True)

 self.response.out.write(finalFreq)
Run Code Online (Sandbox Code Playgroud)

这也给了我无用的话,比如"the""an""a"

我的问题是,python中是否有一个停用词库可以删除所有这些常用词?我想在谷歌应用引擎上运行它

Ale*_*lli 5

你可以下载禁用词列表从各种格式的文件,如在这里 -所有的Python需要做的是阅读文件(这些都是csv格式,用轻松读取csv模块),使一组,并在使用会员设置(可能具有一些规范化,例如小写)以从计数中排除单词.