NLP的停用词列表

alv*_*vas 1 nlp information-retrieval lda wsd topic-modeling

he, she, it在执行NLP或IR/IE相关任务时,是否存在人们通常用于删除标点符号和关闭类词(例如)的停用词列表?

我一直在尝试使用gibbs采样进行主题建模,用于词义消歧,并且它不断地给出标点符号和高级概率,因为它们经常出现在语料库中.https://github.com/christianscheible/BNB/blob/master/nb_gibbs.py

mba*_*rov 5

你尝试谷歌搜索?我得到的热门点击包含停用词列表或链接到所述列表的堆栈溢出帖子: