可以自动找到停止词吗?

smw*_*dia 12 nlp machine-learning data-mining text-mining

在NLP中,停用词移除是典型的预处理步骤.它通常是基于我们认为停止词应该是什么的经验方式来完成的.

但在我看来,我们应该概括一下停止词的概念.对于来自不同领域的语料库,停止词可能会有所不同.我想知道我们是否可以在数学上定义停用词,例如通过其统计特征.然后我们可以自动从特定域的语料库中提取停用词.

对此有任何类似的想法和进展吗?谁能解开一些光明?

sum*_*mdi 3

通常,停用词比其他语义词出现的频率要高得多......因此,在构建我的应用程序时,我结合使用了两者;固定清单和统计方法。我正在使用 NLTK,它已经有一些常见停用词的列表;所以我首先删除了此列表中出现的单词,但是当然这并没有删除所有停用词...正如您已经提到的,停用词因语料库而异。然后我评估了每个单词在语料库中出现的频率,并删除了频率高于“一定限制”的单词。我提到的这个特定限制是我在观察所有单词的频率后确定的值......因此这个限制也取决于语料库到语料库......但是一旦你仔细观察所有单词的列表,你就可以轻松计算出这个值按频率排列的单词...这种统计方法将确保您删除未出现在常见停用词列表中的停用词...之后,为了细化数据,我还使用了 POS 标记。 .并删除了前两个步骤后仍然存在的专有名词..