使用主题模型,我们应该如何设置“停用词”列表?

Rub*_*uby 5 stop-words lda topic-modeling text-classification

有一些标准的停用词列表,给出了要从语料库中删除的诸如“a the of not”之类的词。但是,我想知道,停止列表是否应该逐案更改?

比如我有10K的期刊文章,那么由于文章的结构,基本上每篇文章都会看到“介绍、评论、结论、页面”这样的词。我担心的是:我们应该从我们的语料库中删除这些词吗?(每个文档都有的词?)感谢每一个评论和建议。

pva*_*rma 5

我正在研究类似的问题,但涉及文本分类。根据我的经验,拥有一组特定于领域的停用词列表以及标准是很好的。列表。否则,如果您尝试过分析的话,“介绍”、“评论”等词将出现在术语频率矩阵中。它可能会通过为这些特定领域的关键字赋予更多权重来误导您的模型。