War*_*ckQ 3 python nlp topic-modeling bert-language-model
对于主题建模,我正在尝试 BERTopic:链接
我在这里有点困惑,我正在我的自定义数据集上尝试 BERTopic。
由于 BERT 的训练方式使其能够保存文本/文档的语义,因此我是否应该在将文档传递到 BERTopic 之前删除停用词并对文档进行词干/词形还原?因为我担心这些停用词是否会作为显着术语进入我的主题,而它们并不是
请大家提出建议和建议!
不。
BERTopic 使用基于“真实且干净”文本的转换器,而不是基于没有停用词、引理或标记的文本。计算结束时,停用词已成为噪音(无信息)并且全部位于 topic_id = -1 中。
出于同样的原因,您不应该对文本进行标记化(内部完成)或词形还原(有些主观)。这会打乱你的话题
不进行词形还原的缺点是主题的关键字有很多冗余,例如(topn = 10)“酒店,酒店”,“度假村,度假村”等。它也不处理像“纽约”或“巴拉克·奥巴马”优雅地
你不可能拥有一切;-)
安德烈亚斯
PS:你当然可以删除HTML标签;它们也不在您的参考语料库中