使用word2vec时删除停用词

sam*_*ara 15 nlp gensim word2vec

我一直在使用gensim的word2vec库尝试word2vec一段时间.我的问题是我是否必须从输入文本中删除停用词?因为,基于我最初的实验结果,我可以看到像'of','when'......(停用词)这样的词语,当我这样做时model.most_similar('someword')......

但是我没有看到任何提到word2vec需要删除停用词的地方?word2vec是否应该处理停用词,即使你不删除它们?

有什么必须做预处理事情(比如主题建模,你几乎必须要删除掉词)?

Tri*_*ath 32

Gensim的实现基于word2vec的原始Tomas Mikolov模型,然后根据频率自动对所有频繁的单词进行下采样.

论文所述:

我们表明,在训练期间频繁词的子采样导致显着的加速(大约2x-10x),并且提高了频率较低的词的表示的准确性.

这意味着这些词有时候不会在要预测的词的窗口中被考虑.默认为0.001的样本参数用作修剪这些单词的参数.如果您想删除一些根据频率不会删除的特定停用词,您可以这样做.

摘要:如果您停止删除单词,结果将不会产生任何显着差异.

  • 考虑到使用gensim实现的情况,我想说这是对该问题的更相关的回答。 (3认同)

Pra*_*uri 9

Personaly我认为,删除停用词会给出更好的结果,检查链接

同样对于主题建模,您应该对文本执行预处理,遵循必须执行的操作,

  1. 删除停用词.
  2. 符号化.
  3. 词干与词形还原.