使用word2vec时删除停用词

sam*_*ara 15 nlp gensim word2vec

我一直在使用gensim的word2vec库尝试word2vec一段时间.我的问题是我是否必须从输入文本中删除停用词？因为,基于我最初的实验结果,我可以看到像'of','when'......(停用词)这样的词语,当我这样做时model.most_similar('someword')......

但是我没有看到任何提到word2vec需要删除停用词的地方？word2vec是否应该处理停用词,即使你不删除它们？

有什么必须做预处理事情(比如主题建模,你几乎必须要删除掉词)？

Gensim的实现基于word2vec的原始Tomas Mikolov模型,然后根据频率自动对所有频繁的单词进行下采样.

如论文所述:

我们表明,在训练期间频繁词的子采样导致显着的加速(大约2x-10x),并且提高了频率较低的词的表示的准确性.

这意味着这些词有时候不会在要预测的词的窗口中被考虑.默认为0.001的样本参数用作修剪这些单词的参数.如果您想删除一些根据频率不会删除的特定停用词,您可以这样做.

摘要:如果您停止删除单词,结果将不会产生任何显着差异.

考虑到使用gensim实现的情况，我想说这是对该问题的更相关的回答。 (3认同)

Personaly我认为,删除停用词会给出更好的结果,检查链接

同样对于主题建模,您应该对文本执行预处理,遵循必须执行的操作,

删除停用词.
符号化.
词干与词形还原.

归档时间：	9 年，9 月前
查看次数：	11592 次
最近记录：	6 年，9 月前

使用Stanford coreNLP的python nltk中的共指消解 10

Gensim:word2vec和doc2vec有什么区别？ 9

理解意义的算法 8

使用语言检测进行多语言拼写检查 7

如何删除标点符号？ 7

如何比较两个字符串的含义？ 6

如何从混淆矩阵计算概率？需要分母，字符矩阵 5

从文本中提取关系 4

如何使用KenLM计算困惑？ 3

如何删除字符串中的重复字母？ 0

如何丢弃Git中的未分级更改？ 4562

Docker与虚拟机有何不同？ 3523

撤消git rebase 2965

如何在Python中连接两个列表？ 2250

如何在Ruby中编写switch语句 2026

将Git分支合并到master中的最佳(也是最安全)方法是什么？ 1977

当用户将鼠标悬停在列表项上时,将光标置为手 1871

你什么时候使用git rebase而不是git merge？ 1461

如何在不使用存储库的情况下将Docker镜像从一个主机复制到另一个主机 1181

退出申请不赞成？ 1131