Luc*_*chi 22 nlp lemmatization gensim word2vec
Word2vec似乎主要是针对原始语料库数据进行培训.然而,词形还原是许多语义相似性任务的标准预处理.我想知道是否有人在训练word2vec之前有使词库语法化的经验,以及这是否是一个有用的预处理步骤.
我认为这对于您要解决的问题确实很重要。这取决于任务。
本质上,通过词形还原,可以使输入空间稀疏,如果您没有足够的训练数据,则可以提供帮助。
但是,由于Word2Vec相当大,因此,如果您有足够的培训数据,则词形化不会给您带来太多好处。
更有趣的是,如何针对W2V(或其他任何东西)中现有的单词矢量字典进行标记化。如“在纽约,优质松饼的价格为$ 3.88 \ n”。需要标记为['Good','muffins','cost','$','3.88','in','New York'。]然后您可以将其替换为W2V中的向量。面临的挑战是,某些令牌生成器将我的“纽约”令牌化为['New''York'],这没有多大意义。(例如,NLTK正在犯此错误https://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html)当您有多个多词短语时,这是一个问题。