word2vec训练前语料库的词形化

Question

word2vec训练前语料库的词形化

Luc*_*chi 22 nlp lemmatization gensim word2vec

Word2vec似乎主要是针对原始语料库数据进行培训.然而,词形还原是许多语义相似性任务的标准预处理.我想知道是否有人在训练word2vec之前有使词库语法化的经验,以及这是否是一个有用的预处理步骤.

Answer 1

Dan*_*iel 7

我认为这对于您要解决的问题确实很重要。这取决于任务。

本质上，通过词形还原，可以使输入空间稀疏，如果您没有足够的训练数据，则可以提供帮助。

但是，由于Word2Vec相当大，因此，如果您有足够的培训数据，则词形化不会给您带来太多好处。

更有趣的是，如何针对W2V（或其他任何东西）中现有的单词矢量字典进行标记化。如“在纽约，优质松饼的价格为$ 3.88 \ n”。需要标记为['Good'，'muffins'，'cost'，'$'，'3.88'，'in'，'New York'。]然后您可以将其替换为W2V中的向量。面临的挑战是，某些令牌生成器将我的“纽约”令牌化为['New''York']，这没有多大意义。（例如，NLTK正在犯此错误https://nltk.googlecode.com/svn/trunk/doc/howto/tokenize.html）当您有多个多词短语时，这是一个问题。

>>“基本上是通过词法分解使输入空间变得稀疏”。您的意思是如果您同时保留标记的词素化形式和原始形式？否则，去词法化会使输入空间变小吗？ (3认同)
合法化使数据更密集，从而减少了进行适当训练所需的数据量。 (2认同)

归档时间：	11 年，9 月前
查看次数：	9193 次
最近记录：	6 年，10 月前