使用词嵌入时处理缺失词的最佳方法是什么?

The*_*eak 4 nlp machine-learning word2vec deep-learning word-embedding

我有一组预先训练好的 word2vec 词向量和一个语料库。我想用词向量来表示语料库中的词。语料库中有一些我没有训练过的词向量。处理那些没有预训练向量的单词的最佳方法是什么?

我听到了几个建议。

  1. 对每个缺失的单词使用一个零向量

  2. 为每个丢失的单词使用一个随机数向量(有很多关于如何绑定这些随机数的建议)

  3. 我有一个想法:取一个向量,其值是所有预训练向量中该位置所有值的平均值

任何有此问题经验的人都对如何处理这个问题有想法吗?

Adn*_*n S 5

来自 Facebook 的 FastText 从子词 n-gram 组装词向量,这使它能够处理词汇表之外的词。有关此方法的更多信息,请访问:Out of Vocab Word Embedding