The*_*eak 4 nlp machine-learning word2vec deep-learning word-embedding
我有一组预先训练好的 word2vec 词向量和一个语料库。我想用词向量来表示语料库中的词。语料库中有一些我没有训练过的词向量。处理那些没有预训练向量的单词的最佳方法是什么?
我听到了几个建议。
对每个缺失的单词使用一个零向量
为每个丢失的单词使用一个随机数向量(有很多关于如何绑定这些随机数的建议)
我有一个想法:取一个向量,其值是所有预训练向量中该位置所有值的平均值
任何有此问题经验的人都对如何处理这个问题有想法吗?