使用词嵌入时处理缺失词的最佳方法是什么？

Question

我有一组预先训练好的 word2vec 词向量和一个语料库。我想用词向量来表示语料库中的词。语料库中有一些我没有训练过的词向量。处理那些没有预训练向量的单词的最佳方法是什么？

我听到了几个建议。

任何有此问题经验的人都对如何处理这个问题有想法吗？

Answer 1

来自 Facebook 的 FastText 从子词 n-gram 组装词向量，这使它能够处理词汇表之外的词。有关此方法的更多信息，请访问：Out of Vocab Word Embedding