Does pre-trained Embedding matrix has <EOS>, <UNK> word vector?

X. *_*ang 2 nlp deep-learning

我想构建一个带有预训练嵌入矩阵的 seq2seq 聊天机器人。是否预先训练嵌入基质,例如了Googlenews向量-negative300,FastText和手套,具有用于特定字向量<EOS><UNK>

Poo*_*hvi 6

预训练的嵌入具有定义的特定词汇表。不在词汇表中的词称为词,也称为 oov(词表外)词。预训练的嵌入矩阵不会为 UNK 提供任何嵌入。有多种方法可以处理 UNK 词。

  1. 忽略 UNK 词
  2. 使用一些随机向量
  3. 使用 Fasttext 作为预训练模型,因为它通过从构成单词的 n-gram 向量为 UNK 单词构造向量来解决 oov 问题。

如果 UNK 的数量较少,则准确性不会受到太大影响。如果数字更高,则更好地训练嵌入或使用快速文本。

“EOS”Token 也可以被当作(初始化)为一个随机向量。

确保两个随机向量不相同。