了解嵌入向量维度

Question

在深度学习中，特别是 NLP 中，单词被转换为向量表示，然后输入到 RNN 等神经网络中。通过参考链接：

\n\n

\n\n

在Word Embeddings部分，据说：

\n\n

\n
词嵌入 W:words\xe2\x86\x92Rn 是一个参数化函数，将某种语言中的单词\n映射到高维向量（可能是 200 到 500 维）
\n

\n\n

我不明白向量维度的目的。与20 维向量相比， 200 维向量意味着什么？

\n\n
它是否提高了模型的整体精度？谁能给我一个关于向量维数选择的简单例子。
\n

Answer 1

这些词嵌入也称为分布式词嵌入，基于

你知道它所陪伴的一个词

因此，我们可以通过上下文了解单词的含义。您可以认为（单词）向量中的每个标量都代表其概念的强度。Pawan Goyal 教授的这张幻灯片解释了这一切。

因此，您需要良好的向量大小来捕获相当数量的概念，但您不想要太大的向量，因为它将成为使用这些嵌入的模型训练的瓶颈。

此外，向量大小大多是固定的，因为大多数人不训练自己的嵌入，而是使用公开可用的嵌入，因为它们在大量数据上训练了多个小时。因此，使用它们将迫使我们使用尺寸由您正在使用的公开可用嵌入（word2vec、手套等）给出的嵌入层

分布式词嵌入是 NLP 深度学习领域的一个重要里程碑。与基于 tfidf 的嵌入相比，它们提供了更好的准确性。