BERT 词嵌入的大小/范数有何意义？

Question

BERT 词嵌入的大小/范数有何意义？

我们通常用余弦相似度来比较词嵌入之间的相似度，但这只考虑了向量之间的角度，而不考虑范数。使用 word2vec，随着单词在更多不同的上下文中使用，向量的范数会减小。因此，停用词接近于 0，并且非常独特、高含义的单词往往是大向量。BERT 是上下文敏感的，因此这个解释并不完全涵盖 BERT 嵌入。有谁知道矢量幅度对于 BERT 有何意义？

Answer 1

小智 1

我认为 BERT 和其他嵌入（例如 GloVE 或 Word2Vec）之间在余弦相似度或向量范数方面没有任何差异。只是 BERT 是上下文相关的嵌入，因此为不同的上下文提供不同的单词嵌入。

归档时间：	6 年，7 月前
查看次数：	2000 次
最近记录：	6 年，4 月前