BERT 词嵌入的大小/范数有何意义?

Kes*_*nko 7 nlp bert-language-model

我们通常用余弦相似度来比较词嵌入之间的相似度,但这只考虑了向量之间的角度,而不考虑范数。使用 word2vec,随着单词在更多不同的上下文中使用,向量的范数会减小。因此,停用词接近于 0,并且非常独特、高含义的单词往往是大向量。BERT 是上下文敏感的,因此这个解释并不完全涵盖 BERT 嵌入。有谁知道矢量幅度对于 BERT 有何意义?

小智 1

我认为 BERT 和其他嵌入(例如 GloVE 或 Word2Vec)之间在余弦相似度或向量范数方面没有任何差异。只是 BERT 是上下文相关的嵌入,因此为不同的上下文提供不同的单词嵌入。