Kes*_*nko 7 nlp bert-language-model
我们通常用余弦相似度来比较词嵌入之间的相似度,但这只考虑了向量之间的角度,而不考虑范数。使用 word2vec,随着单词在更多不同的上下文中使用,向量的范数会减小。因此,停用词接近于 0,并且非常独特、高含义的单词往往是大向量。BERT 是上下文敏感的,因此这个解释并不完全涵盖 BERT 嵌入。有谁知道矢量幅度对于 BERT 有何意义?
| 归档时间: |
|
| 查看次数: |
2000 次 |
| 最近记录: |