Ruu*_*oef 6 nlp transformer-model attention-model
我试图理解为什么变压器使用多个注意力头。我找到了以下引用:
Transformer 使用多个注意力头,而不是使用单个注意力函数(其中注意力可以由实际单词本身主导)。
“注意力由单词本身主导”是什么意思?使用多个头如何解决这个问题?
正如标题“Attention is All You Need”所暗示的那样,Transformer 最初是作为一种更高效的 seq2seq 模型提出的,它消除了迄今为止常用的 RNN 结构。
\n然而,在追求这种效率的过程中,与基于 RNN 的模型相比,单头注意力降低了描述能力。提出了多个头来缓解这种情况,允许模型学习多个较低尺度的特征图,而不是一个包罗万象的地图:
\n\n\n在这些模型中,关联来自两个任意输入或输出位置的信号所需的操作数量随着位置之间的距离而增加[...]这使得学习遥远位置之间的依赖性变得更加困难[12]。在 Transformer 中,这被减少到恒定数量的操作,尽管由于平均注意力加权位置而导致有效分辨率降低,我们用多头注意力来抵消这种影响......
\n\n
\n- 你所需要的就是注意力(2017)
\n
因此,Transformer 中单层中的多个注意力头类似于 CNN 中单层中的多个内核:它们具有相同的架构,并在相同的特征空间上运行,但由于它们是单独的“副本” ”具有不同的权重集,因此它们可以“自由”地学习不同的函数。
\n在 CNN 中,这可能对应于视觉特征的不同定义,而在 Transformer 中,这可能对应于不同的相关性定义:1
\n例如:
\n| 建筑学 | 输入 | (第 1 层) 内核/头 1 | (第 1 层) 内核/头 2 |
|---|---|---|---|
| 美国有线电视新闻网 | 图像 | 对角线边缘检测 | 水平边缘检测 |
| 变压器 | 句子 | 关注下一个单词 | 从动词到直接宾语 |
笔记:
\n \n\n\n虽然没有一个头部在许多关系中表现良好,但我们发现特定的头部与特定的关系非常对应。例如,我们发现中心词可以找到动词的直接宾语、名词的限定词、介词的宾语和所有格代词的宾语......
\n\n
\n- BERT 关注什么?BERT\xe2\x80\x99s 注意力分析(2019)
\n
| 归档时间: |
|
| 查看次数: |
2240 次 |
| 最近记录: |