为什么在《变形金刚》中使用多头注意力?

Ruu*_*oef 6 nlp transformer-model attention-model

我试图理解为什么变压器使用多个注意力头。我找到了以下引用

Transformer 使用多个注意力头,而不是使用单个注意力函数(其中注意力可以由实际单词本身主导)。

“注意力由单词本身主导”是什么意思?使用多个头如何解决这个问题?

uke*_*emi 8

正如标题“Attention is All You Need”所暗示的那样,Transformer 最初是作为一种更高效的 seq2seq 模型提出的,它消除了迄今为止常用的 RNN 结构。

\n

然而,在追求这种效率的过程中,与基于 RNN 的模型相比,单头注意力降低了描述能力。提出了多个头来缓解这种情况,允许模型学习多个较低尺度的特征图,而不是一个包罗万象的地图:

\n
\n

在这些模型中,关联来自两个任意输入或输出位置的信号所需的操作数量随着位置之间的距离而增加[...]这使得学习遥远位置之间的依赖性变得更加困难[12]。在 Transformer 中,这被减少到恒定数量的操作,尽管由于平均注意力加权位置而导致有效分辨率降低,我们用多头注意力来抵消这种影响......

\n\n
\n

因此,Transformer 中单层中的多个注意力头类似于 CNN 中单层中的多个内核:它们具有相同的架构,并在相同的特征空间上运行,但由于它们是单独的“副本” ”具有不同的权重集,因此它们可以“自由”地学习不同的函数。

\n

在 CNN 中,这可能对应于视觉特征的不同定义,而在 Transformer 中,这可能对应于不同的相关性定义:1

\n

例如:

\n
\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n\n
建筑学输入(第 1 层)
内核/头 1
(第 1 层)
内核/头 2
美国有线电视新闻网图像对角线边缘检测水平边缘检测
变压器句子关注下一个单词从动词到直接宾语
\n

\n

笔记:

\n \n
    \n
  1. 不能保证这些是人类可以解释的,但在许多流行的架构中,它们确实准确地映射到语言概念上:\n
    \n

    虽然没有一个头部在许多关系中表现良好,但我们发现特定的头部与特定的关系非常对应。例如,我们发现中心词可以找到动词的直接宾语、名词的限定词、介词的宾语和所有格代词的宾语......

    \n\n
    \n
  2. \n
\n
\n


小智 4

由于观察到不同的单词以不同的方式相互关联,因此引入了多头注意力。对于给定的单词,句子中的其他单词可以起到调节或否定含义的作用,但它们也可以表达诸如继承(是一种)、占有(属于)等关系。

我发现这个在线讲座非常有帮助,其中提出了这个例子:

“餐厅还不算太糟糕。”

请注意,“terrible”这个词的含义被“too”和“not”这两个词扭曲了(too:适度,not:倒置),并且“terrible”也与“restaurant”相关,因为它表达了一种属性。