And*_* Tu 8 text-processing machine-learning neural-network lstm recurrent-neural-network
LSTM的注意机制是直的softmax前馈网络,它接收编码器的每个时间步的隐藏状态和解码器的当前状态.
这两个步骤似乎是矛盾的,无法解决这个问题:1)需要预先定义前馈网络的输入数量2)编码器的隐藏状态数量是可变的(取决于期间的步骤数量)编码).
我误会了什么吗?培训是否与培训常规编码器/解码器网络相同或者我是否必须单独培训注意机制?
提前致谢
Art*_*rda 13
今天我问自己同样的事,发现了这个问题.我自己从未实现过注意机制,但从本文中看,它似乎不仅仅是一个直接的softmax.对于解码器网络的每个输出y i,上下文向量c i被计算为编码器隐藏状态h 1,...,h T的加权和:
Ç 我 =α I1 ħ 1 + ... +α 智达ħ Ť
对于每个样本,时间步数T可以是不同的,因为系数αij不是固定大小的矢量.实际上,它们是由softmax(e i1,...,e iT)计算的,其中每个e ij是神经网络的输出,其输入是编码器隐藏状态h j和解码器隐藏状态s i-1:
e ij = f(s i-1,h j)
因此,在计算y i之前,必须对该神经网络进行T次计算,产生T个权重αi1,...,αIT.此外,这种张量流强制可能是有用的.