LSTM如何关注可变长度输入

Question

LSTM的注意机制是直的softmax前馈网络,它接收编码器的每个时间步的隐藏状态和解码器的当前状态.

这两个步骤似乎是矛盾的,无法解决这个问题:1)需要预先定义前馈网络的输入数量2)编码器的隐藏状态数量是可变的(取决于期间的步骤数量)编码).

我误会了什么吗？培训是否与培训常规编码器/解码器网络相同或者我是否必须单独培训注意机制？

提前致谢

Answer 1

今天我问自己同样的事,发现了这个问题.我自己从未实现过注意机制,但从本文中看,它似乎不仅仅是一个直接的softmax.对于解码器网络的每个输出y _i,上下文向量c _i被计算为编码器隐藏状态h ₁,...,h _T的加权和:

Ç _我 =α _I1ħ ₁ + ... +α _智达ħ _Ť

对于每个样本,时间步数T可以是不同的,因为系数_αij不是固定大小的矢量.实际上,它们是由softmax(e _i1,...,e _iT)计算的,其中每个e _ij是神经网络的输出,其输入是编码器隐藏状态h _j和解码器隐藏状态s _i-1:

e _ij = f(s _i-1,h _j)

因此,在计算y _i之前,必须对该神经网络进行T次计算,产生T个权重_αi1,...,_αIT.此外,这种张量流强制可能是有用的.