LSTM的注意机制是直的softmax前馈网络,它接收编码器的每个时间步的隐藏状态和解码器的当前状态.
这两个步骤似乎是矛盾的,无法解决这个问题:1)需要预先定义前馈网络的输入数量2)编码器的隐藏状态数量是可变的(取决于期间的步骤数量)编码).
我误会了什么吗?培训是否与培训常规编码器/解码器网络相同或者我是否必须单独培训注意机制?
提前致谢
text-processing machine-learning neural-network lstm recurrent-neural-network