小编Ale*_*ero的帖子

初始化序列到序列模型中的解码器状态

我正在用张量流编写我的第一个神经机器翻译器。我正在注意使用编码器/解码器机制。我的编码器和解码器是具有残差连接的 lstm 堆栈,但编码器具有初始双向层。解码器没有。

我所看到的代码中的常见做法是使用编码器单元的最后状态来初始化解码器单元的状态。然而,如果您的编码器和解码器架构相同,这只是一个干净的解决方案,就像许多 seq2seq 教程中的情况一样。在许多其他系统中,例如谷歌的这个模型 ,编码器和解码器的架构有所不同。

在这些情况下用于初始化解码器状态的替代策略有哪些?

我见过这样的情况:编码器的最后一个隐藏状态通过经过训练的权重向量传递,为所有解码器层创建初始解码器状态。我还看到了更多创造性的想法,例如这里提出的想法,但我想对人们为什么选择某些策略产生一种直觉。

nlp machine-learning deep-learning tensorflow recurrent-neural-network

5
推荐指数
0
解决办法
727
查看次数