Sha*_*ana 12 nlp deep-learning tensorflow
这两个注意事项用于seq2seq模块.这个张量流文档中引入了两个不同的注意事项作为乘法和附加注意事项.有什么不同?
Sha*_*ana 24
我经历了这种基于注意力的神经机器翻译的有效方法.在3.1节中他们提到了两个注意事项之间的区别如下,
Luong注意使用编码器和解码器中的顶层隐藏层状态.但是Bahdanau注意力集中了前向和后向源隐藏状态(Top Hidden Layer).
在Luong注意,他们在时间t得到解码器隐藏状态.然后计算注意力得分并从中得到上下文向量,该上下文向量将与解码器的隐藏状态连接,然后进行预测.
但是在时间t的Bahdanau,我们考虑解码器的t-1隐藏状态.然后我们如上所述计算对齐,上下文向量.但是我们在t-1将这个上下文与解码器的隐藏状态连接起来.因此,在softmax之前,这个连接的向量进入GRU.
Luong有不同类型的路线.Bahdanau只有concat得分对齐模型.
小智 7
在pytorch seq2seq教程中对它们进行了很好的解释
主要区别在于如何评估当前解码器输入和编码器输出之间的相似性.
除了评分和本地/全局关注度之外,实际上还有很多差异。差异的简要总结:
好消息是,大多数变化都是表面的。注意力作为一个概念是如此强大,任何基本的实现都足够了。有两件事似乎很重要 - 将注意力向量传递到下一个时间步骤和局部注意力的概念(特别是在资源受限的情况下)。其余的对输出影响不大。
| 归档时间: |
|
| 查看次数: |
13657 次 |
| 最近记录: |