小编use*_*187的帖子

在自动编码器的上下文中，我正在努力解决注意力的概念。我相信我理解注意力在 seq2seq 翻译方面的用法——在训练组合编码器和解码器后，我们可以同时使用编码器和解码器来创建（例如）语言翻译器。因为我们仍在生产中使用解码器，所以我们可以利用注意力机制。

但是，如果自编码器的主要目标主要是生成输入向量的潜在压缩表示呢？我说的是在训练后我们基本上可以处理模型的解码器部分的情况。

例如，如果我在没有注意的情况下使用 LSTM，“经典”方法是使用最后一个隐藏状态作为上下文向量——它应该代表我输入序列的主要特征。如果我要注意使用 LSTM，我的潜在表示必须是每个时间步长的所有隐藏状态。这似乎不符合输入压缩和保留主要功能的概念。维度甚至可能更高。

此外，如果我需要使用所有隐藏状态作为我的潜在表示（就像在注意力情况下一样） - 为什么要使用注意力？我可以使用所有隐藏状态来初始化解码器。

15
推荐指数

1
解决办法

1792
查看次数

小编use_187的帖子