注意力对自动编码器有意义吗？

Question

在自动编码器的上下文中，我正在努力解决注意力的概念。我相信我理解注意力在 seq2seq 翻译方面的用法——在训练组合编码器和解码器后，我们可以同时使用编码器和解码器来创建（例如）语言翻译器。因为我们仍在生产中使用解码器，所以我们可以利用注意力机制。

但是，如果自编码器的主要目标主要是生成输入向量的潜在压缩表示呢？我说的是在训练后我们基本上可以处理模型的解码器部分的情况。

例如，如果我在没有注意的情况下使用 LSTM，“经典”方法是使用最后一个隐藏状态作为上下文向量——它应该代表我输入序列的主要特征。如果我要注意使用 LSTM，我的潜在表示必须是每个时间步长的所有隐藏状态。这似乎不符合输入压缩和保留主要功能的概念。维度甚至可能更高。

此外，如果我需要使用所有隐藏状态作为我的潜在表示（就像在注意力情况下一样） - 为什么要使用注意力？我可以使用所有隐藏状态来初始化解码器。

Answer 1

“ Attention 是针对编码器-解码器模型将输入序列编码为一个固定长度向量并从中解码每个输出时间步的限制的解决方案。据信，在解码长序列时，这个问题更成问题”

它只是一种在处理长序列时改进“无需注意”架构的方法，其中压缩表示可能会变得不足。

如果我要使用带有注意力的 LSTM，我的潜在表示必须是每个时间步的所有隐藏状态。这似乎不符合输入压缩和保留主要功能的概念

不完整的潜在表示是规范自动编码器以迫使它们提取相关特征的一种方法，但这不是必要条件。过完备自动编码器（具有更高维度的潜在表示+正则化）也可以成功学习相关特征。

如果您想了解更多信息，可以阅读：深度学习 (Ian Goodfellow) - 第 14 章。