卷积序列中嵌入序列学习模型的位置是什么？

Question

我不理解将卷积序列嵌入序列学习中的位置，有人可以帮助我吗？

Answer 1

据我了解，对于每个要翻译的单词，输入包含单词本身及其在输入链中的位置（例如，0、1、...m）。

现在，仅使用值为 pos（以 0..m 为单位）的单元格来编码此类数据的性能不会很好（出于同样的原因，我们使用 one-hot 向量来编码单词）。因此，基本上，该位置将被编码在多个输入单元中，并使用单热表示（或类似的，我可能会想到所使用的位置的二进制表示）。

然后，将使用嵌入层（就像用于单词编码一样）将这种稀疏且离散的表示形式转换为连续的表示形式。

论文中使用的表示选择词嵌入和位置嵌入具有相同的维度，并对两者进行简单求和。