卷积序列中嵌入序列学习模型的位置是什么?

高源伯*_*高源伯 5 deep-learning

我不理解将卷积序列嵌入序列学习中的位置,有人可以帮助我吗?

kha*_*set 2

据我了解,对于每个要翻译的单词,输入包含单词本身及其在输入链中的位置(例如,0、1、...m)。

现在,仅使用值为 pos(以 0..m 为单位)的单元格来编码此类数据的性能不会很好(出于同样的原因,我们使用 one-hot 向量来编码单词)。因此,基本上,该位置将被编码在多个输入单元中,并使用单热表示(或类似的,我可能会想到所使用的位置的二进制表示)。

然后,将使用嵌入层(就像用于单词编码一样)将这种稀疏且离散的表示形式转换为连续的表示形式。

论文中使用的表示选择词嵌入和位置嵌入具有相同的维度,并对两者进行简单求和。