据我了解,对于每个要翻译的单词,输入包含单词本身及其在输入链中的位置(例如,0、1、...m)。
现在,仅使用值为 pos(以 0..m 为单位)的单元格来编码此类数据的性能不会很好(出于同样的原因,我们使用 one-hot 向量来编码单词)。因此,基本上,该位置将被编码在多个输入单元中,并使用单热表示(或类似的,我可能会想到所使用的位置的二进制表示)。
然后,将使用嵌入层(就像用于单词编码一样)将这种稀疏且离散的表示形式转换为连续的表示形式。
论文中使用的表示选择词嵌入和位置嵌入具有相同的维度,并对两者进行简单求和。
| 归档时间: |
|
| 查看次数: |
4730 次 |
| 最近记录: |