som*_*ang 6 nlp machine-learning transformer-model deep-learning
我正在关注这个关于变压器的博客
http://jalammar.github.io/illustrated-transformer/
我唯一不明白的是为什么需要一堆编码器或解码器。我知道多头注意力层捕获了问题的不同表示空间。我不明白为什么需要垂直堆叠的编码器和解码器。一个编码器/解码器层不能工作吗?
小智 3
堆栈层使任何深度学习架构都变得强大,使用具有注意力的单个编码器/解码器将无法捕获整个语言建模所需的复杂性,也无法在语言翻译等复杂任务上实现高精度,堆栈的使用编码器/解码器的组合允许网络提取层次特征并对复杂问题进行建模。
| 归档时间: |
|
| 查看次数: |
400 次 |
| 最近记录: |