use*_*659 3 transformer-model bert-language-model
从我读到的文献来看,
Bert Base 有 12 个编码器层和 12 个注意力头。Bert Large 有 24 个编码器层和 16 个注意力头。
为什么 Bert Large 有 16 个注意力头?
注意力头的数量与(编码器)层的数量无关。bert-base然而,每个模型的隐藏大小( 为 768 , 为 1024 )之间存在固有的联系bert-large,这在原始 Transformers 论文中进行了解释。本质上,作者做出的选择是自注意力块大小 ( d_k) 等于隐藏维度 ( d_hidden) 除以头数 ( h),或者形式上
d_k = d_hidden / h
Run Code Online (Sandbox Code Playgroud)
由于标准选择似乎是d_k = 64,我们可以从参数推断出最终尺寸:
h = d_hidden / d_k = 1024 / 64 = 16
Run Code Online (Sandbox Code Playgroud)
这正是您在 中查看的值bert-large。
| 归档时间: |
|
| 查看次数: |
1340 次 |
| 最近记录: |