Myk*_*tko 5 python transformer-model keras tensorflow
我在变压器模型中使用MultiHeadAttention
层(我的模型与命名实体识别模型非常相似)。因为我的数据具有不同的长度,所以我使用填充和attention_mask
参数MultiHeadAttention
来屏蔽填充。如果我使用Masking
之前的图层,它会和参数MultiHeadAttention
有相同的效果吗?attention_mask
或者我应该同时使用:attention_mask
和Masking
图层?
有关使用 keras 进行掩蔽和填充的Tensoflow 文档可能会有所帮助。
以下是该文件的摘录。
使用功能 API 或顺序 API 时,嵌入层或掩蔽层生成的掩码将通过网络传播到能够使用它们的任何层(例如 RNN 层)。Keras 将自动获取与输入相对应的掩码,并将其传递给任何知道如何使用它的层。
tf.keras.layers.MultiHeadAttention 还支持TF2.10.0中的自动掩模传播。
改进了对 tf.keras.layers.MultiHeadAttention 的屏蔽支持。
- 查询、键和值输入的隐式掩码将自动用于计算该层的正确注意掩码。这些填充掩码将与调用该层时直接传入的任何注意力掩码相结合。这可以与 mask_zero=True 的 tf.keras.layers.Embedding 一起使用,以自动推断正确的填充掩码。
- 向图层添加了 use_causal_mask 调用时间参数。传递 use_causal_mask=True 将计算因果注意掩码,并可选择将其与调用该层时直接传入的任何注意掩码结合起来。
归档时间: |
|
查看次数: |
1221 次 |
最近记录: |