小编ang*_*sel的帖子

nn.MultiheadAttention 的输入?

我有n需要相互影响的向量和n具有相同维度的输出向量d。我相信这就是它的torch.nn.MultiheadAttention作用。但前向函数需要查询、键和值作为输入。根据这篇博客,我需要(d x d)为每个初始化一个形状的随机权重矩阵qk并将v每个向量与这些权重矩阵相乘,得到 3 个(n x d)矩阵。现在q,k和是这三个矩阵v所期望的torch.nn.MultiheadAttention,还是我弄错了?

python deep-learning attention-model pytorch

9
推荐指数
1
解决办法
9717
查看次数

标签 统计

attention-model ×1

deep-learning ×1

python ×1

pytorch ×1