Multi-Head Attention图示中，QKV为什么先接一个Linear再到Scaled Dot-Product Attention？

来源：10-13 多头注意力与位置编码

慕标9016513

2021-12-01

在之前的计算过程中是输入X接一个Linear，得到QKV，然后直接做Scaled Dot-Product，和图示不一样啊

搜索

复制

搜索

复制

写回答

1回答

正十七

2021-12-07

我理解，有下面几种原因

慕标9016513

谢谢老师

2021-12-23

共1条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

相似问题

回答 1

回答 1

回答 1

回答 2

回答 1