Multi-Head Attention图示中,QKV为什么先接一个Linear再到Scaled Dot-Product Attention?

来源:10-13 多头注意力与位置编码

慕标9016513

2021-12-01

在之前的计算过程中是输入X接一个Linear,得到QKV,然后直接做Scaled Dot-Product,和图示不一样啊

搜索

复制

搜索

复制

写回答

1回答

正十七

2021-12-07

我理解,有下面几种原因

  • 有时候输入的维度不同,不能直接做Scale-dot product attention

  • 增大灵活性,可以先用Linear层进行维度降低或增高,然后再做注意力计算。

  • 先经过Linear,增多的参数,模型有更大的容量

  • 实验表明,效果更好

0
1
慕标9016513
谢谢老师
2021-12-23
共1条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程