Multi-Head Attention图示中,QKV为什么先接一个Linear再到Scaled Dot-Product Attention?
来源:10-13 多头注意力与位置编码
慕标9016513
2021-12-01
在之前的计算过程中是输入X接一个Linear,得到QKV,然后直接做Scaled Dot-Product,和图示不一样啊
搜索
复制
搜索
复制
写回答
1回答
-
正十七
2021-12-07
我理解,有下面几种原因
有时候输入的维度不同,不能直接做Scale-dot product attention
增大灵活性,可以先用Linear层进行维度降低或增高,然后再做注意力计算。
先经过Linear,增多的参数,模型有更大的容量
实验表明,效果更好
012021-12-23
相似问题