矩阵Q、K是与样本索引相乘吗?还是与每一步输入的单词向量相乘?
来源:10-12 Encoder-Decoder架构与缩放点击注意力
慕标9016513
2021-11-29
Q、K、V的shape是多少
写回答
1回答
-
正十七
2021-12-07
Q, K, V的shape是[batch_size, seq_len, d_k], [batch_size, seq_len, d_q], [batch_size, seq_len, d_v], 其中d_q = d_k,因为它们要计算点积,必须一样。
不是样本索引相乘,Q, K, V每个都可以理解成整个sequence的表达(embedding),Q, K之间是位置与位置的两两embedding的点积。
00