矩阵Q、K是与样本索引相乘吗?还是与每一步输入的单词向量相乘?

来源:10-12 Encoder-Decoder架构与缩放点击注意力

慕标9016513

2021-11-29

Q、K、V的shape是多少

写回答

1回答

正十七

2021-12-07

Q, K, V的shape是[batch_size, seq_len, d_k], [batch_size, seq_len, d_q], [batch_size, seq_len, d_v], 其中d_q = d_k,因为它们要计算点积,必须一样。


不是样本索引相乘,Q, K, V每个都可以理解成整个sequence的表达(embedding),Q, K之间是位置与位置的两两embedding的点积。


0
0

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程