矩阵QKV的每一行是一个样本,还是一个词向量?
来源:10-12 Encoder-Decoder架构与缩放点击注意力
慕标9016513
2021-12-01
老师说QKV是三个矩阵,矩阵的每一行都是一个样本,是不是说错了?
应该是每一行都是一个词向量吧?
样本不是要翻译的每一句话吗?
搜索
复制
写回答
1回答
-
正十七
2021-12-07
同学你好,你说的对,每一行都是一个词向量,整体才是样本。
00
相似问题
矩阵QKV的每一行是一个样本,还是一个词向量?
来源:10-12 Encoder-Decoder架构与缩放点击注意力
慕标9016513
2021-12-01
老师说QKV是三个矩阵,矩阵的每一行都是一个样本,是不是说错了?
应该是每一行都是一个词向量吧?
样本不是要翻译的每一句话吗?
搜索
复制
1回答
正十七
2021-12-07
同学你好,你说的对,每一行都是一个词向量,整体才是样本。
相似问题