seq2seq+attention这一页不明白

来源：10-5 Attention结构

sam_focalcrest

2022-06-17

左图c1,c2,c3是输入，右图看起来好像是输出，然后a11, a22, a33, a34又分别是什么？

写回答

1回答

小马小灰灰

2022-06-21

左图的c和右图的c指的应该不是同一个东西，左图是指中文的输入编码，右图指的是对应位置汉字的英文单词编码，程序中可能输出的应该是对应位置概率值最大的英文单词编码。a[i, j]就是注意力权重(Attention Weight)，也就是你在输出该位置的英文单词编码（比如用不同的字符A1, A2, A3代替）时对于不同位置输入的相关程度（比如A2输出的上下文Context可能就是输入c1, c2, c3，这三个相关程度更高，那么对应的a21, a22, a23这三个值就要更大一些）

个人理解

PyTorch入门到进阶实战计算机视觉与自然语言处理项目

理论基础+技术讲解+实战开发，快速掌握PyTorch框架

1228 学习 · 300 问题

查看课程

相似问题

明白了

回答 1

为什么numpy数组不可写？

回答 1

关于测试集准确率计算

回答 1

bug报错不一样

回答 2

机器翻译的代码跑出来和视频为什么不一样

回答 1

打开慕课网App查看更多内容