seq2seq+attention这一页不明白

来源:10-5 Attention结构

sam_focalcrest

2022-06-17

左图c1,c2,c3是输入,右图看起来好像是输出,然后a11, a22, a33, a34又分别是什么?

写回答

1回答

小马小灰灰

2022-06-21

左图的c和右图的c指的应该不是同一个东西,左图是指中文的输入编码,右图指的是对应位置汉字的英文单词编码,程序中可能输出的应该是对应位置概率值最大的英文单词编码。a[i, j]就是注意力权重(Attention Weight),也就是你在输出该位置的英文单词编码(比如用不同的字符A1, A2, A3代替)时对于不同位置输入的相关程度(比如A2输出的上下文Context可能就是输入c1, c2, c3,这三个相关程度更高,那么对应的a21, a22, a23这三个值就要更大一些)

个人理解

0
0

PyTorch入门到进阶 实战计算机视觉与自然语言处理项目

理论基础+技术讲解+实战开发,快速掌握PyTorch框架

1190 学习 · 298 问题

查看课程