seq2seq+attention这一页不明白
来源:10-5 Attention结构

sam_focalcrest
2022-06-17
左图c1,c2,c3是输入,右图看起来好像是输出,然后a11, a22, a33, a34又分别是什么?
写回答
1回答
-
小马小灰灰
2022-06-21
左图的c和右图的c指的应该不是同一个东西,左图是指中文的输入编码,右图指的是对应位置汉字的英文单词编码,程序中可能输出的应该是对应位置概率值最大的英文单词编码。a[i, j]就是注意力权重(Attention Weight),也就是你在输出该位置的英文单词编码(比如用不同的字符A1, A2, A3代替)时对于不同位置输入的相关程度(比如A2输出的上下文Context可能就是输入c1, c2, c3,这三个相关程度更高,那么对应的a21, a22, a23这三个值就要更大一些)
个人理解
00
相似问题