为什么z1中会有x2的信息呢?
来源:10-12 Encoder-Decoder架构与缩放点击注意力
慕标9016513
2021-11-29
你好老师,问题在视频的1分26秒处:z1中包含了x1和x2的信息。
这里不太理解,当z1输出时,还没有x2,那么为什么z1中会有x2的信息呢?
写回答
1回答
-
正十七
2021-12-07
分Encoder还是Decoder
如果是Encoder,那么x1, x2, ..., xn是同时存在的,这个时候经过attention后,z1的输出会有x2等的信息。
但如果是Decoder,x1的时候还没有x2, 所以不会有x2的信息。在训练时,其实我们是有x2的数据的,所以要用lookahead attention强制让x1无法attend x2
012021-12-23
相似问题