为什么在encoder layer和decoder layer里的multiheadattention的qkv都传了x进去?
来源:10-22 EncoderLayer实现
慕仔8505825
2020-11-12
写回答
1回答
-
正十七
2020-11-16
在这个翻译问题上,存在这三种注意力,
encoder的输入的要翻译的句子上的自己对自己的注意里,用来提取源语句信息。
decoder的输入的句子自己对自己的注意力,用来提取目标语句的信息。
encoder和decoder之间的注意力,用来寻找源语句和目标语句之间的对应关系。
输入的都是x的时候,说的是前两种注意力。
00
相似问题