为什么在encoder layer和decoder layer里的multiheadattention的qkv都传了x进去?

来源:10-22 EncoderLayer实现

慕仔8505825

2020-11-12

写回答

1回答

正十七

2020-11-16

在这个翻译问题上,存在这三种注意力,

  1. encoder的输入的要翻译的句子上的自己对自己的注意里,用来提取源语句信息。

  2. decoder的输入的句子自己对自己的注意力,用来提取目标语句的信息。

  3. encoder和decoder之间的注意力,用来寻找源语句和目标语句之间的对应关系。

输入的都是x的时候,说的是前两种注意力。

0
0

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程