为什么要这样设置?

来源:10-13 多头注意力与位置编码

王浩同学

2021-05-12

depth = self.d_model // self.num_heads

heads 、model、depth三河之间有必然的联系吗?就好像前面讲的卷积核,就卷积核个数和图片的大小为啥有关系,这个不是很懂~~~~

写回答

1回答

正十七

2021-05-12

同学你好,它们的关系比较简单,就是每个头都需要有一个embedding size去计算(就是depth),然后最后输出的结果是各个头的拼接。

在这里,d_model指的是最后的输出结果的size,然后有num_heads个头,所以每个头的size就是 d_model // num_heads.

看你自己的实现,也可以定义两个参数是每个头的size,和头的个数,这样你需要计算d_model = depth * num_heads. 这个比较灵活。

0
1
王浩同学
哦哦,这个样子,我还以为是必须的设置成这样呢,老师只是为了做个demo,让我们去理解这个东西!
2021-05-12
共1条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程