为什么要这样设置?
来源:10-13 多头注意力与位置编码
王浩同学
2021-05-12
depth = self.d_model // self.num_heads
heads 、model、depth三河之间有必然的联系吗?就好像前面讲的卷积核,就卷积核个数和图片的大小为啥有关系,这个不是很懂~~~~
写回答
1回答
-
同学你好,它们的关系比较简单,就是每个头都需要有一个embedding size去计算(就是depth),然后最后输出的结果是各个头的拼接。
在这里,d_model指的是最后的输出结果的size,然后有num_heads个头,所以每个头的size就是 d_model // num_heads.
看你自己的实现,也可以定义两个参数是每个头的size,和头的个数,这样你需要计算d_model = depth * num_heads. 这个比较灵活。
012021-05-12
相似问题