关于mask
来源:10-18 缩放点积注意力机制实现(1)
manbaneverout
2020-05-08
老师您好,关于实现缩放点积注意力这里mask这一步(如下代码),不是很理解,能麻烦您再讲解一下吗?谢谢
if mask is not None:
# 使得在softmax后值趋近于0
scaled_attention_logits += (mask * -1e9)
写回答
1回答
-
这是一个trick,在mask里,应该被忽略的我们会设成1,应该被保留的会设成0,而如果mask相应位置上为1,那么我们就给对应的logits 加上一个超级小的负数, -1000000000, 这样,对应的logits也就变成了一个超级小的数。然后在计算softmax的时候,一个超级小的数的指数会无限接近与0。也就是它对应的attention的权重就是0了。
122020-11-11
相似问题