关于mask

来源:10-18 缩放点积注意力机制实现(1)

manbaneverout

2020-05-08

老师您好,关于实现缩放点积注意力这里mask这一步(如下代码),不是很理解,能麻烦您再讲解一下吗?谢谢

    
    if mask is not None:
        # 使得在softmax后值趋近于0
        scaled_attention_logits += (mask * -1e9)
写回答

1回答

正十七

2020-05-08

这是一个trick,在mask里,应该被忽略的我们会设成1,应该被保留的会设成0,而如果mask相应位置上为1,那么我们就给对应的logits 加上一个超级小的负数, -1000000000, 这样,对应的logits也就变成了一个超级小的数。然后在计算softmax的时候,一个超级小的数的指数会无限接近与0。也就是它对应的attention的权重就是0了。

1
2
慕仔8505825
为什么设置mask的时候不直接把应该保留的设置成1 忽略的设置成0或者是0+eps呢
2020-11-11
共2条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程