关于mask

来源：10-18 缩放点积注意力机制实现(1)

manbaneverout

2020-05-08

老师您好，关于实现缩放点积注意力这里mask这一步（如下代码），不是很理解，能麻烦您再讲解一下吗？谢谢

    
    if mask is not None:
        # 使得在softmax后值趋近于0
        scaled_attention_logits += (mask * -1e9)

写回答

1回答

正十七

2020-05-08

已采纳

这是一个trick，在mask里，应该被忽略的我们会设成1，应该被保留的会设成0，而如果mask相应位置上为1，那么我们就给对应的logits 加上一个超级小的负数， -1000000000，这样，对应的logits也就变成了一个超级小的数。然后在计算softmax的时候，一个超级小的数的指数会无限接近与0。也就是它对应的attention的权重就是0了。

慕仔8505825

为什么设置mask的时候不直接把应该保留的设置成1 忽略的设置成0或者是0+eps呢

2020-11-11

共2条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程

相似问题

关于mask的疑问

回答 1

关于mask的demo