关于mask的疑问
来源:10-7 损失函数与单步训练函数
慕桂英6798450
2020-04-21
encoder中,输入的序列如果在尾部有padding,那么计算attention的时候好像不应该计算padding那部分的权重吧。是否在encoder也加入mask呢?谢谢
写回答
1回答
-
正十七
2020-04-21
seq2seq + attention的模型在我们的实现中没有考虑到这个,这个确实可以加上这个mask。之所以没加是因为我们在纯attention模型中加了各种各样的mask。所以关于mask的知识在attention中会讲。
00
相似问题