请问按视频里的图,训练一开始的时候出现梯度消失,为什么随着epoch增加,这个问题网络自己就得到了解决呢?
来源:2-9 实战深度神经网络

慕妹4593514
2021-08-13
写回答
1回答
-
正十七
2021-08-19
因为累积效应,虽然传到底层的梯度小,但经过多个epoch之后,还是能累积出足够大的变化。当然,在我们的网络里,其实层次还没有那么深,所以这种效应能有效。当模型继续加深时,可能就需要非常多的epoch才能看到这个效果。这时候就需要用到我们将的Batch normalization, selu等技术了。
00
相似问题
为什么每次的训练结果都不一样呢?
回答 2
batch和epoch
回答 1