请问按视频里的图,训练一开始的时候出现梯度消失,为什么随着epoch增加,这个问题网络自己就得到了解决呢?

来源:2-9 实战深度神经网络

慕妹4593514

2021-08-13

写回答

1回答

正十七

2021-08-19

因为累积效应,虽然传到底层的梯度小,但经过多个epoch之后,还是能累积出足够大的变化。当然,在我们的网络里,其实层次还没有那么深,所以这种效应能有效。当模型继续加深时,可能就需要非常多的epoch才能看到这个效果。这时候就需要用到我们将的Batch normalization, selu等技术了。

0
0

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程