为什么conv+bn+relu是有效的?

来源:5-3 激活函数到调参技巧(2)

追梦逐梦白日做梦

2018-08-06

bn过后relu的输入值就相当于均值为0方差为1,这样不就直接dead了一般吗?这样还可以加快收敛吗?

写回答

1回答

正十七

2018-08-09

第一,relu激活函数不是一到负数就成为dead cell的,如果是较大的负数,比如-0.5,-0.1这样子的,还是可以从dead变为active的,因为其他参数的调整,可以使输入发生变化。只有较大的梯度,将这个神经元的激活值变为比较小的负数,比如-1000,才会形成dead relu。

第二,bn在relu之前还是之后貌似结果差别不大,翻了下原始论文,猜测作者应该是先对sigmoid做了实验,把BN放在了之前,然后relu就直接follow之前的做法了。

第三,需要理解bn的作用在于通过平滑隐藏层输入的分布,帮助随机梯度下降的进行,缓解随机梯度下降梯度衰减的情况。从这个角度来说,前和后应该是都能起到作用的。

2
0

深度学习之神经网络(CNN/RNN/GAN)算法原理+实战

深度学习算法工程师必学,深入理解深度学习核心算法CNN RNN GAN

2617 学习 · 935 问题

查看课程