xavier初始化方法为什么有效

来源:5-2 激活函数到调参技巧(1)

追梦逐梦白日做梦

2018-08-02

您在这节里提到的xavier初始化,为什么可以让tanh的激活值分布呈现正态分布,而均值为0方差为1的分布却分布的那么不均匀,根据xavier初始化的公式,初始化的W都是大于1的,这样不会使激活值都趋于1吗?而均值为0方差为1的分布激活值都在1,和-1两个值呢?

写回答

1回答

正十七

2018-08-06

这位同学的问题非常好,在这里,xavier 的初始化方法为np.random.randn(in, out) / np.sqrt(in ),这里的np.random.randn是标准正态分布,in和out 两个参数是指定生成的参数矩阵的size ,然后除以np.sqrt(in )相当于把标准正态分布的方差从1变成了1/in,从而,生成的W 不是都大于1的数,而是一个以0为均值,以1/in为方差的正态分布中产生的数。从这个适当的方差中随机得到的初始化参数,在激活函数为tanh 的时候,能够达到一个比较好的效果。

2
1
正十七
又检查了一下课程,xavier 初始化的内容,有一句话有个口误,导致了误解,这周三会把视频更新下。
2018-08-06
共1条回复

深度学习之神经网络(CNN/RNN/GAN)算法原理+实战

深度学习算法工程师必学,深入理解深度学习核心算法CNN RNN GAN

2617 学习 · 935 问题

查看课程