xavier初始化方法为什么有效

来源：5-2 激活函数到调参技巧（1）

追梦逐梦白日做梦

2018-08-02

您在这节里提到的xavier初始化，为什么可以让tanh的激活值分布呈现正态分布，而均值为0方差为1的分布却分布的那么不均匀，根据xavier初始化的公式，初始化的W都是大于1的，这样不会使激活值都趋于1吗？而均值为0方差为1的分布激活值都在1，和-1两个值呢？

写回答

1回答

正十七

2018-08-06

已采纳

这位同学的问题非常好，在这里，xavier 的初始化方法为np.random.randn(in, out) / np.sqrt(in )，这里的np.random.randn是标准正态分布，in和out 两个参数是指定生成的参数矩阵的size ，然后除以np.sqrt(in )相当于把标准正态分布的方差从1变成了1/in，从而，生成的W 不是都大于1的数，而是一个以0为均值，以1/in为方差的正态分布中产生的数。从这个适当的方差中随机得到的初始化参数，在激活函数为tanh 的时候，能够达到一个比较好的效果。

正十七

又检查了一下课程，xavier 初始化的内容，有一句话有个口误，导致了误解，这周三会把视频更新下。

2018-08-06

共1条回复

深度学习之神经网络(CNN/RNN/GAN)算法原理+实战

深度学习算法工程师必学，深入理解深度学习核心算法CNN RNN GAN

2617 学习 · 935 问题

查看课程

相似问题

这里的lstm_init是初始化了什么？

回答 1

关于scale