xavier初始化方法为什么有效
来源:5-2 激活函数到调参技巧(1)
追梦逐梦白日做梦
2018-08-02
您在这节里提到的xavier初始化,为什么可以让tanh的激活值分布呈现正态分布,而均值为0方差为1的分布却分布的那么不均匀,根据xavier初始化的公式,初始化的W都是大于1的,这样不会使激活值都趋于1吗?而均值为0方差为1的分布激活值都在1,和-1两个值呢?
写回答
1回答
-
这位同学的问题非常好,在这里,xavier 的初始化方法为np.random.randn(in, out) / np.sqrt(in ),这里的np.random.randn是标准正态分布,in和out 两个参数是指定生成的参数矩阵的size ,然后除以np.sqrt(in )相当于把标准正态分布的方差从1变成了1/in,从而,生成的W 不是都大于1的数,而是一个以0为均值,以1/in为方差的正态分布中产生的数。从这个适当的方差中随机得到的初始化参数,在激活函数为tanh 的时候,能够达到一个比较好的效果。
212018-08-06
相似问题