#为什么将学习率调小
来源:5-1 adagrad_adam
战战的坚果
2020-03-27
对于一个稀疏数据来说,它的很多值都是0,在很多时候它是得不到梯度的更新的,我们在多数的数据上都能够得到梯度更新,在这个时候为了让多数数据得到的更新更好,所以会将学习率调小。
老师,我不明白为什么这个时候将学习率调小,会可以让多数数据得到的更新更好?
写回答
1回答
-
正十七
2020-03-29
对于学习率的分析,更多时候我们是定性的而不是定量的。
对于这个点来说,可能的原因是:因为有稀疏数据的存在,所以在遇到稀疏数据的时候,对应的梯度会变大,这可能也会导致在密集特征上的梯度也变大,这就有可能使得在密集数据上多次迭代得到的较好的结果又被迫偏移。所以我们要调小学习率。
00
相似问题