学习率
来源:10-27 自定义学习率
紫梦沁香
2021-09-08
这里老师您说d_model越大,arg3就越小,learning_rate也随之减小。而且d_model越大表示模型越大,越难被训练,也就越难拟合,因此不宜采用过高的learning_rate。
但难道不是因为model越难拟合,因此才需要高一点的learning_rate来加速训练吗?
写回答
1回答
-
正十七
2021-09-25
这里的这个策略是让学习率先增加再减小。
先增大学习率是为了加速模型的训练,但越难训练的模型要收敛,肯定需要越小的学习率。
00
相似问题