学习率

来源:10-27 自定义学习率

紫梦沁香

2021-09-08

这里老师您说d_model越大,arg3就越小,learning_rate也随之减小。而且d_model越大表示模型越大,越难被训练,也就越难拟合,因此不宜采用过高的learning_rate。
但难道不是因为model越难拟合,因此才需要高一点的learning_rate来加速训练吗?
图片描述

写回答

1回答

正十七

2021-09-25

这里的这个策略是让学习率先增加再减小。

先增大学习率是为了加速模型的训练,但越难训练的模型要收敛,肯定需要越小的学习率。

0
0

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程