使用预训练的word2vec,之后训练embedding层。
来源:7-9 LSTM长短期记忆网络
追梦逐梦白日做梦
2019-06-30
这样训练之后,效果不如不训练embedding层效果好,这是为什么?
写回答
1回答
-
正十七
2019-07-06
可能的原因是learning rate太大,导致embedding从word2vec初始化的那个好状态经过训练后变成了一个差状态。一般fine-tune的时候要设置较小的学习率。
012019-07-06
相似问题
为什么每次的训练结果都不一样呢?
回答 2
训练结果对预测有什么影响
回答 1