老师,model.pkl modelA.pkl modelB.pkl分别是训练多少轮得到的呢,效果这三个比较起来怎么样
来源:8-27 demo脚本编写及演示

慕雪2383569
2020-03-13
写回答
2回答
-
胖虎
2020-07-22
轮数都是一样的,参数默认的,只是选用不同的attetion,比如L-attention,B-attention,网络结构有区别,是3层,5层
00 -
胖虎
2020-03-13
三个都是模型,轮数差不多的,是不同的attention机制的组合
00
相似问题