数据集全量训练,是不是16G的显存不够用了?
来源:10-10 样例例分析与总结
慕慕8288485
2020-10-20
老师,请教一下。
这节课训练完成后,对于短句的翻译效果不错,但是稍长一下就很差,我想应该跟我们学习的样本子集(最大句子长度16)有关。所以我将数据集全量放开,放Google Cloud上面运行,用的1个GPU,16G显存,训练一段时间jupyter就挂掉了。如果只取[:30000],可以正常训练完成。是不是因为显存不够?是不是因为全量的数据样本中句子太长,attention矩阵太大导致?
写回答
1回答
-
是的,attention的复杂度是平方级别的。一般bert的训练只取512, 你取30000有点太大了,而且我猜测数据中应该长度为30000的句子也不多,建议取一个<1000的长度。
022020-11-05
相似问题