数据集全量训练,是不是16G的显存不够用了?

来源:10-10 样例例分析与总结

慕慕8288485

2020-10-20

老师,请教一下。

这节课训练完成后,对于短句的翻译效果不错,但是稍长一下就很差,我想应该跟我们学习的样本子集(最大句子长度16)有关。所以我将数据集全量放开,放Google Cloud上面运行,用的1个GPU,16G显存,训练一段时间jupyter就挂掉了。如果只取[:30000],可以正常训练完成。是不是因为显存不够?是不是因为全量的数据样本中句子太长,attention矩阵太大导致?

写回答

1回答

正十七

2020-10-22

是的,attention的复杂度是平方级别的。一般bert的训练只取512, 你取30000有点太大了,而且我猜测数据中应该长度为30000的句子也不多,建议取一个<1000的长度。

0
2
正十七
回复
慕慕8288485
可以分batch去训练啊,我们一般训练不是把全部数据都喂给模型的。
2020-11-05
共2条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程