数据集全量训练，是不是16G的显存不够用了？

首页课程实战体系课手记专栏慕课教程

数据集全量训练，是不是16G的显存不够用了？

来源：10-10 样例例分析与总结

慕慕8288485

2020-10-20

老师，请教一下。

这节课训练完成后，对于短句的翻译效果不错，但是稍长一下就很差，我想应该跟我们学习的样本子集（最大句子长度16）有关。所以我将数据集全量放开，放Google Cloud上面运行，用的1个GPU，16G显存，训练一段时间jupyter就挂掉了。如果只取[:30000]，可以正常训练完成。是不是因为显存不够？是不是因为全量的数据样本中句子太长，attention矩阵太大导致？

写回答

1回答

正十七

正十七

2020-10-22

已采纳

是的，attention的复杂度是平方级别的。一般bert的训练只取512, 你取30000有点太大了，而且我猜测数据中应该长度为30000的句子也不多，建议取一个<1000的长度。

0

2

正十七

回复

慕慕8288485

可以分batch去训练啊，我们一般训练不是把全部数据都喂给模型的。

2020-11-05

共2条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

相似问题

老师，为什么训练集打印的是metric，而验证集打印的是loss？

回答 1

请教一个交叉验证的问题

回答 1

为什么需要对dataset 做 dataset.repeat(epochs).batch(batch_size)操作？

回答 1

cifar10采用resnet50效果不好

回答 1

关于交叉验证

回答 1

打开慕课网App查看更多内容