10 monkeys kaggle commit

来源:6-10 10monkeys基础模型搭建与训练

慕九州7272337

2022-09-07

由上到下依次是图1,图2,图3,图4,图5:
1.我大概训练了6000多秒的时候,epoch的后台log显示epoch到了209的样子,此时因为
个人原因,此时必须关电脑,电脑设置睡眠了。
2.等我第二次开机后,放了一上午突然看到Logs显示running了6万多秒了,但是epoch的进程还是在209,我在想这是程序不能运行了么?
3.于是图1中我点击了Stop Session,但是后台Logs仍然显示running,于是我就强制关掉页面,然后打开your work 结果中却显示epoch已经完成了300次的训练。图5中搜索到我的项目,显示运行了3h。这到底发生了什么?
请教老师:
1.为什么stop session后。logs还会running
2.为什么logs中一直停在第209个epoch,但是我关掉Kaggle页面,再打开kaggle work
却看到epoch运行完了300个epoch
3.从我把电脑关掉设置为睡眠后,第209到300之间的epoch是怎么跑完的?
关上电脑设置为睡眠期间不会一直在跑??还是打开电脑又开始跑的?
4.图1中显示使用的是GPU,但是我发现每个epoch的大概运行时间是30秒左右,这速度算慢还是正常呢?
5.为什么logs后台的时间显示6万多秒,而且一直不停的在时间增长,但是我又看了下kaggle,图5中却显示3h to run,运行了3h
6.像在Kaggle上突然训练中断的情况下您是怎么在下次接着上次训练的结果基础上继续往下训练的?
7.如果不是kaggle平台,比如linux上训练着突然间中断,那么下次怎么接着上次训练的节点继续进行训练,而不是重头开始训练

图片描述
图片描述
图片描述
图片描述
图片描述

写回答

1回答

正十七

2022-09-14

听起来像是你的电脑睡眠后,kaggle服务器端还在跑,然后因为你睡眠了,所以没有刷新页面。但其实存在了服务器上。然后在你点stop session的时候,其他300个已经跑完了。刷新界面自然就能看到了。

0
1
慕九州7272337
那为啥点stop session之后,kaggle服务器端还在跑?
2022-09-15
共1条回复

Google老师亲授 TensorFlow2.0 入门到进阶

Tensorflow2.0实战—以实战促理论的方式学习深度学习

1849 学习 · 896 问题

查看课程