为什么要累计一定记忆再开始学习
来源:7-11 Deep Q Learning 实现迷宫游戏:决策算法(1)
飞行只有我
2018-08-21
写回答
1回答
-
Oscar
2018-08-21
Q learning 是一种 off-policy 离线学习法, 它能学习当前经历着的, 也能学习过去经历过的, 甚至是学习别人的经历. 所以每次 DQN 更新的时候, 我们都可以随机抽取一些之前的经历进行学习. 随机抽取这种做法打乱了经历之间的相关性, 也使得神经网络更新更有效率。
其将系统探索环境得到的数据储存起来,然后随机采样样本更新深度神经网络的参数(有了一个记忆库之后再开始学习)。
00
相似问题