为什么要累计一定记忆再开始学习

来源:7-11 Deep Q Learning 实现迷宫游戏:决策算法(1)

飞行只有我

2018-08-21

写回答

1回答

Oscar

2018-08-21

Q learning 是一种 off-policy 离线学习法, 它能学习当前经历着的, 也能学习过去经历过的, 甚至是学习别人的经历. 所以每次 DQN 更新的时候, 我们都可以随机抽取一些之前的经历进行学习. 随机抽取这种做法打乱了经历之间的相关性, 也使得神经网络更新更有效率。

其将系统探索环境得到的数据储存起来,然后随机采样样本更新深度神经网络的参数(有了一个记忆库之后再开始学习)。

0
0

基于Python玩转人工智能最火框架 TensorFlow应用实践

机器学习入门,打牢TensorFlow框架应用是关键!

2214 学习 · 688 问题

查看课程