请问第139行的“是否替换Q_target_net参数”是什么意思,作用是什么?

来源:7-14 Deep Q Learning 实现迷宫游戏:决策算法(4)和主程序

永不止息L

2018-12-14

请问第139行的“是否替换Q_target_net参数”是什么意思,作用是什么?

写回答

1回答

Oscar

2018-12-24

Q_target_net 是现实网络。

DQN 中存在两个结构完全相同但是参数却不同的网络,预测 Q 估计的网络 MainNet 使用的是最新的参数,而预测 Q 现实的神经网络 TargetNet 参数使用的却是很久之前的,Q(s,a;θi)Q(s,a;θi) 表示当前网络 MainNet的输出,用来评估当前状态动作对的值函数;Q(s,a;θ−i)Q(s,a;θi−) 表示 TargetNet 的输出,可以解出targetQ,因此当 agent 对环境采取动作a时就可以根据上述公式计算出 Q 并根据 LossFunction 更新 MainNet 的参数,每经过一定次数的迭代,将 MainNet 的参数复制给 TargetNet。这样就完成了一次学习过程。


0
1
永不止息L
非常感谢!
2019-01-01
共1条回复

基于Python玩转人工智能最火框架 TensorFlow应用实践

机器学习入门,打牢TensorFlow框架应用是关键!

2214 学习 · 688 问题

查看课程