请问第139行的“是否替换Q_target_net参数”是什么意思,作用是什么?
来源:7-14 Deep Q Learning 实现迷宫游戏:决策算法(4)和主程序

永不止息L
2018-12-14
请问第139行的“是否替换Q_target_net参数”是什么意思,作用是什么?
写回答
1回答
-
Q_target_net 是现实网络。
DQN 中存在两个结构完全相同但是参数却不同的网络,预测 Q 估计的网络 MainNet 使用的是最新的参数,而预测 Q 现实的神经网络 TargetNet 参数使用的却是很久之前的,Q(s,a;θi)Q(s,a;θi) 表示当前网络 MainNet的输出,用来评估当前状态动作对的值函数;Q(s,a;θ−i)Q(s,a;θi−) 表示 TargetNet 的输出,可以解出targetQ,因此当 agent 对环境采取动作a时就可以根据上述公式计算出 Q 并根据 LossFunction 更新 MainNet 的参数,每经过一定次数的迭代,将 MainNet 的参数复制给 TargetNet。这样就完成了一次学习过程。
012019-01-01
相似问题