reward是做什么用的?
来源:9-19 构建解码器(8)

qq_殘柒尨oo_04248439
2019-03-25
self.loss_rewards = seq2seq.sequence_loss(
logits=decoder_logits_train,
targets=self.decoder_inputs,
weights=self.masks_rewards,
average_across_timesteps=True,
average_across_batch=True)
self.loss = seq2seq.sequence_loss(
logits=decoder_logits_train,
targets=self.decoder_inputs,
weights=self.masks,
average_across_timesteps=True,
average_across_batch=True)
这两个函数有什么区别?
为什么mask要乘reward?
计算loss_reward有什么用处?
写回答
1回答
-
Mr_Ricky
2019-04-29
实际上这里的reward可以理解为奖励值,我们要计算不同的奖励值。
00
相似问题