reward是做什么用的?

来源:9-19 构建解码器(8)

qq_殘柒尨oo_04248439

2019-03-25

self.loss_rewards = seq2seq.sequence_loss(

logits=decoder_logits_train,

targets=self.decoder_inputs,

weights=self.masks_rewards,

average_across_timesteps=True,

average_across_batch=True)


self.loss = seq2seq.sequence_loss(

logits=decoder_logits_train,

targets=self.decoder_inputs,

weights=self.masks,

average_across_timesteps=True,

average_across_batch=True)

这两个函数有什么区别?

为什么mask要乘reward?

计算loss_reward有什么用处?

写回答

1回答

Mr_Ricky

2019-04-29

实际上这里的reward可以理解为奖励值,我们要计算不同的奖励值。

0
0

NLP实践TensorFlow打造聊天机器人

解析自然语言处理( NLP )常用技术,从0搭建聊天机器人应用并部署上线,可用于毕设。

673 学习 · 281 问题

查看课程