关于图像文本生成
来源:8-18 计算图构建-图片与词语embedding
紫梦沁香
2021-08-08
是不是因为文本分类最后是要得出一个类别,所以最后的num_timesteps也是需要输入到lstm中,与真正的label作一个交叉熵损失函数
而图像文本生成则不需要得出最后的类别,因此lstm中不用输入最后一个num_timesteps,而是用img_feature作为第一个输入代表图像特征,[img_feature,a,b,c,d,e,…]
写回答
1回答
-
正十七
2021-08-23
num_timesteps是一个数字,最后一个num_timesteps这个说法不对哈。
我理解你表达的意思是最后一个词语要不要输入,这个比较灵活,看你的设置。
比如,图片文本生成任务上,输入输出可以是[img_feature, a, b, c, d]和[a, b, c, d, e], 此时最后一个词语不会被当作输入。我们也可以在最后一个位置上补一个特殊字符 </S>代表句子结尾,这样输入输出就变成了 [img_feature, a, b, c, d, e]和[a, b, c, d, e, </S>]
00
相似问题