关于图像文本生成

来源:8-18 计算图构建-图片与词语embedding

紫梦沁香

2021-08-08

是不是因为文本分类最后是要得出一个类别,所以最后的num_timesteps也是需要输入到lstm中,与真正的label作一个交叉熵损失函数
而图像文本生成则不需要得出最后的类别,因此lstm中不用输入最后一个num_timesteps,而是用img_feature作为第一个输入代表图像特征,[img_feature,a,b,c,d,e,…]

写回答

1回答

正十七

2021-08-23

num_timesteps是一个数字,最后一个num_timesteps这个说法不对哈。

我理解你表达的意思是最后一个词语要不要输入,这个比较灵活,看你的设置。

比如,图片文本生成任务上,输入输出可以是[img_feature, a, b, c, d]和[a, b, c, d, e], 此时最后一个词语不会被当作输入。我们也可以在最后一个位置上补一个特殊字符 </S>代表句子结尾,这样输入输出就变成了 [img_feature, a, b, c, d, e]和[a, b, c, d, e, </S>]

0
0

深度学习之神经网络(CNN/RNN/GAN)算法原理+实战

深度学习算法工程师必学,深入理解深度学习核心算法CNN RNN GAN

2617 学习 · 935 问题

查看课程