关于图像文本生成

来源：8-18 计算图构建-图片与词语embedding

紫梦沁香

2021-08-08

是不是因为文本分类最后是要得出一个类别，所以最后的num_timesteps也是需要输入到lstm中，与真正的label作一个交叉熵损失函数
而图像文本生成则不需要得出最后的类别，因此lstm中不用输入最后一个num_timesteps，而是用img_feature作为第一个输入代表图像特征，[img_feature,a,b,c,d,e,…]

写回答

1回答

正十七

2021-08-23

num_timesteps是一个数字，最后一个num_timesteps这个说法不对哈。

我理解你表达的意思是最后一个词语要不要输入，这个比较灵活，看你的设置。

比如，图片文本生成任务上，输入输出可以是[img_feature, a, b, c, d]和[a, b, c, d, e], 此时最后一个词语不会被当作输入。我们也可以在最后一个位置上补一个特殊字符 </S>代表句子结尾，这样输入输出就变成了 [img_feature, a, b, c, d, e]和[a, b, c, d, e, </S>]

深度学习之神经网络(CNN/RNN/GAN)算法原理+实战

深度学习算法工程师必学，深入理解深度学习核心算法CNN RNN GAN

2617 学习 · 935 问题

查看课程

相似问题

关于两个图像生成文本的概念

回答 1

关于图像生成文本

回答 1

关于制作图像数据集

回答 1

文本生成图像

回答 1

关于文本生成图片

回答 1

打开慕课网App查看更多内容