关于图像生成文本

来源：8-20 训练流程代码

紫梦沁香

2021-08-10

图像生成文本中outputs用的是所有的timestep
而文本分类中outputs只截取了最后一个timestep的输出
难道是因为图像生成文本要考虑所有上文再输出下一个单词的关系吗？
而文本分类因为不用输出文字而不用考虑上文，只需要用最后的结果来得出类别吗？
图片描述

写回答

1回答

正十七

2021-08-23

不能这么理解。

首先，lstm的最后一个输出可以看作是整个句子的embedding。因为lstm中有隐含状态来代表句子中所有的词语的embedding。所以即便只用最后一个，也相当于考虑了上文。

其次，也可以用所有位置的输出，不过需要做pooling，因为句子长度是变化的，必须保证从lstm中拿到的embedding的size是固定的。

深度学习之神经网络(CNN/RNN/GAN)算法原理+实战

深度学习算法工程师必学，深入理解深度学习核心算法CNN RNN GAN

2617 学习 · 935 问题

相似问题

回答 1

回答 1

回答 1

回答 1

回答 1