Show attend and tell的LSTM“模型过载”的理解

来源:8-7 Bottom-up Top-down Attention模型

慕虎9426780

2019-10-26

在对比Top-down and bottom-up attention模型和show attend and tell模型时,视频提到show attend and tell里只用了一层LSTM,这里的LSTM既要做图像注意力计算又要做文本生成,学习的任务“太多了”,导致模型过载,从而学得不好。
我对“要学得太多了从而学不好”的理解有些不太一样的角度,不知道这样理解对不对?

  1. 生成模型(我理解show attend and tell不是判别模型?)本质上是在拟合输入数据的联合概率分布。如果是输入“太多了而学不好”的话,一定程度上可以看作模型under-fitting,不能很好地拟合输入的分布。增加参数数目(“参数数目一定程度上可以反映模型的容量,参数越多理论上模型就可以学习到更多的东西”),比如hidden size, 模型层数(“在代码的领域,所有的问题都可以用分层去解决”?),增强模型fit分布的能力,理论上是不是可以减轻问题?
  2. 计算图像注意力和生成文本两件事可能差别比较大,从而二者概率分布的相关性也相对弱(能否这么理解?)。一套模型需要同时拟合两套不同的概率分布比较难(相反,如果两个任务比较类似,他们的分布也比较接近的话,模型学习起来会容易一些)。与其说“任务太多了”,我理解起来更像是“任务太杂了”,从而模型学不好?
写回答

1回答

正十七

2019-10-28

同学你好,从问题描述中我觉得你思考的比较深入,很高兴你能提出这样的理解。

完全赞同你的想法。

增大hidden size确实可以提升模型的容量,但是如果任务拆分则是结构化的改进,会带来更大的提升。也就是你说的“拟合两套不同的概率分布比较难”。

增加模型层数跟“代码领域,所有的问题可以用分层去解决”关联不大,这里的top-down 和bottom-up更像是拆分层次。

0
0

深度学习之神经网络(CNN/RNN/GAN)算法原理+实战

深度学习算法工程师必学,深入理解深度学习核心算法CNN RNN GAN

2617 学习 · 935 问题

查看课程