Show attend and tell的LSTM“模型过载”的理解
来源:8-7 Bottom-up Top-down Attention模型
慕虎9426780
2019-10-26
在对比Top-down and bottom-up attention模型和show attend and tell模型时,视频提到show attend and tell里只用了一层LSTM,这里的LSTM既要做图像注意力计算又要做文本生成,学习的任务“太多了”,导致模型过载,从而学得不好。
我对“要学得太多了从而学不好”的理解有些不太一样的角度,不知道这样理解对不对?
- 生成模型(我理解show attend and tell不是判别模型?)本质上是在拟合输入数据的联合概率分布。如果是输入“太多了而学不好”的话,一定程度上可以看作模型under-fitting,不能很好地拟合输入的分布。增加参数数目(“参数数目一定程度上可以反映模型的容量,参数越多理论上模型就可以学习到更多的东西”),比如hidden size, 模型层数(“在代码的领域,所有的问题都可以用分层去解决”?),增强模型fit分布的能力,理论上是不是可以减轻问题?
- 计算图像注意力和生成文本两件事可能差别比较大,从而二者概率分布的相关性也相对弱(能否这么理解?)。一套模型需要同时拟合两套不同的概率分布比较难(相反,如果两个任务比较类似,他们的分布也比较接近的话,模型学习起来会容易一些)。与其说“任务太多了”,我理解起来更像是“任务太杂了”,从而模型学不好?
写回答
1回答
-
同学你好,从问题描述中我觉得你思考的比较深入,很高兴你能提出这样的理解。
完全赞同你的想法。
增大hidden size确实可以提升模型的容量,但是如果任务拆分则是结构化的改进,会带来更大的提升。也就是你说的“拟合两套不同的概率分布比较难”。
增加模型层数跟“代码领域,所有的问题可以用分层去解决”关联不大,这里的top-down 和bottom-up更像是拆分层次。
00
相似问题