关于各层的几个问题
来源:3-12 全连接层

CYW好好学习
2019-04-25
1、既然最初输入的数据都是经过 BatchNorm 变成了一堆均值为0,方差为1分布的数,那么就是有大约一半的数据变成了负数吧,再经过ReLU把很多值变成了0,不就像3-10节讲的那样杀死很多神经元了吗?
2、本节中的那个汽车分类图每种层加那么多次的目的各是什么?
3、从5:06秒开始,对那个“特征提取”不明白,首先我不太明白“特征提取”这个概念,目的是什么?为什么还要在最后一个FC层之前再定义一个FC层?为什么前一个FC层的长度要是1024或1024的整数倍?此时说的1024的整数倍,512(除以了2)和2048(乘以了2)都符合“整数倍”吗?
4、8:28时那个词没听懂,“这也是为什么我们进行 ** 的时候”,这个词怎样写啊(⊙_⊙)?
请详细讲讲吧~
1回答
-
会写代码的好厨师
2019-04-28
1. BN层实际上可以放在Relu之前,也可以放在之后,relu的目的之一就是为了增加非线性表达能力。在转换成0-1分布之后,理论上确实会有很多值为0,所以两者一起用,也会起到一定的正则化的作用。
2. 没太明白什么是“那么多次”?是卷积核的数量么?每一种卷积核对应一种特征,多个卷积核就是多种特征,理论上自然是特征越丰富越有利。
3. 特征提取的概念是模式识别中比较经典的一个概念。在图像处理中,一副图像就是一个矩阵,直接用一个图像矩阵来做运算,比如计算两个矩阵的相似度,这时候如果矩阵有一点点变化,比如旋转,在计算两个矩阵的距离(拉成向量)的时候,就会出现很大的偏差,所以我们需要进行特征提取,经过一些变换将矩阵变成向量,这些向量有一些特点就是,不管原始图像做什么变换,最终输出的特征向量变换都很小。那我们就可以用这个特征向量来表示原始图像。当图像发生光照的变化或者其他的变化时,不影响最后的特征向量,我们在用提取出来的特征向量计算后续的相似性或者分类,结果也就会对噪声鲁棒。
因为最后一个FC层是概率分布,会存在很明显的偏向性(偏向类别)。所以在分类之前会在加一个FC层,作为特征层。
1024这种都是8的整数倍,也可以是其他的数字。只是在计算机领域多用8的整数倍,在进行低层优化的时候,也会更方便。
4.fine-tuning 可以理解成使用预训练模型。因此FC层参数量有变化,这个层会没办法直接做finetuning。就是把已经训练好的模型的参数赋值上去。因为个数对不上。
00
相似问题
回答 1
回答 1
回答 1
回答 2
回答 1