老师均值方差标准化有什么直观具体的解释吗?
来源:4-7 数据归一化
神经旷野舞者
2018-02-03
标准化(Standardization,又可以叫均值方差归一化)和最值归一化(Normalization,又可以叫最大最小归一化)都是Feature Rescaling的方法。他们的目的是一样的:都是将数据的特征放到同一个尺度下。
最值归一化感觉很好理解,就是比例缩放,但是均值方差标准化不那么直观 。
我理解是X-X平均值就得到X偏离均值的程度,然后标准差就是整体的偏离程度,然后相除就得到每个值的偏离比例,这样就对偏离成对进行归一化。然后得到无偏的数据,那这样有偏的特征不是被掩盖了吗?
感觉这么理解有些别扭,有没有其他的解释了,概率没学明白。
写回答
1回答
-
简单的说,就是:
最值归一化,是把数据放在了同一个尺度,这个尺度是所有数据在[0,1]之间;
均值方差标准化,也是把数据放在了同一个尺度,这个尺度,是所有数据在均值为0方差为1的分布上。
都是把数据放在同一个尺度,但是这个尺度是什么不同。
至于你说的,“有偏性”被掩盖了,非常对!但掩盖的是特征和特征之间的有偏性,对特征和最终我们关注的结果之间的关系,没有影响。
我们在这个课程讲解PCA的时候,你就会看到,PCA算法我们关注的是特征和特征之间的关系,此时就不能把特征做归一化处理,因为归一化的过程将特征之间的差异抹掉了:)
对于这一点,可以结合你问的上一个问题一起理解:http://coding.imooc.com/learn/questiondetail/41819.html
162018-02-07
相似问题