老师均值方差标准化有什么直观具体的解释吗?

来源:4-7 数据归一化

神经旷野舞者

2018-02-03

标准化(Standardization,又可以叫均值方差归一化)和最值归一化(Normalization,又可以叫最大最小归一化)都是Feature Rescaling的方法。他们的目的是一样的:都是将数据的特征放到同一个尺度下

最值归一化感觉很好理解,就是比例缩放,但是均值方差标准化不那么直观 。

我理解是X-X平均值就得到X偏离均值的程度,然后标准差就是整体的偏离程度,然后相除就得到每个值的偏离比例,这样就对偏离成对进行归一化。然后得到无偏的数据,那这样有偏的特征不是被掩盖了吗?

感觉这么理解有些别扭,有没有其他的解释了,概率没学明白。

写回答

1回答

liuyubobobo

2018-02-04

简单的说,就是:

最值归一化,是把数据放在了同一个尺度,这个尺度是所有数据在[0,1]之间;

均值方差标准化,也是把数据放在了同一个尺度,这个尺度,是所有数据在均值为0方差为1的分布上。


都是把数据放在同一个尺度,但是这个尺度是什么不同。


至于你说的,“有偏性”被掩盖了,非常对!但掩盖的是特征和特征之间的有偏性,对特征和最终我们关注的结果之间的关系,没有影响。


我们在这个课程讲解PCA的时候,你就会看到,PCA算法我们关注的是特征和特征之间的关系,此时就不能把特征做归一化处理,因为归一化的过程将特征之间的差异抹掉了:)


对于这一点,可以结合你问的上一个问题一起理解:http://coding.imooc.com/learn/questiondetail/41819.html

1
6
慕慕9414451
回复
liuyubobobo
谢谢!
2018-02-07
共6条回复

Python3入门机器学习 经典算法与应用  

Python3+sklearn,兼顾原理、算法底层实现和框架使用。

5761 学习 · 2427 问题

查看课程