请教字段间的相关性衡量问题。
来源:8-2 线性相关和线性无关
Jazz_Qi
2018-12-13
我看了老师这集线性相关的课程后就想您所说的线性相关是指空间中的坐标轴的相关性。但实际工作中一堆数据所在空间的维度是多少是不确定的,我不知道是否有些字段可以用其它字段来表述,最开始只能通过定性分析。然后可以用相关系数衡量不同变量间的相关性,但数据表虽然也是矩阵但不是坐标系,而是存在于坐标系中的信息点。那可否通过线性回归得到的系数是否存在线性组合来判断数据表是否字段共线性?还是说线性回归得到的回归系数已经体会了去除多余字段呢?这节课的内容与降维(PCA之类)是否有什么关系?
不好意思,问题比较多,谢谢老师。
1回答
-
liuyubobobo
2018-12-13
这一小节的内容既和线性回归相差甚远,也和PCA相差甚远。当然,这一小节的内容都是这两个算法的基础的基础的基础。事实上,对于这两个算法,在这个课程后续合适的时候,我都会提及的:)(不过由于课程定位原因,不会做详细介绍,但我正在思考是否做一些补充内容,补充在这个课程或者我的机器学习课程中,待定。)
首先,一堆数据所在的维度是确定的。这组数据有多少特征,我们就在几维空间中做处理。不确定的是子空间(课程后续会讲)。但即使如此,对于一般的数据,通常不会那么巧,明明是n维数据,大家却都落在一个n-1为的空间中,现实生活中的实际数据,这个概率近乎为零。
PCA做的事情不是去除“没有信息的轴”(因为通常没有这样的轴),而是在基变换后(后续会讲)去除“信息量低的轴”。这二者有本质区别。前者太简单了,求一个列空间就好(后续会讲),而后者则复杂很多。当然,如果你的数据真的那么“奇怪”,存在绝对的冗余信息,那么他的信息量显然是低的,在PCA的过程中也能被正确的去除。
同样,线性回归也无法去除多余字段,线性回归做的是拟合。线性回归的系数,是y与每一个特征的相关性;而线性相关和线性无关,是x内部的性质,线性回归无法表达。(监督学习都无法表达,监督学习表达的是X和y的关系,非监督学习才表达X内部的关系。比如PCA就是一种非监督学习。)
另外一个理解线性回归的方式,是投影(课程中会提及)。
继续往后学习,详细你会理解的更深刻的:)
加油!:)
022018-12-13
相似问题