还是没理解特征值和特征向量跟投影变换有什么关系
来源:13-4 直观理解特征值与特征向量
mzzlvy
2021-11-19
问题一、特征值和特征向量跟投影变换有什么关系。
从Au=λu 也看不出来,一个常数乘以一个向量,只能改变向量的长度吧。自己看自己之前的回答也不理解自己之前怎么想的了,,,
问题二、特征值到底是什么的特征
|A-λE|=0,λE是纯量阵,说明只要λ的值使得AA-λE是线性相关的就行,从方程组的角度理解就是要减少一个方程,从空间的角度理解就是消去一个基?对于对角矩阵来说,特征就是对角上的值,那么这有什么意义吗,行列式可以在二维平面中理解为面积,特征值理解为组成面积的对应的有向边长?特征向量呢怎么理解。。
1回答
-
这一小节介绍的所谓的“特征值和特征向量与投影的关系”,是指我们通过特征向量和特征值的定义,在一些情况下,可以不通过特征方程,求解出特征值和特征向量。因为 Ax = λx,其左边 Ax 可以理解成是对向量 x 做 A 变换,右边可以理解成是对 x 做缩放(而方向不变)。
在这种情况下,如果我们已知 A 是一个什么变换,就可以用几何的方式得到其特征值和特征向量。比如这一小节 9:35 的地方,我们知道这个矩阵 A 做的变换是将二维空间的任意向量对 y = x 做翻转,那么,我们就可以直接对这种变换的几何含义进行分析,得到其特征值是 1 和 -1,进而我们也可以得到其特征向量(或者说是特征空间的一组基)是 (1, 1) 和 (-1, 1) 。
甚至,我们不知道 A 这个矩阵是什么,只知道 A 做在什么变换,在有的时候,都能直接得到其特征值和特征向量。比如如果我们知道 A 做的变换是把任意向量投影到 (2, 1) 上,那么,我们甚至可以不知道矩阵 A 究竟是什么样子的,就可以直接得到,其特征值是 1 和 0。这就是这一小节 1:00 开始的例子。
注意:不是特征值和特征向量一定和“投影变换”有关系,而是因为“投影变换”很简单,并且有很直观的几何含义,所以我们假设 A 是一个投影变换,来看一下表示投影变换的矩阵 A,其特征值和特征向量是什么样子。因为 A 有很直观的几何含义,所以我们也可以用几何的方式快速看出来 A 的特征值和特征向量是怎样的,让大家更直观的理解:什么是一个矩阵 A 的特征值和特征向量,而不是只是通过特征方程,用代数的方式去计算。
下面最关键的问题来了,就是你说的问题 2:
==========
特征值和特征向量到底是什么特征。在这里,首先说明一点,就是“特征”这个翻译带有一定的 misleading,在中文中,我们看到“特征”这个词,总觉得可以很直接的“看到”这个特征到底是什么。但是,特征值和特征向量的这个“特征”,在英文中是 “eigen”,而不是 feature 或者 characteristic。在日本或者台湾的课本中,将其翻译成“本征”或者“固有”(本征值,本征向量;或者 固有值,固有向量),我觉得可能误解更小一些。它不是一个我们直接用眼睛就能观测到的“特征”(更不用提很多时候,我们使用的矩阵 A 是没有几何含义的。)
那么既然管它叫“固有值”,他肯定“固有”了一个东西,这个东西是什么?这就是在 13-7 小节我向大家介绍的内容:
一个矩阵(或者一个变换),我们可以在不同的坐标系下观察他。但是,**不管在哪个坐标系下观察,他们的特征值和特征向量是不变的!这就是这个矩阵“固有”的东西。**
换成数学语言就是,如果 A 和 B 相似,其特征方程相同,特征值相同。
==========
那么这有什么用?
答案不是特征值和特征向量有什么直接的作用,而是通过特征值和特征向量,我们可以解决什么问题。换句话说,特征值和特征向量是一个工具。
这在数学中是很常见的。比如:任意一个大于 1 的正整数,都可以分解成一系列素数的乘积,并且分解方式唯一。这叫做算术基本定理。这是任意一个大于 1 的正整数的固有性质。这有什么用?单独看这个分解,没有用,但是,这可以帮助我们解决诸如“密码学”上的很多问题。
同理,当我们知道了特征值和特征向量以后,深入挖掘,就会发现很多问题的求解,最终会落到特征值和特征向量上,和他们有关。在这个课程中,我其实举了两个例子。
第一个例子,就是这一章后续介绍的矩阵对角化的问题。
我们为什么关心矩阵的对角化?因为我们关心矩阵的幂。我们为什么关心矩阵的幂?因为在现实生活中,有大量问题的形式,是矩阵的幂的形式。就是这一页 ppt 总结的:
为什么有大量问题的形式是矩阵的幂?这很好理解,因为矩阵 A 可以表达对一个初始的状态 u0 做一个变换。无论是经济指标的变换,物体运动的变换,天体状态的变换,身体健康情况的变换,等等等等等等等等。这个世界就是一个不断变换的世界,我们要研究的问题的关键,就是变换。
那么从 u0 做一次变换,是 Au0,做两次变换,就是 AAu0,做三次变换,就是 AAAu0,做 k 次变换,就是 A^k * u0。这样我们就建立起了一个预测从 u0 开始,经过 k 次(比如时间 k 秒)后,事物状态的模型。
怎么计算 A^k?直接使用矩阵乘法是低效的。矩阵乘法最快的复杂度都在 O(n^2) 以上。如果你有算法功底就会明白,O(n^2) 是很低效的。但是,我们发现,如果 A 是一个对角矩阵,那么计算其矩阵的幂是很简单的。但如果 A 不是对角矩阵呢?我们可以想办法,变换一个坐标系,让 A 在新的坐标系下成为对角矩阵,再进行计算。
让 A 在新的坐标系下成为对角矩阵,这就是矩阵的对角化。
下面的问题是,怎么给一个矩阵做对角化?答案藏在特征值和特征向量中!如果 A 有 n 个线性无关的特征值和特征向量,那么把这些特征值在对角线上排列起来,就是 A 的对角化矩阵!
这就是特征值和特征向量的作用(之一)!
==========
第二个例子,在下一章。在我们研究对称矩阵的时候,会发现,对称矩阵有一个“优美”的性质,那就是对称矩阵一定可以被对角化!不仅如此,其对应的特征向量还是互相垂直的。(或者说对称矩阵的特征向量直接构成了其特征空间的正交基)
这有什么用?这一切性质,让我们可以把任何一个矩阵,做 SVD 分解。分解成下面的形式。(要想求解出任何矩阵的 SVD 分解,需要你先知道特征值和特征向量。具体的推导下一章有。)
这个形式本身,就是统计学中大名鼎鼎的 PCA 的形式,可以用于降维。
但这个形式的应用不仅仅局限在 PCA 上,也可以应用在其他领域(比如我们把 A 看做是一张图片),我们就可以用他做图像的压缩或者图像的去噪处理。
==========
讲到这里,其实也就延伸出了一个非常重要的概念,那就是:数学是一种工具。
举个例子,我们学习开方根有什么用?开方根就是对于一个数字 x,找到一个数字 a,使得 a * a = x。只管看,我们除了把 x 看成是一个正方形的面积,用开方根来计算这个正方形的边长 a 以外,似乎就没有直接作用了。
但实际上,开方根是一个数学工具。我们解方程的时候,会看到开方根;学习三角函数的时候,会看到开方根,物理公式里有开方根,等等等等等。学习开方根的真正意义,不是为了计算一个面积是 x 的正方形的边长 a,而是在我们研究更深入的问题的时候,会发现经常使用开方根。当我们看到开方根的时候,理解这个数学符号或者数学概念是什么意思。
这也就延伸出了我对数学学习的一个建议:简单来说,就是,如果脱离了考试教育以后,我是不建议大家“补数学”的。为什么?因为数学的世界太广袤了,同时,如果你不是一个纯粹的数学爱好者的话,数学的知识太抽象了。直接看数学的知识,很难看到这些数学知识有什么用。
因为数学本身就是一种建模手段。我们是先把实际的问题,转换成数学问题,之后求解数学问题,从而解决了这个实际问题的。然而,学习数学知识,在大多数情况下,都是在直接学习“求解一个数学问题”这个过程,而没有看到“这个数学问题到底对应了什么实际问题”(实际上,一个数学问题,可能是解决很多实际问题的工具,比如解方程。)这就会使得,如果你不是一个纯粹的数学爱好者的话,学习数学觉得“没有用”,从而丧失学习数学的兴趣。
我的建议是:去接触真实的领域。比如图像学,比如密码学,比如机器学习,比如物理学,比如经济学,等等等等(我相信这也是大多数同学学习数学的根本目的,是学好这些领域,而非是和纯粹的数学较劲。)在学习这些领域的过程中,如果发现一个数学知识或者概念自己不理解,或者掌握的不透彻,以至于阻碍你理解这个领域知识了,再回头看这部分数学。这会让你学习数学的目标更清晰。更关键的是,非常明确自己为什么要学习这部分数学知识,是为了解决什么问题。
说回特征值和特征向量。当你学习其他领域的时候,看到这些领域的问题,是如何转换成一个数学问题的,而这个数学问题,最终又是怎样通过特征值和特征向量求解的,你自然就明白特征值和特征向量有什么用了。此时,你再回头去研究和特征值与特征向量相关的这些数学,就会对这部分知识有更加深刻的理解了。
继续加油!:)
212021-11-20
相似问题