「特征值分解」和「奇异值分解」的几何意义
「特征值分解」和「奇异值分解」的几何意义
在矩阵分解中, 有 2 个常见的分解特征值分解和奇异值分解, 其中后者可以看成是前者的一般情况. 我们将从变换的角度来阐释分解的实际意义.[1][2]
1. 1. 特征值分解
写在前面
在绝大部分的教材中, 特征值分解的推导是直接通过移项直接得到的. 这样的证明非常简单, 但是会给读者一些困惑. 为什么通过一个特殊的等式就可以得出的一种普适性的分解? 换句话说, 这样的证明似乎无法直接阐释的意义.
回归矩阵变换的本质, 当我们想证明 2 个变换, 相同时, 我们可以证明, 有. 因此, 我们尝试直接证明
证明
设, 其中为方阵的一组特征向量, 且线性无关. 显然可作为维线性空间中的一组基. 即, 存在唯一, 使得
解释
我们重新回顾证明的过程, 可以发现, 矩阵其实把拆解为 3 次基变换.
第一次变换得到的结果是
即把原本由个线性无关的特征向量组成的基底变换为标准正交基. 此时基的长度各自拉伸至倍, 旋转角度至水平垂直.第二次变换的结果是
即把个标准正交基按特征值进行拉伸. 此时基的长度又拉伸了倍, 角度没有发生变化.第三次变换的结果是
此时基的长度拉伸了倍, 旋转角度至基原来的位置.整个过程中, 基底长度拉伸了倍, 没有进行旋转. 这正与对于特征向量的变换完全一致!因此, 我们完美的解释了为什么.
下面给出二维情况的示意图
当矩阵为实对称阵时, 我们可以找到一组标准正交的特征向量组成正交矩阵. 使得

2. 2. 奇异值分解
在通过基底变换的角度理解了特征值分解, 再去理解奇异值分解是一件非常容易的事.
在一般的情况中, 我们往往找不到个在变换前后不改变方向的向量. 即无论怎么找, 总会有向量方向会发生改变. 在这种情况下, 我们引入一个广义上的特征向量--奇异向量.
我们期望有一组标准正交的向量, 在矩阵变换前后仍保持正交的性质, 只有长度发生伸缩. 即存在, 有
其中, 令仍为一组标准正交基.
此时我们需要找到这样的, 使得等式成立. 在这里引入一个引理.
证明
首先为对称阵, 其必能产生一组标准正交的特征向量组(等价于一定能正交对角化). 对应个特征值, 其中, , 为的正惯性系数/秩.(显然半正定)
因此只需证明为正交向量组. 即证明做内积, 当时, 有.
注意到有这样的等式
由于为标准正交基, 因此显然有故证毕.在证明这个引理过程中, 我们还可以得到一个结论, 即
因此我们对向量组分别进行标准化, 即令, . 此时为标准正交向量组.但此时注意, 由于维度为, 在进行变换后将维向量变换到了维. 因此, 我们应该在维线性空间中构造标准正交基. 而这是很容易的办到的, 因为已有一组标准正交向量组, 一定能补充为, 使得其为标准正交基.
此时, 扩充的实际是无关紧要的, 因为我们发现他们伸缩的长度为倍, 即这些维度其实在变换后坍缩了(这是因为的秩只有).
至此, 我们得到这样的等式
因此有其中.此时, 我们也可以仿照特征值分解的方式给出几何意义.
其中的变换意义是把在维空间中的(右)奇异向量转化为维空间中的标准正交基.
的变换意义是把维空间中的标准正交基转化为维空间中的标准正交基, 并进行拉伸操作.
的变换意义是对维中的拉伸后的标准正交基进行旋转操作至(左)奇异向量.
至此, 奇异值分解的几何意义也得到了完美解释!
在文章后面, 我们还想谈谈为什么要从中得到特征向量, 其特征值正好等于奇异值的平方. 在这里, 我们借助已经得到的奇异值分解的结论来说明这个问题.
首先, 我们想探究的几何意义.[3]根据奇异值分解, 我们很容易得到有
其几何意义为
其中正好有.
此时, 我们再去探究的几何意义, 会发现豁然开朗!.
仔细观察变换过程, 会发现我们将也可拆解为 2 次变换.
第一次变换 将右奇异向量变换为左奇异向量, 其中长度伸长了倍.
第二次变换 将左奇异向量变换回右奇异向量, 其中长度又伸长了倍.
在 2 次变换后, 右奇异向量的位置并没有发生改变, 长度伸长了倍, 这正是特征向量的定义!
因此, 我们从变换的角度再一次完美地解释了为什么要从中得到特征向量.
值得一提的是, 我们发现与似乎有正好相反的旋转变换, 事实上, 当的正奇异值均为 1 时, 且为满秩方阵时(即没有维度变化), 正好有.