「特征值分解」和「奇异值分解」的几何意义

Lingfeng2024-01-24

「特征值分解」和「奇异值分解」的几何意义

在矩阵分解中, 有 2 个常见的分解特征值分解和奇异值分解, 其中后者可以看成是前者的一般情况. 我们将从变换的角度来阐释分解的实际意义.^[1]^[2]

1. 1. 特征值分解

写在前面
在绝大部分的教材中, 特征值分解的推导是直接通过 $AP = P\Lambda$ 移项直接得到的. 这样的证明非常简单, 但是会给读者一些困惑. 为什么通过一个特殊的等式就可以得出 $A$ 的一种普适性的分解? 换句话说, 这样的证明似乎无法直接阐释 $A = P\Lambda P^{-1}$ 的意义.

回归矩阵变换的本质, 当我们想证明 2 个变换 $A$ , $B$ 相同时, 我们可以证明 $\forall \boldsymbol{\xi}$ , 有 $A\boldsymbol{\xi} = B\boldsymbol{\xi}$ . 因此, 我们尝试直接证明

A\boldsymbol{\xi} = (P\Lambda P^{-1})\boldsymbol{\xi}

证明
设 $P = (\boldsymbol{\varepsilon_{1}}, \boldsymbol{\varepsilon_{2}},..., \boldsymbol{\varepsilon_{n}})$ , 其中 $\boldsymbol{\varepsilon_{1}}, \boldsymbol{\varepsilon_{2}},..., \boldsymbol{\varepsilon_{n}}$ 为方阵 $A$ 的一组特征向量, 且线性无关. 显然 $(\boldsymbol{\varepsilon_{1}}, \boldsymbol{\varepsilon_{2}},..., \boldsymbol{\varepsilon_{n}})$ 可作为 $n$ 维线性空间 $V$ 中的一组基. 即 $\forall \boldsymbol{\xi} \in V$ , 存在唯一 $\boldsymbol{x} = \begin{pmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{pmatrix}$ , 使得

\boldsymbol{\xi} = (\boldsymbol{\varepsilon_{1}}, \boldsymbol{\varepsilon_{2}},..., \boldsymbol{\varepsilon_{n}})\begin{pmatrix} x_{1} \\ x_{2} \\ \vdots \\ xn\end{pmatrix} = P\boldsymbol{x}

因此

\begin{align*} (P\Lambda P^{-1})\boldsymbol{\xi} &= P\Lambda (P^{-1}P)\boldsymbol{x} \\ &= P\Lambda \boldsymbol{x} \\ &= (\boldsymbol{\varepsilon_{1}}, \boldsymbol{\varepsilon_{2}},..., \boldsymbol{\varepsilon_{n}})\begin{pmatrix} \lambda_{1} \\ & \lambda_{2} \\ & & \ddots \\ & & & \lambda_{n} \end{pmatrix}\boldsymbol{x} \\ &= (\lambda_{1}\boldsymbol{\varepsilon_{1}}, \lambda_{2}\boldsymbol{\varepsilon_{2}},..., \lambda_{n} \boldsymbol{\varepsilon_{n}})\boldsymbol{x} \end{align*}

根据特征向量定义有

A\boldsymbol{\varepsilon}_{i} = \lambda_{i}\boldsymbol{\varepsilon}_{i}

i = 1, 2, \dots, n

, 因此

\begin{align*} (P\Lambda P^{-1})\boldsymbol{\xi} &= (A\boldsymbol{\varepsilon}_{1}, A\boldsymbol{\varepsilon}_{2}, \dots, A\boldsymbol{\varepsilon}_{n})\boldsymbol{x} \\ &= A(\boldsymbol{\varepsilon}_{1}, \boldsymbol{\varepsilon}_{2}, \dots, \boldsymbol{\varepsilon}_{n})\boldsymbol{x} \\ &= A\boldsymbol{\xi} \end{align*}

故得证.

解释
我们重新回顾证明的过程, 可以发现, 矩阵 $P\Lambda P^{-1}$ 其实把 $A$ 拆解为 3 次基变换.

第一次变换得到的结果是

I = P^{-1}P

即把原本由

n

个线性无关的特征向量组成的基底变换为标准正交基. 此时基的长度各自拉伸至

\frac{1}{\lvert \boldsymbol{\varepsilon}\_{i} \rvert}

倍, 旋转角度至水平垂直.

第二次变换的结果是

\hat{I} = \Lambda I

即把

n

个标准正交基按特征值进行拉伸. 此时基的长度又拉伸了

\lambda_{i}

倍, 角度没有发生变化.

第三次变换的结果是

\hat{A} = P \hat{I}

此时基的长度拉伸了

\lvert \boldsymbol{\varepsilon}_{i} \rvert

倍, 旋转角度至基原来的位置.

整个过程中, 基底长度拉伸了 $\frac{1}{\lvert \boldsymbol{\varepsilon}_{i} \rvert} \cdot \lambda_{i} \cdot \lvert \boldsymbol{\varepsilon}_{i} \rvert = \lambda_{i}$ 倍, 没有进行旋转. 这正与 $A$ 对于特征向量的变换完全一致！因此, 我们完美的解释了为什么 $A = P\Lambda P^{-1}$ .

下面给出二维情况的示意图

当矩阵为实对称阵时, 我们可以找到一组标准正交的特征向量组成正交矩阵 $Q$ . 使得

A = Q\Lambda Q^{T} = Q\Lambda Q^{-1}

2. 2. 奇异值分解

在通过基底变换的角度理解了特征值分解, 再去理解奇异值分解是一件非常容易的事.

在一般的情况中, 我们往往找不到 $n$ 个在变换前后不改变方向的向量. 即无论怎么找, 总会有向量方向会发生改变. 在这种情况下, 我们引入一个广义上的特征向量--奇异向量.

我们期望有一组标准正交的向量, 在矩阵 $A$ 变换前后仍保持正交的性质, 只有长度发生伸缩. 即存在 $V = (\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \dots, \boldsymbol{v}_{n})$ , 有

A\boldsymbol{v}_{i} = \sigma_{i}\boldsymbol{u}_{i}, i = 1, 2, \dots, n

其中, 令

U = (\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \dots, \boldsymbol{u}_{n})

仍为一组标准正交基.

此时我们需要找到这样的 $V$ , 使得等式成立. 在这里引入一个引理.

Note (引理)

对于任意矩阵 $A_{m\times n}$ , $A^{T}A$ 的一组标准正交的特征向量组 $V= (\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \dots, \boldsymbol{v}_{n})$ , 在矩阵 $A$ 变换后仍保持正交, 即 $(A\boldsymbol{v}_{1}, A\boldsymbol{v}_{2}, \dots, A\boldsymbol{v}_{n})$ 仍为正交向量组.

证明
首先 $A^{T}A$ 为对称阵, 其必能产生一组标准正交的特征向量组(等价于一定能正交对角化) $V= (\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \dots, \boldsymbol{v}_{n})$ . 对应 $n$ 个特征值 $\lambda_{1} \geq \lambda_{2} \geq \dots \geq \lambda_{n}$ , 其中 $\lambda_{1} \geq \lambda_{2} \geq \dots \geq \lambda_{r} > 0$ , $\lambda_{r+1} = \lambda_{r+2} = \dots = \lambda_{n} = 0$ , $r$ 为 $A^{T}A$ 的正惯性系数/秩.(显然 $A^{T}A$ 半正定)

因此只需证明 $(A\boldsymbol{v}_{1}, A\boldsymbol{v}_{2}, \dots, A\boldsymbol{v}_{n})$ 为正交向量组. 即证明做内积 $\delta_{ij} =(A\boldsymbol{v}_{i}, A\boldsymbol{v}_{j})$ , 当 $i \neq j$ 时, 有 $\delta_{ij} = 0$ .

注意到有这样的等式

(A\boldsymbol{v}_{i}, A\boldsymbol{v}_{j}) = (\boldsymbol{v}_{i}, A^{T}A\boldsymbol{v}_{j}) = (\boldsymbol{v}_{i}, \lambda_{j}\boldsymbol{v}_{j}) = \lambda_{j}(\boldsymbol{v}_{i}, \boldsymbol{v}_{j})

由于

V= (\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \dots, \boldsymbol{v}_{n})

为标准正交基, 因此显然有

(A\boldsymbol{v}_{i}, A\boldsymbol{v}_{j}) = \left\{ \begin{align*} &\lambda_{i} \phantom{X} 1\leq i = j \leq r \\ &0 \phantom{X} i\neq j \text{或} i = j > r \end{align*} \right.

故证毕.

在证明这个引理过程中, 我们还可以得到一个结论, 即

\begin{align*} \lvert A\boldsymbol{v}_{i} \rvert &= \sqrt{ \lambda_{i} } \phantom{X} i = 1, 2, \dots, r \\ A\boldsymbol{v}_{r+1} &= \dots = A\boldsymbol{v}_{n} = \boldsymbol{0} \end{align*}

因此我们对向量组

(A\boldsymbol{v}_{1}, A\boldsymbol{v}_{2}, \dots, A\boldsymbol{v}_{r})

分别进行标准化, 即令

\boldsymbol{u}_{i} = \frac{1}{\lvert A\boldsymbol{v}_{i} \rvert}A\boldsymbol{v}_{i}

i = 1, 2, \dots, r

. 此时

(\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \dots, \boldsymbol{u}_{r})

为标准正交向量组.

但此时注意, 由于 $A$ 维度为 $m\times n$ , 在进行 $A\boldsymbol{v}_{i}$ 变换后将 $n$ 维向量 $\boldsymbol{v}_{i}$ 变换到了 $m$ 维. 因此, 我们应该在 $m$ 维线性空间中构造标准正交基. 而这是很容易的办到的, 因为已有一组标准正交向量组 $(\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \dots, \boldsymbol{u}_{r})$ , 一定能补充为 $U = (\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \dots, \boldsymbol{u}_{r}, \boldsymbol{u}_{r+1}, \dots, \boldsymbol{u}_{m})$ , 使得其为标准正交基.

此时, 扩充的 $(\boldsymbol{u}_{r+1}, \dots, \boldsymbol{u}_{m})$ 实际是无关紧要的, 因为我们发现他们伸缩的长度为 $0$ 倍, 即这些维度其实在变换后坍缩了(这是因为 $A$ 的秩只有 $r$ ).

至此, 我们得到这样的等式

\begin{align*} AV &= A(\boldsymbol{v}_{1}, \boldsymbol{v}_{2}, \dots, \boldsymbol{v}_{r}, \boldsymbol{v}_{r+1}, \dots, \boldsymbol{v}_{n}) \\ &= (\sigma_{1}\boldsymbol{u}_{1}, \sigma_{2}\boldsymbol{u}_{2}, \dots, \sigma_{r}\boldsymbol{u}_{r}, \boldsymbol{0}, \dots, \boldsymbol{0}) \\ &= (\boldsymbol{u}_{1}, \boldsymbol{u}_{2}, \dots, \boldsymbol{u}_{r}, \boldsymbol{u}_{r+1}, \dots, \boldsymbol{u}_{m})\begin{pmatrix} \sigma_{1} \\ & \sigma_{2} \\ & & \ddots \\ & & & \sigma_{r} \\ & & & & O \end{pmatrix}_{m\times n} \\ &= U\Sigma \end{align*}

因此有

A_{m\times n} = U_{m\times m}\Sigma_{m\times n} V^{T}_{n\times n} = U_{m\times m}\begin{pmatrix} D_{r\times r} & O \\ O & O\end{pmatrix}_{m\times n} V^{T}_{n\times n}

其中

D_{r\times r} = \begin{pmatrix} \sqrt{ \lambda_{1} } \\ & \sqrt{ \lambda_{2} } \\ & & \ddots \\ & & & \sqrt{ \lambda_{r} }\end{pmatrix}

此时, 我们也可以仿照特征值分解的方式给出几何意义.

其中 $V^{T}$ 的变换意义是把在 $n$ 维空间中的(右)奇异向量转化为 $n$ 维空间中的标准正交基.

$\Sigma$ 的变换意义是把 $n$ 维空间中的标准正交基转化为 $m$ 维空间中的标准正交基, 并进行拉伸操作.

$U$ 的变换意义是对 $m$ 维中的拉伸后的标准正交基进行旋转操作至(左)奇异向量.

至此, 奇异值分解的几何意义也得到了完美解释!

在文章后面, 我们还想谈谈为什么要从 $A^{T}A$ 中得到特征向量, 其特征值正好等于奇异值的平方. 在这里, 我们借助已经得到的奇异值分解的结论来说明这个问题.

首先, 我们想探究 $A^{T}$ 的几何意义.^[3]根据奇异值分解, 我们很容易得到有

A^{T}_{n\times m} = V_{n\times n}\Sigma^{T}_{n\times m} U^{T}_{m\times m} = V_{n\times n}\begin{pmatrix} D_{r\times r} & O \\ O & O\end{pmatrix}_{n\times m} U^{T}_{m\times m}

其几何意义为

其中正好有 $\sigma^{2}_{i} = \lambda_{i}$ .

此时, 我们再去探究 $A^{T}A$ 的几何意义, 会发现豁然开朗!.仔细观察变换过程, 会发现我们将 $A^{T}A$ 也可拆解为 2 次变换.

第一次变换 将右奇异向量变换为左奇异向量, 其中长度伸长了 $\sqrt{ \lambda_{i} }$ 倍.

第二次变换 将左奇异向量变换回右奇异向量, 其中长度又伸长了 $\sqrt{ \lambda_{i} }$ 倍.

在 2 次变换后, 右奇异向量的位置并没有发生改变, 长度伸长了 $\sqrt{ \lambda_{i} }\cdot \sqrt{ \lambda_{i} } = \lambda_{i}$ 倍, 这正是特征向量的定义!

因此, 我们从变换的角度再一次完美地解释了为什么要从 $A^{T}A$ 中得到特征向量.

值得一提的是, 我们发现 $A^{T}$ 与 $A$ 似乎有正好相反的旋转变换, 事实上, 当 $A$ 的正奇异值均为 1 时, 且为满秩方阵时(即没有维度变化), 正好有 $A^{T} = A^{-1}$ .

矩阵分析(二)：从特征值到奇异值 - 知乎 (zhihu.com)open in new window ↩︎
奇异值分解的几何意义有哪些？ - 知乎 (zhihu.com)open in new window ↩︎
矩阵的转置的意义是什么？ - 知乎 (zhihu.comopen in new window)](https://www.zhihu.com/question/38372986/answer/356540744open in new window) ↩︎

「特征值分解」和「奇异值分解」的几何意义

「特征值分解」和「奇异值分解」的几何意义

1. 1. 特征值分解

2. 2. 奇异值分解

ON THIS PAGE