「向量求导」

Lingfeng2024-03-08

「向量求导」

在机器学习或者其他相关领域, 关于向量求导是比较常见的(通常会处理成逐项求导, 比较啰嗦麻烦), 而且几乎所有的微积分或者线代教材中均不会提及, 属于“三不管地带”.

因此, 本文尝试给出一个从定义到性质比较完善的推导. ^[1]

设 $\boldsymbol{x} = \begin{pmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{pmatrix}$ , $\boldsymbol{y} = \begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{pmatrix}$ , 定义向量求导的分母布局(denominator layout)为

\frac{ \partial \boldsymbol{y}^{T} }{ \partial \boldsymbol{x}} = \begin{pmatrix} \frac{ \partial y_{1} }{ \partial \boldsymbol{x} } & \frac{ \partial y_{2} }{ \partial \boldsymbol{x} } & \dots & \frac{ \partial y_{m} }{ \partial \boldsymbol{x} } \end{pmatrix} = \begin{pmatrix} \frac{ \partial y_{1} }{ \partial x_{1} } & \frac{ \partial y_{2} }{ \partial x_{1} } & \dots & \frac{ \partial y_{m} }{ \partial x_{1} } \\ \frac{ \partial y_{1} }{ \partial x_{2} } & \frac{ \partial y_{2} }{ \partial x_{2} } & \dots & \frac{ \partial y_{m} }{ \partial x_{2} } \\ \vdots & \vdots & \ddots & \vdots \\ \frac{ \partial y_{1} }{ \partial x_{n} } & \frac{ \partial y_{2} }{ \partial x_{n} } & \dots & \frac{ \partial y_{m} }{ \partial x_{n} } \end{pmatrix}_{n\times m}

分子布局(numerator layout)为

\frac{ \partial \boldsymbol{y} }{ \partial \boldsymbol{x}^{T}} = \begin{pmatrix} \frac{ \partial y*{1} }{ \partial \boldsymbol{x}^{T}} \\ \frac{ \partial y*{2} }{ \partial \boldsymbol{x}^{T} } \\ \vdots \\ \frac{ \partial y*{m} }{ \partial \boldsymbol{x}^{T} } \end{pmatrix} = \begin{pmatrix} \frac{ \partial y*{1} }{ \partial x*{1} } & \frac{ \partial y*{1} }{ \partial x*{2} } & \dots & \frac{ \partial y*{1} }{ \partial x*{n} } \\ \frac{ \partial y*{2} }{ \partial x*{1} } & \frac{ \partial y*{2} }{ \partial x*{2} } & \dots & \frac{ \partial y*{2} }{ \partial x*{n} } \\ \vdots & \vdots & \ddots & \vdots \\ \frac{ \partial y*{m} }{ \partial x*{1} } & \frac{ \partial y*{m} }{ \partial x*{2} } & \dots & \frac{ \partial y*{m} }{ \partial x*{n} } \end{pmatrix}*{m\times n}

显然有

\frac{ \partial \boldsymbol{y}^{T} }{ \partial \boldsymbol{x} } = \left( \frac{ \partial \boldsymbol{y} }{ \partial\boldsymbol{x}^{T} } \right)^{T}

一般地, 我们认为列向量对列向量求导或者行向量对行向量求导是没有意义的(除非写成张量形式).

但值得一提的是, 很多书籍和文献常常会省略转置符号, 记为 $\frac{ \partial \boldsymbol{y} }{ \partial \boldsymbol{x} }$ , 到底采用何种布局需要联系上下文推导. 但事实上这种写法容易让人迷惑, 不太清晰, 因此更鼓励显式地指定转置符号的写法.

为了一致性, 在下文中向量求导我们均采用分母布局.

2. 性质

设 $\boldsymbol{x} = \begin{pmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{pmatrix}$ , $f(\boldsymbol{x}) = \begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{pmatrix}$ , $g(\boldsymbol{x}) = \begin{pmatrix} z_{1} \\ z_{2} \\ \vdots \\ z_{m} \end{pmatrix}$ , 类似于标量求导, 有以下性质

\begin{align*} \frac{ \partial (\lambda f(\boldsymbol{x}) + \mu g(\boldsymbol{x}))^{T} }{ \partial x } &= \lambda\frac{\partial f(\boldsymbol{x})^{T}}{\partial \boldsymbol{x}} + \mu \frac{\partial g(\boldsymbol{x})^{T}}{\partial \boldsymbol{x}} \tag{1}\\ \frac{\partial (f(\boldsymbol{x})^{T}g(\boldsymbol{x}))}{\partial \boldsymbol{x}} &= \frac{\partial f(\boldsymbol{x})^{T}}{\partial \boldsymbol{x}}g(\boldsymbol{x}) + \frac{\partial g(\boldsymbol{x})^{T}}{\partial \boldsymbol{x}}f(\boldsymbol{x}) \tag{2}\end{align*}

同时, 若设

h(f(\boldsymbol{x})) = \begin{pmatrix} w_{1} \\ w_{2} \\ \vdots \\ w_{k} \end{pmatrix}

, 也有类似于链式法则的性质

\frac{\partial h(f(\boldsymbol{x}))^{T}}{\partial \boldsymbol{x}} = \frac{\partial f(\boldsymbol{x})^{T}}{\partial \boldsymbol{x}} \frac{\partial h(f(\boldsymbol{x}))^{T}}{\partial f(\boldsymbol{x})} \tag{3}

我们只证明第二条和第三条性质.

证明
首先是第二条性质. 注意到

f(\boldsymbol{x})^{T}g(\boldsymbol{x}) = \sum^{m}_{i=1}y_{i}z_{i}

同时显然有

\frac{ \partial yz }{ \partial \boldsymbol{x} } = \frac{ \partial y }{ \partial \boldsymbol{x} }z + \frac{ \partial z }{ \partial \boldsymbol{x} }y

因此有

\begin{align*} \frac{\partial (f(\boldsymbol{x})^{T}g(\boldsymbol{x}))}{\partial \boldsymbol{x}} &= \sum*{i=1}^{m} \frac{ \partial y*{i} }{ \partial \boldsymbol{x} }z*{i} + \sum*{i=1}^{m}\frac{ \partial z*{i} }{ \partial \boldsymbol{x} }y*{i} \\ &= \frac{\partial f(\boldsymbol{x})^{T}}{\partial \boldsymbol{x}}g(\boldsymbol{x}) + \frac{\partial g(\boldsymbol{x})^{T}}{\partial \boldsymbol{x}}f(\boldsymbol{x}) \end{align*}

接着证明第三条性质. 我们令 $W^{(x)} = \frac{ \partial h(f(\boldsymbol{x}))^{T} }{ \partial \boldsymbol{x} }$ , 显然

W_{ij}^{(x)} = \frac{ \partial w_{j} }{ \partial x_{i} }

同时我们令

Y^{(x)} = \frac{ \partial f(\boldsymbol{x})^{T} }{ \partial \boldsymbol{x} }

W^{(y)} = \frac{ \partial h(f(\boldsymbol{x}))^{T} }{ \partial f(\boldsymbol{x}) }

, 显然也有

\begin{align*} Y^{(x)}_{ij} &= \frac{ \partial y_{j} }{ \partial x*{i} } \\ W^{(y)}*{ij} &= \frac{ \partial w*{j} }{ \partial y*{i} } \end{align*}

欲证

W^{(x)} = Y^{(x)}W^{(y)}

只需证

W^{(x)}_{ij} = \sum_{l=1}^{m}Y^{(x)}_{il}W^{(y)}_{lj}

即

\frac{ \partial w*{j} }{ \partial x*{i} } = \sum*{l=1}^{m}\frac{ \partial y*{l} }{ \partial x*{i} }\frac{ \partial w*{j} }{ \partial y*{l} } \tag{4}

而注意到

w*{j} = w*{j}(y*{1}, y*{2}, \dots ,y*{m})

根据多元函数偏导的链式法则,

(4)

显然成立. 故证毕.

3. 矩阵与向量求导的应用

之所以要引入向量求导, 就是因为可以利用其性质帮助我们简化很多的运算. 在给出例子之前, 我们先给出几条常用的性质.

设 $\boldsymbol{x} = \begin{pmatrix} x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{pmatrix}$ , $A$ 为 $n\times m$ 的矩阵, 此时有

\frac{ \partial \boldsymbol{x}^{T}A }{ \partial \boldsymbol{x} }=A \tag{1}

同时

\frac{ \partial \boldsymbol{x}^{T}A\boldsymbol{x} }{ \partial \boldsymbol{x} } = (A + A^{T})\boldsymbol{x} \tag{2}

特殊地

\frac{ \partial \boldsymbol{x}^{T}\boldsymbol{x} }{ \partial \boldsymbol{x} } = 2\boldsymbol{x}

证明
显然最后一条性质是第二条性质 $A = E$ 的情况. 我们只证明前两条性质.

先证明第一条性质. 注意到 $\boldsymbol{x}^{T}A$ 为 $1\times m$ 的向量, 其第 $k$ 个元素为

(\boldsymbol{x}^{T}A)_{k}=\sum_{i=1}^{n}x_{i}a_{ik}

因此

\begin{align*} \left( \frac{ \partial \boldsymbol{x}^{T}A }{ \partial \boldsymbol{x} } \right)_{ij} &= \frac{ \partial (\boldsymbol{x}^{T}A)_{j} }{ \partial x_{i} } \\ &= \frac{ \partial \left(\sum_{k=1}^{n}x_{k}a_{kj} \right)}{ \partial x_{i} } \\ &= a_{ij} \end{align*}

故有

\frac{ \partial \boldsymbol{x}^{T}A }{ \partial \boldsymbol{x} }=A

第二条性质的证明使用向量求导的性质会非常简单, 注意到

\begin{align*} \frac{ \partial \boldsymbol{x}^{T}A\boldsymbol{x} }{ \partial \boldsymbol{x} } &= \frac{ \partial \boldsymbol{x}^{T} }{ \partial \boldsymbol{x} }A\boldsymbol{x} + \frac{ \partial (A\boldsymbol{x})^{T} }{ \partial \boldsymbol{x} }\boldsymbol{x} \\ &= A\boldsymbol{x} + A^{T}\boldsymbol{x} \\ &= (A + A^{T})\boldsymbol{x} \end{align*}

故证毕. 在这里, 就可以窥见使用性质来计算向量相关的求导时的威力.

下面给出一个具体的例子. 在多元线性回归中, 一个经典的算法是最小二乘法.

即当我们有 $m$ 个样本时, 设自变量 $X = \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{pmatrix}$ , 因变量 $Y = \begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{pmatrix}$ . 此时设 $\boldsymbol{\beta} = \begin{pmatrix} \beta_{0} \\ \beta_{1} \\ \beta_{2} \\ \vdots \\ \beta_{n} \end{pmatrix}$ , 补充定义 $X = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1n} \\ 1 & x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{m1} & x_{m2} & \dots & x_{mn} \end{pmatrix}$ , 此时有

\hat{Y} = X\boldsymbol{\beta}

对于预测值

\hat{Y}

和真实值

Y

, 我们希望找到一组参数

\boldsymbol{\beta} = \begin{pmatrix} \beta_{0} \\ \beta_{1} \\ \vdots \\ \beta_{n} \end{pmatrix}

, 使得残差平方和最小, 即找到

\boldsymbol{\beta} = \arg \min_{\boldsymbol{\beta}} \| \boldsymbol{\varepsilon} \| = \arg \min_{\boldsymbol{\beta}} \| Y - X\boldsymbol{\beta} \|

在这里, 我们设

f(\boldsymbol{\beta}) =\| Y-X\boldsymbol{\beta} \| = (Y-X\boldsymbol{\beta})^{T}(Y-X\boldsymbol{\beta})

故考虑对

\boldsymbol{\beta}

求导, 有

\begin{align*} \frac{\partial (f(\boldsymbol{\beta}))}{\partial\boldsymbol{\beta}} &= \frac{\partial(Y-X\boldsymbol{\beta})^{T}(Y-X\boldsymbol{\beta})}{\partial\boldsymbol{\beta}} \end{align*}

在这里我们利用向量求导的链式法则, 有

\begin{align*} \frac{\partial (f(\boldsymbol{\beta}))}{\partial\boldsymbol{\beta}} &= \frac{ \partial (Y-X\boldsymbol{\beta})^{T} }{ \partial \boldsymbol{\beta} } \cdot \frac{ \partial (Y-X\boldsymbol{\beta})^{T}(Y-X\boldsymbol{\beta}) }{ \partial (Y-X\boldsymbol{\beta}) } \\ &= -X^{T}\cdot2(Y-X\boldsymbol{\beta}) \\ &= 2(X^{T}X\boldsymbol{\beta} - X^{T}Y) \end{align*}

因此令

\frac{\partial(f(\boldsymbol{\beta}))}{\partial\boldsymbol{\beta}} = 0

, 有

X^{T}X\boldsymbol{\beta} = X^{T}Y

即

\boldsymbol{\beta} = (X^{T}X)^{-1}X^{T}Y

从这个例子可以看出, 利用向量求导的性质, 在计算相关求导运算时比繁琐的逐项求导式简洁高效的多, 同时也体现了矩阵和向量这一武器的巨大威力！

机器学习-数学矩阵求导(分母布局与分子布局)，以及常用的矩阵求导公式_矩阵求导分子布局和分母布局-CSDN 博客open in new window ↩︎

「向量求导」

「向量求导」

1. 定义

1.1 标量对向量求导

1.2 向量对向量求导

2. 性质

3. 矩阵与向量求导的应用

ON THIS PAGE