利用「向量求导」优雅地计算「Logistic损失函数梯度」

Lingfeng2024-04-14

利用「向量求导」优雅地计算「Logistic损失函数梯度」

在几乎所有有关机器学习的教材中, 计算Logistic回归损失函数的梯度总是使用长串的"求和"符号. 例如

l(\boldsymbol{w}) = -\sum_{i=1}^{N} (y_{i}\ln(p_{i})+(1-y_{i})\ln(1-p_{i})) \tag{1}

一方面, 这样的证明显得繁琐累赘, 非常不优雅! 另一方面, 在实际写代码过程中, 我们常常并不会使用求和符号, 而是全部采用向量或矩阵的形式, 初学者在写代码时往往会因为如此的转换而感到不适应.

因此, 不妨大胆的抛弃掉"丑陋"的求和符号, 全部采用向量形式推导! 下面本文将给出比较完整的推导过程.

1. 1. 预备知识

1.1 1.1 向量运算的扩展

在原有的向量运算中, 向量只有相加、数乘运算. 在这里我们对向量运算进行拓展, 使其能极大程度兼容代码中的向量运算.

为了避免标量向量混用, 我们记维度为 $n\times m$ 且元素全为1的矩阵/向量为 $\boldsymbol{1}_{n\times m}$ , 在上下文明确的情况下可简记为 $\boldsymbol{1}$ . 下面, 我们给出向量运算及其相关性质.

向量加法
设 $\boldsymbol{x}=\begin{pmatrix}x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{pmatrix}$ , $y=\begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{pmatrix}$ , 定义

\boldsymbol{x} + \boldsymbol{y}=\begin{pmatrix} x_{1}+y_{1}\\x_{2}+y_{2}\\ \vdots \\ x_{n} + y_{n} \end{pmatrix}

特殊地, 有

\boldsymbol{x} + \boldsymbol{1} = \begin{pmatrix} x_{1}+1\\x_{2}+1\\\vdots\\x_{n}+1 \end{pmatrix}

向量数乘
设 $\boldsymbol{x}=\begin{pmatrix}x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{pmatrix}$ , $\lambda$ 为标量, 此时定义

\lambda \boldsymbol{x}=\begin{pmatrix} \lambda x_{1}\\\lambda x_{2}\\\vdots \\ \lambda x_{n} \end{pmatrix}

在此基础上, 设

a

为标量, 原先向量与标量相加的形式可以表示为

\boldsymbol{x}+a\boldsymbol{1}=\begin{pmatrix} x_{1}+a\\x_{2}+a\\ \vdots \\ x_{n}+a \end{pmatrix}

向量除法
设 $\boldsymbol{x}=\begin{pmatrix}x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{pmatrix}$ , $y=\begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{n} \end{pmatrix}$ , 定义

\frac{\boldsymbol{x}}{\boldsymbol{y}}=\begin{pmatrix} \frac{x_{1}}{y_{1}}\\ \frac{x_{2}}{y_{2}} \\ \vdots \\ \frac{x_{n}}{y_{n}} \end{pmatrix}

当然, 这里需要

y_{i}\neq 0, i=1, 2, \dots,n

, 且当

\boldsymbol{x}

\boldsymbol{y}

维度不一致时除法无意义.

向量的超越函数
设 $\boldsymbol{x}=\begin{pmatrix}x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{pmatrix}$ , 我们定义

e^{\boldsymbol{x}}=\begin{pmatrix} e^{x_{1}} \\ e^{x_{2}} \\ \vdots \\ e^{x_{n}} \end{pmatrix}

同理也有

\ln \boldsymbol{x}=\begin{pmatrix} \ln x_{1} \\ \ln x_{2} \\ \vdots \\ \ln x_{n} \end{pmatrix}

其余的超越函数的定义是类似的, 这里不作赘述.

值得一提的是, 这里我们没有定义向量乘法, 是为了避免与已有的矩阵乘法冲突. 在后文中可以看到, 我们可以借助对角矩阵来实现逐项相乘的效果.

1.2 1.2 对角矩阵

设 $\boldsymbol{x}=\begin{pmatrix}x_{1} \\ x_{2} \\ \vdots \\ x_{n}\end{pmatrix}$ , 我们定义对角矩阵为

\mathrm{diag}(\boldsymbol{x}) = \begin{pmatrix} x_{1} &&&\\ & x_{2} && \\ && \ddots \\ &&& x_{n} \end{pmatrix}

显然, 对角矩阵有以下性质

\begin{align*} \lambda \cdot\mathrm{diag}(\boldsymbol{x})&=\mathrm{diag}(\lambda \boldsymbol{x}) \\ \mathrm{diag}(\boldsymbol{x}+\boldsymbol{y}) &= \mathrm{diag}(\boldsymbol{x})+\mathrm{diag}(\boldsymbol{y}) \\ \mathrm{diag}(\boldsymbol{x})\cdot \mathrm{diag}(\boldsymbol{y})&= \mathrm{diag}(\boldsymbol{y}) \cdot \mathrm{diag}(\boldsymbol{x}) \\ \mathrm{diag}(\boldsymbol{x})^{T} &= \mathrm{diag}(\boldsymbol{x}) \\ \mathrm{diag}(\boldsymbol{x})^{-1}&= \mathrm{diag}\left( \boldsymbol{\frac{1}{x}} \right) \end{align*}

同时, 还注意到

\mathrm{diag}(\boldsymbol{x})\cdot \boldsymbol{1} = \boldsymbol{x}

因此可借助这种方式实现对角矩阵到向量的转换. 当我们想实现2个向量逐项相乘时, 可表示为

\mathrm{diag}(\boldsymbol{x})\cdot\mathrm{diag}(\boldsymbol{y})\cdot \boldsymbol{1}

1.3 1.3 向量求导

可参见[[「向量求导」]]. 下面给出本文将提到的性质

\begin{align*} \frac{ \partial \boldsymbol{y} }{ \partial \boldsymbol{x}^{T} }&=\left( \frac{ \partial \boldsymbol{y}^{T} }{ \partial \boldsymbol{x} } \right)^{T} \\ \frac{ \partial A\boldsymbol{x} }{ \partial \boldsymbol{x}^{T} }&=A \\ \frac{ \partial f(g(\boldsymbol{x})) }{ \partial \boldsymbol{x}^{T}} &= \frac{ \partial f(g(\boldsymbol{x})) }{ \partial g(\boldsymbol{x})^{T} }\frac{ \partial g(\boldsymbol{x}) }{ \partial \boldsymbol{x}^{T} } \end{align*}

当

f

为超越函数时, 有(以指数与对数函数为例)

\begin{align*} \frac{ \partial e^{\boldsymbol{x}} }{ \partial \boldsymbol{x}^{T} }&= \mathrm{diag}(e^{\boldsymbol{x}}) \\ \frac{ \partial \ln \boldsymbol{x} }{ \partial \boldsymbol{x}^{T} }&=\mathrm{diag}\left( \boldsymbol{\frac{1}{x}} \right) \end{align*}

假设有 $m$ 个样本, 设自变量 $X = \begin{pmatrix} x_{11} & x_{12} & \dots & x_{1n} \\ x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \ddots & \vdots \\ x_{m1} & x_{m2} & \dots & x_{mn} \end{pmatrix}$ , 因变量 $Y = \begin{pmatrix} y_{1} \\ y_{2} \\ \vdots \\ y_{m} \end{pmatrix}$ .

此时设 $\boldsymbol{w} = \begin{pmatrix} w_{0} \\ w_{1} \\ w_{2} \\ \vdots \\ w_{n} \end{pmatrix}$ , 补充定义 $X = \begin{pmatrix} 1 & x_{11} & x_{12} & \dots & x_{1n} \\ 1 & x_{21} & x_{22} & \dots & x_{2n} \\ \vdots & \vdots & \vdots & \ddots & \vdots \\ 1 & x_{m1} & x_{m2} & \dots & x_{mn} \end{pmatrix}$ , 故有

X\boldsymbol{w}=\begin{pmatrix} w_{0}+w_{1}x_{11}+\dots+w_{n}x_{1n} \\ w_{0}+w_{1}x_{21}+\dots+w_{n}x_{2n} \\ \vdots \\ w_{0}+w_{1}x_{m1}+\dots+w_{n}x_{mn} \end{pmatrix}

此时sigmoid函数可以写为

\boldsymbol{p} = \frac{\boldsymbol{1}}{\boldsymbol{1}+e^{-X\boldsymbol{w}}}

此时得到的

\boldsymbol{p}

正好为列向量, 表示对

\boldsymbol{y}

的概率估计.

定义损失函数为对数似然函数的相反数, 即

l(\boldsymbol{w}) = -\boldsymbol{y}^{T}\ln \boldsymbol{p} - (\boldsymbol{1}-\boldsymbol{y})^{T}\ln(\boldsymbol{1}-\boldsymbol{p}) \tag{2}

注意到这里的

l(\boldsymbol{w})

为标量, 我们正用向量形式简化了先前繁琐的损失函数

(1)

此时考虑对 $\boldsymbol{w}^{T}$ 求导, 有

\begin{align*} \frac{ \partial l(\boldsymbol{w}) }{ \partial \boldsymbol{w}^{T} } &= -\frac{ \partial\left( \boldsymbol{y}^{T}\ln \boldsymbol{p} + (\boldsymbol{1}-\boldsymbol{y})^{T}\ln(\boldsymbol{1}-\boldsymbol{p}) \right) }{ \partial \boldsymbol{w}^{T} } \\ &= -\left(\boldsymbol{y}^{T}\mathrm{diag}\left( \boldsymbol{\frac{1}{p}} \right)-(\boldsymbol{1-y})^{T}\mathrm{diag}\left( \boldsymbol{\frac{1}{1-p}} \right) \right)\frac{ \partial \boldsymbol{p} }{ \partial \boldsymbol{w}^{T} } \end{align*}

而注意到, 对

\boldsymbol{p}

两边取对数有

\ln \boldsymbol{p} = -\ln(\boldsymbol{1}+e^{-X\boldsymbol{w}})

再两边对

\boldsymbol{w}^{T}

求导有

\begin{align*} \mathrm{diag}\left( \frac{\boldsymbol{1}}{\boldsymbol{p}} \right)\frac{ \partial \boldsymbol{p} }{ \partial \boldsymbol{w}^{T} }&=-\mathrm{diag}\left( \frac{e^{-X\boldsymbol{w}}}{1+e^{-X\boldsymbol{w}}} \right)(-X) \\ &= \mathrm{diag}(\boldsymbol{1}-\boldsymbol{p})X \end{align*}

故

\frac{ \partial \boldsymbol{p} }{ \partial \boldsymbol{w}^{T}}=\mathrm{diag}(\boldsymbol{p})\mathrm{diag}(\boldsymbol{1}-\boldsymbol{p})X

因此, 代入有

\begin{align*} \frac{ \partial l(\boldsymbol{w}) }{ \partial \boldsymbol{w}^{T} } &= -\left(\boldsymbol{y}^{T}\mathrm{diag}\left( \boldsymbol{\frac{1}{p}} \right)-(\boldsymbol{1-y})^{T}\mathrm{diag}\left( \boldsymbol{\frac{1}{1-p}} \right) \right)\mathrm{diag}(\boldsymbol{p})\mathrm{diag}(\boldsymbol{1-p})X \\ &= -(\boldsymbol{y}^{T}\mathrm{diag}(\boldsymbol{1-p})-(\boldsymbol{1-y})^{T}\mathrm{diag}(\boldsymbol{p}))X \end{align*}

同时注意到

\boldsymbol{1}^{T}\mathrm{diag}(\boldsymbol{p}) = (\mathrm{diag}(\boldsymbol{p})\cdot \boldsymbol{1})^{T}=\boldsymbol{p}^{T}

因此有

\frac{ \partial l(\boldsymbol{w}) }{ \partial \boldsymbol{w}^{T} }= -(\boldsymbol{y}-\boldsymbol{p})^{T}X

故

\frac{ \partial l(\boldsymbol{w}) }{ \partial \boldsymbol{w} }=\frac{ \partial l(\boldsymbol{w})^{T} }{ \partial \boldsymbol{w} }=-X^{T}(\boldsymbol{y-p}) \tag{3}

多么简洁的形式! 完全避免了任何的求和符号! 推导过程值得细细品味.

同理也可以计算二阶导数

\begin{align*} \frac{ \partial^{2} l(\boldsymbol{w}) }{ \partial \boldsymbol{w} \partial \boldsymbol{w}^{T} } &= -\frac{ \partial (\boldsymbol{y-p})^{T}X }{ \partial \boldsymbol{w} } \\ &= \frac{ \partial \boldsymbol{p}^{T} }{ \partial \boldsymbol{w} }X \\ &= \left( \frac{ \partial \boldsymbol{p} }{ \partial \boldsymbol{\boldsymbol{w}}^{T} } \right)^{T}X \\ &= X^{T}\mathrm{diag}(\boldsymbol{p})\mathrm{diag}(\boldsymbol{1-p})X \end{align*} \tag{4}

3. 3. 总结

事实上, 虽然机器学习发展如火如荼, 但是教学模式相对来说十分落后. 明明在numpy等库中早早实现了向量运算, 在理论教学中却很少有教材给出一套规范完整的向量运算规则.

运用线性代数, 在解决高维数据时威力巨大! 这一思想应早在学生思想里普及, 而不是在写代码时后知后觉.

因此, 本文尝试给出一套相对优雅的形式, 仅作为个人的思考和总结, 欢迎评论区指出错误和不足.

利用「向量求导」优雅地计算「Logistic损失函数梯度」

利用「向量求导」优雅地计算「Logistic损失函数梯度」

1. 1. 预备知识

1.1 1.1 向量运算的扩展

1.2 1.2 对角矩阵

1.3 1.3 向量求导

2. 2. 推导过程

3. 3. 总结

ON THIS PAGE