用优雅的方式计算Transformers自注意力层梯度

Lingfeng2025-11-19

用优雅的方式计算Transformers自注意力层梯度

1. 引言

在深度学习中，我们经常使用 backward 方法自动计算梯度，却很少真正动手推导。然而在一些需要手动优化的场景中，理解梯度的计算过程是不可或缺的。

可惜的是，目前相关资料不仅稀缺，内容质量也参差不齐。如果仅依赖繁琐的逐元素（element-wise）连加符号进行推导，过程往往显得不够直观和优雅。因此，本文将以 Transformer 中的自注意力层为例，使用微分法计算，力求严谨、清晰。

我们为了简化问题，这里不考虑多头注意力。对于一般的注意力层，我们有

\begin{align*} S & =\frac{QK^{\top}}{\sqrt{ d }} \\ P & = \mathrm{softmax}(S) \\ O & = PV \end{align*}

其中

Q,K,V\in\mathbb{R}^{n\times d}

。

设损失函数为 $\mathcal{L}$ ，已知上游梯度 $\nabla_{O}\mathcal{L}$ ，我们考虑求 $\nabla_{Q}\mathcal{L},\nabla_{K}\mathcal{L},\nabla_{V}\mathcal{L}$ ，以及其他中间所有变量的梯度 $\nabla_{P}\mathcal{L},\nabla_{S}\mathcal{L}$ 。

2. 基本概念

2.1 梯度

对于标量函数 $\mathcal{L}$ 和矩阵变量 $X \in \mathbb{R}^{n \times d}$ ，梯度 $\nabla_X \mathcal{L}$ 是一个与 $X$ 形状相同的矩阵，满足

(\nabla_{X}\mathcal{L})_{ij}=\frac{ \partial \mathcal{L} }{ \partial X_{ij} }

直观地理解，梯度矩阵指示了使函数值

\mathcal{L}

增长最快的方向（最陡上升方向）。

为了使推导简洁，我们在后文中统一记为 $\bar{X}=\nabla_{X}\mathcal{L}$ 。

2.2 微分

在一元微积分中，我们知道函数 $y=f(x)$ 的微分是 $dy = f'(x)dx$ 。

推广到多元函数，对于标量函数 $\mathcal{L}$ 和矩阵变量 $X \in \mathbb{R}^{n \times d}$ ，全微分 $d\mathcal{L}$ 定义为所有自变量变化引起函数值变化的线性主要部分，即

d\mathcal{L}=\sum_{i = 1}^{n} \sum_{j = 1}^{d} \frac{ \partial \mathcal{L} }{ \partial X_{ij} } dX_{ij}

事实上，这本质是梯度矩阵

\nabla_X \mathcal{L}

与变化量矩阵

dX

的内积。利用矩阵迹（Trace）的性质，我们可以将其写成更紧凑的矩阵形式：

d\mathcal{L}=\langle \nabla_{X}\mathcal{L},dX \rangle=\mathrm{tr}((\nabla_{X}\mathcal{L})^{\top}dX)

结合前文定义的简写

\bar{X}=\nabla_{X}\mathcal{L}

，此时我们得到了矩阵微分法最核心的联系公式：

d\mathcal{L} = \mathrm{tr}(\bar{X}^{\top} dX)

这给了我们一种全新的求解梯度的视角： 如果我们能通过运算法则求出

d\mathcal{L}

，并将其整理为

\mathrm{tr}(A^{\top} dX)

的形式，那么根据一一对应关系，矩阵

A

就是我们要找的梯度

\nabla_X \mathcal{L}

。

3. 重要性质

3.1 迹

矩阵的迹定义为对角线元素之和。在矩阵求导中，迹主要起到了交换位置的作用。

最常用的性质如下：

转置不变性： $\mathrm{tr}(A) = \mathrm{tr}(A^{\top})$
循环性质：这是最重要的性质，允许我们在乘积中循环移动矩阵的位置（前提是维度匹配）：
$\mathrm{tr}(ABC) = \mathrm{tr}(BCA) = \mathrm{tr}(CAB)$
注意：这里是循环移动，而不是随意交换。一般情况下 $\mathrm{tr}(AB) \neq \mathrm{tr}(A) \mathrm{tr}(B)$ 。
伴随性质： $\mathrm{tr}(A^{\top}(BC))=\mathrm{tr}((AC^{\top})^{\top}B)$ 这其实是源于内积的伴随性质 $\langle A,BC \rangle=\langle AC^{\top},B \rangle$

3.2 哈达玛乘积

符号 $\odot$ 表示矩阵的逐元素乘积（Element-wise Product），即

(A \odot B)_{ij} = A_{ij} B_{ij}

我们会比较深入的利用它的如下几个性质。

交换律结合律与分配律：
这是最基本的性质，和标量乘法一致： $\begin{align*}A \odot B & = B \odot A \\A \odot (B \odot C) & = (A \odot B) \odot C\\ A \odot(B+C) & =A\odot B+A\odot C\end{align*}$
迹运算中的“游动”性质（最重要的推导工具）
在计算矩阵内积（即迹运算）时，哈达玛积中的项可以“跳”到另一边的矩阵上： $\mathrm{tr}(A^{\top} (B \odot C)) = \mathrm{tr}((A \odot B)^{\top} C)$ 这是因为 $\sum A_{ij} (B_{ij} C_{ij}) = \sum (A_{ij} B_{ij}) C_{ij}$ 在推导梯度时，这个性质允许我们将 $dX$ 旁边的系数（比如激活函数的导数）“移走”，从而凑出 $\mathrm{tr}(\bar{X}^{\top} dX)$ 的形式。
广播与矩阵乘法的结合律（行缩放性质）
设 $\boldsymbol{v} \in \mathbb{R}^{n \times 1}$ 是列向量， $A \in \mathbb{R}^{n \times d}$ 是矩阵， $B \in \mathbb{R}^{d \times k}$ 是任意矩阵（或向量），则有： $(\boldsymbol{v} \odot A) B = \boldsymbol{v} \odot (AB)$ 这是因为 $\sum_{k = 1}^{n} (v_{i}A_{ik})B_{kj}=v_{i}\sum_{k = 1}^{n} A_{ik}B_{kj}$ 因此，当参与运算的是列向量（用于行广播）时，哈达玛积可以表现出特殊的结合性。

3.3 微分

矩阵微分的运算法则与标量微积分高度相似，唯一的区别在于矩阵乘法不满足交换律，因此在求导时必须严格保持矩阵的左右顺序。

假设 $A, B$ 是常数矩阵， $X, Y$ 是变量矩阵：

加法法则： $d(X+Y) = dX + dY$
乘法法则（注意顺序）： $d(XY) = (dX)Y + X(dY)$
转置法则： $d(X^{\top}) = (dX)^{\top}$
逐元素函数法则：
若 $Y = \sigma(X)$ 是对 $X$ 逐元素应用函数（如 ReLU），则： $dY = \sigma'(X) \odot dX$ 其中 $\sigma'(X)$ 是对 $X$ 中每个元素求导后组成的矩阵。

4. 问题解决

有了这些性质后，解决我们最开始提出的问题会变得非常简单。

4.1 P、V 的梯度

首先我们计算

dO=dPV+PdV

因此

\begin{align*} d\mathcal{L} & =\mathrm{tr}(\bar{O}^{\top}dO) \\ & =\mathrm{tr}(\bar{O}^{\top}(dPV+PdV)) \\ & =\mathrm{tr}(V\bar{O}^{\top}dP)+\mathrm{tr}(\bar{O}^{\top}PdV) \end{align*}

从而

\begin{align*} \bar{P} & =\bar{O}V^{\top} \\ \bar{V} & = P^{\top}\bar{O} \end{align*}

4.2 S 的梯度

接下来我们要计算 $\bar{S}$ ，会稍微麻烦一点。注意到

\begin{align*} P & =\mathrm{softmax}(S) \\ & = \frac{e^{S}}{e^{S}\boldsymbol{1}} \end{align*}

其中

\boldsymbol{1}\in\mathbb{R}^{n\times n}

，元素全为 1，

e^{S}\boldsymbol{1}

表示行和组成的矩阵。此时我们先取对数

\log P=S-\log(e^{S}\boldsymbol{1})

此时两边求微分有

\frac{1}{P}\odot dP=dS-\frac{1}{e^{S}\boldsymbol{1}}\odot((e^{S}\odot dS)\boldsymbol{1})

注意到

e^{S}\boldsymbol{1}

正好满足列向量的行传播形式，因此

\begin{align*} dP & =P\odot dS- P\odot\left( \left( \frac{1}{e^{S}\boldsymbol{1}}\odot e^{S}\odot dS \right)\boldsymbol{1} \right) \\ & = P\odot dS-P\odot ((P\odot dS) \boldsymbol{1}) \end{align*}

因此

\begin{align*} d\mathcal{L} & =\mathrm{tr}(\bar{P}^{\top}dP) \\ & =\mathrm{tr}(\bar{P}^{\top}(P\odot dS-P\odot ((P\odot dS) \boldsymbol{1})) \\ & = \mathrm{tr}((\bar{P}\odot P)^{\top}dS)-\mathrm{tr}(\bar{P}^{\top}(P\odot ((P\odot dS) \boldsymbol{1}))) \end{align*}

注意到右边化简为

\begin{align*} \mathrm{tr}(\bar{P}^{\top}(P\odot ((P\odot dS) \boldsymbol{1}))) & =\mathrm{tr}((\bar{P}\odot P)^{\top}((P\odot dS)\boldsymbol{1})) \\ & =\mathrm{tr}(((\bar{P}\odot P) \boldsymbol{1})^{\top}(P\odot dS)) \\ & = \mathrm{tr}((P\odot((\bar{P}\odot P)\boldsymbol{1}))^{\top}dS) \end{align*}

这里用到了伴随性质。因此

\begin{align*} d\mathcal{L} & =\mathrm{tr}((\bar{P}\odot P)^{\top}dS)-\mathrm{tr}((P\odot((\bar{P}\odot P)\boldsymbol{1}))^{\top}dS) \\ & =\mathrm{tr}((P\odot(\bar{P}-(\bar{P}\odot P)\boldsymbol{1}))^{\top}dS) \end{align*}

从而

\bar{S}=P\odot(\bar{P}-(P\odot \bar{P})\boldsymbol{1})

4.3 Q、K 的梯度

剩余 $\bar{Q},\bar{K}$ 比较简单，直接给出结果为

\begin{align*} \bar{Q} & =\frac{\bar{S}K}{\sqrt{ d }} \\ \bar{K} & = \frac{\bar{S}^{\top}Q}{\sqrt{ d }} \end{align*}

5. 总结常见的梯度

下面我们不加证明的给出常见的梯度公式，可作为练习。

5.1 线性函数

对于 $X \in\mathbb{R}^{n\times d}$ ， $W\in\mathbb{R}^{m\times d}$ ， $\boldsymbol{b}\in\mathbb{R}^{m}$ 为行向量，设

Y=XW^{\top}+\boldsymbol{b}

此时

\begin{align*} \bar{W} & =\bar{Y}^{\top}X \\ \bar{\boldsymbol{b}} & = \boldsymbol{1}\bar{Y} \\ \bar{X} & = \bar{Y}W \end{align*}

其中

\boldsymbol{1}\in\mathbb{R}^{n}

为行向量。

5.2 激活函数

对于 $X \in \mathbb{R}^{n\times d}$ ，设

Y=\mathrm{ReLu}(X)

此时

\bar{X}=\bar{Y}\odot H(x)

其中

H(x)=\begin{cases} 1, & x\geq 0 \\ 0, & x<0 \end{cases}

对于 $X \in \mathbb{R}^{n\times d}$ ，设

Y=\mathrm{softmax}(X)

此时

\bar{X}=Y\odot(\bar{Y}-(Y\odot \bar{Y})\boldsymbol{1})

其中

\boldsymbol{1}\in \mathbb{R}^{d\times d}

。

5.3 损失函数

对于 $Y\in R^{n\times m}$ ，均方误差为

\mathcal{L}=\mathrm{tr}(Y Y^{\top})

此时

\bar{Y}=2Y

对于 $Y\in R^{n\times m}$ ， $T\in\{ 0,1 \}^{n\times m}$ ，交叉熵损失为

\mathcal{L}=-\mathrm{tr}(T\log Y^{\top})

此时

\bar{Y}=-\frac{T}{Y}

若

Y=\mathrm{softmax}(X)

则

\bar{X}=Y-T

用优雅的方式计算Transformers自注意力层梯度

ON THIS PAGE