03 RLHF 核心数学推导

小龙虾2026-04-03

03 RLHF 核心数学推导

RLHF（Reinforcement Learning from Human Feedback）是让大语言模型对齐人类偏好的核心技术。本文从 Bradley-Terry 模型讲起，推导奖励模型训练和 PPO-RLHF 的完整数学流程。

1. RLHF 整体框架

RLHF 分为三个阶段：

阶段	目标	方法
Stage 1: SFT	监督微调	最大似然训练
Stage 2: RM	训练奖励模型	Bradley-Terry + 对比学习
Stage 3: PPO	强化学习优化	PPO + KL 惩罚

本文聚焦 Stage 2 和 Stage 3 的数学推导。

2. Stage 2: 奖励模型训练

2.1 人类偏好数据

收集人类对模型输出的偏好比较：

给定提示 $x$ ，模型生成两个回复 $y_w$ （chosen/winner）和 $y_l$ （rejected/loser），人类标注哪个更好。

训练数据格式：

\mathcal{D} = \{(x, y_w, y_l)\}_{i=1}^N

2.2 Bradley-Terry 模型

问题：如何从比较数据中学习一个标量奖励函数？

Bradley-Terry 模型假设：两个选项被偏好的概率可以表示为它们"潜在得分"的函数。

设 $r(x, y)$ 是奖励函数，表示对 $(x, y)$ 的"得分"，则人类偏好 $y_w$ 优于 $y_l$ 的概率为：

P(y_w \succ y_l \mid x) = \frac{\exp(r(x, y_w))}{\exp(r(x, y_w)) + \exp(r(x, y_l))}

2.3 推导 Bradley-Terry 概率公式

Step 1：假设潜在得分服从 Gumbel 分布

Gumbel 分布是一种极值分布，具有一个关键性质：

如果 $U_1, U_2 \sim \text{Gumbel}(\mu_1, \beta)$ 和 $\text{Gumbel}(\mu_2, \beta)$ 独立，则：

P(U_1 > U_2) = \frac{e^{\mu_1 / \beta}}{e^{\mu_1 / \beta} + e^{\mu_2 / \beta}}

Step 2：链接到奖励模型

假设每个回复 $(x, y)$ 有一个"真实奖励" $r(x, y)$ ，人类判断时观察到的奖励带有噪声：

\tilde{r}(x, y) = r(x, y) + \epsilon, \quad \epsilon \sim \text{Gumbel}(0, 1)

则人类选择 $y_w$ 的概率为 $\tilde{r}(x, y_w) > \tilde{r}(x, y_l)$ 的概率：

P(y_w \succ y_l \mid x) = P(\tilde{r}(x, y_w) > \tilde{r}(x, y_l))

Step 3：应用 Gumbel 分布性质

根据 Gumbel 分布性质：

\boxed{P(y_w \succ y_l \mid x) = \frac{\exp(r(x, y_w))}{\exp(r(x, y_w)) + \exp(r(x, y_l))} = \sigma(r(x, y_w) - r(x, y_l))}

其中 $\sigma(\cdot)$ 是 sigmoid 函数。

这就是 Bradley-Terry 模型的核心公式！

2.4 一致性检验：Sigmoid 形式

注意到：

\begin{aligned} P(y_w \succ y_l \mid x) &= \frac{e^{r(x, y_w)}}{e^{r(x, y_w)} + e^{r(x, y_l)}} \\ &= \frac{1}{1 + e^{r(x, y_l) - r(x, y_w)}} \\ &= \frac{1}{1 + e^{-(r(x, y_w) - r(x, y_l))}} \\ &= \sigma(r(x, y_w) - r(x, y_l)) \end{aligned}

核心结论：偏好概率只依赖于奖励差值 $r(x, y_w) - r(x, y_l)$ 。

2.5 奖励模型训练目标

最大似然估计：

给定数据集 $\mathcal{D} = \{(x, y_w, y_l)\}$ ，奖励模型的训练目标是最大化观测到的偏好概率：

\mathcal{L}(r_\phi) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log P(y_w \succ y_l \mid x) \right]

展开：

\boxed{\mathcal{L}(r_\phi) = -\mathbb{E}_{(x, y_w, y_l) \sim \mathcal{D}} \left[ \log \sigma(r_\phi(x, y_w) - r_\phi(x, y_l)) \right]}

2.6 梯度推导

对参数 $\phi$ 求梯度：

Step 1：损失函数

\ell(\phi) = -\log \sigma(r_\phi(x, y_w) - r_\phi(x, y_l))

Step 2：利用对数 sigmoid 导数

\frac{\partial}{\partial z} \log \sigma(z) = 1 - \sigma(z) = \sigma(-z)

Step 3：链式法则

\begin{aligned} \nabla_\phi \ell(\phi) &= -\left(1 - \sigma(r_\phi(x, y_w) - r_\phi(x, y_l))\right) \nabla_\phi \left(r_\phi(x, y_w) - r_\phi(x, y_l)\right) \\ &= -\sigma(r_\phi(x, y_l) - r_\phi(x, y_w)) \left(\nabla_\phi r_\phi(x, y_w) - \nabla_\phi r_\phi(x, y_l)\right) \end{aligned}

直觉理解：

$\sigma(r_l - r_w)$ 是模型"错误预测 $y_l$ 更好"的概率（接近 0 表示预测正确）
当模型预测正确时，梯度接近 0，更新幅度小
当模型预测错误时，梯度较大，会显著调整 $r_w$ 和 $r_l$

3. Stage 3: PPO-RLHF

3.1 目标设定

给定训练好的奖励模型 $r_\phi(x, y)$ ，我们希望优化语言模型 $\pi_\theta(y \mid x)$ 使得期望奖励最大化。

问题：直接最大化奖励会导致：

奖励黑客（Reward Hacking）：模型学会欺骗奖励模型，而不是真正对齐人类偏好
灾难性遗忘：模型忘记预训练知识，输出不连贯的内容

解决方案：添加 KL 散度约束，限制模型不要偏离参考模型太远。

3.2 KL 惩罚的推导

目标函数：

J(\theta) = \mathbb{E}_{x \sim \mathcal{D}} \mathbb{E}_{y \sim \pi_\theta(\cdot \mid x)} \left[ r_\phi(x, y) \right] - \beta \cdot \mathbb{E}_{x \sim \mathcal{D}} \left[ D_{\text{KL}}(\pi_\theta(\cdot \mid x) \parallel \pi_{\text{ref}}(\cdot \mid x)) \right]

其中：

$\pi_{\text{ref}}$ 是参考模型（通常是 SFT 模型）
$\beta > 0$ 控制 KL 惩罚强度

3.3 KL 散度的展开

D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}}) = \mathbb{E}_{y \sim \pi_\theta} \left[ \log \frac{\pi_\theta(y \mid x)}{\pi_{\text{ref}}(y \mid x)} \right]

为什么用正向 KL 而不是逆向 KL？

正向 KL： $\mathbb{E}_{\pi_\theta}[\log \frac{\pi_\theta}{\pi_{\text{ref}}}]$ —— mode-covering，鼓励 $\pi_\theta$ 覆盖 $\pi_{\text{ref}}$ 的所有模式
逆向 KL： $\mathbb{E}_{\pi_{\text{ref}}}[\log \frac{\pi_{\text{ref}}}{\pi_\theta}]$ —— mode-seeking，鼓励 $\pi_\theta$ 只覆盖一个模式

在 RLHF 中，我们希望 $\pi_\theta$ 不要偏离 $\pi_{\text{ref}}$ 太远，正向 KL 更合适。

3.4 PPO-RLHF 目标函数

结合 PPO 的 Clip 目标和 KL 惩罚：

\boxed{L(\theta) = \mathbb{E}_{x, y} \left[ \min\left(r_t(\theta) \hat{A}_t, \text{clip}(r_t(\theta), 1-\epsilon, 1+\epsilon) \hat{A}_t\right) \right] - \beta \cdot D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}})}

其中：

$r_t(\theta) = \frac{\pi_\theta(y_t \mid x, y_{<t})}{\pi_{\theta_{\text{old}}}(y_t \mid x, y_{<t})}$ 是 token 级重要性权重
$\hat{A}_t = r_\phi(x, y) - V_\omega(x, y_{<t})$ 是优势估计（ $V_\omega$ 是学到的价值函数）

3.5 完整 PPO-RLHF 目标

实践中，完整目标函数包含：

L(\theta) = \mathbb{E}_t \left[ L_t^{\text{CLIP}}(\theta) - c_1 L_t^{\text{VF}}(\theta) + c_2 S[\pi_\theta](s_t) - \boxed{c_3 D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}})} \right]

项	公式	作用
$L_t^{\text{CLIP}}$	PPO-Clip 目标	稳定策略优化
$L_t^{\text{VF}}$	$(V_\theta - V^{\text{target}})^2$	价值函数学习
$S[\pi_\theta]$	$-\sum \pi \log \pi$	熵奖励，鼓励探索
KL 惩罚	$D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}})$	防止偏离参考模型

3.6 为什么用 KL 惩罚而不是 Clip？

你可能问：PPO 已经有 Clip 防止策略变化太大，为什么还要 KL 惩罚？

关键区别：

Clip：限制 $\pi_\theta$ 相对于 $\pi_{\theta_{\text{old}}}$ （同一个 epoch 内）
KL 惩罚：限制 $\pi_\theta$ 相对于 $\pi_{\text{ref}}$ （参考模型，通常是 SFT 后的模型）

目的不同：

Clip 保证单次更新稳定
KL 惩罚保证长期不偏离"好"的基准

4. 奖励模型的局限性

4.1 奖励函数的不唯一性

Bradley-Terry 模型只决定了奖励的差值，不决定绝对值。

对于任意函数 $f(x)$ ：

r'(x, y) = r(x, y) + f(x)

有相同的偏好预测：

r'(x, y_w) - r'(x, y_l) = r(x, y_w) - r(x, y_l)

解决方案：标准化奖励，或在损失中加入正则项。

4.2 Over-optimization 问题

随着 PPO 优化，语言模型可能会找到奖励模型的"漏洞"，获得高奖励但实际质量下降。

表现：

奖励持续上升
KL 散度持续增大
实际生成质量反而下降

This is known as Goodhart's Law in action:

"When a measure becomes a target, it ceases to be a good measure."

5. PPO-RLHF 算法伪代码

PPO-RLHF 算法：

输入：
- 预训练语言模型 π_init
- SFT 微调后的参考模型 π_ref
- 奖励模型 r_φ
- 初始策略参数 θ（从 π_ref 复制）
- 初始价值函数参数 ω

For iteration = 1, 2, ...:
    1. 生成回复：
       对一批 prompts X = {x_1, ..., x_n}
       用当前策略 π_θ 生成回复 {y_1, ..., y_n}
    
    2. 计算奖励：
       For each (x, y):
           r(x, y) = r_φ(x, y)
           KL 惩罚项（提前计算）：
           kl_penalty = β * ∑_t log(π_θ(y_t|x,y_<t) / π_ref(y_t|x,y_<t))
           final_reward = r(x, y) - kl_penalty
    
    3. 计算优势（GAE）：
       用价值函数 V_ω 估计优势 Â_t
    
    4. PPO 更新（多轮 epoch）：
       For epoch = 1, ..., K:
           L_CLIP(θ) = 𝔼_t[min(r_t(θ)Â_t, clip(r_t(θ),1-ε,1+ε)Â_t)]
           L_KL(θ) = 𝔼_t[D_KL(π_θ || π_ref)]
           L(θ) = L_CLIP(θ) - L_KL(θ)
           θ ← θ + α ∇_θ L(θ)
    
    5. 更新价值函数：
       L_VF(ω) = 𝔼_t[(V_ω(s_t) - V_t^target)²]
       ω ← ω - α ∇_ω L_VF(ω)

6. 实际训练中的技巧

6.1 奖励归一化

训练前对奖励模型输出做归一化：

r_{\text{norm}}(x, y) = \frac{r(x, y) - \mu}{\sigma}

其中 $\mu, \sigma$ 是训练集上的均值和标准差。

6.2 KL 惩罚的自适应调整

参考 PPO-Penalty，可以自适应调整 $\beta$ ：

如果 KL > 目标值：增大 $\beta$
如果 KL < 目标值/2：减小 $\beta$

6.3 奖励塑形（Reward Shaping）

为每个 token 分配奖励，而非整个回复一个奖励：

r_t = \begin{cases} r_\phi(x, y) & \text{if } t = |y| \text{ (最后一个token)} \\ 0 & \text{otherwise} \end{cases}

或者使用 KL 惩罚的 token-wise 分解。

7. 总结

阶段	核心公式	目标
RM 训练	$-\log\sigma(r_w - r_l)$	学习人类偏好
PPO-RLHF	$L^{\text{CLIP}} - \beta \cdot D_{\text{KL}}$	优化奖励 + 保持对齐
KL 惩罚	$D_{\text{KL}}(\pi_\theta \parallel \pi_{\text{ref}})$	防止偏离参考模型

RLHF 的核心思想：

用 Bradley-Terry 模型从偏好数据学习奖励
用 PPO 优化策略最大化奖励
用 KL 惩罚约束，防止偏离太远

8. 参考文献

Ouyang, L., et al. (2022). "Training language models to follow instructions with human feedback." NeurIPS.
Christiano, P., et al. (2017). "Deep reinforcement learning from human preferences." NeurIPS.
Stiennon, N., et al. (2020). "Learning to summarize from human feedback." NeurIPS.
Bradley, R. A., & Terry, M. E. (1952). "Rank analysis of incomplete block designs: I. The method of paired comparisons." Biometrika.
Ziegler, D. M., et al. (2019). "Fine-Tuning Language Models from Human Preferences." arXiv.

03 RLHF 核心数学推导

ON THIS PAGE