02 PPO 算法数学推导

$r_t(\theta)$ ：重要性权重
$\hat{A}_t$ ：估计的优势函数
$\epsilon$ ：裁剪范围（通常 0.1 或 0.2）
$\text{clip}(x, 1-\epsilon, 1+\epsilon)$ ：把 $x$ 限制在 $[1-\epsilon, 1+\epsilon]$ 范围内

5.3 逐步推导 PPO-Clip

Step 1：普通 Policy Gradient 目标

L^{\text{PG}}(\theta) = \mathbb{E}_t \left[ r_t(\theta) \hat{A}_t \right]

问题：如果 $r_t(\theta)$ 很大，更新可能太激进。

Step 2：为什么要裁剪？

考虑两种情况：

情况 A： $\hat{A}_t > 0$ （动作好于平均）

我们想增大 $r_t(\theta)$ ，即增大 $\pi_\theta(a_t \mid s_t)$ 。

但如果不限制， $r_t(\theta)$ 可能变得很大，导致策略剧烈变化。

情况 B： $\hat{A}_t < 0$ （动作差于平均）

我们想减小 $r_t(\theta)$ ，即减小 $\pi_\theta(a_t \mid s_t)$ 。

同样， $r_t(\theta)$ 可能变得很小，策略剧烈变化。

Step 3：Clip 的作用

对于 $\hat{A}_t > 0$ ：

目标函数是 $r_t(\theta) \hat{A}_t$ ，想增大 $r_t(\theta)$
但 clip 后， $r_t(\theta) > 1 + \epsilon$ 时，项变为 $(1+\epsilon)\hat{A}_t$ ，不再增大
这限制了策略更新的幅度

对于 $\hat{A}_t < 0$ ：

目标函数是 $r_t(\theta) \hat{A}_t$ ，想减小 $r_t(\theta)$
但 clip 后， $r_t(\theta) < 1 - \epsilon$ 时，项变为 $(1-\epsilon)\hat{A}_t$ ，不再减小
同样限制了策略更新的幅度

Step 4：为什么用 min？

L(\theta) = \min(\text{未裁剪目标}, \text{裁剪目标})

取 min 保证：

保守估计：当更新过于激进时，目标函数不会"欺骗"优化器
稳定性：即使优化器想往极端方向走，目标函数也不给奖励

5.4 详细图解

情况 1： $\hat{A}_t > 0$

L (目标函数)
│
│        /
│       /
│──────*──────────  clip后变成常数 (不再上升)
│      /
│     /
│    /
└───────────────── r_t(θ)
    1-ε   1   1+ε

$r_t < 1+\epsilon$ ：目标 $= r_t \hat{A}_t$ ，增大 $r_t$
$r_t \geq 1+\epsilon$ ：目标 $= (1+\epsilon)\hat{A}_t$ ，不再增大（被 clip 了）

情况 2： $\hat{A}_t < 0$

L (目标函数)
│
│    / 
│   /  
│  /   
│─*────────────── clip后变成常数 (不再下降)
│ │
│  \
│   \
└───────────────── r_t(θ)
    1-ε   1   1+ε

$r_t > 1-\epsilon$ ：目标 $= r_t \hat{A}_t$ （负值），减小 $r_t$
$r_t \leq 1-\epsilon$ ：目标 $= (1-\epsilon)\hat{A}_t$ ，不再减小（被 clip 了）

5.5 PPO-Clip 的直觉

核心思想：信任域的软约束

$\epsilon$ 控制"信任域"大小： $\pi_\theta$ 与 $\pi_{\theta_{\text{old}}}$ 的差异限制在 $[1-\epsilon, 1+\epsilon]$ 倍
但不是硬约束，而是通过目标函数"软"实现

为什么叫"Proximal"？

"Proximal" 意为"近端的"，强调新策略应靠近旧策略。

6. 完整 PPO 算法

6.1 算法伪代码

PPO-Clip 算法：
输入：初始策略参数 θ_0，价值函数参数 φ_0
超参数：裁剪参数 ε，学习率 α，GAE 参数 λ，折扣因子 γ

For iteration = 1, 2, ...:
    1. 收集数据：
       用当前策略 π_θ_actor 生成 N 条轨迹
    
    2. 计算优势估计（GAE）：
       For each t:
           δ_t = r_t + γ V_φ(s_{t+1}) - V_φ(s_t)
           Â_t = Σ_{l=0}^{∞} (γλ)^l δ_{t+l}
    
    3. 更新策略（多轮 epoch）：
       For epoch = 1, ..., K:
           L^CLIP(θ) = 𝔼_t [min(r_t(θ)Â_t, clip(r_t(θ), 1-ε, 1+ε)Â_t)]
           θ ← θ + α ∇_θ L^CLIP(θ)
    
    4. 更新价值函数：
       L^VF(φ) = 𝔼_t [(V_φ(s_t) - V_t^{target})²]
       φ ← φ - α ∇_φ L^VF(φ)

6.2 目标函数完整形式

实践中，PPO 的目标函数通常包含三项：

L(\theta) = \mathbb{E}_t \left[ L_t^{\text{CLIP}}(\theta) - c_1 L_t^{\text{VF}}(\theta) + c_2 S[\pi_\theta](s_t) \right]

其中：

$L_t^{\text{CLIP}}(\theta)$ ：PPO-Clip 目标（策略优化）
$L_t^{\text{VF}}(\theta) = (V_\theta(s_t) - V_t^{\text{target}})^2$ ：价值函数损失
$S[\pi_\theta](s_t) = -\sum_a \pi_\theta(a \mid s_t) \log \pi_\theta(a \mid s_t)$ ：熵奖励（鼓励探索）
$c_1, c_2$ ：系数

7. PPO vs TRPO 对比

特性	TRPO	PPO-Clip	PPO-Penalty
KL 约束方式	硬约束 + 共轭梯度	Clip 软约束	惩罚项
计算复杂度	高（共轭梯度）	低	中
实现	复杂	简单	中等
理论保证	强（单调不减）	弱	弱
工程实际	少用	最常用	较少

8. PPO 在 RLHF 中的应用预告

在 RLHF 中，PPO 需要特化处理：

奖励信号：不是环境奖励，而是 Reward Model 给出的奖励
KL 惩罚：额外添加 KL 约束，防止模型偏离预训练分布
特殊目标函数：

L(\theta) = \mathbb{E}_t \left[ L_t^{\text{CLIP}}(\theta) - c_1 L_t^{\text{VF}}(\theta) + c_2 S[\pi_\theta](s_t) \; \boxed{- c_3 \mathbb{E}[\text{KL}(\pi_\theta \parallel \pi_{\text{ref}})]} \right]

其中 $\pi_{\text{ref}}$ 是参考模型（通常是 SFT 模型）。

这些细节将在 03_rlhf.md 中详细展开。

9. 总结

概念	公式	作用
重要性权重	$r_t(\theta) = \frac{\pi_\theta}{\pi_{\theta_{\text{old}}}}$	重用旧样本
KL 约束	$D_{\text{KL}}(\pi_{\text{old}} \parallel \pi_\theta) \leq \delta$	限制策略变化
TRPO 目标	$\max r_t A_t$ s.t. KL 约束	有理论保证
PPO-Clip 目标	$\min(r_t A_t, \text{clip}(r_t) A_t)$	简化实现
$\epsilon$	裁剪范围	控制更新步长

PPO 的核心贡献：用简单的 Clip 操作近似复杂的 KL 约束，实现高效稳定的策略优化。

10. 参考文献

Schulman, J., et al. (2015). "Trust Region Policy Optimization." ICML.
Schulman, J., et al. (2017). "Proximal Policy Optimization Algorithms." arXiv:1707.06347.
Kakade, S., & Langford, J. (2002). "Approximately Optimal Approximate Reinforcement Learning." ICML.

02 PPO 算法数学推导

ON THIS PAGE