01 强化学习基础概念

小龙虾2026-04-03

01 强化学习基础概念

本文档介绍理解 RLHF 所需的强化学习核心概念，为后续 PPO 和 RLHF 的数学推导打基础。

1. 强化学习问题描述

强化学习（Reinforcement Learning, RL）是一个序贯决策问题：

智能体（Agent） 在环境中采取行动
环境（Environment） 返回新状态和奖励
目标是学习一个策略（Policy），使得长期累积奖励最大化

1.1 核心概念

符号	含义
$s \in \mathcal{S}$	状态（State）
$a \in \mathcal{A}$	动作（Action）
$\pi(a \mid s)$	策略：在状态 $s$ 下选择动作 $a$ 的概率
$r(s, a)$	奖励函数
$\gamma \in [0, 1)$	折扣因子

1.2 累积折扣奖励

智能体的目标是最大化长期累积奖励。从时刻 $t$ 开始的累积折扣回报定义为：

G_t = \sum_{k=0}^{\infty} \gamma^k r_{t+k+1} = r_{t+1} + \gamma r_{t+2} + \gamma^2 r_{t+3} + \cdots

这里 $r_{t+1}$ 是在状态 $s_t$ 采取动作 $a_t$ 后获得的即时奖励。 $G_t$ 也被称为 reward-to-go（从 $t$ 往后的回报）。

1.3 状态价值函数

状态价值函数 $V^\pi(s)$ ：从状态 $s$ 开始，按照策略 $\pi$ 行动所能获得的期望累积奖励：

V^\pi(s) = \mathbb{E}_\pi \left[ G_t \mid s_t = s \right]

1.4 动作价值函数（Q 函数）

动作价值函数 $Q^\pi(s, a)$ ：从状态 $s$ 开始，采取动作 $a$ ，之后按照策略 $\pi$ 行动的期望累积奖励：

Q^\pi(s, a) = \mathbb{E}_\pi \left[ G_t \mid s_t = s, a_t = a \right]

1.5 优势函数

优势函数 $A^\pi(s, a)$ ：衡量某个动作相对于平均水平的"优势"：

A^\pi(s, a) = Q^\pi(s, a) - V^\pi(s)

直观理解：

$A^\pi(s, a) > 0$ ：动作 $a$ 比平均好
$A^\pi(s, a) < 0$ ：动作 $a$ 比平均差
$A^\pi(s, a) = 0$ ：动作 $a$ 是平均水平

2. Policy Gradient 定理

2.1 目标函数

策略优化的目标是找到一个参数化的策略 $\pi_\theta$ ，使得期望累积奖励最大化。

定义轨迹 $\tau = (s_0, a_0, r_1, s_1, a_1, r_2, \ldots, s_T)$ ，整条轨迹的折扣回报为：

R(\tau) = G_0 = \sum_{k=0}^{\infty} \gamma^k r_{k+1}

目标函数为：

J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ R(\tau) \right]

2.2 策略梯度定理

定理：策略梯度的表达式为：

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{\infty} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \cdot G_t \right]

2.3 推导过程

Step 1：展开目标函数

J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} [R(\tau)] = \int p_\theta(\tau) R(\tau) \, d\tau

其中轨迹概率为：

p_\theta(\tau) = p(s_0) \prod_{t=0}^{\infty} \pi_\theta(a_t \mid s_t) p(s_{t+1} \mid s_t, a_t)

Step 2：对 $\theta$ 求梯度

\nabla_\theta J(\theta) = \int \nabla_\theta p_\theta(\tau) R(\tau) \, d\tau

Step 3：使用 log-derivative trick

关键技巧： $\nabla_\theta p_\theta(\tau) = p_\theta(\tau) \nabla_\theta \log p_\theta(\tau)$

这个等式直接来自链式法则：

\nabla_\theta p_\theta(\tau) = p_\theta(\tau) \cdot \frac{\nabla_\theta p_\theta(\tau)}{p_\theta(\tau)} = p_\theta(\tau) \nabla_\theta \log p_\theta(\tau)

Step 4：写成期望形式

\begin{aligned} \nabla_\theta J(\theta) &= \int p_\theta(\tau) \nabla_\theta \log p_\theta(\tau) R(\tau) \, d\tau \\ &= \mathbb{E}_{\tau \sim \pi_\theta} \left[ \nabla_\theta \log p_\theta(\tau) \cdot R(\tau) \right] \end{aligned}

Step 5：展开轨迹概率的 log 梯度

\log p_\theta(\tau) = \log p(s_0) + \sum_{t=0}^{\infty} \log \pi_\theta(a_t \mid s_t) + \sum_{t=0}^{\infty} \log p(s_{t+1} \mid s_t, a_t)

对 $\theta$ 求梯度时，只有策略项含 $\theta$ ：

\nabla_\theta \log p_\theta(\tau) = \sum_{t=0}^{\infty} \nabla_\theta \log \pi_\theta(a_t \mid s_t)

Step 6：得到初步形式

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{\infty} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \cdot R(\tau) \right]

这个形式有个问题：每个动作 $a_t$ 都用整条轨迹的回报 $R(\tau)$ 来加权，包括 $t$ 之前的奖励。但 $t$ 之前的奖励跟动作 $a_t$ 无关——动作只影响后续奖励.

Step 7：从 $R(\tau)$ 到 $G_t$

利用 EGLP（Expected Grad-Log-Prob）引理可以证明，把 $R(\tau)$ 换成 $G_t$ 不改变期望值：

\boxed{\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{\infty} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \cdot G_t \right]}

这样做的好处是降低方差： $G_t$ 只包含 $a_t$ 能影响的奖励，剔除了无关的早期奖励。

2.4 直观理解

$\nabla_\theta \log \pi_\theta(a_t \mid s_t)$ ：指向增大 $\pi_\theta(a_t \mid s_t)$ 的方向
$G_t$ ：如果从 $t$ 开始的回报高，就增大这个动作的概率

核心思想：

好的动作（后续回报高）→ 增大概率
坏的动作（后续回报低）→ 减小概率

2.5 使用优势函数的形式

实践中常用优势函数替代 $G_t$ ：

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_\theta} \left[ \sum_{t=0}^{\infty} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \cdot A^{\pi}(s_t, a_t) \right]

好处：进一步降低方差。 $A^\pi(s, a) = Q^\pi(s,a) - V^\pi(s)$ 衡量的是「比平均好多少」，而不是绝对回报。

3. 重要性采样

3.1 问题背景

策略梯度需要从当前策略 $\pi_\theta$ 采样。但每次更新后策略变了，旧数据就不能直接用了——每次都要重新采样，成本太高。

重要性采样解决了这个问题：用旧策略 $\pi_{\theta_{\text{old}}}$ 采样一条轨迹，计算优势函数 $A^{\pi_{\theta_{\text{old}}}}$ ，然后通过重要性权重修正，用同一批数据反复更新策略。

3.2 重要性采样公式

\mathbb{E}_{x \sim p}[f(x)] = \mathbb{E}_{x \sim q} \left[ \frac{p(x)}{q(x)} f(x) \right]

证明：

\mathbb{E}_{x \sim q} \left[ \frac{p(x)}{q(x)} f(x) \right] = \int q(x) \frac{p(x)}{q(x)} f(x) \, dx = \int p(x) f(x) \, dx = \mathbb{E}_{x \sim p}[f(x)]

3.3 应用到策略梯度

用旧策略 $\pi_{\theta_{\text{old}}}$ 的样本估计新策略 $\pi_\theta$ 的梯度：

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta_{\text{old}}}} \left[ \sum_{t=0}^{\infty} \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)} \nabla_\theta \log \pi_\theta(a_t \mid s_t) \cdot A^{\pi_{\theta_{\text{old}}}}(s_t, a_t) \right]

定义重要性权重：

\rho_t(\theta) = \frac{\pi_\theta(a_t \mid s_t)}{\pi_{\theta_{\text{old}}}(a_t \mid s_t)}

简化为：

\nabla_\theta J(\theta) = \mathbb{E}_{\tau \sim \pi_{\theta_{\text{old}}}} \left[ \sum_{t=0}^{\infty} \rho_t(\theta) \nabla_\theta \log \pi_\theta(a_t \mid s_t) \cdot A_t \right]

4. KL 散度

4.1 定义

KL 散度（Kullback-Leibler divergence）衡量两个概率分布之间的差异：

D_{\text{KL}}(P \parallel Q) = \sum_{x} P(x) \log \frac{P(x)}{Q(x)} = \mathbb{E}_{x \sim P} \left[ \log \frac{P(x)}{Q(x)} \right]

对于连续分布：

D_{\text{KL}}(P \parallel Q) = \int p(x) \log \frac{p(x)}{q(x)} \, dx

4.2 性质

非负性： $D_{\text{KL}}(P \parallel Q) \geq 0$
等号成立条件： $D_{\text{KL}}(P \parallel Q) = 0$ 当且仅当 $P = Q$
不对称性： $D_{\text{KL}}(P \parallel Q) \neq D_{\text{KL}}(Q \parallel P)$ 一般成立

4.3 在 RL 中的应用

在策略优化中，我们希望新策略 $\pi_\theta$ 不要离旧策略 $\pi_{\theta_{\text{old}}}$ 太远，用 KL 散度约束：

D_{\text{KL}}(\pi_{\theta_{\text{old}}} \parallel \pi_\theta) \leq \delta

这保证了策略更新的稳定性。

5. REINFORCE 算法

5.1 算法描述

REINFORCE 是最基础的 Policy Gradient 算法：

REINFORCE 算法：
1. 初始化策略参数 θ
2. For each episode:
   a. 用当前策略 π_θ 生成一条轨迹 τ = (s_0, a_0, r_1, s_1, a_1, ...)
   b. For each time step t:
      - 计算 G_t = Σ_{k=t}^{\infty} γ^{k-t} r_{k+1}
      - 更新：θ ← θ + α ∇_θ log π_θ(a_t | s_t) · G_t
3. 重复直到收敛

5.2 数学基础

更新公式：

\theta \leftarrow \theta + \alpha \nabla_\theta \log \pi_\theta(a_t \mid s_t) \cdot G_t

这就是 Policy Gradient 定理的直接应用。

6. Actor-Critic 架构

REINFORCE 的核心问题：方差大。 $G_t$ 来自单条轨迹，同状态同动作在不同轨迹中回报差异可能很大，训练不稳定。

解决思路：用神经网络估计期望回报，替代单条轨迹的真实回报。

Actor：策略 $\pi_\theta$ ，选择动作
Critic：价值函数 $V_\phi(s)$ ，估计状态的期望回报

Critic 提供 baseline，Actor 根据相对优势调整策略。

6.1 优势函数估计

理论上 $A^\pi(s,a) = Q^\pi(s,a) - V^\pi(s)$ ，但 $Q$ 也需要估计。实践中的近似方法：

蒙特卡洛： $\hat{A}_t = G_t - V(s_t)$ ，无偏但高方差
TD 误差： $\delta_t = r_{t+1} + \gamma V(s_{t+1}) - V(s_t)$ ，低方差但有偏（ $V(s_{t+1})$ 依赖当前动作）
n-step：看 $n$ 步真实回报，剩余用 Critic 估计，折中

6.2 GAE

n-step 的问题： $n$ 怎么选？GAE 的想法是不选，把所有 n-step 融合，越远的项权重越小：

\hat{A}_t^{\text{GAE}} = \sum_{l=0}^{\infty} (\gamma \lambda)^l \delta_{t+l}

展开后中间项会在 $\lambda=1$ 时抵消，退化为蒙特卡洛； $\lambda<1$ 时得到 $\lambda$ -return，是蒙特卡洛和 TD 的平滑插值。

$\lambda$ 控制「多信真实回报还是多信 Critic」： $\lambda=0$ 完全依赖 Critic（低方差有偏）， $\lambda=1$ 完全信真实回报（无偏高方差）。常用 $\lambda = 0.95$ 。

实现在线更新：完整 GAE 需要等轨迹结束。实践中两种做法：

截断 GAE：只看未来 $k$ 步， $k$ 步后就能更新
Batch 更新：收集一小批数据后更新，而不是等整个 episode

6.3 Actor-Critic 算法

Actor-Critic 算法：
1. 初始化策略参数 θ，价值函数参数 φ
2. For each episode:
   a. 用当前策略 π_θ 生成轨迹，收集 (s, a, r, s')
   b. For each time step t:
      - 计算 TD 误差：δ_t = r_{t+1} + γ V_φ(s_{t+1}) - V_φ(s_t)
      - 用 GAE 计算优势：Â_t = Σ_l (γλ)^l δ_{t+l}
   c. 更新 Actor：θ ← θ - α ∇_θ L^actor(θ)
   d. 更新 Critic：φ ← φ - β ∇_φ L^critic(φ)
3. 重复直到收敛

Actor 损失： $L^{\text{actor}}(\theta) = -\mathbb{E}[\log \pi_\theta(a \mid s) \cdot \hat{A}(s, a)]$ 。
Critic 损失： $L^{\text{critic}}(\phi) = \mathbb{E}[(V_\phi(s) - G)^2]$ 。

相比 REINFORCE，Actor-Critic 牺牲无偏性换取低方差和高样本效率，且支持在线学习。

7. 总结

概念	定义	作用
策略 $\pi(a \mid s)$	状态到动作的映射	决定智能体行为
价值函数 $V^\pi(s)$	期望累积奖励	评估状态好坏
Q 函数 $Q^\pi(s, a)$	状态-动作价值	评估动作好坏
优势函数 $A^\pi(s, a)$	$Q - V$	相对优势
Policy Gradient	$\nabla_\theta J = \mathbb{E}[\nabla_\theta \log \pi \cdot A]$	策略优化方向
重要性采样	$\mathbb{E}_p[f] = \mathbb{E}_q[\frac{p}{q}f]$	重用旧样本
KL 散度	$D_{\text{KL}}(P \parallel Q)$	分布间距离
GAE	多步 TD 误差组合	低方差优势估计

8. 参考文献

Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
Schulman, J., et al. (2015). "Trust Region Policy Optimization." ICML.
Schulman, J., et al. (2016). "Generalized Advantage Estimation." ICLR.
Kakade, S. (2002). "A Natural Policy Gradient". NIPS.

01 强化学习基础概念

ON THIS PAGE