01 强化学习基础概念

Lingfeng2026-04-03

01 强化学习基础概念

本文档介绍理解 RLHF 所需的强化学习核心概念,为后续 PPO 和 RLHF 的数学推导打基础。

1. 强化学习问题描述

强化学习(Reinforcement Learning, RL)是一个序贯决策问题

  • 智能体(Agent) 在环境中采取行动
  • 环境(Environment) 返回新状态和奖励
  • 目标是学习一个策略(Policy),使得长期累积奖励最大化

1.1 核心概念

符号含义
状态(State)
动作(Action)
策略:在状态 下选择动作 的概率
奖励函数
折扣因子
从时刻 开始的累积折扣奖励

累积折扣奖励定义为:

1.2 状态价值函数

状态价值函数 :从状态 开始,按照策略 行动所能获得的期望累积奖励:

1.3 动作价值函数(Q 函数)

动作价值函数 :从状态 开始,采取动作 ,之后按照策略 行动的期望累积奖励:

1.4 优势函数

优势函数 :衡量某个动作相对于平均水平的"优势":

直观理解

  • :动作 比平均好
  • :动作 比平均差
  • :动作 是平均水平

2. Policy Gradient 定理

2.1 目标函数

策略优化的目标是找到一个参数化的策略 ,使得期望累积奖励最大化:

其中 是一条轨迹。

2.2 Policy Gradient 定理推导

定理:策略梯度的表达式为:

推导过程

Step 1:展开目标函数

目标函数可以写成关于轨迹的期望:

其中:

  • 是轨迹概率
  • 是轨迹奖励

Step 2:对 求梯度

Step 3:使用 log-derivative trick

关键技巧:

这被称为 log-derivative trick 或者 REINFORCE trick

Step 4:带入得到期望形式

Step 5:展开轨迹概率的 log 梯度

求梯度,只有策略项含

Step 6:最终形式

2.3 直观理解

这个公式告诉我们:

  1. :指向增大 的方向
  2. :作为权重,如果轨迹奖励高,就增大这条轨迹上的动作概率

核心思想

  • 好的轨迹 → 增大这条轨迹上动作的概率
  • 坏的轨迹 → 减小这条轨迹上动作的概率

2.4 使用优势函数的形式

实践中,常用优势函数替代累积奖励:

好处:降低方差。因为 衡量的是"比平均好多少",而不是绝对奖励。

3. 重要性采样

3.1 问题背景

Policy Gradient 需要从当前策略 采样轨迹。但有时我们想用旧策略 的样本来估计新策略 的梯度。

3.2 重要性采样公式

证明

3.3 应用到策略梯度

用旧策略 的样本估计新策略 的梯度:

定义重要性权重

简化为:

4. KL 散度

4.1 定义

KL 散度(Kullback-Leibler divergence)衡量两个概率分布之间的差异:

对于连续分布:

4.2 性质

  1. 非负性
  2. 等号成立条件 当且仅当
  3. 不对称性 一般成立

4.3 在 RL 中的应用

在策略优化中,我们希望新策略 不要离旧策略 太远,用 KL 散度约束:

这保证了策略更新的稳定性。

5. REINFORCE 算法

5.1 算法描述

REINFORCE 是最基础的 Policy Gradient 算法:

REINFORCE 算法:
1. 初始化策略参数 θ
2. For each episode:
   a. 用当前策略 π_θ 生成一条轨迹 τ = (s_0, a_0, r_1, s_1, a_1, ...)
   b. For each time step t:
      - 计算 G_t = Σ_{k=t}^{T-1} γ^{k-t} r_{k+1}
      - 更新:θ ← θ + α ∇_θ log π_θ(a_t | s_t) · G_t
3. 重复直到收敛

5.2 数学基础

更新公式:

这就是 Policy Gradient 定理的直接应用。

6. Actor-Critic 架构

6.1 问题:REINFORCE 的方差大

REINFORCE 使用 作为权重,但 是从单个轨迹计算的,方差很大。

6.2 解决方案:用 Critic 估计价值

Actor(演员):策略 ,负责选择动作

Critic(评论家):价值函数 ,估计状态价值

6.3 优势函数估计

用 Critic 来估计优势函数:

或者使用 TD(时序差分)误差

Generalized Advantage Estimation (GAE)

其中 控制偏差-方差权衡。

6.4 学习目标

Actor 损失

Critic 损失

7. 总结

概念定义作用
策略 状态到动作的映射决定智能体行为
价值函数 期望累积奖励评估状态好坏
Q 函数 状态-动作价值评估动作好坏
优势函数 相对优势
Policy Gradient策略优化方向
重要性采样重用旧样本
KL 散度分布间距离
GAE多步 TD 误差组合低方差优势估计

下一步:在 02_ppo.md 中,我们将看到 PPO 如何基于这些概念,通过 Trust Region 和 Clipping 技术实现稳定高效的策略优化。

8. 参考文献

  1. Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
  2. Schulman, J., et al. (2015). "Trust Region Policy Optimization." ICML.
  3. Schulman, J., et al. (2016). "Generalized Advantage Estimation." ICLR.
  4. Kakade, S. (2002). "A Natural Policy Gradient." NIPS.
Last Updated 4/3/2026, 4:40:46 PM