01 强化学习基础概念
01 强化学习基础概念
本文档介绍理解 RLHF 所需的强化学习核心概念,为后续 PPO 和 RLHF 的数学推导打基础。
1. 强化学习问题描述
强化学习(Reinforcement Learning, RL)是一个序贯决策问题:
- 智能体(Agent) 在环境中采取行动
- 环境(Environment) 返回新状态和奖励
- 目标是学习一个策略(Policy),使得长期累积奖励最大化
1.1 核心概念
| 符号 | 含义 |
|---|---|
| 状态(State) | |
| 动作(Action) | |
| 策略:在状态 下选择动作 的概率 | |
| 奖励函数 | |
| 折扣因子 | |
| 从时刻 开始的累积折扣奖励 |
累积折扣奖励定义为:
1.2 状态价值函数
状态价值函数 :从状态 开始,按照策略 行动所能获得的期望累积奖励:
1.3 动作价值函数(Q 函数)
动作价值函数 :从状态 开始,采取动作 ,之后按照策略 行动的期望累积奖励:
1.4 优势函数
优势函数 :衡量某个动作相对于平均水平的"优势":
直观理解:
- :动作 比平均好
- :动作 比平均差
- :动作 是平均水平
2. Policy Gradient 定理
2.1 目标函数
策略优化的目标是找到一个参数化的策略 ,使得期望累积奖励最大化:
其中 是一条轨迹。
2.2 Policy Gradient 定理推导
定理:策略梯度的表达式为:
推导过程:
Step 1:展开目标函数
目标函数可以写成关于轨迹的期望:
其中:
- 是轨迹概率
- 是轨迹奖励
Step 2:对 求梯度
Step 3:使用 log-derivative trick
关键技巧:
这被称为 log-derivative trick 或者 REINFORCE trick:
Step 4:带入得到期望形式
Step 5:展开轨迹概率的 log 梯度
对 求梯度,只有策略项含 :
Step 6:最终形式
2.3 直观理解
这个公式告诉我们:
- :指向增大 的方向
- :作为权重,如果轨迹奖励高,就增大这条轨迹上的动作概率
核心思想:
- 好的轨迹 → 增大这条轨迹上动作的概率
- 坏的轨迹 → 减小这条轨迹上动作的概率
2.4 使用优势函数的形式
实践中,常用优势函数替代累积奖励:
好处:降低方差。因为 衡量的是"比平均好多少",而不是绝对奖励。
3. 重要性采样
3.1 问题背景
Policy Gradient 需要从当前策略 采样轨迹。但有时我们想用旧策略 的样本来估计新策略 的梯度。
3.2 重要性采样公式
证明:
3.3 应用到策略梯度
用旧策略 的样本估计新策略 的梯度:
定义重要性权重:
简化为:
4. KL 散度
4.1 定义
KL 散度(Kullback-Leibler divergence)衡量两个概率分布之间的差异:
对于连续分布:
4.2 性质
- 非负性:
- 等号成立条件: 当且仅当
- 不对称性: 一般成立
4.3 在 RL 中的应用
在策略优化中,我们希望新策略 不要离旧策略 太远,用 KL 散度约束:
这保证了策略更新的稳定性。
5. REINFORCE 算法
5.1 算法描述
REINFORCE 是最基础的 Policy Gradient 算法:
REINFORCE 算法:
1. 初始化策略参数 θ
2. For each episode:
a. 用当前策略 π_θ 生成一条轨迹 τ = (s_0, a_0, r_1, s_1, a_1, ...)
b. For each time step t:
- 计算 G_t = Σ_{k=t}^{T-1} γ^{k-t} r_{k+1}
- 更新:θ ← θ + α ∇_θ log π_θ(a_t | s_t) · G_t
3. 重复直到收敛
5.2 数学基础
更新公式:
这就是 Policy Gradient 定理的直接应用。
6. Actor-Critic 架构
6.1 问题:REINFORCE 的方差大
REINFORCE 使用 作为权重,但 是从单个轨迹计算的,方差很大。
6.2 解决方案:用 Critic 估计价值
Actor(演员):策略 ,负责选择动作
Critic(评论家):价值函数 ,估计状态价值
6.3 优势函数估计
用 Critic 来估计优势函数:
或者使用 TD(时序差分)误差:
Generalized Advantage Estimation (GAE):
其中 控制偏差-方差权衡。
6.4 学习目标
Actor 损失:
Critic 损失:
7. 总结
| 概念 | 定义 | 作用 |
|---|---|---|
| 策略 | 状态到动作的映射 | 决定智能体行为 |
| 价值函数 | 期望累积奖励 | 评估状态好坏 |
| Q 函数 | 状态-动作价值 | 评估动作好坏 |
| 优势函数 | 相对优势 | |
| Policy Gradient | 策略优化方向 | |
| 重要性采样 | 重用旧样本 | |
| KL 散度 | 分布间距离 | |
| GAE | 多步 TD 误差组合 | 低方差优势估计 |
下一步:在 02_ppo.md 中,我们将看到 PPO 如何基于这些概念,通过 Trust Region 和 Clipping 技术实现稳定高效的策略优化。
8. 参考文献
- Sutton, R. S., & Barto, A. G. (2018). Reinforcement Learning: An Introduction. MIT Press.
- Schulman, J., et al. (2015). "Trust Region Policy Optimization." ICML.
- Schulman, J., et al. (2016). "Generalized Advantage Estimation." ICLR.
- Kakade, S. (2002). "A Natural Policy Gradient." NIPS.