从 EM 算法到 VAE

Lingfeng2026-03-22

从 EM 算法到 VAE

1. 最大似然法

假设随机变量 $X$ 的概率分布为 $p(x;\theta)$ ，其中 $\theta$ 是待估计的参数。如果我们观测到了一个数据 $x$ ，那么一个直观的想法是：选择使这个观测数据出现概率最大的参数。这就是最大似然法的核心思想

\hat{\theta} = \arg\max_{\theta} p(x;\theta)

在实际场景中，我们通常会观测到多个独立同分布的数据 $x_1, x_2, ..., x_n$ 。此时，这些数据联合出现的概率（即似然函数）为

L(\theta) = p(x_1, x_2, ..., x_n;\theta) = \prod_{i=1}^n p(x_i;\theta)

由于似然函数是连乘形式，不便于优化。因此我们通常取对数，将连乘转化为求和

l(\theta) = \log L(\theta) = \sum_{i=1}^n \log p(x_i;\theta)

于是参数估计变为

\hat{\theta} = \arg\max_{\theta} \log p(\bm{x}; \theta)

为什么我们选择最大化 $\log p(x;\theta)$ 而不是 $p(x;\theta)$ ？除了计算上的便利，这还可以从信息论的视角来理解。

假设真实分布为 $p^*(x)$ ，我们的模型分布为 $p(x;\theta)$ 。我们希望模型分布尽可能接近真实分布，即最小化 KL 散度

D_{KL}(p^* \| p) = \int p^*(x) \log \frac{p^*(x)}{p(x;\theta)} dx = H(p^*) - \mathbb{E}_{x \sim p^*}[\log p(x;\theta)]

第一项与 $\theta$ 无关，因此最小化 KL 散度等价于最大化 $\mathbb{E}_{x \sim p^*}[\log p(x;\theta)]$ 。而根据大数定律，当样本量足够大时，有

\mathbb{E}_{x \sim p^*}[\log p(x;\theta)] \approx \frac{1}{n} \sum_{i=1}^n \log p(x_i;\theta)

因此，最大化对数似然等价于最小化模型分布与真实分布之间的 KL 散度。

2. EM 算法

在实际问题中，我们经常遇到隐变量（latent variable）。隐变量是指那些真实存在但无法直接观测的随机变量。例如在高斯混合模型中，每个数据点来自哪个高斯分量就是一个隐变量——我们能观测到数据点本身，但不知道它属于哪个分量。

设观测变量为 $X$ ，隐变量为 $Z$ ，两者的联合分布为 $p(x, z;\theta)$ 。此时似然函数为

\log p(x;\theta) = \log \int p(x, z;\theta)dz

这个积分通常很难直接计算。为了解决这个问题，我们引入一个变分分布 $q(z)$ 。 $q(z)$ 是我们对隐变量分布的一个"猜测"或"近似"，我们可以自由选择和调整它。利用 $q(z)$ ，我们可以将积分改写为期望形式，并使用 Jensen 不等式得到下界

\begin{align*} \log p(x;\theta) &= \log \int p(x, z;\theta)dz \\ &= \log \int \frac{p(x, z;\theta)}{q(z)} q(z)dz \\ &= \log \mathbb{E}_{z \sim q} \left[\frac{p(x, z;\theta)}{q(z)}\right] \\ &\ge \mathbb{E}_{z \sim q} \left[ \log \frac{p(x, z;\theta)}{q(z)}\right] \end{align*}

这个下界被称为 ELBO（Evidence Lower Bound）。我们要最大化 $\log p(x;\theta)$ ，可以通过最大化这个下界来实现。

根据 Jensen 不等式，当 $\frac{p(x, z;\theta)}{q(z)}$ 为常数时取等号，即 $q(z) \propto p(x, z;\theta)$ 。由于 $q(z)$ 是关于 $z$ 的分布，归一化后得到

q(z) = \frac{p(x, z;\theta)}{\int p(x, z;\theta)dz} = \frac{p(x, z;\theta)}{p(x;\theta)} = p(z|x;\theta)

也就是说，当 $q(z)$ 取为后验分布 $p(z|x;\theta)$ 时，下界与目标相等。

因此我们便归纳出 EM 算法的迭代过程：

E 步：固定 $\theta$ ，令 $q(z) = p(z|x;\theta)$ ，使下界紧贴目标函数。
M 步：固定 $q(z)$ ，最大化下界关于 $\theta$ 的部分 $\theta^{(t+1)} = \arg\max_{\theta} \mathbb{E}_{z \sim p(z|x;\theta^{(t)})} [ \log p(x, z;\theta) ]$

由于 E 步已经使下界与目标函数重合，M 步提升下界的同时也会提升目标函数，这就是 EM 算法的核心思想。

3. VAE

在 EM 算法中，E 步需要计算后验 $p(z|x;\theta)$ ，M 步需要知道联合分布 $p(x,z;\theta)$ 的具体形式。但在很多实际问题中，这些都无法解析得到。

我们回顾 ELBO 的定义 $\text{ELBO} = \mathbb{E}_{z \sim q} \left[ \log \frac{p(x, z;\theta)}{q(z)} \right]$ ，将联合分布拆解为 $p(x, z;\theta) = p(x|z;\theta) p(z)$ ，得到

\begin{align*} \text{ELBO} &= \mathbb{E}_{z \sim q} \left[ \log \frac{p(x|z;\theta) p(z)}{q(z)} \right] \\ &= \mathbb{E}_{z \sim q} [ \log p(x|z;\theta) ] - D_{KL}(q(z) \| p(z)) \end{align*}

观察这个式子，我们发现：要最大化 ELBO，只需要知道三样东西—— $p(x|z;\theta)$ 、 $q(z)$ （用来近似后验 $p(z|x;\theta)$ ）和先验 $p(z)$ 。其中先验 $p(z)$ 可以由我们自己假定（通常取标准正态分布），而 $p(x|z;\theta)$ 和 $q(z|x)$ 则可以用神经网络来学习。这就是 VAE 的核心思想：

编码器（Encoder） $q_\phi(z|x)$ ：近似后验分布 $p(z|x;\theta)$ 。输入观测数据 $x$ ，输出变分分布的参数（如高斯分布的均值 $\mu_\phi(x)$ 和方差 $\sigma_\phi^2(x)$ ）。
解码器（Decoder） $p_\theta(x|z)$ ：学习生成模型（即似然 $p(x|z;\theta)$ ）。输入隐变量 $z$ ，输出重构分布的参数（如高斯分布的均值 $\mu_\theta(z)$ 和方差 $\sigma_\theta^2(z)$ ）。

此时 ELBO 变为

\text{ELBO} = \mathbb{E}_{z \sim q_\phi(z|x)} [ \log p_\theta(x|z) ] - D_{KL}(q_\phi(z|x) \| p(z))

我们要最大化这个 ELBO，相当于同时优化编码器参数 $\phi$ 和解码器参数 $\theta$ 。

从 EM 算法 到 VAE

从 EM 算法 到 VAE

1. 最大似然法

2. EM 算法

3. VAE

ON THIS PAGE

从 EM 算法到 VAE

从 EM 算法到 VAE