自然地理解「正态分布概率密度公式」

Lingfeng2024-01-21

自然地理解「正态分布概率密度公式」

1. 问题提出

在最开始学习正态分布时，有很多令我很疑惑的点，包括概率密度公式的由来

Definition (一元正态分布(Univariate Normal Distribution))

p(x) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(x - \mu)^2}{2\sigma^2}} \tag{*}

而且最令人费解的是公式前面的 $\frac{1}{\sqrt{2\pi}}$ ，当然我知道这是为了确保 $\int_{-\infty}^{\infty} p(x) \, dx = 1$ .
但是高斯在进行计算积分 $I = \int_{-\infty}^{\infty} e^{-\frac{x^2}{2\sigma^2}} \, dx$ 时使用了一个匪夷所思的方法, 即引入了一个对称的积分与之相乘:

I^2 = I\cdot I = \left( \int_{-\infty}^{\infty} e^{-\frac{x^2}{2\sigma^2}} \, dx \right)\cdot \left( \int_{-\infty}^{\infty} e^{-\frac{y^2}{2\sigma^2}} \, dy \right) = \int_{-\infty}^{\infty} \int_{-\infty}^{\infty} e^{-\frac{x^2+y^2}{2\sigma^2}} \, dxdy \tag{**}

再使用极坐标变换, 令

r = \sqrt{ x^2 + y^2 }

\theta = \arctan\frac{y}{x}

得到

I^2 = \int_{0}^{2\pi} \, d\theta \int_{0}^{\infty} re^{-\frac{r^2}{2\sigma^2}} \, dr = 2\pi\sigma^2 \int_{0}^{\infty} e^{-\frac{r^2}{2\sigma^2}} \, d\frac{r^2}{2\sigma^2} \tag{***}

注意到后面的积分正好为1, 因此得到

I = \sqrt{ 2\pi} \sigma \tag{****}

通过"人为"地引入一个对称积分把一个一元积分变成了二元积分, 从而顺利解决问题, 思路很巧妙. 但问题是如果不引入这样的对称积分, 这个积分会很难求解. 因此, 我们想找到一种合理的解释来说明这个方法的本质.

似乎还可以用留数定理去计算这个积分

2. 正态分布的导出

在说明这个问题之前, 我们先介绍一种推导出正态分布概率密度公式的方式. ^[1]

射击弹落点分布 在火器射击问题中, 假如过射击中心作直角坐标系x轴及y轴. 每次射击弹落点会受随机因素影响偏离目标, 因此坐标 $(\xi, \eta)$ 是一个二维随机变量. 现在我们假设其坐标满足如下3个条件:

$\xi$ 与 $\eta$ 分别具有相同且连续的密度函数 $p(x)$ ;
$\xi$ 与 $\eta$ 相互独立;
$(\xi, \eta)$ 的密度函数在 $(x, y)$ 点的值仅与它到原点的距离 $r=\sqrt{ x^2+y^2 }$ 有关.

在推导之前, 我们先说明一下3个条件的含义. 前两个条件是比较显然的, 以便 $\xi$ 和 $\eta$ 的密度函数有良好的性质. 而第三个条件可以理解为 $(\xi, \eta)$ 关于 $\theta$ 在 $[0, 2\pi]$ 上是满足均匀分布, 且 $r$ 与 $\theta$ 相互独立, 也符合我们的常识.

证明:
设 $p(x, y)$ 为 $(\xi, \eta)$ 的联合密度函数, $q(r, \theta)$ 为极坐标变换下的密度函数, 显然有

p(x, y)=q(r, \theta) \tag{1}

由假设3可知

q(r, \theta)=\frac{1}{2\pi}q(r) \tag{2}

在这里我们为了避免根号运算, 设

h(r^2)=\frac{1}{2\pi}q(r)

, 即

h(x^2 + y^2) = \frac{1}{2\pi}q(\sqrt{ x^2+y^2 }) \tag{3}

由假设2可知

p(x, y) = p(x)p(y) \tag{4}

(2), (3), (4)

代入

(1)

得到关键式子

p(x)p(y) = h(x^2+y^2) \tag{5}

为了使这个式子更明显一点, 我们还可以再作一次代换, 令

f(x^2) = p(x), f(y^2) = p(y)

, 得到

f(x^2)f(y^2) = h(x^2+y^2) \tag{6}

这样代换后, 很容易观察出

f(x^2)

应该是一种指数形式, 因为这正好满足指数函数性质, 并且函数满足连续性. 实际上这正是

Cauchy

方程的一种变形, 我们期望最后要得到

f(x^2)=Ce^{ax^2}

, 为了凑出

Cauchy

方程的形式, 这里我们应该两边除掉

C=f(0)

(用反证法可以证明出

f(0)\neq 0

具体过程如下, 注意到在 $(6)$ 中, 令 $y=0$ , 有 $f(x^2)f(0) = h(x^2)$ , 因此代入 $(6)$ 有

f(x^2)f(y^2) = f(x^2+y^2)f(0) \tag{7}

两边除以

f(0)^2

得到

\frac{f(x^2)}{f(0)}\cdot \frac{f(y^2)}{f(0)} = \frac{f(x^2+y^2 )}{f(0)} \tag{8}

我们设

g(x) = \frac{f(x)}{f(0)}

, 因此有

g(x^2)\cdot g(y^2) = g(x^2 + y^2) \tag{9}

显然由柯西方程可得到

g(x^2) = e^{ax^2}

, 即

p(x) = f(x^2) = g(x^2)\cdot f(0) = Ce^{ax^2} \tag{10}

这样就得到了我们预期的结果, 当然这与最终的式子还有一点小小的差距, 我们还需要确定系数. 下面我们采用一个巧妙的方法, 我们重新回到式子

(1)

, 将

(10)

代入有

p(x, y) = p(x)p(y) = C^2e^{a(x^2+y^2)} \tag{11}

这里我们再采用极坐标变换, 得到

p(x, y) = q(r, \theta) = C^2re^{ar^2} \tag{12}

注意到有一个关键等式成立

\int_{0}^{\infty} \int_{0}^{2\pi} q(r, \theta) \, dr d\theta = 1 \tag{13}

即

C^2\int_{0}^{2\pi} \, d\theta \int_{0}^{\infty} re^{ar^2} \, dr = \frac{C^2}{2a}\cdot 2\pi \int_{0}^{\infty} e^{ar^2} \, d(ar^2) = 1 \tag{14}

注意到这里

a

显然是一个小于0的常数, 我们不妨令

a = -\frac{1}{2\sigma^2}

, 代入则有

C^2 \sigma^2 \cdot 2\pi \int_{0}^{\infty} e^{-\frac{r^2}{2\sigma^2}} \, d(\frac{r^2}{2\sigma^2}) = 1 \tag{15}

后面的积分显然为1, 因此有

C^2 = \frac{1}{2\pi \sigma^2} \tag{16}

即

C=\frac{1}{\sqrt{2\pi}\sigma} \tag{17}

这样便完美得到了一元正态分布的表达式

(*)

. 到了这里, 如果有敏锐的观察力, 可以注意到, 在最后推导的过程中,

(15)

和

(***)

是惊人的相似! 因此, 我们可以很自然的回答最开始的问题.

3. 问题解答

我们重新理一下证明的逻辑, 本质上根据 $(\xi, \eta)$ 的各向同性(isotropic), 即概率分布只与 $r$ 有关, 因此得到 $(9)$ , 进而通过柯西方程解出表达式. 事实上, 我们频繁采用极坐标而不是直角坐标, 正是因为极坐标恰好能反应各向同性这个性质.

当我们得到 $r$ 满足瑞利分布, $\theta$ 满足均匀分布, 从而

q(r, \theta) = \frac{1}{2\pi} \cdot \frac{r}{\sigma^2} e^{-\frac{r^2}{2\sigma^2}} \tag{18}

再重新变换为直角坐标系中, 显然有

p(x, y) = \frac{1}{2\pi \sigma^2}e^{-\frac{x^2 + y^2}{2\sigma^2}} = \left( \frac{1}{\sqrt{ 2\pi }\sigma} e^{-\frac{x^2}{2\sigma^2}} \right) \cdot \left( \frac{1}{\sqrt{ 2\pi }\sigma} e^{-\frac{y^2}{2\sigma^2}} \right) = p(x)p(y) \tag{19}

可以看出困扰我们的系数

C

的确定是很显然的, 当随机变量经过标准化之后, 正好有

C = \sqrt{ p(\theta) } = \frac{1}{\sqrt{ 2\pi }} \tag{20}

事实上, 从数学的直观上理解,

\pi

一定与某种对称的几何关系, 或者更简单的说, 跟圆有关系. 而在这个例子中, 关于

\theta

满足均匀分布恰好提供了一种类似于圆的几何关系. 这样解释, 正态分布概率密度函数中出现

\pi

似乎就是显然的了!

我们还需要解释为什么一定要引入一个对称的变量, 这是因为各向同性必须在多元情况下才能体现, 一元情况无法体现这个性质. 换句话说, 多元正态分布才真正反应了正态分布的性质, 一元正态分布可以看成是多元正态分布的退化/坍缩情况. 在这样的情况下, 高斯的证明过程, 以及最后的结果都可以得到一个相对令人满意的解释.

但有意思的是, 高斯推导出正态分布似乎并不是通过所给的这种方式, 而是在误差分析中得到(实际上就是中心极限定理). 至于为什么能想出这样巧妙的计算方式, 只能归结于他敏锐的数学天赋了.

李贤平, 陈子毅.概率论基础学习指导书[M]. 北京：高等教育出版社，2011: 201-202. ↩︎

自然地理解「正态分布概率密度公式」

自然地理解「正态分布概率密度公式」

1. 问题提出

2. 正态分布的导出

3. 问题解答

ON THIS PAGE