跳到主要内容

正态分布的最大熵原理导出

1 正态分布的中心极限定理导出

Lindeberg-Lévy 中心极限定理 设 {Xn}n=1\{X_n\}_{n=1}^\infty 是 i.i.d 的随机变量序列, 且 i\forall iEXi=μEX_i = \muDXi=σ2>0DX_i = \sigma ^2 > 0 存在, 记

Yn=i=1nXinμσnY_n = \frac{\sum _{i=1} ^n X_i - n \mu}{\sigma \sqrt n}

则有 Yn˙StdNY_n \mathop{\dot \sim} {\rm Std}N.

证明 设 XiμX_i - \mu 的特征函数为 φ(t)\varphi(t), 考虑它在原点处的前两阶导数

{E(Xiμ)=φ(0)/i=0D(Xiμ)=φ(0)+φ(0)2=σ2    {φ(0)=0φ(0)=σ2\left\{\begin{aligned} & E(X_i - \mu) = \varphi'(0)/i = 0\\ & D(X_i - \mu) = -\varphi''(0) + \varphi'(0)^2 = -\sigma^2 \end{aligned}\right. \quad \implies \quad \left\{\begin{aligned} & \varphi'(0) = 0\\ & \varphi''(0) = -\sigma^2 \end{aligned}\right.

考虑 Maclaurin 展开

φ(t)=φ(0)+φ(0)t+φ(0)t22+o(t2)=1σ22t2+o(t2)\begin{aligned} \varphi(t) &= \varphi(0) + \varphi'(0)t + \varphi''(0)\frac{t^2}{2} + o(t^2)\\ &= 1 - \frac{\sigma^2}{2}t^2 + o(t^2) \end{aligned}

YnY_n 的特征函数为

φYn(t)=φ(tσn)n=(1t22n+o(t2))n\varphi _{Y_n}(t) = \varphi\left(\frac{t}{\sigma\sqrt n}\right)^n = \left(1 - \frac{t^2}{2n} + o(t^2)\right)^n

考虑 {Yn}n=1\{Y_n\}_{n=1}^\infty 的极限

limnφYn(t)=limn(1t22n+o(t2))n\lim _{n \to \infty} \varphi _{Y_n}(t) = \lim _{n \to \infty} \left(1 - \frac{t^2}{2n} + o(t^2)\right)^n

这是一个 11^\infty 型极限. 考虑 L'Hôpital 法则, 可以解出

limnφYn(t)=et2/2\lim _{n \to \infty} \varphi _{Y_n}(t) = e^{-t^2/2}

这正是 StdN\mathrm{Std}N 的特征函数.

2 正态分布的高斯误差导出

  假设对某随机变量获得了一系列观测值 X={xi}i=1n\mathcal X = \{x_i\}_{i=1}^n, 其真实值 θ\theta 未知. 假设观测误差 {ei=xiθ}i=1n\{e_i = x_i - \theta\}_{i=1}^n 的密度函数是 p(e)=p(xθ)p(e) = p(x - \theta). 考虑 θ\theta 的极大似然估计

dlnp(xiθ)dθ=p(xiθ)p(xiθ)=0\frac{\mathrm d\ln \prod p(x_i - \theta)}{\mathrm d\theta} = \sum \frac{p'(x_i - \theta)}{p(x_i - \theta)} = 0

g=p/pg = p' / p, 则方程化为

g(xiθ)=0\sum g(x_i - \theta) = 0

高斯希望 xˉ:=xi/n\bar x := \sum x_i / nθ\theta 的极大似然估计. 即 θ=xˉ\theta = \bar x 是上面方程的解. 并且该方程应该对任何样本容量 nn、任何观测集 X\mathcal X 均成立.

  • 特殊地取 n=2n=2, 则有
g(x1xˉ)+g(x2xˉ)=0g(x_1 - \bar x) + g(x_2 - \bar x) = 0

又因为 (x1xˉ)=(x2xˉ)(x_1 - \bar x) = -(x_2 - \bar x) 以及 x1x_1, x2x_2 的任意性, 所以 g(t)g(t) 具备性质

g(t)=g(t)g(-t) = -g(t)
  • 特殊地取 n=m+1n = m+1 以及
x1==xm=t,xn=mtx_1 = \cdots = x_m = -t, \quad x_n = mt

此时 xˉ=0\bar x = 0, 则有

g(mt)=g(xnxˉ)=i=1mg(xixˉ)=g(mt)=mg(t)\begin{aligned} g(mt) &= g(x_n - \bar x)\\ &= -\sum_{i=1}^m g(x_i - \bar x)\\ &= -g(-mt) = mg(t) \end{aligned}

g()g(\cdot) 具备性质 g(mt)=mg(t)g(mt) = mg(t). 这样的函数在 R\mathbb R 中只有

g(t)=at,aRg(t) = at, \qquad a \in \mathbb R

一族. 根据 g()g(\cdot) 的定义有

p(t)p(t)=(lnp(t))=at    p(t)=eat/2+b\frac{p'(t)}{p(t)} = (\ln p(t))' = at \quad \implies \quad p(t) = e^{at/2 + b}

其中 bb 是任意常数. 这正是正态密度的核.

3 正态分布的最大熵原理导出

  对于一个随机变量 Xp(x)X \sim p(x), 定义它的熵 hX\mathrm hX

hX:=Rp(x)lnp(x)dx\mathrm h X := -\int _{\mathbb R} p(x) \ln p(x) \mathrm dx

3.1 积分限定条件下的最大熵

  现在考虑一个最优化问题: 给定一系列积分形式的限定条件

{Rp(x)ri(x)dx=si}i=1n\left\{ \int _{\mathbb R} p(x) r_i(x) \mathrm dx = s_i \right\}_{i=1}^n

哪一个概率分布 Xp(x)X \sim p(x) 可以使得其熵最大? 即

maxp(x)hX=Rp(x)lnp(x)dxs.t.p(x)0,Rp(x)dx=1,Rri(x)p(x)dx=si\begin{aligned} \max _{p(x)} \quad & \mathrm h X = -\int _{\mathbb R} p(x) \ln p(x) \mathrm dx\\ \text{s.t.} \quad & p(x) \geq 0, \\ & \int _{\mathbb R} p(x) \mathrm dx = 1, \\ & \int _{\mathbb R} r_i(x)p(x) \mathrm dx = s_i \end{aligned}

使用 Lagrange 乘子法. 考虑该优化问题的 Lagrange 函数

L=(Rp(x)lnp(x)dx)+λ0(Rp(x)dx1)+i=1nλi(Rri(x)p(x)dxsi)\mathcal L = \left( -\int _{\mathbb R} p(x) \ln p(x) \mathrm dx \right) + \lambda _0 \left( \int _{\mathbb R} p(x) \mathrm dx - 1 \right) + \sum _{i=1}^n \lambda _i \left( \int _{\mathbb R} r_i(x) p(x) \mathrm dx - s_i \right)

pp 求导并令其为 00 得到

Lp=(lnp(x)+1)+λ0+i=1nλiri(x)=0\frac{\partial \mathcal L}{\partial p} = -\Big(\ln p(x) + 1\Big) + \lambda _0 + \sum _{i=1}^n \lambda _i r _i(x) = 0

所以密度函数 pp 有以下形式

p(x)=e1+λ0+λiri(x)p(x) = e^{-1 + \lambda _0 + \sum \lambda _i r _i(x)}

其中 λ0,λ1,,λn\lambda _0, \lambda _1, \dots, \lambda _n 是 Lagrange 乘子.

3.2 二阶矩条件下的最大熵

  现在指出: 在 R\mathbb R 中, 给定均值 EX=μEX = \mu 和方差 DX=σ2DX = \sigma ^2 后, 正态分布是信息熵最大的分布. 考虑最优化问题

maxp(x)hX=Rp(x)lnp(x)dxs.t.p(x)0,Rp(x)dx=1,Rxp(x)dx=μ,Rx2p(x)dx=σ2+μ2\begin{aligned} \max _{p(x)} \quad & \mathrm h X = -\int _{\mathbb R} p(x) \ln p(x) \mathrm dx\\ \text{s.t.} \quad & p(x) \geq 0, \\ & \int _{\mathbb R} p(x) \mathrm dx = 1, \\ & \int _{\mathbb R} xp(x) \mathrm dx = \mu, \\ & \int _{\mathbb R} x^2p(x) \mathrm dx = \sigma ^2 + \mu ^2 \end{aligned}

根据上一节中的分析, 解一定有形式

p(x)=e1+λ0+λ1x+λ2x2p(x) = e^{-1 + \lambda _0 + \lambda _1 x + \lambda _2 x^2}

假设 λ2<0\lambda _2 < 0, 则这三个积分都是收敛的. 将解形式代入零阶矩条件, 有

Re1+λ0+λ1x+λ2x2dx=πλ2e1+λ0λ12/4λ2=1\int _{\mathbb R} e^{-1 + \lambda _0 + \lambda _1 x + \lambda _2 x^2} \mathrm dx = \sqrt \frac{\pi}{-\lambda _2} e^{-1+\lambda _0 - \lambda _1^2/4\lambda _2} = 1

所以

e1+λ0λ12/4λ2=λ2πe^{-1+\lambda _0 - \lambda _1^2/4\lambda _2} = \sqrt \frac{-\lambda _2}{\pi}

将解形式代入一阶矩条件, 有

Rxe1+λ0+λ1x+λ2x2dx=12π(λ2)3λ1e1+λ0λ12/4λ2=λ12λ2=μ\begin{aligned} \int _{\mathbb R} xe^{-1 + \lambda _0 + \lambda _1 x + \lambda _2 x^2} \mathrm dx &= \frac 12 \frac{\sqrt{\pi}}{(\sqrt{-\lambda _2})^3} \lambda _1e^{-1+\lambda _0 - \lambda _1^2/4\lambda _2}\\ &= -\frac{\lambda _1}{2\lambda _2} = \mu \end{aligned}

将解形式代入二阶矩条件, 有

Rx2e1+λ0+λ1x+λ2x2dx=14π(λ2)5(λ122λ2)e1+λ0λ12/4λ2=λ122λ24λ22=σ2+μ2\begin{aligned} \int _{\mathbb R} x^2e^{-1 + \lambda _0 + \lambda _1 x + \lambda _2 x^2} \mathrm dx &= \frac 14 \frac{\sqrt{\pi}}{(\sqrt{-\lambda _2})^5}(\lambda _1^2 - 2\lambda _2)e^{-1+\lambda _0 - \lambda _1^2/4\lambda _2}\\ &= \frac{\lambda _1^2 - 2\lambda _2}{4\lambda _2^2} = \sigma ^2 + \mu ^2 \end{aligned}

  整理上面的三个条件并求解

{πλ2e1+λ0λ12/4λ2=1λ12λ2=μλ122λ24λ22=σ2+μ2    {λ0=log(12πσ)μ22σ2+1λ1=μσ2λ2=12σ2\left\{\begin{aligned} & \sqrt \frac{\pi}{-\lambda _2} e^{-1+\lambda _0 - \lambda _1^2/4\lambda _2} = 1\\ & -\frac{\lambda _1}{2\lambda _2} = \mu\\ & \frac{\lambda _1^2 - 2\lambda _2}{4\lambda _2^2} = \sigma ^2 + \mu ^2 \end{aligned}\right.\implies \left\{\begin{aligned} & \lambda _0 = \log \left(\frac{1}{\sqrt{2\pi}\sigma}\right)-\frac{\mu ^2}{2\sigma ^2} + 1\\ & \lambda _1 = \frac{\mu}{\sigma ^2}\\ & \lambda _2 = -\frac{1}{2\sigma ^2} \end{aligned}\right.

回代即可得到

p(x)=12πσe(xμ)2/2σ2p(x) = \frac{1}{\sqrt{2\pi}\sigma}e^{-(x-\mu)^2/2\sigma ^2}

这正是正态分布的密度函数.

参考文献

[1] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程. 第 2 版[M]. 北京: 高等教育出版社, 2010.

[2] 知乎: 蓦风星吟. 从高斯分布的导出讲起——为什么概率密度函数长成这个样子?https://zhuanlan.zhihu.com/p/24437232.

[3] 知乎: 烛之文. 高斯分布的概率密度函数推导. https://zhuanlan.zhihu.com/p/647353406.

[4] 51CTO: 阿甘兄_. 19 误差分布曲线的建立 - 高斯导出误差正态分布. https://blog.51cto.com/u_15294985/5139845.

[5] 知乎: CHERISH. 为什么「正态分布」在自然界中如此常见?https://www.zhihu.com/question/26854682/answer/3589473945.