正态分布的最大熵原理导出
1 正态分布的中心极限定理导出
Lindeberg-Lévy 中心极限定理 设 {Xn}n=1∞ 是 i.i.d 的随机变量序列, 且 ∀i 有 EXi=μ 和 DXi=σ2>0 存在, 记
Yn=σn∑i=1nXi−nμ
则有 Yn∼˙StdN.
证明 设 Xi−μ 的特征函数为 φ(t), 考虑它在原点处的前两阶导数
{E(Xi−μ)=φ′(0)/i=0D(Xi−μ)=−φ′′(0)+φ′(0)2=−σ2⟹{φ′(0)=0φ′′(0)=−σ2
考虑 Maclaurin 展开
φ(t)=φ(0)+φ′(0)t+φ′′(0)2t2+o(t2)=1−2σ2t2+o(t2)
则 Yn 的特征函数为
φYn(t)=φ(σnt)n=(1−2nt2+o(t2))n
考虑 {Yn}n=1∞ 的极限
n→∞limφYn(t)=n→∞lim(1−2nt2+o(t2))n
这是一个 1∞ 型极限. 考虑 L'Hôpital 法则, 可以解出
n→∞limφYn(t)=e−t2/2
这正是 StdN 的特征 函数.
2 正态分布的高斯误差导出
假设对某随机变量获得了一系列观测值 X={xi}i=1n, 其真实值 θ 未知. 假设观测误差 {ei=xi−θ}i=1n 的密度函数是 p(e)=p(x−θ). 考虑 θ 的极大似然估计
dθdln∏p(xi−θ)=∑p(xi−θ)p′(xi−θ)=0
记 g=p′/p, 则方程化为
∑g(xi−θ)=0
高斯希望 xˉ:=∑xi/n 是 θ 的极大似然估计. 即 θ=xˉ 是上面方程的解. 并且该方程应该对任何样本容量 n、任何观测集 X 均成立.
g(x1−xˉ)+g(x2−xˉ)=0
又因为 (x1−xˉ)=−(x2−xˉ) 以及 x1, x2 的任意性, 所以 g(t) 具备性质
g(−t)=−g(t)
- 特殊地取 n=m+1 以及
x1=⋯=xm=−t,xn=mt
此时 xˉ=0, 则有
g(mt)=g(xn−xˉ)=−i=1∑mg(xi−xˉ)=−g(−mt)=mg(t)
即 g(⋅) 具备性质 g(mt)=mg(t). 这样的函数在 R 中只有
g(t)=at,a∈R
一族. 根据 g(⋅) 的定义有
p(t)p′(t)=(lnp(t))′=at⟹p(t)=eat/2+b
其中 b 是任意常数. 这正是正态密度的核.
3 正态分布的最大熵原理导出
对于一个随机变量 X∼p(x), 定义它的熵 hX 为
hX:=−∫Rp(x)lnp(x)dx
3.1 积分限定条件下的最大熵
现在考虑一个最优化问题: 给定一系列积分形式的限定条件
{∫Rp(x)ri(x)dx=si}i=1n
哪一个概率分布 X∼p(x) 可以使得其熵最大? 即
p(x)maxs.t.hX=−∫Rp(x)lnp(x)dxp(x)≥0,∫Rp(x)dx=1,∫Rri(x)p(x)dx=si
使用 Lagrange 乘子法. 考虑该优化问题的 Lagrange 函数
L=(−∫Rp(x)lnp(x)dx)+λ0(∫Rp(x)dx−1)+i=1∑nλi(∫Rri(x)p(x)dx−si)
对 p 求导并令其为 0 得到
∂p∂L=−(lnp(x)+1)+λ0+i=1∑nλiri(x)=0
所以密度函数 p 有以下形式
p(x)=e−1+λ0+∑λiri(x)
其中 λ0,λ1,…,λn 是 Lagrange 乘子.
3.2 二阶矩条件下的最大熵
现在指出: 在 R 中, 给定均值 EX=μ 和方差 DX=σ2 后, 正态分布是信息熵最大的分布. 考虑最优化问题
p(x)maxs.t.hX=−∫Rp(x)lnp(x)dxp(x)≥0,∫Rp(x)dx=1,∫Rxp(x)dx=μ,∫Rx2p(x)dx=σ2+μ2
根据上一节中的分析, 解一定有形式
p(x)=e−1+λ0+λ1x+λ2x2
假设 λ2<0, 则这三个积分都是收敛的. 将解形式代入零阶矩条件, 有
∫Re−1+λ0+λ1x+λ2x2dx=−λ2πe−1+λ0−λ12/4λ2=1
所以
e−1+λ0−λ12/4λ2=π−λ2
将解形式代入一阶矩条件, 有
∫Rxe−1+λ0+λ1x+λ2x2dx=21(−λ2)3πλ1e−1+λ0−λ12/4λ2=−2λ2λ1=μ
将解形式代入二阶矩条件, 有
∫Rx2e−1+λ0+λ1x+λ2x2dx=41(−λ2)5π(λ12−2λ2)e−1+λ0−λ12/4λ2=4λ22λ12−2λ2=σ2+μ2
整理上面的三个条件并求解
⎩⎨⎧−λ2πe−1+λ0−λ12/4λ2=1−2λ2λ1=μ4λ22λ12−2λ2=σ2+μ2⟹⎩⎨⎧λ0=log(2πσ1)−2σ2μ2+1λ1=σ2μλ2=−2σ21
回代即可得到
p(x)=2πσ1e−(x−μ)2/2σ2
这正是正态分布的密度函数.
参考文献
[1] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计教程. 第 2 版[M]. 北京: 高等教育出版社, 2010.
[2] 知乎: 蓦风星吟. 从高斯分布的导出讲起——为什么概率密度函数长成这个样子?https://zhuanlan.zhihu.com/p/24437232.
[3] 知乎: 烛之文. 高斯分布的概率密度函数推导. https://zhuanlan.zhihu.com/p/647353406.
[4] 51CTO: 阿甘兄_. 19 误差分布曲线的建立 - 高斯导出误差正态分布. https://blog.51cto.com/u_15294985/5139845.
[5] 知乎: CHERISH. 为什么「正态分布」在自然界中如此常见?https://www.zhihu.com/question/26854682/answer/3589473945.