概率论拾遗:指数族分布
笔者现开一个名为“概率论拾遗”的专栏, 旨在讲述本科概率统计课程中的一些常常遗漏却重要的角落知识点. 本专栏以单篇文章的形式来串联零散的小知识点, 读者请在本博客的“概率论拾遗”标签中查阅本专栏的所有文章.
摘 要 本文介绍指数族分布, 即密度函数可以写成指数形式
p(x)=exp(k=1∑mηk(θ)Tk(x)−A(θ)+B(x))
且支撑集与参数无关的概率分布. 本文说明指数形式中各函数的性质, 并举例若干常见的可以写成指数形式的概率分布.
1 指数族分布
指数族分布 称含有参数 θ 的概率分布 p(x) 是指数族分布, 如果其支撑集 {x:p(x)>0} 与参数 θ 无关, 且其密度函数可以写成指数形式
p(x)=exp(k=1∑mηk(θ)Tk(x)−A(θ)+B(x))
或者写成内积形式
p(x)=exp(η(θ)⋅T(x)−A(θ)+B(x))
其中 ηk(θ),Tk(x),A(θ),B(x) 是已知函数.
自然参数与标准形式 自然参数 η=(η1,⋯,ηm) 是参数 θ 的变换. 该变换不一定是双射, 甚至自然参数 的数量可能超过参数数量. 自然参数可以取代原参数, 从而将密度函数写成
p(x)=exp(η⋅T(x)−A(η)+B(x))
的标准形式.
充分统计量 T(x) 是参数 θ 的充分统计量, 它提取了样本 x 中关于参数 θ 的全部信息. 因此在存储样本数据时, 只需存储充分统计量的值即可. 在简单随机样本 {xi} 中, 充分统计量 Tk=∑iTk(xi). 这提供了一个求指数族分布充分统计量的方法.
对数配分函数 (Log-Partition) 若将 A(θ) 提到指数外面, 可以得到
p(x)=a(θ)1exp(θ⋅T(x)+B(x))
其中 a(θ)=expA(θ). 可以马上看出 exp(θ⋅T+B) 是密度函数的核, 1/a 是归一化系数. 因此 A(θ) 在此处的作用仅是归一化. A 对 ηk 的一阶偏导数和二阶偏导数分别是 Tk 的期望与方差, 对 ηk1,ηk2 的二阶混合偏导数是 Tk1 和 Tk2 的协方差.
对数基测量函数 (Log-Base-Measure) 即 B(x).
指数族分布密度函数的形式 密度函数因式分解后, 所有因子必须是以下形式之一
c,f,g,cf,cg,cfg,fc,fg,ff1g,gc,gf,gfg1
其中 c 是常函数(与 x,θ 无关), f=f(x),f1=f1(x) 是 x 的函数, g=g(θ),g1=g1(θ) 是 θ 的函数.
2 常见的指数族分布
许多常见分布都属于指数族分布. 常见的指数族分布有
- 离散型: 两点分布、几何分布、Poisson 分布;
- 已知试验次数的二项分布、已知成功次数的负二项分布;
- 连续型: 正态分布、指数分布、Γ 分布 (χ2 分布)、B 分布.
2.1 两点分布
指数形式 服从两点分布的随机变量 X∼b(p) 有密度函数
p(x)=px(1−p)1−x,x∈{0,1},p∈[0,1]
它的支撑集 {x:p(x)>0}={0,1} 与参数 p 无关, 且密度函数可以写成
p(x)=px(1−p)1−x=exp(xlnp+(1−x)ln(1−p))=exp(η(p)ln1−pp⋅T(x)x−(A(p)−ln(1−p)))
的指数形式.
标准形式 可以用参数 p 反解出自然参数 η
η=ln1−pp⟺p=1+e−η1
这分别 是 Logit 函数和 Logistic 函数. 回代, 得到标准形式
p(x)=exp(η⋅T(x)x−A(η)ln(1+eη))
期望和方差 对数配分函数为
A=ln(1+eη)
求一阶导数和二阶导数, 可以得到期望与方差
EX=dηdA=1+eηeη=p,DX=dη2d2A=(1+eη)2eη=p(1−p)
2.2 正态分布
指数形式 服从正态分布的随机变量 X∼N(μ,σ2) 有密度函数