跳到主要内容

概率论拾遗:指数族分布

  笔者现开一个名为“概率论拾遗”的专栏, 旨在讲述本科概率统计课程中的一些常常遗漏却重要的角落知识点. 本专栏以单篇文章的形式来串联零散的小知识点, 读者请在本博客的“概率论拾遗”标签中查阅本专栏的所有文章.

摘 要 本文介绍指数族分布, 即密度函数可以写成指数形式

p(x)=exp(k=1mηk(θ)Tk(x)A(θ)+B(x))p(x)=\exp\Bigg(\sum_{k=1}^m \eta_k(\boldsymbol\theta)T_k(x)-A(\boldsymbol\theta)+B(x)\Bigg)

且支撑集与参数无关的概率分布. 本文说明指数形式中各函数的性质, 并举例若干常见的可以写成指数形式的概率分布.

1 指数族分布

指数族分布 称含有参数 θ\boldsymbol \theta 的概率分布 p(x)p(x) 是指数族分布, 如果其支撑集 {x:p(x)>0}\{x:p(x)>0\} 与参数 θ\boldsymbol \theta 无关, 且其密度函数可以写成指数形式

p(x)=exp(k=1mηk(θ)Tk(x)A(θ)+B(x))p(x)=\exp\Bigg(\sum_{k=1}^m \eta_k(\boldsymbol\theta)T_k(x)-A(\boldsymbol\theta)+B(x)\Bigg)

或者写成内积形式

p(x)=exp(η(θ)T(x)A(θ)+B(x))p(x)=\exp\Big(\boldsymbol\eta(\boldsymbol\theta)\cdot\boldsymbol T(x)-A(\boldsymbol\theta)+B(x)\Big)

其中 ηk(θ),Tk(x),A(θ),B(x)\eta_k(\boldsymbol\theta),T_k(x),A(\boldsymbol\theta),B(x) 是已知函数.

自然参数与标准形式 自然参数 η=(η1,,ηm)\boldsymbol\eta=(\eta_1,\cdots,\eta_m) 是参数 θ\boldsymbol\theta 的变换. 该变换不一定是双射, 甚至自然参数的数量可能超过参数数量. 自然参数可以取代原参数, 从而将密度函数写成

p(x)=exp(ηT(x)A(η)+B(x))p(x)=\exp\Big(\boldsymbol\eta\cdot\boldsymbol T(x)-A(\boldsymbol\eta)+B(x)\Big)

的标准形式.

充分统计量T(x)\boldsymbol T(x) 是参数 θ\boldsymbol\theta 的充分统计量, 它提取了样本 xx 中关于参数 θ\theta 的全部信息. 因此在存储样本数据时, 只需存储充分统计量的值即可. 在简单随机样本 {xi}\{x_i\} 中, 充分统计量 Tk=iTk(xi)T_k=\sum _iT_k(x_i). 这提供了一个求指数族分布充分统计量的方法.

对数配分函数 (Log-Partition) 若将 A(θ)A(\boldsymbol\theta) 提到指数外面, 可以得到

p(x)=1a(θ)exp(θT(x)+B(x))p(x)=\frac{1}{a(\boldsymbol\theta)}\exp\Big(\boldsymbol\theta\cdot\boldsymbol T(x)+B(x)\Big)

其中 a(θ)=expA(θ)a(\boldsymbol\theta)=\exp A(\boldsymbol\theta). 可以马上看出 exp(θT+B)\exp(\boldsymbol\theta\cdot\boldsymbol T+B) 是密度函数的核, 1/a1/a 是归一化系数. 因此 A(θ)A(\boldsymbol\theta) 在此处的作用仅是归一化. AAηk\eta_k 的一阶偏导数和二阶偏导数分别是 TkT_k 的期望与方差, 对 ηk1,ηk2\eta_{k_1},\eta_{k_2} 的二阶混合偏导数是 Tk1T_{k_1}Tk2T_{k_2} 的协方差.

对数基测量函数 (Log-Base-Measure) 即 B(x)B(x).

指数族分布密度函数的形式 密度函数因式分解后, 所有因子必须是以下形式之一

c,f,g,cf,cg,cfg,fc,fg,ff1g,gc,gf,gfg1c,f,g,c^f,c^g,c^{fg},f^c,f^g,f^{f_1g},g^c,g^f,g^{fg_1}

其中 cc 是常函数(与 x,θx,\boldsymbol\theta 无关), f=f(x),f1=f1(x)f=f(x),f_1=f_1(x)xx 的函数, g=g(θ),g1=g1(θ)g=g(\boldsymbol\theta),g_1=g_1(\boldsymbol\theta)θ\boldsymbol\theta 的函数.

2 常见的指数族分布

  许多常见分布都属于指数族分布. 常见的指数族分布有

  • 离散型: 两点分布、几何分布、Poisson 分布;
    • 已知试验次数的二项分布、已知成功次数的负二项分布;
  • 连续型: 正态分布、指数分布、Γ\Gamma 分布 (χ2\chi^2 分布)、B\mathrm B 分布.

2.1 两点分布

指数形式 服从两点分布的随机变量 Xb(p)X\sim b(p) 有密度函数

p(x)=px(1p)1x,x{0,1},p[0,1]p(x)=p^x(1-p)^{1-x},\qquad x\in\{0,1\},\quad p\in [0,1]

它的支撑集 {x:p(x)>0}={0,1}\{x:p(x)>0\}=\{0,1\} 与参数 pp 无关, 且密度函数可以写成

p(x)=px(1p)1x=exp(xlnp+(1x)ln(1p))=exp(lnp1pη(p)xT(x)(ln(1p)A(p)))\begin{aligned}p(x)&=p^x(1-p)^{1-x}\\ &=\exp\Big(x\ln p+(1-x)\ln(1-p)\Big)\\ &=\exp\Bigg(\underbrace{\ln\frac{p}{1-p}}_{\eta(p)}\cdot \underbrace{x}_{T(x)}-\Big(\underbrace{-\ln(1-p)}_{A(p)}\Big)\Bigg)\end{aligned}

的指数形式.

标准形式 可以用参数 pp 反解出自然参数 η\eta

η=lnp1p    p=11+eη\eta=\ln\frac{p}{1-p}\quad \iff\quad p=\frac{1}{1+e^{-\eta}}

这分别是 Logit 函数和 Logistic 函数. 回代, 得到标准形式

p(x)=exp(ηxT(x)ln(1+eη)A(η))p(x)=\exp\Big(\eta\cdot \underbrace{x}_{T(x)}-\underbrace{\ln(1+e^\eta)}_{A(\eta)}\Big)

期望和方差 对数配分函数为

A=ln(1+eη)A=\ln(1+e^\eta)

求一阶导数和二阶导数, 可以得到期望与方差

EX=dAdη=eη1+eη=p,DX=d2Adη2=eη(1+eη)2=p(1p)EX=\frac{\mathrm dA}{\mathrm d\eta}=\frac{e^\eta}{1+e^\eta}=p,\quad DX=\frac{\mathrm d^2A}{\mathrm d\eta^2}=\frac{e^\eta}{(1+e^\eta)^2}=p(1-p)

2.2 正态分布

指数形式 服从正态分布的随机变量 XN(μ,σ2)X\sim N(\mu,\sigma^2) 有密度函数

p(x)=12πσexp((xμ)22σ2)p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\Bigg(-\frac{(x-\mu)^2}{2\sigma^2}\Bigg)

它的支撑集 {x:p(x)>0}=R\{x:p(x)>0\}=\mathbb R 与参数 μ,σ\mu,\sigma 无关, 且密度函数可以写成

p(x)=12πσexp((xμ)22σ2)=exp(μσ2η1xT1+12σ2η2x2T2(μ22σ2+lnσA)+(12ln2πB))\begin{aligned}p(x)&=\frac{1}{\sqrt{2\pi}\sigma}\exp\Bigg(-\frac{(x-\mu)^2}{2\sigma^2}\Bigg)\\ &=\exp\Bigg(\underbrace{\frac{\mu}{\sigma^2}}_{\eta_1}\cdot \underbrace{x}_{T_1}+\underbrace{\frac{-1}{2\sigma^2}}_{\eta_2}\cdot \underbrace{x^2}_{T_2}-\Big(\underbrace{\frac{\mu^2}{2\sigma^2}+\ln\sigma}_A\Big)+\Big(\underbrace{-\frac 12\ln 2\pi}_B\Big)\Bigg)\end{aligned}

的指数形式.

标准形式 可以找到 (μ,θ)(\mu,\theta)(η1,η2)(\eta_1,\eta_2) 之间的变换

{η1=μ/σ2η2=1/2σ2    {μ=η1/2η2σ2=1/2η2\begin{cases} \eta_1=\mu/\sigma^2\\ \eta_2=-1/2\sigma^2\end{cases}\quad\iff\quad\begin{cases}\mu=-\eta_1/2\eta_2\\ \sigma^2=-1/2\eta_2\end{cases}

回代, 得到标准形式

p(x)=exp(η1xT1+η2x2T2(η124η212ln(2η2)A)+(12ln2πB))p(x)=\exp\Bigg(\eta_1\cdot \underbrace{x}_{T_1}+\eta_2\cdot \underbrace{x^2}_{T_2}-\Big(\underbrace{-\frac{\eta_1^2}{4\eta_2}-\frac12\ln(-2\eta_2)}_A\Big)+\Big(\underbrace{-\frac 12\ln 2\pi}_B\Big)\Bigg)

期望与方差 对数配分函数为

A=η124η212ln(2η2)A=-\frac{\eta_1^2}{4\eta_2}-\frac12\ln(-2\eta_2)

η1\eta_1 求一阶导数和二阶导数, 可以得到 XX 的期望与方差

EX=dAdη1=η12η2=μ,DX=d2Adη12=12η2=σ2EX=\frac{\mathrm dA}{\mathrm d\eta_1}=-\frac{\eta_1}{2\eta_2}=\mu,\quad DX=\frac{\mathrm d^2A}{\mathrm d\eta_1^2}=-\frac{1}{2\eta_2}=\sigma^2

2.3 其它常见指数族分布

2.3.1 离散型分布

几何分布 随机变量 G(p)G(p) 密度函数可以写成指数形式

p(x)=p(1p)x=exp(ln(1p)ηxT(lnpA))p(x)=p(1-p)^x=\exp\Big(\underbrace{\ln(1-p)}_\eta\cdot\underbrace{x}_T-(\underbrace{-\ln p}_A)\Big)

Poisson 分布 随机变量 P(λ)P(\lambda) 的密度函数可以写成指数形式

p(x)=eλλxx!=exp(lnληxTλA+(x!B))p(x)=e^{-\lambda}\cdot\frac{\lambda^x}{x!}=\exp\Big(\underbrace{\ln \lambda}_\eta\cdot\underbrace{x}_T-\underbrace{\lambda}_A+(\underbrace{-x!}_B)\Big)

已知试验次数的二项分布 试验次数 nn 已知时, 随机变量 b(n,p)b(n,p) 的密度函数可以写成指数形式

p(x)=Cnxpx(1p)nx=exp(lnp1pηxT(nln(1p)A)+lnCnxB)p(x)=C_n^xp^x(1-p)^{n-x}=\exp\Bigg(\underbrace{\ln \frac{p}{1-p}}_\eta\cdot\underbrace x_T-\Big(\underbrace{-n\ln (1-p)}_A\Big)+\underbrace{\ln C_n^x}_B\Bigg)

已知成功次数的负二项分布 成功次数 rr 已知时, 随机变量 Nb(r,p)Nb(r,p) 的密度函数可以写成指数形式

p(x)=Cx+r1r1pr(1p)x=exp(ln(1p)ηxT(rlnpA)+Cx+r1r1B)p(x)=C_{x+r-1}^{r-1}p^r(1-p)^x=\exp\Bigg(\underbrace{\ln(1-p)}_\eta\cdot\underbrace x_T-(\underbrace{-r\ln p}_A)+\underbrace{C_{x+r-1}^{r-1}}_B\Bigg)

2.3.2 连续型分布

指数分布 随机变量 E(λ)E(\lambda) 的密度函数可以写成指数形式

p(x)=λeλx=exp(ληxT(lnλA))p(x)=\lambda e^{-\lambda x}=\exp\Big(\underbrace{-\lambda}_\eta \cdot\underbrace x_T-(\underbrace{-\ln \lambda}_A)\Big)

Γ\Gamma 分布 (χ2\chi^2 分布) 随机变量 Γ(α,λ)\Gamma(\alpha,\lambda) 的密度函数可以写成指数形式

p(x)=λαΓ(α)xα1eλx=exp((α1η1)lnxT1+(λη2)xT2(lnΓ(α)αlnλA))p(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x}=\exp\Bigg((\underbrace{\alpha-1}_{\eta_1})\cdot\underbrace{\ln x}_{T_1}+(\underbrace{-\lambda}_{\eta_2})\cdot \underbrace{x}_{T_2}-\Big(\underbrace{\ln \Gamma(\alpha)-\alpha\ln\lambda}_A\Big)\Bigg)

对于 χ2\chi^2 分布有 χ2(n)=Γ(n/2,1/2)\chi^2(n)=\Gamma(n/2,1/2), 代入即可.

B\mathrm B 分布 随机变量 B(α,β)\mathrm B(\alpha,\beta) 的密度函数可以写成指数形式

p(x)=xα1(1x)β1B(α,β)=exp((α1η1)lnxT1+(β1η2)ln(1x)T2lnB(α,β)A)p(x)=\frac{x^{\alpha-1}(1-x)^{\beta-1}}{\mathrm B(\alpha,\beta)}=\exp\Big((\underbrace{\alpha-1}_{\eta_1})\cdot\underbrace{\ln x}_{T_1}+(\underbrace{\beta-1}_{\eta_2})\cdot\underbrace{\ln (1-x)}_{T_2}-\underbrace{\ln\mathrm B(\alpha,\beta)}_A\Big)

参考文献

[1] https://en.wikipedia.org/wiki/Exponential_family