跳到主要内容

《贝叶斯统计》笔记(第一部分:Bayes 推断、先验分布的确定)

1 先验分布与后验分布

1.2 Bayes 公式

  在 Bayes 统计中, 样本服从的分布的参数也是一个随机变量, 例如

XN(μ,1),μStdNX \sim N(\mu, 1), \quad \mu \sim \mathrm{Std}N

所以要同时考虑随机变量和随机变量参数的分布. Bayes 统计涉及到五个随机变量/函数, 定义它们的记号如下:

参数先验参数后验样本参数联合似然 (样本分布)样本边缘分布
随机变量θ\thetaθ ⁣x\theta\!\mid_{\boldsymbol x}-X ⁣θX\!\mid_\thetaXX
概率密度π(θ)\pi(\theta)π(θx)\pi(\theta\mid\boldsymbol x)h(x,θ)h(\boldsymbol x,\theta)p(xθ)p(\boldsymbol x\mid\theta)m(x)m(\boldsymbol x)
数学期望EθE\thetaEθ ⁣xE\theta\!\mid_{\boldsymbol x}-EX ⁣θEX\!\mid_\thetaEXEX

联合密度 样本参数联合密度定义为

h(x,θ)=p(xθ)π(θ)h(\boldsymbol x,\theta)=p(\boldsymbol x\mid\theta)\pi(\theta)

样本密度 样本密度 (样本边缘分布) 定义为

m(x)=Θp(xθ)π(θ)dθm(\boldsymbol x)=\int_\Theta p(\boldsymbol x\mid\theta)\pi(\theta)\mathrm d\theta

Bayes 公式 参数后验密度由先验密度和样本分布、样本边缘分布引出

π(θx)=p(xθ)m(x)π(θ)=h(x,θ)m(x)=p(xθ)π(θ)Θp(xθ)π(θ)dθ\pi(\theta\mid\boldsymbol x)=\frac{p(\boldsymbol x\mid\theta)}{m(\boldsymbol x)}\cdot\pi(\theta)=\frac{h(\boldsymbol x,\theta)}{m(\boldsymbol x)}=\frac{p(\boldsymbol x\mid\theta)\pi(\theta)}{\int_\Theta p(\boldsymbol x\mid\theta)\pi(\theta)\mathrm d\theta}

1.3 共轭先验分布

  共轭分布的目标: 对于给定样本分布, 寻找一个分布族, 使得先验和后验均服从该分布族.

1.3.1 正态分布的均值

  正态均值的共轭先验分布是正态分布

XN(θ,σ2),θN(μ,τ2)    θxN(θ1,τ12)X\sim N(\theta,\sigma^2),\theta\sim N(\mu,\tau^2)\implies\theta\mid\boldsymbol x\sim N(\theta_1,\tau_1^2)

定义方差的倒数 σ2\sigma^{-2} 为精度. 其中

μ1=σ02σ02+τ2θ^+τ2σ02+τ2μ,τ12=σ02+τ2 \mu_1=\frac{\sigma_0^{-2}}{\sigma_0^{-2}+\tau^{-2}}\cdot\hat\theta+\frac{\tau^{-2}}{\sigma_0^{-2}+\tau^{-2}}\cdot\mu,\quad \tau_1^{-2}=\sigma_0^{-2}+\tau^{-2} θ^=xˉ=xin,σ0=σ2n\hat\theta=\bar x=\frac{\sum x_i}{n},\quad\sigma_0=\frac{\sigma^2}{n}

证明

p(xθ)exp(xiθ)22σ2,π(θ)exp(θμ)22τ2 p(\boldsymbol x\mid\theta)\propto\exp-\frac{\sum(x_i-\theta)^2}{2\sigma^2},\quad \pi(\theta)\propto\exp-\frac{(\theta-\mu)^2}{2\tau^2} π(θx)p(xθ)π(θ)=exp(θB/A)22/A\pi(\theta\mid x)\propto p(x\mid\theta)\pi(\theta)=\exp-\frac{(\theta-B/A)^2}{2/A} A=σ02+τ2,B=xˉσ02+μτ2A=\sigma_0^{-2}+\tau^{-2},B=\bar x\sigma_0^{-2}+\mu\tau^{-2}

1.3.2 二项分布的成功率

  二项分布成功率的共轭先验分布是 Beta 分布

Xb(n,θ),θB(α,β)    θxB(α+x,β+nx)X\sim b(n,\theta),\theta\sim\mathrm B(\alpha,\beta)\implies \theta|_x\sim\mathrm B(\alpha+x,\beta+n-x)

证明

p(xθ)θx(1θ)nx,π(θ)θα1(1θ)β1p(x\mid\theta)\propto \theta^x(1-\theta)^{n-x},\quad\pi(\theta)\propto \theta^{\alpha-1}(1-\theta)^{\beta-1} π(θx)p(xθ)π(θ)=θα+x1(1θ)β+nx1\pi(\theta\mid x)\propto p(x\mid\theta)\pi(\theta)=\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1}

均值和方差

Eθx=nα+β+nxn+α+βα+β+nαα+β=γθ^+(1γ)Eθ E\theta|_x=\frac{n}{\alpha+\beta+n}\cdot\frac{x}{n}+\frac{\alpha+\beta}{\alpha+\beta+n}\cdot\frac{\alpha}{\alpha+\beta}=\gamma\hat\theta+(1-\gamma)E\theta Dθx=Eθx(1Eθx)α+β+n+1D\theta|_x=\frac{E\theta|_x(1-E\theta|_x)}{\alpha+\beta+n+1}

1.3.3 正态分布的方差

  定义倒 Gamma 分布

σ2IΓ(α,λ)    p(σ2)=λαΓ(α)(1σ2)α+1expλσ2 \sigma^2\sim{\rm I\Gamma}(\alpha,\lambda)\iff p(\sigma^2)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\cdot\left(\frac{1}{\sigma^2}\right)^{\alpha+1}\exp-\frac{\lambda}{\sigma^2}

  正态均值的共轭先验分布是倒 Gamma 分布

XN(μ,σ2),σ2IΓ(α,λ)    θxIΓ(α+n2,λ+(xiμ)22) X\sim N(\mu,\sigma^2),\sigma^2\sim {\rm I\Gamma}(\alpha,\lambda)\implies \theta\mid\boldsymbol x\sim{\rm I\Gamma}\left(\alpha+\frac{n}{2},\lambda+\frac{\sum(x_i-\mu)^2}{2}\right)

证明

p(xσ2)(1σ2)n2exp(xiμ)22σ2,π(σ2)(1σ2)α+1expλσ2 p(\boldsymbol x\mid\sigma^2)\propto\left(\frac{1}{\sigma^2}\right)^{\frac{n}{2}}\exp-\frac{\sum(x_i-\mu)^2}{2\sigma^2},\qquad \pi(\sigma^2)\propto\left(\frac{1}{\sigma^2}\right)^{\alpha+1}\exp-\frac{\lambda}{\sigma^2} π(θx)p(xθ)π(θ)\pi(\theta\mid x)\propto p(x\mid\theta)\pi(\theta)

1.5 多参数模型

1.5.1 正态分布均值和方差的联合分布

  定义正态—倒 Gamma 分布

(μ,σ2)NIΓ(ν,κ,μ0,σ02)    p(μ,σ2)=α1σ0(1σ02)ν2+1expνσ02+κ(μμ0)22σ2 (\mu,\sigma^2)\sim{\rm NI\Gamma}(\nu,\kappa,\mu_0,\sigma_0^2)\iff p(\mu,\sigma^2)=\alpha\cdot\frac{1}{\sigma_0}\cdot\left(\frac{1}{\sigma_0^2}\right)^{\frac{\nu}{2}+1}\exp-\frac{\nu\sigma_0^2+\kappa(\mu-\mu_0)^2}{2\sigma^2}

其中正则化系数 α:=(νσ02/2)ν/2Γ(ν/2)κ2π\alpha:=\frac{(\nu\sigma_0^2/2)^{\nu/2}}{\Gamma(\nu/2)}\sqrt{\frac{\kappa}{2\pi}}, ν\nu 是自由度, κ\kappa 是样本量. 正态均值方差的共轭先验分布是正态—倒 Gamma 分布

XN(μ,σ2),(μ,σ2)NIΓ(ν0,κ0,μ0,σ02),    (μ,σ2)xNIΓ(νn,κn,μn,σn2)X\sim N(\mu,\sigma^2),(\mu,\sigma^2)\sim{\rm NI\Gamma}(\nu_0,\kappa_0,\mu_0,\sigma_0^2),\implies (\mu,\sigma^2)\mid\boldsymbol x\sim{\rm NI\Gamma}(\nu_n,\kappa_n,\mu_n,\sigma_n^2)

其中

νn=ν0+n,κn=κ0+n,μn=nκ0+nxˉ+κ0κ0+nμ0\nu_n=\nu_0+n,\quad \kappa_n=\kappa_0+n,\quad \mu_n=\frac{n}{\kappa_0+n}\cdot\bar x+\frac{\kappa_0}{\kappa_0+n}\cdot\mu_0 σn2:νnσn2=ν0σ02+(n1)s2+nκ0n+κ0(μ0xˉ)2\sigma_n^2:\nu_n\sigma_n^2=\nu_0\sigma_0^2+(n-1)s^2+\frac{n\kappa_0}{n+\kappa_0}(\mu_0-\bar x)^2

1.5.2 多元正态分布

  多元正态分布均值的共轭先验分布是多元正态分布

XN(μ,Σ),μN(μ0,Λ0)    μxN(μn,Λn) \boldsymbol X\sim N(\boldsymbol \mu,\Sigma),\boldsymbol\mu\sim N(\boldsymbol \mu_0,\Lambda_0)\implies \boldsymbol \mu\mid x\sim N(\boldsymbol \mu_n,\Lambda_n)

其中

μn=(Λ01+nΣ1)1(Λ01μ0+nΣ1xˉ),Λn1=Λ01+nΣ1 \mu_n=(\Lambda_0^{-1}+n\Sigma^{-1})^{-1}(\Lambda_0^{-1}\boldsymbol\mu_0+n\Sigma^{-1}\bar{\boldsymbol x}),\quad \Lambda_n^{-1}=\Lambda_0^{-1}+n\Sigma^{-1}

1.6 充分统计量

  若后验分布 π(θx)\pi(\theta\mid\boldsymbol x) 可以写成 π(θT(x))\pi(\theta\mid T(\boldsymbol x)) 的形式, 则称 T=T(x)T=T(\boldsymbol x)θ\theta 的充分统计量.

1.A 附录: Γ\Gamma 函数, B\mathrm B 函数, 二项式系数 (nk)\binom nk

1.A.1 Γ\Gamma 函数

定义

Γ(x):=R+tx1etdt\Gamma(x):= \int_{\mathbb R_+}t^{x-1}e^{-t}\mathrm dt

性质

Γ(x+1)=xΓ(x)=x!\Gamma(x+1)=x\Gamma(x)=x! Γ(1)=Γ(2)=1,Γ(1/2)=π\Gamma(1)=\Gamma(2)=1,\quad \Gamma(1/2)=\sqrt\pi

1.A.2 B\mathrm B 函数

定义

B(α,β):=01xα1(1x)β1dx\mathrm B(\alpha,\beta):= \int_0^1x^{\alpha-1}(1-x)^{\beta-1}\mathrm dx

性质

B(α,β)=Γ(α)Γ(β)Γ(α+β)\mathrm B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

1.A.3  二项式系数 (nk)\binom nk

二项式系数 (nk)\binom nk 的性质

(nk)=1(n+1)B(k+1,nk+1)\binom nk=\frac1{(n+1)\mathrm B(k+1,n-k+1)}

1.B Γ\Gamma 分布, B\mathrm B 分布

1.B.1 Γ\Gamma 分布

定义

XΓ(α,λ)    p(x)=λαΓ(α)xα1eλx,x0 X\sim \Gamma(\alpha,\lambda)\iff p(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},\quad x\geq 0

其中 α\alpha 为形状参数, λ\lambda 为尺度参数.

数字特征

EX=αλ,DX=αλ2EX=\frac\alpha\lambda,DX=\frac\alpha{\lambda^2}

性质

Γ(a,λ)+Γ(b,λ)=Γ(a+b,λ)\Gamma(a,\lambda)+\Gamma(b,\lambda)=\Gamma(a+b,\lambda) kΓ(α,λ)=Γ(α,λ/k)k\Gamma(\alpha,\lambda)=\Gamma(\alpha,\lambda/k)

1.B.2 B\mathrm B 分布

定义

XB(α,β)    p(x)=1B(α,β)xα1(1x)β1,x[0,1] X\sim \mathrm B(\alpha,\beta)\iff p(x)=\frac{1}{\mathrm B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1},\quad x\in [0,1]

数字特征

EX=αα+β,DX=αβ(α+β)2(α+β+1)EX=\frac{\alpha}{\alpha+\beta},DX=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}

2 Bayes 推断

2.2 点估计

  已知后验分布 π(θx)\pi(\theta\mid\boldsymbol x) 时, 可对参数直接进行点估计

符号估计方法
θ^MD\hat\theta_{\rm MD}π(θx)\pi(\theta\mid\boldsymbol x) 的众数, 也称最大后验
θ^MED\hat\theta_{\rm MED}π(θx)\pi(\theta\mid\boldsymbol x) 的中位数
θ^E\hat\theta_{\rm E}π(θx)\pi(\theta\mid\boldsymbol x) 的均值 (即 Eθ ⁣xE\theta\!\mid_{\boldsymbol x})

定义后验均方误差

MSE(θ^x):=E(θxθ^)2=Dθx+(Eθxθ^)2{\rm MSE}(\hat\theta\mid\boldsymbol x) := E\Big(\theta|_{\boldsymbol x}-\hat\theta\Big)^2 =D\theta|_{\boldsymbol x}+\Big(E\theta|_{\boldsymbol x}-\hat\theta\Big)^2

可以推出 argminMSE=θ^E\arg\min {\rm MSE}=\hat\theta_{\rm E}

2.3 区间估计

Bayes 可信区间 若存在统计量 θ^U=θ^U(x)\hat\theta_U=\hat\theta_U(\boldsymbol x)θ^L=θ^L(x)\hat\theta_L=\hat\theta_L(\boldsymbol x) 使得

Pr(θ^Lθθ^Ux)1α\Pr(\hat\theta_L\leq\theta\leq\hat\theta_U\mid\boldsymbol x)\geq 1-\alpha

则称 [θ^L,θ^U][\hat\theta_L,\hat\theta_U]θ\theta 可信水平为 1α1-\alpha 的 Bayes 可信区间

最大后验密度 (HPD) 可信区间 密度函数中函数值最高 (超过一个临界值) 的点的集合 CC, 即

Pr(θCx)1α,π(cx)π(cˉx),cC,cˉCˉ\Pr(\theta\in C\mid\boldsymbol x)\geq 1-\alpha,\quad \pi(c\mid\boldsymbol x)\geq \pi(\bar c\mid\boldsymbol x),\forall c\in C,\bar c\in\bar C

2.4 假设检验

  建立假设

H0:θΘ0v.sH1:θΘ1H_0:\theta\in\Theta_0\qquad\text{v.s}\qquad H_1:\theta\in\Theta_1

2.4.1 后验概率比

假设的后验概率 定义假设的后验概率 αi=Pr(θΘix)\alpha_i=\Pr(\theta\in\Theta_i\mid\boldsymbol x).

后验机会比 定义后验机会比 α0/α1\alpha_0/\alpha_1.

决策准则 后验机会比显著大于 11 时相信 H0H_0, 显著小于 11 时相信 H1H_1, 大致等于 11 时不能做判断

2.4.2 Bayes 因子

假设的先验概率 定义假设的先验概率 πi=Pr(θΘi)\pi_i=\Pr(\theta\in\Theta_i).

Bayes 因子 定义 Bayes 因子是后验机会比和先验机会比的比率

B=α0/α1π0/π1B=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}

Bayes 因子削弱了先验信息的影响, 着重于表现数据 x\boldsymbol x 支持 H0H_0 的程度.

  以下提出 Bayes 因子的等价表示方法. 定义假设下的样本边缘分布: Θi={θi}\Theta_i=\{\theta_i\}

mi(x)=p(xθi)m_i(\boldsymbol x)=p(\boldsymbol x\mid\theta_i)

Θi\Theta_i 是一个集合时

mi(x)=1πiΘip(xθ)π(θ)dθm_i(\boldsymbol x)=\frac1{\pi_i}\int_{\Theta_i}p(\boldsymbol x\mid\theta)\pi(\theta)\mathrm d\theta

此时 Bayes 因子可以表示为

B=m0(x)m1(x)B=\frac{m_0(\boldsymbol x)}{m_1(\boldsymbol x)}

2.5 预测

  定义后验预测分布

p(xx)=Θp(xθ)π(θx)dθp(x\mid\boldsymbol x)=\int_\Theta p(x\mid\theta)\pi(\theta\mid\boldsymbol x)\mathrm d\theta

也可以对同参数的其它随机变量做预测

p(zx)=Θp(zθ)π(θx)dθp(z\mid\boldsymbol x)=\int_\Theta p(z\mid\theta)\pi(\theta\mid\boldsymbol x)\mathrm d\theta

3 先验分布的确定

3.2 利用先验信息确定先验分布

直方图法 根据历史数据绘制直方图, 确定先验分布.

选定先验分布族再确定超参数 选定某一分布族作为先验分布, 再根据历史数据估计超参数.

变分度法 将超参数划分为两个等可能的小区间, 并询问专家等分值点在哪里. 依次迭代该过程直到区间分割足够细.

3.3 利用样本边缘分布 m(x)m(x)

超参数的 II-型极大似然估计 先确定参数的分布族 (带有超参数 λ\lambda), 然后定义 II-型似然函数

L(λ)=m(xi,λ),λ^=argmaxL(λ)\mathcal L(\lambda)=\prod m(x_i,\lambda),\qquad \hat\lambda=\arg\max\mathcal L(\lambda)

求 II-型似然函数最大值对应的参数 λ^\hat\lambda, 将其作为超参数的估计.

超参数的矩估计 若先验密度 π(θ,λ)\pi(\theta,\lambda) 已知, 可以求超参数的矩估计. 步骤如下:

  1. 计算给定参数下样本 XθX_\theta 的期望 EXθEX|_\theta 和方差 DXθDX|_\theta. 注意: 由于 θ\theta 是随机变量, 所以 μ=EXθ\mu=EX|_\thetaσ2=DXθ\sigma^2=DX|_\theta 也是随机变量, 它与超参数 λ\lambda 有关.
  2. 计算样本边缘分布 XX 的期望 EXEX 和方差 DXDX, 它们是 λ\lambda 的函数.
EX=Eμ,DX=Eσ2+E(μEμ)2EX=E\mu,\quad DX=E\sigma^2+E(\mu-E\mu)^2
  1. 解以下方程以获得 λ^\hat\lambda:
EX(λ^)=xˉ,DX(λ^)=s2EX(\hat\lambda)=\bar x,\quad DX(\hat\lambda)=s^2

 设 XExp(θ), θΓ(α,λ)X\sim{\rm Exp}(\theta),\ \theta\sim\Gamma(\alpha,\lambda), 求超参数的矩估计.

  1. 给定 θ\theta 时, XX 服从指数分布, 所以
μ=EXθ=1θ,σ2=DXθ=1θ2\mu=EX|_\theta=\frac{1}{\theta},\quad \sigma^2=DX|_\theta=\frac{1}{\theta^2}
  1. 计算 XX 的期望和方差.
Eμ=E1θ=λαΓ(α)0+1θθα1eλθ=λα1E\mu=E\frac1\theta=\frac{\lambda^\alpha}{\Gamma(\alpha)}\int_0^{+\infty}\frac{1}{\theta}\cdot\theta^{\alpha-1}e^{-\lambda\theta}=\frac{\lambda}{\alpha-1}

以及

Eσ2=λ2(α1)(α2),E(μλα1)=λ2(α1)(α2)λ2(α1)2E\sigma^2=\frac{\lambda^2}{(\alpha-1)(\alpha-2)},\quad E\left(\mu-\frac{\lambda}{\alpha-1}\right)=\frac{\lambda^2}{(\alpha-1)(\alpha-2)}-\frac{\lambda^2}{(\alpha-1)^2}

所以

EX=λα1,DX=αα2(λα1)2EX=\frac{\lambda}{\alpha-1},\quad DX=\frac{\alpha}{\alpha-2}\left(\frac{\lambda}{\alpha-1}\right)^2

解关于 (α,λ)(\alpha,\lambda) 的方程 EX=x^, DX=s2EX=\hat x,\ DX=s^2 可得

α^=2s2s2xˉ2,λ^=(α^1)xˉ\hat\alpha=\frac{2s^2}{s^2-\bar x^2},\quad \hat\lambda=(\hat\alpha-1)\bar x

3.4 无信息先验分布

3.4.1 Bayes 假设

Bayes 假设 (Laplace 先验) 先验参数在参数空间 Θ\Theta 的取值是均匀的, 即

π(θ)1θΘ\pi(\theta)\propto \mathit 1_{\theta\in\Theta}

  当 Θ\Theta 是无穷区间时, Bayes 假设失效. 对此, 定义广义先验分布:

广义先验分布 若先验密度 π(θ)\pi(\theta) 满足

  1. 先验密度的累积 Θπ(θ)dθ=\int_\Theta\pi(\theta)\mathrm d\theta=\infty.
  2. 但由此决定的后验分布 θx\theta|_{\boldsymbol x} 是正常 (概率和为 11) 的分布.

此时称该先验分布式广义先验分布.

位置参数的无信息先验 若密度函数 p(xθ)p(x\mid\theta) 仅与 xθx-\theta 相关, 则其无信息先验可以取 Bayes 假设.

尺度参数的无信息先验 若密度函数 p(xθ)p(x\mid\theta) 仅与 x/θx/\theta 相关, 则其无信息先验可以取

π(θ)=1θ,θ>0\pi(\theta)=\frac{1}{\theta},\quad \theta>0

3.4.4 Jeffreys 先验

Cramer-Rao 正则分布族 设样本密度 p(xθ), θ=(θ1,,θm)TΘRmp(\boldsymbol x|\boldsymbol\theta),\ \boldsymbol\theta=(\theta_1,\cdots,\theta_m)^T\in\Theta\subseteq \mathbb R^m, 若

  1. Θ\ThetaRm\mathbb R^m 上的开矩形.
  2. 分布的支撑 A:={x:p(xθ)>0}A:=\{\boldsymbol x:p(\boldsymbol x\mid\boldsymbol \theta)>0\}θ\boldsymbol\theta 无关.
  3. Score 向量 s=\boldsymbol s=\nabla\ell (即对数似然函数对参数的梯度) 存在.
  4. p(xθ)p(\boldsymbol x\mid\boldsymbol \theta) 的微分和积分可交换.
  5. 矩阵 I=E(ssT)I=E(\boldsymbol s\boldsymbol s^T) 的元素均 <<\infty.

则称该分布族是 Cramer-Rao 正则分布族 (C-R 正则族).

Fisher 信息量矩阵 矩阵 I=E(ssT)=ETI=E(\boldsymbol s\boldsymbol s^T)=-E\nabla\nabla^T\ell 称为该分布的 Fisher 信息量矩阵

  大部分常用分布族都是 C-R 正则族, 但是也有例外: 例如从 00 开始的均匀分布族 {U(0,θ):θ>0}\{U(0,\theta):\theta>0\} 的支撑 A={x:0<x<θ}A=\{x:0<x<\theta\} 不满足条件 2, 所以不是 C-R 正则族, 也不存在正常的 Fisher 信息量矩阵.

 同时考虑均值和标准差 θ=(μ,σ)T\boldsymbol\theta=(\mu,\sigma)^T 的正态分布族 {N(μ,σ2):θR×R+}\{N(\mu,\sigma^2):\boldsymbol\theta\in\mathbb R\times\mathbb R_+\} 是 C-R 正则族, 它的对数似然函数为

=12ln2πlnσ(xμ)22σ2\ell=-\frac12\ln2\pi-\ln\sigma-\frac{(x-\mu)^2}{2\sigma^2}

它的 Fisher 信息量矩阵为

I=(1/σ2002/σ2)I=\begin{pmatrix} 1/\sigma^2 & 0\\ 0 & 2/\sigma^2 \end{pmatrix}

Jeffreys 先验 取参数的先验分布 π(θ)=detI\pi(\boldsymbol \theta)=\sqrt{\det I}. 该先验分布使得 θ\boldsymbol \theta 的无信息先验在变换 η=η(θ)\boldsymbol \eta=\boldsymbol \eta(\boldsymbol \theta) 下不变, 即

π(θ)=η(θ)dηdθ\pi(\boldsymbol\theta)=\boldsymbol \eta(\boldsymbol \theta)\left|\frac{\mathrm d\boldsymbol\eta}{\mathrm d\boldsymbol\theta}\right|

 同时考虑均值和标准差 θ=(μ,σ)T\boldsymbol\theta=(\mu,\sigma)^T, 从正态分布抽出 nn 个样本 x=(x1,,xn)T\boldsymbol x=(x_1,\cdots,x_n)^T, 其 Jeffreys 先验为

π(μ,σ)=detI=n/σ2002n/σ2=2n2σ41σ2\pi(\mu,\sigma)=\sqrt{\det I}=\sqrt{\begin{vmatrix} n/\sigma^2 & 0\\ 0 & 2n/\sigma^2 \end{vmatrix}}=\sqrt{\frac{2n^2}{\sigma^4}}\propto \frac 1{\sigma^2}

  但是.

  • 当仅视 μ\mu 为未知参数而 σ\sigma 已知时, 其 Jeffreys 先验为 π(μ)=1\pi(\mu)=1.
  • 当仅视 σ\sigma 为未知参数而 μ\mu 已知时, 其 Jeffreys 先验为 π(σ)=1/σ\pi(\sigma)=1/\sigma.
  • μ,σ\mu,\sigma 独立时, π(μ,σ)=1/σ\pi(\mu,\sigma)=1/\sigma.

这表明 Jeffreys 先验的无信息分布不一定是独立的. 在 (μ,σ)(\mu,\sigma) 的联合无信息先验分布的两种形式 1/σ1/\sigma1/σ21/\sigma^2 中, 多数人采用了前者形式.

 考虑二项分布 b(n,θ)b(n,\theta) 关于成功概率 θ\theta 的 Jeffreys 先验. 即

Pr(X=x)=(nx)θx(1θ)nx\Pr(X=x)=\binom nx\theta^x(1-\theta)^{n-x}

其对数似然函数为

=xlnθ+(nx)ln(1θ)+ln(nx)\ell=x\ln\theta+(n-x)\ln(1-\theta)+\ln\binom nx

其 Fisher 信息量和 Jeffreys 先验为

I=nθ(1θ),π(θ)1θ(1θ)I=\frac n{\theta(1-\theta)},\quad \pi(\theta)\propto \frac 1{\sqrt{\theta(1-\theta)}}

  对于成功概率 θ\theta 的无信息先验分布, 不少统计学家从各种角度探讨, 主要导出了以下四种先验分布:

π1(θ)=1,π2(θ)=1θ(1θ),π3(θ)1θ(1θ),π4(θ)θθ(1θ)1θ\pi _1(\theta)=1,\quad \pi _2(\theta)=\frac 1{\theta(1-\theta)},\quad \pi _3(\theta)\propto\frac 1{\sqrt{\theta(1-\theta)}},\qquad \pi _4(\theta)\propto\theta^\theta(1-\theta)^{1-\theta}

其中 π2(θ)\pi _2(\theta) 是广义先验密度. 这四种无信息先验都是合理的, 它们各自从一个侧面提出自己的合理要求, 然后导出对应的无信息先验. 这四个先验虽不同, 但对 Bayes 统计推断结果的影响是有限的, 故都可以使用.

  除去 Jeffrey 先验外, 常用的先验分布还有 Reference 先验和概率匹配先验. 该二先验方法由于过程略复杂, 此处从略.

3.5 多层先验和多层 Bayes 模型

3.5.1 多层先验

 某批次产品不合格量 XX 服从 b(n,θ)b(n,\theta) 分布, 其中 θ\theta 是参数, 意为不合格率. 决策者认为该不合格率有一个上限, 所以定义 θ\theta 的先验分布为 θU(0,λ)\theta\sim U(0,\lambda), 其中 λ\lambda 是超参数, 意为不合格率上限, 它应是一个定值. 但是现由于不合格率上限的取值不好确定, 故决策者将其也设置为了一个随机变量 λU(0.1,0.5)\lambda\sim U(0.1,0.5). 于是本问题生成了一个三层结构:

Xb(n,θ),θU(0,λ),λU(0.1,0.5)X\sim b(n,\theta),\quad \theta\sim U(0,\lambda),\quad \lambda\sim U(0.1,0.5)

记给定超参数时 θ\theta 的先验为 π1(θλ)=10<θ<λ/λ\pi _1(\theta\mid\lambda)=\mathit 1_{0<\theta<\lambda}/\lambda, λ\lambda 的超先验为 π2(λ)=10.1<λ<0.5/0.4\pi _2(\lambda)=\mathit 1_{0.1<\lambda<0.5}/0.4. 此时 θ\theta 的先验为

π1(θ)=Λπ1(θλ)π2(λ)dλ\pi _1(\theta)=\int_\Lambda \pi _1(\theta\mid\lambda)\pi _2(\lambda)\mathrm d\lambda

其中 Λ\Lambdaλ\lambda 的参数空间. 在本例中

π1(θ)=10.40.10.510<θ<λλdλ={2.5ln5,0<θ<0.1,2.5(ln0.5lnθ),0.1θ<0.5\pi _1(\theta)=\frac 1{0.4}\int_{0.1}^{0.5}\frac {\mathit 1_{0<\theta<\lambda}}\lambda\mathrm d\lambda =\begin{cases} 2.5\ln 5, & 0<\theta<0.1,\\ 2.5(\ln 0.5-\ln\theta), & 0.1 \leq \theta < 0.5\end{cases}

3.5.2 多层 Bayes 模型

  上例中的多层 Bayes 模型如下:

随机变量抽样数据
总体分布 x ⁣θp(xθ)x\!\mid_\theta\sim p(x\mid\theta)样本 xXx\in\mathcal X
第一层先验 θ ⁣λπ1(θλ)\theta\!\mid_\lambda\sim \pi_1(\theta\mid\lambda)参数 θΘ\theta\in\Theta
第二层先验 λπ2(λ)\lambda\sim \pi_2(\lambda)超参数 λΛ\lambda\in\Lambda

 实验室条件下, 一批 nn 只老鼠病变的个数 xx 服从 b(n,θ)b(n,\theta), 病变概率 θ\theta 选用 Beta 分布 B(α,β)\mathrm B(\alpha,\beta), 其中 α,β\alpha,\beta 是随机变量. 在传统的单层 Bayes 模型中, 由 α,β\alpha,\beta 生成了一个 θ\theta, 然后由 θ\theta 生成 x\boldsymbol x; 而在多层 Bayes 模型中, 由 α,β\alpha,\beta 生成了若干个 θi\theta_i, 每一个 θi\theta_i 生成自己的样本 xix_i, 即

xib(ni,θi),θiB(α,β),α,β)π2(α,β)x_i\sim b(n_i,\theta_i),\quad \theta_i\sim\mathrm B(\alpha,\beta),\quad \alpha,\beta)\sim\pi_2(\alpha,\beta)

  现尝试给出一组无信息超先验 π2(α,β)\pi_2(\alpha,\beta), 使得其后验 π2(α,βx)\pi_2(\alpha,\beta\mid\boldsymbol x) 是正常的. 现在计算

π2(α,βx)=π(θ,α,βx)π1(θα,β,x)\pi_2(\alpha,\beta\mid\boldsymbol x)=\frac{\pi(\boldsymbol\theta,\alpha,\beta\mid\boldsymbol x)}{\pi_1(\boldsymbol \theta\mid\alpha,\beta,\boldsymbol x)}

其中

π(θ,α,βx)p(xθ)π1(θα,β)π2(α,β)=iθixi(1θi)nixiiθiα1(1θi)β1B(α,β)π2(α,β)\begin{aligned} \pi(\boldsymbol\theta,\alpha,\beta\mid\boldsymbol x)&\propto p(\boldsymbol x\mid\boldsymbol \theta)\pi_1(\boldsymbol \theta\mid\alpha,\beta)\pi_2(\alpha,\beta)\\ &=\prod_i\theta_i^{x_i}(1-\theta_i)^{n_i-x_i}\cdot\prod_i\frac{\theta_i^{\alpha-1}(1-\theta_i)^{\beta-1}}{\mathrm B(\alpha,\beta)}\cdot\pi_2(\alpha,\beta) \end{aligned}

π1(θα,β,x)=iπ1(θiα,β,xi)=iθiα+xi1(1θi)β+nixi1B(α+xi,β+nixi)\pi_1(\boldsymbol \theta\mid\alpha,\beta,\boldsymbol x) =\prod_i \pi_1(\theta_i\mid\alpha,\beta,x_i) =\prod_i\frac{\theta_i^{\alpha+x_i-1}(1-\theta_i)^{\beta+n_i-x_i-1}}{\mathrm B(\alpha+x_i,\beta+n_i-x_i)}

所以

π2(α,βx)π2(α,β)iB(α+xi,β+nixi)B(α,β)\pi_2(\alpha,\beta\mid\boldsymbol x) \propto \pi_2(\alpha,\beta)\cdot\prod_i\frac{\mathrm B(\alpha+x_i,\beta+n_i-x_i)}{\mathrm B(\alpha,\beta)}

  以上求出了超参数后验分布的密度. 通过数值方法, 可以搜索出满足要求的超参数 α,β\alpha,\beta. 至于参数 θi\theta_i 的点估计与区间估计, 受问题的复杂度所限, 只能通过随机模拟方法求其数值解.

本系列的参考文献

[1] 茆诗松, 汤银才. 贝叶斯统计[M]. 第二版. 北京: 中国统计出版社, 2012: 1-120.