《贝叶斯统计》笔记（第一部分：Bayes 推断、先验分布的确定）

1 先验分布与后验分布

1.2 Bayes 公式

在 Bayes 统计中, 样本服从的分布的参数也是一个随机变量, 例如

X \sim N(\mu, 1), \quad \mu \sim \mathrm{Std}N

所以要同时考虑随机变量和随机变量参数的分布. Bayes 统计涉及到五个随机变量/函数, 定义它们的记号如下:

	参数先验	参数后验	样本参数联合	似然 (样本分布)	样本边缘分布
随机变量	$\theta$	$\theta\!\mid_{\boldsymbol x}$	-	$X\!\mid_\theta$	$X$
概率密度	$\pi(\theta)$	$\pi(\theta\mid\boldsymbol x)$	$h(\boldsymbol x,\theta)$	$p(\boldsymbol x\mid\theta)$	$m(\boldsymbol x)$
数学期望	$E\theta$	$E\theta\!\mid_{\boldsymbol x}$	-	$EX\!\mid_\theta$	$EX$

联合密度 样本参数联合密度定义为

h(\boldsymbol x,\theta)=p(\boldsymbol x\mid\theta)\pi(\theta)

样本密度 样本密度 (样本边缘分布) 定义为

m(\boldsymbol x)=\int_\Theta p(\boldsymbol x\mid\theta)\pi(\theta)\mathrm d\theta

Bayes 公式 参数后验密度由先验密度和样本分布、样本边缘分布引出

\pi(\theta\mid\boldsymbol x)=\frac{p(\boldsymbol x\mid\theta)}{m(\boldsymbol x)}\cdot\pi(\theta)=\frac{h(\boldsymbol x,\theta)}{m(\boldsymbol x)}=\frac{p(\boldsymbol x\mid\theta)\pi(\theta)}{\int_\Theta p(\boldsymbol x\mid\theta)\pi(\theta)\mathrm d\theta}

1.3 共轭先验分布

共轭分布的目标: 对于给定样本分布, 寻找一个分布族, 使得先验和后验均服从该分布族.

1.3.1 正态分布的均值

正态均值的共轭先验分布是正态分布

X\sim N(\theta,\sigma^2),\theta\sim N(\mu,\tau^2)\implies\theta\mid\boldsymbol x\sim N(\theta_1,\tau_1^2)

定义方差的倒数 $\sigma^{-2}$ 为精度. 其中

\mu_1=\frac{\sigma_0^{-2}}{\sigma_0^{-2}+\tau^{-2}}\cdot\hat\theta+\frac{\tau^{-2}}{\sigma_0^{-2}+\tau^{-2}}\cdot\mu,\quad \tau_1^{-2}=\sigma_0^{-2}+\tau^{-2}

\hat\theta=\bar x=\frac{\sum x_i}{n},\quad\sigma_0=\frac{\sigma^2}{n}

证明

p(\boldsymbol x\mid\theta)\propto\exp-\frac{\sum(x_i-\theta)^2}{2\sigma^2},\quad \pi(\theta)\propto\exp-\frac{(\theta-\mu)^2}{2\tau^2}

\pi(\theta\mid x)\propto p(x\mid\theta)\pi(\theta)=\exp-\frac{(\theta-B/A)^2}{2/A}

A=\sigma_0^{-2}+\tau^{-2},B=\bar x\sigma_0^{-2}+\mu\tau^{-2}

1.3.2 二项分布的成功率

二项分布成功率的共轭先验分布是 Beta 分布

X\sim b(n,\theta),\theta\sim\mathrm B(\alpha,\beta)\implies \theta|_x\sim\mathrm B(\alpha+x,\beta+n-x)

证明

p(x\mid\theta)\propto \theta^x(1-\theta)^{n-x},\quad\pi(\theta)\propto \theta^{\alpha-1}(1-\theta)^{\beta-1}

\pi(\theta\mid x)\propto p(x\mid\theta)\pi(\theta)=\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1}

均值和方差

E\theta|_x=\frac{n}{\alpha+\beta+n}\cdot\frac{x}{n}+\frac{\alpha+\beta}{\alpha+\beta+n}\cdot\frac{\alpha}{\alpha+\beta}=\gamma\hat\theta+(1-\gamma)E\theta

D\theta|_x=\frac{E\theta|_x(1-E\theta|_x)}{\alpha+\beta+n+1}

1.3.3 正态分布的方差

定义倒 Gamma 分布

\sigma^2\sim{\rm I\Gamma}(\alpha,\lambda)\iff p(\sigma^2)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\cdot\left(\frac{1}{\sigma^2}\right)^{\alpha+1}\exp-\frac{\lambda}{\sigma^2}

正态均值的共轭先验分布是倒 Gamma 分布

X\sim N(\mu,\sigma^2),\sigma^2\sim {\rm I\Gamma}(\alpha,\lambda)\implies \theta\mid\boldsymbol x\sim{\rm I\Gamma}\left(\alpha+\frac{n}{2},\lambda+\frac{\sum(x_i-\mu)^2}{2}\right)

证明

p(\boldsymbol x\mid\sigma^2)\propto\left(\frac{1}{\sigma^2}\right)^{\frac{n}{2}}\exp-\frac{\sum(x_i-\mu)^2}{2\sigma^2},\qquad \pi(\sigma^2)\propto\left(\frac{1}{\sigma^2}\right)^{\alpha+1}\exp-\frac{\lambda}{\sigma^2}

\pi(\theta\mid x)\propto p(x\mid\theta)\pi(\theta)

1.5 多参数模型

1.5.1 正态分布均值和方差的联合分布

定义正态—倒 Gamma 分布

(\mu,\sigma^2)\sim{\rm NI\Gamma}(\nu,\kappa,\mu_0,\sigma_0^2)\iff p(\mu,\sigma^2)=\alpha\cdot\frac{1}{\sigma_0}\cdot\left(\frac{1}{\sigma_0^2}\right)^{\frac{\nu}{2}+1}\exp-\frac{\nu\sigma_0^2+\kappa(\mu-\mu_0)^2}{2\sigma^2}

其中正则化系数 $\alpha:=\frac{(\nu\sigma_0^2/2)^{\nu/2}}{\Gamma(\nu/2)}\sqrt{\frac{\kappa}{2\pi}}$ , $\nu$ 是自由度, $\kappa$ 是样本量. 正态均值方差的共轭先验分布是正态—倒 Gamma 分布

X\sim N(\mu,\sigma^2),(\mu,\sigma^2)\sim{\rm NI\Gamma}(\nu_0,\kappa_0,\mu_0,\sigma_0^2),\implies (\mu,\sigma^2)\mid\boldsymbol x\sim{\rm NI\Gamma}(\nu_n,\kappa_n,\mu_n,\sigma_n^2)

其中

\nu_n=\nu_0+n,\quad \kappa_n=\kappa_0+n,\quad \mu_n=\frac{n}{\kappa_0+n}\cdot\bar x+\frac{\kappa_0}{\kappa_0+n}\cdot\mu_0

\sigma_n^2:\nu_n\sigma_n^2=\nu_0\sigma_0^2+(n-1)s^2+\frac{n\kappa_0}{n+\kappa_0}(\mu_0-\bar x)^2

1.5.2 多元正态分布

多元正态分布均值的共轭先验分布是多元正态分布

\boldsymbol X\sim N(\boldsymbol \mu,\Sigma),\boldsymbol\mu\sim N(\boldsymbol \mu_0,\Lambda_0)\implies \boldsymbol \mu\mid x\sim N(\boldsymbol \mu_n,\Lambda_n)

其中

\mu_n=(\Lambda_0^{-1}+n\Sigma^{-1})^{-1}(\Lambda_0^{-1}\boldsymbol\mu_0+n\Sigma^{-1}\bar{\boldsymbol x}),\quad \Lambda_n^{-1}=\Lambda_0^{-1}+n\Sigma^{-1}

1.6 充分统计量

若后验分布 $\pi(\theta\mid\boldsymbol x)$ 可以写成 $\pi(\theta\mid T(\boldsymbol x))$ 的形式, 则称 $T=T(\boldsymbol x)$ 是 $\theta$ 的充分统计量.

1.A 附录: $\Gamma$ 函数, $\mathrm B$ 函数, 二项式系数 $\binom nk$

1.A.1 $\Gamma$ 函数

定义

\Gamma(x):= \int_{\mathbb R_+}t^{x-1}e^{-t}\mathrm dt

性质

\Gamma(x+1)=x\Gamma(x)=x!

\Gamma(1)=\Gamma(2)=1,\quad \Gamma(1/2)=\sqrt\pi

1.A.2 $\mathrm B$ 函数

定义

\mathrm B(\alpha,\beta):= \int_0^1x^{\alpha-1}(1-x)^{\beta-1}\mathrm dx

性质

\mathrm B(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}

1.A.3 二项式系数 $\binom nk$

二项式系数 $\binom nk$ 的性质

\binom nk=\frac1{(n+1)\mathrm B(k+1,n-k+1)}

1.B $\Gamma$ 分布, $\mathrm B$ 分布

1.B.1 $\Gamma$ 分布

定义

X\sim \Gamma(\alpha,\lambda)\iff p(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},\quad x\geq 0

其中 $\alpha$ 为形状参数, $\lambda$ 为尺度参数.

数字特征

EX=\frac\alpha\lambda,DX=\frac\alpha{\lambda^2}

性质

\Gamma(a,\lambda)+\Gamma(b,\lambda)=\Gamma(a+b,\lambda)

k\Gamma(\alpha,\lambda)=\Gamma(\alpha,\lambda/k)

1.B.2 $\mathrm B$ 分布

定义

X\sim \mathrm B(\alpha,\beta)\iff p(x)=\frac{1}{\mathrm B(\alpha,\beta)}x^{\alpha-1}(1-x)^{\beta-1},\quad x\in [0,1]

数字特征

EX=\frac{\alpha}{\alpha+\beta},DX=\frac{\alpha\beta}{(\alpha+\beta)^2(\alpha+\beta+1)}

2 Bayes 推断

2.2 点估计

已知后验分布 $\pi(\theta\mid\boldsymbol x)$ 时, 可对参数直接进行点估计

符号	估计方法
$\hat\theta_{\rm MD}$	$\pi(\theta\mid\boldsymbol x)$ 的众数, 也称最大后验
$\hat\theta_{\rm MED}$	$\pi(\theta\mid\boldsymbol x)$ 的中位数
$\hat\theta_{\rm E}$	$\pi(\theta\mid\boldsymbol x)$ 的均值 (即 $E\theta\!\mid_{\boldsymbol x}$ )

定义后验均方误差

{\rm MSE}(\hat\theta\mid\boldsymbol x) := E\Big(\theta|_{\boldsymbol x}-\hat\theta\Big)^2 =D\theta|_{\boldsymbol x}+\Big(E\theta|_{\boldsymbol x}-\hat\theta\Big)^2

可以推出 $\arg\min {\rm MSE}=\hat\theta_{\rm E}$

2.3 区间估计

Bayes 可信区间 若存在统计量 $\hat\theta_U=\hat\theta_U(\boldsymbol x)$ 和 $\hat\theta_L=\hat\theta_L(\boldsymbol x)$ 使得

\Pr(\hat\theta_L\leq\theta\leq\hat\theta_U\mid\boldsymbol x)\geq 1-\alpha

则称 $[\hat\theta_L,\hat\theta_U]$ 是 $\theta$ 可信水平为 $1-\alpha$ 的 Bayes 可信区间

最大后验密度 (HPD) 可信区间 密度函数中函数值最高 (超过一个临界值) 的点的集合 $C$ , 即

\Pr(\theta\in C\mid\boldsymbol x)\geq 1-\alpha,\quad \pi(c\mid\boldsymbol x)\geq \pi(\bar c\mid\boldsymbol x),\forall c\in C,\bar c\in\bar C

2.4 假设检验

建立假设

H_0:\theta\in\Theta_0\qquad\text{v.s}\qquad H_1:\theta\in\Theta_1

2.4.1 后验概率比

假设的后验概率 定义假设的后验概率 $\alpha_i=\Pr(\theta\in\Theta_i\mid\boldsymbol x)$ .

后验机会比 定义后验机会比 $\alpha_0/\alpha_1$ .

决策准则 后验机会比显著大于 $1$ 时相信 $H_0$ , 显著小于 $1$ 时相信 $H_1$ , 大致等于 $1$ 时不能做判断

2.4.2 Bayes 因子

假设的先验概率 定义假设的先验概率 $\pi_i=\Pr(\theta\in\Theta_i)$ .

Bayes 因子 定义 Bayes 因子是后验机会比和先验机会比的比率

B=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}

Bayes 因子削弱了先验信息的影响, 着重于表现数据 $\boldsymbol x$ 支持 $H_0$ 的程度.

以下提出 Bayes 因子的等价表示方法. 定义假设下的样本边缘分布: $\Theta_i=\{\theta_i\}$ 时

m_i(\boldsymbol x)=p(\boldsymbol x\mid\theta_i)

$\Theta_i$ 是一个集合时

m_i(\boldsymbol x)=\frac1{\pi_i}\int_{\Theta_i}p(\boldsymbol x\mid\theta)\pi(\theta)\mathrm d\theta

此时 Bayes 因子可以表示为

B=\frac{m_0(\boldsymbol x)}{m_1(\boldsymbol x)}

2.5 预测

定义后验预测分布

p(x\mid\boldsymbol x)=\int_\Theta p(x\mid\theta)\pi(\theta\mid\boldsymbol x)\mathrm d\theta

也可以对同参数的其它随机变量做预测

p(z\mid\boldsymbol x)=\int_\Theta p(z\mid\theta)\pi(\theta\mid\boldsymbol x)\mathrm d\theta

3 先验分布的确定

3.2 利用先验信息确定先验分布

直方图法 根据历史数据绘制直方图, 确定先验分布.

选定先验分布族再确定超参数 选定某一分布族作为先验分布, 再根据历史数据估计超参数.

变分度法 将超参数划分为两个等可能的小区间, 并询问专家等分值点在哪里. 依次迭代该过程直到区间分割足够细.

3.3 利用样本边缘分布 $m(x)$

超参数的 II-型极大似然估计 先确定参数的分布族 (带有超参数 $\lambda$ ), 然后定义 II-型似然函数

\mathcal L(\lambda)=\prod m(x_i,\lambda),\qquad \hat\lambda=\arg\max\mathcal L(\lambda)

求 II-型似然函数最大值对应的参数 $\hat\lambda$ , 将其作为超参数的估计.

超参数的矩估计 若先验密度 $\pi(\theta,\lambda)$ 已知, 可以求超参数的矩估计. 步骤如下:

计算给定参数下样本 $X_\theta$ 的期望 $EX|_\theta$ 和方差 $DX|_\theta$ . 注意: 由于 $\theta$ 是随机变量, 所以 $\mu=EX|_\theta$ 和 $\sigma^2=DX|_\theta$ 也是随机变量, 它与超参数 $\lambda$ 有关.
计算样本边缘分布 $X$ 的期望 $EX$ 和方差 $DX$ , 它们是 $\lambda$ 的函数.

EX=E\mu,\quad DX=E\sigma^2+E(\mu-E\mu)^2

解以下方程以获得 $\hat\lambda$ :

EX(\hat\lambda)=\bar x,\quad DX(\hat\lambda)=s^2

例设 $X\sim{\rm Exp}(\theta),\ \theta\sim\Gamma(\alpha,\lambda)$ , 求超参数的矩估计.

给定 $\theta$ 时, $X$ 服从指数分布, 所以

\mu=EX|_\theta=\frac{1}{\theta},\quad \sigma^2=DX|_\theta=\frac{1}{\theta^2}

计算 $X$ 的期望和方差.

E\mu=E\frac1\theta=\frac{\lambda^\alpha}{\Gamma(\alpha)}\int_0^{+\infty}\frac{1}{\theta}\cdot\theta^{\alpha-1}e^{-\lambda\theta}=\frac{\lambda}{\alpha-1}

以及

E\sigma^2=\frac{\lambda^2}{(\alpha-1)(\alpha-2)},\quad E\left(\mu-\frac{\lambda}{\alpha-1}\right)=\frac{\lambda^2}{(\alpha-1)(\alpha-2)}-\frac{\lambda^2}{(\alpha-1)^2}

所以

EX=\frac{\lambda}{\alpha-1},\quad DX=\frac{\alpha}{\alpha-2}\left(\frac{\lambda}{\alpha-1}\right)^2

解关于 $(\alpha,\lambda)$ 的方程 $EX=\hat x,\ DX=s^2$ 可得

\hat\alpha=\frac{2s^2}{s^2-\bar x^2},\quad \hat\lambda=(\hat\alpha-1)\bar x

3.4 无信息先验分布

3.4.1 Bayes 假设

Bayes 假设 (Laplace 先验) 先验参数在参数空间 $\Theta$ 的取值是均匀的, 即

\pi(\theta)\propto \mathit 1_{\theta\in\Theta}

当 $\Theta$ 是无穷区间时, Bayes 假设失效. 对此, 定义广义先验分布:

广义先验分布 若先验密度 $\pi(\theta)$ 满足

先验密度的累积 $\int_\Theta\pi(\theta)\mathrm d\theta=\infty$ .
但由此决定的后验分布 $\theta|_{\boldsymbol x}$ 是正常 (概率和为 $1$ ) 的分布.

此时称该先验分布式广义先验分布.

位置参数的无信息先验 若密度函数 $p(x\mid\theta)$ 仅与 $x-\theta$ 相关, 则其无信息先验可以取 Bayes 假设.

尺度参数的无信息先验 若密度函数 $p(x\mid\theta)$ 仅与 $x/\theta$ 相关, 则其无信息先验可以取

\pi(\theta)=\frac{1}{\theta},\quad \theta>0

3.4.4 Jeffreys 先验

Cramer-Rao 正则分布族 设样本密度 $p(\boldsymbol x|\boldsymbol\theta),\ \boldsymbol\theta=(\theta_1,\cdots,\theta_m)^T\in\Theta\subseteq \mathbb R^m$ , 若

$\Theta$ 是 $\mathbb R^m$ 上的开矩形.
分布的支撑 $A:=\{\boldsymbol x:p(\boldsymbol x\mid\boldsymbol \theta)>0\}$ 与 $\boldsymbol\theta$ 无关.
Score 向量 $\boldsymbol s=\nabla\ell$ (即对数似然函数对参数的梯度) 存在.
对 $p(\boldsymbol x\mid\boldsymbol \theta)$ 的微分和积分可交换.
矩阵 $J=E(\boldsymbol s\boldsymbol s^T)$ 的元素均 $<\infty$ .

则称该分布族是 Cramer-Rao 正则分布族 (C-R 正则族).

Fisher 信息量矩阵 矩阵 $J=E(\boldsymbol s\boldsymbol s^T)=-E\nabla\nabla^T\ell$ 称为该分布的 Fisher 信息量矩阵

大部分常用分布族都是 C-R 正则族, 但是也有例外: 例如从 $0$ 开始的均匀分布族 $\{U(0,\theta):\theta>0\}$ 的支撑 $A=\{x:0<x<\theta\}$ 不满足条件 2, 所以不是 C-R 正则族, 也不存在正常的 Fisher 信息量矩阵.

例同时考虑均值和标准差 $\boldsymbol\theta=(\mu,\sigma)^T$ 的正态分布族 $\{N(\mu,\sigma^2):\boldsymbol\theta\in\mathbb R\times\mathbb R_+\}$ 是 C-R 正则族, 它的对数似然函数为

\ell=-\frac12\ln2\pi-\ln\sigma-\frac{(x-\mu)^2}{2\sigma^2}

它的 Fisher 信息量矩阵为

I=\begin{pmatrix} 1/\sigma^2 & 0\\ 0 & 2/\sigma^2 \end{pmatrix}

Jeffreys 先验 取参数的先验分布 $\pi(\boldsymbol \theta)=\sqrt{\det J}$ . 该先验分布使得 $\boldsymbol \theta$ 的无信息先验在变换 $\boldsymbol \eta=\boldsymbol \eta(\boldsymbol \theta)$ 下不变, 即

\pi(\boldsymbol\theta)=\boldsymbol \eta(\boldsymbol \theta)\left|\frac{\mathrm d\boldsymbol\eta}{\mathrm d\boldsymbol\theta}\right|

例同时考虑均值和标准差 $\boldsymbol\theta=(\mu,\sigma)^T$ , 从正态分布抽出 $n$ 个样本 $\boldsymbol x=(x_1,\cdots,x_n)^T$ , 其 Jeffreys 先验为

\pi(\mu,\sigma)=\sqrt{\det J}=\sqrt{\begin{vmatrix} n/\sigma^2 & 0\\ 0 & 2n/\sigma^2 \end{vmatrix}}=\sqrt{\frac{2n^2}{\sigma^4}}\propto \frac 1{\sigma^2}

但是.

当仅视 $\mu$ 为未知参数而 $\sigma$ 已知时, 其 Jeffreys 先验为 $\pi(\mu)=1$ .
当仅视 $\sigma$ 为未知参数而 $\mu$ 已知时, 其 Jeffreys 先验为 $\pi(\sigma)=1/\sigma$ .
当 $\mu,\sigma$ 独立时, $\pi(\mu,\sigma)=1/\sigma$ .

这表明 Jeffreys 先验的无信息分布不一定是独立的. 在 $(\mu,\sigma)$ 的联合无信息先验分布的两种形式 $1/\sigma$ 和 $1/\sigma^2$ 中, 多数人采用了前者形式.

例考虑二项分布 $b(n,\theta)$ 关于成功概率 $\theta$ 的 Jeffreys 先验. 即

\Pr(X=x)=\binom nx\theta^x(1-\theta)^{n-x}

其对数似然函数为

\ell=x\ln\theta+(n-x)\ln(1-\theta)+\ln\binom nx

其 Fisher 信息量和 Jeffreys 先验为

J=\frac n{\theta(1-\theta)},\quad \pi(\theta)\propto \frac 1{\sqrt{\theta(1-\theta)}}

对于成功概率 $\theta$ 的无信息先验分布, 不少统计学家从各种角度探讨, 主要导出了以下四种先验分布:

\pi _1(\theta)=1,\quad \pi _2(\theta)=\frac 1{\theta(1-\theta)},\quad \pi _3(\theta)\propto\frac 1{\sqrt{\theta(1-\theta)}},\qquad \pi _4(\theta)\propto\theta^\theta(1-\theta)^{1-\theta}

其中 $\pi _2(\theta)$ 是广义先验密度. 这四种无信息先验都是合理的, 它们各自从一个侧面提出自己的合理要求, 然后导出对应的无信息先验. 这四个先验虽不同, 但对 Bayes 统计推断结果的影响是有限的, 故都可以使用.

除去 Jeffrey 先验外, 常用的先验分布还有 Reference 先验和概率匹配先验. 该二先验方法由于过程略复杂, 此处从略.

3.5 多层先验和多层 Bayes 模型

3.5.1 多层先验

例某批次产品不合格量 $X$ 服从 $b(n,\theta)$ 分布, 其中 $\theta$ 是参数, 意为不合格率. 决策者认为该不合格率有一个上限, 所以定义 $\theta$ 的先验分布为 $\theta\sim U(0,\lambda)$ , 其中 $\lambda$ 是超参数, 意为不合格率上限, 它应是一个定值. 但是现由于不合格率上限的取值不好确定, 故决策者将其也设置为了一个随机变量 $\lambda\sim U(0.1,0.5)$ . 于是本问题生成了一个三层结构:

X\sim b(n,\theta),\quad \theta\sim U(0,\lambda),\quad \lambda\sim U(0.1,0.5)

记给定超参数时 $\theta$ 的先验为 $\pi _1(\theta\mid\lambda)=\mathit 1_{0<\theta<\lambda}/\lambda$ , $\lambda$ 的超先验为 $\pi _2(\lambda)=\mathit 1_{0.1<\lambda<0.5}/0.4$ . 此时 $\theta$ 的先验为

\pi _1(\theta)=\int_\Lambda \pi _1(\theta\mid\lambda)\pi _2(\lambda)\mathrm d\lambda

其中 $\Lambda$ 是 $\lambda$ 的参数空间. 在本例中

\pi _1(\theta)=\frac 1{0.4}\int_{0.1}^{0.5}\frac {\mathit 1_{0<\theta<\lambda}}\lambda\mathrm d\lambda =\begin{cases} 2.5\ln 5, & 0<\theta<0.1,\\ 2.5(\ln 0.5-\ln\theta), & 0.1 \leq \theta < 0.5\end{cases}

3.5.2 多层 Bayes 模型

上例中的多层 Bayes 模型如下:

随机变量	抽样数据
总体分布 $x\!\mid_\theta\sim p(x\mid\theta)$	样本 $x\in\mathcal X$
第一层先验 $\theta\!\mid_\lambda\sim \pi_1(\theta\mid\lambda)$	参数 $\theta\in\Theta$
第二层先验 $\lambda\sim \pi_2(\lambda)$	超参数 $\lambda\in\Lambda$

例实验室条件下, 一批 $n$ 只老鼠病变的个数 $x$ 服从 $b(n,\theta)$ , 病变概率 $\theta$ 选用 Beta 分布 $\mathrm B(\alpha,\beta)$ , 其中 $\alpha,\beta$ 是随机变量. 在传统的单层 Bayes 模型中, 由 $\alpha,\beta$ 生成了一个 $\theta$ , 然后由 $\theta$ 生成 $\boldsymbol x$ ; 而在多层 Bayes 模型中, 由 $\alpha,\beta$ 生成了若干个 $\theta_i$ , 每一个 $\theta_i$ 生成自己的样本 $x_i$ , 即

x_i\sim b(n_i,\theta_i),\quad \theta_i\sim\mathrm B(\alpha,\beta),\quad \alpha,\beta)\sim\pi_2(\alpha,\beta)

现尝试给出一组无信息超先验 $\pi_2(\alpha,\beta)$ , 使得其后验 $\pi_2(\alpha,\beta\mid\boldsymbol x)$ 是正常的. 现在计算

\pi_2(\alpha,\beta\mid\boldsymbol x)=\frac{\pi(\boldsymbol\theta,\alpha,\beta\mid\boldsymbol x)}{\pi_1(\boldsymbol \theta\mid\alpha,\beta,\boldsymbol x)}

其中

\begin{aligned} \pi(\boldsymbol\theta,\alpha,\beta\mid\boldsymbol x)&\propto p(\boldsymbol x\mid\boldsymbol \theta)\pi_1(\boldsymbol \theta\mid\alpha,\beta)\pi_2(\alpha,\beta)\\ &=\prod_i\theta_i^{x_i}(1-\theta_i)^{n_i-x_i}\cdot\prod_i\frac{\theta_i^{\alpha-1}(1-\theta_i)^{\beta-1}}{\mathrm B(\alpha,\beta)}\cdot\pi_2(\alpha,\beta) \end{aligned}

和

\pi_1(\boldsymbol \theta\mid\alpha,\beta,\boldsymbol x) =\prod_i \pi_1(\theta_i\mid\alpha,\beta,x_i) =\prod_i\frac{\theta_i^{\alpha+x_i-1}(1-\theta_i)^{\beta+n_i-x_i-1}}{\mathrm B(\alpha+x_i,\beta+n_i-x_i)}

所以

\pi_2(\alpha,\beta\mid\boldsymbol x) \propto \pi_2(\alpha,\beta)\cdot\prod_i\frac{\mathrm B(\alpha+x_i,\beta+n_i-x_i)}{\mathrm B(\alpha,\beta)}

以上求出了超参数后验分布的密度. 通过数值方法, 可以搜索出满足要求的超参数 $\alpha,\beta$ . 至于参数 $\theta_i$ 的点估计与区间估计, 受问题的复杂度所限, 只能通过随机模拟方法求其数值解.

本系列的参考文献

[1] 茆诗松, 汤银才. 贝叶斯统计[M]. 第二版. 北京: 中国统计出版社, 2012: 1-120.

《贝叶斯统计》笔记（第一部分：Bayes 推断、先验分布的确定）

1 先验分布与后验分布​

1.2 Bayes 公式​

1.3 共轭先验分布​

1.3.1 正态分布的均值​

1.3.2 二项分布的成功率​

1.3.3 正态分布的方差​

1.5 多参数模型​

1.5.1 正态分布均值和方差的联合分布​

1.5.2 多元正态分布​

1.6 充分统计量​

1.A 附录: Γ\GammaΓ 函数, B\mathrm BB 函数, 二项式系数 (nk)\binom nk(kn​)​

1.A.1 Γ\GammaΓ 函数​

1.A.2 B\mathrm BB 函数​

1.A.3 二项式系数 (nk)\binom nk(kn​)​

1.B Γ\GammaΓ 分布, B\mathrm BB 分布​

1.B.1 Γ\GammaΓ 分布​

1.B.2 B\mathrm BB 分布​

2 Bayes 推断​

2.2 点估计​

2.3 区间估计​

2.4 假设检验​

2.4.1 后验概率比​

2.4.2 Bayes 因子​

2.5 预测​

3 先验分布的确定​

3.2 利用先验信息确定先验分布​

3.3 利用样本边缘分布 m(x)m(x)m(x)​

3.4 无信息先验分布​

3.4.1 Bayes 假设​

3.4.4 Jeffreys 先验​

3.5 多层先验和多层 Bayes 模型​

3.5.1 多层先验​

3.5.2 多层 Bayes 模型​

本系列的参考文献​