**未完成**【概率统计】《贝叶斯统计》笔记(第一部分:贝叶斯推断、先验分布的确定)
1 先验分布与后验分布
1.2 Bayes 公式
Bayes 统计涉及到五个随机变量/函数, 定义它们的记号如下:
参数先验 | 参数后验 | 样本参数联合 | 似然 (样本分布) | 样本边缘分布 | |||
---|---|---|---|---|---|---|---|
随机变量 | $\theta$ | $theta\ | _{boldsymbol x}$ | - | $X\ | _theta$ | $X$ |
概率密度 | $\pi(\theta)$ | $\pi(\theta\mid\boldsymbol x)$ | $h(\boldsymbol x,\theta)$ | $p(\boldsymbol x\mid\theta)$ | $m(\boldsymbol x)$ | ||
数学期望 | $E\theta$ | $Etheta\ | _{boldsymbol x}$ | - | $EX\ | _theta$ | $EX$ |
联合密度 样本参数联合密度定义为
$$h(\boldsymbol x,\theta)=p(\boldsymbol x\mid\theta)\pi(\theta)$$
样本密度 样本密度 (样本边缘分布) 定义为
$$m(\boldsymbol x)=\int_\Theta p(\boldsymbol x\mid\theta)\pi(\theta)\mathrm d\theta$$
Bayes 公式 参数后验密度由先验密度和样本分布、样本边缘分布引出
$$\pi(\theta\mid\boldsymbol x)=\frac{p(\boldsymbol x\mid\theta)}{m(\boldsymbol x)}\cdot\pi(\theta)=\frac{h(\boldsymbol x,\theta)}{m(\boldsymbol x)}=\frac{p(\boldsymbol x\mid\theta)\pi(\theta)}{\int_\Theta p(\boldsymbol x\mid\theta)\pi(\theta)\mathrm d\theta}$$
1.3 共轭先验分布
共轭分布的目标: 对于给定样本分布, 寻找一个分布族, 使得先验和后验均服从该分布族.
1.3.1 正态分布的均值
正态均值的共轭先验分布是正态分布
$$X\sim N(\theta,\sigma^2),\theta\sim N(\mu,\tau^2)\implies\theta\mid\boldsymbol x\sim N(\theta_1,\tau_1^2)$$
定义方差的倒数 $\sigma^{-2}$ 为精度. 其中
$$ \mu_1=\frac{\sigma_0^{-2}}{\sigma_0^{-2}+\tau^{-2}}\cdot\hat\theta+\frac{\tau^{-2}}{\sigma_0^{-2}+\tau^{-2}}\cdot\mu,\quad \tau_1^{-2}=\sigma_0^{-2}+\tau^{-2} $$
$$\hat\theta=\bar x=\frac{\sum x_i}{n},\quad\sigma_0=\frac{\sigma^2}{n}$$
证明
$$ p(\boldsymbol x\mid\theta)\propto\exp-\frac{\sum(x_i-\theta)^2}{2\sigma^2},\quad \pi(\theta)\propto\exp-\frac{(\theta-\mu)^2}{2\tau^2} $$
$$\pi(\theta\mid x)\propto p(x\mid\theta)\pi(\theta)=\exp-\frac{(\theta-B/A)^2}{2/A}$$
$$A=\sigma_0^{-2}+\tau^{-2},B=\bar x\sigma_0^{-2}+\mu\tau^{-2}$$
1.3.2 二项分布的成功率
二项分布成功率的共轭先验分布是 Beta 分布
$$Xsim b(n,theta),thetasimBeta(alpha,beta)implies
theta|_xsimBeta(alpha+x,beta+n-x)$$
证明
$$p(x\mid\theta)\propto \theta^x(1-\theta)^{n-x},\quad\pi(\theta)\propto \theta^{\alpha-1}(1-\theta)^{\beta-1}$$
$$\pi(\theta\mid x)\propto p(x\mid\theta)\pi(\theta)=\theta^{\alpha+x-1}(1-\theta)^{\beta+n-x-1}$$
均值和方差
$$ E\theta|_x=\frac{n}{\alpha+\beta+n}\cdot\frac{x}{n}+\frac{\alpha+\beta}{\alpha+\beta+n}\cdot\frac{\alpha}{\alpha+\beta}=\gamma\hat\theta+(1-\gamma)E\theta $$
$$D\theta|_x=\frac{E\theta|_x(1-E\theta|_x)}{\alpha+\beta+n+1}$$
1.3.3 正态分布的方差
定义倒 Gamma 分布
$$ \sigma^2\sim{\rm I\Gamma}(\alpha,\lambda)\iff p(\sigma^2)=\frac{\lambda^\alpha}{\Gamma(\alpha)}\cdot\left(\frac{1}{\sigma^2}\right)^{\alpha+1}\exp-\frac{\lambda}{\sigma^2} $$
正态均值的共轭先验分布是倒 Gamma 分布
$$ X\sim N(\mu,\sigma^2),\sigma^2\sim {\rm I\Gamma}(\alpha,\lambda)\implies \theta\mid\boldsymbol x\sim{\rm I\Gamma}\left(\alpha+\frac{n}{2},\lambda+\frac{\sum(x_i-\mu)^2}{2}\right) $$
证明
$$ p(\boldsymbol x\mid\sigma^2)\propto\left(\frac{1}{\sigma^2}\right)^{\frac{n}{2}}\exp-\frac{\sum(x_i-\mu)^2}{2\sigma^2},\qquad \pi(\sigma^2)\propto\left(\frac{1}{\sigma^2}\right)^{\alpha+1}\exp-\frac{\lambda}{\sigma^2} $$
$$\pi(\theta\mid x)\propto p(x\mid\theta)\pi(\theta)$$
1.5 多参数模型
1.5.1 正态分布均值和方差的联合分布
定义正态—倒 Gamma 分布
$$ (\mu,\sigma^2)\sim{\rm NI\Gamma}(\nu,\kappa,\mu_0,\sigma_0^2)\iff p(\mu,\sigma^2)=\alpha\cdot\frac{1}{\sigma_0}\cdot\left(\frac{1}{\sigma_0^2}\right)^{\frac{\nu}{2}+1}\exp-\frac{\nu\sigma_0^2+\kappa(\mu-\mu_0)^2}{2\sigma^2} $$
其中正则化系数 $\alpha\coloneqq\frac{(\nu\sigma_0^2/2)^{\nu/2}}{\Gamma(\nu/2)}\sqrt{\frac{\kappa}{2\pi}}$, $\nu$ 是自由度, $\kappa$ 是样本量. 正态均值方差的共轭先验分布是正态—倒 Gamma 分布
$$X\sim N(\mu,\sigma^2),(\mu,\sigma^2)\sim{\rm NI\Gamma}(\nu_0,\kappa_0,\mu_0,\sigma_0^2),\implies (\mu,\sigma^2)\mid\boldsymbol x\sim{\rm NI\Gamma}(\nu_n,\kappa_n,\mu_n,\sigma_n^2)$$
其中
$$\nu_n=\nu_0+n,\quad \kappa_n=\kappa_0+n,\quad \mu_n=\frac{n}{\kappa_0+n}\cdot\bar x+\frac{\kappa_0}{\kappa_0+n}\cdot\mu_0$$
$$\sigma_n^2:\nu_n\sigma_n^2=\nu_0\sigma_0^2+(n-1)s^2+\frac{n\kappa_0}{n+\kappa_0}(\mu_0-\bar x)^2$$
1.5.2 多元正态分布
多元正态分布均值的共轭先验分布是多元正态分布
$$ \boldsymbol X\sim N(\boldsymbol \mu,\Sigma),\boldsymbol\mu\sim N(\boldsymbol \mu_0,\Lambda_0)\implies \boldsymbol \mu\mid x\sim N(\boldsymbol \mu_n,\Lambda_n) $$
其中
$$ \mu_n=(\Lambda_0^{-1}+n\Sigma^{-1})^{-1}(\Lambda_0^{-1}\boldsymbol\mu_0+n\Sigma^{-1}\bar{\boldsymbol x}),\quad \Lambda_n^{-1}=\Lambda_0^{-1}+n\Sigma^{-1} $$
1.6 充分统计量
若后验分布 $\pi(\theta\mid\boldsymbol x)$ 可以写成 $\pi(\theta\mid T(\boldsymbol x))$ 的形式, 则称 $T=T(\boldsymbol x)$ 是 $\theta$ 的充分统计量.
1.A 附录: $\Gamma$ 函数, $\Beta$ 函数, 二项式系数 $\binom nk$
1.A.1 $\Gamma$ 函数
定义
$$\Gamma(x)\coloneqq \int_{\R_+}t^{x-1}e^{-t}\mathrm dt$$
性质
$$\Gamma(x+1)=x\Gamma(x)=x!$$
$$\Gamma(1)=\Gamma(2)=1,\quad \Gamma(1/2)=\sqrt\pi$$
1.A.2 $\Beta$ 函数
定义
$$\Beta(\alpha,\beta)\coloneqq \int_0^1x^{\alpha-1}(1-x)^{\beta-1}\mathrm dx$$
性质
$$\Beta(\alpha,\beta)=\frac{\Gamma(\alpha)\Gamma(\beta)}{\Gamma(\alpha+\beta)}$$
1.A.3 二项式系数 $\binom nk$
二项式系数 $\binom nk$ 的性质
$$\binom nk=\frac1{(n+1)\Beta(k+1,n-k+1)}$$
1.B $\Gamma$ 分布, $\Beta$ 分布
1.B.1 $\Gamma$ 分布
定义
$$ X\sim \Gamma(\alpha,\lambda)\iff p(x)=\frac{\lambda^\alpha}{\Gamma(\alpha)}x^{\alpha-1}e^{-\lambda x},\quad x\geq 0 $$
其中 $\alpha$ 为形状参数, $\lambda$ 为尺度参数.
数字特征
$$EX=\frac\alpha\lambda,DX=\frac\alpha{\lambda^2}$$
性质
$$\Gamma(a,\lambda)+\Gamma(b,\lambda)=\Gamma(a+b,\lambda)$$
$$k\Gamma(\alpha,\lambda)=\Gamma(\alpha,\lambda/k)$$
1.B.2 $\Beta$ 分布
...
1.C 利用正态分布正则性计算高斯积分
$$\int_\R \exp(ax^2+bx+c)\mathrm dx$$
...
2 Bayes 推断
2.2 点估计
已知后验分布 $\pi(\theta\mid\boldsymbol x)$ 时, 可对参数直接进行点估计
符号 | 估计方法 | |
---|---|---|
$\hat\theta_{\rm MD}$ | $\pi(\theta\mid\boldsymbol x)$ 的众数, 也称最大后验 | |
$\hat\theta_{\rm MED}$ | $\pi(\theta\mid\boldsymbol x)$ 的中位数 | |
$\hat\theta_{\rm E}$ | $\pi(\theta\mid\boldsymbol x)$ 的均值 (即 $Etheta | boldsymbol x$) |
定义后验均方误差
$${rm MSE}(hatthetamidboldsymbol x)
coloneqq EBig(theta|_{boldsymbol x}-hatthetaBig)^2
=Dtheta|_{boldsymbol x}+Big(Etheta|_{boldsymbol x}-hatthetaBig)^2$$
可以推出
$\argmin {\rm MSE}=\hat\theta_{\rm E}$
2.3 区间估计
Bayes 可信区间 若存在统计量 $\hat\theta_U=\hat\theta_U(\boldsymbol x)$ 和 $\hat\theta_L=\hat\theta_L(\boldsymbol x)$ 使得
$$\Pr(\hat\theta_L\leq\theta\leq\hat\theta_U\mid\boldsymbol x)\geq 1-\alpha$$
则称 $[\hat\theta_L,\hat\theta_U]$ 是 $\theta$ 可信水平为 $1-\alpha$ 的 Bayes 可信区间
最大后验密度 (HPD) 可信区间 密度函数中函数值最高 (超过一个临界值) 的点的集合 $C$, 即
$$\Pr(\theta\in C\mid\boldsymbol x)\geq 1-\alpha,\quad \pi(c\mid\boldsymbol x)\geq \pi(\bar c\mid\boldsymbol x),\forall c\in C,\bar c\in\bar C$$
2.4 假设检验
建立假设
$$H_0:\theta\in\Theta_0\qquad\text{v.s}\qquad H_1:\theta\in\Theta_1$$
2.4.1 后验概率比
假设的后验概率 定义假设的后验概率 $\alpha_i=\Pr(\theta\in\Theta_i\mid\boldsymbol x)$.
后验机会比 定义后验机会比 $\alpha_0/\alpha_1$.
决策准则 后验机会比显著大于 $1$ 时相信 $H_0$, 显著小于 $1$ 时相信 $H_1$, 大致等于 $1$ 时不能做判断
2.4.2 Bayes 因子
假设的先验概率 定义假设的先验概率 $\pi_i=\Pr(\theta\in\Theta_i)$.
Bayes 因子 定义 Bayes 因子是后验机会比和先验机会比的比率
$$B=\frac{\alpha_0/\alpha_1}{\pi_0/\pi_1}$$
Bayes 因子削弱了先验信息的影响, 着重于表现数据 $\boldsymbol x$ 支持 $H_0$ 的程度.
以下提出 Bayes 因子的等价表示方法. 定义假设下的样本边缘分布: $\Theta_i=\{\theta_i\}$ 时
$$m_i(\boldsymbol x)=p(\boldsymbol x\mid\theta_i)$$
$\Theta_i$ 是一个集合时
$$m_i(\boldsymbol x)=\frac1{\pi_i}\int_{\Theta_i}p(\boldsymbol x\mid\theta)\pi(\theta)\mathrm d\theta$$
此时 Bayes 因子可以表示为
$$B=\frac{m_0(\boldsymbol x)}{m_1(\boldsymbol x)}$$
2.5 预测
定义后验预测分布
$$p(x\mid\boldsymbol x)=\int_\Theta p(x\mid\theta)\pi(\theta\mid\boldsymbol x)\mathrm d\theta$$
也可以对同参数的其它随机变量做预测
$$p(z\mid\boldsymbol x)=\int_\Theta p(z\mid\theta)\pi(\theta\mid\boldsymbol x)\mathrm d\theta$$
3 先验分布的确定
3.2 利用先验信息确定先验分布
直方图法 根据历史数据绘制直方图, 确定先验分布.
选定先验分布族再确定超参数 选定某一分布族作为先验分布, 再根据历史数据估计超参数.
变分度法 将超参数划分为两个等可能的小区间, 并询问专家等分值点在哪里. 依次迭代该过程直到区间分割足够细.
3.3 利用样本边缘分布 $m(x)$
超参数的 II-型极大似然估计 先确定参数的分布族 (带有超参数 $\lambda$), 然后定义 II-型似然函数
$$\mathcal L(\lambda)=\prod m(x_i,\lambda),\qquad \hat\lambda=\argmax\mathcal L(\lambda)$$
求 II-型似然函数最大值对应的参数 $\hat\lambda$, 将其作为超参数的估计.
超参数的矩估计 若先验密度 $\pi(\theta,\lambda)$ 已知, 可以求超参数的矩估计. 步骤如下:
- 计算给定参数下样本 $X_\theta$ 的期望 $EX|_\theta$ 和方差 $DX|_\theta$. 注意: 由于 $\theta$ 是随机变量, 所以 $\mu=EX|_\theta$ 和 $\sigma^2=DX|_\theta$ 也是随机变量, 它与超参数 $\lambda$ 有关.
- 计算样本边缘分布 $X$ 的期望 $EX$ 和方差 $DX$, 它们是 $\lambda$ 的函数.
$$EX=E\mu,\quad DX=E\sigma^2+E(\mu-E\mu)^2$$ - 解以下方程以获得 $\hat\lambda$:
$$EX(\hat\lambda)=\bar x,\quad DX(\hat\lambda)=s^2$$
例 设 $X\sim{\rm Exp}(\theta),\ \theta\sim\Gamma(\alpha,\lambda)$, 求超参数的矩估计.
- 给定 $\theta$ 时, $X$ 服从指数分布, 所以
$$\mu=EX|_\theta=\frac{1}{\theta},\quad \sigma^2=DX|_\theta=\frac{1}{\theta^2}$$ - 计算 $X$ 的期望和方差.
$$E\mu=E\frac1\theta=\frac{\lambda^\alpha}{\Gamma(\alpha)}\int_0^{+\infty}\frac{1}{\theta}\cdot\theta^{\alpha-1}e^{-\lambda\theta}=\frac{\lambda}{\alpha-1}$$
以及
$$E\sigma^2=\frac{\lambda^2}{(\alpha-1)(\alpha-2)},\quad E\left(\mu-\frac{\lambda}{\alpha-1}\right)=\frac{\lambda^2}{(\alpha-1)(\alpha-2)}-\frac{\lambda^2}{(\alpha-1)^2}$$
所以
$$EX=\frac{\lambda}{\alpha-1},\quad DX=\frac{\alpha}{\alpha-2}\left(\frac{\lambda}{\alpha-1}\right)^2$$
解关于 $(\alpha,\lambda)$ 的方程 $EX=\hat x,\ DX=s^2$ 可得
$$\hat\alpha=\frac{2s^2}{s^2-\bar x^2},\quad \hat\lambda=(\hat\alpha-1)\bar x$$
3.4 无信息先验分布
3.4.1 Bayes 假设
Bayes 假设 (Laplace 先验) 先验参数在参数空间 $\Theta$ 的取值是均匀的, 即
$$\pi(\theta)\propto \mathit 1_{\theta\in\Theta}$$
当 $\Theta$ 是无穷区间时, Bayes 假设失效. 对此, 定义广义先验分布:
广义先验分布 若先验密度 $\pi(\theta)$ 满足
- 先验密度的累积 $\int_\Theta\pi(\theta)\mathrm d\theta=\infty$.
- 但由此决定的后验分布 $\theta|_{\boldsymbol x}$ 是正常 (概率和为 $1$) 的分布.
此时称该先验分布式广义先验分布.
位置参数的无信息先验 若密度函数 $p(x\mid\theta)$ 仅与 $x-\theta$ 相关, 则其无信息先验可以取 Bayes 假设.
尺度参数的无信息先验 若密度函数 $p(x\mid\theta)$ 仅与 $x/\theta$ 相关, 则其无信息先验可以取
$$\pi(\theta)=\frac{1}{\theta},\quad \theta>0$$
3.4.4 Jeffreys 先验
Cramer-Rao 正则分布族 设样本密度 $p(\boldsymbol x|\boldsymbol\theta),\ \boldsymbol\theta=(\theta_1,\cdots,\theta_m)^T\in\Theta\subseteq \mathbb R^m$, 若
- $\Theta$ 是 $\mathbb R^m$ 上的开矩形.
- 分布的支撑 $A\coloneqq\{\boldsymbol x:p(\boldsymbol x\mid\boldsymbol \theta)>0\}$ 与 $\boldsymbol\theta$ 无关.
- Score 向量 $\boldsymbol s=\nabla\ell$ (即对数似然函数对参数的梯度) 存在.
- 对 $p(\boldsymbol x\mid\boldsymbol \theta)$ 的微分和积分可交换.
- 矩阵 $I=E(\boldsymbol s\boldsymbol s^T)$ 的元素均 $<\infty$.
则称该分布族是 Cramer-Rao 正则分布族 (C-R 正则族).
Fisher 信息量矩阵 矩阵 $I=E(\boldsymbol s\boldsymbol s^T)=-E\nabla\nabla^T\ell$ 称为该分布的 Fisher 信息量矩阵
大部分常用分布族都是 C-R 正则族, 但是也有例外: 例如从 $0$ 开始的均匀分布族 $\{U(0,\theta):\theta>0\}$ 的支撑 $A=\{x:0<x<\theta\}$ 不满足条件 2, 所以不是 C-R 正则族, 也不存在正常的 Fisher 信息量矩阵.
例 同时考虑均值和标准差 $\boldsymbol\theta=(\mu,\sigma)^T$ 的正态分布族 $\{N(\mu,\sigma^2):\boldsymbol\theta\in\mathbb R\times\mathbb R_+\}$ 是 C-R 正则族, 它的对数似然函数为
$$\ell=-\frac12\ln2\pi-\ln\sigma-\frac{(x-\mu)^2}{2\sigma^2}$$
它的 Fisher 信息量矩阵为
$$I=\begin{pmatrix} 1/\sigma^2 & 0\\ 0 & 2/\sigma^2 \end{pmatrix}$$
Jeffreys 先验 取参数的先验分布 $\pi(\boldsymbol \theta)=\sqrt{\det I}$. 该先验分布使得 $\boldsymbol \theta$ 的无信息先验在变换 $\boldsymbol \eta=\boldsymbol \eta(\boldsymbol \theta)$ 下不变, 即
$$\pi(\boldsymbol\theta)=\boldsymbol \eta(\boldsymbol \theta)\left|\frac{\mathrm d\boldsymbol\eta}{\mathrm d\boldsymbol\theta}\right|$$
例 同时考虑均值和标准差 $\boldsymbol\theta=(\mu,\sigma)^T$, 从正态分布抽出 $n$ 个样本 $\boldsymbol x=(x_1,\cdots,x_n)^T$, 其 Jeffreys 先验为
$$\pi(\mu,\sigma)=\sqrt{\det I}=\sqrt{\begin{vmatrix} n/\sigma^2 & 0\\ 0 & 2n/\sigma^2 \end{vmatrix}}=\sqrt{\frac{2n^2}{\sigma^4}}\propto \frac 1{\sigma^2}$$
但是.
- 当仅视 $\mu$ 为未知参数而 $\sigma$ 已知时, 其 Jeffreys 先验为 $\pi(\mu)=1$.
- 当仅视 $\sigma$ 为未知参数而 $\mu$ 已知时, 其 Jeffreys 先验为 $\pi(\sigma)=1/\sigma$.
- 当 $\mu,\sigma$ 独立时, $\pi(\mu,\sigma)=1/\sigma$.
这表明 Jeffreys 先验的无信息分布不一定是独立的. 在 $(\mu,\sigma)$ 的联合无信息先验分布的两种形式 $1/\sigma$ 和 $1/\sigma^2$ 中, 多数人采用了前者形式.
例 考虑二项分布 $b(n,\theta)$ 关于成功概率 $\theta$ 的 Jeffreys 先验. 即
$$\Pr(X=x)=\binom nx\theta^x(1-\theta)^{n-x}$$
其对数似然函数为
$$\ell=x\ln\theta+(n-x)\ln(1-\theta)+\ln\binom nx$$
其 Fisher 信息量和 Jeffreys 先验为
$$I=\frac n{\theta(1-\theta)},\quad \pi(\theta)\propto \frac 1{\sqrt{\theta(1-\theta)}}$$
对于成功概率 $\theta$ 的无信息先验分布, 不少统计学家从各种角度探讨, 主要导出了以下四种先验分布:
$$\pi _1(\theta)=1,\quad \pi _2(\theta)=\frac 1{\theta(1-\theta)},\quad \pi _3(\theta)\propto\frac 1{\sqrt{\theta(1-\theta)}},\qquad \pi _4(\theta)\propto\theta^\theta(1-\theta)^{1-\theta}$$
其中 $\pi _2(\theta)$ 是广义先验密度. 这四种无信息先验都是合理的, 它们各自从一个侧面提出自己的合理要求, 然后导出对应的无信息先验. 这四个先验虽不同, 但对贝叶斯统计推断结果的影响是有限的, 故都可以使用.
除去 Jeffrey 先验外, 常用的先验分布还有 Reference 先验和概率匹配先验. 该二先验方法由于过程略复杂, 此处从略.
3.5 多层先验和多层 Bayes 模型
3.5.1 多层先验
例 某批次产品不合格量 $X$ 服从 $b(n,\theta)$ 分布, 其中 $\theta$ 是参数, 意为不合格率. 决策者认为该不合格率有一个上限, 所以定义 $\theta$ 的先验分布为 $\theta\sim U(0,\lambda)$, 其中 $\lambda$ 是超参数, 意为不合格率上限, 它应是一个定值. 但是现由于不合格率上限的取值不好确定, 故决策者将其也设置为了一个随机变量 $\lambda\sim U(0.1,0.5)$. 于是本问题生成了一个三层结构:
$$X\sim b(n,\theta),\quad \theta\sim U(0,\lambda),\quad \lambda\sim U(0.1,0.5)$$
记给定超参数时 $\theta$ 的先验为 $\pi _1(\theta\mid\lambda)=\mathit 1_{0<\theta<\lambda}/\lambda$, $\lambda$ 的超先验为 $\pi _2(\lambda)=\mathit 1_{0.1<\lambda<0.5}/0.4$. 此时 $\theta$ 的先验为
$$\pi _1(\theta)=\int_\Lambda \pi _1(\theta\mid\lambda)\pi _2(\lambda)\mathrm d\lambda$$
其中 $\Lambda$ 是 $\lambda$ 的参数空间. 在本例中
$$\pi _1(\theta)=\frac 1{0.4}\int_{0.1}^{0.5}\frac {\mathit 1_{0<\theta<\lambda}}\lambda\mathrm d\lambda =\begin{cases} 2.5\ln 5, & 0<\theta<0.1,\\ 2.5(\ln 0.5-\ln\theta), & 0.1 \leq \theta < 0.5\end{cases}$$
3.5.2 多层 Bayes 模型
上例中的多层 Bayes 模型如下:
随机变量 | 抽样数据 | |
---|---|---|
总体分布 $x\ | _thetasim p(xmidtheta)$ | 样本 $x\in\mathcal X$ |
第一层先验 $theta\ | _lambdasim pi_1(thetamidlambda)$ | 参数 $\theta\in\Theta$ |
第二层先验 $\lambda\sim \pi_2(\lambda)$ | 超参数 $\lambda\in\Lambda$ |
例 实验室条件下, 一批 $n$ 只老鼠病变的个数 $x$ 服从 $b(n,\theta)$, 病变概率 $\theta$ 选用 Beta 分布 $\Beta(\alpha,\beta)$, 其中 $\alpha,\beta$ 是随机变量. 在传统的单层 Bayes 模型中, 由 $\alpha,\beta$ 生成了一个 $\theta$, 然后由 $\theta$ 生成 $\boldsymbol x$; 而在多层 Bayes 模型中, 由 $\alpha,\beta$ 生成了若干个 $\theta_i$, 每一个 $\theta_i$ 生成自己的样本 $x_i$, 即
$$x_i\sim b(n_i,\theta_i),\quad \theta_i\sim\Beta(\alpha,\beta),\quad \alpha,\beta)\sim\pi_2(\alpha,\beta)$$
现尝试给出一组无信息超先验 $\pi_2(\alpha,\beta)$, 使得其后验 $\pi_2(\alpha,\beta\mid\boldsymbol x)$ 是正常的. 现在计算
$$\pi_2(\alpha,\beta\mid\boldsymbol x)=\frac{\pi(\boldsymbol\theta,\alpha,\beta\mid\boldsymbol x)}{\pi_1(\boldsymbol \theta\mid\alpha,\beta,\boldsymbol x)}$$
其中
$$\begin{aligned} \pi(\boldsymbol\theta,\alpha,\beta\mid\boldsymbol x)&\propto p(\boldsymbol x\mid\boldsymbol \theta)\pi_1(\boldsymbol \theta\mid\alpha,\beta)\pi_2(\alpha,\beta)\\ &=\prod_i\theta_i^{x_i}(1-\theta_i)^{n_i-x_i}\cdot\prod_i\frac{\theta_i^{\alpha-1}(1-\theta_i)^{\beta-1}}{\Beta(\alpha,\beta)}\cdot\pi_2(\alpha,\beta) \end{aligned}$$
和
$$\pi_1(\boldsymbol \theta\mid\alpha,\beta,\boldsymbol x) =\prod_i \pi_1(\theta_i\mid\alpha,\beta,x_i) =\prod_i\frac{\theta_i^{\alpha+x_i-1}(1-\theta_i)^{\beta+n_i-x_i-1}}{\Beta(\alpha+x_i,\beta+n_i-x_i)}$$
所以
$$\pi_2(\alpha,\beta\mid\boldsymbol x) \propto \pi_2(\alpha,\beta)\cdot\prod_i\frac{\Beta(\alpha+x_i,\beta+n_i-x_i)}{\Beta(\alpha,\beta)}$$
以上求出了超参数后验分布的密度. 通过数值方法, 可以搜索出满足要求的超参数 $\alpha,\beta$. 至于参数 $\theta_i$ 的点估计与区间估计, 受问题的复杂度所限, 只能通过随机模拟方法求其数值解.
参考文献
[1] 茆诗松, 汤银才. 贝叶斯统计[M]. 第二版. 北京: 中国统计出版社, 2012: 1-120.