《贝叶斯统计》笔记(第一部分:Bayes 推断、先验分布的确定)
1 先验分布与后验分布
1.2 Bayes 公式
在 Bayes 统计中, 样本服从的分布的 参数也是一个随机变量, 例如
X∼N(μ,1),μ∼StdN
所以要同时考虑随机变量和随机变量参数的分布. Bayes 统计涉及到五个随机变量/函数, 定义 它们的记号如下:
| 参数先验 | 参数后验 | 样本参数联合 | 似然 (样本分布) | 样本边缘分布 |
---|
随机变量 | θ | θ∣x | - | X∣θ | X |
概率密度 | π(θ) | π(θ∣x) | h(x,θ) | p(x∣θ) | m(x) |
数学期望 | Eθ | Eθ∣x | - | EX∣θ | EX |
联合密度 样本参数联合密度定义为
h(x,θ)=p(x∣θ)π(θ)
样本密度 样本密度 (样本边缘分布) 定义为
m(x)=∫Θp(x∣θ)π(θ)dθ
Bayes 公式 参数后验密度由先验密度和样本分布、样本边缘分布引出
π(θ∣x)=m(x)p(x∣θ)⋅π(θ)=m(x)h(x,θ)=∫Θp(x∣θ)π(θ)dθp(x∣θ)π(θ)
1.3 共轭先验分布
共轭分布的目标: 对于给定样本分布, 寻找一个分布族, 使得先验和后验均服从该分布族.
1.3.1 正态分布的均值
正态均值的共轭先验分布是正态分布
X∼N(θ,σ2),θ∼N(μ,τ2)⟹θ∣x∼N(θ1,τ12)
定义方差的倒数 σ−2 为精度. 其中
μ1=σ0−2+τ−2σ0−2⋅θ^+σ0−2+τ−2τ−2⋅μ,τ1−2=σ0−2+τ−2
θ^=xˉ=n∑xi,σ0=nσ2
证明
p(x∣θ)∝exp−2σ2∑(xi−θ)2,π(θ)∝exp−2τ2(θ−μ)2
π(θ∣x)∝p(x∣θ)π(θ)=exp−2/A(θ−B/A)2
A=σ0−2+τ−2,B=xˉσ0−2+μτ−2
1.3.2 二项分布的成功率
二项分布成功率的共轭先验分布是 Beta 分布
X∼b(n,θ),θ∼B(α,β)⟹θ∣x∼B(α+x,β+n−x)
证明
p(x∣θ)∝θx(1−θ)n−x,π(θ)∝θα−1(1−θ)β−1
π(θ∣x)∝p(x∣θ)π(θ)=θα+x−1(1−θ)β+n−x−1
均值和方差
Eθ∣x=α+β+nn⋅nx+α+β+nα+β⋅α+βα=γθ^+(1−γ)Eθ
Dθ∣x=α+β+n+1Eθ∣x(1−Eθ∣x)
1.3.3 正态分布的方差
定义倒 Gamma 分布
σ2∼IΓ(α,λ)⟺p(σ2)=Γ(α)λα⋅(σ21)α+1exp−σ2λ
正态均值的共轭先验分布是倒 Gamma 分布
X∼N(μ,σ2),σ2∼IΓ(α,λ)⟹θ∣x∼IΓ(α+2n,λ+2∑(xi−μ)2)
证明
p(x∣σ2)∝(σ21)2nexp−2σ2∑(xi−μ)2,π(σ2)∝(σ21)α+1exp−σ2λ
π(θ∣x)∝p(x∣θ)π(θ)
1.5 多参数模型
1.5.1 正态分布均值和方差的联合分布
定义正态—倒 Gamma 分布
(μ,σ2)∼NIΓ(ν,κ,μ0,σ02)⟺p(μ,σ2)=α⋅σ01⋅(σ021)2ν+1exp−2σ2νσ02+κ(μ−μ0)2
其中正则化系数 α:=Γ(ν/2)(νσ02/2)ν/22πκ, ν 是自由度, κ 是样本量. 正态均值方差的共轭先验分布是正态—倒 Gamma 分布
X∼N(μ,σ2),(μ,σ2)∼NIΓ(ν0,κ0,μ0,σ02),⟹(μ,σ2)∣x∼NIΓ(νn,κn,μn,σn2)
其中
νn=ν0+n,κn=κ0+n,μn=κ0+nn⋅xˉ+κ0+nκ0⋅μ0
σn2:νnσn2=ν0σ02+(n−1)s2+n+κ0nκ0(μ0−xˉ)2
1.5.2 多元正态分布
多元正态分布均值的共轭先验分布是多元正态分布
X∼N(μ,Σ),μ∼N(μ0,Λ0)⟹μ∣x∼N(μn,Λn)
其中
μn=(Λ0−1+nΣ−1)−1(Λ0−1μ0+nΣ−1xˉ),Λn−1=Λ0−1+nΣ−1
1.6 充分统计量
若后验分布 π(θ∣x) 可以写成 π(θ∣T(x)) 的 形式, 则称 T=T(x) 是 θ 的充分统计量.
1.A 附录: Γ 函数, B 函数, 二项式系数 (kn)
1.A.1 Γ 函数
定义
Γ(x):=∫R+tx−1e−tdt
性质
Γ(x+1)=xΓ(x)=x!
Γ(1)=Γ(2)=1,Γ(1/2)=π
1.A.2 B 函数
定义
B(α,β):=∫01xα−1(1−x)β−1dx
性质
B(α,β)=Γ(α+β)Γ(α)Γ(β)
1.A.3 二项式系数 (kn)
二项式系数 (kn) 的性质
(kn)=(n+1)B(k+1,n−k+1)1
1.B Γ 分布, B 分布
1.B.1 Γ 分布
定义
X∼Γ(α,λ)⟺p(x)=Γ(α)λαxα−1e−λx,x≥0
其中 α 为形状参数, λ 为尺度参数.
数字特征
EX=λα,DX=λ2α
性质
Γ(a,λ)+Γ(b,λ)=Γ(a+b,λ)
kΓ(α,λ)=Γ(α,λ/k)
1.B.2 B 分布
定义
X∼B(α,β)⟺p(x)=B(α,β)1xα−1(1−x)β−1,x∈[0,1]
数字特征
EX=α+βα,DX=(α+β)2(α+β+1)αβ
2 Bayes 推断
2.2 点估计
已知后验分布 π(θ∣x) 时, 可对参数直接进行点估计
符号 | 估计方法 |
---|
θ^MD | π(θ∣x) 的众数, 也称最大后验 |
θ^MED | π(θ∣x) 的中位数 |
θ^E | π(θ∣x) 的均值 (即 Eθ∣x) |
定义后验均方误差
MSE(θ^∣x):=E(θ∣x−θ^)2=Dθ∣x+(Eθ∣x−θ^)2
可以推出
argminMSE=θ^E
2.3 区间估计
Bayes 可信区间 若存在统计量 θ^U=θ^U(x) 和 θ^L=θ^L(x) 使得
Pr(θ^L≤θ≤θ^U∣x)≥1−α
则称 [θ^L,θ^U] 是 θ 可信水平为 1−α 的 Bayes 可信区间
最大后验密度 (HPD) 可信区间 密度函数中函数值最高 (超过一个临界值) 的点的集合 C, 即
Pr(θ∈C∣x)≥1−α,π(c∣x)≥π(cˉ∣x),∀c∈C,cˉ∈Cˉ
2.4 假设检验
建立假设
H0:θ∈Θ0v.sH1:θ∈Θ1
2.4.1 后验概率比
假设的后验概率 定义假设的后验概率 αi=Pr(θ∈Θi∣x).
后验机会比 定义后验机会比 α0/α1.
决策准则 后验机会比显著大于 1 时相信 H0, 显著小于 1 时相信 H1, 大致等于 1 时不能做判断
2.4.2 Bayes 因子
假设的先验概率 定义假设的先验概率 πi=Pr(θ∈Θi).
Bayes 因子 定义 Bayes 因子是后验机会比和先验机会比的比率
B=π0/π1α0/α1
Bayes 因子削弱了先验信息的影响, 着重于表现数据 x 支持 H0 的程度.
以下提出 Bayes 因子的等价表示方法. 定义假设下的样本边缘分布: Θi={θi} 时
mi(x)=p(x∣θi)
Θi 是一个集合时
mi(x)=πi1∫Θip(x∣θ)π(θ)dθ
此时 Bayes 因子可以表示为
B=m1(x)m0(x)
2.5 预测
定义后验预测分布
p(x∣x)=∫Θp(x∣θ)π(θ∣x)dθ
也可以对同参数的其它随机变量做预测
p(z∣x)=∫Θp(z∣θ)π(θ∣x)dθ
3 先验分布的确定
3.2 利用先验信息确定先验分布
直方图法 根据历史数据绘制直方图, 确定先验分布.
选定先验分布族再确定超参数 选定某一分布族作为先验分布, 再根据历史数据估计超参数.
变分度法 将超参数划分为两个等可能的小区间, 并询问专家等分值点在哪里. 依次迭代该过程直到区间分割足够细.
3.3 利用样本边缘分布 m(x)
超参数的 II-型极大似然估计 先确定参数的分布族 (带有超参数 λ), 然后定义 II-型似然函数
L(λ)=∏m(xi,λ),λ^=argmaxL(λ)
求 II-型似然函数最大值对应的参数 λ^, 将其作为超参数的估计.
超参数的矩估计 若先验密度 π(θ,λ) 已知, 可以求超参数的矩估计. 步骤如下:
- 计算给定参数下样本 Xθ 的期望 EX∣θ 和方差 DX∣θ. 注意: 由于 θ 是随机变量, 所以 μ=EX∣θ 和 σ2=DX∣θ 也是随机变量, 它与超参数 λ 有关.
- 计算样本边缘分布 X 的期望 EX 和方差 DX, 它们是 λ 的函数.
EX=Eμ,DX=Eσ2+E(μ−Eμ)2
- 解以下方程以获得 λ^:
EX(λ^)=xˉ,DX(λ^)=s2
例 设 X∼Exp(θ), θ∼Γ(α,λ), 求超参数的矩估计.
- 给定 θ 时, X 服从指数分布, 所以
μ=EX∣θ=θ1,σ2=DX∣θ=θ21
- 计算 X 的期望和方差.
Eμ=Eθ1=Γ(α)λα∫0+∞θ1⋅θα−1e−λθ=α−1λ
以及
Eσ2=(α−1)(α−2)λ2,E(μ−α−1λ)=(α−1)(α−2)λ2−(α−1)2λ2
所以
EX=α−1λ,DX=α−2α(α−1λ)2
解关于 (α,λ) 的方程 EX=x^, DX=s2 可得
α^=s2−xˉ22s2,λ^=(α^−1)xˉ
3.4 无信息先验分布
3.4.1 Bayes 假设
Bayes 假设 (Laplace 先验) 先验参数在参数空间 Θ 的取值是均匀的, 即
π(θ)∝1θ∈Θ
当 Θ 是无穷区间时, Bayes 假设失效. 对此, 定义广义先验分布:
广义先验分布 若先验密度 π(θ) 满足
- 先验密度的累积 ∫Θπ(θ)dθ=∞.
- 但由此决定的后验分布 θ∣x 是正常 (概率和为 1) 的分布.
此时称该先验分布式广义先验分布.
位置参数的无信息先验 若密度函数 p(x∣θ) 仅与 x−θ 相关, 则其无信息先验可以取 Bayes 假设.
尺度参数的无信息先验 若密度函数 p(x∣θ) 仅与 x/θ 相关, 则其无信息先验可以取
π(θ)=θ1,θ>0
3.4.4 Jeffreys 先验
Cramer-Rao 正则分布族 设样本密度 p(x∣θ), θ=(θ1,⋯,θm)T∈Θ⊆Rm, 若
- Θ 是 Rm 上的开矩形.
- 分布的支撑 A:={x:p(x∣θ)>0} 与 θ 无关.
- Score 向量 s=∇ℓ (即对数似然函数对参数的梯度) 存在.
- 对 p(x∣θ) 的微分和积分可交换.
- 矩阵 J=E(ssT) 的元素均 <∞.
则称该分布族是 Cramer-Rao 正则分布族 (C-R 正则族).
Fisher 信息量矩阵 矩阵 J=E(ssT)=−E∇∇Tℓ 称为该分 布的 Fisher 信息量矩阵
大部分常用分布族都是 C-R 正则族, 但是也有例外: 例如从 0 开始的均匀分布族 {U(0,θ):θ>0} 的支撑 A={x:0<x<θ} 不满足条件 2, 所以不是 C-R 正则族, 也不存在正常的 Fisher 信息量矩阵.
例 同时考虑均值和标准差 θ=(μ,σ)T 的正态分布族 {N(μ,σ2):θ∈R×R+} 是 C-R 正则族, 它的对数似然函数为
ℓ=−21ln2π−lnσ−2σ2(x−μ)2
它的 Fisher 信息量矩阵为
I=(1/σ2002/σ2)
Jeffreys 先验 取参数的先验分布 π(θ)=detJ. 该先验分布使得 θ 的无信息先验在变换 η=η(θ) 下不变, 即
π(θ)=η(θ)dθdη
例 同时考虑均值和标准差 θ=(μ,σ)T, 从正态分布抽出 n 个样本 x=(x1,⋯,xn)T, 其 Jeffreys 先验为
π(μ,σ)=detJ=n/σ2002n/σ2=σ42n2∝σ21
但是.
- 当仅视 μ 为未知参数而 σ 已知时, 其 Jeffreys 先验为 π(μ)=1.
- 当仅视 σ 为未知参数而 μ 已知时, 其 Jeffreys 先验为 π(σ)=1/σ.
- 当 μ,σ 独立时, π(μ,σ)=1/σ.
这表明 Jeffreys 先验的无信息分布不一定是独立的. 在 (μ,σ) 的联合无信息先验分布的两种形式 1/σ 和 1/σ2 中, 多数人采用了前者形式.
例 考虑二项分布 b(n,θ) 关于成功概率 θ 的 Jeffreys 先验. 即
Pr(X=x)=(xn)θx(1−θ)n−x
其对数似然函数为
ℓ=xlnθ+(n−x)ln(1−θ)+ln(xn)
其 Fisher 信息量和 Jeffreys 先验为
J=θ(1−θ)n,π(θ)∝θ(1−θ)1
对于成功概率 θ 的无信息先验分布, 不少统计学家从各种角度探讨, 主要导出了以下四种先验分布:
π1(θ)=1,π2(θ)=θ(1−θ)1,π3(θ)∝θ(1−θ)1,π4(θ)∝θθ(1−θ)1−θ
其中 π2(θ) 是广义先验密度. 这四种无信息先验都是合理的, 它们各自从一个侧面提出自己的合理要求, 然后导出对应的无信息先验. 这四个先验虽不同, 但对 Bayes 统计推断结果的影响是有限的, 故都可以使用.
除去 Jeffrey 先验外, 常用的先验分布还有 Reference 先验和概率匹配先验. 该二先验方法由于过程略复杂, 此处从略.
3.5 多层先验和多层 Bayes 模型
3.5.1 多层先验
例 某批次产品不合格量 X 服从 b(n,θ) 分布, 其中 θ 是参数, 意为不合格率. 决策者认为该不合格率有一个上限, 所以定义 θ 的先验分布为 θ∼U(0,λ), 其中 λ 是超参数, 意为不合格率上限, 它应是一个定值. 但是现由于不合格率上限的取值不好确定, 故决策者将其也设置为了一个随机变量 λ∼U(0.1,0.5). 于是本问题生成了一个三层结构:
X∼b(n,θ),θ∼U(0,λ),λ∼U(0.1,0.5)
记给定超参数时 θ 的先验为 π1(θ∣λ)=10<θ<λ/λ, λ 的超先验为 π2(λ)=10.1<λ<0.5/0.4. 此时 θ 的先验为
π1(θ)=∫Λπ1(θ∣λ)π2(λ)dλ
其中 Λ 是 λ 的参数空间. 在本例中
π1(θ)=0.41∫0.10.5λ10<θ<λdλ={2.5ln5,2.5(ln0.5−lnθ),0<θ<0.1,0.1≤θ<0.5
3.5.2 多层 Bayes 模型
上例中的多层 Bayes 模型如下:
随机变量 | 抽样数据 |
---|
总体分布 x∣θ∼p(x∣θ) | 样本 x∈X |
第一层先验 θ∣λ∼π1(θ∣λ) | 参数 θ∈Θ |
第二层先验 λ∼π2(λ) | 超参数 λ∈Λ |
例 实验室条件下, 一批 n 只老鼠病变的个数 x 服从 b(n,θ), 病变概率 θ 选用 Beta 分布 B(α,β), 其中 α,β 是随机变量. 在传统的单层 Bayes 模型中, 由 α,β 生成了一个 θ, 然后由 θ 生成 x; 而在多层 Bayes 模型中, 由 α,β 生成了若干个 θi, 每一个 θi 生成自己的样本 xi, 即
xi∼b(ni,θi),θi∼B(α,β),α,β)∼π2(α,β)
现尝试给出一组无信息超先验 π2(α,β), 使得其后验 π2(α,β∣x) 是正常的. 现在计算
π2(α,β∣x)=π1(θ∣α,β,x)π(θ,α,β∣x)
其中
π(θ,α,β∣x)∝p(x∣θ)π1(θ∣α,β)π2(α,β)=i∏θixi(1−θi)ni−xi⋅i∏B(α,β)θiα−1(1−θi)β−1⋅π2(α,β)
和
π1(θ∣α,β,x)=i∏π1(θi∣α,β,xi)=i∏B(α+xi,β+ni−xi)θiα+xi−1(1−θi)β+ni−xi−1
所以
π2(α,β∣x)∝π2(α,β)⋅i∏B(α,β)B(α+xi,β+ni−xi)
以上求出了超参数后验分布的密度. 通过数值方法, 可以搜索出满足要求的超参数 α,β. 至于参数 θi 的点估计与区间估计, 受问题的复杂度所限, 只能通过随机模拟方法求其数值解.
本系列的参考文献
[1] 茆诗松, 汤银才. 贝叶斯统计[M]. 第二版. 北京: 中国统计出版社, 2012: 1-120.