概率论拾遗:EM 算法及其收敛性
1 EM 算法
假设包含待估参数 θ 的模型包含可观测变量 X, X 的生成方式包含隐变量 Z. 为了求 X 的极大似然估计, 考虑以下最优化问题
θ^=θargmaxℓ(θ∣x)=θargmax(ℓ(θ∣x,z)−lnPr(z∣x,θ))
最后一个等号使用了条件概率的定义. 在包含隐变量的情况下, 使用 EM 算法
- E 步: 给定初值 θ^(0), 计算隐变量的条件分布并求其期望 z^(0)=E(z∣x,θ(0)).
- M 步: 给定 z^(0), 计算 θ 的极大似然估计 θ(1)←argmaxθℓ(θ∣x,z^(0)).
进一步, 若不是求隐变量 Z 的期望而求对数似然函数的期望, 则
- E 步: 给定初值 θ^(0), 计算隐变量的条件分布 Z∣x,θ(0). 然后直接计算对数似然函数的条件期望
Q(θ∣θ(t))=Ez∣x,θ(t)ℓ(θ∣x,z)=∫−∞∞ℓ(θ∣x,z)⋅Pr(z∣x,θ(t))dz
- M 步: 最大化这个期望 θ(t+1)←argmaxθQ(θ∣θ(t)).
2 收敛性证明
根据 Bayes 公式有
ℓ(θ∣x)=ℓ(θ∣x,z)−lnPr(z∣x,θ)
考虑等式两边对 Z 的后验期望. 左侧与 Z 无关, 所以
∫−∞∞LHS⋅Pr(z∣x,θ(t))dz=LHS
右侧
∫−∞∞RHS⋅Pr(z∣x,θ(t))dz=∫−∞∞lnPr(x,z∣θ)⋅Pr(z∣x,θ(t))dz−∫−∞∞lnPr(z∣x,θ)⋅Pr(z∣x,θ(t))dz=:Q(θ∣θ(t))−H(θ∣θ(t))
参考文献