《机器学习》笔记(第三部分:Bayes 分类器、集成学习)
7 Bayes 分类器
7.1 Bayes 决策论
假设标签集合 Y={ci}i=1N. 设 λij 是将真实标签 cj 误分类为 ci 的损失 (风险). 假设样本 x 真是类别为 cj 的后验概率为 P(cj∣x), 则定义将 x 分类为 ci 的期望损失 (条件风险) 为
R(ci,x)=j∑λijP(cj∣x)
特殊地, 在 0-1 损失 λij=1−δij 下,
R(ci,x)=1−P(ci∣x)
Bayes 决策的目标是寻找一个判定准则 h:X→Y 来最小化总风险
minR(h)=ExR(h(x),x)
Bayes 最优分类器 假设有一个最好的分类器, 它对于样本 x 总能选择最优类别. 即
h∗(x)=iargminR(ci,x)
此时的 Bayes 风险是 R(h∗), 它是 Bayes 决策所能达到的理论风险下限.
Bayes 决策的目标是获得后验概率 P(c∣x). 有两种策略:
- 判别式模型: 直接对 P(c∣x) 建模, 例如决策树、BP 神经网络、支持向量机等;
- 生成式模型: 对联合分布 P(x,c) 建模, 然后获得 P(c∣x).
对于生成式模型使用 Bayes 公式
P(c∣x)=P(x)P(x,c)=P(x)P(c)P(x∣c)
其中 P(c) 是先验概率, 可通过各类样本出现频率估计. P(c∣x) 是后验概率. P(x∣c) 是样本 x 对于类别 c 的条件似然. P(x) 是用于归一化的证据因子.
极大似然估计 假设条件似然 P(x∣c) 的分布族已知, 仅剩一个待估参数 θc. 对于训练集 D 中第 c 类样本组成的集合 (记为 Dc), 似然函数的最大值即为参数的极大似然估计.
θc∗=θcargmaxLc=θcargmaxx∈Dc∏P(x∣θc)
但是条件似然 P(x1,…,xd∣θc) 是难以估计的: 它一共有 ∏i∣X(i)∣ 中取值的概率需要估计.
7.3 朴素 Bayes 分类器
朴素 Bayes 分类器有一个很强的假设: 在给定类别 c 下, 样本 x 的各维度属性是相互独立的. 该假设大大降低了估计难度: 在该假设下只有 ∑i∣Xi∣ 个取值概率要估计了. 朴素 Bayes 分类器为
hnb(x)=c∈YargmaxP(c)i∏P(xi∣c)
其中取 P(c)=∣Dc∣/∣D∣. 令 Dc,xi 为标签为 c 且属性 i 取值为 xi 的样本集合, 对离散属性, 取 P(xi∗∣c)=∣Dc,xi∣/∣Dc∣; 对连续属性, 取 P(xi∗∣c) 为正态密度, 均值和方差分别是 Dc,xi 的样本均值和样本方差.
Laplace 修正 若预测样本的属性 i 在类别 c 的测试样本中未出现 (即 ∣Dc,xi∣=0) 的情况下, 朴素 Bayes 分类器会直接认为其属于类别 c 的概率为 0. 为避免该情况, 可以作 Laplace 修正
P(c)=∣D∣+N∣Dc∣+1,P(xi∣c)=∣Dc∣+Ni∣Dc,xi∣+1
其中