O21-5-2.《贝叶斯统计》笔记(第二部分:Bayes 决策)
4 决策中的收益、损失与效用
4.1 决策问题的三要素
决策问题有三个基本要素:
-
状态集 Θ={θ}, 每个元素表示自然界(或社会)可能出现的一种状态. 状态集可以是离散的也可以是连续的.
-
行动集 A={a}, 每个元素表示人对自然界(或社会)可能采取的一个行动.
-
收益函数 Q:Θ×A→R, 表示自然界(或社会)处于状态 θ 而人们选取行动 a 时所得到(经济上)的收益大小.
当 Θ={θ1,…,θn} 和 A={a1,…,an} 元素数量都有限时, 收益函数可以排成一个矩阵
Q=(Qij)n×m=(Q(θi,aj))n×m
4.2 决策准则
4.2.1 行动的容许性
行动的容许性 如果一个行动 a∗ 总比另一个行动 a0 收益高, 即
∀θ∈Θ,Q(θ,a∗)≥Q(θ,a0),∃θ0∈Θ,Q(θ0,a∗)>Q(θ0,a0)
则称 a0 是非容许的.
行动的等价性 如果两个行动 a1,a2 收益总相等, 即
∀θ∈Θ,Q(θ,a1)=Q(θ,a2)
则称 a1,a2 是等价的.
4.2.2 决策准则
悲观(差中求好)准则 先计算每一个行动 a 的最坏条件收益, 然后选取最大值. 即
a∗=a∈Aargmaxθ∈ΘminQ(θ,a)
它能保证最坏条件下的收益下限.
乐观(好中求好)准则 先计算每一个行动 a 的最好条件收益, 然后选取最大值. 即
a∗=a∈Aargmaxθ∈ΘmaxQ(θ,a)
它在设想最有利条件下, 尽量争取最多的收益.
Hurwisz 折中准则 以一个乐观系数 α∈[0,1] 平衡乐观准则与悲观准则. 即
a∗=a∈Aargmax(αθ∈ΘmaxQ(θ,a)+(1−α)θ∈ΘminQ(θ,a))
4.3 先验期望准则
先验收益 若状态集 Θ 是一个随机变量, 有一个先验分布 π(θ), 则先验收益 Q(θ,a) 也是一个随机变量. 可以定义先验收益的期望和方差
EQ∣θ,DQ∣θ=EQ2∣θ−(EQ∣θ)2
它们都是关于 a 的函数, 即 (EQ∣θ)(a) 和 (DQ∣θ)(a).
先验期望准则 使先验收益期望达到最大的行动称为先验期望准则下的最优行动, 即
a∗=aargmaxEQ∣θ
如果有多个最优行动, 则先验方差最小的行动称为二阶矩准则下的最优行动. 先验期望准则有如下性质:
-
收益函数 Q(θ,a) 的单调递增线性变换 Q′(θ,a)=a+bQ(θ,a),a>0 不改变最优行动.
-
某些状态 Θ1 下所有行动的收益同时增加常数 c, 不改变最优行动.
4.4 损失函数
考虑某一个状态 θ 下, 人们“该赚而没有赚到的钱”. 在该状态下采取最优行动本应赚 maxa∈AQ(θ,a), 但是由于采取错误决策 a0, 使得只赚到 Q(θ,a0). 这一差值
L(θ,a0):=a∈AmaxQ(θ,a)−Q(θ,a0)
称为损失函数. 在损失函数下, 可以推导出类似的悲观准则和先验期望准则, 但是此处要使损失最小化.
4.5 常用损失函数
例如我们正在对某商品明天的市场价格做出决策. 这类典型的问题经常有 Θ=A, 损失一般要与 ∣a−θ∣ 正相关. 这类损失函数经常有形式
L(θ,a)=λ(θ)g(∣a−θ∣)
其中 λ(θ) 是一个系数函数, g(⋅) 应是一个非降函数. 常用的损失函数有:
- 平方损失 L(θ,a)=(a−θ)2.
- 绝对值损失 L(θ,a)=∣a−θ∣.
- 0-1 损失 L(θ,a)=1∣a−θ∣>ε.
4.6 效用函数
效用函数 钱在人们心目中的价值称为效用. 效用是关于收益的函数 U(m):R→R. 直觉上, 金额越高, 同等金额增量造成的效用增加就越少, 这说明效用函数常是递增且上凸的. 使用类似方法可以定义先验期望准则等.
效用的测定 可以使用等效行动法测定效用.
例 某决策者遇到一个决策问题, 他可能获得的收益在 0 至 1500 之间. 我们设 U(0)=0,U(1500)=1. 为了测定 m=500 的效用值, 设计如下两个行动:
- a1: 以概率 α 获得 0 元, 以概率 1−α 获得 1500 元.
- a2: 肯定获得 500 元.
然后向决策者提问: α 取何值时, 两个行动是等价的? 例如决策者回答是 0.3, 则列出方程
U(500)=0.3U(0)+0.7U(1500)
然后马上得到 U(500)=0.7. 测定多个(一般是 6 至 10 个)效用值, 以描绘效用曲线.
效用尺度 效用的增线性变换 U′(m)=a+bU(m),b>0 不改变决策的最后结果.
常用的效用曲线
- 直线型效用曲线.
- 上凸型效用曲线, 此时决策者偏好低风险的行动, 故也称为保守型效用曲线.
- 下凸型效用曲线, 此时决策者敢于冒风险争取高收益, 故也称为冒险型效用曲线.
- 混合型效用曲线, 一般是先下凸后上凸的, 也称为拐点型效用曲线. 有些决策者在他承受范围内还是敢冒险的, 但是超过了他的承受能力, 就变为保守型了.
从效用到损失 效用函数是收益的函数, 即 U(θ,a)=U(Q(θ,a)). 可以类似的定义损失函数是“应该获得但是没有获得的效用”, 即
L(θ,a0)=a∈AmaxU(θ,a)−U(θ,a0)
5 Bayes 决策
5.1 Bayes 决策问题
一个 Bayes 决策问题包含以下要素:
- 一个依赖于状态的可观察的随机变量 X∼p(x∣θ), 对其观察可以获得样本 x=(xi)i=1n.
- 参数空间上有一个先验分布 π(θ).
- 有一个行动集 A={a}.
- 在 Θ×A 上定义了一个损失函数 L(θ,a).
5.2 后验风险准则
给定样本 x=(xi)i=1n, 计算 θ 的后验密度函数
π(θ∣x)=∫Θp(x∣θ)π(θ)dθp(x∣θ)π(θ)
后验分布综合了总体信息、样本信息和先验信息, 以后要对 θ 做决策就要从后验分布中提取.
行动的后验风险 后验风险 R(a∣x) 定义为损失函数 L(θ,a) 对后验分布 π(θ,x) 的期望
R(a∣x):=Eθ(L(θ,a)∣x)=θ∑L(θ,a)π(θ∣x)=∫θL(θ,a)π(θ∣x)dθ
决策函数 在给定 Bayes 决策问题中, 从样本空间 Xn 到行动集 A 上的一个映射 δ(x) 称为一个决策函数. 所有这样的函数构成决策函数类 D={δ(x)}.
决策函数的后验风险 给定一个决策函数 δ(x), 其后验风险也定义为损失的后验期望
R(δ∣x):=Eθ(L(θ,δ(x))∣x)
Bayes 解 后验风险最小的决策函数称为该 Bayes 决策问题的 Bayes 解. 当参数空间与行动集同为某个实数集 Θ=A∈R 时,