跳到主要内容

O21-5-2.《贝叶斯统计》笔记(第二部分:Bayes 决策)

4 决策中的收益、损失与效用

4.1 决策问题的三要素

  决策问题有三个基本要素:

  1. 状态集 Θ={θ}\Theta = \{\theta\}, 每个元素表示自然界(或社会)可能出现的一种状态. 状态集可以是离散的也可以是连续的.

  2. 行动集 A={a}\mathcal A = \{a\}, 每个元素表示人对自然界(或社会)可能采取的一个行动.

  3. 收益函数 Q:Θ×ARQ : \Theta \times \mathcal A \to \mathbb R, 表示自然界(或社会)处于状态 θ\theta 而人们选取行动 aa 时所得到(经济上)的收益大小.

Θ={θ1,,θn}\Theta = \{\theta _1, \dots, \theta _n\}A={a1,,an}\mathcal A = \{a_1, \dots, a_n\} 元素数量都有限时, 收益函数可以排成一个矩阵

Q=(Qij)n×m=(Q(θi,aj))n×mQ = (Q_{ij})_{n \times m} = \Big(Q(\theta _i, a_j)\Big)_{n \times m}

4.2 决策准则

4.2.1 行动的容许性

行动的容许性 如果一个行动 aa^* 总比另一个行动 a0a_0 收益高, 即

θΘ,Q(θ,a)Q(θ,a0),θ0Θ,Q(θ0,a)>Q(θ0,a0)\forall \theta \in \Theta, Q(\theta, a^*) \geq Q(\theta, a_0), \qquad \exists \theta _0 \in \Theta, Q(\theta _0, a^*) > Q(\theta _0, a_0)

则称 a0a_0 是非容许的.

行动的等价性 如果两个行动 a1,a2a_1, a_2 收益总相等, 即

θΘ,Q(θ,a1)=Q(θ,a2)\forall \theta \in \Theta, Q(\theta, a_1) = Q(\theta, a_2)

则称 a1,a2a_1, a_2 是等价的.

4.2.2 决策准则

悲观(差中求好)准则 先计算每一个行动 aa 的最坏条件收益, 然后选取最大值. 即

a=arg maxaAminθΘQ(θ,a)a^* = \argmax _{a \in \mathcal A} \min _{\theta \in \Theta} Q(\theta, a)

它能保证最坏条件下的收益下限.

乐观(好中求好)准则 先计算每一个行动 aa 的最好条件收益, 然后选取最大值. 即

a=arg maxaAmaxθΘQ(θ,a)a^* = \argmax _{a \in \mathcal A} \max _{\theta \in \Theta} Q(\theta, a)

它在设想最有利条件下, 尽量争取最多的收益.

Hurwisz 折中准则 以一个乐观系数 α[0,1]\alpha \in [0, 1] 平衡乐观准则与悲观准则. 即

a=arg maxaA(αmaxθΘQ(θ,a)+(1α)minθΘQ(θ,a))a^* = \argmax _{a \in \mathcal A} \Big( \alpha \max _{\theta \in \Theta} Q(\theta, a) + (1 - \alpha) \min _{\theta \in \Theta} Q(\theta, a) \Big)

4.3 先验期望准则

先验收益 若状态集 Θ\Theta 是一个随机变量, 有一个先验分布 π(θ)\pi (\theta), 则先验收益 Q(θ,a)Q(\theta, a) 也是一个随机变量. 可以定义先验收益的期望和方差

EQθ,DQθ=EQ2θ(EQθ)2EQ|_{\theta}, \qquad DQ|_{\theta} = EQ^2|_{\theta} - (EQ|_{\theta})^2

它们都是关于 aa 的函数, 即 (EQθ)(a)(EQ|_{\theta})(a)(DQθ)(a)(DQ|_{\theta})(a).

先验期望准则 使先验收益期望达到最大的行动称为先验期望准则下的最优行动, 即

a=arg maxaEQθa^* = \argmax _a EQ|_{\theta}

如果有多个最优行动, 则先验方差最小的行动称为二阶矩准则下的最优行动. 先验期望准则有如下性质:

  • 收益函数 Q(θ,a)Q(\theta, a) 的单调递增线性变换 Q(θ,a)=a+bQ(θ,a),a>0Q'(\theta, a) = a + bQ(\theta, a), a > 0 不改变最优行动.

  • 某些状态 Θ1\Theta _1 下所有行动的收益同时增加常数 cc, 不改变最优行动.

4.4 损失函数

  考虑某一个状态 θ\theta 下, 人们“该赚而没有赚到的钱”. 在该状态下采取最优行动本应赚 maxaAQ(θ,a)\max _{a \in \mathcal A} Q(\theta, a), 但是由于采取错误决策 a0a_0, 使得只赚到 Q(θ,a0)Q(\theta, a_0). 这一差值

L(θ,a0):=maxaAQ(θ,a)Q(θ,a0)L(\theta, a_0) := \max _{a \in \mathcal A} Q(\theta, a) - Q(\theta, a_0)

称为损失函数. 在损失函数下, 可以推导出类似的悲观准则和先验期望准则, 但是此处要使损失最小化.

4.5 常用损失函数

  例如我们正在对某商品明天的市场价格做出决策. 这类典型的问题经常有 Θ=A\Theta = \mathcal A, 损失一般要与 aθ|a - \theta| 正相关. 这类损失函数经常有形式

L(θ,a)=λ(θ)g(aθ)L(\theta, a) = \lambda(\theta) g(|a - \theta|)

其中 λ(θ)\lambda(\theta) 是一个系数函数, g()g(\cdot) 应是一个非降函数. 常用的损失函数有:

  • 平方损失 L(θ,a)=(aθ)2L(\theta, a) = (a - \theta) ^2.
  • 绝对值损失 L(θ,a)=aθL(\theta, a) = |a - \theta|.
  • 0-1 损失 L(θ,a)=1aθ>εL(\theta, a) = \mathit 1_{|a - \theta| > \varepsilon}.

4.6 效用函数

效用函数 钱在人们心目中的价值称为效用. 效用是关于收益的函数 U(m):RRU(m) : \mathbb R \to \mathbb R. 直觉上, 金额越高, 同等金额增量造成的效用增加就越少, 这说明效用函数常是递增且上凸的. 使用类似方法可以定义先验期望准则等.

效用的测定 可以使用等效行动法测定效用.

 某决策者遇到一个决策问题, 他可能获得的收益在 0015001500 之间. 我们设 U(0)=0,U(1500)=1U(0) = 0, U(1500) = 1. 为了测定 m=500m = 500 的效用值, 设计如下两个行动:

  • a1a_1: 以概率 α\alpha 获得 00 元, 以概率 1α1 - \alpha 获得 15001500 元.
  • a2a_2: 肯定获得 500500 元. 然后向决策者提问: α\alpha 取何值时, 两个行动是等价的? 例如决策者回答是 0.30.3, 则列出方程
U(500)=0.3U(0)+0.7U(1500)U(500) = 0.3U(0) + 0.7U(1500)

然后马上得到 U(500)=0.7U(500) = 0.7. 测定多个(一般是 661010 个)效用值, 以描绘效用曲线.

效用尺度 效用的增线性变换 U(m)=a+bU(m),b>0U'(m) = a + bU(m), b > 0 不改变决策的最后结果.

常用的效用曲线

  • 直线型效用曲线.
  • 上凸型效用曲线, 此时决策者偏好低风险的行动, 故也称为保守型效用曲线.
  • 下凸型效用曲线, 此时决策者敢于冒风险争取高收益, 故也称为冒险型效用曲线.
  • 混合型效用曲线, 一般是先下凸后上凸的, 也称为拐点型效用曲线. 有些决策者在他承受范围内还是敢冒险的, 但是超过了他的承受能力, 就变为保守型了.

从效用到损失 效用函数是收益的函数, 即 U(θ,a)=U(Q(θ,a))U(\theta, a) = U(Q(\theta, a)). 可以类似的定义损失函数是“应该获得但是没有获得的效用”, 即

L(θ,a0)=maxaAU(θ,a)U(θ,a0)L(\theta, a_0) = \max _{a \in \mathcal A} U(\theta, a) - U(\theta, a_0)

5 Bayes 决策