O21-5-2.《贝叶斯统计》笔记（第二部分：Bayes 决策）

4 决策中的收益、损失与效用

4.1 决策问题的三要素

决策问题有三个基本要素:

状态集 $\Theta = \{\theta\}$ , 每个元素表示自然界(或社会)可能出现的一种状态. 状态集可以是离散的也可以是连续的.
行动集 $\mathcal A = \{a\}$ , 每个元素表示人对自然界(或社会)可能采取的一个行动.
收益函数 $Q : \Theta \times \mathcal A \to \mathbb R$ , 表示自然界(或社会)处于状态 $\theta$ 而人们选取行动 $a$ 时所得到(经济上)的收益大小.

当 $\Theta = \{\theta _1, \dots, \theta _n\}$ 和 $\mathcal A = \{a_1, \dots, a_n\}$ 元素数量都有限时, 收益函数可以排成一个矩阵

Q = (Q_{ij})_{n \times m} = \Big(Q(\theta _i, a_j)\Big)_{n \times m}

4.2 决策准则

4.2.1 行动的容许性

行动的容许性 如果一个行动 $a^*$ 总比另一个行动 $a_0$ 收益高, 即

\forall \theta \in \Theta, Q(\theta, a^*) \geq Q(\theta, a_0), \qquad \exists \theta _0 \in \Theta, Q(\theta _0, a^*) > Q(\theta _0, a_0)

则称 $a_0$ 是非容许的.

行动的等价性 如果两个行动 $a_1, a_2$ 收益总相等, 即

\forall \theta \in \Theta, Q(\theta, a_1) = Q(\theta, a_2)

则称 $a_1, a_2$ 是等价的.

4.2.2 决策准则

悲观(差中求好)准则 先计算每一个行动 $a$ 的最坏条件收益, 然后选取最大值. 即

a^* = \argmax _{a \in \mathcal A} \min _{\theta \in \Theta} Q(\theta, a)

它能保证最坏条件下的收益下限.

乐观(好中求好)准则 先计算每一个行动 $a$ 的最好条件收益, 然后选取最大值. 即

a^* = \argmax _{a \in \mathcal A} \max _{\theta \in \Theta} Q(\theta, a)

它在设想最有利条件下, 尽量争取最多的收益.

Hurwisz 折中准则 以一个乐观系数 $\alpha \in [0, 1]$ 平衡乐观准则与悲观准则. 即

a^* = \argmax _{a \in \mathcal A} \Big( \alpha \max _{\theta \in \Theta} Q(\theta, a) + (1 - \alpha) \min _{\theta \in \Theta} Q(\theta, a) \Big)

4.3 先验期望准则

先验收益 若状态集 $\Theta$ 是一个随机变量, 有一个先验分布 $\pi (\theta)$ , 则先验收益 $Q(\theta, a)$ 也是一个随机变量. 可以定义先验收益的期望和方差

EQ|_{\theta}, \qquad DQ|_{\theta} = EQ^2|_{\theta} - (EQ|_{\theta})^2

它们都是关于 $a$ 的函数, 即 $(EQ|_{\theta})(a)$ 和 $(DQ|_{\theta})(a)$ .

先验期望准则 使先验收益期望达到最大的行动称为先验期望准则下的最优行动, 即

a^* = \argmax _a EQ|_{\theta}

如果有多个最优行动, 则先验方差最小的行动称为二阶矩准则下的最优行动. 先验期望准则有如下性质:

收益函数 $Q(\theta, a)$ 的单调递增线性变换 $Q'(\theta, a) = a + bQ(\theta, a), a > 0$ 不改变最优行动.
某些状态 $\Theta _1$ 下所有行动的收益同时增加常数 $c$ , 不改变最优行动.

4.4 损失函数

考虑某一个状态 $\theta$ 下, 人们“该赚而没有赚到的钱”. 在该状态下采取最优行动本应赚 $\max _{a \in \mathcal A} Q(\theta, a)$ , 但是由于采取错误决策 $a_0$ , 使得只赚到 $Q(\theta, a_0)$ . 这一差值

L(\theta, a_0) := \max _{a \in \mathcal A} Q(\theta, a) - Q(\theta, a_0)

称为损失函数. 在损失函数下, 可以推导出类似的悲观准则和先验期望准则, 但是此处要使损失最小化.

4.5 常用损失函数

例如我们正在对某商品明天的市场价格做出决策. 这类典型的问题经常有 $\Theta = \mathcal A$ , 损失一般要与 $|a - \theta|$ 正相关. 这类损失函数经常有形式

L(\theta, a) = \lambda(\theta) g(|a - \theta|)

其中 $\lambda(\theta)$ 是一个系数函数, $g(\cdot)$ 应是一个非降函数. 常用的损失函数有:

平方损失 $L(\theta, a) = (a - \theta) ^2$ .
绝对值损失 $L(\theta, a) = |a - \theta|$ .
0-1 损失 $L(\theta, a) = \mathit 1_{|a - \theta| > \varepsilon}$ .

4.6 效用函数

效用函数 钱在人们心目中的价值称为效用. 效用是关于收益的函数 $U(m) : \mathbb R \to \mathbb R$ . 直觉上, 金额越高, 同等金额增量造成的效用增加就越少, 这说明效用函数常是递增且上凸的. 使用类似方法可以定义先验期望准则等.

效用的测定 可以使用等效行动法测定效用.

例某决策者遇到一个决策问题, 他可能获得的收益在 $0$ 至 $1500$ 之间. 我们设 $U(0) = 0, U(1500) = 1$ . 为了测定 $m = 500$ 的效用值, 设计如下两个行动:

$a_1$ : 以概率 $\alpha$ 获得 $0$ 元, 以概率 $1 - \alpha$ 获得 $1500$ 元.

$a_2$ : 肯定获得 $500$ 元. 然后向决策者提问: $\alpha$ 取何值时, 两个行动是等价的? 例如决策者回答是 $0.3$ , 则列出方程

$U(500) = 0.3U(0) + 0.7U(1500)$
然后马上得到 $U(500) = 0.7$ . 测定多个(一般是 $6$ 至 $10$ 个)效用值, 以描绘效用曲线.

效用尺度 效用的增线性变换 $U'(m) = a + bU(m), b > 0$ 不改变决策的最后结果.

常用的效用曲线

直线型效用曲线.
上凸型效用曲线, 此时决策者偏好低风险的行动, 故也称为保守型效用曲线.
下凸型效用曲线, 此时决策者敢于冒风险争取高收益, 故也称为冒险型效用曲线.
混合型效用曲线, 一般是先下凸后上凸的, 也称为拐点型效用曲线. 有些决策者在他承受范围内还是敢冒险的, 但是超过了他的承受能力, 就变为保守型了.

从效用到损失 效用函数是收益的函数, 即 $U(\theta, a) = U(Q(\theta, a))$ . 可以类似的定义损失函数是“应该获得但是没有获得的效用”, 即

L(\theta, a_0) = \max _{a \in \mathcal A} U(\theta, a) - U(\theta, a_0)

5 Bayes 决策

5.1 Bayes 决策问题

一个 Bayes 决策问题包含以下要素:

一个依赖于状态的可观察的随机变量 $X \sim p(x \mid \theta)$ , 对其观察可以获得样本 $\boldsymbol x = (x_i)_{i=1}^n$ .
参数空间上有一个先验分布 $\pi(\theta)$ .
有一个行动集 $\mathcal A = \{a\}$ .
在 $\Theta \times \mathcal A$ 上定义了一个损失函数 $L(\theta, a)$ .

5.2 后验风险准则

给定样本 $\boldsymbol x = (x_i)_{i=1}^n$ , 计算 $\theta$ 的后验密度函数

\pi(\theta \mid \boldsymbol x) = \frac{p(\boldsymbol x \mid \theta) \pi(\theta)}{\int _{\Theta} p(\boldsymbol x \mid \theta) \pi(\theta) \mathrm d\theta}

后验分布综合了总体信息、样本信息和先验信息, 以后要对 $\theta$ 做决策就要从后验分布中提取.

行动的后验风险 后验风险 $R(a \mid \boldsymbol x)$ 定义为损失函数 $L(\theta, a)$ 对后验分布 $\pi(\theta, \boldsymbol x)$ 的期望

\begin{aligned} R(a \mid \boldsymbol x) &:= E_\theta(L(\theta, a) \mid \boldsymbol x)\\ &= \sum _\theta L(\theta, a) \pi(\theta \mid \boldsymbol x) = \int _\theta L(\theta, a) \pi(\theta \mid \boldsymbol x) \mathrm d\theta \end{aligned}

决策函数 在给定 Bayes 决策问题中, 从样本空间 $\mathcal X^n$ 到行动集 $\mathcal A$ 上的一个映射 $\delta(\boldsymbol x)$ 称为一个决策函数. 所有这样的函数构成决策函数类 $\mathcal D = \{\delta(\boldsymbol x)\}$ .

决策函数的后验风险 给定一个决策函数 $\delta(\boldsymbol x)$ , 其后验风险也定义为损失的后验期望

R(\delta \mid \boldsymbol x) := E_\theta(L(\theta, \delta(\boldsymbol x)) \mid \boldsymbol x)

Bayes 解 后验风险最小的决策函数称为该 Bayes 决策问题的 Bayes 解. 当参数空间与行动集同为某个实数集 $\Theta = \mathcal A \in \mathbb R$ 时,

O21-5-2.《贝叶斯统计》笔记（第二部分：Bayes 决策）

4 决策中的收益、损失与效用​

4.1 决策问题的三要素​

4.2 决策准则​

4.2.1 行动的容许性​

4.2.2 决策准则​

4.3 先验期望准则​

4.4 损失函数​

4.5 常用损失函数​

4.6 效用函数​

5 Bayes 决策​

5.1 Bayes 决策问题​

5.2 后验风险准则​