集中不等式
集中不等式描述一个随机变量是否集中在某个取值 (例如其期望) 附近, 它一般是关于 Pr(∣X−EX∣≤ε) 的一类不等式.
1 Chernoff 不等式
1.1 Chebyshev-Markov 不等式族
Markov 不等式 令 X 是一个非负随机向量, ∀ε>0,
Pr(X≥ε)≤εEX⟺EX≥εPr(X≥ε)
从正向看, 它给随机变量的尾部概率给定了一个上界 (即给随机变量集中于 [0,ε) 区间的概率指定了下界). 从反向看, 它给随机变量的数学期望指定了一个下界, 这个下界与其尾部概率有关.
证明 证明是很直观的, 因为
EX=(≥0Pr(X<ε)⋅EXX<ε+Pr(X≥ε)⋅≥εEXX≥ε)≥εPr(X≥ε)
Chebyshev 不等式 考虑随机变量 (X−EX)2 总是非负的. 可以应用 Markov 不等式, ∀ε>0,
Pr(∣X−EX∣≥ε)=Pr((X−EX)2≥ε2)≤ε2E(X−EX)2=ε2VarX
Chebyshev 大数定律 使用 Chebyshev 不等式可以证明 Chebyshev 大数定律. 令 {Xi} 相互独立且有相同方差上界 VarX≤c, 则 ∀ε>0,
n→∞limPr(n1∑(Xi−EXi)≥ε)=0
证明 根据条件有 Var(∑Xi/n)≤c/n. 对 ∑Xi/n 应用 Chebyshev 不等式,
Pr(n1∑(Xi−EXi)≥ε)≤ε2Var(∑Xi/n)=nε2c
取 n→∞ 即得证.
例 假设在统计建模中有一种将向量 θ=(θ1,…,θn) 稀疏化的方法: 选定参数 p1,…,pn, 然后取
θ^i=piθi⋅ti,ti∼b(pi)
试证: 在该方法下存在 一组良好的参数, 使得对于任意单位圆内的向量 x, 任取 ε>0, 都存在 δ 使得
Pr(∣θTx−θ^Tx∣≥ε)≤δ
证明 注意到
Eθ^i=piθi⋅1⋅pi+piθi⋅0⋅(1−pi)=θi
所以 Eθ^Tx=EθTx. 因此所证不等式左侧正是关于 θ^Tx Chebyshev 不等式的形式. 应用 Chebyshev 不等式有
Pr(∣θTx−θ^Tx∣≥ε)≤ε2Var(θ^Tx)
其中
Varθ^Tx=xT(Covθ^)x=∑xi2Varθ^i
其中最后一个等号需要假设 θ1,…,θn 线性无关. 而
Varθ^i=Var(piθi⋅ti)=pi2θi2⋅pi(1−pi)=θi2⋅pi1−pi
现在可以选定 pi 的数值了. 假设我们要证明关于给定 (ε,δ) 的不等式, 现在很聪明地选取 pi
pi:=1+δε2/θi21⟺θi2⋅pi1−pi=δε2
这样的好处是 Varθ^i=δε2. 于是 Varθ^Tx=δε2∣x∣2≤δε2, 从而命题得证.
Chebyshev-Markov 不等式族的一般形式 令 X 是随机变量 (不必要非负), 给定变换函数 g(⋅)≥0 非降, 且 g(ε)>0.
Pr(X≥ε)≤g(ε)Eg(X)⟺Eg(X)≥g(ε)Pr(X≥ε)
证明方法与 Markov 不等式相同.
1.2 Chernoff 不等式
Chernoff 界 注意到包含参数 t>0 的函数 g(x;t)=etx 是正非降的. 令 t 是随机变量 X 的矩母函数, 则应用 Chebyshev-Markov 不等式族的一般形式,
Pr(X≥ε)≤etεEetX,∀t>0
它的另一个方向是
Pr(X≤ε)≤etεEetX,∀t<0
不等号右边是关于参数 t 的函数, 找到其最小值, 可以进一步可以找到最小上界.
注 指数函数是一个下凸函数, 据 Jensen 不等式有 EetX=EetX≥etEX. 所以若 ε≤EX 时 Chernoff 界大于等于 1 导致其不包含信息.
例 计算中心正态分布 X∼N(0,σ2) 的 Chernoff 界. 我们知道它的矩母函数 EetX=et2σ2/2. 它的 Chernoff 界是
Pr(X≥ε)≤etεet2σ2/2=et2σ2/2−tε
找到右边二次式的最小值, 取 t=ε/σ2, 得到
Pr(X≥ε)≤e−ε2/2σ2
例 计算二项分布 X∼B(n,p) 的 Chernoff 界. 我们知道它的矩母函数
EetX=(1−p+pet)n=(1+p(et−1))n≤(ep(et−1))n=eμ(et−1)
其中 μ:=np. 对 Chernoff 界做换元 δ:=ε/μ−1 可以得到
Pr(X≥(1+δ)μ)≤etεEetX≤et(1+δ)μeμ(et−1)=eμ(et−1−(1+δ)t)
右侧的带参函数 h(t;δ)=et−1−(1+δ)t 在 t=ln(1+δ) 处有全局最小值. 所以
Pr(X≥(1+δ)μ)≤(1+δ)(1+δ)μeδμ≤e−δ2μ/3
其中最后一步使用了不等式 ln(1+δ)≥2δ/(2+δ), 需要条件 0<δ<1. 另一个方向的不等式 Pr(X≥(1−δ)μ)≤e−δ2μ/2 是类似的, 但是限定 t<0.
Chernoff 界使用矩母函数描述尾部概率. 矩母函数对独立随机变量的和有良好性质: 对于独立随机变量 X 和 Y, 有 Eet(X+Y)=EetXEetY. 于是可以得到多个随机变量和的 Chernoff 不等式.
Chernoff 不等式 对于 i.i.d 的随机变量列 X1,…,Xn, 有
Pr(X1+⋯+Xn≥ε)≤etε∏EetXi
例 给定 X1,…,Xn∼StdN i.i.d, 计算其平方和的 Chernoff 界. 我们知道 StdN 的平方服从 χ2(1) 分布, 它的矩母函数是 EetXi2=(1−2t)−1/2,t≤1/2. 所以其平方和的 Chernoff 界是
Pr(X12+⋯+Xn2≥ε)≤etε∏EetXi2=etε(1−2t)−n/2,∀t∈(0,1/2]
2 亚高斯分布和 Hoeffding 不等式
2.1 亚高斯分布
亚高斯分布 称一个概率分布 X 服从亚高斯分布, 如果它的尾部概率被正态分布限制. 即存在常数 σ2 (称为代理方差) 使得任取 ε>0, 都有
Pr(∣X∣≥ε)≤2e−ε2/2σ2
使用矩母函数的等价定义是: 称一个概率分布 X 服从代理方差为 σ2 的亚高斯分布 subG(σ2), 如果其中心化矩母函数被方差为 σ2 的高斯分布限制
Eet(X−EX)≤et2σ2/2,∀t∈R
由这个定义配合 Chernoff 不等式可以推出
Pr(X≥ε)≤etεEet(X−EX)≤etεet2σ2/2=et2σ2/2−tε
当 t=ε/σ2 时, 右侧取到最小值 e−ε2/2σ2.
2.2 Hoeffding 不等式
Hoeffding 引理 假设一个随机变量 X 取值于 a<X<b a.s., 则它的中心化矩母函数
Eet(X−EX)≤et2(b−a)2/8,∀t∈R
证明 不失一般性, 假设 EX=0. 指数函数是一个下凸函数, 所以
etx≤b−ab−xeta+b−ax−aetb
于是
EetX≤b−ab−EXeta+b−aEX−aetb=b−abeta−b−aaetb=exp(ta+ln(1+b−aa−et(b−a)a))=:L(t(b−a))
其中构造了辅助函数
L(h)=b−aha+ln(1+b−aa−eha)
它在 h=0 处的导数是
L(0)=L′(0)=0,L′′(0)=b−aehb⋅b−aeh−aeh≤41,∀h
最后一步使用了均值不等式. 考虑带 Lagrange 型余项的 MacLaurin 展开
L(h)=L(0)+L′(0)h+21L′′(hθ)h2≤81h2,∀h,∃θ∈[0,1]
回代即得证.
推论 a≤X≤b a.s. 的随机变量服从代理方差为 (b−a)2/4 的亚高斯分布.
Hoeffding 不等式 给定随机变量列 {Xi}i=1n 满足 ai≤Xi≤bi a.s., 则
Pr(∑(Xi−EXi)≥ε)≤exp(−∑(bi−ai)22ε2)
证明 ∑(Xi−EXi) 的 Chernoff 界是
Pr(∑(Xi−EXi)≥ε)≤etε∏Eet(Xi−EXi)≤etε∏et2(bi−ai)2/8=exp(81∑t2(bi−ai)2−tε)
这是一个二次函数求最值问题. 取 t=4ε/∑(bi−ai)2 然后回代即得证.
Hoeffding 不等式的两侧形式是
Pr(∑(Xi−EXi)≥ε)≤2exp(−∑(bi−ai)22ε2)
直接取 ε←nε, 可以得到关于均值的形式
Pr(Xˉ−EX≥ε)≤exp(−∑(bi−ai)22n2ε2)
以及
Pr(∣Xˉ−EX∣≥ε)≤2exp(−∑(bi−ai)22n2ε2)
Hoeffding 不等式可以用于构造置信区间.
例 对两点分布 X∼b(p) 做 n 次简单随机抽样 X1,…,Xn. 希望计算尾部概率 Pr(Xˉ∈/[p−ε,p+ε]) 的上界. 注意到 X∈[0,n], 直接使用 Hoeffding 不等式,
Pr(∣Xˉ−p∣≥ε)≤2exp(−∑n22n2ε2)=2e−2ε2/n
即是所求的上界.
2.3 最大值的期望
最大值的期望 设 Xi∼subG(σ2) i.i.d, 则
Eimax(Xi−EXi)≤2σlnn
证明 使用 Jensen 不等式、亚高斯分布的等价定义 (注意这里要避免循环论证) 和一些放缩,
Emax(Xi−EXi)=t1Elnetmax(Xi−EXi)≤t1lnEetmax(Xi−EXi)=t1lnEmaxet(Xi−EXi)≤t1lnE∑et(Xi−EXi)≤t1lnnet2σ2/2=tlnn+2σ2t
这是一个对勾函数, 取 t=2lnn/σ 即得证.
3 亚指数分布和 Bernstein 不等式