跳到主要内容

《应用时间序列分析》笔记(第二部分:平稳序列建模)

4 平稳序列的拟合与预测

  在用 ARMA 模型拟合数据前, 先要确保它是平稳非纯随机序列. 平稳性可以使用 ADF 单位根检验进行, 非纯随机性可以使用 Ljung-Box 检验进行.

4.2 单位根检验

  单位根检验试图对所有特征根是否都在单位圆内进行检验, 从而检验序列是否平稳.

4.2.1 DF 单位根检验

  给定时间序列 {xt}\{x_t\}, 假设它符合 ARMA(1,q)\mathrm{ARMA}(1, q) 模型.

Xt=φ1Xt1+ξtX_t = \varphi _1 X_{t-1} + \xi _t

其中 ξtN(0,σξ2)\xi _t \sim N(0, \sigma _\xi ^2) 是序列的随机部分. 该模型平稳当且仅当它 AR 部分的唯一特征根 λ=φ1(1,1)\lambda = \varphi _1 \in (-1, 1). 建立假设

H0:φ1=1,H1:φ1<1H_0: |\varphi _1| = 1, \qquad H_1: |\varphi _1| < 1

基于样本对 φ1\varphi _1 的值及其误差做出估计后, 可以计算 DF 统计量

τ=φ^11se(φ^1)\tau = \frac{|\hat \varphi _1| - 1}{\mathrm{se}(\hat \varphi _1)}

虽然 DF 统计量是 tt 分布的形式, 但在 H0H_0 的假设下 {Xt}\{X_t\} 存在自相关和异方差, 违背了 tt 检验的基本假设. DF 统计量服从一个与 tt 分布不同的复杂分布. 这个复杂分布的密度一般通过 Monte Carlo 模拟得出.

DF 检验的三种类型 DF 检验应用于三种常用模型. 根据原假设的结构不同, 拒绝域的临界值会不一样.

  1. 无漂移项自回归结构.

    • 无延迟项模型 Xt=ξtX_t = \xi _t.
    • 有延迟项模型 Xt=φ1Xt1+ξtX_t = \varphi _1 X_{t-1} + \xi _t.
    • 若 DF 检验拒绝了上面某个结构的原假设, 说明在该结构下该时间序列 {Xt}\{X_t\} 是平稳序列.
  2. 有漂移项自回归结构.

    • 无延迟项模型 Xt=φ0+ξtX_t = \varphi _0 + \xi _t.
    • 有延迟项模型 Xt=φ0+φ1Xt1+ξtX_t = \varphi _0 + \varphi _1 X_{t-1} + \xi _t.
    • 若 DF 检验拒绝了上面某个结构的原假设, 说明在该结构下该时间序列 {Xt}\{X_t\} 是平稳序列.
  3. 关于时间 tt 的趋势回归结构.

    • 无延迟项模型 Xt=α+βt+ξtX_t = \alpha + \beta t + \xi _t.
    • 有延迟项模型 Xt=α+βt+φ1Xt1+ξtX_t = \alpha + \beta t + \varphi _1 X_{t-1} + \xi _t.
    • 若 DF 检验拒绝了上面某个结构的原假设, 说明在该结构下该时间序列的趋势可以用线性模型提取, 提取后的残差项 {ξt}\{\xi _t\} 是平稳序列.

4.2.2 ADF 单位根检验

  DF 检验只考虑 AR(1)\mathrm{AR}(1) 模型, ADF 检验考虑一般的 AR(p)\mathrm{AR}(p) 模型. AR(p)\mathrm{AR}(p) 模型有特征方程

λpφ1λp1φp=0\lambda ^p - \varphi _1 \lambda ^{p-1} - \cdots - \varphi _p = 0

若有单位根存在, 即 λ=1\lambda = 1 是特征方程的一个解. 将其带入特征方程, 它等价于 φ1++φp=1\varphi _1 + \cdots + \varphi _p = 1. 所以可以建立假设

H0:φ1++φp=1,H1:φ1++φp<1H_0: \varphi _1 + \cdots + \varphi _p = 1, \qquad H_1: \varphi _1 + \cdots + \varphi _p < 1

计算 ADF 统计量

τ=φ^i1se(φ^i)\tau = \frac{\sum \hat \varphi _i - 1}{\mathrm{se}(\sum \hat \varphi _i)}

ADF 统计量也服从一个与 tt 分布和 DF 分布不同的复杂分布. 这个复杂分布的密度一般通过 Monte Carlo 模拟得出.

ADF 检验的三种类型 ADF 检验也可以应用于三种常用模型.

  1. 无漂移项自回归结构.

    • pp 阶延迟项模型 Xt=φ1Xt1++φpXtp+ξtX_t = \varphi _1 X_{t-1} + \cdots + \varphi _p X_{t-p} + \xi _t.
  2. 有漂移项自回归结构.

    • pp 阶延迟项模型 Xt=φ0+φ1Xt1++φpXtp+ξtX_t = \varphi _0 + \varphi _1 X_{t-1} + \cdots + \varphi _p X_{t-p} + \xi _t.
  3. 关于时间 tt 的趋势回归结构.

    • pp 阶延迟项模型 Xt=α+βt+φ1Xt1++φpXtp+ξtX_t = \alpha + \beta t + \varphi _1 X_{t-1} + \cdots + \varphi _p X_{t-p} + \xi _t.

4.3 模型识别

  样本 ACF 定义为

ρ^k=t=1nk(xtxˉ)(xt+kxˉ)t=1n(xtxˉ)2\hat \rho _k = \frac{\sum _{t=1}^{n-k}(x_t - \bar x)(x_{t+k} - \bar x)}{\sum _{t=1}^n (x_t - \bar x)^2}

它是一个有偏估计

Eρ^k=(1kn)ρkE\hat \rho _k = \left(1 - \frac kn\right) \rho _k

样本 PACF 定义为

φ^kk=1ρ^1ρ^1ρ^11ρ^2ρ^k1ρ^k2ρ^k/1ρ^1ρ^k1ρ^11ρ^k2ρ^k1ρ^k21\hat \varphi _{kk} = \begin{vmatrix} 1 & \hat \rho _1 & \cdots & \hat \rho _1\\ \hat \rho _1 & 1 & \cdots & \hat \rho _2\\ \vdots & \vdots & \ddots & \vdots\\ \hat \rho _{k-1} & \hat \rho _{k-2} & \cdots & \hat \rho _k \end{vmatrix} \Bigg/ \begin{vmatrix} 1 & \hat \rho _1 & \cdots & \hat \rho _{k-1}\\ \hat \rho _1 & 1 & \cdots & \hat \rho _{k-2}\\ \vdots & \vdots & \ddots & \vdots\\ \hat \rho _{k-1} & \hat \rho _{k-2} & \cdots & 1 \end{vmatrix}

它们都渐进服从正态分布

ρ^k˙N(0,1/n),φ^kk˙N(0,1/n)\hat \rho _k \mathop{\dot \sim} N(0, 1/n), \qquad \hat \varphi _{kk} \mathop{\dot \sim} N(0, 1/n)

故可以使用 2σ2\sigma 原则判断.

  考虑样本 ACF 图和 PACF 图. 先看 ACF 和 PACF 分别是拖尾 (即其绝对值呈指数衰减) 还是截尾, 来定用 AR、MA 还是 ARMA 模型拟合; 若使用 AR 或 MA 模型, 则再看 ACF 或 PACF 的截尾阶数, 来确定 ppqq 的值.

  • 若 ACF 拖尾、PACF pp 阶截尾, 则识别为 AR(p)\mathrm{AR}(p) 模型.
  • 若 ACF qq 阶截尾, PACF 拖尾, 则识别为 MA(q)\mathrm{MA}(q) 模型.
  • 若 ACF 和 PACF 都拖尾, 则识别为 ARMA(p,q)\mathrm{ARMA}(p, q) 模型.

  ARMA 模型的一种定阶方法是使用三角格子法. 给定一个平稳非纯随机时间序列数据 {Xt}\{X_t\}, 使用以下方式定义它的 (i,j)(i, j) 阶扩展自相关函数 (EACF):

  • 考虑 AR(i)\mathrm{AR}(i) 模型. 用 (Xt1,,Xti)(X_{t-1}, \dots, X_{t-i}) 拟合 XtX_t, 获得参数 (φ~1,,φ~i)(\tilde \varphi _1, \dots, \tilde \varphi _i).
  • 定义消除 AR 部分后的新序列 Wt=Xtφ~iXt1φ~iXtiW_t = X_t - \tilde \varphi _i X_{t-1} - \cdots - \tilde \varphi _i X_{t-i}, 它应该要能够被 MA(j)\mathrm{MA}(j) 模型拟合.
  • {Xt}\{X_t\}(i,j)(i, j) 阶 EACF 定义为 {Wt}\{W_t\}jj 阶 ACF.

然后绘制 EACF 表, 将显著不为零的 EACF 用叉号显示, 否则用 00 显示. 理论上 ARMA 模型的 EACF 表会呈现三角形状, 定阶时寻找三角的左上顶点即可.

图1: ARMA(1, 1) 模型和 ARMA(2, 3) 模型的理论 EACF 表

注 ACF 图和 PACF 图的特征, 可以帮助我们进行 ARMA 模型的阶数识别, 但显然图识别具有很大的主观性, 这可能会使部分研究人员产生焦虑, 担心自己识别错误造成严重的系统性错误. 其实不必太担心这个问题, 因为平稳可逆的 ARMA 模型存在整体自洽性, 即 AR 模型可以转化为 MA 模型, MA 模型也可以转化为 AR 模型. 因此, 对于 ARMA 模型的阶数识别并没有唯一结果. 很可能出现同一个序列, 使用不同的阶数识别, 都能得到不错的拟合效果.

4.4 参数估计

  ARMA(p,q)\mathrm{ARMA}(p, q) 模型是

Xt=φ0+φ1Xt1++φpXtp+εtθ1εt1θqεtqX_t = \varphi _0 + \varphi _1 X_{t-1} + \cdots + \varphi _p X_{t-p} + \varepsilon _t - \theta _1 \varepsilon _{t-1} - \cdots - \theta _q \varepsilon _{t-q}

其中 εtWN(0,σε2)\varepsilon _t \sim WN(0, \sigma _\varepsilon ^2). 它有 p+q+2p+q+2 个参数, 它们分别是

φ0,(φ1,,φp),(θ1,,θq),σε2\varphi _0, (\varphi _1, \dots, \varphi _p), (\theta _1, \dots, \theta _q), \sigma _\varepsilon ^2

总体均值一般使用样本均值估计

φ^0=xˉ=1nxi\hat \varphi _0 = \bar x = \frac 1n \sum x_i

在中心化 xtxtxˉx_t \gets x_t - \bar x 之后可以消去 φ0\varphi _0 参数, 仅剩 p+q+1p+q+1 个参数. 对于这些参数可以考虑矩估计、极大似然估计、最小二乘估计.

4.4.1 矩估计

  首先考虑系数 (φ1,,φp),(θ1,,θq)(\varphi _1, \dots, \varphi _p), (\theta _1, \dots, \theta _q) 的矩估计. 我们曾经推导过 ARMA 模型的理论 ACF, 它是使用参数 ρi=ρi(φ1,,φp,θ1,,θq)\rho _i = \rho _i(\varphi _1, \dots, \varphi _p, \theta _1, \dots, \theta _q) 表示的. 利用前 p+qp+q 个 ACF, 令理论 ACF 等于样本 ACF, 联立 Yule-Walker 方程组

ρ1=ρ^1,,ρp+1=ρ^p+q\rho _1 = \hat \rho _1, \quad \dots, \quad \rho _{p+1} = \hat \rho _{p+q}

就可以解得参数的矩估计 (φ^1,,φ^p),(θ^1,,θ^q)(\hat \varphi _1, \dots, \hat \varphi _p), (\hat \theta _1, \dots, \hat \theta _q).

  再考虑白噪声方差 σε2\sigma _\varepsilon ^2 的矩估计. 获得参数的矩估计后, 用 ARMA 模型的表达式迭代地利用历史观察值 (不可获得的历史观察值默认为零) 得到序列估计值 xˉ1,,xˉn\bar x_1, \dots, \bar x_n. 白噪声方差的矩估计为

σ^ε2=1n(xix^i)2\hat \sigma _\varepsilon ^2 = \frac 1n \sum (x_i - \hat x_i)^2

 计算 AR(2)\mathrm{AR}(2) 模型参数的矩估计. 曾经求过它的 ACF, 取前两项

ρ1=φ11φ2,ρ2=φ121φ2+φ2\rho _1 = \frac{\varphi _1}{1 - \varphi _2}, \qquad \rho _2 = \frac{\varphi _1^2}{1 - \varphi _2} + \varphi _2

联立

ρ1=ρ^1,ρ2=ρ^2\rho _1 = \hat \rho _1, \quad \rho _2 = \hat \rho _2

可得矩估计

φ^1=1ρ^21ρ^2ρ1,φ^2=ρ2ρ121ρ12\hat \varphi _1 = \frac{1 - \hat \rho _2}{1 - \hat \rho ^2} \rho _1, \quad \hat \varphi _2 = \frac{\rho _2 - \rho _1^2}{1 - \rho _1^2}

  实际上对于 AR(p)\mathrm{AR}(p) 模型总有 Yule-Walker 方程组

(1ρ1ρk1ρ11ρk2ρk1ρk21)(φ^1φ^2φ^k)=(ρ1ρ2ρk)\begin{pmatrix} 1 & \rho _1 & \cdots & \rho _{k-1}\\ \rho _1 & 1 & \cdots & \rho _{k-2}\\ \vdots & \vdots & \ddots & \vdots\\ \rho _{k-1} & \rho _{k-2} & \cdots & 1 \end{pmatrix} \begin{pmatrix} \hat \varphi _1\\ \hat \varphi _2\\ \vdots\\ \hat \varphi _k \end{pmatrix} = \begin{pmatrix} \rho _1\\ \rho _2\\ \vdots\\ \rho _k \end{pmatrix}

考虑 Cramer 法则可以得到矩估计的显式解

φ^i=1ρ1ρ1ρk1ρ11ρ2ρk2ρk1ρk2ρk1/1ρ1ρk1ρ11ρk2ρk1ρk21\hat \varphi _i = \begin{vmatrix} 1 & \rho _1 & \cdots & \rho _1 & \cdots & \rho _{k-1}\\ \rho _1 & 1 & \cdots & \rho _2 & \cdots & \rho _{k-2}\\ \vdots & \vdots & & \vdots & & \vdots\\ \rho _{k-1} & \rho _{k-2} & \cdots & \rho _k & \cdots & 1 \end{vmatrix} \Bigg/ \begin{vmatrix} 1 & \rho _1 & \cdots & \rho _{k-1}\\ \rho _1 & 1 & \cdots & \rho _{k-2}\\ \vdots & \vdots & \ddots & \vdots\\ \rho _{k-1} & \rho _{k-2} & \cdots & 1 \end{vmatrix}

 计算 MA(1)\mathrm{MA}(1) 模型参数的矩估计. 曾经求过它的 ACF, 取第一项 ρ1=θ1/(1+θ12)\rho _1 = -\theta _1 / (1 + \theta _1^2). 列方程 ρ1=ρ^1\rho _1 = \hat \rho _1, 可以反解出

θ^1=1+14ρ^122ρ^1\hat \theta _1 = \frac{-1 + \sqrt{1 - 4 \hat \rho _1^2}}{2 \hat \rho _1}

另一个根被舍弃了, 因为 MA(1)\mathrm{MA}(1) 模型的可逆性要求 θ1<1|\theta _1| < 1.

 计算 ARMA(1,1)\mathrm{ARMA}(1, 1) 模型参数的矩估计. 曾经求过它的 ACF, 取前两项

ρ1=γkσ2=(φ1θ1)(1φ1θ1)1+θ122φ1θ1,ρ2=φ1ρ1\rho _1 = \frac{\gamma _k}{\sigma ^2} = \frac{(\varphi _1 - \theta _1) (1 - \varphi _1 \theta _1)}{1 + \theta _1^2 - 2\varphi _1 \theta _1}, \qquad \rho _2 = \varphi _1 \rho _1

考虑可逆条件且经过复杂的计算可以得到矩估计的唯一解

φ^1=ρ^2ρ^1,θ^1={(c+c24)/2,c2(cc24)/2,c2,c=1φ^122ρ^2φ^1ρ^1\hat \varphi _1 = \frac{\hat \rho _2}{\hat \rho _1}, \quad \hat \theta _1 = \begin{cases} (c + \sqrt{c^2 - 4}) / 2, & c \leq -2\\ (c - \sqrt{c^2 - 4}) / 2, & c \geq 2 \end{cases}, \quad c = \frac{1 - \hat \varphi _1 ^2 - 2 \hat \rho 2}{\hat \varphi _1 - \hat \rho _1}

  矩估计计算量小, 简单直观, 不需要假设总体分布; 但仅用到了样本二阶矩的信息, 比较粗糙, 估计精度不高, 因此仅常用于确定极大似然估计和最小二乘估计的迭代初值.

4.4.2 极大似然估计

  在极大似然估计中, 我们假设中心化样本 x=(x1,,xn)T\boldsymbol x = (x_1, \dots, x_n)^T 服从多元正态分布, 它的均值为零向量, 它的方差是 ARMA 模型的 ACVF 排成的矩阵. 定义参数向量 β=(φ1,,φp,θ1,,θq)T\boldsymbol \beta = (\varphi _1, \dots, \varphi _p, \theta _1, \dots, \theta _q)^T, ARMA 模型的 ACVF 是

γk=(i=0GiGi+k)σε2\gamma _k = \left(\sum_{i=0}^\infty G_{i}G_{i+k}\right) \sigma _\varepsilon ^2

它是参数 β\boldsymbol \beta 的函数. 所以 x\boldsymbol x 服从的分布是

xN(0,Ωσε2),Ω=(i=0Gi2i=0GiGi+n1i=0GiGi+n1i=0Gi2)\boldsymbol x \sim N(\boldsymbol 0, \Omega \sigma _\varepsilon ^2), \qquad \Omega = \begin{pmatrix} \sum\limits_{i=0}^\infty G_i^2 & \cdots & \sum\limits_{i=0}^\infty G_iG_{i+n-1}\\ \vdots & \ddots & \vdots\\ \sum\limits_{i=0}^\infty G_iG_{i+n-1} & \cdots & \sum\limits_{i=0}^\infty G_i^2 \end{pmatrix}

  样本的似然函数是多元正态分布的密度函数

L(βx)=1(2πσε2)kΩexpxTΩ1x2σε2\mathcal L(\boldsymbol \beta \mid \boldsymbol x) = \frac{1}{\sqrt{(2 \pi \sigma _\varepsilon ^2)^k |\Omega|}} \exp -\frac{\boldsymbol x^T \Omega ^{-1} \boldsymbol x}{2 \sigma _\varepsilon ^2}

它的对数似然函数是

(βx)=n2ln2πn2lnσε212lnΩxTΩ1x2σε2\ell(\boldsymbol \beta \mid \boldsymbol x) = -\frac n2 \ln 2\pi - \frac n2 \ln \sigma _\varepsilon ^2 - \frac 12 \ln |\Omega| - \frac{\boldsymbol x^T \Omega ^{-1} \boldsymbol x}{2 \sigma _\varepsilon ^2}

求偏导并令其为零

{σε2=n2σε2+xTΩ1x2σε4=0β=12lnΩβ12σε2xTΩ1xβ=0\left\{ \begin{aligned} \frac{\partial \ell}{\partial \sigma _\varepsilon ^2} & = -\frac{n}{2\sigma _\varepsilon ^2} + \frac{\boldsymbol x^T \Omega ^{-1} \boldsymbol x}{2 \sigma _\varepsilon ^4} = 0\\ \frac{\partial \ell}{\partial \boldsymbol \beta} & = -\frac 12 \frac{\partial \ln |\Omega|}{\partial \boldsymbol \beta} - \frac{1}{2 \sigma _\varepsilon ^2} \frac{\partial \boldsymbol x^T \Omega ^{-1} \boldsymbol x}{\partial \boldsymbol \beta} = 0 \end{aligned} \right.

该方程组没有解析解, 甚至 lnΩβ\frac{\partial \ln |\Omega|}{\partial \boldsymbol \beta}xTΩ1xβ\frac{\partial \boldsymbol x^T \Omega ^{-1} \boldsymbol x}{\partial \boldsymbol \beta} 都没有显式形式. 该方程组是一个超越方程. 通常需要利用迭代算法求数值解.

 若初值 x0x_0 给定, 正态假设下的 AR(1)\mathrm{AR}(1) 模型 Xt=φ0+φ1Xt1+εtX_t = \varphi _0 + \varphi _1 X_{t-1} + \varepsilon _t 的似然函数是

L(φ0,φ1,σε2x)=p(xtxt1)p(xt1xt2)p(x2x1)p(x1x0)=1(2πσε2)nexpi=1n(xiφ0φ1xi1)22σε2\begin{aligned} \mathcal L(\varphi _0, \varphi _1, \sigma _\varepsilon ^2 \mid \boldsymbol x) & = p(x_t \mid x_{t-1}) p(x_{t-1} \mid x_{t-2}) \cdots p(x_2 \mid x_1) p(x_1 \mid x_0)\\ & = \frac{1}{(\sqrt{2\pi \sigma _\varepsilon ^2})^n} \exp -\sum _{i=1}^n \frac{(x_i - \varphi _0 - \varphi _1 x_{i-1})^2}{2\sigma _\varepsilon ^2} \end{aligned}

这与简单线性回归的极大似然估计相同. 它也等于简单线性回归的最小二乘估计.

  极大似然估计充分利用观察值的信息, 估计精度高, 具有估计一致性、渐进正态性等优良统计性质, 但缺点是需要事先假定序列分布.

4.4.3 最小二乘估计

  ARMA 模型的残差是

εt=xtφ1xt1φpxtp+θ1εt1++θq+εtq\varepsilon _t = x_t - \varphi _1 x_{t-1} - \cdots - \varphi _p x_{t-p} + \theta _1 \varepsilon _{t-1} + \cdots + \theta _q + \varepsilon _{t-q}

残差平方和为

Q=t=1nε2Q = \sum _{t=1}^n \varepsilon ^2

由于随机扰动 εt1,εt2,\varepsilon _{t-1}, \varepsilon _{t-2}, \dots 不可观测, 所以 QQ 也不是参数的显性函数, 最小二乘估计也需要通过迭代法求出.

  AR(p)\mathrm{AR}(p) 模型可以使用最小二乘估计. AR(p)\mathrm{AR}(p) 模型的表达式是

Xt=φ0+φ1Xt1++φpXtp+εtX_t = \varphi _0 + \varphi _1 X_{t-1} + \cdots + \varphi _p X_{t-p} + \varepsilon _t

这是一个基本的多元线性回归问题, 可以直接使用多元线性回归的方法求解.

  在实际中, 因为观测样本是有起点的, 所以残差一定可以展开成一个 tt 项的表达式

εt=xtα1xt1αt1x1\varepsilon _t = x_t - \alpha _1 x_{t-1} - \cdots - \alpha _{t-1} x_1

这就化为了一个标准的二次函数求最值问题, 称为条件最小二乘估计.

  最小二乘估计充分利用了样本信息, 所以估计精度很高. 条件最小二乘估计是最常用的估计方法.

4.5 模型检验

4.5.1 模型的显著性检验

  模型的的显著性检验等价于检验残差序列是否为白噪音. 因为若序列不是白噪音, 则说明模型对序列自相关性提取不充分, 从而应该重新选择其它模型拟合. 模型显著性检验可以通过对残差序列进行 Ljung-Box 纯随机性检验完成.

4.5.2 参数的显著性检验

  有时需要检验一个参数是否显著非零, 从而决定该阶系数是否要从拟合模型中剔除. 检验假设

H0:βi=0,H1:βi0H_0: \beta _i = 0, \qquad H_1: \beta _i \neq 0

其中 1im1 \leq i \leq m, mm 是待估参数个数. 在经典最小二乘法中, 参数 βi\beta _i 的平方标准误差是

Dβ^i=ωjσε2,Ω=(XTX)1=(ω1ωm)\mathrm D \hat \beta _i = \omega _j \sigma _\varepsilon ^2, \qquad \Omega = (X^TX)^{-1} = \begin{pmatrix} \omega _1 & \cdots & *\\ \vdots & \ddots & \vdots\\ * & \cdots & \omega _m \end{pmatrix}

由于 σε2\sigma _\varepsilon ^2 不可观测, 所以考虑其最小残差平方和估计

σ^ε2=Qnm\hat \sigma _\varepsilon ^2 = \frac{Q}{n - m}

现在可以考虑 tt 检验

t=β^jωjQ/(nm)t(nm)t = \frac{\hat \beta _j}{\sqrt{\omega _j Q / (n-m)}} \sim t(n-m)

4.6 模型优化

  可能同时有很多显著的模型, 它们的拟合残差同时都是白噪音. 需要一个定量描述模型优度的指标.

  时间序列的拟合实际上是一个双目标优化问题. 它有两个目标: 拟合优度最大, 待估参数个数最小. 但是该二优化目标是相互矛盾的: 因为参数越多, 拟合优度一定更大. 故应寻找一种让两个优化目标达到平衡的判断准则.

  本问题首先对残差平方和 tεt\sum_t\varepsilon_t (tt 取遍所有已知的时间) 作极大似然估计, 然后使用随机项方差 σ^ε2{\hat \sigma}_\varepsilon^2 描述拟合优度; 另一方面计算出待估参数的个数为 p+q+1p+q+1. 现在引出赤池信息准则 (AIC, Akaike Information Criterion):

AIC(p,q)=nlnσ^ε2+2(p+q+1)\mathrm{AIC}(p,q)=n\ln {\hat \sigma}_\varepsilon^2+2(p+q+1)

  AIC 的值越小越好. AIC 的问题在于, lnσ^ε2\ln {\hat \sigma}_\varepsilon^2 的权重是 nn, 但是待估参数个数的权重始终是 22. 这会造成 nn 较大时参数个数失权的问题. 故经修改得出 Bayes 信息准则 (BIC, Schwarz's Bayesian Information Criterion):

BIC(p,q)=nlnσ^ε2+lnn(p+q+1)\mathrm{BIC}(p,q)=n\ln {\hat \sigma}_\varepsilon^2+\ln n\cdot (p+q+1)

AIC 偏向于预测, 会选择拟合度高的模型; BIC 偏向于拟合, 会选择参数较少的模型. 这两个信息准则各有优劣.

4.7 序列预测

4.7.1 线性预测

  任意一个平稳 ARMA 模型有逆转形式

Xt=I1Xt1I2Xt2It1X1+εtX_t = -I_1 X_{t-1} - I_2 X_{t-2} - \cdots - I_{t-1} X_1 + \varepsilon _t

忽略白噪音项后, 可以得到未来时间序列的点估计

x^t+1=I1xtI2xt1,x^t+2=I1x^t+1I2xt\hat x_{t+1} = -I_1 x_t - I_2 x_{t-1} - \cdots, \qquad \hat x_{t+2} = -I_1 \hat x_{t+1} - I_2 x_t - \cdots

x^t+2\hat x_{t+2} 及以后得点估计可以迭代展开, 只需将 x^t+1\hat x_{t+1} 等代入即可. 例如

x^t+2=(I12I2)xt+(I1I2I3)xt1+\hat x_{t+2} = (I_1^2 - I_2) x_t + (I_1I_2 - I_3) x_{t-1} + \cdots

4.7.2 预测方差最小原则

  预测方差最小原则希望最小化预测方差. 对于 kk 期预测值, 定义预测误差 et+ke_{t+k}, 并希望它的方差最小

et+k:=xt+kx^t+k,Det+k=mine_{t+k} := x_{t+k} - \hat x_{t+k}, \qquad \mathrm De_{t+k} = \min

考虑传递形式 xt+k=εt+k+G1εt+k1+x_{t+k} = \varepsilon _{t+k} + G_1 \varepsilon _{t+k-1} + \cdots. Green 函数是模型参数的函数, 在完成模型参数的估计后, Green 函数的值也可以被估计. 在预测中, x^t+k\hat x_{t+k} 是已知数据 {xt,xt1,}\{x_t, x_{t-1}, \dots\} 的线性函数. 所以预测值可以写成

x^t+k=D0xt+D1xt1+D2xt2+=D0(εt+G1εt1+G2εt2+)+D1(εt1+G1εt2+)+D2(εt2+)=D0W0εt+(D0G1+D1W1)εt1+(D0G2+D1G1+D2W2)εt2+=:W0εt+W1εt1+W2εt2+\begin{aligned} \hat x_{t+k} & = D_0 x_t + D_1 x_{t-1} + D_2 x_{t-2} + \cdots\\ & = D_0(\varepsilon _t + G_1 \varepsilon _{t-1} + G_2 \varepsilon _{t-2} + \cdots) + D_1(\varepsilon _{t-1} + G_1 \varepsilon _{t-2} + \cdots) + D_2(\varepsilon _{t-2} + \cdots)\\ & = \underbrace{D_0}_{W_0} \varepsilon _t + (\underbrace{D_0G_1 + D_1}_{W_1}) \varepsilon _{t-1} + (\underbrace{D_0G_2 + D_1G_1 + D_2}_{W_2}) \varepsilon _{t-2} + \cdots\\ & =: W_0 \varepsilon_t + W_1 \varepsilon_{t-1} + W_2 \varepsilon _{t-2} + \cdots \end{aligned}

预测误差是

et+k=xt+kx^t+k=(εt+k+G1εt+k1++Gkεt+)(W0εt+W1εt1+)=(εt+k+G1εt+k1++Gk1εt+1)+(GkW0)εt+(Gk+1W1)εt1+\begin{aligned} e_{t+k} & = x_{t+k} - \hat x_{t+k}\\ & = (\varepsilon _{t+k} + G_1 \varepsilon _{t+k-1} + \cdots + G_k \varepsilon _t + \cdots) - (W_0 \varepsilon_t + W_1 \varepsilon_{t-1} + \cdots)\\ & = (\varepsilon _{t+k} + G_1 \varepsilon _{t+k-1} + \cdots + G_{k-1} \varepsilon _{t+1}) + (G_k - W_0) \varepsilon _t + (G_{k+1} - W_1) \varepsilon _{t-1} + \cdots \end{aligned}

它的方差是

Det+k=((1+G1++Gk1)+(GkW0)+(Gk+1W1)+)σε2\mathrm De_{t+k} = \Big((1 + G_1 + \cdots + G_{k-1}) + (G_k - W_0) + (G_{k+1} - W_1) + \cdots \Big) \sigma _\varepsilon ^2

要使方差最小, 我们令

Gk=W0,Gk+1=W1,G_k = W_0, \qquad G_{k+1} = W_1, \qquad \cdots

所以预测值是

x^t+k=Gkεt+Gk+1εt1+\hat x_{t+k} = G_k \varepsilon _t + G_{k+1} \varepsilon _{t-1} + \cdots

预测误差的均值和方差是

Eet+k=0,Det+k=(1+G1++Gk1)σε2\mathrm Ee_{t+k} = 0, \qquad \mathrm De_{t+k} = (1 + G_1 + \cdots + G_{k-1}) \sigma _\varepsilon ^2

4.7.3 线性最小方差预测的性质

AR 模型预测AR(p)\mathrm{AR}(p) 模型的 kk 步预测值是

x^t+k=φ0+φ1xt+k1++φpxt+kp\hat x_{t+k} = \varphi _0 + \varphi _1 x_{t+k-1} + \cdots + \varphi _p x_{t+k-p}

其中 t+kptt+k-p \geq t 的那些值用其预测值代替. 它的预测方差为

Det+k=(1+G12++Gk12)σε2\mathrm De_{t+k} = (1 + G_1^2 + \cdots + G_{k-1}^2) \sigma _\varepsilon ^2

MA 模型预测MA(q)\mathrm{MA}(q) 模型的 kk 步预测值是

x^t+k={μθkεtθk+1εt1++θqεt+kq,kqμ,k>q\hat x_{t+k} = \begin{cases} \mu - \theta _k \varepsilon _t - \theta _{k+1} \varepsilon _{t-1} + \cdots + \theta _q \varepsilon _{t+k-q}, & k \leq q\\ \mu, & k > q \end{cases}

其中 εi\varepsilon _ixix_i 的拟合残差. MA(q)\mathrm{MA}(q) 模型理论上只能预测 qq 步之内的序列走势, 且 kk 步预测只利用最新的 qk+1q-k+1 个样本残差值, 这是由其 ACF 的 qq 步截尾性决定的. 它的预测方差是

Det+k={(1+θ12++θk12)σε2,kq(1+θ12++θq2)σε2,k>q\mathrm De_{t+k} = \begin{cases} (1 + \theta _1^2 + \cdots + \theta _{k-1}^2) \sigma _\varepsilon ^2, & k \leq q\\ (1 + \theta _1^2 + \cdots + \theta _q^2) \sigma _\varepsilon ^2, & k > q \end{cases}

ARMA 模型预测ARMA(p,q)\mathrm{ARMA}(p, q) 模型的 kk 步预测值是

x^t+k={φ0+φ1xt+k1++φpxt+kpθkεtθk+1εt1++θqεt+kq,kqφ0+φ1xt+k1++φpxt+kp,k>q\hat x_{t+k} = \begin{cases} \varphi _0 + \varphi _1 x_{t+k-1} + \cdots + \varphi _p x_{t+k-p} - \theta _k \varepsilon _t - \theta _{k+1} \varepsilon _{t-1} + \cdots + \theta _q \varepsilon _{t+k-q}, & k \leq q\\ \varphi _0 + \varphi _1 x_{t+k-1} + \cdots + \varphi _p x_{t+k-p}, & k > q \end{cases}

其中 t+kptt+k-p \geq t 的那些值用其预测值代替, εi\varepsilon _ixix_i 的拟合残差. 它的预测方差为

Det+k=(1+G12++Gk12)σε2\mathrm De_{t+k} = (1 + G_1^2 + \cdots + G_{k-1}^2) \sigma _\varepsilon ^2

4.7.4 修正预测

  假设在已知旧信息 {xt}\{x_t\} 的基础上, 又知道了一步新信息 xt+1x_{t+1}, 此时可以直接修正预测

x^t+kGk1εt+1+x^t+k\hat x_{t+k} \gets G_{k-1} \varepsilon _{t+1} + \hat x_{t+k}

其中 εt+1\varepsilon _{t+1}xt+1x_{t+1} 的拟合残差. 修正后的预测误差的方差为

Det+kDet+kGk12σε2\mathrm De_{t+k} \gets \mathrm De_{t+k} - G_{k-1}^2 \sigma _\varepsilon ^2

  假设在已知旧信息 {xt}\{x_t\} 的基础上, 又知道了一步新信息 {xt+p}\{x_{t+p}\}, 此时可以直接修正预测

x^t+kGkpεt+p++Gk1εt+1+x^t+k\hat x_{t+k} \gets G_{k-p} \varepsilon _{t+p} + \cdots + G_{k-1} \varepsilon _{t+1} + \hat x_{t+k}

修正后的预测误差的方差为

Det+kDet+k(Gk12++Gkp2)σε2\mathrm De_{t+k} \gets \mathrm De_{t+k} - (G_{k-1}^2 + \cdots + G_{k-p}^2) \sigma _\varepsilon ^2