《应用时间序列分析》笔记（第二部分：平稳序列建模）

4 平稳序列的拟合与预测

在用 ARMA 模型拟合数据前, 先要确保它是平稳非纯随机序列. 平稳性可以使用 ADF 单位根检验进行, 非纯随机性可以使用 Ljung-Box 检验进行.

4.2 单位根检验

单位根检验试图对所有特征根是否都在单位圆内进行检验, 从而检验序列是否平稳.

4.2.1 DF 单位根检验

给定时间序列 $\{x_t\}$ , 假设它符合 $\mathrm{ARMA}(1, q)$ 模型.

X_t = \varphi _1 X_{t-1} + \xi _t

其中 $\xi _t \sim N(0, \sigma _\xi ^2)$ 是序列的随机部分. 该模型平稳当且仅当它 AR 部分的唯一特征根 $\lambda = \varphi _1 \in (-1, 1)$ . 建立假设

H_0: |\varphi _1| = 1, \qquad H_1: |\varphi _1| < 1

基于样本对 $\varphi _1$ 的值及其误差做出估计后, 可以计算 DF 统计量

\tau = \frac{|\hat \varphi _1| - 1}{\mathrm{se}(\hat \varphi _1)}

虽然 DF 统计量是 $t$ 分布的形式, 但在 $H_0$ 的假设下 $\{X_t\}$ 存在自相关和异方差, 违背了 $t$ 检验的基本假设. DF 统计量服从一个与 $t$ 分布不同的复杂分布. 这个复杂分布的密度一般通过 Monte Carlo 模拟得出.

DF 检验的三种类型 DF 检验应用于三种常用模型. 根据原假设的结构不同, 拒绝域的临界值会不一样.

无漂移项自回归结构.
- 无延迟项模型 $X_t = \xi _t$ .
- 有延迟项模型 $X_t = \varphi _1 X_{t-1} + \xi _t$ .
- 若 DF 检验拒绝了上面某个结构的原假设, 说明在该结构下该时间序列 $\{X_t\}$ 是平稳序列.
有漂移项自回归结构.
- 无延迟项模型 $X_t = \varphi _0 + \xi _t$ .
- 有延迟项模型 $X_t = \varphi _0 + \varphi _1 X_{t-1} + \xi _t$ .
- 若 DF 检验拒绝了上面某个结构的原假设, 说明在该结构下该时间序列 $\{X_t\}$ 是平稳序列.
关于时间 $t$ 的趋势回归结构.
- 无延迟项模型 $X_t = \alpha + \beta t + \xi _t$ .
- 有延迟项模型 $X_t = \alpha + \beta t + \varphi _1 X_{t-1} + \xi _t$ .
- 若 DF 检验拒绝了上面某个结构的原假设, 说明在该结构下该时间序列的趋势可以用线性模型提取, 提取后的残差项 $\{\xi _t\}$ 是平稳序列.

4.2.2 ADF 单位根检验

DF 检验只考虑 $\mathrm{AR}(1)$ 模型, ADF 检验考虑一般的 $\mathrm{AR}(p)$ 模型. $\mathrm{AR}(p)$ 模型有特征方程

\lambda ^p - \varphi _1 \lambda ^{p-1} - \cdots - \varphi _p = 0

若有单位根存在, 即 $\lambda = 1$ 是特征方程的一个解. 将其带入特征方程, 它等价于 $\varphi _1 + \cdots + \varphi _p = 1$ . 所以可以建立假设

H_0: \varphi _1 + \cdots + \varphi _p = 1, \qquad H_1: \varphi _1 + \cdots + \varphi _p < 1

计算 ADF 统计量

\tau = \frac{\sum \hat \varphi _i - 1}{\mathrm{se}(\sum \hat \varphi _i)}

ADF 统计量也服从一个与 $t$ 分布和 DF 分布不同的复杂分布. 这个复杂分布的密度一般通过 Monte Carlo 模拟得出.

ADF 检验的三种类型 ADF 检验也可以应用于三种常用模型.

无漂移项自回归结构.
- 有 $p$ 阶延迟项模型 $X_t = \varphi _1 X_{t-1} + \cdots + \varphi _p X_{t-p} + \xi _t$ .
有漂移项自回归结构.
- 有 $p$ 阶延迟项模型 $X_t = \varphi _0 + \varphi _1 X_{t-1} + \cdots + \varphi _p X_{t-p} + \xi _t$ .
关于时间 $t$ 的趋势回归结构.
- 有 $p$ 阶延迟项模型 $X_t = \alpha + \beta t + \varphi _1 X_{t-1} + \cdots + \varphi _p X_{t-p} + \xi _t$ .

4.3 模型识别

样本 ACF 定义为

\hat \rho _k = \frac{\sum _{t=1}^{n-k}(x_t - \bar x)(x_{t+k} - \bar x)}{\sum _{t=1}^n (x_t - \bar x)^2}

它是一个有偏估计

E\hat \rho _k = \left(1 - \frac kn\right) \rho _k

样本 PACF 定义为

\hat \varphi _{kk} = \begin{vmatrix} 1 & \hat \rho _1 & \cdots & \hat \rho _1\\ \hat \rho _1 & 1 & \cdots & \hat \rho _2\\ \vdots & \vdots & \ddots & \vdots\\ \hat \rho _{k-1} & \hat \rho _{k-2} & \cdots & \hat \rho _k \end{vmatrix} \Bigg/ \begin{vmatrix} 1 & \hat \rho _1 & \cdots & \hat \rho _{k-1}\\ \hat \rho _1 & 1 & \cdots & \hat \rho _{k-2}\\ \vdots & \vdots & \ddots & \vdots\\ \hat \rho _{k-1} & \hat \rho _{k-2} & \cdots & 1 \end{vmatrix}

它们都渐进服从正态分布

\hat \rho _k \mathop{\dot \sim} N(0, 1/n), \qquad \hat \varphi _{kk} \mathop{\dot \sim} N(0, 1/n)

故可以使用 $2\sigma$ 原则判断.

考虑样本 ACF 图和 PACF 图. 先看 ACF 和 PACF 分别是拖尾 (即其绝对值呈指数衰减) 还是截尾, 来定用 AR、MA 还是 ARMA 模型拟合; 若使用 AR 或 MA 模型, 则再看 ACF 或 PACF 的截尾阶数, 来确定 $p$ 或 $q$ 的值.

若 ACF 拖尾、PACF $p$ 阶截尾, 则识别为 $\mathrm{AR}(p)$ 模型.
若 ACF $q$ 阶截尾, PACF 拖尾, 则识别为 $\mathrm{MA}(q)$ 模型.
若 ACF 和 PACF 都拖尾, 则识别为 $\mathrm{ARMA}(p, q)$ 模型.

ARMA 模型的一种定阶方法是使用三角格子法. 给定一个平稳非纯随机时间序列数据 $\{X_t\}$ , 使用以下方式定义它的 $(i, j)$ 阶扩展自相关函数 (EACF):

考虑 $\mathrm{AR}(i)$ 模型. 用 $(X_{t-1}, \dots, X_{t-i})$ 拟合 $X_t$ , 获得参数 $(\tilde \varphi _1, \dots, \tilde \varphi _i)$ .

定义消除 AR 部分后的新序列 $W_t = X_t - \tilde \varphi _i X_{t-1} - \cdots - \tilde \varphi _i X_{t-i}$ , 它应该要能够被 $\mathrm{MA}(j)$ 模型拟合.

$\{X_t\}$ 的 $(i, j)$ 阶 EACF 定义为 $\{W_t\}$ 的 $j$ 阶 ACF.

然后绘制 EACF 表, 将显著不为零的 EACF 用叉号显示, 否则用 $0$ 显示. 理论上 ARMA 模型的 EACF 表会呈现三角形状, 定阶时寻找三角的左上顶点即可.

注 ACF 图和 PACF 图的特征, 可以帮助我们进行 ARMA 模型的阶数识别, 但显然图识别具有很大的主观性, 这可能会使部分研究人员产生焦虑, 担心自己识别错误造成严重的系统性错误. 其实不必太担心这个问题, 因为平稳可逆的 ARMA 模型存在整体自洽性, 即 AR 模型可以转化为 MA 模型, MA 模型也可以转化为 AR 模型. 因此, 对于 ARMA 模型的阶数识别并没有唯一结果. 很可能出现同一个序列, 使用不同的阶数识别, 都能得到不错的拟合效果.

4.4 参数估计

$\mathrm{ARMA}(p, q)$ 模型是

X_t = \varphi _0 + \varphi _1 X_{t-1} + \cdots + \varphi _p X_{t-p} + \varepsilon _t - \theta _1 \varepsilon _{t-1} - \cdots - \theta _q \varepsilon _{t-q}

其中 $\varepsilon _t \sim WN(0, \sigma _\varepsilon ^2)$ . 它有 $p+q+2$ 个参数, 它们分别是

\varphi _0, (\varphi _1, \dots, \varphi _p), (\theta _1, \dots, \theta _q), \sigma _\varepsilon ^2

总体均值一般使用样本均值估计

\hat \varphi _0 = \bar x = \frac 1n \sum x_i

在中心化 $x_t \gets x_t - \bar x$ 之后可以消去 $\varphi _0$ 参数, 仅剩 $p+q+1$ 个参数. 对于这些参数可以考虑矩估计、极大似然估计、最小二乘估计.

4.4.1 矩估计

首先考虑系数 $(\varphi _1, \dots, \varphi _p), (\theta _1, \dots, \theta _q)$ 的矩估计. 我们曾经推导过 ARMA 模型的理论 ACF, 它是使用参数 $\rho _i = \rho _i(\varphi _1, \dots, \varphi _p, \theta _1, \dots, \theta _q)$ 表示的. 利用前 $p+q$ 个 ACF, 令理论 ACF 等于样本 ACF, 联立 Yule-Walker 方程组

\rho _1 = \hat \rho _1, \quad \dots, \quad \rho _{p+1} = \hat \rho _{p+q}

就可以解得参数的矩估计 $(\hat \varphi _1, \dots, \hat \varphi _p), (\hat \theta _1, \dots, \hat \theta _q)$ .

再考虑白噪声方差 $\sigma _\varepsilon ^2$ 的矩估计. 获得参数的矩估计后, 用 ARMA 模型的表达式迭代地利用历史观察值 (不可获得的历史观察值默认为零) 得到序列估计值 $\bar x_1, \dots, \bar x_n$ . 白噪声方差的矩估计为

\hat \sigma _\varepsilon ^2 = \frac 1n \sum (x_i - \hat x_i)^2

例计算 $\mathrm{AR}(2)$ 模型参数的矩估计. 曾经求过它的 ACF, 取前两项
$\rho _1 = \frac{\varphi _1}{1 - \varphi _2}, \qquad \rho _2 = \frac{\varphi _1^2}{1 - \varphi _2} + \varphi _2$
联立
$\rho _1 = \hat \rho _1, \quad \rho _2 = \hat \rho _2$
可得矩估计
$\hat \varphi _1 = \frac{1 - \hat \rho _2}{1 - \hat \rho ^2} \rho _1, \quad \hat \varphi _2 = \frac{\rho _2 - \rho _1^2}{1 - \rho _1^2}$

实际上对于 $\mathrm{AR}(p)$ 模型总有 Yule-Walker 方程组

\begin{pmatrix} 1 & \rho _1 & \cdots & \rho _{k-1}\\ \rho _1 & 1 & \cdots & \rho _{k-2}\\ \vdots & \vdots & \ddots & \vdots\\ \rho _{k-1} & \rho _{k-2} & \cdots & 1 \end{pmatrix} \begin{pmatrix} \hat \varphi _1\\ \hat \varphi _2\\ \vdots\\ \hat \varphi _k \end{pmatrix} = \begin{pmatrix} \rho _1\\ \rho _2\\ \vdots\\ \rho _k \end{pmatrix}

考虑 Cramer 法则可以得到矩估计的显式解

\hat \varphi _i = \begin{vmatrix} 1 & \rho _1 & \cdots & \rho _1 & \cdots & \rho _{k-1}\\ \rho _1 & 1 & \cdots & \rho _2 & \cdots & \rho _{k-2}\\ \vdots & \vdots & & \vdots & & \vdots\\ \rho _{k-1} & \rho _{k-2} & \cdots & \rho _k & \cdots & 1 \end{vmatrix} \Bigg/ \begin{vmatrix} 1 & \rho _1 & \cdots & \rho _{k-1}\\ \rho _1 & 1 & \cdots & \rho _{k-2}\\ \vdots & \vdots & \ddots & \vdots\\ \rho _{k-1} & \rho _{k-2} & \cdots & 1 \end{vmatrix}

例计算 $\mathrm{MA}(1)$ 模型参数的矩估计. 曾经求过它的 ACF, 取第一项 $\rho _1 = -\theta _1 / (1 + \theta _1^2)$ . 列方程 $\rho _1 = \hat \rho _1$ , 可以反解出
$\hat \theta _1 = \frac{-1 + \sqrt{1 - 4 \hat \rho _1^2}}{2 \hat \rho _1}$
另一个根被舍弃了, 因为 $\mathrm{MA}(1)$ 模型的可逆性要求 $|\theta _1| < 1$ .

例计算 $\mathrm{ARMA}(1, 1)$ 模型参数的矩估计. 曾经求过它的 ACF, 取前两项
$\rho _1 = \frac{\gamma _k}{\sigma ^2} = \frac{(\varphi _1 - \theta _1) (1 - \varphi _1 \theta _1)}{1 + \theta _1^2 - 2\varphi _1 \theta _1}, \qquad \rho _2 = \varphi _1 \rho _1$
考虑可逆条件且经过复杂的计算可以得到矩估计的唯一解
$\hat \varphi _1 = \frac{\hat \rho _2}{\hat \rho _1}, \quad \hat \theta _1 = \begin{cases} (c + \sqrt{c^2 - 4}) / 2, & c \leq -2\\ (c - \sqrt{c^2 - 4}) / 2, & c \geq 2 \end{cases}, \quad c = \frac{1 - \hat \varphi _1 ^2 - 2 \hat \rho 2}{\hat \varphi _1 - \hat \rho _1}$

矩估计计算量小, 简单直观, 不需要假设总体分布; 但仅用到了样本二阶矩的信息, 比较粗糙, 估计精度不高, 因此仅常用于确定极大似然估计和最小二乘估计的迭代初值.

4.4.2 极大似然估计

在极大似然估计中, 我们假设中心化样本 $\boldsymbol x = (x_1, \dots, x_n)^T$ 服从多元正态分布, 它的均值为零向量, 它的方差是 ARMA 模型的 ACVF 排成的矩阵. 定义参数向量 $\boldsymbol \beta = (\varphi _1, \dots, \varphi _p, \theta _1, \dots, \theta _q)^T$ , ARMA 模型的 ACVF 是

\gamma _k = \left(\sum_{i=0}^\infty G_{i}G_{i+k}\right) \sigma _\varepsilon ^2

它是参数 $\boldsymbol \beta$ 的函数. 所以 $\boldsymbol x$ 服从的分布是

\boldsymbol x \sim N(\boldsymbol 0, \Omega \sigma _\varepsilon ^2), \qquad \Omega = \begin{pmatrix} \sum\limits_{i=0}^\infty G_i^2 & \cdots & \sum\limits_{i=0}^\infty G_iG_{i+n-1}\\ \vdots & \ddots & \vdots\\ \sum\limits_{i=0}^\infty G_iG_{i+n-1} & \cdots & \sum\limits_{i=0}^\infty G_i^2 \end{pmatrix}

样本的似然函数是多元正态分布的密度函数

\mathcal L(\boldsymbol \beta \mid \boldsymbol x) = \frac{1}{\sqrt{(2 \pi \sigma _\varepsilon ^2)^k |\Omega|}} \exp -\frac{\boldsymbol x^T \Omega ^{-1} \boldsymbol x}{2 \sigma _\varepsilon ^2}

它的对数似然函数是

\ell(\boldsymbol \beta \mid \boldsymbol x) = -\frac n2 \ln 2\pi - \frac n2 \ln \sigma _\varepsilon ^2 - \frac 12 \ln |\Omega| - \frac{\boldsymbol x^T \Omega ^{-1} \boldsymbol x}{2 \sigma _\varepsilon ^2}

求偏导并令其为零

\left\{ \begin{aligned} \frac{\partial \ell}{\partial \sigma _\varepsilon ^2} & = -\frac{n}{2\sigma _\varepsilon ^2} + \frac{\boldsymbol x^T \Omega ^{-1} \boldsymbol x}{2 \sigma _\varepsilon ^4} = 0\\ \frac{\partial \ell}{\partial \boldsymbol \beta} & = -\frac 12 \frac{\partial \ln |\Omega|}{\partial \boldsymbol \beta} - \frac{1}{2 \sigma _\varepsilon ^2} \frac{\partial \boldsymbol x^T \Omega ^{-1} \boldsymbol x}{\partial \boldsymbol \beta} = 0 \end{aligned} \right.

该方程组没有解析解, 甚至 $\frac{\partial \ln |\Omega|}{\partial \boldsymbol \beta}$ 和 $\frac{\partial \boldsymbol x^T \Omega ^{-1} \boldsymbol x}{\partial \boldsymbol \beta}$ 都没有显式形式. 该方程组是一个超越方程. 通常需要利用迭代算法求数值解.

例若初值 $x_0$ 给定, 正态假设下的 $\mathrm{AR}(1)$ 模型 $X_t = \varphi _0 + \varphi _1 X_{t-1} + \varepsilon _t$ 的似然函数是
$\begin{aligned} \mathcal L(\varphi _0, \varphi _1, \sigma _\varepsilon ^2 \mid \boldsymbol x) & = p(x_t \mid x_{t-1}) p(x_{t-1} \mid x_{t-2}) \cdots p(x_2 \mid x_1) p(x_1 \mid x_0)\\ & = \frac{1}{(\sqrt{2\pi \sigma _\varepsilon ^2})^n} \exp -\sum _{i=1}^n \frac{(x_i - \varphi _0 - \varphi _1 x_{i-1})^2}{2\sigma _\varepsilon ^2} \end{aligned}$
这与简单线性回归的极大似然估计相同. 它也等于简单线性回归的最小二乘估计.

极大似然估计充分利用观察值的信息, 估计精度高, 具有估计一致性、渐进正态性等优良统计性质, 但缺点是需要事先假定序列分布.

4.4.3 最小二乘估计

ARMA 模型的残差是

\varepsilon _t = x_t - \varphi _1 x_{t-1} - \cdots - \varphi _p x_{t-p} + \theta _1 \varepsilon _{t-1} + \cdots + \theta _q + \varepsilon _{t-q}

残差平方和为

Q = \sum _{t=1}^n \varepsilon ^2

由于随机扰动 $\varepsilon _{t-1}, \varepsilon _{t-2}, \dots$ 不可观测, 所以 $Q$ 也不是参数的显性函数, 最小二乘估计也需要通过迭代法求出.

$\mathrm{AR}(p)$ 模型可以使用最小二乘估计. $\mathrm{AR}(p)$ 模型的表达式是
$X_t = \varphi _0 + \varphi _1 X_{t-1} + \cdots + \varphi _p X_{t-p} + \varepsilon _t$
这是一个基本的多元线性回归问题, 可以直接使用多元线性回归的方法求解.

在实际中, 因为观测样本是有起点的, 所以残差一定可以展开成一个 $t$ 项的表达式

\varepsilon _t = x_t - \alpha _1 x_{t-1} - \cdots - \alpha _{t-1} x_1

这就化为了一个标准的二次函数求最值问题, 称为条件最小二乘估计.

最小二乘估计充分利用了样本信息, 所以估计精度很高. 条件最小二乘估计是最常用的估计方法.

4.5 模型检验

4.5.1 模型的显著性检验

模型的的显著性检验等价于检验残差序列是否为白噪音. 因为若序列不是白噪音, 则说明模型对序列自相关性提取不充分, 从而应该重新选择其它模型拟合. 模型显著性检验可以通过对残差序列进行 Ljung-Box 纯随机性检验完成.

4.5.2 参数的显著性检验

有时需要检验一个参数是否显著非零, 从而决定该阶系数是否要从拟合模型中剔除. 检验假设

H_0: \beta _i = 0, \qquad H_1: \beta _i \neq 0

其中 $1 \leq i \leq m$ , $m$ 是待估参数个数. 在经典最小二乘法中, 参数 $\beta _i$ 的平方标准误差是

\mathrm D \hat \beta _i = \omega _j \sigma _\varepsilon ^2, \qquad \Omega = (X^TX)^{-1} = \begin{pmatrix} \omega _1 & \cdots & *\\ \vdots & \ddots & \vdots\\ * & \cdots & \omega _m \end{pmatrix}

由于 $\sigma _\varepsilon ^2$ 不可观测, 所以考虑其最小残差平方和估计

\hat \sigma _\varepsilon ^2 = \frac{Q}{n - m}

现在可以考虑 $t$ 检验

t = \frac{\hat \beta _j}{\sqrt{\omega _j Q / (n-m)}} \sim t(n-m)

4.6 模型优化

可能同时有很多显著的模型, 它们的拟合残差同时都是白噪音. 需要一个定量描述模型优度的指标.

时间序列的拟合实际上是一个双目标优化问题. 它有两个目标: 拟合优度最大, 待估参数个数最小. 但是该二优化目标是相互矛盾的: 因为参数越多, 拟合优度一定更大. 故应寻找一种让两个优化目标达到平衡的判断准则.

本问题首先对残差平方和 $\sum_t\varepsilon_t$ ( $t$ 取遍所有已知的时间) 作极大似然估计, 然后使用随机项方差 ${\hat \sigma}_\varepsilon^2$ 描述拟合优度; 另一方面计算出待估参数的个数为 $p+q+1$ . 现在引出赤池信息准则 (AIC, Akaike Information Criterion):

\mathrm{AIC}(p,q)=n\ln {\hat \sigma}_\varepsilon^2+2(p+q+1)

AIC 的值越小越好. AIC 的问题在于, $\ln {\hat \sigma}_\varepsilon^2$ 的权重是 $n$ , 但是待估参数个数的权重始终是 $2$ . 这会造成 $n$ 较大时参数个数失权的问题. 故经修改得出 Bayes 信息准则 (BIC, Schwarz's Bayesian Information Criterion):

\mathrm{BIC}(p,q)=n\ln {\hat \sigma}_\varepsilon^2+\ln n\cdot (p+q+1)

AIC 偏向于预测, 会选择拟合度高的模型; BIC 偏向于拟合, 会选择参数较少的模型. 这两个信息准则各有优劣.

4.7 序列预测

4.7.1 线性预测

任意一个平稳 ARMA 模型有逆转形式

X_t = -I_1 X_{t-1} - I_2 X_{t-2} - \cdots - I_{t-1} X_1 + \varepsilon _t

忽略白噪音项后, 可以得到未来时间序列的点估计

\hat x_{t+1} = -I_1 x_t - I_2 x_{t-1} - \cdots, \qquad \hat x_{t+2} = -I_1 \hat x_{t+1} - I_2 x_t - \cdots

$\hat x_{t+2}$ 及以后得点估计可以迭代展开, 只需将 $\hat x_{t+1}$ 等代入即可. 例如

\hat x_{t+2} = (I_1^2 - I_2) x_t + (I_1I_2 - I_3) x_{t-1} + \cdots

4.7.2 预测方差最小原则

预测方差最小原则希望最小化预测方差. 对于 $k$ 期预测值, 定义预测误差 $e_{t+k}$ , 并希望它的方差最小

e_{t+k} := x_{t+k} - \hat x_{t+k}, \qquad \mathrm De_{t+k} = \min

考虑传递形式 $x_{t+k} = \varepsilon _{t+k} + G_1 \varepsilon _{t+k-1} + \cdots$ . Green 函数是模型参数的函数, 在完成模型参数的估计后, Green 函数的值也可以被估计. 在预测中, $\hat x_{t+k}$ 是已知数据 $\{x_t, x_{t-1}, \dots\}$ 的线性函数. 所以预测值可以写成

\begin{aligned} \hat x_{t+k} & = D_0 x_t + D_1 x_{t-1} + D_2 x_{t-2} + \cdots\\ & = D_0(\varepsilon _t + G_1 \varepsilon _{t-1} + G_2 \varepsilon _{t-2} + \cdots) + D_1(\varepsilon _{t-1} + G_1 \varepsilon _{t-2} + \cdots) + D_2(\varepsilon _{t-2} + \cdots)\\ & = \underbrace{D_0}_{W_0} \varepsilon _t + (\underbrace{D_0G_1 + D_1}_{W_1}) \varepsilon _{t-1} + (\underbrace{D_0G_2 + D_1G_1 + D_2}_{W_2}) \varepsilon _{t-2} + \cdots\\ & =: W_0 \varepsilon_t + W_1 \varepsilon_{t-1} + W_2 \varepsilon _{t-2} + \cdots \end{aligned}

预测误差是

\begin{aligned} e_{t+k} & = x_{t+k} - \hat x_{t+k}\\ & = (\varepsilon _{t+k} + G_1 \varepsilon _{t+k-1} + \cdots + G_k \varepsilon _t + \cdots) - (W_0 \varepsilon_t + W_1 \varepsilon_{t-1} + \cdots)\\ & = (\varepsilon _{t+k} + G_1 \varepsilon _{t+k-1} + \cdots + G_{k-1} \varepsilon _{t+1}) + (G_k - W_0) \varepsilon _t + (G_{k+1} - W_1) \varepsilon _{t-1} + \cdots \end{aligned}

它的方差是

\mathrm De_{t+k} = \Big((1 + G_1 + \cdots + G_{k-1}) + (G_k - W_0) + (G_{k+1} - W_1) + \cdots \Big) \sigma _\varepsilon ^2

要使方差最小, 我们令

G_k = W_0, \qquad G_{k+1} = W_1, \qquad \cdots

所以预测值是

\hat x_{t+k} = G_k \varepsilon _t + G_{k+1} \varepsilon _{t-1} + \cdots

预测误差的均值和方差是

\mathrm Ee_{t+k} = 0, \qquad \mathrm De_{t+k} = (1 + G_1 + \cdots + G_{k-1}) \sigma _\varepsilon ^2

4.7.3 线性最小方差预测的性质

AR 模型预测 $\mathrm{AR}(p)$ 模型的 $k$ 步预测值是

\hat x_{t+k} = \varphi _0 + \varphi _1 x_{t+k-1} + \cdots + \varphi _p x_{t+k-p}

其中 $t+k-p \geq t$ 的那些值用其预测值代替. 它的预测方差为

\mathrm De_{t+k} = (1 + G_1^2 + \cdots + G_{k-1}^2) \sigma _\varepsilon ^2

MA 模型预测 $\mathrm{MA}(q)$ 模型的 $k$ 步预测值是

\hat x_{t+k} = \begin{cases} \mu - \theta _k \varepsilon _t - \theta _{k+1} \varepsilon _{t-1} + \cdots + \theta _q \varepsilon _{t+k-q}, & k \leq q\\ \mu, & k > q \end{cases}

其中 $\varepsilon _i$ 是 $x_i$ 的拟合残差. $\mathrm{MA}(q)$ 模型理论上只能预测 $q$ 步之内的序列走势, 且 $k$ 步预测只利用最新的 $q-k+1$ 个样本残差值, 这是由其 ACF 的 $q$ 步截尾性决定的. 它的预测方差是

\mathrm De_{t+k} = \begin{cases} (1 + \theta _1^2 + \cdots + \theta _{k-1}^2) \sigma _\varepsilon ^2, & k \leq q\\ (1 + \theta _1^2 + \cdots + \theta _q^2) \sigma _\varepsilon ^2, & k > q \end{cases}

ARMA 模型预测 $\mathrm{ARMA}(p, q)$ 模型的 $k$ 步预测值是

\hat x_{t+k} = \begin{cases} \varphi _0 + \varphi _1 x_{t+k-1} + \cdots + \varphi _p x_{t+k-p} - \theta _k \varepsilon _t - \theta _{k+1} \varepsilon _{t-1} + \cdots + \theta _q \varepsilon _{t+k-q}, & k \leq q\\ \varphi _0 + \varphi _1 x_{t+k-1} + \cdots + \varphi _p x_{t+k-p}, & k > q \end{cases}

其中 $t+k-p \geq t$ 的那些值用其预测值代替, $\varepsilon _i$ 是 $x_i$ 的拟合残差. 它的预测方差为

\mathrm De_{t+k} = (1 + G_1^2 + \cdots + G_{k-1}^2) \sigma _\varepsilon ^2

4.7.4 修正预测

假设在已知旧信息 $\{x_t\}$ 的基础上, 又知道了一步新信息 $x_{t+1}$ , 此时可以直接修正预测

\hat x_{t+k} \gets G_{k-1} \varepsilon _{t+1} + \hat x_{t+k}

其中 $\varepsilon _{t+1}$ 是 $x_{t+1}$ 的拟合残差. 修正后的预测误差的方差为

\mathrm De_{t+k} \gets \mathrm De_{t+k} - G_{k-1}^2 \sigma _\varepsilon ^2

假设在已知旧信息 $\{x_t\}$ 的基础上, 又知道了一步新信息 $\{x_{t+p}\}$ , 此时可以直接修正预测

\hat x_{t+k} \gets G_{k-p} \varepsilon _{t+p} + \cdots + G_{k-1} \varepsilon _{t+1} + \hat x_{t+k}

修正后的预测误差的方差为

\mathrm De_{t+k} \gets \mathrm De_{t+k} - (G_{k-1}^2 + \cdots + G_{k-p}^2) \sigma _\varepsilon ^2

《应用时间序列分析》笔记（第二部分：平稳序列建模）

4 平稳序列的拟合与预测​

4.2 单位根检验​

4.2.1 DF 单位根检验​

4.2.2 ADF 单位根检验​

4.3 模型识别​

4.4 参数估计​

4.4.1 矩估计​

4.4.2 极大似然估计​

4.4.3 最小二乘估计​

4.5 模型检验​

4.5.1 模型的显著性检验​

4.5.2 参数的显著性检验​

4.6 模型优化​

4.7 序列预测​

4.7.1 线性预测​

4.7.2 预测方差最小原则​

4.7.3 线性最小方差预测的性质​

4.7.4 修正预测​