**未完成**【统计学】平稳时间序列的 ARMA 模型
摘 要 (本文章尚未完成)
1 模型优化目标
1.1 Wold 分解定理
Wold 分解定理 任一离散平稳时间序列都可以分解为一个可预测时间序列和一个不可预测时间序列之和, 且两部分互相独立.
$$X_t=P_t+N_t,\qquad E(P_iN_j)\equiv 0,\forall i\forall j$$
可预测时间序列 即可以表示为时间 $t$ 的函数的时间序列 $P_t=P(t)$. 可以等价表示为历史序列值的线性函数.
不可预测时间序列 即完全无法预测的时间序列. 可以表达为白噪音的线性组合.
一般的平稳时间序列 将可预测时间序列与不可预测时间序列相加的结果.
时间序列类型 | 模型 | 用 $B$ 表示的模型 |
---|---|---|
可预测时间序列 | $P_t=\sum_{i=1}^\infty \varphi_iX_{t-i}$ | $P_t=X_t-\Phi(B)X_t$ |
不可预测时间序列 | $N_t=\varepsilon_t-\sum_{j=1}^\infty \theta_j\varepsilon_{t-j}$ | $N_t=\Theta(B)\varepsilon _t$ |
一般的时间序列 | $X_t-\sum_{i=1}^\infty \varphi_iX_{t-i}=\varepsilon_t-\sum_{j=1}^\infty \theta_j\varepsilon_{t-j}$ | $X_t=\frac{\Theta(B)}{\Phi(B)}\varepsilon _t$ |
上述引出了一个重要结论: 任一平稳时间序列都可以写成 $X_t=\frac{\Theta(B)}{\Phi(B)}\varepsilon _t$ 的形式. 其中引入了延迟算子 $B$ 以简记 $B^kX_t=X_{t-k}$, 另
$$\Phi(B)=1-\varphi_1B-\varphi_2B^2-\cdots,\qquad \Theta(B)=1-\theta_1B-\theta_2B^2-\cdots$$
均是 $B$ 的无穷次多项式. 但是考虑无穷次多项式是困难的, 所以本文的目的是找到 $\Phi(B)$ 和 $\Theta(B)$ 的低阶近似. 并且希望 $\varepsilon_t$ 是白噪音 $\mathrm{WN}(0,\sigma_\varepsilon^2)$.
1.2 指定阶数下的优化目标
对于给定的阶数 $p,q$, 求解 $\Phi(B)$ 和 $\Theta(B)$ 实际上是在解决一个优化问题:
$$\begin{aligned}\sigma_\varepsilon^2(p,q)=\min _{\Phi,\Theta,\varepsilon_t}&\quad\frac{1}{n-1}\sum_t \varepsilon_t^2\\\text{s.t.}&\quad X_t=\frac{\Theta(B)}{\Phi(B)}\varepsilon _t\\&\quad \operatorname{\mathrm{deg}}\Phi=p,\ \operatorname{\mathrm{deg}}\Theta=q\end{aligned}$$
1.3 阶数的确定: AIC 与 BIC
时间序列的拟合实际上是一个多目标优化问题. 它有两个目标: 拟合优度最大, 待估参数个数最小. 但是该二优化目标是相互矛盾的: 因为参数越多, 拟合优度一定更大. 故应寻找一种让两个优化目标达到平衡的判断准则.
本问题首先对残差平方和 $\sum_t\varepsilon_t$ ($t$ 取遍所有已知的时间) 作极大似然估计, 然后使用随机项方差 ${\hat \sigma}_\varepsilon^2$ 描述拟合优度; 另一方面计算出待估参数的个数为 $p+q+1$. 现在引出赤池信息准则 (AIC, Akaike Information Criterion):
$$\mathrm{AIC}(p,q)=n\ln {\hat \sigma}_\varepsilon^2+2(p+q+1)$$
AIC 的值越小越好. AIC 的问题在于, $\ln {\hat \sigma}_\varepsilon^2$ 的权重是 $n$, 但是待估参数个数的权重始终是 $2$. 这会造成 $n$ 较大时参数个数失权的问题. 故经修改得出 Bayes 信息准则 (BIC, Bayesian Information Criterion, 又称 Schwarz 贝叶斯准则, SBC, Schwarz's Bayesian Criterion):
$$\mathrm{BIC}(p,q)=n\ln {\hat \sigma}_\varepsilon^2+\ln n\cdot (p+q+1)$$
AIC 偏向于预测, 会选择拟合度高的模型; BIC 偏向于拟合, 会选择参数较少的模型. 这两个信息准则各有优劣.
2 参数计算方法(一)
2.1 完全可预测的情况: AR 模型
首先研究要拟合的时间序列是完全可预测的情况即 $X_t=P_t$. 此时的方程
$$\Phi(B)X_t=0,\qquad \operatorname{\mathrm{deg}}\Phi=\infty$$
在现实中研究无穷个参数的拟合方法是不合理的, 所以考虑次数为 $p$ 的 $\Phi(B)$ 多项式:
$$\Phi(B)X_t=\varepsilon _t,\qquad \operatorname{\mathrm{deg}}\Phi=p$$
其中 $\varepsilon_t$ 是拟合误差, 在模型中我们希望它是白噪音. 该模型记作 $\mathrm{AR}(p)$ 模型.