《应用时间序列分析》笔记(第一部分:ARMA 模型及其性质)
1 时间序列分析简介
1.2 时间序列的定义
时间序列随机变量及其实现 使用按时间顺序排列的一个随机变量族 {X1,X2,…,Xn} 来表示一个时间序列, 简记为 {Xt}t∈T, 其中时间下标 T={1,…,n}. 用 {x1,x2,…,xn} 表示该随机序列变量的 n 个观测值, 有时也称为一个实现.
时间序列的概率分布族 时间序列有时可以是一个无穷序列 {X1,X2,…}, 难以用联合分布的方式定义概率分布. 但是可以定义它每一个非平凡有限子集的分布
{Ft1,…,tm(x1,…,xm):m∈Z+,{t1,…,tm}∈2T}
将这些有限维分布构成的全体称为 {Xt} 的概率分布族.
数字特征 时间序列 {Xt} 有以下常用数字特征:
-
均值 μt:=EXt=∫−∞+∞xdFt(x).
-
方差 σt2:=DXt=E(Xt−μt)2.
-
自协方差系数 (ACVF, auto-covariance function) 任取 t,s∈T, 定义它们的 ACVF 为
γ(t,s):=Cov(Xt,Xs)=E(Xt−μt)(Xs−μs)
- 自相关系数 (ACF, auto-correlation function) 任取 t,s∈T, 定义它们的 ACF 为
ρ(t,s):=Corr(Xt,Xs)=DXtDXsCov(Xt,Xs)
- 偏自相关系数 (PACF, partial auto-correlation function) 任取 t,s∈T (不妨 t≤s), 定义它们的 PACF 为给定中间序列值后的条件 ACF.
∂ρ(t,s):=Corr(Xt,Xs∣{Xτ}τ=t+1s−1)
2 时间序列的预处理
2.1 平稳序列的定义
严平稳性 即时间序列所有矩具有平移不变性, 等价于时间序列的分布函数具有平移不变性. 给定时间序列 {Xt}t=1n, 若任取其有限子集 t1,…,tm∈T, 任取时间间隔 k, 都有
Ft1,…,tm(x1,…,xm)=Ft1+k,…,tm+k(x1,…,xm)
则称该时间序列具有严平稳性 (strictly stationary).
(宽)平稳性 即时间序列直到二阶矩具有平移不变性. (宽)平稳性是严平稳性的放宽, 它仅需要保证序列直到二阶矩平稳. 给定时间序列 {Xt}t=1n, 若
-
一阶矩平稳, 即均值恒定. μt≡μ.
-
自身二阶矩平稳, 即方差恒定. σt2≡σ2.
-
交叉二阶矩平稳, 即 ACVF (等价于 ACF) 仅与时间间隔有关.
∀t,s,∀k∈N,γ(t,s)=γ(t+k,s+k)
则称该时间序列具有宽平稳性 (weak stationary). 此时 ACVF 和 ACF 可以写成时间间隔的函数 γk 或 ρk.
样本 ACVF 和样本 ACF 给定一个平稳时间序列 {xt}t=1n, 可以计算它的样本 ACVF 和样本 ACF
γ^k=n−k1t=1∑n−k(xt−xˉ)(xt+k−xˉ),ρ^k=γ^0γ^k
它们可以作为 ACVF 和 ACF 的估计.
PACF 的计算 对于一个中心化平稳时间序列 {Xt}, PACF 也仅与时间间隔有关, 所以也可以写成时间间隔的函数 ∂ρk. 考虑用历史 k 期序列值对 Xt 做简单线性回归
Xt=φk1Xt−1+⋯+φkkXt−k+εt
在获得 (φk1,…,φkk) 的最小二乘估计值后, 给定中间的序列值 {Xτ}τ=t−k+1t−1, 此时 Xt 和 Xt−k 的拟合值和真实值分别满足
{X^tXt=φk1Xt−1+⋯+φkkX^t−k=φk1Xt−1+⋯+φkkXt−k+εt
两式相减可以得到
Xt−X^t=φkk(Xt−k−X^t−k)+εt
即 φkk 等于两个残差的相关系数, 这正是 PACF 的定义.
φkk=Corr(Xt−X^t,Xt−k−X^t−k)=Corr(Xt,Xt−k∣{Xτ}τ=t−k+1t−1)=∂ρk
Yule-Walker 方程组 Yule-Walker 方程组描述了 ACF 与 PACF 之间的关系. 给定中心化平稳时间序列 {Xt}, 有 E(XtXs)/σ2=ρs−t. 所以在
Xt=φk1Xt−1+⋯+φkkXt−k+εt
对于 ℓ∈{1,…,k}, 等号两侧同乘 EXt−ℓ 可以得到 Yule-Walker 方程组
⎩⎨⎧ρ1=φk1ρ0+φk2ρ1+⋯φkkρk−1ρ2=φk1ρ1+φk2ρ0+⋯φkkρk−2⋯ρk=φk1ρk−1+φk2ρk−2+⋯φkkρ0
它的矩阵形式是
1ρ1⋮ρk−1ρ11⋮ρk−2⋯⋯⋱⋯ρk−1ρk−2⋮1φk1φk2⋮φkk=ρ1ρ2⋮ρk
由 Cramer 法则可以得到 PACF 的显式解
φkk=1ρ1⋮ρk−1ρ11⋮ρk−2⋯⋯⋱⋯ρ1ρ2⋮ρk/1ρ1⋮ρk−1ρ11⋮ρk−2⋯⋯⋱⋯ρk−1ρk−2⋮1
分子是系数矩阵的行列式, 分母是将系数矩阵最后一列换成 ACF 向量得到的矩阵的行列式.
2.2 平稳性检验
时间序列的平稳性可以从时序图看出, 但是仅适用于趋势或周期比较明显的序列. 否则应该使用单位根检验法. 单位根检验见 4.2 节.
不平稳的成因可能是有趋势、有季节波动、有 异方差性或有单位根等. 有单位根的时间序列一定非平稳 (称为单位根非平稳). 但有的时间序列具有季节波动, 即使它没有单位根, 它也不平稳.
2.3 纯随机性检验
若一个平稳时间序列的交叉二阶矩为零, 即对于时间序列 {Xt},
EXt≡μ,DXt≡σ2,γ(k)≡0,∀k≥1
则称该时间序列为纯随机序列, 也称为白噪声 (white noise) 序列, 记为 Xt∼WN(μ,σ2).
注 白噪声分布不是一族分布, 即它的参数 μ,σ2 并不足以确定它的分布函数. 它可能是独立同分布的正态变量 Xt∼i.i.dN(μ,σ2), 也可能是独立同分布的均匀分布变量 Xt∼i.i.dU(μ−3σ,μ+3σ), 甚至可能 t 为奇偶数时各自服从相互同均值同方差且线性无关的的正态分布和均匀分布.
单一 ACF 是否为零的 t 检验 有时我们需要检验某一个 ACF 是否为零. 给定时间间隔 k∈Z+, 考虑假设检验
H0:ρk=0,H1:ρk=0
考虑 t 检验
t=(1+2∑i=1k−1ρ^i2)/nρ^k∼˙StdN
所有 ACF 是否均为零的 Ljung-Box 纯随机性检验 有时我们需要检验所有 ACF 是否均为零, 但这是困难的. 我们可以检验时间序列是否直到 m 阶 ACF 为零.
H0:ρ1=⋯=ρm=0,H1:ρi=0,∃i≤m
考虑 Ljung-Box 纯随机性检验
Q=n(n+2)i=1∑mn−iρ^i2∼˙χ2(m)
m 的选择不应过大. 一方面若时间序列短期不自相关, 长期就更不会自相关. 另一方面考虑延迟期数太长反而可能淹没短期自相关性.
3 ARMA 模型的性质
3.1 Wold 分解定理
时间序列分析的全部理论基础依赖于 Wold 分解定理.
Wold 分解定理 任一离散平稳时间序列都可以分解为两个不相关平稳过程之和, 一个是确定性的 (deterministic), 一个是随机性的 (stochastic). 即
Xt=Vt+ξt
确定性时间序列 确定性时间序列可以表示为历史序列值的线性组合. 即
Vt=φ1Xt−1+φ2Xt−2+⋯
其中 (φ1,φ2,…) 是待估参数. 它实际上就是自回归 (AR, auto-regressive) 模型, 由 Yule 于 1927 年提出.
随机时间序列 随机时间序列可以表达为白噪音的线性组合. 即
ξt=εt−θ1εt−1−θ2εt−2−⋯
其中 εt 是时刻 t 对应的白噪音值, (θ1,θ2,…) 是待估参数. {εt} 称为新息过程 (innovation process), 是每个时期加入的新随机信息. 它实际上就是移动平均 (MA, moving average) 模型, 由 Walker 于 1931 年提出.
一般的平稳时间序列 将可预测时间序列与不可预测时间序列叠加, 将 Vt 和 ξt 的方程代入 Wold 分解定理, 可以得到
Xt−φ1Xt−1−φ2Xt−2−⋯=εt−θ1εt−1−θ2εt−2