时间序列ARIMA模型在疫情预测中的应用
时间序列ARIMA模型在疫情预测中的应用
时间序列ARIMA模型疫情预测中的应用*
罗静1,杨书2,张强1,王璐1
摘要:目的:探讨应用时间序列求和自回归移动平均(ARIMA)模型预测艾滋病发病率的可行性。方法:利用重庆市1993年~2009年艾滋病发病情况数据,建立ARIMA预测模型。结果:ARIMA(1,1,1)×(0,1,0)12很好的拟合了艾滋病发病率,2009年7月~12月的预测值符合实际发病率变动趋势。结论:ARIMA模型很好的模拟艾滋病发病率在时间序列上的变动趋势,可以为疫情防控提供借鉴。
关键词:时间序列;ARIMA模型;艾滋病
ARIMA MODEL OF TIME SERIES FOR FORECASTING INCIDENCE OF AIDS
Luo Jing1, Yang Shu2, Zhang Qiang1 et al
(1 Department of Health Statistics,West China School of Public Health,Sichuan University,Ch
engdu,Sichuan 610041;2 Public health department of Chengdu Medical College,Chengdu,Sichuan 610083)
Abstract:[Objective] To explore the feasibility of AutoRegressive Integrated Moving Average (ARIMA) model to predict the incidence of AIDS.[Methods] ARIMA model was established basing on the AIDS incidence in Chongqing during 1993-2009.[Result] Model of ARIMA(1,1,1)×(0,1,0)12 exactly fitted the incidence of AIDS. The fit values of incidence in July to December 2009 were consistent with the actual data of incidence.[Conclusion] ARIMA model can be used to exactly fit the changes of the incidence of AIDS in time series, which can provide reference for prevention and control of AIDS.
Key words: time series; ARIMA model; Acquired Immune Deficiency Syndrome
疫情开始的时间*国家自然科学基金青年基金项目(81001295)
1四川大学公共卫生学院卫生统计教研室,四川成都,610041
2成都医学院公共卫生系,四川成都,610083
艾滋病,即获得性免疫缺陷综合症(Acquired Immune Deficiency Syndrome ,AIDS ),是由艾滋病病毒(HIV )破坏人体免疫系统,使其丧失抵抗各种疫病能力的一种严重危害人类生命安全的疾病。2000年后,特别是2005年以来,我国的艾滋病感染人数上涨迅速。在艾滋病的防控工作中,如能在局部范围内,对未来感染人数做一定程度预判,为“三间分布”提供信息,对制定正确的防控政策和卫生资源配置提供依据,具有一定的指导意义。本文以重庆市艾滋病疫情发展为例,采用ARIMA 时间序列模型拟合预测发病率,探讨模型的可行性,对相关问题做探索性研究。 1资料与方法 1.1资料来源
相关数据由重庆市疾病控制部门提供,包括1993年~2009年重庆市辖区月度新发感染人数,以及该市2010年统计年鉴。 1.2模型介绍
求和自回归移动平均(AutoRegressive Integrated Moving Average ,ARIMA )模型是以序列不同时期内的相关度量为基础,进行的一种精确度较高的短期预测分析方法。该法由美国学者Box 和英国统计学者Jenkins 于1976年提出,故又称为Box-Jenkins 模型。在ARIMA 模型中,变量的未来取值可以表达为过去若干个取值和随机误差的线性函数。
=≠====<t.,0)(,,0)(,)(,0)(,
2s x E t s E Var E Θ(B)εX Φ(B)▽t s s t t t t t d εεεσεεε 式中:
q
q p
p d
d B B B B B B B θθφφ---=Θ---=Φ-=…1)(…1)()1(▽11
其中B是后移算子,εt为各期的随机扰动或随机误差,d为差分阶数,p和q分别表示自回归阶数和移动平均阶数,X t为各期的观察值(t=1,2,…,k)[1、2]。
1.3建立模型
建立ARIMA时间序列模型可归纳为3个阶段:序列的平稳化,模型识别以及参数估计和模型诊断,通过这3个处理的反复进行,最终确定一个用于预报的“最优”模型。
1.3.1序列的平稳化
序列的平稳性是ARIMA模型分析的前提条件,即要求均数不随时间变化;方差不随时间变化;自相关系数只与时间间隔有关,而与所处的时间无关[3]。对于非平稳的序列,可以通过差分和Box-Cox变换使均数和方差平稳化。
1.3.2模型识别
通过观察序列自相关(Autocorrection Fuction,ACF)和偏自相关(Partial Autocorrection Fuction,PACF)的截尾、拖尾性初步为序列定阶,提供几个粗模型以便进一步分析完善。
1.3.3参数估计和模型诊断
根据模型阶数,运用最大似然法估计或最小二乘法估计,计算出求和自回归移动平均过程的各项系数,并做假设检验。在模型的拟合中,应满足模型的残差序列是白噪声序列,即Box-Ljung Q统计量无统计学意义(P>0.05)。
若几个模型均满足参数有统计学意义,残差序列为白噪声序列的要求,则使拟合优度统计量AIC和SBC均达到最小的模型为最优模型。反之,模型参数无统计学意义,或残差序列不是白噪声序列,都需要返回识别阶段,重新调整各个阶数的值,再进行参数估计和模型诊断。
1.4统计方法
应用SPSS13.0建立ARIMA时间序列模型并进行数据处理和分析[4、5]。
2结果
2.1数据预处理
对重庆市艾滋病月发病率作序列图,发现数据总体呈上升趋势,如图1。其中,1993年~2003年月发病率较低,其大多数月份为0,最大值为0.0739(1/10万);2005年1月、3月呈现两个高峰,其后数据波动幅度增大,序列的方差在前后差别明显。因此,以2005年1月为切点,将数据分为两个部分。利用2005年1月~2009年6月发病率作建模数据,将2009年7月~12月的数据作为验证数据,对重庆市艾滋病发病率做一个短期预测。对序列进行自然对数变换以平稳其方差,再进行一次差分和一次时点间隔为12的季节差分,以消除序列趋势和季节周期的影响。对转换后的序列做平稳性检验(游程检验Z=1.903,P=0.057>0.05),显示此时序列是平稳的。
图1 1993年~2009年重庆市艾滋病月发病率序列图
2.2模型识别
观察图2中处理后序列的ACF和PACF图,自相关函数和偏自相关函数呈现递减且拖尾[6]。可初步判断模型为模型一ARIMA(1,1,1)×(0,1,0)12、模型二ARIMA(1,1,1)×(0,1,1)12或模型三ARIMA(1,1,0)×(0,1,0)12。
图2 原序列经过对数转换和两次差分后的ACF和PACF图
2.3参数估计及检验
模型一和模型三的参数都具有统计学意义,模型二中MA1和SMA不具有
统计学意义。见表1。
表1 备选模型的参数估计
ARIMA(1,1,1)×(0,1,0)12ARIMA(1,1,1)×(0,1,1)12ARIMA(1,1,0)×(0,1,0)12参数 B t P B t P B t P
自回归系数AR1-0.545 -3.351 0.003 -0.493 -3.111 0.005 -0.752 -5.914 0.000 移动系数平均MA10.928 2.341 0.028 0.979 0.667 0.511 - - -
季节移动平均系数SMA- - - 0.520 1.580 0.127 - - -
常数Constant0.000 0.038 0.970 0.002 0.176 0.862 -0.024 -0.214 0.832
2.4模型诊断
比较备选模型的拟合优度统计量,显示模型一和模型二其值相对较小,见表
2。但模型一中所有参数都具有统计学意义,且参数间无明显相关性(r=0.267)。
此外,观察模型一残差的自相关图,结果显示该模型的Box-Ljung Q统计量均无
统计学意义(P>0.05),可以认为残差序列为白噪声[7]。综上分析,模型一为最
优模型。因此,可以确定重庆市艾滋病发病率的预测模型为ARIMA(1,1,1)×
(0,1,0)12,其表达式为:
(1+0.545B)▽12▽lnX t=(1-0.928B)εt

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。