时间序列自回归综合移动平均模型在新城疫疫情预测中应用
来源:工作计划 发布时间:2020-08-31 点击:
时间序列自回归综合移动平均模型在新城疫疫情预测中的应用
李静1基金项目:*作者:李静(1982-),女,山东青岛人,博士研究生,主要研究方向:兽医信息学,E-mail:qingzhu2872@**通讯作者:王洪斌(1958-),男,内蒙古赤峰人,教授,博士生导师,主要研究方向:兽医信息学、小动物腹腔镜及动物麻醉等,Tel:0451E-mail:hbwang@,许丹宁2,肖建华1,马海鹍1,
基金项目:
*作者:李静(1982-),女,山东青岛人,博士研究生,主要研究方向:兽医信息学,E-mail:qingzhu2872@
**通讯作者:王洪斌(1958-),男,内蒙古赤峰人,教授,博士生导师,主要研究方向:兽医信息学、小动物腹腔镜及动物麻醉等,Tel:0451E-mail:hbwang@
东北农业大学动物医学学院 哈尔滨,150030;2. 仲恺农业工程学院生命科学学院 广州,510225)
摘要:目的 验证自回归综合移动平均(ARIMA)模型预测新城疫疫情的发病可行性,并为家禽养殖中新城疫的防治提供数据支持。方法 选择我国南方A、B两省作为研究对象,选取《兽医公报》中2000年1月~2007年12月8年间的月发病数以及A、B两省的家禽当年出栏量计算得出的新城疫月发病率作为时间序列模型的数据源。利用SPSS软件进行时间序列模型的构建,通过2008年的发病率进行模型检验。并据此对模型预测新城疫发病情况分析的可行性、建模步骤及准确性验证进行了探讨。结果 结果显示ARIMA模型计算出的预测值与实际值拟合较好,可用于对未来的新城疫发病率进行预测,为新城疫的防控工作提供可靠的参考依据。
关键词:新城疫;时间序列模型;月发病率;预测
新城疫(newcastle disease,ND)是由新城疫病毒引起禽的一种急性、热性、败血性和高度的接触性传染病。以高热、呼吸困难、下痢、神经紊乱、黏膜和浆膜出血为特征。具有很高的发病率和病死率,是危害养禽业的一种主要传染病。世界动物卫生组织(OIE)将其列为A类疫病,在我国将其列为一类传染病。对新城疫发病疫情的预测能够最大限度的降低该病对家禽养殖业的影响。疫病的发病率、死亡率等是随时间变化的,而且有着明显的时间先后顺序,这种一时间顺序排列起来的一系列观测值称为时间序列。时间序列分析是专门用于分析这种时间序列资料的统计模型,它考虑的不是变量间的因果关系,而是重点考察变量在时间方面的变化规律,并为之建立数学模型。
1 材料与方法
1.1数据来源
新城疫月发病数为2000.1-2008.12年间A、B两省新城疫数据(来自农业部出版的《兽医公报》),家禽出栏数来自《中国农业统计年鉴》。数据分别用A序列、B序列表示。
ND月发病率=
ND月发病数
×K
当年年底出栏量
注:(K为单位系数,本研究中月发病率的单位为1/万只)
1.2 时间序列自回归综合移动平均模型简介
1.2.1
ARIMA模型全称为自回归综合移动平均模型(Autoregressive Integrated Moving Average Model,简记ARIMA),是由博克思(Box)和詹金斯(Jenkins)于70年代初提出的一著名时间序列预测方法,所以又称为box-jenkins模型、博克思-詹金斯法。其中ARIMA(p,d,q)称为差分自回归移动平均模型,AR是自回归,p为自回归项;MA为移动平均,q为移动平均项数,d为时间序列成为平稳时所做的差分次数。
1.2.2
将预测对象随时间推移而形成的数据序列视为一个随机序列,用一定的数学模型来近似描述这个序列。这个模型一旦被识别后就可以从时间序列的过去值及现在值来预测未来值。
1.2.3 ARIMA模型预测的基本程序[1
4步建模法:①序列的平稳化:首先从散点图中确定序列是否平稳,若不平稳则要对序列进行平稳化。②模型识别:利用自相关图等,把握模型的大致方向,为目标模型定阶,并选1-2个特定的模型拟合所分析的时间序列数据。③模型的参数估计与检验:参数估计是对识别阶段提供的粗模型参数估计并假设检验,用以判断模型是否恰当,并通过调试比较,确定最佳模型;如不佳则返回第一阶段,重新选定模型。④预测:利用2008年的新城疫发病数据检验2000-2007年间的新城疫月发病率为基础数据拟合的模型预测效果。
1.3 分析方法
采用SPSS(Statistical Product and Service Solutions)13.0统计分析软件进行模型的建立。运用其中的相关模块进行数据处理和分析,建立月发病率数据库,其中2000.1-2007.12年8年间的新城疫月发病率用于建立模型,2008年数据用于验证模型的预测效果。
2 建模与模型验证
2.1 时间序列模型的建模过程
2.1
首先通过制作A、B两个省的新城疫月发病率的原始时间序列图进行观察及游程检验结果显示,发现该2个序列都不平稳,需要预先对数据进行平稳化。采用一次普通差分法平稳序列后,双侧渐近概率P(Asymp.Sig.(2-tailed))分别为0.595、0.228,均大于0.05,按α=0.05水准,不拒绝H0,认为序列平稳。
2.2.2 模型的识别
对平稳后的序列的自相关和偏自相关图进行观察,决定对A序列拟合AR(1)、AR(5)模型;对B序列采用AR(1)、AR(2)、AR(3)模型。
2.2.3 模型的参数估计与模型检验
模型拟合的优劣性用拟合优度统计量来衡量,最常用的是AIC(Akaike’s Information Criterion)(Akaike信息准则)法,它综合考虑拟然函数和参数个数,AIC值小的模型相对较好,2个序列的模型拟合优度统计量见表2-1。
表2-1 备选模型拟合优度统计量
Tab.2-1 The atatistics of goodness of fitness of unselected mode
序列Series
A
B
Model
AR(1)
AR(5)
AR(1)
AR(2)
AR(3)
RV
1.322
1.412
0.146
0.139
0.116
S.E
1.150
1.188
0.382
0.373
0.340
LL
-161.270
-146.924
-25.942
-24.128
-18.525
AIC
326.540
305.848
55.884
54.256
45.049
BIC
331.829
321.108
60.039
60.489
53.360
由上表可以得出,对于A序列、B序列,其拟合效果最好的模型形式分别为AR(1)、AR(3)。
2.2 预测结果
表2-2 预测值与预测误差
Tab. 2-2 The predictive value and predictive error
时间
Time
A序列Series A
B序列Series B
实际值
actual value
预测值
HYPERLINK "/search/en/predictive+value" predictive value
误差
error
实际值actual value
预测值 HYPERLINK "/search/en/predictive+value" predictive value
误差error
1月
0.3135
0.4748
0.1613
0.1373
0.0674
-0.0699
2月
0.5683
0.3914
-0.1769
0.3049
0.0807
-0.2242
3月
0.4876
0.4301
-0.0576
0.3212
0.1782
-0.143
4月
0.4682
0.5521
0.0839
0.2325
0.2001
-0.0324
5月
0.4467
0.4982
0.0515
0.1257
0.1778
0.0521
6月
0.5399
0.4765
-0.0634
0.1127
0.1870
0.0743
7月
0.4548
0.5079
0.0531
0.0727
0.1786
0.1059
8月
0.4181
0.5187
0.1006
0.0660
0.1194
0.0534
9月
0.4052
0.4540
0.0489
0.2080
0.0663
-0.1417
10月
0.3922
0.4272
0.0350
0.0849
0.1358
0.0509
11月
0.3673
0.4135
0.0462
0.0773
0.0672
-0.0101
12月
0.4284
0.3937
-0.0347
0.0918
0.0473
-0.0445
2.3 模型评价
A、B序列的模型评价指标结果见表2-3。
表2-3 2个序列的评价结果
Tab. 2-3 The appraisal results of 3 series
指标 Index
MSE
MAPE
A序列 Series A
0.007851
0.177455
B序列 Series B
0.010309
0.588724
从表中可以看出,A序列的MSE 及MAPE较小,说明模型的精度最高,对于此2个序列的MSE比较,AR(1)模型的预测精度较AR(3)模型的精度高,说明AR(1)模型用于新城疫的预测效果较好。
3 讨论
时间序列模型[2-4]在很多领域得到了广泛的应用,它假定预测对象的变化仅与时间有关,并根据它的变化特征,以惯性原理推测其未来状态。其研究实质是通过处理预测目标本省的时间序列数据,获得事物随时间过程的演变特性与规律,劲儿预测事物的未来发展。
其中ARIMA模型不需要对时间序列的发展模式作先验的假设,同时方法本身又保证了可通过反复识别修改直到获得满意的效果,因而适合关于疫病发病率的预测。本研究对2个地区的新城疫月发病率进行了ARIMA模型的建立,结果发现ARI (p,d)模型的拟合效果最优,2个地区的p值不同,但模型的形式是相同的,这与新城疫的实际流行特点是相符合的,因为新城疫的流行不能是间断的跳跃过程,而是一个连续的过程,当月的发病率必然与前一个月或两个月的发病率紧密相关,因此ARI (p,d)形式的模型能够很好的反映新城疫流行的规律。
随着发病率数据的不断丰富,应不断修正模型,完善模型的精确度,以便提供更精确的预测结果。ARMA模型属于短期预测(1年以内),因此不能将其应用到长期预测中(2年以上),通常是对于越短期的预测效果越好,可以满足预测精度的极大化。
参考文献:
张文彤.世界优秀统计工具SPSS 11.0统计分析教程(高级篇)[M].北京:北京希望电子出版社,2002.6
许国辉,余春林.时间序列分析方法的研究[J].广州大学学报:自然科学版, 2003,2(6):556-559.
李锐,向书坚.我国时间序列分析研究工作综述[J].统计教育, 2006(7):6-8.
杨云霞.时间序列预测模型及其应用[J].太原师范学院学报:自然科学版, 2005,4(4):5-7.
推荐访问:新城疫疫情 疫情 序列 模型