基于带时间回溯的神经网络算法对新冠疫情数据的分析与预测
算眩语盲信IB与电IE
China Computer&Communication2021年第6期基于带时间回溯的神经网络算法对新窥疫情数据的
五一放假几天2023年
分析与预测
段瑶瑶1王倚天I刘欣迪1刘柏峰1
新春快乐的祝福语(1.沈阳化工大学信息工程学院,辽宁沈阳110142;
2.中国科学院沈阳自动化研究所工业控制网络与系统研究室,辽宁沈阳110016)
摘要:由于新冠肺炎疫情对全球造成了巨大的影响,因此有必要研究疫情的发展趋势.为此,笔者构建了带有时间回溯的神经网络模型,对以新冠肺炎累计病例为代表的时间序列数据进行分析和预测,首先通过K-means聚类方法对209个国家和地区进行分类,然后从不同类别中挑选代表国家或地区,应用改进的神经网络模型进行分析和预测,并和其他经典算法进行比较.实验结果证明,与其他经典的机器学习算法相比,经过改良的具有时间回溯的神经网络算法表现更好,预测准确度较高,能够有效预测新冠肺炎疫情的发展趋势及众多的时间序列数据.
关键词:多项式回归;BP神经网络;支持向量机;长短期记忆;新冠疫情
中图分类号:TP319文献标识码:A文章编号:1003-9767(2021)06-052-05
Analysis and Prediction on COVID-19Data Based on the Neural Network
Algorithm with Time Backtracking
DUAN Yaoyao1,WANG Yitian1,2,LIU Xindi1,LIU Baifeng1
(1.School of Information Engineering,Shenyang University of Chemical Technology,Shenyang Liaoning110142,China;2.Lab of Industrial
Control Network and System,Shenyang Institute of Automation,Chinese Academy of Sciences,Shenyang Liaoning110016,China) Abstract:As the COVID-19epidemic has had a huge impact on the world,it is necessary to study the development trend of the epidemic.To explore the hidden trend of COVID-19,we build a neural network model with time backtracking to further analyze and predict the time series he cumulative cases of COVID-19).The K-means clustering method was firstly applied to classify 209countries and regions into different categories,from which the representative countries or regions are selected.Then,the improved neural network model is proposed for analysis and prediction,and validated by the comparison with other classical algorithms.
The209 countries and territories were clustered into two categories,from which China and the United States were selected as representatives for analysis and prediction.According to the prediction results,our improved neural network algorithm with time backtracking performs better in both cases compared with other algorithms and has high prediction accuracy,which can effectively predict the hidden trend of COVID-19and numerous time series data.
Keywords:polynomial regression;BP neural network;support vector machine;LSTM;COVID-19
0引言
突如其来的疫情给全球都带来了巨大的影响,尽管我国在疫情防控方面取得较好的效果,但是国外疫情仍然不容乐观。而如果能够提前预知疫情的发展趋势,便可以提前制定防疫措施,减少更多的损失。本文便是通过构建带有时间回溯的神经网络算法,同时与多种经典回归算法进行对比,对疫情的时间序列数据进行分析和预测O
在研究或预测疫情的发展趋势时,大多学者采用了传播动力学模型。李承倬等利用简易的传播动力学模型一SIR 模型,分析和预测浙江省的疫情发展趋势,能够作为判断浙江省防疫效果的一个参考E。林俊锋基于SEIR模型进一步将“E”进行划分或扩大,具体分为两类:一类是处于医学观察和疑似病例人,另一类是已患病但未发现的隐形传播者人。实验表明,这样的做法提升了SEIR模型在拟合和
作者简介:段瑶瑶(2000-),女,湖南常德人,本科在读。研究方向:数据分析与挖掘。
信IB与电胭
China Computer&Communication 2021年第6期
预测上的性能[2]0白尧等考虑了潜伏期和隐形感染的问题,
利用SEIAR模型对陕西省的COVID-19进行了分析和预测,
短时期的预测情况与实际情况相吻合[3]o
除了利用传播动力学模型对疫情进行分析和预测外,也
有学者利用机器学习方法对新冠肺炎疫情进行研究。王志心
等利用机器学习算法中的回归算法,同时结合最小二乘法和
梯度下降方法预测了疫情拐点出现的时间,具有一定的指导
和参考意义⑷。除此之外,盛华雄等利用Logistic模型分析
疫情在自由传播阶段的发展趋势,进一步说明了该模型在疾
病传播的分析和预测上具有广泛的适用性[5]o
祭英烈寄语10字
除此之外,对于分析或预测时间序列数据问题,不同的
学者也有不同的研究和发现。欧阳红兵等基于长短期记忆人工
神经网络(Long Short Term Memory,LSTM)对金融时间序
列数据进行预测,与多层感知机、K近邻、支持向量机、广义
ARCH模型(Generalized AutoRegressive Conditional Heteroske
dasticity,GARCH)四种模型预测效果相比,发现LSTM神
经网络具有更高的预测精度问。杨海民等对时间序列预测方法
进行了综述,指出传统的时间序列预测方法非常依赖参数模
型的选择,而能否正确选择参数模型在很大程度上决定了预
测结果的准确性⑴。同时,从机器学习方面介绍了相关时间序
列预测方法:比如基于支持向量机、贝叶斯网络、矩阵分解、
高斯过程的时间序列预测方法,在时间序列预测上均取得了不
错的结果。
爸爸过生日送什么礼物好
本文通过对神经网络算法进行改良,构建带有时间回
溯的神经网络模型,对以新冠肺炎疫情数据为代表的时间序
列数据进行分析和预测。同时,与多项式回归(Polynomial Regression)、支持向量机、长短期记忆(LSTM)算法模型
进行比较,利用平均绝对误差(MAE)、平均绝对百分比误
差(MAPE)、决定系数去评估上述算法模型在预测
病例数上的适用程度。
1基于带有时间回溯神经网络的疫情预测
1.1构建带有时间回溯的神经网络模型
人工神经网络模型如图1所示。已知时间序列为左
=凶如…,氐T e R nxl,其中兀代表第i天的累计确诊病例。
指纹锁品牌
假设历史数据为仏,仏+1,…仏,通过时间序列的相关性预测
第k+h(h>0)天的数据x MO
|隐藏层
O
O O O I输出层
图1人工神经网络模型图
具体的预测步骤如下。
第一步,数据预处理。将历史数据轨讦小+“…丑」进行归
一化处理:
式中,您为历史数据的均值,耳为标准差。
第二步,将归一化的忑{,起屛,…內』作为神经网络的输
入节点。
第三步,隐藏层激活函数采用sigmoid函数。隐藏层的
节点数由用户自己选择。
第四步,输出层为预测归一化后的第(£+%)天的数据
兔+几则最终的预测值为:
&+/.=*&+»'+/(2)
1.2算法模型评估指标
1.2.1平均误差
通过平均绝对误差(胚4E)和平均绝对百分比误差
(MAPE)计算预测值与实际值之间的误差[8]o
MAE=L£忆一勿(3)
力R
血皿=丄£忙_勿(4)
1.2.2决定系数
决定系数(疋)是一种常用的度量拟合效果的参数,正
常取值应该在0和1之间,且其值越接近1,表示模型的性
能越好。但是如果预测结果或者拟合结果与实际值相差很大,
则决定系数也有可能出现负值。决定系数的表达式如下:
疋=1-—
—(5)
=1
式中,£、力、0分别表示第i个实际值和第z•个预测值
以及所有实际值的平均值。
2实验
2.1聚类分析
本文选取2020年7月29号至8月5日总共8天209个
国家(或地区)的数据,选择K-means聚类方法对这一时期
内的所有国家进行分类,分类的属性选取了累计确诊病例数、
累计死亡病例数、每100万人中累计确诊病例数、每100万
人中的累计死亡病例数。之后,进_步对分类属性进行处理,
分别计算标准差。标准差可以反映一组数据的波动程度。而
对于所选择的分类属性而言,标准差越大,则说明每天的确
诊病例数或死亡病例数在上升,也就是说明疫情还在恶化,
信IB 与电胞
China  Compiler  & Communication
2021年第6期
没有得到有效控制。
本文使用轮廓系数法确定最佳分类数丘值》闵,由图2
可知,当聚类个数丘为2时,轮廓系数最大,此时聚类效果 最好。
图2利用轮廓系数法选择合适的k 值
赞美建党百年短句
基于此,本文将数据文件里的所有国家分为两类,如表
格1所示。将聚类结果与实际情况相对照,可以这样下定义: 聚类类别为“0”的国家或地区,是疫情控制较好的一类, 而聚类类别为“1”的国家或地区,是疫情没有得到有效控
制I"i-20]O
表1
各国家或地区的聚类结果
聚类聚类中心
聚类
类别
累计确诊
累计死亡
100万人中累计确诊100万人中累计死亡
个数
00.002 229 90.001 9020.050 905 9680.020 057 771821
0.022 239 90.024 6450.471 004 3620.266 716 136
27
2.2数据预处理
根据实验的聚类结果,笔者从其中分别挑选了具有代表
性的国家——中国和美国。在获取原始累计确诊病例数据后,
笔者对数据进行预处理,删除脏数据,补充缺失数据,对原始 数据进行筛选。为保证分析的可比性,本文规定累计病例数的
采样时间区间均为2020年9月1日至12月4日。中国的数据 可视化图像如图3所示。美国的疫情数据可视化图如图4所示。
表2 5种算法的预测评估结果(中国)
模型
选调参数
最优参数值
MAE
MAPE
CPU 运行时间
Polynomial  regression
多项式最高次需
2
190.303 20.002 10.179 5  2.71NeuralNetwork 隐藏层的节点数
18
4&478 40.000 50.984 8  2.09SVR 无无4&377 90.000 50.985 4  1.39LSTM
83.976 1
0.000 9
0.947 6
71.25
表3
5种算法预测评估结果(美国)
模型
选调参数
最优参数值
MAE
MAPE
CPU 运行时间
Polynomial  regression
多项式最高次暮2120 927.41840.00960.9840  1.63NeuralNetwork
隐藏层的节点数
18
38 839.69840.0030.997 7  1.35SVR
无无161 602.32530.01260.956 1  1.20LSTM
170 264.8750.01330.949 4
73. 75
由表2、表3可以看出,经过改良的带有时间回溯的神经 网络模型在平均误差、相关系数、运行时间方面综合来说是最
好的。对于其余3种算法,SVR 算法在分析预测中国的累计本文使用了带有时间回溯的神经网络模型与多项式回归 算法、SVR 算法、LSTM 算法对中国的累计确诊病例、美国
的累计确诊病例数据进行分析和预测,能够更加直观地体现 出各种算法的区别。分析预测结果如表2、表3所示。
确诊病例数据时表现良好,但是在分析预测美国的累计确诊病 例数据时,就远远不如经过改良后的神经网络模型。利用带时
间回溯的神经网络模型拟合与预测结果如图5、图6所示。
信IB 与电B9
China  Computer  & Communication
2021年第6期
92000 -92200 -93000 -93400 -93200 -Comparison  between  Test  Data  and  Prediction  Results
92800 -
92600 -
92400-91800
77.5 80.0 82.5 85.0 87.5 90.0 92.5 95.0
77-95 ( Date  )
图5b 预测情况
90000 -
90250 -
91500 -
91750-Companson  between  Training  Data  and  Fitting  Results
91250 -91000 -90750 -90500 -
010 20 30 40 50 60 701-76 ( Date  )图5a 拟合悄况
®=_
a > S 3
图5带时间回溯的神经网络对中国累计确诊病例的拟合与预测
v n
®>
S e o
90000-90250-91500-91750-Companson  between  Training  Data  and  Fitting  Results
91250-
91000 -90750-
90500 -0 1020
30 40 50 60 701-76 ( Date  )
9n _e >
260
92000-
92200-
93000-93200-
Comparison  between  Test  Data  and  Prediction  Results
93400-92800 -92600-92400-
91800
77.5 80.0 82.5
85.0 87.5 90.0 92.5 95.0
77-95 ( Date  )
图6a 拟合情况
图6b 预测情况
图6带时间回溯的神经网络对美国累计确诊病例的拟合与预测
3 结语
毒(COVID-19)疫情分析及预测[J].生物医学工程研
在本次实验中,笔者将构建带有时间回溯的神经网络模 型作为重点,对新冠肺炎疫情进行分析和预测,同时结合其
他算法与改进的神经网络模型做对比分析,发现带有时间回 溯的神经网络模型具有更好的适用性。
参考文献
[1] 李承倬,武文韬,潘振宇,等.基于SIR 模型和基本再生
数的浙江省新型冠状病毒肺炎防控效果分析[J].浙江医
学,2020,42(4):311-314.
[2] 林俊锋.基于引入隐形传播者的SEIR 模型的COVID-19疫
情分析和预测[J].电子科技大学学报,2020,49⑶:375-382,
[3] 白尧,刘昆,陈志军,等.陕西省新型冠状病毒肺炎疫情的
早期传播动力学研究[J].中华医院感染学杂志,2020,30⑹:
834-83 8.
[4] 王志心,刘治,刘兆军•基于机器学习的新型冠状病
究,2020,39(1):1-5.
[5] 盛华雄,吴琳,肖长亮•新冠肺炎疫情传播建模分析与预
测[J].系统仿真学报,2020,32(5):759-766.
[6] 欧阳红兵,黄亢,闫洪举.基于LSTM 神经网络的金融时
间序列预测[J].中国管理科学,2020,28(4):27-35.
⑺杨海民,潘志松,白玮.时间序列预测方法综述[J].计算
机科学,2019,46(1):21-28.
[8] 圣才学习网•贾俊平《统计学》考研真题(含复试)与典
型习题详解(第六版)[M].北京:圣才教育出版社,2016:56.
[9] 刘顺祥.从零开始学Python 数据分析与挖掘[M].北京:
清华大学出版社,2018:115.
[10] 方巍.Python 数据挖掘与机器学习实战[M],北京:机械
工业出版社,2019:82.
[11] 周彩霞,张涛,滕懿振,等.基于BPNN 的COVID-19
疫情预测及SEIR 的高校复学分析[J1.中国社会医学杂
算眩语盲信IB与电IE
China Computer&Communication2021年第6期
志,2020,37(6):581-585.
[12]吴志强,王波.基于组合神经网络模型的新冠疫情传播预
测分析[J].软件导刊,2020(10):15-19.
[13]叶春明,赵圣文,杨秀红,等.基于机器学习的青少年
运动员新冠肺炎疫情应对能力分析与预测[J].体育学刊,2020,27(3):68-73.
[14]张金华,胡伍生,王浩.基于BP神经网络的区域短期地
震预测模型研究[J].科技情报开发与经济,2012(9):129-132.
[15]崔东文,黄恩奎.基于回溯搜索优化算法的BP神经网络
年径流预测[J].人民珠江,2015,211(5):49-52.
[16]余锦芬,宋玉凯,费菲,等.基于机器学习和动力学模型
的湖北省新型冠状病毒肺炎疫情分析[J].生物医学工程
研究,2020,39(3):294-299.
[17]徐学琴,张知鹫,王瑾瑾,等.基于改进BP神经网
络模型的发病率预测[J].中国现代医学杂志,2017(23):62.
[18]马攀,龚莉,张妮,等.基于FDA不良事件数据库对洛匹
那韦/利托那韦安全信号的检测与分析[J].中国现代应用药学,37(4):27.
[19]赵序茅,李欣海,聂常虹.基于大数据回溯新冠肺炎的
扩散趋势及中国对疫情的控制研究[J].中国科学院院刊,2020(3):159.
[20]白艳萍,胡红萍,冀鹏.前馈型神经网络在SARS疫情分
析中的应用[J].测试技术学报,2004,18(5):135-13&

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。