COVID-19数据可视化及预测分析
2020年10月10日第4卷第19期
现代信息科技
Modern Information Technology
Oct.2020 Vol.4 No.19
01
2020.10
收稿日期:2020-09-04
基金项目:福州外语外贸学院大学生创新创业训练计划项目(S202013762037);福州外语外贸学院大学生科研项目(FWXXS19111,FWXXS 19097)
COVID-19数据可视化及预测分析
大学生创新创业课题组
(福州外语外贸学院,福建 福州  350202)
摘  要:COVID-19(新型冠状病毒)是新型的严重呼吸系统疾病。从2019年12月开始在中国武汉开始大范围暴发传播,当时正值春运,全国处于人口流动高峰期,给病毒传播提供有利条件,对中国人民的人身安全造成了严重的威胁,给社会经济带来了巨大的损失。文章对COVID-19疫情的发展进行了研究,其目的是通过编写爬虫,从国家卫健委及各省卫健委收集相关数据,将数据可视化来展示病毒传播特点,分析病毒传播的特征和模式,通过建立SIR 模型分析疾病的发展过程,预测疫情疾病走势。
关键词:COVID-19;数据可视化;预测分析;SIR ;Python 中图分类号:R181.3;P208;TP391      文献标识码:A
文章编号:2096-4706(2020)19-0001-08
COVID-19 Data Visualization and Prediction Analysis
Undergraduate Innovation and Entrepreneurship Research Group (Fuzhou University of International Studies and Trade ,Fuzhou  350202,China )
Abstract :COVID-19 is a new type of severe respiratory disease. A large-scale outbreak began in Wuhan ,China from
December 2019. It was during the Spring Festival transport season and the country was at the peak of population movement ,
which provided favorable conditions for the spread of the virus and caused serious threats and losses to the personal safety and social economy of the Chinese people. The article studies the development of the COVID-19 epidemic ,and its purpose is to collect relevant data from the National Health Commission of the People ’s Republic of China and the Provincial Health Commission by compiling crawlers. Data visualization to show the characteristics of virus transmission ,analyze the characteristics and patterns of virus transmission ,analyze the development process of the disease by establishing an SIR model ,and predict the trend of the epidemic disease.
Keywords :COVID-19;data visualization ;prediction analysis ;SIR ;Python
0  引  言
本研究是福州外语外贸学院学生在导师的带领下运用专
业相关知识进行研究。本研究的目的是将COVID-19疫情发展的数据进行可视化,分析病毒传播的特征和模式,然后使用SIR 传染病动力学模型,分析疾病的发展过程,同时预测疫情走势,从而为中国政府在流行病预防和经济生产恢复的决策中提供参考。
1  研究背景与流程
1.1  研究背景
COVID-19(新型冠状病毒)是一种新型的严重呼吸系统疾病。从2019年12月和2020年1月开始,在中国武汉开始大范围暴发传播,对全国人民的人身安全和社会经济造成了严重的威胁和损失。
1.2  研究流程
本研究研究流程:首先确定研究目的、搜集相关文献并制定研究方法,将数据前置处理,并将最新数据及过往数据进行汇整,接着着手进行研究,透过SIR 模型分析疫情发展情况,并使用Python 将数据可视化,进而提出结论与建议。
2  数据收集
2.1  数据来源
数据主要来源于网易新闻[1]和腾讯新闻[2],还有使用Python 爬虫从中国国家卫生健康委员会和各级地方卫生健康委员会爬取而来。
2.2  数据表结构
数据在爬取过程中已经进行了数据预清洗,删除了大量NA 数据,具体步骤为:
(1)使用Python 制作爬虫爬取网易新闻及腾讯新闻每日公布在其网站上的数据,分别爬取了全世界的疫情数据、中国各省份的疫情数据以及详细到中国各个城市每日新增的疫情数据,在经过数据清洗等步骤去除含有大量NA 的疑似数据列等,还有一些列都是0,例如今日治愈以及死亡,这两列的数据使用当天总的数据减去前一天总的数据所得,最终爬取到的数据格式如表1至表3所示。
DOI:10.19850/jki.2096-4706.2020.19.001
第19期现代信息科技
022020.10表1  世界各国家疫情数据表结构
字段名类型说明
date datetime日期
country Varchar(20)国家today_confirm Int(11)今日确诊人数
today_heal Int(11)今日治愈人数
today_dead Int(11)今日死亡人数
total_confirm Int(11)累计确诊人数
total_heal Int(11)累计治愈人数
total_dead Int(11)累计死亡人数
表2  中国各省份疫情数据表结构
字段名类型说明
date datetime日期
province Varchar(20)省份
country Varchar(20)国家
longitude Varchar(20)经度
latitude Varchar(20)纬度today_confirm Int(11)今日确诊人数
today_heal Int(11)今日治愈人数
today_dead Int(11)今日死亡人数
total_confirm Int(11)累计确诊人数
total_heal Int(11)累计治愈人数
total_dead Int(11)累计死亡人数
表3  中国各城市疫情数据表结构
字段名类型说明
id Int(11)lastUpdateTime datetime最后更新时间name Varchar(20)城市名称
province Varchar(20)省份名称
country Varchar(20)国家名称
longitude Varchar(20)城市所在经度
latitude Varchar(20)城市所在纬度today_confirm Int(11)今日确诊人数
today_heal Int(11)今日治愈人数
today_dead Int(11)今日死亡人数
total_confirm Int(11)累计确诊人数
total_heal Int(11)累计治愈人数
total_dead Int(11)累计死亡人数
(2)直接从腾讯新闻或者网易新闻获取数据集的好处是速度快,且能直接获取到想要的疫情数据,无文字符号等干扰,无需进行二次处理,爬取下来就能直接使用。但缺点是数据集的数据不全面,缺少一些关键数据,因此针对这一情况,有些省份所使用的数据是从该省的卫健委直接爬取的。以福建卫健委爬取的数据集为例[3],最终爬取到的数据格式如表4所示。
表4  福建省疫情数据表结构
字段名类型说明
日期datetime日期
县/区Varchar(20)县/区名称
城市Varchar(20)城市名称
省份Varchar(20)省份名称
国家Varchar(20)国家名称
经度Varchar(20)县/区所在经度
纬度Varchar(20)县/区所在纬度
新增确诊Int(11)今日新增确诊人数
新增疑似Int(11)今日新增疑似人数
累计确诊Int(11)累计确诊人数
现有疑似Int(11)现存的疑似人数
新增治愈Int(11)今日新增治愈人数
目前住院Int(11)目前住院人数
累计治愈Int(11)累计治愈人数
新增死亡Int(11)今日新增死亡人数
累计死亡Int(11)累计死亡人数
危重型Int(11)现危重型病人人数
重型Int(11)现重型病人人数
解除观察Int(11)累计解除观察人数
尚在观察Int(11)目前尚在观察人数
累计观察Int(11)累计观察的人数
3  统计分析
3.1  全国的分析
本研究通过Python可视化数据,由图1可知,中国在疫情的发展前期争分夺秒的增建方舱医院巩固医疗体系,并出台限制出行甚至实施封城等一系列防控措施的政策,取得良好成效,现如今国内本土新冠肺炎疫情已基本阻断,但零星散发和局部暴发的风险依然存在。随着疫情在全世界范围内的大流行,我国病例大多由本土新增病例转变为以输入病例为主,但疫情防控形势依旧严峻。
3.2  世界对比分析的分析
在疫情发生时,中国政府争分夺秒地控制发展与防控。疫情最严重的武汉则进行长达76天的“封城”,使疫情得以有效控制,现基本已恢复生产与生活。反观美国,由图2的数据可以直观看出,不管新增病例还是死亡病例,全都居世界首位,现在已然成为全球新冠肺炎疫情大流行的中心,已经演变成一场美国全国性的公共卫生灾难[4]。这与美国的疫情防控相关措施有着必然的联系,在此前各州采取的缓解疫情的措施才刚开始取得成果,特朗普政府却急于通过取消隔离限制来提振经济,这恰好又形成了一个新的僵局。只因阻断COVID-19传播的进程中伴随着巨大的经济损失,美国迟迟不采取积极行动来遏制COVID-19的传播,总是意图做出有利于经济利益的决定,而非以科学为指导保护健康的决策,导致疫情从缓慢且可控的传播速度发展到如今的一发不可收拾局面。
第19期
03
2020.10
4  疫情发展现状及其特点
本研究通过Python 可视化及Tableau 可视化工具,对全国、湖北省及福建省的疫情情况进行可视化分析。使用者可以从图3、图4、图5和图6中看到全国、湖北省及福建省三个地域从1月20日到8月16日期间的疫情变化情况,以
折线图,疫情地图、条形图、面积图等形式呈现。让使用者以图形化的方式观看疫情从1月20日到8月16日的疫情变化(注:数据若出现负增长现象,原因在于4月16日当天,湖北依法订正疫情数据)。
图1  中国每日新增确诊
02-0504-1703-1205-2307-1702-2305-0506-2903-3006-1008-0402-1404-2603-2106-0107-2603-0305-1407-0804-0806-1908-1
3
25 00020 00015 00010 0005 000
今日确诊今日治愈今日死亡
日期
人数(人)
累计确诊
累计治愈
累计死亡
5 000 0004 000 0003 000 0002 000 0001 000 000
美国
巴西
印度
俄罗斯墨西哥
西班牙
哥伦比亚
南非
秘鲁
智利
国家病例(例)
图2  世界累计新增确诊
>10 0005 000~9 999999~4 999100~999<99
台湾
河北
山西
内蒙古
辽宁
吉林
黑龙江
江苏浙江
安徽
福建
江西
山东
河南
湖北
湖南
广东广西
海南
四川
贵州
云南
西藏
陕西
甘肃
青海
宁夏
新疆
北京天津上海重庆香港
澳门
南海诸岛
图3  中国累计确诊人数地图
大学生创新创业课题组:COVID-19数据可视化及预测分析
第19期现代信息科技
04
2020.10
4.1  全国疫情发展分析
如图7所示,从全国的疫情数据来看,全国新冠肺炎每日新增确诊病例略有波动。由图7可知,湖北是全国的疫情重灾区,截至2020年8月16日,湖北省累计确诊人数占全国的80%以上。
如图8所示,疫情发展前期(疫情开始暴发至2月11日),新冠肺炎确诊的手段主要依靠核酸检测和试剂盒检测,受制于试剂盒研发和产能的限制及检测效率等因素,疑似感染者得以确诊的速度较为缓慢。在2月4日达到高峰后,出现拐点假信号,连续7日新增确诊人数下降。
疫情发展中期(2月12日至4月14日),从图中可观测到2月12日存在特别大的噪音,是由于湖北施行2月12日国家健康委办公厅、国家中医药管理局办公室印发的《新型冠状病毒感染的肺炎诊疗方案(试行第五版)》[5]:增加CT 检测哪些省份需要核酸检测
新增病例(例)
安徽澳门北京福建甘肃广东广西贵州海南河北河南黑龙江湖南吉林江苏江西辽宁内蒙古宁夏青海山东山西陕西上海四川台湾天津西藏香港新疆云南浙江重庆
8 0007 0006 0005 0004 0003 0002 0001 000
全国新增死亡
全国新增确诊
全国新增治愈
省份
图4  除湖北省外总体预览图
手段,并将其归为临床确诊患者,并将临床诊断病例也被纳入确诊人数。此方案使得疑似感染病例得到大面积确诊,新增确诊人数达到最高峰。同时有利于临床确诊患者能及早按照确诊病例接受规范,提高了病人的收治率。在2月12日后,每日新增确诊出现大幅回落,是由于湖北加大了对存量疑似感染患者的检测速度,得以大面积排查现存疑似感染人,迅速消化现存疑似感染人。并施行延迟开学、规定出行准则、统筹推进疫情防控工作、部署防输入工作等措施,有效地切断了病毒的传播途径,新增确诊病例呈现明显的下降趋势。
疫情发展后期(4月14日至8月16日),前中段新增确诊病例的主要来源为输入病例,因先前已有相关准备(入境检查,集中隔离等),每日新增确诊病例仅有小范围波动。后段由于某些地区出现反弹现象,新增确诊人数略比前中段高些,但总体处于良好控制水平。
图5  中国与湖北疫情累计趋势图
中国_累计确诊湖北_累计确诊中国_累计治愈
湖北_累计治愈
中国_累计死亡
湖北_累计死亡
80 00060 00040 00020 000
01-15
03-24
06-0102-07
04-16
06-2403-01
05-0907-17
08-09
日期
病例(例)
14 00012 00010 0008 0006 0004 0002 000
0中国_今日确诊湖北_今日确诊中国_今日治愈
湖北_今日治愈
中国_今日死亡
湖北_今日死亡
01-15
03-24
06-0102-07
04-16
06-2403-01
05-0907-17
08-09
日期
病例(例)
图6  中国与湖北每日趋势图
第19期
05
2020.10
从全国每日新增治愈病例来看,从1月21日开始,出现新增治愈病例。2月2日,武汉火神山医院正式交付;2月3日晚,三所“方舱医院”在武汉开建,用于收治新型冠状病毒感染的肺炎轻症患者;2月5日,雷神山医院具备交付条件。随着雷神山、火神山医院及方舱医院的开设,使得医疗资源紧张状况得到缓解。方舱医院主要收治轻症患者,发挥着集中隔离、集中观察、统一收治、统一管理、减轻重病救治压
力、提高救治率等优势。而雷神山、火神山医院主要收治重症患者,配备专业救治设备和专业救护人员,患者的生命安全有一定的保障。结合国家统一领导、高效决策及全国统筹、对口支援等举措共同作用下,治愈病例数不断上升。2月21日当天治愈病例数首次超过新增确诊人数,到2月27日达到最高峰。随着疫情严峻形势得到缓解,新增确诊病例及治愈病例数均呈下降趋势,但治愈病例数总体高于新增确诊人数,该表现充分说明疫情得到有效控制。
从全国每日新增死亡病例来看,变化趋势较为平缓。每日新增死亡病例仅在0~252范围内波动,且总体低于每日治愈病例。直至4月18日至5月15日出现长时间清零现象。
后期新增死亡病例仅在个位数变化。说明疫情形势正在往好的方向发展。
4.2  福建疫情发展分析
如图9所示,从福建省新增确诊病例数据来看,波动看起来较大,但其实数据仅在0~30范围内变化,疫情控制形势较好。其中1月31日和3月22日,这两天前后数据变化趋势较为明显。截至8月16日,最高峰值(1月31日福建省新增确诊人数25人)仅占该天全国新增确诊病例的1.2%左右,占比较小,疫情形势较乐观。结合举措可知,1月31日后福建省新增确诊病例下降可能的原因是福建省部门对住房系统、疫情期间采购安全化与便利化等方面防控工作的部署得到有效落实。至2月27日后连续22天出现零新增确诊病例。由于当前国外疫情形势严峻,在外留学务工人士想要回国寻求更好的医疗资源,致使3月20日,
新增确诊病例(输入确诊)迅速增加。经3月19日,福建省对入闽人员14天集中隔离观察,有效地切断病毒传播,后期仅有少量的输入确诊病例出现。在治愈病例方面,2月3日开始出现治愈病例,且集中于2月份及4月份。在死亡病例方面,仅1例。
日期
疫情发展前期
01-2802-0716 00014 00012 00010 0008 0006 0004 000
2 0000
新增确诊病例(例)
1月20日
2月11日疫情发展中期
疫情发展后期
05-0107-01
02-2303-24
2月12日
4月14日
4月15日
8月16日
图8  全国每日肺炎新增确诊病例图
累计确诊病例(例)
80 00060 00040 00020 000
全国累计确诊
湖北累计确诊
02-01
04-01
06-01
08-01
日期
(a )全国与湖北省累计确诊病例对比
(c )全国与湖北省新增治愈病例对比
(b )全国与湖北省新增确诊病例对比
(d )全国与湖北省新增死亡病例对比
图7  全国与湖北省肺炎病例对比图
新增确诊病例(例)
15 00010 0005 000
全国新增确诊湖北新增确诊
02-01
04-01
06-01
08-01
日期
新增死亡病例(例)
1 0005000
全国新增死亡湖北新增死亡
02-01
04-01
06-01
08-01
日期
新增治愈病例(例)
2 000
全国新增治愈
湖北新增治愈02-01
04-01
06-01
08-01
日期
大学生创新创业课题组:COVID-19数据可视化及预测分析

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。