Hot Spot热点
基于Python实现的新冠
疫情数据挖掘案例分析
疫情开始的时间闻思源王睿刘庆旺
【摘要】本案例以数据挖掘过程中的数据获取、数据清洗、数据可视化、数据挖掘典
型算法应用、挖掘结果分析作为教学主线条,以从2020年初以来开始公开发布的国内外
新冠疫情实时更新数据作为数据基础,以Python3.7及Request、Numpy、Pandas、Matplotlib、
Pyecharts、Scikit-learn等数据处理与分析相关常用包库作为技术实现工具,实现数据挖掘
的基本过程。通过本案例的社会性分析,可以使学生建立数据联想和析因能力基础,增强
学生用数据挖掘技术解决管理学问题的能力。
【关键词】Python;新冠疫情;数据挖掘;案例分析
0绪言
数据挖掘是指从大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平
凡过程。在当前伴随信息革命而产生数据爆炸的情况下,数据挖掘已成为一种非常重要
的决策支持方法叫数据挖掘主要基于数据库、统计学、可视化技术、智能自学习等数学方
法,高度自动化地分析数据,做出归纳性的推理和挖掘潜在模式,从而帮助决策者做出正
确的判断,数据挖掘过程由以下三个阶段组成:数据准备;数据挖掘;结果表达和解释。
在《数据挖掘技术》课程的教学过程中,缺乏具有时效性强的足量数据、学生对于数
据挖掘理论与实践相结合方法论难以建立起系统化概念,对数据挖掘结果难以有效地进
行深入析因,这是教学过程中面临的主要难点。
1案例背景
作者单位:闻思源,山东财经大学管理科学与工程学院
王睿,山东财经大学管理科学与工程学院
刘庆旺,山东咼速舜通路桥工程有限公司
2019年底以来,世界各地普遍爆发了新型冠状肺炎疫情,波及范围之广,损失之大,社会影响之严重,近几百年来前所未有。由于信息技术的广泛应用,使得此次疫情数据非常充分地得到了记录,并且通过互联网进行公开发布,为本课程的教学以及管理科学实践提供了难得的数据基础、技术实现平台和挖掘分析空间。
针对本次疫情,各个国家和医疗相关机构都有实时数据发布,如(1)News Break从国际卫生组织(WHO)、美国国家健康中心、中国疾病预防控制中心等权威发布机构获得并发布的疫情数据;(2)美国约翰.霍普金斯大学的全球疫情数据大屏;(3)中国百度公司根据国家卫生与健康委员会数据接口发布的疫情地图。通过数据探查,从数据权威性、获取
22
Shanghai Business
12月刊2020
可行性和数据完备性角度综合考虑,决定本案例数据源中涉及的国外疫情数据采用News Break发布数据,国内疫情数据采用百度疫情地图数据。
2案例构成要素
本案例以从2020年初以来开始公开发布的国内外新冠疫情实时更新数据作为数据基础,以Python3.7及Request、Numpy、Pandas、Matplotlib、Pyecharts、Scikit-learn等数据处理与分析相关常用包库作为技术实现工具,实现数据挖掘的基本过程[2-3本案例的构成要素主要包括以下内容:
(1)网络数据的爬取。以Request包和作为数据爬取基本工具包,调用其方法获得网页源文件,由于数据是实时发布,本案例采用在线爬取(每天定时采集)和离线爬取(从离线网页源文件中分离)两种方式进行源数据获取。
(2)源数据的解析与清洗。首先通过Pandas包、BeautifulSoup包结合Python的字典、列表和集合数据操作,从网页源文件中分离出Json格式的疫情数据作为原始数据源,然后从其中分离出国内和国外疫情数据项,具体内容包括:累积确诊数量、每日新增确诊数量、疑似数量、重症数量、死亡数量、累积治愈数量、无症状感染数量、输入确诊数量等,国内数据精确到地级市,国外数据中,美国精确到州和主要城市,其他国家精确到国家;再通过Pandas包中方法对数据进行规范化清洗处理,具体包括:无效值排除、缺失/空值填充、异常值/重复值处理、更改格式、排序分组等,从而得到适合挖掘分析的规
范全结构化数据。
(3)数据基础统计。利用Pandas包提供的统计学方法,完成均值、标准差、中位数、分位数、峰度、偏度、极值等统计运算,从而对各国家和地区疫情数据基于时间窗口做基础性统计;
(4)数据静态可视化。利用Matplotlib包提供的数据显示图形化方法,利用前述各数据项生成绝对指标(如各地区感染总数)和相对指标(如感染总人数的各地区构成比例、A地区与B地区确诊数量比值等)随时间的数值变化曲线,通过随时间的纵向曲线、以地区为单位的横向对比等图形充分从不同角度展现数据基本面。
(5)数据动态可视化。利用Pyecharts包中提供的地图数据和相关图形化方法,针对前述的各绝对指标和相对指标,生成时间线轮播多图、地区分布图、地区热图等,从而动态展示疫情严重程度的变化、不同地区的疫情规模和发展趋势叫
(6)实施数据挖掘算法应用。利用Scikit-learn包中提供的数据挖掘方法,通过回归分析考察疫情规模的相关因素,通过预测分析考察各项指标随时间的发展变化趋势,通过聚类分析考察各地区疫情状况的相似性和不同分级叫
(7)数据分析。通过前述各指标的数据统计结果和数据挖掘结果,站在比较性分析的角度,分别从效
率质量两个方面分析中国和美国、中国和欧洲、中国和世界其他国家和地区在疫情防控方面的差别,并深入挖掘不同效果的社会根源,从而在基于客观数据和科学挖掘分析的基础上建立充分的制度自信、文化自信、发展自信。
3小结
本案例改变传统案例侧重于算法解释,与现实社会和经济问题脱节严重的情况,通过对疫情数据统计与挖掘结果的析因分析,在培养学生数学算法和技术能力的同时,更加注重数据联系现实,增强学生用数据挖掘辅助解决管理学问题的能力。
【参考文献】
[1]冯伊平,费万堂,王卓瑜,陈磊,魏敏.基于数据挖掘算法数据模型实现大数据分析的方法研究[J].电子测量技术,2020(03).
[2]杨梓,张□.金融数据分析中Python语言的运用探究[J].大众投资指南,2020(10).
[3]李冬睿,杨颖,杨善友,邱尚明,罗拥华.基于成果导向的Python应用开发课程标准的开发[J].信息系统工程,2019(12).
[4]张运玉.基于Python的数据分析的研究[J].电脑知识与技术,2019(30).
[5]郝海妍,潘萍.Python技术在数据分析中的应用[J].电子技术与软件工程,2020(12).
23
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论