python爬空气污染实时数据_python数据分析综合项目--空气质量指数分析...
python爬空⽓污染实时数据_python数据分析综合项⽬--空⽓质
量指数分析
项⽬背景
近年来,我国的环境问题⽐较严重,很多城市出现了雾霾天⽓,当然也有很多城市空⽓依旧清新,为了研究具体的空⽓环境城市分布,我们采⽤了假设检验以及线性回归的思想对AQI(空⽓质量指数)进⾏分析和预测,其中AQI的值越⼤,表⽰空⽓质量越差,AQI值越⼩,表明空⽓质量越好。
提出问题
1.列出空⽓质量优秀/较差的五个城市
2.全国空⽓质量分布情况
3.临海城市和内陆城市的空⽓质量对⽐
4.影响空⽓指数的因素
5.空⽓质量均值验证
数据字段描述虎成语
City 城市名
AQI 空⽓质量指数
Precipitation 降⾬量
GDP 城市⽣产总值
Temperature 温度
Longitude 经度
Latitude 纬度
Altitude 海拔⾼度
PopulationDensity ⼈⼝密度
Coastal 是否沿海
GreenCoverageRate 绿化覆盖率
Incineration(10,000ton) 焚烧量(10000吨)
导⼊相应的模块以及数据集
数据处理
在进⾏数据分析之前,我们对数据集进⾏观察并对其中的缺失值、重复值、异常值进⾏处理
处理缺失值
我们发现降⾬量数据中包含了4个缺失值,为了保证数据的精确,我们查⼀下降⾬量的数据分布
降⾬量分布图
很明显的呈现右偏分布,因此采⽤平均数来替代缺失值并不妥,我们这⾥⽤中位数来代替
缺失值处理
异常值处理
短路
最常⽤的异常值检测⽅式为3倍标准差检验法,我们⽤此⽅法筛选出异常数据,并绘制对应的箱线图
异常值检测
GDP箱线图
GDP属性中检测出8条异常值,我们这⾥采取⽤极端值替换的⽅式,将异常值替换成最⼤值
df['GDP'][(df['GDP']upper)]=df['GDP'].mean()+3*df['GDP'].std()
重复值处理
重复值处理⽐较简单,筛选出来并删除即可
df.drop_duplicates(inplace=True)
数据分析及可视化
数据集处理完毕之后,我们开始进⾏数据分析
1. 列出空⽓质量优秀/较差的五个城市
今年中秋节高速免费吗按照AQI降序排列,选出排名前五以及后五的城市,进⾏可视化,结果如下
霜火岭怎么去空⽓质量好的五⼤城市
空⽓质量堪忧的五个城市
关于长城的导游词结论:空⽓质量较好的城市为韶关市、南平市、梅州市、基隆市、三明市,空⽓质量堪忧的城市分别为焦作市、锦州市、保定市、朝阳市、北京市
2. 全国空⽓质量分布情况
这⾥我们将AQI指数分为六个等级,并根据等级统计全国空⽓质量的等级情况
全国空⽓质量等级划分图
我们再⽤散点图绘制下全国的空⽓质量分布
地理分布图
结论:我国城市的空⽓质量集中在⼀级、⼆级和三级,⾼污染城市⽐例较低;从地理位置来看,西部城市空⽓质量优于东部城市,南部城市优于北部城市。
3. 临海城市和内陆城市的空⽓质量对⽐
根据上⾯的结论我们发现,仿佛临海城市的空⽓质量普遍⾼于内陆地区,那么这个结论是否是真的呢?还需要进⼀步验证。
⾸先,我们来统计下不同地理环境的城市数量
内陆、沿海城市数量
第⼆步,绘制临海和内陆城市的AQI分布图
AQI分布
我们发现内陆城市AQI集中分布在50-100区间内,⽽沿海城市AQI集中分布在0-50区间,在此样本中,沿海的AQI分布低于内陆城市,但是这毕竟是样本,⽆法推测出总体分布情况,还需进⼀步探测。
第三步,统计AQI均值并绘制分布密度图
AQI均值
第四步,差异检验,查看内陆沿海AQI均值分布是否显著
我们先假设内陆城市和沿海城市的平均值相同
t检验
结果得出⽀持的概率为0.006,远低于0.05,因此我们否定原假设,选择备择假设,即内陆城市和沿海城市的平均值不相同
结论:经过分析,我们发现有超过99%的概率可以证明临海城市空⽓质量优于内陆城市的空⽓质量。
4. 影响空⽓指数的因素
为了探究影响空⽓质量的具体因素,我们需要计算出两个变量之间的相关系数,以此进⾏判断,这⾥采⽤热⼒图进⾏可视化操作。
sns.(),annot=True,fmt='.2f')
相关系数热⼒图
结论:从显⽰结果看出,AQI主要受降⾬量和纬度的影响,其中降⾬量越多,空⽓质量越好(0.4);纬
度越低,空⽓质量越好(-0.55)
当然,从整个图⽚来看,也能发现很多变量之间的关系,⽐如GDP与焚烧量的正相关系数达到了0.9,温度与纬度的负相关系数达到了-0.81等。
张震岳经典歌词5. 空⽓质量均值验证
传闻空⽓质量均值在71左右,这个消息是否是准确的呢?我们进⾏⼀次验证。
⾸先计算样本的均值
df['AQI'].mean()
结果显⽰为75.334
那么总体的均值是否为71呢?这⾥先假设总体的均值为71,进⾏t检验
验证
结论:可以看出,偏离均值1.81倍的标准差,⽽且p值⼤于0.05,我们接受原假设(即空⽓质量均值在71左右)另外,我们还可以计算出在置信度为95%时,空⽓质量均值的置信区间为70-80。
总结
空⽓质量最好的城市是韶关、南平和梅州,最差的是北京。
分布总体显⽰,西部城市空⽓质量优于东部城市,南部城市优于北部城市。
临海城市空⽓质量总体好于内陆城市。
降⾬量和纬度对空⽓质量影响较⼤。
我国平均空⽓质量指数在70-80之间,概率达到95%

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。