基于机器学习算法的广东省假期旅游数据挖掘
Data Base Technique  •
数据库技术
Electronic Technology & Software Engineering  电子技术与软件工程• 179
【关键词】机器学习算法 数据挖掘分类预测 决策树 Logistic 回归
随着旅游电子商务的蓬勃发展,互联网成为人们获取景点详细信息、交通、天气信息和作出旅游决策的重要途径,同时,网上巨大的信息量以及掺杂其中的商家广告使得出行者难以获取高效真实的信息,对这些信息加以正当利用 我们可以提取许多有用的相关信息。假期出行需要综合考虑多方面的因素,例如旅游景点的客流量情况、出行当天的天气环境状空之轨迹fc
基于机器学习算法的广东省假期旅游数据挖掘
文/陈怀娜  曾毓芬  邓慧琼  连宗胜  周燕
况以及交通路况等。因而,对假期出行的预测
又可以概括为对景区客流量情况、环境状况以及交通路况等的预测。
近年来,人工智能不断有新的进展和突破,机器学习发挥了非常重要的作用。当下,社会各个领域都在利用机器学习来解决疑难问题,机器学习成为了炙手可热的处理手段。对此,本文亦运用了随机森林、SUV 、Logistic 、决策树、朴素贝叶斯、KNN 、BP 神经网络等机器学习算法对交通路况、环境情况进行分类预测,并从中出最优预测方法。最后,综合考
虑得到的景区客流量、交通路况以及环境情况等预测数据,提出对某一景点是否推荐假期出行的建议。
1 数据采集与数据预处理
1.1 旅游数据采集
使用协程实现高并发实时数据采集,并部署至阿里云服务器实现24小时采集,将数据实时存储到Mysql 。用requests 和BeautifulSoup 网络爬虫的页面解析方法对指定景区实时客流量进行数据采集。首先根据百度
出行大数据网站的特性,在采集开始前设置了反爬虫机制,即利用不断变化的UserAgent 和IP 来避免百度对相同ID 访问的限制,并部署到阿里云实现实时自动爬取,减少重复的工作量。接下来在隐匿状态下根据100个不同景区PID 设置每间隔30分钟边爬取一次相应景区客流量实时数据。根据景区所在城市,利用requests 和XPath 对高德地图交通模块进行数据实时交通拥堵指数数据爬取。
使用进程+线程对历史天气数据进行采集,同时在服务器实时采集天气数据。利用requests 和BeautifulSoup 对中国天气进行数据爬取,获取景区所在城市过去十年的所有天气数据、空气污染数据与当前实时数据。①景区天气情况数据采集。1.2 简单数据挖掘
从图1可以看出,国庆前后景区旅客流量趋势大体很一致,都在节日前有算是流量下降,都在10月2日左右达到峰值,而白云山这个景点趋势有所不同,仅在假日前出现了流量下降,之后一直维持在较高的流量水平上。这一点与白云山作为周围街坊散步健身的去处
natural language processing [C] // in Proceedings of International Conference on Knowledge Capture. 2003:70-77.
[2]陈龙,管子玉,何金红,等.情感
分类研究进展[J].计算机研究与发展,2017,54(6):1150-1170.
[3]PANG B,LEE L,VAITHYANATHAN S.
Thumbs up: sentimentclassification using machine learning techniques [C] // in Proceedingsof the ACL2002 Conference on Empirical Methods in Natural LanguageProcessing. Stroudsburg,PA,USA: Association for ComputationalLinguistics,2002: 79[4]Kim Y. Convolutional Neural Networks
for Sentence Classification [C] // inProceedings of The 2016 Conference on Empirical Methods on Natural Language Processing, 2014: 1408.
奥迪a3最低多少钱<<;上接178页
5882.
[5]Irsoy O, Cardie C. Opinion mining
with deep recurrent neural networks [C] // in Proceedings of Conference on Empirical Methods in Natural Language Processing. Stroudsburg, PA: Association for Computational Linguistics, 2014: 720-728.
[6]H o c h r e i t e r  S , S c h m i d h u b e r  J.
L o n g  s h o r t -t e r m  m e m o r y  [J ]. Neuralcomputation, 1997, 9 (8): 1735-1780.
[7]Li Dan, Jiang Qian. Text sentiment
analysis based on long short-term memory [C] // in Proceedings of IEEE International Conference on Computer Communication and the Internet. 2016:471-475.
[8]Graves A, Jürgen Schmidhuber.
Framewise phoneme classification
with bidirectional LSTM and other neural network architectures [J]. Neural Networks, 2005, 18(5-6):602-610.
[9]BAHDANAU D, CHO K, BENGIO Y, et
al. Neural machinetranslation by jointly learning to align and translate [C] // in Proceedings of International Conference on Learning Representations (ICLR), San Diego, CA.
作者简介
张量(1982-),男,江苏省苏州市人。硕士学位。讲师。主要研究方向为深度学习、人工智能技术
作者单位
江苏省现代企业信息化应用支撑软件工程技术中心  江苏省苏州市  215000
180 •电子技术与软件工程  Electronic Technology & Software Engineering
数据库技术
• Data Base Technique
●2018年华南农业大学国家级大学生创新训练项目《基于LBS 的广东假日旅游数据挖掘及个性化推荐研究》项目编号201810564012。
有较大的关系。从箱线图分析可看出,绝大部分景点(除白云山)的人流量分布右偏,且存在离点。这提醒我们在接下来建模时应该考虑到离点对模型的影响。1.3 数据预处理
由于需要对交通路况与空气质量等情况进行分类预测,故首先应对作为预测因变量的交通指数与空质量AQI 指数数据进行数据转化处理,将它们转化为二分类因子变量。除此之外,在进行KNN 算法分类
预测以及BP 神经网络算法预测时,为确保结果的精准度需对数据进行标准化处理。根据挖掘收集到的数据可知,分类数据的样本量十分不均衡,因此,应在分类预测前对数据进行平衡处理,这里基于R 语言,我们使用了SMOTE 方法平衡两类样本,并在数据平衡后,使用LOF 方法删除异常点,作为最终分类预测数据。
对处理后的数据进行训练集与测试集划分,随机抽取70%的数据作为分类预测训练样本,剩余30%的数据则用于测试检验。
2 数据挖掘分类预测
2.1 数据挖掘分类预测
对于交通路况以及空气质量,本文主要采用了Logistic 回归、非线性支持向量机、决策树(ID3/CART/C5.0/条件推断)、随机森林、朴素贝叶斯、KNN 的9种机器学习分类预测算法以及BP 神经网络机器学习预测算法进行预测。
吸血鬼电影大全
本文运用R 语言自带的DMwR 、randomForest 、party 、kknn 以及pROC 等程序包对东莞市区的交通路况、空气质量数据进行预测。分别采用上述机器学习算法对训练集进行训练,并利用测试集对比预测结果,通过多个评价指标综合评价分类预测模型。经过对比,返回效果最优的分类分类器,并不断调整参数设置,直至训练出最优分类预测模型。
对于交通路况的预测,分别采用了横向预测以及纵向预测两种预测形式。其中,横向预测细分为以同一天每5个时间段预测下一个时间段(短期预测)以及以每10个时间段预测下一个时间段(长期预测)的交通路况;纵向预测细分为以同一时间段下以每5天预测下一天该时间段(短期预测)以及以每10天预测下一天该时间段(长期预测)的交通路况。
对于空气质量的预测,采用了纵向预测形式。其中,纵向预测同样分为短期和长期预测。对于空气质量的预测,采用了纵向预测形式。2.2 预测效果评价
选择东莞市区的数据为分类预测研究对
象,以预测的准确率、AUC 指标值以及平均相对误差作为算法预测效果的评价指标。
总体上交通路况的横向预测效果优于纵向预测,长期预测效果优于短期预测。对于BP 神经网络预测,虽然预测的平均相对误差均较小,但根据观察,实际上存在误差有小有大的情况,即预测效果不够均衡,故运用BP 神经网络预测交通路况不够合理。综合准确率与AUC 指标值可以得到,对于交通路况的预测,各种分类预测算法的预测效果都还不错,但总体上朴素贝叶斯的分类预测效果最差,而采用Logistic 算法以同一天10个时间段预测
下一时间段的横向长期预测方式预测的效果最佳。
总体上空气质量的长期预测效果优于短期预测。同样地,对于BP 神经网络预测,虽然预测的平均相对误差均较小,但实际误差有小有大,预测效果不够均衡,故运用BP 神经网络预测空气质量也不够合理。综合准确率与AUC 指标值可以得到,对于空气质量的预测,总体上朴素贝叶斯的分类预测效果最差,而采用Logistic 算法以5天预测下一天空气质量的纵向短期预测形式预测效果最佳,采用决策树CART 算法与KNN 算法以10天预测下一天空气质量的纵向长期预测形式预测的效果次之。
3 数据可视化
针对爬取到的景区客流量、实时交通以及天气数据数据,结合基于小波分析和ARIMA 模型的假期客流量预测模型,我们构建了监测网页,网页中的模块包含站点导航模块、景区实时监测模块、城市交通实时监测模块、天气监测模块。该网页通过图形和彩将关键数据和特征像客户直观地传达出来,从而实现对于相当稀疏而又复杂的数据集的深入洞察。其中,在网页前端运用了html 、css 与javascript 语言构造网页的结构、外观与页面的行为,在后端运用python 、django 与mysql 编写运行于服务器上的代码。葡萄架
4 小结
根据问题研究背景,结合文献资料,选
择合适的统计分析方法建立模型,确定所需要的变量数据,运用python 软件使用协程、线程与进程等实现高并发实时数据的挖掘并将数据部署至相应的服务器中。然后对挖掘到的数据进行分析与处理,运用了随机森林、SUV 、Logistic 回归、决策树、朴素贝叶斯、KNN 、BP 神经网络等机器学习算法对交通路况、环境情况进行分类预测,并从中对比得出分类预测的最优算法。同时,添加了网页的可视化应用,将这些预测数据实时的在页面上展示出来,方便人们对不同日期以及同一天中不同时段的景区客流量进行直观的观察,对客流高峰时段以及客流低峰时段做出一个系统的判断,结合网页中的交通数据、实时天气数据与空气质量数据等,得出假期是否推荐出行该景区的建议。
(通信作者:周燕)
参考文献
[1]陈荣.基于支持向量回归的旅游短期
客流量预测模型研究[D].合肥工业大学,2014.
[2]求森.基于小波分析和神经网络的城市轨
道交通客流时间序列预测[D].北京交通大学,2017.
[3]葛朋,彭梦晶.决策树算法在分类预测中
的应用与优化[J].山东农业大学学报(自然科学版),2016.
[4]顾世忍,刘浩.基于聚类与分类结合
的多示例预测算法[J].计算机应用研究,2016.
太原高考限行
[5]崔霞霞.基于机器学习的分类问题研究
卖水果[J].中北大学,2018.
作者简介
周燕(1980-),女,硕士研究生,华南农业大学数学与信息学院数学系教师,讲师。主要研究方向金融统计,数据挖掘。
作者单位
华南农业大学数学与信息学院  广东省广州市
510642
图1:各景点国庆前后旅客流量折线图与箱线图

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。