211290876_基于百度指数的旅游景区游客量预测——以九寨沟为例_百度文 ...
【摘要】旅游业作为一种绿经济,促进了我国经济社会的发展。本文以九寨沟景区为例,基于百度指数来反映游客对该景点的网络关注度,首先,基于百度指数与九寨沟游客量之间的Spearman 相关系数选择关键词。其次,根据Granger 检验分析百度指数与九寨沟客流量之间的关系,建立ARMA 模型以及VAR 模型进行预测。最后,根据预测误差评价指标对两种模型进行对比分析。研究结果表明:加入网络搜索数据的VAR 模型比没有加入网络搜索数据的ARMA 模型提高了模型的预测能力,为旅游相关管理部门的科学决策提供必要的参考。
【关键词】旅游客流量预测;百度指数;VAR 模型一、引言
旅游在为人们带来美好生活体验的同时,也为当地居民带来了丰厚的收入,成为拉动经济持续稳定增长的动力。据统计,2021年国内旅游总人次32.46亿,比上年同期增长12.8%,这种快速增长导致了旅游管理方面的问题,并急需出台一些解决方案,其中包括预测旅游客流量,尤其是节假日期间,管理部门面临着巨大压力,任何疏忽都有可能导致公共安全问题。例如,2013年10月2日,由于过度拥挤,许多游客被困在九寨沟入口处。为了避免此类现象发生,确保旅游业的健康和可持续发展,对旅游客流量的短期预测是一个重要的研究方向。
传统的旅游客流量预测主要是基于历史客流量数据构建各种预测模型,陈涛以北京旅游客流量为例,基于百度指数建立VAR 模型对旅游客流量进行预测。孙烨以三清山为例,基于VAR 模型研究不同客户端的
百度指数对旅游客流量预测的影响,结果表明移动端比PC 端百度指数具有更好的预测效果。网络搜索数据从侧面反映了游客的旅游关注度,因此可以考虑将网络搜索数据纳入预测模型,而关键词的选取在很大程度上决定了旅游客流量预测的准确性。目前已有研究多使用月度和季度数据进行旅游客流量预测,较少进行日客流量预测。日客流量预测更具时效性,根据日客流量预测结果,可以合理控制旅游目的地的游客接待人数,避免出现游客拥挤、滞留等降低游客体验感的情况。二、研究方法
向量自回归模型(VAR)模型把系统中每一个内生变量作为系统中所有内生变量滞后值的函数来构造模型,进而将单变量AR 模型推广到由多元时间序列变量组成的向量自回归模型,VAR(p)模型的数学表达式是:
其中t=1,2,…,k,c 为k 为常数向量,a t 为k 维独立同分布的随机向量,Ⅱj 为k×k 维的系数矩阵,Z t 为k 维内生变量向量。三、实证分析
1.数据来源
本文以中国四川旅游景区九寨沟为例,对每日旅游客流量进行预测。本文使用python 爬虫程序获取九寨沟所公布的2020年4月1日至2021年12月12日每日的实际客流量人数。
基于百度指数的旅游景区游客量预测
—以九寨沟为例
罗磐石 李磊
作者简介:罗磐石,男,河南驻马店,汉族,新疆财经大学统计与数据科学学院,硕士研究生,研究方向:大数据分析
164
Travel
旅游
百度是中国最大的搜索引擎,且在国内搜索引擎市场中占据最大份额。Xin Yang为了比较谷歌和百度两种不同搜索引擎搜索数据的预测精度,研究发现,百度指数比谷歌指数具有更高的预测能力。百度指数关键词数据实质为每个关键词在特定时间段内百度搜索引擎中的搜索次数,同旅游客流量数据一样,属于时间序列型数据。综上所述,本文选择百度作为搜索引擎获取每日的网络搜索数据,并使用python爬虫程序获取样本内相应时间段内的百度指数关键词数据。
2.百度指数关键词数据的选取与处理
百度指数关键词的选取,是建立预测模型的核心步骤之一,而目前关键词的选取方法没有统一的标准。已有研究的关键词的选取大致分为3种:技术取词法、直接取词法以及范围取词法。直接取词法是根据研究者的经验选取最终的关键词。范围取词法是事先定义关键词的大致范围,然后在范围内挑选关键词。技术取词法则将所有相关的关键词都考虑在内,利用计算机编程如python等软件通过筛选确定最终关键词。
综上所述,本文结合直接取词法与范围取词法选取百度指数关键词并进行数据预处理,具体步骤如下:
首先,选择关键字,在旅行之前,人们一般在互联网上搜索有关目的地、天气、酒店等方面的信息,因此定义了其与目的地相关的关键字。通过以九寨沟为基准词甄选,最终确定“九寨沟酒店”“九寨沟旅游攻略”和“九寨沟在哪”等10个基准关键词。
其次,通过基准关键词,利用百度指数平台的自动推荐技术以及百度需求图谱扩展关键词,使之能更加全面地反映游客的搜索需求,避免出现遗漏核心关键词。考虑到网络搜索数据的滞后性,需要分析百度指数与实际历史客流量之间的相关性,选择最佳滞后期。
最后,根据获取的百度指数关键词的与历史客流量之间的Spearman相关系数,确定最终关键词以及相应的百度指数最佳滞后期。
为了得到合适的关键词,本文以0.8作为阈值,选择相关系数值大于0.8的高度相关关键词,最终确定了九寨沟天气、九寨沟在哪、九寨沟门票和九寨沟地图4个关键词。其相关系数及最佳滞后期结果见表1,这一结果充分描述了游客潜在的旅游需求,与每月搜索数据所反映的旅游需求不同,大多数游客会提前两天搜索旅游当天天气状况和门票价格,同时在旅游当天搜索具体位置和地图导航。
3.数据检验
(1)平稳性检验
在建立计量模型前,本文采用ADF检验法对模型相关变量进行平稳性检验,检验结果见表2。
由检验结果可知,九寨沟日客流量数据与四个百度指数关键词的时间序列数据均是平稳的。即检验结果表明在0.05的显著性水平下,以上相关变量的时间序列均是平稳的,即为I(0)过程,因此满足格兰杰因果检验和建立VAR模型的条件。
(2)格兰杰因果(Granger)检验
格兰杰因果检验考察变量之间是否具有预测能力。一个变量若受到其他变量的滞后影响,则称它们具有格兰杰因果关系。Granger因果检验的最终结果与滞后期的选择有着密切关系。因此,根据赤池和施瓦茨准则等信息准则选择最佳滞后期,最终确定滞后阶数为2。
由表3格兰杰因果关系检验结果可知,关键词“九寨沟门票”与“九寨沟实际日客流量”之间存在单向的Granger 关系,表明关键词“九寨沟门票”的变化会引起实际游客量的变化。关键词“九寨沟天气”与“九寨沟实际日客流量”之间存在单向的格兰杰因果关系。关键词“九寨沟地图”和“九寨沟在哪”与“九寨沟实际日客流量”之间存在双向的格兰杰因果关系,即关键词“九寨沟地图”和“九寨沟在哪”与“九寨沟实际日游客量”之间相互影响。由此可以看出对九寨沟景区的网络关注度可以用百度指数衡量,说明实际游客在到达旅游景点之前会提前了解该景区特点,实际到达之后也会
表1 关键词相关性分析及滞后期关键词Spearman相关系数滞后期九寨沟门票0.8898    2 九寨沟地图0.8883 0 九寨沟天气0.9273    2 九寨沟在哪0.8125 0
稳性检验,检验结果见表2。
表2 变量平稳性检验
变量名称ADF值1%临界值5%临界值10%临界
P值结论
九寨沟日游客量(sjrs)-3.7657 -3.4406 -2.8660 -2.5692 0.0035 平稳九寨沟门票(mp)-3.1483 -3.4406 -2.8660 -2.5692 0.0237 平稳九寨沟地图(dt)-5.0564 -3.4406 -2.8660 -2.5692 0.0000 平稳九寨沟天气(tq)-3.1338 -3.4406 -2.8660 -2.5692 0.0247 平稳九寨沟在哪(jzgzn)-3.5535 -3.4406 -2.8660 -2.5692 0.0070 平稳
施瓦茨准则等信息准则选择最佳滞后期,最终确定滞后阶数为2。
表3 格兰杰因果性检验
格兰杰因果性F统计量F的P值结论“九寨沟门票”不是“九寨沟日游客量”的格兰杰原因56.8663    2.E-23 拒绝“九寨沟日游客量”不是“九寨沟门票”的格兰杰原因  2.0959 0.1238 接受“九寨沟地图”不是“九寨沟日游客量”的格兰杰原因9.8886    6.E-18 拒绝“九寨沟日游客量”不是“九寨沟地图”的格兰杰原因42.8505    4.E-18 拒绝“九寨沟天气”不是“九寨沟日游客量”的格兰杰原因57.5031    1.E-23 拒绝“九寨沟日游客量”不是“九寨沟天气”的格兰杰原因  2.1995 0.1117 接受“九寨沟在哪”不是“九寨沟日游客量”的格兰杰原因12.5628    4.E-06 拒绝“九寨沟日游客量”不是“九寨沟在哪”的格兰杰原因24.4907    6.E-11 拒绝
165
5月刊  2023
Shanghai Business
提高该景点的网络关注度,同时为建立VAR 模型创造了条件。4.建立预测模型(1)ARMA 模型
根据九寨沟实际日游客量序列的自相关图(ACF)和偏自相关图(PACF),确立了3个的ARMA 模型,然后进行模型选优,基于模型的拟合优度R2、AIC、SC 值等模型选优的相关指标,最终建立ARMA(2,4),该模型的AIC 和SC 值相对较小,AIC 的值为18.3014,SC 的值为18.3589。且模型调整后的拟合优度为0.8542,高于其他两个模型,模型拟合效果相对较好,同时,该模型的RMSE 值最小。进而估计该模型,然后预测接下来的一周九寨沟日客流量作为验证,由模型单位根检验可知,AR 部分和MA 部分特征方程对应的特征根都在单位圆内,因此模型是稳定的。模型的估计结果如下:
(2)VAR 模型
由于九寨沟实际日游客量与4个关键词的百度指数存在Granger 因果关系,进而构建VAR 模型。模型的样本期为2021年4月1日至2021年12月5日,根据滞后长度准则确定VAR 模型最优滞后期,滞后准则相关指标中5个指标均认为滞后期为2,故建立VAR(2)模型。
VAR(2)模型调整后的拟合优度为0.88,AIC 值为18.10,SC 值为18.18,利用方程对样本期后一周的日游客量进行预测,为了检验模型的预测精度,建立ARMA(2,4)作为比较模型,实际人数和预测人数的对比结果如图1所示:
综上,根据预测模型误差相关指标对ARMA(2,4)和VAR(2)进行比较分析,见下表4所示,加入百度指数关键词之后,根据模型点预测相关误差评价指标可以看出,VAR 模型的所有误差评价指标值均最小,且MAPE 值为8.32%,相对于ARMA 模型,明显有所降低。因此,百度指数的加入可以明显提高旅游客流量的预测精度。四、结论
本文以九寨沟景区为例,通过选取九寨沟实际日客流量以及“九寨沟在哪”“九寨沟门票”“九寨沟地图”和“九寨沟天气”百度指数关键词作为变量,基于ARMA 模型和
VAR 模型在样本期内对九寨沟实际日客流量进行了预测,具体结论如下:
1.基于百度指数关键词的滞后期角度,关键词“九寨沟门票”和“九寨沟天气”的滞后期为2,说明游客一般提前1~2天了解景区的门票价格以及景区天气状况等其他相关信息。关键词“九寨沟地图”和“九寨沟在哪”的滞后期为0,说明游客一般当天查看目的地的具体位置,如使用百度地图导航驾车或乘坐其他交通工具到达目的地,进一步从侧面反映出游客在出行前所重点关注的景区相关问题。
2.通过对滞后的百度指数关键词和九寨沟实际游客量进行平稳性检验和格兰杰因果性检验发现,关键词“九寨沟在哪”和“九寨沟地图”与九寨沟实际日游客数之间互为格兰杰原因,也即它们之间是相互影响的,而“九寨沟门票”和“九寨沟天气”之间仅存在单向的格兰杰原因。
3.研究发现,加入网络搜索数据的VAR 模型比没有加入网络搜索数据的ARMA 模型提高了模型的预测能力,为九寨沟景区治理提供了一定的参考作用。
随着互联网的普及,加入网络搜索数据的客流量预测是一种全新的尝试,百度指数公开且易于获取。在大数据时代,不仅存在着如网络搜索数据等结构化数据,还存在着大量音频、视频以及图像等非结构化数据,如社交网站的在线评论以及旅游攻略等,因此,深入研究非结构化数据可以进一步丰富旅游客流量预测研究的内容。
参考文献
[1]陈涛,刘庆龙.智慧旅游背景下的大数据应用研究:以旅游需求预测为例[J].电子政务,2015(09):6-13.
[2]孙烨,张宏磊,刘培学,张捷.基于旅游者网络关注度的旅游景区日游客量预测研究——以不同客户端百度指数为例[J].人文地理,2017,32(03):152-160.
[3]Yang X, Pan B, Evans J A, et al. Forecasting Chinese tourist volume with search engine data[J]. Tourism Management, 2015,46:386-397.
[4]黄先开,张丽峰,丁于思.百度指数与旅游景区游客量的关系及预测研究——以北京故宫为例[J].旅
游学刊,2013,28(11):93-100.
mp jzgzn dt tq mp jzgzn dt tq mp jzgzn dt tq ε+⎥⎥⎥
⎥⎥⎥⎦⎤
⎢⎢⎢⎢⎢⎣⎡−−+⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡−−−−−−−−−−+⎥⎥⎥⎥⎥青海旅游景点
⎥⎦⎤
⎢⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡−−−−−=⎥⎥⎥⎥⎥⎥
⎦⎤⎢⎢
⎢⎢⎢⎢⎣⎡8235.65758.542692.370763.463336.465sjrs 1282.00576.00978.00141.00011.00425.00173.00218.00082.00002.00014.00165.02176.00043.00036.02544.02047.03864.00949.00039.05429.04522.111.20061.55310.2263-sjrs 8049.00114.01240.00267.00029.00998.06837
.00144
.00026.00022
.00656.00118.03723
.00005.00038.03409.03577
.03476.00194.10164.09005.32725
.08852.35916.08917.0sjrs ]
055.0)4(,180.0)3(,139.0)2(,287.0)1(,392.0)2(,373.1)1([492.5567−=−=−=−=−==+=MA MA MA MA AR AR sjrs 关指标中5个指标均认为滞后期为2,故建立VAR(2)模
mp jzgzn dt tq mp jzgzn dt tq mp jzgzn dt tq ε+⎥⎥⎥⎥⎥⎥⎦⎤
⎢⎢⎢⎢⎢⎢⎣⎡−−+⎥⎥⎥⎥⎥⎥⎦
⎤⎢⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢
⎢⎢
⎢⎣⎡−−−−−−−−−−+⎥⎥⎥⎥⎥
⎥⎦⎤
⎢⎢⎢⎢⎢⎢⎣⎡⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢
⎣⎡−−−−−=⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢
⎢⎢⎢⎣⎡8235.6
5758.542692.370763
.463336.465sjrs 1282.00576.00978.00141
.00011.00425.00173.00218.00082.00002.00014.00165.02176.00043.00036.02544.02047.03864.00949.00039.05429.04522.111.20061.5531
0.2263-sjrs 8049.00114.01240.00267.00029.00998.06837.00144.00026.00022
.
00656.00118.03723.00005.00038.03409.03577.03476.00194.10164.09005.32725
.08852.35916.08917.0sjrs  指数的加入可以明显提高旅游客流量的预测精度。
表4 预测模型误差指标
RMSE MAE MAPE Theil ARMA(2,4) 232.27 206.77 28.22% 13.41% VAR(2)
96.40
63.11
8.32%
6.28%
Travel
旅游
166

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。