基于景点在线评论文本的游客关注度和情感分析
作者:王少兵 吴升
来源:《贵州大学学报(自然科学版)》2017年第06期
作者:王少兵 吴升
来源:《贵州大学学报(自然科学版)》2017年第06期
摘要:游客在线评论反映了游客实地旅行之后关于旅游景点和服务的真实感受,本文构建了一个基于景点在线评论文本的游客关注度和情感分析方法。该方法首先从主流旅游网站的评论专区中获取景点的评论文本并进行预处理,然后基于《知网》词汇语义相似度,结合词频分析,通过构建“旅游形象属性-触发词”词表,分别计算评论信息中旅游形象属性的游客关注度。最后建立褒贬义情感词典,对处理后的评论文本情感分析。该方法能够直观显示景点在线评论信息中旅游形象的游客评论关注点和总体情感倾向,为潜在游客的景点选择提供参考依据。以厦门市旅游景点的评论文本为例,验证了该方法的可行性。
关键词:旅游;在线评论;旅游形象;游客关注度;情感分析
中图分类号:TP391文献标识码: A许多旅游网站都设有景点评论专区。对于游客,在线评论是表达意见、建议和满意度的最常见方式之一,潜在游客也花费很多时间阅读在线评论协助旅游决策[1]。对于提供服务和关注游客满意度的旅游业管理者,检索和分析其中有价值的信
息,可以帮助管理者自我提升[2]。由于景点评论专区的在线评论是海量的短文本集合,评论信息的撰写具有随意性,含有大量的冗余信息。因此,有必要研究从海量的在线评论文本集合中获取游客实地旅行之后的评论关注点和总体情感倾向的方法,为其他游客选择旅游目的地提供参考依据。
目前,国内外学者的研究兴趣主要包括在线评论对旅游消费、游客满意度等方面的影响,以及基于景点在线评论的旅游形象感知和个性化旅游推荐等。如,Mauri & Minazzi等[3]通过实验证明了在线评论影响潜在游客的消费倾向。Levy等[4]实证分析10个受欢迎旅游网站的在线评论,发现游客差评会对酒店的声誉造成破坏性影响。张文亭等[5]基于游客在线评论和网络游记,发现游客感知的旅游形象与宣传的旅游形象存在差异。Colace等[6]提出一种以用户为中心的协同推荐方法,将用户评论意见作为推荐排序的附加标准。张付志等[7]提出一种融合用户评论和环境信息的协同过滤推荐算法,提升了推荐精度和质量。
已有研究的局限性在于:涉及景点评论内容研究旅游形象,大多采用内容分析法对在线评论文本进行词频统计,实现内容挖掘、文本分析和知识处理等目的[5,8-10],没有考虑中文词语常出现的同义词、近义词现象;现有基于景点在线评论文本的研究,较少地针对在线
评论进行情感分析,更多的是实证研究在线评论对实际旅游消费的影响。因此,本文在前人研究的基础上,提出一种基于景点在线评论文本的游客关注度和情感分析方法。首先编写网络爬虫程序,采集并预处理携程网有关厦门市的64个景点游客评论信息。然后综合自然语言处理的相关技术处理并分析景点在线评论信息。最后以图表形式直观地显示游客评论关注点和总体情感倾向,可为潜在游客的旅游决策提供参考依据。具体技术路线如图1所示。
1景点在线评论文本的数据获取与预处理
通过编写网络爬虫程序,从携程网随机采集
图1旅游景点在线评论文本的游客关注度和情感分析流程厦门市旅游景点的游客评论信息。由于每个景点热度差异,为了避免有的景点评论数据集过于稀疏,只选择多于100条用户评论信息的景点,共64个景点、21872条评论信息。
利用开源的汉语处理包HanLP 对评论文本分词;然后过滤掉“地”,“的”,“在”等本身没有意义的“停用词”;最后将单个景点的评论文本集合保存在同一個txt文本文件中,每条评论文本占据文本文件的一行。其中,每个景点的评论文本集合拆分成相互独立的词语组成,即(p1,p2,p3,…,pi),pi为评论文本集合中的第i个词语。
2景点评论文本中旅游形象属性关注度计算
2.1旅游形象属性触发词词表
旅游形象最早出现在1971年美国科罗多州大学Hunt博士论文[11]《Image:a factor of tourism》中。概括而言, 旅游形象是公众对旅游目的地总体的、抽象的、概括的认识和评价, 是对区域内在和外在精神价值进行提升的无形价值, 是旅游目的地一种理性再现[12]。国外旅游形象常见的认知属性包括:自然资源、旅游景点、餐饮美食、住宿条件、旅游休闲和娱乐、服务质量、交通状况和居民友好度[13]。本文在详细阅读若干景点在线评论的基础上,根据评论中涉及的内容筛选认知形象属性,对常见的认知属性进行调整,并结合厦门市作为滨海城市的实际情况,最后参考黄宗林[14]、Beerli等[15]的研究成果,形成厦门市景点旅游形象属性内容类目,包括:4个主类目,17个次类目(见表1)。
贵州大学学报(自然科学版)第34卷第6期王少兵 等:基于景点在线评论文本的游客关注度和情感分析触发词是可用于识别旅游形象属性的重要特征词语。例如对于鼓浪屿景点评论 “每个角落都自成一景,建筑风格也很独特!”,通过“建筑”一词即可判断出该评论描述旅游形象的自然资源属性。因此游客的旅游形象属性识别可转化为对触发词的识别。从相关的
文献来看,触发词的识别方法主要分为三种: 基于统计/词典的方法、基于规则的方法和基于机器学习的方法[16]。本文借鉴刑事案件文本触发词识别方法[17],构建“旅游形象属性-触发词”词表,如表1所示。
2.2游客关注度计算
以构建的“旅游形象属性-触发词”词表的触发词为统计对象,游客评论文本中对旅游形象某个属性提及的次数越多,说明游客对该属性的关注度越高。本文根据《知网》利用义原之间的层次结构关系来计算义原之间的语义相似度[18],通过科学分析并计算出各个触发词在评论文本中出现的频次加权和,作为评论文本中旅游形象属性的游客关注度。计算方法描述如下:
步骤1:读取单个景点的评论文本集合(p1,表1“旅游形象属性-触发词”词表
序号主类目次类目部分触发词1旅游资源水域风光河流、瀑布、海水、泉水、湖泊、池沼特建筑洋楼、桥梁、住宅、建筑、窑洞、寺庙遗址遗迹历史、古炮、纪念、古人、遗迹、故居人文活动节庆、赛事、习俗、马拉松、工艺、庆典地文景观海滨、沙滩、高山、峡
谷、溶洞、岛礁生物景观森林、草原、树木、花、草、珍禽异兽2旅游活动美食美食、美味、麻辣、小吃、零食、香酥住宿住宿、酒店、旅社、旅馆、床、空调、房间交通交通、出租车、拥堵、出行、便捷、公路购物购物、商场、购物街、商品、抢购、超市休闲娱乐休闲、娱乐、休憩、消遣、游戏、赛事3旅游环境气候气候、潮湿、晴朗、台风、艳阳、蓝天卫生城市卫生、清洁、干净、脏、洁净、整洁物价水平价格、物价、物美价廉、便宜、实惠、廉价服务设施设施、配套、服务、接待、多功能厅、展馆4社会和谐旅游从业者导游、服务员、讲解员、店员、老板、客服游客体游客、驴友、背包客、文明、素质、游人当地居民厦门人、当地人、居民、广场舞、民风、淳朴
p2,p3,…,pi);
步骤2:统计每个词语在评论文本集合中出现的频率。然后将评论文本集合拆分表示为词语和其对应的频率组成,即{(p1,w1),(p2,w2),(p3,w3),…,(pi,wi)},其中wi表示第i个词语在评论文本集合中的频率。
步骤3:利用公式(1)匹配计算评论文本集合中每个词语与旅游形象属性触发词的语义相似度;
Simβ1,β2=αα+dis(β1,β2)(1)
式(1)中,β1和β2分别表示两个义原,dis(β1,β2)表示β1和β2在义原层次结构中路径距离,α是比例系数。
步骤 4:按照公式(2)分别计算景点评论文本集合中旅游形象各类属性的游客关注度,记为T。
T=∑mj=1∑ni=1wi×Sim(pi,pj)(2)
式(2)中, pi为评论文本集合中的第i个词语,n表示当前景点评论文本集合的词语总数;pj为每一类旅游形象属性第j个触发词,m为当前匹配的该类属性的触发词个数。
经过以上步骤可测算厦门市各景点评论文本中提及的旅游形象属性的游客关注度,如表2所示。以厦门市鼓浪屿景点为例,各数值分别代表旅游形象各属性评论关注度的高低。其中,旅游资源属性下的次类目生物景观属性最高,说明游客比较关注鼓浪屿的生物景观。
3.1基础情感词典的构建
构建情感词典是进行情感分析的必经途径[19]。当前的情感词典构建方法主要有两种,一是利用已有情感词典或知识关系库扩展生成情感词典[20, 21],二是使用机器学习的方法构建情感词典[22]。本文情感词典的构建方法:首先对《大连理工大学情感词语本体库》,《学生褒贬义词典》,《知网》情感词典和《台湾大学的极性词典》去重合并,然后利用互联网词库SougouW去除低频词,保留高频词。最终得到正面极性词语18607条,负面极性词语22175条[23, 24]。
3.2景点评论文本情感分析
文本情感分析是对带有情感彩的主观性文本进行分析、处理、归纳和推理过程[25]。按照文本的颗粒度,文本情感分析可以划分为文本中的词、句子、篇章三个级别的情感极性识别与分析[26]。游客评论是短文本,属于句子级别的情感分析。首先将评论文本的情感分析预期结果分为正面、负面和中性三类情感极性。并以极性短语作为评论文本极性计算的基本单位。计算方法[23]如下:
ESentence=1n∑ni=1E(Si)(3)
式(3)中,ESentence代表一个句子的极性强度,E(Si)表示该句子中的极性短语的极性。本文借鉴文献[23]词语极性强度的计算方法,实现对采集的评论文本情感极性分类,并统计好评率。如表3所示,好评率越高,表明游客对该景点的满意度越高。4结语
本文从旅游形象和情感分析等角度挖掘体贡献的评论文本中隐藏的价值信息,详细介绍了基于景点在线评论文本的游客关注度和情感分析的实验方法和流程。该方法基于《知网》词汇语义相似度,通过词频分析,计算游客关注度,减少了中文文本信息抽取时同义、近义现象;并通过建立褒贬义情感词典分析了游客评论信息的总体情感倾向。实验所得结果可为其他游客旅游决策提供参考。“旅游形象属性-触发词”词表的构建是一个复杂的过程,需要不断的探讨和完善,本文的下一步工作是进一步完善“旅游形象属性-触发词”词表,在保证结果准确性的情况下,尝试采用机器学习中主动学习的方法,减少人工添加触发词的数量。厦门旅游资源
参考文献:
[1]ZHU F, ZHANG X M. Impact of Online Consumer Reviews on Sales: The Moderating Role of Product and Consumer Characteristics[J]. 2010,74(2):133-148.
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论