基于依存句法的旅游景点评价系统
基于依存句法的旅游景点评价系统福建旅游景点介绍
现今,旅游已经成为人们放松身心、开拓视野的首选方式。在中国的国民消费中,旅游消费比重逐年增大。各大旅游网站在为消费者提供酒店服务、门票价格及旅游攻略的同时,也为广大网民提供了发表旅游评论的机会。这些评论数据包含了对景点服务、路线或是特等反馈。这些反馈信息往往能为其他用户做攻略时提供决策支持。但目前网络数据庞大,浏览数据需要花费大量的时间和精力。重庆市的地理环境特殊,形成了饮食、旅游相结合的产业链。纵观去年的中商情报网讯,2018年1-12月游客达到了59723.71万人次创历史新高,同比增长了10.13%。同时,旅游人次的增加带动了重庆市的经济的增长,2018年实现总收入4344.15亿元,比去年增长了31.32%。在此时代背景下,以重庆市的热门旅游景点为例,设计开发了一款基于依存句法的旅游景点评价系统,主要的研究贡献如下。第一,基于Selenium爬虫技术,设计了一套自动获取评论的方案。针对当前单个旅游网站评论数据量有限的问题,利用Selenium工具,获取携程网及马蜂窝网上重庆标志景点的评论数据30000条,并设置定时更新获取的功能,为系统提供了足够的数据支持。第二,合并筛选现有的知网HowNet及台湾大学NTUSD词典得到基础的情感词典,并借助哈工大《信息检索研究中心同义词词林扩展版》词典设计算法完成了扩建。针对当前现有词典数量较少,造成情感分类不准确的问题,借助HowNet及台湾大学NTUSD词典构建了基础情感词
典和程度副词词典,并搜索网络构建了否定词词典。基于宋京生提出的汉英从属连词比较的理论,构建了关联词词典,最终形成了包含6440个词语的积极词典,包含负向情感词8110个的消极词典,包含213个词语的程度副词词典,包含18个词语常用否定词典以及47个词的关联词典,词典种类的增加及词典数量的丰富,增加了情感分析的准确度。第三,基于依存句法并设计计算规则完成对段落级旅游评论的情感分析,在同类算法中提高了分类的准确性。系统借助斯坦福大学的StandFord Parse工具抽取句子的依存关系,并在设计情感规则时考虑否定词和程度副词的共现位置及关联词对句子情感倾向的影响,通过仿真实验,将这种方法与文献[12]中未考虑这些规则的方法结果作对比,情感分类的准确性提高了4%。最后,采用Django框架及HTML5+JavaScript+Python语言完成整个系统的开发工作。鉴于目前的旅游网站如“携程网”“马蜂窝”上只能看到用户对景点的具体评论,缺少用户更感兴趣的景点话题,如景点的价格、服务、交通等却没有直观的展示等问题。系统提供了对特定景点主题的查看,并能够浏览用户对各个主题的情感倾向,为情感分析的可视化搭建了平台。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。