基于新浪微博的数据挖掘及可视化研究
基于新浪微博的数据挖掘及可视化研究
作者:赵捷 谭国强
新浪微博登录不了来源:《电子技术与软件工程》2015年第18期
        本文介绍一种具有实际应用意义的小型数据挖掘可视化系统。系统通过HttpClient进行新浪微博模拟登录及信息获取,采用本地CSV格式文件储存数据并使用Hibernate实现与Mysql数据库连接,通过Java Web形式,运用D3.js及Echarts等数据可视化技术实现本地用户信息可视化的转化及浏览;同时提供了微博大V推荐查看来增加系统的趣味性,支持本地用户查看、网络用户的信息在线挖掘及分析展示,经反复测试、分析和对比,证明了本系统的实用性和娱乐趣味性。
        【关键词】新浪微博 信息可视化 数据挖掘 人物分析
        1 概述
        随着Internet的迅猛发展,Web已经成为全球传播与共享科研、信息社会的发展,人们
的生活已经离不开网络,无论此时此刻你正在通过电脑终端还是移动终端来进行网络之旅,新浪微博的顺势而生、庞大的用户体系及简单方便的微博书写及转发评论已经成为人们分享信息获取社会动态、了解名人偶像和朋友的重要工具。
        社会的发展使人们对信息获取的方式变得越来越挑剔,单纯的文本信息已经满足不了人们的视觉体验。于是各种信息可视化工具和JavaScript框架越来越得受到人们的喜爱,尤其以D3.js这种js框架慢慢成为了网页可视化的主流,同时百度开发的Echarts以其高度整合性和强大的报表制作能力也得到了大家的青睐。
        为了解决人们追求通过简单、高效的信息获取信息,本文采用新浪微博作为数据源入口,通过网络挖掘技术实现新浪微博信息挖掘和本地储存,利用可视化框架对分析后的用户实现信息展示。具有实际应用意义的小型数据挖掘可视化系统,满足了人们对数据信息获得的直观性需求。
        2 设计理念和架构
        每天都会有大量的用户访问着新浪微博的页面,期间包含着各式各样的网络爬虫,人
们不断地从这一社交网络资源库中爬取着信息,信息化社会下使得信息成为公司无形的财产,而我们平时的研究获取只停留在信息处理的某一部分:或者是数据挖掘,或者是信息可视化。而没有很好的实现一个信息挖掘及可视化展示的系统项目。于是设计了本套系统,旨在实现具有实际应用意义的小型数据挖掘可视化系统。我们可以通过模拟用户登录的方式用机器代替人的行为来把浏览过的网页信息抓取下来。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。