微博数据挖掘研究综述
微博数据挖掘研究综述
丁兆云;贾焰;周斌
【摘 要】随着近几年微博的快速发展与普及,微博凭借平台的开放性、终端扩展性、内容简洁性和低门槛等特性,在网民中快速渗透,已发展成一个重要的社会化媒体,微博成为网民获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒介以及社会公共舆论的重要平台,对国家安全和社会发展产生了深远的影响.微博是人类在虚拟网络世界生活的抽象概括和延伸,与一般信息网络不同,微博本身具有大规模、噪音数据多样性、快速传播演化性、非线性、社会媒体性以及多关系等特征,因此其在分析方法和挖掘目标上都与传统信息系统具有很大差别,在相关技术的研究上也带来了更大的挑战.针对微博的新特性,研究了微博近几年的相关研究现状,同时分析了Twitter数据集特征,且总结了未来研究面临的挑战.
【期刊名称】《计算机研究与发展》
【年(卷),期】2014(051)004
清明节应该怎么问候【总页数】a股和b股16页(P691-706)
颧骨高的男人面相【关键词】微博;数据挖掘;文本挖掘;社会网络;社会媒体
【作 者】丁兆云;贾焰;周斌
qq空间主人寄语文字
【作者单位】国防科学技术大学信息系统与管理学院 长沙410073;国防科学技术大学信息系统工程重点实验室 长沙410073;国防科学技术大学计算机学院 长沙410073;国防科学技术大学计算机学院 长沙410073;国防科学技术大学计算机学院 长沙410073
【正文语种】中 文
【中图分类】TP391
互联网正逐步演变为无处不在的计算平台和信息传播平台.微博、在线社交网站、博客、论坛、维基等社交网络应用的出现和迅猛发展,使得人类使用互联网的方式产生了深刻变革——由简单信息搜索和网页浏览转向网上社会关系的构建与维护、基于社会关系的信息创造、交流和共享.特别是近几年微博的快速发展与普及,微博凭借平台的开放性、终端扩展性、内容简洁性和低门槛等特性,在网民中快速渗透,发展成为一个重要的社会化媒体.微博成为网民获取新闻时事、人际交往、自我表达、社会分享以及社会参与的重要媒
介及社会公共舆论、企业品牌和产品推广、传统媒体传播的重要平台.
微博正在成为人类社会中社会关系维系和信息传播的重要渠道和载体,对国家安全和社会发展都会产生深远的影响:1)社会个体通过各种连接关系在微博中构成“关系结构”,包括以各种复杂关系关联而成的虚拟社区;2)基于微博的关系结构,大量网络个体围绕着某个事件而聚合,并相互影响、作用、依赖,从而形成具有共同行为特征的“网络体”;3)基于微博关系结构和网络体,各类“网络信息”得以快速发布并传播扩散形成社会化媒体,并反馈到现实社会,从而使得微博与现实社会间形成互动,并对现实世界产生影响.
基于微博用户间关系的单向性,用户可以构建起一个强关系和弱关系并存的网络,从而同时满足了其多层次的社交需求,是人类在虚拟网络世界生活的抽象概括和延伸.与一般信息网络不同,微博本身具有大规模、噪音数据多样性、快速传播演化性、非线性、社会媒体性以及多关系等特征,因此其在分析方法和挖掘目标上都与传统信息系统具有很大差别,在技术上也带来了更大的挑战.
1)微博发展现状
Twitter作为全世界最流行的微博服务,由Dorsey于2006年3月创办并在当年7月启动的,截至2012年3月,Twitter共有1.4亿活跃用户,这些用户每天会发表约3.4亿条推文,Twitter每天处理约16亿的网络搜索请求.著名流量统计网站ALEXA的数据显示,Twitter在2012年10月的日均IP访问量约为5000万,日均PV浏览量约为3亿次.市场研究机构Semiocast对2012年6月份发布于Twitter上的10.58亿条博文进行了分析,结果显示,截至2012-07-01,Twitter的注册用户数已经达到5.17亿,如图1、图2所示,美国本土注册的Twitter用户数目最多,约为1.418亿,日本和韩国注册用户数目增长缓慢,而Twitter上发帖数量最多的三大城市分别是雅加达、东京与伦敦.
Fig.1 Top 20countries in terms of Twitter accounts.图1 注册账号数目排名前20的国家分布[1]
Fig.2 Top 20cities in terms of Twitter accounts.图2 发布博文数目排名前20的城市分布[1]
从2007年中国第1个具有微博特点的饭否网的创办,到2009年8月中国最大的门户网站新浪网推出“新浪微博”内测版,微博正式进入中文上网主流人视野,2010年国内微博像雨后
春笋般崛起,四大门户网站均开设微博,微博在国内迅速发展.根据中国互联网信息中心(CNNIC)发布的《中国互联网络发展状况统计报告》统计近几年国内微博发展趋势,国内微博用户数目逐年呈上升趋势,且在2010年与2011年短时间内聚集了大量用户,截至2011年6月,中国微博用户数量达到1.95亿,半年内增长超过2倍,增长率为208.9%.网民使用率从13.8%迅速提升至40.2%,成为增长速度最快的互联网应用,截至2012年6月,超过一半的中国网民使用微博,网民使用率为50.9%,微博用户数达到2.74亿,较2011年底增长9.5%,微博用户规模进入平稳增长期.
2)微博特点
微博即微博客(microblogs)的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过 WEB,WAP(手机客户端)以及各种客户端组建个人社区,以不超过140个字符更新信息,并实现即时分享.微博主要包括Twitter,plurk等,境内微博主要包含新浪微博、腾讯微博等.区别于其他类Facebook的社交网络应用,微博的社会网络关系为单向的,用户不需要其他用户权限就可以关注它们.例如,Twitter中社会网络由关注(following)关系形成,用户关注的人称为该用户的好友(friend);关注某用户的人称
为该用户的粉丝(follower),用户发布的所有推文(tweets)将出现在公共时间线上(public timeline),该用户所有粉丝时间线上将显示该用户的所有消息.
韩国科学技术院Kwak等人[2]研究表明微博不仅具有社交网络(social network)功能,更倾向于具有社会媒体(social media)功能,表现为自媒体性,微博将用户从内容的消费者转换为内容的生产者.微博具有短文本性、终端扩展性、即时性、“裂变式”信息传播等特点.
1)短文本性.区别于传统博客(blog)的长文本,微博限制用户发布的博文(post)不超过140个字符.
2)终端扩展性.微博平台具有开放性,用户可以通过WEB,WAP以及各种客户端方便地使用微博.据美国互联网统计公司comScore的统计分析可知,2012年3月份Twitter的手机用户数目相对2011年同时期增长了约101%,成为增长速度最快的社交网络应用,如图3所示.中国互联网信息中心CNNIC发布的《第30次中国互联网络发展状况统计报告》指出:微博在手机端的增长幅度明显,用户数量由2011年底的1.37亿增至1.70亿,增速达到24.2%.建设银行卡种类
Fig.3 Percentage growth in unique visitors.图3 访问Twitter的用户数目增长率分布[3]
苹果怎么设置黑名单
3)即时性.微博的即时性表现为内容发布的即时性和信息传播的即时性.由于微博的短文本性和终端扩展性,用户随时随地都可以不假思索地通过WEB,WAP以及各种客户端将所见所闻所感,用简便的语言通过微博迅速发送,这让微博彻底改变了信息传递的模式,成为即时性较强的信息传播平台.另外,微博用户所关注的好友更新了消息之后,系统自动将更新的信息按时间顺序主动推送到好友个人主页中,从而进一步强化了微博信息传播的即时性.
4)“裂变式”信息传播.微博的转发功能(“RT@”)使得信息无限制地被转发,其信息传播范围呈“核裂变”式的几何级数式扩大,且结合微博的主动推送功能,信息快速地扩散到大量用户中.
本文针对微博新特性,分析了微博近几年的相关研究现状,随后分析了Twitter数据集特征,且总结了未来研究面临的挑战.
1 微博研究现状
微博数据由于公开应用程序接口(application programming interface,API),数据获取便捷,学者能够在大规模微博数据集上挖掘隐含信息、验证信息理论等.
近年来,对微博数据挖掘以及社交网络中的影响力分析受到了学术界、工业界的广泛关注,微博数据挖掘代表性的研究主要包括话题事件分析、情感分析、信息检索与推荐、网络关系分析、信息传播、影响力分析等.
1.1 微博话题事件分析
事件(event)指由某些原因、条件引起,发生在特定时间、地点,并可能伴随某些必然结果的一个特例.话题(topic)包括一个核心事件或活动,以及所有与之直接相关的事件或活动.微博中的话题事件分析研究主要包括事件检测与跟踪、首事件检测、突发事件检测、话题摘要以及话题模型等.
1)事件检测与跟踪:事件检测与跟踪的目标为对文本信息流进行新话题的自动识别和已知话题的持续跟踪.事件检测与跟踪的基础方法为计算文档之间的相似性,文档之间相似性常用度量方法为夹角余弦,即
其中Dt与Ds分别表示两篇文档,vt和vs分别表示两篇文挡的向量,sim(Dt,Ds)表示计算两篇文挡相似性的函数.
Sakaki等人[4]针对Twitter信息的实时性,提出了一种算法来监控博文以及检测目标事件,针对目标事件设计了时空模型,发现事件扩散的地点轨迹.Popescu等人[5]提出了监督式的机器学习方法,检测Twitter中的争议事件.Weng等人[6]针对微博中大量无意义的噪音数据,利用小波分析法过滤琐细的词,更加准确地检测Twitter中的事件.Becker等人[7]针对Twitter中的博文流,提出了在线聚类技术识别真实世界的事件.Ritter等人[8]针对Twitter的短文本以及富含噪音数据等特性,提出了开放领域事件抽取方法,利用潜在变分模型发现重要的事件类别.Lin等人[9]针对微博流的短文本特性,利用基于复杂的分类器过滤博文流,提出了面向在线语言模型的平滑技术跟踪微博流中的话题.Hong等人[10]针对Twitter中的位置服务,利用统计话题模型和稀疏编码技术,提出了一种稀疏产生式模型发现微博流中地理位置话题.
2)首事件与突发事件检测:首事件与突发事件检测的目标为对文本信息流中的每篇文档、顺序判断其是否描述了一个新的或者突发的事件,如图4所示:
Fig.4 First story detection.图4 首事件与突发事件检测示意图

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。