基于API的微博信息采集系统设计与实现
新浪微博登录不了
基于API的微博信息采集系统设计与实现
作者:吴斌杰 徐子玮 虞飞华
来源:《电脑知识与技术》2013年第17期
        摘要:微博已成为网络信息的重要来源,该文分析了微博信息采集的相关方法与技术,提出了基于API的信息采集方法,然后设计了一个信息采集系统,能够对新浪微博的相关信息进行采集。实验测试表明,该信息采集系统能够快速有效地采集新浪微博信息。
        关键词:新浪微博;微博接口;信息采集;C#语言
        中图分类号:TP315 文献标识码:A 文章编号:1009-3044(2013)17-4005-04
        微博[1],即微型博客的简称,是一个基于用户关系的信息分享、传播以及获取平台,用户可以通过WEB、WAP以及各种客户端组件个人社区,以140字左右的文字更新信息,并实现即时分享。中国互联网络信息中心的《第31次中国互联网络发展状况统计报告》显示,截至2012年12月底, 截至2012年12月底,我国微博用户规模为3.09亿,较2011年底增长了58
73万,网民中的微博用户比例较上年底提升了六个百分点,达到54.7%[2]。随着微博网络影响力的快速扩大,政府部门、学校、知名企业、社会公众人物均开通了微博。随着公众的参与,微博成为了一个强大的虚拟社会,微博已经是网络信息的重要来源,如何用于快速有效地采集微博信息已经成为一个具有重要应用价值的研究。
        1 研究方法与技术路线
        国内的微博用户主要是新浪微博,因此本文拟以新浪微博为例,设计研究方法与技术路线。通过分析国内外的科技文献与实际应用案例,发现目前针对新浪微博的信息采集方法主要有两类:一种是“模拟登陆”、“网页爬虫”[3]、“网页内容解析”[4]三种技术结合的信息采集方法,二是基于新浪微博开放平台的API文档,开发者自行编写程序调用微博的API,进行微博信息的采集。对于第一种方法,难度比较高,研究技术复杂,特别是“模拟登陆”这个步骤,需要随时跟踪新浪微博的登陆加密算法,新浪微博的登陆加密算法的改变,就会造成“网页爬虫”的失败,最后导致采集不到微博信息。同时,“网页爬虫”采集到的网页需要进行“网页内容解析”,效率与性能相比基于API的数据采集存在明显的差距。基于以上因素,因此本文拟采用第二种方式进行研究。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。