23个Python爬虫开源项目代码--慧智精品网

23个Python爬⾍开源项⽬代码

今天为⼤家整理了23个Python爬⾍项⽬。整理的原因是，爬⾍⼊门简单快速，也⾮常适合新⼊门的⼩伙伴培养信⼼。所有链接指向GitHub，祝⼤家玩的愉快

1、WechatSogou [1]– 爬⾍。

基于搜狗搜索的爬⾍接⼝，可以扩展成基于搜狗搜索的爬⾍，返回结果是列表，每⼀项均是具体信息字典。

github地址：

2、DouBanSpider [2]– ⾖瓣读书爬⾍。

可以爬下⾖瓣读书标签下的所有图书，按评分排名依次存储，存储到Excel中，可⽅便⼤家筛选搜罗，⽐如筛选评价⼈数>1000的⾼分书籍；可依据不同的主题存储到Excel不同的Sheet ，采⽤User Agent伪装为浏览器进⾏爬取，并加⼊随机延时来更好的模仿浏览器⾏为，避免爬⾍被封。

github地址：

3、zhihu_spider [3]– 知乎爬⾍。

此项⽬的功能是爬取知乎⽤户信息以及⼈际拓扑关系，爬⾍框架使⽤scrapy，数据存储使⽤mongo

github地址：

4、bilibili-user [4]– Bilibili⽤户爬⾍。

总数据数：20119918，抓取字段：⽤户id，昵称，性别，头像，等级，经验值，粉丝数，⽣⽇，地址，注册时间，签名，等级与经验值等。抓取之后⽣成B站⽤户数据报告。

github地址：

5、SinaSpider [5]– 新浪微博爬⾍。

主要爬取新浪微博⽤户的个⼈信息、微博信息、粉丝和关注。代码获取新浪微博Cookie进⾏登录，可通过多账号登录来防⽌新浪的反扒。主要使⽤ scrapy 爬⾍框架。

github地址：

6、distribute_crawler [6]– ⼩说下载分布式爬⾍。

使⽤scrapy,Redis, MongoDB,graphite实现的⼀个分布式⽹络爬⾍，底层存储MongoDB集，分布式

使⽤Redis实现，爬⾍状态显⽰使⽤graphite 实现，主要针对⼀个⼩说站点。

github地址：

7、CnkiSpider [7]– 中国知⽹爬⾍。

设置检索条件后，执⾏src/CnkiSpider.py抓取数据，抓取数据存储在/data⽬录下，每个数据⽂件的第⼀⾏为字段名称。

github地址：

8、LianJiaSpider [8]– 链家⽹爬⾍。

爬取北京地区链家历年⼆⼿房成交记录。涵盖链家爬⾍⼀⽂的全部代码，包括链家模拟登录代码。

github地址：

9、scrapy_jingdong [9]– 京东爬⾍。

新浪微博登录不了基于scrapy的京东⽹站爬⾍，保存格式为csv。

github地址：

10、QQ-Groups-Spider [10]– QQ 爬⾍。

批量抓取 QQ 信息，包括名称、号、⼈数、主、简介等内容，最终⽣成 XLS(X) / CSV 结果⽂件。

github地址：

11、wooyun_public[11]-乌云爬⾍。

乌云公开漏洞、知识库爬⾍和搜索。全部公开漏洞的列表和每个漏洞的⽂本内容存在MongoDB中，⼤概约2G内容；如果整站爬全部⽂本和图⽚作为离线查询，⼤概需要10G空间、2⼩时（10M电信带宽）；爬取全部知识库，总共约500M空间。漏洞搜索使⽤了Flask作为web

server，bootstrap作为前端。

12、spider[12]– hao123⽹站爬⾍。

以hao123为⼊⼝页⾯，滚动爬取外链，收集⽹址，并记录⽹址上的内链和外链数⽬，记录title等信息，windows7 32位上测试，⽬前每24个⼩时，可收集数据为10万左右

13、findtrip [13]– 机票爬⾍（去哪⼉和携程⽹）。

Findtrip是⼀个基于Scrapy的机票爬⾍，⽬前整合了国内两⼤机票⽹站（去哪⼉ + 携程）。

14、163spider [14] – 基于requests、MySQLdb、torndb的⽹易客户端内容爬⾍

15、doubanspiders[15]– ⾖瓣电影、书籍、⼩组、相册、东西等爬⾍集

16、QQSpider [16]– QQ空间爬⾍，包括⽇志、说说、个⼈信息等，⼀天可抓取 400 万条数据。

17、baidu-music-spider [17]– 百度mp3全站爬⾍，使⽤redis⽀持断点续传。

18、tbcrawler[18]– 淘宝和天猫的爬⾍，可以根据搜索关键词，物品id来抓去页⾯的信息，数据存储在mongodb。

stockholm [19]– ⼀个股票数据（沪深）爬⾍和选股策略测试框架。根据选定的⽇期范围抓19、取所有沪深两市股票的⾏情数据。⽀持使⽤表达式定义选股策略。⽀持多线程处理。保存数据到JSON⽂件、CSV⽂件。

20、BaiduyunSpider[20]-百度云盘爬⾍。

21、Spider[21]-社交数据爬⾍。⽀持微博，知乎,⾖瓣。

22、proxy pool[22]-Python爬⾍代理IP池(proxy pool)。

23、music-163[23]-爬取⽹易云⾳乐所有歌曲的评论。

来源：全球⼈⼯智能

作者：SFLYQ

参考

慧智精品网

23个Python爬虫开源项目代码

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

慧智精品网

23个Python爬虫开源项目代码

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记 汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版 七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

少年读史记汉帝国风云录概括300字

人教版七年级中国历史新增文物