python数据采集有哪些技术_如何快速掌握Python数据采集与
⽹络爬⾍技术
⼀、数据采集与⽹络爬⾍技术简介
⽹络爬⾍是⽤于数据采集的⼀门技术,可以帮助我们⾃动地进⾏信息的获取与筛选。从技术⼿段来说,⽹络爬⾍有多种实现⽅案,如PHP、Java、Python ...。那么⽤python 也会有很多不同的技术⽅案(Urllib、requests、scrapy、),每种技术各有各的特点,只需掌握⼀种技术,其它便迎刃⽽解。同理,某⼀种技术解决不了的难题,⽤其它技术或⽅依然⽆法解决。⽹络爬⾍的难点并不在于⽹络爬⾍本⾝,⽽在于⽹页的分析与爬⾍的反爬攻克问题。希望在本次课程中⼤家可以领会爬⾍中相对⽐较精髓的内容。
⼆、⽹络爬⾍技术基础
在本⽂中,将使⽤Urllib技术⼿段进⾏项⽬的编写。同样,掌握了该技术⼿段,其他的技术⼿段也不难掌握,因为爬⾍的难点不在于技术⼿段本⾝。本知识点包括如下内容:
铃声怎么设置Urllib基础
浏览器伪装
⽤户代理池
糗事百科爬⾍实战
干粉灭火器的使用方法需要提前具备的基础知识:正则表达式
1)Urllib基础
爬⽹页
打开python命令⾏界⾯,两种⽅法:ulropen()爬到内存,urlretrieve()爬到硬盘⽂件。
同理,只需换掉⽹址可爬取另⼀个⽹页内容
上⾯是将爬到的内容存在内存中,其实也可以存在硬盘⽂件中,使⽤urlretrieve()⽅法
>>> quest.urlretrieve("www.jd",filename="D:/test.html")
之后可以打开test.html,京东⽹页就出来了。由于存在隐藏数据,有些数据信息和图⽚⽆法显⽰,可以使⽤抓包分析进⾏获取。
2)浏览器伪装
尝试⽤上⾯的⽅法去爬取糗事百科⽹站url="www.qiushibaike/",会返回拒绝访问的回复,但使⽤浏览器却可以正常打开。那么问题肯定是出在爬⾍程序上,其原因在于爬⾍发送的请求头所导致。
打开糗事百科页⾯,如下图,通过F12,到headers,这⾥主要关注⽤户代理User-Agent字段。User-Agent代表是⽤什么⼯具访问糗事百科⽹站的。不同浏览器的User-Agent值是不同的。那么就可以在爬⾍程序中,将其伪装成浏览器。渴望力
家装衣柜多少钱1平方米
将User-Agent设置为浏览器中的值,虽然urlopen()不⽀持请求头的添加,但是可以利⽤opener进⾏addheaders,opener是⽀持⾼级功能的管理对象。代码如下:
3)⽤户代理池
在爬取过程中,⼀直⽤同样⼀个地址爬取是不可取的。如果每⼀次访问都是不同的⽤户,对⽅就很难进⾏反爬,那么⽤户代理池就是⼀种很好的反爬攻克的⼿段。
第⼀步,收集⼤量的⽤户代理User-Agent
第⼆步,建⽴函数UA(),⽤于切换⽤户代理User-Agent
for循环,每访问⼀次切换⼀次UA
每爬3次换⼀次UA
foriinrange(0,10):if(i%3==0): UA() quest.urlopen(url).read().decode("utf-8","ignore")
(*每⼏次做某件事情,利⽤求余运算)
4)第⼀项练习-糗事百科爬⾍实战
需要把糗事百科中的热门段⼦爬取下来,包括翻页之后内容,该如何获取?
第⼀步,对⽹址进⾏分析,如下图所⽰,发现翻页之后变化的部分只是page后⾯的页⾯数字。
第⼆步,思考如何提取某个段⼦?查看⽹页代码,如下图所⽰,可以发现
的数量和每页段⼦数量相同,可以⽤祝福党的语句十个字左右
这个标识提取出每条段⼦信息。
第三步,利⽤上⾯所提到的⽤户代理池进⾏爬取。⾸先建⽴⽤户代理池,从⽤户代理池中随机选择⼀项,设置UA。
相关⽂章内容简介
1
如何快速掌握Python数据采集与⽹络爬⾍技术
⼀、数据采集与⽹络爬⾍技术简介⽹络爬⾍是⽤于数据采集的⼀门技术,可以帮助我们⾃动地进⾏信息的获取与筛选。从技术⼿段来说,⽹络爬⾍有多种实现⽅案,如PHP、Java、Python ...。那么⽤python 也会有很多不同的技术⽅案(Urllib、requests、scrapy、),每种技术各有各的特点,只需掌握⼀种技术,其它便迎刃⽽解。同理,某⼀种技术解决不了的难题,⽤其它技术或⽅依然⽆法解决。⽹络爬⾍的难点并不在于⽹络爬⾍本⾝,⽽在于⽹页的分析与爬⾍的反爬攻克问题。希望在本次课程中⼤家可以领会爬⾍中相对⽐较精髓的内容。⼆、⽹络爬⾍技术基础在本⽂中,将使⽤Urllib技术⼿段进⾏项⽬的编写。同样,掌握了该技术⼿段,其他的技术⼿段也不难掌握,因为爬⾍的难点不在于技术⼿段本⾝。本知识点包括如下内容:Urllib基础浏览器伪装⽤户代理池糗事百科爬⾍实战需要提前具备的基础知识
[阅读全⽂]
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论