爬虫中常见的问题，常见的反爬机制--慧智精品网

波涛汹涌的意思

爬⾍中常见的问题，常见的反爬机制

原⽂来源：

1.请求头之User-agent

这个稍微接触过⼀点点爬⾍的应该都不陌⽣，不是说接触Python爬⾍，不管你⽤什么开发语⾔来写爬⾍，应该都会⽤到这个。⼤概解释⼀下，就是⼀个⾝份的象征，这个可以⽤浏览器⾃带的调试⼯具查看，访问⼀个⽹站的时候，按f12键或者⿏标右键打开调试（有的浏览器叫检查，或者查看元素），然后切换到network（⽹络），重新刷新⼀次⽹站，就会出现所有的请求，随机点击⼀个，右边出现的就是请求头信息了，如下，这是我访问某某⽹站的，我使⽤的浏览器是⽕狐，然后图上标注的就是user-agent

具体怎么⽤呢？

⽐如：

这样就可以带上UA了

无线网络连接不见了

如果不带的话，你的⽬标⽹站服务端是可以检测到是浏览器还是爬⾍⼯具在访问数据的，就看你的⽬标⽹站的友好度了，如果反爬机制做的很⾼效，到这⾥你就被ban了。

林正英僵尸全集2.调试⼯具之痛

很多时候我们为了查看⽹页的DOM结构可能就直接⽤浏览器⾃带的调试⼯具（就是上⾯说的按f12键）来查看，这个的话，⼤部分⽹页是可以应对的，但是，少部分⽹站⽤调试⼯具查看的DOM结构和整个⽹页的源码是不⼀致的，说个最近的事，我爬某视频⽹站，调试⼯具打开他在每个重要信息都加了⼀个css样式，这个css样式是通过定位某个html标签（假设为<span></span>标签）设置上的，我解析⽹页的时候就很痛苦，调了很久，就是得不到结果，最后发现这个span标签是⽤js拼接上的，换句话说，服务端回应的是不带有这个span标签的，所以就要没有这个span标签来处理。说这么多不知道看官您能不能理解，遇到过这个问题的朋友应该明⽩我在说什么

生普洱和熟普洱有什么区别

3.异步请求

上⾯说的DOM结构不⼀致还有⼀种可能，就是前后端⽤的Ajax异步请求的，所以你打开浏览器的调试⼯具查看DOM结构和你⽤Python获取的结果也是不⼀致的，这个相信会玩爬⾍的⽼哥们都不陌⽣

4.请求头之Cookies

有⼀部分⽹站，当你访问⾸页时，会⾃动设置⼀个cookie，然后访问同站下的其他页⾯就会验证这个字段，如果不匹配就会禁⽌访问

如下，访问百度都会⾃动设置⼀些cookie:

5.请求头之特殊字段

特殊字段是什么呢，就是某⽹站特有的⼀些字段，⽐如以下的boss直聘⽹：

会带有这些特殊的字段。当然这⾥只是举个例⼦，，经过我的测试，我圈出来的那⼏个[:method]等的字段其实请求的时候是不⽤带上的6.请求头之Referer

这个referer是⼲嘛的呢？⾸先该字段的值都是上⼀级⽹站的url，根据我的理解，它有以下作⽤：

1.做前端的朋友知道，可以借⽤这个字段直接返回到上个页⾯

2.还可以通过这个追踪流量来源，⽐如某某公司在百度上做了SEO（打了个推⼴⼴告），当⽤户通过百度点进来的话，就可以通过referer追踪来源，对⽤户做进⼀步的⾏为分析

3.检测来源的合法性，因为都可以知道通过某某url路径过来的，那么就可以判断来源是否合法，如果异常的话就可以做拦截请求等等的

有的⽹站就是因为有这个验证，所以返回的数据不正常，带上就OK了。还有的⽹站更奇怪，你不带上也不会报错，返回的数据也是希望的数据，但是⽆法和页码匹配，⽐如你请求的是第⼀页的数据，它有可能返回的是第5页的数据

7.请求头之accept：

不知道⽼哥您遇到过这个问题没有，在请求头⾥，如果服务端返回的结果是普通的html页⾯的话，值就应该是如下的：'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3',

如果返回的是json字符串（返回json字符串的话，往往是属于异步请求）的话，值就应该是这个：

'Accept': 'application/json, text/javascript, */*; q=0.01',

这个不知道你们有没有体会，反正我记得我爬某⽹站的时候，因为都通⽤的同⼀个请求头，有的⽹站就是返回json数据，我怎么改代码都⽆法得到正确的值，就是因为本来是json字符串的我的accept⽤的上⾯的html页⾯⽤的，导致返回数据不符合事实。

8.请求头之Connection

这个字段字⾯意思就是http连接嘛，http链接最根本的就是tcp/ip连接了，什么三次握⼿，四次握⼿之类的，这些就不展开了，要说就占篇幅了。我们都知道，http请求属于短连接，访问就有，关闭浏览器就会⾃动断开的，这种就是短连接，对应的长连接就是websocket，这个就不展开了，⾃⾏百度了。这个Connection字段有两个值，⼀个是keep-alive，⼀个是close，keep-alive的话往往就跟前⾯的带有cookie 相关，他会保存session会话（如果关闭浏览器的话就没了，有的⽹站是保存⼀个字段，默认有⼏天的有效期），作为同⼀个连接来请求另⼀个页⾯，如果是close的话，就是每次访问都是重新和服务端建⽴⼀个连接，不会保存session

自制冰淇淋

这个问题的话，在⼀般情况下还是不会遇到，主要就是在⾼并发请求的时候，有可能同⼀个时刻请求多次来⾃同⼀个站点的数据，触发该⽹站的反爬机制的频率限制，就会出现什么scoket.timeout，tion.HTTPConnection之类的错误。所以从那次之后我的爬⾍程序如果⽤了⾼并发的话，我都会把这个connection设置为close

9.返回数据gzip危险的近义词

慧智精品网

爬虫中常见的问题，常见的反爬机制

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

山西汉代政治,文化名人及作品

唐装的起源和历史演变

中国古代史阶段特征

中国历史上的汉朝文化发展

[汉代历史简介]汉代历史故事

历史汉代全部知识点总结

汉代经济发展对中国经济史的影响

汉代的文学体裁

汉源名字来历

简述汉代艺术的基本特征和美学风格

汉代文学的风格和特征

汉代陶瓷知识点归纳总结

汉代经济发展与中外贸易

中国古代史完整版

汉代的科学技术与数学发展

汉代的录囚名词解释

汉代对中国文化的影响-概述说明以及解释

汉代的思想大一统知识点

汉学与宋学的名词解释

汉唐文化交融研究

最新文章

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

互动训练B—《汉武帝巩固大一统王朝》

汉代耧车的历史价值

红星照耀中国汉代青铜读书笔记

湖南马王堆汉墓的发掘与研究

标签列表