python爬虫禁止访问解决方法(403)--慧智精品网

python爬⾍禁⽌访问解决⽅法（403）

在上⼀篇博客中说到，程序使⽤⼀段时间后会遇到HTTP Error 403: Forbidden错误。因为在短时间内直接使⽤Get获取⼤量数据，会被服务器认为在对它进⾏攻击，所以拒绝我们的请求，⾃动把电脑IP封了。解决这个问题有两种⽅法。⼀是将请求加以包装，变成浏览器请求模式，⽽不再是“⾚裸裸”的请求。但有时服务器是根据同⼀IP的请求频率来判断的，即使伪装成不同浏览器。由于是同⼀IP访问，还是会被封。所以就有了第⼆种⽅法，就是降低请求频率。具体说来也有两种⽅法。⼀种是在每次请求时暂停短暂时间，从⽽降低请求频率。第⼆种是使⽤不同的IP进⾏访问。显然第⼀种⽅法不是最佳选择。因为我们并不希望下载太慢，尤其是在请求次数很多时。当然如果间隔很短时间，从感官上并⽆差别，如0.1秒。但对于服务器⽽⾔频率就降低了很多。所以这是⼀种最安全可靠的办法，尽管我们并不想⽤它。第⼆种⽅法也就是使⽤代理IP。下⾯逐⼀介绍。

1.增加H ea der

在浏览⾕歌地图时会发现，浏览了⼤量数据依然没有被封IP，但程序中我们只下了⼏百张⽡⽚，就被封了。主要原因是我们是直接Get请求数据，⽽浏览器的请求是有Header的。基于这⼀点，把请求伪装成浏览器请求，就可以解决这个问题了。代码如下：

# coding=utf-8

import urllib2 as ulb

import numpy as np

import PIL.ImageFile as ImageFile

import cv2

import random

# 收集到的常⽤Header

my_headers = [

"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",

"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",

'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',

'Opera/9.25 (Windows NT 5.1; U; en)',

'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',

'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',

'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',

'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',

"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",

"Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 "

]

# 获取影像数据

def getImage(url):

# ⽤urllib2库链接⽹络图像

response = ulb.Request(url)

# 随机选择⼀个Header伪装成浏览器

response.add_header('User-Agent', random.choice(my_headers))

# 打开⽹络图像⽂件句柄

fp = ulb.urlopen(response)

# 定义图像IO

p = ImageFile.Parser()

# 开始图像读取

while 1:

s = fp.read(1024)

if not s:

break

p.feed(s)

# 得到图像

im = p.close()

# 将图像转换成numpy矩阵

arr = np.array(im)

# 将图像RGB通道变成BGR通道，⽤于OpenCV显⽰

pic = np.zeros(arr.shape, np.uint8)

pic[:, :, 0] = arr[:, :, 2]

pic[:, :, 1] = arr[:, :, 1]

pic[:, :, 2] = arr[:, :, 0]

return pic

img = getImage('static.fuwo/upload/attachment/1601/08/bea48ebeb5a811e58e9e00163e00254c.jpg')

cv2.imshow('image', img)

cv2.waitKey(0)

如下所⽰，获取到的⽹络上的图⽚：但有时这样的做法也不⼀定有⽤。前⾯也说到，服务器是根据IP判断。给请求增加Header只是伪装成不同的浏览器⽽已。如果同⼀个IP在短时间内频繁访问，就算是浏览器请求也会被拒绝掉。因此对于这个问题就只好从另⼀个⽅⾯着⼿，即适当降低单个IP访问频率。对于每个IP⽽⾔，每次请求操作之间都暂停⼀段时间。同时利⽤多个IP进⾏访问。通过这两种⼿段可以降低被拒绝的可能性。

2.代理IP

简单地说是通过⾃动更换不同IP来“迷惑”服务器，让它认为是来⾃不同电脑的访问请求，从⽽不会被拒绝掉。由于代理IP的时效性很强，所以需要经常更换。最好是“现⽤现”。代码如下：

# coding=utf-8

import urllib2 as ulb

import numpy as np

import PIL.ImageFile as ImageFile

import cv2

import random

# 免费代理IP不能保证永久有效，如果不能⽤可以更新

# ubanjia/

proxy_list = [

'183.95.80.102:8080',

'123.160.31.71:8080',

'115.231.128.79:8080',

'166.111.77.32:80',

'43.240.138.31:8080',

'218.201.98.196:3128'

]

# 获取影像数据

def getImage(url):

# 随机从IP列表中选择⼀个IP

proxy = random.choice(proxy_list)

# 基于选择的IP构建连接

urlhandle = ulb.ProxyHandler({'http': proxy})

opener = ulb.build_opener(urlhandle)

ulb.install_opener(opener)

# ⽤urllib2库链接⽹络图像

response = ulb.Request(url)

# 打开⽹络图像⽂件句柄

fp = ulb.urlopen(response)

# 定义图像IO

p = ImageFile.Parser()

# 开始图像读取

while 1:

s = fp.read(1024)

if not s:

break

p.feed(s)

# 得到图像

im = p.close()

# 将图像转换成numpy矩阵

arr = np.array(im)

# 将图像RGB通道变成BGR通道，⽤于OpenCV显⽰

pic = np.zeros(arr.shape, np.uint8)

pic[:, :, 0] = arr[:, :, 2]

pic[:, :, 1] = arr[:, :, 1]

pic[:, :, 2] = arr[:, :, 0]

return pic

img = getImage('le/vt/lyrs=s&hl=zh-CN&gl=CN&x=214345&y=107714&z=18') cv2.imshow('image', img)

cv2.waitKey(0)

在之前由于过多使⽤，导致本机IP被封，所以⽆法访问Google地图⽡⽚，出现如下提⽰。

运⾏这段代码后，就可以成功获取⽡⽚，如下

所⽰：这样就成功解决访问⽡⽚403问题了。⾄于在哪免费的代理IP，可以点击。代码列表中的IP 就是在这⾥的。⽹站中还有更多付费的⾼级功能，如果有需要也可以购买。这⾥只是简单测试，就不买了。

3.终极⽅法

说了上⾯两种⽅法后，很⾃然地就会想到把两种⽅法结合起来。这样就会⼤⼤提⾼请求的种类。如在下⾯的代码中Header有13个，IP有6个，排列组合就有78中请求。从理论上来说，组合数越多就越不容易被封。同时再加上请求延迟，是较好的解决⽅案。

# coding=utf-8

import urllib2 as ulb

import numpy as np

import PIL.ImageFile as ImageFile

import cv2

import random

import time

# 免费代理IP不能保证永久有效，如果不能⽤可以更新

# ubanjia/

proxy_list = [

'183.95.80.102:8080',

'123.160.31.71:8080',

'115.231.128.79:8080',

'166.111.77.32:80',

'43.240.138.31:8080',

'218.201.98.196:3128'

]

# 收集到的常⽤Header

my_headers = [

"Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.95 Safari/537.36",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/35.0.1916.153 Safari/537.36",

"Mozilla/5.0 (Windows NT 6.1; WOW64; rv:30.0) Gecko/20100101 Firefox/30.0",

"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_9_2) AppleWebKit/537.75.14 (KHTML, like Gecko) Version/7.0.3 Safari/537.75.14",

"Mozilla/5.0 (compatible; MSIE 10.0; Windows NT 6.2; Win64; x64; Trident/6.0)",

'Mozilla/5.0 (Windows; U; Windows NT 5.1; it; rv:1.8.1.11) Gecko/20071127 Firefox/2.0.0.11',

'Opera/9.25 (Windows NT 5.1; U; en)',

'Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1; SV1; .NET CLR 1.1.4322; .NET CLR 2.0.50727)',

'Mozilla/5.0 (compatible; Konqueror/3.5; Linux) KHTML/3.5.5 (like Gecko) (Kubuntu)',

'Mozilla/5.0 (X11; U; Linux i686; en-US; rv:1.8.0.12) Gecko/20070731 Ubuntu/dapper-security Firefox/1.5.0.12',

'Lynx/2.8.5rel.1 libwww-FM/2.14 SSL-MM/1.4.1 GNUTLS/1.2.9',

"Mozilla/5.0 (X11; Linux i686) AppleWebKit/535.7 (KHTML, like Gecko) Ubuntu/11.04 Chromium/16.0.912.77 Chrome/16.0.912.77 Safari/535.7",

"Mozilla/5.0 (X11; Ubuntu; Linux i686; rv:10.0) Gecko/20100101 Firefox/10.0 "

]

# 获取影像数据

def getImage(url):

# 设置暂停时间为0.1秒

t = 0.1

time.sleep(t)

# 随机从列表中选择IP、Header

proxy = random.choice(proxy_list)

header = random.choice(my_headers)

print proxy, header

# 基于选择的IP构建连接

urlhandle = ulb.ProxyHandler({'http': proxy})

opener = ulb.build_opener(urlhandle)

ulb.install_opener(opener)

# ⽤urllib2库链接⽹络图像

response = ulb.Request(url)

# 增加Header伪装成浏览器

response.add_header('User-Agent', header)

# 打开⽹络图像⽂件句柄

fp = ulb.urlopen(response)

# 定义图像IO

p = ImageFile.Parser()

# 开始图像读取

while 1:

s = fp.read(1024)

if not s:

break

p.feed(s)

# 得到图像

im = p.close()

# 将图像转换成numpy矩阵

arr = np.array(im)

# 将图像RGB通道变成BGR通道，⽤于OpenCV显⽰

pic = np.zeros(arr.shape, np.uint8)

pic[:, :, 0] = arr[:, :, 2]

pic[:, :, 1] = arr[:, :, 1]

文件访问被拒绝

pic[:, :, 2] = arr[:, :, 0]

return pic

img = getImage('le/vt/lyrs=s&hl=zh-CN&gl=CN&x=214345&y=107714&z=18') cv2.imshow('image', img)

cv2.waitKey(0)

慧智精品网

python爬虫禁止访问解决方法(403)

发表评论

推荐文章

三八妇女节的来历和意义一览

妇女节的文化符号与象征

2024年各种节日纪念日大全一览表

中国三八妇女节的起源介绍

2025妇女节是第几个妇女节

热门文章

恋爱之前必看准则

拒绝早恋主题班会_策划书_范文大全

朋友圈深情表白男生的句子

拒绝早恋的主题班会

怎么和白羊座女生表白

大学生表白被开除理由是违反学生管理规定

怎么拒绝别人的表白

怎么向一个女孩子表白

最感动男孩的女生告白短信情话大全怎么用短信给男生表白说说

网友整理知乎神回复集锦

如何婉言拒绝别人表白

每日经典回复段子

男生写给女生的情信超感动7篇

委婉点对女生表白的话

520女生写给男生表白情书3篇

女孩给男生写的情书_情书大全

追摩羯座女生最好的表白方式

添加删除的好友话术

如果你喜欢的人不回你信息怎么办

高情商挽回变心男人的话

最新文章

三八妇女节的来历和意义一览

妇女节的文化符号与象征

2024年各种节日纪念日大全一览表

中国三八妇女节的起源介绍

农历三月古文说法

世界各国是如何庆祝儿童节的

标签列表

慧智精品网

python爬虫禁止访问解决方法(403)

发表评论

推荐文章

三八妇女节的来历和意义一览

妇女节的文化符号与象征

2024年各种节日纪念日大全一览表

中国三八妇女节的起源介绍

2025妇女节是第几个妇女节

热门文章

恋爱之前必看准则

拒绝早恋主题班会_策划书_范文大全

朋友圈深情表白男生的句子

拒绝早恋的主题班会

怎么和白羊座女生表白

大学生表白被开除 理由是违反学生管理规定

怎么拒绝别人的表白

怎么向一个女孩子表白

最感动男孩的女生告白短信情话大全 怎么用短信给男生表白说说

网友整理知乎神回复集锦

如何婉言拒绝别人表白

每日经典回复段子

男生写给女生的情信超感动7篇

委婉点对女生表白的话

520女生写给男生表白情书3篇

女孩给男生写的情书_情书大全

追摩羯座女生最好的表白方式

添加删除的好友话术

如果你喜欢的人不回你信息怎么办

高情商挽回变心男人的话

最新文章

三八妇女节的来历和意义一览

妇女节的文化符号与象征

2024年各种节日纪念日大全一览表

中国三八妇女节的起源介绍

农历三月古文说法

世界各国是如何庆祝儿童节的

标签列表

大学生表白被开除理由是违反学生管理规定

最感动男孩的女生告白短信情话大全怎么用短信给男生表白说说