python爬虫之爬取网页并保存(简单基础知识)
python爬⾍之爬取⽹页并保存(简单基础知识)抓取⽹页效果图(代码在最后):
基础知识认识
⾸先导⼊所需要的库
from fake_useragent import UserAgent#头部库
quest import Request,urlopen#请求和打开教师节贺卡简单好看
from urllib.parse import quote#转码
from urllib.parse import urlencode#转码
先获取⼀个简单的⽹页
url ="www.baidu/?tn=02003390_43_hao_pg"#获取⼀个⽹址
response = urlopen(url)#将⽹址打开
info = ad()#读取⽹页内容
info.decode()#将其转码,utf-8
时辰对应的时间⼩知识
随机获取⼀个头部
导⼊专⽤库
from fake_useragent import UserAgent#头部库UserAgent().random
ua.choram#这两种都可以
就可以随机获得⼀个头部。
将头部添加到headers中
庄子是哪个学派的⾸先将随机获得的头部保存在headers中
headers ={"User-Agent":UserAgent().random}
请求
request = Request(url,headers=headers)
获取⼀个⽹页
url ="www.baidu/?tn=02003390_43_hao_pg" headers ={"UserAgent":UserAgent().random}#头部request = Request(url,headers = headers)#请求response = urlopen(request)#打开
info = ad()#读取
info.decode()#转码
号查询
这样就可以以电脑的头部获取了⼀个⽹页。
转码:将中⽂转成⽹页编码
#转码
from urllib.parse import quote
quote("百度")
添加到url中:
url ="www.baidu/s?wd={}".format(quote("百度"))
水落石出什么生肖
urlencode转码
quest import Request,urlopen
from urllib.parse import urlencode
args ={
"wd":"百度"
,"ie":"utf-8"
}
urlencode(args)
url ="www.baidu/s?{}".format(urlencode(args))
会⾃动连接:&
案例
爬取⼏个⽹页并保存立春是几时几分
简单的爬取⼗页
#爬取贴吧
from fake_useragent import UserAgent
quest import Request,urlopen
from urllib.parse import quote
from urllib.parse import urlencode
headers ={"User-Agent":UserAgent().random}
jihe =[]
for i in range(0,501,50):
url ="tieba.baidu/f?kw=%E5%B0%9A%E5%AD%A6%E5%A0%82&ie=utf-8&pn={}".format(i)    headers ={"User-Agent":UserAgent().random}
request = Request(url,headers=headers)
response = urlopen(request)
info = ad().decode()
jihe.append(info)
print("第{}页保存成功!".format(int(i/50+1)))
使⽤函数格式,并保存到本地

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。