python爬⾍登录微博_Python爬⾍学习——使⽤Cookie登录新
浪微博
1.⾸先在浏览器中进⼊WAP版微博的⽹址,因为⼿机版微博的内容较为简洁,⽅便后续使⽤正则表达式或者beautifulSoup等⼯具对所需要内容进⾏过滤
2.⼈⼯输⼊账号、密码、验证字符,最后最重要的是勾选(记住登录状态)
3.使⽤Wireshark⼯具或者⽕狐的HttpFox插件对GET请求进⾏分析,需要是取得GET请求中的Cookie信息
在未登录新浪微博的情况下,是可以通过⽹址查看⼀个⽤户的⾸页的,但是不能进⼀步查看该⽤户的关注和粉丝等信息,如果点击关注和粉丝,就会重定向回到登录页⾯
#获取⽹页函数
def getHtml(url,user_agent="wswp",num_retries=2): #下载⽹页,如果下载失败重新下载两次
print '开始下载⽹页:',url
#headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0'}
headers = {"User-agent":user_agent}
request = urllib2.Request(url,headers=headers)#request请求包
try:
html = urllib2.urlopen(request).read() #GET请求
except urllib2.URLError as e:
print "下载失败:",e.reason
html = None
if num_retries > 0:
if hasattr(e,'code') and 500 <= e.code < 600:
return getHtml(url,num_retries-1)
return html
所以需要在请求的包中的headers中加⼊Cookie信息,
在勾选了记住登录状态之后,点击关注或者粉丝按钮,发出GET请求,并使⽤wireshark对这个GET请求进⾏抓包
可以抓到这个GET请求
右键Follow TCP Stream,图⽚中打码的部分就Cookie信息
4.加⼊Cookie信息,重新获取⽹页
有了Cookie信息,就可以对Header信息就⾏修改
#获取⽹页函数
def getHtml(url,user_agent="wswp",num_retries=2): #下载⽹页,如果下载失败重新下载两次
print '开始下载⽹页:',url
#headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0'}
headers = {"User-agent":user_agent,"Cookie":"_T_WM=XXXXXXXX; SUB=XXXXXXXX; gsid_CTandWM=XXXXXXXXX"}
request = urllib2.Request(url,headers=headers)#request请求包
try:
html = urllib2.urlopen(request).read() #GET请求
except urllib2.URLError as e:
print "下载失败:",e.reason
html = None
if num_retries > 0:
if hasattr(e,'code') and 500 <= e.code < 600:
return getHtml(url,num_retries-1)
return html
import urllib2
if __name__ == '__main__':
URL = 'weibo/XXXXXX/fans'#URL替代
html = getHtml(URL)
print html
成功访问到某个⽤户的粉丝信息
试⼀试访问⼀下最近⼀年很⽕的papi酱的微博,她的个⼈信息页⾯
import urllib2
if __name__ == '__main__':
URL = 'weibo/2714280233/info'#URL替代
html = getHtml(URL)
print html
Python爬⾍学习:三、爬⾍的基本操作流程
本⽂是博主原创随笔,转载时请注明出处Maple2cat|Python爬⾍学习:三.爬⾍的基本操作与流程 ⼀般我们使⽤Python爬⾍都是希望实现⼀套完整的功能,如下: 1.爬⾍⽬标数据.信息: 2.将 ...
Python爬⾍学习:四、headers和data的获取
《Python爬⾍学习系列教程》学习笔记
python爬⾍scrapy框架——⼈⼯识别登录知乎倒⽴⽂字验证码和数字英⽂验证码(2)
操作环境:python3 在上⼀⽂中python爬⾍scrapy框架--⼈⼯识别知乎登录知乎倒⽴⽂字验证码和数字英⽂验证码(1)我们已经介绍了⽤Requests库来登录知乎,本⽂如果看不懂可以先看之前 ...
&lbrack;转]《Python爬⾍学习系列教程》
python爬⾍学习(1) —— 从urllib说起
0. 前⾔ 如果你从来没有接触过爬⾍,刚开始的时候可能会有些许吃⼒ 因为我不会从头到尾把所有知识
点都说⼀遍,很多⽂章主要是记录我⾃⼰写的⼀些爬⾍ 所以建议先学习⼀下cuiqingcai⼤神的 Pyth ...
python爬⾍学习 —— 总⽬录
开篇 作为⼀个C党,接触python之后学习了爬⾍. 和AC算法题的快感类似,从⽹络上爬取各种数据也很有意思. 准备写⼀系列⽂章,整理⼀下学习历程,也给后来者提供⼀点便利. 我是⽬录 听说你叫爬⾍ - ...
Python爬⾍学习:⼆、爬⾍的初步尝试
我使⽤的编辑器是IDLE,版本为Python2.7.11,Windows平台. 本⽂是博主原创随笔,转载时请注明出处Maple2cat|Python爬⾍学习:⼆.爬⾍的初步尝试 1.尝试抓取指定⽹页 ...
python爬⾍学习视频资料免费送,⽤起来⾮常666
当我们浏览⽹页的时候,经常会看到像下⾯这些好看的图⽚,你是否想把这些图⽚保存下载下来. 我们最常规的做法就是通过⿏标右键,选择另存为.但有些图⽚点击⿏标右键的时候并没有另存为选项,或者你可以通过截图⼯ ...
随机推荐
Vue.js学习笔记(1)
数据的双向绑定(ES6写法) 效果: 没有改变 input 框⾥⾯的值时
lua 基础 1
--1.1 Chunks--[[Chunk 是⼀系列语句,Lua 执⾏的每⼀块语句,⽐如⼀个⽂件或者交互模式下的每⼀⾏都是⼀个 Chunk.]] -- 1.2 全局变量--[[ 全局变量不需要声明,给 ...
【ASP.NET Web API教程】6.3 内容协商
JDBC 是什么
JDBC is a Java database connectivity technology (Java Standard Edition platform) from Oracle Corpora ...
PHP⽂件下载原理
1.php下载原理图
2.⽂件下载源码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 <?php $ ...
LIBRARY_PATH和LD_LIBRARY_PATH环境变量的区别
LIBRARY_PATH和LD_LIBRARY_PATH是Linux下的两个环境变量,⼆者的含义和作⽤分别如下: LIBRARY_PATH环境变量⽤于在程序编译期间查动态链接库时指定查共享库的路径 ...
122A
Copy #include int main() { int dig; int flag=0; scanf("%d", &dig); if( ...
bzoj3675
题解:⾸先要明确⼀件事,就是当分割的⽅案固定时,⽆论先分割的哪⼀段,结果都是不变的,然后能列出dp⽅程:\(dp[i][j]=max(dp[k][j-1]+
(a[i]-a[k])*(a[n]-a[i] ...
关于Java的接⼝新浪微博登录不了
其实刚开始听到接⼝的时候不解其意,为什么要有接⼝这个东西,加之⽼师上课我可能没仔细听(或者时间长了忘了?),这次看到了“⽤接⼝设计并实现圆,三⾓形,矩形的⾯积与周长计算”这个题⽬的代码,它将接⼝定义在 ...
⼩程序开发环境
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论