python爬虫登录微博_Python爬虫学习——使用Cookie登录新浪微博--慧智精品网

python爬⾍登录微博_Python爬⾍学习——使⽤Cookie登录新

浪微博

1.⾸先在浏览器中进⼊WAP版微博的⽹址，因为⼿机版微博的内容较为简洁，⽅便后续使⽤正则表达式或者beautifulSoup等⼯具对所需要内容进⾏过滤

2.⼈⼯输⼊账号、密码、验证字符，最后最重要的是勾选(记住登录状态)

3.使⽤Wireshark⼯具或者⽕狐的HttpFox插件对GET请求进⾏分析，需要是取得GET请求中的Cookie信息

在未登录新浪微博的情况下，是可以通过⽹址查看⼀个⽤户的⾸页的，但是不能进⼀步查看该⽤户的关注和粉丝等信息，如果点击关注和粉丝，就会重定向回到登录页⾯

#获取⽹页函数

def getHtml(url,user_agent="wswp",num_retries=2): #下载⽹页，如果下载失败重新下载两次

print '开始下载⽹页：',url

#headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0'}

headers = {"User-agent":user_agent}

request = urllib2.Request(url,headers=headers)#request请求包

try:

html = urllib2.urlopen(request).read() #GET请求

except urllib2.URLError as e:

print "下载失败：",e.reason

html = None

if num_retries > 0:

if hasattr(e,'code') and 500 <= e.code < 600:

return getHtml(url,num_retries-1)

return html

所以需要在请求的包中的headers中加⼊Cookie信息，

在勾选了记住登录状态之后，点击关注或者粉丝按钮，发出GET请求，并使⽤wireshark对这个GET请求进⾏抓包

可以抓到这个GET请求

右键Follow TCP Stream，图⽚中打码的部分就Cookie信息

4.加⼊Cookie信息，重新获取⽹页

有了Cookie信息，就可以对Header信息就⾏修改

#获取⽹页函数

def getHtml(url,user_agent="wswp",num_retries=2): #下载⽹页，如果下载失败重新下载两次

print '开始下载⽹页：',url

#headers = {'User-Agent':'Mozilla/5.0 (Windows NT 6.1; rv:24.0) Gecko/20100101 Firefox/24.0'}

headers = {"User-agent":user_agent,"Cookie":"_T_WM=XXXXXXXX; SUB=XXXXXXXX; gsid_CTandWM=XXXXXXXXX"}

request = urllib2.Request(url,headers=headers)#request请求包

try:

html = urllib2.urlopen(request).read() #GET请求

except urllib2.URLError as e:

print "下载失败：",e.reason

html = None

if num_retries > 0:

if hasattr(e,'code') and 500 <= e.code < 600:

return getHtml(url,num_retries-1)

return html

import urllib2

if __name__ == '__main__':

URL = 'weibo/XXXXXX/fans'#URL替代

html = getHtml(URL)

print html

成功访问到某个⽤户的粉丝信息

试⼀试访问⼀下最近⼀年很⽕的papi酱的微博，她的个⼈信息页⾯

import urllib2

if __name__ == '__main__':

URL = 'weibo/2714280233/info'#URL替代

html = getHtml(URL)

print html

Python爬⾍学习：三、爬⾍的基本操作流程

本⽂是博主原创随笔，转载时请注明出处Maple2cat|Python爬⾍学习：三.爬⾍的基本操作与流程⼀般我们使⽤Python爬⾍都是希望实现⼀套完整的功能，如下: 1.爬⾍⽬标数据.信息: 2.将 ...

Python爬⾍学习：四、headers和data的获取

《Python爬⾍学习系列教程》学习笔记

python爬⾍scrapy框架——⼈⼯识别登录知乎倒⽴⽂字验证码和数字英⽂验证码(2)

操作环境:python3 在上⼀⽂中python爬⾍scrapy框架--⼈⼯识别知乎登录知乎倒⽴⽂字验证码和数字英⽂验证码(1)我们已经介绍了⽤Requests库来登录知乎，本⽂如果看不懂可以先看之前 ...

&lbrack；转]《Python爬⾍学习系列教程》

python爬⾍学习(1) —— 从urllib说起

0. 前⾔如果你从来没有接触过爬⾍，刚开始的时候可能会有些许吃⼒因为我不会从头到尾把所有知识

点都说⼀遍，很多⽂章主要是记录我⾃⼰写的⼀些爬⾍所以建议先学习⼀下cuiqingcai⼤神的 Pyth ...

python爬⾍学习 —— 总⽬录

开篇作为⼀个C党，接触python之后学习了爬⾍. 和AC算法题的快感类似，从⽹络上爬取各种数据也很有意思. 准备写⼀系列⽂章，整理⼀下学习历程，也给后来者提供⼀点便利. 我是⽬录听说你叫爬⾍ - ...

Python爬⾍学习：⼆、爬⾍的初步尝试

我使⽤的编辑器是IDLE，版本为Python2.7.11,Windows平台. 本⽂是博主原创随笔，转载时请注明出处Maple2cat|Python爬⾍学习:⼆.爬⾍的初步尝试 1.尝试抓取指定⽹页 ...

python爬⾍学习视频资料免费送，⽤起来⾮常666

当我们浏览⽹页的时候，经常会看到像下⾯这些好看的图⽚，你是否想把这些图⽚保存下载下来. 我们最常规的做法就是通过⿏标右键，选择另存为.但有些图⽚点击⿏标右键的时候并没有另存为选项，或者你可以通过截图⼯ ...

随机推荐

Vue.js学习笔记(1)

数据的双向绑定(ES6写法) 效果: 没有改变 input 框⾥⾯的值时

lua 基础 1

--1.1 Chunks--[[Chunk 是⼀系列语句,Lua 执⾏的每⼀块语句,⽐如⼀个⽂件或者交互模式下的每⼀⾏都是⼀个 Chunk.]] -- 1.2 全局变量--[[ 全局变量不需要声明，给 ...

【ASP.NET Web API教程】6.3 内容协商

JDBC 是什么

JDBC is a Java database connectivity technology (Java Standard Edition platform) from Oracle Corpora ...

PHP⽂件下载原理

1.php下载原理图

2.⽂件下载源码: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 <?php $ ...

LIBRARY_PATH和LD_LIBRARY_PATH环境变量的区别

LIBRARY_PATH和LD_LIBRARY_PATH是Linux下的两个环境变量,⼆者的含义和作⽤分别如下: LIBRARY_PATH环境变量⽤于在程序编译期间查动态链接库时指定查共享库的路径 ...

122A

Copy #include int main() { int dig; int flag=0; scanf("%d", &dig); if( ...

bzoj3675

题解:⾸先要明确⼀件事，就是当分割的⽅案固定时,⽆论先分割的哪⼀段，结果都是不变的，然后能列出dp⽅程:\(dp[i][j]=max(dp[k][j-1]+

(a[i]-a[k])*(a[n]-a[i] ...

关于Java的接⼝新浪微博登录不了

其实刚开始听到接⼝的时候不解其意，为什么要有接⼝这个东西，加之⽼师上课我可能没仔细听(或者时间长了忘了?)，这次看到了“⽤接⼝设计并实现圆，三⾓形，矩形的⾯积与周长计算”这个题⽬的代码，它将接⼝定义在 ...

⼩程序开发环境

慧智精品网

python爬虫登录微博_Python爬虫学习——使用Cookie登录新浪微博

发表评论

推荐文章

最新字谜语大全及答案(275条)

字谜语大全及答案(精选310个)

关于字谜一家十一口打一字答案是什么

一家十一口打一字谜的答案

猜谜语一年级

热门文章

2015年陕西省专升本(大学语文)真题试卷(题后含答案及解析)

高岭土的产地和储量分布

高考复习(语文)专项练习:(整本书阅读文通练)《乡土中国》【含答案及...

统编版高中语文必修上册乡土中国的变迁——读《名实的分离》《从欲望...

文本细读的内涵及方法

徘徊于本我、自我和超我之间———理查德·赖特的《土生子》别格

九层之台,起于累土的意思

乡土中国高中生读后感

中考语文阅读题含答案

合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下的意思-概述说...

乡土中国读书报告

读费孝通《乡土中国》读书笔记02

《乡土中国》阅读心得和收获五篇

乡土中国读书笔记阅读感悟(精品8篇)

土规与控规有什么区别?

乡土中国读书笔记摘抄及感悟(4篇)

育苗基质的配制方法,和营养土有什么区别

什么是高塑性粘土和膨润土

合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下的意思_百度文...

费孝通乡土中国读后感400字(精选5篇)

最新文章

最新字谜语大全及答案(275条)

猜谜语一年级

2022小学生趣味谜语(精选460句)

一家有七口种田种一亩打一个谜语

最新-一口咬住多半截打一字是什么精品

画谜大全及答案猜一字100个

标签列表

慧智精品网

python爬虫登录微博_Python爬虫学习——使用Cookie登录新浪微博

发表评论

推荐文章

最新字谜语大全及答案(275条)

字谜语大全及答案(精选310个)

关于字谜一家十一口打一字答案是什么

一家十一口打一字谜的答案

猜谜语一年级

热门文章

2015年陕西省专升本(大学语文)真题试卷(题后含答案及解析)

高岭土的产地和储量分布

高考复习(语文)专项练习:(整本书阅读文通练)《乡土中国》【含答案及...

统编版高中语文必修上册 乡土中国的变迁——读《名实的分离》《从欲望...

文本细读的内涵及方法

徘徊于本我、自我和超我之间———理查德·赖特的《土生子》别格

九层之台,起于累土的意思

乡土中国高中生读后感

中考语文阅读题含答案

合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下的意思-概述说...

乡土中国 读书报告

读费孝通《乡土中国》读书笔记02

《乡土中国》阅读心得和收获五篇

乡土中国读书笔记阅读感悟(精品8篇)

土规与控规有什么区别?

乡土中国读书笔记摘抄及感悟(4篇)

育苗基质的配制方法,和营养土有什么区别

什么是高塑性粘土和膨润土

合抱之木,生于毫末;九层之台,起于累土;千里之行,始于足下的意思_百度文...

费孝通乡土中国读后感400字(精选5篇)

最新文章

最新字谜语大全及答案(275条)

猜谜语一年级

2022小学生趣味谜语(精选460句)

一家有七口种田种一亩打一个谜语

最新-一口咬住多半截打一字是什么 精品

画谜大全及答案 猜一字100个

标签列表

统编版高中语文必修上册乡土中国的变迁——读《名实的分离》《从欲望...

乡土中国读书报告

最新-一口咬住多半截打一字是什么精品

画谜大全及答案猜一字100个