Python爬虫之爬取豆瓣电影数据简单解析并保存到本地--慧智精品网

以危险方法危害公共安全罪Python爬⾍之爬取⾖瓣电影数据简单解析并保存到本地Python 之爬取⾖瓣电影数据简单解析并保存到本地

⽬录

⼀、简单介绍

Python是⼀种跨平台的计算机程序设计语⾔。是⼀种的动态类型语⾔，最初被设计⽤于编写⾃动化脚本(shell)，随着版本的不断更新和语⾔新功能的添加，越多被⽤于独⽴的、⼤型项⽬的开发。Python是⼀种解释型脚本语⾔，可以应⽤于以下领域： Web 和 Internet开发、科学计算和统计、⼈⼯智能、教育、桌⾯界⾯开发、软件开发、后端开发、⽹络爬⾍。

爬⾍：⼀段⾃动抓取互联⽹信息的程序，从互联⽹上抓取对于我们有价值的信息。

爬⾍的⽹页请求：

⽹页请求的过程分为两个环节：

1. Request （请求）：每⼀个展⽰在⽤户⾯前的⽹页都必须经过这⼀步，也就是向服务器发送访问请求。

2. Response（响应）：服务器在接收到⽤户的请求后，会验证请求的有效性，然后向⽤户（客户端）发送响应的内容，客户端接收服

务器响应的内容，将内容展⽰出来，就是我们所熟悉的⽹页请求

⽹页请求的⽅式也分为两种：

1. GET：最常见的⽅式，⼀般⽤于获取或者查询资源信息，也是⼤多数⽹站使⽤的⽅式，响应速度快。

2. POST：相⽐ GET ⽅式，多了以表单形式上传参数的功能，因此除查询信息外，还可以修改信息。

⽹页⼀般由三部分组成，分别是 HTML（超⽂本标记语⾔）、CSS（层叠样式表）和 JScript（活动脚本语⾔）：

HTML ：

HTML 是整个⽹页的结构，相当于整个⽹站的框架。带“＜”、“＞”符号的都是属于 HTML 的标签，并且标签都是成对出现

1常见的标签如下：

3<html>..</html> 表⽰标记中间的元素是⽹页

4<body>..</body> 表⽰⽤户可见的内容

5<div>..</div> 表⽰框架

6<p>..</p> 表⽰段落

7<li>..</li>表⽰列表

软件无法卸载怎么办8<img>..</img>表⽰图⽚

9<h1>..</h1>表⽰标题

10<a href="">..</a>表⽰超链接

CSS：

CSS 表⽰样式，图 1 中第 13 ⾏＜style type=＂text/css＂＞表⽰下⾯引⽤⼀个 CSS，在 CSS 中定义了外观。给老师送什么礼物好

JScript：

JScript 表⽰功能。交互的内容和各种特效都在 JScript 中，JScript 描述了⽹站中的各种功能。

废电池的危害⼆、实现原理

1、import requests 进⾏⽹页数据请求获取；

健康证检查项目

2、bs4（BeautifulSoup）进⾏获取数据的解析；

3、把解析的数据保存到本地；

三、注意实现

1、对应安装相应的库（pip install requests 和 pip install beautifulsoup4）；

2、⾖瓣⽹页有反爬⾍机制，获取的时候添加 headers，进⾏爬⾍伪装访问；

3、解析的时候必要的使⽤把字符数据进⾏修剪清洗；

4、把数据写⼊本地时候，注意可能需要编码格式（encoding=“utf-8”）；中国工商银行信用卡

四、实现步骤

1、安装 requests 库和 beautifulsoup4库（如果已经安装，可忽略），如下图

2、在命令⾏中，使⽤ jupyter notebook 打开 jupyter ⼯具，会跳转打开⼀个⽹页，如下图

3、在页⾯ New ⼀个 Python，如下图

5、运⾏，会发现返回 418，说明⾖瓣进⾏了反爬⾍处理，如下图

6、我们需要伪装进⾏爬⾍，在⾖瓣爬取页⾯上，右键查看元素（浏览器不同，名字⼤同⼩异），然后⽹络中，点击⼀个成功的 Get 请求，参照请求头，我们伪装以下请求头的 User-Agent 信息，如下图

7、伪装请求头后，获取数据成功，如下图

慧智精品网

Python爬虫之爬取豆瓣电影数据简单解析并保存到本地

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

慧智精品网

Python爬虫之爬取豆瓣电影数据简单解析并保存到本地

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记 汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版 七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

少年读史记汉帝国风云录概括300字

人教版七年级中国历史新增文物