使用python采集某二手房源数据并做数据可视化展示（含完整源代码）--慧智精品网

使⽤python采集某⼆⼿房源数据并做数据可视化展⽰（含完整源代码）本次⽬的：

python采集链家⼆⼿房源数据并做数据可视化展⽰

亮点：

1. 系统分析⽹页性质

2. 结构化的数据解析

3. csv数据保存

环境介绍：

python 3.8 解释器

pycharm 专业版2021.2 >>> 激活码编辑器

模块使⽤：

requests >>> pip install requests

数据请求 (⽤python代码模拟浏览器对于服务器发送请求)

parsel >>> pip install parsel

数据解析 (提取我们想要数据内容) parse 对于你们以后学习scrapy(核⼼组件之⼀)有帮助

csv

内置模块不需要安装获取到的数据内容保存到csv表格数据

win + R 输⼊cmd 输⼊安装命令 pip install 模块名

< (服务器返回响应⽂本数据)

本节课的上课流程思路(爬⾍最基本思路流程:)

1. 明确需求(爬取内容: 视频数据/⾳频数据/图⽚)

2. 发送请求: 对应分析得到url

3. 获取数据: [⽂本数据⽹页源代码] response.json()[json字典数据] t(⼆进制数据)协议离婚需要什么手续

4. 解析数据(提取我们想要数据内容) 解析⽅式: css xpath re

5. 保存数据(保存csv表格) 视频/图⽚/⾳频/⽂字…⽂件本地数据库

[静态⽹页]

⼀. 数据来源分析

爬⾍: 对于⽹页上⾯的数据内容进⾏采集程序

1. 确定爬取的内容是什么东西?

⼆⼿房源的基本数据

2. 通过开发者⼯具进⾏抓包分析, 分析这些数据内容是可以哪⾥获取

通过开发者⼯具, 分析可得 >>> 我们想要的房源数据内容(房源详情页url) 就是来⾃于⽹页源代码

如果你要爬取多个房源数据, 只需要在列表页⾯获取所有的房源详情页url

⼆. 代码实现步骤: 发送请求 >>> 获取数据 >>> 解析数据 >>> 保存数据

1. 发送请求, 是对于房源列表页发送请求

2. 获取数据, 获取⽹页源代码

3. 解析数据, 提取我们想要的内容, 房源详情页url

4. 发送请求, 对于房源详情页url地址发送请求

5. 获取数据, 获取⽹页源代码

6. 解析数据, 提取房源基本信息售价标题单价⾯积户型…北京旅行社

7. 保存数据

8. 多页数据采集

爬取数据代码

导⼊模块import pprint # 格式化输出模块内置模块import requests # 数据请求模块第三⽅模块 pip install requests import parsel # 数据解析模块第三⽅模块 pip install parsel import csv # csv 模块内置模块不需要安装

4"""68-102: ⽂件创建 69⾏: ⽂件创建 76⾏⽂件配置 102⾏写⼊表头 fieldnames ⾥⾯的数据是字典⾥⾯键"""f = open ('房源.csv', mode ='a', encoding ='utf-8', newline ='')"""如何实现快速替换: 1. 选择需要替换的内容 2. 按 ctrl + R 3. 输⼊正则表达式语法进⾏替换第⼀⾏写正则语法(匹配数据) 第⼆⾏写替换的内容 4. 点击全部替换"""

csv_writer = csv .DictWriter (f , fieldnames =[ '上次交易', '交易权属', '产权所属', '单价', '售价', '套内⾯积', '建筑类型', '建筑结构', '建筑⾯积', '户型结构', '房屋年限', '房屋户型', '房屋朝向', '房屋⽤途', '房本备件', '房源核验码', '所在楼层', '抵押信息', '挂牌时间', '标题', '梯户⽐例', '装修情况', '详情页', '配备电梯',])csv_writer .writeheader () # 写⼊表头for page in range (1, 11): print (f '===================正在爬取第{page}页数据内容===================')1

1112

29 # 1. 发送请求 url = f '⽹址' # 确定请求的url 地址 # 模拟浏览器发送请求需要对于python 代码进⾏伪装 # headers ：请求头字典数据类型键值对形式 # header 作⽤: 伪装 # 加那些参数: cookie User -Agent (UA ) referer host # 参数意思是什么 # cookie : ⽤户信息, 常⽤于检测是否登陆账号 # User -Agent : 浏览器基本⾝份标识(⽤户代理) # referer : 防盗链告诉服务器我们发送请求的url 地址是从哪⾥跳转过来 (动态⽹页) # host : 域名 headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/97.0.4692.99 Safari/537.36' } response = requests .get (url =url , headers =headers )

15 # 2. 获取数据, 获取⽹页源代码 response .text # print (response .text ) # 返回数据字符串数据类型

2 # 3. 解析数据解析⽅式: css xpath re # css 选择器: 根据标签属性内容提取数据 selector = parsel .Selector (response .text ) # 返回对象 # attr 属性选择器 getall () 获取所有返回数据列表⼈家语法就是这样 a ::attr (href ) 取a 标签⾥⾯href 属性 href = selector .css ('.sellListContent li .title a::attr(href)').getall () # print (href ) # 列表数据容器(⼀个箱⼦) 'cs.lianjia/ershoufang/104107916240.html' 元素(箱⼦⾥⾯东西) # for 循环遍历就是从这个箱⼦⾥⾯⼀个⼀个拿东西出来 for link in href :

# 4. 发送请求, 对于房源详情页url 地址发送请求 # 5.获取数据, 获取⽹页源代码response .text response_1 = requests .get (url =link , headers =headers )1

3 # 6. 解析数据提取我们想要数据 # print ( ) selector_1 = parsel .Selector ( ) # 返回对象 # get () 取⼀个 title = selector_1.css ('.title .main::text').get () # 标题 price = selector_1.css ('.price .total::text').get () # 售价 price_1 = selector_1.css ('.unitPriceValue::text').get () # 单价 attr_list = selector_1.css ('.base .content li .label::text').getall () attr_list_1 = selector_1.css ('.transaction .content li .label::text').getall () content_list = selector_1.css ('.base .content li::text').getall () content_list_1 = selector_1.css ('.transaction .content li span::text').getall () # 两个列表如何创建成⼀个字典 attr_list 做键 content_list 做值 # print (attr_list ) # print (content_list ) # 保存csv ⽂件表格 # 需要

创建⼀个字典 dit = { "详情页": link , "标题": title , "售价": price , "单价": price_1, # "区域": price_1, } dit_1 = dict (zip (attr_list , content_list )) dit_2 = dict (zip (attr_list_1, content_list_1)) dit .update (dit_1) dit .update (dit_2) # print (title , price , price_1) csv_writer .writerow (dit ) # 写⼊数据 pprint .pprint (dit ) # 格式化输出模块

成长的脚印作文5

可视化代码#%% md ## 导⼊模块#%%import pandas as pd from pyecharts .charts import Map from pyecharts .charts import Bar from pyecharts .charts import Line from pyecharts .charts import Grid from pyecharts .charts import Pie from pyecharts .charts import Scatter from pyecharts import options as opts #%% md ## 读取数据#%%df = pd .read_csv ('data.csv', encoding = 'utf-8')df .head ()#%%df .describe ()#%%df .isnull ().sum ()1

今日钢材价格11

20白玫瑰花语是什么意思

武艺超的意思26

慧智精品网

使用python采集某二手房源数据并做数据可视化展示（含完整源代码）

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

汉唐时期的历史研究与考古探析

汉代河西邮驿的设置作用

中国汉代的宇宙观四个字

汉代婚礼礼仪知识有哪些

汉代选官制度的名称及其弊端

汉代风云人物易中天

简述汉代的文学成就

汉赋的历史背景与社会意义

汉代的文化特征

中国古代史阶段特征汇总

《汉古学概说》赏析

汉朝儒学思想演变

中国文化的汉唐时期

评价汉代的援礼入法

汉书读后感了解中国历史上汉代的经济文化等各方面发展和变革情况_百 ...

汉朝的文化特点

中国舞蹈史第3讲汉代舞蹈的发展

汉代宫廷文化和制度框架

哈佛中国史1早期中华帝国秦与汉

古代中国的秦汉文化发展

最新文章

【中国历史十五讲】读书说明与指导(吴树国)

红星照耀中国汉代青铜读后感

中国历史文化常识大全(最新整理200题)

《鸿门宴》背景、情节与教案探析

汉代文人诗的艺术成就

汉代刘向的作品

标签列表