python《青春有你2》练习生照片爬取--慧智精品网

python《青春有你2》练习⽣照⽚爬取

集数据，尤其是有标签、⾼质量的数据是⼀件昂贵的⼯作。

爬⾍的过程，就是模仿浏览器的⾏为，往⽬标站点发送请求，接收服务器的响应数据，提取需要的信息，并进⾏保存的过程。

Python为爬⾍的实现提供了⼯具:requests模块、BeautifulSoup库

任务描述

本次实践使⽤Python来爬取百度百科中《青春有你2》所有参赛选⼿的信息。

题⽬原有代码#导⼊第三⽅库

importjsonimportreimportrequestsimportdatetimefrombs4importBeautifulSoupimportos#获取当天的⽇期，并进⾏格式化,⽤于后⾯⽂件命名，格式:20200420today = day().strftime('%Y%m%d')defcrawl_wiki_data():"""

爬取百度百科中《青春有你2》中参赛选⼿信息，返回html

内容解析

上⾯的代码把《青春有你2》的百度百科页⾯进⾏了解析，提取每个练习⽣的百科地址然后是我们填写的内容下⾯是下载图⽚，保存图⽚然后是输出⽬录下⾯的⽂件名字楼南蔚

总体思路

先⾏爬取页⾯然后根据页⾯到图库地址在这⾥插⼊图⽚描述通信工程专业就业方向

这个地址需要拼接，拼接好以后，就可以使⽤了。

拼接好以后request到页⾯

到有关地址进⾏分析，然后把地址获取下来放到列表即可。

恺怎么读#⼩编源码，有许多输出测试pic_urls = []#新建列表每次循环初始化r = (link, headers= headers)#获取每个页⾯的信息

#)soup = ,'lxml')#解析页⾯# print(soup)migs = soup.find_all('div', class

五蠹_='summary-

pic')#print(migs)migs = migs[0].a.get('href')#获取链接的部分内容if'http'notinmigs:#避免其他内容⼲扰报错# print(migs)url =

f'baike.baidu{migs}'#拼接链接# print(url)photo_r = (url, headers= headers)#获取链接页⾯#

马头琴是哪个民族的乐器print()photo_soup = BeautifulSoup(,'lxml')#解析页⾯photo_urls = photo_soup.find_all('a', class_='pic-item')#解析页⾯forphoto_urlinphoto_urls: print(photo_url)try: photo_url = photo_('src')#获取图⽚地址pic_urls.append(photo_url)#放⼊列表except: continue

五月天歌词

结果查看

慧智精品网

python《青春有你2》练习生照片爬取

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

山西汉代政治,文化名人及作品

唐装的起源和历史演变

中国古代史阶段特征

中国历史上的汉朝文化发展

[汉代历史简介]汉代历史故事

历史汉代全部知识点总结

汉代经济发展对中国经济史的影响

汉代的文学体裁

汉源名字来历

简述汉代艺术的基本特征和美学风格

汉代文学的风格和特征

汉代陶瓷知识点归纳总结

汉代经济发展与中外贸易

中国古代史完整版

汉代的科学技术与数学发展

汉代的录囚名词解释

汉代对中国文化的影响-概述说明以及解释

汉代的思想大一统知识点

汉学与宋学的名词解释

汉唐文化交融研究

最新文章

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

互动训练B—《汉武帝巩固大一统王朝》

汉代耧车的历史价值

红星照耀中国汉代青铜读书笔记

湖南马王堆汉墓的发掘与研究

标签列表