python《青春有你2》练习⽣照⽚爬取
集数据,尤其是有标签、⾼质量的数据是⼀件昂贵的⼯作。
爬⾍的过程,就是模仿浏览器的⾏为,往⽬标站点发送请求,接收服务器的响应数据,提取需要的信息,并进⾏保存的过程。
Python为爬⾍的实现提供了⼯具:requests模块、BeautifulSoup库
任务描述
本次实践使⽤Python来爬取百度百科中《青春有你2》所有参赛选⼿的信息。
题⽬原有代码#导⼊第三⽅库
importjsonimportreimportrequestsimportdatetimefrombs4importBeautifulSoupimportos#获取当天的⽇期,并进⾏格式化,⽤于后⾯⽂件命名,格式:20200420today = day().strftime('%Y%m%d')defcrawl_wiki_data():"""
爬取百度百科中《青春有你2》中参赛选⼿信息,返回html
内容解析
上⾯的代码把《青春有你2》的百度百科页⾯进⾏了解析,提取每个练习⽣的百科地址然后是我们填写的内容下⾯是下载图⽚,保存图⽚然后是输出⽬录下⾯的⽂件名字楼南蔚
总体思路
先⾏爬取页⾯然后根据页⾯到图库地址在这⾥插⼊图⽚描述通信工程专业就业方向
这个地址需要拼接,拼接好以后,就可以使⽤了。
拼接好以后request到页⾯
到有关地址进⾏分析,然后把地址获取下来放到列表即可。
恺怎么读#⼩编源码,有许多输出测试pic_urls = []#新建列表每次循环初始化r = (link, headers= headers)#获取每个页⾯的信息
#)soup = ,'lxml')#解析页⾯# print(soup)migs = soup.find_all('div', class
五蠹_='summary-
pic')#print(migs)migs = migs[0].a.get('href')#获取链接的部分内容if'http'notinmigs:#避免其他内容⼲扰报错# print(migs)url =
f'baike.baidu{migs}'#拼接链接# print(url)photo_r = (url, headers= headers)#获取链接页⾯#
马头琴是哪个民族的乐器print()photo_soup = BeautifulSoup(,'lxml')#解析页⾯photo_urls = photo_soup.find_all('a', class_='pic-item')#解析页⾯forphoto_urlinphoto_urls: print(photo_url)try: photo_url = photo_('src')#获取图⽚地址pic_urls.append(photo_url)#放⼊列表except: continue
五月天歌词结果查看
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论