爬取⽹络⼩说的Python代码
爬⾍代码
该程序可以⾃动爬取⼩说《断天魂》(
)所有章节的内容并保存在TXT⽂件中。
核⼼步骤
其实Python爬⾍程序很简单,只不过初学者会遇到许多问题,不断的遇到各种坑。本程序核⼼步骤就是构造所有章节的URL,通过循环访问这些URL,不断提取⼩说内容。
难点
dnf一直网络中断1.构造URL
2.获取⼩说内容
# _*_ coding: utf-8 _*_
import requests #导⼊⽹页请求库
from bs4 import BeautifulSoup #导⼊⽹页解析库
"""爬取⼩说《断天魂》并保存在TXT⽂件中
初三化学实验报告"""
#获取⽹页请求,将⽹页内容保存
def start_requests(url):
headers ={
自动点击器怎么使用'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.92 Safari/537.36'}
response = (url, headers=headers)
if response.status_code ==200:
else:
print('等待更新')
#下载⽹页内容
def get_info(url):
text = start_requests(url)
自驾游soup = BeautifulSoup(text,'lxml')
text=soup.find('div',id="content")
print("标题",)
f.write()
text=_text())
新股市值配售f.write(text)#将内容写⼊⽂件
if __name__=='__main__':
count=1
f=open('','a+',encoding="utf-8")#以追加形式打开⽂件
urls =['www.yuetutu/cbook_24098/{}.html'.format(number)for number in range(1,60)]
for url in urls:
print("正在爬取第%d章"%count)
print('⽹址:',url)
get_info(url)
count=count+1
f.close()常常的反义词是什么?
(爬取⽹上⼩说)
业余爱好,仅供学习参考。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论