爬⾍爬取笔趣阁⼩说排名实例及⼀些简单的相关知识
爬⾍爬取笔趣阁⼩说排名实例以及⼀些简单的相关知识
在⽤爬⾍爬取⽹站时,⾸先应该关注该⽹站的robot协议,在robot协议中有规定哪些是可以爬取,那些是该⽹站禁⽌爬取的内容,当然如果⼀定要爬取,要根据⼈的⾏为,浏览速度,浏览次数进⾏爬取,避免对⽹站造成损失,所以说有时候并不⼀定是爬⾍爬取速度越快,该爬⾍就越好。
robot协议可以在⽹站后边加上robot. text直接进⾏⽹页浏览查。
笔趣阁经过查并不存在robot协议,所也可以进⾏爬取,在此以其为实例。
⾸先给出笔趣阁爬取排名的源代码。
#爬⾍爬取笔趣阁⼩说排⾏榜
#引⼊第三⽅库
from requests import*
from bs4 import BeautifulSoup
import bs4
#定义⼀个获取⽹页内容的函数
def geta(url):
try:
kv={'user-agent':'Mozilla/5.0'}#将爬⾍头部伪装成常规浏览器头部,让⽹页认为是浏览器正常浏览,⽽⾮爬⾍爬取信息,有些⽹页会对头部是爬⾍的爬⾍进⾏拦截,虽然笔趣阁不会但别的⽹页可以做参考
r=get(url,headers=kv,timeout=30)
except:
return'⽹页获取出现错误'#异常处理
#将从⽹页内获取的内容制作成⼀个列表,⽅便之后输出
def make_list(b,r):
soup=BeautifulSoup(r,'html.parser')#解析静态⽹页源代码
for tr in soup.find('div',class_='wrap rank').children:#遍历该标签的⼦标签
if isinstance(tr,bs4.element.Tag):#判断是否是真正的标签
tda=tr('h2')
tdb=tr('em')
tdc=tr('a')
tdd=tr('span')
for i in range(10):
b.append([tda[0].string,tdb[i].string,tdc[i].string,tdd[i].string])
else:
continue
#打开⼀个⽂件将排⾏榜输如⽂件中
def printa(ulist):
t=0
path='D:\笔趣阁⼩说排⾏'
with open(path,'w')as f:
f.write('{0:^20}\t{1:^20}\t{2:{4}^20}\t{3:{4}^20}\n\n\n'.format('⼩说排⾏榜','排名','⼩说名称','⼩说类别',chr(12288)))
for i in range(8):
大型网游排行榜for j in range(10):
u=ulist[t]
f.write('{0:^20}\t{1:^20}\t{2:{4}^20}\t{3:{4}^20}\n'.format(u[0],u[1],u[2],u[3],chr(12288)))
t=t+1
f.write('\n\n')#设置⼏个封装函数的接⼝
alist[]
url='www.biquge.lu/paihangbang/'
r=geta(url)
make_list(alist,r)
printa(alist)
这算是⼀个挺基础的⼀个爬⾍,引⼊的三个三⽅库(实际上是两个)都是⽐较简单的,以我⽬前的⽔平,写再⾼级的爬⾍有点难度。
⼩说排⾏榜排名 ⼩说名称 ⼩说类别
⼩说总榜1 三界独尊 ⽞幻
⼩说总榜6 雄霸神荒 ⽞幻 ⼩说总榜7 美⼥市长⽼婆 都市 ⼩说总榜8 不朽剑神 修真 ⼩说总榜9 狂徒修神 修真 ⼩说总榜10 妖孽兵王 都市
⽞幻1 三界独尊 ⽞幻
⽞幻2 都市最强特种兵 ⽞幻
⽞幻3 雄霸神荒 ⽞幻
⽞幻4 独步天途 ⽞幻
⽞幻5 ⼩⽉亮能有什么坏⼼思... ⽞幻
⽞幻6 韩娱之光影交错 ⽞幻
⽞幻7 绝对选项 ⽞幻
⽞幻8 秦时明⽉之⼤反派系统 ⽞幻
⽞幻9 剑与魔法与出租车 ⽞幻
⽞幻10 三界狂徒 ⽞幻
修真1 不朽剑神 修真
修真2 狂徒修神 修真
修真3 ⼤妖通灵 修真
修真4 ⽆相仙诀 修真
修真5 唯仙独⾏ 修真
修真6 武侠世界⾃由⾏ 修真
修真7 太易 修真
修真8 宦海仙途 修真
修真9 阴阳道典 修真
修真10 修真门派掌门路 修真
都市1 校花之贴⾝⾼⼿ 都市
都市2 超级兵王在都市 都市
都市3 校园修真⾼⼿ 都市
都市4 美⼥市长⽼婆 都市
都市5 妖孽兵王 都市
都市6 重⽣⽇本当厨神 都市
都市7 贼警 都市
都市8 重⽣之悠闲 都市
都市9 纯禽记者 都市
都市10 逍遥⼩镇长 都市
穿越1 孺⼦帝 穿越
穿越2 猎杀全球 穿越
穿越3 我要做⾸辅 穿越
穿越4 红⾊脊梁 穿越
穿越5 ⼤宋⼩郎中 穿越
穿越6 狼⾏三国 穿越
穿越7 ⼤清之祸害 穿越
穿越8 ⼤国医 穿越
穿越9 护花⼤国⼠ 穿越
穿越10 超级响马系统 穿越
⽹游1 ⼤盗贼 ⽹游
⽹游2 篮球皇帝 ⽹游
⽹游3 拳坛巨星 ⽹游
⽹游4 熊猫⼈的⾃我修养 ⽹游
⽹游5 海盗旗飘扬 ⽹游
⽹游6 英雄联盟之灾变时代 ⽹游
科幻1 替嫁太⼦妃 科幻
科幻2 帝临武侠 科幻
科幻3 进化狂潮 科幻
科幻4 ⽴地蛮太岁 科幻
科幻5 抗⽇猛虎军 科幻
科幻6 我的⽼婆是⼟匪 科幻
科幻7 ⼀剑天途 科幻
科幻8 带⼝铁锅闯末世 科幻
科幻9 末世危城 科幻
科幻10 末世之红警崛起 科幻
其他1 猫痕伤 其他
其他2 ⽹货供应商 其他
其他3 地球唯⼀修⼠ 其他
其他4 ⽕影之主神系统 其他
其他5 宅之崛起 其他
其他6 重⽣之⽆限穿越 其他
其他7 镇⾹令 其他
其他8 天外重⽣者 其他
其他9 正能量 其他
其他10 海贼之神级副船长 其他
这个就是写⼊⽂件中的内容,本⼈⽬前也是⾃学,学的还不深,也跟据我个⼈的兴趣写了这么⼀个简单的爬⾍,学习到这倒也是花了我有⼏天,还真是不才呀。
这个代码是我电脑上运⾏完了⼿机上编的,若没⽤过可能是在⼿机编写上出了点问题,运⾏不了可以告诉我,我及时做修改。还是希望有⼤佬指导呀。
谢谢
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论