Python学习笔记（10）用网络爬虫软件自动下载网页上的文件--慧智精品网

Python学习笔记（10）⽤⽹络爬⾍软件⾃动下载⽹页上的⽂件花甲之年是多少岁

举个例⼦，我们打算把这个法规/标准⽹站上的pdf格式的法规⽂件下载下来：

四大官窑是哪四个

如果⼈⼯下载这些⽂件的话，需要在这个⽹页上逐个点击那些⽂件图标，即可激发下载过程。

下⾯将详细讲解定义规则和抓取过程。

1. 定义抓取规则天涯明月刀ol捏脸数据

定义抓取规则的⽅法参看基础教程中的相应章节，请注意，这种标注是⼀种快捷的规则定义⽅法，但是并没有精确地定位HTML DOM节点，⽐如，在英⽂附件那个图标上做内容标注，会⾃动定位到DOM的IMG节点。为了下载pdf⽂件，定位到这个IMG节点是不精确的，这种内容标注主要⽤于采集⽂本内容。

为了精确地把pdf⽂件的url⽹址抓取下来，应该精确地做内容映射，如下图：

江歌遇害案经过13分钟视频

口才训练方法步骤如下：

1. 在⽂件图标上通过双击做内容标注，并且命名抓取内容为“英⽂附件链接”

2. 观察窗⼝下部的DOM树，看到⾃动定位到了IMG，⽽我们需要这个图标对应的url，⽤以下载⽂件。通过观察DOM树，可以确定url存

于IMG的⽗节点A中的属性节点@href中。

3. 选中@href节点，⽤⿏标右键菜单内容映射->英⽂附件链接，就可把@href映射给英⽂附件链接这个抓取内容。做了映射以后，就能

看到⼯作台上的这个抓取内容的定位编号变化了。

上述过程就是普通的定义抓取规则过程，下⾯将是跟下载⽂件有关的设置过程。

2. 设置下载

如下图，选择“下载内容”，就能弹出设置窗⼝，勾选“下载⽂件”就表⽰从抓取到的url⽹址下载⽂件。下⾯的截图中还勾选了⾼级设置的“补全内容”选项，这个跟下载内容⽆关，⽬的是在⽣成的结果⽂件中显⽰⽹址的⽹址，因为从上⼀个截图看，@href⾥⾯存的是相对⽹址，不是从http开头的。

这些设置完成以后，点击存规则，然后再点击爬数据，就能弹出⼀个DS打数机窗⼝，可以观察到⽹页被加载上来，采集完成后变成了⽩屏。

3. 查看下载的⽂件

如下图，本案例⽤的主题名是test_download_file_fuller，结果⽂件都放在DataScraperWorks⽂件夹中，test_download_file_fuller是⼀个⼦⽂件夹，⽤于存储XML格式的结果⽂件，还可以看到⼀个并列的⼦⽂件夹PageFileDir，⽤于存储所有的下载⽂件

在PageFileDir中，所有的下载⽂件都放在⼀起，不分主题名，⽽是分在PageFileDir中的⼦⽂件夹中，⼦⽂件夹的名字具有这样的结构

线索号_时间戳

怀吉

我们再打开XML格式的结果⽂件看⼀下内容结构，如下图：

“英⽂附件链接”是⽤户定义的抓取内容，⽽“英⽂附件链接_file”是⾃动⽣成的抓取内容，⽂件在硬盘上存储在哪⾥，就⽤这个字段进⾏说明。

下载⽂件不分主题存放有个好处：如果要写⼀个⽂件处理程序，那么这个处理成就不需要逐个进⼊每个主题名⽂件夹去查看有没有新下载的⽂件。

相反，如果下载的⽂件按主题名分开存放的，处理程序要逐个检查主题名⽂件夹，但是有个好处：⽂件系统看起来⽐较有结构。

下⾯讲解怎样设置成按主题名分开存放。

4. 分主题存放

如图所⽰，在DS打数机上选择菜单⽂件->存储路径，在弹出框中选择“分主题存放”，改成分主题存放以后，再执⾏爬数据，就能看到PageFileDir⽂件夹放在了主题名⽂件夹下⾯

5. 总结

不光⽂件下载，还有图⽚和视频下载的过程都是⼀致的，结果存储结构也是⼀致的，本教程的⽅法可以推及到图⽚和视频的下载

慧智精品网

Python学习笔记（10）用网络爬虫软件自动下载网页上的文件

发表评论

推荐文章

有关限电令的英语作文

限电形势下的节电生产组织——以广西钢铁集团有限公司为例

工厂限电限产应急预案范文

限产限电政策调价通知函

限电应急预案及措施

热门文章

中国电影歌曲的艺术特征

《少儿百科全书》读后感_1

明星不娱乐是中国节目的死穴

张碧晨下一秒歌词

湘籍歌唱艺术家李谷一演唱风格形成管窥

中国范儿歌词

歌曲醉千年报幕词

歌手岗位招聘笔试题与参考答案(某大型央企)2025年

2021年歌手李健的介绍

“神曲制造者”系列人物2崔子格从“中国好媳妇”到“电音女王”_百度文 ...

美国好友来中国旅游推荐景点作文

中国名人-杨宗纬:总有一种幸运属于你

中国节目的小标题20字左右

韩磊为石狮演唱的歌曲

周深进入国家级了吗

浅赏《我是歌手》邓紫棋演唱风格

2017年台湾十大歌手排行榜

歌手,自我介绍

缅甸翻唱中国歌曲大全

歌手童安格的歌曲

最新文章

限电形势下的节电生产组织——以广西钢铁集团有限公司为例

限电通知函范例

信息技术核心素养下培养中学生计算思维能力的策略研究

疫情下我国出口FOB订单面临的问题和对策分析

拉闸限电是什么样的概念

拉闸限电企业调研报告

标签列表

慧智精品网

Python学习笔记（10）用网络爬虫软件自动下载网页上的文件

发表评论

推荐文章

有关限电令的英语作文

限电形势下的节电生产组织——以广西钢铁集团有限公司为例

工厂限电限产应急预案范文

限产限电政策调价通知函

限电应急预案及措施

热门文章

中国电影歌曲的艺术特征

《少儿百科全书》读后感_1

明星不娱乐是中国节目的死穴

张碧晨 下一秒歌词

湘籍歌唱艺术家李谷一演唱风格形成管窥

中国范儿歌词

歌曲醉千年报幕词

歌手岗位招聘笔试题与参考答案(某大型央企)2025年

2021年歌手李健的介绍

“神曲制造者”系列人物2崔子格从“中国好媳妇”到“电音女王”_百度文 ...

美国好友来中国旅游推荐景点作文

中国名人-杨宗纬:总有一种幸运属于你

中国节目的小标题20字左右

韩磊为石狮演唱的歌曲

周深进入国家级了吗

浅赏《我是歌手》邓紫棋演唱风格

2017年台湾十大歌手排行榜

歌手,自我介绍

缅甸翻唱中国歌曲大全

歌手童安格的歌曲

最新文章

限电形势下的节电生产组织——以广西钢铁集团有限公司为例

限电通知函范例

信息技术核心素养下培养中学生计算思维能力的策略研究

疫情下我国出口FOB订单面临的问题和对策分析

拉闸限电是什么样的概念

拉闸限电企业调研报告

标签列表

张碧晨下一秒歌词