网络数据采集
⽹络数据采集
⽹络数采集的主要功能
梦见很多的蛇
⽹络数据采集是指通过⽹络爬⾍或⽹站公开API等⽅式从⽹站上获取数据信息
常⽤的⽹络采集系统
延禧攻略皇后第几集去世
分布式⽹络爬⾍⼯具,如Nutch
Java⽹络爬⾍⼯具,如Crawler4j、WebMagic、WebCollector。
⾮Java⽹络爬⾍⼯具,如Scrapy(基于Python语⾔开发)
⽹络爬⾍
⼯作原理
秋天一杯奶茶的简短句子⽹络爬⾍是⼀种按照⼀定的规则,⾃动地抓取Web信息的程序或者脚本。Web⽹络爬⾍可以⾃动采集所有其能够访问到的页⾯内容,为搜索引擎和⼤数据分析提供数据来源。从功能上来讲,爬⾍⼀般有数据采集、处理和存储3部分功能。
⽹络爬⾍系统通过⽹页中的超链接信息不断获得⽹络上的其他⽹页。⽹络爬⾍从⼀个或若⼲个初始⽹页的RUL开始,获得初始⽹页上的URL,在抓取⽹页的过程中,不断从当前页⾯上抽取新的URL放⼊队列,直到满⾜系统的⼀定停⽌条件。
⽹络爬⾍系统⼀般会选择⼀些⽐较重要的、出度(⽹页中链出的超链接数)较⼤的⽹站的URL作为种⼦URL集合。⽹络爬⾍系统以这些种⼦集合作为初始URL,开始数据的抓取。因为⽹页中含有链接信息,通过已有⽹页的URL会得到⼀些新的URL。可以把⽹页之间的指向结构视为⼀个森林,每个种⼦URL对应的⽹页是森林中的⼀棵树的节点,这样⽹络爬⾍系统就可以根据⼴度优先搜索算法或者深度优先搜索算法遍历所有的⽹页。由于深度优先搜索算法可能会使爬⾍系统陷⼊⼀个⽹站内部,不利于搜索⽐较靠近⽹站⾸页的⽹页信息,因此⼀般采⽤⼴度优先搜索算法采集。
⽹络爬⾍系统⾸先将种⼦URL放⼊下载队列,并简单地从队⾸取出⼀个URL下载其对应的⽹页,得到⽹页的内容并将其存储后,经过解析⽹页中的链接信息可以得到⼀些新的URL。其次,根据⼀定的⽹页分析算法过滤掉与主题⽆关的链接,保留有⽤的链接并将其放⼊等待抓取的URL队列。最后,取出⼀个URL,对其对应的⽹页进⾏下载,然后再解析,如此反复进⾏,直到遍历了整个⽹络或者满⾜某种条件后才会停⽌下来。
⼯作流程
⾸先选取⼀部分种⼦URL。
将这些URL放⼊待抓取URL队列
从待抓取URL队列中取出待抓取URL,解析DNS,得到主机IP地址,并将URL对应的⽹页下载下来,存储到已下载⽹页库中。此外,将这些URL放进已抓取URL队列。
分析已抓取URL队列中的URL,分析其中的其他URL,并且将这些URL放⼊待抓取URL队列,从⽽进⼊下⼀个循环。
抓取策略
⽹络爬⾍策略⽤到的基本概念
⽹页间关系模型
从互联⽹的结构来看,⽹页之间通过数量不等的超链接相互连接,形成⼀个彼此关联、庞⼤复杂的有向图。如果将⽹页看成⼀个节点,⽽将⽹页中指向其他⽹页的链接看成是这个节点指向其他节点的边,那么我们很容易将整个互联⽹上的⽹页建模成⼀个有向图。理论上,通过遍历算法遍历该图,可以访问到互联⽹上⼏乎所有的⽹页。
⽹页分类
从爬⾍的⾓度对互联⽹进⾏划分,可以将互联⽹的所有页⾯分为5个部分:已下载未过期⽹页、已下载已过期⽹页、待下载⽹页、可知⽹页和不可知⽹页。
通⽤⽹络爬⾍
通⽤⽹络爬⾍⼜称全⽹爬⾍,爬⾏对象从⼀些种⼦URL扩展到整个Web,主要为门户站点搜索引擎和⼤型Web服务提供商采集数据。粉红女郎演员表
深度优先策略
深度优先策略是指⽹络爬⾍会从起始页开始,⼀个链接⼀个链接地跟踪下去,直到不能再深⼊为⽌。⽹络爬⾍在完成⼀个爬⾏分⽀后返回到上⼀链接节点进⼀步搜索其他链接。当所有链接遍历完后,爬⾏任务结束。这种策略⽐较适合垂直搜索或站内搜索,但爬⾏页⾯内容层次较深的站点时会造成资源的巨⼤浪费。
⼴度优先策略苹果id查询
⼴度优先策略按照⽹页内容⽬录层次深浅来爬⾏页⾯,处于较浅⽬录层次的页⾯⾸先被爬⾏。当同⼀层的页⾯爬⾏完毕后,爬⾍再深⼊下⼀层继续爬⾏。
聚焦⽹络爬⾍
聚焦⽹络爬⾍⼜称主题⽹络爬⾍,是指选择性地爬⾏那些与预先定义好的主题相关的页⾯的⽹络爬⾍。
1)基于内容评价的爬⾏策略
De Bra将⽂本相似度的计算⽅法引⼊到⽹络爬⾍中,提出了Fish Search算法。该算法将⽤户输⼊的查询词作为主题,包含查询词的页⾯被视为与主题相关的页⾯,其局限性在于⽆法评价页⾯与主题相关度的⼤⼩。
Herseovic对Fish Search算法进⾏了改进,提出了Shark Search算法,即利⽤空间向量模型计算页⾯与主题的相关度⼤⼩。采⽤基于连续值计算链接价值的⽅法,不但可以计算出哪些抓取的链接和主题相关,还可以得到相关度的量化⼤⼩。
2)基于链接结构评价的爬⾏策略
PageRank算法的基本原理是,如果⼀个⽹页多次被引⽤,则可能是很重要的⽹页,如果⼀个⽹页没有被多次引⽤,但是被重要的⽹页引⽤,也有可能是重要的⽹页。⼀个⽹页的重要性被平均地传递到它所引⽤的⽹页上。
3)基于增强学习的爬⾏策略
将增强学习引⼊聚焦爬⾍,利⽤贝叶斯分类器,根据整个⽹页⽂本和链接⽂本对超链接进⾏分类,为每个链接计算出重要性,从⽽决定链接的访问顺序。教师节鲜花图片
4)基于语境图的爬⾏策略
通过建⽴语境图学习⽹页之间的相关度的爬⾏策略,该策略可训练⼀个机器学习系统,通过该系统可计算当前页⾯到相关Web页⾯的距离,距离近的页⾯中的链接优先访问。
增量式⽹络爬⾍
增量式⽹络爬⾍是指对已下载⽹页采取增量式更新并且只爬⾏新产⽣的或者已经发⽣变化⽹页的爬⾍,它能够在⼀定程度上保证所爬⾏的页⾯是尽可能新的页⾯。
深度⽹络爬⾍
⽹页按存在⽅式可以分为表层⽹页和深层⽹页。表层⽹页是指传统搜索引擎可以索引的页⾯,以超链接可以到达的静态⽹页为主。深层⽹页是哪些⼤部分内容不能通过静态链接获取的,隐藏在搜索表单后的,只有⽤户提交⼀些关键词才能获得的⽹页。
深层⽹络爬⾍体系结构包含6个基本功能模块:
爬⾏控制器、解析器、表单分析器、表单处理器、响应分析器、LVS控制器和两个爬⾍内部数据结构(URL列表和LVS表)。其
中,LVS(Label Value Set)表⽰标签和数值集合,⽤来表⽰填充表单的数据源。在爬取过程中,最重要的部分就是表单填写,包含基于领域知识的表单填写和基于⽹页结构分析的表单填写两种。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。