网络爬虫对互联网安全的影响及“反爬”策略的研究
科学技术创新2021.10
网络爬虫对互联网安全的影响及
“反爬”策略的研究黄子豪张舒
(山东科技大学,山东济南250031)
网络爬虫在为使用者带来极大便利的同时,也对互联网环境造成了直接或间接的威胁,社会各界开始关心针对于爬虫的安全合法使用问题。随着大数据时代下互联网的飞速发展,网络爬虫的应用范围越来越宽泛,同时互联网安全管理人员应当及时了解并学习爬虫的原理和“反爬”策略,以应对各种恶意爬虫脚本造成的威胁。
1网络爬虫基本原理
网络爬虫是一种自动化提取网页数据的脚本程序,众多搜索引擎的底层重要构成部分便是爬虫,它为搜索引擎实现了互联网中网页信息的加载和收集。网络爬虫按照实现功能和技术特点可以分
为以下几种类型:通用网络爬虫、
sugababes聚焦网络爬虫、深层网络爬虫等,实际的网络爬虫脚本大多都是由多种爬虫技术相结合实现的。
通用的传统爬虫从一个或多个初始网页的URL 开始抓取,首先获得初始网页的URL,在爬取过程中不断从当前网页中获取新的URL 处理后放入队列中,直到满足系统循环结束条件。
聚焦爬虫则需要通过预先设置的网页分析算法过滤掉与爬取数据无关的链接,保留下有效的网页链接并将其放入待爬取的URL 队列。之后,它会按照一定的搜索策略从队列中选择即将爬取的网页URL ,并循环重复上述过程,直到满足系统循环结束条件。相对于传统爬虫,聚焦爬虫系统还需解决对于爬取目标的准确定
义、对网页数据的分析过滤算法、
对URL 队列的搜索策略等主要问题。
爬虫的基本流程可简化为以下四步:
1.1向服务器发出请求。脚本通过HTTP 库向目标站点发出Request 请求,请求的内容可包含headers 等信息,随后等待服务器响应。
1.2获取服务器响应内容。经过服务器响应后,会得到一个包含着所爬取页面内容的Response,但数据类型会有多种情况,需要进行下一步的数据解析。
1.3解析数据。响应中所包含的内容可能是JSON 、HTML 、二进
青海旅游路线
制数据文件等形式,可使用直接处理、正则表达式、
爬虫的解析库等方法进行解析,以便进行数据的保存。
蒸年糕的做法
1.4保存数据。数据的保存形式多种多样,可将数据保存至任
何特定格式的文件或文本中,也可保存至数据库或表格中。
(图1)2网络爬虫的功能和价值
互联网就像一个规模巨大极其复杂的数据库,如何才能更高效的提取最有价值的信息日渐成为人们关注的问题,于是网络爬虫凭借其自动化和便捷性越来越受人们欢迎,目前已被广泛应用于互联网各种使用场景。
2.1爬虫的功能。爬虫是指脚本通过模拟人类行为操作访问目
标网站,但与人类访问不同的是,爬虫可以根据一定的提取规则快速频繁的提取到大量数据,并可以实现自动化的数据清洗和保存。爬虫的推广和应用使得人们对于数据提取和采集的工作更加得心应手,提高了工作的效率和自动化程度。
2.2爬虫的价值。2.2.1爬虫脚本可高效提取有价值的信息,降低技术成本,提高业务效率。2.2.2爬虫可根据信息的类别个性化定制抓取的策略,从而解决不同类型的问题。2.2.3爬虫可通过信息的整合和利用获取合法的最大效益的盈利。
3网络爬虫对互联网安全的影响
在当前大数据的时代背景下,互联网作为一个开放和友好共享的环境已成为当今世界不可缺少的一部分,它缩短了人们交流的距离,同时实现了信息的快速传递,提高了数据资源的共享速度和效率。同时互联网也是一个相对自由和公平的平台,人们在互联上共享和接受的信息都是平等一致的,不会受到各种因素限制,但就是因为这种自由性使得互联网爬虫缺少了现实世界中法律法规的约束,逐步形成互联网中的“真空地带”。
当爬虫技术缺少了法律的规制和约束时,恶意爬虫就会危及互
联网安全。
由图2中显示的2013年-2015年中互联网访问行为比例可以看出爬虫的访问比例正在逐渐升高,根据数据分析表明目前互联网中存在的爬虫行为有近三成是恶意的,同时随着爬虫规模的扩大,这一比例更会逐步提升,恶意爬虫行为会产生隐私信息的泄
3月1日后个人收款码还能用吗
露和传播、资源的无序掠夺、企业间不正当竞争、
知识产权及商业机密的窃取等违法行为,同时影响着互联网绿安全的环境,所以必须及时通过法律规制和行为规范来限制这种恶意爬虫的使用。
作者简介:黄子豪(1999-),男,汉族,籍贯:山东济宁,学历:本科,山东科技大学济南校区电气信息系计算机科学与技术专业。
摘要:网络爬虫作为近期互联网新兴的自动化数据收集技术,由于其易上手、功能性强的特性已成为当前互联网领域最热
门的技术之一。网络爬虫的功能和价值也决定了其对于互联网的重要性,随着使用率的逐步提高,爬虫对互联网安全的影响也逐
步扩大,管理人员也相应的开始研究“反爬”策略,并通过法律规制和行为规范来约束爬虫的数据抓取行为。
关键词:网络爬虫;互联网安全;反爬策略;
法律规制中图分类号:TP393.08文献标识码:A 文章编号:2096-4390(2021)10-0120-02图1爬虫基本流程图
通过HTTP 库向目标站点发起
请求,即发送一个Request ,
请求可以包含额外的headers 等信息,等待服务器响应
1
120--
2021.10科学技术创新图22013-2015年互联网访问行为比例
4针对爬虫的“反爬”策略研究4.1设置 文件限制。 也叫robots 协议,是一种存放于网页根目录下的文本文件,用来告知搜索引擎此站点的哪些内容是不可以被获取的,可以用来引导或限制网页蜘蛛的爬取行为。但robots 协议的形成不是人为规定的,而且需要搜索引擎的配合,并不是每个搜索引擎的机器人都遵守该协议,无法完全保证网站的隐私安全性,所以仅靠robots 协议是无法保证互联网安全的。
4.2限制User Agent 字段进行访问过滤。User Agent 字段可以
使服务器标识出用户使用的操作系统版本、
浏览器版本、浏览器引擎、CPU 类型等用户信息。
爬虫使用的User Agent 字段与普通用户使用浏览器进行访问的字段有所不同,所以可以通过设置User Agent 字段限制对爬虫的访问行为进行过滤和识别,可有效地限制部分简单爬虫脚本的访问操作。
4.3基于用户访问行为进行限制。针对在网页请求的User Agent 字段中修改信息伪装成浏览器访问的爬虫行为,网站可通过检测用户行为来判断是否为爬虫。爬虫脚本的访问相比于普通用户具有更高的规律性和高频性,例如相同IP 短时间内多次访问同一页面等操作。针对这种行为,网站可基于访问数据,并通过应用识别设备、IPS 的设置来处理,较为全面的限制爬虫访问,避免多服务器管理情况下的疏漏问题。
4.4封禁爬虫的IP 地址。对于伪装成浏览器访问的爬虫,网站可通过统计数据检测访问较为频繁的IP 地址,同时对其进行暂时的封禁,以限制该类爬虫行为。
4.5关键信息进行乱码处理。将网页中的关键信息通过乱码或图片形式来显示,网页可以通过各种方式将乱码信息渲染为可正常阅读的数据,以便浏览者正常访问。
4.6AJAX 动态加载网站内容。动态网页的数据都是由ajax 请
求得到的,使用ajax 动态加载网站内容可加强前后端交互能力,提高网站的运行速度和安全性。我们
还可以加密所有ajax 申请的参数,这使得爬虫无法构造并模拟ajax 请求来访问网站。
4.7登陆时采取图片或滑动等动态验证形式。
可在用户登录时设置动态验证确保登陆操作是人为的,而不是爬虫脚本。动态验证
的形式也有多种,如传统输入式验证码、图片验证码、
滑动图块验证、短信验证、图片选择及行为辅助验证、
点击式图文验证、第三方验证等验证形式的多样化决定了网站的安全程度。
4.8对Cookie 进行限制。用户向访问网站发送Request 时,数据中会包含特定的Cookie 数据,网站将会通过对Cookie 值的验证来判断该用户操作是爬虫脚本还是真实的用户,当用户第二次及第三次打开网页访问无Cookie 数据时,则说明该操作为爬虫脚本。
Cookie 与User Agent 限制不同的是,User Agent 中的字段非常容易伪造,而Cookie 的数据都是经过哈希处理的字符串,需通过抓包等手段来伪造Cookie,难度较大。
5关于完善网络爬虫行为规范的建议5.1严格恪守网站发布的Robots 协议。
5.2不可发起会造成网站服务器瘫痪的网络攻击行为,不得影响网站的正常运营。
5.3抓取数据时应防止抓取个人隐私信息,不能非法获利。
上网的好处和坏处5.4严格遵守《网络安全法》中相关规定,避免产生不正当竞争行为和纠纷。
5.5在爬取和使用信息的过程中,应避免
视频、音乐、
图片、文章等具有版权的数据,及时做好内容的审查工作,一旦发现属于个人隐私信息或商业机密性质的数据时,应立刻停
止抓取并删除所有数据,做好行为规范。
6结论
总而言之,爬虫这种自动化技术的确为人类互联网带来了许多好处,但是同样的,滥用爬虫技术也会有很多坏处,水能载舟亦能覆舟,因此,我们要在法律规制和自身行为规范下学会正确使用这种技术,才能最大化的发挥其优势,避免造成对互联网环境的危害。
参考文献
[1]于成龙,于洪波.网络爬虫技术研究[J].东莞理工学院学报,2011,18(03):25-29.
[2]胡立.Python 反爬虫设计[J].计算机与网络,2020,46(11):48-49.
[3]胡俊潇,陈国伟.网络爬虫反爬策略研究[J].科技创新与应用,2019(15):137-138+140.
[4]刘清.网络爬虫针对"反爬"网站的爬取策略分析[J].信息与电脑(理论版),2019(03):23-24.
[5]刘洋.基于网页浏览行为的反爬虫研究[J].现代计算机(专业版),2019(07):58-60+70.
郭碧婷整容[6]邱波.滥用爬虫技术的刑事风险与刑法应对[A].上海市法学会.《上
海法学研究》集刊(2020年第23卷总第47卷)——
—上海市法学会案例法研究会文集[C].上海市法学会,2020:9.
图3针对反爬策略的
研究
121--

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。