基于协同过滤的multi-agent反垃圾邮件系统的研究
科技融.
基于协同过滤的M ul t i-agent反垃圾邮件系统的研究
王建玺王刘涛
(平顶山学院,河南平顶山467000)
抚恤金分配,r
4£}裔要】基于单客户端的垃圾邮件过滤系统面对技术越来越高明的垃圾邮件发布寿已经突现出它的弱点,多^譬enf技术为垃圾邮件过滤系统的设计提供了新的思路。旨在将M ul t i—age nt技术和协同过滤的思想引入到垃圾邮件过滤系统中,设计一个多层次垃圾邮件过滤系统。该,系统针对垃圾邮件—般发给多人的特点,提取用户的操作和阅读速度进行反馈,利用他人的反馈结果进行协同过滤。
:饫键词]协同过滤;垃圾邮件;反馈;M ul t i—a ge nt系统
随着互联网的普及,以其快捷、方便、低成本的特点得到了广泛使用,但是随之而来的垃圾由附也越来越猖獗,这些垃圾邮件污染网络环境、占用网络带宽和存储资源、干扰网络及邮件系统的正常运行j因此,研究反垃圾邮件技术具有很重要的现实意义和应用价值。
现有的反垃圾邮件技术主要分为基于黑/白名单的邮件过滤、基于规则的邮件过滤、基于内容的邮件过滤等,垃圾邮件过滤系统通常综合这些过滤技术对垃圾邮件进行立滤。但单机工作的垃圾由阱牛过滤系统所能获得的垃圾邮件数据毕竟是有限的,同时垃圾邮件发送者的手段又越来越高明,因此,这种依靠单一的过滤器来过滤的方法已经不能满足现实的需要。同时,对于目前广泛使用的基于内容的邮件过滤技术也有其局限性:如它针对一些内容比较隐蔽的垃圾邮件和利用附件进行垃圾信息传播的邮件无法实现很好的过滤。鉴于此,本文提出了一种基于协同过滤的M ul t i—agent反垃圾邮件系统框架模型,并就协同过滤中如何收集用户反馈信息这一重要问题给出了解决方案。旨在结合I nt em et 上各用户邮件客户端的力量,共享反垃圾邮件信息,使各客户端形成一个协调统一的整体来共同抵制垃圾邮件从而提高垃圾邮件的过滤效果。
临兵斗者皆列在前1M ul t ka ge nt技术和协同过滤
1.1M ul t i—agent技术
A gent是指分布式系统或协作系统中能持续自主发挥作用的、具有自主性、交互性、反应性和主动性特征的计算实体。A ge nt按其应用可分为单a ge nt系统和多a gent(M ul t i—A gent)系统。单a gent系统主要用于实现本地任务,其应用非常灵活、主动,但它不能满足复杂任务的需要,这些复杂任务需要由多agent完成。多agent系统是指多个A ge nt成员之间相互协调、相互服务,共同完成一个任务。
各A—ge nt成员之间的活动是自治独立的,其自身的目标和行为不受其它A—ge nt成员的限制,它们通过竞争和磋商等手段协商和解决相互之间的矛盾和冲突。鉴于M ul t i—a ge nt系统所具有的自主性、分布性和协作性,我们完全可以将其应用于垃圾邮件检测中。
12协同过滤
在现实生活里,对自己最有效的信息,往往是来自于朋友们的推荐,这就是我们常说的。口碑相传”。协同过滤正是把这一思想运用到一些推荐系统中,基于一些用户对某—信息的评价来向另一些用户进行推荐。因为垃圾邮件的一大特点就是发,那么我们可以假设:如果发对象中的一大部分人都认为这封邮件是垃圾邮件,那么该邮件是垃圾邮件的可能性就非常大,这—评价就可以推荐给收到这封邮件的其他用户。因此,将协同过滤引入到垃圾邮件过滤中,将可以弥补基于内容过滤的不足。
与基于内容的过滤方法相比,协伺过滤具有如下的优点:
1)能够过滤难以进行自动分析的信息,如音频、视频、邮件的附
件等;
2)能够有效的使用其他相似用户的反馈信息,共享他人的经验:
3)有推荐新信息的能力,能够对之前并未学习过的内容进行过滤。
建立-个基于用户的协同过滤系统通常需要三个步骤。
步骤一,最近邻搜索。水瓶座性格
180
2009年8月l下)
协同过滤的出发点是收到发邮件的一组用户,术语叫做“最近
邻”。最近邻搜索的核心是计算用户收到的邮件的相似度。
步骤二,收集用户反馈信息。
用户对—封邮件的评价可分为“显式评价”和“隐式评价”,例如:163邮件客户端中的“这是—封垃圾邮件”按钮就属于显式评价,这种方式实现非常简单。缺点是收集数据比较困难,因为用户通常并不愿意费力气为你贡献这种数据。另外一种被认为更有效的方法是“隐式评价”,这种方法不需要用户直接输入评价数据,而是根据用户的行为特征由系统代替用户完成评价。
步骤三,生成准荐结果。
有了最近邻集合和他们的评价,就可以生成推荐结果。这里有一个问题就是多少个用户的评价才具有代表性,才可以作为结果推荐给其他用户。
2系统设计
系统的总体架构如图1所示:
图1系统总体架构
该系统分为三层:邮件服务器、协同服务器和邮件客户端。其中,邮件服务器层负责邮件的发送和接收,协同服务器层实现邮件摘要管理和协同过滤,邮件客户端层除了具备基本的邮件客户端功能外,还负责实现贝叶刖I陈、过滤以及El i B件评价反馈。
下面针对协同服务器层和邮件客户端层进行详述。弹出拨号连接
婚前准备21协同服务器层
协同服务器维护着一个协同库,当邮件经邮件服务器发送给协同服务器时,系统根据改进的N i l si m sa哈希算法生成邮件正文的摘要,协同库通过对具有相似摘要值的邮件进行聚类,并结合用户的反馈值,形成两个不同的集合:普通邮件集合和垃圾邮件集合。
祭怎么读
协同过滤服务器计算出每一封新邮件的摘要值之后,根摘要在
协同库的垃圾邮件集合中进行查询。如果命中,则直接判定为垃圾邮件,转移至用户邮件夹。同时此邮件可以作为贝叶聊l|练的输八。如果未命中,则表示协同过滤无法判断是否为垃圾邮件,则转交给下一级过

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。