分类算法比较的研究综述
第36卷南京大学学报(自然科学)№I.36
计算机专辑JOIJRNAL0FNANJ烈GUNⅣERSrrYc‘栅胛衙I娼惦姗年11月(NAll瓜札ScⅢNCEs)脚挪
分类算法比较研究综述·
徐立本(吉林大学商学院张世伟
长春,1300121
闵丹
(长春税务学院经济信息管理系,长春.130021)
囊薹分类算法(a船五6曲吐湘)在科学上实业上(机如e诣)都有广泛的应用,历来受到许多镁
域研究者的关注.其实现方法有统计算法、机器学习算法和神经网络方法等.近年来一些研
究人员对其中一些算法进行了一些比较研究.得到一些对琏择分类算法有益的结论.其中所
使用的某些比较方法在方莹研究上具有参考价值.本文旨在评介这些比较方法及其褥掰曲比
较结果.同时还列出目前引入注目的分类算;圭研究谭墨.目前,计算机互曝网方兴束艾.信
息舞谭丰膏、肇杂.在取用方便的同时也带来r信息查询与检索工作的不便.因此,分类算
法作为一种基础性的数据挖掘工具.必将继续受到备领域研究人员的广泛关注.
美t词分类算法.蔡类分析。^工智能.模式识剐
0引言
分类算法(da翳i矗c越on)就是把一客体分成几类豹过程.分类算法可分为两类:有监督分类(跏peⅣisedcla鹃ific鲥∞)和无监督分类(叽supe州∞dcla蟠inc鲥∞).有监督分类是示饲学习。也即.给定N个例子(Z.F#《))(f=,,Z…,帕,学习函数,(提出一个用以判别该函数的规则).无监督分类可以看做为观察学习(1∞啦曲m
obs蝴d锄)。对无监督分类器给定一些观察m.即一客体,但是没有导师对客体进行分类。研究的目标是寻模式的相似性.也即自动把这客体分成若干组,■于同一组的客体,彼此相似。属于不同组的客体.彼此相异.也就是说,无监督分类的目的是对敦据进行方便而有效的分组,而不是寻日后对数据进行分类的规则.两种分类算法均可用统计、机器学习和神经罔络方法实现.给定了一客体.选用哪种(或哪几种)分类算法合适,这是一个特别值得研究的问题。本文旨在综述有关这
两种分类算法比较研究的概况,并列出目前引人注目的分类算法研究课题.‘蒋一作者简介:绦立奉,吉林大学教授,博E生导师.目前研究方向为:人工智能,量量经济学.计算帆在蛭济管理中的I起用.
计算机专辑榱立本等:分类算法比较毒f究壕述
l有监督分类算法的比较研究
有关有监督分类算法的比较研究的文章比较多.本文仅评述一篇比较新的有代衰性的了作【11.这个工作是4位荚田研究人员完成的.长春分类信息
这项工作是著名的st砒I孵研究项目的一部分.它考查的算法非常全面,共计18种.其中有绕计算法8种(H丑iveB盯鹄.Km明吼N吨黼K啪e1d唧i吼Li眦盯djo口.皿.蚰峨Ql崔蛔啦曲m-吼in枷,Lclgis如唧e鼹joll,P喇∞d∞pu曙咄B丑yesin哪嘲.I【s),机嚣学
习算法7种(cJu盯'c4.5,NewD。Ac2'cAL5,cN2,I廿山e)以及神经网络算法3种(B鲇kp∞附鲥on,Rad甜basisfI玎1cdoII,K0h∞%).这个研究把上述算法用于8种大型实际分类问题上,其中有卫星影像、手写数字影像、KL(K盯hu加nL∞ve)数字影像、车辆影像、心脏损伤、心脏病、信誉风险和移动控制问题等。
该研究表明,没有一个算法对上述每个数据集合都是最好的。该文作者们认为,哪个算法最好,因数据集台的特性而定。然而,根据数据集合的什么特性决定采用什么类型算法最好,要回答这个问题尚有许多理论分析和实验工作要傲。目前他们只得到一些初步结论.
对Iine盯di∞dmin洲t算法来说,如果它的分布假定成立,用最大精度来衡量,该算法最优.如果客体的诸特性同等重要且度量方式相同,则nea”sIneighbo咿算法最好。对于某些影像分析任务来说就是如此.因为它们的各特性都不过分变态。
当问恶的诸特性是符号的或者非常规的.机器学习算法相对较好。这种算法报强健,但是如果敷据集合满足某些分布假设则可能损伤效能。
神经网络算法对幕些问题效果很好,但该文作者尚未搞清楚如何刻划这些问露。就
计算量和所需专门知识水平而论,神经网络算法比机器学习算法要复杂一些。
各类算法需要的时问根不相同。对某些应用来说,这一点根重要。最快的算法是一
些统计算法.如】ine村discrimi髓眦和NaiveBay岛。机嚣学习算法也比较快。8饕kp州瑚蚶∞算法最慢。目前已有改进算法。Ne躺t眦igIlbour算法也很慢,然而,如果使用训练数据的压缩样本。牺牲一些精度,则可以节省大量时间。
2无监督分类算法的比较研究
近几年有一些研究者对无监督分类算法(也称聚类分析,cI崃峨)做过一些比较研究.例如【2】.【3】和【4】。本文着重评介[3】。这项研究是由美嗣的Mo}I姗edzait和法田的HammouM曙s吐阻完成的。
在该文中他们给出一套比较聚类分析算法的方法.其中主要包括生成测试数据的方法和测量分类质量的计算公式。他们用这套方法对3个著名的聚类分析算法进行了全面的系统的比较.得出一些对选择聚类分析算法很有益的结论.这套比较方法在方法研究上也将是很有用的。这3个聚类分析算法是:统计方法A帆I躐妒I和Relat加aldaban址ysisl4l'神经网络方法Kohon朗nets(也称soFM)|6J.
南京大学学报(自然科学)第36卷
2.1测试数据的生成
假设要分类的数据为五Ⅳ=』.2…,HJ,其中每个客体埘有Ⅲ个特性.该文假定特性
有两个类型,一类是连续的或实数的(c∞6n∞峙0rreal),一类是枚举类的(c劬曜o^cal),
并且在任一特性文件中所有特性的类型都是固定的。他们设计了一个测试数据生成器生
成所需要的测试数据.除了考虑数据纪录数、各纪录特性数、特性种类、特性范围的变
化外,他们还考虑了数据中存在干扰数据(∞isyda衄)和分离数据集(删ier)的情况
以及数据的捧列顺序。所谓分离数据是指数据中的一个子集,该子集中的客体的特性与
其余客体的特性不一致。后者称为主客体集(mainr∞ordset)。
2.2度量分类质量的公式
在该文中他们使用下列公式为度量分类质量的标准,也既,一个最好的分类结果就
是使下列公式取最小值者:∑棚(f)x月(f),月
J‘-.f
其中c是到的类的个数,di帅咖一是第i类的直径,H甜是第i类的纪录(客体)
个数.H是纪录总数。其中直径d.岫ete晰J用下列公式计算:
锄晰(f):yyF!竺竺竺!丛:生尘
,』=…t』.=…f:一_n(f)×(n(f)一1】
其中m是特性数,%是纪录,的第f特性的值。用下列公式计算distance旭,,^,J
1月..一凡,…如果』牛}性为连续型
db加w(”ⅢH¨)={o……………如果瞒性为枚举型且n,J与nIJ相同
Il……………如最£特性为枚举型且H。,与H。,不同
2.3比较的结果
该文从3个方面来比较各聚类分析算法:分类质量,占用的内存和使用的cPu时间.
其中分类质量由上述公式度量.
该文用其数据生成器生成的大量的各式各样的数据对上述3个聚类分析算法进行了
全面的铡试.得到如下一些结论:
(1)以使用内存而论SoFM(即Kohon朝net)嗍最佳。
(2)以花费CPU时间而论也是SOFM最佳。不过差别不大.
0)以分类质量而论兄叫最佳.
(4)RDA对数据的顺序和干扰数据的敏感性量小.
(5)当出现远毫主客体集的分离散据集时,A呻)cIa嚣最佳.
由于在数据挖掘的应用中数据集往往特别大.因此。如果分类算法太慢.或者需要
内存太多.便失去应用的价值.
1~~———]盯■了飞匿■————一————一
计算爿L专辑馀立奉等:分类算法比较研究综述
3结束语
由于分类算法在学术上和应用上都很重要,因此.长期受到许多领域的研究者的关注.近年来,由于
计算机网的兴起.信息瓷源取之方便,作为一种基础性的数据挖掘手段,分类算法的研究更见活跃.除上述比较研究工作外,还有不少研究谭墨受到注目,诸如:
(1)研究新的分类算法、改进已有的分类算法;
(21多种分类方法的组合17】;
(3)分类算法与其它统计方法(如主分量分析法)联合使用;
(4)分类算法与其它人工智能算法(如机器学习中的解释学习方法)的联合使用;(5)分类算法在更多领域(如经济学)的应用,等等。
参考文■
fl】K1他RD.“甜.Acomp丑耐VcsnIdyofCIass埔cationAIgom瞄:S吣bcal,MIchi扯I嗣m啦蛐d
NcurIlNcMorIc【J】.M∞hi舱Lo啪in岳1994,13:311.
f2JAf越M,甜甜(b唧a一∞n0fu咧p唧i辩dcI雒si矗c噶【cJ.Jn:Pr骶ofAIIn岫IS”lpos“皿帅
com∞ⅢimISci∞∞1996.
p】z曲M.Mcs蚶hH.Acom岬dvcsnIdyofclus州ngMcIhnds陬FOCs,1997.13:149
【4】Mich酗埘PcIIls|皓曲gTcchniqu蓝Fum地汹啪lionc∞伽盯systc阻199713:135.
嘲ch船啪蜘P.“吐Aut。cI獬Bayd卸a蛳洒catl。叶sy虬嘲【c】.hl:Proc.or妯InLMachi∞Icm啦
∞吐1蛐8
,·‘
【6】c蛳I∞1sel“org眦izingMa如【明.蛐窖靠,Bcrli珥l卵5.
【7】韩老,橱静宇.多分类嚣组台及其应用田.计算机科学,2000'27(1l
ComparisonofCIassi6catiOns:ASun7ey
XUulB翩ZH矗NGS}li-Ⅳei
(collc萨ofBu如∞ofJiIjllUniV∞姆,chlnl;cII峨130021)
删D∞
(Ch蚰霉曲帅T岫d瞰In嘶h惦。劬睇h吼,13∞21)
^h呐峨^辄rVcyon∞mp撕∞nofcll酬c嘶锄isgiV∞-ntlIis
Pap百.Wc柚∞pr醐t9吼cpfobI瞄iboI吐ch蝴矗删。惦∞哺辅-∞h.妇"盯出C№si五翻曲n,au咖血g,Af.PI咖R∞啷№

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。