暨南大学硕士学位论文
题名(中英对照):基于数据挖掘的分类和聚类算法研究及R语言实现
dnf卢克副本A Study on Algorithm of Classification and Cluster
Based on Data Mining and Realization by R programe
作者姓名:方匡南
指导教师姓名王斌会博士教授
及学位、职称:
学科、专业名称:经济学统计学
杜甫是哪个朝代的诗人论文提交日期:2007年5月
论文答辩日期:2007年6月
答辩委员会主席:
论文评阅人:
学位授予单位和日期:
独创性声明
本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得暨南大学 或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示谢意。
学位论文作者签名:签字日期:年月日
学位论文版权使用授权书
本学位论文作者完全了解暨南大学有关保留、使用学位论文的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人授权暨南大学可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。
(保密的学位论文在解密后适用本授权书)
学位论文作者签名:导师签名:
签字日期:年月日签字日期:年月日
学位论文作者毕业后去向:
工作单位:电话:
通讯地址:邮编:
摘要
数据挖掘是个新兴的研究领域,涉及到统计学、数据库、机器学习等众多学科,正以其强大的功能和广泛的应用受到高度的关注。数据挖掘的方法众多,其中分类、聚类方法是数据挖掘应用最多的方法,而算法研究是数据挖掘研究领域的重中之重,算法的好坏直接影响到数据挖掘的效率,所以本文主要深入系统地研究分类、聚类算法。虽然目前研究分类、聚类算法的文章比较多,但大多数研究只停留在理论上的探讨,并没有相应的算法实现。本文着重于算法实现的研究,在国内首次利用R语言实现数据挖掘算法,因为R语言相对于其他一些软件有着免费、开放源代码、算法更新速度快等优点。
论文第一章介绍数据挖掘的研究背景、目的和意义以及研究方法和框架。第二章主要介绍比较各分类算法及R语言实现,包括基于距离分类的KNN算法;基于决策树方法的C4.5算法、CART算法;基于神经网络的BP算法。第三章主要介绍比较各种聚类算法及R语言实现。具体介绍了划分方法的K-means、pam、clara算法;层次方法的AGNES、DIANA算法;基于密度聚类方法的DBSCAN算法;基于模型聚类方法的COBWEB、SOM算法;基于模糊聚类方法的FCM算法。第四章实证分析主要以台湾教授蔡欣玲就护理人员离职调查的数据为例,按数据挖掘的标准流程CRISP-DM进行分析,首先对数据作初步统计分析,掌握护理人员的初步情况,再接着利用聚类方法来分析医院护理人员的离职意愿,然后利用分类方法建立预测模型。第五章对本文的研究情况进行总结并展望。韩国歌词
关键词:数据挖掘分类算法聚类算法R语言实现
ABSTRACT
DataMing is a new study realm ,coming down to many subjects such as statistics、database、machine learning and so on,it was paid high attention for its strong functions and broad application.DataMining has many methods , classification and cluster are two of the most applied methods,but algorithm study is the most important field in DataMing study ,whether the algorithm is good or bad will directly affect the efficiency of DataMing,so this paper will study deeply and systeml
y on classification and cluster algorithm.Although papers studying on classification and cluster algorithm are many ,but most of many just discussed on theory ,didn’t realize these algorithms.This paper will emphasize the realization of algorithm and realize algorithm by R programe first in china,because R programe has advantages such as free 、open source and algorithm updating quickly compared to other softwares.
The first chapter of paper introduce the study background 、purposes and meaning and means and frame.The second chapter introduce and compare with every algorithm of classification and realized by R programe, including the KNN algorithm based on distance,the C4.5、CART algorithms based on decision tree and the BP algorithm based on neural network.then realize these algorithms by R programe。The third chapter introduce and compared with every algorithm of cluster and realized by R programe,including the K-means、pam、clara algorithms of partitioning methods,the AGNES、DIANA of hierarchical methods,the DBSCAN algorithms of density-based methods,the COBWEB、SOM algorithms of Model-Based clustering method and the FCM algorithm of Fuzzy clustering method. then realize these algorithms by R programe.The fourth chapter is demonstration , Taking the data about the job-leaving of nurses which collected by professor cai xinling TaiWan as an example,analyse the data following the standard flow CRISP-DM.First,simply analyse the data by st
atistics and understand the first-step knowloge ,then analyse the job-leaving willing by cluster method and establish predicted model by classification method.The fifth chapter summarize the paper and give expectation .
KEYWORD:DataMining classification algorithm cluster algorithm realization by R programe
目录
中文摘要 (Ⅰ)
英文摘要 (Ⅱ)
目录 (Ⅲ)
1.绪论 (1)
1.1数据挖掘产生的背景和定义 (1)
1.2数据挖掘国内外发展现状 (2)
1.3数据挖掘与传统统计之间的关系 (3)
1.4数据挖掘的主要应用分析 (5)
1.5研究目的和意义 (7)
号更改1.6论文研究框架 (7)
1.7数据挖掘算法的研究工具—R语言 (8)
2. 分类分析方法及R语言实现 (12)
2.1分类分析的基本概念、步骤及方法 (12)
招的组词2.2 分类分析的评估标准 (13)
2.3基于距离分类方法及R语言实现 (14)
2.4基于决策树分类方法及R语言实现
2.5基于神经网络分类方法及R语言实现
3. 聚类分析方法及R语言实现 (28)
3.1聚类分析基本概念及要求 (28)
3.2聚类分析的数据类型及处理方法 (29)
3.3划分聚类方法及R语言实现 (35)
3.4层次聚类方法及R语言实现
3.5基于密度聚类方法及R语言实现
3.6基于模型聚类方法及R语言实现
3.7模糊聚类方法及R语言实现
4. 实证分析 (54)
4.1研究背景 (54)
2022希望疫情结束的唯美句子4.2.数据整理 (54)
4.3.数据初步统计分析 (55)
4.4.护理人员离职意愿的聚类及交叉分析 (58)
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论