SPSS在统计学上的应用概述
SPSS是现代统计软件的典型代表,其全称是:Statistical Packageforthe Social Sciences,即社会科世界上公认数据分析软件有三个,分别是SAS、SPSS和SYSTAT。SPSS软件作为其中的一个统计学软件,有着强大的功能和特点。SPSS的基本功能包括数据管理、统计分析、图表分析、输出管理等等。SPSS统计分析过程包括描述性统计、均值比较、一般线性模型、相关分析、回归分析、对数线性模型、聚类分析、数据简化、生存分析、时间序列分析、多重响应等几大类,每类中又分好几个统计过程,比如回归分析中又分线性回归分析、曲线估计、Losgistic回归、Probit回归、加权估计、两阶段最小二乘法、非线性回归等多个统计过程,而且每个过程中又允许用户选择不同的方法及参数。SPSS也有专门的绘图系统,可以根据数据绘制各种图形[1-2]。
SPSS适用于自然科学、社会科学各个领域,是世界上应用统计最广泛的统计软件之一,SPSS适用于市场营销、销售分析、市场调查、统计报告、质量控制、科学研究、社会调查、企业管理、教学及行政管理等领域,具有数据管理、统计分析、数据和图形展示及打印等功能[3]。
目前“易学易用易普及”已成为SPSS软件最大的竞争优势之一,也是广大数据分析人员对其偏爱有加的主要原因,而大量成熟的统计分析方法、完善的数据定义操作管理、开放的数据接口以及灵活的统计表格和统计图形,更是SPSS长盛不衰的重要法宝。到目前为止,该软件在全球约有26万家用户,SPSS已经应用
于经济学、生物学、教育学、心理学、医学以及体育、工业、农业、林业、商业和金融等各个领域[4]。已经成为世界最流行、应用最广泛的专业分析统计软件之一[5]。
1 SPSS在聚类分析中的应用
1.1聚类分析简介
聚类分析是数据挖掘中一种重要的算法。它主要是将具有相同或者相似性质的对象放在同一个集合中,把具有不同性质的对象放在不同的集合中。聚类源于很多领域,包括数学,计算机科学,统计学,生物学和经济学。聚类分析在很多的领域上都有应用。
1.2聚类分析的优缺点分析
聚类分析是数据挖掘中的经典算法之一。
聚类分析的优点如下:(1)聚类分析能够很好的反映类之间的关系。研究聚类分析能够研究数据背后的对象的性质,能够对我们了解这些对象有着重要的作用。(2)聚类分析能够使用聚类中心来很好地体现该类的性质。比较不同类的聚类中心,能够发现不同类的聚类中心所代表的的意义不同。(3)聚类分析能够帮助我们从数据中提取出重要的信
息。数据挖掘的含义是从数据信息中挖掘出我们所需要的信息,聚类分析从某种程度上反映了数据信息的有效性。
聚类分析有以下缺点:(1)以K均值聚类算法为例,初始聚类中心随机设定,有可能出现对象被错误划分的现象。(2)聚类分析的类数K的确定。在聚类分析算法中,一般是人为设定K值。这样,如果将一堆对象分成较少的类,则可能不能体现聚类中各个类的性质。如果将对象分成较多的类,则有有可能造成数据的冗余。
1.3主成分聚类分析模型
先对数据进行主成分分析,然后进行聚类分析。主成分聚类分析模型就是综合利用主成分分析算法和聚类分析算法的优越性,将两者的思想结合,先对数据进行主成分分析,达到降维的目的,然后对降维后的主成分数据进行聚类分析。主成分分析算法的主要目的是降维,对高维属性的数据来说,主成分分析能够将数据进行信息上的压缩,利用少量的主成分来反映原始的数据信息。聚类分析算法是数据挖掘中的一个经典的算法之一。
1.4聚类分析的应用
杨浩建立的主要模型是主成分-聚类模型。该模型的主要思想是将数据先进行主成分分析,达到降维的目
的;然后将降维后的数据进行聚类分析,从而聚类分析结果。通过这两个模型,对行业统计数据进行年份的划分和对地区的划分,能更好的了解中国的经济信息[6]。
赵姗姗结合SPSS17.0统计软件,应用系统聚类理论,对2013年1月全国31个地市居民消费价格指数进行深入分析,得到明了的分析结果。还在文中列举了大量SPSS 在在军事科学方面、在经济学方面、在工农业方面、在医学方面、在教育学方面、在体育科学方面、在生态学方面、在地质学方面、在社会学方面应用的例子[5]。
吕敬堂的研究发现:(1)聚类分析是农业功能区划分区的科学方法,能够客观地把一个农业系统划分成若干综合功能特征差异明显的区域,但并不能直接求出各区域的主辅功能结构关系,需采用其他辅助手段,才能辨明系统区域的功能结构。(2)在聚类分析基础上,根据分区指标平均值计算功能权重系数,对系统进行纵向和横向排序,是识别系统区域功能结构关系的适用方法。该法简单、科学、合理,便于应用。(3)建立指标体系是农业功能区划分区的基础。要求指标体系能够综合、全面地反映农业系统的功能特征。
(4)收集完整、可靠的指标数据,是决定分区结果是否符合实际的重要前提。残缺和异常数据不能进入聚类分析系统,否则会造成所分区域不连片而偏离实际[7]。
聚类分析数据统计利用SPSS17.0软件包调用Twostep Cluster Analysis进行分析,再根据聚类准则(BIC)
,选定最佳聚类方案。数据统计利用SPSS17.0软件包调用Systemclustering过程进行分析,每两样本间用Averagelinkage法连结,按顺序作图,确
定最终聚类方案[8-9]。
罗家国采用教育统计原理对学生的专业课程成绩进行数据采样,并借助SPSS软件平台的因子聚类分析方法对学生就业潜能进行客观评价,取得了明显的效果。尤其是通过本研究所建立的与学生就业倾向相关的数据库,为更好实施大学生职业生涯教育,改进大学生就业管理积累了丰富的实验数据和素材,并从数据挖掘的新视角探索出一种学生思想工作的新方法[10]。
2 SPSS在主成分分析中的应用
2.1主成分分析概述
主成分分析(Principal components analysis)也称主分量分析,是由霍特林(Hotelling)于1933年首先提出的。主成分分析是利用降维的思想,在损失很少信息的前提下把多个指标转化为几个综合指标的多元统计方法。通常把转化生成的综合指标称之为主成分,其中每个主成分都是原始变量的线形组合,且各个主成分之间互不相关,这就使得主成分比原始变量具有某些更优越的性能。这样在研究复杂问题时就可以只考虑少数几个主成分而不至于损失太多信息,从而更容易抓住主要矛盾,揭示事物内部变量之间的规律性,同时使问题得到简化,提高分析效率。
2.2主成分分析基本思想
在对某一事物进行实证研究中,为了更全面、准确地反映出事物的特征及其发展规律,人们往往要考虑与其有关系的多个指标,一方面人们为了避免遗漏重要的信息而考虑尽可能多的指标,而另一方面随着考虑指标的增多增加了问题的复杂性,由于各指标均是对同一事物的反映,不可避免地造成信息地大量重叠,基于此,主成分分析研究通过原来变量地少数几个线形组合来结实原来变量绝大多数信息地一种多元统计方法[11]。
如何做数据分析表2.3主成分分析中SPSS的应用
实际上对于主成分分析SPSS软件中没有对应的模块,但是因子分析模块中有利用主成分分析来求得因子载荷矩阵,根据上面主成分分析与因子分析的联系,我们可以从SPSS的因子载荷矩阵得到主成分分析的系数。
因子分析和主成分分析都依赖于原始变量,所以原始变量的选择很重要(指标的选择非常重要)。如果原始变量都本质上独立,那么降维就可能失败,这是因为很难把很多独立变量用少数综合的变量概括。数据越相关,降维效果就越好。其次,对于具体的问题指标选取之后还要对其处理,正向指标、逆向的指标和区间型指标怎样转换成可以比较的指标问题。最后,从相关系数出发建立主成分的系数矩阵还是从协方差矩阵出发建立主成分的系数还没有定论。因子分析中的特殊因子如果作用较大,不能从因子载荷
阵推主成分系数。可见建立主成分模型的事前步骤和事后分析很重要,不是随便什么数
据拿来用SPSS软件分析得出结果就行了[12]。
3方差分析
3.1几种方差分析软件比较
目前农业工作者普遍使用EXCLE、DPS、SPSS、SAS等统计软件进行方差分析。
3.1.1EXCLE统计软件
EXCLE统计软件数据操作简单方便,而不用进行数据格式的转换#但没有试验结果的显著性检验!多重比较"功能。
3.1.2 DPS统计软件
DPS统计软件是我国自行研制的功能强大。使用方便且是中文操作系统的数据综合管理分析软件。深受广大科技工作者的欢迎。但它的数据块定义是固定格式格式以外的数据不整齐的,重复数不相等的不能进行操作。许多初学者使用DPS统计软件进行重复数不相等数据的方差分析,为了保证数据的整齐人为
的进行数据的增减,但每个进行分析的试验数据都是由若干个原始数据计算出来的,随意地改变试验数据,造成试验误差估计不准确,检验结果并不可靠。
3.1.3 SAS软件
SAS软件需要编程,又较难掌握。
3.1.4 SPSS软件
SPSS软件英文版操作系统使许多农业科技工作者望而却步,许多DPS参考书只有理论过程的讲述,没有实际的例题。
龚江通过比较认为SPSS软件在处理各种试验设计的方差分析很方便,介绍了如何应用SPSS软件进行多因素试验设计的方差分析过程,包括数据的输入、数据分析、方差分析结果及显著性检验,重点是变异来源的分析,因为试验设计不同变异来源就不同。本研究以两因素完全随机重复不等的试验为例进行方差分析,为农业科技工作者提供参考[13]。
3.3多元方差分析中SPSS的应用
多元方差分析的基本思想多元方差分析是数理统计的基本方法之一。然而在实际应用中,很多人将其错
误地理解为多因素方差分析。多因素方差分析主要用来研究两个及两个以上控制变量是否对一个反应变量产生显著影响。从数学角度看,即要回答,多个总体的均值是否存在显著差异的问题。而多元方差分析中的“多元”是真正意义上的“多元”,即反应变量为多个。从数学思想看,两种方法的基本思想相似,都是将反应变量的变异分解成两部分,一部分为组间变异,即组别因素的效应(一部分为组内变异,即随机误差,然后对这两部分变异进行比较,所不同的是多因素方差分析是将组间均方与组内均方进行比较,多元方差分析是对组间协方差矩阵与组内协方差矩阵进行比较[14]。
4 SPSS在回归分析中的应用
4.1 SPSS回归分析
SPSS(Statistical Productand Service Solutions)意为统计产品与服务解决方案,统计和数据分析功能强大,界面友好,易学易用,目前是非统计专业人员应用最多的统计软件。SPSS提供了多种回归分析过程,如Linear(线性回归)、Nonlinear(非线性回归)、Curve Estimation(曲线拟合)、Binary Logistic(二分类,即事件概率回归)等。应用统计学中逐步回归筛选自变量的准则,一般有残差平方准则和统计量显著性检验准则2种。前者是将自变量个数与残差平方和的值结合起来,考虑选取哪些自变量构造模型,但SPSS目前尚未提供该项功能;后者是通过对回归系数进行显著性检验,选择有统计学意义的自变量构成模型,SPSS目前支持该项功能。使用统计软件SPSS进行回归分析非常简单,靠鼠标点击即可完成操
作,同时利用Paste键可将操作过程存为程序,方便下次直接调用,与教科书中提供的编程方法相比提供了更多回归分析功能、提高了方程的精度、且大大减小了操作难度、节约了时间[15]。
4.2 SPSS与EXCEL、EVIEWS回归分析比较
SPSS的分析结果清晰、直观、易学易用,它的数据的输入方式与EXCLE类似,而且可以直接读取EXCLE及DBF数据文件。但是它很难与一般办公软件如Office或是WPS 2000直接兼容,在撰写调查报告时往往要用电子表格软件及专业制图软件来重新绘制相关图表。
EXCLE的功能比较简单,线性回归之后得到的输出中没有常用的模型选择标准。但是,对非统计专业人员来说,学习起来比较简单,而且也能得到基本的线性回归分析结果。所以,对非统计专业人员来说,用EXCLE来进行线性回归分析不失为一种好的选择。
EVIEWS是专业的计量经济学软件,线性回归的输出结果要更为完整,但是模型选择标准也不全。但其输出形式是比较整齐,比较美观的[16]。
5正交试验设计中SPSS的应用
5.1正交实验简介
试验设计的一个最重要的原则:在做试验前,通过必要的事前考虑,作出合理周密的事先安排,从而在实际的试验中,通过动用最少的人力、物力、财力及尽可能短的时间,以便用最少的试验次数,达到同做大量全面试验等效的结果。正交试验设计就是在上述的实际需要中逐渐发展成熟并在实际科研工作中被得到广泛运用的一个重要而又有效的统计方法。正交试验设计的主要工具是正交表,正交试验设计依托正交表,根据正交性从全面试验中挑选出部分有代表性的点进行试验,这些有代表性的点具备了“均
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论