Excel中自动完成方差齐性与非齐性t检验--慧智精品网

１、缺失值处理

缺失值是数据分析中一个非常常见的现象，出现的主要原因有：设备故障、拒绝回答、测验时走神等，对此应对缺失值的进行检测，ＳＰＳＳ默认缺失值以黑点表示，可以通过快速浏览数据列表发现，记录下缺失值所在的变量即数据的列。

十月再见十一月你好说说

缺失值的处理方式有以下三种：　

　（1）剔除有缺失值的观测单位，即删除ＳＰＳＳ数据列表中缺失值所在的数据行。

在ＳＰＳＳ的统计分析程序中，打开ｏｐｔｉｏｎｓ按钮，便会出现缺失值的处理栏，可分别选择下列选项：“剔除正在分析的变量中带缺失值的观察单位”、“剔除所有分析变量中带缺失值的观察单位”。虽然这种做法可以为执行许多统计分析命令扫清障碍，但要求每一步统计分析都联系于特定的有效样本容量，而样本容量不能稳定会给整个分析带来不便。

中国四大银行（2）对缺失值进行估计后补上。

主要有两种方法：一是根据文献报道等知识经验进行估计；二是用ＳＰＳＳ提供的工具进

行估计。在“ｔｒａｎｓｆｏｒｍ”菜单下的“ｒｅｐｌａｃｅｍｉｓｓｉｎｇｖａｌｕｅｓ”列出了５种替代的方法：

１）ｓｅｒｉｅｓｍｅａｎ：以列的算术平均值进行替代；

２）ｍｅａｎｏｆｎｅａｒｌｙｐｏｉｎｔ：以缺失值邻近点的算术平均值进行替代；

３）Ｍｅｄｉａｎｏｆｎｅａｒｌｙｐｏｉｎｔ：以缺失值临近点的中位数替代；

４）ｌｉｎｅａｒｉｎｔｅｒｐｏｌａｔｉｏｎ：根据缺失值前后的２个观察值进行线性内查法估计和替代；

５）ｌｉｎｅａｒｔｒｅｎｄａｔｐｏｉｎｔ：用线形回归法进行估计和替代。

（3）将缺失值作为常数值，如：作为“０”。

２、奇异值和极端值的处理

奇异值和极端值是指各变量中与整体数据相距太远的极值，由于它的夸大作用，常常会歪曲统计结果，导致犯一类和二类错误。

导致奇异值和极端值的原因：（１）数据输入时出错；（２）在不同数据格式之间进行转换时，缺失值处的数码代号被当成了实际观测值；（３）出现奇异值的样本并非属于所要考察的总体；（４）考察的样本相对于正态分布有比较多的极值。

奇异值和极端值的检测：

在描述统计分析菜单下，点击Ｅｘｐｌｏｒｅ（探索性分析）对话框后把变量选入Ｖａｒｉａｂｌｅｓ框中，单击统计量选择描述统计量，单击图可以选择箱形图、茎叶图、直方图与正态检验的Ｑ－Ｑ图等检测有无极端值和奇异值。通过箱形图可以发现数据中的异常点，对数据进行核对、检验和筛选。以箱形图为例，箱形图中都标有奇异值的行号。箱形图图形的含义是：中间的粗线为中位数，灰的箱体为四分位，两头伸出的线条表现极端值（下线为最小值、上线为最大值）。箱形图用离值和极端值表示那些在绳索外侧的值。离值，是指值与框的上下边界的距离在１．５倍框的长度到３倍框的长度之间的个案，在图种用“ｏ”号表示。极端值是指值距离框的上下边界超过３倍框长的个案，用“＊”号表示。框的长度是四分位数之间的全距。

　如图１所示，对某问卷中家庭收入进行分析的箱形图中既有离值也有极端值。图中３个极端值分别位于：８１号家庭、９３号家庭、６２号；此外２个离值为：６７号家庭、７６号家庭。有时，鉴于８１号家庭远远游离于箱体、绳索及邻近的极端值所组成的体之外，可以把它视作飞点。

减少奇异值和极端值影响的方法：

（１）将奇异值和极端值作为缺失值处理：在“ｖａｒｉａｂｌｅｖｉｅｗ”视图中点击“ｍｉｓｓｉｎｇ”栏下含有奇异值和极端值的变量，弹出“ｍｉｓｓｉｎｇｖａｌｕｅｓ”对话

框，有３个选项可以使用：１）“ｄｉｓｃｒｅｔｅｍｉｓｓｉｎｇｖａｌｕｅｓ”最多可以指定３个数值为缺失值；２）“ｒａｎｇｅｏｆｍｉｓｓｉｎｇｖａｌｕｅｓ”指定某一取值范围内的数值为缺失值；３）“ｒａｎｇｅｐｌｕｓ　ｏｎｅｏｐｔｉｏｎａｌｄｉｓｃｒｅｔｅｍｉｓｓｉｎｇ”指定某一取值范围和某一特定数值为缺失值；

（２）根据检测的奇异值和极端值，用“ｄａｔａｓｅｌｅｃｔｃａｓｅｓ”工具中的“ｉｆ…”对数据的取值范围进行限定，然后再进行统计分析；

（３）对奇异值进行估计，方法同缺失值的估计；

会计实习工作总结

（４）将原始数据转换成标准Ｚ分数（ｓｔａｔｉｓ－ｔｉｃｓ／ｓｕｍｍａｒｉｚｅ／ｄｅｓｃｒｉｐｔｉｖｅｓ／ｓａｖｅ／ｓｔａｎｄａｒｄｉｚｅｄｖａｌｕｅａｓ）或进行其他的转换后再进行统计分析；

（５）删除奇异值所在的观察单位。

３、统计分析前的假设检验

许多统计检验都需要样本数据服从正态分布，并且相关联的变量之间应方差齐同。若不符合上述条件便应进行数据转换，否则便会导致错误。但大样本数据可以近似地认为其为正态分布，而不用去进行正态性检验。“ａｎａｌｙｚｅ”下的“ｄｅｓｃｒｉｐｔｉｖｅｓ”，“ｆｒｅｑｕｅｎｃｉｅｓ”和“ｅｘｐｌｏｒｅ”可以完成这些工作。

（１）方差齐性检验（ｓｐｒｅａｄｖｓ．ｌｅｖｅｌｗｉｔｈｌｅｖｅｎｅｔｅｓｔ）

“ｄｅｓｃｒｉｐｔｉｖｅｓ”和“ｆｒｅｑｕｅｎｃｉｅｓ”的功能基本相同，都可进行正态性检验和方差齐性检验。若满足方差齐性，则可进行下一步工作；若不满足，选“ｐｏｗｅｒｅｓｔ－ｉｍｅｔｉｏｎ”进行数据变换来满足。方差齐性，有６种方法可供选择：（１）ｎａｔｕｒａｌｌｏｇ：取自然对数；（２）１／ｓｑｕａｒｅｒｏｏｔ：取平方根的倒数；（３）ｒｅｃｉｐｒｏｃａｌ：取倒数；（４）ｓｑｕａｒｅｒｏｏｔ：取平方根；（５）ｓｑｕａｒｅ：取平方；（６）ｃｕｂｅ：取立方。若ＳＰＳＳ提供的６种变换均不能满足要求，应考虑采用非参数统计的方法。

展望2021 （２）正态检验（ｎｏｒｍａｌｉｔｙｐｌｏｔｓｗｉｔｈｔｅｓｔｓ）

小石潭记翻译在“ａｎａｌｙｚｅｄｅｓｃｒｉｐｔｉｖｅｓｓｔａｔｉｓｔｉｃｓｅｘｐｌｏｒｅ”中可进行正态检验，及做出Ｑ－Ｑ图。若不支持正态分布，则应进行数据变换，方法同方差齐性检验，或选用非参数统计的方法。

４、相关分析前的数据检查

相关分析之前应用“ｄｅｓｃｒｉｐｔｉｖｅｓｓｔａｔｉｓｔｉｃｓ”对数据进行观察。当一个变量取值范围很窄时，应做数据变换后再进行相关分析，否则会使相关的资料得出不相关的结论；在做连续变量和等级资料的相关或两个等级

资料的相关时，若９０％的被试都选择等级资料中的一种情况（如：９０％的被试都选择“严重”），则相关性通常会很低，对这类数据应用其他方法进行分析；当均值是一个很大的数，而同时标准差很小时，相关系数值通常也会很小，对这样的资料不宜做相关分析。

摘自刘莹《ＳＰＳＳ在问卷数据校验中的应用研究》，《科技资讯》２００８（８）。

多项选择题数据的输入

方法1：多重二分法。有多少选项就设多少个变量，某个个案选择了某项则在该变量名下录入“1”，未选择某项则录入“0”，即将每个变量变成类似于“是”、“否”的选择题。

方法2：多重分类法。有多少选项就设多少个变量，某个个案选择了某项则在该变量名下录入“1”，未选择某项则录入“0”。例如，某个个案选择了第“1”、“3”、“4”项, 则依次录入“1、 0、 1、 1、 0、 0”。

方法3：多重分类法。选了多少项就设置多少个变量，如命名为 seq1、seq2 和 seq3 ，如果某个个案选择了第“1”、“3”、“2”项时，则依次输入“1”、“3”、“2”。

方法4：多重分类法，利用Excle的分列功能。

第一步，设置一个变量，命名为 var1。

第二步，录入数据。例如 ,某个个案选择了第“1、 3、 2”项，则输入“1 3 2”。

第三步 ,将该多选题及其数据另存为 Excle文件。

第四步 ,在excle 中将 var1 这一个变量分列 ,步骤是“选定该变量 →数据 →分列 →固定宽度 →下一步→使用鼠标分列 →下一步 →完成。这样 ,原来的一个变量组成的数据库转化为由几个变量组成的新的数据库 ,如下。

第五步 ,将新的变量 Seq1 ,Seq2 ,Seq3 保存。

最后 ,使用 SPSS软件读取该数据文件。

　多项选择题的数据集合的定义

可从两种方式进入：

(1)从菜单Analyze（分析）→Ｍultiple Ｒesponse（定义多重响应集）　进入。

(2)　从菜单Analyze（分析）→Tables（表）→Ｍultiple Ｒesponse　Tables（多响应集）　进入。

例：

随风直到夜郎西的上一句

◆项目１、您的性别：１－男　２－女

◆项目２、您购车时，哪些因素会影响你的购车决策。（允许选择　３　个答案，而且要求被调查者按主

次顺序选出答案，如５２１，即价格最重要，其次是款式，再次是性能。）

１－性能　２－款式　３－油耗　４－品牌　５－价格　６－颜　７－其他

从菜单Ａｎａｌｙｚｅ（分析）→Ｔａｂｌｅｓ（表）→Ｍｕｌｔｉｐｌｅ　Ｒｅｓｐｏｎｓｅ　Ｔａｂｌｅｓ（多响应集）进入：

第一步：在　Ｖａｒｉａｂｌｅｓｉｎ　Ｓｅｔ（设置定义）框是选入需要加入同一个多项选择题变量集的变量系列，这些变量必须进行分类，　并按照相同的方式来编码。

若项目是按多重二分法编码，将Ｓｅｔ　Ｄｅｆｉｎｉｔｉｏｎ（设置定义）框中的　ａ１、ａ２、　ａ３……ａ７　放入　Ｖａｒｉａｂｌｅｓ　ｉｎ　Ｓｅｔ（集合中的变量）框，在ＶａｒｉａｂｌｅｓＡｒｅ　Ｃｏｄｅｄ　Ａｓ（将变量编码为）单选框中的选择　ｄｉｃｈｏｔｏｍｉｅｓ　（二分法），在　Ｃｏｕｎｔｅｄ　ｖａｌｕｅ（计数值）　右侧框中输入１。

若项目是按多重分类法编码，将　Ｓｅｔ　Ｄｅｆｉｎｉｔｉｏｎ　（设置定义）框中的ｂ１、ｂ２、ｂ３　放入Ｖａｒｉａｂｌｅｓ　ｉｎ　Ｓｅｔ（集合中的变量）框，在ＶａｒｉａｂｌｅｓＡｒｅ　Ｃｏｄｅｄ　Ａｓ（将变量编码为）单选框中的选择ｃａｔｅｇｏｒｉｅｓ（多重分类法编码方式），则需要设定取值范围，在该范围内的记录值纳入分析。一般的取值范围是该多项选择题选项的最大和最小代码，因此，在ｒａｎｇｅ右侧框中输入１，ｔｈｒｏｕｇｈ后输入７。

第二步：　定义多重反应分析的变量集的名称并附上名称标签。在　Ｎａｍｅ（名称）框是输入多项选择题变量集的名称，项目２命名为“　ＧＣＪＣＹＸＹＳ”。在Ｌａｂｌｅ（标签）框是多项选择题变量集定以一个名称标签，项目２用的是“购车决策影响因素”。

慧智精品网

Excel中自动完成方差齐性与非齐性t检验

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

汉唐时期的历史研究与考古探析

汉代河西邮驿的设置作用

中国汉代的宇宙观四个字

汉代婚礼礼仪知识有哪些

汉代选官制度的名称及其弊端

汉代风云人物易中天

简述汉代的文学成就

汉赋的历史背景与社会意义

汉代的文化特征

中国古代史阶段特征汇总

《汉古学概说》赏析

汉朝儒学思想演变

中国文化的汉唐时期

评价汉代的援礼入法

汉书读后感了解中国历史上汉代的经济文化等各方面发展和变革情况_百 ...

汉朝的文化特点

中国舞蹈史第3讲汉代舞蹈的发展

汉代宫廷文化和制度框架

哈佛中国史1早期中华帝国秦与汉

古代中国的秦汉文化发展

最新文章

【中国历史十五讲】读书说明与指导(吴树国)

红星照耀中国汉代青铜读后感

中国历史文化常识大全(最新整理200题)

《鸿门宴》背景、情节与教案探析

汉代文人诗的艺术成就

汉代刘向的作品

标签列表