Excel中自动完成方差齐性与非齐性t检验
1、缺失值处理
  缺失值是数据分析中一个非常常见的现象,出现的主要原因有:设备故障、拒绝回答、测验时走神等,对此应对缺失值的进行检测,SPSS默认缺失值以黑点表示,可以通过快速浏览数据列表发现,记录下缺失值所在的变量即数据的列。
十月再见十一月你好说说
  缺失值的处理方式有以下三种: 
 (1)剔除有缺失值的观测单位,即删除SPSS数据列表中缺失值所在的数据行。
  在SPSS的统计分析程序中,打开options按钮,便会出现缺失值的处理栏,可分别选择下列选项:“剔除正在分析的变量中带缺失值的观察单位”、“剔除所有分析变量中带缺失值的观察单位”。虽然这种做法可以为执行许多统计分析命令扫清障碍,但要求每一步统计分析都联系于特定的有效样本容量,而样本容量不能稳定会给整个分析带来不便。
中国四大银行  (2)对缺失值进行估计后补上。
  主要有两种方法:一是根据文献报道等知识经验进行估计;二是用SPSS提供的工具进
行估计。在“transform”菜单下的“replacemissingvalues”列出了5种替代的方法:
  1)seriesmean:以列的算术平均值进行替代;
  2)meanofnearlypoint:以缺失值邻近点的算术平均值进行替代;
  3)Medianofnearlypoint:以缺失值临近点的中位数替代;
  4)linearinterpolation:根据缺失值前后的2个观察值进行线性内查法估计和替代;
  5)lineartrendatpoint:用线形回归法进行估计和替代。
  (3)将缺失值作为常数值,如:作为“0”。
  2、奇异值和极端值的处理
  奇异值和极端值是指各变量中与整体数据相距太远的极值,由于它的夸大作用,常常会歪曲统计结果,导致犯一类和二类错误。
  导致奇异值和极端值的原因:(1)数据输入时出错;(2)在不同数据格式之间进行转换时,缺失值处的数码代号被当成了实际观测值;(3)出现奇异值的样本并非属于所要考察的总体;(4)考察的样本相对于正态分布有比较多的极值。
  奇异值和极端值的检测:
  在描述统计分析菜单下,点击Explore(探索性分析)对话框后把变量选入Variables框中,单击统计量选择描述统计量,单击图可以选择箱形图、茎叶图、直方图与正态检验的Q-Q图等检测有无极端值和奇异值。通过箱形图可以发现数据中的异常点,对数据进行核对、检验和筛选。以箱形图为例,箱形图中都标有奇异值的行号。箱形图图形的含义是:中间的粗线为中位数,灰的箱体为四分位,两头伸出的线条表现极端值(下线为最小值、上线为最大值)。箱形图用离值和极端值表示那些在绳索外侧的值。离值,是指值与框的上下边界的距离在1.5倍框的长度到3倍框的长度之间的个案,在图种用“o”号表示。极端值是指值距离框的上下边界超过3倍框长的个案,用“*”号表示。框的长度是四分位数之间的全距。
 如图1所示,对某问卷中家庭收入进行分析的箱形图中既有离值也有极端值。图中3个极端值分别位于:81号家庭、93号家庭、62号;此外2个离值为:67号家庭、76号家庭。有时,鉴于81号家庭远远游离于箱体、绳索及邻近的极端值所组成的体之外,可以把它视作飞点。
  减少奇异值和极端值影响的方法:
  (1)将奇异值和极端值作为缺失值处理:在“variableview”视图中点击“missing”栏下含有奇异值和极端值的变量,弹出“missingvalues”对话
框,有3个选项可以使用:1)“discretemissingvalues”最多可以指定3个数值为缺失值;2)“rangeofmissingvalues”指定某一取值范围内的数值为缺失值;3)“rangeplus oneoptionaldiscretemissing”指定某一取值范围和某一特定数值为缺失值;
  (2)根据检测的奇异值和极端值,用“dataselectcases”工具中的“if…”对数据的取值范围进行限定,然后再进行统计分析;
  (3)对奇异值进行估计,方法同缺失值的估计;
会计实习工作总结
  (4)将原始数据转换成标准Z分数(statis-tics/summarize/descriptives/save/standardizedvalueas)或进行其他的转换后再进行统计分析;
  (5)删除奇异值所在的观察单位。
  3、统计分析前的假设检验
  许多统计检验都需要样本数据服从正态分布,并且相关联的变量之间应方差齐同。若不符合上述条件便应进行数据转换,否则便会导致错误。但大样本数据可以近似地认为其为正态分布,而不用去进行正态性检验。“analyze”下的“descriptives”,“frequencies”和“explore”可以完成这些工作。
  (1)方差齐性检验(spreadvs.levelwithlevenetest)
  “descriptives”和“frequencies”的功能基本相同,都可进行正态性检验和方差齐性检验。若满足方差齐性,则可进行下一步工作;若不满足,选“powerest-imetion”进行数据变换来满足。方差齐性,有6种方法可供选择:(1)naturallog:取自然对数;(2)1/squareroot:取平方根的倒数;(3)reciprocal:取倒数;(4)squareroot:取平方根;(5)square:取平方;(6)cube:取立方。若SPSS提供的6种变换均不能满足要求,应考虑采用非参数统计的方法。
展望2021  (2)正态检验(normalityplotswithtests)
小石潭记翻译  在“analyzedescriptivesstatisticsexplore”中可进行正态检验,及做出Q-Q图。若不支持正态分布,则应进行数据变换,方法同方差齐性检验,或选用非参数统计的方法。
  4、相关分析前的数据检查
  相关分析之前应用“descriptivesstatistics”对数据进行观察。当一个变量取值范围很窄时,应做数据变换后再进行相关分析,否则会使相关的资料得出不相关的结论;在做连续变量和等级资料的相关或两个等级
  资料的相关时,若90%的被试都选择等级资料中的一种情况(如:90%的被试都选择“严重”),则相关性通常会很低,对这类数据应用其他方法进行分析;当均值是一个很大的数,而同时标准差很小时,相关系数值通常也会很小,对这样的资料不宜做相关分析。
  摘自刘莹《SPSS在问卷数据校验中的应用研究》,《科技资讯》2008(8)。
多项选择题数据的输入
  方法1:多重二分法。有多少选项就设多少个变量,某个个案选择了某项则在该变量名下录入“1”,未选择某项则录入“0”,即将每个变量变成类似于“是”、“否”的选择题。
  方法2:多重分类法。有多少选项就设多少个变量,某个个案选择了某项则在该变量名下录入“1”,未选择某项则录入“0”。例如,某个个案选择了第“1”、“3”、“4”项, 则依次录入“1、 0、 1、 1、 0、 0”。
  方法3:多重分类法。选了多少项就设置多少个变量,如命名为 seq1、seq2 和 seq3 ,如果某个个案选择了第“1”、“3”、“2”项时,则依次输入“1”、“3”、“2”。
  方法4:多重分类法,利用Excle的分列功能。
  第一步,设置一个变量,命名为 var1。
  第二步,录入数据。例如 ,某个个案选择了第“1、 3、 2”项,则输入“1 3 2”。
  第三步 ,将该多选题及其数据另存为 Excle文件。
  第四步 ,在excle 中将 var1 这一个变量分列 ,步骤是“选定该变量 →数据 →分列 →固定宽度 →下一步→使用鼠标分列 →下一步 →完成。这样 ,原来的一个变量组成的数据库转化为由几个变量组成的新的数据库 ,如下。
  第五步 ,将新的变量 Seq1 ,Seq2 ,Seq3 保存。
  最后 ,使用 SPSS软件读取该数据文件。
 多项选择题的数据集合的定义
  可从两种方式进入:
  (1)从菜单Analyze(分析)→Multiple Response(定义多重响应集) 进入。
  (2) 从菜单Analyze(分析)→Tables(表)→Multiple Response Tables(多响应集) 进入。
  例:
随风直到夜郎西的上一句
  ◆项目1、您的性别:1-男 2-女
  ◆项目2、您购车时,哪些因素会影响你的购车决策。(允许选择 3 个答案,而且要求被调查者按主
  次顺序选出答案,如521,即价格最重要,其次是款式,再次是性能。)
  1-性能 2-款式 3-油耗 4-品牌 5-价格 6-颜 7-其他
  从菜单Analyze(分析)→Tables(表)→Multiple Response Tables(多响应集)进入:
  第一步:在 Variables in Set(设置定义)框是选入需要加入同一个多项选择题变量集的变量系列,这些变量必须进行分类, 并按照相同的方式来编码。
  若项目是按多重二分法编码,将Set Definition(设置定义)框中的 a1、a2、 a3……a7 放入 Variables in Set(集合中的变量)框,在VariablesAre Coded As(将变量编码为)单选框中的选择 dichotomies (二分法),在 Counted value(计数值) 右侧框中输入1。
  若项目是按多重分类法编码,将 Set Definition (设置定义)框中的b1、b2、b3 放入Variables in Set(集合中的变量)框,在VariablesAre Coded As(将变量编码为)单选框中的选择categories(多重分类法编码方式),则需要设定取值范围,在该范围内的记录值纳入分析。一般的取值范围是该多项选择题选项的最大和最小代码,因此,在range右侧框中输入1,through后输入7。
  第二步: 定义多重反应分析的变量集的名称并附上名称标签。在 Name(名称)框是输入多项选择题变量集的名称,项目2命名为“ GCJCYXYS”。在Lable(标签)框是多项选择题变量集定以一个名称标签,项目2用的是“购车决策影响因素”。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。