分类数据常用统计方法
在科研数据的统计分析中,经常会遇到分类数据。分类数据包括计数资料和等级资料,两者都是将观察指标分类(组),然后统计每一类(组)数目所得到的数据,区别是如果观察指标的分类是无序的则为计数资料,也叫定性资料或无序分类变量;如果观察指标的分类是有序的,则为等级资料,也叫有序分类数据。如调查某人的血型分布,按照A 、B 、AB 与O 四型分组,计数所得该人的各血型组的人数就是计数资料(因为A 、B 、AB 与O 血型之间是平等的,并没有度或量的差异);观察用某药某病患者的疗效,以患者为观察单位,结果可分为治愈、显效、好转、无效四级,然后对该病的患者,分别计数治愈、显效、无效、好转的人数则为等级数据(因为无效的疗效最差、次之为好转、治愈的疗效最好,它们之间有度或者量的区别)。分类数据进行统计分析时要列成表格,根据表格中分组变量和指标变量的性质、样本含量(n )和理论频数(T )的大小以及分析的目的,所用的统计方法是不一样的。下面通过一些有代表性的例子来介绍分类数据常用的统计分析方法。
一、2×2表
2×2表也叫四格表。在实验研究中,将研究对象分为2组进行实验,实验只有2种可能的结果,如阳性与阴性,故叫2×2表;因为基本数据只有4个,所以也叫四格表。根据不同的实验安排,四格表又分为完全随机设计四格表和配对设计四格表。
表1 某抗生素的人耐药性情况
用药史 不敏感 敏感 合计 耐药率(%) 曾服该药 180(174.10) 215(220.90) 395 45.57 未服该药 73(78.90) 106(100.10)
179 40.78 合计
253
321
574
44.08
表 1 为完全随机设计四格表。其目的是要比较曾服该抗生素的人和未曾服过该抗生素的人,对该抗生素的耐药率有无差异。表格中的四个基本数据(也叫实际频数)分别为180、215、73、106;括号中的四个数据(174.10、220.90、78.90、100.10)为四个理论频数(T ),因且四个理40574>=n 论频数(T )均大于5,故应用Pe a rson 2χ检验。经(SPSS 11.0,以下同)计算2χ=1.145,P =0.285>0.05,故可认为曾服过该抗生素的人和未曾服过该抗生素的人对该抗生素的耐药率无差异。
表2 两个年级大学生的近视眼患病率比较
年级 近视 非近视 合计 近视率(%) 四年级 2(4.67) 26(23.33) 28 7.14 五年级 5(2.33) 9(11.69) 14 35.71 合计
拟人句大全三年级7
35
42
笔记本连接投影仪16.67
表2也为完全随机设计四格表。虽但有两个4042>=n 格子的理论频数比1大比5小,此时需对进2χ行连续性校
正(因为理论频数太小,会导致增大2χ,易出现错误的有差异的结论)。经计算,连续性校正的c 2χ=3.621,P =0.057>0.05,可认为大学四年级与大学5年级学生近视眼的患病率无差异。如果不用连续性校正的2
χ检验,则2
χ=5.486,P =0.019<0.05,则会得出五年级大学生近视眼的患病率高于四年级大学生的错误结论。
表3 两种疗法对腰椎间盘脱出症的疗效
疗法 治愈 未治愈 合计 治愈率(%) 新疗法 7 2 9 77.78 保守疗法 2 6 8 25.00 合计
9
8
17
52.94
表3也为完全随机设计四格表。因n =17<40(或有理论频数小于1),即使采用校正公式计算2
χ也会
有偏差,此时应采用四格表的Fi sher确切检验法。经计算P=0.057>0.05,故认为新疗法与保守疗法对腰椎间盘脱出症的治愈率无差异。
表4 198份痰液标本分别用A、B两种培养基的培养结果
A培养基
B培养基
合计+-
+48 24 72收款怎么发起
-20 106 126
合计68 130 198 表4为配对设计四格表。A、B两种培养基对同一份标本的培养结果视为对子数据,故为配对设计。
欲分析A、B两种培养基的培养结果有无差异,应用配对四格表2
χ(也叫McNe mar)检验。经计算P=0.652>0.05,故认为A、B两种培养基的培养结果无差异。
表5 三个不同地区血型样本的频数分布
地区 A B AB O 合计
亚洲321 369 95 295 1080
欧洲258 43 22 194 517
北美洲408 106 37 444 995
合计987 518 154 933 2592 表5为完全随机设计的R×C表。与四格表不同的是:表5的行或列均超过2,此类表格统称为行×列表,也叫R×C表。四格表也可以视为行(或R)=2,列(或C)=2的行×列表。此表因为结果变量(血型)为多分类,故属于多个构成比的比较。欲分析不同地区人的血型分布构成有无差异,应用Pearson检2
χ验。经计算2
χ=297.375,P=0.000<0.05,可认为三地区人的血型分布构成有差异。经进一步分析,发现亚洲地区A(29.7%)、B(34.2%)和O(27.3%)血型的人比较多,欧洲和北美洲A(分别为49.9%和41%)和O(分别为37.5%和44.6%)血型的人比较多。
表6 三组药物治疗失眠的有效率
组别有效无效合计有效率(%)
新药 6 42 48 12.50
传统药11 26 37 29.73
安慰剂29 8 37 78.38
合计46 76 122 37.70 表6也为完全随机设计R×C表,因结果变量为药物的疗效,分为有效和无效,属于2分类变量,故属于多个率的比较。欲分析不同药物失眠的有效率有无差异,也用Pearson检2
χ验。经计算2χ=40.044,P=0.000<0.05,可认为三种药物失眠的有效率有差异。经进一步分析,发现安慰剂失眠的效果最佳。
表7 某地5801人的血型
ABO血型
MN血型
合计M N MN
O 431 490 902 1823
A 388 410 800 1598
B 495 587 950 2032
AB 137 179 32 348
合计1451 1666 2684 5801 表7为双向无序的表格(即ABO血型无等级差别,MN血型也无等级差别)。此表的试验设计类似于配对设计(同一观察对象同时观察两个属性。即同一人既观察ABO血型,又观察MN血型)。欲分析AB
O血型系统与MN血型系统之间有无关联,应先做Pea rson2χ检验,2χ=213.626,P=0.000<0.05,可认为ABO血型系统与M N血型系统之间有关联。进一步计算列联系数C=0.188,因列联系数(和1相比)不大,故可认为虽然A BO血型系统与MN血型系统之间虽有关联,但联系不是很密切。
表8 三种药物疗效的观察结果
药物
疗效
合计无效好转显效治愈
A药 5 31 49 15 100
B药22 50 9 4 85
C药24 45 15 1 85
合计51 126 73 20 270 表8为单项有序列联表(即分组变量为药物,为无序分类变量,结果变量为药物的疗效,为有等级顺学的等级变量)。欲分析不同药物的疗效有无差异,应用秩和检验而不能像表5那样用2
χ检验。其理由为:如果用检验2
银耳凉拌菜的做法χ,则认为疗效的四个等级(无效,好转、显效和无效)之间是平等的,无等级差别,显然是不正确的。经秩和检验得H=61.146,P=0.000<0.05,可认为A、B、C药物的疗效有差异。经进一步分析得A药的疗效最好(95%)。
统计表怎么做表9 眼晶状体浑浊度与年龄的关系
年龄晶状体浑浊程度合计
+ ++ +++
20~215 67 44 326
30~131 101 63 295
40~148 128 132 408
合计494 296 239 1029 表9为双向有序属性不同的表格(年龄有等级顺序,眼晶状体浑浊程度有等级顺序)。欲分析不同年龄组眼晶状体浑浊程度有无差异,可把年龄看做无序变量,做秩和检验,经计算得H=68.078,P=0.000<0.05,可认为不同年龄组眼晶状体浑浊程度有差异,经进一步分析得年龄在20~的眼晶状体+所占比例最多(66%);如果欲分析年龄与晶状体浑浊程度之间有无关联,则用Spea rman等级相关分析。经计算得s
r=0.253,P=0.000<0.05,可认为年龄与眼晶状体浑浊程度相关,也即年龄越大,眼晶状体浑浊程度越高。
表10 两法检查147例冠心病人室壁收缩运动的符合情况
对比法
核素法
合计正常减弱异常
正常58 2 3 63
减弱 1 42 7 50
圣诞帽异常8 9 17 34
合计67 53 27 147 表10为双向有序并且属性相同的表格。此类表格的特点是双向均为按等级分类,且分类属性相同。欲分析两种方法检查结果是否一致,应做一致性(K appa)检验。经计算,Kappa检验的统计量=11.411,P=0.000<0.05,可认为两种方法检查结果一致,一致率为79.6%。
对上面的内容进行整理,可得出不同分析目的和不同特征表格常用的统计方法见表11。
表11 分类资料常用统计方法总结
分类试验设计条件检验方法
四格表完全随机
设计
n≥40且T≥5Pearso n 2χ检验(如表1)
n≥40且1≤T<5校正2χ检验(如表2)
n<40或0<T<1确切概率法(fisher检验)(如表3)
配对设计配对2
χ检验(McNemar检验)(如表4)
R×C表双项无序属性列联表
欲分析构成比则2
χ检验;欲分析行指标与列指标有无关联,则检
验并求2
χ列联(相关)系数;(如表5~7)
分组变量无序,指标变量有序秩和检验(如表8)
分组变量有序,指标变量无序2
χ检验
双项有序属性不同秩和检验或等级相关分析或线性趋势检验(表9)
双项有序属性相同一致性检验(Kappa检验)(表10)
总之,对于分类数据(R×C表)的统计分析应根据R×C表中行变量与列变量的性质、分析目的和理论频数的大小等,选用相应的统计分析方法。
版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。
发表评论