数据分析大作业汇总
第一章 数据描述分析
(一)目的与要求:
掌握利用统计软件求样本的数据特征、数据的分布,并理解所求各统计值的实际意义及作用,能把数据特征及数据分布用以解决实际问题。
掌握正态分布、对数正态分布、威布尔分布、指数分布等几种常见分布的拟合检验方法。
理解相关的本质含义,并会判断几个变量的相关性,掌握几种不同相关性的差别方法;能利用软件输出的结果判断变量的相关性。
(二)重点与难点:
掌握求数据的数字特征的程序结构,并能看懂程序输出的结果。区别不同的程序过程能求得一些相同的结果,但它们的功能上的区别;掌握几种描述数据分布软件处理方法、意义、实际应用;掌握平均数与中位数的区别与优劣;理解并能利用程序计算结果计算上、下截断点,会利用上、下截断点判别一组数据中是否有截断点,会处理异常值。
    掌握多元数据的数字特征及相关性的判断,并会应用程序结果。
1.1 某小学60名11岁学生的身高(单位:cm)数据如下:
(1) 计算均值、方差、标准差、变异系数、偏度、峰度;
(2) 计算中位数、下和上四分位数、四分位极差、三均值;
(3) 作出直方图;
(4) 作出茎叶图;
(5) 进行正态W检验();
(6) 进行经验分布函数的检验。
126 149 143 141 127 123 137 132 135 134 146 142
135 141 150 137 144 137 134 139 148 144 142 137
147 138 140 132 149 131 139 142 138 145 147 137
135 142 151 146 129 120 143 145 142 136 147 128
142 132 138 139 147 128 139 146 139 131 138 149
1.2 1949-1980年全国历年人口(单位:亿人)如下:
(1) 计算均值、方差、标准差、变异系数、偏度、峰度;
(2) 计算中位数、下、上四分位数、四分位极差、三均值;
(3) 作出直方图;
(4) 作出茎叶图;
(5) 出异常值。
(6) 进行正态W检验();
(7) 进行经验分布函数的检验。
5.4167 5.5196 5.6300 5.7482 5.8796 6.0266
6.1465 6.2828 6.4653 6.5994 6.7207 6.6207
6.5859 6.7295 6.9172 7.0499 7.2538 7.4542
7.6368 7.8534 8.0671 8.2992 8.5229 8.7177
8.9211 9.0859 9.2420 9.3717 9.4974 9.6259
9.7542 9.8705 10.0072 10.1541 10.2495
10.3475 10.4532
1.3 1978年至1999年我国居民消费数据如表1.3所示
(1) 计算均值、方差、标准差、变异系数、偏度、峰度;
(2) 计算中位数、下、上四分位数、四分位极差、三均值;
(3) 作出直方图;
(4) 作出茎叶图;
(5) 出异常值。
1978  184  138  405
1979  207  158  434
1980  236  178  496
1981  262  199  562
1982  284  221  576
1983  311  246  603
1984  354  283  662
1985  437  347  802
1986  485  376  920
1987  550  417 1089
1988  693  508 1431
1989  762  553 1568
1990  803  571 1686
1991  896  621 1925
1992 1070  718 2356
1993 1331  855 3027
1994 1746 1118 3891
1995 2336 1434 4874
1996 2641 1768 5430
1997 2834 1876 5796
1998 2972 1895 6217
1999 3180 1973 6651
1.4 2002年11月以及1至11月全国各省、市、区财政预算收入数据如下:
(1) 计算均值、方差、标准差、变异系数、偏度、峰度;
(2) 计算中位数、下、上四分位数、四分位极差;
(3) 作出直方图;
(4) 作出经验分布函数图;
(5) X1和X2的观测值的pearson相关系数与spearman相关系数。
北京  35.22  499.80
天津  10.41  161.37
河北  17.22  273.29
山西  10.70  134.79
内蒙古 10.29  90.92
辽宁  18.66  348.99
吉林    4.41  106.89
黑龙江  6.24  196.44
上海  49.72  656.95
江苏  47.70  580.70
浙江  36.55  518.10
安徽  14.85  179.41
福建  19.46  250.16
江西  10.93  122.06
山东  40.26  552.74
河南  19.82  268.20
湖北  19.49  221.43
湖南  16.01  197.68
广东  99.32 1080.26
广西  14.77  160.60
海南    3.96  39.51
重庆  10.49  111.76
四川  21.71  250.09
贵州  13.06  95.87
云南  20.34  183.62
西藏    0.77    6.08
陜西  11.38  133.50
甘肃    3.66  64.86
青海    1.21  18.30
宁夏    2.31  23.81
新疆    3.24  103.81
1.5 对某民族的21人测量其血液4种成分的含量,观测数据如下:
求总体均值向量及总体协方差矩阵的估计。
18.8 28.1 5.1 35.1
17.4 25.6 4.9 33.9
16.0 27.4 5.0 32.2
19.3 29.5 1.7 29.1
如何做数据分析
17.4 27.4 4.5 35.6
15.3 25.3 3.6 32.2
16.7 25.8 4.4 33.0
17.4 26.7 4.4 33.0
16.2 25.7 2.3 33.9
16.7 26.7 6.4 35.0
18.2 28.0 3.2 29.7
16.7 26.7 2.1 34.9
18.1 26.7 4.3 31.5
16.7 26.0 3.0 32.7
18.1 30.2 7.0 34.9
20.2 30.5 4.8 34.4
20.2 29.5 5.5 36.2
21.5 31.5 5.8 36.5
18.8 30.6 5.4 35.4
21.6 27.8 5.4 34.1
21.3 29.5 5.8 35.8
1.7 一组人体的胸部、腹部、手臂部分皮肤的有关数据如下:
(1) 计算观测数据均值向量和中位数向量;
(2) 计算观测数据的pearson相关矩阵,spearman相关矩阵及各元素对应的检验值,并做相关性的显著性检验。
9.0 12.0 3.0
8.5 15.0 3.0
13.0 19.0 3.0
10.0 7.0 4.0
7.0 13.0 2.5
15.5 28.5 5.0
22.5 20.0 4.5
5.5 8.5 3.0
25.0 35.0 6.5
15.0 19.0 4.0
12.5 20.0 3.0
17.0 19.5 5.0
16.0 17.5 6.0
20.0 20.0 7.5
12.0 17.0 4.0
22.0 20.0 6.0
17.0 28.0 5.5
16.0 18.0 3.0
21.0 27.5 6.0
13.0 14.0 4.0
21.0 13.0 9.0
21.0  6.0 3.5
13.5  6.5 3.5
5.0  7.5 3.5
16.0 20.0 5.5
14.5 14.5 4.0
10.0 23.0 6.0
11.0 13.0 6.0
10.5 12.0 3.5
15.0 15.5 3.0
9.0 12.5 5.0
23.0 24.0 6.5
14.0 21.0 6.5
16.0 11.0 3.0
16.5 17.0 4.0
16.0 15.0 3.0
12.0 15.5 3.5
9.0  4.0 2.0
12.0  6.0 5.0
5.0 14.0 3.0
17.0 15.0 4.5
16.0 11.0 3.0
17.5 18.0 3.0
11.5 15.0 3.0
4.0  3.0 2.0
17.5 15.0 4.5
9.5 11.5 2.5
26.0 38.0 4.0
15.0 13.0 4.5
19.0 12.0 3.0
第二章 线性回归分析
(一)目的与要求:
掌握建立多元回归方程的方法,并能检验所建立回归方程的显著性与方程系数的显著性,能根据实际问题作预测与控制。
(二)重点与难点:
    会对实际数据建立有效的多元回归模型,能对回归模型作残差分析;掌握SAS输出结果中
用于判别回归方程优良性的不同统计量;能对回归模型进行运用,对实际问题进行预测或控制。
2.4 某公司管理人员为了了解某化妆品在一个城市的月销售量Y(单位:箱)与该城市中适合使用该化妆品的人数X1(单位:千人)以及他们人均月收入X2(单位:元)之间的关系,在某个月中对15个城市作了调查,得到的观测值如下:
(1) 求回归系数的最小二乘估计和误差方差的估计,写出回归方程并对回归系数作解释;
(2) 求出方差分析表,解释对线性回归关系显著性检验的结果,求复相关系数的平方的值并解释其意义;
(3) 分别求的置信度为95%的置信区间;
(4) 对,分别检验人数X1及收入X2对销量Y的影响是否显著,利用与回归系数有关的一般假设方法检验X1和X2的交互作用(即X1X2)对Y的影响是否显著;
(5) 该公司欲在一个适宜使用该化妆品的人数X01=200,人均月收入X02=2500的新的城市中销售该化妆品,求其销量的预测值及其置信度为95%的置信区间;
(6) 求Y的拟合值,残差及学生化残差,根据对学生化残差,根据对学生化残差正态性的频率检验及正态QQ图检验说明模型误差项的正态性假定是否合理,有序学生化残差与相应标准正态分布的分位数的相关系数是多少?作出各种残差图,分析模型有关假定的合理性。

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。