基于GM(1,1)试卷难度系数修正模型的学生成绩预测
第35卷第2期 2018年 4月
贵州大学学报(自然科学版)
Journal of Guizhou University! Natural Sciences)
Vol.35 No.2
Apr.2018
文章编号1000-5269 ( 2018 #02-0030-06 D O I : 10.15958/jki.gdxbzrl〇.2018.02.07基于GM(1,1)试卷难度系数修正模型的
学生成绩预测
吴楠1,胡尧李小林2!王丹1,胡娟2!李玉凯\舒丹\陈青凤3
(1.贵州大学数学与统计学院,贵州贵阳550025 %2.贵阳市花溪区第一中学,贵州贵阳550025%
3.贵阳市花溪金竹民族学校,贵州贵阳550025)
摘要:学生成绩是教学评估的一项重要衡量指标,考虑学生考试成绩特点提出了 一种基于试卷 难度系数变化的GM(1,1&修正模型,并运用此模型对花溪一中考试成绩进行预测,实践证明该 修正模型能减少误差,提升预测精度。
关键词:成绩预测;发展灰数;后验差检验;小误差概率;难度系数
中图分类号:0212 文献标识码:A
随着科技数据信息的发展,探索新的教学方法、前瞻性数据化建设校园是校方义不容辞的责任。合理运用信息技术能有效地解决教学中许多问题。目前中小学对数据的应用多限于成绩查询和一些常规统计,如平均分、及格率、最高分等。这 些描述性统计分析只是某一次考试当前情况的体现,无法挖掘数据中存在的关系和规则,无法根据现有的各项数据预测学生成绩以及学生今后发展趋势。本文通过与中学老师的沟通,了解中学考试 成绩展现特性,结合当前考试形式,对学生成绩进行整理分析,通过搭建数学模型,实现对学生最终中考成绩进行预测分析,并选取贵州省贵阳市花溪 区第一中学(简称花溪一中)考试成绩进行分析,验证模型有效性。
1数据预处理
数据来源于花溪一中2017届学生初中各次考 试成绩(以下简称学生成绩)。考虑中考科目为:数学、
语文、英语、理综(物理、化学),故选取花溪一中2017届学生8年级至9年级数学、语文、英 语、物理、化学成绩进行整理,统计共634名学生的 成绩。为方便数据读取和分析,引人一些符号标记 对原始各次考试进行重新标记,例如:“数学分数81”表示“八年级上学期期末考试成绩”,“数学分 数911”表示“九年级上学期第一次月考数学成绩”,其他类似。表1展现了整理后的数学成绩的部分数据。
表1数学成绩部分数据展示
序号姓名号数学分数81数学分数82数学分数911数学分数912区考数学适应考数学1张某珊561150150132142121139 2何某宇560133.5145.5112103126118 3陈某昀751142.5117136124135141 4张某伟558123126878483115 5彭某飞64610270.552456895 6袁某璐26315012910198121123
634罗某语1347139.5145.5134119132124
收稿日期=2017-09-08
基金项目:国家自然科学基金项目资助(11661018,11361015)%全国统计科学研究项目资助(2014LZ46)%贵州省自然科学基金项目资助(黔 科合J字[2014]2058号)%贵州省科技计划项目资助(黔科合平台人才[2017]5788号)%贵州大学2017年研究生创新基金项目资 助(研理工2017067)
作者简介:吴楠(1992-),女,在读硕士,研究方向:应用统计,Email:
!通讯作者:胡売,Email: yhul@gzu.edu.
第2期吴楠等:基于GM(1#1)试卷难度系数修正模型的学生成绩预测-31 -
1.1缺失值情况分析
数据 分布情况与分析结果息息相关,图1是数学考试成绩的 数据情况。,为,深 整数据,图(a)体现各次考试的缺数据量,图(T)展 数据在整个数据中的位置。数学成绩总数据为634x16的数据框,其中616 名的成绩数据完整有效,仅1,学的数学成绩有。21 ,占总数据量10144的0.21%,率小于10%,指标的信息完整度均在理论范围内⑴。
数学分数911
适应考数学
数学分数821
数学分数912
区考数学
政学分数82
敗学分数811
数学分数812
姓名
考号
数学分数81
(3)缺失数据直方图1616    3    2    2    2    2    2 1
(b)缺失数据分布
1  1 1
图1数学成绩缺失数据总体情况
同样的方法,可得出各科成绩数据缺失情况如
表2 ,数据 率均小于10%,故 影响
分。
表2各科成绩数据缺失情况表
科目
数据
缺失
数据
缺失值
缺失值
比例/%
数学1014461618210.21
语文
1014462410100.10英语
10144625990.09
物理10144630440.04
化学
10144631330.03
1.2 值补齐
结合花溪一中实际考试成绩情况,对学生考试 成绩进行填补,同一 数据较多的予以剔除,最终建立634 成绩。于后期建模分析,学 年级上下学期期末考试成绩、九年级全部数据及花溪区区考成绩和贵应试 终分析的数据,分予以补齐。常用的 补齐方 均值补 、中位数补、众数补 等,学成绩情况,采均 补 。2灰预测模型概述
2.1灰预测模型
灰 既含有已知信息又含有不确定信息的 进行预则,即一定范围内变化的、与关的灰 进行 。灰 通过鉴
展趋势的 ,并对原始数据进行生成处理 的规律,生成
强规律性的数据,然建应的微分方程模型,从而 事物未 展趋势的状况[2]。
充分使用数据的 ,建立GM(1,1)模,分 各科成绩进行 。
2.2灰预测G M(1,1)模型
GM(1,1)反映了一 的一阶微分
函数,应的微分方
式中$ /(1)为经过一次累加生成的数列;《为时 间;L,&待估参数,分 展灰数和内生控制灰数[3]。建模步骤如下:
(1)建一次累加生成数列。设原始数列为
/(〇)% */(〇)⑴,/(〇)(2),/(〇)(3),…,/(〇)(〇)+,.% 1,2,,,°,
按下述方法做一次累加,得到生成数列(
〇为样本
-32 -贵州大学学报(自然科学版)第35卷空间)
/(1)(0= $/〇)(m),. = 1,2,...,o。
m=+
(2)利用最小二乘法求参数l、&。设
,二
2[/⑴⑴■+ /(1)(2)]1
务[/⑴⑵■+/⑴⑶]1 --1[/(1)(O_1)+ /+"(〇)] 1
2 % [/0)(2),/0)(3),…,/0)(o)]T,
(5)如果检验合格,则用如下模型
/(〇)(O+ 1 )%/(1)(O+ 1)_/(1)(o),/(o)(o+ 2)
%/(1)(o + 2) ■_/(1)(O + 1),....
3预测精度等级划分表
小误差概率P值方差比C值预测精度等级>0.95<0.35好
>0.80<0.5合格
>0.70<0.65勉强合格
&0.07#0.65格
估计/°)(〇 + 1),/°)(〇 + 2),……,并进行预 测。
参数L、&的估计为L % % (,,)-1,、。
.U.
注:当求解出G M(1,1)的发展系数|l|#2时,GM (1,1)模型无意义。一般地,当M < 2时,G M(1# 1)模型有意义[-]。
(3)求出GM(1,1)的模型。
/穴.'1) = (/0)⑴-上):"+上,3学生成绩预测
3.1普通G M(1,1)模型建立与检验
对缺失值填补后,整理得到各科学生成绩表,结合GM(1,1)模型,分别对各科成绩进行建模。以数学单科考试张某珊成绩为例,则有原始序列为 /0) % */0)(1),/0)(2),…,/0)(6) +
% *150,150,132,142,121,139+,
由于
j/0)(1) %/⑴(1),. %1
{/0)(〇=/1)(.—(1)(.-1),. = 2,3,,,。。
(4)进行模型精度的检验。常用的检验的方法有残差检验、关联度检验和后验差检验,本文米 取后验差检验。
首先计算原始数列/0)(0的均方差1〇,其定义为
1〇='p—r A2% $ [,⑴_/〇)]2,
/。)=丄$/0)(o。
然后计算残差数列0。)(〇 = /0)(o_/0)(o 的均方差叉,其定义为
叉%/^—|A2=$[0o)(〇_0o)]2,
槡O _ 1
x(1)(.= $x(o)(m),. % 2,3,…,o,
m=1
/⑴ % */⑴(1),/⑴(2),…,/⑴(6) +
% *150,300,432,574,695,834(
_- 225r_150_
-3661132
B=-5031,2 %142
-634.51121
_- 764.51__139 _
t「1424641 - 24931
B T B = ,
-2493 5
,T,「5.50567 x10—60.0027451311
(B B)-1 =
0.002745131    1.568722138J
_ 336528
0(o)-$0(o)(〇
由此计算方差比H和小误差概率
p % * |0o)(〇_ 0(o)I< 0.6745 -S o|。则
(B t B)-1B>…
0.02485483
149.1926
故上 %6002.561,
a
最后根据预测精度等级划分表(表3),检验得 出模型的预测精度。得到G M(1,1)预测模型
/1)(. + 1) % _ 5852.561e0.02485483 + 6002.561。
第2期吴楠等:基于
GM ( 1 # 1)试卷难度系数修正模型的学生成绩预测
-
33 -
为检验模型精度,进行后验差检验:首先计算 原始数列的均方差I 。。
/。)=丄$/*"(. % +39,
O  .1
然后计算残差数列-/。"(0的 均方差1+。预测残差及相对误差见表4。
表4
GM( 1,1)预测结果及残差表
序列
原始值
预测值
残差
0(%)相对误差/%
1150150002150143.672  6.3280.0423132140.145-8.145-0.0624142136.704  5.2960.0375121133.348-12.348-0.1026139130.075
8.925
0.064
于是有 0(。" % 丄$0(。"(〇 % 0.009384113,
L  t %1
I 2% $ [0(。)(〇 _0(〇)]2,
i  % 1
I1
% 4.143045。
由此计算方差比h  =^ = 0.406259,小误差概率户=* |00)(〇 _0(0) | < 0.6475 - S q I 。
0(0)( 1) —_(0) |% 0.00938411 < 6.6032309, 0(0)(2) —_(0) |% 6.31908432 < 6.6032309,
( 0 )( 3 )-0(0)卜% 8.15399637> 6.6032309,(0)( 4)-0(0) |:% 5.28634238< 6.6032309,(0)( 5)-0(0)卜% 12.3577739> 6.6032309,(0)( 6)-0(0) |:% 8.91572776> 6.6032309。后验差检验c  = 0.406259 < 0.65,户=0.5,模型预测精度等级为勉强合格。
3.2基于4M ( 1 &1)试卷难度系数修正模型的实现
为提高模型预测精度,通常会选取残差修正模 型,但是在计算残差时,常常发现残差的波动较大, 根
据原始数据的特征会出现正负交替现象,即使用 残差模型修正,也不能很好地改善拟合效果。通过 实践发现,学生成绩数据与每次考试的试卷难度系 数息息相关,所以在修正模型的过程中,通常先用
G M (1,1)模型得到初始预测值/0)(.
;同时计算
该组预测值的残差0 (0)(.,取出残差的符号;接着 计算各次考试的难度系数W ,并将其与标准考试难 度系数进行比较(标准难度系数一般在0.7左 右[5]),根据比较差值,结合残差的符号(正号或负 号)得到相应的调整系数+;最后用初始预测值 /0)(.与调整系数+相加,得到模型修正后的预 测值/(1)(.。其中“试卷难度系数”反映试题的难 易程度,难度系数越大,题目得分率越高,难度也就 越小,其计算公式为
W  %
X
,。
式中:W 为难度系数,X 为样本平均得分,, 试卷 分。
仍旧以张某珊同学数学考试成绩为例,表5展 示了具体模型修正过程。
表5
修正模型各指标系数
序列
原始值 /
预测值严⑴
残差0W (〇
(仅取符号)
平均成绩
X
调整系数
修正 的
/⑴⑴
1150150一
1502150143.672h 98.5550.657  4.235147.9063132140.145-83.1390.554-12.469127.6754142136.704h 79.0410.52713.679150.3845121133.348-90.4180.603-8.789124.5596
139
130.075
h
98.692
0.658
4.150
134.225
注$“一”
表亦不存在。
-34 -贵州大学学报(自然科学版)第35卷
得到模型修正预测值后重新验证模型精度,进
行后验差检验,得到新的残差如表6所示。% 10.19804,
表6模型修正后预测值及残差表
原始值/0)(.修正后
序列预测值
/⑴⑴t残差
:(1)(0
相对误差/% 11501500(0( 2150147.906  2.0940.0139 3132127.675  4.3250.033 4142150 -■8-0.056 5121124.559  3.559-0.029 *******.225  4.7750.034
同上述方法,得到
16
0!1) = —$0⑴(〇 =- 0.000778728
6 .%1
S;
I#
2.693517,
I7
0.264121
p = 1|0(1)(0-
|0(1)(1)-0
(1)
|0(1)(2)-0
(1)
|0(1)(3)-0
(1)
|0(1)(4)-0
(1)
|0(1)(5)-0
(1)
|0(1)(6)0
(1)
后验差检验H=
0⑴< 0.6475 -S0+,
0.00077873 < 6.6032309,
2.09457873 < 6.6032309,
4.32567873 < 6.6032309,
7.99922127 > 6.6032309,
:3.55782127 < 6.6032309,
4.77577873 < 6.6032309。
0.264121 < 0.35, P = 0.833 预 测精度等级好,模型精度得到很大的提升。
浙江中考成绩查询网类似方法对花溪一中全体同学所有科目进行建模及模型检验,部分同学数学成绩的各项指标如 7。
表7修正后GM (1 & 1 #模型预测结果及后验比检验值
修正后
序号姓名号-L
123456检验值概率/%
1张某珊561-0.024*******.91128.03150.00124.56134.220.2683.33 2何某宇560-0.0363133.5134.04113.06107.03125.19116.400.3083.33 3陈某昀7510.0358142.5117.15137.94116.74126.39144.280.3983.33 4张某伟558-0.0304123109.3389.8285.2087.1297.180.4266.67 5彭某飞6460.118110255.3145.3651.0064.0086.070.24100.00 6张某杰8670.0644139.587.1276.2980.61109.36111.420.23100.00 7袁某璐2630.0075150116.91101.42100.71124.05120.280.25100.00
634罗某语13470.0008119.25116.88127.59116.95124.91119.910.22100.00
经计算,所有数据的发展系数L均小于1,故 均可使用4M(1,1)进行建模预测,通过残差符号结合难度系数得到各模型调整系数对模型进行修正,最终得到修正后的模型预测值,并进行新的后验比检验,结果除极少部分同学考试成绩波动特别 大导致模型预测效果欠佳,其余均显示模型预测通 过后验比检验和小误差概率检验,破果良好。3.3花溪一中学生中考成缋预测
综上可以用修正后的4M(1,1)模型分别对花 溪一中学生中考单科和总分成绩(预测总分加上50分体育成绩所得)进行预测。首先对总分进行预测。据了解,贵阳市今年中考难度系数在0.75, 以该难度系数为标准,对学生中考成绩预测,预测 如 8 (50 展 )

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。