大学英语四_六级考试分数解释_杨惠中--慧智精品网

大学英语四、六级考试分数解释

◆杨惠中　金　艳

在我心里从此有个你

提要：本文作者从考试的效度和信度出发，论证了设计一项有效考试必须首先定义所要测量的语言能力结构。由于考试结果通常用分数来表达，因此作为科学的考试其分数必须具有可解释性，分数解释又涉及记分体制。为了使分数带有大量信息，便于用户使用，大规模标准化考试在最终报道考试成绩前，分数要经过加权处理、等值处理、正态化转换等一系列转换过程。作者接着说明了大学英语四、六级考试的分数解释和分数使用。

关键词：分数可解释性；记分体制；大学英语四、六级考试；尺度相关-常模参照考试

A bstract:This paper starts from definin g the construct to be measured in the CET tests,predicted b y the necessit y of ensuring the reliabilit y and validity of a test.Since the test results are us ually reported in the form of test scores,they must be inter-pretable,which involves the use of a certain scorin g system.In large-scale standardized tests,the test scores,before release, have to undergo a series of transformation processes,includin g scoreweighting,score equating,and score normalization,etc., in order to provide as much feedback information as possible to the end users of the test.The authors then explain in d etail how the CET test scores are interpreted and used.

Key words:score interpretability;scorin g systems;the CE T tests;criterion-related norm-referenced tests

中图分类号:H310.42　文献标识码:C　文章编号:1004-5112(2001)01-0062-07

1.效度、信度与考试成绩报道

1.1定义所测量的语言能力结构

语言测试的任务是对考生的语言能力进行客观的、准确的、公正的评价。由于语言能力是一种心理量，要做到这一点显然不是一项简单的任务。

要测量语言能力首先要定义所测量的语言能力结构(the constr uct to be measured)，这涉及一项语言测试的效度。效度回答的是“一项语言测试考的是什么语言能力?”的问题，不同的语言观和语言能力学说决定了语言测试的内容不同，测试方法也不同。可以说语言测试是一定的语言观的具体实施与操作(operationalization)。

语言测试的历史并不长，但已经经历了前科学时期、心理测量—结构主义时期、总体综合法时期和心理语言学—社会语言学时期，这一发展历程是和语言学的发展同步的。在当前国际语言测试界，得到广泛接受的是Bachman教授等所提出的交际语言能力学说。他认为语言交际能力“包括两个部分：语

言能力(language competence)，或称语言知识，和元认知策略(meta-c ognitive strategies)”(Bachman1996∶67)。他说:“语言知识可以看作记忆中的一个信息域，在语言使用中产出或解释话语时供元认知策略调用。语言知识包括两大类：结构组织知识(or ganizational knowledge)和语用知识。”“语用知识使我们能够把说出的话、句子、篇章与意义关连起来，与用户的交际意图关连起来，与相关的语言情景关连起来，从而产出或理解话语。语用知识有两个方面：语言功能知识和社会语言知识。”(同上,1996∶69)Bachman指出:“语言使用者在产出和理解话语时把所有这些方面

·62·

的能力综合起来，使话语适合一定的情景，正是这种能力使语言的使用成为可能。”(同上1996∶70)

Bachman等的交际语言能力学说提出于90年代初，到90年代中成熟。

我国的大学英语四、六级考试于1987年起步。其目的是推动《大学英语教学大纲》的贯彻执行，并考核修完大学英语四、六级课程的学生的英语语言水平。

2012网游排行榜目前的大学英语四、六级考试语言能力结构模型中，分立语言测试、综合语言测试以及交际语言测试各占有一定的比例，反映出大学英语四、六级考试设计者对语言测试各家学派优点的吸收，也能窥见语言能力观变迁所留下的痕迹。“由于语言能力(即对语言知识的掌握)是交际能力的基础，因此不掌握

语言能力就谈不上发展语言交际能力。在语言测试方面，分析法可以更好地测试对语言知识的掌握程度，而综合法便于更好地测量语言运用能力，因此两者不应互相排斥，而应当互相补充。”(杨惠中,Weir1998∶60)在大学英语四、六级考试中一直包括有词汇语法知识部分、综合填充部分和文章改错部分，就是这一观点的具体表现。前者考查语言能力，使用分析法测试；后两者测量语言综合运用能力，使用的是综合法测试。在听力和阅读理解部分更是将二者融为一体。听力和阅读虽然只是单向的语言信息吸收，但也是一种语言交际活动，何况没有正确的输入，输出又从何谈起呢?

大学英语四、六级考试的“作文”(书面表达)和“英语口语考试”(CE T-SE T)，则是一种交互式的“交际语言能力”测试，前者测量的是书面交际能力(看材料，写文章)，后者则完全在一个真实的英语交际情景中发生，测量的是口头交际能力。

1.2语言测试是采样过程

在定义了所测量的语言能力以后，还有如何测量的问题，这涉及到语言测试的信度，也涉及语言测试的效度。语言能力本身无法直接观察，能够观察到的只是使用语言的行为，语言行为是语言能力的表现，因此语言测试是通过对语言行为的测量来推论受试的语言能力。另一方面，语言测试只可能在有限的时间内进行，不可能测试到受试的全部语言行为，从统计学的角度来说也没有这个必要，而只需要对受试的全部可能的语言行为进行有效抽样。有效样本必须满足三个条件，即样本要有代表性、样

本要有足够大的量、抽样要有随机性。满足了这些条件，有效样本可以反映总体的统计特征。这是语言测试的实质，对此李筱菊教授有非常精辟的论述(李筱菊1997∶39-43)。图1中A表示需要测量的交际语言能力，但是无法直接观察; B是凭这种能力所能做到全部语言行为。如果a是对交际语言能力A的有效抽样，又如果b是对全部可能的语言行为B的有效抽样，那么语言测试就是通过b来最终推论出受试的交际语言能力A

。

考试结果通常用成绩来进行报道(图1中的F)。如果分数是对被测量的语言行为抽样的正确表示，则可以通过分数来推论出受试的语言能力。

2.分数的可解释性

考试的最终结果是以分数的形式报道考生成绩，这就涉及分数的可解释性问题。如果分数任意性很大而且又不可解释，那么这样的考试就没有什么意义。

对于科学的考试来说，考试的分数必须满足以下条件:1)反映考试的效度;2)反映考

试的信度;3)反映测量的精度;4)分数具有可解释性;5)体现测量的公正性。

成绩报道要力求做到信息量大、标准可靠、清晰明白，还要公平公正。大规模考试往往有广泛的社会影响，一项考试在社会上的权重越大，则考试结果所产生的社会后果也越大，考试也就成为高风险考

试(high -stake tests )。确保考试的信度和效度，确保测量的精度和测量的公正性，使考试的分数不但可以解释而且可以准确地推论出受试的语言能力，这是语言测试工作者的社会责任。

为此，大规模标准化考试一般不采用原始分(即答对题数)来报道考生成绩，因为这样做分数的信息量太小，通常要进行一系列的分数转换过程，使最后报道的分数不但信息量大而且具有可解释性。

大学英语四、六级考试每次考试结束后到发布考试成绩之前，要经过一系列的统计处理，分为数据输入、数据处理、成绩计算及统计分析三部分，其流程如图2所示

。

其中数据输入后的数据处理包括三个部分:

1)客观题部分首先要作加权处理，加权

反映了语言测试设计者对语言能力不同部分的不同要求，反映了对不同教学目标的侧重。大学英语四、六级考试中阅读能力、听力、词汇语法等各个部分每答对一题的得分都是不同的。在经过加权处理后，还要对客观题部分用IRT (试题响应理论)模型作等值处理，以滤除不同考次间题目难易变化对得分的影响。尽管大学英语四、六级考试的全部题目在实际使用前都要经过“命题—审题—试题项目分析—复审—构卷”的漫长过程，在实考前整个试卷的难易度均已得到控制，但预测是在考生中抽样进行的，

与实考结果难免会有所差异，这些差异须要通过IRT 等值处理加以滤除，不能因题目难易而影响考生得分，这样做也保证了不同考次之间分数的可比性;

2)主观题部分，如作文，要通过调整以滤除阅卷员主观因素的影响。为了保证阅卷员的阅卷信度(包括阅卷员本人的评分一致性、阅卷员之间的评分一致性、阅卷点之间的评分一致性)，大学英语四、六级考试采取了一系列措施，包括制定明确的评分标准、确定评分参照卷(range -finders )、严格的阅前培训、阅卷过程随机抽查等等。在采取以上这些有效措施后依然存在的误差可以称为系统误差，大学英语四、六级考试开发了一套软件系统，根据考生在主、客观题上得分的相关性进行调整，以滤除系统误差。实践证明大学英语四、六级考试作文部分的阅卷信度相当高;

日本护肤品哪个牌子好

3)分数的正态化处理。大学英语四、六级考试是一种尺度相关—常模参照考试。它以一定的常模为参照，大学英语四、六级考试的记分体制采用正态分制。3.记分体制

十元箱包大规模标准化考试通常采用以下记分体制:

64·

图3

1)正态分制(normal score scale )

考生成绩有好有差，这是客观存在。一项科学的考试应当能够把考生成绩的差异表

现出来，按成绩好坏进行客观而准确的排序。对于大规模考试来说，考生的能力一般呈正态分布，这可以用均值和标准差来进行描述。正态分就是用考生在考生总体中的相对位置来表示考生成绩，也就是用均值和标准差来表示考生成绩。因此这是一种间接可解释的

记分体制，但分数的信息量大，且分数具有可比性。以TOEFL 记分体制为例，其报道分以500分为均值，以70分为标准差(如图3所示)。如果某考生得500分，则在全世界每年约84万考生中优于50%的考生；得570分，优于84.1%的考生；从另一方面讲，如果把攻读学位的英语要求定位于TOEFL 550分，则意味着只选拔全体考生中英语成绩最好的20%左右的考生。可见正态分制不但信息量大，而且十分便于用户使用。此外，由于对大规模的教育现象来说不可能出现考生成绩突变，因此通过等值处理不但可以使不同考次的分数具有可比性，而且可以使分数的解释具有稳定性，逐步地就使分数除了选拔性外也获得了间接的可解释性。

正态分制主要用于常模参照测试(norm -referenced tests )。

Band 9　Expert User .　Has fully operational command of the lan guage :appropriate ,accurate and fluent with complete un -derstanding .

Band 8　V ery G ood User .Has full y operational command of the language with only occasional uns ystematic inaccuracies

and inappropriacies .Misunderstandings may occur in unfamiliar situations .Handles complex detailed argumenta -tion well .

Band 7　G oo d User .Has operational command of the language ,though with occas ional inaccuracies ,inappropriacies and

misunderstandings in s ome situations .Generally handles complex language well and understands detailed reason -in g .

Band 6　Com petent Us er .Has generally effective command of the language despite some inaccuracies ,inappropriacies and

misunderstandings .Can use and understand fairly complex language ,particularly in familiar s ituations .

Band 5　M odest Us er .Has a partial command of the language ,coping with overall meaning in most situations ,though is

likely to make many mistakes .Should be able to handle basic communication in own field .

Band 4　Limited User .Basic competence is limited to familiar situations .Has freq uent problems in understand ing and ex -pression .Is not able to use complex language .

Band 3　Extremely Limited User .Conveys and understands only general meaning in very familiar situations .Frequent

breakdowns in communication occur .

Band 2　Intermittent Us er .No real communication is possible except for the most basic information using isolated words or

short formulae in familiar situations and to meet immediate needs .Has great difficulty understanding spoken and written Englis h .

Band 1　Non Us er .Essentially has no ability to use the language beyond possibly a few isolated words .Band 0　Did not attemp t the test .No assessable information .

表1

65·

2)等级分制(graded score scale)

也可以把语言能力分为若干等级，每个等级用明确的描述语加以规定，考生达到何种能力等级就报道某个相应的等级分。这是一种直接可解释的记分体制。上页的表1为英国IELTS考试所采用的能力等级量表。语言能力等级通常结合语言功能进行定性的描述，达到何种等级就表示能运用语言完成何种语言功能；当然也可以从词汇量、语速、阅读速度、结构复杂程度等方面再补充进行定量的描述。如果能够确保评分的信度，那么等级分制也具有可比性。

等级分制主要用于尺度参照测试(crite-rion-refer enced tests)。

4.大学英语四、六级考试记分体制

大学英语四、六级考试的性质和目的，决定大学英语四、六级考试是一种尺度相关—常模参照考试(criterion-related norm-referenced test)，其记分体制采用以百分制为形式的正态分制。

所谓常模参照考试是指以某一常模作为参照系来反映考生成绩的考试，首先要按照某一参照性体建立常模，通常用均值和标准差来表示；某一考生的成绩是通过他的成绩在常模体中与其他考生成绩比较的相对位置来表示的。上面已经说过常模参照考试所表示的分数是相对的，只有保持常模的稳定性才能保证分数解释的稳定性。尺度参照考试则要参照一定的尺度对学生进行考核。学生的成绩不是通过与其他考生的比较，而是通过与某种特定的尺度进行比较而得到解释的，学生的成绩必须达到某一尺度方能及格。这种特定尺度的选择或制定是尺度参照考试的关键。但不论哪一种性质的考试，分

数的解释必须与某个参照系作比较，才能表示出分数所代表的意义。

《大学英语教学大纲》中对四级和六级的教学要求、教学内容和教学目标都有明确的规定。大学英语四、六级考试参照《教学大纲》所规定的教学要求。在实施过程中，关键的问题是如何确定一个区分点，将考生区分为达标者(及格)和未达标者(不及格)。众所周知，掌握某种知识和能力的程度是一个连续体，从极其生疏到完全熟练，一名特定学生的学业水平应落在这个连续体的某一点上，可用他在某种测试中的表现来表示。因此判断学生是否及格的标准可以界定在这个连续体的某一点上，至于这种区分是否有效，则取决于测验的内容是否有效，也取决于所确定的标准是否有效。在实际操作中，一种做法是首先确定测试内容，定出及格水平，然后以此为尺度去度量其他考生。采用这种做法时，设计考试的人必须充分了解什么是最低可接受的及格水平。另一种做法是首先建立某个常模，在这个常模中界定一个可接受的通过率，以此作为及格的尺度进行操作并在每次考试中通过等值处理保持这个及格线的稳定性。

大学英语四、六级考试正是结合以上两种做法来确定自己的操作标准的。

由以上分析可见，大学英语四、六级考试是一种尺度相关—常模参照考试。即它以一定的常模为参照，但这一常模的建立和某种事先确定的标准密切相关。大学英语四、六级考试的记分体制是以传统的百分制为形式的正态分制。这一性质使大学英语四、六级考试报道分的解释成为可能。

为了适应我国改革开放的需要，经教育部批准，大学英语四、六级考试已开始施行口语考试，大学英语四、六级考试口语考试的成绩报道采用等级分制。

5.大学英语四、六级考试的分数解释及使用

作为一种尺度相关—常模参照考试，大学英语四、六级考试采用正态分制报道考生成绩，均值为72分，标准差为12分；为了适应我国传统，以百分制为形式,60分为及格, 85分为优秀。

四级考试(CET-4)的报道分数有两方面

·66·

的含义:1)判断考生是否达到了《大学英语教学大纲》所规定的四级教学要求;2)表示考生在标准样组即常模中的位置，常模由中国六

所重点大学(北京大学、清华大学、上海交通大学、复旦大学、中国科技大学、西安交通大学)的近万名本科生组成，其分布如图4所示

。

图4

商帮

大学英语六级考试报道分的常模也由上述六所重点大学的本科生组成。由于四、六级考试是性质相同的同一种考试的两个能力等级，六级考生必须首先通过四级考试才能参加考试，因此六级考生是四级考生中的一个子集。实验证明六级常模位于四级考生体的高端，因此四、六级考试的报道分又可以放在同一考生体中进行解释，其示意图如图5所示

。

图5

大学英语四、六级考试的分数每次都分别经过等值处理，报道分的分数含义保持不变，四、六级考试分数相对于上述六校中一个

学年的理论体，根据1999年实际考试结果，其对应百分位如表2所示。

CET -4报道分

培训协议

CET -6报道分

60分16%

62分20%66分30%69分40%72分50%75分

60%60分65%64分78分70%68分78%72分

82分80%85分86%76分87分90%80分93分96%85分99分99%90分100分

100%100分

表2

这一记分体制为用户选拔人才提供了方

便，下面以三个例子进行说明:

例1：某考生四级85分，则相当于在上述六所重点院校中优于86%的学生例2：某考生六级85分，则相当于在上述六所重点院校中优于96%的学生

例3：在选拔人才时，若要挑选相当于在上述六所重点院校中英语四级成绩最优秀的10%的学生，则可以定为四级87分；要选拔英语六级成绩最优秀的10%的学生，则可以定为六级80分。

由于大学英语四、六级考试测量的科学性，目前有些大学已开始采用大学英语四、六考试考试成绩作为录取大陆地区学生申请硕士、博士学位的英语成绩证明。考虑到不同专业对英语听、说、读、写能力可能有不同要求，因此大学英语四级考试也可以根据用户要求报道考生的单项成绩，单项成绩

分为听力理解、阅读理解和写作三个部分，前两个部分的单项成绩也用正态分报道，以500分为均值、以70分为标准差，单项成绩分数反映的也是考生在四级常模中的对应位置，如表3所示。

67·

慧智精品网

大学英语四_六级考试分数解释_杨惠中

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

慧智精品网

大学英语四_六级考试分数解释_杨惠中

发表评论

推荐文章

【中国历史十五讲】读书说明与指导(吴树国)

中药泡脚的历史典故

关于司马迁的历史评价

3-真题专练-沈阳历史中考中国古代史-材料解析题

历史上对陶渊明的评价

热门文章

史记素材作文(实用)

汉代文学和经学的关系

汉代散文知识点总结

中国历史的六条脉络

简述汉代丝绸之路开辟的历史意义

汉代城址与墓区的择地规律

少年读史记 汉帝国风云录概括300字

汉代文学在中国文学史中的地位与影响

汉试制度与科举制度的关系

汉代生产方式

汉代的思想大一知识点

汉代的科技成就与文化启示

马王堆汉墓的文化内涵与社会背景从文物解读历史

汉代社会的缩影

汉代经由古丝路上的文化交流与影响

汉书的内容

2022国开中国近代史纲要大作业

汉代经学知识点总结图解

秦汉时期的历史观与历史记载方式

汉代的文化成就

最新文章

中药泡脚的历史典故

关于司马迁的历史评价

“亲亲相隐”现象及容隐制度在中国历史中的演进

人教版 七年级中国历史新增文物

国子监历史及简介

列举汉代碑刻隶书10种

标签列表

少年读史记汉帝国风云录概括300字

人教版七年级中国历史新增文物