口语测评在大规模高利害考试中的实践——以上海高考英语听说测试为例
2021年第1期外语测试与教学
Jan2021
Foreign Language Testing and Teaching
[中图分类号]H319  [文献标识码]A  [文章编号]2095-1167(2021)01-0021-07口语测评在大规模高利害考试中的实践
以上海高考英语听说测试为例
徐 雯
提要:口头表达,即 说”,是语言技能中不可分割的一部分,对语言能力的测评也应当包括对这一技能的测评㊂长久以来,如高考这样的高利害考试并未将口语测评直接纳入其中㊂随着技术的进步和新时代的要求,上海新一轮高考改革将口语测评通过听说测试板块纳入高考㊂本文以上海高考英语听说测试为例,从考查目标㊁考试结构㊁命题㊁阅卷及技术保障等方面具体阐述在高考中实施口语测评的实践,分析口语测评带来的正面影响及相应的问题,并展望未来高考口语测评进一步改进的方法㊂
关键词:上海高考英语;口语测评;听说测试
Abstract:Speaking is an indispensable element of language ability,which means speaking assessment should be included in a test intended to test examinees’language ability.However,speaking assessment has long been absent in Gaokao,a high⁃stake test.Fortunately,with the development of technology and the demand of the new era,speaking assessment has been integrated into Shanghai English Gaokao in the name of Listening and Speaking Test in the new round of Gaokao reform.By taking Shanghai English Gaokao Listening and Speaking Test as an example,this paper illustrates how speaking assessment is used in high⁃stake tests like Gaokao in terms of construct,test structure,item writing,rating and technical support.Besides,this paper also analyses the positive impacts that speaking assessment has brought about as well as some problems,and foresees the new direction of speaking assessment in Shanghai English Gaokao.
Key words:Shanghai English Gaokao;speaking assessment;Listening and Speaking Test
1.引言
口头表达,即 说”的能力,是语言技能中不可或缺的一部分,对于语言能力的测评也应当包含对 说”这一技能的考查㊂遗憾的是,长久以来,口语测评一直缺席大多数考试,在如高考之类的大规模高利害
考试中更为鲜见㊂随着时代的发展和要求,上海高考英语借助科技的发展成果,在新一轮高考改革中将口语测评纳入高考外语科目,设立上海高考英语听说测试,实现了高考这一大规模高利害教育考试中口语测评零的突破㊂
2.听说测试纳入上海高考英语的时机
上海1985年开始自主高考命题;90年代中期开始实施人人对话的英语口试,即面试型口试,但考试成绩仅作为部分专业录取的参考依据;2000年开始实施计算机辅助的英语口试(徐欣幸2005),即人机对话型口试,虽然考生人数较之前有很大增长,但考试成绩依然未纳入总分,仍然只是录取的参考依据(郑方贤,徐雯2019);直到2017年,借助新一轮高考改革的良机,听说测试成绩以10分计入高考英语150分总分,口语测评才正式成为高考的一部分㊂
安欣和孟钰在一起了吗
多年来,大规模高利害考试未将口语测评包括在内有其在可实施性和公平性方面的考虑㊂
外语测试与教学 2021年第1期
一方面,口语测评需要人力㊁物力的支持㊂面试型口试之所以很难在大规模考试中实施,正是因为受到人力㊁场地的限制,无法在短时间内让所有考生完成测试㊂科技发展使得人机对话型口试成为可能,也在一定程度上解决了面试型口试实施受限的问题,但所有考点必须配备符合系统要求的电脑㊁
耳机等设备,在经济上是一个不小的负担㊂而电脑等设备还存在出现故障的可能,需要有充分的预案来应对,否则会大大影响考试结果的公平性,这些都限制了口语测评在大规模高利害考试中的实施㊂另一方面,正是由于设备的限制,无论是面试型口试还是人机对话型口试,都无法同时向全体考生施考,必须分批完成㊂为保证考试的公平性,每次考试往往采用多套题确保批次在后的考生不会从批次在前的考生那里获得考试相关信息,这带来了另一个问题,即不同套试题之间是否有差异,是否存在可比性㊂这些公平性问题也导致了大规模高利害考试迟迟不实施口语测评㊂
鉴于高利害考试对教学的反拨作用,如果仅仅因为上述技术性问题就不在高考中实施口语测评,对高中阶段教学必然产生负面反拨作用,极有可能导致学校部分或完全忽略口语教学,甚至造成学了多年英语仍无法开口的 哑巴英语”的现象,这无疑不利于学生英语能力的发展㊂随着改革开放的深入,人们越来越意识到学好英语对于国家㊁社会㊁个人发展均有重要意义(郑方贤,徐雯2019),而能够用英语讲好中国故事,让世界了解中国也成为时代的要求,要实现这一目标,培养当代公民的英语口语能力也是必要条件之一㊂因此,在尽可能确保可实施性和公平性的基础上,将口语测评方式纳入高考是比较行之有效的做法㊂
国务院(2014)发布的‘国务院关于深化考试招生制度改革的实施意见“及之后上海市政府(2014)发布的‘上海市深化高等学校考试招生综合改革实施方案“标志着上海作为高考新一轮改革试点省市之一正式进入改革的轨道,上海高考改革明确提出将听说测试成绩计入高考总分㊂借着改革的春风,上海设
立了200多个标准化考场,统一配备电脑㊁耳机等考试设备,解决了硬件的问题㊂在实行多年人机对话型高考口试经验的基础上,上海教育考试院进一步优化了命题组卷的方式,从一定程度上解决了不同套试题可比性的问题,而科技的发展使得人工智能参与考试阅卷成为可能,大大减轻了阅卷的压力㊂所有这一切都使得上海将听说测试正式纳入高考英语水到渠成㊂
3.上海高考英语听说测试的考查目标及试卷结构
3.1考查目标的确立
Bachman&Palmer(2010)提出了 target language use(TLU)domain”这一概念,即目标语言使用领域,认为测试所考查的语言能力与考生实际语言运用的场景越一致,通过该测试对考生语言能力的推断就越准确,有助于提高考试的效度㊂在设计上海高考英语听说测试时,我们运用这一理念,依据高校人才选拔要求和国家课程标准(教育部考试中心2019),确定了上海高考英语听说测试考查的能力目标及考查这些能力的具体任务形式㊂2014年进行新一轮高考改革考试方案设计时,上海高中阶段实施的课程标准为‘上海市中小学英语课程标准(征求意见稿)“(以下简称 上海课程标准”),上海高考英语也以这一标准为依据㊂从高校人才选拔要求角度看,考生通过高考进入高校后,用英语进行交流的场景可能包括与英语国家专家就某一话题进行讨论,或在听一段英语讲座后根据讲座内容回答问题或进行讨论㊂这些场景需要考生具备听说综合能力㊂ 上海课程标准”指出,学生学习英语的主要目的是能在学习和
生活中使用英语进行交流,而学生在生活中使用英语的场景可能包括向他人询问信息㊁回答信息㊁叙述或描写一个场景或表达观点等,高中毕业生需要能具备用英语实现
一定交际目的的能力(上海市教育委员会2004)㊂
基于上述考量,上海高考英语听说测试考查的能力目标最终确定为:
1)能运用所学的语音知识和朗读技能,用正确的语音和语调朗读句子和文章;
2)能运用所学的语言意念㊁功能,根据情景要求进行询问以获得所需的信息;
3)能对人物或事件进行口头描述㊁解释或评述;
4)能听懂日常会话用语,并对此做出应答;
5)能根据所听材料内容回答问题,并表达个人的观点㊁感受或作出评论㊂
3.2试卷结构
对应上述考查目标,试卷结构确定为两大部分六小项,如表1所示㊂
表1 上海高考英语听说测试试卷结构
大题结构题量计分考查的能力目标
说朗读句子2题1分1朗读短文1题1分1情景提问2题2分2看图说话1题  1.5分3
听说
快速应答4题2分4听短文回答问题2题  2.5分5
合计12题10分
3.3考试设计的解释
根据能力目标及试卷结构,可以发现:1)虽然所有的口头表达都需要考生掌握相应的语音知识,上海高考英语听说测试依然通过单独的朗读任务直接考查语音知识,但其他与 说”相关的语言知识,如功能㊁意念等,则通过具体的交际任务间接考查㊂这主要是因为,在通过听课㊁访谈等方法了解高中英语教学的过程中,我们发现教师普遍认为正确掌握语音知识非常重要,但是学生却往往不愿意开口读最基本的单词或课文,从而影响了他们在实际交际中的表现㊂因此我们希望借助考试的反拨作用,倒逼学生从基础开始提高自己的口头表达能力㊂2)上海高考英语听说测试既考查了单维的口头表达能力,也考查了多维的听说综合能力㊂这主要是根据实际使用场景的多样性决定的㊂考生既有可能不需要与他人交流,只需要表达自己的观点,如做一个课堂展示等;也有可能需要在听懂他人言语的基础上做
出回应,如与外籍人士日常交谈等㊂因此,本着真实性原则,考试兼顾了这两种情况㊂3)由于目前的技术还达不到完全模仿人与人之间交流水平的人机互动,上海高考英语听说测试不得不将口头交际中的问和答用两项任务分别考查,即情景提问和快速应答㊂
回锅肉怎么做
4.上海高考英语听说测试试卷的命制
如上文所言,为确保考试的公平性,听说测试会采用多套卷,确保已考和未考的考生之间无法传递信息,但这也就意味着必须要解决不同套试卷之间的可比性㊂业内对这一问题已有很成熟的解决方法㊂如通过前测收集数据,利用IRT模型将每一道试题映射到同一张量表上,组卷时根据既定的考试蓝图从试题库中选择试题,组成一份符合预期的试卷;也可以在考试结束后,将所有考生分数进行等值处理,报告一个经过处理的量表分㊂遗憾的是,出于保密要求,高考无法通过前测收集数据;而高考必须向考生报告卷面原始分而不能使用量表分,因此,这口语测评在大规模高利害考试中的实践  以上海高考英语听说测试为例
外语测试与教学 2021年第1期
两种方法都无法用于上海高考英语听说测试㊂这意味着,要解决不同套试卷之间可比性的问题,只能在命题阶段尽可能地实现多套试题之间的一致性㊂为此,我们采取了以下措施:
财神爷生日是哪一天1.针对每一题块制定了详细的命题细则㊂以朗读句子为例,其命题细则包括:1)句子的词数;2)句子中单词的平均字母数;3)句子的平均音节数;4)符合发音规则的生词出现的位置㊂详细的命题细则确保了同一题块中的试题在这些方面基本一致,组卷时不同试卷该题块的试题就具有了一定的可比性㊂
2.命题专家按照题块分组进行命题,每位专家只负责 说”与 听说”两个题块中的一个,这样的命题方式有助于命题专家更娴熟和精准地把握命题细则,也能够更好地在同一题块中命制出基本一致的试题㊂
3.设置一些量化参数供组卷使用㊂由于无法通过前测获取试题难度㊁区分度等定量属性,我们尝试将试题的一些定性属性量化,如请专家组对上海课程标准中列出的话题按照学生的熟悉度进行打分(1 5分别代表 最不熟悉”到 最熟悉”)㊂
通过以上方法在一定程度上实现了多套卷的可比性㊂以2020年7月考试为例,当次考试共启用了10套试卷,其中正式卷6套,卷号为1㊁2㊁3㊁4㊁7㊁8,每套施考于8000名左右考生,4套备用卷(卷号为5㊁6㊁9㊁10)每套施考人数均不到100㊂6套正式卷的得分与英语科目总分的相关系数均在0.8左右(如表2所示),说明在任何一套听说测试卷中,总分高的考生在听说测试中也相应得到了高分,也说明多套听说测试试卷在一定程度上实现了可比较的目标㊂
表2 上海高考英语(2020年7月)听说测试成绩均分及与总分的相关系数
听说测试卷号与总分的相关系数
10.79
20.79
30.82
40.80
70.85
80.83
5.上海高考英语听说测试阅卷
5.1上海高考英语听说测试的评分标准
制衣厂厂规评分标准是实现考试效度的重要保障之一,只有与考查目标高度匹配的评分标准才能确保考生得分的确反映了试题考查的能力目标㊂因为每一题块的分值不高,故上海高考英语听说测试各部分均采用整体评分法,评分的维度如表3所示㊂
工商银行积分兑换表3 上海高考英语听说测试各部分评分维度
部分评分维度
怎么查中考成绩2020朗读(句子及短文)发音㊁朗读技能(流利㊁语音语调㊁重读㊁停顿等)
情景提问与情景的适切度㊁语言的准确性
看图说话与图片的吻合度㊁表述的连贯性㊁语言的精确性
快速应答与提问的适切度㊁功能意念的准确性
听短文回答问题1内容的准确性㊁语言的精确性
听短文回答问题2内容的适切度㊁表述的连贯性㊁语言的精确性
5.2上海高考英语听说测试的阅卷流程上海高考英语听说测试的阅卷采用人工和智能阅卷相结合的方式,阅卷流程如图1所示㊂首先,由人工阅卷员对每一套试题中所选取的样本完成正常的两评,阅卷结果供智能阅卷系统学习,这一过程称为定标㊂在设定具体的评分标准并提供尽可能多的参考答案后,智能阅卷系统再次充分学习定标结果,并完成另一部分样本的试阅㊂结果由专家进一步论证,确保智能阅卷系统学习效果良好,并能够很好地运用这一学习结果㊂完成以上两个步骤后,由人工阅卷员和智能阅卷系统分别完成每一位考生作答的一评和二评,如两评误差在设定的阈值范围内,则直接取均分;如超过阈值范围,则由仲裁(人工)对这份作答重新打分㊂
总体而言,智能阅卷系统工作状态稳定,内部一致性强,但灵活度不够,因此一旦碰到学习过程中未学到的作答评分可能就会出现问题㊂人工阅卷员灵活度强,但不够稳定,评分可能会受到时间㊁情绪㊁疲劳度的影响㊂因此,人工阅卷与智能阅卷系统的合作可以取长补短㊂但需要说明的是,智能阅卷系统是否能评出合理的分数完全取决于其前期学习是否到位㊂上海高考英语听说测试在启用智能阅卷系统前做了大量的准备工作㊂一方面,我们将多年的考生音频文件供系统学习,让系统能够具备充分识别考生英语发音的能力,提高其语音识别的准确性;另一方面,我们利用2014 2016年三年学业水平考试听说测试的考生作答数据来训练系统,使得其算法能适应目前的考试㊂这些都是阅卷前期的准备工作㊂在每一次考试中,我们尽可能细致地设定参考答案及评分标准,重视定标及专家论证环节,这些环节都是确保智能阅卷系统得以良好运行的重要前提(吕鸣
2015)㊂
图1摇上海高考英语听说测试阅卷流程
口语测评在大规模高利害考试中的实践  以上海高考英语听说测试为例

版权声明:本站内容均来自互联网,仅供演示用,请勿用于商业和其他非法用途。如果侵犯了您的权益请与我们联系QQ:729038198,我们将在24小时内删除。