艳1
伟2
张晓艺3
赵英华2
(1.上海交通大学,上海200240;2.教育部考试中心,北京100084;3.复旦大学,上海200433)
大学英语四级口语考试自动评分效度初探
收稿日期:2020-05-08修回日期:2020-05-17
基金项目:作者简介:国家教育考试科研规划2017年度课题“评分方法对英语口语能力考试构念效度的影响”(GJK2017013)
艳(1965—),女,上海交通大学外国语学院,教授;王
伟(1973—),男,教育部考试中心考务处处长;
张晓艺(1988—),女,复旦大学外国语言文学学院,讲师;赵英华(1977—),男,教育部考试中心社会考试处副处长。
大学英语四、六级口语考试自1999年开始实施,采用面试方式,由3~4名考生和2名考官组成一个小组,考试任务包括问答、个人陈述、小组讨论等,评分由2位考官在考试现场独立完成。至2012年,全国共设立58个考点,由于考场数量、合格考官数量有限,每年口试规模控制在10万人左右。为使更多考生有机会参加口试,自2013年起,大学英语四、六级口语考试进行改革,尝试基于计算机的考试(com
puter-based test ),至2019年,参加口试的考生接近百万。随着考生规模的不断扩大,人工评分的工作量显著增加,为此,从2015年开始,大学英语四、六级考试委员会与科大讯飞公司合作开发大学英语四、六级口语考试自动评分系统。本研究旨在初步探索该评分系统的效度,为其进一步的使用和推广奠定基础。
1研究背景
1.1口语自动评分
自动评分是人工智能技术在语言教育领域的
重要应用。近十年来,我国自动评分技术取得飞速发展,在英语口语自动评测领域,我国自主研发的科大讯飞智能口语评分系统已在北京、上海等地的高考、中考和社会考试中得到全面应用,累计服务考生超过2000万[1]。由于自动评分系统的效度尚未积累充分证据,故目前大规模考试主要用自动评分作为人工评分的质检或补充手段,以降低评卷成本、提高评分一致性[2-3]。
目前,口语自动评分的研究主要包括人机评分一致性和机评构念效度研究。前者以人机评分相关系数为衡量指标,例如,托福考试口语自动评分
CHINA EXAMINATIONS
2020年第7期(总第339期)
July 2020No.339
2020年第7
系统SpeechRater和培生英语Versant口语自动评分系统所报道的人评和机评总分的Pearson相关系数均达到0.70~0.90[4]。Shermins指出,人机评分的相关系数高,只能说明自动评分系统的评分行为与人工评分相似,并不能为考试的构念效度论证提供佐证[5]。构念效度关注的是分数所代表的语言能力构念,即机评分数如何解释。机评的构念效度研究包括机评结果与外部效标的相关分析[6]、机评口语特征抓取[7]、评分模型论证[8]等。
从研究方法上看,自动评分系统的效度研究较多采用Bachman和Palmer[9]的测试使用论证[10]或Kane提出的基于论证的效度框架[11-12]。Williamson 等为高风险考试设计了一个基于论证的自动评分效度研究框架,提出效度证据包括与人工评分结果的关系、构念相关性和代表性、与外部独立效标的关系、分
数概化及对决策的影响和考试后果[13]。这一框架被应用于托福口语自动评分系统的效度研究[14],我国研究者也运用该框架开展了汉语口语自动评分系统的效度研究[15]。
总体来看,在自动评分领域,仍缺乏全面、系统的效度研究,特别是对机评分数的解释、机评分数的使用及可能产生的教学后效。
1.2基于论证的评分效度
整体效度观认为,效度论证是对基于考试分数推断的求证[16-17],即研究者在考试任务设计、考生表现评估、考试分数解释和使用等过程中采集效度证据,并将证据及其所支持的理据按逻辑推理的关系呈现出来,形成考试效度的证据链,从而对考试分数的意义及其合理性进行论证。为此,教育测量领域提出了基于论证的效度验证框架[11-12,18],并将推论(inference)作为串联效度证据的纽带或桥梁。Knoch和Chapelle在回顾相关研究的基础上,提出基于论证的评分效度验证框架[19]。该框架围绕评分结果、评分量表、评分员、评分过程等相关因素,提出评分效度研究的推论与假设,并为假设列出需要收集的证据,为口语或写作测试的评分研究
提供了系统框架。表1为该框架的推论和主张(claim),其中主张是对推论的阐释,也是效度研究的起点,为后续收集效度证据提供了具体的假设,为效度研究提供指导。该框架通过评估(evalua⁃tion)、概化(generalization)、解释(explanation)、外推(extrapolation)、决策(decision)、后果(con
sequence)6个推论环节,将考试表现评估、分数可靠性、分数
解释、分数外推性、分数使用及其后果等连接成一个完整的证据链。其中:评估和概化连接考试的观察分数和期望分数,在口语或写作等主观评分的测试中尤为关键;解释关乎分数所代表的能力构念,对构念效度论证十分重要。因此,评分效度研究须针对评分标准、评分过程以及分数含义建立假设,例如,评分等级的设置与考试目的契合性、评分标准的理论基础、评分员在评价考生表现时的决策过程、评分的稳定性等,这些是开展评分效度研究的主要意义所在。
2研究方法
2.1提出框架
本研究以大学英语四级口语考试为例,基于Knoch和Chapelle的评分效度验证框架,聚焦评估、概化和解释3个推论,提出相应的假设、支持假设的理据及证据来源(表2),其中:评估推论的假设是机评所得到的分数能够准确反映考生表现,证据来自自动评分系统的语音识别准确度、人机评分的相关评估
概化
解释
外推
决策
后果
推论主张
Knoch和Chapelle提出的评分效度
验证框架中的推论和主张[19]
表1
通过观察和评估得到具有预期特征的观察分数
观察分数不受考试任务、试题版本和评分员影
响,通过观察分数能得到期望分数
相关语言能力构念能用于解释期望分数的含义
考试构念能够充分解释目标语言使用领域中的
语言表现质量
基于对表现质量的评价所作的决策是恰当的、
易于沟通的
考试后果对考试使用者有益
··26
性和等级分布一致性;概化推论的假设是自动评分稳定、可靠,证据来自机评分数差异显著性检验;解释推论的假设是自动评分系统所评分数可解释,证据来源是检验机评得到的各等级考生的典型口语特征。
基于上述框架,本研究探讨以下5个问题:1)自动评分系统的语音识别准确度如何;2)同次考试的同套考题人机评分的相关程度如何;3)同次考试的同套考题人机评分的等级分布一致性如何;4)同次考试的不同套考题之间的机评分数差异如何;5)机评得到的各等级考生是否具有该级别的典型特征。2.2选取样本
考生口语样本来自参加2019年5月大学英语四级口语考试的答卷。2019年5月大学英语四级口语考试共1
3套试卷,随机选取其中2套(F01试卷和F07试卷)用于此次实验,每套试卷围绕一个主题设计考试任务,含1篇120词左右的短文朗读、2个与短文相关的问题、1分钟的个人陈述及3分钟的2人讨论。F01试卷的主题为校园生活,考生答卷样本量为20826份;F07试卷的主题为求职面试,考生答卷样本量为15462份。
对比2套试卷,因为F07试卷中的短文朗读篇章可读性指标稍难,句子较长,能更好地对考生朗读中的停顿、断句等特征进行评价,所以选取F07试卷进一步分析各等级考生的口语典型特征。在考生口语样本库中分层抽样12组(24名)音频质量好的考生样本①,样本的报道等级分布大致符合考生
总体的等级分布,含A 等2人、B 等6人、C+等7人、C 等7人、D 等2人。
为分析由机评得到的各等级考生的口语典型
特征,邀请专家对各等级考生的表现进行评价。首先,确定典型特征的评价维度。四级口试评分标准包括语言准确性和丰富度、语篇连贯性和内容丰富度、表达灵活性和适切性3个维度,为更细致地描述各等级考生的特征,对评分维度进行2项微调:一是针对朗读任务,增加语音维度;二是考虑到表达内容的重要性,拆分了语篇和内容标准。因此,典型特征描述的5个分项评价维度是:语音语调和流利度、语言丰富度和准确性、语篇连贯性和话语组织、表达恰当性和策略运用、内容相关性和丰富度。其次,建立口语典型特征描述语库。建库时,参考四级口试评分量表和等级描述、“中国英语能力等级量表”的
口语量表[20]以及Zhang 口语能力分项评分量表[21],并邀请四级口试评分量表设计者判断每条描述语对应的四级口语考试等级,确保每个等级的各个维度均有1~2条描述语。最后,将所有描述语打乱后重新编号,制成口语典型特征描述语库。2.3采集和分析数据
数据采集分2个阶段:第一阶段收集大学英语四级口语考试评分数据,包括人评总分和等级、机评总分和等级。其中,人评分数为双评加仲裁的总分,机评分数仅为研究数据。本研究将人评分数近似为考生的真分数,研究机评分数和等级的有效
·自动评分系统能准确识别考生语音·自动评分模型的评分表现与人工评分相似
·自动评分系统能准确地将考生分布到各个级别
·机评分数稳定,不受考题影响·机评得到的结果反映不同等级的口头交际能力
·系统对考生的语音识别准确度数据·同一套试题的人机评分相关性分析·人机评分的等级分布一致性分析
·不同套试题的机评分数差异显著性检验
·基于机评成绩的各等级考生的典型口语特征分析
自动评分系统的评分准确反映考生在口试
中的表现
自动评分系统的评分稳定、可靠
自动评分系统所评分数可解释
推论
假设
理据英语四级口语不考有影响吗
证据
评估
概化解释
表2
大学英语四级口语考试自动评分系统效度验证框架
大学英语四级口语考试报道的等级为A+、A 、B+、B 、C+、C 和D ,所抽样本中无A+、B+等。
艳等:大学英语四级口语考试自动评分效度初探
·
·27
2020年第7
性。第二阶段采集专家对各等级考生的口语典型特征描述数据。5位受邀专家均具有语言测试专业背景、四级口试评分经验及大学英语口语教学经验,他们运用口语典型特征描述语库,从5个维度对24名
考生的口语表现进行评价,每个维度分别选出1~2条与考生表现最符合的描述语,若无合适的描述语,专家再补充撰写。
数据分析时,语音识别准确度的评价数据由科大讯飞公司提供,人机评分的相关性和不同套试题的机评分数差异分析采用SPSS20.0软件,同时使用交叉列联表分析人机评分等级分布的一致性,最后对各等级考生的典型特征数据进行定性描述分析。
3研究结果
3.1评估推论
评估推论的假设是自动评分系统的评分能准
确反映考生表现,支持该假设的证据来自以下3个方面。
第一,自动评分系统的语音识别准确度。对四级朗读题来说,由于系统知晓标准文本,且学生按照标准文本朗读,整体的单词识别率达到98%以上;其他任务(回答问题、个人陈述、讨论题)采用自由表达或交互形式,单词识别率也达到95%以上。
因此,自动评分系统对考生的语音识别准确度完全可以满足自动评分需求。
第二,同套试题的人机评分相关性。描述统计分析结果(表3)显示,机评分数的均值略高于人评均值,机评分数的标准差低于人工评分的标准差,说明机评分数的离散度小于人工评分;此外,机评
对零分卷的判断有偏差。综合考察2套试卷的偏度值、直方图及正态概率Q-Q 散点图,可判断2套试卷的人机评分均为正态分布。采用Pearson 相关分析,2套试卷的人机评分相关系数均较高,分别为0.85(p <0.01)和0.83(p <0.01)。进一步对分数两端的考生数据进行分析,由于两端数据呈非正态分布,采用非参数检验Spearman 相关分析,结果表明,F01试卷得分前5%和后5%考生的人机评分相关系数分别为0.50(p <0.01)和0.47(p <0.01),F07试卷为0.56(p <0.01)和0.40(p <0.01)。该结果与胡国平等[22]写作自动评分研究发现一致,即高低两端的人机评分相关程度相对较低。
第三,人机评分的等级分布一致性。频数统计和等级分布图(图1、图2)表明,人机评分的等级分布趋势十分相近。但是,在最高分数段A 等①和最低分数段D 等,人工评分的考生数明显多于机评考生数,说明自动评分系统对分数等级两端的考生样本不够敏感;在中间分数段(B+、B 、C+、C ),人机评
分的频数较为接近,机评考生数仅在C+等多于人评考生数。
机评14.11  2.3310.17  1.050.31人评14.400.0010.04  1.250.07机评13.97  4.6310.280.980.16人评
13.90
0.00
10.05
1.22
0.26
0.85**0.50**0.47**0.83**
0.56**
0.40**
F01F07
表3
大学英语四级口语考试人机评分描述统计数据
注:**
表示p <0.01。
试卷评分最高分最低分均分标准差偏度r (总分)r (前5%)r (后5%)所抽样本中无A+等。
①图1F01卷人机评分等级分布
·
·28
A
213226
0079
B+7371214470
0639B 111629*********
4238C+014638000689109163C
002417684239326063D 00
55433156644
合计29520371310972
5394
198
20826A
11612
1
0030B+221912614
10362B 0672446767
913290C+04495
649932447326C
0025154922749
3857D
00
120
38196597
合计3
306310489502989110
15462A B+B C+C D 合计机评
试卷
人评F01
F07
表4
人机评分等级交叉列联表
人机评分的等级交叉列联表和等级分布一致率分析(表4、表5)表明,2套试卷的人机评分等级分布一致率非常接近,F01试卷为75.74%,F07试卷为74.60%。从人机评分等级分布差异来看,差异为0.5个级别的,F01试卷占21.08%,F07试卷占21.64%,机评比人评高0.5个等级的考生占比略高,与描述性统计中机评高于人评的结果一致;差异在1个等级或以上的比率均较低,F01试卷为3.18%,F07试卷为3.76%。因此,尽管机评对分数两端的考生样本不够敏感,但在划分考生分数等级的准确性上较为令人满意。3.2概化推论
概化推论的假设是自动评分系统稳定可靠,证据来自系统对2套试卷的评分是否有显著差异。影响口语考试稳定性的因素来自考生能力、试题难度
和评分宽严3个方面。概化推论关注系统的评分稳定性,首先需要考查考生能力和试题难度是否一致:由于本研究数据来自实考,2组考生均为大样本,且试题随机分发,因此2组考生可视为能力水平相当的平行组;基于该假设,对F01试卷和F07试
卷人工评分进行独立样本t 检验发现,2套试卷均值差异不显著(p =0.66)。由于人工评分在本研究中被作为“金标准”,即评分宽严度已经控制,因此,均值差异不显著表明2套试卷难度相当。在此基础上,分析2套试卷的机评分数差异,独立样本t 检验结果表明,F07试卷的均值显著高于F01试卷(p <0.01),但效应量很小(Cohen ’s d =0.11);因此,机评虽然比人工评分稳定性略差,但总体基本稳定。3.3解释推论
解释推论的假设是机评的分数可解释,证据来自各等级考生的口语典型特征分析。选取回答F07试卷的24名考生,考生的等级根据机评分数确定,分布在A 、B 、C+、C 和D 等。对每名考生,在各维度呈现被专家选中频次最高和次高的2条描述语,且专家判断一致率为60%以上,即5位专家中至少有3位认为该考生的表现符合某条描述语。表6为数据汇总,以更清晰地呈现自动评分结果所体现的不同等级考生的口语典型特征。
图2F07卷人机评分等级分布
艳等:大学英语四级口语考试自动评分效度初探·
·29