“iWrite英语写作教学与评阅系统”评分信度的多维度验证与研究_百度文 ...

2020年40期总第532期

ENGLISH ON CAMPUS

【摘要】外研社联合北京外国语大学研发出了iWrite英语写作教学与评阅系统，本文通过该系统向三所大学的180名大学生发布不同文体的作文任务，随后三位教师和该系统分别对这些作文进行评阅。数据对比分析显示，虽然不同文体、不同分数段之间的人、机评分相关性不同，但总体来说，人、机评分具有极强的相关性，证明了该系统具有很高的评分信度。

【关键词】iWrite英语写作教学与评阅系统；信度；相关系数；多维度

【作者简介】霍红，吉林大学公共外语教育学院，博士，研究方向：语言哲学；徐凤，吉林大学公共外语教育学院，硕士研究生，研究方向：二语习得。

【基金项目】第九批中国外语教育基金项目(ZGWYJYJJ2018A13)。

“iWrite 英语写作教学与评阅系统”评分信度的多维度验证与研究

文/霍红徐凤

一、引言

近年来，随着大数据与机器学习技术的飞速发展，国内外

写作自动评分系统也不断涌现并日臻成熟。迄今，国外研发成功并已投入使用的写作自动评分系统已达十余种，但是这些评分系统主要针对本族语者或者是参加GMAT、TOEFL等国际性英语考试的考生，尽管国外学者对这些系统的信度及其对写作教学的影响进行了大量的研究，但这些系统的评分与评语对提高大多数中国学生英语写作水平的参考意义有限。我国英语自动评分系统的研发起步较晚，最早出现的是2005年由梁茂成教授开发的“大规模考试英语作文自动评分系统”，之后国内一些企业又研发出了适用于高校的英语自动评分系统，如“冰果英语智能作文评阅系统”“句酷批改网”等，虽然有研究表明，这些系统的评分与人工评分有较大的相关性，但何旭良(2013)发现，批改网评分明

显高于教师手工评分，因此“尚不能反映学生英语作文的真实水平”。针对现有问题，外研社联合北京外国语大学接轨国内外各大考试写作标准于2015年研发出了“iWrite英语写作教学与评阅系统”。应用者对该系统的期许度很高，但其在具体应用中的信度还有待验证。尽管目前已有少数学者对其信度以及应用进行了个案研究，但仅仅一次考试的笼统比较得出的数据尚不能全面反映该系统的整体信度。因此，本文尝试利用不同水平的大学生英语作文以及不同文体的大学生英语作文从不同维度进行多次信度测试，以

期得到对“iWrite英语写作教学与评阅系统”信度的更有效验证。

二、iWrite 英语写作教学与评阅系统

“iWrite英语写作教学与评阅系统”是在对大学英语写作教学进行了深入研究的基础上研发设计而成，它能够实现对语言、内容、篇章结构、技术规范这四个维度的机器智能评阅，同时能深度结合机评与人评，以机评促反馈，注重教学过程中的师生互动，全面助力教师提升写作教学效果，帮助学生真正提高写作水平。与以往的自动评阅系统相比较，“iWrite英语写作教学与评阅系统”的最大优点在于其应用了双核纠错引擎，即“基于语法规则的简约模型”和“基于深度学习的统计模型”，这种双核联动的方式能够提供整句修改建议以及全新的错误类别体系，因而能够全面地提升纠错性能。最近，该系统又推出了同伴互评功能，设置了对同一学生不同版本作文的对比功能，真实地记录了学生自我完善的轨迹。该系统还能点赞学生的佳句，鼓励学生进步，同时也能根据学生的典型错误自动生成教学讲义。尽管优势明显，我们仍然想知道该系统在真实评分中的信度如何，本文将对其进行多维度的验证。

三、研究设计

1. 研究对象。为了获取不同水平学生的实验数据，本文选取

了三所不同层次的大学(吉林大学、长春中医药大学和吉林交通职业技术学院)非英语专业的大一学生共180名作为实验对象。

英语四级评分标准及评分细则

2. 实验步骤。首先，是学习者培训。其次，向这些同学布置

四个不同文体的作文任务，它们分别是信件、议论文、看图作文和记叙文。然后将这些作文上传到系统上进行评分。最后，将这些作文发送给三位具有多年评阅四级作文经验的教师分别进行评阅，将人、机评阅的结果进行对比分析。

3. 测量标准。信度(reliability)即可靠性，它指的是采取同样

的方法对同一对象重复进行测量时，其所得结果相一致的程度。

2020年40期总第532期

ENGLISH ON CAMPUS

效度(validity)亦称评估的有效性，指的是试题对应该测试的内容

所检测的程度。信度和效度关系密切，只有信度较高，才能有较高的效度，但效度高不能保证信度也高。

因此，本文选择只计算“iWrite英语写作教学与评阅系统”的信度，即通过皮尔逊相关系数比较教师评分的平均分与系统评分的相关性来判断此系统的评分信度，为了能够进行多维度检验，本文分别对不同文体的作文进行人、机评分的相关性测试，同时对不同分数段内的人、机评分相关性进行测试。

四、数据分析与讨论

四次作文文本由三位曾多次参与四级评分的高校教师进行评

分，随后取平均分记录在Excel表格中，最后通过SPSS20.0软件将人工测评的平均分与“iWrite英语写作教学与评阅系统”的评分进行描述性统计和相关性计算。

表1 人、机评分的描述性统计量表

均值

标准差

人工评分平均分

8.0535

2.268221155

机器评分

8.2819 2.16695

1155

表2 人、机评分的相关性

人工评分平均分机器评分人工评分平均分：Pearson相关性1

.885人工评分平均分：显著性(双侧)

.000

人工评分平均分：平方与叉积的和

5937.1065017.116人工评分平均分：协方差 5.145 4.348人工评分平均分：N 1155

1155

表1的描述性统计数据显示，教师评分的平均分为8.05，

iWrite英语写作教学与评阅系统的评分为8.28，两种评分方式的

分差不大，但系统的评分略高于教师评分。从标准差来看，教师评分标准差为2.27，而系统自动评分的标准差为2.17，两组数据趋于一致，但是系统自动评分的标准差较小一些，这说明

“iWrite英语写作教学与评阅系统”打分更稳定一些。表2中的皮尔逊相关系数显示，教师评分平均分与系统评分之间的相关系数高达0.89(相关系数在0.8-1.0之间为极强相关)，而国内某评分系

统评分与教师评分的相关系数仅有0.53。因此，我们认为从整体上来看，“iWrite英语写作教学与评阅系统”的评分信度很高，

能够有效地完成辅助英语写作教学中的评分任务。

但是，不同文体作文之间的相关性测试数据差异还是比较

大的。相关性最高的是议论文，人、机之间的评分相关性高达

0.953，其次是记叙文，人、机之间的评分相关性也达到了0.909的高度。众所周知，“iWrite英语写作教学与评阅系统”主要是通过深度学习的方式进行评阅的，而中国大学生以议论文写作居

多，其在学习过程中获取的议论文文本最多，所以其在议论文的评阅上具有较高的信度。与之相比，看图作文的人、机之间的评分相关性略低，只有0.893，但是最低的是信件类作文，其人、机之间的评分相关性仅有0.712，这大概与中国大学生这两类文体的书写样本较少有关。

本文不仅对不同文体的作文评分进行了人机相关性测试，

还对不同分数段内的作文评分进行人机相关性测试。通过计算

发现，4-6分段的人、机评分相关性最高，达到了0.953，其次是

0-3分段，其人机评分的相关性达到了0.912。7-9分段以及10-12分段作文的人机相关性略低，分别达到了0.909和0.885。但是最高分段13-15作文的人、机相关性就很不理想，其相关系数仅为0.666，这或许与这个分数段的作文数量很少有关。

五、结语

“iWrite英语写作教学与评阅系统”评分非常稳定可靠。通

过对不同文体作文的人、机评分进行对比分析，本文发现议论文的评分信度最高，这或许与该系统的评分机制有关。该系统主要通过深度学习的方式进行评分，其学习过程中获取的信息越多那么其评分信度越可靠，而中国大学生英语写作以议论文为主，因此其对议论文的评分信度最高。对于不同分数段的人、机评分对比后发现，4-6分数段的相关性最高，这也与中国大学生的英语作文主要集中于这一分数段有关，而人数最少的13-15分数段的相关系数就比较低。总之，从整体上来看，“iWrite英语写作教学与评阅系统”评分与教师评分一致性相关系数高达0.89，具有极高的评分信度。

参考文献：

[1]Ramineni C., Williamson D M . Automated Essay Scoring: psychometric guidelines and practices[J]. Assessing Writing, 2013(18):25-39.

[2]Yigal Attali. Construct Validity of “e-rater ” in Scoring TOEFL Essay[R]. ETS,Princeton, NJ, 2007.

[3]Enright M K, Quinlan. Complementing Human Judgement of Essay Written by English Language Learner with E-rater ® Scoring[J]. Language Testing, 2010, 27(3):317-334.

[4]何旭良.句酷批改网英语作文评分的信度和效度研究[J].现代教育技术,2013,23(05):64-67.

[5]Donald E P. David S E, Matthew P D. Validating Automated Essay Scoring: A (Modest) Reﬁnement

of the “Gold Standard ”. Applied Measurement in Education[J]. 2015, 28(2):130-142.

“iWrite英语写作教学与评阅系统”评分信度的多维度验证与研究_百度文 ...

发布评论取消回复

最近发表

热门文章

标签列表