(教育部考试中心,北京100084)
赋能教育考试新基建助力考试战线新发展
收稿日期:2020-12-11修回日期:2020-12-21
基金项目:
作者简介:
国家教育考试科研规划2019年度重点课题“基于大数据的试题试卷结构智能分析与应用”(GJK2019005)王蕾(1969—),女,教育部考试中心题库建设与管理处处长,研究员;佟
威(1984—),男,教育部考试中心。
2014年国务院发布的《关于深化考试招生制
度改革的实施意见》提出加强国家题库建设[1],从国家层面对国家题库作出明确要求。2019年中共中央、国务院印发《中国教育现代化2035》,在推进教育现代化的基本理念中提出“更加注重共
2023年注册安全工程师报考时间
建共享”,强调“加快信息化时代教育变革”[2]
,这
武汉公务员真实收入
为新时代国家题库建设指明了方向。目前,国家题库主要服务对象是普通高考、硕士研究生招生考试
、自学考试和成人高考(以下简称“四大国考”)。经过不断研究和实践,国家题库已经发展成为具有征集试题、研磨审校、组卷和统计分析等多功能、全流程的信息化系统,为服务保障国家考试命题等各项任务发挥着重要作用[3]。然而,由于我国教育考试,特别是四大国考的特点和要求不尽相同,仅通过一个通用题库系统作服
务和支撑,容易导致题库功能的堆砌和繁冗,增加操作复杂度,影响用户体验。特别是,随着教育考试综合改革的持续推进,国家题库系统面临的需求也需要随之调整,这在一定程度上对国家题库的进一步规划和更新完善提出挑战。
1研究背景:最大公约数原则下的国家题库整体框架设计
由于考生目标体和考试功能的差异,四大
国考具有各自鲜明的特点,甚至每项考试中的不同科目也有不同的要求。从设计和构建的角度来说,国家题库不可能为每项考试,甚至每个科目单独开发专用题库系统。因此,国家题库的一个重要出发点便是兼顾四大国考,遵循最大公约数原则进行总体框架设计。
——国家题库2.0创新实践
Journal of China Examinations 2021年第2期No.2,2021
山东医疗事业编报考时间2023
最大公约数原则是发现共性。如果每个考试项目、每个学科的要求都要在国家题库系统中得到体现,面面俱到,那么,最终的结果便是大而繁杂,看似解决了所有需求;但实际上,程序环节、操作步骤、选项菜单都会变得更加复杂,从而影响使用体验、降低工作效率。发现共性的目的是在深入了解各考试项目不同学科不同需求的基础上,提取共同的环节和步骤,在框架设计上“做减法”。
最大公约数原则是统一底层。在信息化时代,数据是核心,是基础。如果不同考试项目、不同学科试题的数据,都以不同的格式被记录和存储在系统中,那么国家题库在总体设计上就会变得松散和独立,大大增加了系统在文件管理和升级维护方面的成本。通过在系统底层进行统一设计,可以从基础上夯实系统结构和框架,有利于系统稳定和功能拓展[4]。
最大公约数原则是抓住本质。只有抓住了国家题库服务对象的本质特征,才能从根本上设计好框架、开发好系统。国家题库现阶段的服务对象是四大国考,国家考试的基本特征是由其根本性质所决定的,体现在权威性、保密性和导向性等方面。国家题库需要始终把中国特教育考试的鲜明特点体现在设计过程中[5]。
基于最大公约数原则,国家题库按照四大国考的共同特征把整体框架划分为征题、审题、研磨、组卷、测试、阅卷和统计等模块,覆盖考试全流程。在整体框架的基础上,国家题库设计了三大通用系统:面向非涉密前端的征题系统,用于外围的素材和试题原材料征集;面向全流程的非涉密系统,用
于功能测试、用户培训和系统体验;面向主要流程和核心功能的涉密系统,用于真实场景的命题服务。
通用系统实现了对四大国考基础需求的全覆盖;但随着教育考试综合改革的持续推进,一些考试项目和学科的个性化需求日益凸显,这在一定程度上对国家题库的规划设计和更新完善提出了新要求。以相似题检索为例,通用系统集成的是基础检索算法,遇到数学公式、图片及小语种等情况时很难通过通用方法满足所有学科和用户需求。从已开发的国家题库通用系统本身的设计来看,这些个性化需求非常具体且学科之间没有明显的共性,统一解决起来非常复杂;但是,如果系统设计开发不考虑或者不体现这些需求,那么,国家题库也会不完整,不仅影响用户体验,更无法有效服务和保障国家教育考试。
2解决路径:针对国家考试个性化需求的创新之路
题库的通用功能设计与各考试项目、各学科的个性化需求是国家题库在设计层面的主要矛盾。基于最大公约数原则的国家题库通用系统解决了四大国考共性层面的问题,个性化需求如何满足是摆在国家题库面前的一项重要课题,也是本文重点讨论和探索的内容。要解决四大国考的个性化需求,首先需要了解其特点。从国家题库通用系统的试运行及收集到的反馈来看,个性化需求主要表现在以下3个方面。
国考报名费怎么交
第一,离散性。不同考试项目和学科的个性化需求常常分布在系统的不同模块中。例如,英语学科需要听力录音稿的智能语音阅读,该需求主要在前期的征题环节;语文学科在新题型研发设计后,需要通过了解新题型试测获取的试题参数了解试题质量,该需求比较特殊,但又与系统多个模块相关。这就使得在系统设计过程中,难以通过统一的需求调研进行解决。
第二,复杂性。个别学科的个性化需求虽然描述起来简单,但是需要专门的理论和实践探索及复杂的开发过程来实现。例如,数学学科相似题检索任务,除基本的文字检索外,更主要的是公式和一些图片的检索,仅仅依靠基础算法难以完成,需要一系列包括智能识别技术在内的算法创新研究。
王蕾等:赋能教育考试新基建助力考试战线新发展·
·35
2021年第2期
第三,动态性。随着经济社会的发展和国家教育考试综合改革的持续推进,考试的内容和形式在不断调整变化。国家题库需要通过经常性的改进和完善,来满足日益变化的考试和命题需求。如果没有灵活的设计和构建,庞大的题库系统很难对新的需求作出快速反应和调整。
针对国家考试个性化需求的特征,本文立足现有国家题库通用系统,从3个方面进行探索创新,以期解决当前面临的一系列挑战。
一是系统设计创新。通用系统是国家题库的核心,满足所有国家考试的基本需求,具备服务国家考试的基础功能。要在共性基础上满足不同考试项目、不同学科的个性化需求,需要进一步创新国家题库系统设计。一种可行的解决路径是以现有通用系统为基础,进行平台化改造,实现插件式扩展,这种方案基于目前应用较广的“开放能力”设计思路[5],即系统核心功能不变,通过提供接口或者集成设计,快速实现新功能的拓展。对国家题库来说,通用系统是核心功能,肩负的是国家考试项目中各个学科的共性需求,不会因为个性化需求作出改变,更不能随意调整和改动;但是,可以通过在通用系统中开放若干接口,一旦有新的个性化需求,就直接进行扩展,这样既不会触动通用系统的底层框架和核心功能,又实现了个性化需求的扩展和延伸。
二是管理形式创新。管理形式创新主要针对个性化需求中的复杂特征。从宏观视角来看,国家题库建设是一项涉及命题、评价、信息和保密等多个领域的综合性、系统性工程,只有各个环节专业设计、严格把控、紧密衔接,才能保障系统的顺畅运行。从微观视角来看,国家题库的每一项需求、每一个环节都需要深入研究、精雕细琢,需要用工匠精神不断地设计和优化。创新管理形式,就是要拓宽思路、集智聚力,通过协同创新、联合研发等多种形式,集聚一批外部专家和专业人才,形成智库、外脑,共同商讨研究,提升解决复杂问题的能力,创建应对复杂局面的机制。
三是技术方法创新。题库建设始于20世纪50年代,并在近30年随着信息技术的发展而迅速发展。在这个过程中,由于国情、社情、教情和考情等多重因素影响,欧美的测量理论、等值和诊断等方法无法满足我国考试的实际需求,难以直接照搬[4]。但我国教育考试面临的试题试卷难度控制等一系列难题仍然需要解决,就必须要有技术方法上的创新。大数据和人工智能技术的发展,为问题的解决提供了一个全新视角[6]。大数据已经上升为国家战略,在与众多行业深度融合的过程中发挥了巨大推动作用。人工智能作为一种重要的技术手段,在准确性、智能化方面也有了长足发展,在自然语言处理、图像识别等任务中表现出了较好的效果。在教育考试领域,以大数据和人工智能技术为基础的在线教育认知诊断和智能推荐,都已得到大规模的实践应用。国家教育考试中一些难以通过常规和传统手段解决的个性化问题,在人工智能和大数据技术的辅助下,有可能实现突破。
3实践案例:基于通用系统的功能拓展和实践创新
基于国家题库的整体设计框架,以及针对不同考试项目个性化需求的创新路径,从命题培训、试题资源库和试题难度机器预估3个案例出发,对国家题库具体功能研发和探索实践进行阐述。
3.1命题培训:全流程、全方位、浸入式的在线命
题体验
从2014年开始,新一轮高考综合改革从最初的浙江和上海试点,到目前已经扩大到14个省份。新高考对试点省份的命题能力建设、分数转换方式、成绩报告呈现和招生录取等都提出了新的要求,特别是对以往参加全国统考的省份而言,学业水平考试的命题任务和需求最为迫切。因此,如何提升命题能力建设成为亟须解决的问
··36
题。国家题库的征题系统和非涉密流通库的核心功能之一就是聚焦各种复杂场景下的命题任务,并在传统考试命题全流程基础上进行信息化、数字化重塑。
以往的线下入闱命题可以通过国家题库的非涉密系统在线上进行模拟,同时根据不同学科的个性化需求,增加了多种个性化元素(如数学编辑器)。这为命题教师培训提供了全流程、全方位、浸入式的在线命题体验,主要体现在2个层面:在设计层面,系统涵盖了素材征集、研磨审校、组卷制卷和作答数据回传等覆盖全流程的功能模块,并且针对不同的用户设计了项目负责人、学科秘书、学科组长和命题教师等角,实现了以任务为导向的过程控制、日志回溯和工作组讨论等,提高了线上沟通交流的效率;在支撑方面,系统注重试题属性信息的全记录,特别是融合了基于高考评价体系“一核四层四翼”的试题内容属性,对通过系统进行命题教师培训、宣传命题理念、辅助提升命题能力具有一定意义。3.2试题资源库:标准规范的国家考试试题大数
据积累
长久以来,国家考试的历年试题往往随着考试的结束而成为过去时,没有得到妥善的收集和管理。实际上,每道试题的研发命制都投入了较高的成本,代表了国家命题的理念和方向,这些试题对命题培训工作也有比较重要的参考价值。合理、高效、规范地对以往试题进行汇总积累,对国家考试和题库建设都有重要意义。为此,在国家题库通用系统的基础上,通过创新实践,开发建设了基于高考的试题资源库。试题资源库单独开发,在试题存储的底层结构上与通用系统一致,通过专门接口实现与通用系统的对接,通用系统可以自由调用试题资源库数据;同时,试题资源库又相对独立,自身构成一个完善的系统,可根据需求开发实现相关功能。以高考数学为例,试题资源库建设的具体实施过程主要包括3个方面。
一是统一格式。试题存储格式是试题资源库的核心。高考数学试题主要有3个来源:高考真题、高考模拟题和其他试题。对高考数学试题来说,数学公式占较高比重,不同来源的试题有不同的公式编辑和存储格式,这些因素导致试题格式千差万别,仅基本查询需求一项都很难满足。为此需要统一试题存储格式,从根本上实现数据的互通和共享,试题才能得到高效管理。
二是属性标注。在通用系统的设计过程中,经过多次研讨、论证,将试题属性确定为自然属性、形式属性、内容属性和统计属性4个维度。为实现与通用系统的标准统一,试题资源库将4个属性作为入库
试题的基本属性进行标注,特别是把内容属性作为重点。试题内容属性主要是指试题考查的必备知识、关键能力、学科素养和核心价值,所有进入资源库的试题都要按照这4个方面进行标注。属性标注使资源库不仅仅是对试题的简单堆砌和汇总,而是系统性地对试题进行分类管理。
三是打散入库。有些考试项目是按照整卷的形式进行存储,有些考试项目则要求以单题的形式存储。在通用系统的底层设计中,按照最大公约数原则,试题的基本存储形式是单题,但是可以根据考试项目或考试科目的特点,进行整卷形式的管理。对于存储在试题资源库中的试题,均要按照通用库的设计原则,把按照整卷形式管理的试题都打散成单个试题进行存储,这就为试题属性标注及一些下游任务(如相似题检索)奠定了基础。
试题资源库的建设,统一了试题格式,对试题资源进行系统性管理,形成教育考试大数据基础,对后续教育考试业务工作和研究探索具有一定的意义。试题资源库建设是一项动态、持续的积累过程,每次考后都要进行试题资源库数据的更新和完善。
浮躁阅读答案王蕾等:赋能教育考试新基建助力考试战线新发展·
·37
2021年第2期
3.3试题难度机器预估:人工智能技术与考试需
求的深度融合
试题难度是考试质量的重要指标,关乎考试公平和社会稳定。特别是对大规模考试(如高考)而言,试题对目标体太难或者太容易会导致分数呈现偏态分布,使考试的区分能力下降,影响考试质量和公信力;因此,有效控制试题难度、提高区分能力是考试命题质量把控中最关键的问题之一。传统的试题难度预估主要依靠命题专家根据以往考试数据和自身经验作出判断,在考试内容和形式长期稳定的情况下,对常年参加命题工作的专家来说,这种形式能够起到相对有效的作用;但是,随着高考综合改革的持续推进,考试的内容和形式同以往相比出现较大变化,特别是对刚加入高考综合改革的省份来说,试题难度把控更是一项严峻的挑战。
人工智能和大数据技术在自然语言处理、文本语义识别和深度学习等领域取得了飞速发展。以历年历次考试的试题、考生作答等作为大数据基础,通过AI算法对数据进行设计整合,经过不断的训练迭代,能够建立试题文本信息和试题难度之间的对应关系。新命制的试题经过分词、词嵌入、深度表征等步骤,进入到模型中,程序会自动计算出该题在训练数据尺度上的难度值,从而为命题专家提供参考。基于这样的设计思路,高考数学和高考英语科的部分题型已经实现了试题难度的机器自动排序,
并得到了往年数据的验证,这为人工智能技术与考试的深度融合提供了重要的技术和实践探索,也促进了考试数据资源的有效整合和利用。
从教育考试战线和提升命题能力建设的角度来说,利用人工智能和大数据技术,根据往年大量试题和测试数据,进行试题难度的自动预估,能够给命题专家提供除经验和主观判断之外的新视角和参考维度,对辅助命题及开展相关工作有一定的积极意义;但是,要实现新技术和考试的深度融合,先决条件是要构建数据合作共享机制。自动难度预估的设计理念是基于机器对大量试题信息和考生作答数据的深度学习,因此,模型结果的准确度受数据样本的影响较大,对数据的规范性要求较高。在开发和应用过程中,需要建立目标测试体地区的考试数据对接标准,在数据的广度、深度、精度上下功夫,才能为模型的迭代完善奠定数据基础。
4结束语
国家题库是国家教育考试在综合改革持续推进关键时期重要的数字信息系统。国家题库的建设既要有底层的基础设计,也要有外围的创新拓展。底层的基础设计是国家考试核心需求的体现,具有相对统一的标准,逻辑架构也较为固定;外围的创新拓展服务于国家题库每项考试、每个学科的个性化需求。二者看似相互独立,但本质上又严格统一,共同构成国家题库系统,使国家考试稳定又不失灵活,应用性得到极大提升,具体体现在4个方面:第一,“国有资产”有保障。国家考试的试题是重要的
陕西中公教育网
“国有资产”,通过国家题库系统对试题进行集约化管理,减少试题折旧损耗,保障试题得到有效利用。第二,技术方法有储备。通过管理和技术创新进行功能拓展,探索难度预测、相似题判定和属性自动标注等技术,辅助减少有可能产生的命题风险,做到精准服务命题,提升命题效率,促进考试公平。第三,资源素材有集成。国家题库通过开放性、延展性设计,更大范围收集试题资源素材,积累数据,有助于形成国内权威的考试大数据平台。第四,服务国考立标杆。作为面向四大国考的信息化系统,国家题库的研发树立了国家题库的行业标杆,并且能够通过技术指导、资源共享等手段,促进全国教育考试战线题库“新基建”。
我国教育考试具有鲜明的特点,沿用传统的题库技术理论和方案,只能解决部分考试的部分
··38