大学英语四、六级考试语料库建设剖析
  大学英语四、六级考试是我国高等教育最重要大规模,标准化外语考试,对促进我国大学生整体外语水平提高发挥了重要作用。同时,这项考试对于国家、社会各类用人单位公正,科学评估大学生外语水平,合理选拔录用人才,也发挥了积极作用。因此,我们语料库语言学研究也应理论联系实际,注重研究考试语料库开发建设问题,特别应着手建立像大学英语四、六级考试这类关系重大大规模外语考试试题语料库。正是出于这一理念,我们以过去十一年这两项考试真题及模拟试题为原始语料,采用手工标注试卷主要语法特征模式,花费了近两年时间建立了《大学英语四、六级考试语料库》。
  我们相信,作为一种新网络信息资源,一个新媒体工具,这一试卷语料库将会为大学外语教学提供有价值新信息。因为这个语料库对于大学英语辞书、语法、词汇、阅读教材、参考资料编写,老师、同学把握四、六级考试重点,都提供了真实、量化、可靠依据。广大英语教师与同学可以方便地把它联接在大学网站、教育网站上,拷入学校计算机室、网络教室计算机内,或装入自己计算机中检索、研究、使用。现将这个语料库设计理念、建设过程及其对大学英语教学、四、六级考试复习、备考意义简要介绍如下。
  1 建立大学英语四、六级考试语料库重点剖析与解决问题
  在建设这一语料库时,我们特别留意观察国内外专门用途语料库建设现状,研究了当前国际语言学界较为流行几款语料库软件不同特点,如Wordcruncher, Concordance,Lexa,TACT及Wordsmith等软件。在对这些软件优点及缺陷进行系统剖析基础上,根据对四、六级试卷语法特征进行检索专门要求,我们设计出了这一项目专用语料库检索软件,“四、六级考试语法特征检索软件”,并反复实验,多次上机运行,检测软件各项指标,不断改进,直到软件运行平稳,达到了较为理想效果。这样就为科学、便利地检索出四、六级考试各项语法考查重点提供了可靠技术保障。同时我们也剖析了考查要点内容定位与标注模式符号统一问题。最后决定使用英语缩略符号进行标注。从而重点解决了用语料库语言学,计算机科学及现代统计学原理建立一个系统、全面、语料翔实、使用方便《大学英语四、六级考试语料库》理论与实践问题。
  2 语料库建设方案 大学英语四六级考试
  《大学英语四、六级考试语料库》共收录、标注四、六级全真试卷各四十四套及四、六级模拟试卷各四十四套,共计八十八套试卷。首先录入了最近十一年(95-05年)四、六级全
真试题各22套。每套题每一题型编制成一个独立文件。用英语缩略符号手工标注了试卷全部语法要点(例如,用\[sipt\]代表一般现在时,用\[com.s\]代表复合句,等等)。语法要点划分为四十三个项目。标注内容包括:英语十六个时态(1.一般现在时,2.一般过去时,3.现在进行时,4.过去进行时,5.将来进行时,6.一般将来时,7.过去将来时,8.现在完成时。9.过去完成时。10.将来完成时,11.过去将来完成时,12.过去将来进行时,13.现在完成进行时,14.过去完成进行时,15.将来完成进行时,16.过去将来完成进行时);复合句中五类从句(1.主语从句,2.宾语从句,3.定语从句,4.状语从句,5.表语从句);六类短语(1.介词短语,2.不定式短语,3.现在分词短语,4.过去分词短语,5.形容词短语,6.短语动词);六种句型结构(1.简单句,2.并列句,3.复合句,4.并列复合句,5.祈使句,6.倒装句);四类疑问句(1.一般疑问句,2.特殊疑问句,3.选择疑问句,4.反意疑问句);被动语态结构;及三类虚拟语气句式(1.与过去事实相反虚拟语气,2.与现在事实相反虚拟语气3.与将来事实相反虚拟语气)。同时将六级试题“改错”题型中错误划分为八个大类进行标注(1.虚拟语气错误,2.惯用法错误,3.动词用词错误,4.主谓不一致错误,5.代词误用错误,6.形容词误用错误7.固定词组结构错误,8.短语动词误用错误)。这样,总计标注项目达五十一项。然后选择较为流行四、六级考试模拟试题各22套,也按照上述方法及项目
进行同样标注,并在文件名中注明是模拟题。最后将全部文本另存为纯文本文件。用我们自己设计“四、六级考试语法特征检索软件”对所有试题纯文本文件进行单文本或多文本检索。获得大量数据输入SPSS软件建立大规模综合数据集,进行全方位统计剖析。这样就统计出了历年四、六级真题及模拟试题中已标注过这五十一项语法特征出现频数,百分比及某些词语(如短语动词)搭配与同现特征等多项指标。应该说明,这个语料库同时也可作为一个四、六级考试大型试题库来使用。因为根据我们设计理念,在文本录入时同时录入了所有试题参考答案,并保留了它们WORD文本。由于本文篇幅所限,在这里我们只能报告这一语料库显示四、六级考试几项主要语法特征及它们分布模式。
  3 四、六级考试主要语法特征分布模式
  3.1 六级试卷十六个时态出现频数与分布模式
  表1、表2分别显示在22套六级真题、六级模拟试卷所有七个题型中英语十六个时态出现总频数及百分比。在这十六个时态中都是一般现在时与一般过去时占据了最大数量。居第三位、第四位都是现在完成时及一般将来时。其余十二个时态出现频数都没有超过2.6%。 其中过去将来完成时,将来完成进行时这两个时态从未在六级真题及模拟试卷中出现过。
过去将来完成进行时仅在模拟试卷中出现了一次,在百分比一栏显示不出来。
  图1是对六级真题十六个时态数据进行聚类剖析做出树状图。该图直观显示一般现在时(1)自成一类,然后与由一般过去时(2),现在进行时(3),过去进行时(4),一般将来时(6)及现在完成时(8)这五个时态组合成另一类聚合成一大类。表3是对六级真题、模拟试卷时态数据进行相关性检验做出均数,标准差及相关系数表。可见真题均数、标准差都略大于模拟卷,而它们之间相关系数则高达0.997。证明六级真题与模拟试卷时态分布特征高度相关。即模拟试卷十六个时态分布模式与真题极为接近。因此,可以这样说,只要掌握了聚合成一大类这六个时态,也就是抓住了六级考试时态学习主要矛盾。
  3.2 四级试卷五类从句出现频数与分布模式
  表4、表5分别是四级真题、四级模拟试卷五类从句出现频数汇总统计。在四级真题及模拟试卷中都是状语从句占据了最大数量与最高百分比。它们百分比也极为接近,分别为33.1%与33.7%。 四级真题是宾语从句位居第二,百分比为30.8.%;而模拟试卷是定语从句居第二,百分比为29.6%。主语从句,表语从句在这两类试卷中所占比例都很小,它们百分比都没有超过4.6%。
     表6是四级真题、模拟试卷从句出现频数列联表。该表列出了各类从句期望频数(Expected Count)及其在真题、模拟试卷中所占百分比。各类从句在真题中期望频数及百分比全都高于模拟试卷这两项指标。表7是对四级真题、模拟试卷五类从句出现频数进行卡方检验结果。该表显示,皮尔逊卡方检验(Pearson ChiSquare),似然比卡方检验(Likelihood Ratio)及线性相关卡方检验(LinearbyLinear Association)这三项检验双侧近似显著值(Asymp.Sig)都远大于0.05,充分说明四级真题、模拟试卷从句出现频数及分布特征并没有必然联系。然而,不论是在四级真题还是模拟卷中,状语、定语及宾语从句合计百分比都超过了91%,充分说明这三类从句是学习、掌握好复合句关键。
  3.3 六级试卷句型结构出现频数与分布模式
  表8、表9分别显示在六级真题、六级模拟试卷所题型中六种句型结构出现总频数及它们百分比。在真题、六级模拟试卷中都是简单句与复合句占据了最大数量与最高百分比。
  下面是对六级真题六种句型结构出现频数进行因子剖析结果。
  表10是六级真题句型结构出现频数公因子表。该表显示了从六种句型中分别提取信息百分比,可见从每一句式中提取信息比都非常高,都在98%以上。
  表11是六种句型出现频数方差比例表。该表显示第一个成分(Component)能解释方差(Variance)比为80.85%,第二个成分方差比例为18.33%。积聚百分比(Cumulative %)显示,只要提取了这两个成分,就等于抓住了这六种句型结构99.19%信息要素。图2是因子剖析碎石图。该图显示从第二个成分以下特征值就几乎降为零了。因此,第一、二个成分就是主要因子,其后就是次要因子了。一般来讲,简单句对于大多数同学而言不会有太大问题,因而掌握好复合句用法就成为六级考试句型学习第一任务。
  3.4 六级试卷疑问句结构出现频数与分布模式
  表12、表13分别是六级真题、六级模拟试卷四类疑问句出现频数汇总统计。可见在这两类试卷中都是特殊疑问句与一般疑问句占据了最大百分比。从为这四类疑问句做出饼图,图3、图4,更可清楚地看出六级真题、模拟试卷四类疑问句出现频数分布状况是极为相似。模拟试卷使用四类疑问句数量都比真题数量稍多。那么,一般疑问句比较与特殊疑问句自然就成为应首先掌握好疑问句结构了。
  3.5 四级试卷虚拟语气出现频数与分布模式
  表14、表15分别显示在四级真题、模拟试卷所有七个题型中三种虚拟语气出现总频数。可见“词汇与结构”题型使用虚拟语气最多。而在这三种虚拟语气中是与现在事实相反虚拟语气句式出现较为频繁。
  图5、图6分别是为四级真题、模拟试卷虚拟语气出现频数做出箱图。真题全距(上下横线)及四分位间距(阴影部分)都比模拟试卷大。除模拟试卷“与将来事实相反虚拟语气”这一图形中位线(阴影中黑线)在红框中部外,其余五个箱图中位线都接近或靠近阴影部分下缘,说明从理论上讲,虚拟语气在四级试卷中出现频数应该相对高于我们统计出这两组数据。但是从四级真题及模拟试卷都各有二十二套这么大样本来看,虚拟语气句式出现频数其实是很低。以上就是我们对四、六级考试几项主要语法特征及其分布模式简要统计剖析报告。
  4 结语
  由于时间所限,我们在对这个语料库标注项目进行统计剖析时只是统计出了四、六级真题,模拟试卷中语法特征出现总频数及百分比,而未能对每一时态、句式、短语及惯用法做出更加细致分类,进行更加全面剖析。有志研究大学英语考试老师与同学可以利用我们
这个语料库,对每一语法范畴、各类句式及各种短语开展更深层面剖析与研究。 例如,建立起“四级考试最常用短语动词”、“六级考试出现频数最高介词”等统计学模型。使这个语料库为大学英语教学,为广大同学四、六级考试复习、备考发挥更有价值作用。
  建设完成《大学英语四、六级考试语料库》,我们所做仅只是一点儿尝试性实践。在大规模外语考试专门语料库建设这一新研究领域中,还有许多问题需要我们去剖析、去解决。以外语考试试题为基本素材专门语料库在大学外语教学中意义与价值,也需要广大外语教师、大学同学去判别、去验证。然而,我们相信,开发建设大学英语四六级考试这类大规模外语考试试题语料库应该是语料库语言学与外语教学、科研相结合一个重要方面,是大学外语教学中值得剖析一个新课题。
  本文中所涉及到图表、注解、公式等内容请以PDF格式阅读原文。
希望以上资料对你有所帮助,附励志名言3条:
1、要接受自己行动所带来的责任而非自己成就所带来的荣耀。
2、每个人都必须发展两种重要的能力适应改变与动荡的能力以及为长期目标延缓享乐的能
力。
3、将一付好牌打好没有什么了不起能将一付坏牌打好的人才值得钦佩。