基于数据挖掘的英语四级成绩分析与预测
作者:王士虎 吕纪荣 冯波
来源:《电脑知识与技术2014年第03
        摘要:阐述了数据挖掘的概念和算法,重点介绍了线性回归算法,基于多元线性回归算法分析了影响大学英语四级的诸多因素。根据数据挖掘思想,收集历史数据并适当加以变换,使用统计分析技术对影响大学英语四级的诸多因素进行分析,得出了大学英语四级成绩与其影响因素之间的线性回归关系,拟合程度较高,可用于四级成绩预测,对学生学习和学校教学管理有很大的指导作用和使用价值。
        关键词: 英语四级;数据挖掘;统计分析;线性回归;预测
        中图分类号:TP301.6 文献标识码:A 文章编号:1009-3044201403-0452-03
        1 概述
        近几年,我国高等教育蓬勃发展,中华人民共和国国家统计局最新数据(2012年)显示,我国现有普通高等学校2442所,高校在校生人数2391.3万,其实现在的实际数字要大于
统计局2012年的数据。我国2013年毕业生数量699万,2013年号称史上最难就业季,而2014年的727万毕业生应该是遇上了史上最最难就业季。面对这样的激烈竞争与四级成绩是真实成绩还是排名史上最难就业季,用人单位对于人才的录用也更为苛刻,大学英语四级已经成为了很多用人单位的筛选条件。如何才能顺利通过大学英语四级呢?很多在校大学生不清楚怎样能通过四级,很多教师也不知道如何管理以帮助学生通过四级。学生的英语四级成绩到底和哪些因素有着千丝万缕的联系呢?因此,使用数据挖掘技术探索和研究并解决这些问题已经成为部分高校极为重视的教育课题。这对于提高学生自身素质和竞争力,提升就业质量,促进部分高校的发展有一定的理论意义和实用价值。
        2 数据挖掘
        2.1 数据挖掘概念
        数据挖掘(Data Mining DM)是一个利用各种分析方法与技术,从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。换句话说,数据挖掘就是从数据中挖掘信息或知识,有人称为知识发现(Knowledge Discovery in Database KDD)。数据挖掘是一门交叉性学科,
融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术[1],现已经广泛应用于金融、零售、保险、医药、通讯、电子工程、航空、等诸多领域[2]CRISP-DMCRoss-Industry Standard Process for Data Mining,跨行业数据挖掘过程标准)是当今数据挖掘业界通用的、比较流行的标准之一,该标准把数据挖掘过程归纳为六步:(1)业务理解(Business Understanding);(2)数据理解(Data Understanding);(3)数据准备(Data Preparation);(4)建模(Modeling);(5)评估(Evaluation);(6)部署(Deployment[3]。在建模中要根据不同的业务场景选择不同的建模技术,即选择了不同的数据挖掘算法。