数据挖掘技术在高职等级考试中的应用研究
摘要
利用数据挖掘技术对学生普通话等级考试成绩进行挖掘,通过关联规则挖掘算法,对普通话等级考试成绩与学生的专业和户籍之间隐藏的数据关系进行分析和预测,为今后提高普通话的整体水平和满足就业对普通话的需求提供相应的决策依据。
关键字:数据挖掘学生成绩 数据关系
中图分类号:d691.46文献标识码: a 文章编号:
一、应用背景
作为学生一种综合能力的培养,我院将普通话等级考试纳入到了学生的必修课中,测试范围基本涵盖了所有专业的学生 ,对于所有参加考试的学生建立了普通话等级考试数据库,积累了大量有用的数据。但这些信息只是简单地存储在数据库中,隐藏在这些数据中的潜在信息闲置,没能被充分利用。针对如此繁杂的数据量是需要给予较高层次的发掘和整理,并能够从中
出适合对应学院决策的有用数据信息。基于“数据丰富,信息贫乏”的问题,我们引入了数据挖掘,针对这些庞大、繁杂的数据量进行研究和分析,希望通过数据库中的数据量发现有用的信息,从而提取出有利于提高教学质量和学生素质的有价值的信息,使学院更好地对学生进行综合素质的培养。
二、等级考试信息数据挖掘系统的设计
1数据仓库的体系结构
传统的数据库技术是以单一的数据资源为中心进行事物处理,批处理以及决策分析等各种数据处理工作,而数据仓库技术具有分析处理等特点,它既是一种结构和富有哲理性的方法,也是一种技术,而且还是存储数据的一种形式。数据和信息从不同数据源提取出来,然后把这些数据转换成公共的数据模型,而且和数据仓库中已有的数据集成在一起。当用户查询时,需要的数据已经准备好了,数据冲突和表达不一致的问题已经得到解决。
2、数据仓库设计
数据模式的设计在数据仓库的设计中是最核心的部分,数据仓库建立模型的过程实际上是一个
从关系型、规范式的数据模型向多维模型转换的过程。在基于学生成绩分析数据仓库设计过程中,我们采用通用的三层数据建模方式,即概念模型设计、逻辑模型设计和物理模型设计。概念模型设计提供了对学生成绩分析的一个整体概括性描述,针对相关部门收集需求;逻辑数据建模层面向学生成绩数据仓库界定范围的全局及其应用;物理数据设计使用物理限制,如空间、特性和数据的物理分布,目的是设计实际的物理数据。
3、数据仓库的流程设计
将系统中涉及到的数据源清理出符合分析范围的数据,设计等级考试成绩的数据仓库,使用microsoft决策树创建olap数据挖掘模型一,,使用microsoft聚集创建olap数据挖掘模型二,最后通过两种模型的建立得出分析结果。如下图所示:
4、数据仓库的建立
由于数据集要求事实数据表和维度必须在同一数据库中,因此要利用dts数据转换服务功能将student.dbc文件导入到等级考试成绩分析系统的sql server数据库中,再利用analysis services建立多维数据集,并添加度量值、维度以及计算成员。其中包括两个度量值:考试成绩grade和考生人数scount;一个计算成员:平均成绩、事实数据表以及连接的维度表。
5 数据抽取、转换和装载
1)数据抽取
数据仓库中数据的获取过程不是从数据源中把数据简单的转移过来,而是对数据进行清洗和转换,使得在数据仓库中的数据是一个完整统一的数据集合。如果对原始数据只是进行简单的堆砌而不加以转换和清洗的话,就会存在大量不完整和不必要的数据 。因此所有抽取的数据必须转换为数据仓库可用的数据,拥有可以用来进行战略决策的信息,是数据仓库最根本的原则。
2)数据转换
数据转换的基本任务:选择、分离/合并、转化、汇总和丰富。
数据转换的主要类型:格式修正、字段解码、计算值和导出值、单个字段的分离、信息的合并、特征集合转化、度量单位的转化、日期/时间转化、汇总和键的重新构造。
查普通话考试成绩3)数据装载
将数据转换成与数据仓库要求一致的数据后,就准备数据的装载。通常涉及从源数据库系统、数据准备区数据库传送大量的数据到目标数据库。类似于数据的抽取数据的装载有三种类型:初始装载、增量装载和完全刷新。数据准备好之后,有四种把数据应用到数据仓库的方式:
装载:清空原有表再把数据装载进去;
追加:直接往表里追加数据,当一个输入记录与已经存在记录重复时, 需要定义时丢弃还是插入一条新的记录;
破坏性合并:如果输入记录的主键与一条已经存在的记录的键互相匹配,那么就对匹配的目标记录进行更新;
建设性合并:如果输入记录的主键与已有记录的键匹配,那么就保留已有的记录加入输入的记录。
三、基于数据仓库的的等级考试成绩分析
运用 olap 所提供的分析方式,可以得出以下结果:
到目前为止,我院参加普通话等级考试获得一甲的学生没有,能获得一甲的可能性几乎为零;
参加测试的学生获得一乙的可能性也非常小,其中生源地是城市的学生有一半获得二乙,对这部分学生加强培训可以提高二甲和一乙的通过率;
生源地为农村的学生绝大部分只能获得二乙,对于这部分学生进行培训可以提高他们获得二甲的可能性。
参考文献:
[1] 陈文伟,黄金才.数据仓库与数据挖掘[m].北京:人民邮电出版社,2010
[2] 黄晶晶,倪天倪.分类挖掘在大学生智能评估系统中的设计与实现[j].计算机与现代化,2005.
[3] 朱明.数据挖掘[m].合肥:中国科学技术出版社,2012
[4] 汪澜.数据挖掘技术在教学评估中的应用研究[d].沈阳:辽宁工程技术大学
[5] www.doc88