数据仓库与数据挖掘论文
《数据挖掘在教师因素对学生成绩影响分析中的应用研究》
     
   
投资公司招聘
  班级:096111
  学号:09611120
姓名:朱建辉
    指导老师:刘爱华
    2011.11.2一级建造师报名的
 
一、绪论:课题背景及选题意义    4
二、关联规则    5
2.1 关联规则概述    5
2.2 关联规则基本概念    5
2.3 关联规则挖掘的经典算法:Apriori算法    5
2.3.1  Apriori核心算法分析    5
2.3.2 Apriori算法的关键技术——产生频繁项目集    6
三、关联规则在教师因素对学生成绩影响分析中的应用    6
教师资格证网上报名系统3.1 教师因素对学生成绩影响分析系统功能实现    6
3.1.1信息初始化    6
3.1.2 数据采集    7
3.1.3 数据预处理    8
3.1.4数据分析挖掘    9
3.2模式理解    11
国家医学考试成绩查询入口四、总结    12
 
云南卫生人才招聘网    数据挖掘技术是信息技术研究的热点问题之一。目前数据挖掘技术在商业、金融业以及企业的生产、市场营销等方面都得到了广泛的应用,而在教育领域的应用相对较少,随着高校招生规模的扩展,在校生人数越来越多,学生成绩分布越来越复杂,除了传统的学生成绩分析得到的一些结论外,还有一些不易察觉的信息隐含其中,因而把基于数据库的数
据挖掘技术引入到学生成绩分析中,可以到影响学生成绩的真实原因,有利于有针对性地提高教学质量。
    本文在对数据挖掘知识透彻理解的基础上,首先,介绍了数据挖掘的基本理论;其次,阐述了数据挖掘中关联规则的基本算法;最后,通过对数据挖掘中的关联规则算法进行深入研究,对算法进行改进,并把改进的算法应用于所建立的教师档案_学生平均成绩数据库中。通过对教师档案_学生平均成绩数据库进行深入的分析和合理的归纳,可以挖掘出大量的、有价值的数据信息,比如不同性别、不同年龄、不同学位、不同职称的教师在不同课程中的教学效果等等。这些分析必将对教学工作的开展与改进有着重要的指导意义。
关键词:数据挖掘  关联规则  教师因素  学生成绩分析
Research on the Application of Data Mining in the Analysis of Teacher Factors Impacting on Student’s Achievement
Abstract
    The technology of data mining is one of the hot issues in the IT field. Nowadays data m
ining technology is widely used in business, finance,producing and marketing, but less in education field. With the increase of enrollment in universities, there are more and more students entering campus, and that makes it more and more complex in the distributing of students’ records. Besides the some conclusions from traditional record analysis, a lot of potential information cannot be founded. Importing the data mining technology to students’ record analyzing, is more convenient to find the actual reason of affecting students’ records and improve the teaching quality.
This paper is based on good comprehension on data mining knowledge. Firstly, it introduces the basic theory of them. Secondly, it expounds the basic arithmetic of association rule mining. Lastly, through deep research on the arithmetic of association rule mining, the paper improved it and put it into Teachers file - the average student achievement database. In conclusion, based on deeply analysis and reasonable conclusion, plenty of valuable information is found. For example, different gender and age groups and different places, different titles in different courses for teachers in the teaching effect, etc. All these analysis will have great effects on the performing and impro
ving of teaching.
Key Words:Data mining  Association rule  Teachers factors  Analysis of student achievement
一、绪论:课题背景及选题意义
山东招考院招生考试院 
数据挖掘技术在商业、金融业以及企业的生产、市场营销等方面都得到了广泛的应用,而在教育领域的应用相对较少,高校中对学生信息、成绩等数据的处理一般还停留在简单的数据的备份和查询阶段。近年来随着高校的不断扩招,学生人数大幅度增加,越来越多的教育数据堆积在服务器里。大量信息在给人们带来方便的同时也带来了信息的辨识、信息的安全、信息形式的一致性等问题。我们如何充分的利用这些资源,如何从这些海量的教育数据中,挖掘出有价值的信息,对教育质量进行评估,是当前教育信息化建设中一个非常迫切的问题。
    本文的工作就是基于这样一个背景下展开的。数据挖掘技术可对现积累的大量的学生成
绩数据进行整理后,建立起一个以学生成绩的学习评价数据为实体的多维数据立方体模型,出影响学生发展的教师因素,从而为个性教学策略提供数据依据,便于在班级排课时,注意一个班级中配备教师的年龄、职称、学位、性别等的合理分配,促进数据挖掘的功能在教育行业中的应用。教学过程中,影响教学质量的因素是发展的、动态的,不是恒定不变的,但在长期的教学过程中又有相对稳定的因素。比如教学计划的安排、同一个教师的教学情况、同一个学生的学习情况,这些都可以反映在平时的教与学的过程中。而关联规则形式简洁、易于解释和理解,可以有效地捕捉数据间的重要关系,从大型数据库中挖掘关联规则问题己成为数据挖掘中最成熟、最重要、最活跃的研究内容。因此可以考虑将关联规则应用于教师因素对学生成绩影响分析的应用研究中。采用数据挖掘中的关联规则算法对于教师因素对学生成绩影响分析中的应用研究正是目前面临的一个值得研究的新课题。
二、关联规则
2.1 关联规则概述
  关联规则挖掘(Association Rule Mining)是发现大量数据中项集之间有趣的关联或相关联
系。尽管关联规则挖掘起源于商业上对市场购物篮进行分析的问题,但是随着研究的不断深入,其基本模型在多角度得到了扩充。关联规则挖掘技术的应用领域也越来越广泛,概括起来主要包括:商业与金融、人口普查数据分析、工程技术数据分析、医疗、财政、宏观决策支持、电子商务、网站设计、通信和互联网等。
2.2 关联规则基本概念
  设I={i1,i2,…,im}是项集,其中ik(k=1,2,…,m)可以是购物篮中的物品,也可以是保险公司的顾客。设任务相关的数据D是事务集,其中每个事务T是项集,使得T I。设A是一个项集,且A T。关联规则是如下形式的逻辑蕴涵:A B,A I,B I,且A∩B= 。关联规则具有如下两个重要的属性:
支持度: P(A∪B),即A和B这两个项集在事务集D中同时出现的概率。
置信度: P(B|A),即在出现项集A的事务集D中,项集B也同时出现的概率。
同时满足最小支持度阈值和最小置信度阈值的规则称为强规则。给定一个事务集D,挖掘关联规则问题就是产生支持度和可信度分别大于用户给定的最小支持度和最小可信度的关
联规则,也就是产生强规则的问题。
2.3 关联规则挖掘的经典算法:Apriori算法
  Agrawal等于1993年首先提出了挖掘顾客交易数据库中项集间的关联规则问题,其核心方法是基于频集理论的递推方法Apriori算法,Apriori算法是一种最有影响的挖掘关联规则频繁项集的算法。
  2.3.1  Apriori核心算法分析
    为了生成所有频集,使用了递推的方法。其核心思想简要描述如下:首先产生频繁1-项集L1,然后是频繁2-项集L2,直到有某个r值使得Lr为空,这时算法停止。这里在第k次循环中,过程先产生候选k-项集的集合Ck,Ck中的每一个项集是对两个只有一个项不同的属于Lk-1的频集做一个(k-2)-连接来产生的。Ck中的项集是用来产生频集的候选集,最后的频集Lk必须是Ck的一个子集。Ck中的每个元素需在交易数据库中进行验证来决定其是否加入Lk,这里的验证过程是算法性能的一个瓶颈。这个方法要求多次扫描可能很大的交易数据库,即如果频集最多包含10个项,那么就需要扫描交易数据库10遍,这需要很大的I/O负载。可能产生大量的候选集,以及可能需要重复扫描数据库,是Apriori算法的两大缺点。