1、I本科毕业论文(设计)题目:决策树分类算法在教学分析中的应用姓 名: 学 号: 专 业: 院 系: 信息工程 指导老师: 职称学位: 助教硕士 完成时间: 教务处制 II安徽新华学院本科毕业论文(设计)独创承诺书本人按照毕业论文(设计)进度计划积极开展实验(调查)研究活动,实事求是地做好实验(调查)记录,所呈交的毕业论文(设计)是我个人在导师指导下进行的研究工作及取得的研究成果。据我所知,除文中特别加以标注引用参考文献资料外,论文(设计)中所有数据均为自己研究成果,不包含其他人已经发表或撰写过的研究成果。与我一同工作的同志对本研究所做的工作已在论文中作了明确说明并表示谢意。毕业论文(设计)作者
2、签名: 日 期: 安徽新华学院 2015 届本科毕业论文(设计)I决策树分类算法在教学分析中的应用摘 要随着信息科技的高速发展,人们对于积累的海量数据量的处理工作也日益增重,需求是发明之母,数据挖掘技术就是为了顺应这种需求而发展起来的一种数据处理技术。数据挖掘技术又称数据库中的知识发现,是从一个大规模的数据库的数据中有效地、隐含的、以前未知的、有潜在使用价值的信息的过程。在学生管理以及教学科学化的今天,传统的教学分析已经不能适应社会发展的需求。学生信息数据不断的增多,教学分析工作也日益加重。学生信息数据量不断的增多,对之前所累计的大量学生考试成绩数据运用数据挖掘技术进行分析挖掘是具有重大的意义
3、的,这样可以把所挖掘分析出来的信息反馈用于指导学校的教学分析,从而提高学生的学习成绩。本文通过学生成绩信息运用数据挖掘技术,对所采集的数据进行预处理,运用决策树分类算法中的 C4.5 算法对成绩进行分析得到了成绩分析决策树,分析研究出有用的信息找到影响学生的因素,发现某些规律的存在,用以指导学校教学分析工作的开展。关键词: 数据挖掘;学生成绩;决策树 安徽新华学院 2015 届本科毕业论文(设计)IIApplication of decision tree in grade examination analysisAbstractWith the rapid development of In
4、formation Technology, people are facing much more work load in dealing with the accumulated mass data. Data mining technology is also called the knowledge discovery in database, data from a large database of effectively, implicit, previously unknown and potentially use value of information process.
5、In todays scientific management and teaching, the traditional teaching analysis already can not adapt to the demand of social development. Continuous increase in the number of student information data, analysis of teaching work is also growing. Student information data quantity unceasing increase, a
6、 large number of students test scores of previously accumulated data mining analysis on applying data mining technology is of great significance, it can put the information feedback from our mining analysis, used to guide the schools teaching analysis, so as to improve the students academic performa
7、nce. This paper intends to show the use of Data Mining Technique in the analysis of students score information in Examination, from the pretreatment on the collected data to the use of decision tree technique in data analysis. This employs C4.5 algorithm in decision tree technique to get the decisio
8、n tree of the students score. Then by analyzing the useful information to find out the elements that can influence score and the rules in these influences to instruct school teaching work. Key words:Data mining;grade examination;decision tree;安徽新华学院 2015 届本科毕业论文(设计)目 录1 绪 论 .11.1 研究背景与意义 .11.2 数据挖掘的
9、国内外研究现状 .11.3 论文研究内容及结构安排 .22 数据挖掘技术 .42.1 数据挖掘的概念 .42.1.1 数据挖掘的背 景 .42.1.2 数据挖掘的定义 .42.2 数据挖掘的过程 .42.2.1 数据对象的确立 .52.2.2 数据预处理阶段 .52.2.3 数据挖掘阶段 .62.2.4 结果的解释和评估阶段 .62.3 数据挖掘的主要方法 .62.4 数据挖掘的功能 .72.5 本章小结 .93 决策树技术 .103.1 决策树简介 .103.2 决策树的主要算法 .113.2.1 ID3 算法 .113.2.2 C4.5 算法 .123.3 决策树剪枝 .153.4 本章小
10、结 .184 C4.5 算法在学生考试成绩中的应用 .19安徽新华学院 2015 届本科毕业论文(设计)4.1 成绩分析方法的依据 .194.2 决策树算法在考试成绩分析中的应用 .194.2.1 确定对象集目标 .194.2.2 数据的采集 .204.2.3 数据预处理 .214.2.4 数据挖掘工作的展开 .224.2.5 结果分析 .275 总结与展望 .285.1 研究结果 .285.2 后续研究与展望 .28参考文献 .31安徽新华学院 2015 届本科毕业论文(设计)11 绪 论1.1 研究背景与意义无论在企业应用领域,还是在科学领域,数据挖掘技术有着广泛的应用价值。在企业应用领域
11、,用于制定好的市场策略以及企业的关键性决策。在商业面,数据挖掘技术可以增强企业的竞争优势,缩短销售周期,降低生产成本,有助制定市场计划和销售策略,并已经成为电子商务中的关键技术。近年来,随着我国高等教育的飞速发展,高校的教学管理信息不断增多。教学工作信息化有了很大的进步,好多高校在管理学生和教师信息方面有了很好的方式。比如我校的教务系统,这些系统为老师和学生提供了很好的帮助。这些系统中积累了大量的数据。目前的这些数据库系统虽然基本上都可以实现数据的录入、修改、统计、查询等功能,但是这些数据所隐藏的价值并没有被充分的挖掘和利用,信息资源的浪费还是比较严重的。随着数据挖掘技术的不断扩展,许多高校为
12、了避免信息浪费,已经将数据挖掘技术应用于高校的教学分析中。数据挖掘技术的应用将对提高学生成绩和提高教学水平起到很好的指导作用。为了提高教学质量,将数据挖掘技术引入到高校学生成绩分析中,对这些数据进行深入的挖掘和合理的分析,从而挖掘出传统的分析方法所无法得出的结论。进而利用分析结果引导教学的开展,从而有利于提高教学质量。本文主要是基于如下背景开展的:以安徽新华学院历届学生成绩为背景,首先学习数据挖掘的理论知识以及决策树技术,然后建立新华学院学生成绩数据库,并利用数据挖掘技术中的决策树对自己建立的数据库进行深入的挖掘。最后对自己的挖掘结果进行分析,得到影响学生成绩的因素。从而更好的辅助今后学校的教
13、学分析工作。安徽新华学院 2015 届本科毕业论文(设计)21.2 数据挖掘的国内外研究现状1989 年 8 月在美国召开的第十一届国际人工智能联合会议的专题讨论会上,与数据挖掘(Date Mining)极为相似的术语从数据库中发现知识一词被提出。1993 年以后,美国计算机协会美年都举行了专门研究探讨数据挖掘技术的会议,会议的规模也发展成为国际学术大会,并且在各个领域里取得了很多研究成果。最近,Gartner Group 的一次高级技术调查将数据挖掘和人工智能列为“未来三到五年内将对工业产生深远影响的五大关键技术”之首,并且还将并行处理体系和数据挖掘列为未来五年内投资焦点的十大新兴技术前两位
14、。 1根据最近 Gartner 的 HPC 研究表明,“随着数据捕获、传输和存储技术的快速发展,大型系统用户将更多地需要采用新技术来挖掘市场以外的价值,采用更为广阔的并行处理系统来创建新的商业增长点。”国外研究数据挖掘的组织、机构或大学很多。比较著名的如卡内基梅隆大学、斯坦福大学。著名的研究机构如:KDNet 、ACM、NCDM 等。国外比较著名的挖掘工具:IBM 公司的 Intelligent Miner 、SAS 公司的 Enterprise Miner、SGI 公司的 SetMiner、SPSS 公司的 Clementine、Oracle Darwin 等。不少的软件在国外得到了广泛的应
15、用,并收到了明显的效益。相对国外而言,我国的研究还没有形成整体的力量。国家在 93 年首次支持该领域的研究。现如今,国内的许多高等院校和科研单位积极开展知识发现的基础理论以及知识发现的应用研究,这些单位包括清华大学、中科院计算技术研究所、空军第三研究所、海军装备论证中心等。其中,北京系统工程研究所对模糊方法在知识发现中的应用进行了较深入的研究,北京大学也在开展对数据立方体代数的研究,华中理工大学、复旦大学、浙江大学、中国科技大学、中科院数学研究所、吉林大学等单位开展了对关联规则开采算法的优化和改造;南京大学、四川联合大学和上海交通大学等单位探讨、研究了非结构化数据的知识发现以及 Web 数据挖
16、掘。1.3 论文研究内容及结构安排本课题的主要工作是将数据挖掘技术和学校的信息管理系统相结合,新华安徽新华学院 2015 届本科毕业论文(设计)3学院多年来的信息化教学管理工作积累了大量的教学数据,从新华学院的数据库中收集学生的考试成绩信息。利用数据挖掘技术对这些数据进行分析,获得影响学生成绩的因素,更好的辅助学校如何提高学生成绩以及提高教学质量。本课题根据指导老师提供的 11 级学生成绩的信息,建立安徽新华学院 11级学生成绩库,采用数据挖掘技术对成绩库进行挖掘。通过对实验结果进行深入分析,获得影响学生考试成绩的因素,辅助教师在以后的教学工作中采用更恰当的教学方式,指导学生应该具有什么样的学
17、习态度,从而提高学生考试成绩。论文结构如下:第一章 绪论。 主要介绍了论文的研究背景与意义,叙述了国内外数据挖掘技术的研究现状。第二章 数据挖掘的基础知识。 主要叙述了数据挖掘的定义、数据挖掘的过程以及数据挖掘的方法。第三章 决策树。 主要简要介绍了决策树以及决策树的经典算法。第四章 决策树在计算机等级考试成绩分析中的应用第五章 总结与展望。总结本篇论文并展望今后论文的继续研究方向内容方向。安徽新华学院 2015 届本科毕业论文(设计)42 数据挖掘技术2.1 数据挖掘的概念2.1.1 数据挖掘的背景随着信息技术的高速发展,人们积累的数据量急剧增长,如何从海量的数据中提取有用的知识成为当务之急
18、。数据库技术的成熟以及数据应用的普及,虽然目前的数据库系统可以高效的实现数据的录入、查询、统计的功能,但无法发现数据中潜在的信息和价值,无法利用这些数据来预测未来的发展趋势。于是,新的问题就被提出来了:人类如何在这浩瀚的数据中及时发现有用的知识,提高数据的利用率呢?在不懈的努力下,从数据库中发现知识(Knowledge Discovery in Datebases)及其核心技术数据挖掘(Date Mining)便应运而生,并得以蓬勃的发展,越来越显出其强大的生命力。2.1.2 数据挖掘的定义数据挖掘(Data Mining),又译为资料探勘、数据采矿。它是数据库中的知识发现(Knowledge
19、 Discovery in Datebases,简称:KDD),是目前人工智能和数据库领域研究的热点问题,数据挖掘一般是指从大量的数据中通过算法搜索隐藏于其中信息的过程。所谓数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的数据中自动搜索隐藏于其中的有着特殊关系的信息,提取隐含在其中的,人们事先不知道的、但又是潜在有用的信息和知识的过程 2。2.2 数据挖掘的过程数据挖掘的过程可以分为以下几个部分:理解数据和数据的来源(unders tanding)、 获取相关知识与技术(acquisition)、 整合与检查数据(integration and checking)、 去除错误或不一致的数据(data cleaning)、 建立模型和假设(model and hypothesis development)、 实