1、西安财经学院本科专业课程教学大纲汇编 数据挖掘信息学院课程代码:0500301数据挖掘教学大纲Data Mining执 笔 人: 高 妮 审 核 人: 批 准 人: 西安财经学院本科专业课程教学大纲汇编 数据挖掘信息学院数据挖掘教学大纲基本概况课程中文名称 数据挖掘课程英文名称 Data Mining课程类别 专业选修课适用专业 计算机科学与技术、网络工程、软件工程专业先修课程 离散数学、数据结构、概率论和数据库系统等并修课程 计算机专业课程总学时 36 总学分 2使用教材 徐华.数据挖掘:方法与应用. 北京: 清华大学出版社, 2015.参考书目25 部1 (美)Jiawei Han、Mic
2、heline Kamber 著,范明等译. 数据挖掘:概念与技术(第三版). 北京:机械工业出版社 , 2012.2 赵卫东.商务智能(第二版 ).北京:清华大学出版社, 2016.3 (美)陈封能,斯坦巴赫,库玛尔,范明译. 数据挖掘导论(完整版). 北京:人民邮电出版社, 2011.4 (美) Robert I. Kabacoff 著,高涛等译 . R 语言实战. 北京:人民邮电出版社, 2013.5 孔志周、肖百龙. 数据挖掘实验. 北京:中国统计出版社, 2011.其它可利用的网络资源 无课程概述(课程的意义,教学目标,内容简介等)1. 课程意义:数据挖掘:方法与应用是软件工程专业教学
3、计划中一门专业选修课,是一门汇集统计学、机器学习、数据库、人工智能等学科内容的新兴的交叉性学科,是在信息技术领域迅速兴起的计算机技术。在很多重要的应用领域,数据挖掘都发挥着积极的作用。因此这门课程是软件工程相关专业的重要课程之一。本课程深入探讨数据挖掘原理,把信息科学、计算科学和统计学对数据挖掘的贡献融合在一起,培养软件工程专业高年级本科学生具备初步的科研能力和创造能力。2. 教学目标: 了解:数据挖掘领域发展趋势和主要应用,数据挖掘技术最新进展和前沿成果,数据挖掘的 OLAP 技术,复杂数据类型的数据挖掘技术等。掌握:数据预处理方法,包括数据清理、数据规约和数据变化等,数据仓库的概念和构建方
4、法,多维数据模型,数据立方体技术等。重点掌握:知识发现与数据挖掘的基本概念和基本理论,挖掘大型数据库的关联规则方法,贝叶斯分类技术,神经网络分类技术、K 均值聚类方法、层次聚类方法等。3. 课程内容:教学时数及分配:本课程在第七学期开设,教学周为十八周,总学时为 36 学时。其中理论教学 18 学时,实践操作 18 学时。数据挖掘:方法与应用的课堂讲授主要本课程以数据预处理、数据仓库设计、数据挖掘为主线,主要介绍数据挖掘的基本概念、原理、方法和技术,具体包括:数据预处理基本方法,数据仓库设计方法,多维数据模型表示方法,关联规则挖掘方法,数据分类方法,数据聚类方法等内容。通过课程的学习,使学生了
5、解数据挖掘技术最新进展和前沿成果,激发学生兴趣;掌握数据预处理方法,包括数据清理、数据规约和数据变化等,数据仓库的概念和构建方法,多维数据模型,数据立方体技术等知识;熟练掌握数据挖掘的基本概念和基本理论,挖掘大型数据库的关联规则方法,贝叶斯分类技术,神经网络分类技术、K 均值聚类方法等内容,并基于数据挖掘软件介绍一定的实际操作。西安财经学院本科专业课程教学大纲汇编 数据挖掘信息学院学时分配学 时 分 配 表章次 章 名 学时 备注第一章 绪论 2(教学)第二章 数据预处理 3(教学)第三章 数据仓库 3(教学)第四章 相关性与关联规则 3(教学)+4(实验一、二)第五章 分类和预测 4(教学)
6、+8( 实验三、四、五、六)第六章 聚类分析 3(教学 )+ 6(实验七、八、九)总学时合计 36理论教学内容与要求第一章 绪论教学目的 使学生对数据挖掘有一个初步、总体的认识。重点难点 本章节的重点是数据挖掘的定义,难点是它的基本步骤、主要技术和应用价值,如何激发学生对数据挖掘应用的领域及成功案例的兴趣。教学时数 2(教学)教学内容 应用背景、数据挖掘定义、主要技术、主要研究内容、面临的主要问题等。第 1 节 应用背景1 商业上的驱动2 科学研究上的驱动3 数据挖掘伴随着数据库技术而出现第 2 节 什么是数据挖掘1 基本描述2 关于知识发现第 3 节 数据挖掘的主要技术第 4 节 数据挖掘的
7、主要研究内容第 5 节 数据挖掘面临的主要问题第 6 节 数据挖掘相关的资料第 7 节 本书的总体章节安排练习题1 数据仓库与数据库有何不同?它们有哪些相似之处?2 与挖掘少量数据相比,挖掘海量数据的主要挑战是什么?第二章 数据预处理教学目的 使学生掌握数据的清理、集成和变换等预处理的基本方法。重点难点 本章节重点是数据的基本处理方法,难点是处理方法的应用。确保学生对处理方法的理论尚能掌握,进一步增加实际应用方面的操作。教学时数 3(教学)教学内容 数据预处理的基本概念、数据的描述、数据清洗、数据集成和转换和数据归约和变换等。西安财经学院本科专业课程教学大纲汇编 数据挖掘信息学院第 1 节 前
8、言第 2 节 数据预处理的基本概念1 数据的基本概念2 为什么要进行数据预处理3 数据预处理的任务第 3 节 数据的描述1 描述数据的中心趋势2 描述数据的分散程度3 描述数据的其他方式第 4 节 数据清洗1 数据缺失的处理2 数据清洗第 5 节 数据集成和转换1 数据集成2 数据冗余性3 数据转换第 6 节 数据归约和变换1 数据归约2 数据离散化3 概念层次生成练习题1 数据质量可以从多方面评估,包括准确性、完整性和一致性问题。对于以上每个问题,讨论数据质量的评估如何依赖于数据的应用目的,给出例子。2讨论数据集成需要考虑的问题。第三章 数据仓库教学目的 使学生掌握数据仓库的定义、多维数据模
9、型和 OLAP 技术。重点难点 本章节的重点是数据仓库的定义,难点是数据仓库的存储结构模式,概念分层的理解,以及数据仓库的设计,要确保学生能较好地掌握,还需课后多查看一些相关的资料。教学时数 3(教学)教学内容 数据库基本概念、数据仓库的定义、多维数据模型、数据仓库结构和功能、OLAP 技术、数据仓库应用等。第 1 节 前言第 2 节 数据库基本概念回顾1 数据库简介2 表、记录和域3 数据库管理系统第 3 节 数据仓库简介1 数据仓库特点2 数据仓库概念3 数据仓库作用4 数据仓库与 DBMS 对比5 分离数据仓库的原因第 4 节 多维数据模型1 数据立方体2 概念模型3 概念分层西安财经学
10、院本科专业课程教学大纲汇编 数据挖掘信息学院4 典型 OLAP 操作第 5 节 数据仓库结构1 数据仓库设计2 多层体系结构第 6 节 数据仓库的功能1 数据立方体的有效计算2 索引 OLAP 数据3 OLAP 查询的有效处理第 7 节从 数据仓库到数据挖掘1 数据仓库应用2 从 OLAP 到练习题1 简略比较一下概念:(1)数据清理、数据变换、刷新。(2)发现驱动的立方体、多特征立方体、虚拟立方体。2 列举三种流程的数据仓库建模模式。第四章 相关性与关联规则教学目的 了解需求管理的模型和流程;掌握需求获取、确认和控制的基本方法,理解变更控制的重要性。重点难点 本章节重点是关联规则的挖掘,难点
11、是 Apriori 算法的应用。教学时数 3(教学)+4(实验一、二)教学内容 基本概念、频繁项集挖掘方法、多种关联规则挖掘、从关联分析到相关分析、基于约束的频繁模式挖掘等。第 1 节 基本概念1 潜在的应用2 购物篮问题3 频繁模式分析、闭项集和关联规则第 2 节 频繁项集挖掘方法1 Apriori 算法2 由频繁项集产生关联规则3 提高 Apriori 的效率第 3 节 多种关联规则挖掘1 挖掘多层关联规则2 挖掘多维关联规则3 挖掘量化关联规则第 4 节 从关联分析到相关分析1 相关分析2 强规则不一定是有价值的3 挖掘高度关联的模式第 5 节 基于约束的频繁模式挖掘1 关联规则的元规则
12、制导挖掘2 基于约束的模式生成: 模式空间剪枝和数据空间剪枝练习题1简述关联规则挖掘步骤。2简述 Apriori 算法基本思想。 第五章 分类和预测西安财经学院本科专业课程教学大纲汇编 数据挖掘信息学院教学目的 使学生了解并掌握决策树、贝叶斯分类、神经网络、支持向量机等分类和预测算法。重点难点 本章节重点是分类和预测方法的概念,难点是几种主要的分类算法的应用和实现。教学时数 4(教学)+8(实验三、四、五、六)教学内容 分类和预测的基本概念、评价,决策树分类、朴素贝叶斯分类、神经网络、支持向量机、分类准确率等。第 1 节 前言第 2 节 基本概念1 什么是分类2 什么是预测第 3 节 关于分类
13、和预测的问题1 准备分类和预测的数据2 评价分类和预测方法第 4 节 决策树分类1 决策树归纳2 属性选择度量3 提取分类规则4 基本决策树归纳的增强5 在大数据集中的分类第 5 节 贝叶斯分类1 贝叶斯定理2 朴素贝叶斯分类3 贝叶斯信念网络4 贝叶斯网络学习第 6 节 神经网络1 神经网络简介2 多层神经网络3 神经网络训练4 后向传播5 网络剪枝和规则抽取第 7 节 支持向量机1 数据线性可分的情况2 数据线性不可分的情况3 支持向量机和神经网络的对比第 8 节 关联分类1 为什么有效2 常见关联分类算法第 9 节 分类准确率1 估计错误率2 装袋和提升练习题1简述决策树分类的主要步骤。
14、2为什么朴素贝叶斯分类称为“朴素”的?简述朴素贝叶斯分类的主要思想。第六章 聚类分析教学目的 使学生了解并掌握聚类分析的主要算法。西安财经学院本科专业课程教学大纲汇编 数据挖掘信息学院重点难点 本章节重点是聚类分析的概念,难点是几种主要的聚类分析算法的应用和实现。教学时数 3(教学)+6(实验七、八、九)教学内容 聚类分析的定义和数据类型,流聚类方法分类与相似性质量,基于分割、层次、密度、网络和模型的聚类等。第 1 节 聚类分析的定义和数据类型1 聚类的定义2 聚类分析和主要应用3 聚类分析方法的性能指标4 聚类分析使用的数据类型第 2 节 流聚类方法分类与相似性质量1 聚类分析方法分类2 连
15、续变量的距离与相似性度量3 二元变量与标称变量的相似性度量4 序数和比例标度变量的相似性度量5 混合类型变量的相似性度量第 3 节基于分割的聚类第 4 节基于层次的聚类第 5 节基于密度的聚类第 6 节基于网格的聚类第 7 节基于模型的聚类第 8 节离群点检测练习题 1简略介绍如下聚类方法:基于分割的方法、层基于次的方法、基于密度的方法。实验教学内容与要求实验一:安装 R 和操作实验目的 了解 R 软件的安装流程,利用 R 中的基本数学函数处理一些简单数据,通过对基本数学函数的操作了解 R 语言的基本操作过程,从而对 R 语言形成初步的认识。实验要求 掌握利用 R 语言实现数据读取功能的程序编
16、写;按照既定格式书写实验报告。实验时数 2实验内容 安装 R 软件、熟悉菜单,并安装程序包、调用程序包、查看程序包的帮助。实现读取 Excel 数据并另存为.txt 文件的功能。实验二:关联规则挖掘(Apriori 算法)实验目的 了解关联规则、频繁项集、闭项集和关联规则等概念。实验要求 掌握关联规则算法的基本思想,熟悉 Apriori 算法的应用;按照既定格式书写实验报告。实验时数 2实验内容 使用 R 语言程序实现 Apriori 算法,挖掘关联知识。实验三:决策树分类(C4.5 算法或 ID3 算法)实验目的 了解决策树归纳、属性选择度量、提取分类规则等概念。实验要求 掌握决策树分类算法
17、的基本思想,熟悉 C4.5 算法或 ID3 算法的应用;按西安财经学院本科专业课程教学大纲汇编 数据挖掘信息学院照既定格式书写实验报告。实验时数 2实验内容 使用 R 语言程序实现 C4.5 或 ID3 算法。实验四:贝叶斯分类 (NB 算法)实验目的 了解贝叶斯定理、朴素贝叶斯分类、贝叶斯信念网络等概念。实验要求 掌握朴素贝叶斯分类算法的基本思想,熟悉 NB 算法的应用。实验时数 2实验内容 使用 R 语言程序实现 NB 算法。实验五:神经网络分类(BP 算法)实验目的 了解神经网络、多层神经网络、后向传播、网络剪枝等概念。实验要求 掌握神经网络分类算法的基本原理,熟悉 BP 算法的应用;按
18、照既定格式书写实验报告。实验时数 2实验内容 使用 R 语言程序实现 BP 算法。实验六: 支持向量机分类(SVM 算法)实验目的 了解数据线性可分、数据线性不可分的概念,能区别支持向量机和神经网络分类的差异性。实验要求 掌握支持向量机分类算法的基本原理,熟悉 SVM 算法的应用;按照既定格式书写实验报告。实验时数 2实验内容 使用 R 语言程序实现 SVM 算法。实验七:基于分割的聚类(K-means 算法)实验目的 了解距离、相似度等概念。实验要求 掌握基于分割的聚类算法的基本原理,熟悉 K-means 算法的应用;按照既定格式书写实验报告。实验时数 2实验内容 使用 R 语言程序实现 K
19、-means 算法。实验八:基于层次的聚类(AGNES 算法)实验目的 了解凝聚的层次聚类方法、分裂的层次聚类方法、树状图、连接度量等概念。实验要求 掌握基于层次的聚类算法的基本原理,熟悉 AGNES 算法的应用;按照既定格式书写实验报告。实验时数 2实验内容 使用 R 语言程序实现 AGNES 算法。实验九:基于密度的 聚类(DBSCAN 算法)实验目的 了解邻域密度、核心对象、离群点、密度可达和密度相连等概念。实验要求 掌握基于密度的聚类算法的基本原理,熟悉 DBSCAN 算法的应用;按照既定格式书写实验报告。西安财经学院本科专业课程教学大纲汇编 数据挖掘信息学院实验时数 2实验内容 使用 R 语言程序实现 DBSCAN 算法。考核方式本课程考试课程,考核成绩由: 平时考核(20% )实验(20%)+期末考核(60% )构成。(一)平时成绩 20%根据学生上课出勤情况、课堂表现、回答问题情况给出平时考核成绩,对于缺席 3 次以上者,取消期末考核资格。(二)实验 20%根据学生在实验课程中提交的实验报告情况给出实验考核成绩。(三)课程论文 60%考试选择实际的数据,考察学生对基本数据挖掘方法的掌握以及应用能力。该部分成绩由学生期末提交的论文情况综合给出。其中论文成绩主要考核论文的完整性、创新性、研究深度、格式规范性等。