1、 山东大学硕士学位论文基于数据挖掘的决策树技术在成绩分析中的应用研究姓名:黄芳申请学位级别:硕士专业:计算机软件与理论指导教师:周大水20090420山 东大 学 硕 士 学 位 论 文由于 高校连 年 扩招 ,造 成了 在校生人数 规 模剧 增 ,给高校的教学 工 作 带 来 了许多 影 响 教学 质 量 的问 题。 教师 在教学 实施 过 程 中 往 往 积累 了 大 量 的数 据 ,但 目前对 这 些数 据 的处理 还 停留在初级 的数 据 备 份 、 查 询及 简单统 计 阶段 ,不能 发 挥它 应 有的作 用。 如对 学 生成绩 的分 析 处理 一般 仅 仅 是 统 计 成绩 为优
2、、 良 、 一般 、差 等 级 别 的人数 ,对 于 学 生取 得 这 些成绩 的原因往 往 无 法 了 解 。 从而 无 法 针 对 教学 中 已存在的问 题进行相 应 的变 革 ,也就 不能 很 好 的提 高教学 质 量 。山 东大 学 硕 士 学 位 论 文 山 东大 学 硕 士 学 位 论 文 苈 畚脑诮饷芎 笥袷卮斯 娑 山 东大 学 硕 士 学 位 论 文决策 树 技 术 是 数据 挖掘 分 类 和 预 测的主 要 课 题提出的研究 背 景 及意 义山 东大 学 硕 士 学 位 论 文统 计 学 界接受 并 获 得 了 信 赖, 并 很 快 得 到 推广 应 用。现 在很 多 公
3、司 的 数 据 挖 掘 产论 描述 蟪 霾呤 魉 惴 幸 恢 止 阄 H酥 5 乃 惴 褪荌 算 法, 是 年 由成 、 关联 发 现 、 序 列 规 律 发 现 、 概念 性分 类 和可 视 化 显 示 等功 能 , 可 以自 动实 现数 据 选 择、 数 据 转 换 、 数 据 发 掘 和结 果 显 示 , 必 要 时 重复 这 一 过程 。 公 司 的 提 供了 一 个 可 视 化 的 快 速 建 模环 境, 由数 据 获 取 、 挖 掘 、 整理、建 模和报 告 等部 分 组 成 。中科 院 计 算 技 术研 究 所 智 能 信息 处 理重点实 验室 开 发的 是一 种 多 策略 知
4、识 发 现 平台 , 能 够 提 供快 捷 有 效 的 数 据 挖 掘 解决 方 案 ,山 东大 学 硕 士 学 位 论 文 镜 腗 , 公 司 的 分 类 回 归 树 惴 昕 J嫉 玫 狡 占巴 乒 悖 啥粤 鸵 虮淞 拷 写 怼 。,针对 这 些算 法的 缺 点, 很 多 研 究 人 员 尝 试 在控 制 树 的 大 小和简化 决 策树 等方 面作出 努 力, 通过 研 究 各 种 预剪 枝算 法和后 剪 枝算 法来 控 制 树 的 规 模, 同 时 在修 改测试 属性空 间、 改进测 试 属性选 择方 法、 限 制 数 据 集、 改变数 据 结 构 等方 面提 出 了许 多 新 的 算
5、法和标准 。山 东大 学 硕 士 学 位 论 文 研究 对象山 东大 学 硕 士 学 位 论 文第 二章 数 据挖掘 的 相关理 论数 据挖掘 位 就 是 从 大 量 的 、 不 完 全 的 、 有 噪 声的 、 模糊 的 、随 机的 原 始 数 据中 , 提取 隐 含在其中 的 、 人 们 事 先 不 知 道 的 、 但又是 潜在有 用、可 信 新颖的 信 息和 知 识的 过程 。 从 广 义角 度 讲 , 数 据、 信 息是 知 识的 表 现 形式 ,但在数 据挖掘 中 更多 把概念 、 规则 、 模式 、 规律 和 约束 等 看 作 知 识。 原 始 数 据可以是 结 构化的 , 如 关
6、系 型 数 据库 中 的 数 据, 也 可 以是 半 结 构化的 , 如 文 本、 图 形、图 像数 据, 甚 至是 分 布 在网 络上的 异构型 数 据。 发现 知 识的 方 法 可 以是 数 学 的 或非 数 学 的 、 演 绎 的 或归 纳的 。 发现 的 知 识可 以被用于 信 息管 理 、 查 询优 化、 决 策支持 、 过程 控 制 等 。 总 之 , 数 据挖掘 是 一 门 广 义的 交 叉 学 科 , 它的 发展和 应 用涉及到 不 同的 领 域 , 尤 其是 数 据库 、 人 工智 能、 数 理 统 计 、 可 视 化、 并 行 计 算 等 。数 据挖掘 也 被称为 数 据库
7、 中 知 识发现 数 据库 理 论 的 发展促成了 数 据仓 库 的 形成, 人 工智 能的 发展促进了 机器 学 习的 进步, 同时这 些 技 术与 传 统 的 数 理 统 计 理 论 的 结 合 , 最 终 促成了 数 据挖掘 的 产山 东大 学 硕 士 学 位 论 文山 东大 学 硕 士 学 位 论 文山 东大 学 硕 士 学 位 论 文 !窕 事 巢 玖苛苛縷 量 曩 一 弧 籌 一 。 一山 东大 学 硕 士 学 位 论 文由于 数据 挖 掘 本身涉 及到不 同 的学 科 领 域,其 分类 方 法 也 有 很 多:分类 分析指 分析数据 库 中的一 组对象 ,找出 其 共同 属 性
8、,构 造 分类 模 型 ,然后 利 用分类 模 型 对其 它 的数据 对象 进行分类 。要 构 造 分类 模 型 ,需 要 一 个 训练样本数据 集 作为输入 ,训练集 由一 组数据 库 记录 或元 组组成,每个 元 组包 含 一 些字段 值 ,这 些字 段 和 测试集 中记录 的字 段 相 同 ,另外 ,每个 训练样 本记录 有 一 个 类别 标识 。分类 目标是 分析训练集 中的数据 ,利 用数据 中能得 到的特征,为每一 类建立 一 个 恰当 的描 述或模 型 ,然 后 根 据 这 些分类 描 述对测试数据 进行分类 或产生更 恰当 的描 述。山 东大 学 硕 士 学 位 论 文山 东大
9、 学 硕 士 学 位 论 文关联 分析的目的是 挖可 视 化是 指 用图 表 等 形 式来 表 示 数据 ,是 数据 挖 掘 中一 种 很 重要 的技 术,它拓 宽了 传统 图 表 的功 能,使 用户对数据 的剖析更 清 楚 。通过 可 视 化技 术可 以 把 数据 库 中的多维数据 变 成多种 图 形 ,这 对提 示 数据 的状况、 内 在 本质及规 律 性 起到了 很 大 作用。山 东大 学 硕 士 学 位 论 文量曼 量量量皇 兽量量鼍 曼 量曼 曼 量曼 山 东大 学 硕 士 学 位 论 文最 早意识到自 然 遗 传 算 法可 以 转 化 为 人 工 遗 传 算 法,述 了 遗 传 算
10、 法的基 本 理 论 和 方法,并提 出 了 极为 重要 的模 式理 论山 东大 学 硕 士 学 位 论 文对 数 据 集 合中 每一 个 记 录 进 行分类 的方法。山 东大 学 硕 士 学 位 论 文 数 据挖 掘 系统体 系构成山 东大 学 硕 士 学 位 论 文 分类 算 法概述山 东大 学 硕 士 学 位 论 文对 分类 器评价 主要 有三种尺度:象 是巨 量的 数 据 库 , 因此 空 间和时 间的 复 杂 度问 题 将 是非常 重 要 的 一个环 节。山 东大 学 硕 士 学 位 论 文 扛 鍪 粜钥赡 苁 侵 道嘈 停 部 赡 苁 敲毒倮 嘈 二叉 决 策 树既 可 以 被 看
11、 作 前山 东大 学 硕 士 学 位 论 文 绻 粜员 矸 强 眨 祷 , 否则 输 出。 上 发 展 起 来的 一种自顶向 下的山 东大 学 硕 士 学 位 论 文 。若一个训 练 集合 堇 啾鹗 粜缘 闹当 环 殖蒻个互 相独 立的 类 ! 。 、 , 虸 唬 分别 是 虲 叫中 元 组 的个数。其 中 狢。 海 的概率山 东大 学 硕 士 学 位 论 文 桕 ,信 息 量, 信 息 增 益 度公 式为: 械 氖 粜訟 计算信 息 增 益 , ;山 东大 学 硕 士 学 位 论 文索 空 间中 , 不 存在无 解的 危 险 , 其 次 全 盘 使 用 训 练 数 据 , 而不 是象 候选
12、剪 除算法一个一 个地考 虑 训 练 集数 据 , 这 样 做 可 以 利 用 全 部 训 练 集数 据 的 统 计性 质 进行 决理 论 和实际应 用 中 还有很多 课 题 有待于更 进一 步 的 研 究 。著 。第 三, 边 构 造决 策 树, 一边 进行 评价 , 决 策 树构 造出来之 后, 很 难 再 调山 东大 学 硕 士 学 位 论 文整树 的 结 构 和内容 , 决 策 树 性能的 改善 十 分困 难 。 ;降低了 树 的 可 理 解 性和可 用 性, 也就 是说这 棵 决 策 树 对 此历史 数 据 可 能非 常 准确 , 一 旦 应用 到 新的 数 据 时 准确 性却急 剧下 降。 为防 止 训 练 过度 并减少 训 练 时 间,就 需 要建 立能使树 在适 当的 时 候 停 止 生 长的 方 法 。对 于 树 中每个非 叶结 点, 由 算法 计算 该 结 点熵 的予树 被剪枝可 能出现的期 望