收藏 分享(赏)

决策树算法及其常见问题的解决.pdf

上传人:精品资料 文档编号:10477015 上传时间:2019-11-21 格式:PDF 页数:5 大小:168.78KB
下载 相关 举报
决策树算法及其常见问题的解决.pdf_第1页
第1页 / 共5页
决策树算法及其常见问题的解决.pdf_第2页
第2页 / 共5页
决策树算法及其常见问题的解决.pdf_第3页
第3页 / 共5页
决策树算法及其常见问题的解决.pdf_第4页
第4页 / 共5页
决策树算法及其常见问题的解决.pdf_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http:/决 策 树 算 法 及 其 常 见 问 题 的 解 决 X李 宁 乐 琦(重 庆 大 学 计 算 机 学 院 重 庆 400044)摘 要决 策 树 这 种 数 据 挖 掘 技 术 是 目 前 最 有 影 响 和 使 用 最 多 的 数 据 挖 掘 技 术 之 一 ,生 成 决 策 树 的 算 法 也 比 较 多 ,但 是 在 这 些生 成 决 策 树 的 算 法 中 都 需 要 解 决 两 个 问 题 数 据 过

2、分 近 似 和 测 试 属 性 的 选 择 。关 键 词 :数 据 挖 掘 决 策 树 训 练 集 数 据 过 分 近 似中 图 分 类 号 : TP311. 12Decision Tree Algorithm and the Solution to Its ProblemsLi Ning Yue Qi(Computer College , Chongqing University ,Chongqing 400044)Abstract :Decision tree is a kind of data mining technologies which are used most widely

3、and have the biggest influence at pre2sent. The same , there are many algorithms that produce decision trees , but two problems which are overfitting and the choice oftesting attribution should be solved in all of these algorithms.Key words :data mining ,decision tree ,training set ,overfittingClass

4、 number :TP311. 121 引 言随 着 数 据 挖 掘 技 术 的 越 来 越 广 泛 的 应 用 ,决 策树 作 为 数 据 挖 掘 技 术 中 一 种 分 类 问 题 的 解 决 方 法也 受 到 重 视 ,正 在 被 广 泛 的 研 究 。 约 20 年 前 ,决 策树 这 种 数 据 挖 掘 技 术 的 形 式 就 已 经 和 现 在 非 常 相似 了 ,算 法 的 早 期 版 本 可 以 追 溯 到 20 世 纪 60 年代 2 。 以 后 决 策 树 归 纳 算 法 被 广 泛 应 用 到 许 多 进行 分 类 识 别 的 应 用 领 域 。 这 类 算 法 无 需

5、相 关 领 域知 识 ,归 纳 的 学 习 与 分 类 识 别 的 操 作 处 理 速 度 都 相当 快 。 而 对 于 具 有 细 长 条 分 布 性 质 的 数 据 集 合 来讲 ,决 策 树 归 纳 算 法 相 应 的 分 类 准 确 率 是 相 当 高的 。 决 策 树 也 是 分 析 消 耗 、 发 现 交 叉 销 售 机 会 、 进行 促 销 、 信 用 风 险 或 破 产 分 析 和 发 觉 欺 诈 行 为 的 得力 工 具 。 采 用 决 策 树 ,可 以 将 数 据 规 则 可 视 化 ,也不 需 要 长 时 间 的 构 造 过 程 ,输 出 结 果 容 易 理 解 ,精度

6、较 高 ,因 此 决 策 树 在 知 识 发 现 系 统 中 应 用 较 广 。决 策 树 的 广 泛 应 用 使 得 对 决 策 树 生 成 算 法 也 得 到更 多 的 研 究 ,生 成 决 策 树 算 法 应 当 注 意 的 问 题 主 要是 数 据 过 分 近 似 和 测 试 属 性 选 择 问 题 的 处 理 。2 决 策 树 基 本 概 念2. 1 决 策 树所 谓 决 策 树 1 ,2 ,4 ,8 ,9 ,12 就 是 一 个 类 似 流 程 图的 树 型 结 构 ,其 中 树 的 每 个 内 部 节 点 代 表 对 一 个 属性 的 测 试 ,其 分 支 就 代 表 测 试 的

7、 每 个 结 果 ,而 树 的每 个 叶 节 点 就 代 表 一 个 类 别 ,树 的 最 高 层 节 点 就 是根 节 点 ,是 整 个 决 策 树 的 开 始 。 例 如 在 贷 款 申 请中 ,要 对 申 请 的 风 险 大 小 做 出 判 断 ,图 1 就 是 为 了图 1 一 棵 简 单 的 决 策 树06 计 算 机 与 数 字 工 程 第 33 卷X 收 到 本 文 时 间 :2004 年 7 月 23 日 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http

8、:/解 决 这 个 问 题 而 建 立 的 一 棵 决 策 树 ,从 中 我 们 可 以看 到 决 策 树 的 基 本 组 成 部 分 :决 策 节 点 、 分 支 和 叶子 。2. 2 例 子 和 训 练 集一 个 例 子 由 一 组 属 性 的 值 和 一 个 目 标 述 词(goal predicate) 的 值 所 构 成 。 通 常 ,目 标 述 词 的 值也 被 称 为 一 个 例 子 的 种 类 ,根 据 它 我 们 可 以 把 所 有的 例 子 分 成 两 部 分 ,一 种 是 目 标 述 词 为 “ 是 ” 的 正例 ,另 一 种 是 反 例 ,目 标 述 词 的 值 为 “

9、 否 ” 。 一 个 完整 例 子 的 集 合 称 为 训 练 集 (training set) 。3 生 成 决 策 树 常 用 算 法数 据 挖 掘 中 决 策 树 是 一 种 经 常 要 用 到 的 技 术 ,可 以 用 于 分 析 数 据 ,同 样 也 可 以 用 来 做 预 测 ,常 用的 算 法 有 ID3、 CART、 CHAID、 C4. 5、 C5. 0 等 6 。3. 1 ID3 算 法 及 C4. 520 世 纪 70 年 代 末 ,J . Ross Quinlan 提 出 了 一种 基 于 信 息 熵 的 ID3 决 策 树 算 法 8 ,12 ,这 是 最 有影 响

10、和 最 早 的 决 策 树 算 法 之 一 。 ID3 是 建 立 在 60和 70 年 代 的 推 理 系 统 和 概 念 学 习 系 统 的 坚 实 基 础上 的 ,存 在 很 多 问 题 : ID3 是 非 递 增 学 习 算 法 ,每 当一 个 或 数 个 新 例 子 进 来 ,就 必 须 重 新 执 行 一 次 ID3算 法 ,把 新 来 的 例 子 和 以 前 的 旧 的 全 部 例 子 的 集 合变 成 决 策 树 ,这 是 一 种 效 率 非 常 差 的 算 法 ; ID3 决策 树 是 单 变 量 决 策 树 ,复 杂 概 念 的 表 达 困 难 ;同 性间 的 相 互 关

11、系 强 调 不 够 ;抗 噪 性 差 。C4. 5 是 ID3 的 改 进 版 本 10 ,11 ,它 主 要 在 以 下几 个 方 面 对 ID3 作 了 改 进 :缺 省 值 的 预 测 属 性 仍然 可 用 ;有 连 续 值 的 预 测 属 性 可 用 ;提 出 了 修 剪 ;可以 进 行 规 则 推 导 。3. 2 CARTCART ( Classification and Regression Trees 分类 回 归 树 ) 4 是 由 Leo Breiman、 Jerome Friedman、Richard Olshen 和 Charles Stone 于 1984 年 提 出

12、的一 种 数 据 勘 测 和 预 测 算 法 。 CART 是 用 一 种 非 常简 单 的 方 法 来 选 择 问 题 :把 每 个 问 题 都 试 一 次 。 把每 个 问 题 都 试 一 遍 以 后 ,CART 挑 出 最 好 的 一 个 ,用 它 把 数 据 分 成 更 有 序 的 两 个 分 割 ,再 对 新 的 分 割分 别 提 所 有 可 能 的 问 题 。 CART 算 法 得 到 的 决 策树 每 个 节 点 有 两 个 分 支 ,这 种 树 也 称 为 二 叉 树 。3. 3 CHAIDCHAID ( Chi - Square Automatic InteractionDe

13、tector ,卡 方 自 动 交 互 检 测 )是 一 种 快 速 多 维 树 型统 计 算 法 。 CHAID 的 目 的 主 要 是 在 每 次 分 割 时 利用 卡 方 检 验 (Chi - Square Test) 来 计 算 节 点 中 类 别的 属 性 值 ,以 属 性 值 大 小 来 决 定 决 策 树 是 否 继 续 生长 ,不 必 作 修 剪 树 的 动 作 。 CHAID 自 动 地 把 数 据分 成 互 斥 的 、 无 遗 漏 的 组 群 ,但 只 适 用 于 类 别 型 资料 。3. 4 C5. 0C5. 0 也 是 ID3 的 改 进 算 法 ,我 们 通 过 下

14、面 的例 子 来 说 明 C5. 0 的 不 同 之 处 ,当 分 析 人 员 指 定 了目 标 变 量 比 如 说 客 户 是 否 忠 诚 ,它 会 自 动 的 按照 某 种 规 则 找 到 一 个 变 量 比 如 说 性 别 ,使 得 目标 变 量 在 该 变 量 的 区 分 度 最 大 (即 男 性 和 女 性 的 忠诚 度 有 很 大 的 区 别 ) ,继 而 在 第 一 个 变 量 区 分 的 基础 上 ,再 找 出 针 对 不 同 性 别 的 人 哪 一 变 量 可 以 把 客户 忠 诚 进 行 最 大 的 区 分 ,依 次 类 推 ,直 到 达 到 某 种标 准 结 束 。 把

15、以 上 步 骤 总 结 成 类 似 于 上 面 描 述 的规 则 ,就 构 成 了 客 户 是 否 忠 诚 的 概 念 描 述 。4 生 成 决 策 树 常 见 问 题 的 处 理4. 1 决 策 树 的 数 据 过 分 近 似 问 题如 果 在 训 练 集 里 有 噪 声 存 在 的 话 ,就 可 能 会 有无 法 产 生 决 策 树 的 情 况 出 现 。 例 如 现 在 有 两 个 以上 的 例 子 ,除 了 种 类 以 外 ,其 他 属 性 均 相 同 ,无 论 用什 么 属 性 测 试 ,都 无 法 产 生 一 个 决 策 树 使 每 个 树 叶节 点 里 的 例 子 的 种 类 都

16、 相 同 。 现 在 考 虑 物 体 的 属性 里 有 和 分 类 不 相 关 的 属 性 存 在 ,假 设 前 述 的 例 子们 ,除 了 不 相 关 的 属 性 不 同 外 ,其 他 属 性 均 相 同 ,种类 值 也 不 同 ,经 由 前 面 提 到 的 算 法 ,还 是 有 可 能 找到 一 个 决 策 树 ,使 每 个 树 叶 节 点 的 例 子 的 种 类 值 都相 同 。 会 发 生 这 种 问 题 原 因 在 于 算 法 在 产 生 决 策树 的 过 程 中 选 用 了 不 相 干 的 属 性 来 对 训 练 集 做 测试 ,所 以 在 这 种 情 况 经 由 决 策 树 下

17、找 到 的 假 设 也 一定 是 不 正 确 的 ,这 种 问 题 我 们 称 之 为 数 据 过 分 近 似(overfitting) 1 。 产 生 数 据 过 分 近 似 的 原 因 有 两个 :第 一 ,物 体 本 身 的 属 性 太 多 ,有 些 和 种 类 不 相关 ,决 策 树 算 法 容 易 选 用 到 和 种 类 不 相 关 的 属 性 ;第 二 ,每 个 属 性 选 择 算 法 在 寻 找 测 试 属 性 时 ,都 有自 己 的 偏 好 ,所 以 非 常 有 可 能 会 找 到 算 法 所 偏 好 ,但 不 是 真 正 和 种 类 相 关 的 属 性 。所 以 ,要 在 产

18、 生 决 策 树 时 避 免 选 择 不 相 关 的 属性 是 不 大 可 能 的 ,只 能 用 比 较 消 极 的 方 式 ,在 决 策树 产 生 之 后 ,去 检 查 每 个 种 类 的 属 性 ,是 不 是 真 的和 种 类 相 关 ,如 果 答 案 是 否 定 的 ,就 把 这 项 属 性 从决 策 树 里 删 除 ,这 种 技 巧 就 叫 决 策 树 修 剪 法 (deci2sion tree pruning) 。 目 前 主 要 有 事 前 修 剪 和 事 后 修剪 两 种 决 策 树 修 剪 方 法 。(1)事 前 修 剪 (prepruning)方 法 9 16第 33 卷 (

19、2005)第 3 期 计 算 机 与 数 字 工 程 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http:/该 方 法 通 过 提 前 停 止 分 支 生 成 过 程 ,即 通 过 在当 前 节 点 上 就 判 断 是 否 需 要 继 续 划 分 该 节 点 所 含训 练 集 来 实 现 。 一 但 停 止 分 支 ,当 前 节 点 就 成 为 一个 叶 节 点 ,该 叶 节 点 中 可 能 包 含 多 个 不 同 类 别 的 训练 样 本 。 在 建 造 一 个 决 策

20、 树 时 ,可 以 利 用 统 计 上 的重 要 性 检 测 X2 或 信 息 增 益 等 来 对 分 支 生 成 情 况 进行 评 估 。 如 果 在 一 个 节 点 上 划 分 样 本 集 时 ,会 导 致节 点 中 样 本 数 少 于 指 定 的 阈 值 ,则 要 停 止 继 续 分 解样 本 集 合 。 但 确 定 这 样 一 个 合 理 的 阈 值 常 常 也 比较 困 难 ,阈 值 过 大 会 导 致 决 策 树 过 于 简 单 化 ,而 阈值 过 小 时 又 会 导 致 多 余 树 枝 无 法 修 剪 。 事 前 修 剪方 法 中 具 有 代 表 性 的 是 X2修 剪 法 ,先

21、 假 设 某 一 项属 性 和 种 类 之 间 完 全 无 关 ,然 后 再 计 算 它 和 实 际 情况 间 的 偏 移 ,接 着 再 利 用 统 计 上 的 方 法 ,可 以 计 算出 这 个 属 性 和 种 类 完 全 不 相 关 的 几 率 。 如 果 这 个几 率 很 低 ,表 示 这 项 属 性 和 种 类 间 是 相 关 的 ,反 之 ,则 表 示 两 者 不 相 关 的 可 能 很 高 。 设 p 是 训 练 集 里正 例 的 数 量 ,n 是 训 练 集 里 反 例 的 数 量 ,假 设 分 类属 性 共 有 v 个 值 ,pi和 ni 代 表 每 个 子 集 合 里 正 例

22、 和反 例 的 数 量 。 前 面 两 个 式 子 分 别 代 表 在 每 一 个 子集 合 里 ,若 属 性 和 种 类 完 全 无 关 ,所 应 该 有 的 正 例数 和 反 例 数 。 最 后 的 式 子 里 的 D 就 是 偏 移 ,因 为D 沿 着 X2轴 ,以 v - 1 的 自 由 度 分 布 ,所 以 这 种 决策 树 的 修 剪 法 称 为 X2 修 剪 法 。p i = pp + n 3 ( pi + ni)n i = pp + n 3 ( pi + ni)D = vi = 1( pi - p i) 2p i +( ni - n i) 2n i(2)事 后 修 剪 (pos

23、tpruning)方 法 1 该 方 法 从 一 个 “ 充 分 生 长 ” 树 中 ,修 剪 掉 多 余 的树 枝 。 基 于 代 价 成 本 的 修 剪 算 法 就 是 一 个 事 后 修剪 方 法 ,被 修 剪 的 节 点 就 成 为 一 个 叶 节 点 ,并 将 其标 记 为 它 所 包 含 样 本 中 类 别 个 数 最 多 的 类 别 。 而对 于 树 中 每 个 非 叶 节 点 ,计 算 出 若 该 节 点 被 修 剪 后所 发 生 的 预 期 分 类 错 误 率 ;同 时 根 据 每 个 分 支 的 分类 错 误 率 ,以 及 每 个 分 支 的 权 重 ,计 算 若 该 节

24、点 不被 修 剪 时 的 预 期 分 类 错 误 率 ;如 果 修 剪 导 致 预 期 分类 错 误 率 变 大 ,则 放 弃 修 剪 ,保 留 相 应 节 点 的 各 个分 支 ,否 则 就 将 相 应 节 点 分 支 修 剪 删 去 。 在 产 生 一系 列 经 过 修 剪 的 决 策 树 候 选 之 后 ,利 用 一 个 独 立 的测 试 数 据 集 ,对 这 些 经 过 修 剪 的 决 策 树 的 分 类 准 确性 进 行 评 价 ,保 留 下 预 期 分 类 错 误 率 最 小 的 决 策树 。 除 了 利 用 预 期 分 类 错 误 率 进 行 决 策 树 修 剪 之外 ,还 可

25、以 利 用 决 策 树 的 编 码 长 度 来 进 行 决 策 树 的修 剪 。 所 谓 最 佳 修 剪 树 就 是 编 码 长 度 最 短 的 决 策树 ,这 种 修 剪 方 法 利 用 最 短 描 述 长 度 ( MinimumDescription Length ,简 称 MDL) 原 则 来 进 行 决 策 树的 修 剪 。 该 原 则 的 基 本 思 想 就 是 :最 简 单 的 就 是 最好 的 。 与 基 于 代 价 成 本 方 法 相 比 ,利 用 MDL 进 行决 策 树 修 剪 时 无 需 额 外 的 独 立 测 试 数 据 集 。 当 然事 前 修 剪 可 以 与 事 后

26、 修 剪 相 结 合 ,从 而 构 成 一 个 混合 的 修 剪 方 法 。 事 后 修 剪 比 事 前 修 剪 需 要 更 多 的计 算 时 间 ,从 而 可 以 获 得 一 个 更 可 靠 的 决 策 树 。4. 2 测 试 属 性 选 择 问 题在 建 立 决 策 树 时 ,减 少 测 试 后 产 生 的 新 子 节 点内 的 凌 乱 度 ( disorder) 是 选 择 测 试 属 性 的 基 本 精神 ,能 够 使 节 点 测 试 的 动 作 尽 量 减 少 ,尽 快 使 每 个树 叶 节 点 内 的 每 个 例 子 种 类 都 相 同 ,这 样 建 立 起 来的 决 策 树 的

27、深 度 会 比 较 浅 ,相 同 地 ,决 策 树 也 会 变得 比 较 小 。 选 择 测 试 属 性 的 方 法 主 要 有 以 下 两 种 :(1)直 觉 上 的 方 法 3 所 谓 直 觉 上 的 方 法 ,就 是 要 找 到 一 个 属 性 ,使测 试 后 的 每 组 例 子 的 子 集 合 之 间 的 差 异 性 最 大 ,就是 想 办 法 把 测 试 的 例 子 尽 量 归 属 于 已 经 不 用 继 续再 测 试 的 子 集 合 。(2)使 用 信 息 理 论 ( Information Theory)使 用 直 觉 方 法 时 ,一 旦 训 练 集 内 的 例 子 变 多 ,

28、就 有 可 能 发 生 无 论 使 用 哪 个 属 性 测 试 ,都 无 法 产 生任 何 一 个 不 须 再 测 试 的 子 集 合 的 情 况 ,所 以 直 觉 上的 方 法 只 适 用 于 训 练 集 很 小 的 时 候 ,此 时 可 以 使 用信 息 理 论 来 解 决 这 个 问 题 。 信 息 理 论 于 1949 年 由Shannon 提 出 5 ,最 早 用 来 处 理 一 些 与 通 讯 上 有 关的 问 题 ,之 后 Quinlan 于 1979 年 提 出 ID3 决 策 树归 纳 算 法 ,使 用 信 息 理 论 来 当 作 选 择 测 试 属 性 时 的依 据 ,造

29、成 了 革 命 性 的 突 破 。假 设 一 个 事 件 共 有 n 种 结 果 ,这 n 种 结 果 发 生的 几 率 分 别 是 P (v1) , , P (vn) ,这 些 几 率 是 我 们已 经 事 先 知 道 的 ,当 这 个 事 件 发 生 后 ,我 们 经 由 这个 事 件 所 得 到 的 信 息 为 :I ( P( v1) ,. . . , P( vn) ) = ni =1- P( vi) log P( vi)上 式 表 示 了 以 二 进 位 方 式 表 达 这 项 事 件 所 需的 平 均 位 元 数 。 换 个 角 度 来 看 ,信 息 量 也 可 以 当 作凌 乱 度

30、 的 指 标 ,信 息 量 越 高 ,表 示 凌 乱 度 越 大 。 如果 把 测 试 后 每 个 子 集 合 的 几 率 定 义 为 每 个 子 集 合里 的 例 子 数 量 比 ,就 可 以 使 用 信 息 理 论 来 解 决 属 性选 择 的 问 题 。 目 前 主 要 有 三 种 使 用 信 息 理 论 的 属性 选 择 法 :information gain 属 性 选 择 法 、 gain ratio属 性 选 择 法 、 以 及 “ 以 距 离 为 基 础 的 ” distance -26 决 策 树 算 法 及 其 常 见 问 题 的 解 决 第 33 卷 1994-2010

31、China Academic Journal Electronic Publishing House. All rights reserved. http:/based 属 性 选 择 法 。(a) information gain 属 性 选 择 法information gain 属 性 选 择 法 是 由 Quinlan 于1979 年 提 出 ,使 用 在 ID3 决 策 树 归 纳 算 法 中 。 因为 信 息 越 小 凌 乱 度 越 小 ,所 以 应 该 选 择 测 试 后 信 息最 小 的 属 性 ,就 是 选 用 information gain 最 大 的 属性 。 下 面

32、是 information gain 比 较 正 式 的 定 义 , I(X)是 测 试 前 的 信 息 ,代 表 训 练 集 被 种 类 分 割 后 的信 息 ; E(Ak , X)是 测 试 后 的 信 息 ,代 表 训 练 集 被 属性 Ak 测 试 后 每 个 子 集 合 内 的 信 息 I(Xi)的 加 权 和 ,加 权 值 为 子 集 合 Xi 内 的 例 子 数 除 以 训 练 集 X内 的例 子 数 。X :a finite set of examples.A1 ,. . . ,Ap :a set of attribute.F1 ,. . . ,Fm :a set of pos

33、sible classifications.Gai n ( A k , X) = I ( X) - E ( A k , X)E ( A k , X) = ni = 1| Xi| X| I ( Xi)使 用 这 种 属 性 选 择 法 最 大 的 问 题 是 ,它 倾 向 于选 出 值 很 多 种 、 每 个 值 内 的 例 子 都 不 是 很 多 的 那 种属 性 ,这 被 称 为 算 法 的 偏 见 。 而 且 ,通 常 这 种 情 况下 所 选 出 来 的 属 性 ,就 是 和 种 类 不 相 关 的 ,如 果 测试 集 合 里 有 噪 声 的 话 ,还 有 可 能 会 使 产 生 出 来

34、 的 决策 树 看 起 来 一 切 正 常 ,但 实 际 上 却 并 不 正 确 的 情 形出 现 。(b) Gain ratio 属 性 选 择 法Quinlan 于 1986 年 修 改 了 ID3 决 策 树 归 纳 算法 里 的 属 性 选 择 法 ,对 information gain 测 试 属 性的 信 息 做 正 规 化 ,称 为 gain ratio。 如 下 式 , GR (Ak ,X) 为 gain ratio , I ( X) - E (Ak , X) 是 属 性 Ak的information gain ,IV (Ak) 为 该 属 性 的 信 息 。 通 常 ,那 种

35、 值 很 多 的 属 性 ,information gain 较 大 ,信 息 也比 较 高 ,所 以 正 规 化 就 可 以 减 少 information gain在 这 方 面 的 偏 见 。GR ( A k , X) = I ( X) - E ( A k , X)IV ( Ak)gain ratio 属 性 选 择 法 也 存 在 下 面 问 题 :第 一 ,以 测 试 属 性 测 试 后 ,若 只 有 一 个 子 集 合 里 有 例 子 ,则 属 性 的 信 息 会 为 零 ,即 上 式 的 分 母 可 能 为 零 ,表示 这 个 式 子 会 出 现 未 定 义 的 情 况 ;第 二

36、 ,上 式 的 IV(Ak) 存 在 的 目 的 主 要 是 为 了 弥 补 information gain的 偏 差 ,不 能 选 出 information gain 的 属 性 。 但 如果 information gain 不 大 ,IV (Ak)很 小 时 ,可 能 会 使gain ratio 变 很 大 ,促 使 我 们 去 选 用 这 项 属 性 ,这 是反 客 为 主 的 错 误 情 形 。(c)以 距 离 为 基 础 的 属 性 选 择 法为 了 解 决 gain ratio 属 性 选 择 法 上 述 两 项 问题 ,Mantaras 于 1991 年 提 出 了 以 距

37、 离 为 基 础 的 属性 选 择 法 。 将 由 某 一 个 属 性 测 试 后 分 出 的 一 组 子集 合 称 为 一 个 分 割 (partition) ,由 种 类 所 分 出 的 一组 子 集 合 称 为 正 确 分 割 。 所 有 的 分 割 里 离 正 确 分割 正 规 化 距 离 最 小 的 分 割 所 对 应 的 属 性 就 是 我 们选 择 的 属 性 。 分 割 PA 和 PB 间 的 距 离 就 是 先 对 属性 B 测 试 再 对 属 性 A 测 试 后 剩 余 信 息 ,加 上 先 对属 性 A 测 试 再 对 属 性 B 测 试 所 剩 余 的 信 息 。d (

38、 PA , PB ) = I ( PA / PB ) + I ( PB / PA )分 割 PA 和 PB 间 的 正 规 化 距 离 就 是 PA 和 PB间 的 距 离 除 以 PA 和 PB 交 集 的 信 息 。DN ( PA , PB ) = d ( PA , PB )I ( PA PB )通 过 式 子 代 换 后 ,正 规 化 距 离 就 变 成 一 个 和information gain 有 关 的 式 子 ,即 下 面 的 第 二 个 式子 。 在 以 距 离 为 基 础 的 属 性 选 择 法 里 ,要 找 的 是 和正 确 分 割 正 规 化 距 离 最 短 的 分 割

39、,也 就 是 要 找 使 下面 第 二 式 右 边 的 那 个 分 数 变 得 最 大 的 属 性 。 所 以 ,问 题 就 变 得 和 下 面 第 一 个 gain ratio 的 式 子 非 常 相近 了 ,两 者 都 是 对 information gain 的 正 规 化 。GR ( A k , X) = I ( Pc) - I ( PC/ PV )I ( PV )= Gai n ( A k , X)I ( Pv)DN ( PC , PV ) = 1 - Gai n ( A k , X)I ( PV PC) 0 ,1 首 先 ,因 为 I ( PV PC) 不 会 为 零 ,所 以 正

40、 规 化距 离 的 式 子 不 会 有 未 定 义 的 情 况 出 现 。 再 者 ,因 为有 Gain (Ak ,X) I( PV PC)永 远 成 立 ,所 以 不 会 有gain ratio 里 那 种 反 客 为 主 的 偏 见 情 形 出 现 ,选 出来 的 属 性 都 是 因 为 information gain 较 大 ,所 以 才被 选 取 的 。 此 外 ,Mantaras 也 用 和 gain ratio 相 同的 训 练 集 证 明 ,以 距 离 为 基 础 的 属 性 选 择 法 ,可 以产 生 出 比 gain ratio 属 性 选 择 法 更 小 的 决 策 树

41、。5 结 束 语决 策 树 很 擅 长 处 理 非 数 值 型 数 据 ,这 与 神 经 网络 只 能 处 理 数 值 型 数 据 比 起 来 ,就 免 去 了 很 多 数 据预 处 理 工 作 。 甚 至 有 些 决 策 树 算 法 专 为 处 理 非 数值 型 数 据 而 设 计 ,因 此 当 采 用 此 种 方 法 建 立 决 策 树同 时 又 要 处 理 数 值 型 数 据 时 ,反 而 要 做 把 数 值 型 数据 映 射 到 非 数 值 型 数 据 的 预 处 理 。 然 而 ,采 用 决 策树 方 法 也 有 其 缺 点 7 ,决 策 树 方 法 很 难 基 于 多 个变 量 组

42、 合 发 现 规 则 ,不 同 决 策 树 分 支 之 间 的 分 裂 也36第 33 卷 (2005)第 3 期 计 算 机 与 数 字 工 程 1994-2010 China Academic Journal Electronic Publishing House. All rights reserved. http:/不 平 滑 。 总 之 ,决 策 树 方 法 是 目 前 使 用 最 多 的 数 据挖 掘 技 术 之 一 ,特 别 是 在 分 类 预 测 研 究 中 的 应 用 更加 广 泛 。 要 更 好 把 握 对 决 策 树 方 法 的 研 究 和 应 用 ,就 必 须 很 好

43、的 解 决 生 成 决 策 树 过 程 中 树 枝 的 修 剪以 及 节 点 测 试 属 性 选 择 的 问 题 ,这 也 是 本 文 重 点 所要 讲 述 的 内 容 。 研 究 表 明 ,决 策 树 算 法 还 存 在 许 多缺 陷 ,最 明 显 的 一 个 不 足 就 是 算 法 往 往 偏 向 于 取 值较 多 的 属 性 ,而 取 值 较 多 的 属 性 却 并 不 一 定 是 最 优的 属 性 ,这 就 影 响 了 决 策 树 的 生 成 ,相 应 地 影 响 最终 分 类 预 测 的 准 确 性 ,这 个 问 题 还 有 待 进 一 步 研 究解 决 。参 考 文 献1 Jiaw

44、ei Han , Micheline Kamber. DA TA MIN IN G - Con2cepts and Techniques M . 北 京 : 高 等 教 育 出 版 社 ,20022 Alex Berson ,Stephen Smith , Kurt Thearling. Building Da2ta Mining Application for CRM M . 北 京 :人 民 邮 电 出版 社 ,20013 Stuart J . Russell , Peter Norvig. Artificial Intelligence : AModern Approach M . 北

45、京 :人 民 邮 电 出 版 社 ,20024 Breiman L ,Friedman J H ,Olshen R A. Classification andRegression Trees M . 美 国 :Wadsworth ,inc. ,1984 5 Han , Te Sun. Information - Spectrum Method in Informa2tion Theory M . 美 国 :Springer Verlag ,20026 王 斌 会 ,吴 载 斌 . 数 据 挖 掘 技 术 及 其 应 用 现 状 DB/OL . http :/ / www. cioworld.

46、net7 楼 伟 进 ,孔 繁 胜 ,曹 永 生 . 数 据 库 中 的 知 识 发 现 综 述DB/ OL . http :/ / icgr. caas. net. cn8 曲 开 社 ,成 文 丽 ,王 俊 红 . ID3 算 法 的 一 种 改 进 算 法 J .计 算 机 工 程 与 应 用 ,2003 , (25) :104 - 1059 张 青 . 决 策 树 分 类 算 法 的 研 究 与 改 进 D . 郑 州 大 学 硕士 学 位 论 文 ,200210 曹 叶 虹 . 结 合 粗 糙 集 理 论 的 决 策 树 技 术 的 研 究 D .华 南 理 工 大 学 硕 士 学

47、位 论 文 ,200211 孙 雪 莲 . 数 据 挖 掘 中 分 类 算 法 研 究 D . 吉 林 大 学 硕士 学 位 论 文 ,200212 龙 誉 . 分 类 知 识 发 现 的 决 策 树 算 法 研 究 D . 北 京 科技 大 学 硕 士 学 位 论 文 ,2002(上 接 第 56 页 )4. 2 服 务 器 和 数 据 库 系 统 的 选 择服 务 器 :采 用 中 档 服 务 器 即 可 。数 据 库 :采 用 MS SQL Server 以 提 供 安 全 、 可靠 的 数 据 处 理 能 力 。4. 3 数 据 库 的 设 计在 进 行 数 据 库 的 设 计 时 要

48、 避 免 造 成 数 据 的 冗余 ,同 时 也 能 够 用 一 张 数 据 表 反 映 一 个 实 体 的 信息 。 在 本 系 统 中 ,主 要 是 为 了 避 免 数 据 的 冗 余 ,合同 信 息 采 用 两 张 数 据 表 ,其 中 主 表 记 录 了 合 同 的 基本 信 息 ,如 :合 同 的 编 号 、 性 质 、 价 款 、 客 户 、 交 付 期等 。 副 表 则 用 来 记 录 合 同 的 标 的 信 息 ,如 :所 属 合同 的 编 号 、 标 的 对 应 产 品 的 编 号 、 标 的 数 量 。 由 于合 同 的 标 的 属 于 产 品 ,考 虑 到 数 据 的 完 整 性 ,将 标的 编 号 与 产 品 的 编 号 建 立 关 联 ,同 时 标 的 记 录 必 须依 附 于 合 同 ,因 此 将 标 的 所 属 合 同 的 编 号 与 主 表 中的 合 同 编 号 建 立 关 联 。 在 成 本 管 理 中 只 建 立 成 本统 计 数 据 表 ,其 中 记 录 合 同 所 产 生 的 各 种 费 用 的 总和 ,该 表 中 的 合 同 编 号 也 应 与 合 同 信 息 表 中 的 合 同编 号 建 立 关 联

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报