1、第 卷 第 期 年 月南 京 理 工 大 学 学 报 收 稿 日 期:修 回 日 期:作 者 简 介:仓 敏()女,硕 士,工 程 师,主 要 研 究 方 向:项 目 评 价 方 法、技 术 经 济,:。引 文 格 式:仓 敏,王 静 怡,吴 霜,等 基 于 聚 类 离 散 化 的 函 数 依 赖 发 现 方 法 南 京 理 工 大 学 学 报,():投 稿 网 址:基 于 聚 类 离 散 化 的 函 数 依 赖 发 现 方 法仓 敏,王 静 怡,吴 霜,翟 晓 萌,程 曦,诸 德 律(国 网 江 苏 省 电 力 有 限 公 司 经 济 技 术 研 究 院,江 苏 南 京)摘 要:针 对 已
2、有 函 数 依 赖 发 现 方 法 直 接 应 用 于 连 续 型 数 据 时,易 导 致 依 赖 关 系 挖 掘 失 败 的 问题,该 文 基 于 已 有 方 法,提 出 基 于 等 间 隔 离 散 化 的()和 基 于聚 类 离 散 化 的()函 数 依 赖 发 现 方 法。通 过 数 据 离 散 化,将 指 标 的 连 续型 数 据 合 理 地 转 变 为 类 别 数 据。实 现 基 于 类 别 数 据 的 函 数 依 赖 发 现,提 升 函 数 依 赖 发 现 能 力。同 时,对 中 的 部 分 定 理 给 出 了 基 于 反 证 法 和 枚 举 法 的 通 俗 化 证 明。该 文 将
3、 提 出 的 和 与 不 带 有 任 何 离 散 化 操 作 的 原 始 和 进 行 了 实 验对 比。实 验 结 果 表 明,该 文 的 和 方 法 将 原 始 连 续 型 数 据 转 化 为 离散 型 分 类,挖 掘 出 了 更 多 潜 在 的 函 数 依 赖 关 系。同 时,的 性 能 要 优 于,解 决 了 等 间 隔 离 散 化 存 在 的 边 界 值 问 题。关 键 词:聚 类;离 散 化;函 数 依 赖 发 现;等 间 隔 离 散 化;类 别 数 据;反 证 法;枚 举 法;边 界 值 问 题中 图 分 类 号:文 章 编 号:():,(,):,()(),总 第 期 仓 敏 王
4、静 怡 吴 霜 翟 晓 萌 程 曦 诸 德 律 基 于 聚 类 离 散 化 的 函 数 依 赖 发 现 方 法,:;挖 掘 复 杂 对 象 或 系 统 包 含 的 大 量 指 标 间 关 系有 利 于 更 好 地 开 展 问 题 诊 断 和 系 统 评 价,。例如 对 于 电 力 系 统,包 含 技 术 性、经 济 性、社 会 环 境和 可 持 续 发 展 等 各 种 类 型 的 指 标。挖 掘 这 些 指 标间 的 复 杂 关 系,是 开 展 电 网 项 目 评 价、配 电 网 评 价和 输 电 网 评 价 等 不 同 类 型 评 价 的 基 础。挖 掘乳 腺 疾 病 病 理 图 像 中 细
5、 胞 核 的 各 种 特 征 数 据(半径、周 长、纹 理、凹 度、对 称 性、分 形 维 数 等)之 间的 依 赖 关 系,有 利 于 开 展 疾 病 筛 查 和 诊 断。同 时,如 果 将 多 个 具 有 相 关 性 的 指 标 全 部 用 于 系 统 评价,既 增 加 了 评 价 的 复 杂 性 又 影 响 评 价 的 准 确性,例 如 共 线 性 会 增 加 某 些 指 标 的 作 用。因此,挖 掘 出 复 杂 对 象 指 标 间 潜 在 的 关 系 是 各 类 诊断 评 价 的 基 础。已 有 大 部 分 指 标 间 关 系 挖 掘 方 法 忽 略 了 函 数依 赖 关 系。已 有
6、方 法 主 要 包 含 基 于 专 家 经 验 的 定性 分 析 法 和 基 于 模 型 的 定 量 分 析 法。在 指 标 较 多时,单 独 使 用 专 家 经 验,很 容 易 忽 略 某 些 指 标 间 的关 系。已 有 定 量 分 析 法 主 要 包 含 单 因 素 方 差 分析、多 因 素 方 差 分 析、灰 关 联 分 析、主 成份 分 析、主 变 量 法、回 归 分 析,、相 关 性 分析,等。单 因 素 方 差 分 析 主 要 通 过 衡 量 组 内和 组 间 方 差 的 差 异 判 断 自 变 量 的 不 同 类 别 是 否 使得 因 变 量 均 值 有 显 著 不 同。而 多
7、 因 素 方 差 分析 是 单 因 素 方 差 分 析 的 拓 展,主 要 分 析 多 个 自变 量 单 独 或 交 互 作 用 下 对 单 个 因 变 量 影 响 的 显 著性,。单 因 素 和 多 因 素 方 差 分 析 都 要 求 数 据分 布 满 足 正 态 性,应 用 范 围 受 限。相 关 性 分析,、灰 关 联 分 析 主 要 考 虑 指 标 间 数 据 的正 负 相 关 性、几 何 曲 线 相 似 度 等。回 归 分 析,的 主 要 思 想 是 建 立 多 个 自 变 量 指 标 到 个 因 变 量指 标 之 间 的 线 性 或 非 线 性 回 归 模 型。主 成 分 分析 主
8、 要 目 的 是 分 离 出 线 性 不 相 关 的 指 标,但 是其 得 到 的 新 指 标 通 常 是 已 有 指 标 的 线 性 组 合,不具 有 显 而 易 见 的 可 解 释 性,主 变 量 法 则 是 直 接找 出 原 指 标 集 合 中 相 关 性 较 小 的 组 指 标。而 函数 依 赖 是 另 外 类 描 述 自 变 量 取 相 同 值 时 因 变量 是 否 也 取 相 同 值 的 关 系,即 某 些 属 性 的 值 是 否由 其 他 单 个 或 者 多 个 属 性 值 的 组 合 唯 一 决 定。例 如 电 缆 的 截 面 积 是 否 由 电 缆 的 规 格 型 号 唯 一
9、 决定。函 数 依 赖 并 不 关 心 方 差 分 析 中 考 虑 的 自 变 量不 同 时,因 变 量 值 是 否 显 著 不 同,也 没 有 数 据 正 态性 约 束,具 有 良 好 的 适 用 性。正 负 相 关 和 几 何 曲线 相 似 指 的 是 在 所 有 数 据 范 围 内 具 有 不 变 的 相 同变 化 趋 势,或 者 不 变 的 相 反 变 化 趋 势。函 数 依 赖关 系 则 更 加 灵 活,描 述 的 是 依 赖 与 被 依 赖 指 标 间任 意 的 依 赖 关 系,个 指 标 在 不 同 取 值 范 围 之 间可 以 存 在 不 同 的 离 散 函 数 依 赖 关 系
10、(不 同 变 化 趋势)。函 数 依 赖 关 系 也 不 需 要 建 立 回 归 分 析 中 的确 定 性 数 学 模 型。因 此,函 数 依 赖 关 系 描 述 的 是指 标 间 的 一 种 更 加 灵 活 的 多 样 化 依 赖 关 系。已 有 的 函 数 依 赖 发 现 方 法 在 处 理 连 续 型数 据 时 容 易 遗 漏 潜 在 的 函 数 依 赖 关 系。、和 等 是 常 见 的 函 数 依 赖发 现 方 法,其 中 的 特 点 是 对 内 存 需 求较 低。函 数 依 赖 发 现 可 以 被 用 于 防 止 信 息 泄 露,识 别 具 有 较 高 泄 露 风 险 的 属 性 集
11、 合;函 数 依 赖还 可 以 被 用 于 数 据 清 洗,删 除 不 符 合 依 赖 规 则的 数 据 记 录。函 数 依 赖 也 常 被 用 于 数 据 不 一 致 性修 复 和 数 据 库 查 询 优 化。函 数 依 赖 发 现 方法 在 判 断 属 性 值 是 否 属 于 同 一 个 等 价 类 时 基 于 数据 是 否 完 全 相 同 进 行 判 断。然 而 现 实 情 况 下,很多 系 统 收 集 到 的 原 始 数 据 包 含 大 量 连 续 型 指 标,数 据 的 细 微 差 别 会 导 致 数 据 被 分 为 不 同 类 别,从 南 京 理 工 大 学 学 报 第 卷 第 期
12、而 无 法 挖 掘 出 潜 在 的 函 数 依 赖 关 系。因 此,本 文基 于 传 统 方 法,提 出 基 于 数 据 离 散化 的 函 数 依 赖 发 现 方 法。该 方 法 根 据 数 据 的 分 布情 况,将 连 续 型 数 据 转 变 为 合 适 的 离 散 型 类 别,然后 以 各 属 性 数 据 的 类 别 作 为 的 输 入,尽 可 能 降 低 连 续 型 数 据 的 影 响,提 高 函 数 依 赖 发现 能 力。本 文 主 要 贡 献 包 括:提 出 基 于 等 间 隔 离散 化 的(,)和 基 于 聚 类 离 散化 的(,)函 数 依 赖 发 现 方 法,提升 应 对 连
13、续 型 数 据 时 的 函 数 依 赖 关 系 发 现 能 力;在 多 个 数 据 集 上 验 证 了 本 文 方 法 在 不 同 离 散 化 等级 数 量 和 不 同 离 散 化 属 性 数 量 情 况 下 的 实 际 性 能;已 有 文 献 对 传 统 相 关 原 理 的 证 明 主要 基 于 超 图 理 论,本 文 对 中 涉 及 的 定 理采 用 更 加 通 俗 的 反 证 法、枚 举 法 进 行 了 证 明。问 题 描 述设,是 个 关 系 模 式,是 属 性 集,是 数 据 集。和 为 的 个 子 集,为 的 第 行,。当 且 仅 当 对 于,存 在 时,则 称 函 数 决 定,或
14、 函 数 依 赖 于(记 为)。称 为 函 数 依 赖 左 部(,),称 为函 数 依 赖 右 部(,)。例 如,表 是 电 网 系 统 项 目 投 产 线 路 信 息 表 中 的 一 部 分(数据 已 经 过 离 散 化),属 性 集 电 压 等 级(),线路 总 长 度(),线 路 额 定 容 量(),线 路 最 大 负 荷时 刻 有 功 功 率(),正 向 输 送 电 量(),线 路 损 耗电 量()。其 中,是 表 上 当 前 数据 的 部 分 函 数 依 赖。表 电 网 系 统 项 目 投 产 线 路 信 息 表序 号 正 如 前 文 提 到 的,各 种 系 统 的 原 始 数 据
15、通 常包 含 一 些 连 续 型 属 性,传 统 的 函 数 依 赖 发 现 方 法直 接 采 用 连 续 型 数 据 作 为 输 入,容 易 遗 漏 一 些 潜在 的 函 数 依 赖 关 系。例 如,当 电 缆 型 号 都 是 时,经 济 输 送 功 率 包 含 和 种。如 果 采 用 原 始 数 据,则 不 能 得 到电 缆 型 号 决 定 经 济 输 送 功 率 这 样 个 函 数 依 赖 关系。但 是 如 果 能 把 类 似 于 和 这 样 的 数据 合 理 地 离 散 化 到 相 同 的 类 中,把 连 续 型 数 据 转化 为 离 散 型 数 据,则 可 以 挖 掘 出 潜 在 的
16、 依 赖 关 系。不 同 的 离 散 化 结 果 决 定 了 能 挖 掘 出 哪 些 依 赖 关系,这 是 因 为 从 离 散 化 后 的 数 据 集 上 挖 掘 出 函 数依 赖 关 系 是 个 确 定 性 问 题。主 要 原 因 是 函 数 依赖 发 现 是 通 过 计 算 相 同 时 是 否 相 同 来确 定 的。数 据 一 旦 经 过 离 散 化,和 之 间的 关 系 就 确 定 了,是 否 存 在 函 数 依 赖 关 系 也 就 确定 了。也 就 是 说 能 挖 掘 出 哪 些 关 系 是 由 离 散 化 方法 的 效 果 决 定 的,因 此 本 文 的 主 要 目 标 是 提 出
17、能够 挖 掘 出 更 多 潜 在 函 数 依 赖 关 系 的 基 于 数 据 离 散化 的 函 数 依 赖 发 现 方 法。离 散 化 函 数 依 赖 发 现针 对 连 续 型 指 标 的 离 散 化 问 题,本 文 首 先 提出 了 个 基 于 等 间 隔 的 数 据 离 散 化 方 法。该 方 法把 连 续 型 指 标 的 数 据 按 照 等 间 隔 分 成 不 同 的 类,大 部 分 只 有 细 微 差 别 的 值 将 被 分 到 同 一 个 类 中,从 而 在 很 大 程 度 上 解 决 了 由 于 数 据 存 在 细 微 差 别而 导 致 的 自 变 量 相 同、离 散 函 数 值
18、不 同 的 问 题。但 是 在 等 间 隔 离 散 化 的 分 类 边 界 点 处,即 使 函 数值 只 有 细 微 差 别,也 依 然 会 被 分 到 不 同 类 中(边界 值 问 题)。针 对 边 界 值 问 题,本 文 又 提 出 了 基于 聚 类 的 数 据 离 散 化 方 法。在 基 于 聚 类 的 离 散 化方 法 中,不 再 存 在 固 定 间 隔 的 分 类 边 界,而 是 根 据数 据 本 身 的 分 布 情 况 确 定 属 于 哪 些 类 别。数 据 越接 近 则 越 有 可 能 被 分 到 相 同 类 中,从 而 不 受 等 间隔 离 散 化 中 固 定 间 隔 边 界
19、的 影 响。本 文 将 不 同 的 数 据 离 散 化 方 法 和 传 统 结 合,分 别 提 出 了 基 于 等 间 隔、聚 类 离 散化 的 和 函 数 依 赖 发现 方 法。与 传 统 的 不 同 之 处 在 于,基于 离 散 化 的 以 聚 类 或 等 间 隔 离 散 化 处理 后 数 据 的 类 别 编 号 作 为 生 成 精 简 划 分 和 最 大 等价 类 的 输 入,而 传 统 直 接 以 原 始 实 数型 数 据 作 为 输 入。如 图 所 示,提 出 的 方 法 主 要包 含:总 第 期 仓 敏 王 静 怡 吴 霜 翟 晓 萌 程 曦 诸 德 律 基 于 聚 类 离 散 化
20、 的 函 数 依 赖 发 现 方 法()对 数 据 进 行 等 间 隔 或 聚 类 离 散 化,将 每个 连 续 型 属 性 列 转 换 为 离 散 化 的 数 据 列,数 据 列中 相 同 颜 色 数 据 属 于 同 一 个 类 别,将 原 始 实 数 型数 据 替 换 为 对 应 类 别 的 编 号;()生 成 精 简 划 分 和 最 大 等 价 类;()生 成 标 识 符 集,用 于 表 示 每 行 数 据 出 现在 哪 些 属 性 的 第 几 个 等 价 类;()通 过 计 算 标 识 符 集 合 的 交 集,生 成 一致 集;()计 算 每 个 属 性 的 最 大 集 和 补 集,从
21、 数 据集 一 致 集 中 删 除 包 含 当 前 属 性 的 元 素 并 删 除 子集,则 可 以 得 到 最 大 集,属 性 的 最 大 集 代 表 不能 决 定 的 最 大 属 性 集 合,计 算 最 大 集 每 个 元 素相 对 于 全 体 属 性 集 合 的 补 集,可 以 得 到 最 大 集补 集;()采 用 层 次 法 计 算 最 小 函 数 依 赖。图 离 散 化 架 构 图 数 据 离 散 化 方 法本 文 首 先 提 出 基 于 归 一 化 和 等 间 隔 的 离 散 化方 法,降 低 连 续 型 属 性 对 函 数 依 赖 发 现 的 影 响。然 后,针 对 等 间 隔
22、离 散 化 存 在 的 边 界 值 问 题,提 出了 基 于 聚 类 的 离 散 化 方 法。等 间 隔 离 散 化为 了 进 行 等 间 隔 离 散 化,首 先 对 需 要 离 散 化的 属 性 进 行 归 一 化。对 于 属 性,归 一 化 结 果 为()()()式 中:()、()表 示 属 性 的 最 小、最 大值。将 平 均 划 分 成 个 等 级。遵 循 左 闭 右开 原 则,将 归 一 化 后 数 据 替 换 为 所 属 等 级 的 索 引,就 可 以 将 相 似 的 数 据 划 分 到 同 一 个 等 级,尽 量 避免 连 续 数 据 微 小 误 差 导 致 的 无 法 挖 掘
23、出 潜 在 函 数依 赖 关 系 的 问 题。对 数 据 进 行 离 散 化 时,需 要 根据 属 性 值 的 具 体 分 布 情 况 调 整。以 某 电 网 项目 投 产 线 路 信 息 表 中 年“电 网 最 大 负 荷 时 刻有 功 功 率”属 性 部 分 数 据 记 录 为 例,将 设 为 时,每 为 个 等 级。表 第 列 是 归 一 化 结果,第 列 是 等 间 隔 离 散 化 结 果。表 电 网 最 大 负 荷 时 刻 有 功 功 率 属 性 离 散 化 结 果电 网 最 大 负 荷 时 刻有 功 功 率 归 一 化等 间 隔离 散 化聚 类离 散 化 聚 类 离 散 化由 于
24、等 间 隔 离 散 化 在 不 同 等 级 边 缘 容 易 导 致具 有 相 似 值 的 记 录 被 分 为 不 同 类 别(边 界 值 问题)。例 如 个 记 录 在 同 一 个 属 性 上 的 值 为 和 时,有 可 能 被 分 为 类,影 响 函 数 依 赖 发 现。因 此,本 文 提 出 基 于 均 值 聚 类 的 离 散 化 方 法。采 用 均 值 聚 类 将 每 个 属 性 上 的 值 根 据 数 据 分 布情 况 聚 成 不 同 的 类。可 以 有 效 避 免 上 述 边 界 值 问题。例 如 表 中 加 黑 体 的 行 数 据 本 身 较 为 接近,但 是 在 等 间 隔 离
25、散 化 时 被 分 为 和 类,而在 均 值 聚 类 时 被 归 为 同 一 个 类 别。当 在 行黑 体 数 据 上 具 有 相 同 值 的 某 个 属 性 作 为,电 网 最 大 负 荷 时 刻 有 功 功 率 作 为 时,如 果 采用 等 间 隔 离 散 化,由 于 右 部 数 据 不 一 致,依 赖 关 系挖 掘 失 败;反 之,采 用 聚 类 离 散 化,则 可 以 成 功 挖掘 出 该 依 赖 关 系。算 法 是 提 出 的 基 于 聚 类 离 散化 的 算 法 描 述。算 法 基 于 聚 类 的 离 散 化 方 法输 入:数 据 集,属 性 集 输 出:离 散 化 后 数 据 属
26、 性:属 于 连 续 型 属 性:根 据 该 属 性 数 据 分 布 情 况,采 用 观 察 法、南 京 理 工 大 学 学 报 第 卷 第 期手 肘 法 等 选 择 离 散 化 数 量;随 机 选 中 个 数 据 作 为 质 心;计 算 属 性 的 每 个 值 距 离 个 质 心 的 距离,并 将 每 个 值 分 类 到 最 近 质 心 的 类;重 新 计 算 每 个 类 的 质 心;质 心 和 原 来 质 心 差 别 小 于 给 定 阈 值:完 成 聚 类;:跳 转 到 步 骤;对 于 每 个 属 性,采 用 聚 类 后 的 类 别 编 号 替 换 原始 数 据,并 返 回。均 值 聚 类
27、 的 聚 类 数 量 对 函 数 依 赖 发 现 的 结果 具 有 较 大 影 响。例 如,图 显 示 个 属 性 列 和 在 限 定 不 同 最 大 聚 类 数 量 时 数 据 所 属 类 别情 况。从 图 中 可 以 看 出,当 聚 类 类 别 数 量 为 时、属 于 个 类 别,但 是 对 应 的、分 属 个 类 别,因 此 不 能 得 出 决 定;此 时 由 于 聚 类 类 别 数 量 太 小,把 差 别 较 大 的、限 定 到 了 同 一 个 类 别;当 增 加 到 时,、被 分 到 个 不 同 的 类 别,而 对 应的、也 正 好 属 于 对 应 的 个 类 别,因此 可 以 得
28、出 决 定;但 是 当 再 继 续 增 加 到 时,和、和 虽 然 分 别 只 有 细 微 的 差 别,但 是 也 被 分 到 了 不 同 的 类 别,使 得 和、和分 别 属 于 相 同 类 别,但 是 对 应 的 和、和类 别 不 同,无 法 得 出 决 定。因 此,聚 类 的数 量 需 要 采 用 观 察 法、手 肘 法 等 确 定。图 不 同 离 散 化 等 级 数 量 下 属 性 数 据 类 别分 布 情 况 示 例 函 数 依 赖 发 现 方 法本 节 将 结 合 表,以 具 体 示 例 的 方 式 介 绍 函 数 依 赖 发 现 方 法。同 时,已 有 文 献 关 于 相 关 定
29、 理 的 证 明 主 要 从 超 图 角 度 展 开,本文 则 基 于 反 证 法、枚 举 法 给 出 了 更 加 通 俗 的 证 明。生 成 精 简 划 分 数 据 库 和 最 大 等 价 类对 于 个 属 性 集,如 果 行 记 录 和 在 任 意 个 属 性 上 都 存 在 相 同 的 值,即,则 称 和 在 属 性 集 上 是 等 价的。条 数 据 记 录 关 于 属 性 集 的 等 价 类 是 在 中 所 有 属 性 上 都 有 相 同 值 的 所 有 数 据 记 录 的 集合。如 表 中,是 关 于 属 性 的 个 等 价类,简 写 为,。表 示 所 有 数 据 在 属 性 集 上
30、 的 等 价 类 的 集 合。是 所 有 数 据 行 的 个 划分。表 中,。精 简 划 分是 指 在 划 分 的 基 础 上 去 除 所有 元 素 个 数 为 的 等 价 类 后 的 划 分。表 中,。所 有 属 性 上 的 精简 划 分 的 集 合 被 称 作 精 简 划 分 数 据 库。合 并 精 简划 分 数 据 库 中 所 有 的 等 价 类,并 删 除 子 集,则 可 以生 成 最 大 等 价 类 集 合。表 中,。最 大 等 价 类集 合 代 表 在 某 些 属 性 上 具 有 相 同 值 的 数 据 行 的集 合。生 成 标 识 符 集基 于 精 简 划 分 数 据 库,为 中
31、 的 每 行 生成 标 识 符 集 合()(,),其 中 表 示中 的 第 个 等 价 类。在 表 中,()(,),(,),(,),简 写为()(,),(,),(,),表 示 分别 出 现 在、和 精 简 划 分 的 第 个 等 价 类。同 理 可 得()(,),(,),()(,),(,),()(,),(,),(,),()(,),(,),(,),(,),(,),()(,),(,),(,),(,),()(,),(,),(,)。标 识 符集 合 表 示 每 行 数 据 出 现 在 哪 些 等 价 类 中。生 成 一 致 集一 致 集 表 示 行 数 据 在 哪 些 属 性 上 具 有 相 同的 值
32、。设(,)为 行 和 的 一 致 集,表 示 和 上 具 有 相 同 值 的 属 性 集,即(,)。可 以 通 过 计 算()和()的 交 集 来 获 得 一 致 集(,)。个 标 识 符 集 合 总 第 期 仓 敏 王 静 怡 吴 霜 翟 晓 萌 程 曦 诸 德 律 基 于 聚 类 离 散 化 的 函 数 依 赖 发 现 方 法 中 的 个 相 同 元 素 表 示 行 所 属 的 个 相 同 等 价类,即 在 该 属 性 上 具 有 相 同 值,称 为 在 该 属 性 上 一致。例 如,基 于()和(),得 到(,),。其 含 义 是 和 出 现 在和 精 简划 分 中 的 相 同 等 价
33、类,也 就 是 在 和 属 性 上 具有 相 同 的 值。只 有 属 于 最 大 等 价 类 中 的 数 据对 才 有 可 能 存 在 数 据 一 致 性,因 此 只 对(,)中 的 每 个 二 元 组 计 算 一 致 集。最 后 将所 有 数 据 对 的 一 致 集 合 并,得 到 整 个 数 据 集 的 一致 集(),。该 集 合 代 表 在 某 些 行 上 存 在相 同 值 的 所 有 属 性 集 合。计 算 每 个 属 性 的 最 大 集 和 补 集能 决 定 属 性 的 所 有 属 性 集 合 和 的 并 集一 定 等 于()中 包 含 的 某 个 元 素 或 其 子 集。的 最 大
34、 集 是 剔 除()中 所 有 包 含 的 元 素 并删 除 子 集 构 成 的 集 合。设(),)表 示 的 最 大 集 合,则(),)(),。最 大 子 集 元 素 的 特 点 是:()不 包 含;()不 包 含 子 集。定 理(),)中 的 每 个 元 素 都是 不 能 决 定 的 最 大 属 性 集 合,即(表 示 不能 决 定),并 且 对 于 任 意 的 属 性 集 合 存 在。证 明 对 于(),若,则 应 在 某 些 行 上 有 相 同 的 值,并 且 将 出 现 在()中;在 生 成 的 最 大 集 的 过 程 中 将 被 删 除,不 可 能 保 留 在 最 大 集。因 此
35、最 大 集 合 中 的 元 素 都不 能 决 定。下 文 接 着 证 明 最 大 集 中 的 元 素 是 不能 决 定 的 最 大 属 性 集 合。对 于(),)中 任 意 的 和 中 任 意 的 属 性 集,假 设 存 在:()如 果 属 性 上 存 在 值 相 同 的 行,必 然存 在,在 属 性 上 值 相 同 且 在 上 值 不 同 的行,将 存 在 于 最 大 集 中;由 于 属 于 的子 集,在 生 成 的 最 大 集 合 的 过 程 中,将 被 删除,与 属 于(),)的 假 设 不 一 致;()在 所 有 行 上 值 不 同 时,可 以 得 出,与 假 设 不 一 致。因 此,
36、是 不能 决 定 的 最 大 属 性 集 之 一。并 且 最 大 集(),)中 的 任 意 个 元 素 都 是 不 能 决 定 的 最 大 集 合。对 于 表,(),),(),),(),),(),),(),),(),),。最 大 集 的 补 集 是 最 大 集 中 每 个 元 素 相对 于 全 体属 性 集合 补 集的 集合。(),)(),)表 示(),)的 补集。因 为 属 性 集,因 此(),),(),),(),),(),),(),),(),),。基 于 层 次 法 计 算 最 小 函 数 依 赖定 理 属 性 集 合 与 的 最 大 集 补 集 每 个元 素 都 有 交 集,则 可 以
37、证 明 函 数 依 赖 存 在。证 明 如 果 和 的 最 大 集 合 补 集 里 的 每个 元 素 都 有 交 集,则 说 明 没 有 出 现 在 任 何 个 的 最 大 集 的 元 素 中。当 只 包 含 个 属 性 时,存 在 种 可 能:(),即 某 些 行 在 和 上 有 相 同 属 性值,因 此 将 出 现 在()中,但 是 生 成 的最 大 集 时 被 删 除;(),在 某 些 行 上 相 同,但 是 值 不 同;存 在 于()以 及 的 最 大 集;与“没 有 出 现在 任 何 个 的 最 大 集 的 元 素 中”的 前 提 不 符;()在 所 有 行 上 都 没 有 相 同
38、属 性 值,此 时;没 有 出 现 在()和 的 最 大 集 中。当 包 含 个 属 性 和 时,存 在 种 情 况:()和 在 某 些 行 上 有 相 同 值,且,此 时 将 出 现 在()中,生 成 的 最 大集 时 将 被 删 除;(),则 将 出 现 在()以 及 的 最 大 集 中;与“没 有 出 现 在 任 何 个 的 最 大集 的 元 素 中”的 前 提 不 符;()属 性 在 所 有 数 据 行 上 都 没 有 相 同值,则 说 明,将 不 会 出 现 在 的 最 大集 合 中。综 上 所 属,对 于 属 性,只 要 没 有 出 现在 的 最 大 集 中,即 和 最 大 集 合
39、 的 补 集 里 的 每 个元 素 都 有 交 集 时,总 有 成 立。同 理 可 证 包含 更 多 属 性 的 存 在 上 述 相 同 关 系,因 此,判 断与 最 大 集 补 集 是 否 有 交 集 是 判 断 函 数 依 赖 是 否 存 南 京 理 工 大 学 学 报 第 卷 第 期在 的 依 据。采 用 基 于 层 级 的 方 法 计 算 最 小 函数 依 赖。第 级 中,(),),是 不 属 于 最 大 集 的 一 元 属 性 的 集 合(最大 集 中 的 元 素 已 经 被 证 明 不 能 决 定)。如 果 中 的 与(),)的 任 何 元 素 交 集 不 为空,则 将 添 加 到
40、 属 性 集(),)中,表 示。由 于 要 生 成 的 是 最 小 函 数 依 赖,在 生 成 下一 层 级 之 前,从 中 删 除(),)中 的 所有 元 素。第 层 级 中,是 大 小 为 的 属 性集 的 集 合,并 且 大 小 为 的 的 每 个 子 集 都 属于。如 果 中 的 与(),)的 任 何元 素 交 集 不 为 空,则 将 添 加 到(),)中,表 示。迭 代 执 行 上 述 过 程,直 到 为 空。表 中,以(),)为 例,其 中、与(),)中 元 素 的 交 集 都 不 为 空,因 此 把、添 加 到(),);中 删 除、;,其 中,、,、,与(),)中 元 素 的 交
41、 集 都 不 为 空,把,、,、,添 加 到(),);中删 除,、,、,得 到,;,与(),)中 的 元 素,交 集 为 空,迭代 结 束。得 到(),),表 示,。同 理 得 出(),),(),),(),),(),),(),),。算 法 描 述提 出 的 基 于 等 间 隔 和 聚 类 离 散 化 函 数 依 赖发 现 方 法 和 的 正式 描 述 见 算 法。首 先 调 用 算 法 进 行 数 据 的按 指 标 聚 类 离 散 化 或 等 间 隔 离 散 化。针 对 离 散化 后 的 数 据,步 骤、进 行 等 价 类 划 分 和 精 简划 分 的 生 成,每 个 属 性 的 等 价 类
42、根 据 所 属 离 散化 类 别 是 否 相 同 对 数 据 行 划 分;步 骤 将 所 有属 性 的 精 简 划 分 合 并,得 到 最 大 等 价 类;最 大 等价 类 代 表 在 某 些 属 性 上 具 有 相 同 值 的 行 的 集合;其 次,步 骤、生 成 记 录 每 行 数 据 属 于 哪 些等 价 类 的 标 识 符 集 合;步 骤、则 通 过 计 算 标识 符 集 合 的 交 集,即 计 算 最 大 等 价 类 中 数 据 行两 两 之 间 出 现 在 哪 些 属 性 的 相 同 等 价 类 中,合并 行 数 据 相 同 等 价 类 对 应 的 属 性 得 到 一 致集;一 致
43、 集 的 含 义 是 行 数 据 在 一 致 集 包 含 的属 性 上 具 有 相 同 值;步 骤 合 并 所 有 一 致 集,得到 整 个 数 据 集 的 一 致 集;然 后,步 骤、计 算最 大 集 及 其 补 集;最 后,步 骤、基 于 定 理,采 用 层 次 法 计 算 所 有 的 最 小 函 数 依 赖 关 系。算 法 等 间 隔 和 聚 类 离 散 化 函 数 依 赖 发 现 方 法输 入:数 据 集,属 性 集 输 出:函 数 依 赖 关 系 调 用 算 法 进 行 聚 类 离 散 化(调 用 等 间隔 离 散 化)属 性:将 数 据 行 分 为 若 干 等 价 类,每 类 中
44、任 意 行 和 都 存 在,得 到;将 中 只 有 个 元 素 的 等 价 类 删 除,生 成 精 简划 分;合 并 所 有 属 性 精 简 划 分 得 到 最 大 等 价 类 集 合;:等 价 类:行:()()(,);等 价 类:元 组(,):一 致 集(,)(,)(,)()()合 并 所 有 一 致 集 得 到 整 个 数 据 集 的 一 致 集();属 性:计 算 最 大 集(),)(),(表 示 最 大 子 集);计 算(),)中 每 个 元 素 相 对 于 的补 集 得 到(),);属 性:,(),),总 第 期 仓 敏 王 静 怡 吴 霜 翟 晓 萌 程 曦 诸 德 律 基 于 聚
45、 类 离 散 化 的 函 数 依 赖 发 现 方 法:,(),);(),;,(),)(),);实 验 验 证为 了 验 证 提 出 的 等 间 隔 离 散 化 和 聚 类 离 散 化函 数 依 赖 发 现 方 法 的 实 际 效 果。本 文 将 提 出 的 和 与 不 带 有 任 何 离散 化 操 作 的 原 始 和 进 行 了实 验 对 比。同 时,为 了 说 明 提 出 的 离 散 化 方 法 不仅 可 以 用 于,也 可 以 用 于 其 他 函 数 依 赖发 现 方 法,本 文 将 提 出 的 种 离 散 化 方 法 分 别 应用 于 得 到 和。函 数 依 赖发 现 的 目 标 是 尽
46、 可 能 挖 掘 出 数 据 集 存 在 的 函 数 依赖 关 系。因 此,本 文 将 挖 掘 出 的 函 数 依 赖 关 系 数量 作 为 比 较 算 法 性 能 的 指 标。测 试 集为 了 验 证 等 间 隔 离 散 化 和 聚 类 离 散 化 的 适 用性,本 文 在 通 用 数 据 集 和 电 网 系 统 数 据 集 上 分 别开 展 了 实 验 验 证。本 文 首 先 选 择 机 器 学 习数 据 仓 库 中 经 常 被 用 作 函 数 依 赖 关 系 发 现 测 试 数据 集 的()、和。()描 述 的 是 乳 腺 肿 块 细 针 抽 吸 数 字 化图 像 中 细 胞 核 的 特
47、 征(半 径、周 长、纹 理、凹 度、对称 性、分 形 维 数 等);描 述 的 是 鲍 鱼 的 一些 物 理 特 征(长 度、直 径、高 度、整 体 重 量、去 壳 后重 量、脏 器 重 量、壳 的 重 量、环 数 等);包含 了 不 同 肝 炎 病 例 的 相 关 症 状 和 指 标(年 龄、类固 醇、疲 倦 度、厌 食、腹 水、静 脉 曲 张、胆 红 素、谷 草转 氨 酶 等)。为 了 进 一 步 验 证 本 文 方 法 的 有 效性,还 以 电 网 系 统 数 据 为 例 进 行 了 实 验 验 证。本文 选 取 某 电 网 项 目 投 产 线 路 信 息 表 年 部 分 投 产 线
48、路 在 年 的 运 行 数 据 作 为 测 试数 据 集。各 种 数 据 集 包 含 的 具 体 数 据 记 录 规 模 和属 性 数 量 见 表。表 通 用 数 据 集 和 电 网 数 据 集 特 征名 称 行 数 属 性 数 投 产 线 路 信 息 表 通 用 数 据 集 测 试 结 果对 于 通 用 数 据 集,测 试 了 和 算 法 在 不 同 离 散 化 方 法、不 同 离 散 化 等 级 数 量、不同 离 散 化 属 性 数 和 无 离 散 化 情 况 下 挖 掘 出 的 函 数依 赖 关 系 数 量,具 体 结 果 见 表 和。不 同 数 据集 采 用 的 离 散 化 等 级 数
49、 量 由 属 性 数 据 的 具 体 分 布情 况 决 定。总 体 上,聚 类 离 散 化 挖 掘 出 的 函 数 依赖 关 系 数 量 最 多。表 和 算 法 在 不 同 离 散 化 等 级 数 量 下 获 得 的 函 数 依 赖 关 系 数 量数 据 集 等 级 数等 间 隔 离 散 化 聚 类 离 散 化 未 离 散 化 南 京 理 工 大 学 学 报 第 卷 第 期表 数 据 集 上 采 用 不 同 离 散 化 属 性 数 挖 掘 出 的 函 数 依 赖 数 量离 散 化属 性 数等 级 数等 间 隔 离 散 化 聚 类 离 散 化 未 离 散 化 对 于 和 个 数 据 集,所 有
50、数据 类 型 为 实 数 的 属 性 全 部 采 用 离 散 化 处 理。表 显 示 的 是 在 和 个 数 据 集 上,和 算 法 在 采 用 不 同 离 散 化 等 级 数量 情 况 下 挖 掘 出 的 函 数 依 赖 关 系 数 量。从 表 中可 以 看 出,总 体 趋 势 是 不 管 采 用 哪 种 离 散 化 方 法,随 着 离 散 化 等 级 数 量 增 加,挖 掘 出 的 函 数 依 赖 关系 数 量 也 增 加。设 个 实 数 属 性 在 当 前 数 据 集 上有 种 不 同 的 实 数 值,如 果 离 散 化 时 设 置 的 离 散化 等 级 数 量,则 离 散 化 后 的