1、 数据中心质量保证方案广东第二师范学院第一章 引言高 校 数 据 中 心 作 为 校 情 决 策 分 析 的 数 据 来 源 , 为 保 证 数 据 中 心 的 质 量 ,通 常 需 要 进 行 数 据 处 理 ,主 要 包 括 以 下 几 个 重 要 的 步 骤 : 数 据 审 查 、 数 据 清洗 、 数 据 转 换 和 数 据 验 证 四 大 步 骤 。(一 )数 据 审 查该 步 骤 检 查 数 据 的 数 量 (记 录 数 )是 否 满 足 分 析 的 最 低 要 求 ,字 段 值 的 内 容是 否 与 调 查 要 求 一 致 ,是 否 全 面 ;还 包 括 利 用 描 述 性 统
2、计 分 析 ,检 查 各 个 字 段的 字 段 类 型 、 字 段 值 的 最 大 值 、 最 小 值 、 平 均 数 、 中 位 数 等 ,记 录 个 数 、 缺失 值 或 空 值 个 数 等 。(二 )数 据 清 洗该 步 骤 针 对 数 据 审 查 过 程 中 发 现 的 明 显 错 误 值 、 缺 失 值 、 异 常 值 、 可 疑数 据 ,选 用 适 当 的 方 法 进 行 “清 冼 ”,使 “脏 ”数 据 变 为 “干 净 ”数 据 ,有 利于 后 续 的 统 计 分 析 得 出 可 靠 的 结 论 。 当 然 ,数 据 清 理 还 包 括 对 重 复 记 录 进 行删 除 。(三
3、 )数 据 转 换数 据 分 析 强 调 分 析 对 象 的 可 比 性 ,但 不 同 字 段 值 由 于 计 量 单 位 等 不 同 ,往往 造 成 数 据 不 可 比 ;对 一 些 统 计 指 标 进 行 综 合 评 价 时 ,如 果 统 计 指 标 的 性 质 、计 量 单 位 不 同 ,也 容 易 引 起 评 价 结 果 出 现 较 大 误 差 ,再 加 上 分 析 过 程 中 的 其 他一 些 要 求 ,需 要 在 分 析 前 对 数 据 进 行 变 换 ,包 括 无 量 纲 化 处 理 、 线 性 变 换 、 汇总 和 聚 集 、 适 度 概 化 、 规 范 化 以 及 属 性 构
4、 造 等 。(四 )数 据 验 证该 步 骤 的 目 的 是 初 步 评 估 和 判 断 数 据 是 否 满 足 统 计 分 析 的 需 要 ,决 定 是否 需 要 增 加 或 减 少 数 据 量 。 利 用 简 单 的 线 性 模 型 ,以 及 散 点 图 、 直 方 图 、 折线 图 等 图 形 进 行 探 索 性 分 析 ,利 用 相 关 分 析 、 一 致 性 检 验 等 方 法 对 数 据 的 准确 性 进 行 验 证 ,确 保 不 把 错 误 和 偏 差 的 数 据 带 入 到 数 据 分 析 中 去 。第二章 数据质量的基本要素首 先 , 如 何 评 估 数 据 的 质 量 ,
5、或 者 说 怎 么 样 的 数 据 才 是 符 合 要 求 的 数 据 ?可 以 从 4个 方 面 去 考 虑 , 这 4个 方 面 共 同 构 成 了 数 据 质 量 的 4个 基 本 要 素 。2.1完 整 性数 据 的 记 录 和 信 息 是 否 完 整 , 是 否 存 在 缺 失 的 情 况 。数 据 的 缺 失 主 要 有 记 录 的 缺 失 和 记 录 中 某 个 字 段 信 息 的 缺 失 , 两 者 都 会造 成 统 计 结 果 的 不 准 确 , 所 以 完 整 性 是 数 据 质 量 最 基 础 的 保 障 , 而 对 完 整 性的 评 估 相 对 比 较 容 易 。2.2
6、一 致 性数 据 的 记 录 是 否 符 合 规 范 , 是 否 与 前 后 及 其 他 数 据 集 合 保 持 统 一 。数 据 的 一 致 性 主 要 包 括 数 据 记 录 的 规 范 和 数 据 逻 辑 的 一 致 性 。 数 据 记 录 的规 范 主 要 是 数 据 编 码 和 格 式 的 问 题 , 比 如 教 工 号 是 7位 的 数 字 、 学 号 是 11位的 数 字 , 性 别 码 包 括 2个 类 目 、 IP地 址 一 定 是 用 ”.”分 隔 的 4个 0-255的 数 字 组 成 , 及 一 些 定 义 的 数 据 约 束 , 比 如 完 整 性 的 非 空 约 束
7、 、 唯 一 值约 束 等 ; 数 据 逻 辑 性 主 要 是 指 标 统 计 和 计 算 的 一 致 性 , 比 如 PV=UV, 新 用 户比 例 在 0-1之 间 等 。 数 据 的 一 致 性 审 核 是 数 据 质 量 审 核 中 比 较 重 要 也 是 比 较 复 杂 的 一块 。2.3准 确 性数 据 中 记 录 的 信 息 和 数 据 是 否 准 确 , 是 否 存 在 异 常 或 者 错 误 的 信 息 。导 致 一 致 性 问 题 的 原 因 可 能 是 数 据 记 录 的 规 则 不 一 , 但 不 一 定 存 在 错 误 ;而 准 确 性 关 注 的 是 数 据 记 录
8、 中 存 在 的 错 误 , 比 如 字 符 型 数 据 的 乱 码 现 象 也 应该 归 到 准 确 性 的 考 核 范 畴 , 另 外 就 是 异 常 的 数 值 , 异 常 大 或 者 异 常 小 的 数 值, 不 符 合 有 效 性 要 求 的 数 值 , 如 学 生 数 一 定 是 整 数 、 年 龄 一 般 在 1-100之 间 、 转 化 率 一 定 是 介 于 0到 1的 值 等 。 对 数 据 准 确 性 的 审 核 有 时 会 遇 到困 难 , 因 为 对 于 没 有 明 显 异 常 的 错 误 值 我 们 很 难 发 现 。2.4及 时 性数 据 中 心 的 数 据 及
9、时 性 主 要 反 映 在 数 据 交 换 和 数 据 分 析 的 时 效 性 上 。数 据 交 换 中 部 分 业 务 数 据 的 时 效 性 要 求 极 高 , 如 人 员 岗 位 的 变 动 及 时 到 OA, 资 产 的 账 单 及 时 到 财 务 等 , 其 他 及 时 性 要 求 不 高 的 数 据 交 换 也 有 时 效 的 要求 : 如 1小 时 、 一 天 、 三 天 等 。虽 然 说 数 据 分 析 的 实 时 性 要 求 并 不 是 太 高 , 但 并 不 意 味 着 就 没 有 要 求 , 数据 分 析 可 以 接 受 当 天 的 数 据 要 第 二 天 才 能 分 析
10、 查 看 , 但 如 果 数 据 要 延 时 两 三天 才 能 出 来 , 或 者 每 周 的 报 告 要 两 周 后 才 能 出 来 , 那 么 分 析 的 结 论 可 能 已 经失 去 时 效 性 , 同 时 , 某 些 实 时 分 析 和 决 策 需 要 用 到 小 时 或 者 分 钟 级 的 数 据 ,这 些 需 求 对 数 据 的 时 效 性 要 求 极 高 。 所 以 及 时 性 也 是 数 据 质 量 的 组 成 要 素 之一 。第 三 章 数 据 审 查基 于 数 据 质 量 的 4个 要 素 , 可 以 对 数 据 进 行 审 查 , 以 评 估 数 据 是 否 满 足 完整
11、 性 、 一 致 性 、 准 确 性 和 及 时 性 这 4方 面 的 要 求 , 其 中 数 据 的 及 时 性 主 要 跟数 据 的 同 步 和 处 理 过 程 的 效 率 相 关 , 更 多 的 是 通 过 监 控 ODI任 务 的 方 式 来 保证 数 据 的 及 时 性 , 所 以 这 里 的 数 据 审 查 主 要 指 的 是 评 估 数 据 的 完 整 性 、 一 致性 和 准 确 性 。3.1完 整 性 审 查审 查 数 据 的 完 整 性 。 首 先 是 记 录 的 完 整 性 , 一 般 使 用 统 计 的 记 录 数 和 唯 一值 个 数 。 比 如 图 书 管 的 每
12、天 借 阅 量 是 相 对 恒 定 的 , 大 概 在 1000本 上 下 波 动 ,如 果 某 天 的 借 阅 量 下 降 到 了 只 有 100本 , 那 很 有 可 能 记 录 缺 失 了 ; 或 者 网 站的 访 问 记 录 应 该 在 一 天 的 24小 时 均 有 分 布 , 如 果 某 个 整 点 完 全 没 有 用 户 访 问记 录 , 那 么 很 有 可 能 网 站 在 当 时 出 了 问 题 或 者 那 个 时 刻 的 日 志 记 录 传 输 出 现了 问 题 ; 再 如 统 计 教 师 、 学 生 的 籍 贯 分 布 时 , 一 般 会 包 括 全 国 的 32个 省 份
13、 直辖 市 , 如 果 统 计 的 省 份 唯 一 值 个 数 少 于 32, 那 么 很 有 可 能 数 据 也 存 在 缺 失 。完 整 性 的 另 一 方 面 , 记 录 中 某 个 字 段 的 数 据 缺 失 , 可 以 使 用 统 计 信 息 中 的 空值 ( NULL) 的 个 数 进 行 审 核 。 如 果 某 个 字 段 的 信 息 理 论 上 必 然 存 在 , 比 如 教师 的 所 属 单 位 、 学 生 的 班 级 等 , 那 么 这 些 字 段 的 空 值 个 数 的 统 计 就 应 该 是 0, 这 些 字 段 我 们 可 以 使 用 非 空 ( NOT NULL)
14、约 束 来 保 证 数 据 的 完 整 性 ; 对 于 某 些 允 许 空 的 字 段 , 比 如 教 职 工 的 职称 信 息 不 一 定 存 在 , 但 空 值 的 占 比 基 本 恒 定 , 比 如 职 称 为 空 的 教 师 比 例 通 常在 10%-20%, 我 们 同 样 可 以 使 用 统 计 的 空 值 个 数 来 计 算 空 值 占 比 , 如 果 空 值 的 占 比明 显 增 大 , 很 有 可 能 这 个 字 段 的 记 录 出 现 了 问 题 , 信 息 出 现 缺 失 。3.2一 致 性 审 查如 果 数 据 记 录 格 式 有 标 准 的 编 码 规 则 , 那 么
15、 对 数 据 记 录 的 一 致 性 检 验 比较 简 单 , 只 要 验 证 所 有 的 记 录 是 否 满 足 这 个 编 码 规 则 就 可 以 , 最 简 单 的 就 是使 用 字 段 的 长 度 、 唯 一 值 个 数 这 些 统 计 量 。 比 如 对 教 职 工 的 工 号 是 7位 数 字, 那 么 字 段 的 最 长 和 最 短 字 符 数 都 应 该 是 7; 如 果 字 段 必 须 保 证 唯 一 , 那 么字 段 的 唯 一 值 个 数 跟 记 录 数 应 该 是 一 致 的 , 比 如 用 户 的 身 份 证 号 、 手 机 号 ;再 如 地 域 的 省 份 直 辖
16、市 一 定 是 统 一 编 码 的 , 记 录 的 一 定 是 “上 海 ”而 不 是 “上 海 市 ”、 “浙 江 ”而 不 是 “浙 江 省 ”, 可 以 把 这 些 唯 一 值 映 射 到 有 效 的 32个 省 市 的 列 表 , 如 果 无 法 映 射 , 那 么 字 段 通 不 过 一 致 性 检 验 。一 致 性 中 逻 辑 规 则 的 验 证 相 对 比 较 复 杂 , 很 多 时 候 指 标 的 统 计 逻 辑 的 一 致性 需 要 底 层 数 据 质 量 的 保 证 , 同 时 也 要 有 非 常 规 范 和 标 准 的 统 计 逻 辑 的 定 义, 所 有 指 标 的 计
17、 算 规 则 必 须 保 证 一 致 。 我 们 经 常 犯 的 错 误 就 是 汇 总 数 据 和 细分 数 据 加 起 来 的 结 果 对 不 上 , 导 致 这 个 问 题 很 有 可 能 的 原 因 就 是 数 据 在 细 分的 时 候 把 那 些 无 法 明 确 归 到 某 个 细 分 项 的 数 据 给 排 除 了 , 比 如 在 细 分 学 生 毕业 去 向 , 如 果 我 们 无 法 将 某 些 非 直 接 进 入 的 来 源 明 确 地 归 到 升 学 、 就 业 、 出国 等 这 些 既 定 的 来 源 分 类 , 但 也 不 应 该 直 接 过 滤 掉 这 些 数 据 ,
18、 而 应 该 给 一 个“未 知 来 源 ”的 分 类 , 以 保 证 根 据 来 源 细 分 之 后 的 数 据 加 起 来 还 是 可 以 与 总体 的 数 据 保 持 一 致 。 如 果 需 要 审 核 这 些 数 据 逻 辑 的 一 致 性 , 我 们 可 以 建 立 一些 “有 效 性 规 则 ”, 比 如 A=B, 如 果 C=B/A, 那 么 C的 值 应 该 在 0,1的 范 围内 等 , 数 据 无 法 满 足 这 些 规 则 就 无 法 通 过 一 致 性 检 验 。3.3准 确 性 审 查数 据 的 准 确 性 可 能 存 在 于 个 别 记 录 , 也 可 能 存 在
19、于 整 个 数 据 集 。 如 果 整 个数 据 集 的 某 个 字 段 的 数 据 存 在 错 误 , 比 如 常 见 的 数 量 级 的 记 录 错 误 , 这 种 错误 很 容 易 发 现 , 利 用 统 计 分 析 的 平 均 数 和 中 位 数 也 可 以 发 现 这 类 问 题 。 当 数据 集 中 存 在 个 别 的 异 常 值 时 , 可 以 使 用 最 大 值 和 最 小 值 的 统 计 量 去 审 核 , 或者 使 用 箱 线 图 也 可 以 让 异 常 记 录 一 目 了 然 。还 有 几 个 准 确 性 的 审 核 问 题 , 字 符 乱 码 的 问 题 或 者 字 符
20、 被 截 断 的 问 题 , 可以 使 用 分 布 来 发 现 这 类 问 题 , 一 般 的 数 据 记 录 基 本 符 合 正 态 分 布 或 者 类 正 态分 布 , 那 么 那 些 占 比 异 常 小 的 数 据 项 很 可 能 存 在 问 题 , 比 如 某 个 字 符 记 录 占总 体 的 占 比 只 有 0.1%, 而 其 他 的 占 比 都 在 3%以 上 , 那 么 很 有 可 能 这 个 字 符 记录 有 异 常 。 对 于 数 值 范 围 既 定 的 数 据 , 也 可 以 有 效 性 的 限 制 , 超 过 数 据 有 效的 值 域 定 义 数 据 记 录 就 是 错
21、误 的 。如 果 数 据 并 没 有 显 著 异 常 , 但 仍 然 可 能 记 录 的 值 是 错 误 的 , 只 是 这 些 值 与 正常 的 值 比 较 接 近 而 已 , 这 类 准 确 性 检 验 最 困 难 , 一 般 只 能 与 其 他 来 源 或 者 统计 结 果 进 行 比 对 来 发 现 此 类 问 题 。第 4章 数 据 清 洗业 务 数 据 源 所 提 供 的 数 据 内 容 不 可 能 完 美 , 存 在 着 “脏 数 据 ”, 即 数 据有 空 缺 、 噪 音 等 缺 陷 。 而 且 在 数 据 中 心 的 各 数 据 之 间 , 其 内 容 也 存 在 着 不 一
22、致 的 现 象 , 为 了 减 少 这 些 “脏 数 据 ”对 数 据 中 心 分 析 结 果 的 影 响 程 度 , 必 须采 取 各 种 有 效 的 措 施 对 其 进 行 处 理 , 这 一 过 程 称 为 “数 据 清 洗 ”。4.1数据抽取完成之后的数据集所存在的问题4.1.1不 完 整 的 数 据这 一 类 数 据 主 要 是 一 些 应 该 有 的 信 息 缺 失 , 如 教 职 工 的 所 属 单 位 、 性 别、 编 制 类 别 ; 主 表 与 明 细 表 不 能 匹 配 等 。4.1.2错 误 的 数 据这 一 类 错 误 通 常 产 生 的 原 因 有 两 个 :一 、
23、业 务 系 统 不 够 健 全 , 在 接 收 输 入 后 没 有 进 行 判 断 直 接 写 入 后 台 数据 库 造 成 的 , 比 如 数 值 数 据 输 成 全 角 数 字 字 符 、 字 符 串 数 据 后 面有 一 个 回 车 操 作 、 日 期 格 式 不 正 确 、 日 期 越 界 等 ;二 、 数 据 抽 取 的 过 程 中 产 生 的 错 误 数 据 。4.1.3重 复 的 数 据 对 于 这 一 类 数 据 特 别 是 维 表 中 会 出 现 这 种 情 况 将 重 复 数 据 记 录的 所 有 字 段 导 出 来 , 让 客 户 确 认 并 整 理 。“脏 数 据 ”会
24、 对 建 立 的 数 据 中 心 造 成 不 良 影 响 , 扭 曲 从 数 据 中 获 得 的 信 息 ,直 接 影 响 数 据 中 心 的 运 行 效 果 , 进 一 步 影 响 数 据 挖 掘 及 分 析 , 最 终 影 响 决 策管 理 。 因 此 , 为 了 使 数 据 中 心 的 记 录 更 准 确 、 一 致 , 消 除 重 复 和 异 常 记 录 就变 得 很 重 要 , 所 以 数 据 清 洗 工 作 是 相 当 必 要 的 。 数 据 清 洗 作 为 数 据 处 理 的 一个 重 要 环 节 , 在 数 据 中 心 构 建 过 程 中 占 据 重 要 位 置 。对 于 任
25、何 数 据 中 心 而 言 , 数 据 清 洗 过 程 都 是 必 不 可 少 的 。4.2数 据 清 洗 的 步 骤4.2.1 定义和确定错误的类型4.2.1.1数据审查数 据 审 查 是 数 据 清 洗 的 前 提 与 基 础 , 通 过 详 尽 的 数 据 审 查 来 检 测 数 据 中的 错 误 或 不 一 致 情 况 , 除 了 手 动 检 查 数 据 或 者 数 据 样 本 之 外 , 还 可 以 使 用 一些 分 析 工 具 或 程 序 来 获 得 关 于 数 据 属 性 的 元 数 据 , 从 而 发 现 数 据 集 中 存 在 的问 题 数 据 。4.2.1.2 定义清洗转换
26、规则根据上一步进行数据分析得到的结果来定义清洗转换规则与工作流。根据数据源的个数,数据源中不一致数据和“脏数据”多少的程度,需要执行大量的数据转换和清洗步骤。4.2.2 搜寻并识别异常的数据4.2.2.1 检测数据异常检测数据集中的数据异常,需要花费大量的人力、物力和时间,而且这个过程本身很容易出错,尽量利用一些方法自动检测数据集中的数据异常,方法主要有:基于统计的方法,聚类方法,关联规则的方法。4.2.2.2检测重复记录的算法消除重复记录可以针对两个数据集或者一个合并后的数据集,首先需要检测出标识同一个现实实体的重复记录,即匹配过程。检测重复记录的算法主要有:基本的字段匹配算法,递归的字段匹
27、配算法, Cosine相似度函数。4.2.3 纠正所发现的错误在数据源上执行预先定义好的并且已经得到验证的清洗转换规则和工作流。当直接在源数据上进行清洗时,需要备份源数据,以防需要撤销上一次或几次的清洗操作。清洗时根据“脏数据”存在形式的不同,执行一系列的转换步骤来解决数据质量问题。为处理单数据源问题并且为其与其他数据源的合并做好准备,一般在各个数据源上应该分别进行几种类型的转换,主要包括:4.2.3.1 从自由格式的属性字段中抽取值(属性分离)自由格式的属性一般包含着很多的信息,而这些信息有时候需要细化成多个属性,从而进一步支持后面重复记录的清洗。4.2.3.2 确认和改正这一步骤处理输入和
28、拼写错误,并尽可能地使其自动化。基于字典查询的拼写检查对于发现拼写错误是很有用的。4.2.3.3标准化为了使记录实例匹配和合并变得更方便,应该把属性值转换成一个一致和统一的格式。4.2.4干净数据回流当数据被清洗后,干净的数据应该替换原来的“脏数据”。这样可以提高系统的数据质量,还可避免将来再次抽取数据后进行重复的清洗工作。4.3 数据清洗的评价标准4.3.1 数据的可信性可信性包括精确性、完整性、一致性、有效性、唯一性等指标。(1)精确性:描述数据是否与其对应的客观实体的特征相一致。(2)完整性:描述数据是否存在缺失记录或缺失字段。(3)一致性:描述同一实体的同一属性的值在不同的系统是否一致
29、。(4)有效性:描述数据是否满足用户定义的条件或在一定的域值范围内。(5)唯一性:描述数据是否存在重复记录。4.3.2 数据的可用性数据的可用性考察指标主要包括时间性和稳定性。(1)时间性:描述数据是当前数据还是历史数据。(2)稳定性:描述数据是否是稳定的,是否在其有效期内。4.4 常 见 的 数 据 清 洗 算 法4.4.1 空 缺 值 的 清 洗对于空缺值的清洗可以采取忽略元组,人工填写空缺值,使用一个全局变量填充空缺值,使用属性的平均值、中问值、最大值、最小值或更为复杂的概率统计函数值来填充空缺值。4.4.2 噪 声 数 据 的 清 洗噪声数据:指无意义的数据、损坏数据。通常采用分箱(B
30、inning)法,通过考察属性值的周围值来平滑属性的值。属性值被分布到一些等深或等宽的“箱”中,用箱中属性值的平均值或中值来替换“箱”中的属性值;计算机和人工检查相结合,计算机检测可疑数据,然后对它们进行人工判断;使用简单规则库检测和修正错误;使用不同属性间的约束检测和修正错误;使用外部数据源检测和修正错误。4.4.3不 一 致 数 据 的 清 洗对于有些事务,所记录的数据可能存在不一致。有些数据不一致,可以使用其他材料人工加以更正。例如,数据输入时的错误可以使用纸上的记录加以更正。知识工程工具也可以用来检测违反限制的数据。例如,知道属性间的函数依赖,可以查找违反函数依赖的值。此外,数据集成也可能产生数据不一致。4.4.4重 复 数 据 的 清 洗目前消除重复记录的基本思想是“排序和合并”,先将数据库中的记录排序,然后通过比较邻近记录是否相似来检测记录是否重复。消除重复记录的算法主要有:优先队列算法,近邻排序算法(SortedNeighborhood Method)