1、数据迁移方法概述 数据迁 移方 法的选择 是建 立在对 以上 各环 节的 具体 分析基 础之 上, 目前 开放 平 台存储 整 合建设 中可 以采 用的 数据 迁移方 法主 要下表所 示的 六种方 法 : 序号 数据迁移方法 方法简述 举例 1 逻辑卷 数据 镜像 方法 对需要 迁移 的每 个卷 都做 逻辑 卷数据 镜像 如 IBM LVM, Veritas VxVM 2 直接拷 贝方 法 利用操 作系 统命 令直 接拷 贝要 迁移的 数据 , 然 后复 制到 要迁移 到的目 的地 如 IBM AIX tar , dd,savevg ,mksysb , cpio 等命 令 3 备份恢 复方 法
2、 利用备 份管 理软 件对 数据 做备 份,然后恢 复到 目的 地 如 IBM TSM ,EMC Legato NetWorker ,Symantec Veritas NetBackup 等 4 数据库 工具 方法 使用数 据库 的自 身工 具对 数据 进行迁 移 如 Oracle Export/Import , OracleDataGuard, GoldenGate ,Oracle Logminer,Quest SharePlex 5 存储虚 拟化 的方 法 通过存 储虚 拟化 技术 将数 据从 源端迁 移到 目的 地 如 EMC 的 Invista、IBM 的 SVC 和 LSI Stor
3、eAge SVM 等 6 盘阵内复制 方法 通过盘 阵内 的复 制软 件, 将数据 源卷复 制到 数据 目标 卷 如 EMC 的 TimeFinder, IBM FlashCopy ,HDS ShadowImage 等 7 直接的 阵列 到阵 列复 制方法 通过盘 阵复 制软 件对 数据 做迁 移 如 EMC 的 SRDF,HDS 的 TrueCopy,IBM 的 Global Mirror 等 8 历史数 据迁 移方 法 通过数 据提 取、转移、装载工具 或定制 程序 进行 装载 1.1.1. 逻辑卷数据镜像方 法 对于服 务器 操作 系统 已经 采用逻 辑卷 管理 器的系统 , 可以利 用
4、逻 辑卷 管理 器的管理功 能 完成原 有数 据到 新存 储的 迁移, 支持 联机 迁移 。 逻辑卷 管理 器 可 以理 解为 在物理 存储 设备 和操 作系 统之间 增加 的一个逻 辑存 储管 理层。 逻辑卷 数据 镜像 方法 的优 点重要 有: 支持任 意存 储系 统之 间的 迁移 适合于 主机 存储 的非 经常 性迁移 1.1.2. 直接拷贝方法 利用操 作系 统的 一些 命令 可以实 现磁 盘数 据的 直接 复制, 适合 于脱 机迁 移的 环境。 1.1.3. 备份恢复方法 利用备 份管 理软 件将 原有 数据备 份到 磁带 然后 恢复 到新的 存储 设备 中, 对于 联 机要求 高
5、的环境,可以结合在线备份的方法,然后恢复到目的地。 如 IBM TSM ,EMC Legato NetWor ker ,Symantec Veritas NetBackup 等。 1.1.4. 数据库工具方法 对于数 据库 数据 , 还可 使用数据 库的 自身 工具 , 如 Oracle 自带复 制工 具 DataGuard , 以 及一些 第三 方的 数据 库复 制 工具 ,如 GoldenGate 。 其中 Data Guard 是传输 日志到 在线数 据迁 移目 标端 ,然后 在在线数 据迁 移目 标端 解析 成 SQL 语句执行 , 网 络上 传输的 是归 档日 志, 而 以 Gold
6、en Gate 、 SharePlex 为代表的 备份 软 件是在 生产 端解 析日 志, 通过网 络把 解析 出 的 SQL 语句传 输到 在线 数据 迁移 目标端 执行 。 相比之 下,数据 库工 具方 法 更加 节省 带宽 ,操 作更 为灵活 。 1) 实 时 复制: 当源数据库内容被修改时,目标 数据库内容实时地被修 改,此种复制方 逻辑卷数据镜像方法 式对网 络可 靠性 要求 高。 2) 定 时 复制: 当源数据库内容被修改时,目标 数据库内容会按照时间 间隔,周期性地 按照生 产中 心的 更新 情况 进行刷 新, 时间 间隔 可长( 几天或 几个 月)可短(几分钟 或几秒 钟) 。
7、 3) 存储转发复制 : 当 源数据库内 容被 修改 时, 源 数据库服 务器 会先 将修 改操 作 Log 存 储于本 地, 待时机 成熟 再转发给 目标 数据 库。 远程数据库 复制 的实 质是 实现 源 、 目标 数据 库 的数据 同步 ( 实时 或者 准 实时同 步) 。 即 是将主用 系统数据 库操 作 Log 实时 或周期性 地复 制 到备用 系统 数据 库中 执行 , 实现二 者数 据的 一致 性。 目标数据库 复制 对主 机的 性能有 一定 影 响,可 能增 加对 磁盘 存储 容量的 需求 (包 括 对 Log 的存储 ) 。 下图为 远程 数据 库复 制逻 辑结构 (举 例)
8、 示意 。 数据库 工具 方法 的核 心是 数据库 复制 , 需要 主机 同 构, 存储 可异 构。 数据 库、 操作系 统、 中间件 版本 必须 同构 。 1.1.5. 存储虚拟化的方法 存储虚拟化 的方法 是在源 和目的地增 加必要 的存储 虚拟化设备 ,通过 网络(包括 SAN 网络 和 IP 网络、仅仅 SAN 网络或 仅 IP 网络 ) , 将数据从 源端 迁移 到目 的地 。 采 有这种 技术 的有 EMC 的 Invista 、IBM 的 SVC 和 LSI StoreAge SVM 等。 通过网 络的 方法 的主 要优 点有: 兼容现 有主 流存 储设 备, 如:IBM ,EM
9、C ,HDS ,LSI Logic 支持不 同厂 商不 同品 牌存 储设备 间的 数据 迁移 和 容灾 适合于 频繁 移动 数据 的大 型企业 1.1.6. 盘阵内复制方法 盘阵内 复制 方法 是通 过盘 阵内的 复制 软件 , 将数 据源 卷复制 到数 据目 标卷 , 主要 步骤 有 : 定义源 卷 定义目 标卷 (目 标卷 和源 卷在同 一盘 阵内 ) 将源卷 和目 标卷 配对 初始化 同步 目标 卷, 将源 卷 中的数 据复 制到 目标 卷, 直 到数据 完全 同步 , 两 者进 入 同步状 态, 在此之 前, 有可 能因 种种 原因需 要临 时中 断同 步过 程,然 后要 进行 再同
10、步。 分离源 卷和 目标 卷 将目标 卷加 载到 服务 器, 和相关 应用 建立 联系 ,驱 动相关 应用 。 盘阵内 复制 方法 的典 型代 表有 EMC 的 TimFinder ,IBM FlashCopy ,HDS ShadowImage 等。 通过网络的方法 从上图 可以 看出 , 源 卷为 Source, 目标 卷有 三种 方式, 一种是 Clone , 一种是 Snap,另 一种 是 Mirror 。 1.1.7. 直接的阵列到阵列 复制方法 这种方 法是 通过 某种 盘阵 到盘阵 的复 制软 件将 数据 从一个 盘阵 复制 到另 一个 盘阵, 即 写 数据到 本地 盘阵 时, 同
11、步或异步 地将 数据 写到 远程 盘阵 。 复制过 程由 磁盘 阵列完成 , 不需 要 消耗服 务器 资源 。 采用这 种方 法的 有 EMC 的 SRDF ,HDS 的 TrueCopy ,IBM 的 Global Mirror 等。 主要步 骤有 : 定义源 卷 定义目 标卷 (目 标卷 和源 卷在不 同盘 阵内 ) 将源卷 和目 标卷 配对 Mirror Snap Clone Source Storage Resource Management (SRM) PowerPath Symmetrix & Replication Management SAN TimeFinder Family
12、 直接的阵列到阵列复 制方法 初始化 同步 目标 卷, 将源 卷 中的数 据复 制到 目标 卷, 直 到数据完全 同步 , 两者进 入同步状 态, 在此之 前, 有可 能因 种种 原因需 要临 时中 断同 步过 程,然 后要 进行 再同 步。 分离源 卷和 目标 卷 将目标 卷加 载到 服务 器, 和相关 应用 建立 联系 ,驱 动相关 应用 。 EMC 的SANCopy 还支持 异构盘 阵之 间的 复制 , 不过SANCopy 软件需要 安装在EMC CX 系列盘 阵上 ,如 果用 户环 境中没 有 CX 系列盘 阵,SANCopy 方案适合 。 EMC 还有 Open Replicator
13、 for Symmetrix , 支持 “任 意到 Symmetrix DMX”的 迁移, 适 合于将 数据 移动 到 Symmetrix 平台或 从中 移动 数据 。 各种数 据迁 移方 法都 有不 同的特 点, 适用于 不同 的数据迁 移需 求, 通常在 有联机迁 移要 求且迁 移数 据量 大的 情况 下, 一般 采用逻 辑卷 数据 镜像方法 或 直接的阵列到阵 列复制 方法来 实现数 据迁 移, 相对 简单 、高效 。 如果系 统没 有逻 辑卷 管理 软件 , 可以考 虑采 用 在线备份恢 复的 方式 来实 现 , 这种方 式较 前者步 骤复 杂, 但使 用可 靠、成 熟, 在满 足备份
14、窗 口 要求 的情 况下 ,也 是一 种很好 的选择。 对于迁 移数 据量 不大 的系 统, 可以 考虑 采用 脱机 迁 移的方 法 , 这 种方 式下 , 采用直 接拷 贝的方 式就 显得 简单 ,快 捷。 对那些 需要 在线 不停 机做 数据迁 移 , 同 时又 要求 不 占用业 务系 统服 务器 资源 , 我们建 议 采用 直接的阵列到阵列复 制 方法。 在一个 大型 的存 储体 系规 划建设 过程 中 , 会 涉及 到 很多不 同的 应用 , 数据 特 点也各 不相 同,因 此, 在整 体的 数据 迁移过 程中 , 往往会用到 多种数据迁移方法。 1.1.8. 历史数据数据迁移 方法
15、在本项 目新 系统 切换 前 , 可以利 用 ETL (Extract Transform Load) 工具 把旧 系统中的 历 史数据 抽取 、转 换, 并装 载到新 系统 中去 。其 中 ETL 工具将购买 成熟 的产 品 ,同时 辅助 以 一些项 目组 自主 开发 的程 序。 原系统 数据 库结 构分 析 进行数 据移 植首 先要 分析 原系统 数据 库的 数据 存储 物理结 构。 这部 分工 作由于是在原 系 统中进 行, 并且 对旧 系统 中数据 库结 构的 正确 理解 是对数 据移 植正 确与 否的 决定因 素之 一 , 因此该 部分 工作 应由 熟悉 原系统 的原 系统 集成 厂
16、商 或省局 负责 。 中间文 件格 式定 义 中间文 件格 式是 描述 参与 数据移 植各 方传 递数 据格 式的规 范说 明文 档。 在中 间 文件格 式中对所 有的 数据 都必 须做 出准确 的无 二义 性的 说明 。 中间文 件格 式由 项目 组制 定,原 系统 集成 商和 省局 共同参 与商 定。 客户私 有数 据转 换处 理 若原系 统存 有客 户私 有数 据, 如密 码等 , 由于新 旧系统采 用的 安全 机制 不同 , 一些关 键 数据如 客户 PIN 等私有 数据在进 行数 据移 植时 需要 进行转 换, 将旧 系 统的加 密数据 转换 为 新系统 的加 密数 据。 这一 转换
17、存 在一 个解 密再 加密 的过程 。为 了保 护客 户私 有数据 的安 全 , 转换应 在同 一程 序中 进行 ,任何 数据 移植 过程 生成 的文件 中不 能带 有明 码。 导出及 预处 理工 具开 发 导出工 具的 功能 是在 原系 统中将 数据 从数 据库 中导 出, 并 且生 成与 数据 库结 构 类似的 文 本文件 。 预处 理工 具的 功 能是将 导出 的文 本文 件进 行格式 转换 , 并且 生成 中 间文件 格式 的文 本文件 。 数据移 植工 具开 发及 测试 数据移植的功能是将中间格 式的文本文件转换成可直 接装载入新应用系统数据 库中的 格式。 数据 移植 工具 在进 行 数据格 式转 换的 同时 还将 进行数 据合 法性 和相 关数 据的一 致性 的 检查。 数据 移植 工具 将不 合法的 数据 生成 错误 文件 ,供数 据修 正参 考。 数据移 植的 基本 步骤 如下 图所示 : 数据移植的基本步骤