收藏 分享(赏)

企业网络存储项目技术方案.doc

上传人:精品资料 文档编号:11239690 上传时间:2020-02-22 格式:DOC 页数:20 大小:316.50KB
下载 相关 举报
企业网络存储项目技术方案.doc_第1页
第1页 / 共20页
企业网络存储项目技术方案.doc_第2页
第2页 / 共20页
企业网络存储项目技术方案.doc_第3页
第3页 / 共20页
企业网络存储项目技术方案.doc_第4页
第4页 / 共20页
企业网络存储项目技术方案.doc_第5页
第5页 / 共20页
点击查看更多>>
资源描述

1、 企 业 网 络 存 储 项 目 技 术 方 案需求分析和 设计 目 标 2.1 系 统现 状 企 业 核心 业务 的开展依 赖 于大量的数据 处 理和信息交流, 对 数据的 实 时 性和准确性要求很高。更要 求企 业 在 对 外 积 极拓展 业务领 域的同 时 ,加 强 内部的 监 察和自控工作。 企 业负责 多 地区的 业务 工作,涉及面广,社会影响力大, 经济总 量大, 因此,数据安全及其重要。 公司的基本 环 境: 两台 IBM X255 8685-41X 服 务 器做双机,操作系 统 是 Win2000 ,数据 库 是 Sybase; IBM X345 8670-61X ( Win2

2、000 )服 务 器用于存 储备 份系 统 的 备 份服 务 器; 另外 3台 IBM X345 8670-61X 服 务 器是公司的其他数据业务 服 务 器; 系 统 运行的网 络环 境是千兆网; 2.2 系 统总 体架构要求 根据 设计 ,按照 设备 集中、集 约 管理、 满 足 应 用、方便 扩 展、安全 稳 定的要 求,今后数据中心形式的信息化存 储 系 统 建 设 的 发 展方向是按照先 进计算机 应 用 模式建立多 层 体系 结 构( N-Tier )的数据中心。数据中心的 逻辑结 多 层 体系 结 构核心 应 用 层组 件包括客 户层 、 应 用 /WEB 服 务器 层 和数据

3、库 服 务 器 层 和存 储备 份 层 。 客 户层 :客 户层 是消耗 应 用数据的 层 。通常指 Web 浏览 器。但多 层结 构 ( N-Tier ) 图 数据中心 逻辑图 也能支持 诸 如手机、掌上 电脑 等 其它非 浏览 器。 应 用 /WEB 服 务 器 层 : 应 用 /WEB 服 务 器 层 由 应 用服 务 器器和Web 服 务 器 组 成。 应 用服 务 器 层 提供 应 用的 业务逻辑处 理。 应 用 逻辑 服 务 器 检 索并 处 理来自数据 库 、生 产业务 系 统 等 应 用的数据,然后向Web 服 务 器返回 格式化的 结 果。通 过 采用中 间 件技 术(Web

4、sphere 、 WebLogic 、 MQ) 可 实现 应 用 逻辑 服 务 器的高可用性及可伸 缩 性。 数据 库 服 务 器 层 :数据 库 服 务 器 层 是一个中心存 储库 ,是 业务应 用系 统 中所有数据 资 源的管理中心。提供包括关系型数据 库 系 统 (如Oracle , Sybase , DB2 等)服 务 和数据 仓库 (如多 维 数据 库 等)服 务 。 存 储 与 备 份 层 :存 储 与 备 份 层 由磁 盘 存 储阵 列和 备 份 软 件和 备 份磁带库 组 成,提供数据存 储 和数据 备 份、数据恢复服 务 功能。 2.3 系 统 建 设 目 标 根据 设计规

5、划,按照 设备 集中、集 约 管理、 满 足 应 用、方便 扩 展、安全 稳 定 的建 设 要求,遵循高起点、高 标 准、高 质 量的建 设 原 则 ,立足当前,着眼 发 展 ; 在数据中心形式的信息化存 储 系 统 构建 统 一的集中运行平台,建立开放式多 层 架构体系, 优 化整合 现 有 设备资 源, 为 数据中心形式的信息数据 库 建 设 数据 库 和 应 用系 统 建 设 提供 统 一的运行 环 境,并 实 施系 统资 源的 统 一管理和 维护 ; 提高硬件 设备 的集 约 化管理水平和可 扩 展能力,增 强应 用系 统 和数据的运行 效率和管理水平,降低各 类应 用系 统 建 设

6、成本, 满 足数据中心形式的信息数据 库 建 设 数据 库 和 应 用系 统 的建 设 需要 ; 为 数据中心形式的信息数据 库 建 设 开展 应 用系 统 建 设 、信息数据集中整合、 方便信息分析研判以及信息化建 设 的健康持 续发 展奠定良好的硬件 设 施基 础 。 2.4 系 统 建 设 任 务 构建 专 用存 储 系 统 ,集中存 储 数据 在多 层 体系架构中,采用存 储 区域网 络 技 术 ,构建 专 用大容量存 储 系 统 ,通 过 区域划分 满 足各 类 信息数据的集中存 储 ,保 证 存 储 系 统 信息存 储 的灵活性和可 扩 展性。 构建 统 一的数据 库 集中运行平台

7、,提高数据 处 理能力 按照 “运行可靠、性能 优 良、 满 足 应 用 ”的要求,在多 层 体系架构中,建 设 小型机集群系 统 ,采用并行运行和互 为备 份的集群技 术 ,保 证小型机高效和不 间 断运行。同 时 ,通 过 小型机分区技 术 ,在小型机上构建不同 应用数据 库 ( 统 一采 用 Oracle 数据 库 )的运行区域, 满 足不同 应用数据 库 系 统 的运行需要,使各 类 应 用数据 库 既集中又相 对 独立地运行,以降低不同数据 库 之 间 相互影响,提高数 据 库处 理能力。 建立多种系 统应 用平台,提高集中运行平台的适 应 性 按照各 类应 用系 统 所需的不同系

8、统 运行 环 境,在多 层 体系架构中,建立与之 相适 应 的多种系 统 运行平台,提供 Unix 、 Windows 或 Linux 操作系 统平台上 应 用 服 务 和 Web 浏览 等 应 用。通 过 共享 统 一的存 储 系 统 ,建立如 SQL Server 等其他 主流数据 库 运行平台,提供数据 库 服 务 。 为 有关部 门 的不同 应用系 统 提供相 应 的 运行 环 境。 整合 优 化 现 有 计 算机 设备资 源,提高集中管理和 应 用水平 根据系 统 建 设 的整体框架要求,按照数据集中整合和 应 用的需要, 对 用 户现 有 计 算机 设备资 源 进 行 调 整, 纳

9、 入 统 一集中运行管理框架的多 层 体系架构中。同 时 ,按照 设备 集中管理的要求,在数据中心形式的信息数据 库 建 设 集中 计 算机房 建成后,将用 户 各 类 服 务 器及相关 设备 集中起来,根据不同 应 用的要求进 行整合 优 化, 实 行 统 一的运行和管理。 扩 展数据 备 份系 统 ,提高系 统 可靠性 数据中心形式的信息数据 库 建 设 数据 库 、其它 应 用数据 库 以及衍生的整合分 析数据 资 源是生 产 机关极其宝 贵 的重要 资 源,必 须 做到安全上的万无一失,并且 各 类应 用系 统 要求 7?4 小 时 ?65 天不 间 断运行,要求基于多 层 体系架构的

10、集 中运行平台有多 层 面的系 统 可靠性保障。集中运行平台中,所有层 面要建立相 应 的容 错 机制,确保 设备发 生故障或升 级维护时 系 统 服 务 不中断; 设备 自身必 须 具 备 容 错 能力,尽可能在 设备 一 级 就能屏蔽大多数故障。此外,构建存 储 系 统 的 “快 照 ”复制和磁 带备 份系 统 ,包含 专业 的数据备 份系 统 、 备 份管理策略与手段,通 过 在 现 有 备 份系 统 基 础 上 进 行 扩 展,实现 信息数据的快速 备 份和 统 一的常 规备 份 以及高效的数据恢复,使集中运行平台具 备 高效、全面 备 份数据的能力,保 证 信 息数据的安全可靠。 建

11、立集中运行管理机制, 实现设备 和系 统资 源的 统 一管理 按照 计 算机 应 用系 统 和数据集中运行的要求,建立 设备 和系 统 的集中运行管 理机制, 实现对 集中 设备 和系 统 的性能 监 控、配置 优 化和 维护服 务 的 统 一运行管 理,确保 设备 和系 统 的高效、可靠和安全地运行,提高 对设备和系 统 的运行管理 水平。 2.5 系 统设计 原 则 数据中心形式的信息化存 储 系 统 集中运行平台多 层 架构体系建 设 必 须 既 满 足当前的 应 用需求,又面向未来 业务 和技 术 的发 展要求。集中运行平台的建 设 遵 循以下原 则 : 2.5.1 实 用性和先 进

12、性 采用成熟、 稳 定、完善的 产 品和技 术 , 满 足当前 应 用需求。尽可能采用先 进 的 计 算机及网 络 技 术 以适 应 更高的数据 处 理要求,使整个集中运行平台在一定 时 期内保持技 术 上的先 进 性,并具有良好的 扩 展潜力,以适 应 未来 应 用的 发 展和技 术 升 级 的需要。 2.5.2 高性能和高 负载 能力 数据中心形式的信息化存 储 系 统 集中运行平台必 须 能 够 承载较 大的系 统 和 应 用运行 负载 ,提供高性能的数据 处 理和 应 用响 应 能力,确保各 类应 用系 统 和数 据 库 的高效运行。 2.5.3 安全性和可靠性 为 保 证业务应 用不

13、 间 断运行,数据中心形式的信息化存 储 系 统集中运行平台 必 须 具有极高的安全性和可靠性。 对 系 统结 构、网 络 系 统 、服务 器系 统 、存 储 系 统 、 备 份系 统 等方面 须进 行高安全性和可靠性 设计 。系 统 达到 C2 级 以上 标 准安 全 级别 ,具有一定的防病毒、防入侵能力。在采用硬件 备 份、冗余、 负载 均衡等 可靠性技 术 的基 础 上,采用相关的 软 件技 术 提供 较强 的管理机制和控制手段,以 提高整个系 统 的安全可靠性。 2.5.4 灵活性与可 扩 展性 数据中心形式的信息化存 储 系 统 集中运行平台要能 够 根据生 产 信息化不断 发 展的

14、需要,方便地 扩 展系 统 容量和 处 理能力,具 备 支持多种应 用的能力。同 时 可以根据 应 用 发 展的需要 进 行灵活、快速的 调 整, 实现 信息 应用的快速部署。 2.5.5 开放性和 标 准化 数据中心形式的信息化存 储 系 统 集中运行平台要具 备较 好的开放性,相关系 统 和 设备应 是 业 界主流 产 品,遵循 业 界相关标 准,保 证 数据中心形式的信息数据 库 建 设选 用的主流系 统 和设备 能 够 随 时 无障碍地接入集中运行平台, 实现 系 统 和 数据的集中运行和 统 一 维护 管理。 2.5.6 经济 性与投 资 保 护 应 以 较 高的性能价格比构建数据中

15、心形式的信息数据 库 建 设集中运行平台, 使 资 金的 产 出投入比达到最大 值 。以 较 低的成本、 较 少的人 员投入来 维护 系 统 运 转 ,达到高效能与高效益的要求。尽可能保 护 已有系 统 投 资 ,充分利用 现 有 设备 资 源。 2.5.7 集中运行和逐步 过 度 数据 库 和 应 用系 统 建 设 采用集中运行和逐步 过 度相 结 合的原 则 。新的 应 用要 直接部署在新建的集中运行平台上运行, 现有 应 用及硬件 资 源将根据需要和可能 分期分批逐步融入集中运行平台, 进 行 统 一的管理和 资 源配置。 系 统 方案 设计 3.1 系 统总 体 结 构 图 根据数据中

16、心形式的信息数据 库 建 设 需求分析,系 统总 体 结 构描述如下: 本 项 目的存 储 网 络 架构 图 ,通 过 SAN 能 够 将多种数据 应 用全面整合起来,其 中后端的 阵 列是整个系 统 的核心,所有的 业务数据都存在 该阵 列中,因此 阵 列本 身需要完全冗余架构和极高的吞吐性能; SAN 网 络 采用 dual Fabric 设计 ,采用 两台交 换 机构成冗余的存 储 网 络 ;每台主机(关 键业务 )可以采用两 块 (甚至更 多) HBA 跨接到两台 SAN 交 换 机上,做的主机到存 储 接口冗余;主机 层 采用 HA 配 置,因此整个系 统 是高效而全冗余的。同 时

17、也能 够 平滑 过 渡到下 阶 段的容灾系 统 。 备 份系 统 也跨接到 SAN 网 络 上, 这样 所有的 备 份工作可以大大减 轻对 于生 产 网 络 的影响,主机直接通 过 SAN 将数据 读 出并写到带库 ,完全采用 FC/SCSI 协议 。 在上述架构中,后端的磁 盘阵 列采用高性能磁 盘阵 列,作 为综 合存 储 磁 盘阵 列。 该 磁 盘阵 列代表当 时 行 业 的最佳性能、 100% 数据可用性,以及功能丰富的管 理软 件。 3.2 数据 库 服 务 器 设计 3.2.1 数据 库 系 统结 构 数据 库 服 务 平台主要采用 动态 分区、多机集群、并行数据 库等技 术 ,

18、实现 多 台数据 库 主机同 时 并行 访问 数据 库 , 应 用可以根据需求均衡到不同主机 资 源上同 时 工作,多机互 为备 份。 这种机制依靠系 统 提供的系 统 硬件、操作系 统 集群 软 件、 与数据库 提供的并行技 术 来 满 足要求。数据 库 支持数据分区技 术 ,通过 数据 库 分 区技 术 提高 查询 效率。同 时 ,与数据 库 服 务 平台相配合,采用 专 用数据采集 处 理 服 务 器, 负责 数据采集工作,各数据 库 的数据采取分 别汇 集, 单 点入 库 的数据更 新策略。 数据 库 服 务 器系 统图 如下: 数据 库 服 务 器 选 用高性能 UNIX 服 务 器

19、,每台高性能 UNIX 服 务器划分成 2 个 分区,配置 1.7GHz CPU 、 16GB 内存、 2 块 千兆光 纤 网卡、2 块 15000 转 73G 硬 盘 、 2 块 2GB 光 纤 通道卡。 对应 分区通 过软 件 实现群集。 根据 设计 要求 “当前配置 tpmC =(TPMC 基准 值 * 实际 CPU 数目 * 实际 CPU 主 频 )/ (基准 CPU 数目 *基准 CPU 主 频 )” (768,839*16*1.7)/(32*1.7)=384,420tpmC 3.3 存 储 系 统设计 3.3.1 存 储 系 统结 构 整体架构采用 SAN- 存 储 局域网的架构搭

20、建,分 为 主机、交 换机和存 储设备 三 个 层 面: A. 主机 层 面 前端服 务 器每台通 过 两 块 光 纤 卡(以下 简 称 HBA 卡)跨接到两台光 纤 交 换 机 上,构成冗余 链 路 B. 光 纤 交 换 机 利用两台 16 口光 纤 交 换 机作 为 SAN 的骨干 设备 , 连 接主机和存 储设备 ; C. 存 储设备 主存 储设备 :核心磁 盘阵 列存 储 所有系 统 的数据。 该 磁 盘阵列通 过 1 对 ( 2 块 )接口卡分 别 跨接到台光 纤 交 换 机上,构成冗余 链 路近 线 存 储设备 :近 线备 份 目 标 磁 盘阵 列使用采用STAT 磁 盘 的廉价磁

21、 盘阵 列,离 线备 份目 标带库 采用 设计 方案已有的 带库 3.3.2 主存 储 系 统 方案 目前存 储 区域网( SAN )是解决海量存 储问题 的主流解决方案,也是本 项 目 建 设 要求的解决方案,同 时 也支持 NAS 方式。数据中心形式的信息数据 库 建 设 数 据 库 及其 应 用系 统 相关的数据 库 即将 统 一存 储 到大容量高性能的存 储设备 上,存 储设备 与主机群之 间 通 过 SAN 光 纤 交 换 机互 联 (具有冗余 联 接) ,同 时 数据 备 份 设备 也通 过 光 纤 交 换 机 联 接以提高 备 份效率,减 轻 网 络 和主机的 压 力。 在本方案

22、中,存 储 工程 师 使用高档全光 纤 磁 盘阵 列 为 主存 储系 统 ,从用 户 的 投 资 、需求 综 合分析,推荐了极佳的性能价格比的 产 品,用 户 可以根据性能要求、 扩 展性要求、价格需求等因素来 选择 。 根据数据中心形式的信息数据 库 建 设该设计 的需求, 为 了提高主磁 盘阵 列的 性能,在 该设计 中推荐配 备 15000RPM 的 73GB 磁盘 。 磁 盘阵 列在各方面均 应 充分 扩 展,并能 够 充分 满 足今后 业务发 展 过 程中数据 迁移、系 统 ,容灾的要求: 1)硬件方面 所有重要部分均 应 在 线扩 容 前端接口、磁 盘 控制卡、 缓 存、磁 盘 等

23、。2) 软 件方面 可 选择 不同的 软 件 实现 性能 优 化、数据迁移和数据容灾等: 3.3.3 近 线备 份系 统 传统 的数据存 储 一般分 为 在 线 (On-line) 存 储 及离 线 (Off-line) 存储 两 级 存 储 方式。所 谓 在 线 存 储 就是指将数据存放在磁 盘 系 统上,而离 线则 是指将数据 备 份到磁 带 上。硬 盘 的 优 点是速度快,特 别 是随机 访问 能力 强 ,但 单 位容量成本高, 适合需要 频 繁 访问 的数据存 储 ;磁 带 善于 传输 流式数据,介 质 与 驱动 器相分离的 特性决定了其 单 位容量成本低廉,保存数据的安全性也 较 高

24、,适合数据 备 份。 但随着数据量的猛增, 这 种只使用在 线 和离 线两 级 存 储 的策略已 经 不能适 应 企 业 的需求。一方面,用 户 有越来越多的数据在一定 时 期内仍需要 访问 ,如果 备 份到磁 带 上,则读 取的速度太慢,而保持在 线 状 态 ,又会因 访问频 度不高而占用 宝 贵 的存 储 空 间 ;另一方面,用 户 要求 “备 份窗口 ”越来越小,备 份 设备 要具有 更快的速度,以 缩 短 备 份 时间 ,而 带 基 设备 与盘 基 设备 相比 还 不 够 快。 由此 产 生了数据的分 级 存 储 管理 分 级 存 储 管理是一种将非在 线 存 储 与在 线 存 储 融

25、合的技 术 。它以数据生命周期的 不同 阶 段来决定存 储 的位置,从而在在 线 存储 与离 线 存 储 之 间诞 生了第三种存 储 方式 近 线 (Near-line)存 储 ,使存 储 网 络 从 “在 线 离 线 ”的两 级 架构向 “在 线 近 线 离 线 ”的三 级 架构演 变 。近 线 存 储 的特点是性能接近在 线 存 储 ,而成 本接近离 线 存 储 。 根据大型信息数据 库 存 储 系 统 分析 结 果,存 储 容量 约为16TB ,考 虑 适当冗余 和 “快照 ”备 份,存 储阵 列 实 配容量 应 大于20TB ,存 储阵 列最大 扩 展容量 应 不低 于64TB 。 基

26、于存 储 区域网技 术 , 满 足数据中心形式的信息数据 库 建 设数据 库 和 应 用系 统 相关数据 库 ,以及运行于其上的 业务 系 统 、查询 系 统 、数据分析系 统 的要求, 必 须 增 强 数据存 储 核心, 选择高性能存 储阵 列, LUN 数量 应 2048 ,系 统 IOPS 240000 (吞吐量大于 1540 M/S ) 。其基本性能需求分析如下: A. 在存 储 系 统 中, 处 理器主要完成 I/O 处 理、 Cache 控制管理、数据 传输 控制以及一些智能化的 软 件运行功能, 处 理器的能力直接影响到整个存 储 系 统 的性能。考 虑 到不同厂商存 储 所采用

27、的 CPU 性能差异 较 大、主 处 理器所承担的任 务也有所区 别 , 应 在 给 出 实际处 理器配置数量的同 时给 出性能指 标 、承 载 任 务 分析, CPU 实 配数量不低于 16 个。 B. 磁 盘 本身性能也决定存 储 系 统 整体性能,通常磁 盘 性能以 转 速、 寻 道 时 间 等技 术 指 标 衡量,考 虑 到性价比,推荐采用 15K rpm 的磁 盘 。 C. 对 于数据 库 等大数据量 访问应 用, 缓 存越大,性能越好,本 项 目 实 配存 储 容量 应 与 Cache 的容量配置成比例配置,按大于 16GB 考 虑 ,最大可 扩 展到128GB 。 3.5 应 用

28、服 务 器、 浏览 服 务 器和数据 处 理前置机 设计 应 用服 务 器 层 主要 负责业务逻辑处 理,用 户请 求的 连 接 处理和数据 库 端或其 他 应 用系 统 的 连 接 处 理,以及 业务处 理 过 程实现 。用 户 多 层 体系 结 构要求 应 用服 务 器与 Web 服 务 器物理独立,考 虑 到 应 用服 务 器 对处 理能力、系 统稳 定性的要求 均大大高于数据表 现层 ,关 键应 用采用 Unix 服 务 器,其他 应 用可考 虑刀片式微 机服 务 器,建立多机集群 环 境。 数据迁移 数据迁移是数据系 统 整合中保 证 系 统 平滑升 级 和更新的关键 部分。在信息化

29、 建 设过 程中,随着技 术 的 发 展,原有的信息系 统 不断被功能更 强 大的新系 统 所取 代。从两 层结 构到三 层结 构,从 Client/Server 到 Browser/Server 。在新旧系 统 的切 换过 程中,必然要面 临 一个数据迁移的 问题 。 4.1 数据迁移的概念 原有的旧系 统 从启用到被新系 统 取代,在其使用期 间 往往 积累了大量珍 贵 的 历 史数据,其中 许 多 历 史数据都是新系 统顺 利启用所必 须 的。另外, 这 些 历 史数 据也是 进 行决策分析的重要依据。数据迁移,就是将 这 些 历 史数据 进 行清洗、 转 换 ,并装载 到新系 统 中的

30、 过 程。数据迁移主要适用于一套旧系 统 切 换 到另一套新 系 统 ,或多套旧系 统 切 换 到同一套新系 统时 ,需要将旧系 统 中的 历 史数据 转换 到 新系 统 中的情况。 银 行、 电 信、税务 、工商、保 险 以及 销 售等 领 域 发 生系 统 切 换 时 ,一般都需要进 行数据迁移。 对 于多 对 一的情况,例如由于信息化建 设 的先后,造成有多个不同的系 统 同 时 运行,但相互 间 不能做到有效信息共享,所以就需要 一套新系 统 包容几套旧系 统 的 问题 。 数据迁移 对 系 统 切 换 乃至新系 统 的运行有着十分重要的意义 。数据迁移的 质 量不光是新系 统 成功上

31、 线 的重要前提,同时 也是新系 统 今后 稳 定运行的有力保 障。如果数据迁移失 败 ,新系 统 将不能正常启用;如果数据迁移的 质 量 较 差,没 能屏蔽全部的垃圾数据, 对 新系 统 将会造成很大的 隐 患,新系 统 一旦访问这 些垃 圾数据,可能会由 这 些垃圾数据 产 生新的 错误 数据,严 重 时还 会 导 致系 统 异常。 相反,成功的数据迁移可以有效地保障新系 统 的 顺 利运行,能 够继 承珍 贵 的 历 史数据。因 为 无 论对 于一个公司 还 是一个部门 , 历 史数据无疑都是十分珍 贵 的 一种 资 源。例如公司的客 户信息、 银 行的存款 记录 、税 务 部 门 的

32、纳 税 资 料等。 4.2 数据迁移的特点 系 统 切 换时 的数据迁移不同于从生 产 系 统 OLTP ( On-line Transaction Processing ) ,到数据 仓库 DW( Data Warehouse )的数据抽取。后者主要将生 产 系 统 在上次抽取后所 发 生的数据 变 化同步到数据 仓库 ,这 种同步在每个抽取周期 都 进 行,一般以天 为单 位。而数据迁移是将需要的 历 史数据一次或几次 转换 到新 的生 产 系 统 ,其最主要的特点是需要在短 时间 内完成大批量数据的抽取、清洗和 装 载 。 数据迁移的内容是整个数据迁移的基 础 ,需要从信息系 统规 划的

33、角度 统 一考 虑 。划分内容 时 ,可以从横向的 时间 和 纵向的模 块 两个角度去考 虑 。 横向划分 以 产 生数据的 时间为 划分依据,需要考 虑 比 较 久 远 的 历 史数据如何迁移的 问 题 。由于信息技 术 的 发 展,以及存 储 工程 师对计 算机依 赖 性的增 强 ,新系 统 每天 往往需要比旧系 统 存 储 更多的信息,同 时为 了解决数据量高增 长带 来的性能瓶 颈 ,新系 统一般只保留一定 时 期的数据,比如 1 年,而把超 过 保存周期的数据, 即 1 年以前的数据 转 移到数据 仓库 中,以便用于决策分析。 对 于 这 种新系 统 的数 据迁移,主要迁移 1 年以

34、内的数据, 1 年以前的 历 史数据需要另外考 虑 。 纵 向划分 以 处 理数据的功能模 块为 划分依据,需要考 虑 在新系 统 中没有被包含的功能 模 块 ,其所涉及数据的 处 理 问题 。 这类 数据由于无法建立映射关系,一般不需要 迁移到新系 统 中。但 对 于模 块间 偶合度比 较紧 密的旧系 统 ,在 纵 向划分 时 需要注 意数据的完整性。 4.3 数据迁移的三种方法 4.3.1 数据迁移方法 数据迁移可以采取不同的方法 进 行, 归纳 起来主要有三种方法,即系 统 切 换 前通 过 工具迁移、系 统 切 换 前采用手工 录入、系 统 切 换 后通 过 新系 统 生成。 系 统

35、切 换 前通 过 工具迁移 在系 统 切 换 前,利用 ETL ( Extract Transform Load )工具把旧系 统中的 历 史数据抽取、 转换 ,并装 载 到新系 统 中去。其中 ETL 工具可以 购买 成熟的 产 品, 也可以是自主开 发 的程序。 这 种方法是数据迁移最主要,也是最快捷的方法。其 实 施的前提是, 历 史数据可用并且能 够 映射到新系 统 中。 系 统 切 换 前采用手工 录 入 在系 统 切 换 前, 组织 相关人 员 把需要的数据手工 录 入到新系 统 中。 这 种方法 消耗的人力、物力比 较 大,同 时 出 错 率也比较 高。主要是一些无法 转换 到新

36、系 统 中的数据,和新系 统 启用时 必需要而旧系 统 无法提供的数据采用 这 种方法,可作 为 第一种方法的有益 补 充。 系 统 切 换 后通 过 新系 统 生成 在系 统 切 换 后,通 过 新系 统 的相关功能,或 为 此 专门 开 发的配套程序生成所 需要的数据。通常根据已 经 迁移到新系 统 中的数据来生成所需的信息。其 实 施的 前提是, 这 些数据能 够 通过 其它数据 产 生。 4.3.2 数据迁移的策略 数据迁移的策略是指采用什么方式 进 行数据的迁移。 结 合不同的迁移方法, 主要有一次迁移、分次迁移、先 录 后迁、先迁后 补 等几种方式可供 选择 。 一次迁移是通 过

37、数据迁移工具或迁移程序,将需要的 历 史数据一次性全部迁 移到新系 统 中。一次迁移的 优 点是迁移 实 施的 过 程短,相 对 分次迁移,迁移 时 涉 及的 问题 少, 风险 相 对 比 较 低。其缺点工作 强 度比 较 大,由于 实 施迁移的人 员 需 要一直 监 控迁移的过 程,如果迁移所需的 时间 比 较长 ,工作人 员 会很疲 劳 。一次 迁移的前提是新旧系 统 数据 库 差异不大,允 许 的宕机 时间 内可以完成所有数据量 的迁移。 分次迁移 分次迁移是通 过 数据迁移工具或迁移程序,将需要的 历 史数据分几次迁移到 新系 统 中。分次迁移可以将任 务 分开,有效地解决了数据量大和

38、宕机 时间 短之 间 的矛盾。但是分次切 换导致数据多次合并,增加了出 错 的概率,同 时为 了保持整 体数据的一致性,分次迁移 时 需要 对 先切 换 的数据 进 行同步,增加了迁移的复 杂 度。分次迁移一般在系 统 切 换 前先迁移将静 态 数据和 变 化不 频 繁的数据,例如代 码 、用 户 信息等,然后在系 统 切换时 迁移 动态 数据,例如交易信息, 对 于静 态 数 据迁移之后 发生的数据 变 更,可以每天同步到新系 统 中,也可以在系 统 切 换时 通 过 增量的方式一次同步到新系 统 中。 先 录 后迁 先 录 后迁是在系 统 切 换 前,先通 过 手工把一些数据 录 入到新系

39、 统 中,系 统 切 换时 再迁移其它的 历 史数据。先 录 后迁主要 针对 新旧系 统 数据 结 构存在特定差异 的情况,即 对 于新系 统 启用时 必需的期初数据,无法从 现 有的 历 史数据中得到。 对 于 这 部分期初数据,就可以在系 统 切 换 前通 过 手工 录 入。 先迁后 补 先迁后 补 是指在系 统 切 换 前通 过 数据迁移工具或迁移程序,将原始数据迁移 到新系 统 中,然后通 过 新系 统 的相关功能,或为 此 专门编 写的配套程序,根据已 经 迁移到新系 统 中的原始数据,生成所需要的 结 果数据。先迁后 补 可以减少迁移 的数据量。4.4 数据迁移的 实现 数据迁移的

40、 实现 可以分 为 三个 阶 段:数据迁移前的准 备 、数据迁移的 实 施和 数据迁移后的校 验 。 由于数据迁移的特点,大量的工作都需要在准 备阶 段完成,充分而周到的准 备 工作是完成数据迁移的主要基 础 。具体而言,要 进 行待迁移数据源的 详细说 明, 包括数据的存放方式、数据量、数据的 时间 跨度,建立新旧系 统 数据 库 的数据字 典, 对 旧系 统 的 历 史数据 进 行 质 量分析,新旧系 统 数据 结 构的差异分析;新旧系 统 代 码 数据的差异分析;建立新老系 统 数据 库 表的映射关系,对 无法映射字段的 处 理方法,开 发 、部属 ETL 工具, 编 写数据转换 的 测

41、试计 划和校 验 程序,制定数 据 转换 的 应 急措施。其中,数据迁移的 实 施是 实现 数据迁移的三个 阶 段中最重要 的 环节 。它要求制定数据 转换 的 详细实 施步 骤 流程;准 备 数据迁移 环 境;业务 上 的准 备 , 结 束未 处 理完的 业务 事 项 ,或将其告一段落;对 数据迁移涉及的技 术 都 得到 测试 ;最后 实 施数据迁移。数据迁移后的校 验 是 对 迁移工作的 检查 ,数据校 验 的 结 果是判断新系 统 能否正式启用的重要依据。可以通 过质 量 检查 工具或 编 写 检查 程序 进 行数据校 验 ,通 过试 运行新系 统 的功能模 块 ,特 别 是查询 、 报

42、 表功能, 检查 数据的准确性。 4.4.1 数据迁移的技 术 准 备 数据 转换 与迁移通常包括多 项 工作:旧系 统 数据字典整理、旧系 统 数据 质 量 分析、新系 统 数据字典整理、新旧系 统 数据差异分析、建立新旧系 统 数据之 间 的 影射关系、开 发 部署数据 转换 与迁移程序、制定数据 转换 与迁移 过 程中的 应 急方 案、 实 施旧系 统 数据到新系 统 的 转换 与迁移工作、 检查转换 与迁移后数据的完整 性与正确性。 数据 转换 与迁移程序,即 ETL 的 过 程大致可以分 为 抽取、 转换 、装 载 三个步 骤 。数据抽取、 转换 是根据新旧系 统 数据 库 的映射关

43、系 进 行的,而数据差异分析 是建立映射关系的前提, 这其中 还 包括 对 代 码 数据的差异分析。 转换 步 骤 一般 还 要包含数据清洗的 过 程,数据清洗主要是 针对 源数据 库 中, 对 出 现 二 义 性、重复、 不完整、 违 反 业务 或 逻辑规则 等 问题 的数据 进 行相 应 的清洗操作,在清洗之前需 要 进 行数据 质 量分析,以找出存在 问题 的数据,否 则 数据清洗将无从 谈 起。数据 装 载 是通 过 装 载 工具或自行 编 写的 SQL 程序将抽取、 转换 后的 结 果数据加 载 到目 标数据 库 中。 对 数据的 检查 数据格式 检查 : 检查 数据的格式是否一致和

44、可用,目 标 数据要求 为 number 型。数据 长 度 检查 : 检查 数据的有效 长 度。 对 于 char 类 型的字段 转换 到 varchar 类 型中,需要特 别 关注。 区 间 范 围检查 : 检查 数据是否包含在定 义 的最大 值 和最小值 的区 间 中;例如 年 龄为 300 ,或 录 入日期在 4000-1-1 。 空 值 、默 认值检查 : 检查 新旧系 统 定 义 的空 值 、默 认值 是否相同,不同数据 库 系 统对 空 值 的定 义 可能不同,需要特 别关注。 完整性 检查 : 检查 数据的关 联 完整性。如 记录 引用的代 码值 是否存在,特 别 需要注意的是有

45、些系 统 在使用一段 时间 后,为 了提高效率而去掉了外 键约 束。 一致性 检查 : 检查逻辑 上是否存在 违 反一致性的数据,特别 是存在分 别 提交 操作的系 统 。 5.设备 及网 络 的安装 调试 制 订详 尽的 设备 安装 计 划(含工作日程、工作内容、工作方法等) 。在工作 日程表内注明 设备 到 货 日期、 现场 安装、系统测试 、 验 收、技 术 培 训 等条款。征 得 项 目 单 位方 认 可后 严 格按照日程表 执 行。 我方 项 目 组 工作人 员 及 项 目 单 位方的技 术 人 员 一起参与系统 的安装、 测试 、 诊 断及解决遇到的 问题 等各 项 工作。 8.4

46、.1 安装步 骤 ( 1)开箱 验货 :根据清 单 逐一清点所到 货 物,填写开箱 检查报 告。 ( 2)完成硬件 连 接:将网 络 系 统 的各种 设备 正确安装上去,联 接其它外部 设备 。 ( 3)硬件加 电测试 :仔 细观 察指示灯,如果有硬件出错 ,填写 报 告。 ( 4) 对设备进 行配置。 (5(对设备进 行功能 测试 。( 6) 测试 防火 墙 、交 换 机 产 品是否与 设计 方案一致。 8.4.2 设备 参数 调 整及性能 优 化 当新的系 统 运行一段 时间 之后,可能因 为 种种原因, 发现整体性能不如人 意, 这时 会有 调 整系 统 整体运行性能的要求,这 也是十分

47、常 见 的。 这样 的工作 较 为 复 杂 , 牵 涉的面也比 较 广。这 是需要有一个 专业队 伍来完成此 项 任 务 的,我 们 通常的做法是: 与客 户 一起 讨论问题 出 现 的方式,方法, 时间 , 频 度等等。尽早将 问题 定性,定位。 进 一步深 层 次分析,建立各种 压 力 测试环 境,努力 寻 找改 进 系 统 性能的 方案。 确定提高系 统 性能的方案,如需要 协调 各方,与原厂家共同完成提高整 体性能的任 务 。 测试对 象: 设备 和相关配件。 测试 内容: ( 1(设备 通 电 自 检 : 观 察 设备 的开机信息、信号指示灯等检查 状 态 是否正 常。( 2) 设备连 接 测试 (与外部 设备 的 连 接, 电 源等的 连 接):对 各个外 设进 行 功能 测试 。 ( 3)网 络连 接 测试 (与 实际 的网 络环 境的互 联测试 ): 检查 网 络 响 应时间 、 数据 传输 速率等。 ( 4)系 统测试 : 对设备 整体性能 进 行 综 合 测试 ; 对 防火 墙的安全 稳 定性能 的 测试 。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报