1、 中国移动公司IP 网管系统性 数据容灾备份解决方案VERITAS 公司北京办事处 2018 年 9 月 22 日 第 1 页目 录1 系统需求分析 21.1 系统建设目标 21.2 需求简析 52 高可用容灾方案设计 82.1 设计原则 .82.2 方案概述 .92.1.1 IPNET 流量管理服务器及 NetCool 汇总管理服务器“N+1” 冗余备份方式 102.1.2 “N+1” 冗余备份方式 112.1.3 N 节点循环备份方式 112.1.4 软件安装 122.1.5 NetCool 网管服务器/PM 服务器、业务网管服务器、Precision 服务器容灾 .122.1.6 功能配
2、置说明 142.1.7 Visionary 应用服务器、NetCool 报表服务器、IPNET 报表服务器容灾 153 高可用容灾方案实现 153.1 软件功能解释 163.2 安装、配置过程 213.3 工作过程 .223.4 方案分析 263.1.1 3.4.1 有关数据的量化分析及结果 .263.1.2 方案小结 274 附 录 29一、 VERITAS 公司简介 29二、VERITAS Foundation Suite 31三、 VERITAS Cluster Server 38第 2 页1 系统需求分析1.1 系统建设目标建设本系统的目的是为中国移动公司 IP 网管系统建立一个全面的
3、、整体的容灾方案,最大限度地保证业务系统工作的连续性、可靠性。常言道,“知己知彼,百战不殆”。要实现容灾,首先要了解我们的“敌人” 灾难。那么,哪些事件可以定义为灾难呢?典型的灾难事件是自然灾难,如火灾、洪水、地震、飓风、龙卷风、台风等,还有其它如原先提供给业务运营所需的服务中断,如设备故障、软件错误、电信网络中断和电力故障等等。此外,人为的因素往往也会酿成大祸,如操作员错误、破坏、植入有害代码和恐怖袭击。现阶段,由于我国很多行业正处在高速发展的阶段,很多生产流程和制度仍不完善,加之缺乏经验,这方面的损失屡见不鲜。事实上,我国 2003 年遭遇的“非典”,某种意义上也是灾难。对此,我们认为需要
4、做到两点:一是建立切实可行的应急机制,这主要包含一套基于充分且清楚地将风险予以分类定义的业务持续计划,二是在危机突然降临时,此计划能被有效执行。对于 IT 系统,除了上述的灾难之外,与系统相关的计划外宕机也可视作灾难。对于 IT 系统而言,在技术层面上,容灾需要考虑:* 数据版本保护 建立容灾的多版本保护底线(Bottom Line)* 实时数据保护 数据复制,近乎 0 的数据丢失,数据一致性* 应用系统恢复 恢复时间(包括数据库恢复)、应用版本的一致性(PTF)等* 网络系统恢复 数据访问点变化、建立新网络路径、动态路由(收敛时间/稳定性)* 容灾切换决策 及时发现灾难(容灾系统管理)、容灾
5、切换的损失和补救办法* 容灾切换过程 变更管理同时,无论任何时候,备份都是非常重要的,并要定期测试备份的可靠性。第 3 页一种技术只能减少或防止某些类型的灾难的影响。除了简单或一成不变的应用,在没有特别要求的情况下,尽量不要采用操作系统层面以上的数据复制技术。而没有文档化的流程就相当于没有流程,没有流程的系统能够在要求时间内恢复完全靠运气(通常不能)。另外,在通常情况下,IT 系统相关的灾难备份方案设计都必须考虑以下五大因素,1,灾难类型需要考虑哪些灾难?怎样的灾难?会使业务中断多久?2,恢复速度灾难发生后需要多久来启动及运行系统?能否承受数天或数分钟的等待?3,恢复程度需要恢复每条记录和交易
6、吗?可以使用上星期或昨天的数据吗?需要恢复一切吗?有不相关的文件吗?什么是合法隐含的要求?有少数的一组人输入交易吗?他们可以重新输入灾难期间丢失的交易吗?这些交易十分重要而不容许丢失吗?4,可用的技术必须结合考虑所选技术在本地区的适用性、实现条件以及在实施时是否受某些现有条件的制约?5,方案总体成本实现灾难备份需要多少投资?不实现灾难备份会损失多少钱?据国际标准 SHARE78 的定义,灾难恢复解决方案可根据以下主要方面所达到的程度分为七级,即从低到高有七种不同层次的灾难恢复解决方案。可以根据企业数据的重要性以及需要恢复的速度和程度,来设计选择并实现灾难恢复计划。这取决于下列要求:备份/恢复的
7、范围灾难恢复计划的状态在应用中心与备份中心之间的距离应用中心与备份中心之间是如何相互连接的数据是怎样在两个中心之间传送的第 4 页有多少数据被丢失怎样保证更新的数据在备份中心被更新备份中心可以开始备份工作的能力现已证明,为实现有效的灾难恢复,无需人工介入的自动站点故障切换功能是一个必须被纳入考虑范围的重要事项。目前通用的异地远程恢复标准采用的是1992 年 Anaheim 的 SHARE78,M028 会议的报告中所阐述的七个层次:0 层- 没有异地数据(No off-site Data)Tier0 即没有任何异地备份或应急计划。数据仅在本地进行备份恢复,没有数据送往异地。事实上这一层并不具备
8、真正灾难恢复的能力。1 层- PTAM 卡车运送访问方式 (Pickup Truck Access Method)Tier1 的灾难恢复方案必须设计一个应急方案,能够备份所需要的信息并将它存储在异地。PTAM 指将本地备份的数据用交通工具送到远方。这种方案相对来说成本较低,但难于管理。2 层- PTAM 卡车运送访问方式+热备份中心 (PTAM + Hot Center)Tier2 相当于 Tier1 再加上热备份中心能力的进一步的灾难恢复。热备份中心拥有足够的硬件和网络设备去支持关键应用。相比于 Tier1,明显降低了灾难恢复时间。第 5 页3 层- 电子链接 (Electronic Vau
9、lting)Tier3 是在 Tier2 的基础上用电子链路取代了卡车进行数据的传送的进一步的灾难恢复。由于热备份中心要保持持续运行,增加了成本,但提高了灾难恢复速度。4 层- 活动状态的备份中心 (Active Secondary Center)Tier4 指两个中心同时处于活动状态并同时互相备份,在这种情况下,工作负载可能在两个中心之间分享。在灾难发生时,关键应用的恢复也可降低到小时级或分钟级。5 层 两个活动的数据中心,确保数据一致性的两阶段传输承诺(Two-Site Two-PhaseCommit)Tier5 则提供了更好的数据完整性和一致性。也就是说,Tier5 需要两中心与中心的数
10、据都被同时更新。在灾难发生时,仅是传送中的数据被丢失,恢复时间被降低到分钟级。6 层- 0 数据丢失 (Zero Data Loss),自动系统故障切换Tier6 可以实现 0 数据丢失率,被认为是灾难恢复的最高级别,在本地和远程的所有数据被更新的同时,利用了双重在线存储和完全的网络切换能力,当发生灾难时,能够提供跨站点动态负载平衡和自动系统故障切换功能。1.2 需求简析对于 IT 系统的容灾指标,我们可以通过下列参数表示:* 以恢复点为目标(RPO - Recovery Point Object) 数据的完整性(无数据丢失) 数据的一致性(数据正确且可用)以恢复时间为目标(RTO - Rec
11、overy Time Object)第 6 页中国移动公司的网管系统结构图如下:可以看到在移动 IP 网管系统中,包含着众多的功能子系统,根据每个子系统数据变化的频度以及在整个网管系统中所起到的作用,我们为每个子系统制定了符合各自特色的 RPO 和 RTO。第 7 页在移动公司现有的业务系统中,仅考虑本地高可用性,即通过集群的双机系统(Cluster 或 HA)对业务应用提供保护,在一台服务器的软硬件发生故障时,将整个业务切换到后备服务器上。该方法很大程度上避免了服务器的单点故障,提高了整个业务系统的可用性。但是,随着业务系统的发展,随着竞争的不断加剧,在一些重要的系统中,客户已经不满足于简单
12、的本地保护。越来越多的客户提出了要求更高的系统可用性,要求实现真正的异地容灾保护。因为一旦出现异常情况,如火灾、爆炸、地震、水灾、雷击或某个方向线路故障等自然原因以及电源机器故障、人为破坏等非自然原因引起的灾难,导致业务正常无法进行和重要数据的丢失、破坏,造成的损失将不可估量。因此,要求业务系统可以在发生上述灾难时快速恢复,将损失降到最低点。全面的异地容灾保护方案,意味着除了要实现本地的切换保护外,更要实现数据的实时异地复制和业务系统(包括数据库和应用软件)的实时远程切换。第 8 页2 高可用容灾方案设计2.1 设计原则我们为移动公司综合结算提供的高可用容灾方案的设计原则如下: 方案当前即可实
13、施 在满足要求的前提下尽量简单 除特别必要,不需要增加另外超出本方案的软硬件 如果一个软件产品可以实现需要的功能,我们不会再使用另外的产品实现重复的功能 同一方案适合多种平台环境,降低安装、管理和维护的难度。VERITAS 的容灾方案是一个完整的方案,该方案包括 5 个功能:主节点主机系统在异地的备份和恢复(即 IT 系统重构和业务接管)、主节点业务数据在异地的备份及恢复(即生产数据的备份和恢复)、主节点到灾备节点的数据远程实时复制、本地应用服务和数据复制服务的切换保护、应用远程容灾切换。涉及的产品包括 Netbackup Enterprise Server、Bare Metal Restor
14、e 、Volume Manager+Volume Replicator, VERITAS Cluster Server 和 Global Cluster Manager。 该方案涵盖了容灾恢复的 7 个层次,为整个业务系统提供全面的保护,其对应需求分析的系统和各子系统的 RPO/RTO 如下:第 9 页在该整体方案中中,上层依赖于它的下层,每一层的产品实现相应的功能。图中涉及的软件产品将在下面论述。2.2 方案概述针对 IP 网管系统及各子系统实际分析得出的 RPO/RTO,我们分别采用不同的技术手段对其实现高可用保护。1 IPNET 流量管理服务器及 NetCool 汇总管理服务器该系统属于
15、核心业务系统,数据更新率极高,且要求在灾害发生时必须立即投入备份节点以维持业务的连续性,因此,我们在数据层采用 Volume Replicator 进行实时的远程数据复制;在应用层采用 Cluster Server 和Global Cluster Server 进行实时业务级切换。同时,为保证不可预见的意外事件不对业务系统造成不可恢复的影响,我们还建议利用 Netbackup Enterprise Server 和 Bare Metal Restore 技术,利用磁带和磁盘介质在容灾节点保留一份生产系统每天的原始数据。2 NetCool 网管服务器 /PM 服务器、业务网管服务器、 Preci
16、sion 服务器该系统属于业务管理系统,直接关系到管理人员能否顺利地进行网络日常的管理和维护,并关系到 IP 业务的正常运行,因此需要及时在容灾节点实现接管,但该业务子系统的数据更新率并不高,而且周期性比较强,因此没有必要花费高昂的代价进行实时的数据复制,可以采用主节点数据备份,容灾节第 10 页点异地数据恢复的手段保证数据的完整性和一致性。我们建议在应用层面上,本地节点利用 Cluster Server 实施主机高可用性,防止主机故障,容灾节点利用 Global Cluster Server 实施远程应用切换。在数据层面上,利用 Netbackup Enterprise Server 和 B
17、are Metal Restore 技术,在本地先形成一套主机系统和业务数据的磁盘备份,并每隔 8 小时在后台将本地备份数据复制到远程容灾节点(周期复制),异地节点恢复主节点数据,以实现主备节点的数据同步。3 Visionary 应用服务器、 NetCool 报表服务器、 IPNET 报表服务器该系统属于整个网管系统的报表系统,数据变化量的频率相对较低,保留每天的数据即可,因此可以考虑底层数据备份,业务层手工或脚本切换的方式实现系统可用性,我们建议利用 Netbackup Enterprise Server 和 Bare Metal Restore 技术,利用磁带和磁盘介质在容灾节点保留一份生
18、产系统每天的原始数据。4 整个网管系统的历史数据为了保证在任何不可预见的情况下都能正常维护整个 IP 业务网络,我们还建议在主节点和灾备节点利用 Netbackup Enterprise Server 在磁带上至少保持 6 个月内的系统历史数据。2.1.1 IPNET 流量管理服务器及 NetCool 汇总管理服务器“N+1” 冗余备份方式对于该子系统,VERITAS 解决方案能够按照现业务系统的要求实现多种容灾模型。即: “1+1”冗余备份方式 “N+1”备份方式 N 节点循环备份方式(如果只要求 N=2,即双地点互为备份)第一种方式实际是第二种方式 N=1 时的特殊情况,以下不单独讨论。第
19、 11 页2.1.2 “N+1” 冗余备份方式为 N 个正在运行的移动公司 IP 业务系统建立一套远程容灾备份系统,称为“N+1”备份方式。这种方式下, N 个正在运行的业务系统中的任何数据的更改,包括静态数据更改与动态数据更改,都必须同步到备用系统中。备用系统中存储着所有的 N 套正在运行的业务系统的数据总和。正在运行的其中一个系统发生故障,则备用系统使用对应当前故障系统的用户数据和相应应用,来接管故障系统的业务。若正在运行的 N 个业务系统中所有系统同时发生故障,则备用系统使用的所有对应故障系统的备份数据和相应应用,接管所有业务系统。“N+1”备份方式的优点是建设成本比较低,可以使用一套备
20、份系统为多个系统提供容灾备份的功能,平时设备利用率比较高。“N+1”备份方式的缺点是当多个系统同时发生故障,如果只有一套备份系统为所有用户提供服务,可能导致服务质量的下降。该方式建议备份系统使用较高的硬件配置。“N+1”系统简单示意图如下图(图二):2.1.3 N 节点循环备份方式由于只要求 N=2,实为一对一互为备份。.数据传输方向图二 多对一备份Site 1 Site nSite n+1Site 2第 12 页Site A 运行本身业务系统的同时,还作为 Site B 业务系统的备份系统;同理,Site B 运行本身业务系统的同时,还作为 Site A 的备份系统。正常情况下,Site B
21、拥有本身业务的应用、数据库进程和相关的数据,同时,Site B 系统中有相应的数据区存储从 Site A 实时复制来的数据。而且 Site B 实时将数据复制到 Site A。当Site A 发生灾难时,Site B 除了提供本身业务外,还要提供 Site A 的相应服务。反之同理。N 节点(N=2)循环备份系统简单示意图如下图(图三):2.1.4 软件安装在两种情况下,每个地点的每台服务器上安装的软件相同,只是不同情况下配置方法不同,每台服务器的具体配置方法后面讨论。每台服务器安装软件如下:1) 安装 VERITAS Volume Manager(VxVM) 2) 安装 VERITAS Fi
22、le System(VxFS) 3) 安装 VERITAS Volume Replicator(VVR) 4) 安装 VERITAS Cluster Server(VCS)、相应的数据库代理 (Agent)和应用软件代理5) 安装 VERITAS Global Cluster Manager(GCM)2.1.5 NetCool 网管服务器/PM 服务器、业务网管服务器、Precision 服务器容灾该系统在远程的应用切换层面上和前述方案一样,不同的是在数据复制的方法数据传输方向图三 相互备份Site A Site B第 13 页上,我们利用了 Netbackup 实现数据的周期性复制NetBa
23、ckup 是 VERITAS 公司的备份管理软件 , 它致力于解决网络上大、中、小型服务器和工作站系统上的数据备份、归档及灾难恢复问题,Veritas 备份产品国际市场份额 2000 年为 39.1%,2001 年为 40.8%, 2002 年为 40.6%, 下图为 Garner Group 统计的 VERITAS 备份产品 2002 年国际市场份额:它的突出特点主要有:管理简单采用统一的 Java 或 GUI 图形界面,管理轻而易举,使用先进的人工管理界面工具,制定备份策略、介质管理策略,对各项备份作业进行监控。Netbackup 提供了远程分发式安装工具,当用户拥有众多的客户机,无需占用
24、大量人力进行分散的安装,只需通过 server 进行远程分发软件安装。裸金属恢复 BMR(Bare Metal Restore) 对于系统中的 HP-UX, IBM AIX, Microsoft Windows NT/2000 和 Sun Solaris 等不同操作系统环境,我们通过 VERITAS Bare Metal Restore(裸机恢复)功能,来简化服务器的恢复过程,以完成系统的快速灾难恢复。这样,当系统数据完全丢失时,系统管理员可以仅仅通过一个启动命令就可以进行系统数据的完整恢复,不必进行通过光盘进行操作系统重新安装,硬盘重新分区,IP 地址重新设置,以及备份软件重新安装等复杂的步
25、骤。数据恢复重定向在数据恢复的过程中,我们可以通过授权,进一步让系统管理员选择数据恢复的目标客户机。这样,我们可以灾备系统上恢复所需要的数据,保证数据的可操作性。并行处理NetBackup 可以实现多磁带机并行操作,因此可以有效地增加带宽。如果数据被并行定位(co-located)到多盘磁带上,执行选择性恢复的过程将会很快。NetBackup 可以通过策略共享实现多作业复用(Multiplex)磁带,从而大大加快了备份进度,减少了磁带操作过程的开销。这一提高是显而易见的。真正映象恢复(True Image Recovery )使用全备份和增量备份后,恢复时根据映象(image)恢复,真正做到已
26、删除文件无需恢复,大大减少恢复数据量.传统方式先恢复全备份文件,再进行增量恢复和文件删除。第 14 页磁带多重拷贝 (Inline Tape Copy, Duplicate)磁带在线复制 Inline Tape Copy 允许用户在执行备份期间,创建备份数据的多份拷贝。复制允许备份完成后复制多份备份数据。Netbackup 可以一次备份或复制 2-4份拷贝,管理多达同一备份的 10 份拷贝,并且每份拷贝有自己的保护周期提供灾难恢复能力-VAULT在多个地点保存备份或复制介质,保证当发生灾难时或多个的地点快速恢复关键的数据。2.1.6 功能配置说明NetBackup Server:备份系统的核心
27、,该服务器既是主备份服务器可以对整个备份系统进行监控和管理,备份环境的核心数据应用库、备份策略和设备配置均存放在这台服务器上,又是介质服务器,可以直接连接并执行自动化管理磁带库及其介质。由于生产和测试网在物理上是隔开的,所以需要分别安装两套备份服务器。这样可以使生产和容灾的备份完全独立,但生产数据可以通过两台磁带库实现异地保留。 NBU Client:SNA 服务器和测试网的服务器的备份方式采用网络备份的方式。 Bare Metal Restore:所有服务器实现裸机恢复。具备“一键”恢复系统的功能,减少数据恢复的复杂度和时间。 可以采用 Netbackup 复制方式或者采用制定两个策略对应不
28、同的磁带库进行备份实现本地、异地双备份。Netbackup 支持不同磁带库之间的数据复制,可以设置策略定时进行,相对于 Client 系统数据同时备份到两个磁带库的方法,该方法只复制备份后产生的 Image 文件,该作业由 Master Sever 调度,执行在磁带库之间的数据复制,节约原 Client 系统资源。 利用光纤线路和远程磁带库实现了异地的数据备份保护,但在灾备点如果没有备份恢复服务器,即只保留了数据。如果生产点的备份服务器损坏,则影响了正第 15 页常的备份。同时如果没有灾备点的备份恢复服务器,如果生产点出现场地问题,不能立刻在灾备点进行恢复。此时可以利用测试网中的备份服务器重新
29、导入生产网备份的 CATALOG,近而恢复数据。以上是为我们为业务系统提供的数据备份复方案,设计的目的是采用业界最先进的备份技术完成对系统数据在线、快速、有效的磁带备份保护。同时本方案还提供裸机快速恢复和异地磁带级容灾技术,从技术上保证了数据中心的可靠性和快速恢复能力。2.1.7 利用磁盘缓冲实现周期数据复制磁盘缓冲(DISK STAGING)为 NetBackup 管理员提供了一种备份方法,首先在磁盘上创建备份镜像,然后将镜像转移到另一种介质上。NetBackup 软件的磁盘缓冲分三个步骤完成:首先在磁盘上创建 NetBackup 备份镜像,然后在可以配置的稍后时间,将镜像转移到另外一个介质
30、上。此外,磁盘缓冲可以方便备份和恢复,NetBackup 用户可以利用磁盘缓冲,为将数据传输到磁带提供便利,避免多路复用镜像的弊端。磁盘缓冲的工作原理,磁盘缓冲的工作原理示例如下:假定 NetBackup 客户生成的备份数据的容量如下:星期一:200MB星期二:300MB星期三:300MB星期四:200MB星期五:500MB假定 NetBackup 客户每天都将数据备份到磁盘缓冲存储设备上,然后再将数据从磁盘缓冲存储设备转移到最后的存储设备上。客户使用的磁盘缓冲存储设备的容量至少达到 500MB,这样才能以容纳一天生成的最大数据容量。如果 NetBackup 管理员只要在磁盘缓冲存储设备上保存
31、一天的数据,那么 500MB 的磁盘缓冲存储设备就已经足够了,前提条件是能够成功完成重新定位,每天将数据转移到磁带上。如果管理员想在磁盘上保存超过一天的数第 16 页据,则应对磁盘空间进行调整。磁盘缓冲分三个阶段完成: 第一阶段:在磁盘缓冲存储设备上创建备份镜像; 第二阶段:重新定位日程决定了将磁盘缓冲存储设备上的备份镜像重新定位到目的存储设备上的时间; 第三阶段:磁盘上的备份镜像复制到目的存储设备上后,自动取消备份镜像。NetBackup 的磁盘缓冲(DISK STAGING)流程示例客户端策略:第一阶段日程第一阶段:NetBackup 策略根据第一阶段策略日程,将客户端数据备份到磁盘缓冲存
32、储设备上。第一阶段磁盘缓冲存储设备策略:第二阶段性重新定位日程第二阶段:磁盘缓冲存储设备(DSSU)日程根据重新定位日程,将数据重新定向到最后的存储设备上目的存储设备第二阶段第 17 页第三阶段:NetBackup 软件将备份镜像复制到目的存储设备上,然后自动将它从磁盘上删除。为进行此操作,NetBackup 软件要使磁盘镜像失效,将目的存储设备上的备份镜像成为主副本。在备份的第一阶段,按策略对客户端进行备份,该策略将磁盘缓冲存储设备作为目的存储设备。应为每个专用磁盘分区/文件系统提供一个磁盘缓冲存储设备。第一阶段日程的配置方法与其他备份相似。在磁盘缓冲的第二阶段,将镜像从磁盘缓冲存储设备重新
33、定向到目的存储设备。在磁盘缓冲存储设备的设置过程中,根据配置的重新定位日程来重新定位镜像。这是通过点击磁盘缓冲日程按钮来完成的。只有选择磁盘缓冲存储设备作为存储设备类型时,才能使用该按钮。第三阶段是自动使磁盘镜像失效,使目的存储设备上的镜像成为数据的主副本。这样用户就能释放磁盘空间,以备将来使用。2.1.8 Visionary 应用服务器、NetCool 报表服务器、IPNET 报表服务器容灾在开放系统中,许多产品都能执行备份和恢复功能。然而,能处理现今数据中心的海量数据的产品则凤毛麟角。以往数据中心曾是大型机一统天下,现在则是以大型 UNIX、Windows 服务器以及集群为基础,企业在此之
34、上构建并运行和管理关键业务应用。VERITAS NetBackup 独有的核心三层架构,结合先进的介质管理功能,以及卓越的高性能,可以满足最大规模数据中心的需求。NetBackup 主备份服务器(Master Server)是架构的第一层。主备份服务器是所有数据保护活动(包括作业日程安排和追踪客户端备份、管理磁带介质和文件编录)的“智能中心”。主备份服务器拥有一个或多个附带的存储设备,可为多台客户端服务器提供数据备份,主备份服务器也可以构成集群以实现高可用性。如果企业在几个地点都有数据或数据密集型应用,比如数据仓库,则可安装介第 18 页质服务器(Media Server)- 即架构的第二层。
35、这样,企业就可以在各个地点,通过部署介质服务器直接在本地备份大型应用,同时还可以通过网络备份其它客户端系统。介质服务器既可与主备份服务器或另一台介质服务器共享磁带库,也可使用自己的磁带设备。如果某台介质服务器因故障或其他问题不能正常工作,可将这一台介质服务器的备份任务转移到另一台介质服务器上进行。架构第三层是备份网络中诸多服务器和工作站的客户端代理(Client Agent)。这一层中,要保护的数据量不一定最多,但是需要安装的机器数量通常都是最多的。主备份服务器(第一层)可以对介质服务器(第二层)和客户端(第三层)进行集中管理。2.1.9 系统灾难恢复VERITAS Bare Metal Re
36、store对于系统中可能存在的 IBM AIX, Sun Solaris,HP-UX,等不同操作系统环境,我们通过 VERITAS Bare Metal Restore(裸机恢复)功能,来简化服务器的恢复过程,以完成系统的快速灾难恢复。这样,当系统数据完全丢失时,系统管理员可以仅仅通过一个启动命令就可以进行系统数据的完整恢复,不必进行通过光盘进行操作系统重新安装,硬盘重新分区,IP 地址重新设置,以及备份软件重新安装等复杂的步骤。BMR 的工作简要流程如下(Main Server, File Server 和 Boot Server 可合并在备份服务器上):1、 BMR 服务器(Main Se
37、rver)在客户机日常备份的过程中分析客户机的环境并生成恢复策略。2、 BMR 服务器分配启动服务器( Boot Server)和文件服务器(File Server).3、 当客户机数据丢失时,系统管理员通过网络启动命令启动客户机。4、 BMR 服务器驱动启动服务器和文件服务器,使客户机自动获得启动镜像和恢复计划。5、 客户机进一步划分硬盘分区并恢复所有数据。第 19 页3 核心系统高可用容灾方案实现本章将就该方案的每个细节进行讨论。包括方案的详细讲解,软件的实际配置方法等。通过阅读和理解本章,您将了解 VERITAS 解决方案的实现方法,并清楚地知道 VERITAS 解决方案是切实可行的,并
38、且有相关的实施案例和实施经验。我们假设原来就已经按照双机系统设计,那么本方案仅需要增加不同地点间的广域连接,不需要增加其它硬件。软件方面要用 VERITAS 高可用软件替换原有的HA/Cluster 软件,新增 Volume Manager、VERITAS File System、VERITAS Volume Replicator 和 Global Cluster Manager。在介绍功能前,需要强调的的是:VERITAS 提供的是完整的容灾解决方案。各个软件的功能完全集成在一起,建立一个容远程数据复制、本地容灾、远程应用切换于一体的方案。3.1 软件功能解释在这里,每个软件只解释与本方案相
39、关的那部分功能,至于软件的全部功能,请见附录。一、 VERITAS Volume Manager(简称 VxVM) 将在物理磁盘上建立多个或一个逻辑卷(Volume) 。以裸设备的方式使用卷,或在卷上建立文件系统。将数据(特别是需要进行远程复制的相关文件系统、数据库)存放在卷上。由于数据复制是基于卷的,所以,Volume 是进行复制的基础。二、 VERITAS Volume Replicator(简称 VVR)负责远程数据复制。VVR 复制基于 Volume 进行。复制的数据可以是数据库中的数据(文件方式或裸设备方式)和文件。复制的示意图见图四。第 20 页图四1) VVR 与 VxVM 完全
40、集成在一起。用 VxVM 管理界面和命令统一配置管理;由于 VVR 仅仅将 Volume 上每次 I/O 的实际数据实时复制到远程节点,所以在网络线路上传输的数据量很少,对带宽的需求也很小。;2) 将各个业务系统中需要进行远程复制的多个或一个卷定义为一个 Replicated Volume Group(简称 RVG);3) 在 Site A 定义一条 RLINK,指向 Site B;在 Site B 也定义一条指向 Site A 的 RLINK。RLINK 是单向的;需要进行复制的两个系统各定义一个指向对方的 RLINK;每个 RVG 定义一个 RLINK。例如有 Site A 和 Site
41、B 两套系统同时用 Site C 的系统作为备份。在Site A 定义一个 RVGa,包含需要进行数据复制的卷;在 Site B 定义一个RVGb,包含需要进行数据复制的卷;在 Site C 定义两个 RVG,名为RVGa和 RVGb,分别作为 Site A RVGa 和 Site B RVGb 的备份。然后,在 Site A 定义 RLINK to_c1,指向 Site C;在 Site B 定义 RLINK to_c2,指向 Site C;在 Site C 定义两个 RLINK,一个 to_a,指向 Site A,另一个 to_b,指向 Site B。第 21 页4)Storage Rep
42、licator Log(简称 SRL)是 VVR 中的重要部件。将数据复制各方的某个卷定义为一个 SRL。需要复制的数据首先要写入 SRL,然后传到异地。VVR 通过 SRL 保证数据复制严格按照写顺序进行,这在异步工作方式下非常重要。当网络中断或异地系统出现故障时,本地数据将记录在SRL 中,等系统恢复正常时再将 SRL 中的数据按照先进先出的顺序传送到异地。当 SRL 满后,VVR 将通过 Data Chang Map(简称 DCM)记录变化过的数据块的块号。VVR 数据流程见图五:图五5)Data Change Map(简称 DCM)与主节点的 RVG 相关,它其中的内容是位图信息,记录
43、某一时间点后修改过的数据块位置。DCM 在正常情况下不使用,在 SRL 满后记录变化的数据块的块号,当恢复正常复制后,等SRL 中的数据传送完后,将 DCM 中记录的块传送到异地。灾难恢复后的反向复制也用到 DCM。6)数据复制的工作模式缺省为同步/异步自适应,即在网络延时情况较好、数第 22 页据能够及时复制时,工作在同步方式,完全保证两边数据的一致性;当网络延时情况较差、数据不能及时复制时,工作在异步方式下,保证主节点的 I/O 性能。数据复制根据实际情况,自行在两种工作模式之间切换。如果数据复制的线路带宽有限,出于保证本地服务器读写性能的考虑,可以将复制工作模式定义为异步。由于 VVR
44、的数据复制严格按照 I/O 的修改顺序进行,所以,无论在同步还是异步工作方式下,都能保证数据的完整性。对于数据库系统,该复制机制能够保证灾备节点的数据库在灾难发生时正常启动并提供服务。7)后备节点的完全同步,即所谓的”建立基线” 。在主节点往后备节点正常复制数据前,必须逐块逐块地将主节点中需要复制的数据拷贝到后备节点,也就是说,将双方的 RVG 进行同步。后备节点的完全同步分为两种情况,一是复制时主节点应用不进行数据更改,二是复制时主节点应用进行数据更改。两种情况下,都可以采用自动同步方式或采用备份和检查点(Check Point)结合的方法。自动同步是指通过网络将数据从主节点(Primary
45、)复制到备份节点(Secondary)。方法很简单,只要进行一步操作即可完成。自动同步对带宽要求较高,否则,将无法完成完全同步。自动同步要求 RVG 中的每个卷都有DCM。对于网络带宽较小,或者需要完全同步的数据量太大时,使用备份与检查点结合的方法。在备份开始前,在主节点设置检查点,该检查点记录在SRL 中,然后将数据备份到活动硬盘、光盘、磁带或其它介质上。备份完成后,将检查点取消。将备份的数据恢复到后备节点上。然后将RLINK 连接挂上,主节点 SRL 中记录的的数据传送到后备节点,完成后,两边数据一致,进入正常数据复制状态。用该方法进行数据完全同步,第 23 页要求 SRL 卷大些,等完成
46、后,再将 SRL 卷通过 Volume Manager 在线缩小。8) 当某些严重意外情况发生后,后备节点会变成新的主节点,称为角色转换。在灾难期间,不进行数据复制,新的主节点用 DCM 记录变化数据位置。9) 当原来的主节点在灾难后恢复正常,需要进行数据反向同步和角色转换。反向同步有两种情况,一种是在灾难发生时刻,原主节点与灾备节点的数据是同步的(即无未复制的数据);第二种是在灾难发生时刻,原主节点与灾备节点的数据不是完全同步的(即主节点有数据尚未复制到灾备节点)。第二种情况在反向同步开始时第一步首先要进行重置,指将原主节点 SRL 和 DCM 中数据(这些数据在灾难发生时尚未来得及传送)的
47、位置信息修改当前主节点(即原后备节点)的 DCM。然后,将 DCM中指向的数据全部传送到原主节点。而第一种情况的话,直接进行第二步工作。传送完成后,将当前主节点的数据库和应用停止,将双方角色复原,并在原主节点提供正常服务。 10)脱机处理。通过使用 VVR 的 In-Band Control(IBC)消息、Snapshot、以及Volume Manager(VxVM)的 FastResync(简称 FR,即快速同步 )功能,可以实现数据的脱机处理。脱机处理主要指对后备节点种的数据进行处理,例如进行备份、打印报表、数据仓库处理等。脱机处理由打破后备节点的镜像卷、对镜像数据进行处理、重镜像等几个过
48、程组成。11)双收条(双重确认)机制。指后备节点对复制数据的接收确认有两个阶段。第一个确认当后备节点收到数据后发出;第二个确认当后备节点数据成功写入硬盘后发出。当主节点收到第二个确认后,将 SRL 中的相应数据清空。第 24 页三、 VERITAS Cluster Server(简称 VCS)是用于本地容灾的集群软件,支持多达 32 个节点的应用级切换,保证本地业务系统的软硬件高可用性。VCS 以其出色的可靠性和易管理性闻名。VCS 的功能特点请见附录。在本方案中,VCS 主要负责以下功能:1) VCS 负责监控和管理硬件系统和操作系统,当出现故障时进行切换。2) 通过数据库代理(Agent
49、)监控和管理数据库系统,当出现故障时进行切换。3) 通过 API 或脚本编写针对性客户化应用代理,监控和管理应用系统,当出现故障时进行切换。4) 通过 Replicator 代理监控和管理数据复制过程,当主服务器数据复制发生故障时,自动将数据复制工作切换到后备服务器,保证数据复制过程的连续性。这点对于容灾系统非常重要。该代理充分说明VERITAS 提供的是完整的容灾解决方案。5) 主节点和备份节点的 VCS 集群系统都在 Global Cluster Manager的统一监控和管理下,从而实现集群系统间的远程应用切换。GCM 在VCS 中以两个服务组(指 GCM Master 和 GCM Slave)的形式存在。四、Global Cluster Server(简称 GCM)可以称为 Clusters Cluster(集群的集群)。它负责对多个不同地点的多达 32 个集群系统进行监控和管理,在发生严重灾难时,进行 site 的切换(即应用的远程切换)。GCM Console 为 Web 界面,通过浏览器管理各个 Cluster 系统,并在管理界面中主动控制或响应远程切换。3.2 安装、配置过程在硬件和操作系统环境准备好后,整个方案的实际安装