1、华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 1 页, 共 105 页资料编码阵列双活华为双活数据中心解决方案技术建议书2016 年 3 月 11 日华为技术有限公司华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 2 页, 共 105 页版 权 所 有 华 为 技 术 有 限 公 司 2014。 保 留 一 切 权 利 。非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。商 标 声 明和其他华为商标均为华为技术有限公司的商标。本文档提及的其他所有商标或注册商标,
2、由各自的所有人拥有。注 意您购买的产品、服务或特性等应受华为公司商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,华为公司对本文档内容不做任何明示或默示的声明或保证。由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。华为技术有限公司地址:深圳市龙岗区坂田华为总部办公楼 邮编:518129网址:客户服务邮箱:客户服务电话:0755-28560000 4008302118客户服务传真:0755-28560111华为双活数据中心解决方案技术
3、建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 3 页, 共 105 页目 录1 适用场景(供参考,实际使用删除) 11.1 文档适用场景说明 11.2 版本更新 12 概述 12.1 项目背景 22.1.1 项目概述 .22.1.2 建设总体要求 .22.2 需求分析 22.2.1 需求分析 .32.2.2 现状分析 .32.2.3 建设目标(适用于升级改造) .52.2.4 方案设计原则 .63 存储双活架构选择 63.1 存储双活架构选择 73.1.1 存储双活架构描述 .73.1.2 业界存储双活技术路线 .73.1.3 存储双活架构对比 .74 系统方案设计 94.1
4、整体架构设计 104.1.1 方案描述 .104.1.2 存储双活架构的要求 .114.2 存储双活方案详细设计 124.2.1 虚拟化存储双活设计 .134.2.2 双活读策略设计 .134.2.3 优选路径设计 .144.2.4 虚拟机跨数据中心 vMotion 设计(可选) .144.2.5 “逃生”功能设计 154.2.6 镜像快速恢复功能设计 .154.2.7 存储双活方案仲裁设计 .154.2.8 跨数据中心网络设计 .17华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 4 页, 共 105 页4.3 存储双活方案应用配置建议 184.3.
5、1 VMware 配置建议 .184.3.2 FusionSphere 配置建议 .184.3.3 Oracle RAC 配置建议 .194.4 华为存储双活方案优势 194.5 存储双活方案故障切换与恢复 214.5.1 故障切换流程 .214.5.2 故障恢复流程 .295 方案配置 315.1 方案配置列表 325.1.1 软硬件配置列表 .325.1.2 服务配置列表 .326 关键技术 336.1 网络层解决方案 336.1.1 服务器负载均衡技术(SLB) 336.1.2 全局负载均衡(GSLB) 376.1.3 DWDM .416.2 存储层解决方案 426.2.1 HyperM
6、etro 技术 .426.3 主机层解决方案 486.3.1 VMWare 容灾技术 486.4 数据库层解决方案 506.4.1 Oracle RAC 技术 .506.5 应用层解决方案 596.5.1 Weblogic 集群技术 596.6 管理层解决方案 676.6.1 灾备决策支持平台方案 .677 容灾相关产品及规格 787.1 Tecal RH5885 V3 机架服务器 .787.1.1 功能和价值 .797.1.2 规格参数 .807.2 OceanStor V3 系列存储 807.2.1 功能和价值 .807.2.2 规格参数 .817.3 FusionSphere 云操作系统
7、 817.3.1 FusionCompute 虚拟化 827.3.2 FusionManager 云管理 847.4 SNS 系列 .867.4.1 功能和价值 .86华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 5 页, 共 105 页7.4.2 规格参数 .878 缩略语表 88华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 6 页, 共 105 页1 适用场景(供参考,实际使用删除)1.1 文档 适用场景说明本文档适用以下场景 :1) 同城容灾,生产中心和灾备中心之间的容灾链路距离 100km;2) 要
8、求 RPO=0;3) RTO 0,部件故障或生产中心故障,能自动切换;4) 生产中心和灾备中心之间有裸光纤网络。5) 适用 VIS 4 节点与 8 节点双活( 2 个 4 节点)环境注:以下蓝色字体根据具体项目情况替换或删除。1.2 版本更新日期 修订版本 描述 作者2014-03-28 V1.0 第一次发布,未增加网络双活部分,需要待网络解决方案的同事补充;未增加 FusionSphere 双活部分,待测试有初步结果后再增加。陈晓丽2014-05-04 V1.1 根据评审意见进行修改 陈晓丽2014-05-30 V2.0 增加 FusionSphere 双活部分 ,统一术语 陈晓丽2014-
9、07-30 V3.0 增加双活 8 节点内容 陈晓丽2014-10-29 V4.0 修改 8 节点的描述 陈晓丽华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 7 页, 共 105 页2 概述2.1 项目背景2.1.1 项目概述XX 数据中心的 XX 生产平台,是全局的计算中心、存储中心、备份中心,承载着 XX的核心业务系统,随着业务的快速发展,对业务连续性的要求也越来越高。此次项目建设以 XX 的 2 个数据中心为 2 个物理站点,并考虑异地一处作为异地站点,构建跨双数据中心(XX 公里)实现双活站点的存储虚拟化平台。该平台主要为各类应用业务提供高可
10、用性基础保障,为构建虚拟数据中心提供存储资源和服务,保障数据的一致性和完整性。2.1.2 建设总体要求1) 云数据中心建设云数据中心建设是建设云平台的核心与关键,虚拟数据中心负责按需提供满足要求的运算处理资源、存储资源、网络资源等 IT 基础架构服务。2) “站点双活+异地数据备份”灾备体系建设数据中心提供满足安全、高效管理和保障业务连续性的功能。通过“站点双活+异地数据备份”方案,实现不同灾难场景下的业务连续性要求。3) 统一管理平台的需求实现对双活数据中心中涉及的设备的统一管理,涵盖日常管理、资源分配、性能监控、日志审计等内容。华为双活数据中心解决方案技术建议书2018-9-26 华为保密
11、信息,未经授权禁止扩散 第 8 页, 共 105 页2.2 需求分析2.2.1 需求分析云数据中心建设虚拟化是云平台建设的基础。通过虚拟化技术进行整合,形成一个对外提供计算资源为主的池化管理(包括服务器池、存储池、网络池等) ,同时提供运行环境等基础服务。服务器虚拟化能够消除 XX 局原有业务系统的“一台服务器运行一个应用程序”模式下的效率低下现象,在这种模式下,大多数服务器远未得到充分利用。借助服务器虚拟化技术,一台服务器可用作多个“虚拟机 ”,而且每个虚拟机都可以在不同的环境下运行,例如 Windows、Linux 或 Apache。因此,采用服务器虚拟化能够将多台服务器整合到更少的物理设
12、备上,从而有助于减少空间、能耗以及管理需求。通过服务器虚拟化平台的建设,可以将现有的业务系统逐步迁移到服务器虚拟化平台,并通过双活数据中心帮助增强业务连续性并提供全面的数据保护,以便管道局能够获得连续的应用程序可用性以及跨两个物理站点的自动灾难恢复能力。网络虚拟化通过各种网络技术,将不同的应用相互隔离,使得不同用户在同一网络上不受干扰地访问各自不同应用。在交换网络中可以通过虚拟局域网(VLAN)技术来区分不同业务网段,在路由环境下可以综合使用 VLAN、MPLS-VPN 、Multi-VRF 等技术,实现对网络访问的隔离。在数据中心内部,不同逻辑网络对安全策略有着各自独立的要求,可通过虚拟化技
13、术将一台安全设备分割成若干逻辑安全设备,供各逻辑网络使用。存储虚拟化是指利用虚拟化技术,统一整合管理 FC SAN,IP SAN 等多种存储设备,形成统一的资源池供上层业务使用,屏蔽不同存储之间的差异。“站点双活+异地数据备份”灾备体系建设传统的数据中心容灾已经从主备数据中心开始向双活数据中心过渡。主备数据中心的建设模式可以在很大程度上提升业务连续性。用户所有的业务系统都在主数据中心运行,而在备数据中心为业务系统提供冷备或热备,当主数据中心的应用出现故障时,可以将单个应用或数据中心整体切换到灾备数据中心。但这种模式造成了备数据中心常年处于闲置状态而造成资源浪费。而通过资源整合,可以极大的提升资
14、源利用率,同时双活数据中心的服务能力是双倍的。华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 9 页, 共 105 页2.2.2 现状分析目前 XX 局已经建成资产财务一体化平台、人力资源系统、电子商务平台、综合数据库系统、数据存储平台、办公自动化系统等信息系统。其中,核心应用系统包括资产财务一体化平台、综合数据库系统、OA 系统等应用系统。业务系统组网图如下 :S A P 测试服务器E A M 生产服务器S A P 人资服务器现有虚拟化服务器其他应用服务器综合数据库服务器电子商务服务器现有存储环境I B M D S 8 1 0 0 / D S 5 1
15、 0 0 / T S 3 5 8 4E M C D C X光纤交换机I B M B 4 0光纤交换机I B M B 4 0光纤交换机I B M B 4 0光纤交换机新增存储及虚拟带库 、 磁带库生产中心应用系统现状(1)资产财务管理一体化资产财务管理一体化是 XX 局核心应用系统,涉及 XX 局财务、资产、物资、检修、运行等工作,部署方式为集中式部署,业务窗口时间为 7*24 小时。资产财务管理一体化的关联系统是电子商务平台,系统之间有业务流程和数据交换。(2)综合数据库综合数据库包括综合统计和内主页等系统,涉及 XX 局下属所有电厂的数据上报和信息访问。(3)总部 OA 系统XX 局 OA
16、系统采用 Lotus Domino 平台,包括 OA 办公、公文审批和内网邮件等。XX华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 10 页, 共 105 页局 OA 系统为分布式部署(从一级到三级)。总部 OA 系统与 XX 局下属单位 OA 系统之间主要为收发公文。各应用系统 IT 现状如下表所示:系统序号 应用系统 服务器数量数据量(GB)数据增量(GB) 存储方式操作系统 数据库虚拟化1 XX 业务平台 2 台 P780小机 4000 5GB/天 DS8100 AIX 6.1 Oracle11gR2 RAC 无2 XX 系统 2 台 IBM
17、X3650 100 2G/天 RDM(裸设备映射) windows 2008R2 无 VMware 5.5网络系统现状当前已建设同城灾备中心,租用运营商机房,与生产中心距离约 20km。中间链路租用运营商裸光纤链路,并自购 5 台中兴 M721 DWDM 设备,其中 A 系统在生产中心使用两台DWDM 设备实现冗余, B 系统在生产中心使用 1 台 DWDM 设备,灾备中心放置 2 台DWDM 设备。生产中心采购 2 台思科 Nexus7010 作为核心交换机,同城灾备中心没有核心交换机。网络现状如下图所示:现状风险分析在 XX 局以往的业务系统架构中,核心业务系统采用小机,其他非关键业务采用
18、 VMware虚拟化架构,核心数据库系统与业务均存放在 XX 存储上,整个业务系统未进行高可用保护,业务系统存在单点故障风险。且 XX 存储系统面临即将过保的问题,如何平滑进行存储系统的切换是必须要考虑的问题。华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 11 页, 共 105 页2.2.3 建设目标(适用于升级改造)本次项目建设的关键目标有三个:(1)原数据中心的业务逐步迁移到新数据中心(2)新数据中心与原数据中心升级为双活数据中心架构(3)建设异地灾备中心2.2.4 方案设计原则通过对用户需求的了解,结合 XX 应用系统的业务特点,方案主要遵循以
19、下原则进行设计:高性能:充分考虑容灾系统的处理能力,使其整个系统在国内三到五年内保持领先的水平,并具有长足的发展能力,以适应未来灾备技术的发展。高可靠性:灾备系统是为了进一步增强关键业务数据的抵御灾难能力,所以在灾备系统设计阶段需要充分考虑其自身的稳定性和可靠性,从而保障关键数据能够持续、稳定的传送到异地灾备中心。当出现任何问题时都能够通过灾备数据得以恢复。标准化:所有灾备解决方案都应符合有关国内及国际标准以保证不同品牌灾备解决方案之间的互操作性和系统的开放性。可扩展性:当前灾备系统的设计不但应满足当前需要,还需充分考虑业务的发展,同时便于向更新技术的升级与衔接,保护当前投资。可维护性:整个灾
20、备系统的设计,充分考虑易于管理,易于维护,操作简单,易学,易用,便于进行配置,发现故障。安全性:由于灾备系统承载的是关键业务系统的数据备份,所以设计需要考虑传输、存放等灾备整个过程中的安全性。高性价比:灾备系统建设首先要从系统的实用性角度出发,满足不同的业务系统的实际需要和前瞻性的同时,选择最高性价比的设计方案。华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 12 页, 共 105 页3 存储双活架构选择3.1 存储双活架构选择3.1.1 存储双活架构描述双活数据中心的定义是指两个数据中心共享存储、网络以及服务器资源,两个数据中心同时对外提供服务,整个
21、系统具有业务负载均衡和自动故障切换功能。存储双活作为整个系统的核心基础架构平台,主要解决以下两个核心问题。一是如何在两个数据中心间实现数据实时同步,从而保证异常情况下,零数据丢失(RPO=0) 。二是如何实现存储资源的虚拟化,提供可同时被两个数据中心主机访问的存储共享卷,从而实现主机应用集群的跨站点部署,保证异常情况下,应用的自动切换(RTO0) 。 3.1.2 业界存储双活技术路线当前,存储业务通常有以下两种实现存储双活方案的架构。一种是基于专业的虚拟化存储设备来实现;一种是基于磁盘阵列的同步复制技术,配合自动化的复制切换软件来实现。由于两种架构采用了不同的技术方案,因此,在方案可靠性、业务
22、连续性以及可扩展性方面都存在一定差异。3.1.3 存储双活架构对比方案可靠性基于虚拟化存储的双活方案:通常可以在每个站点部署一台或多台全冗余华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 13 页, 共 105 页架构的虚拟化存储设备,站点间和站点内都不存在单点故障的风险。基于磁盘阵列同步复制技术的双活方案:实际上采用的是 Stretched 架构,即将一台阵列的两个控制器部署在两个站点,每站点内部只有一个控制器,存在单点故障风险。数据实时同步技术及性能影响基于虚拟化存储的双活方案:采用存储虚拟化设备的卷镜像技术实现两站点间的数据实时同步。两台存储设备
23、上的 LUN 被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入这两个存储设备,保持数据实时一致。其中任何一个存储设备故障,虚拟卷仍能提供正常的 IO 读写能力,主机业务不受影响。待存储设备恢复正常后,存储虚拟化设备将增量数据后台同步到修复的存储设备,整个过程对主机“透明” ,不会影响主机业务。基于磁盘阵列同步复制技术的双活方案:基于磁盘阵列同步复制技术的双活方案是通过建立主存储设备复制到从存储设备的同步复制关系,在从存储设备生成一个实时一致的数据副本来实现的。同步复制对上层主机而言,两个数据中心的存储体现为两个不同的 LUN。由于同步复制的从存储设备不能被主机访问,因此,当主站点
24、存储设备发生故障,需要配合上层的自动切换软件实现业务的自动切换。恢复业务需要先切换复制关系,将从存储上的副本变为可读写,并改变主机的存储访问路径,切换时间长。为了保证两个数据中心存储的数据实时一致,同步复制与虚拟化卷镜像的写操作都需要等待两端存储同时写成功之后再返回给主机“写成功” 。因此,两种架构都将对 IO 写操作带来一定的时延增加,必须提供低时延的同城网络,以减小对写时延的影响。存储卷的双活访问特性基于虚拟化存储的双活方案:基于跨数据中心的双活虚拟化存储平台,提供可供两数据中心主机同时进行读写访问的共享存储卷。主机访问请求由本数据中心所在的虚拟化存储引擎响应,无需跨越同城网络访问另一数据
25、中心的虚拟化存储引擎。基于磁盘阵列同步复制技术的双活方案:将一台阵列的两个控制器部署在华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 14 页, 共 105 页两个数据中心,且两个控制器处于主备模式,备控制器无法被主机访问,只能提供一条备用的存储路径,不是真正的双活。两个数据中心的主机都只能通过访问其中一个控制器来进行 IO 读写,不仅增长了主机 IO 的路径,而且增加了主控制器的业务压力,影响系统性能。方案业务连续性能力基于虚拟化存储的双活方案:同一个共享的存储卷可经过两个数据中心的任意节点被主机访问。其中一个数据中心的虚拟化引擎故障、主机故障,甚至
26、整个站点故障时,都无需对存储进行切换,另一数据中心的虚拟化引擎可继续为主机提供访问。故障修复后,无需中断主机访问即可恢复故障前运行状态。基于磁盘阵列同步复制技术的双活方案:由于备控制器无法被主机访问,当发生主控制器故障或站点级故障时,需要先切换同步复制关系,再切换主机访问路径,来使存活站点的控制器强行接管故障站点控制器的工作。切换流程复制,部分场景甚至需要手工执行命令来强行切换控制器和访问路径。故障修复后,需要中断业务运行来恢复到故障前状态。弹性可扩展基于虚拟化存储的双活方案:通常可以在每个站点部署一台或多台全冗余架构的虚拟化存储设备。因此,随着业务的增长,方案能够支持引擎的横向扩展,且新增引
27、擎与现有引擎构成一个统一的虚拟化存储集群,提供统一的 IO 处理能力。基于磁盘阵列同步复制技术的双活方案:通常只支持双控,不具备控制器的横向扩展能力。无法实现存储资源的整合与共享,不能支持弹性可扩展。华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 15 页, 共 105 页4 系统方案设计4.1 整体架构设计4.1.1 方案描述存储双活方案作为 XX 业务 的核心基础架构,其架构的选择决定了整个系统是否可靠高可用、安全可信赖、弹性可扩展。此次方案建设,考虑到 XX 局的上述需求,华为建议采用基于专业的虚拟化存储设备来构建高可用、高性能、可扩展的存储双活
28、方案。XX 局两地三中心容灾系统建设包括同城双活中心: XX 数据中心与 XX 数据中心以及异地灾备中心三中心。整体的建设包括:双活容灾系统建设、异地灾备系统建设。同城双活容灾建设华为存储双活方案采用 OceanStor VIS6600T 系列产品(以下简称 VIS) ,实现存储双活架构,为两个数据中心存储同时提供读写服务,且整个存储系统架构全冗余,任意数据中心故障时,另外一个数据中心有一份存储设备和相同数据可用,最大化提高了业务连续性。两个数据中心分别部署多台 Oracle 数据库服务器和虚拟机服务器,以及OceanStor VIS6600T 和磁盘阵列等设备。整个双活系统分为存储层、前端网
29、络层与应用层与管理层。存储层,在 某某数据中心 A 和 某某数据中心 B 各部署一台 VIS6600T,组成一个 VIS 集群,为两数据中心主机业务同时提供读写服务。支持扩展至 8 节华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 16 页, 共 105 页点。同时,在 某某数据中心 A 和 某某数据中心 B 配置同等级和同容量的磁盘阵列。 为了提升热点数据的存储性能,使高价值硬盘得以更充分的利用,配置不同类型的硬盘: SAS、 NL-SAS、 SSD 以合理分配资源;通过华为存储提供的SmartTier 功能对热点数据进行持续监控并从机械硬盘迁移到
30、SSD 中,进一步提升系统性能。两个数据中心的磁盘阵列都由 VIS 集群接管,利用 VIS 镜像技术对两中心的磁盘阵列做镜像冗余配置,实现两个数据中心存储数据实时镜像,互为冗余。任意数据中心故障,数据零丢失。网络层,数据中心之间集群 IP 心跳和 FC 数据传输网络都采用裸光纤直连,传递控制信息、配置信息和数据同步,满足双活数据中心网络时延要求。应用层,两个数据中心的 Oracle 服务器构成一个 Extended RAC 集群,提供跨数据中心的自动负载均衡和自动故障转移功能。两个数据中心的虚拟机服务器构成一个集群,提供跨数据中心的虚拟化业务连续性和移动性。为了实现双活数据中心存储设备的统一管
31、理,建议部署统一容灾管理软件,通过华为统一容灾管理软件实现双活数据中心的可视化管理,并通过管理软件直观的展示双活业务的物理拓扑。建议将管理软件部署于 XX 数据中心的物理服务器。异地灾备建设对于 XX 业务,在建设双活数据中心的基础上,再进行数据的远程容灾。如此一来, XX 核心业务数据总共保留了三份,更高程度保证了数据安全性。整体的方案架构图如下图所示 (根据实际项目情况修改) :华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 17 页, 共 105 页XX 数据中心和 XX 数据中心分别部署多台服务器、1 台 VIS、X 台磁盘阵列、至少 2 台可
32、提供 10GE 与GE 链路的冗余 IP 交换机以及 2 台 FC 交换机。其中 X 台服务器组成多节点的 Oracle RAC 集群与VMware 集群、FusionSphere 集群,对外提供服务;2 台 VIS 组成 4 节点的 VIS 集群,统一接管 2 个数据中心的磁盘阵列,构建跨站点的存储资源池;两个数据中心之间利用 VIS 镜像功能同步数据。第三方仲裁站点使用华为提供的第三方仲裁存储单元,使用 IP 或 FC 网络连接到 XX 数据中心和 XX 数据中心的 VIS 设备。每个数据中心的一台 XX 阵列和第三方仲裁存储单元各提供一个 1GB 的 LUN,共 3 块仲裁盘,供 VIS
33、 仲裁使用。4.1.2 存储双活架构的要求方案对同城网络的要求采用 FC 链路实现同城双数据中心间的数据实时同步,采用二层以太网络实现双数据中心间的存储虚拟化集群(VIS)以及主机应用集群的心跳链路通信。为降低数据双写对业务系统的影响,建议同城链路的时延在 1ms 以内。同城链路带宽需求,与需要在两数据中心间同步的数据量相关,要求链路带宽大于业务系统高峰期的数据写带宽。华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 18 页, 共 105 页方案对仲裁链路的要求为保证各种异常情况下,存储虚拟化集群能够进行仲裁,业界存储双活方案都需要设计第三方仲裁站点,
34、以保证异常情况下的业务连续性。两个双活数据中心与第三方仲裁站点间的链路可选择 FC 或 IP 网络,大大增加了方案的灵活性,有利于降低方案的整体成本。应用系统对时延的要求双活数据中心的建设不仅是存储一个层面的双活部署,需要端到端地进行考虑。尤为重要的是,当前双数据中心的网络时延是否能满足应用系统对网络时延的要求?华为提供了一系列的测试方法对 XX 数据中心与 XX 数据中心的网络链路进行检测确认。以下罗列了双活数据中心解决方案的两种典型应用场景对时延的建议: Oracle应用时延建议类型 性能好 性能可接受 性能差 db file sequential read 20ms db file pa
35、rallel write 15ms log file parallel write 15ms VMware应用时延 站点之间最大支持VMware ESXi管理网络的网络时延是往返 10ms RTT 。 vMotion标准版和企业版要求5ms RTT。 vMotion中 10ms RTT的延时只有在具有VMware vSphere Enterprise Plus版本许可中才支持,这个版本许可包括Metro vMotion 功能。 ESXi vMotion的网络需要最少 622Mbps的网络带宽,并且有冗余链路。 FusionSphere应用时延 生产站点与容灾站点间距离要在100公里以内,站点间
36、需要租赁L1专线,两个站点间环回时延1ms。华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 19 页, 共 105 页4.2 存储双活方案详细设计4.2.1 虚拟化存储双活设计跨数据中心部署的 OceanStor VIS6600T 虚拟化存储集群提供可被两数据中心主机并发访问的共享双活卷,连接到其任何节点上的主机都可以访问同一个虚拟卷,并像访问本地存储一样对 VIS 提供的虚拟卷进行读写。通过 VIS 的虚拟化功能,实现对各种磁盘阵列的统一接管,将数据中心里不同类型的磁盘阵列资源池化,实现存储资源的整合和优化,提高资源利用率。同时通过 VIS 虚拟化卷
37、镜像功能,保证两个站点磁盘阵列之间数据的实时同步。两台存储设备上的 LUN 被虚拟化为一个虚拟的卷,主机写操作通过卷虚拟化镜像技术同时写入两个数据中心的存储设备,保持数据实时一致。具体的 IO 读写流程如下图所示。VIS 虚 拟 化 卷 镜 像 原 理 及 IO 流 程镜像卷主机盘223 31 4镜像镜像卷镜像数据盘差异位图盘数据中心1VIS集群主机数据中心2阵列 阵列VIS 镜像的写 I/O 流程如下:1) 写请求到镜像卷;2) 镜像卷将请求复制为两份下发到两中心的镜像数据盘;3) 镜像数据盘返回写操作完成;4) 镜像卷返回写 I/O 操作完成。华为双活数据中心解决方案技术建议书2018-9
38、-26 华为保密信息,未经授权禁止扩散 第 20 页, 共 105 页4.2.2 双活读策略设计华为 VIS 具备灵活的读取策略:循环读、优选读、基于站点读(Site Read) 。针对双活数据中心场景,设计了“Site Read”模式,以避免虚拟化引擎跨数据中心读取数据,提升方案整体性能。其读 I/O 流程如下:1) 读请求到镜像卷;2) 镜像卷根据策略下发请求到与虚拟化引擎在同一个数据中心的镜像数据盘读取数据;3) 镜像数据盘返回读数据;4) 镜像卷返回读数据。其中任何一个存储设备故障,虚拟卷选取正常的存储设备响应主机 I/O,主机业务不受影响。并且采用差异位图记录故障期间数据的变化情况,
39、待存储设备恢复正常后,存储虚拟化设备将增量数据后台同步到修复的存储设备,整个过程对主机“透明” ,不会影响主机业务。4.2.3 优选路径设计华为多路径软件 UltraPath 支持双活的优选路径模式。为了避免跨数据中心进行 I/O 处理而带来时延的增加,UltraPath 将优先使用本数据中心 VIS 节点下发 I/O 的路径,只有当本数据中心节点路径故障后才使用远端数据中心 VIS 节点的路径。说明:当前 FusionSphere 不支持优选路径功能。 (蓝色字体部分实际使用时不对客户体现)4.2.4 虚拟机跨数据中心 vMotion 设计(可选)通过 Fibre Channel、iSCSI
40、 存储区域网络 (SAN)和数据中心间网络,虚拟化存储集群为两个数据中心主机提供共享访问的镜像卷,构建 VMware ESX vMotion over Distance,可在数据中心之间实时迁移在线运行的虚拟机,可避免停机、确保业务连续性以及事务处理的完整性,使 XX 局可以在执行硬件维护时无需安排停机时间及中断业务操作。同时,VMware ESX vMotion over Distance 还可以使两数据中心资源池内的虚拟机持续进行自动优化,最大程度华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 21 页, 共 105 页地提高硬件的利用率、灵活性及
41、可用性。4.2.5 “逃生”功能设计华为 VIS 虚拟化智能存储具备“逃生”功能,对所接管磁盘阵列,无需更改阵列映射 LUN 的任何内容,当双活数据中心的两台 VIS 出现故障,将 VIS从整个 SAN 网络中移除,阵列直接将 LUN 映射给主机使用,主机可正常拉起业务,防止出现由于虚拟化失败或者虚拟化不能快速回退造成的数据丢失等导致业务系统不可恢复的情况。说明:此功能当在上层应用为虚拟化场景,且下层阵列为友商阵列时需要了解友商阵列的清预留的命令才能实现 “逃生 ”功能。 (蓝色字体部分实际使用时不对客户体现)4.2.6 镜像快速恢复功能设计华为 VIS 镜像功能具备镜像故障快速处理机制,只需
42、要重新镜像数据差量而不需要做全量的镜像。该算法基于一个位图数据结构:数据改变对象(DCO ) 。一旦某个镜像卷或者整个设备故障,VIS 会在 DCO 中记录两个卷之间的差异点。当镜像卷或存储设备恢复,则 VIS 根据 DCO 差异的情况,从源卷中将数据读入同步到镜像卷。达到快速恢复镜像的目的,不用完全重新同步。4.2.7 存储双活方案仲裁设计有第三方仲裁站点如下图所示,为保证当任一数据中心整体故障或中间链路故障等极端场景下,主机业务的连续性,方案建议采用第三方仲裁磁盘,由两个双活的生产中心及第三仲裁存储单元分别为虚拟化存储集群提供一个仲裁盘。这样,便可以保证即使出现数据中心整体故障或中间链路故
43、障等极端场景,虚拟化存储集群仍然可以访问至少两块仲裁盘进行仲裁,保证业务可靠性和数据一致性。华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 22 页, 共 105 页存 储 双 活 方 案 仲 裁 设 计IP心跳网络FC网第三存 储资 源池存储阵 列 存储阵 列VIS仲裁盘1 仲裁盘2仲裁盘3第 三 方 仲 裁 存 储 单 元第三方仲裁站点位于 XX 点, XX 点与两个数据中心之间通过 XX 线互联。可直接从部署于 XX 点的仲裁存储单元上创建一个 1GB 的 LUN,可通过 FC 链路或 IP 链路映射给两个数据中心的 VIS。当出现任一数据中心整
44、体故障或中间链路故障等极端场景,整个集群的仲裁过程如下:1) XX 数据中心 与 XX 数据中心 之间的中间链路断开,导致两个数据中心集群发生分裂,进而两个中心之间的存储虚拟化平台发生“脑裂”,存储虚拟化平台从一个大集群分裂为两个小集群;2) 根据集群“脑裂”的通用原理,当大集群分裂为两个小集群时,每个小集群分别抢占存放第三方仲裁信息的仲裁盘,抢占到 51%以上仲裁信息(即抢占到 2 个仲裁盘)的小集群“获胜” ,将继续对外提供服务,为应用提供存储访问空间;3) 未抢占到仲裁信息的小集群则自动退出集群,不再对外提供服务;4) 当中间链路恢复时, “自动退出的小集群”检测到中间链路由故障变为正常
45、,尝试与“继续服务的小集群”握手通信,经过握手通信两个小集群再次组成一个大集群,以 Active-Active 模式提供服务,互相之间实现冗余。无第三方仲裁站点若无第三方仲裁站点,则选择将第三方仲裁盘配置在任意一个数据中心,并实施必要的掉电保护措施,例如部署独立 UPS 电源。采用此种方式部署,则当出现存放两块仲裁盘的数据中心整体故障,如大面积停电,火灾等灾难。由于集群无法获得超过 51%的仲裁信息而导致整个集群停止对外服务,业务中断,华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 23 页, 共 105 页需要手工进行恢复。4.2.8 跨数据中心网络
46、设计同城双活数据中心网络至少包括五张网: 业务访问网(IP,作为客户端访问服务器的主要网络) 应用迁移网和应用心跳网(10GE,主要进行虚拟机在线迁移操作与主机集群的心跳网络) 存储镜像网络(FC) VIS 心跳网络(GE 二层网络,作为 VIS 集群的心跳网络) VIS 仲裁网络(GE 三层网络或 FC)不同的网络间,可以通过划分不同的 VLAN 实现。为保障方案的可靠性,华为同城双活方案采用数据传输链路与心跳链路分离设计的原则。通过 VLAN 或 VRF 隔离端到端流量,同时进行分配独立的物理互联链路,做到业务流量与集群心跳分离流量,互不影响。采用 FC 链路实现同城双数据中心间的数据实时
47、同步,采用二层以太网络实现双数据中心间的存储虚拟化集群(VIS)以及主机应用集群的心跳、同步互联链路通信。由于 FusionCompute 仅支持配置一个网关,所以数据中心 A 和数据中心 B中作为网关的汇聚(核心)交换机,需要配置为主备网关模式。主网关优选生产站点侧的交换机。在实际进行 VLAN 跨站点配置时,在以太网汇聚交换机上按照 VLAN 配置主备网关的 VRRP。对于一个 VLAN,部署了虚拟机业务的一侧站点网关配置为主网关,另一侧站点网关配置为备网关。若两个数据中心之间存在 VMware vMotion 在线迁移操作,则 VMware 单台虚拟机跨数据中心迁移要求 IP 链路带宽为
48、 1Gb/s,若存在多台虚拟机同时迁移(并行) ,则相应的带宽要增加。实际部署时,建议至少部署一条 10GE 链路用于 VMware 迁移复制流量。VIS 镜像必须采用 FC 光纤互联。两数据中心相距 25km 以内可采用裸光纤直连。如果距离超过 25km 或只有一对裸光纤,建议使用 OTN 波分设备来构建两数据中心的同城网络。华为双活数据中心解决方案技术建议书2018-9-26 华为保密信息,未经授权禁止扩散 第 24 页, 共 105 页部署 OTN 波分设备时,建议采用 1+1 主备线路双发选收的方式,提供物理链路的高可靠性。一对裸光纤中断时,另一条裸光纤可马上恢复业务流量,切换时上层网
49、络及应用无感知。园区网络设计适用场景:两个数据中心容灾距离小于 25km,采用光纤交换机直连。两个数据中心中用于主机应用心跳网络、虚拟机 vMotion 网络的以太网交换机建议采用 10GE 并一对一级联;用于 VIS 集群心跳网络的以太网交换机采用 GE 并一对一级联;用于存储数据同步的 FC 交换机一对一级联;以太网交换机也可以 Trunk 端口捆绑交叉组网。 4 节点 VIS 集群一对一级联组网图如下:存储阵列I P S W 1 - 1F C S W 1 - 1F C S W 1 - 2F C S A N 网络 V I S 心跳单模光纤数据中心 AI P S W 1 - 2 2 5 k m存储阵列I P S W 2 - 1F C S W 2 - 1F C S W 2 - 2数据中心 BI P S W 2 - 2V I S 6 6 0 0 TV I S 6 6 0 0 T第三方仲裁网络 业务网络外网S 2 6 0 0 T核心交换机第三方仲裁站点核心交换机O r a c l e R A CV M V M V M V M容 灾 管 理 服 务 器应用心跳O r a c l e R A CV M V M V M核心交换机核心交换机8 节点 VIS 集群一对一级联组网图如下:华为双活数据中心解决方案技术建议书2018-9-26 华为保密