1、走专业化服务道路,加快灾难恢复系统建设2009中国灾难备份高峰论坛暨首届中国灾难备份联盟年会,2018/4/16,2,灾难恢复系统建设的迫切性灾难恢复系统组成及等级划分灾难恢复建设流程分析灾难恢复体系建设策略建议中金数据公司灾难恢复服务,内容提要,2018/4/16,3,灾难恢复系统建设的迫切性灾难灾难可以定义为任何不可预知的影响机构正常运营的事件(预知事件产生不可预知的影响也符合灾难定义),2018/4/16,4,一旦突发灾难,造成建筑物、基础设施、IT系统、业务数据和关键人员的毁灭,你该如何应对?,灾难恢复系统建设的迫切性,2018/4/16,5,灾难恢复系统建设的迫切性,数据来源于: C
2、ontingency Planning Research, Inc 1999 ( 1982-1997 (美国)样本数:6000宗),1,2,3,4,5,2018/4/16,6,灾难恢复系统建设的迫切性,Source: University of Minnesota,金融业在灾难停机2天内所受损失为日营业额的50%;如两星期内无法恢复信息系统,75%的公司将业务停顿,43%的公司将再也无法开业;没有实施灾难备份措施的公司60%将在灾难后23年间破产。,2018/4/16,7,灾难恢复系统建设的迫切性,业务连续运作的要求关键信息系统的数据完整性关键信息系统业务处理的连续性解决各种大灾难所造成的关键
3、业务大面积停顿问题规避风险、健康发展的要求社会稳定和国家安全的要求,2018/4/16,8,业务连续性与灾难恢复系统的关系,“灾难恢复”是BCM的基础,是业务连续运行的保障。,2018/4/16,9,灾难恢复系统组成及等级划分,2018/4/16,10,灾难恢复系统的七大要素,2018/4/16,11,灾难恢复等级划分,灾难恢复等级的定义是基于对灾难恢复七要素的不同要求。,2018/4/16,12,灾难备份等级.(1-6个灾难恢复等级),2018/4/16,13,各等级可防范的主要风险及恢复能力,2018/4/16,14,数据级与应用级容灾,数据级容灾近似于第3级主要防范数据存储设备级故障无法
4、在短时间内恢复业务,应用级容灾近似于第4级以上可防范站点级灾难可较快恢复业务,2018/4/16,15,灾难恢复全周期,数据丢失,降级运行时间,计划内停机,T0时刻,T1时刻,T2时刻,T3时刻,T4时刻,宕机的全部影响,T0: 恢复点,即宕机之后数据开始恢复的时间点(在此时间点前数据已备份)T0-T1: 恢复点目标(RPO)。T0和T1的时间间隔产生的新鲜数据将丢失T1: 发生事故,主系统停止运行T2(T2): 恢复完成,备份系统开始提供信息服务的时间(IT系统恢复和业务应用系统恢复),T2,2018/4/16,16,T1-T2: 恢复时间目标(RTO)。设计高可用系统挑战就是,设计出满足企
5、业要求的恢复时间目标或期待恢复时间的系统。恢复时间是故障(或灾难)类型和采用的恢复技术这两个变量的函数T2-T3: 降级运行时间,指恢复完成以后到防止第二次故障或灾难的所有 保护恢复以前的时间段。如果在降低运行期间发生第二次故障或灾难,则再次恢复几乎不可能,从而导致更长的时间T3-T4: 计划内停机时间,指为使信息服务能从恢复站点转回主站点所需要的计划停机时间,2018/4/16,17,灾难恢复建设流程分析,2018/4/16,18,灾难恢复体系建设流程,成立灾难恢复专门机构,制订灾难备份方案,实施灾难备份方案,制订灾难恢复预案,保持灾备系统永续运行,分析灾难备份需求,数据处理中心风险分析业务
6、影响分析确定灾难恢复策略与目标,灾备建设起点获得管理层支持科技、业务、财务、后勤支持等相关部门,数据备份系统备用数据处理系统备用通信网络系统灾备中心运营管理,实施灾难备份方案落实相应的规章制度组建运营管理队伍,日常监控与操作管理问题管理与变更流程演练管理预案维护和评估预案测试和演练,初稿的制订初稿的评审初稿的修订预案的测试预案的审核和批准,2018/4/16,19,灾难恢复系统设计要点,确定关键业务(能确保企业生存所需要的基本业务功能)支持关键业务所能容许的中断时间(RTO)确定关键业务系统所能容许的数据丢失(RPO)确定灾难恢复所需要的基本资源:数据备份系统的关键技术备用数据处理系统(维持基
7、本的处理能力)备用通信网络资源灾难备份中心资源运营管理要求,RTO,RPO,2018/4/16,20,灾难恢复体系建设策略建议,2018/4/16,21,灾难恢复体系建设的建议,加强灾难恢复(业务持续)规划进行RA、BIA分析确定总体持续性战略目标确定灾难恢复建设策略与阶段性目标综合选择灾难恢复建设策略灾难备份中心建设模式:自建、外包、合建备份及恢复系统投资模式:自建、租赁灾难备份中心运营管理模式:自营、外包合适选择灾难恢复技术方案灵活选择灾难备份与恢复技术实现分级保护,强化灾难恢复系统的运营管理强化灾难恢复系统的运营管理,特别是变更管理与配置管理重视灾难演练与测试定期评估灾难恢复预案的有效性
8、深化业务连续性文化加强企业员工的灾难意识建立有力的灾难恢复管理组织争取高层主管领导的支持加强灾难恢复的培训与宣传,2018/4/16,22,灾难恢复建设的建议综合选择灾难恢复资源获取方式,灾难恢复资源获取方式,2018/4/16,23,灾难演练的一般过程,演练准备,实施演练,演练恢复,演练总结,1.确定演练目标与范围2.确定演练的时间3.确定演练的测试方案4.确定灾难演练计划5.灾难备份中心提前准备就绪6.灾难备援系统提前准备就绪7.确定演练参加单位与人员8.下发演练通知,1.模拟灾难发生2.启动灾难宣告流程3.模拟灾难断开数据复制链路4.灾难备援系统准备5.启用备援系统,并确认备援系统的可用
9、性和正确性6.启动应用系统,并确认和验证应用系统和数据的可用性7.演练营业网点通信切换8.灾备中心正式接替电脑中心运营9.业务处理服务重续运行,1.恢复数据备份系统2.恢复营业网点通信3.清理演练环境,删除演练数据,1.更新灾难备份系统2.文档资料更新3.更新灾难恢复预案4.形成演练总结报告5.演练文档资料存档,灾难恢复建设的建议重视灾难演练,2018/4/16,24,灾难恢复建设的建议强化运营管理,2018/4/16,25,灾难恢复建设的建议强化运营管理,2018/4/16,26,灾难备份建设需要考虑的重点问题,1.确定灾备中心的布局,同城灾备、异地灾备、同城异地灾备一步到位?分步实施?怎样
10、的建设路线图?,2.确定灾备的业务范围,3.确定业务系统的灾备等级,4.确定灾备建设模式,5.灾备系统的实施,7.做好首次全面演练,7.进行定期/不定期演练与培训,8.重视运营管理,确保灾备系统的“战时能用”,业务系统重要性分类?恢复策略/恢复顺序?如何稳步扩展灾备的业务范围?,灾备等级(16级),自建 / 外包服务联合共建 / 互为灾备,灾难备份中心的运营管理,运营管理团队从恢复预案、人员、IT系统等方面确保能在灾难时顺利进行恢复并接替生产运行,如何规划,如何建设,如何运营,6.灾难恢复预案的开发,灾备关键技术产品的选择与技术方案的实施重视灾难恢复预案的设计与开发首次灾难演练一定要全面,且要
11、进行全面的评估,2018/4/16,27,灾难备份建设面临的困难灾备建设特点,小概率:并非经常发生,投资回报不明显高风险:如果没有灾备体系,一旦发生数据损失和业务停 顿,后果相当严重高投入:不亚于建设另一套生产系统难维持:运营费用高、技术难度大、人员难于保障,2018/4/16,28,借助专业服务商的优点,好:可获得更高等级的灾难备份中心运行环境,更专业的技术支持、运营管理服务以及灾难恢复解决方案;快:可获得现成的灾难备份中心基础设施和灾难恢复能力;省:可通过资源共享模式,节省投资,减轻财务压力,优化资产结构,符合我国建设节约型社会的战略目标;强:可更关注自身的核心业务,提高核心竞争力。,调查
12、时间:9.11事件之后调查样本:美国、英国、澳大利亚、加拿大等国565个公司调查结果:71.2%的公司租用或拥有了灾难备份中心, 其中56%的公司完全委托专业化服务商资料来源:Global Continuity Inc.,2018/4/16,29,灾难备份策略要适当 灾难备份系统要有效,2018/4/16,30,中金数据公司灾难恢复服务,2018/4/16,31,中金数据系统有限公司简况,中金数据系统有限公司是一家新型的信息技术系统外包服务企业: -以自行管理、功能齐备、高可用的数据中心为基础 -以专业化的技术服务团队和系统服务产品为核心 -向高度依赖IT系统运作其关键业务的重点行业客户提供I
13、T外包服 务,包括计算机信息系统场地资源服务、生产中心托管服务、 全方位的灾难备份及业务恢复服务,2018/4/16,32,2018/4/16,32,北京,烟台,华东,华南,西部,占地100亩总建筑面积9.6万m2一期5.6m22008.6投入使用,北京数据中心,占地250亩总建筑面积26万m2一期13万m2,华东数据中心,占地100亩总建筑面积9万m2,华南数据中心,占地300亩总建筑面积28万m2一期7.8万m2,烟台数据中心,自主建设和管理的全国数据中心网络,2018/4/16,33,建设规模,33,抗震设防烈度为9度 (比政府规定高出2度)耐火等级按一级设计防水等级按一级设计防水灾标准
14、为百年一遇中央机房远离外部设施园区四周设置安全缓冲区后勤楼与其它建筑完全物理隔离,可以有效防止鼠虫害,占地面积:100亩(6.6公顷)规划总建筑面积:10万平方米,2018/4/16,34,中金数据公司北京数据中心平面图,监控中心,后勤服务中心,客户业务区,中央机房,后备动力机房,目前国内规模最大的商业化数据中心 占地6.6公顷,设计总建筑面积8.6万平方米一期建设:5.3万平方米:中央机房:IT设备及基础设施运行区域三层结构、共1.7万平方米监控中心:数据中心运维支持工作区域四层结构、共1.13万平方米客户业务区:客户进行系统监控、操作和维护的业务处理区域五层结构、共1.32万平方米后勤服务
15、中心:提供餐饮住宿和物业管理的后勤支持设施三层结构、共5.5千平方米后备动力机房: 后备发电机组运行区域单层结构、1.7千平方米二期规划:3.3万平方米,2018/4/16,35,中金北京数据中心-完全容错设计的数据中心基础设施,符合国家A级标准要求达到国际标准最高等级(The Uptime Institute Tier IV)要求99.995%可用性设计全面灾害防御全冗余供配电系统,1200VA/平方米负载能力冗余机房环境调节系统安全的消防系统综合安防系统冗余通信网络系统,2018/4/16,36,中金公司的基础服务,中金数据系统有限公司的 全方位、全过程的灾难备份和业务恢复的服务,2018
16、/4/16,37,灾难恢复等级保护全方位解决方案,中金数据系统灾难恢复外包服务产品包括:媒体存储、灾备中心资源、冷站式灾备、远程数据备份、温站式灾备、热备份中心等服务,完全涵盖了国家及相关行业主管部门相关灾难恢复规范和指南中所定义的六个灾难恢复等级。,2018/4/16,38,2018/4/16,39,业务持续性管理专业咨询服务产品,业务持续性管理专业咨询服务,2018/4/16,40,关于场地选择的建议: 1、 在同一个数据中心内,不可能既作为一个单位的生产中心,又作为该单位的灾难备份中心。 2、 与灾备中心相比,生产运行中心是第一位的。应优先考虑生产运行中心。 3. 灾备中心不仅要备份数据
17、,备份数据处理系统,更为重要的是当灾难发生后要担当起临时生产运行中心的作用。因此,灾备中心的选址要考虑很多因素,但一个很重要的原则是:不是选择一个任何灾难都不可能袭击到的地方,而是选择一个不大可能和要保护的生产运行中心同时遭受灾难袭击的地方。,2018/4/16,41,4. 进一步要考虑的原则是:一般地,当因灾难的原因,企业或机构将运营转换到灾备中心时,便不会再有其它的灾备中心了。因此,灾备中心应是一个永久性的设施,应有足够的场地,容纳所有必要的IT及通信设备以及办公室、业务操作室等,并且交通便利。建筑物本身应具有较高地可用性,应具有足够的安全设施,还应有充分的电力、电讯、水等公用设施支持,还应有必要的后勤保障能力. 5、 鉴于以上要求,并针对灾备建设本身的“高风险,低概率;高投入,低回报;建设难,运维更难”的特点,选择第三方提供的高可用、专业化场地 作为灾难备份中心的场地应是明智之举。,2018/4/16,42,中金数据公司的服务优势,高等级的灾难备份中心资源最具决心的灾备战略投入深厚行业背景的技术实施与运营管理团队强大的技术专家队伍资源业界先进的业务连续性方法论最能抵御风险的客户长久稳固的合作伙伴,2018/4/16,43,中金公司愿助力阁下建立 适当而有效的灾难恢复体系,谢 谢 !,