1、中启航国际教育学院-CISP培训,业务连续性规划(BCP),中启航国际教育学院,议程,业务连续性管理概述业务连续性管理的开发与实施总结,业务连续性管理概述,中启航国际教育学院,灾难是组织业务连续运作的威胁,灾难频发,灾难将损毁组织的基础设施、关键人员、信息系统及关键业务数据等重要资产,直接威胁到组织业务的连续运作。如何应对灾难,作好准备好了吗?,灾难是无法预知的,最好的保护就是做一个好的计划,中启航国际教育学院,直接和间接的损失,间接损失,经济效益,公众声誉,直接损失,数据丢失、设备损坏 人员伤害。,法律责任,国家职责,中启航国际教育学院,灾难备份建设的重要性和必要性,组织业务连续运作的要求
2、关键信息系统的数据完整性 关键信息系统业务处理的连续性 解决各种大灾难所造成的关键业务大面积停顿问题 行业监管政策的要求 BS25999和SHARE 78 -国际标准和最佳实践 2003年,中共中央办公厅、国务院办公厅下发了国家信息化领导小组关于加强信息安全保障工作的意见-27号文件。 2004年9月份 ,国信办关于加强国家重要信息系统灾难备份工作的意见 2005年,国信办重要信息系统灾难备份与恢复指南 2007年11月,信息安全技术 信息系统灾难恢复规范(GB/T 20988-2007) 2008年2月,人民银行 银行业信息系统灾难恢复管理规范 (JR/T 00442008) 2008年3月
3、,保监会保险业信息系统灾难恢复管理指引 (保监发200820号 ) 企业规避风险、健康发展的要求 组织进行全球化战略发展和布局、成为世界级企业的要求,中启航国际教育学院,业务连续性发展历程,1970年代在美国起步 第一个热备份中心:1979年在美国费城建立的: SunGard Recovery Services Center 领先公司:IBM、SunGard、CAPS、EDS、IRON Mountn建有几百间灾难备份中心 完备的灾难备份体系和方法论 CPM、DRJ专业期刊杂志 DRII、BCI等行业协会 中国BCM协会,每年的BCM年会和论坛,中启航国际教育学院,BCP所描述的业务连续过程,恢
4、复的时间,故障、灾难 业务中断,紧急响应,重定位备份,资源 在行动,恢复操作系统,重装载 数据库,回滚和 再同步,业务重新开始,中启航国际教育学院,BCP的实质,Ensure Business Continuity As Unusual,中启航国际教育学院,几个重要概念,灾难 由于人为或自然的原因,造成信息系统运行严重故障或瘫痪,使信息系统支持的业务功能停顿或服务水平不可接受、达到特定的时间的突发性事件,通常导致信息系统需要切换到备用场地运行。 灾难备份、灾难恢复 灾难备份:为了灾难恢复而对数据、数据处理系统、网络系统、基础设施、技术支持能力和运行管理能力进行备份的过程。 灾难恢复:为了将信息
5、系统从灾难造成的故障或瘫痪状态恢复到可正常运行状态,并将其支持的业务功能从灾难造成的不正常状态恢复到可接受状态,而设计的活动和流程。,中启航国际教育学院,几个重要概念,灾难备份中心 是指用于灾难发生时接替生产系统运行进行数据处理和支持关键业务功能运作的场所,包括备用数据处理中心、备用的工作环境、备用生活设施和运行管理人员。 灾难恢复预案(DRP) 所谓灾难恢复预案,是指定义信息系统灾难恢复过程中所需的任务、行动、数据和资源的文件,用于在预定的灾难恢复目标内恢复信息系统支持的关键业务功能。,中启航国际教育学院,恢复点目标 (RPO) 定义:灾难发生后,系统合数据必须恢复到的时间点要求,代表了当灾
6、难发生时允许丢失的数据量 恢复时间目标 (RTO) 需要恢复应用数据所需的最长时间,恢复点,恢复时间,恢复点目标-RPO/恢复时间目标-RTO,允许中断时间,中启航国际教育学院,进行损失评估,判断是否灾难? 满足条件:宣布灾难,几分钟或几小时之内,几小时或几天之内,几周或几月之内,预防,事件,危机管理,业务恢复的6R模型,时间线,既要避免反应迟钝,也要避免反应过度!,事前,事中,事后,中启航国际教育学院,持续性计划同风险管理关系,持续性计划,安全措施实现,风险管理,持续性计划执行,紧急事件,风险的分类? 可接受风险 不可接受风险 残余风险,中启航国际教育学院,持续性计划同风险管理关系,自然 火
7、灾 飓风 洪水 台风 。 。 人 阴谋破坏 恶意代码 操作员错误 。 。技术 硬件故障 数据残缺 电信故障 电力故障 。,潜在风险,风险评估,安全控制管理控制 运行维护控制 技术控制 。 。 。,持续性计划范围 飓风 操作员错误 硬件故障 数据残缺 。 。,自然 火灾 飓风 洪水 台风 。 。 人 阴谋破坏 恶意代码 操作员错误 。 。技术 硬件故障 数据残缺 电信故障 电力故障 。,火灾 飓风 洪水,阴谋破坏,硬件故障 数据残缺 电信故障,操作员错误,自然 火灾 飓风 洪水 台风 。 。 人 阴谋破坏 恶意代码 操作员错误 。 。技术 硬件故障 数据残缺 电信故障 电力故障 。,硬件故障 数
8、据残缺,操作员错误,飓风,标识的风险,残余的风险,中启航国际教育学院,BCP和DRP的关系,中启航国际教育学院,BCM和BCP,BCM(业务连续性管理)是一个能够识别威胁一个组织潜在影响的整体管理过程,不单单是灾难恢复、危机管理、风险控制或者技术恢复,而是一个整合的管理流程。 BCP(业务连续性计划)是一种策略规划,当灾难发生时致使组织关键业务或服务中断时,业务连续性计划可确保迅速恢复关键业务的正常与持续运作。 BCP是组织在实施BCM过程的产出物,并在BCM过程中不断更新和完善,同时BCP也是组织进行业务连续性管理的依据。,中启航国际教育学院,国际灾难备份解决方案的级别,SHARE 78定义
9、的七级业务恢复级别1992年会议,自动远程站点恢复工作组基于恢复方式和恢复时间的分级提出七级恢复级主要分级原则 备份/恢复的范围 灾难恢复计划的状态 应用地点与备份地点之间的距离 应用地点与备份地点如何相互连接 数据是怎样在两个地点之间传送的 允许有多少数据丢失 怎样保证备份地点数据的更新 备份地点可以开始备份工作的能力,中启航国际教育学院,我国灾难备份等级划分的依据 国信办-重要信息系统灾难恢复指南,灾难恢复等级的定义是基于对灾难恢复七要素的不同要求。,中启航国际教育学院,我国灾难备份定级的七大要素,中启航国际教育学院,1,基本支持,中启航国际教育学院,2,备用场地支持,中启航国际教育学院,
10、3,电子传输和部分设备支持,中启航国际教育学院,4,电子传输及完整设备支持,中启航国际教育学院,5,实时数据传输及完整设备支持,中启航国际教育学院,6,数据零丢失和远程集群支持,中启航国际教育学院,灾难备份等级与投资的关系,中启航国际教育学院,数据级与应用级容灾,数据级容灾,应用级容灾,中启航国际教育学院,项目启动与管理 风险评估和控制(RA) 业务冲击分析(BIA) 制定业务持续策略 应急响应和措施 编制和贯彻执行业务持续计划 认知和培训计划 维护及演练业务持续计划 危机沟通 与外部机构的协调,10个国际最佳专业惯例,确定BC计划编制的需求 获得高管层的支持 建立BCM组织及责任 明确BCM
11、项目的范围 确定计划编制时间表,识别可能的威胁和风险 应采取的控制措施 确定关键业务功能和流程 确定RTO和RPO 确定互依赖性及优先级别,根据BIA的结果制定策略 包括企业级策略和部门级策略 进行成本效益分析 选择最佳的策略,编制各种计划和预案 应急响应计划 危机沟通计划 与外部机构的协调计划 灾难恢复计划 业务持续计划 计划的贯彻执行,认知与培训的内容和方法 认知与培训应该贯穿于始终 将BCM融入到企业的文化中,测试及演练的目的和方法 结果的评价和改进 计划的维护和更新,中启航国际教育学院,业务冲击分析,策略制定,认知与培训,测试与演练,风险分析与评估,BC计划,计划编制,计划维护,项目规
12、划,BC计划编制 的生命周期,BC计划编制的8个步骤,中启航国际教育学院,2 BCP的开发与实施,主要包括: - 启动阶段 - 分析阶段 - 规划设计阶段 - 实施阶段- 运营维护阶段,中启航国际教育学院,第一阶段:项目启动阶段,获得管理层支持 管理层认可业务连续性对企业的价值 了解并接受业务连续性项目的相关成本 明确管理层应承担的责任 明确范围,目标与计划 确定业务范围 确定业务连续性工作内容 项目资源 组建项目核心团队 不仅仅是IT部门 确业务连续性的范围,中启航国际教育学院,风险分析的定义 标识信息系统的资产价值,识别信息系统面临的自然的和人为的威胁,识别信息系统的脆弱性,分析各种威胁发
13、生的可能性,并定量或定性描述可能造成的损失。通过技术或管理手段,防范或控制信息系统的风险。依据防范或控制风险的可行性和残余风险的可接受程度,确定对风险的防范和控制措施。(From:重要信息系统灾难恢复指南 ) 风险分析的目的 识别关键资产(关系到企业业务持续运行的关键资产,风险分析主体) 识别和了解当前业务环境中,客观存在的威胁和薄弱环节 进行定量或定性分析,识别面临的主要风险 识别风险的影响 提供在现有条件下,降低风险和改进薄弱环节的措施建议 通过分析结果导出相应的灾难场景和灾难定义 满足相关法规和行业监管要求,第二阶段:分析阶段(1)-风险分析,中启航国际教育学院,风险分析的内容,对数据中
14、心面临的主要威胁性风险进行定性和定量的分析评估。这些威胁主要包括: 自然的、人为的威胁; 无意的、故意的威胁; 内部的、外部的、内外勾结的威胁; 在控制能力之内的、超出控制能力之外的威胁; 有先期预警的、没有先期预警的威胁。 全面分析信息资产的脆弱性。这些脆弱性主要包括: 基础设施不完备; 技术复杂性; 管理复杂性; 数据和系统的集中程度; 安全管理不完备; 操作规程不严密。,分析和确定各风险发生的可能性。 分析风险的冲击和影响,包括直接经济损失、间接经济损失和负面影响等。 根据风险严重性和风险发生的可能性,评价风险及确定风险级别。 识别减少/降低风险、威胁或隐患的方法,提出应对各类风险的具体
15、建议(排除风险、降低风险、转移风险或接受风险)。 撰写风险分析报告。 向管理层汇报分析报告。,中启航国际教育学院,风险等级和灾难场景-示例,中启航国际教育学院,第二阶段:分析阶段(2)-业务影响分析,业务影响分析,也称为业务冲击分析 业务影响分析是分析业务功能及其相关信息系统资源、评估特定灾难对各种业务功能影响的过程。(From重要信息系统灾难恢复指南) 业务影响分析的目标 识别关键业务功能及其相关资源 识别应用系统之间的相互关联和支持关系 评估灾难对关键业务的影响(定量/定性) 确定灾难恢复需求(RTO、RPO、恢复资源需求),中启航国际教育学院,业务影响分析,识别关键业务及相关信息系统资源
16、,识别应用系统的相互关联和支持关系,评估灾难对关键业务的影响(定量/定性),确定灾难恢复需求(RTO和RPO),识别关键服务时间段和可容许性能下降,业务影响分析的目标,关键业务功能的重要性分析,关键业务的中断影响 (财务影响和非财务影响)分析,关键业务的可容许最大中断时间长度分析,关键业务的数据丢失可容许程度分析,确定关键业务恢复时间目标,各业务间的相关性分析,关键业务的恢复优先级分析,恢复各关键业务所需资源分析,业务影响分析的工作内容,中启航国际教育学院,业务影响分析的过程,识别和分析客户的关键业务功能 采用定性和定量的方法评估支持关键业务功能的信息系统中断造成的经济因素和非经济因素损失 分
17、析各关键业务可容许中断的最大时间长度,确认各关键业务的恢复时间目标(RTO)需求 分析各关键业务数据丢失的可容许程度,确认各关键业务的恢复点目标(RPO)需求 确定恢复需求: 确定各关键业务的恢复需求等级; 确定各关键业务的最低恢复要求; 确定各关键业务的恢复顺序; 确定支持各关键业务恢复所需的各项资源;,中启航国际教育学院,业务影响分析-确定RTO,RTO(灾难发生后,信息系统或业务功能从停顿到必须恢复的时间要求) 从业务角度,指关键业务功能的时间要求或者最大容许中断时间,指组织允许业务功能或服务中断的最长时间。 在此时间段内未能恢复业务意味着巨大的损失 确定RTO 基于组织可容忍的业务中断
18、对组织的冲击(有形和无形冲击)来决定RTO,中启航国际教育学院,业务影响分析-确定业务的依赖关系,考虑依赖关系的重要性 确保在恢复需求中,业务单元考虑他们和其他单元的关系 从恢复的角度来看,如果一个业务单元所依赖的业务单元没有相应的BCP,那么这个业务单元即使有完整的BCP也是毫无意义的 关系到业务功能的恢复顺序 组织内通常互相有依赖关系的包括: 业务功能 业务单元 系统 应用,中启航国际教育学院,业务影响分析-确定业务功能的恢复优先级,业务中断影响的范围和大小 服务的客户群和客户数量 业务的时间敏感性 服务的重要性 业务中断的财务损失 业务可替代性 业务之间的依赖关系 业务数据的重要性,中启
19、航国际教育学院,业务影响分析-确定关键业务功能运作的最小资源需求,基础设施 最简易的办公场所需求是什么? 技术设施 支持业务处理的计算机系统,包括硬件和软件? 如果关键应用系统不可用,业务部门如何持续其功能? 哪些参数、规则或处理流程在系统宕机时必须限制泄露? 主要设备 所需的通讯设备,比如:电话、传真设备、数据传输设备? 使用哪些设备,如何使用?,人力资源 最少的人员需求是多少? 那些经过培训并能执行多于一个业务单元的员工能否替代其他关键员工? 文档和资料 需要哪些操作手册、业务手册? 每个业务单元需要哪些特殊表格和关键记录/资料?,中启航国际教育学院,第三阶段:规划设计阶段,规划设计主要工
20、作: 灾备策略制定 技术方案选择 成本效益分析 几个重要原则 风险成本平衡原则 技术手段可实现性 合适的原则 灾难备份资源容易获取,中启航国际教育学院,灾备策略规划 识别现有恢复能力与灾难恢复目标间的差距 制定灾难恢复建设路线图(短、中、长期建设策略) 灾难恢复范围与各业务的灾难恢复等级 灾难恢复资源和服务的获取方式 资源和服务包括:基础设施、数据备份系统、备用数据处理系统、备用网络系统、灾难恢复预案咨询服务、技术支持服务、运营管理服务 估算各种解决方案的投资成本与效益 设计撰写灾难恢复策略规划报告,第三阶段:规划设计阶段(1)-灾备策略规划,中启航国际教育学院,第三阶段:规划设计阶段(1)-
21、灾备策略规划-BCM规划路线示例图,确定业务的BCM蓝图,中启航国际教育学院,确定灾难恢复等级要求 对支持关键业务功能的信息系统,采取分类的方式,分别确定恢复等级 第一类:或级 第二类:或级 第三类:级以下 等级保护 成本风险平衡原则,确定每项关键业务功能的灾难恢复策略不同的业务功能可能采用不同的灾难恢复策略,第三阶段:规划设计阶段(1)-灾备策略规划,中启航国际教育学院,第三阶段:规划设计阶段(2) -灾备中心布局分析(同城与异地),中启航国际教育学院,数据备份系统 基于磁盘系统的数据备份技术 技术要点: 盘控技术,物理卷级数据复制 对应用透明 同步(异步)数据镜像 技术产品: IBM(PP
22、RC),HDS(True Copy),EMC(SRDF) 基于主机系统的数据备份技术 技术要点: 操作系统级,和系统有关,但对应用系统透明 实现较复杂盘控技术 技术产品: MIMIX(OMS),HACMP,Veritas, 数据库复制技术,备用数据处理系统 同构备份数据处理系统 异构备份数据处理系统 存储异构 平台异构 操作系统异构 数据备份处理系统处理能力规划 全备份 差分备份 增量备份 备用网络系统 利用现有的生产备份网络 新申请通信线路,第三阶段:规划设计阶段(3) -灾备技术方案设计,中启航国际教育学院,第三阶段:规划设计阶段(3) -灾备技术方案选择,远程数据复制方案涉及到如何平衡以
23、下三维的关系:距离:灾难备份中心的距离 速度:生产中心的业务系统响应能力需求 数据完整性:包括一致性,当前性 今天,为了满足某两维因素的要求,通常必须要对另外一方面作出折衷,中启航国际教育学院,灾难恢复资源获取模式: 自建或者外包 国外灾难备份建设模式调查:,调查时间:9.11事件之后 调查样本:美国、英国、澳大利亚、加拿大等国家565个公司 统计数据:71.2%的公司租用或拥有了灾难备份中心其中56%的公司使用了商业化灾难备份服务 资料来源:Global Continuity Inc,第三阶段:规划设计阶段(4)-资源获取方式,外包的收益: 降低成本,更高的服务水平,专业化的服务,分担风险,
24、快速获得灾难恢复能力. 有利于集中精力于核心业务,中启航国际教育学院,依据成本效益原则,确定灾难恢复资源获取方式和建设模式,第三阶段:规划设计阶段(4)-资源获取方式,中启航国际教育学院,依据成本效益原则,确定灾难恢复资源获取方式和建设模式,第三阶段:规划设计阶段(4)-资源获取方式,中启航国际教育学院,灾难备份中心准备 灾难恢复系统建立 灾难恢复预案开发 灾难恢复系统首次演练,第四阶段:建立阶段,中启航国际教育学院,灾难备份中心的选择: 考察要点(同城/异地): 灾难备份中心的选址 距离 规模,基础设施 与数据中心的差异性 差异性愈大,可抵御的灾难种类愈多 差异性在很大程度上通过距离来体现
25、关联要素: 防范的风险 恢复时间目标 数据复制方式 通信网络, 预算,第四阶段:建立阶段(1)-灾难备份中心准备,中启航国际教育学院,第四阶段:建立阶段(1)-灾难备份中心准备,中启航国际教育学院,灾备中心的类型和定义,冷站(Cold Sites)通常包含用于支持IT系统的足够空间和基础设施(电力,电信连接和环境控制)。此空间应有抬升地板和其他用于IT操作的设施。此站点并不包含IT设备并且通常不包含办公自动化设备,例如:电话、传真机或复印机。组织机构使用冷站负责提供和安装必要的设备和通信能力。 温站(Warm Sites) 是有部分装备的包含部分或所有系统硬件、软件、电信和电源的办公空间。温站
26、维持于一个运行维护状态以接受重定位的系统。此站点在接受系统和恢复人员前需要进行一些准备。在很多情况下,温站用作其他系统或功能的正常操作设施,当持续性计划启动事件发生后,其正常行动将临时替换以容纳被中断的系统。 热站(Hot Sites)是有足够空间大小以支持系统要求和配备了必要的系统硬件、支持基础设施和支持人员的办公空间。热站通常配备了1周7天、每天24小时24*7的人员。热战人员在接到持续性计划启动通知后,开始立即准备系统的到达。,双边互助协议?,中启航国际教育学院,灾备中心选择比较,中启航国际教育学院,第四阶段:建立阶段(2)-灾难备份系统构建,产品选型 性能/扩展 技术先进性与技术成熟度
27、的考虑 切换和维护复杂度 成本 测试 集成实施,中启航国际教育学院,第四阶段:建立阶段(3):灾难恢复预案的开发,灾难恢复预案的定义 定义信息系统灾难恢复过程中所需的任务、行动、数据和资源的文件,用于指导相关人员在预定的灾难恢复目标内恢复信息系统支持的关键业务功能。(From:重要信息系统恢复指南) 意义 规范灾难应对的处理流程,减轻/降低灾难时的混乱状况 指导恢复操作,缩短恢复时间 最小化决策量,降低决策风险 灾难恢复能力测试及演练的标准和依据 增强抵御灾难的能力,提高企业的安全感,中启航国际教育学院,灾难恢复预案主要内容: 灾难恢复的目标和范围 灾难恢复的组织架构 灾难预警处理流程 人员疏
28、散计划 损害评估流程 灾难决策流程 灾难宣告流程 灾难恢复处理流程 灾后回退处理流程 计划内备份系统切换处理流程 人员联系清单等相关信息资料,第四阶段:建立阶段(3):灾难恢复预案的开发,中启航国际教育学院,灾难恢复总体典型流程,第四阶段:建立阶段(3):灾难恢复预案的开发,中启航国际教育学院,预案开发要点1-事件的响应和升级,事件的分级响应 引起注意:灾难尚未发生,但需提醒大家密切注意事态发展,要求相关响应小组做好准备。通常使用蓝色信号(IV级) 报警监控:灾难可能会发生,要求大家做好准备,相关响应小组进行处理。通常使用黄色信号(III级) 部分启动:宣布灾难发生,启动部分计划,动员部分人员
29、参与。通常使用橙色信号(II级) 全部启动:启动全部计划,动员全体人员参与通常使用红色信号(I级) 监控事态发展,逐步升级响应 避免反应迟钝或反应过度,中启航国际教育学院,预案开发要点2-响应流程和要素,流程 遵循6R模型 响应要素 每个阶段都需要制定计划,包括必须采取的行动(Do),谁负责(Duty)这些行动,需要什么资源(Resource)。Who must do something by using the resources to accomplish the goal!,中启航国际教育学院,第五阶段:持续运营管理,中启航国际教育学院,制度流程与服务管理 服务质量管理、问题管理、变更管
30、理、安全管理服务,日常管理:环境监控系统监控日常备份操作 专业服务:基准管理服务系统测试支持服务子系统验证服务系统演练服务灾难恢复预案维护服务,应急响应 系统切换 网络切换 业务恢复,设施保障 技术支持 工作场地提供 后勤保障,重建流程 重建计划 灾后回退 技术支持,高可用性高可靠性高可恢复性,高可用性高可靠性,高可用性高可靠性,高响应度,第五阶段:持续运营管理-运营管理内容,中启航国际教育学院,测试和演练,Desk checking桌面演练 Reviewing the plan for currency计划回顾 Running through scenarios and mock emerg
31、encies特点场景演练 Remote operations testing远程操作测试 Switching to the mirror system or site镜像站点切换 Testing by departments or business process groups业务演练,案例分析,中启航国际教育学院,公司概况 联运是一家全国性私营物流公司 成立于1992年,2004年以来通过合营、兼并,发展成为一家大型的全国性物流企业 2009年董事会决定制定BCP,以提高企业应对灾难并快速恢复业务运行的能力 工作场地 公司总部位于上海浦东开发区的工业园区,占有1万平米的工作场所(包括办公区和
32、生产厂房) 办公区(占有3个楼层)包括:各部门办公室、客服中心、IT数据中心 货运部占有一幢1层楼的厂房,包括:货物收发、分拣装箱、仓储、运输等,联运公司情况简介,中启航国际教育学院,货物配送生产流程,中启航国际教育学院,公司组织结构,管理层,市场销售部,财务管理部,人力资源部,公共关系部,行政后勤部,生产管理部,IT管理部,场地及设施 管理部,安全及卫生 管理部,后勤保障部,配送管理 中心,货运部,客服中心,设施及设备 维护部,运行维护部,应用研发部,中启航国际教育学院,BC指导委员会 危机管理小组 (SC/CMT),货运小组,IT运维小组,配送管理小组,客服小组,行政后勤小组,BC服务商,BC组织结构,中启航国际教育学院,关键业务的互依赖性,中启航国际教育学院,关键业务的RTO,中启航国际教育学院,后备集散地 (HUB),BC服务商提供: 后备业务恢复中心 客服中心 (与浦东主客服中心互备),公司总部 IT 数据中心 主客服中心主集散地 (HUB),BC 服务商提供IT灾备中心,南京,苏州,上海浦东开发区,业务持续策略,坚韧不拔、追求卓越,Thank You !,