1、灾难备份系统建设,美创科技 2008-09,容灾系统和业务连续性讨论,灾难的定义讨论,灾难(Disaster)当需要的数据或者服务超过预定义的时间而无法提供的时候,我们定义为灾难。灾难是一个动态描述,不同行业不同公司对于灾难的看法很不一样。即使同样的灾难在不同的时间发生也会发生完全不同的效果。,据IDC的统计数字表明,美国在2000年以前的10年间发生过灾难的公司中,有55%当时倒闭。剩下的45%中,因为数据丢失,有29%也在两年之内倒 闭,生存下来的仅占16%。国际调查机构Gartner Group的数据表明,在由于经历大型灾难而导致系统停运的公司中,有2/5再也没有恢复运营,剩下的公司中也
2、有1/3在两年内破产。德国德克萨斯州大学的调查显示:“只有6%的公司可以在数据丢失后生存下来,43%的公司会彻底关门,51%的公司会在两年之内消失。”,另一份针对这一课题的研究报告也显示:在灾难之后,如果无法在14天内恢复信息作业,有75%的公司业务会完全停顿,43%的公司再也无法重新开业,20%的企业在两年之内被迫宣告破产。 美国明尼苏达大学的研究也表明,在遭遇灾难的同时又没有灾难恢复计划的企业中,将有超过60%在两到三年后退出市场。而随着企业对数据处理依赖程度的递增,此比例还有上升的趋势。,数据丢失的原因组成,- The Disaster Recovery Journal 2001,业务终
3、止服务的构成,Planned Downtime,Unplanned Downtime,Data Maintenance,System Maintenance,Human Error,Data Failure and Disaster,System Failure,实际发生着的灾难恢复计划,接受调查的企业中,三分之一的企业在过去一年由于各种原因实施了灾难恢复计划,其中,36%的企业是因为硬件和软件故障,28%的企业是因为外部安全威 胁,26%的企业是因为停电或电力故障,23%的企业是因为自然灾害,23%的企业是因为IT故障管理,22%的企业是因为数据泄露或丢失,21%的企业 是因为意外事故或员工
4、恶意行为。资料来源:赛门铁克 2008年第四次灾难恢复调查报告,数据或者业务终止时间,RPO或者RTO,谁更加重要?每个行业具有不同的定义,基本不具有理想的窗口说法。在强调持续服务的背景之下,RPO的重要性逐渐提高。,容灾系统建设的历史变化,9.11之前,9.11之前很少有容灾系统的存在,虽然大量的调查发现容灾系统需要构建。,9.11事件,9.11事件在容灾发展史具有重要地位,尤其是摩根等金融巨头通过容灾逃过一劫激发了容灾系统建设的热情。 漂移的办公室成为热门话题。 容灾上投资表现为没有节制。,9.11的远去,随着9.11逐渐远去,IT需要容灾系统已经成为业界的基本共识。 但是随着9.11的远
5、去也带走了容灾系统建设的巨大投资热情。人们开始审视容灾系统的投资汇报率。 真是基于此考虑,很多建设好的容灾系统被拆除,设备被挪用到更加有需要的地方。 够用的合适的容灾系统逐渐成为人们考虑容灾系统的主要思路。,Active Disaster Site,如何提高容灾系统的投资汇报率,甚至成为容灾系统的最重要指标之一存在。Active Disaster Site成为业界普遍考虑的问题。,有限业务支持,为了降低容灾系统建设投资,业务级别分类和有限业务支持被广泛应用。通过建立一个核心业务的容灾系统而非全业务的容灾系统是目前容灾系统建设的普遍性需求。,IP网络和Internet支持,IP网络的使用是降低容
6、灾系统建设的主要手段之一。同样Internet也是冗余访问链路的最主要方式。,容灾系统的关键性指标,基于投资回报率的关键性指标,灾难复杂性和完整性(灾难覆盖性) RPO RTO 端对端的业务连续性(端对端RTO)*在满足以上指标之后:Active Disaster Site,灾难决策的复杂性,确保灾难系统可用 确保灾难备份系统可以满足当前灾难环境和灾难分析类型 确定灾难系统的覆盖范围是灾难系统建设最重要的决策,甚至在确定RPO和RTO之前 我们应该在事先而不是在灾难发生之后再来判断是否灾难备份适用性。,灾难分析方式,业务分析方式,风险的质变过程,无论是RPO还是RTO,都存在着一个从量变到质变
7、的过程,必然存在着一个风险跳跃点。 在业务风险分析以及确定RPO和RTO之前必须确定可能的风险跳跃点,并且使RPO和RTO远离风险跳跃点。,有限业务支持,在绝大部分情况下,灾难情况下的有限业务支持可以得到目标群体的谅解,从而通过有限业务支持来大幅度的降低灾难备份成本。,灾难备份的关键性指标,灾难覆盖性(完整性) RPO RTO 端对端业务连续性(端对端的RTO) Active Disaster Site,关键性指标的管理策略,灾难备份的完整性,灾难类型列表 灾难类型支持方式和程度新发现灾难的适用性以及补救措施灾难类型描述决定容灾站点的距离,容灾系统(站点)距离,容灾系统(站点)距离完全由灾难类
8、型分析和灾难备份完整性确定。2KM,10KM,50KM,100KM或者1000KM,3000KM等等距离是容灾系统设计和选择的决定性因素之一。,RPO约束性定义,业务数据分类核心数据的RPO 关键数据的RPO 次要数据的RPORPO的满足实现方式 RPO指标的优先级别,RTO时间算法:灾难发生开始计算确定灾难开始计算下达灾难切换决策开始计算IT单元结束切换终止计算业务单元对外营业终止计算 RTO主要包含的时间诊断时间决策时间切换时间宣布时间,Oracle系统容灾的特殊性,Write Ordering,Oracle数据库容灾系统必须遵循Write Ordering以支持Oracle系统的灾难端可
9、用。Prod:Write A,Write B,Write CDisasterWrite A,Write B,Write C,Log Ahead,Oracle数据库必须遵循Log Ahead协议,在任何更新写到数据文件之前必须先写到Online Redo Log文件,容灾系统解决方案,Oracle容灾的两条道路,Oracle容灾的两条道路,Oracle Online Redo Log SyncAll Oracle File Sync,Oracle Online Redo Log Sync,Oracle Online Redo Log包含数据库的所有变化,可以通过对于Oracle Online R
10、edo Log的重新处理来获得数据的完全同步和零数据丢失。Oracle Online Redo Log以及对于Physical Recover机制是Oracle数据库可用性的核心基础所在,Oracle容灾特殊性的满足,Oracle Online Redo Log Sync自然满足关于Write Ordering和Log Ahead协议的满足,从而可以很好的作用在Oracle数据库容灾系统之中。,All Oracle File Sync,All Oracle File Sync类似于本地镜象,通过数据库全复制的方式来进行数据同步。,存储系统,服务器系统,Host Based Mirror通过主机
11、之上的软件进行数据同步镜象,Data Mirror Sync,存储系统,服务器系统,Data Mirror Sync,Array Based Mirror通过存储系统之间数据同步镜象,两种技术路线的区别和共同点,体系结构Log Sync:松散偶合体系结构All Files Sync:紧偶合体系结构 网络带宽需求Log Sync:低All Files Sync:高相同点:本质上都是对所对应的数据提供镜象服务Log Sync只是All Files Sync的一个子集合,网络传输技术,SAN Dark Fiber WDM FCIP,网络传输技术,SAN传输技术SAN传输效率依赖传输技术和距离,效率差
12、异很大。IP传输技术由于高延时的不可避免,基于IP网络的完全同步几乎不可实现。,SAN传输技术,短距离传输 Dark Fiber WDM长距离传输 IP网络FCIPiSCSI,距离和性能,距离和性能的关系极其密切,在不同的距离中,SAN网络必须进行不同设计,不同的长距离SAN组网技术,容灾系统的三个作用位,数据访问和更新通道,作用位:Host Server,作用位:SAN Switch,作用位:Disk Array,典型的业务系统分布式环境,App Server,DB Server,App Server,App Server没有SAN交换机,也没有存储系统关联,镜象或者复制,镜象或者复制是实现
13、容灾的基本方式 镜象可以在Host Server,SAN Switch以及Disk Array上发生App Server只能依赖在Host Based之上的解决方案实现镜象或者复制因为其同步的关系,对于业务系统的影响可能会非常巨大,依赖于节点之间的传输距离和传输技术,Global Mirror or Remote Mirror,Host Based Sync Solution,数据访问和更新通道,作用位:Host Server,作用位:SAN Switch,作用位:Disk Array,Host Based Solution,LVM Mirror Remote Mirror Log Sync,
14、LVM Mirror,LVM Mirror采用主机卷管理器软件实现镜象,几乎和日常采用卷管理器实现的镜象没有任何区别。HP/IBM/Veritas/Oracle 几乎所有提供卷管理器的厂家都提供卷LV镜象能力。,LVM Mirror,DB Server,DB Server,LVM Mirror在Prod和Disaster之间形成镜象,Active/Active配置,LVM的核心技术要点,通过SAN扩展在距离上的延伸完全和本地镜象相同实现,具有和本地镜象同样的优点和缺点。 某些卷管理器具有本地访问能力,从而使Active Disaster Site具有高利用能力,同时性能影响最低化 很容易和Cl
15、uster集群软件结合 熟悉的技术,熟悉的管理 只能作用在同步方式或者快照方式。 距离相对有限制,一般只能作用在100KM以内,LVM Mirror对于关键性指标的满足,灾难备份完整性可以很好的完成物理硬件级别的失败,对于其他失败:软件失败,逻辑腐败,误操作和入侵无法完成保护。对于自然灾害和电力故障要依赖于灾难场景,无法控制和预测。 RPO完全和生产系统的同步,没有任何延迟 RTO对于物理部件的失败,不需要任何业务终止时间。对于站点级别失败,仅仅需要重新启动对应的服务即可。 Active Disaster Site物理卷在灾难节点处于可见状态,如果有适当的软件利用,可以很好的达成灾难节点的利用
16、。,LVM Mirror的主要厂商,几乎所有的LVM厂商都提供了LVM Mirror能力,包括:IBM,HP,Sun,Veritas,Oracle等。 小型机厂商和Oracle都免费提供LVM mirror软件。,Remote Mirror,基于主机软件的Remote Mirror实现,一般采用卷管理器实现,比如Veritas VVR以及类似的产品,Remote Mirror,DB Server,DB Server,Remote Mirror构成镜象组,镜象之间以Active/passive方式存在,LVM & VVR,LVM & VVR,IP 网络,Remote Mirror核心技术要点,R
17、emote Mirror是本地镜象在距离上的延伸 Remote Mirror可以运行在同步和异步方式 和LVM Mirror不同,Remote Mirror在Disaster Site中设备不可见,Remote Mirror对于关键指标点的满足,Remote Mirror除了是一个具有主备关系以外,集合和LVM mirror没有任何差别。但是相关容灾指标要比较LVM Mirror要差很多。 灾难备份完备性和LVM mirror完全相同,只能防止物理部件的失败。 RPO和LVM mirror完全相同,同步方式保障和Prod系统完全同步 RTO由于Remote mirror的主备机制,无法在线激活
18、。一般基于主机软件级别的Remote Mirror产品RTO在30分钟以内 Active Disaster Site 由于Remote Mirror的设备处于不可用状态,Active Disaster Site无法实现或者需要借助于其他软件才可能实现。,Remote Mirror的最佳实践,All Oracle Files必须存储在一个卷组之内以支持Oracle Write Ordering和Log Ahead协议 卷组配置需要配置限额以支持在50%的磁盘失败之后系统可以正常运行 配置足够大的Oracle Cache以降低压力,特别是在长距离传输中 Oracle临时表空间不要配置在复制卷中 避
19、免Direct Load操作,长距离Remote mirror的同步实现,在站点距离超过100KM以上,一般无法实现同步传输或者同步传输成本非常高昂 通过将Log sync从Remote Mirror中分离出来降低网络传输需求带宽以实现同步方式传输 Oracle Online Redo Log:Remote Mirror Sync Other Oracle Files:Remote Mirror async Large Oracle Buffer cache Temp Tablespace No Syncd,Log Sync,Oracle日志同步作用于Oracle数据库。主要包括:Oracle
20、 RFS processOracle Multi LogMemberTrust Online Redo Log CopyLVM Mirror和Remote Mirror都可以作用在Log Sync中。,Oracle RFS Process,Oracle通过lgwr进程同步写本地和远程来完成复制Oracle Online Redo Log Lgwr进程数据被Oracle RFS进程所接收,并且在Disaster Site写入Standby Online Redo Log,lgwr在确认rfs完成写之后把控制权返回给lgwr,Oracle RFS的核心技术点,Oracle RFS采用Oracle
21、SQL*Net实现,基于IP网络实现 可以运行在同步和异步两种方式 10ms延迟的网络可以很好的作用于中等规模的同步方式,Oracle RFS对于关键指标点的满足,灾难备份完整性可以解决物理失败,除了Online Redo Log腐败以外逻辑失败,对于误操作和入侵需要另外支持。 RPO完全同步的Online Redo Log保障实现和生产系统数据完全同步 RTO最佳实践指导的Oracle RFS可以实现5分钟以内的RTO,在自动切换支持下甚至可以达到1分钟以内 Active Disaster Site11g提供完全的Active Disaster Site能力11g以下提供基于时间点的Acti
22、ve Disaster Site能力由于文件处于可用状态,可以通过软件开发来实现完全的Active Disaster Site能力,Oracle Multi LogMember,Oracle Multi Member通过异步IO同时写多个Oracle Online Redo LogFilesOracle MultiMember Logfile是Oracle最基础的可用性措施,在扩展的SAN网络中可以替代Oracle RFS process作为Online Redo Log的Remote Mirror实现,LGWR,Primary database transactions,Prod Onlin
23、e Redo Log,Prod Dual Online Redo Log,Oracle Multi Member的核心技术点,采用异步IO实现,和Remote mirror的实现方式完全不同 基于存储网络实现,无法作用在IP网络中 只能运行在同步方式 不同于remote mirror,Oracle multi Logmember允许Log Member中的局部成员物理失败和逻辑失败 由于允许失败Log Member的存在,Multi Logmember可以Oracle RFS或者Remote Mirror结合起来,也可以和Oracle ARCH RFS结合起来完成完整的方案,Oracle Mu
24、lti LogMember对于关键指标的满足,灾难备份完整性很好的完成对于物理失败和逻辑腐败的满足,对于误操作和入侵,软件失败等需要另外的处理 RPO在没有其他技术结合的情况下,由于允许灾难节点的失败在凑巧的情况下可能会导致部分数据的丢失。 RTORTO和Oracle RFS Process相同 Active Disaster SiteActive Disaster Site能力和oracle Rfs Process相同,Trust Online Redo Log Copy Service,Trust Online Redo Log Copy Service基于IP网络实现。 Trust Co
25、py Service异步方式运行,通过追踪Oracle Online Redo Log变化,把变化部分复制到灾难站点,Primary database transactions,Prod Online Redo Log,LGWR,Trust Copy Service,Disaster Site Online Redo Log,Trust Online RedoLog Copy Service的技术要点,目前只支持异步方式 支持传输加密 克服了Oracle RFS Process的一些缺点,在异步运行情况下是Oracle RFS Process的良好替代品 支持跨平台传输,Trust Onlin
26、e RedoLog Copy Service的关键指标满足,灾难完备性Trust对于灾难备份完整性作了特别处理,可以满足物理失败,逻辑腐败,误操作和入侵,软件失败等各种失败,具有很好的灾难备份完整性 RPO异步方式运行,具有部分数据丢失,丢失数量依赖于配置。 RTO和Oracle RFS相同 Active Disaster Site11g: 提供完全的Active Disaster Site11g以下:由Trust提供完全能力的Active Disaster Site,Disk Array Based Sync Solution,数据访问和更新通道,作用位:Host Server,作用位:SA
27、N Switch,作用位:Disk Array,Disk Array based Solution,Disk Array Based Solution和Host Based Remote Mirror解决方案几乎完全相同,只是把Mirror过程从主机迁移到了磁盘阵列上。 相比较而言,Disk array Based Solution解放了主机CPU资源,同时一般高端磁盘阵列比较LVM具有更好的Mirror性能。 虽然如此,一般情况下Mirror性能取决于网络而不是取决于何种Mirror方式,Disk Array based Mirror,几乎所有中高端存储厂商都提供了基于磁盘的复制能力或者远程
28、镜象能力。 IBM,HP,HDS,EMC等等一般来说在高端磁盘阵列中相对方案比较成熟,同时具有比较良好的性能。,Disk based Remote Mirror,DB Server,DB Server,SRDF,EMC Symmtrix/DMX,EMC Symmtrix/DMX,EMC SRDF实现在EMC DMX/Symmtrix磁盘之间的同步,传输网络,Dark Fiber DWMDWM设备需要通过存储厂商认证,距离限制和同步方式,一般来说,Remote Mirror缺乏对于超过60KM的同步支持,在超过60KM时候一般建议运行在异步方式,本地和远程灾难节点,为了同时满足零数据丢失和远距离
29、容灾的约束,很多用户采用双容灾中心的方式来达成容灾目标。,DB Server,DB Server,SRDF SYNC,EMC Symmtrix/DMX,EMC Symmtrix/DMX,SRDF ASYNC,EMC Symmtrix/DMX,同城容灾中心,异地容灾中心,同步异地方式的低成本实现,DB Server,DB Server,EMC Symmtrix/DMX,SRDF ASYNC,EMC Symmtrix/DMX,异地容灾中心,Oracle RFS SYNC,同步异地方式的低成本实现,DB Server,DB Server,EMC Symmtrix/DMX,SRDF ASYNC,EMC
30、 Symmtrix/DMX,异地容灾中心,SRDF SYNC(Online Redo Log),同步异地方式的低成本实现,DB Server,EMC Symmtrix/DMX,SRDF ASYNC,EMC Symmtrix/DMX,异地容灾中心,SRDF SYNC,Oracle Online Redo Log,SRDF ASYNC,Remote Mirror最佳实践,所有Oracle Files必须放在相同的复制组中以满足Write Ordering和Log ahead协议 Large MetaDisk以加快逻辑盘校验和启用过程 Large Oracle Buffer Cache以降低Remo
31、te mirror的性能影响,尤其在链路不是很理想的情况下 临时表空间不要放置到复制组中 避免Direct Load对于复制性能的撞击 灾难节点的磁盘系统需要足够大的写Cache来避免性能损伤 长距离的容灾系统建设需要创造性的应用技术,Remote Mirror的核心技术点,Remote Mirror是本地镜象在距离上的延伸 Remote Mirror可以运行在同步和异步方式 和LVM Mirror不同,Remote Mirror在Disaster Site中设备不可见 Remote mirror基于磁盘组的点对点复制,损坏修复相对比较高的专业技术要求 Disk Array Based Rem
32、ote Mirror需要同平台同系列存储平台的支持,Remote Mirror对于关键指标点的满足,Remote Mirror除了是一个具有主备关系以外,集合和LVM mirror没有任何差别。但是相关容灾指标要比较LVM Mirror要差很多。 灾难备份完备性和LVM mirror完全相同,只能防止物理部件的失败。 RPO和LVM mirror完全相同,同步方式保障和Prod系统完全同步 RTO由于Remote mirror的主备机制,无法在线激活。一般基于主机软件级别的Remote Mirror产品RTO在30分钟以上 Active Disaster Site 由于Remote Mirro
33、r的设备处于不可用状态,Active Disaster Site无法实现或者需要借助于其他软件才可能实现。,SAN Based Sync Solution,数据访问和更新通道,作用位:Host Server,作用位:SAN Switch,作用位:Disk Array,SAN based Mirror的本质,SAN based Mirror的本质就是把卷管理器从Host Server迁移到了SAN交换机中,所以具备Host based Mirror的所有特征。 SAN Based Mirror由于作用于中间层,所以其具有充分的灵活性和柔韧性。 另外由于SAN应用是存储系统最重要的发展方向之一,所
34、以基于SAN交换机的容灾方案应该在未来具有比较广阔的应用。但是存储虚拟化的未来发展方向不明确,选择路径非常多。 SAN Based mirror本质上是一种存储虚拟化技术,大部分由存储虚拟化厂商发展而来。特别一般SAN Based Mirror一般和CDP伴生而来。,带内虚拟化和带外虚拟化,虚拟化道路:带内虚拟化和带外虚拟化带内虚拟化,穿透式,代表厂商为飞康,datacore,IBM SVC等带外虚拟化,旁路式,代表厂商为EMC,LSI(StoreAge)等,主要的解决方案厂商,飞康软件,EMC,IBM,LSI(StoreAge),Cisco等厂商在SAN based Mirror方面具有比较
35、好的应用,但是由于总体上基于SAN交换机的虚拟化部署应用还不是非常成熟,所以实现部署方案不是很多。,IP网络,飞康科技IPStor数据复制,本地站点,远程站点,Oracle,Exchange,SQL,HP,IBM,STK,EMC,XXX,HDS,XXX,SAN,Oracle,Exchange,SQL,SAN,IPStor Server,IPStor Server,带内虚拟化的技术要点,数据首先到达带内设备,然后到达SAN交换机。 为了增强性能,带内设备通常保持很高的Cache,在到达带内设备之后就表示写入完成。 带内设备引入新的处理点,对于性能和可靠性会带来比较大的影响。,Local site
36、,/ A,/ C,/ B,2a. Host splitter,2b. Cisco SANTap,7. Data is written to the Journal volume,Remote site,L. History volume,3. Writes are acknowledged back from the RecoverPoint appliance,5. Data is sequenced, checksummed, compressed, and replicated to the remote RPAs over IP (either asynchronous, or syn
37、chronous and bi-directional),4. Appliance functions FC-IP conversion Replication Data Reduction and compression Monitoring and management,1. Data is “split” and sent to the RecoverPoint appliance in one of two ways,6. Data is received, uncompressed, sequenced, and checksummed,8. Consistent data is d
38、istributed to the remote volumes,RecoverPoint 异地端数据复制处理流程,CRR,带外设备的技术要点,在主机或者SAN智能交换机上安装代理驱动程序,通过代理程序控制路径发送。 带外设备不处理送往目标存储设备的数据流,只是使目标路径多出一条到达带外设备的数据流,类似于实现目标镜象。 带外设备不同于带内设备,通过旁路方式实现。,SAN虚拟化复制的关键指标满足,灾难备份完整性最新的虚拟设备可以完成CDP和CRR,从而可以满足物理部件失败,误操作和入侵等失败,一般情况下无法满足逻辑腐败的恢复。从理论上讲,在CDP支持下,逻辑腐败可以通过不断回滚来克服。 RPO
39、为了支持性能收益,一般虚拟设备确认之后意味着写完成,整个CRR是一个松散偶合的过程。RPO依赖于网络存在事务延迟,一般存在着事物损失。 RTO由于灾备端和Remote Mirror完全不同,为一个对应可读写卷,RTO一般在分钟级别即可。 Active Disaster Site在CDP支持下,可以选择任意一个快照打开进行Active Disaster Site,Physical Recover和Data Guard Physical Recover和Trust DBRA,Physical Recover,Physical Recover是Oracle最为核心的可靠性保障机制。,Physical
40、 Recover,Oracle Datafiles,Oracle ArchiveLog or Online Logfile,Apply,New Oracle Datafiles,Physical Recover,Oracle Datafiles,Oracle Inc Backup,New Oracle Datafiles,Physical Recover & Data Guard,LGWR,Primary database transactions,Online redo logs,ARCO,FAL,RFS,MRP or LSP,Archived redo logs,ARCO,Standby
41、database,Oracle net,Reports,(MRP only),Standby redo logs,Archived redo logs,Backup,Physical Recover & Trust DBRA,Online Redo Log,Archivelog,FastInc Backup,TBM Process(Physical Recover),Oracle datafiles,Flashback Area,Global HA和Global RAC,距离延伸下的HA,在存储网络从SCSI的几米,标准SAN存储网络的200米到现在的10KM100KM区间,传统的HA软件也相
42、应的自动扩展到了10KM100KM的区间。 甚至在Global(IP) HA,比如IBM HACMP/XD,HP Extend Service guard,Veritas Global Cluster Server的支持下可以实现无限制的长距离HA。,Global HA的价值,Global HA的价值主要体现在以下两点: (1)、简化灾难切换操作 (2)、增加投资汇报率,Global HA下的变迁,Local Cluster HA,Global Cluster HA,Primary,Standby,通过Global HA实现把服务器群的一台迁移到容灾中心,Global HA的变迁(LVM Mi
43、rror),Global Cluster HA,HA心跳,通过Global HA在生产中心和容灾中心建立Cluster集群,生产中心,容灾中心,Global HA的变迁(Remote Mirror),Global Cluster HA,HA心跳,通过Global HA在生产中心和容灾中心建立Cluster集群,生产中心,容灾中心,Global RAC,Global RAC是建立在Global HA之上的进一步解决方案,可以最大限度的建立Active Disaster Site。,Global RAC的价值,完全可用的Active Disaster site,不仅仅提供报表等附加功能,而且是全业
44、务的支持。 亚秒级别的灾难切换时间,甚至在TAF支持下可以完成连接不中断,真正实现漂移的办公室(仅仅支持LVM Mirror,Remote Mirror需要完整的切换时间)。,Global RAC的高网络成本,比较LVM mirror和Remote Mirror,Global RAC需要更高的网络成本。 带宽需求:和LVM Mirror/Remote Mirror相同的存储需要带宽(存储网络)。Oracle RAC需要的Cache fusion带宽(IP网络)。,Global RAC拓扑图,Global RAC(LVM Mirror),Global RAC(Remote Mirror),Glo
45、bal RAC的性能,Global RAC支持厂商,HP IBM Sun Veritas Oracle ,Global RAC和Mirror方案的比较,Global RAC基于容灾考虑是建立在Mirror基础之上,Global RAC建议采用LVM Mirror方式实现,所以其灾难保护范畴和Mirror方式相同。 Global RAC提供了全功能的Active Disaster Site能力。 Global RAC提供全自动和亚秒级别的灾难切换能力。 Global RAC需要更高的带宽需求,幸运的是IP网络延迟相对距离而言不是很敏感,每增加100KM,延迟增加1ms左右。 Global RAC
46、只能运行在同步方式。,HA作用于IP网络中,有些HA方案可以作用在IP网络中,并且可能在IP网络中实现LVM镜象。 IBM HACMP/XD,GLVM Veritas Global Cluster ServerHA在IP网络中的作用主要价值在于简化了灾难切换管理。,误操作和入侵的针对性方案,实际发生着的灾难恢复计划,接受调查的企业中,三分之一的企业在过去一年由于各种原因实施了灾难恢复计划,其中,36%的企业是因为硬件和软件故障,28%的企业是因为外部安全威 胁,26%的企业是因为停电或电力故障,23%的企业是因为自然灾害,23%的企业是因为IT故障管理,22%的企业是因为数据泄露或丢失,21%
47、的企业 是因为意外事故或员工恶意行为。资料来源:赛门铁克 2008年第四次灾难恢复调查报告,人工错误类型,误操作 外部入侵 内部攻击 恶意破坏 程序错误 等等所有非硬件非基础软件平台导致的失败,误操作和入侵破坏,Drop Table Drop Partition Drop Tablespace Truncate Table Truncate Partition Update/Insert/Delete Delete files/Update files Program Code delete/update,程序性错误,错误的业务处理逻辑 误操作的业务处理程序,错误传播,人工错误是灾难备份系统问
48、题所在,容灾系统是生产系统的同步复制系统,往往在生产系统产生的人工错误几乎同时或者很快在灾难备份系统进行错误传播。,Global Mirror & Remote mirror,所有的Mirror解决方案都忠实的执行生成系统的操作,并不能进行策略性配置以防止人工错误的发生。 LVM Mirror(传播) Remote Mirror(host,array,san)(传播) Global RAC(传播) Oracle Data Guard realtime apply(传播) Oracle Data Guard delay Apply(延迟传播) Trust DBRA Management Syst
49、em(延迟传播),对抗误操作和入侵的方法,对抗误操作和入侵是CDP保护系统主要工作领域。主要可以从以下方面加以考虑: 灾难节点延迟 误操作防止 误操作事前保留 连续性快照 基于时间点的快照,Split Mirror or Snapshot,Split Mirror或者快照是用来对抗误操作的普遍手段。,Split Mirror,Split Mirror通过镜象分离技术生成一份和生产系统具有一定时间差的系统。 Split Mirror通过在时间差之内发现对应误操作和入侵来完成对于误操作的恢复。 Split Mirror是一份完整的,实际的存储数据,可以被独立用来作为备份或者用户测试等目的。 从Oracle观点来说,Split mirror属于一种Restart Image Copy。,快照,我们一般讲快照是指通过Copy On Write技术来实现的一个基于时间点的一致性影象。快照可以分为连续性快照和基于时间点的快照。 Copy On Write技术被存储厂商,存储软件厂商以及Oracle广泛使用,作为实现其快照的基础技术。,