1、 概述:备份和容灾一体化解决方案备份与容灾一体化的意义1. 可防范所有灾难,是各类灾备体系中唯一的全部灾难防御技术历康推荐的备份和容灾一体化解决方案可以帮助客户防范所有灾难,没有任何死角。该备份和容灾方案是业界唯一可以防范所有灾难的解决方案,而常规的各类灾备技术只能防御部分灾难(被称为局部防御体系,例如数据丢失一般不在防御范围之内),不具备 灾难防范的全面性,往往会造成有了灾备系统长时间无法恢复,甚至无法恢复数据的局面2. 可以瞬时恢复到任意历史轨迹历康推荐的备份和容灾一体化解决方案可以将数据恢复到任意历史轨迹(秒级和 I/O 级),并且恢复的过程可在瞬间完成(instant recovery
2、),完全不同于传统体系的 restore 回存恢复机制,在恢复的速度上以及恢复到任何时间点的能力上均产生了不可比拟的飞跃。 该备份和容灾方案备份的数据立即可用,无需各类备份技术冗长的数据回滚过程(restore);该备份和容灾方案这种瞬时恢复任意历史轨迹的技术在业界是绝无仅有的3. 可实现分层次恢复,大部分灾难在本地即刻恢复,无需启动异地灾备系统历康推荐的备份和容灾一体化解决方案可以实现本地恢复和异地恢复的分层恢复体系,而大部分灾难 在本地即刻恢复(如数据丢失或磁盘阵列损坏等),不用“惊动”异地灾备系统,这种体系的恢复效率和减少灾难造成的影响的能力令各类传统的灾备技术黯然失色。 该备份和容灾方
3、案这种分层次恢复的能力可以准确定位应对灾难的解决方案,做到快速有效的恢复4. 精简复制功能 - - 带有独特的带宽优化技术,在窄带环境下实现异地灾备该方案的精简复制功能带有独特的带宽优化技术(Microscan),是存储设备级灾备技术占用带宽的 1/50,是常规灾备技术占用 带宽的 1/6,在窄带环境下轻松实现异地灾备,可为客户节约大量带宽方面的投资5. 磁盘故障,无需停机,瞬时接管当客户生产存储发生故障时,该备份和容灾系统可以自动瞬时接管业务,数据库和应用不停顿照常提供服务;这个功能可以充分保证客户的业务连续性,实现存储层面的冗余,大幅提高系统可靠性章 1 章 方案实施实例1.1 系统原状和
4、需求客户的系统原状为: SAP 数据库服务器:AIX 系统双机, Oracle 数据库和应用,主机 为 IBM P590和 IBM P570,外挂 DS6800/DS4800 阵列,容量为 5T ,两存储阵列用操作系统 LVM 做的 Mirror。客户生产系统的主机配置为双机模式,针对以上描述的系统现状,客户对连续数据保护和容灾的需求可概括为以下几点:1. 总的原则是:无论发生任何灾难都要在最短的时间内恢复业务,并且实现最小的数据丢失;2. 采用的数据保护和容灾系统要经过严格的市场检验,在市场上要有多个长时间运行稳定的成功案例;3. 为了防止各种逻辑灾难(如人为误删除等),需要有多个历史版本作
5、为备份,并且历史版本要与生产系统的数据格式相同,这样才能做到瞬时恢复;为了提高恢复的可靠性,历史版本要提前验证,不能直接覆盖生产卷。4. 对于站点级别的灾难,数据丢失量(RPO )和恢复业务时间(RTO)是重要考核指标,根据客户业务系统的重要性, RPO 和 RTO 都 应该不高于 10 分钟;5. 考虑到客户生产系统的重要性,实施容灾系统的停机时间越短越好,所以该容灾技术必须是在数据库或应用打开的情况下做初始数据同步,这样可以大大缩短停机时间;6. 要求容灾解决方案必须具备带宽优化技术,这样才能在窄带环境下进行数据传输,实现异地灾备;7. 从生产端到灾备端的数据复制,必须要有一致性保证机制,
6、使得灾备端的数据可用,接管业务时可以瞬间打开数据库或应用系统;8. Internet 上的波动是常见现象,所以异地容灾技术必须要有断点续传的功能,保证网络在较长时间中断的情况下不溢出,恢复网络后是增量传输;9. 为了规避实施风险,数据保护和容灾系统不应该对原有生产系统做任何改动,包括结构和底层卷管理等。10. 为了节约管理成本,数据保护和容灾系统应该集成在一个管理界面中,并且可以实时监控状态。11. 为了满足系统的扩展性,该数据保护和容灾系统必须具备开放性,兼容所有第三方主流存储以及前端应用主机的操作系统;1.2 历康推荐的备份和容灾一体化解决方案历康推荐备份和容灾方案的框架是:1. 在客户的
7、生产系统中部署备份和容灾方案服务器,用于实现生产数据的实时镜像和多点快照(快照用于历史数据的瞬间恢复);2. 部署在客户生产中心的备份和容灾方案配置 255 份历史快照,保留 255 份生产数据的历史版本。利用多达 255 个快照实现各种逻辑错误的瞬间恢复;3. 生产中心的备份容灾保护系统将数据复制到灾备中心备份容灾保护系统,实现备份容灾保护系统的异地复制,从而将本地保护的范围扩大到各类自然灾害级别的异地保护。该备份和容灾方案的复制技术有独特的优势:如优化带宽,压缩,加密和数据一致性保证等;1.3 该方案技术实现的灾备目标本次数据保护和容灾系统要实现的目标有: 实时镜像备份,无备份窗口这一特征
8、使得该备份和容灾方案方案彻底不同于传统的备份技术,备份技术所困扰人们的长备份窗口和按天进行备份的弱点将不再存在。 备份数据立即可用由于该备份和容灾方案实时镜像备份技术所获取的数据影像不是专用的备份格式,而是直接的数据原型,因此数据的恢复将是立即可用,无需任何恢复窗口,这在恢复技术上已经产 生了一个大的飞跃。 多点快照,无需 1 分钟历史数据轻松获取该备份和容灾方案保护技术既是一种灾难发生时保护最新数据的灾难备份技术,也是一种历史数据丢 失时恢复原有数据的备份技术,由于自动产生数据的多个时间点保存,因此即使 丢失的数据已经过了几天,你仍然可以轻松实现 1 分钟获取正确的历史数据的能力。 任何 I
9、O 的历史轨迹恢复在系统发生逻辑灾难(例如数据丢失时),该备份和容灾方案技术能够提供颗粒度达到 IO 的历史轨迹恢复能力,追溯 历史随心所欲,使灾难防御能力达到空前的高度。 一致性保证该备份和容灾方案在本地连续数据保护和异地容灾两个层面都提供数据一致性机制,保证复制到灾备 端系统的数据立即可用(如瞬时打开数据库等)。 先进的精简带宽复制技术保证异地容灾的实现该备份和容灾方案的复制技术可以在窄带环境下实现连续的数据传输,独特的基于扇区的检测和传输可以大大的节省带宽;复制过程中保证数据的一致性,灾备端可以瞬时打开数据库或启动应用。 实现系统故障后的分层次快速恢复能力在本地生产端建立一套完整的自动化
10、数据实时备份机制,每时每刻随时完成本地端及异地端数据备份。避免因发生天灾人祸后的数据丢失,导致营运系统停止运行,严重影响到企业 的服务质量。 实现灵活和方便的实时备份机制,管理简单能够对实时备份系统进行灵活的集中管理,需要提供良好的操作使用界面、事件告警、与工作流程的管理等,将复杂的企业数据保 护工作化繁为简,避免人为的疏忽,降低维护人员的工作量。总之, 该备份和容灾方案技术的设计思想是彻底摆脱传统备份方式的弱点,实现系统数据的实时和超高速恢复能力,使得信息系统获得前所未有的健壮性。章 2 章 详细设计在本章中先介绍本次方案的整体架构,根据架构介绍连续数据保护的原理,最后详细说明各种灾难下的恢
11、复方法。2.1 数据保护和容灾系统总体架构本次客户该备份和容灾方案总体架构如下图所示:历康公司本次所推荐给客户的连续数据保护和容灾方案,是专为客户设计的一套行之有效的,集磁盘镜 像、数据 连续保护和备 份、 远程容灾于一体的综合容灾解决方案。其基本架构为: 在客户生产中心和灾备中心各部署 1 台该备份和容灾方案服务器,接入到以太网和 SAN 网络中,通 过 FC 协议进行数据保护,通过以太网进行管理。保护数据的方法是将生产数据镜像到备份容灾系统服务器中。 在生产中心,将该备份和容灾方案服务器采用旁路的方式接入到 SAN 网络中,不会对现有网络拓扑有任何的更改和影响,而且,数据以镜像的方式备份到
12、备份容灾系统服务器中(图中 A-B 的过程),不影响正常的生产数据。 生产中心的备份容灾系统和灾备中心的备份容灾系统的存储都来自于磁盘阵列或内置硬盘,该备份和容灾方案可以与任何磁盘阵列完美结合。 生产主机共 5TB 数据需要保护,按照高速增 长 要求,并且考虑到备份容灾系统的历史快照空间,存储空间为不小于 10TB 比较 合适,通过同步镜像工具实现数据向备份容灾系统的实时抽取。该备份和容灾方案中配置 Safecache的写加速技术,使得写入访问呈现高速特征 生产中心的备份容灾系统配置 255 份历史快照(TimeMark),实现多历史点保护。 生产中心的备份容灾系统将镜像过来的数据复制到异地灾
13、备中心的备份容灾系统中(图中 B-C 的过程)。灾 备中心的备份容灾系统服务器同样配置255 份快照(TimeMark),实现灾备中心多历史点的保护。这样在生产中心和灾备中心各有 255 份历史快照,使历史数据得到了双重保护。 远程复制采用 TCP/IP 协议,复制策略根据 实际 的数据增量和传输带宽灵活制定。那么利用该备份和容灾方案精简复制技术,可以实现连续传输的模式,将数据丢失量降到最低(有可能实现零丢失)。除了连续模式,该方案的复制策略还包括间隔复制,可以基于时间,也可以基于数据增量。2.2 灾难发生时的接管和恢复本节将详细说明各种灾难发生时,该备份和容灾方案如何对客户环境中的主机(包括
14、数据库和应用系统集群)进行接管和恢复。2.2.1 数据库表级别的丢失或损坏由于误操作或病毒入侵等原因,数据库会出现表的记录丢失或损坏情况。面对这种灾难,需要在主机上挂 载该备份和容灾方案提供的历史快照,该快照包含完整的记录条目。然后再使用数据库命令将丢失或损坏的记录导入到生产数据库中即可。2.2.2 数据库和应用系统的文件丢失或损坏若是数据库文件丢失或损坏这类逻辑错误,可以采用提取历史快照的方法找回历史数据。找到没有丢 失的时间点提取快照,并分配给 Aix 主机,然后在Aix 主机上运行扫描新增磁盘,完成后启动数据库将需要的表或数据库导出,再导入到原来的数据库即可。如果情况十分紧急, 该备 份
15、和容灾方案的快照是可读可写的,可以直接使用该备 份和容灾方案快照磁盘接管业务。2.2.3 数据库和应用系统无法正常启动当数据库或应用系统出现问题无法启动时,可以先使用备份容灾系统中的快照进行接管。方法是将历 史快照提取出来,然后分配给 Aix 主机, Aix 主机上运行扫描新增磁盘,然后启 动数据库或应用即可。2.2.4 生产存储发生故障当生产盘出现故障时,备份容灾系统镜像盘会自动接管业务,数据库系统根本感知不到中断和设备灾难, 实现了 RPO=0 和 RTO=0 的理想。当硬盘恢复时数据会在阵列中自动同步。2.2.5 站点级别的灾难当发生站点级别的灾难时,需要启动灾备中心的业务来接管,方案中
16、将会在容灾中心采用一台 IBM P590 作为 Aix 灾备主机。对于 Aix 系统来说,如果要实现应用级别的灾备备份,需要在灾备中心部署 Aix 灾备主机,数据来自于灾备中心的该备份和容灾方案。整个应用在灾备中心启动的过程非常简单,大幅降低RTO 指标。当生产中心修复后,灾备中心的备份容灾系统能以增量的方式将数据同步回生产中心,轻松实现 Failback。2.3 关键技术和优势该备份和容灾方案技术是一种数据的连续时间点的保护技术,其根本作用是能在故障瞬间完成任何时间点的故障恢复,达到业务的快速连续的作用,从根本上解决传统备份中低恢复能力和非精细时间策略的先天弱点。这种技术的诞生造成了备份领域
17、和灾难恢复领域的一次革命,采用的关键技术包括:2.3.1 精简复制技术(Microscan)在实际灾备系统中,往往异地备份受到带宽的限制。一般而言, 2-4M 的传输带宽必须采用适合窄带的容灾技术(一个典型的 2M 网络,每小时传输的最大字节数仅为 720MB,这还不指 实际数据量),否则,容灾系统会出现数据的阻塞和溢出,根本无法正常工作。该方案的容灾技术就提供了窄带传输的优化技术。一般的基于磁盘阵列等传统灾备技术中,传输单元以块 block 传输为基准,往往小的数据更新,远程传输需要最小 4KB 左右的传输数据(Block 定义)。该方案的容灾技术 replication 模块中,提供了 M
18、icroscan 的微单元传输技术,将传输的最小数据单元缩小到 512 字节(一般的软件级别技术在 1 个 block4096 字节,硬件级别技术在 block16000 字节),可以在极小的带宽传输较大的数据量。该备份和容灾方案复制技术占用的带宽是磁盘阵列容灾技术占用带宽的 1/50,是常规容灾技术占用带宽的 1/6。压缩方式也可以大大减少带宽占用,常规情况也可以达到 4-5 倍的压缩比。所以,如果为广域网上传输数据,容灾数据 传输带宽成本高, 该方案的 Microscan数据复制技术十分符合窄带环境容灾系统的需求,能够在低带宽的链路情况下进行高效的数据复制,为用户节省大量的带宽投资。2.3
19、.2 存储虚拟化技术该备份和容灾方案采用虚拟化存储技术,将后端存储设备进行抽象化统一管理,向服务器层屏蔽存储设备硬件的特殊性,而只保留其统一的逻辑特性,从而实现了存储整合和集中管理等功能。该备份和容灾方案是一套功能全面的企业级存储服务软件,在一个集中化的管理的介面下进行操作。通过管理员可以建立一个全新的存储网络,或 为他们目前的基础架构加入智能功能。2.3.3 多种策略的远程 replication 技术该备份容灾系统提供远程复制选件,这是一个基于多种复制策略的异地传输服务,将数据从生产站点按一定的复制策略复制到远端站点的存储设备中。如果发生灾难或复制的目标盘要使用,备份容灾系统提供了提升(P
20、romote)操作可以将此盘提升出来并中断复制关系以供远程站点的应用服务器访问,同时也可以不中断复制关系的情况用备份容灾系统提供的时间标记(TimeMark)功能将磁盘视图提取出来以供远程站点查询、校对、 审查等操作。备份容灾系统的远程数据复制使管理可以自定义不同的策略来控制复制的过程,利用备份容灾系统存 储管理源服务器内建的快照引擎和备份容灾系统存储管理目标服务器的“ 接收 ”机制,确保复制进程能够在瞬间内真正完成,从而获得最高级别的数据完整性。Replication 复制具有各类可供选择和调整的策略(一般的灾备技术只具备局部策略),因而远程复制具 备了可调整能力和优化策略能力: 基于连续I
21、O的复制CDR 一天中的特定时间。 例如:在每天晚上的12:00开始复制 持续时间间隔。例如:每10分钟复制一次 容量的变化量。例如:新数据超过5MB 就开始复制这几种策略可以单独使用或组合使用,使得为管理员提供了一个非常灵活的策略触发机制,实现数据的保护而不受灾难的影响。2.3.4 多时间点自动快照技术传统未采用连续快照技术的容灾体系,实际上无法解决概率最高的人工错误型的灾难(称为软错误,也称动态 RPO),由于 远 程数据传输将“忠诚”地将数据完整的复制到远方,被毁坏的数据也将被复制到远方,从而导致系统的完全不能运转。因此,备份方案中的“自动连续快照技术”不但满足主存储宕机时数据镜像(即硬
22、错误)的功能需求,同 时也实现了对“软错误”的防范及纠错功能,将对系统的正常运转提供有力保障。备份和容灾系统服务器中,一个重要的功能就是 TimeMark 的多时间点快照技术,使得 贵方的业务系统 能够实现较短时间间隔下的各时间段版本数据的保存。备份和容灾系统能够提供多达每个应用卷 255 个自动快照点的极高水准,即保证每个应用卷在每天都有保存密度为 5 分钟的完全映象或 10 天之内每隔 1 小时就有 1 个完全映象。高密度的映象可保证将系统的 RPO(动态及静态)降到最低范围。一旦发生任何一类 数据丢失的错误, 维护人 员都可以找到最近的版本立即恢复。快照恢复与数据量无关,大数据量提取也只
23、是一分钟的事情。这种快照的机制是利用快照缓存,对于时间点变化之后的数据块,将其原始时间点数据进行保存,一旦需要系统会退到某一时间点,TimeMark 可以立即通过 Time View 的方式将历史点数据的指针提取出来,从而实现历史数据的瞬间映射和恢复机制。TimeMark 的快照机制在容灾备份体系中,可以轻松、快速地实现数据库数据、文件数据、系统数据等时间点的即刻恢复,保障数据提取和分析、查询等功能应用。在“自动连续 快照技术” 的保 护下,快速恢复当前及历史数据已经不再是难事。这样的高效备份和恢复技术是容灾备份解决方案的独到之处。2.3.5 连续 I/O 记录技术(Journal)该备份和容
24、灾方案连续 I/O 记录技术可以将数据恢复到任意历史轨迹(秒级和 I/O 级均可)。启用 Journal 功能后, 该备份和容灾方案会单独在磁盘上开辟一个区域,用于记录生产卷每一个历史 I/O。恢复 时,通过“拉杆”可将数据恢复到任意历史点,并且该历史点数据可单独进行查询,不影响生产卷的状态。2.3.6 数据一致性保证技术数据库系统在进行远程复制时,具有一定的特殊性。传统的存储设备的远程复制技术, 实现的是磁盘所存 储的数据的远程同步,而某些时候数据库系统并未能实时刷新到磁盘体系上(数据库采用了缓存机制确保交易的性能,向数据文件的写入往往会比缓存的写入略有滞后),这样远程的数据库系统在启动时,
25、往往需要通过日志的重演来进行数据库的恢复,这样由于一致性的问题有可能导致数据库立即启动能力的缺失,使得灾难发生时的快速恢复目标完全无法实现。软件的远程复制技术中,采用了能够感知数据库系统的 DBagent 代理技术,能够在指定的快照点和复制点产生数据库的校验点刷新,从而确保数据库日志与数据文件的一致性,实现快速启 动数据库的目标。 这种针对 数据库系统的解决方案使得灾备体系真正与应用的数据库体系结合起来。2.3.7 读/写优化技术该备份和容灾方案具备高速写入技术 SafeCache。 SafeCache 功能可以全面提高该备份和容灾方案管理的磁盘写性能。当磁盘性能无法满足主机的 I/O 需求时
26、,使用 SafeCache 配合高速磁盘设备可以明显改善整体性能。SafeCache 的原理是:将高速磁盘设备置于“前端” ,生 产数据可以先顺序的写入到高速磁盘设备中,然后按照 SafeCache 设置的策略,将 Cache 中的数据再随机写入到后端存储中。该备份和容灾方案也具备高速读出技术 HotZone。 HotZone 功能可以全面提高该备份和容灾方案管理的磁盘读性能。使用 HotZone 时,该备份和容灾方案会将磁盘划分为容量相等的多个区域,然后监控哪些区域经常会被读到,随之将该区域的数据块映射到高速磁盘中,这样就会提高应用主机读取磁盘的速度。如果该备份和容灾方案监控到某些区域不再被经常读到,那么会将该区域移出高速磁盘。2.4 推荐配置本次客户 SAP 系统该备份和容灾方案连续数据保 护和异地灾备系统建设的推荐配置如下表所示:安装地 设备配置生产中心 该备份和容灾方案服务器一套(含数据中心管理器及全部配套设备)该备份和容灾方案服务器一套(含数据中心管理器及全部配套设备)灾备中心IBM POWER 590 小型机一台