1、目 录1.概述 .22.阜阳 XX 医院系统面临的挑战 22.1 服务器管理与可用性 .22.2 数据保护和容灾备份 .22.3 出现问题后的恢复 .33.系统建设思路 .33.1 服务器虚拟化 .33.2 数据保护和容灾备份 .33.3 应用管理员应能自行恢复 .44.解决方案 .44.1 整体架构 44.2 虚拟化平台 .64.3 利用虚拟架构提升系统服务质量 .84.3.1 虚拟机热迁移 VMotion .84.3.2 高可用性 VMware HA 84.3.3 动态资源调配平衡 VMware DRS.84.4 利用 RecoverPoint for VMs 实现容灾和数据保护 .94.
2、5 方案效果及优势 .105.设备需求 .111.概述数字化医院是我国现代医疗发展的新趋势。 “数字化医院”是指将先进的网络及数字技术应用于医院及相关医疗工作, 实现医院内部医疗和管理信息的数字化采集、存储、传输及后处理,以及各项业务流程数字化运作的医院信息体系。 “数字化医院”是由数字化医疗设备、计算机网络平台和医院业务软件所组成的三位一体的综合信息系统。数字化医院工程体现了现代信息技术在医疗卫生领域的充分应用,有助于医院实现资源整合、流程优化,降低运行成本,提高服务质量、工作效率和管理水平。 阜阳 XX 医院已经完成核心应用系统软件的选型,即将进入实施阶段,这样,对于院方的服务器、存储系统
3、都将有新的需求;并且为了保证系统的安全运行,需要考虑数据保护和容灾备份方案。2.阜阳 XX 医院系统面临的挑战2.1 服务器管理与可用性传统的服务器部署方式为分散式架构,每个应用独立一台或一组服务器,服务器数量众多,IT 运维人员不仅要对服务器硬件进行维护,还要对操作系统环境、应用进行安装配置、管理和维护,随着应用的增多,维护工作呈上升增长趋势。如何用有限的人员和预算完成 IT 维护的工作,成为 IT 部门必须解决的问题。同时,为了避免服务器成为单点故障,还需要考虑服务器高可用解决方案,每个关键应用服务器都要成对配置,成本高昂。2.2 数据保护和容灾备份世界上最为知名的信息技术分析公司 For
4、rester 曾经对全球 200 余家做了容灾的企业做过调查,76%的企业 IT 主管表示遭遇过灾难或痛苦的业务中断,这些灾难事件分为三大类,包括: 逻辑故障:占比 80%,例如病毒/非法篡改/操作错误/软件 BUG/软件升级或补丁不当/OS、文件系统、应用崩溃等,均有可能或造成数据错误或丢失; 物理故障:占比 12%,例如某个部件或者某台设备故障等,均有可能造成应用停顿或数据丢失; 机房故障:占比 8%,例如供电故障/火灾/雷击/恐怖袭击/自然灾害等,均有可能造成整个数据中心停止服务甚至无法恢复;对于阜阳 XX 医院来说,同样面临着这 3 个问题的困扰,而且这些问题对于医院系统来说都是致命性
5、的,一旦发生,整个医院的业务将变得难以开展,造成巨大的名誉和经济损失,甚至社会责任问题。需要行之有效的数据保护和容灾解决方案。2.3 出现问题后的恢复从医疗行业整体来看,大家热衷于建设数据备份和容灾系统,但是这些系统都需要很强的专业知识才能操作,在出现系统故障时,医院信息中心工作人员根本无法操作,业界也出现过因为操作不当导致更大的系统灾难,而如果需要专业的公司或厂商赶到现场又需要较长的时间,对于医院的业务运行也都造成巨大的影响。在方案选择上要求做到操作简单,在紧急情况下院方工作人员可以做出紧急应对措施。3.系统建设思路针对上述问题,整体建设思路包括:3.1 服务器虚拟化服务器虚拟化技术是医疗行
6、业普遍采用的技术,在虚拟架构中,用户可以把资源看成是专属于他们的,而管理员则可在企业范围内管理和优化整个资源。VMware的虚拟架构可以通过增加效率、灵活性和响应能力来降低 IT 花费。通过虚拟化可达到节省总体成本、提高运营效率、提高服务水平、无中断的按需扩容。3.2 数据保护和容灾备份在医疗行业中大家普遍重视容灾技术,而忽略了逻辑数据保护,然而第三方机构的调查数据表明 80%的问题都出在逻辑数据错误上,阜阳 XX 医院应充分考虑逻辑数据保护和容灾备份手段;从医院系统业务连续性来看,应重点考虑 2 个重要的指标:RTO(恢复时间)和 RPO(恢复点) 。RTO(Recovery Time Ob
7、jective)代表容灾系统在灾难发生后数据或者系统恢复所用的时间。RPO(Recovery Point Objective)代表灾难发生时已经备份的数据与生产数据的时间差。RPO 可以简单的描述为能容忍的最大数据丢失量,为了更好的理解,可以想一下传统数据保护会产生什么后果,一般备份都是一天做一次,通常是在晚上,如果第二天出现错误,那从备份完成后到错误出现时所写入的数据都无法挽回了,这期间没有备份,数据就丢失了!如果错误出现在一天结束时,那一天的数据都丢失了,这种情况下,RPO 就是 24 小时。对于医院来说一方面不能停机,另一方面不能丢失数据,对于 RTO 和 RPO 的需求都是极高的,针对
8、医疗行业的特殊需求,结合目前在业界最先进的数据保护手段,建议阜阳 XX 医院规划系统 RTO 和 RPO 如下(针对核心数据库类应用):RTO20 分钟;RPO1 分钟;包括服务器故障、虚拟机系统故障、逻辑错误、机房故障;由于对业务系统进行全面虚拟化,恢复的单位应该以虚拟机为单位。3.3 应用管理员应能自行恢复传统的数据备份、容灾手段需要专业的存储管理员和应用管理员配合才能执行操作,对于医院信息中心来说是无法完成的,然而由于医院业务需要,又要求能够快速恢复;针对这样的矛盾,此次方案选型应考虑管理简单,可以由应用管理员自行进行恢复。4.解决方案4.1 整体架构利用 5 台服务器安装 VMware
9、 虚拟化软件,实现对医院所有业务的虚拟化,将院方的应用系统全部迁移到虚拟化平台;其中主机房部署 3 台服务器,备机房部署 2 台服务器;主备机房各部署 1 台存储系统,两个机房各部署两台光纤交换机,交换机之间利用长波模块进行互联;在 VMware 虚拟平台上安装虚拟机保护系统 RecoverPoint for VMs,RecoverPoint for VMs 可以实现虚拟机的实时复制,将主机房的虚拟机系统复制一份到备机房实现容灾,并可以实现虚拟机的任意时间点恢复。RecoverPoint for VMs 是安装在虚拟化平台上的,由 vSphere Web Client 进行统一管理。4.2 虚
10、拟化平台虚拟化平台采用业界标准的 X86 服务器,每台服务器上都安装配置 VMware 虚拟架构套件,用于在单个物理服务器实体上,利用服务器强大的处理能力,生成多个虚拟服务器,每一个虚拟服务器,从功能、性能和操作方式上等同于传统的单台物理服务器,在每个虚拟服务器上,再安装配置 Windows 或 Linux 操作系统,进而再安装应用软件,这样以前的每个物理服务器就变身成为 VMware 虚拟化架构服务器上的虚拟机,从而大大提高资源利用率,降低成本,增强了系统和应用的可用性,提高系统的灵活性和快速响应,完美的实现了服务器虚拟架构的整合。在具体实现中,为了实现数据的集中存储以及充分利用 VMwar
11、e 虚拟架构中虚拟机可动态在线从一台物理服务器迁移到另一台物理服务器上的特性等,建议配置EMC 光纤存储阵列产品,同时配置冗余的光纤交换机,组成标准的 SAN 集中存储架构,由 VMware 虚拟架构套件生产出来的虚拟机的封装文件都存放在 SAN 存储阵列上。通过共享的 SAN 存储架构, 可以最大化的发挥虚拟架构的优势,在线地迁移正在运行的虚拟机(VMware VMotion) ,进行动态的资源管理(VMware DRS) 、实现即插即用的数据中心。为了集中管理和监控虚拟机、实现自动化以及简化资源调配,建议单独配置一套虚拟机安装 Window 系统,用于安装 vCenter 软件,对物理服务
12、器及其上的虚拟服务器进行统一的管理。4.3 利用虚拟架构提升系统服务质量VMware 虚拟化平台具有很多特性能提升阜阳 XX 医院系统服务质量,包括:4.3.1 虚拟机热迁移 VMotionVMotion 技术为向外扩展平台提供高效的虚拟化,VMotion 技术可以在保持连续的服务可用性的同时,可以将实时运行企业用户关键业务的虚拟机从一个物理主机转移 到另一物理主机,动态获得每台物理服务器资源最佳利用率、零宕机维护、快速重新配置、持续的工作负载整合能力。甚至在预测到硬件即将产生故障时,自动把应用迁移到新的主机上,并保持数据完整,业务不间断。4.3.2 高可用性 VMware HAVMware
13、高可用性(HA)解决方案有效的解决了目前其它高可用性解决方案面临的问题。当运行 VMware ESX 的物理服务器宕机时,所有运行于该服务器的虚拟机可以自动切换到其它的 VMware 服务器上,相对传统的双机容错方案,VMware HA 可以最大程度减少因硬件故障造成的服务器宕机和服务中断时间。不同于其它 HA 的热备机方式,所有的 VMware HA 服务器都在运行生产系统,充分利用现有硬件资源。同时,对繁多的操作系统和应用程序,VMware 提供统一的 HA 解决方案,避免了针对不同操作系统或者应用,采用不同的 HA 方案带来的额外开销和复杂性。通过 VMware HA,IT 部门可以:
14、为没有容错功能的应用提供冗余保护传统意义上 HA 实现很复杂并且价格昂贵,多用于关键性的服务或应用,而 VMware HA 为所有的应用程序提供了高性价比的 HA 解决方案。 为整个 IT 环境提供“第一条防线” 不同于其它基于操作系统和应用的 HA 实现方式,VMware HA 为 IT 系统提供了更统一、更易于管理的高可用性解决方案。VMware 用最少的成本和最简单的管理方式为所用的应用提供了最基本的冗余保护功能。4.3.3 动态资源调配平衡 VMware DRSVMware Distributed Resource Scheduler(DRS)分布式资源调度解决方案,可以将一组硬件资源
15、重新组织为逻辑的计算能力资源池(resource pool) ,进而实现动态均衡分配这些计算资源。VMware DRS 可根据业务需求和业务重要性预先定义相应的资源分配原则,并持续监控资源池的使用率,智能地为相关虚拟机分配资源。当一个虚拟机遇到负载的增加时,DRS 通过为资源池中的物理服务器重新分配虚拟机的方式,为其分配更多的资源。VMware DRS 可以帮助 IT 部门实现: 根据业务目标,优化资源以保证最有价值的应用使用更多的资源。 应对业务的改变,自动并持续地优化硬件使用率。 为业务部门提供专门的架构,而同时可保证硬件级的集中管理和控制。 提高系统管理员的生产力,单一系统管理员可监控和
16、有效管理所有的资源。 自动硬件维护。当一个物理服务器需要维护时,DRS 自动将所有虚拟机迁移到其他物理机上,可实现服务器 增加和部署新的资源简单易行。当增加新的物理服务器到资源池时,DRS 可自动利用新增的计算能力,重新分布虚拟机。通过虚拟化技术,大大提升了阜阳 XX 医院的系统服务质量,减少系统安全隐患,降低管理复杂度。4.4 利用 RecoverPoint for VMs 实现容灾和数据保护在 VMware 虚拟平台上安装虚拟机保护系统 RecoverPoint for VMs,RecoverPoint for VMs 可以实现虚拟机的实时复制,将主机房的虚拟机系统复制一份到备机房实现容灾
17、,并可以实现虚拟机的任意时间点恢复。虚拟机在存储上的数据规划出几个功能:生产、日志、复制副本。RecoverPoint for VMs 整个数据复制过程可以分为四个阶段:分解、标记、传输、分发。如下图所示:1) 分解:对虚拟机写操作时,I/O 命令一分为二,一份写到安装在虚拟化平台上的 RecoverPoint for VMs 虚拟装置,一份写到本地存储。2) 标记:这个过程由 RecoverPoint for VMs 虚拟装置 vRPA 完成,vRPA 对 I/O 命令封装、加上标签,目的是维护数据写顺序。3) 传输:vRPA 在对 I/O 命令加标签后,接着就进行传输过程。这个过程完全由v
18、RPA 来完成,与应用服务器无关。数据经过打包、封装后,传输到异地 vRPA的历史卷(Journal vol) ,形成不同时间点的历史记录。4) 分发:历史卷和目标卷合并的过程。在分发阶段,不同时期的历史卷和目标卷合并,生成特定时间的复制卷。由于传输和分发分为两个独立阶段,暂停分发、分发等操作不会影响传输。在暂停分发阶段,我们可以对复制卷进行读写操作。数据复制到异地后,目标复制卷与本地卷是完全一致,你可以用它做任何事情。RecoverPoint for VMs 可以在一组 VMware 集群内实现本地数据保护,也可以跨网络实现远程数据保护。RecoverPoint for VMs 是安装在虚拟
19、化平台上的,由 vSphere Web Client 进行统一管理。4.5 方案效果及优势某台服务器故障,能够利用 VMware HA 技术自动切换,恢复时间:数分钟,数据损失:0;某台交换机、HBA 卡、光纤链路故障,为冗余设计,不会造成停顿,恢复时间:0,数据损失:0;某台存储故障,在 vSphere Web Client 切换到备存储工作,恢复时间:十数分钟,数据损失:0(针对数据库应用) ;逻辑数据错误,在 vSphere Web Client 操作虚拟机回滚到故障点前,恢复时间:十数分钟,数据损失:约为 0(针对数据库应用) ;主机房灾难故障,可切换到容灾机房,恢复时间:十数分钟,数
20、据损失:约为0(针对数据库应用) 。方案优势:1.系统可靠性高:无论物理机、虚拟机、数据、机房故障,均能在很短时间内恢复系统;2.管理简单:在一套 vSphere Web Client 中管理虚拟机、存储、数据保护和容灾系统,界面统一,操作简单,应用管理员一人即可管理整个系统;3.可以回溯:在紧急情况下,用户可以自行切换到复制的虚拟机副本上,并可以恢复到任意时间点,在反向同步之前均可以修改恢复的时间点,减少误操作的影响;5.设备需求单位:万元设备名称 需求/用途 数量 单价 合计服务器至少:2 路、128G 内存、2 块本地磁盘、4 块网卡、2 块 HBA 卡 5存储1. 配置2 个控制器;2. SAN 控制器缓存总配置32GB;3. 配置 8 个 8Gb/s 的前端 FC 光纤通道端口;4. 配置 25600GB 10K rpm 6Gb SAS 接口磁盘,其中 1 台额外配置 152TB 磁盘用于PACS;5. 具有 VAAI 和 VASA 接口;2光纤交换机 24 端口光纤交换机,激活 16 口,含 1 个长波模块 4虚拟化软件 配置 10 个 CPU 许可,1 个 vCenter 许可 1虚机保护实现本地和远程虚拟机复制,虚拟机任意时间点恢复,配置 50 个虚拟机本地和远程复制许可1