1、1,他们需要连续可用性的解决方案,连续可用性是必需的,停机时间是不能容忍的,实时关键领域应用,24 x 7小时可用性,上海海得控制系统股份有限公司 系统事业部 杜志军 2010年05月,容错技术与容错服务器,3,内 容,容错技术与容错服务器 单机容错 VS.双机热备 容错带给客户的价值 行业应用,4,什么是容错?容错是什么?,这就是容错,我们不用担心某一个部件的损坏会导致整个系统的失效系统能容忍任一部件的失效并继续工作,计算机系统可靠性设计方案 避错设计技术 容错设计技术,5,容错技术的发展,6,世界上最可靠的服务器技术和解决方案 美国容错技术有限公司 | Stratus Technologi
2、es,1980 - 硬件级容错计算机系统厂商Stratus成立(位于美国波士顿) ,主要投资者有 Intel, NEC, Investcorp, MidOcean Partners 1981 - 首先推出基于硬件的容错计算机系统 1986 - 建立世界上第一个提供24小时服务的远程服务网 1990 推出世界上第一个容错的 UNIX 操作系统 - FTX 1991 - 推出 RISC 结构的 XA/R 系列容错计算机系统 1995 - 推出 RISC 结构的 Continuum 系列容错计算机系统 1997 - 推出容错的 HP-UX 操作系统 2001 - 推出世界上第一台 WinNT X86
3、 平台硬件容错服务器 ftServer 2005-推出支持 RedHat Linux Enterprise 的X86平台硬件容错服务器,7,技术合作伙伴,基于 OS 可用性特征的合作 内存再同步 强化驱动程序 企业关键应用的支持方式 ftServer W 系列产品安置在 Redmond 测试实验室,共同决定处理器的使用程序(LockStep技术) 更早得到最新处理器 ftServer W系列产品安置在 Intel实验室,ftServer W系列产品安置在 EMC 认证实验室CLARiiON产品的转销 合作支持方式,8,容错服务器的优越性,容错服务器的优越性连续处理技术操作简单价格优势,9,Co
4、ntinuous Processing Technology,快速部署, 简化操作; 最高级别的在线运行时间,保障连续运行的最佳方案连续处理技术,10,Stratus连续处理 技术(一),11,锁步技术(时钟同步技术),12,同步锁定 CPUs,多路径 I/O,模块方式实现,6600,13,Stratus连续处理 技术(二),14,Stratus软件增强透明性,15,故障安全软件机制,软件屏蔽瞬间硬件错误强化驱动程序预防软件故障广泛综合和错误插入测试软件在线升级服务内存和磁盘数据保护,故障防范!,软件可靠性,预防、诊断、和解决软件问题,16,Stratus连续处理 技术(三),17,Activ
5、eService 体系结构,自动的故障检测和隔离(服务器的自身纠错机制)集成的故障”回叫”和远程支持 (Stratus CAC)Stratus 和第三方的合作支持系统非工作状态的管理能力,技术激活的服务方式,在问题引发系统停顿前检测和报告错误,故障防范,ActiveService 体系结构,18,ActiveService 体系:自动获得可用性,热插拔部件非常容易更换,系统自动同步更换的部件,系统正常处理贯穿整个更换过程!,系统自动订购正确的更换部件,部件故障. 系统隔离错误并通知 Stratus 有CPU 故障,19,Guest OS 问题分析处理,一站式的技术支持,Count on Str
6、atus & Hite,20,ActiveService 体系: 24 x 7关键性系统支持,可用性动员 全球性 24 x 7 电话支持 准确的故障隔离,部件派发 Stratus 驱动 OS 问题解决 Microsoft 金牌认证合作伙伴 100% 可用性计划,21,容错服务器产品线,22,最新推出的第五代容错服务器,采用最新架构Intel Xeon 5500 “Nehalem” processors处理器。服务器整体性能提升125%以上; 逻辑内存可扩展至 96GB; 内置8对 2.5” SAS 磁盘,物理存储容量可达 8TB; 集成远程管理模块,服务器的管理更加智能灵活,23,Note:
7、All I/O options specified in logical count, physical count is 2 times numbers specified,24,内容,容错技术与容错服务器 单机容错 VS.双机热备 容错带给客户的价值 行业应用,25,Microsoft State,http:/ Availability 但这并不是真正意义上的容错!,27,集群是如何工作的,Data Disk (Mirror),Storage Enclosure,Heart-Beat Checking,28,系统架构对比,Stratus ftServer (Single System),S
8、ystem & Data Disk (Mirror),SCSI,SCSI,Storage Enclosure,ENET,ENET,SMM,SMM,MPU, Memory,MPU, Memory,OS,Middleware,Application,Data Disk (Mirror),Storage Enclosure,Cluster (Mulitple Systems),29,拓扑结构比较,系统结构复杂环节过多,外部连接故障发生点多,无单点故障的集群方案,无单点故障的容错方案,系统结构简单如同单机,内部连接故障发生点少,30,工作原理比较容错,Passive Backplane,SSP,SSP
9、,SNP,SNP,I/O,I/O,CPU,CPU,1+1=?,1+1=?,MEM,MEM,2,2,Disk,Disk,所有运算在不同板上同时进行,I/O 板,CPU/MEM 板,31,当CPU主板出现问题时.,Passive Backplane,SSP,SNP,I/O,I/O,CPU,CPU,1+1=?,1+1=?,MEM,X,Disk,Disk,SNP,SSP,2,MEM,2,任何一块CPU板上的任何部件损坏,都不会影响系统的正常运行。正在进行的运算和操作会象没发生问题一样继续下去。,32,如果I/O板再出现问题呢?,Passive Backplane,SSP,SNP,I/O,I/O,CPU
10、,1+1=?,Disk,Disk,SSP,2,MEM,2,X,任何一块I/O板上的任何部件损坏,也不会影响系统的正常运行。正在进行的运算和操作同样象没发生问题一样继续下去。,I/O 板,CPU/MEM 板,33,工作原理比较-集群,I/O,CPU,1+1=?,MEM,2,I/O,CPU,1+1=?,MEM,2,Disk,0100010110100010101010111010111010010110001100011101,X,1+2=3,CPU、内存和等待I/O的所有数据丢失,数据库、应用、文件系统都没有被安全关闭,需要时间等待备机检测到故障发生,需要时间和运气进行磁盘组切换、需要时间和运气
11、进行文件系统检查,需要时间重新启动应用程序,需要重新进行一些运算以回到断点,需要时间和运气重新启动数据库并进行数据库修复工作,最重要的是:切换并不一定总是成功!,系统 A,系统 B,34,集群和容错方案硬软件工作原理比较,通用HA,容错CA,故障 出现,故障 恢复,数据丢失,后期会花费大量的力量来找回,恢复总时间 = 基本系统恢复时间 + 数据库恢复时间+ 应用程序恢复时间+ 网络恢复时间,35,计算机业界对可靠性的定义,36,每年的停机成本,.0876,4.38,8.76,Hours unavailable,$25,000 per hour,$10,000 per hour,$5,000 p
12、er hour,Computing Environment,$900.00,$43,800.00,$87,600.00,$400.00,$22,900.00,$43,800.00,$219,000.00,24 x 7 99.9%,$2,200.00,99.999%,$109,500.00,99.95%,Cost of downtime will vary by application,.00876,99.9999%,$44.00,$88.00,$219.00,Downtime means $,37,$,$,Windows 2003 x 2,2套主机系统,集群部件 以及存储阵列,应用程序和中间件
13、 x 2,系统维护以及停机损失,应用程序和中间件 x 1,集群软件,简单的单机管理,Win2003 x 1,Rapid Disk Resync,用户成本比较,容错ftServer,TCO 比较,一套ftServer,Cluster集群,38,成本对比例举,39,2003 美国供电中断 是由于集群切换方案的失败,区域供电中断13分钟,40,当我们有彻底避免灾难的方案时 为什么还要选择灾难恢复方案呢,41,内容,容错技术与容错服务器 单机容错 VS.双机热备 容错带给客户的价值 行业应用,42,容错为客户带来价值,Stratus 向客户提供解决方案:具有连续可用性能力 - 拥有无可比拟的优势 (9
14、9.9998+ % uptime) 操作简便性 - 提供具有显著的操作简便性 财务优势 - 产品和解决方案(最小的TCO),43,容错服务器的优势,44,内容,容错技术与容错服务器 单机硬件容错 VS.双机热备 容错带给客户的价值 行业应用,45,工业控制系统的应用,ftServer systems: one of first servers to earn the ABB “Industrial IT Certified” designation,46,秒 分钟 小时 班组 天 周 月 年,L1/L2 L3 L4,最可靠的容错服务器无处不在,47,行业应用案例概况,冶金行业 系统: HMI/
15、SCADA Server; PCS Database Server, Application Server; MES/EMS 业绩: 宝钢集团、鞍本钢、首钢集团、济钢、重钢、天铁、西南铝 电力行业 系统:电厂SIS、MIS、BOP项目中I/O Server 、Database Server等;变电站综合自动化系统 业绩:阳西电厂、兰溪电厂、新疆天业电厂、国家电网、福建莆田LNG 交通行业 系统: 高速路隧道桥梁HMI/SCADA监控系统、收费系统、城市智能交通控制系统、机场弱电系统集成等 业绩:上海长江隧桥、宁杭高速、无锡城市隧道监控系统、SCATS智能信号控制 煤炭、化工、烟草行业、汽车制造 系统:煤矿综合自动化、MES;化工DCS系统、实时/历史数据库系统;物流、制丝生产控制系统;汽车SCE、MES系统 业绩:淮南矿业集团、神华集团、广州烟厂、杭州烟厂、宗申摩托、丰田汽车,48,容错服务器是虚拟化技术的最佳硬件平台,虚拟化带来的实惠服务器的整合: 更高的资源利用率 降低管理成本 提高使用灵活性 提高安全性 更高的可用性 互操作性和投资保护 改进资源供应,新的问题=?,49,?,联系我们 13585505125 ,谢谢大家,