1、第三章计算机系统的可靠性,计算机系统的可靠性,可用性是指系统在规定条件下,完成规定的功能的能力 系统的可用性用可用度来度量 系统在t时刻处于正确状态的概率称为可用度,用A(t)来表示 计算方法: A平均无故障时间MTBF/(平均无故障时间MTBF平均修复时间MTRF) 平均无故障时间指两次故障时间能正常的平均值,故障可以是元器件故障,软件故障,也可能是人为攻击造成的 平均修复时间指从故障发生到系统恢复平均所需要的时间,可用性的定量,1可靠性:在一定条件下,在指定的时期内系统无故障的执行指令任务的可能性 可靠度:在t0时刻系统正常的条件下,在给定的时间间隔内,系统仍然能正确执行其功能的概率 可靠
2、性的测度:抗毁性、生存性和有效性 可靠性的表现:硬件可靠性、软件可靠性、人员可靠性、环境可靠性,可用性的定量,可维修性:指系统发生故障时容易进行修复,以及平时易于维护的程度 可维修性定量:平均修复时间MTRF、在指定时间内恢复服务的可能性,维修保障,避错:通过提高软硬件的质量来提高系统的可靠性 容错:在计算机内部出现故障的情况下,计算机仍能正确的运行程序并给出正确结果的设计,容错系统的概念,容错是用冗余的资料使计算机具有容忍故障的能力,即在产生故障的情况下,仍有能力将指定的算法继续完成 容错的思想来自于硬件容错 容错技术是指在一定程度上容忍故障的技术,也称故障掩饰技术,容错系统,容错主要靠冗余
3、设计来实现,通过增加资源的办法换取可靠性,冗余技术分为硬件冗余、时间冗余、信息冗余,硬件冗余通过硬件的重复使用来完成容错能力 软件冗余的基本思想是用多个不同软件执行同一功能 信息冗余利用在数据中外加的一部分信息位来检测或纠正信息在运算或传输中的错误而达到容错 时间冗余是通过消耗时间资源来实现容错,通过重复运算来检测故障。按照重复运算是在指令级还是程序级分为指令复执和程序复算 冗余设计可以是元器件的冗余设计,部件级、分系统级的,或系统级的冗余设计,容错系统工作过程,1自动侦听:通过专用的冗余侦听系统各冗余单元是否存在故障,发现可能的错误和故障,进行判断与分析,确认主机出错后,启动后备系统侦听检查
4、部件:主机硬件、主机网络、操作系统、数据库、重要应用程序、外部存储子系统 2自动切换数据可信是切换的基础当确认某一主机出错时,正常主机除了保证自身原来的任务继续运行外,将根据各种不同的容错后备模式,接管预先设定的后备作业程序程序,进行后续程序及服务 3自动恢复故障主机被替换后,进行故障隔离,修复完成后联机,将原来的工作程序和磁盘上的数据自动切换回修复完成的主机上,硬件冗余,增加线路、设备、部件、形成备份 方法之一硬件堆积冗余 方法之二待命储备冗余 方法之三混合冗余系统,数据备份,问题: 备份的措施不足 备份解职的物理保护不够 数据备份的重要性:减少不必要的信息占用磁盘空间 防止由于各种原因造成
5、的数据丢失 能够恢复的备份才是备份 为了保证单点的数据安全性,RAID技术、镜像技术甚至双机备份无法替代数据备份 系统防护技术:防病毒、防黑客入侵技术 系统保护技术:数据备份,快速恢复、异地存放、远程控制、灾难备援,按备份的策略可分为完全备份、差分备份、增量备份、按需备份 完全备份:对包括系统应用程序和数据库等一个备份周期内的数据完全备份 差分备份:只备份上次完全备份以后有变化的数据 增量备份:只备份上次备份以后有变化的数据 按需备份:根据临时需要有选择的进行数据备份 备份的数据量:完全备份差分备份增量备份,备份介质,异地备份的备份信息至少不能存放在同一建筑物 业务数据由于系统或人为误操作造成
6、损坏或丢失后,利用本地备份信息实现数据恢复; 当发生地域性灾难时,使用异地备份实现数据及整个系统的灾难恢复 常规数据备份一般要求一份数据至少应有两个拷贝,一份放在生产中心以保证数据的正常恢复和数据查询恢复,另一份则要移到异地保存。,备份后的数据是否可更改,活备份是指备份到可擦写存储介质 死备份是指备份到不可擦写存储介质,双机容错系统一个CPU板出现故障,CPU保持继续运行 双机热备份当CPU出现故障时由闲置状态的备份系统接替,但正在处理的交易可能会丢失,从而导致数据的不一致“心跳线”出现问题,系统很难自动判断,资源浪费 三机表决系统三台主机同时运行,由表决器根据三台机器的运行结果进行表决,有两
7、台以上机器运行的结果相同,则认为该结果为正确。当三机种的一台机器损坏后,当双机备份系统 集群系统 均衡负载的双机或多机系统就是集群系统,软件冗余,主要目的是提供足够的冗余信息和算法程序,使系统运行时能够及时发现程序设计错误,采取补救措施,提高可靠性,保证系统正常运行 主要技术:恢复块方法和N-版本程序设计、防卫式程序设计,恢复块方法,恢复策略:前向恢复和后向恢复 前向恢复指是当前的计算继续下去,把系统恢复到连贯的正确状态,弥补当前状态不连贯情况 后向恢复指系统恢复到前一个正确状态继续执行 动态屏蔽技术-恢复块方法,采用的是后向恢复策略,N-版本程序设计,采用的是前向恢复策略,设计思想:用N个具
8、有相同功能的程序同时执行一项计算,记过通过多数表决来选择。,防卫式程序设计,基本思想:通过在程序中包含错误检查代码和错误户代码,使得错误一旦发生,程序能撤销错误状态,恢复到一个已知的正确状态中去,实现策略包括错误监测、破坏估计和错误恢复三个方面,软件容错已成为容错领域重要分支之一,磁盘阵列存储器的编码容错方案,廉价冗余磁盘阵列RAID简称磁盘阵列 是一种使用磁盘驱动器的方法,将一组磁盘驱动器通过某种逻辑方式联系起来,作为逻辑上的一个磁盘驱动器来使用,RAID优点,成本低、功耗小、传输速率高 可以提供容错功能 在同样的容量下,RAID比传统的大直径磁盘驱动器来,价格要低许多,种类,冗余无校验的磁盘阵列(RAID0) 镜像磁盘阵列(RAID1) 并行海明纠错阵列(RAID2) 奇偶校验并行位交错阵列(RAID3) 奇偶校验扇区交错阵列(RAID4) 循环奇偶校验阵列(RAID5) 二维奇偶校验阵列(RAID6),