1、,可靠性设计,2010-2011年度 第一学期主讲教师:王志武电话:34204435地址:电信楼2-107E-mail:,,1,教材及参考文献,电子机械可靠性与维修性 王世萍 朱敏波,清华版,2000,机械概率设计与模糊设计,朱文予,高教版,2001,3,Matlab数理统计,陈桂明等,科学技术出版社,2002,4,2,系统可靠性设计与分析 宋保雄 ,西北工大,2008,,1,网页,http:/ 绪 论,1.本课程的主要内容,2.可靠性研究与应用的意义,3.可靠性事件,4.可靠性理论的主要内容,5.可靠性工程的发展历史,6.可靠性工程的几个热点问题,7.基本概念,,1. 本课程的主要内容,绪论
2、可靠性数学基础 失效分析 不可修复系统可靠性计算 可修复系统可靠性计算 可靠性试验和综合评定 系统可靠性设计,,2. 可靠性研究与应用的意义,(1)设备和系统越复杂,对可靠性的要求越高 随着技术的发展,测控设备和系统越来越准确、越快、赵全面。 设备所具有功能越全面,导致各种元件的不断增加,价格也比以前要贵。 用户首先看到的往往不是各种各样的功能,而是价格的增长。如果新的较贵的设备经常发生故障,他们就会感到失望,以至恼火。他们出了高价,也就希望得到更高的可靠性。可靠性是衡量产品性能的重要指标之一。可靠性高的产品,才有好的使用性能。 为达到这一目的,必须在开发和生产过程中就特别考虑到可靠性这一点。
3、,,(1)设备和系统越复杂,对可靠性的要求越高,不仅仅是设备,而且由设备所组成的系统也越来越复杂。航空和航天中所采用的系统是非常复杂的系统,所以,这个分支比较早地关注可靠性问题,并寻找提高和改善可靠性的方法。,,(2)通过可靠性降低总成本,可靠性的提高首先需要费用: 因为需要采用较好的元件,并只让其在额定条件下工作,此外还要设计包括部分冗余功能部件的容差结构。 为了识别和筛选坏的零件所需的工作量也是相当大的,因此,生产成本是随可靠性的提高而增加。,,(2)通过可靠性降低总成本,另一方面,设备和系统的无故障工作给用户带来了好处。修理次数减少,特别是停工时间及由此引起的损失减少了;设备和系统越可靠
4、,用户修理和停工所付出的代价也就越低。,,(2)通过可靠性降低总成本,工业界常常进行成本、效益分析和总投资的优化。根据这一原则,当购置费用(图中的a曲线)与修理费用及停工损失(图中b曲线)两者之和最小时,可靠性的设计程度为最理想。,,(2)通过可靠性降低总成本,例子: 美国共和公司研制F-105战斗轰炸机过程中,花了2500万美元,任务可靠度从0.7263提高到0.8986,每年可节省维修费5400万美元。 注:F-105战斗机,又名:“雷公”(Thunderchief),已于1984年退役。 美国空军第1架超音速战术战斗轰炸机,美国空军当时最大的、单座、单发动机作战飞机。,(2)通过可靠性降
5、低总成本,美国GE公司经过分析认为,对于发电、冶金、矿山、运输等连续作业的设备,即使可靠度提高1%,成本提高10%也是合算的。,,,一个满意的顾客会告诉8个人; 一个不满意的顾客会告诉20个人; 只有可靠的产品才能带来长期效益和忠诚的顾客!,(3)提升产品的品牌价值,,可靠性好的产品,不但可以减少公司的维修费用,而且可以很快就打出品牌,大幅度提升公司形象,增加公司收入。,(3)提升产品的品牌价值,,随着市场经济的发展,竞争日趋激烈,人们不仅要求产品物美价廉,而且十分重视产品的可靠性和安全性。,(3)提升产品的品牌价值,,(3)提升产品的品牌价值,美国的康明斯、卡勃彼特柴油机,大修期为12000
6、小时,而我国柴油机不过1000小时,有的甚至几十小时、几百小时就出现故障。我国生产的电梯,平均使用寿命(指两次大修期的间隔时期)为3年左右,而国外的电梯平均寿命在10年以上,是我们的3倍;故障率,国外平均为0.05次,而我国为1次以上,高出20倍。这样的产品怎么有竞争力呢!,,(3)提升产品的品牌价值,因此要想在竞争中立于不败之地,就要狠抓产品质量,特别是产品可靠性,没有可靠性就没有质量,企业就无法在激烈的竞争中生存和发展。,,(4)可靠性保证安全性,为了保证人生的安全,某些过程必须不惜代价地维持在规定的范围内。比如说化工中要加工的有毒物质是不允许外泄的;飞机的安全着陆系统;某些交通工具的安全
7、性系统;核电站在发生故障时安全停堆和防止放射性物质的外泻.在上述各种情况厂,设备的安全性是不可缺少的前提,需要可靠性设备来保证。,,(4)可靠性保证安全性,设备的用户期待可靠性指标。所以要求生产厂商给出产品的可靠性指标,要求保证可靠性。系统较大时尤其如此。例:前苏联的“联盟11号”宇宙飞船返回时,因压力阀门提前打开而造成三名宇航员全部死亡。,,调查结果显示(如某公司市场部调查记录):“对可靠性的重视度,与地区的经济发达程度成正比”。例如,英国电讯(BT)关于可靠性管理/指标要求有产品寿命、MTBF报告、可靠性框图、失效树分析(FTA)、可靠性测试计划和测试报告等;泰国只有平均故障间隔MTBF和
8、失效平均时间MTTF的要求;厄瓜多尔则未提到,只是提出环境适应性和安全性的要求。,()可靠性是社会经济问题,,因此,可靠性问题必须引起政府和企业的高度重视,抓好可靠性工作,不仅是关系到企业生存和发展的大问题,也是关系到国家经济兴衰的大问题。,()可靠性是社会经济问题,,(6)可靠性不是天生就有的,而是设计的结果,可靠性贯穿于产品的设计、制造、使用的全过程。为了得到可靠的设备和系统,必须在生产的各个环节付出特别的努力,而设计阶段尤为重要,如果这一步走错了,要想通过后来的修改达到所希望的可靠性几乎是不可能的。对于复杂的产品和系统,要提高可靠性,必须应用可靠性技术可靠性是一个系统工程,对所有参加产品
9、研制、设计、生产、使用、维修、管理的人员进行教育和培训是必要条件之一特别是,研制设备或设计系统的工程师和科学家们应该了解和掌握保证可靠性的方法与手段。,,学习本课程的目的: 了解可靠性技术概况 初步掌握可靠性设计与分析方法 培养分析问题和解决问题的能力,,3 可靠性事件,二次世界大战期间,作战飞机以及雷达上所用的电子设备,由于可靠性水平较低而屡屡出现故障。据统计,美国在太平洋战争期间,向远东发送的装备中,约有60的航空电子装置和70的海军用电子装置发生故障。这些触目惊心的数字,引起人们对可靠性问题的重视。,,3 可靠性事件,“哥伦比亚号”航天飞机2003年2月1日在美国东部时间时(北京时间时)
10、返回地面时与地面控制中心失去了联系,后在得克萨斯州中北部地区上空解体坠毁。航天飞机上的名宇航员已全部遇难。 美国“哥伦比亚”号航天飞机事故调查委员会2003年8月26日公布了最终调查报告,称美国宇航局对这起事故负有责任。,,3 可靠性事件,报告说,导致“哥伦比亚”号事故的技术原因,是这架航天飞机发射升空81.7秒后,外部燃料箱外表面脱落一块泡沫材料,撞击导致航天飞机左翼前缘的热保护系统形成裂孔。航天飞机重返大气层时,超高温气体得以从裂孔处进入“哥伦比亚”号机体,造成航天飞机解体。这份长达248页的报告同时认为,导致事故的还有美国宇航局管理上的因素,它在事故中所起的作用等同于泡沫材料撞击。报告称
11、,美国宇航局缺乏一种“强效安全文化”。,,3 可靠性事件,美国东部时间2003年8月14日下午4时许,纽约、新泽西、俄亥俄、康涅狄克等州和加拿大的多伦多地区突然发生大范围的停电,位于纽约州和俄亥俄州的四个核电站中断发电。成千上万的人纷纷涌上街头,导致许多地区道路被严重堵塞。受影响人口大约在5000万左右。大约29小时后基本恢复供电。根据经济学家估计,停电一天造成的经济损失可能达300亿美金。,,3 可靠性事件,负责调查美加大停电事故的北美电力可靠性委员会16日的初步调查结果显示:14日下午3时06分,俄亥俄州北部三条超高压输电线路突然发生故障。由于警报系统失灵,控制人员没有发现并采取有效措施,
12、导致输电系统出现连锁反应,并在一个小时之内蔓延到纽约及加拿大的多伦多。,,3 可靠性事件,美、加大停电的思考:电力可靠性电力系统灾变机理分析与风险评估研究发电方式与电网可靠性研究可靠性与经济性协调研究,,3 可靠性事件,软件可靠性需求从90年代开始,硬件越来越可靠,软件成为导致系统失败的主要因素。软件的复杂性、需求加大,速度超过软件的设计、测试和维护能力,计算机病毒等,提出了软件的可靠性问题。 如:航天飞机机载系统50万行代码,地面控制系统35万行代码。美国电信业:电信线路正常运转,数百个软件,代码超过亿行。,,3 可靠性事件,国防:F-16首航时间耽误1年,软件问题所致。软件致命:大规模放射
13、治疗仪Therac25,由于软件问题导致控制系统失灵,导致多名病人失去生命。2008年08月27日,美国航班排序中心的电脑系统瘫痪,导致20多个机场出现航班延误,大批航班延误。,,3 可靠性事件,57年,前苏联第一颗人造卫星发射成功 前苏联在50年代就开始了对可靠性理论及应用的研究69年,阿波罗等月成功 美国二战后开始,电子系统可靠性研究; 60年代初期,其发展与航天计划有关机械可靠性研究60年代后期,日本的新干线 日本是在1956年由美国引进可靠性技术。日本将可靠性技术推广应用到民用工业部门取得很大成功,,,3 可靠性事件,我国载人航天的成功99年11月20日,中国自主研制的第一艘航天试验飞
14、船“神舟”一号发射成功。2003年10月15日,发射第一艘载人飞船“神舟”五号,中国飞天第一人杨利伟搭乘该船成功进入太空,并绕地球飞行二十一小时后顺利返回,实现了中华民族千年飞天梦想。,,3 可靠性事件,长征二号F型火箭已经成功地将4艘无人飞船和“神舟”五号、六号和七号载人飞船送入太空预定轨道,发射成功率达到100。这是我国目前唯一用于发射载人飞船的火箭。长征二号F型火箭可靠性指标达到0.97,航天员安全性指标达到0.997,是我国航天史上技术最复杂、可靠性和安全性指标最高的运载火箭。,,4 可靠性理论的主要内容,可靠性数学:可靠性问题,数学模型,数学方法,定量分析。 概率论、数理统计、随机过
15、程、运筹学、拓扑学。可靠性物理:失效机理、本质,基础研究。为数学建模、检测方法制订、纠正措施选取建立基础。可靠性工程:用工程观点和系统的观点来分析问题。对某一系统可靠性要求:设计、试验、生产等一系列工作。涉及到可靠性预测、试验、管理、控制、评价,系列工程概念。,,4 可靠性理论的主要内容,,5 可靠性工程的发展历史,萌芽期:19301940s 概念形成兴起期:1950s 可靠性工作内容确定全面发展期:1960s 制定标准、完善方法深入发展期:1970s今,加强可靠性管理和质保体系、完善标准、探求新方法,我国可靠性发展,在60年代初,电子工业部门开始开展可靠性工作,进行了有关可靠性评估的开拓性工
16、作。70年代初,航天部门首先提出了电子元器件必须经过严格筛选。70年代中期,由于中日海底电缆工程的需要,提出元器件可靠性验证试验的研究,促进了我国可靠性数学的发展。,,我国可靠性发展,从1984年开始,在国防科工委的统一领导下,结合中国国情并积极汲取国外的先进技术,组织制定了一系列关于可靠性的基础规定和标准。1985年10月国防科工委颁发的航空技术装备寿命与可靠性工作暂行规定,是我国航空工业的可靠性工程全面进入工程实践和系统发展阶段的一个标志。,,我国可靠性发展,1987年5月,国务院、中央军委颁发军工产品质量管理条例明确了在产品研制中要运用可靠性技术;1987年12月和1988年3月先后颁发
17、的国家军用标准GJB36887装备维修性通用规范和GJB45088装备研制与生产的可靠性通用大纲,可以说是目前我国军工产品可靠性技术具有代表性的基础标准。,,我国可靠性发展,80年代后,各有关工业部门、各军兵种越来越重视可靠性管理,加强可靠性信息数据和学术交流活动。已建立了全国军用电子设备可靠性数据交换网;全国性和专业系统性的各级可靠性学会相继成立,进一步促进了我国可靠性理论与工程研究的深入展开。,,,6 可靠性工程的几个热点问题,无维修使用期(MFOP)在国际上早在1995年对传统的可靠性定义提出了质疑,在欧洲开始用无维修使用期(MFOP)取代原先的MTBF,摒弃随机失效无法避免的旧观念,故
18、障率浴盆曲线分布规律也就被打破。当前国际上兴起在可靠工程中推行失效物理方法的新潮流,目的是设计出不存在随机失效的产品。同时,从故障修理转换到计划预防维修。,可靠性工程的热点问题一,,6 可靠性工程的几个热点问题,要做到“无维修使用期”必须作好如下两项工作:一是改变可靠性设计思路:以自下而上的可靠性设计方法,取代采用MTBF进行自上而下分配方法。重点可采取如下设计措施:采用状态监控,故障诊断和故障预测设计;容错设计;可重构性设计;动态设计;环境防护设计;冗余设计;在任务能力不受影响下,留出可接受的降级水平设计等。,无维修使用期(MFOP),,无维修使用期(MFOP),二是改变可靠性工程工作方法:
19、 必须把人力、精力集中于产品研发早期阶段。应做如下工作:失效物理分析、研究与应用;开展可靠性研制试验,及早暴露设计缺陷,采取有效纠正措施;开展高加速应力试验,暴露产品薄弱环节予以纠正; 严格设计评审制度,消除设计隐患; 制订合理预防维修计划并予以实施。,,可靠性工程的热点问题二,可靠性指标体系及其验证 在产品可靠性验证与评价中,故障确认,故障数据处理方法,直接关系到产品的生存和发展。 传统可靠性验证试验,产品的状态简化为“二元状态(成功、故障)”处理。 故障统计也比较简单,要么为0,要么为1,对故障既不分类,也不加权,这在工程实施显然存在问题。 把这些后果严重程度不同的故障,等同看待,客观上是
20、不合理的,与实际情况也是不相符的。,,热点二:可靠性指标体系及其验证,70年代美国在地面产品广泛地采用故障加权。1980年美军标准MILSTD785B颁布后,故障加权处理方法被取缔。产品可靠性指标细化分解,分别验证。MILSTD7810工程研制鉴定和生产可靠性试验正式文本中,首次提出在可靠性验证中按后果严重程度把发生故障区分为:致命故障,严重故障和轻度故障三类。我们国家有标准可查的就有近20种门类产品对故障进行加权处理。,,可靠性工程的热点问题三,加强软件可靠性设计随着社会日益信息化,系统(或设备)软件功能较硬件功能占系统功能比例越来越高。随着计算机功能的增强,软件规模大,软件的体系结构复杂。
21、软件的质量受到更多人的关注,在软件质量的评价指标中,软件可靠性是较重要的一个度量指标。时至今日软件可靠性工程的有关技术还不够成熟,还有许多问题有待研究。,,热点问题三:软件可靠性设计,相对于硬件可靠性,软件可靠性没有严密的基础理论,很多的概念都是借鉴于硬件可靠性研究成果。在可靠性工程中,对软件可靠性提及甚少,原因有二: 一是开展软件可靠性工作较晚; 二是软件可靠性技术较为复杂,研究和应用难度较大。但是由于软件与硬件有着本质的区别,故可靠性研究不可能等同,体现在如下几个方面: a)可靠性模型非指数分布,一般属于正态分布或威布尔分布,可靠性数学模型建立难度很大; b)可靠性指标确定多样化; c)目
22、标的实现、测试、评估和验证、模式的不确定性; d)设备的软件可靠性很难与硬件可靠性剥离。有些软件故障是由硬件设计缺陷和故障所引发的。,,研究人员和技术人员不断提出软件领域的新的技术和方法,新的管理思想。 如软件可靠性工程、软件可靠性模型、软件可靠性管理等等。软件的安全、可靠性是衡量软件好坏的一个重要标准。安全性指与防止对程序及数据的非授权的故意或意外访问的能力的软件属性;可靠性指在规定的时间和条件下,软件能维持其性能水平能力的属性。具体可以从以下11种方法来判断,检测软件可靠性。,软件可靠性设计,,热点问题三:软件可靠性设计,11种方法1.用户权限限制。 软件是否按功能模块划分用户权限,权限划
23、分是否合理,考察超级用户对各个用户的权限管理是否合理,包括修改用户的登录资料等。2.用户和密码封闭性。 软件对用户名和密码有无校验,有无保护措施,尤其对密码有无屏蔽功能。,,热点问题三:软件可靠性设计,3.系统对用户错误登录的次数限制 软件对用户错误登录有无次数限制,一般做法是连续三次登录失败就退出系统。4.留痕功能 软件是否提供操作日志,比如某用户登录的时间,查询、修改或删除的动作以及离开的时间等。5.屏蔽用户操作错误。 考察对用户常见的误操作的提示和屏蔽情况,例如可否有效避免日期的录入错误或写入无效的日期。6.错误提示的准确性。 当用户操作错误或软件发生错误时,能否有准确清晰的提示,使用户
24、知道造成错误的原因。例如当用户未输入完有效信息时存盘,系统应当给出关于未输入项的提示。,,热点问题三:软件可靠性设计,7.错误是否导致系统异常退出。 考察软件运行的稳定性,当软件发生一般错误或严重错误时,软件是否会自动退出。8.数据备份与恢复手段。 针对有数据存储需要的软件,有的软件依靠数据库操作系统本身的备份与恢复机制,这需要用户具备一定的操作知识;好的软件会提供备份与恢复的操作,不需要用户直接对数据库系统进行操作。,,9. 输入数据有效性检查10. 异常情况影响,如在程序运行时,掉电,考察数据和系统受影响程度11. 网络故障对系统影响,网络中断连接时,是否造成数据丢失。,热点问题三:软件可
25、靠性设计,,热点问题四:集成化结构设计,改变传统观念, 实施集成化结构设计 传统的汽车机械系统即将走入历史。 FlexRay网络通讯系统用以整合包括Brake-by-Wire(电子制动)、Steer-by-Wire(电子转向)等控制系统,让汽车发展成由单一电子系统来控制车辆。,,在技术上深入开展软件可靠性、机械可靠性,全面推广计算机辅助设计技术在可靠性工程中应用。采用模块化、综合化、容错设计、光导纤维和超高速集成电路等新技术来全面提高现代系统的可靠性。 电子产品结构设计机械件可靠性设计热设计EMC设计维修性设计三防设计 ( 防潮、防霉、防腐蚀),热点问题四:集成化结构设计,,热点问题五: IP
26、PD管理,推行IPPD(Integrated Product and Process Design)管理 美国质量管理的三个阶段:(一)早期阶段,推行质量检验;(二)80年代,质量重点转移,推行TQM(Total Quality Management);(三)90年代,重点抓产品研发设计,推行IPPD。,,热点问题五: IPPD管理,今天的质量是面向预防和过程驱动,从而使质量的全部职责由质量专业人员转移到机构中的每一个人。质量是工程、制造、软件编程和产品维护的综合要素,商务活动的组成部份。推行IPPD的实施强调并行工作和协作精神。从产品设计开始,来自设计、制造、试验、使用和保障等各方面的人员组
27、成多学科的综合产品组(IPT),协同工作,所有人员都要了解产品的总目标和技术要求,统一考虑并共同解决各学科问题。该管理方法确保测试性、保障性和安全性,从设计一开始就与传统的性能一起设计到产品中去。,,热点问题五: IPPD管理,要作好IPPD管理,必须作好如下工作: a)在产品研发开始就要将质量与可靠性设计到产品中去的思想,在方案设计时就应组织IPT小组。 b)解决如何把技术性、可靠性、维修性、测试性、保障性、经济性、安全性等统一权衡优化,并行设计到产品中去的技术问题。 c)开展网络化管理,加强可靠性与质量监控工作。 d)使IPT有效工作,必须加强团队合作精神,更重要的是“沟通”,“沟通”的核
28、心问题是如何将数据转换成有用的信息,使IPT小组更好工作。,,热点问题六:网络化管理,开辟可靠性管理新模式,实施网络化管理 “网络化”管理的要点是:a)实施并行工程。在产品研发过程中要全过程、全因素、全方位(技术性、可靠性、维修性、保障性、安全性、经济性等)并行进行。b)加强过程监控。尤其在产品研发过程中的可靠性判决点上即网络结点上,进行严格评审。c)加强信息传递与管理。网络化管理能够有效运转关键在于信息的沟通和快速传递。d)实施制度化和规范化管理。,,7 基本概念,美国国防部“电子设备可靠性顾问团”(AGREE) 在57年提出,66年美国MIL-STD-721B较正规地给出了传统的、经典的可
29、靠性定义: 可靠性是指产品在规定的条件下和规定的时间内完成规定功能的能力。各国标准中引证该定义,我国,GB3187-82给出可靠性定义如此相同。,,可靠性五要素:,(a)对象:产品。研究可靠性问题首先要明确研究对象。 产品泛指元件、组件、部件、设备和系统。 系统的概念相对的,可大可小。如:汽车(系统):包括变速箱、人机系统和发动机(分系统):活塞、连杆和曲轴(分系统):主轴颈、连杆轴颈和曲轴臂。 系统有时不仅包括硬件,也包括软件和人的判断和操作因素等。,,(b)规定条件,包括:运输条件、存储条件、环境条件(温度、压力、湿度、载荷、振动、腐蚀、磨损等)、使用方法、维修水平、操作水平以及运行条件。
30、 这些条件对产品寿命和功能都有很大影响。,,(c)规定时间,可靠性区别其它产品质量的重要特征。可靠性是产品功能在时间上的稳定程度,以数学形式表示可靠性的各特征量,时间函数。时间概念 (1)一般时间概念:年、月、日、时、分、秒 (2)与时间成比例概念:循环次数、距离不同产品有不同时间概念和表示方法。 如:海底电缆30-40年; 滚动轴承:小时; 齿轮:应力循环次数; 车辆:里程; 火箭、子弹:1次。,,(d)规定功能,研究可靠性要明确产品功能的内容。一般完成规定的功能指:在规定使用条件下,能维持所规定的正常工作而不失效(不发生故障);即产品在规定的功能参数下正常运行。失效:不一定是产品不能工作,
31、也可能是性能指标超标。产品的功能有主次之分,故障也有主次之分。有时次要功能不影响主要功能,不影响系统可靠性。,,(f)能力,可靠性是定性概念。可靠度是定量概念,可靠性的概率表示。 在实际应用中人们已经认识到上述定义的局限性,这只反映了任务成功能力。 美国80年,MIL-STD-785B,可靠性定义分为任务可靠性和基本可靠性。,,任务可靠性:产品在规定的任务剖面内完成规定功能的能力。 反映产品在执行任务时成功的概率,只统计危及任务成功的致命故障。基本可靠性:产品在规定条件下,无故障持续时间或概率。 包括了全寿命单位的全部故障,也反映了产品维修人力和后勤保障等要求。按不同用途把可靠性分为两种,是对
32、以往可靠性工作实践经验的总结合认识的深化,是可靠性的重要发展。,,产品运行时可靠性称为工作可靠性。 工作可靠性=固有可靠性使用可靠性固有可靠性:在产品设计和制造过程中已经确定并最终在产品上得到实现的可靠性。 产品的内在可靠性,与产品的材料、设计、制造、工艺以及检测精度等相关。使用可靠性:产品在使用中的可靠性。 与产品的使用条件条件相关,受使用环境、操作水平、保养与维修等因素的影响。,,,其它基本概念:失效、故障、维修、维修性失效 不可修复产品丧失规定功能的现象故障 可修复产品丧失规定功能的现象维修 为了恢复产品完成规定功能而采取的技术措施维修性 按规定条件使用的产品,在规定的时间内按规定的程序和方法进行维修,保持或恢复到完成规定功能的能力。有效性 =(可靠性 维修性),,维修性和维修度的提出,使得可靠性与可靠度有广义与狭义之分。广义可靠性:指产品在整个寿命期限内完成其规定功能的能力。其包括可靠性和维修性。广义可靠性对于可维修产品和不可维修产品有不同意义。可维修产品:提高可靠性和维修性;不可维修产品: 提高可靠性,