1、 施耐德电气旗下 的白皮书现收录于施耐德电气白皮书资料库 由施耐德电气数据中心科研中心发表 DCSCSchneider-E APC英飞 电源系统 可靠性分析 版本 2 作者 Stephen Fairfax, M Technology, Inc. Neal Downing, M Technology, Inc. Dan Healey, M Technology, Inc. 第 111 号白皮书 APC 英飞 产品线是集中式 UPS 的一种替代性系统架 构。MTechnology 公司利用概率风险评估(PRA)方 法,对 40kW 英飞不间断电源(UPS)和采用静态旁路 的电能分配单元(PDU)进
2、行了可靠性评估。评估计算 过程同时考虑了英飞在理想环境和现实环境中的性能表 现,并对英飞架构与假定支持数据中心内 500kW 关键 负载的集中式 UPS 进行了性能比较。结果显示,与集 中式 UPS 相比,使用英飞架构时数据中心所有负载运 行中断的可能性明显更低,同时也降低了任何一台 IT 设备断电 的风险。本白皮书梳理了 MTechnology 公司 定量分析评估的主要结果,探讨了这些研究发现对设施 经理和设计师的意义。文章首先阐述评估结果,然后介 绍了用于执行产品分析的方法,进而对评估结果进行了 深入讨论。 摘要 APC 英飞 电源系统可靠性分析 施耐德电气 数据中心科研中心 第 111
3、号白皮书 版本 2 2 1. 计算得到的 APC英飞产品可靠性与大型集中式 UPS供应商发布的数据不相上下。 2. 假设对由单台 500kW UPS或由 14台英飞 UPS所支持的数据中心进行比较后发现,后 者可显著降低整个系统断电的可能性,两种方法均存在无法避免的故障,比如 ATS,也 是系统故障的最常见原因。 3. 英飞的冗余特性明显提升了产品可靠性。 4. MTech在分析了电源模块发生故障的前因后果认为,虽然电源模块故障概率更大,但冗 余特性带来的优势明显抵消了这一缺陷。 5. 对常见原因的故障机制和可导致 UPS故障的潜在灾难性故障模式进行详细分析之后,发 现用于分析的产品可靠性并未
4、大幅降低。 6. 评估结果几乎不受假设的公用电力故障率的影响。这意味着英飞能执行其预定功能,保护 客户设备免遭市电瞬态变化和断电的影响。 7. 虽然我们不对 APC的产品或组件具有故障率较低的特点进行承诺,但 APC模块化设计 和对应的高出货量可以促使专职制造工厂以低成本制造出缺陷更少的产品。APC英飞生 产五个电源模块,而额定功率相同的非模块化设计只能生产一个产品。这一特点能促使该 产品线可靠性的加速增长。 8. 英飞架构使用工厂组装好的的配电线路,这与集中式 UPS产品配电系统现场接线相比, 具有巨大优势。配电线路极易产生的接线问题,最终可能导致关键负载断电。我们通过对 现场接线和工厂接线
5、的流程进行分析发现,现场接线产生缺陷的概率比工厂内接线的缺陷 率高出 1500倍。在此分析中,我们不对 APC产品的较低故障率进行承诺,也不认为集 中式 UPS具有更高故障率有任何不妥。 美国电力转换公司(施耐德电气)委托 MTechnology公司(MTech)对英飞 40kW UPS 和英飞 采用静态旁路的电能分配单元(PDU)进行了可靠性分析。APC希望利用概率风险评估 (PRA)方法考察产品的可靠性,探寻引发故障的潜在原因并评估进一步提升产品可靠性与可用 性的潜力。英飞的许多组件均采用冗余机制和可替换技术实现高可靠性和高可用性。按照 APC 的市场宣传,英飞产品系列是一款可扩展的“边成
6、长边支付”解决方案,可支持一行或多行设备机 柜。此设计可作为数据中心大型集中式 UPS的替代方案。 自 1997年以来,MTechnology公司(MTech)致力于为 7x24市场提供规范、定量化可靠性分 析方法。凭借数十年的深厚经验和几百万美元投资的项目用于提升美国核能工业的可靠性, MTech将 PRA技术用以研究如何在 7x24环境中实现高可靠性和高可用性。MTech的客户包括 电力公司、制造商、设计公司、关键设施业主和运营商。 MTech对英飞 40 kW UPS 和使用静态旁路的 PDU进行详细分析,采用的主要方法是故障树分 析法,辅以事件树分析法和贝叶斯(Bayesian)更新模
7、型,目的是通过对少量数据的分析确定组 件故障率。 此次研究包含对产品单独运行时的分析、在典型数据中心环境中运行 分析,以及在同一数据中 心内与典型集中式 UPS之间的可靠性对比分析。分析活动详细评估了设备的电气和机械设计、 工程验证和确认测试、制造技术以及在实际运行过程中的性能表现。MTech对 APC的设计工程 团队、产品支持团队、销售和服务数据库团队及高级管理层人员进行了访谈,并派遣数名工程师 前往 APC位于丹麦科灵的设计中心,与产品设计师和支持工程师密切协作,共同对用于评估产 品可靠性与可用性的数学模型进行了验证和扩展。 用户对 24/7全天候运行的信息系统的依赖日益增强,这一需求催生
8、了一个快速增长和发展的新 行业,专门为这一新兴市场提供产品和服务。过去该市场的服务对象主要是大型金融机构和采用 简介 分析结果 综述 APC 英飞 电源系统可靠性分析 施耐德电气 数据中心科研中心 第 111 号白皮书 版本 2 3 大型主机的公司数据库客户(如航空公司机票预订系统),而如今,对随需获取信息服务的需求 和应用已渗透到全球每一个企业和办事处。 电源的可靠性是这些随需获取信息服务的基本要求。公共电网通常无法满足电源质量和可靠性要 求。所有电力网络的保护系统均采用断电设计,旨在保护人员和设备使其免受因意外触电或设备 故障而受到进一步的伤害。 提升电源可靠性的首选产品是不间断电源,简称
9、 UPS。UPS能对市电进行调节,为受保护设备 (称为关键负载)提供接近完美的电压和电流。UPS还内置电池(或其它储能设备),可在公 用电源市电中断时继续为关键负载供电。UPS的制造历史已达数十年,APC自 1984年以来始 终致力于 UPS的生产。 UPS市场历来存在丰富多样的设计架构。英飞和多数面向数据中心市场的电源产品均采用双变 换体系架构,如图 1 所示。在双变换体系架构中,市电交流电整流为直流电。 直流总线将整流 器连接到电池(通常由多个串联和并联串组成,图中未显示)和逆变器。经逆变器处理后的交流 电压不受电力尖峰、电压骤降、谐波和短暂市电中断的影响。 整流器和逆变器以并联方式与静态
10、旁路开关连接。如整流器或逆变器发生故障,或如果关键负载 发生故障,所需电流超过 UPS供电能力,则旁路开关闭合。 连接总线连接旁路和一个或多个逆变器输出。有些 UPS使用多个逆变器,以实现更高的额定功 率或提供冗余。采用多个逆变器的系统通常配有多个整流器;整流器和逆变器装配在一起称为电 源模块。 在图 1 中,以虚线表示该部件为可选部件。例如,某些(但并非所有)UPS设备使用并联电池 串或多个电源模块并联。 双变换 UPS架构在能效方面有一定的劣势,因为两次变换会造成某些损失。由于该设计在市电 中断后无需采取开关切换或其它下面应对措施,因此在市场颇受欢迎。一旦直流总线电压下降, 电池即开始放电
11、,逆变器正常工作,直至市电恢复供电。 目前 UPS性能可靠,几种标准的设计方法已经占据主导地位。在向任何市场推出新产品时,主 要挑战在于向客户证明,新产品较之现有解决方案在各方面都旗鼓相当甚至略胜一筹。在 UPS 市场,这一问题的探讨很激烈,因为几乎每次系统的安装都是定制化安装,其外部设备、环境和 运行规范各不相同,使我们难以比较不同系统间的性能差异。另一方面,UPS解决方案好坏与 逆变器 整流器 交流侧输入 电池 模块 旁路开关 连接总线 电池 模块 逆变器 整流器 电源模块 电源模块 直流总线 电池 模块 电池 模块 图 1 双变换式 UPS APC 英飞 电源系统可靠性分析 施耐德电气
12、数据中心科研中心 第 111 号白皮书 版本 2 4 否存在另一个难以确认的障碍,即:故障相对而言极少,关于各种型号故障问题的可信数据源十 分稀少或几乎不存在。多数大型 UPS厂商的承诺设备运行百年产生的故障最多为一次,但很少 有数据中心或 UPS的使用寿命能超过 20 或 30年。 在推出一种新产品时,可以通过观察其故障次数来确定其可靠性。但这种方法有其自身不足。首 先,将客户当作试验的主体和对象。其次,即使是设计拙劣或存在制造问题的产品也可能不会经 常出现故障,因此常常需要数月甚至数年观察,才能获得具有统计学意义的数据。第三,要实现 关键系统(如飞机、防抱死刹车和电话交换机)的可靠性,必须
13、长年累月对大量基本相同的组件 持续观察。目前 UPS已经应用于相当多定制化设计的数据中心。每个数据中心都拥有与其它不 同的设计,数据中心内的 UPS必须面对不同的运行环境和管理实践。为应对此趋势,UPS厂商 必然针对持续增长的客户推出各种可定制的解决方案,应对下一个定制化数据中心的设计规格。 在采用新产品之前利用一些方法考察其可靠性肯定会提高效率并降低成本开销,避免使成千上万 的客户暴露于危及可靠性的各种潜在错误之下。了解几个相互竞争的产品提案中可靠性分析也是 成本最小的极为有用的方法。产品设计师非常清楚哪些组件和子系统对于产品的整体可靠性的意 义最大。负责跟踪产品的实际使用性能,并快速发现和
14、纠正产品不足或缺陷的产品支持工程师如 能了解最容易出现故障的元器件的情况,他们将获益良多。如发现某些设备与预测的情况不符, 就有可能 需要集中调查和采取可能的补救方案。 概率风险评估(PRA)方法的开发,最初是为解决令早期的火箭工程师无比烦恼的一个问题 他们历尽艰辛开发的火箭常常因为层出不穷的各种问题而无法正常工作。通过数学分析发现,在 火箭或数据中心等高度互联的系统中,“链条强度取决于最薄弱的一环”这样的格言已不足为训。 在互联系统中,链条变成了一张网,包含许多薄弱环节和不起眼的细线,将一个个区域相互连 接。网络中某个部分出现故障将为其他部分带来未曾预见的压力,最终导致其他部分也陷入停 顿。
15、因此,在这样一个环境中,即使微小的异常也会造成一系列连锁故障,最终会导致整个系统 全盘瘫痪。 概率风险评估技术最初作为消除公众对安全问题顾虑的解决方式,被广泛应用于美国核电工业。 自三哩岛(TMI)核泄漏事故威胁到一个价值数十亿美元的行业生存发展时,便引入概率风险评 估技术,并加以扩充丰富,不仅包含设计选择,而且还包括运维决策和管理实践影响。这一做法 取得了可喜的成果,不仅再也没有发生过类似三哩岛核泄漏事故,而且这 103 座发电厂现在每 年发电比 TMI事故发生前还多出 20%。发电厂连续运行 18 个月或 24 个月不发生强制断电正成 为常态,它仅在需要补给燃料时关闭。概率风险评估同时对维
16、护策略提供建设性意见,并证明许 多所谓的“最佳实践”实际上不必要地增加了元器件的故障和事故风险。 概率风险评估技术加以妥当运用,无疑是一款强大的工具。构建逻辑模型的过程可对决策、功能 和假设等产品形成因素进行一次全面审查。另一方面,其运算过程的数学特性降低了对经验和其 他常见逻辑谬论的依赖,这种依赖正是可靠性定性评估的显著特征。通常,宣称拥有“二十载丰 富经验”,基本上是指 1年学习过程加 19年的机械重复操作。 MTech的 PRA计算方法经常受到质疑,特别是某些时候我们的客户相信,系统的实际可靠性大 大超过我们的计算结果。通过对数学模型中的逻辑进行审核可以揭示双方对于系统的功能性行为 是否
17、存在任何错误判断或理解误区。将组件故障率改为客户选择的数值,几乎不会使最终计算结 果产生明显变化。几乎所有的 UPS均带有旁路开关等冗余路径。在冗余设计中,系统可靠性不 应对组件故障率过分敏感。 概率风险评估的价值源自定量结果及其确定各组件对故障影响程度的能力。如果对各组件在系统 正常运行或故障中的作用没有量化、可重现的计算结果,根本无法合理配置资源,更毋须谈配置 资源的最优化。借助冗余性对系统可靠性进行定性的传统做法就说明了这一点。许多数据中心设 计采用“N +1”或“N + 2”,甚至“2N”或“2N + 1”来表示。含义是,系统正常运行需要 N 个组件,且 有额外 1个、2个、N个或 N
18、+1个组件可用。显然,并不是所有冗余设计对保障可靠性发挥着相 同的作用。存在 1% 开机失败率的冗余备用发电机对保障可靠性的作用比冗余干式变压器要大得 多,后者故障率非常低,随意将在这类冗余设备上的花费挪作他用都能获得更高效益。若缺少确 定量化各组件个体影响的能力,无论是否设计冗余功能,设计师和购买者都无法对如何最有效地 使用有限的经济资源和其他资源作出明智决定。利用概率风险评估技术,这些问题可以迎刃而 解。 APC 英飞 电源系统可靠性分析 施耐德电气 数据中心科研中心 第 111 号白皮书 版本 2 5 冗余设计存在一些基本问题。虽然冗余设计使单个组件或子组件在发生故障时不会导致系统整体
19、故障,理论上可以提高系统可靠性,但这一方法的成本极高,而且存在严重的潜在缺陷。一个冗 余系统包含多个组件,而通常情况下组件较多的系统可能产生更多故障。(比如,双引擎飞机每 运行一小时发动机故障大约是同类单引擎飞机的两倍)在冗余系统中,必须借助非常可靠的机制 来识别故障组件,并将其从系统中隔离开来,否则冗余的优势将悉数丧失,而组件故障次数反而 在增加。 有些故障模式可同时影响多个组件。这些常规故障显著削弱了冗余特性的优势。设计缺陷、制造 缺陷、安装、维护或维修过程中产生的缺陷都会导致故障,使多个独立设备停运,最终造成整个 系统崩溃,即使有冗余设计也难以幸免。某些组件的灾难性故障可损坏相连设备或附
20、近设备,并 造成系统故障,冗余设计也于事无补。 MTech对原用于核能工业的 PRA方法和软件进行改良后,借此分析英飞产品系列,并将其性能 与传统系统进行比较。他们利用获得的数学模型回答了某些重要问题。为实现高可靠性,几乎所 有英飞组件均采用了冗余设计。MTech的分析显示,冗余特性既存在固有优势也存在高成本问 题;同时,与其他子系统相比,某些子系统从冗余中获益较少。 本研究主要目的是考察产品的可靠性,但许多厂商更乐于讨论可用性。两者之间存在微妙而重大 的差别。可靠性是指系统在既定时间段内按照设计目标平稳运行的概率,其中必须明确规定时间 段(也被称为目标)。747客机在起飞后的性能极为安全可靠
21、,如连续飞行 14小时或更短时间 其成功着陆且设备或乘客安然无恙的几率远高于 99.99%。但如果航程为 36小时,747的可靠性 将降为零,因为在飞行任务完成之前必定会耗尽燃油。 可用性是指系统保持连续运行的时间。可用性可与目标时间相关联,或者可以表示为长期可用 性,即随着时间向无穷推移时的可用性渐近线。要确定可用性,必须获知系统发生故障后修复系 统所需的时间。在故障率相同的情况下,可迅速修复的系统处于工作状态的时间将高于维修更加 耗时的系统,因此前者可用性也更高。 虽然同时对这两个指标进行计算和考察非常必要,但 MTech认为,相比较而言,可靠性(或更 准确地说是不可靠性)也就是在给定时间
22、段内的故障概率对于数据中心业主和运营商来 说更具意义。可靠性极高但维修时间较长的系统与经常出现故障但能快速恢复运行的系统相比, 其可用性与后者相同或更低。如果数据中心发生断电,不管供电恢复得有多迅速,数据中心断电 所造成的成本和其它损失都极为惨重。因此,如果数据中心业主掌握了做出知情决策所需的信 息,他们之中的多数人会选择可靠性更高的系统。 使用故障概率(不可靠性)的主要原因是我们的最终用户认为这是最有用的参数。很少有公司熟 悉概率风险评估方面的数学技术,高管和经理面对风险程度各异的竞争提案经常感到无所适从。 风险是概率和结果的函数。在购买保险或灾难恢复计划时,许多公司会根据风险评估结果(即遭
23、 受损失的概率乘以他们预计的损失量)来做出购买决策。多数运营数据中心的公司在发生一次断 电事件之后会遭受巨额损失,因此他们必须了解发生这类事件的风险和可能性,然后才能做出关 于增加投资或实施其他风险缓解措施的知情决策。 使用故障概率的第二个原因是,它是机构内通用的常规指标。APC开发了一个 4层的层级结 构,描述一个典型公司中各种系统之间的交互关系。最上层包含人员、下一层是流程、第三层是 信息技术,最底层为基础设施,包括电力设施。即便是一次故障也将极大地改变每个层级的可用 性。 举例来说,假设一家公司在 10年经营过程中经历了一次 UPS系统断电事件: 基础设施层在 10分钟后恢复供电。他们的
24、可用性可以这样计算:A = 87599.8 / 87600 = 99.9998%。因此可以说基础设施层达到了“5个 9”的可用性。 如果 IT设施在 12小时后恢复运行,他们的可用性如下:A = 87588 / 87600 = 99.99%, 他们达到了“4个 9” 的可用性。 可靠性与可用性 APC 英飞 电源系统可靠性分析 施耐德电气 数据中心科研中心 第 111 号白皮书 版本 2 6 如果考虑流程或应用经理花了 2天时间才修复数据库损失并恢复正常工作流,他们的可用 性为 A = 87552/87600 = 99.95%,因此可以说达到了“3个 9”的可用性。 管理人员需用两个月的时间安
25、抚客户,提交 SEC报告,解聘相关人员,招聘并培训新人。他们 可能不会计算其可用性,但如果真去计算,他们的可用性可能只有 A = 86160/87600 = 98.4%, 因此,如果听说他们的可用性仅为“2个 9”,他们可能会非常沮丧。 以上数字是设施内部各个点的典型修复时间。这些数字表明,人们所认知的可用性水平取决于观 察者的视角。整个机构的故障概率是 10年一次,公司各个级别的部门均是如此。如果系统的可 靠性相对较高,则发生多次故障的概率很低,因此只需考虑首次故障的可能性即可。 研究以英飞产品系列的简单介绍开始,并在位于马萨诸塞州和罗德岛的 APC办事处对 UPS和 PDU产品进行了详细了
26、解审查。APC提供工程设计文档并请 MTech对现场服务人员进行访谈, 以了解产品制造过程。 MTech开发了一个系统故障树模型。故障树模型的全面描述不属于本文的范畴,但也可轻松得 到相关的大量的文字资料和文章。第一个模型考察了 APC产品独立使用时的状况。假设市电输 入没有任何问题,客户负载也同样完美无缺。该模型考察 UPS和 PDU内部故障导致关键负载掉 电的频率。 部署 UPS即等于向系统新增一个组件,相当于在关键负载的电路中产生一个新的故障模式, UPS厂商和购买者通常忽视了这一事实。任何操作都会对可靠性带来正面和负面影响;目标是 将前者最大化,而将后者最小化。初期的故障树模型能识别其
27、性能对系统可靠性产生显著影响的 组件和子组件。一旦发现,MTech继而会对这些组件展开更深入的检查评估。 本文作者前往 APC位于丹麦科灵的设计中心,用一周时间与产品设计师进行了深入交谈和讨 论。全面考察了产品的开发过程、设计规则、验证和确认测试、评估和质保要求以及现场服务记 录,同时翻阅了关于此产品和以往类似产品的大量记录资料。最后提交了初期的故障树分析报 告,便于审核和指正,继而又对其进行修正,修正某些自身的错误理解并增加了关于故障起因 (特别是常规故障)的细节信息。 某些元器件有多个故障模式。连接总线、电池、控制系统和电源模块有两种故障模式:普通故障 和灾难性故障。这些元器件的灾难性故障
28、会导致 UPS失效,但普通故障不会,由于元器件采用 冗余设计。一种形式的灾难性故障是元器件已发生故障,但未被发现。故障元器件会导致其他元 器件发生异常操作,或者故障元器件的状态可能继续恶化,直到发生更严重的故障。从物理层面 看,有的灾难性故障模式会导致等离子体排放到 UPS内部,造成多个电源线路和控制电路短 路,并导致负载掉电。灾难性故障所占比例是元器件的关键参数。在此次研究活动开始之初,我 们通过分析得出结论,所有元器件故障中大约 1%属于灾难性故障。在完成最初的建模工作并与 APC工程师共同对模型进行评估之后,我们调整了灾难性故障的占比,以反映实际的现场数 据。灾难性故障与一般故障之间的比
29、例为 1%,这一比例是相当准确的。图 2 总结了这个阶段的 研究成果。 研究与评估过程 APC 英飞 电源系统可靠性分析 施耐德电气 数据中心科研中心 第 111 号白皮书 版本 2 7 PDU变压器故障和连接总线(电源模块与旁路开关之间的并联连接点)的灾难性故障占所有预 期故障的 72%。虽然元器件故障率为每小时 1.2 x 10 -7 ,相当于平均无故障时间为 830万小时, 但输入与输出塑壳断路器(MCCB)故障所占比例仍接近 17%。 在与 APC工程师共同讨论了建模和最初研究结果之后,修改了最初的故障树模型,然后对其加 以扩展,以体现产品的实际工作环境。模型中考虑了市电故障、发电机启
30、动故障和转换开关(负 责在市电和发电机之间切换)故障。并探讨了电路故障对客户设备所产生的影响。 对产品进行“实际运行环境”分析时,发现了一些新问题。分支断路器的故障是否应视作产品故 障?虽然塑壳断路器相当可靠,其误跳闸的平均无故障时间(MTTF)超过 800万小时,但即使 在一般数据中心也会发生大量误跳闸事件,使得断路器故障在预期故障中占了很大比例。 基于之前针对某个真实数据中心开展的研究,曾建立了一个“典型”的数据中心配电系统的故障树 模型。“典型”这个词可能不宜用来描述数据中心设计,因为数据中心几乎没有标准化的设计,而 且我们也无法保证所选的例子属于平均水平、低水平还是高水平,但我们能保证
31、,我们的模型是 基于一个实际的、最近刚建造好的数据中心。图 3 为这个数据中心的单线图,采用的是 500千瓦 的集中式 UPS。图 4 所示是支持同一负载的 14台 APC 英飞 UPS的等效单线图。请注意,两种 情况下的电源和配电系统是类似的。 连接总线 39.8% 保险丝 0.6% PDU 隔离变压器 32.2% 输入输出 MCCB 16.5% 其它 0.3% 母线 10.6% 图 2 各个元器件件的故障贡献 率:仅涉及英飞,不含市 电故障 APC 英飞 电源系统可靠性分析 施耐德电气 数据中心科研中心 第 111 号白皮书 版本 2 8 BIG-MAIN-SWG-OUT-BKR ALL-
32、CBS PDU DIST-PNL-OUT-BKR DIST-PANEL DIST-PNL-IN-BKR DIST-BD-OUT-BKR DIST-BOARD DIST-BD-IN-BKR BIG-UPS MAIN-SWG MAIN-SWG-IN-BKR GEN-SWG-OUT-BKR GEN-SWG GEN-SWG-IN-BKR GEN-FTR ATS SERV-BKR SERVICE UTIL-XFMR UTILITY MAIN-BKR 2.5 MVA 3000 A 480 V 4000 A 3000 A 3000 A ATS 5000 A 480 V 3000 A 4000 A UPSSw
33、itchgear 4000 A 480 V 3000 A 1600 A Distribution board 1600 A 480 V 1200 A 800 A Distribution panel 1200 A 480 V 800 A 250 A PDU G 2500 kW GENSET One Large UPS per system ALL CBs UTILITY Repeated 13 more times图 3 500kW 数据中心的大型 UPS 单线图 大型 UPS 系统单线图 APC 英飞 电源系统可靠性分析 施耐德电气 数据中心科研中心 第 111 号白皮书 版本 2 9 2/
34、5-UPS-MOD-1-THRU-5 ALL-CBS UPS/PDU-OUT-BUS MAINT-BKR UPS/PDU-OUT-BUS-BKR FUSE UPS/PDU-IN-BUS-BKR UPS/PDU-IN-BUS UPS/PDU-XFMR UPS/PDU-IN-BKR MAIN-SWG-OUT-BKR MAIN-SWG MAIN-SWG-IN-BKR ATS GEN-SWG-OUT-BKR GEN-SWG GEN-SWG-IN-BKR GEN-FTR SERV-BKR SERVICE MAIN-BKR UTIL-XFMR UTILITY G 2500 kW GENSET 3000 A
35、 ATS 480 V/ 208 V Delta-Wye F1 3000 A 3000 A 100 A 100 A 200 A 150 A UPS 150 A ALL CBs 3000 A 480V Distribution Panel 4000 A 480 V Distribution Panel PDU output bus PDU input bus APC InfraStruXure 40 kW 480 Volt Utility 4000 A 5000 A 480V Distribution Panel 4000 A 3000 A Repeated 13 more times从厂商的出版
36、物和第三方出版文件中收集大量故障数据,了解电源系统元器件的故障率。利用常 见的假设条件定义成功或故障的判断标准。如一个或多个电源模块发生故障,但最终向旁路的成 功切换,则计为一次成功。因电池耗尽而导致的故障不计一次故障,除非电池的耗尽速度异常, 或者在市电中断时电池也停止供电。假定每季度进行一次电池检查测试,而且做出以下乐观假 设,即这种检查会以接近 100%的准确率发现故障电池或连接问题。尽管在另外一份分析报告中 称,至少某些操作人员错误可归咎于不良的人机工程学或误导性指示,因操作人员的人为错误造 成的断电不计一次故障。 利用标准统计方法将各个独立的故障率组合为一个估算值,并将其应用于与“集
37、中式 UPS”的比 较。如此计算出的连接总线(有时被称为关键总线)处大型 UPS的故障率几乎恰好为每小时 1 x 10 -6 。 这完全符合 100万小时平均无故障时间(MTTF)标准。研究包含了 Liebert针对其 600 图 4 500kW 数据中心使用的 APC 英飞 UPS APC 英飞 电源系统可靠性分析 施耐德电气 数据中心科研中心 第 111 号白皮书 版本 2 10 系列 UPS产品所收集的数据和完成的分析工作,而且我们的研究结果与 Liebert 的分析结果基本 吻合。 1大型 UPS出现的故障数量相对很少。Liebert报告披露在 2亿小时的设备使用历史上仅出现 80 次
38、故障,同时该报告还指出,由其他人维护的设备可能未报告故障。由于报告的故障数量很少, 漏掉几个故障就可使结果产生重大偏差。我们赞同 Liebert的方法,也理解其谨慎指出 MTBF“超 过 100万小时”这一做法。UPS故障率的降低将不会显著改善最终负载断电概率,如下文的结果 所示。 必须强调的一点是,我们对大型 UPS的分析和建模不像对 APC产品的分析那样详细。我们只是 获取整台 UPS的合理故障率,然后将其用于产品之间的比较。我们发现其他厂商公布的电源模 块故障率与我们对 APC电源模块的分析结果大致相当,此外,常规故障包括控制系统故障 和灾难性元器件故障是造成 UPS故障的最常见原因。这
39、与我们对 APC现场数据的详细分析 以及对灾难性故障模式的模拟完全一致。 我们为两个假想数据中心构建了故障树;其中一个使用单个 500kW UPS,另一个使用 14台 APC 英飞产品支持同一负载。我们未模拟制冷系统,也未考虑 UPS输出负载不满 100%时所产 生的影响。 图 5 显示了对英飞架构的分析结果,图 6 显示了对集中式 UPS架构的分析结果。英飞系统的故 障率(故障定义为数据中心的所有关键负载全部掉电)比集中式 UPS系统的故障率大约低 40%。 电池故障在集中式 UPS系统故障中占很大比例,但在英飞系统中则可以忽略不计。我们假定两 个系统的电池故障率相同。之所以出现以上差异是因
40、为我们在集中式 UPS系统模型中采用了单 个 VRLA电池串。英飞系统使用了 8个串联并联电池串(4个正极和 4个负极电池串),可能将 带多个故障电池串运行。英飞电池串的电压是 196VDC,而典型的集中式 UPS电池串的额定电 压为 400VDC或更高。电池串的电压越高,每个组合中的电池越多,其可靠性将低于电压较低 的电池串。如果集中式 UPS架构采用两个或更多的并联电池串,则导致关键负载停运的电池故 障将大为减少。即使弱化电池故障方面的影响,英飞系统的故障率(故障定义为数据中心的所有 关键负载全部掉电)也比同级别集中式 UPS架构的故障率低约 18%。其它差异是因为两者的架 构不同,而非源
41、自于组件故障率的不同。 如单线图(图 3 和 4)所示,从市电、发电机到转换开关等设备中常见的缺陷会同时影响英飞系 统和集中式 UPS设备。英飞方法仅在公共电力基础设施失效时才会使所有负载掉电,比如主入 口总线发生故障或转换开关无法开启时。对于英飞系统,所有 14台设备因内部故障同时失效的 概率极低。相反,集中式 UPS和旁路一失效,使所有负载将停运。这是另外一种故障源,在英 飞架构中并不存在。请注意,如果故障的定义改变,即一个 PDU失效也算作一个故障,则两种 方法之间的可靠性差异将进一步缩小。英飞输入或输出断路器的故障将导致部分负载停运,正如 同集中式 UPS系统的 PDU输入断路器故障也
42、会导致部分负载停运。 第二个架构差异在于,减少了断路器数量,这些断路器可能发生跳闸并致使 UPS电源无法满足 所有负载。在使用转换开关之后,集中式 UPS单线图中有 5个断路器,其中两个位于 UPS输入 端,3个位于 UPS输出端。输出断路器故障会导致关键负载立即掉电,而输入断路器故障会在 UPS电池耗尽之后使负载掉电。对跳闸的断路器进行修复,同时 UPS以电池组在 10-45分钟内 维持低于额定值的电流水平,这在理论上是可行的,但难免引发其他故障。英飞架构在使用转换 开关之后,只有一个断路器会导致所有关键负载掉电。 1http:/ 3月最后一次访问 APC 英飞 电源系统可靠性分析 施耐德电
43、气 数据中心科研中心 第 111 号白皮书 版本 2 11 对操作人员人为错误对 UPS故障的影响做了分析后,结果发现 APC产品和大型 UPS之间没有 明显差异。这是基于数据中心的操作人员对英飞 UPS进行操作的频率是大型 UPS频率的 14倍 的假设前提下,也就代表在任何指定操作过程中行为修正因子分析的出错概率明显降低。在一定 程度上,APC的架构中因人为操作失误而产生的负面影响也就很明显降低。 分析发现,配电系统的故障率令人极为关注,其中涉及 UPS输出和关键负载之间的线路和保护 设备。APC英飞架构和集中式 UPS架构均存在此问题。为此我们对 APC配电系统的工厂制造 方法进行了详细考
44、察。我们评审了 APC配电系统在工厂配线式时采用的过程控制和质量保证技 ATS 故障 94.9% 主开关柜 3.6% 发电机、主断路器 或者其它断路器 0.6% 发电机组和市电掉电 0.9% 新型数据中心 英飞架构各元器件失效占系统故障的比例 末端微型断路器 6.5% 配电开关柜 1.3% ATS 故障 57.1% UPS 故障 6.0% 主开关柜故障 2.1% 发电机组或市电断电 0.7% 当市电失效时 电池失效 25.9% 发电机、主断路器 或者其它断路器 0.4% 新型数据中心 集中式UPS架构各元器件失效占 系统故 障的比 例 图 5 不同元器件失效占系统故障 的比例:英飞架构 图 6
45、 不同元器件失效占系统故障的比 例:集中式 UPS 架构 APC 英飞 电源系统可靠性分析 施耐德电气 数据中心科研中心 第 111 号白皮书 版本 2 12 术和方法,并将其与采用集中式 UPS的数据中心的传统的现场配线方法进行了比较。(在现代 化数据中心,针对任何流程使用“标准”一词都不合适)。虽然我们的分析显示,工厂配线式配电 系统的布线错误率大为降低,但我们并未在此处的分析结果中计入这些影响,因为本文旨在对架 构进行客观的同类比较,而非对某些特定产品展开竞争优势分析。 MTech发现,与使用基于单电池串的单模块 UPS的数据中心相比,采用英飞架构的数据中心在 可靠性方面具有明显优势。虽
46、然英飞系统中的冗余子系统成功降低了 UPS故障概率,但两者共 同采用的外部系统的影响却消弭了这一差异。PRA显示,在集中式 UPS中使用并联冗余电池串 将缩小但不会消除可靠性方面的差异。多数 UPS凭借电池电源仅能为关键负载提供几分钟的支 持。如需更长时间的保护,则需配备备用发电机或其他电源,而且还需要一个自动转换开关 (ATS)在备用电源和市电之间切换。MTech的分析表明,ATS的效能通常是高可靠性的限制 因素。 数字结果显示,在同一个数据中心,与集中式 UPS相比,使用英飞架构的数据中心模型造成所 有关键负载停运的可能性大约低 40%。为集中式 UPS增加一个冗余电池串可显著提升可靠性,
47、 但在一年的运行过程中,英飞架构导致故障的可能性仍比集中式 UPS低 18%。如果改变故障的 定义,这些结果也将发生变化。如故障的定义也包含因分支电路故障而非 UPS故障导致的任何 一个负载掉电,则英飞架构导致故障的可能性比集中式 UPS低 6%。之所以从 18%降至 6%,主 要是因为塑盒断路器误跳闸增加了两者的不可靠性。输入数据、现场安装质量的不确定性以及竞 争产品相互间的差异足以使上述微弱优势消失于无形。 为公平起见,用于比较英飞系统和传统 UPS的模型针对所有元器件使用了相同的故障率。为建 立竞争优势,APC根据 MTech的分析结果启动了一项提升相关元器件可靠性的计划。APC改良 了
48、 PDU变压器的构造,消除了若干最常见的故障模式。他们改善了接线总线并改进了与模块之 间的连接。APC在将每个断路器安装进英飞系统之前,会对其进行 100%的测试,而仅有部分 (绝不是全部)数据中心会在安装前测试分支断路器。而 MTech在比较两种系统时使用了相同 的断路器故障率。根据 MTech对断路器故障模式的分析,APC目前正在调查断路器故障原因, 并将考虑采用新的测试方法,以便明确最容易发生故障的元件。 MTech的分析显示,架构不同是英飞和集中式 UPS的主要区别所在,而不是元器件数量或可靠 性方面的差异。客户在数据中心的物理环境中使用 UPS产品时会对其可靠性有所感受。在此环 境中
49、,英飞系统的可靠性始终优于集中式 UPS架构,但一旦变更故障定义(即故障的定义从整 个数据中心掉电变为单个分支电路掉电),这种差异将显得微不足道。基于这些研究结果,我们 在两种架构中都发现了有待改进的领域,只需在元器件选择或使用方面进行小幅改动即可显著提 升可靠性。据我们所知,关于利用正式的定量 PRA方法指导 UPS产品开发和生产流程,这是业 内首次公开发布相关资料。 APC的宣传资料称,虽然其可靠性与同类产品相比并不出众,但英飞架构具有无与伦比的成本 和灵活性优势,因此明智的客户通常会选择该产品。对拥有成本和相关问题的分析可参见各白皮 书,本文不作进一步讨论。如需更多信息,请参见第 37号白皮书避免数据中心和网络机房基 础设施因过度规划造成的资金浪费和第 6号白皮书确定数据中心和网络机房基础设施的总拥 有成本。 MTech分析了英飞系统的制造