1、【HVAC】数据中心研究():关键性能指标、电能使用效率PUE 和 EEUE0 引言世界能源委员会 1995 年对能源效率的定义为:减少提供同等能源服务的能源投入。对于能耗居高不下的数据中心,研究提高能源效率具有深远的社会效益和经济效益。除了能源效率之外,数据中心还有多项其他性能指标,按照国际标准组织 ISO 的定义统称为关键性能指标,或称为关键绩效指标,研究这些指标对于数据中心同样具有十分重要的意义。在已经颁布的数据中心性能指标中最常见的是电能使用效率 PUE。在我国, PUE 不但是数据中心研究、 设计、设备制造、建设和运维人员最为熟悉的数据中心能源效率指标,也是政府评价数据中心工程性能的
2、主要指标。除了 PUE 之外,2007 年以后还出台了多项性能指标,虽然知名度远不及PUE,但是在评定数据中心的性能方面也有一定的参考价值,值得关注和研究。PUE 在国际上一直是众说纷纭、莫衷一是的一项指标,2015 年 ASHRAE 公开宣布,ASHRAE 标准今后不再采用 PUE 这 一指标,并于 2016 年下半年颁布了ASHRAE 90.4 标准,提出了新的能源效率;绿色网格组织(TGG)也相 继推出了新的能源性能指标。对 PUE 和数据中心性能指标的讨论一直是国际数据中心界的热门议题。鉴于性能指标对于数据中心的重要性、国内与国际在这方面存在的差距,以及在采用 PUE 指标过程中存在的
3、问题,有必要对数据中心的各项性能指标,尤其是对 PUE 进行深入地研究和讨论。1 性能指标 ISO 给出的关键性能指标的定义为:表示资源使用效率值或是给定系统的效率。数据中心的性能指标从 2007 年开始受到了世界各国的高度重视,相继推出了数十个性能指标。2015 年之后,数据中心性能指标出现了较大变化,一系列新的性能指标相继被推出,再度引发了国际数据中心界对数据中心的性能指标,尤其是对能源效率的关注,并展开了广泛的讨论。2 PUE2.1 PUE 和衍生效率的定义和计算方法 2.1.1 电能使用效率 PUETGG 和ASHRAE 给出的 PUE 的定义相同:数据中心总能耗 Et 与 IT设备能
4、耗之比。GB/T32910.32016 给出的 EEUE 的定义为:数据中心总电能消耗与信息设备电能消耗之间的比值。其定义与 PUE 相同,不同的是把国 际上通用的 PUE(powerusage effectiveness)改成了 EEUE(electricenergy usage effectiveness)。国内 IT 界和暖通空调界不少专业人士对于这一变更提出了不同的看法,根据 Malone 等人最初对 PUE 的定义,Et 应为市电公用电表所测量的设备总功率,这里的 Et就是通常所说的数据中心总的设备耗电量,与GB/T32910.32016 所规定的 Et 应为采用电能计量仪表测量的数
5、据中心总电能消耗的说法相同。笔者曾向 ASHRAE有关权威人士咨询过,他们认为如果要将“power”用“electricenergy”来替代,则采用“electricenergy consumption”(耗电量)更准确。显然这一变更不利于国际交流。虽然这只是一个英文缩写词的变更,但因为涉及到专业术语,值得商榷。ISO 给出的 PUE 的定义略有不同:计算、测量和评估在同一时期数据中心总能耗与 IT 设备能耗之比。2.1.2 部分电能使用效率 pPUETGG 和 ASHRAE 给出的 pPUE 的定义相同:某区间内数据中心总能耗与该区间内 IT 设备能耗之比。区间(zone)或范围( boun
6、dary)可以是实体,如集装箱、房间、模块或建筑物,也可以是逻辑上的边界,如设备,或对数据中心有意义的边界。ISO 给出的 pPUE 的定义有所不同:某子系统内数据中心总能耗与 IT 设备总能耗之比。这里的“ 子系统” 是指数据中心中某一部分耗能的基础设施组件,而且其能源效率是需要统计的,目前数据中心中典型的子系统是配电系统、网络设备和供冷系统。2.1.3 设计电能使用效率dPUEASHRAE 之所以在其 标准中去除了 PUE 指标,其中一个主要原因是 ASHRAE 认为 PUE 不适合在数据中心设计阶段使用。为此 ISO 给出了设计电能使用效率 dPUE,其定义为:由数据中心设计目标确定的预
7、期 PUE。数据中心的能源效率可以根据以下条件在设计阶段加以预测:1)用户增长情况和期望值;2)能耗增加或减少的时间表。dPUE 表示由设计人员定义的以最佳运行模式为基础的能耗目标,应考虑到由于数据中心所处地理位置不同而导致的气象参数(室外干球温度和湿度)的变化。2.1.4 期间电能使用效率 iPUEISO 给出的期间电能使用效率 iPUE 的定义为:在指定时间测得的PUE,非全年值。2.1.5 电能使用效率实测值 EEUE-RGB/T32910.32016 给出的 EEUE-R 的定义为:根据数据中心各组成部分电能消耗测量值直接得出的数据中心电能使用效率。使用 EEUE-R 时应采用 EEU
8、E-Ra 方式标明,其中 a 用以表明 EEUE-R 的覆盖时间周期,可以是年、月、周。2.1.6 电能使用效率修正值 EEUE-XGB/T32910.32016 给出的 EEUE-X 的定义为:考虑采用的制冷技术、负荷使用率、数据中心等级、所处地域气候环境不同产生的差异,而用于调整电能使用率实测值以补偿其系统差异的数值。2.1.7 采用不同能源的 PUE 计算方法数据中心通常采用的能源为电力,当采用其他能源时,计算 PUE 时需要采用能源转换系数加以修正。不同能源的转换系数修正是评估数据中心的一次能源使用量或燃料消耗量的一种方法,其目的是确保数据中心购买的不同形式的能源(如电、天然气、冷水)
9、可以进行公平地比较。例如,如果一个数据中心购买当地公用事业公司提供的冷水,而另一个数据中心采用由电力生产的冷水,这就需要有一个系数能使得所使用的能源在相同的单位下进行比较,这个系数被称为能源转换系数,它是一个用来反映数据中心总的燃料消耗的系数。当数据中心除采用市电外,还使用一部分其他能源时,就需要对这种能源进行修正。2.1.8 PUE 和 EEUE 计算方法的比较如果仅从定义来看,PUE 和 EEUE 的计 算方法十分简单,且完全相同。但是当考虑到计算条件的不同,需要对电能使用效率进行修正时,种效率的计算方法则有所不同。1)PUE 已考虑到使用不同能源时的影响,并给出了修正值和计算方法;GB/
10、T32910.32016 未包括可再生能源利用率,按照计划这一部分将在GB/T32910.4可再生能源利用率中说明。2)PUE 还有若干衍生能源效率指标可供参考,其中 ISO 提出的 dPUE 弥补了传统 PUE 的不足;EEUE 则有类似于 iPUE 的指标 EEUE-Ra。3)EEUE 分级( 见表 1)与 PUE 分级(见表 2)不同。表 1 EEUE 分级要求表 2 PUE 分级 4)EEUE 同时考虑了安全等级、所处气候环境、空调制冷形式和 IT 设备负荷使用率的影响。ASHRAE 最初给出了 19 个气候区的 PUE 最大限值,由于 PUE 已从 ASHRAE 标准中去除,所以目前
11、的 PUE 未考虑气候的影响;ISO 在计算 dPUE 时,要求考虑气候的影响,但是如何考虑未加说明;PUE 也未考虑空调制冷形式和负荷使用率的影响,其中 IT 设备负荷率的影响较大,应加以考虑。2.2 PUE 和 EEUE 的测量位置和测量方法 2.2.1 PUE的测量位置和测量方法根据 IT 设备测点位置的不同,PUE被分成 3 个类别,即 PUE1 初级(提供能源性能数据的基本评价)、PUE2 中级(提供能源性能数据的中级评价)、PUE3高级(提供能源性能数据的高级评价)。PUE1 初级:在 UPS设备输出端测量 IT 负载,可以通过 UPS 前面板、UPS 输出的电能表以及公共 UPS
12、 输出总线的单一电表(对于多个 UPS模块而言)读取。在数据中心供电、散热、调节温度的电气和制冷设备的供电电网入口处测量进入数据中心的总能量。基本监控要求每月至少采集一次电能数据,测量过程中通常需要一些人工参与。PUE2 中级:通常在数据中心配电单元前面板或配电单元变压器二次侧的电能表读取,也可以进行单独的支路测量。从数据中心的电网入口处测量总能量,按照中等标准的检测要求进行能耗测量,要求每天至少采集一次电能数据。与初级相比,人工参与较少,以电子形式采集数据为主,可以实时记录数据,预判未来的趋势走向。PUE3 高级:通过监控带电能表的机架配电单元(即机架式电源插座)或IT 设备 ,测 量数据中
13、心每台 IT 设备的 负载(应该扣除非 IT负载)。在数据中心供电的电网入口处测量总能量,按照高标准的检测要求进行能耗测量,要求至少每隔 15min 采集一次电能数据。在采集和记录数据时不应该有人工参与,通过自动化系统实时采集数据,并支持数据的广泛存储和趋势分析。所面临的挑战是以简单的方式采集数据,满足各种要求,最终获取数据中心的各种能量数据。对于初级和中级测量流程,建议在一天的相同时间段测量,数据中心的负载尽量与上次测量时保持一致,进行每周对比时,测量时间应保持不变(例如每周周三)。2.2.2 EEUE 的测量位置和测量方法 EEUE的测量位置见图 1。图 1 数据中心电能消耗测量点1)Et
14、 测量位置在变压器低压侧,即 A 点;2)当 PDU 无隔离变压器时,EIT 测量位置在 UPS 输出端,即 B 点;3)当 PDU带隔离变压器时,EIT 测量位置在 PDU 输出端,即 C 点;4)大型数据中心宜对各主要系统的耗电量分别计量,即E1,E2,E3 点;5)柴油发电机馈电回路的电能应计入 Et,即A1 点;6)当采用机柜风扇辅助降温时,EIT 测量位置应为 IT负载供电回路,即 D 点;7)当 EIT 测量位置为 UPS 输出端供电回路,且 UPS 负载还 包括 UPS 供电 制冷、泵时,制冷、泵的能耗应从 EIT 中扣除,即扣除 B1 和 B2 点测得的电量。2.2.3 PUE
15、 和 EEUE 的测量位置和测量方法的差异 1)PUE 的 Et 测量位置在电网输入端、变电 站之前。而GB/T32910.32016 规定 EEUE 的 Et 测量位置在变压器低压侧。数据中心的建设有 2 种模式:数据中心建筑单独设置,变电站自用,大型和超大型数据中心一般采用这种模式;数据中心置于建筑物的某一部分,变电站共用,一般为小型或中型数据中心。由于供电局的收费都包括了变压器的损失,所以为了准确计算 EEUE,对于前一种模式,Et 测量位置应该在变压器的高压侧。2)按照 2.2.2 节第 6 条,在计算 EIT时,应减去机柜风机的能耗。应该指出的是,机柜风机不是辅助降温设备,起到降温作
16、用的是来自空调设备的冷空气,降温的设备为空调换热器,机柜风机只是起到辅助传输冷风的作用,因此机柜风机不应作为辅助降温设备而计算其能耗。在 GB/T32910.3 征求意见时就有人提出:机柜风机的能耗很难测量,所以在实际工程中,计算 PUE 时,EIT 均不会减去机柜风机的能耗。在美国,计算 PUE 时,机柜风机的能耗包括在 EIT 中。3)PUE 的测点明显多于 GB/T32910.32016 规定的 EEUE 的测点。2.3 PUE 存在的问题 1)最近两年国内外对以往所宣传的 PUE 水平进行了澄清。我国 PUE 的真实水平也缺乏权威调查结果。GB/T32910.32016 根据国内实际状
17、况,将一级节能型数据中心的 EEUE 放宽到1.01.6,其上限已经超过了国家有关部委提出的绿色数据中心 PUE 应低于 1.5 的要求,而二级比较节能型数据中心的 EEUE 规定为 1.61.8,应该说这样的规定比较符合国情。2)数据中心总能耗 Et 的测量位置直接影响到 PUE 的大小,因此应根据数据中心建筑物市电变压器所承担的荷载组成来决定其测量位置。3)应考虑不同负荷率的影响。当负荷率低于 30%时,不间断电源 UPS 的效率会急剧下降,PUE 值相应上升。对于租赁式数据中心,由于用户的进入很难一步到位,所以数据中心开始运行后,在最初的一段时间内负荷率会较低,如果采用设计 PUE,也就
18、是满负荷时的 PUE 来评价或验收数据中心是不合理的。4)数据中心的 PUE 低并非说明其碳排放也低。完全采用市电的数据中心与部分采用可再生能源(太阳能发电、风电等),以及以燃气冷热电三联供系统作为能源的数据中心相比,显然碳排放指标更高。数据中心的碳排放问题已经引起国际上广泛地关注,碳使用效率CUE 已经成为数据中心重要的关键性能指标,国内对此的关注度还有待加强。5)GB/T32910.32016 规定,在计算 EIT时,应减去机柜风机的耗能。关于机柜风机的能耗是否应属于 IT 设备 的能耗,目前国内外有不同的看法,其中主流观点是服务器风机的能耗应属于 IT 设备的能耗,其原因有二:一是服务器
19、风机是用户提供的 IT 设备中的一个组成部分,自然属于 IT 设备;二是由于目前服 务器所采用的风机基本上均为无刷直流电动机驱动的风机(即所谓 EC 电机),风机的风量和功率随负荷变化而改变,因此很难测量风机的能耗。由于数据中心风机的设置对 PUE 的大小影响很大,需要认真分析。从实际使用和节能的角度出发,有人提出将服务器中的风机取消,而由空调风机取代。由于大风机的效率明显高于小风机,且初投资也可以减少,因此这种替代方法被认为是一个好主意,不过这是一个值得深入研究的课题。6)国内相关标准有待进一步完善。GB/T32910.32016数据中心资源利用第 3 部分:电能能效要求和测量方法的发布,极
20、大地弥补了国内标准在数据中心电能能效方面的不足;同时,GB/T32910.32016 标准颁布后,也引起了国内学术界和工程界的热议。作为一个推荐性的国家标准如何与已经颁布执行的强制性行业标准 YD 51932014互联网数据中心(IDC)工程设计规范相互协调?在标准更新或升级时,包括内容相似的国际标准 ISOIEC 30134-2-2016 在内的国外相关标准中有哪些内容值得借鉴和参考?标准在升级为强制性国家标准之前相关机构能否组织就其内容进行广泛的学术讨论?都是值得考虑的重要课题。ASHRAE 在发布ASHRAE90.4 标准时就说明,数据中心的标准建立在可持续发展的基础上,随着科学技术的高
21、速发展,标准也需要不断更新和创新。7)PUE 的讨论已经相当多,事实上作为大数据中心的投资方和运营方,更关心的还是数据中心的运行费用,尤其是电费和水费。目前在数据中心关键性能指标中尚缺乏一个经济性指标,使得数据中心,尤其是大型数据中心和超大型数据中心的经济性无法体现。2.4 PUE 的比较不同数据中心的 PUE 值 不应直接进行比较,但是条件相似的数据中心可以从其他数据中心所提供的测量方法、测试结果,以及数据特性的差异中获益。为了使 PUE 比较结果更加公平,应全面考虑数据中心设备的使用时间、地理位置、恢复能力、服务器可用性、基础设施规模等。3 其他性能指标 3.1 ASHRAE90.4ASH
22、RAE90.4-2016 提出了 2 个新的能源效率指标,即暖通空调负载系数 MLC 和供电损失系数 ELC。但这 2 个指标能否为国际 IT 界接受,还需待以时日。3.1.1 暖通空调负载系数 MLCASHRAE 对 MLC 的定义为:暖通空调设备(包括制冷、空调、风机、水泵和冷却相关的所有设备)年总耗电量与 IT 设备 年耗电量之比。3.1.2 供电损失系数ELCASHRAE 对 ELC 的定义为:所有的供 电设备(包括UPS、变压 器、电源分配 单元、布线系统等)的总损失。3.2 TGG 白皮 书 68 号 2016 年,TGG 在白皮书 68 号中提出了 3个新的能源效率指标,即 PU
23、E 比(PUEr)、IT 设备热一致性(ITTC)和 IT 设备热容错性(ITTR),统 称为绩效指标(PI)。这些指标与 PUE 相比,不但定 义不容易理解,计算也十分困难,能否被 IT 界接受, 还有待时间的考验。3.2.1 PUE 比TGG 对 PUEr 的定义为:预期的 PUE(按 TGG 的 PUE 等级选择)与实测 PUE 之比。 3.2.2 IT 设备热 一致性 ITTCTGG对 ITTC 的定义为:IT 设备在 ASHRAE 推荐的环境参数内运行的比例。服务器的进风温度一般是按 ASHRAE 规定的1827设计的,但是企业也可以按照自己设定的服务器进风温度进行设计,在此进风温度
24、下,服务器可以安全运行。IT设备热一致性表示符合 ASHRAE 规定的服务器进风温度的IT 负 荷有多少,以及与总的 IT 负荷相比所占百分比是多少。例如一个 IT 设备总负 荷为 500kW 的数据中心,其中 满足ASHRAE 规定的服务器进风温度的 IT 负荷为 450kW,则该数据中心的 IT 设备热 一致性为 95%。虽然 TGG 解释说,IT设备热一致性涉及的只是在正常运行条件下可接受的 IT 温度,但是 IT 设备热 一致性仍然是一个很难计算的能源效率,因为必须知道:1)服务器进风温度的范围,包括 ASHRAE 规定的和企业自己规定的进风温度范围;2)测点位置,需要收集整个数据中心
25、服务器各点的进风温度,由人工收集或利用数据中心基础设施管理(DCIM)软件来统计。3.2.3 IT 设备热容错性 ITTRTGG 对 ITTR 的定义为:当冗余制冷设备停机,或出现故障,或正常维修时,究竟有多少 IT 设备在ASHRAE 允许的或建议的送风温度 32下送风。按照 TGG的解释,ITTR 涉及的只是在出现冷却故障和正常维修运行条件下可接受的 IT 温度,但是 ITTR 也是一个很难确定的参数。ITTR 的目的是当冗余冷却设备停机,出现冷却故障或在计划维护活动期间,确定 IT 设备在允许的入口温度参数下(32)运行的百分比,以便确定数据中心冷却过程中的中断或计划外维护的性能。这个参
26、数很难手算,因为它涉及到系统操作,被认为是“计划外的” 条件,如冷却 单元的损失。3.3 数据中心平均效率 CADE 数据中心平均效率 CADE 是由麦肯锡公司提出,尔后又被正常运行时间协会(UI)采用的一种能源效率。CADE 提出时自认为是一种优于其他数据中心能源效率的指标。该指标由于被 UI 所采用,所以直到目前仍然被数量众多的权威著作、文献认为是可以采用的数据中心性能指标之一。但是笔者发现这一性能指标的定义并不严谨,容易被误解。另外也难以测量和计算。该指标的提出者并未说明 IT 资产效率如何 测量,只是建议 ITAE 的默认值取 5%,所以这一指标迄今为止未能得到推广应用。3.4 IT电
27、能使用效率 ITUE 和总电能使用效率 TUE2013 年,美国多个国家级实验室鉴于 PUE 的不完善,提出了 2 个新的能源效率总电能使用效率 TUE 和 IT 电 能使用效率 ITUE。提出 ITUE 和 TUE 的目的是解决由于 计算机技术的发展而使得数据中心计算机配件(指中央处理器、内存、存储器、网络系统,不包括 IT 设备中的电源、变压器和机柜风机)的能耗减少时,PUE 反而增加的矛盾。但是这 2 个性能指标也未得到广泛应用。3.5 单位能源数据中心效率 DPPE 单位能源数据中心效率 DPPE 是日本绿色 IT 促进协会(GIPC)和美国能源部、环保协会、绿色网格,欧盟、欧共体、英
28、国计算机协会共同提出的一种数据中心性能指标。GIPC 试图将此性能指标提升为国际标准指标。3.6 水利用效率 WUETGG 提出的水利用效率 WUE 的定义为:数据中心总的用水量与 IT 设备年耗电量之比。数据中心的用水包括:冷却塔补水、加湿耗水、机房日常用水。根据 ASHRAE 的调查结果,数据中心基本上无需加湿,所以数据中心的用水主要为冷却塔补水。采用江河水或海水作为自然冷却冷源时,由于只是取冷,未消耗水,可以不予考虑。民用建筑集中空调系统由于总的冷却水量不大,所以判断集中空调系统的性能时,并无用水量效率之类的指标。而数据中心由于全年制冷,全年的耗水量居高不下,已经引起了国内外,尤其是水资源贫乏的国家和地区的高度重视。如何降低数据中心的耗水量,WUE 指标是值得深入研究的一个课题。3.7 碳使用效率 CUETGG 提出的碳使用效率 CUE 的定义为:数据中心总的碳排放量与 IT 设备年耗电量之比。CUE 虽然形式简单,但是计算数据中心总的碳排放量却很容易出错。碳排放量应严格按照联合国气象组织颁布的计算方法进行计算统计。 本文刊登于暖通空调2017 年第 4 期作者:湖南大学 殷平