1、基于回归分析的火电机组能耗指标实时计算方法 王惠杰 张家宁 华北电力大学能源动力与机械工程学院 摘 要: 采用不同的回归模型, 结合电厂实测数据, 利用 MATLAB 软件对影响汽轮机组热耗的因素进行回归分析, 建立多元线性回归方程、逐步回归方程、主成分回归方程来实时计算热耗。结果表明, 利用 MATLAB (matrix 回归模型; MATLAB; 实时计算; 作者简介:王惠杰 (1972-) , 男, 副教授。主要从事能源利用与节能技术、热力发电厂系统、设备及运行节能在线监测及指导系统的研究与开发工作。收稿日期:2016-12-14Real-time Calculation Method
2、of Energy Consumption Index of Thermal Power Unit based on Regression AnalysisWANG Hui-jie ZHANG Jia-ning School of Energy, Power and Mechanical Engineering, North China Electric Power University; Abstract: In order to Calculate real-time heat consumption of steam turbine.this paper, in combination
3、with the measured data of the power station, has established multi-variate regression, Stepwise regression, principal component regression equation by means of the matrix regression model; MATLAB; real-time calculation; Received: 2016-12-140 前言回归分析是一种通过一组预测变量 (自变量) 来预测一个或多个响应变量 (因变量) 的统计方法。回归方法因其实用性
4、和有效性, 在现今社会各领域得到越来越广泛的应用1。如生态学上的环保监测、环境温度的长期预测、采矿学上瓦斯涌出量预测、社会学上消费统计等不胜枚举2-6, 并且取得了相当大成就。本文将回归分析这一传统数学统计工具引入电厂, 与电厂海量数据和编程思想相结合7。针对实际机组的能耗计算不得以而采用海量的历史数据, 进行数据的稳态处理和失真筛选, 而后采用合理的能耗分析方法, 得到机组的实时能耗指标。以上方法过程较为繁琐, 计算速度慢, 且当个别数据筛选失效时, 能耗指标的计算结果也有一定程度的误差, 甚至规律性被破坏。针对机组的海量运行数据, 采用合理的统计分析方法, 通过寻找关键可控参数和能耗指标间
5、的关系, 可以更大程度地直观反映各可控参数和热耗之间关系的规律性, 而且所得的模型计算环节简单, 速度快。针对一些如热耗、排汽焓值等需要繁琐复杂计算的参数, 回归分析法可以通过对电厂历史数据分析处理, 不需进行繁琐复杂计算, 只需基于历史数据, 采用可信度较高的一些测点的数据, 即可根据回归模型准确地实时计算出所需数据。本文针对不同的线性回归模型进行对比分析, 以选取最优模型。1 回归分析方法简介回归分析 (Regression Analysis) 方法是多元统计分析的各种方法中应用最广泛的一种。回归分析方法是在众多相关变量中, 根据问题的需要考察其中一个或几个变量与其余变量的依赖关系。在回归
6、分析中, 把变量分成两类:一类是因变量或响应变量, 通常是实际问题中所关心的指标, 用 Y 来表示;而影响因变量取值的另一类变量称为自变量或解释变量, 用 X1、X 2Xp来表示, 以下介绍几种常见模型8-10。1.1 多元线性回归模型设变量 Y 与 X1、X 2Xp之间有线性关系:式中, b 0, b1, , bp (p2) 和 为未知参数。 (x i1, , xip, yi) , (i=1, 2, , n) 是 (X 1, , XP, Y) 的一组 n (np+1) 次独立观测值, 则多元线性回归模型可以表示为:式中, 各 i相互独立。1.2 逐步回归分析一般来说, 如果在一个回归方程中忽
7、略了对因变量 Y 有显著影响的自变量, 那么所建立的回归方程必然与实际有较大的偏离;但选取的变量过多, 使用就不方便。前面讨论的一般多元线性回归中, 可以看出不管自变量 X 对因变量的影响是否显著, 均可进入回归方程。特别的, 当回归方程中含有对因变量 Y 影响不大的变量时, 可能因为 SSE (残差平方和) 的自由度变小而使误差的方差增大, 从而导致估计的精度变低。另外, 在许多实际的问题中, 自变量 X1, X2, , Xp之间往往并不完全独立, 而是存在一定的相关性。如果回归模型中有某两个自变量的相关系数比较大, 就可能出现所谓的多重线性问题, 将导致回归系数的估计值精度不高, 因此,
8、适当地选择变量建立最优的回归方程十分重要。最优的准则千差万别, 这里的最优指的是从可供选择的所有变量中选出对因变量有显著影响的自变量建立方程, 并且在方程中不含对因变量无显著影响的自变量。1.3 主成分回归分析主成分估计 (principal component estimate) 是 Massy 在 1965 年提出的, 它是回归参数的一种线性有偏估计, 是为了克服最小二乘估计存在多重共线性时表现出的不稳定而提出的。主成分回归分析采用的方法是, 将原来的回归自变量变换到另一组变量, 即主成分, 选择其中一部分重要的主成分作为新的自变量 (此时丢弃了一部分影响不大的自变量, 这实际上达到降维的
9、目的) , 然后用最小二乘法对选取主成分后的模型参数进行估计, 最后再变换回原来的模型求出参数的估计。2 验证实例本文选取了池州某电厂 320MW 机组为研究对象, 主要目标是针对电厂实际运行过程中无法直接测量的重要参数, 如热耗、排汽焓值等, 下面以热耗为例, 在软件 MATLAB 上11-13做了各种方法的实例验证。实例验证数据取电厂某段时间正常运行的不同负荷下 100 条数据, 这些数据已经经过预处理, 去除了其中的坏点、粗大值等明显不合规律的测量值, 其中前50 个工况的运行数据用来建立回归模型, 后 50 个数据用来检验。2.1 多元线性回归实例验证电厂的 SIS 系统, 有 26
10、个比较重要的热力参数, 这些参数的选取是根据测点可信度为基准的, 这些参数一般都有多个测点进行监测, 且多以温度、压力为主, 易于测量, 可信度较高, 因此对 26 个重要的热力参数进行监测。理论上说, 应该是所有可控和不可控的边界参数决定了机组的运行状态, 运行状态确定了, 能耗指标才唯一。因此, 所有的边界参数直接决定了能耗, 当然特定机组的设备特性、系统结构也影响能耗。但可以说, 对于特定机组所有的边界参数 (理论上彼此独立) 决定了能耗指标。所以, 应尽可能地罗列出所有的边界参数, 从而确定分析的条件。这里罗列出所有的边界参数显然是极其繁琐甚至不可能的, 而且本文采用的方法并不是找到热
11、耗与边界参数或者热力参数之间确切的关系函数, 而是运用回归分析这一统计工具, 结合人为假定的这些重要参数, 极其简化热耗的关系方程。参数的选取有负荷、过热减温水流量、主蒸汽压力、再热蒸汽压力、凝汽器压力、再热温度、调节级温度、给水温度、各级抽汽压力、温度等, 具体类别如表 1 所示。表 1 自变量及其对应热力参数 下载原表 应用 MATLAB 软件对所需数据进行多元线性回归, 判断回归效果好坏, 就需要对回归结果进行检验, 常用的 F 检验法、t 检验法、相关系数检验法在本质上都是相同的, 这里不再赘述数学原理, 直接使用最后所需的 R、F、p、s 几种判别量。检验结果见表 2。表 2 显著性
12、检验表 下载原表 表 2 中, R 又称决定系数, R0, 1。R 越接近 1, 回归直线拟合程度越高, p=0.0000.01, 说明在统计量 F=111.95 时, 线性关系不明显的概率接近于 0, 模型误差方差 s 也在可接受范围内, 证明该回归效果很好。从图 1 所示残差图也可以看到, 除 19、23 两个异常点外, 其余数据的残差距离零点都比较近, 残差的置信区间包含零点, 也证明了回归效果很好, 图 2、图 3 更是可以直观看出最大误差为-0.545%, 最小误差为 0.0159%。而且回归热耗与实际热耗很接近, 再一次验证了回归效果。经验证, 多元线性回归效果良好, 无论是决定系
13、数、残差、误差率, 都表现出很强的吻合度, 这与传统的思维大相径庭, 传统思维中, 热耗与各参数关系很复杂, 很难找出具体的描述函数, 然而应用回归分析的方法得到的回归方程虽然是近似方法, 却能很好地描述热耗与各热力参数间的关系, 各自变量回归系数见表 3。图 1 多元线性回归残差图 下载原图图 2 实际热耗与回归热耗 下载原图所以回归方程为:图 3 各工况下的误差 下载原图2.2 逐步回归实例验证多元线性回归的结果虽然很理想, 但该模型存在多重共线问题, 即某些自变量的变化可以通过其它变量的变化来解释。因此, 这 26 个参数其实已经冗余了, 而且如果 26 个参数都进入回归方程, 会使该方
14、程过于复杂, 逐步回归分析可以简化模型。表 3 回归系数表 (b0=131 33) 下载原表 由图 4 可知, 最终对热耗有显著影响的变量为 X2、X 4、X 6、X 8、X 11, 以这 5 个自变量进行多元回归分析的决定系数 R=0.9733, 回归方程的显著性检验统计量F=320.9, 检验 p0.05, 回归系数至少 1 个不为 0, 所建立的回归模型有统计学意义, 这与前人总结的能耗敏感指标14相吻合, 建立回归方程:图 4 逐步回归过程图 下载原图2.3 主成分回归分析模型实例验证2.3.1 主成分分析思想主成分分析法是把多指标转化为少数几个综合指标的多元统计方法, 这样一来, 用
15、为数较少的互不相关的新变量来反映原变量所提供的绝大部分信息, 通过对新变量的分析达到解决问题的目的。2.3.2 主成分分析过程(1) 指标标准化有 n 个样本, 每个样本有 p 个指标 X1, X2, , Xp, 首先对样本标准化处理, 标准化公式为:式中, x ij为第 i 个样本第 j 个指标原始值; 分别为第 j 个原始数的平均值和标准差。(2) 计算样本相关矩阵 R(3) 计算样本相关矩阵 R 的特征值与特征向量 1, 2, , p为 p 个非负特征值, 一般取 m (mp) 个计算累计贡献率, 使其达到 85%以上, 即 , 计算特征向量(4) 主成分2.3.3 实例验证矩阵 R 前
16、 5 个特征值分别为 1=18.29、 2=4.4、 3=1.08、 4=0.9、 5=0.66, 由于相关矩阵 R 的前 5个特征值累计贡献率 90%以上, 只需取相对应的特征向量, 然后计算各工况下的相应主成分, 限于篇幅, 本文不在一一罗列。以 5 个主成分作为新的变量, 计算此时的多元线性回归模型。显著性检验表见表 4, 可以看出回归效果良好, 且模型误差方差 s 较前两种方法都小。图 5 残差图显示只有 33、34、38 这 3 个点回归效果不理想, 图 6、图 7 更是可以直观看出最大误差 0.8875%, 最小误差为 0.0159%。而且回归热耗与实际热耗很接近, 再一次验证了回
17、归效果。表 4 主成分回归显著性检验表 下载原表 图 5 主成分回归残差图 下载原图图 6 实际热耗与回归热耗 下载原图图 7 各工况下的误差 下载原图3 结论(1) 影响热耗的主要参数有 26 个, 多元线性回归的决定系数、最大误差以及相应的残差效果都是最好的, 如表 5、图 8 所示, 但 26 个变量进行回归分析较麻烦, 且存在多重共线问题, 实际操作中不易应用。(2) 通过逐步回归分析最终确定了过热减温水流量、主蒸汽压力、凝汽器压力、再热温度、第二抽温度 5 个变量建立回归模型, 该方法建模简单, 结果直观, 易于编程实时计算, 便于实际应用和推广。表 5 3 种方法显著性检验对比 下
18、载原表 图 8 误差对比图 下载原图(3) 主成分分析最终也是确定 5 个主成分, 其降维思想与逐步回归相同, 但此时的变量已不再是原来的变量, 虽然模型误差的方差极低, 但决定系数略低于另外两种且实际可操作性不及逐步回归分析。(4) 回归分析的方法不仅适用于热耗, 而且适用于所有不易计算的参数, 具有极强的现实意义。参考文献1孙振宇.多元回归分析与 Logistic 回归分析的应用研究D.南京:南京信息工程大学, 2008. 2Kok Chooi Tan.Prediction of Column Ozone Concentrations Using Multiple Regression A
19、nalysis and Principal Component Analysis Techniques:A Case Study in Peninsular MalaysiaJ.Atmospheric Pollution Research, 2016. 3Adnan Rovcanin Forecasting SASX-10 Index Using Multiple Regression Based on Principal Component AnalysisJ.International Business and Management, 2015, 10 (1) :23-29. 4Long-
20、term (2004-2015) Tendencies and Variabilities of Tropical UTLS Water Vapour Mixing Ratio and Temperature Observed by AURA/MLS Using Multivariate Regression Analysis. 5吕伏, 梁冰, 孙维吉, 等.基于主成分回归分析法的回采工作面瓦斯涌出量预测J.煤炭学报, 2012, 37 (1) :113-116. 6毕建武, 贾进章, 刘丹.基于 SPSS 多元回归分析的回采工作面瓦斯涌出量预测J.安全与环境学报, 2013, (5) :1
21、83-186. 7Lingjian Yang.Mathematical Programming for Piecewise Linear Regression AnalysisJ.Expert Systems With Applications, 2016, (44) . 8韩明, 等.多元统计分析:从数据到结论M.上海:上海财经大学出版社, 2015. 9张尧庭, 方开泰, 等.多元统计分析引论M.武汉:武汉大学出版社, 2013. 10管宇.实用多元统计分析M.杭州:浙江大学出版社, 2011. 11苏金明, 阮沈勇, 王永利编.MATLAB 工程数学M.北京:电子工业出版社, 2005. 12钟驰洋, 彭宇宁.基于 MATLAB GUI 的线性回归模型的设计与应用J.自动化技术与应用, 2013, 32 (4) :1-5, 21. 13曾九孙, 刘祥官.主成分回归和偏最小二乘法在高炉冶炼中的应用J.浙江大学学报 (理学版) , 2009, 36 (1) :33-36. 14马瑞, 康仁, 罗斌, 等.基于改进主成分分析法的火电机组能耗特征识别方法J.电网技术, 2013, 37 (5) :1196-1201.