1、基于 ELM 算法的辽河沈阳段水污染评价 王树才 北票市水资源办公室 摘 要: 鉴于当前水污染评价受臆断或数据噪声影响而导致评价结果失真, 提出了超限学习机 (RF) 算法, 对辽河沈阳段水污染进行评价。结果表明, 研究区水体中DO、COD、NH、TP、FO 和 TN 含量分别属于、级;评价结果显示, 2003 和 20072010 年属于重度污染, 2000 2002 年属于轻度污染, 20042006 年属于中度污染。关键词: ELM; 水污染; 评价; 作者简介:王树才 (1970-) , 男, 辽宁北票人, 工程师, 主要从事水资源管理工作.收稿日期:2017-06-20Assessm
2、ent of Water Pollution for Liaohe River in Shenyang SectionWANG Shu-cai Beipiao City Water Resource Office; Abstract: In view of the fact that the current water quality evaluation is distorted by subjective assumptions or data noise, in this paper, the application of extreme learning machine ( ELM)
3、algorithm is proposed to assessment the water pollution in Liaohe River in Shenyang section.The results indicate that DO, COD, NH, TP, and TN belonged to , , , and .The assessments results showed 2003 and 2007 2010 belong to severe pollution, 2000 2002 belongs to light pollution, 2004 2006 belongs t
4、o moderate pollution.Keyword: ELM; water pollution; evaluation; Received: 2017-06-20水是地球生态系统乃至人类生存发展必须资源1, 作为各类生物、物理、化学物质迁移转化、能量流动的活跃基地之一2, 一方面水环境质量对外界的变化具有敏感响应;另一方面水体质量通过生态支持等功能反作用于生物、生态系统的健康。随着工业革命以来, 人类对资源开发程度日益加深, 与此同时水资源数量和质量发生了重大变化, 如今农药化肥广泛使用、废水污水大量排放、酸雨频繁, 使得水污染的问题日益加剧, 并且具有全球性。为增强对水资源防护和利用水
5、平, 联合国发展研究中心于 2000 年提出了建立国家和社区的水资源安全的行动计划, 以因地制宜制定水资源利用策略、宏观评价水资源平衡, 将水安全提升至可持续发展的核心内容之一3。我国不仅水资源短缺, 而且水体污染形势严峻, 展开水污染评价研究, 深刻认识水质量现势情况, 更好地服务于水安全行动中。水体具有自净功能, 作为多种物质的混合体, 水体中的某一营养元素含量超过其自净功能承载力, 则会引起水污染, 污染的水体对区域水质造成破坏, 并且不能被使用, 从而影响着生物活性。国内外学者对水污染的研究较多, 鉴于水体的复杂性, 往往从反映水质的多维角度如硬度、盐度、化学含氧量、p H 等建立综合
6、评价指标体系采用多指标综合评价法评价, 使用较多的有 AHP 分析、熵权综合指数法、主成分分析法、TOP-SIS 法、内梅罗指数法、地积累指数法、隶属度综合评判等方法。然而这种线性分配权重的方法往往受到数据噪声或者专家赋权造成的臆断, 诸类方法虽然考虑了水质的单一属性与综合属性, 实现了综合评估。但仍需指出的是, 其在予以权重分配的时候容易, 从而一定程度上影响了评估的准确性。超限学习机 (Extreme Learning Machine) 作为一种新型的数据挖掘算法, 规避了传统评价方法以线性关系进行度量的理念, 将水体质量视作由多维因子组成的综合体8, 通过建立单一因子指标与分级准则之间的
7、关系, 将各指标与水体质量间隶属关联以非线性形式表达, 具有维数扩充容易, 泛化能力强, 评价结果具有参比性的特点9。鉴于此, 本文以中国地表水环境质量分级标准为评价依据, 建立了以 ELM 机器学习算法为基础的水污染评价模型, 将其运用于辽河沈阳段水污染评价研究中, 以期为 ELM 在该方面的应用提供案例, 也为区域水资源监测与保护提供依据。1 材料与方法1.1 研究区概况辽河为我国七大河流之一, 流域面积达 21.9610km, 沈阳段干流纵贯沈阳城区 28.6 km, 流域达 4 572 km, 平均河道 200 m 宽。该区地形平坦、河流平缓, 源自温带季风性气候, 降水年际变化大,
8、季节性分布不均, 69 月份为汛期, 水量大、而湍急, 冬季河水枯落、流量小。该地年均温 6.29.2, 多年均降水量 716.2 mm, 河流冰期在 30125 d。该河段附近聚集了现代工业、农业、养殖、观光旅游等产业, 形成了森林、草地、园地、建筑、耕地等多样性景观。近年来, 随着沈阳市城镇化、工业化发展日趋深入, 工业三废、农用污水、生活废物排放增多, 对地表径流、地下水造成一定污染, 当前眉县段浑河水质质量堪忧。1.2 超限学习机算法超限学习机 (Extreme Learning Machine, ELM) 是由黄广斌等5基于广义逆矩阵理论提出的一种新型单隐层前向神经网络 (singl
9、e-hidden layer feedforward neural network, SLFN) 学习算法23。ELM 的网络训练模型采用单隐层结构, 随机产生输入层与隐含层间的连接权值及隐含层神经元阈值, 通过设置隐含层神经元的个数, 经一步计算便可以获得唯一最优解6。与传统的神经网络学习算法 (如 BP) 的最大不同在于, ELM 结构优化, 在算法执行过程中不需要调整网络的输入权值以及隐元的偏置, 具有学习速率快、泛化性能强的优点。ELM 模型建立在 Matlab2014b 软件中进行, 拟合的模型以水体指标数据指标为输入层, 水污染等级为输出层。1.3 化验分析研究数据资料来源于沈阳市
10、环境监测中心站 20002010 年的水质监测数据。监测的指标有溶解氮 (DO) 、高锰酸钾指数 (COD) 、氨氮 (NH4-N) 、总磷 (TP) 、总氮 (TN) 、石油 (FO) 。其中按照水质高锰酸盐指数的测定 (GB/T11892-1989) 对各项指标测定, DO 以硫酸钾湿氧化法测定, COD 以草酸钠法测定, 氨氮 (NH4-N) 以纳氏剂分光光度法, TP 以碳酸氢钠浸提-钼锑抗比色法, 石油采用红外分光光度法, 总氮以半微量凯氏法测定10。1.4 基于超限学习机模式识别水体质量评价模型ELM 模型输入为水体质量的指标因子, 输出为水污染等级, 在隐含层中通过输入权值、偏置
11、随机设置和一个非零连续可微的激活函数, 进而无限逼近目标样本, 此为应用超限学习机算法对 10 年的监测样数据进行模式识别的原理。其工作流程如下:Steep1:地表水环境质量分级标准 (GB 3838-2002) 11规定了水体各项指标的评价分级, 见表 1。另外, 以 DO、COD、NH、TP、TN、FO 等单一指标组建的水体质量评价体系代表了水体绝大部分性质, 能够较好地反映水体综合质量。Steep2:以表 1 所述的平均标准生产样本数据, 并根据样本数据建模。在各等级区间进行内插, 每个区间生存 100 组数据, 其中每一个等级内均包含该等级内水体单一指标数据。各单一指标如果隶属于同一类
12、别, 则表明该水质也属于这个级别, 以此确定模型准则。表 1 地表水环境质量的分级标准 Table 1 The classification standard of five kinds of the evaluated soil nutrients 下载原表 Steep 3:模型优化。ELM 模型受参数影响较大, 为了保证评价结果科学性, 提供模型精度是有必要的。在激励函数确定之后, 隐含层节点数对 ELM 模型精度影响较大, 由于 ELM 采用随机初始化输入权重和偏置, 因而该模型每次运行结果不尽一致。基于模型稳定性考虑, 笔者以 10 次运行结果的平均精度绘制模型与隐含层节点数之间的关系
13、图 (图 2) 。由图 2 可知, 当节点数大于 700 后模型精度高、稳定性好。图 2 ELM 模型表现与参数 Fig.2 The performance and parameters of ELM 下载原图Steep 4:见表 2, 对角线中数字为分类正确的样本数, 矩阵中其他数字为分类错误的样本数, ELM 模型中有 3 个样本识别错误, 训练精度达到 99.28%。综合而言, 模型分类精度较高, 具有良好的模式识别能力, 能够用于对新的样本数据进行分类预测。表 2 基于 ELM 的水体质量评价模型混淆矩阵 Table 2 Mixed matrix of soil chemical fe
14、rtility evaluation model based on ELM 下载原表 Steep 5:模型应用。将训练好的水质评价模型, 对研究区监测数据进行分类识别。2 结果与分析2.1 辽河沈阳段水体单一指标分析对研究时域内辽河水体各项监测指标求平均值, 得到其变异性。对水体单一指标而言, 均具有中等程度变异性, 其中 DO 和 COD、NH 数较小且相差不大, 依次22.72%、28.68%、23.24%;TP 和 TN 的变异性较强, CV 达到62.69%、90.67%。DO 是水质量的基础, 其含量与氧的分压、水的温度、水体营养物质含量密切相关, 研究区水 DO 均值达到 21.0
15、4 mg/L;COD 是指在一定条件下, 以高锰酸钾 (KMn O 4) 为氧化剂, 处理水样时所消耗的氧化剂的量, 是水环境质量的重要影响因素, 本区 COD 含量为 11.40 mg/L;自然水体中的氨盐主要以硝酸盐氮 (NO 3) 为主, 存在形式为游离氨 (NH 3) 和铵离子 (NH 4) , 其可造成水体营养化, 并产生毒素, 因而是重要的监测指标之一。作为植被生长必不可少的养分之一, 总磷的含量往往成为浮游植物的限制性元素之一。过量的磷素积累形成富营养化, 是水体污染的重要原因, 本区总磷在 0.0010.05 mg/L 之间。总氮是水中各种形态无机和有机氮的总量, 其往往是水体
16、中有机质物质分解产生的, 氮素是浮游植物所需的三大营养元素之一, 浑河沈阳段水体中总氮含量为 2.66 mg/L。区域为石油工业聚集区, 流域内存在大小油田, 石油类含量介于 0.150.5 mg/L 之间。依据地表水环境质量评价标准, 全区DO、COD、NH、TP、和 TN、FO 分别是 III、IV、III、IV、II、III 类。见表3。表 3 水化学指标描述统计 Table 3 Descriptive statistics of water chemical indicators 下载原表 2.2 辽河水污染综合评价应用超限学习机算法的模式识别是在因变量的几个分类水平明确的条件下, 依
17、据多个自变量根据若干自变量性质表现, 通过判别每个自变量的类别归属, 进而达到对因变量模式类别区分的目的。本研究中因变量为水体质量, 其具有 (I、II、III、IV 和 V) 5 个类别特征, 自变量为 DO、COD、NH、TP、TN 和 FO, 对 10 年的监测数据进行综合评价, 结果见表 4。表 4 辽河沈阳段水质评价结果 下载原表 由表 4 可知, 20002010 年间辽河沈阳段水质呈恶化趋势。20002002 年水质评价为 III 级, 属于轻度污染;20042006 年为 IV 级, 属于中度污染;2003 和20072010 年属于 V 级, 为中度污染, 表明辽河沈阳段水污
18、染严峻, 不容乐观。3 结论应用超限学习机算法将水污染评价转化模式识别问题6, 该算法中的激励函数够建立单一指标与水污染等级之间的映射关系, 从而实现多重非线性分类, 确保了评价过程中的科学性与客观性。该评价模型精度高, 便于扩充评价维数, 可应用于对其他地区水污染的评价实践中。参考文献1李云生, 刘伟江, 吴悦颖, 等.美国水质模型研究进展综述J.水利水电技术, 2006, 37 (2) :68-73. 2史俊, 文俊.节水型社会及其评价指标的应用J.水科学与工程技术, 2006 (5) :54-56. 3叶招莲.河流水环境综合评价方法改进及研究J.水科学与工程技术, 2007 (4) :3
19、7-39. 4万咸涛.水资源质量评价综述J.水资源研究, 2005 (4) :32-37. 5Huang G B, Zhu Q Y, Siew C K.Extreme Learning Machine:Theory and ApplicationsJ.Neurocomputing, 2006, 70 (1-3) :489-501. 7董哲仁.国外河流健康评估技术J.水利水电技术, 2005, 36 (11) :15-19. 8丛翔宇, 倪广恒, 惠士博, 等.基于 SWMM 的北京市典型城区暴雨洪水模拟分析J.水利水电技术, 2006, 37 (4) :64-67. 9李锦秀, 杜斌, 孙以三.水动力条件对富营养化影响规律探讨J.水利水电技术, 2005, 36 (5) :15-18. 10GB3838-2002, Environmental Quality Stands for SoilsS. 11崔晓琳.水质化验分析方法探讨J.中国石油和化工标准与质量, 2012, 32 (5) :14.