1、数据挖掘算法在水质评价预测中的应用 吴旭东 冯璐远 陈正军 李映曦 江西陶瓷工艺美术职业技术学院 摘 要: 该文采用决策树、BP 神经网络、Logistic回归和基于径向基的 RBF 神经网络四 种算法来建立水质评价预测模型, 并对结果进行了分析。 预测结果显示, 基于径 向基的RBF神经网络在四种算法中是最合适的方法, 预测准确率较高, 建议推 广和使用。 关键词: 神经网络; 决策树; 水质模型; 作者简介:吴旭东 (1982) , 江西景德镇人, 硕士, 讲师, 馆员, 主要研究方 向为图书馆个性化服务、大数据与群智能算法、古陶瓷研究。 1 概述 水是人类赖以生存的重要物质, 它是不可缺
2、少、不可替代的重要资源。随着我国 工业化进程的加快和经济的迅速发展, 水污染日益严重已经成为制约我国实施 可持续发展战略重要因素。 水环境问题已经成为众多专家、 学者研究的重点问题, 目前国内外研究水环境质量的评价方法非常多, 有关文献讨论水质评价的方法 有几十种, 呈现出非常活跃的态势。 由于水环境中的各种元素的不确定性和水体 的未知性, 传统的确定性评价方法已经很难适应研究。 有些水质模型虽考虑了影 响水质变化的诸多因素, 模拟预测效果较理想, 但往往较复杂并需要大量基础 资料和数据, 使得研究的进一步开展和应用受到限制。 而目前, 较常见的情况是 根据水体当前的水质情况、 污染物的迁移特
3、点和流域内污染物的排放情况来预测 水质未来的变化趋势, 为水质污染预测寻找一种合适的模型是非常必要。 2 相关理论分析 2.1 决策树 决策树是应用的最广的归纳推理算法之一, 它是一种逼近离散值函数方法, 对 噪声有很好的健壮性且能够学习析取表达式。 决策树一般都是自上而下的来生成 的, 并用了贪婪的搜索遍历方法进行遍历。 每个决策或事件都可能引出两个或多个事件, 导致不同的结果, 把这种决策分支画成图形很像一棵树的枝干, 故称 决策树。常用的决策树算法包括 C隐层神经元的核函数 (或称作用函数) 取为径向基函数, 对输入信息到隐层空间之间进行非线性变换, 通常具有较高的维数;输出层是线性的,
4、 为输入层的激活模式提供响应。 设隐层、输出层上的神经元数分别为 M, Q, 输入模式记为X, X=x1, x2, , xR, 输出记为Y, Y=y1, y2, , yQ。本文取径向基函数为 Gauss函数, 隐单元输出 则为 式中:zj为隐层第j个神经元的输出值;Cj为隐层第j个神经元的中心, 由隐层第 j个神经元对应于输入层所有神经元的中心分量构成, Cj=cj1, cj2, , cj R;j 为隐层第j个神经元的宽度, 与Cj相对应;为欧氏范数。 输出层神经元的输入输出关系表达式是: 式中:yk为输出层第 j个神经元的输出值;wkj为输出层第k个神经元与隐层第 j 个神经元间的权值。RB
5、F神经网络的参数在此主要是指网络的中心、宽度、和调 节权重。 3 实验过程 收集和提取一组用户基本数据, 对数据进行预处理, 如图1所示。 影响水质状态的指标主要有:1) 溶解氧 (DO) :衡量水体的自净能力 (传感器网 络自动采集) ;2) 温度:水温随着天气的变化 (传感器网络自动采集) ;3) PH值: 反映水质的酸碱程度 (传感器网络自动采集) ;4) 氨氮:代表水中营养性污染物 的含量 (手持传感器手动采集) ;5) 氧化还原电位 (ORP) :水溶液氧化还原能力的测量指标 (手持传感器手动采集) ;6) 当前环境因素 (天气, 水体环境状 况) 。其中 1-250条记录为训练样本
6、, 251-300条记录为测试样本数据。通过建 立各种模型来寻求一套最合适的评价方法, 预测准确率较高的模型。 图1 信息表 下载原图 基于水质评价量化指标抽取 DO、PH、NH、SD 等四个关键指标, 建立水体环境质 量评价量化模型, 实现水质智能化识别。依据依照地表水环境质量标准 (GB3838-2002) 中规定, 地面水使用目的和保护目标, 中国地面水分五大类: 类主要适用于源头水, 国家自然保护区;类主要适用于集中式生活饮用 水、 地表水源地一级保护区, 珍稀水生生物栖息地, 鱼虾类产卵场, 仔稚幼鱼的 索饵场等;类主要适用于集中式生活饮用水、地表水源地二级保护区, 鱼虾 类越冬、回
7、游通道, 水产养殖区等渔业水域及游泳区;本文取前三类水质进行研 究, 对水质进行实时预测、分类和仿真。 3.1 利用决策树建立模型 利用决策树算法建立数据流, 快速建立整体数据流图, 决策树的核心算法采用 C当SD6.75 为III类水质;当 9.86.75 为II类水质;当 9.86.75 且 NH6.75且NH11.5 时为II类 水质;当 9.811.5时为II类水质;当 9.88.85 且NH11.5时为 III类水质。 通过样本数据建立了决策树模型, 从250-300 条记录测试数据使用此模型, 得 到以下结果, 预测结果准确率为 76%, 方差为 0.021, 标准差为0.144,
8、 均值标 准误0.02。 3.2 利用 BP 神经网络建立模型 使用数据挖掘软件, 应用BP神经网络算法的水质评价预测模型, 输入变量是基 于水质评价量化指标 DO、PH、NH、SD, 建立水体环境质量评价量化模型, 实现水质智能化识别。使用 1-250条记录为训练样本数据, 251-300记录为测试样本 数据。 图3 BP 神经网络模型分析 下载原图 如图3 所示, BP神经网络模型根据 DO、PH、NH、SD等四个关键指标的含量来判 断水质处于哪个级别。 通过样本数据建立了神经网络训练模型, 从250-300条记 录测试数据使用此模型, 得到结果, 预测结果准确率为 68.852%, 方差
9、为 0.103, 标准差为0.321, 均值标准误 0.045。 3.3 构建预测 Logistic 回归模型 使用数据挖掘软件, 应用Logistic回归算法来构建水质评价预测模型, 输入变 量是基于水质评价量化指标 DO、PH、NH、SD, 建立水体环境质量评价量化模型, 实现水质智能化识别。使用 1-250条记录为训练样本数据, 251-300 记录为测试 样本数据。 图4 Logistic 模型分析 下载原图 如图4 所示, Logistic 回归算法模型根据DO、PH、NH、SD等四个关键指标的含 量来判断水质处于哪个级别。通过样本数据建立了神经网络训练模型, 从 250-300 条
10、记录测试数据使用此模型, 得到结果, 预测结果准确率为 70%, 方差 为0.011, 标准差为 0.105, 均值标准误0.015。 3.4 利用 RBF 神经网络建立模型 使用数据挖掘软件, 应用RBF神经网络算法的水质评价预测模型, 输入变量是 基于水质评价量化指标 DO、PH、NH、SD, 建立水体环境质量评价量化模型, 实 现水质智能化识别。使用 1-250条记录为训练样本数据, 251-300记录为测试样 本数据。测试结果与误差, 其中预测误差中, 准确率为88.23%, 错误率为 11.76%, Kappa统计为 0.7692, 平均绝对误差 0.11, 均方根误差为 0.229
11、1。从 结果来看该模型的自学能力较强, 模型精度高, 误差范围小, 适合水质预测评 价模型的需要。 4 结论 从以上四种算法结果准确率如表 1所示: 表1 四种算法准确率比较 下载原表 通过以上数据比较分析, RBF神经网络算法的预测效果明显优于决策树算法、 Logistic 回归算法和 BP神经网络算法。RBF 神经网络通过多次模型的学习来完 善算法模型, RBF神经网络快速收敛的特性使得它非常适合水质预测模型的建立, 并且可以进一步跟踪探索水质变化过程中的规律。而决策树算法和 Logistic回 归无论是从对样本的要求上, 还是从预测的精度来说都不具备神经网络的优点, 所以, 应用结果表明
12、, 利用RBF神经网络进行水质预测是可行的, 可为水质模 拟预测提供一种有效的新方法, 建议在水质预测中推广和应用。 参考文献 1王海英, 曹晶.基于 L-M神经网络优化算法的池塘水色判别系统的初步建立 J.渔业现代化, 2010, 37 (5) :19-21. 2申艳.BP神经网络在河流水质评价中的应用J.中国科技纵横, 2011 (9) :68-69. 3胡海清, 周小丽, 宋毅.LM-BP 神经网络在水质预测的应用J.微型电脑应 用, 2011, 27 (9) :44-46. 4王冬生, 李世华, 周杏鹏.基于 PSO-RBF 神经网络模型的原水水质评价方法 及应用J.东南大学学报:自然科学版, 2011, 41 (5) :1019-1023.