1、城市用水量组合预测模型及其应用 郭泽宇 陈玲俐 上海大学土木工程系 摘 要: 针对城市用水量时间序列包含逐步增长趋势、 季节性趋势及不确定性的非线性波 动特点, 单一预测模型往往很难充分反映原始数据中全部的有效信息, 结合季 节性时间序列模型 (SARIMA) 和BP神经网络二者优点, 构建了一种新型的组合 预测模型, 对上海市用水量进行不同时间尺度的预测。 结果表明, 在不同时间尺 度上组合预测模型均比单一预测模型精度高、预测质量稳定。 关键词: 用水量; 预测; SARIMA 模型; BP神经网络; 组合模型; 作者简介:郭泽宇 (1990-) , 男, 硕士研究生, 研究方向为生命线工程
2、安全监 测, E-mail: Combination Prediction Model of Urban Water Supply and Its Application GUO Ze-yu CHEN Ling-li Department of Civil Engineering, Shanghai University; Abstract: The time series of urban water consumption contains the characteristics of gradual growth, seasonal trend and uncertainty.The s
3、ingle prediction model is often difficult to fully reflect all the effective information in the original data.Combining two advantages of seasonal time series model (SARIMA) and BP neural network, a new combined forecasting model is constructed to predict the water consumption of Shanghai at differe
4、nt time scales.The results show that the combination forecasting model has higher accuracy and better prediction quality than the single prediction model at different time scales. Keyword: water consumption; prediction; SARIMA model; BP neural network; combination model; 1 引言 城市用水量的预测在城市给水排水工程中占据首要决
5、策地位, 对未来一定时间 段的用水量进行科学准确的预测, 对城市科学供水、 合理调度、 降低水资源浪费、 指导城市给水工程的发展等具有决定性作用。 目前, 常用的用水量预测方法有指 标法、定额法、回归分析法、时间序列法、灰色预测法、人工神经网络法等1, 但各有其优缺点。考虑到城市用水量时间序列的连续性、季节性及不定性特点, 本文提出了一种新的组合预测模型, 结合了 SARIMA2和BP神经网络的各自优 势, 即利用SARIMA模型描述用水时序的规律性和季节性, 用BP神经网络模型捕 捉SARIMA 模型误差中的非线性关系, 使最终的组合模型预测误差最小;最后采 用组合模型对上海市1996201
6、4年月/日用水量时间序列进行建模, 对2015年上 海市月/日不同时间尺度的用水量进行预测, 从而验证了组合模型的合理性和可 行性。 2 用水量组合预测模型构建 影响城市用水量的因素有很多, 如气温、节假日、气候条件及社会经济因素等。 SARIMA模型预测用水量将非季节项与季节因子相乘, 得到用水量预测值3, 即: 式中, Ft为t时段用水量;St为非季节因子;Ct为季节因子;Tt为趋势因子;s为季 节宽度;Yt为t时段残差项。 2.1 用水量拟合 图1为上海市 19962014 年月度用水量时间序列曲线。 由图 1可知, 月用水量序 列存在逐年上升趋势, 无稳定的均值, 并伴随有周期为 12
7、个月的季节性周期变 化, 符合建立 SARIMA 模型的条件。 建模所用资料源于上海市 19962014年月度用水量时间序列及19962015 年上 海市水资源公报。 SARIMA模型可表示为: 图1 上海市 19962014 年月度用水量时间序列曲线 Fig.1 Time sequence curve of monthly water demands during 1996-2014in Shanghai city 下载原图 其中 式中, B 为后移算子;p、q分别为自回归和滑动平均阶数;d、D分别为差分和季 节性差分的阶数;S 为季节性差分的步长;at为残差序列;n、n、n、n分别 为第n
8、 阶 AR、SAR、MA、SMA的系数。 对时间序列Xt采取一阶差分处理, 对差分后序列 DXt进行ADF检验, t 检验统计 量为-3.528 156, 均小于在 1% (-2.575 813) 、5% (-1.942 317) 、10% (-1.615 712) 三个显著水平下的 ADF检验临界值, 说明 DXt序列平稳, 消除了趋势性。 对DXt序列采取一阶步长为12的季节性差分处理, 对差分后序列 进行ADF 检验, t 检验统计量为-23.843 43, 均小于在 1% (-2.576 576) 、5% (-1.942 423) 、10% (-1.615 644) 三个显著水平下的
9、ADF检验临界值, 说明!DXt序列平 稳。图2为DXt序列和 序列的自相关系数和偏相关系数。由图 2 (a) 可知, 一阶差分后自相关系数 1 阶显著, 偏相关系数 2阶显著, 故p可取1, q 可取1、2。由图2 (b) 可知, 该 序列2 阶后自相关系数基本拖尾, 5阶后偏相关系数拖尾, 季节性基本消除。但 一阶季节差分后自相关系数在一个周期即 12 阶处显著, 偏相关系数则不再具有 周期性, 故P取1, Q 取0、1。 表1为四个模型的参数估计及检验结果。由表 1可知, ARIMA (1, 1, 1) (1, 1, 1) 模型的 AIC和SC 统计量均为最小, 故选该模型作为最佳模型。
10、 对于ARIMA (1, 1, 1) (1, 1, 1) 模型, p=q=d=P=Q=D=1, S=12, 1=AR (1) =-0.524 401, 1=SAR (1) =-0.072 275, 1=MA (1) =-0.090 295, 1=SMA (1) =-0.932 848, 故模型可表达为: 由式 (7) 可知, R=0.614, 珚R=0.608, DW=1.986。 2.2 SARIMA 模型修正 对SARIMA 模型的预测误差序列数据进行归一化处理, 其均值为0.146, 标准差 为0.430。为消除误差趋势项, 同时减少预测模型的绝对误差, 建立 BP神经网 络模型对预测误
11、差进一步建模预测。由于预测误差只有 1998年3月2014年12 月, 故 BP神经网络总样本量 N=202, 输入为 1998年3月1999年3 月、1998年 4月1999 年4月、2013年11月2014 年11月的预测误差数组, 期望输出 为1999 年4月、1999 年5月、2014年 12 月预测误差数据。网络共三层, 训 练目标为0.001, 最大训练次数为 2 000次, 经多次试验, 当m=15 时网络精度 最高, 具有良好的效果。组合模型对应的相对误差的算术平均值为 3.181%, 标 准差为0.013。通过 t值、DW值、F值和Q值, 说明该模型残差中已不含有相关 性的成
12、分, 是一个可接受的模型。 3 实例应用 表1 四个模型的参数估计及检验结果 Tab.1 Parameter estimations and test results of 4models 下载原表 3.1 组合模型在月用水量预测中的应用 分别利用SARIMA模型、BP神经网络模型和本文组合模型对上海市 2015 年112 月的用水量进行预测, 预测结果见表2。由表 2可知, 组合模型预测结果与原始 数据的误差最小, 其中最大相对误差为 2015 年9月的4.92%, 最小误差为 2015 年1月的 0.75%。表 3为三个模型预测能力的评价, 相对误差反映了模型预测误 差, 标准差反映了预测
13、结果质量的稳定性。 由表 3可知, 在预测准确性和稳定性 上, 组合预测模型比传统的单一预测模型预测精度高, 相较而言最符合实际情 况。 表2 月尺度下三种模型预测结果 Tab.2 Prediction results of 3models at monthly scale 下载原表 表3 月尺度下三种模型预测评价 Tab.3 Prediction and evaluation of 3models at monthly scale 下载原表 3.2 组合模型在日用水量预测中的应用 实际工程中, 月用水量预测的意义远小于日用水量的预测。 传统的日用水量预测 模型构建通常依赖日用水量时间序列;而
14、月用水量时序中的增长趋势和季节性趋 势通常在日时序中并不突出, 使基于日用水时序得到的预测模型在长期预测中 误差积累;同一城市的月用水预测与累加的日用水预测值存在矛盾冲突。 为保留用水量时序的增长趋势和季节性趋势, 本文利用随机数发生器生成幅值 为0.91.1 的白噪声随机数, 满足日用水量数据一个月内浮动的幅值, 内插到 月度用水量时间序列中, 生成1996年1月 1日2014年12月31日日用水量时 间序列。按同样的方法, 确立SARIMA相关系数, 建立ARIMA (1, 1, 6) (1, 1, 1) 模型: 对预测误差建立一个三层 BP神经网络, 模型样本总量 N=6 208, m=
15、95, 对误差 时间序列进一步预测, 完成组合模型的预测工作。本文仅截取其中 2015年6月 15日8 月9日的预测结果。表 4为组合模型、单一 SARIMA模型和单一 BP神经 网络模型对2015年日用水量的预测结果。三种模型的预测结果见图 3。 表4 日尺度下三种模型预测评价 (内插值序列) Tab.4 Prediction and evaluation of 3models at daily scale (interpolated sequences) 下 载原表 1996年1月1日2014年12月31日的日用水量时间序列是通过机器生成一定幅 值的随机数并分别内插到月用水量实测数据中得到
16、的时间序列, 非真实值;现将 三种模型的预测值与 2015年6 月15日8月 9日日用水量实际采集数据进行对比, 结果见图 4。由图 4可知, 三种模型的预测结果与实测数据相差不大, 但三 种模型的预测值与实测值的波动情况却各不相同, 究其原因是因为日用水量模 型的建立采用的是白噪声随机数内插生成的时间序列, 与实际供水情况有所不 同。 图3 内插值序列预测结果 Fig.3 Prediction results of interpolated sequences 下载原图 图4 实测值序列预测结果 Fig.4 Prediction results of measured value seque
17、nces 下载原图 表5为三种预测模型的预测结果。结合图 3、4及表4、5可知, 无论是内插值序 列或实测值序列, 组合模型的预测结果均与原始时序最为接近, 预测精度均最 为理想, 最适合实际情况, 故组合模型在日时间尺度上同样适用。 表5 日尺度下三种模型预测评价 (实测值序列) Tab.5 Prediction and evaluation of 3models at daily scale (measured value sequences) 下 载原表 4 结论 a.通过低阶 SARIMA 模型能够很好地消除用水量时间序列中的线性趋势和季节性 周期趋势;而用水量时间序列中的非线性趋势可
18、通过 BP神经网络进行预测。 b.本文组合模型可更好地提取原序列中有用的信息, 适应性和预测性能均比传 统单一模型 (SARIMA 模型和BP 模型) 好, 预测精度和稳定性满足实际工程需 要。 c.模型在不同时间尺度的用水量预测中均有良好的表现, 不仅拓展了适用范围, 且避免了以往预测模型中不同尺度预测结果的冲突问题。 参考文献 1苗志刚, 付强.基于灰色支持向量机的城市用水量预测研究J.计算机仿真, 2012, 29 (8) :196-199. 2赵凌, 张健, 陈涛.基于ARIMA 的乘积季节模型在城市供水量预测中的应用 J.水资源与水工程学报, 2011, 22 (1) :58-62. 3舒诗湖, 向高, 何文杰, 等.灰色模型在城市中长期用水量预测中的应用J. 哈尔滨工业大学学报, 2009, 41 (2) :85-87.