收藏 分享(赏)

基于支持向量机的水流挟沙力预测研究.pdf

上传人:weiwoduzun 文档编号:1760760 上传时间:2018-08-22 格式:PDF 页数:6 大小:261.92KB
下载 相关 举报
基于支持向量机的水流挟沙力预测研究.pdf_第1页
第1页 / 共6页
基于支持向量机的水流挟沙力预测研究.pdf_第2页
第2页 / 共6页
基于支持向量机的水流挟沙力预测研究.pdf_第3页
第3页 / 共6页
基于支持向量机的水流挟沙力预测研究.pdf_第4页
第4页 / 共6页
基于支持向量机的水流挟沙力预测研究.pdf_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、水 利 学 报 2005 年 10 月 SHUILI XUEBAO 第 36 卷 第 10 期 1文章编号: 0559-9350(2005)10-1171-05 基于支持向量机的水流挟沙力预测研究 熊建秋1,李祚泳(1.四川大学 水利水电学院,四川 成都 610065; 2.成都信息工程学院,四川 成都 610041) 摘要 : 本文阐述了支持向量机(SVM)的基本原理及特性,提出了基于SVM的水流挟沙力研究方法,并对30组高、中、低含沙量的水槽试验资料进行训练,训练值与实测值符合较好,再用训练好的SVM模型对4组试验数据进行了预测,预测结果与实测值相差较小。 理论分析和实例结果验证了基于SV

2、M的水流挟沙力研究方法比BP神经网络法具有更高的预测精度和可靠性。 关键词: 支持向量机;挟沙力;预测;BP神经网络 中图分类号 : TV143 文献标识码 :A 水流挟沙力是指在一定的水流及河床组成条件下,水流能够携带悬移质中床沙质的能力。在研究水库淤积、稳定渠道设计、河床演变分析以及河道整治规划时,都牵涉到泥沙输移、淤积和冲刷等方面的问题。水流挟沙力则是研究这些问题的重要基础,水流挟沙能力是一个二相流问题,影响因素众多,具有不确定性和非线性等特点。由于挟沙水流问题的复杂性,迄今为止尚没有严格的理论公式,一般都是根据具体河道观测资料建立经验公式,但因受主观因素影响,使用上存在局限1。对水流挟

3、沙能力的计算方法有许多种,包括利用人工智能理论来研究2。本文利用近年发展起来的支持向量机(Support Vector Machine,SVM)在解决有限样本、非线性及高维识别中的优势,建立了水流挟沙力预测模型,解决了传统建模过程中输出空间难以确定和表达的问题。算例表明本文提出的方法可以在有限样本下取得较好的预测效果。 1 支持向量机理论 基于数据的机器学习是现代智能技术中的重要方面。研究从观测数据出发寻找规律,利用这些规律对未来数据或无法观测的数据进行预测,包括模式识别、神经网络等,现有机器学习方法共同的重要理论基础之一是统计学。传统统计学研究的是样本数目趋于无穷大时的渐近理论,现有学习方法

4、也多是基于此假设,但在实际问题中,样本数往往是有限的,因此一些理论上很优秀的学习方法实际中表现却可能不尽人意。与传统统计学相比,统计学习理论(Statistical Learning Theory,SLT)是一种专门研究小样本情况下机器学习规律的理论。Vapnik等人从20世纪60、70年代开始致力于此方面研究,到90年代中期,随着其理论的不断发展和成熟,也由于神经网络等学习方法在理论上缺乏实质性进展,统计学习理论开始受到越来越广泛的重视3。统计学习理论是建立在一套较坚实的理论基础之上的,为解决有限样本学习问题提供了一个统一的框架。它能将很多现有方法纳入其中,有望帮助解决许多原来难以解决的如神

5、经网络结构选择问题、局部极小点等问题。 收稿日期: 2005-07-26 基金项目:973国家重点基础研究发展规划资助项目(2002CB412301) 作者简介:熊建秋(1977-),男,江西南昌人,博士生,主要研究方向为水文水资源。E-mail:xiongjianqiusi 水 利 学 报 2005 年 10 月 SHUILI XUEBAO 第 36 卷 第 10 期 2支持向量机是统计学习理论中的最年轻、最实用的内容。支持向量机方法根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以期获得最好的推广能力。其主要特点有:(1)是专门针对有限样本的情况,其目标是得到现有信息条件下的

6、最优解,这个最优解不是样本无穷大时的最优解;(2)算法将分类问题最终转换为二次型寻优问题,从理论上说得到的是全局最优解;(3)算法将实际问题通过非线性变换将数据对象变换到高维的特征空间,在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,同时巧妙地解决了高维数问题,其算法复杂度与维数无关。因此SVM方法有着出色的学习性能,近来,SVM方法已经越来越成为国际上数据挖掘领域如分类、回归、奇异探测等的流行方法。国际上已经有很多关于SVM的研究报道,SVM在很多方面都有成功应用实例3,4。 支持向量机的理论最初来自对数据分类问题的处理。对于数据分类问题,如果采用通用的神经网络方法来实现,其机理

7、可以简单地描述为:系统随机产生一个超平面,并移动它直到训练集中,属于不同分类的点正好位于平面的不同侧面,这种处理机制决定了最终获得的分割平面将相当靠近训练集中的点,而在绝大多数情况下这并不是一个最优解。为此SVM考虑寻找一个满足分类要求的分割平面,并使训练集中的点距离该分割平面尽可能地远,即寻找一个分割平面,使分类间隔最大,从而达到最好的泛化能力,如图1所示。对图1中二维线性可分情况,其中实心点和空心点分别代表两类样本,H为分类线,H1、H 2分别为通过两类样本中离H最近的点且平行于H的直线(H到H 1和H 2的距离相等),H 1和H 2间的距离叫做分类间隔。最优分类线就是要求H不但能将两类正

8、确分开,而且使分类间隔最大。H 1、H 2上的样本点称作支持向量。推广到高维空间,最优分类线就成为最优分类超平面。 支持向量机对于非线性问题是通过核函数的思想来解决的,策略是通过一个特定的非线性映射将输入向量X映射到高维特征空间中,然后在此高维空间构建最优分类超平面,如图2所示。支持向量机将原问题转化为对偶问题,计算复杂度不取决于维数,而只和样本数有关,确切地讲只和支持向量数有关,同时在对偶问题中目标函数和分类函数只需进行内积运算,避免了复杂的高维运算,而内积运算用原空间中的函数就可以实现。 图1 最优分类面示意 图2 原始空间到特征空间的映射 2 回归支持向量机 支持向量机是一种基于结构风险

9、最小化的新型机器学习技术,也是一种具有很好泛化能力的回归方法,支持向量机和神经网络一样,具有逼近任意连续有界非线性函数的能力,并且它还具有神经网络所不具有的许多优点,如泛化能力强,学习问题不存在局部极小,可以自动确定学习机的结构,不存在维数灾问题等。支持向量机的出现为函数逼近器的设计提供了新的工具和方法5。 给定l个样本数据x k,ykl,其中x kRn为n维样本输入,y kR为样本输出,则函数逼近问题就是要找出一个函数f,使之通过样本训练后,对于样本以外的x,通过f找出对应的y。利用非线性映射()将训练数据集非线性地映射到一个高维特征空间(Hilbert空间),使得在输入空间中的非线性函数估

10、计问题转化为高维特征空间中的线性函数估计问题。设函数具有如下的形式: 水 利 学 报 2005 年 10 月 SHUILI XUEBAO 第 36 卷 第 10 期 3f(x)=T(x k)+b, Rnh, bR (1) 其中非线性函数():RnRnh将输入空间映射到一个高维特征空间,这里特征空间的维数不是固定的,b为偏置量。根据统计学习理论中的结构风险最小化原理3,函数估计问题就是寻找使下面风险函数最小的f(x): 21 2fRCRempreg += (2) 这里2是描述函数f()复杂度的项。再引进不灵敏损失函数: |y-f(x)| =max0,|y-f(x)|- (3) 它意味着不惩罚偏差

11、小于的误差项,取经验风险为: =liempxfylR1)(1(4) 求解式(2)的风险函数最小等价于求解下面的优化问题: =+=0,1)()()(21min*1*,*iiiiiTiiTiliiiTbliybxbxytsCJL(5) 其中是回归允许最大误差, 常数C0表示函数f的复杂度和样本拟合精度之间的折衷。 利用对偶原理、拉格朗日乘子法和核技术,上述优化问题的对偶形式为 =+=,0,0)()()(),()(21max*1*1,11*,*CtsyxxkJiiliiiljililiiiiiijijjii(6) 最后支持向量机的输出为 =+=liiiiliiiibxxkxfx1*1*),()()(

12、);()( (7) 水 利 学 报 2005 年 10 月 SHUILI XUEBAO 第 36 卷 第 10 期 4核函数k(x,x)=(x),(x) ,它是满足Mercer条件的任意对称函数。常用的核函数是径向基函数:k(x i,x)=exp(-x-x i2/22)。偏置b可以通过 KKT(Karush-Kuhn-Tucker)条件计算: ),0(,),()(),0(,),()(*1*1*CxxkyborCxxkybiliiiiiiliiiii+=(8) 利用一般的二次型规划方法通过解上述的对偶问题, 可以求得参数 i,*i ,利用KKT条件可以求得参数b,这样便可以求出拟合样本集的估计函

13、数f(x)的解析表达式。 3 水流挟沙力预测实例 在中国,河道、河口及海岸水域泥沙运移及底床冲淤变化的数值模拟,大都引入水流挟沙力的概念,并通过现场资料得出水流挟沙力公式,籍此已成功解决了许多工程泥沙问题,如三峡工程中的库区泥沙淤积和长江口深水航道整治工程中的泥沙回淤等。水流挟沙力公式由能量平衡原理得出,与水流流速V、泥沙沉速和比降J等因素建立函数关系,如著名的张瑞瑾公式和窦国仁公式等。通过分析可知,在张瑞瑾公式和窦国仁公式中,挟沙能力所包含的输入变量是一致的,在 BP 神经网络训练时,只要给定流速、比降和泥沙颗粒沉速值即可,而在水槽中对平均流速、比降和泥沙沉速三者的测量都比较精确2。为了与B

14、P神经网络法进行比较,在建立水流挟沙力SVM预测模型时,采用了与BP方法相同的水流挟沙能力影响因素。 为配合小浪底枢纽泥沙问题的试验研究,南京水利科学研究院采用电木粉为模型试验沙。此前,曾研究了含电木粉的高含沙流体的流变特性、流动特性、阻力特性及输沙特性等,发现含电木粉的高含沙水流与含黄河天然泥沙的高含沙水流在上述各方面均具有类同的特性, 说明电木粉是一种比较合适的模型沙6。在进行SVM模型训练时,共选取了19组含电木粉模型沙的水槽试验资料,11组黄河沙实测的水槽资料,加起来是30组,其中黄河泥沙的挟沙力已经通过比尺关系转化为电木粉的挟沙力。另外进行了4组预测,该4组资料均为电木粉模型沙的水槽

15、试验资料。以上各组试验中水流视为均匀二维流,沙样比较均匀且为床沙质。考虑到原始数据量纲不同和指标数值存在数量级的明显差异,对原始数据进行了规格化处理。 依据前述回归支持向量机计算步骤,将水流流速V、泥沙沉速和比降J作为输入向量,将水流挟沙力S作为目标向量(见表1),建立基于支持向量机的水流挟沙力预测模型。其中前30个样本用于训练SVM模型,最后4个样本留作检验训练好的SVM模型。经过多次参数寻优运算,确认不灵敏参数、核函数参数、调整参数C分别为0.0075、0.2、50。表1还列出了水流挟沙力的BP及SVM方法预测结果及相对误差,可以看出:对于前30个用于训练的样本,SVM模型的模拟预测精度较

16、高,相对误差在20.00%以内,平均相对误差为4.87%,而BP模型的模拟预测精度较差,最大相对误差达87.1%,平均相对误差为13.16%;对于最后4个留作检验的样本,SVM模型的实际预测精度较好,相对误差在14.50%以内,平均相对误差仅为9.71%,明显优于采用相同数据的BP神经网络预测结果(平均相对误差为16.62%)2。SVM方法在少数样本比BP方法精度稍差,出现这种情况的主要原因是BP网络容易出现过拟合问题,得到的结果往往并非整体最优解,而SVM方法考虑的是如何使整体最优,所以有可能出现少数样本SVM方法比BP方法精度稍差的情况,但从整体来看SVM方法比BP方法精度要好。图3给出了

17、总共34个样本的水流挟沙力BP与SVM预测结果相对误差的对比情况,可以看出SVM模型比BP模型更稳定可靠,表明基于SVM的水流挟沙力预测方法无论在模型拟合效果还是模型推广能力方面都具有良好的性质,可应用于实际的预测工作中。 水 利 学 报 2005 年 10 月 SHUILI XUEBAO 第 36 卷 第 10 期 5表1 水流挟沙力原始数据与预测数据 挟沙力S 挟沙力S 样本 流速V/(cm/s) 比降J()沉速/(cm/s) 挟沙力S实测值/(kg/m3) BP预测值 相对误差(%) SVM预测值 相对误差(%)1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16

18、 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31*32*33*34*48.10 36.90 34.46 34.20 33.69 33.96 32.48 31.40 61.80 48.54 28.17 28.60 42.23 27.95 35.14 22.03 21.72 13.46 14.38 11.64 22.17 17.70 22.50 22.90 33.88 15.13 32.50 31.70 12.64 21.40 34.41 29.00 21.57 22.90 0.9971.8300.9652.3000.8150.4610.5030.4301

19、.5661.3830.5790.9881.2050.9331.0151.0650.8780.5230.8370.5110.5220.4650.3630.3780.5250.2513.3550.6680.8220.6490.6620.4101.0400.5950.01896 0.03810 0.01753 0.04970 0.01785 0.01332 0.02071 0.01332 0.09514 0.06520 0.01865 0.01860 0.07078 0.03463 0.05610 0.03746 0.02820 0.01317 0.02360 0.01155 0.02958 0.0

20、2540 0.02190 0.03920 0.01341 0.00860 0.04400 0.03890 0.02245 0.01370 0.01776 0.01896 0.03930 0.02430 340.00 316.00 301.40 288.20 209.20 200.90 165.60 151.90 113.90 106.50 106.30 102.30 97.70 87.30 77.70 67.20 62.70 58.10 52.50 52.30 37.80 22.00 21.70 20.80 238.40 42.10 277.50 50.70 47.30 45.80 269.6

21、0 112.60 74.60 45.20 340.50 313.90 283.20 290.30 238.80 218.40 149.70 143.30 113.80 105.20 90.00 116.40 100.90 86.50 69.10 57.50 54.80 47.60 50.90 50.10 36.60 36.70 40.60 15.00 224.50 45.00 277.10 67.30 52.70 49.90 240.30 83.70 56.40 47.70 0.15 0.66 6.04 0.73 14.15 8.71 9.60 5.66 0.09 1.22 15.33 13.

22、78 3.28 0.92 11.07 14.43 12.60 18.07 3.05 4.21 3.17 66.82 87.10 27.88 5.83 6.89 0.14 32.74 11.42 8.95 10.87 25.67 24.40 5.53 342.99 318.99 298.41 285.21 249.86 203.89 162.61 153.40 110.91 103.51 103.31 105.29 100.69 84.31 74.71 70.19 59.71 55.11 55.49 55.29 40.79 20.78 24.69 17.81 217.44 39.11 274.5

23、1 53.69 50.29 45.96 242.00 102.20 70.64 51.56 0.88 0.95 0.99 1.04 19.44 1.49 1.81 0.99 2.63 2.81 2.81 2.92 3.06 3.43 3.85 4.45 4.77 5.15 5.70 5.72 7.92 5.56 13.79 14.39 8.79 7.11 1.08 5.90 6.33 0.36 10.24 9.24 5.30 14.08 *表示检验样本 水 利 学 报 2005 年 10 月 SHUILI XUEBAO 第 36 卷 第 10 期 6图3 水流挟沙力BP与SVM预测结果相对误差

24、的对比 4 结语 本文将支持向量机技术引入水流挟沙力预测,并对其效果进行了测试。研究表明,支持向量机是一种基于统计学习理论框架下新的通用机器学习方法,可以较好地解决以往很多学习方法存在的小样本、过学习、局部最小等实际难题。本文提出的基于支持向量机的水流挟沙力预测方法,为水流挟沙力研究提供了一条新的思路和途径,具有较大的实用价值。但是,支持向量机理论还处于发展阶段,有许多需要完善的地方, 如在核函数和参数选择的理论依据研究、 大样本的学习算法研究及如何克服误差数据的影响等方面,还有许多工作要做。 参考文献 : 1 张瑞瑾,谢鉴衡,王明甫,等.河流泥沙动力学M.北京:水利电力出版社,1989. 2

25、 陈雄波,唐洪武.用BP神经网络原理对水流挟沙力的研究J.泥沙研究,2004,(1):29-34. 3 Vapnik V著.统计学习理论的本质M.张学工译.北京:清华大学出版社,2000. 4 王景雷,吴景社,孙景生,等.支持向量机在地下水位预报中的应用研究J.水利学报,2003,(5):122-128. 5 Vapnik V著.统计学习理论M.许建华,张学工译.北京:电子工业出版社,2004. 6 窦国仁,王国兵.黄河小浪底枢纽泥沙研究(报告汇编)R.南京:南京水利科学研究院,1993. Sediment-carrying capacity forecasting based on supp

26、ort vector machine XIONG Jian-qiu1, LI Zuo-yong2(1.Sichuan University, Chengdu 610065,China; 2.Chengdu University of Information Technology, Chengdu 610041,China) Abstract: The principle of support vector machine(SVM) is introduced and the method for forecasting sediment-carrying capacity based on t

27、his principle is proposed. The model is trained by 30 sets of experimental data with various suspension concentrations and applied to forecast another 4 sets of experimental data. The forecast is in good agreement with the measurement results. The comparison indicates that the accuracy and reliability of the proposed method are better than that of BP neural network method. Key words: support vector machine; sediment-carrying capacity; forecasting; BP neural network method (责任编辑:王成丽 )

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报