收藏 分享(赏)

多维关联规则挖掘在径流长期预报中的应用.doc

上传人:cjc2202537 文档编号:197666 上传时间:2018-03-23 格式:DOC 页数:13 大小:49.50KB
下载 相关 举报
多维关联规则挖掘在径流长期预报中的应用.doc_第1页
第1页 / 共13页
多维关联规则挖掘在径流长期预报中的应用.doc_第2页
第2页 / 共13页
多维关联规则挖掘在径流长期预报中的应用.doc_第3页
第3页 / 共13页
多维关联规则挖掘在径流长期预报中的应用.doc_第4页
第4页 / 共13页
多维关联规则挖掘在径流长期预报中的应用.doc_第5页
第5页 / 共13页
点击查看更多>>
资源描述

1、多维关联规则挖掘在径流长期预报中的应用第 40 卷第 19 期2009 年 10 月人民长江YangtzeRiverV01.40.No.19Oct.2009文章编号:10014179(2009)19 006503多维关联规则挖掘在径流长期预报中的应用王富强许士国 2(1.华北水利水电学院水利学院,河南郑州 450011;2.大连理工大学土木水利学院,辽宁大连 116024)摘要:关联规则是一种重要的数据挖掘技术.结合水文长期预报的特殊性 ,将多维关联规则挖掘方法应用于径流长期预报中.首先根据预报目标初选预报因子,构成长期预报事务数据集.然后对连续属性值进行属性分割,对处理后的数据集进行多维关联

2、规则分析,挖掘出满足最小支持度和最小置信度的强关联规则,解释规则并建立模型.以嫩江江桥站汛期径流量长期预报为例,挖掘出满足要求的强关联规则,这些规则中蕴含着太阳黑子活动,北太平洋海温以及副高强度变化与江桥汛期径流量的关系,说明了多维关联规则挖掘方法应用于径流长期预报研究的可行性.关键词:物理因子;多维关联规则;数据挖掘;长期预报中图分类号:P338 文献标识码:A现今,随着水文中长期预报研究的逐步深入和数据库技术的迅速发展,人们积累的数据资料的数量和种类也迅速增长,信息量不断增大,数据间关系日益复杂,数据信息大量存储在关系数据库或数据仓库中.如何存储,管理和检索利用信息就成为水文中长期预报研究

3、中面临的一个问题.如何从众多的信息中将有用的部分提取出来,并按照长期预报的要求进行组织是需要解决的又一个问题.传统的水文中长期预报模式已经不能适应海量数据的需要,同时从信息处理角度,人们更希望计算机能帮助分析数据,理解数据,帮助我们基于丰富的数据做出决策,做人力所不能及的事情.数据挖掘就是一种从大量,有噪声的数据中提取隐含在其中,事先未知,但又是潜在有用的信息和知识的有效分析技术.先前对水文数据单维频繁项集关联规则的挖掘已不能满足人们的要求,人们越来越迫切地希望能从多维频繁项集中挖掘出多维关联规则,来帮助人们进行各种决策.以径流长期预报为例,径流的前期影响因子涉及天文,海温以及环流等多个属性维

4、,不可能只从一种影响因子中提取预报所需的全部信息,这就需要从存储径流影响因子的数据库中挖掘出有用的,满足预报要求的多维关联规则,以便做出更有效的预测.基于此,结合径流长期预报的特点,将多维关联规则挖掘技术应用到径流长期预报工作中,以江桥汛期径流长期预报为例进行分析,建立了基于多维关联规则的径流长期预报概念模型,结果说明了多维关联规则挖掘方法应用于径流长期预报的可行性.1 关联规则的基本概念1.1 模型描述Agrawal在 1993 年提出了挖掘顾客交易数据库中项集间的关联规则问题.关联规则是发现交易数据库中不同商品(项)之间的关系 ,由这些规则找出顾客购买行为模式,如购买某一商品对购买其它商品

5、的影响.发现这样的规则可以应用于商品货架的设计,货存安排以及根据购买模式对用户进行分类.关联规则的基本模型描述如下:设有事务数据库 D:.,(=1,2,n)称为事务;构成的元素 i(k=1,2,P)被称为项;设 D 中所有项的集合为,=i.,i2,i,显然,.(1)概念 1.项集与频繁项集.设 A=i,i2,i(1tm),则 A 称为 D 中的一个项集,且为 t 项集.项集 A 的支持度就是D 中包含 A 的事务在 D 的所有事务中所占的百分比,即:Support(A):P(A)(1)如果的支持度满足最小支持度阈值 min_Support,即Support(A)min_Support,则 A

6、称为 D 中的频繁项集 .(2)概念 2.关联规则 .关联规则是形如的蕴含式,其中 A 和 B 都是 D 的项集,且 AnB=.A 称为关联规则的条件,曰称为关联规则的结论.(3)概念 3.支持度与可信度.关联规则 Aj 的支持度就是同时包含项集 A 和项集 B 的事务在 D 的所有事务中所占的百分比,也就是项集 Au 曰的支持度.Support(A:=Support(AuB)=P(AUB)(2)关联规则 A 曰的可信度就是同时包含项集 A 和项集的事务在所有包含项集 A 的事务中所占的百分比.Confideace(A=等收稿日期:20090726基金项目:“ 十一五 “国家科技支撑计划项目(

7、2006BAD20B06); 水利部公益性行业科研专项(200801015) 和“华北水利水电学院高层次人才项目“(003014) 联合资助作者简介:王富强,男,华北水利水电学院水利学院,讲师 ,博士.人民长江 2009 年:Support(Al:t)一:P(BIA)(3)Support【A)关联规则的支持度和可信度分别反映了该规则的实用性和可靠性,它们是衡量用户对关联规则感兴趣程度的常用度量指标.(4)概念 4.强关联规则 .如果存在关联规则 Aj 曰,其支持度和可信度分别满足用户预设的最小支持度阈值(min_Support)和最小可信度阈值(min_Confidence),则称其为强关联规

8、则.强关联规则是用户感兴趣的,对用户发现大量数据集中潜在规律具有重要指导意义的关联规则.根据以上关联规则的概念描述,关联规则挖掘的基本过程可以概括为从给定的事务数据库中,通过一定的数据挖掘算法,寻找满足预设的最小支持度阈值和最小可信度阈值的所有强关联规则.关联规则挖掘的基本过程分为两个阶段: 寻找事务数据库中所有的频繁项集;由频繁项集产生强关联规则 .这两个阶段中,寻找所有的频繁项集最为关键,它决定着关联规则的总体性能.1.2 多维关联规则挖掘多维关联规则的挖掘涉及多个属性,其挖掘方法可根据它们的属性性质来确定,遵循的基本思路仍是将其转换为经典的布尔关联规则进行挖掘,故可以借鉴 Apfiofi

9、 算法中的思想.通常,数据库中数据的属性可分为分类和量化两种,分类属性是指具有有限个不同的值且这些值之间是无序的,如性别,颜色,品牌等;量化属性是指属性的各个值之间是有大小顺序的 ,如年龄,收入,价格等.对于量化属性的多维关联规则挖掘,一般可分为两大类,即将量化属性表示为区间或具体数值.1.3 模型建立步骤根据关联规则的基本概念和模型描述,结合水文长期预报的特点,可以得到建立基于关联规则挖掘的水文长期预报模型的步骤:根据预报目标和预报因子情况,预处理与挖掘有关的水文数据,构成水文长期预报的数据源;对预报因子进行筛选和数据预处理,对量化数据进行属性分割,生成规格化的水文预报事务数据集;针对水文预

10、报事务数据集进行多维关联规则挖掘,提取所有满足最小支持度的项集,即大项集;生成满足最小置信度的规则,形成规则集;筛选规则集 ,去掉没有意义的规则,解释发现的关联规则,建立水文长期预报概念模型.具体流程如图 1 所示.图 1 关联规则挖掘流程2 资料准备和相关算法2.1 预报目标和资料准备2.1.1 预报目标嫩江是松花江的两大支流之一,发源于北部的大兴安岭伊勒呼里山,河长 1370km,流域面积 29.7 万 km.嫩江流域的多年平均降水量为 400600mm,而夏季降雨占全年降水量的70%一 80%,因此 ,该地区春季易发生干旱,夏季易发生洪涝灾害.其中,1998 年嫩江江桥站最大洪峰流量达到

11、 2640in./s,相当于重现期 480a(近似称为 500a)一遇洪水 J.因此,汛期径流量的长期预报对该流域夏季防洪减灾工作很重要,以下以嫩江江桥站汛期径流量的长期预报为例说明多维关联规则挖掘方法在径流长期预报中的应用.2.1.2 资料准备径流量资料采用江桥站 19562005 年的逐月径流量数据.前期影响因子数据资料有:大气海洋物理因子包括太阳黑子相对数,大气环流指数,副高指数,极涡等 81 项,太平洋海表温度和 500hPa 及 100hPa 等压面的高度数据.数据资料均来自国家气候中心.其中太平洋海表温度取 10.s 一 50.N,120.E80.w 范围内(286 个格点,5.5

12、.)的月平均值.资料年份均为19562005 年.2.1.3 数据预处理为了提高关联规则挖掘的效率,需要对数据进行预处理和清洗.将江桥站汛期径流量与前期影响因子做相关分析,初步得到影响江桥站汛期径流量的物理因子:当年太阳黑子相对数 ,当年 46 月份海温,当年 5 月份印度副高强度指数(65.E 一95.E),当年 5 月份北美副高强度指数 (110.W60.w)和当年5 月份北美大西洋副高强度指数(110.W 20.W). 由此得到 6种属性数据,分别为江桥汛期径流量(R),太阳黑子相对数(s),当年 46 月份海温(SST),当年 5 月份印度副高强度指数(ISHI),当年 5 月份北美副

13、高强度指数(NSHI) 和当年 5 月份北美大西洋副高强度指数(NASHI),全部都为量化数据,将这 6种属性数据分别对应形成 Bandl,Band2,Band3,Band4,Band5 和Band6.各属性值的分布范围见表 1.表 1 各维属性取值范围2.2Apriori 算法经过数据清理步骤,数据记录表中现有记录都是由上个字段的值组成的,现在要找到表中的频繁字段值的组合,需使用关联规则中的着名算法一 Apfiofi 算法.Apfiofi 算法是一种最有影响的挖掘布尔关联规则频繁项集的算法.因为在此描述的径流长期预测中要提取的是一种因果的关系,符合布尔关联规则的适用情况,所以使用 Apfio

14、fi 算法是合适的.Apfiofi 算法使用一种称作逐层搜索的迭代方法,使用频繁项集(集合中含有个项,并且这 K 个项的组合出现的频率高于预先给定概率值)去寻找频繁(+1)一项集.首先, 找出频繁 1 一项集的集合.该集合记作,三,用于找频繁 2 一项集的集合,而用于找出,如此下去,直到不能找到,即频繁K 一项集.找每个都需要一次对径流长期预报事务数据集的扫描.为提高频繁项集逐层产生的效率,一种称作 Apriori 性质的重要性质用于压缩搜索空间,即频繁项集的所有非空子集都必须是频繁的.Apriori 性质应用于算法的以一 .找过程中,需要经过连接和剪枝两步,最终得到满足最小支持度和最小置信度

15、的强关联规则.第 19 期王富强等:多维关联规则挖掘在径流长期预报中的应用 673 多维关联规则挖掘及结果分析3.1 预报事务数据集的建立事务数据集是关联规则挖掘直接面对的数据源.在关联规则挖掘的过程中,收集大量的数据是非常有必要的,从中才能获得有意义的结论.但是,如果每个维的数据不作处理,直接进行关联规则提取的话,将会造成庞大的数据运算,同时结果也不会理想.因此,为了提高算法的有效性和针对性,需要对每一维属性数据进行分割(见表 2,3,4,5).表 2 江桥汛期径流量属性值分割分级要素距平值/%分级要素距平值/%枯(1)距平一 20 偏丰(4)10距平20偏枯(2)一 2O距平 一 10 丰

16、(5) 距平20正常(3)一 10距平1O表 3 太阳黑子相对数属性值分割年份太阳黑子数分割年份太阳黑子数分割年份Slow(R3O)19631965ShighfRlOO)1968 197(1975197719791982198519871989199219951997199920o22005?Sdon(30R100)196119625 一 up(30R100196619671971.1974197819831984l98819931994199819931994ShiglI(Rt100)19561960表 4 海表温度数据属性值分割46 月份海温要素距平值/46 月份海温要素距平值 /SSTl

17、ow(一 1)距平一 0.5SSThigll(1)距平0.5SSTmid(0)一 0.5距平0.5表 5 副高强度值属性分割由此,我们可以得到径流长期预报事务数据集,见表 6.表 6 径流长期预报事务数据集TItemSSSTISHlNsHlNAsHlShighSSTlowlsHflowNSHIhighNASH1 一 highShighSSTlowlSHIhighNSHIlowNASHIlowS.downSST-lowISHI.1owNSHI-midNASHI.bighSlowSSThtghISHIlowNSHImidNASHImid3.2 多维关联规则挖掘关联规则挖掘的任务就是从径流长期预报事

18、务数据集中,求出所有满足指定的最小支持度和最小置信度的关联规则.由于在本例中由 5 类预报因子和江桥汛期径流量组成的事务数据库的数据量不大,采用 Apfiofi 算法就可得到较满意的结果.事先将最小支持度和最小置信度分别设置为 0.10 和 0.6,对径流长期预报事务数据集进行关联规则挖掘,将挖掘结果整理,如表7 所示.表 7 关联规则挖掘结果3.3 结果分析由表 7 可以看出:规则:SSTloweR=1(support=23.6%,COnfidence=69.2%).说明当年北太平洋地区 46 月份海温距平均小于一 0.5C 时,69.2%的年份江桥站汛期径流量较常年低 20%,处于枯水期;

19、规则:ShighASSThigheR=5(support=18.1%,confidence=70%).说明当年太阳黑子活动处于峰值,且北太平洋地区 46 月份海温距平均大于 0.5C 时,70% 的年份江桥站汛期径流量较常年高 20%,处于丰水期;规则:SlowASSTlowR=1(support=16.4%,confidence=66.7%).说明当年太阳黑子活动处于谷值,且北太平洋地区 46 月份海温距平均小于一 0.5时,66.7%的年份江桥站汛期径流量较常年低 20%,处于枯水期;规贝(:highSSThighANASHIhigher=5(suppoa=14.5%,confidence

20、=62.5%).说明当年太阳黑子活动处于峰值,北太平洋地区 46 月份海温距平均大于 O.5C,且 5 月份北美大西洋副高强度较常年偏高时,62.5%的年份江桥站汛期径流量较常年高 20%,处于丰水期;规则 :SlowASSTlowANASHIloweR=1(suppoa=12.7%,confidence=71.4%).说明当年太阳黑子活动处于谷值,北太平洋地区 46 月份海温距平均小于一 0.5,且 5 月份北美大西洋副高强度较常年偏低,71.4%的年份江桥站汛期径流量较常年低 20%,处于枯水期.从发现的强关联规则可以看出,当年的太阳黑子活动程度和 46 月份北太平洋海表温度冷暖状况对江桥

21、汛期径流量影响最为明显,北美大西洋副高强度对此也有一定的影响.因此在做作业预报时,可以重点考虑这些物理因素的异常变化情况.其它预报因子的组合没有通过事先设置的最小支持度和最小置信度检验,说明其它组合对江桥汛期径流量的影响不明显.由此,可以得到江桥汛期径流量预测的概念模型,见图 2.值:当年 46 月份海 ll,上翌温持续偏暖:5 月份卜_叫:北美大西洋副高强度 ll 王指数搞高 ff太阳黑子活动处于峰江桥站汛期值:当年 46 月份诲径流量较常一温持续偏冷:5 月份年偏少,处于枯水期北美大西洋副高强度指数偏低图 2 江桥汛期预测的概念模型为了验证方法的普适性和有效性,我们利用多维关联规则挖掘方法对东北地区的丰满,云峰水库汛期来水量进行了分析和预测,取得了许多很有意义的规则,再次证明了多维关联规则挖掘方法在水文中长期预报中应用的可行性.(下转第 103 页)一一 5512份一卯一吣生一 1122第 19 期詹敏利等:多变量综合评价法在水利工程后评价中的应用 l03自然条件的判断矩阵及评价指标的权值如下:B=l3111145口 4T=

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 高等教育 > 教育学

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报