收藏 分享(赏)

GIS时态数据挖掘方法的研究与应用.doc

上传人:hyngb9260 文档编号:4321836 上传时间:2018-12-23 格式:DOC 页数:5 大小:94KB
下载 相关 举报
GIS时态数据挖掘方法的研究与应用.doc_第1页
第1页 / 共5页
GIS时态数据挖掘方法的研究与应用.doc_第2页
第2页 / 共5页
GIS时态数据挖掘方法的研究与应用.doc_第3页
第3页 / 共5页
GIS时态数据挖掘方法的研究与应用.doc_第4页
第4页 / 共5页
GIS时态数据挖掘方法的研究与应用.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、GIS 时态数据挖掘方法的研究及应用刘佳 1 刘琳 2 张芳 1 陈伟 1(1 中国环境管理干部学院信息工程系 秦皇岛 066004; 2 秦皇岛职业技术学院信息工程系 秦皇岛066004)摘要:时态 GIS 是 GIS(地理信息系统)一个新兴的研究领域,随着 GIS 应用领域的不断拓宽,时态 GIS 的研究逐渐得到了人们的重视,使得探究和挖掘隐含于时空数据中的信息和规律成了研究重点和难点。针对 GIS 时态数据的特点,引入了流数据连续查询及动态存储处理的方法,研究了GIS 时态数据的更新与优化,对如何提高 GIS 时态数据挖掘效率进行了探讨。关键字:流数据;GIS;数据挖掘;时态数据;连续查

2、询;动态存储 1.引言GIS 是一个描述客观世界的信息系统,其数据库中丰富的数据和信息本身就是大自然和人类社会活动的双重产物。随着时间的推移,地理现象的特征会发生变化,且这种变化可能很大。如何处理数据随时间变化的动态特性,是 GIS 面临的新课题。现有的 GIS 大多不具有处理数据的时间动态性,只是描述数据的瞬时状态。如果数据发生变化时,新数据将代替旧数据,即成了另一个瞬时状态,旧数据将会消失,无法对数据的更新变化进行分析,更不能预测未来的趋势,而在很多应用领域(地籍变更、环境监测、抢险救灾、交通管理等)要求GIS 能提供完善的时序分析功能,高效地预测、决策各类问题。然而 GIS 时态数据具有

3、量大且动态变化性特点,加上系统本身的历史数据,导致数据仓库查询所处理的数据量很大,但查询响应时间必须很低才能支持交互的和迭代得数据分析,以便完成数据挖掘和发现过程。为了保证挖掘出的数据的可用率较高,必须保证数据信息库中数据的准确性、完整性和一致性,这给 GIS时态数据挖掘带来了一定的困难本文结合流数据处理技术以及数据挖掘技术,以现代信息技术为基础条件,探讨了如何对大容量时态数据进行高效存储和更新以及如何实现 GIS 时态数据挖掘,为 GIS 时态数据的历史分析与趋势分析的发展奠定基础。2 流数据技术所谓流数据(streaming data) 2是指:一系列连续且有序的点组成的序列 x1, xi

4、, , xn,按照固定的次序排列,这些点能被读取一次或者几次,形成了流数据。它们可以组成有序连续的元素列表3,这些元素形成了连续不断变化的数据源。该数据与 GIS 时态数据具有相同的特性:数据源源不断、数据不断更新;数据变化频繁、具有实时性;历史数据量大、数据存储困难;基于流数据技术原理的核心在于数据的连续查询及动态存储,是建立在“瞬间流”的数据集的概念上,基于“推”的思想,由数据源不断的发送数据,致使产生连续变化的数据库,通过连续的查询过滤数据,通过动态存储再优化查询,数据库由传统被动处理数据变为主动处理数据。其数据处理思想见图 2-14。数据源流出的大量数据并非直接入库,而是先流经查询系统

5、经过数据重组,按照查询规则完成第一次数据过滤,数据存到一级 DB 中,当对一级 DB 存储空间造成威胁的时候,实行动态存储策略 5,将比较不常用的信息转存到二级 DB 中,以此类推,直到数据不具备实际应用意义的时候,直接删除。3 GIS 时态数据挖掘技术数据挖掘 1是综合利用各种技术方法,从大量的数据中自动挖掘事先未知的且潜在有用的知识,提取出非显式存在的关系或其它有意义的模式等,揭示出蕴含在数据背后的客观世界的本质规律、内在联系和发展趋势,实现知识的自动获取,从而提供技术决策与经营决策的依据。GIS 数据挖掘是数据挖掘的一个分支,但有别于传统的数据挖掘,它所处理的数据中包含空间与非空间两种类

6、型数据,且数据中有历史信息和时态信息。其中,时态数据因为其生命周期短,而常常被忽略。如“台风、地震”等瞬时性比较明显的数据,虽然它的生命周期短,但是给客观世界带来的影响大的不可估算。所所以,针对 GIS 时态数据的特点,本文设计了时态数据挖掘及分析框架结构(见图 3-1) ,并归纳其挖掘过程如下:数据对象的选择:根据实际分析目的,选择分析范围及领域,确定被分析数据。数据预处理:主要是选择的数据进行再加工,检查数据的准确性、完整性及一致性,删除噪音数据,对丢失的数据利用统计方法进行填补。数据压缩:对经过预处理的数据,根据知识发现的任务对数据进行再处理,精化数据,优化结构。数据挖掘:采用合适的知识

7、发现算法提取用户关心的数据。数据解释:对第步得到的数据进行归纳整理,且在必要的时候对上述步骤进行重复操作,以保证数据的有效性。数据分析:从上述步骤最终形成的大量数据中提取可理解的模式,寻找规律,发现新知识等,进而实现进一步的决策分析。4 流数据技术与 GIS 时态数据挖掘技术的结合应用流数据技术核心在于它的“动态性” ,数据库中信息在不断地重组、更新,保证了数据本身的“实时性” 。GIS 时态数据需要实时的更新,一旦数据不完整,会导致错误的决策,从而带来更大的损害。在 GIS 时态数据挖掘中引入流数据技术的基本思想是:用流数据动态的查询与存储思想,优化数据的预处理过程,对比历史数据,再从这些经

8、过优化处理过的数据里发现新的知识,图 2-1 SDMS流数据管理系统模型图QueryyQuery 1 Query 2 Query n回收站一次过滤Stream out二次过滤一级 DB二级 DB多级存储过滤Stream in淘汰数据聚类方法 分类方法关联规则 其它空间数据挖掘方法归纳方法分析数据处理后数据发现知识知识管理系统领域知识库数据查询数据补充结构优化空间与属性数据库空间数据属性数据数据库管理系统图 3-1 GIS 数据挖掘框架图决策分析时态数据历史数据图 4-1 动态 GIS 数据分析处理结构框图数据查询结构优化数据补充查询流出连续查询管理系统查询流入一级 DB二级 DB有变化因子是否

9、数据挖掘数据压缩更新查询条件寻找影响数据变化的因素,作为条件再反作用于原有的数据,形成新一轮的条件查询过程,以得到更新的数据和知识,从而产生一个源源不断的数据源,将原本静态的数据变成动态的数据和知识,形成了一个良性数据分析的循环。其结构框架见图 4-1。虽然时态性数据瞬时性很强,但毕竟生命周期短,对于信息挖掘有一定的障碍,所以,在时态数据的挖掘中,我们不能忽视其历史数据的参考价值,必要时能形成新的条件反作用于当前数据。连续的查询流不断地处理输入的数据,经过查询优化,剔除无用数据,过滤后数据存于一级数据库中,经过数据挖掘方法(图 3-1 中虚线框部分)的处理,寻找数据变化因素,作为查询条件返回查

10、询系统,进一步完成数据的更新及结构优化。故在图 4-1 中可以明显地看到历史数据的处理,采用分级存放的原理,将使用不频繁、变化性不大甚至没有的数据采用适当的压缩方法 5来降低存储空间的占用,对于长期不得使用以及通过数据对比没有影响因子的数据可以仅保存其统计信息值(最大、最小、平均等) ,其余可做删除处理(图 2-1 中数据的多级过滤模式) ,以免太多的无用数据降低数据挖掘效率,以及影响数据挖掘的准确性。采用此原理可以应用到多种社会性问题的研究,例如:地下水问题的研究,把 GIS 技术应用于地下水模拟,可用来获取、操作、显示与这些模型有关的空间数据和所得的成果,使模型进一步细化,从而深入认识地下

11、水在含水层中的赋存、运动情况,而且更重要的是再通过数据挖掘,决策水资源规划和管理的相关社会、经济、环境因素,为合理开采、保护、利用地下水服务6。基于流数据技术与 GIS 的集成,将地下大量的水文地理数据不断地传送上来,通过连续的查询系统过滤噪音数据,查询条件就是体现地下水资源区域性、空间性与动态性特点的变化数据,保证提供给数据挖掘优质的数据源。再通过数据挖掘得出数据变化因子,作为反复查询条件,反作用于连续查询系统,来处理需要更新的数据,避免大量的刷新重复数据。这样形成的循环,强化了水资源的动态分析效果,具备了分析地下水系统演变过程和描述其未来变化趋势的能力,有利于研究人员的决策分析。5流数据技

12、术应用于 GIS 数据挖掘的性能分析流数据动态技术应用于 GIS 数据挖掘,可以有如下好处:有利于数据的精炼。GIS 数据量大,而且文件类型较多,在转换中产生大量数据冗余。所以,在数据进入数据库中的同时,按照流数据连续查询思想,保留必要的数据及其关系,可大大提高挖掘速度。有利于数据的更新。时态数据是在数据采集或地理现象发生的时刻或时段,对环境的模拟分析非常重要。区别于传统数据,它需要快速更新,却不能大量的重复刷新数据,这样效率太低。所以,将流数据技术原理应用于此,对比不同时域的数据,寻找变化因子,单独操作变化数据即可。降低了数据挖掘分析的反复率。为了保证决策的正确性,数据挖掘分析中常常要反复操

13、作,保证数据的完整性、一致性。而这样的过程重复劳动太多,导致错误率上升。应用流数据技术,形成动态良性循环,在连续查询系统中就可以过滤掉噪音数据,提高了数据挖掘精度。提高 GIS 智能化效应。动态操作可以使得 GIS 自动获取及更新原始数据,保证了数据挖掘分析结果的正确性,有利于发现知识,再配有专家系统,形成一个真正的智能化 GIS。对于某个挖掘应用领域而言,按照连续查询及动态存储的思想,以查询条件作为数据过滤因子,经查询系统后,与该领域关联不大的数据一定是首先被过滤掉,在一级 DB 中,数据的关联度达到 100%,并且可以根据数据的重要性作权值,将数据分组存储,最理想状况下,数据挖掘分析的时间

14、将会缩短为原来的1/m(m 为数据分组数目) 。6结束语本文在 GIS 数据挖掘研究中,引入了流数据的连续查询及动态存储策略,优化了 GIS 数据挖掘中的数据分析及数据更新方法,并给出了流数据技术与 GIS 数据挖掘技术相结合的解决方案模型,分析了系统性能,为 GIS 数据挖掘的更进一步发展奠定了理论基础。7参考文献1. 空间数据挖掘在GIS中的应用研究 杨春金,潘 玲, 通讯和计算机,2007.2(4),pp15-182. Michael J.Franklin Streaming Queries over Streaming Data Sirish Chandrasekaran VLDB(2

15、002),pp203-2143. Samuel Madden,Mehul Shah,Joseph M.Hellerstein Continuous Adaptive Continuous Queries Over Stream SIGMOD(2002),pp49-604. 刘佳,宋驰,刘国华 基于流数据技术的连续查询处理J. 计算机工程, 2005,4,31(8):71-73 5. 刘佳,张毅 基于流数据的动态存储技术J. 燕大学报, 2005,8,29(4),pp344-3476. 赵军, 贾艳红 国外GIS 在地下水管理与研究中的应用和启示,地下水, 2005,6,27(3),pp166-

16、168 Research and Application in GIS Temporal Data Mining MethodLiuJia1 LiuLin2 ZhangFang1 ChenWei1(1.environmental management college of china information engineering department, Qinhuangdao 066004 2. Qinhuangdao Vocational and Technical College information engineering department, Qinhuangdao 066004

17、)Abstract:Temporal GIS is an emerging research area of GIS (Geographic Information System),With the GIS applications continue to widen, Temporal GIS research won gradually peoples attention, making the Exploration and excavation in field of time and space data has become a focus of research and diff

18、icult. The text introduced continuous query and dynamic store method for GIS data mining on the characteristics of temporal data, researched data update and optimization, discussed how to improve the efficiency of GIS data mining.Key word:streaming data; GIS; data mining; temporal data; continuous query; dynamic store 作者简介:姓名 性别 学历 职称 研究方向 E-Mail 电话刘佳 女 硕士 讲师 数据库 L 15533507688刘琳 女 本科 助教 L 13780351839张芳 女 硕士 讲师 通信技术 fanny_ 13784067760陈伟 女 硕士 讲师 模式匹配 13603357468

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 管理论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报