收藏 分享(赏)

7空间数据挖掘与可视化(完).pptx

上传人:无敌 文档编号:1365422 上传时间:2018-07-04 格式:PPTX 页数:75 大小:8.27MB
下载 相关 举报
7空间数据挖掘与可视化(完).pptx_第1页
第1页 / 共75页
7空间数据挖掘与可视化(完).pptx_第2页
第2页 / 共75页
7空间数据挖掘与可视化(完).pptx_第3页
第3页 / 共75页
7空间数据挖掘与可视化(完).pptx_第4页
第4页 / 共75页
7空间数据挖掘与可视化(完).pptx_第5页
第5页 / 共75页
点击查看更多>>
资源描述

1、空间数据挖掘与可视化,信息工程大学地理空间信息学院李宏伟,2 空间数据挖掘研究,1 背景,3 实例:空间关联规则挖掘,5 空间知识可视化,6 几点思考,4 数据挖掘软件,1 背景,By 李德仁,DIKW,2.1 空间分类挖掘,分类和预测是两种数据分析形式,用于提取描述重要数据类的数据类型或预测未来的趋势。空间分类挖掘解决大量数据分类问题。,2 空间数据挖掘研究,空间分类挖掘方法,决策树方法:经典算法-Quinlan的ID3方法,贝叶斯分类方法:朴素贝叶斯方法和贝叶 斯网络方法,神经网络方法:前向型、反馈型、随机型、 自组织型,支持向量机方法:基于统计学习理论,适于 数据预处理、样本化应用,空间

2、分类挖掘方法(续),K-最邻近分类法,基于案例的推理分类法,遗传算法和进化计算,粗糙集分类法,2.2 空间聚类挖掘,统计学方法,机器学习方法,数据库方法,模式识别方法,基于模型的方法基于密度的方法基于划分的方法基于层次的方法基于网格的方法混合方法,方法分类,具体方法,聚类与分类不同,待划分的类是未知的。聚类将数据对象分组为多个类或簇,使同一个簇中的对象之间相似度最高,不同簇中的对象相似度最低。,2.3 空间关联规则挖掘聚类挖掘,基本研究内容,确定性关联规则挖掘量化关联规则挖掘增量式关联规则挖掘模糊关联规则挖掘广义关联规则挖掘,经典算法:Apriori算法,Apriori算法改进,利用hash表

3、的DHP方法基于采样的方法并行关联规则挖掘的方法分布式关联规则挖掘的方法多层次关联规则挖掘的方法数值扩展的关联规则挖掘的方法形象规则的发现方法关联规则快速学习方法基于兴趣度进行数值型关联规则合并的方法采样trie树进行关联规则挖掘利用概念格的关联规则挖掘的方法,2.4 Internet和Web空间数据挖掘,Web挖掘,内容挖掘结构挖掘用法挖掘,基于机器学习技术的文本搜索引擎,基于协同的方法,基于内容的方法,2.5 空间数据挖掘智能方法,神经计算、进化计算、免疫克隆计算、模糊计算与模糊推理,3 实例:空间关联规则挖掘,发展阶段,萌芽阶段,1993,2000,2006,2011,1993年,Agr

4、awal等人提出频繁项集挖掘的Apriori算法。 1995年,Koperski and Han 引入空间谓词构造空间事务 表,给出空间关联规则的定义及挖掘过程。,2000年,Clementini 等考虑空间不确定性并对多层次空间关联进行挖掘 2001年, Shekhar 等给出空间同位模式的一般挖掘算法2004-2005年,Yoo等通过减少连接计算以提升同位模式挖掘的效率,2006年,陈江平等提出了一种面向主题的基于多层次空间概念的关联规则挖掘算法 2008年,张雪伍、苏奋振等提出面向时空过程的关联规则挖掘算法2009年,沙宗尧等人提出局部的空间关联模式挖掘,2011年,Mohan 等基于事

5、件时序关系提出级联模式的概念及挖掘算法2014年,邓敏、石岩等基于聚类分割方法研究了太平洋气候指数与我国极端降水事件的遥相关模式,3.1 空间关联规则挖掘研究的发展,3.2 空间关联规则分类,不同地理实体间空间依存、相互作用、因果或共生的模式,邻近地理空间内频繁出现的布尔型要素(或事件)子集,地理事件间远距离的相互关联模式,空间关联规则,基于空间谓词规则的关联模式,空间同位模式,遥相关模式,城市分布,交通发展,3.3 当前研究重点,着眼于研究挖掘算法本身着眼于研究空间关联规则的不确定性信息着眼于研究关联挖掘的可视化着眼于研究弱空间关联规则,3.4 空间关联规则挖掘方法,将各个空间或非空间属性作

6、为一个图层,对每个图层上的数据点进行聚类,然后对聚类产生的空间紧凑区进行关联规则挖掘。,利用空间叠加、缓冲区分析等方法发现挖掘目标之间的空间谓词,将其组成空间事务数据库,进行单层布尔型关联规则挖掘。,通过用户指定的邻域,遍历所有可能的邻域窗口,进而通过邻域窗口代替空间事务,然后进行空间关联规则的挖掘。,基于聚类的图层覆盖法,基于空间事务的挖掘方法,无空间事务挖掘法,3.5 空间关联规则挖掘过程,以基于事务的空间关联规则挖掘过程为例,web,3.6 空间关联规则挖掘算法,挖掘算法:AprioriFP-GrowthEclat,3.7 存在问题,在当今“数据爆炸”的大环境下,开发出效率高,负载数据量

7、大的新算法是趋势所在。,大多数空间关联规则挖掘工具都是基于事先定义好的参数进行黑箱式挖掘,挖掘过程中的交互性较差。,频繁项的过滤环节,没有充分地运用空间数据的独特性质,即没有将“地理学思想应和空间数据有效结合”。,4、数据挖掘软件,4.1 第一代数据挖掘软件,特点支持一个或少数几个数据挖掘算法 挖掘向量数据(vector-valued data) 数据一般一次性调进内存进行处理 典型的系统如Salford Systems公司早期的CART系统(www.salford-) 缺陷如果数据足够大,并且频繁的变化,这就需要利用数据库或者数据仓库技术进行管理,第一代系统显然不能满足需求。,举例:CBA,

8、新加坡国立大学。基于关联规则的分类算法,能从关系数据或者交易数据中挖掘关联规则,使用关联规则进行分类和预测,4.2 第二代数据挖掘软件,特点与数据库管理系统(DBMS)集成 支持数据库和数据仓库,和它们具有高性能的接口,具有高的可扩展性 能够挖掘大数据集、以及更复杂的数据集 通过支持数据挖掘模式(data mining schema)和数据挖掘查询语言增加系统的灵活性 典型的系统如DBMiner,能通过DMQL挖掘语言进行挖掘操作缺陷只注重模型的生成,如何和预言模型系统集成导致了第三代数据挖掘系统的开发,举例1:DBMiner,举例2:SAS Enterprise Miner,4.3 第三代数

9、据挖掘软件,特点和预言模型系统之间能够无缝的集成,使得由数据挖掘软件产生的模型的变化能够及时反映到预言模型系统中 由数据挖掘软件产生的预言模型能够自动地被操作型系统吸收,从而与操作型系统中的预言模型相联合提供决策支持的功能 能够挖掘网络环境下(Internet/Extranet)的分布式和高度异质的数据,并且能够有效地和操作型系统集成 缺陷不能支持移动环境,举例:SPSS Clementine,以PMML的格式提供与预言模型系统的接口,4.4第四代数据挖掘软件,特点目前移动计算越发显得重要,将数据挖掘和移动计算相结合是当前的一个研究领域。 第四代软件能够挖掘嵌入式系统、移动系统、和普遍存在(u

10、biquitous)计算设备产生的各种类型的数据第四代数据挖掘原型或商业系统尚未见报导,PKDD2001上Kargupta发表了一篇在移动环境下挖掘决策树的论文,Kargupta是马里兰巴尔的摩州立大学(University of Maryland Baltimore County)正在研制的CAREER数据挖掘项目的负责人,该项目研究期限是2001年4月到2006年4月,目的是开发挖掘分布式和异质数据(Ubiquitous设备)的第四代数据挖掘系统。,第一代系统与第二代相比因为不具有和数据管理系统之间有效的接口,所以在数据预处理方面有一定缺陷 第三、四代系统强调预测模型的使用和操作型环境的部

11、署 第二代系统提供数据管理系统和数据挖掘系统之间的有效接口 第三代系统另外还提供数据挖掘系统和预言模型系统之间的有效的接口 目前,随着新的挖掘算法的研究和开发,第一代数据挖掘系统仍然会出现,第二代系统是商业软件的主流,部分第二代系统开发商开始研制相应的第三代数据挖掘系统,比如 IBM Intelligent Score Service。第四代数据挖掘原型或商业系统尚未见报导,5.1 可视化分类,5 空间知识可视化,数据可视化,信息可视化,知识可视化,数据可视化:运用计算机图形学和图像处理技术,将数据转换为图形或图像在屏幕上显示出来,并进行交互处理的理论和方法。,散点矩阵法投影矩阵法平行坐标法层

12、次显示技术动态显示技术图标表示技术直方图法,信息可视化:利用计算机支撑的、交互的、对抽象数据的可视表示,来增强人们对这些抽象信息的认知。信息可视化将非空间数据的信息对象的特征值抽取、转换、映射、高度抽象与整合,用图形、图像、动画等方式表示信息对象内容特征和语义的过程。信息对象包括文本、图像、视频和语音等类型。,一维信息可视化二维信息可视化三维信息可视化多维信息可视化层次信息可视化文档信息可视化网络信息可视化,知识可视化:是数据可视化和信息可视化基础上,将人类的知识,包括见解、经验、态度、价值观、意见、预测等加以表达,并帮助他人正确地重构、记忆和应用这些知识的过程。,三种可视化方式的比较,重点讲

13、空间知识可视化,普遍的几何知识和面向对象的知识空间特征规则和区分规则空间分类规则和回归规则空间聚类规则和关联规则空间依赖规则和预测规则空间序列规则和空间例外,Concept map,Mind map,Thinking map,Cognitive map,Semantic network,知识结果可视化,知识状态可视化,知识过程可视化,动态标量场 f : (x, y, t) R,Knowing what可视化,Knowing why可视化,Knowing how可视化,不同地区人们眼中的空间特征的地图可视化表达,空间关联规则的地图可视化表达,空间关联规则可视化表达,空间关联规则可视化表达,时空演

14、变规律的地图可视化表达,VGI志愿者信息可视化,赛伯空间可视化,泛在空间中的POI 点分布特征知识可视化,5.5 可视化系列著作推荐,FastCoLabs邀请了几位赫赫有名的可视化博客、博主来回答他们眼中最具标志性的可视化作品以及原因,受邀的三位分别是Eager Eyes的Robert Kosara,Visualising Data的Andy Kirk,以及National Public Radio的数据编辑Matt Stiles。,5.6 十大标志性可视化作品,1)Wind Map是一个交互式实时风场可视化作品,数据每小时更新一次,用户可以通过双击放大到更精细的分辨率,看到非常美妙的风场。化

15、不可见为可见一直都是数据可视化的目标。,2)GapMinder是另一个耳熟能详的可视化作品,GapMinder用简简单单的动态散点图就回答了世界发展的历史、现状和趋势。,3)The Ebb and Flow Streamgraph是纽约时报在2008年发布的交互式电影票房可视化作品,作品以非常优美的流的形式展现了1986年到2008年所有电影从上映到下档的票房。,4)Paths to the White House是又一个交互式可视化,下图展现了2012年美国大选的其它可能性。,5)Death and Taxes是一张展现美国联邦超过500个部门、项目财政预算的信息图,信息量涵盖之广让人叹为观

16、止。从04年至今,每年设计师Bachman都会发布最新的财政预算信息图,2014年的信息图由 Time Plots发布。,6)同性恋权益在美国这样的联邦国家各州各不相同,为了清晰表达到底哪个州是同性恋的天堂或是地狱,卫报做了Gay Rights, State by State的交互式可视化作品,该作品赢得了今年数据新闻大奖的数据驱动的叙述奖。作品以不同颜色代表不同权利如结婚、教育、就业等,单这一张图其实已经足够说明很多情况,东北部地区大多是同性恋天堂而东南部地区同性恋者生活艰难。,7)Bikini Chart其实只是一个条形图,由奥巴马团队发布于2012年,用于对比就业率在奥巴马上台后和布什政

17、府时期的改善情况。之所以被民间戏称为比基尼图,自然是因为它的形状,这也是这张图流行的重要原因,谁不喜欢吐槽呢?因为表达的是公民失去工作的情况(记为负数),所以条形更多地被设计在基准坐标以下。从布 什政府上台造成越来越多的失业,到奥巴马政府上台失业率有所改善,这个形势使得整个条形图形成了一个类似于比基尼的形状。,8)A Peek Into Netflix Queues也是来自于纽约时报的可视化作品(大品牌值得信赖),列出了NetFlex在2009年最受欢迎的电影电视剧,以及在各个城市的观影情况。一些电影电视在不同城市的接受度大相径庭。但是对于为什么有些电影在一些城市更受欢迎,作品中并没有给出进一

18、步的分析解释,还有待用户自己发现。,9)Why Is Her PayCheck Smaller? 这个作品表达了相同工作,男女薪水待遇不同。作品非常简单,只是在职业的散点图上增加了一些标准线,不同颜色代表不同行业。但是这些标准 线对于用户阅读可视化,吸收作品真正想传达的意义起到了巨大的作用,让用户在视觉上不由自主地把对标准线一边和另一边的进行对比。首先男女收入相当的标准线无疑是最重要的,看来果然还是男人待遇比较高啊。再下来别是女人薪水少10%,20%,30%的标准线,看来金融领域的女人分外受到歧视啊,10)How Common is Your Birthday?是一个简单的用热度表达美国最普遍

19、的生日日期的信息图,七八九十月出生是最普遍的,往回推的话就是圣诞前后一两个月怀孕,非常合理。不知道我国是不是也会形成小长假、春节的类似于pattern呢?,5.7 一些可视化软件,6 几点思考,数据挖掘同样需要知识的指导,不是一个盲目的过程,也不应简单作为一个“黑箱”。数据爆炸到方法爆炸,例如当前的聚类方法有不下百种。过多的方法用户在实际中如何选择适当的方法亦变得十分困难。有必要分析方法间的共性,避免不必要的冗余。当前方法获得的挖掘结果过多依赖于人为的参数设置、预先假设,对挖掘结果的有效性、可靠性的客观评价依然是当前研究的一个瓶颈问题。空间数据异质性、多尺度特性依然需要得到进一步的重视。,大数

20、据有利于简化模型设计 多源异构、海量、动态变化的时空数据对时空数据挖掘方法提出了新的挑战,也标志着时空数据挖掘研究已经进入了“大数据时代”! 丰富的数据为直接基于数据的建模提供了可能性,甚至有可能实现基于每个时空实体构建局部的实时、动态模型。,纽约某区GPS轨迹数据,伦敦Twitter活跃度,全球地表覆盖监测,大数据不是万能的 大数据提供了海量的数据源,但是这些数据里面包含的数据价值密度相对较低,可能造成挖掘结果的谬误。,今年3月Science上发表的研究成果指出:Google 流感趋势预测存在过高估计的问题: 去医院看流感的人中,高达80%90%比例的人实际上并没有得流感,他们在Google上的搜索行为并不能作为可靠的信息来源,谢 谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报