ImageVerifierCode 换一换
格式:PPT , 页数:179 ,大小:4.88MB ,
资源ID:6069737      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-6069737.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(李德仁院士_空间数据挖掘和知识发现的理论与方法+(PPTminimizer).ppt)为本站会员(scg750829)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

李德仁院士_空间数据挖掘和知识发现的理论与方法+(PPTminimizer).ppt

1、空间数据挖掘和知识发现 的理论与方法,李德仁院士,武汉大学测绘遥感信息工程国家重点实验室二零零五年三月二十五日 武汉,主要内容,1. 引言 2. 空间数据挖掘和知识发现的框架 3.数据场和云模型及其应用 4.Rough集理论及其应用 5.空间数据聚类 6.长江三峡宝塔滑坡监测数据挖掘 7.归纳学习及其在空间数据挖掘中的应用 8.基于空间统计学的自动影像搜索 9.总结与展望,1. 引 言,数据挖掘和知识发现(DMKD)的发展简况 起源于从数据库发现知识(KDD),定义为“从数据中发现隐含的、先前不知道的、潜在有用的信息的非平凡过程”(1991)。 Fayyad等(1996)曾对KDD和数据挖掘(

2、Data Mining)重新定义和加以区分。人们习惯上把DM和KDD合起来使用,称为DMKD。 对关系数据库和事务数据库的DMKD研究已取得很多进展,并有商用软件问世。,1. 引 言,DMKD一般主要发现广义、分类、关联、预测等四类知识。 目前国际DMKD大会以及亚太DMKD会议每年举行一次。1997年1月,国际DMKD杂志创刊。 我国对DMKD的研究稍晚,目前已十分活跃。1993年国家自然科学基金首次支持该领域的研究项目。作者在1994年提出了从GIS数据库发现知识的建议(SDM&KDD)。,1. 引 言,遥感和GIS对空间数据挖掘和知识发现的需求数据海量-信息不足-知识贫乏从GIS和影像数

3、据库发现知识用于遥感图像解译从属性数据库发现知识用于GIS的智能化空间分析,2.空间数据挖掘和知识发现的 理论与技术框架,数据、信息和知识 空间数据挖掘和知识发现的定义和特点 发现状态空间理论 从空间数据库可发现的知识类型 空间数据挖掘和知识发现的方法,空间数据挖掘金字塔(Pyramid of Spatial Data Mining),数据、信息和知识,空间数据挖掘和知识发现的 定义和特点,空间数据挖掘和知识发现的定义 空间数据挖掘和知识发现(SDMKD)是从空间数据库中提取隐含的、用户感兴趣的空间的和非空间的模式和普遍特征的过程。 SDMKD的特点 需要确定数据挖掘的粒度 需要对图形和影像数

4、据进行处理、分析和特征提取,发现状态空间理论,针对关系数据库的三维发现状态空间 面向属性的操作: 对属性之间关系的认识和发现 面向宏元组的操作: 对各宏元组之间一致性和差异性的认识和发现; 面向知识模板的操作: 是属性值从微观到宏观的操作,使知识模板上升到抽象级别更高的知识模板。 针对空间数据库的四维发现状态空间 面向空间尺度的操作:是对空间数据由细到粗的计算、变换、概括、综合的过程。,空间数据挖掘机理,人类思维:具有层次性,自然语言的语言原子是人类思维的原子模型,概念是人类思维的基本细胞单元。 概念空间:自然语言中的基本语言值是个定性概念,对应着一个定量的数据空间,反映概念的内涵和外延。 特

5、征空间:人类思维过程中的对象,对应着一个定量的数据空间,反映对象的多个属性。 知识 = 规则+例外数据挖掘的机理:基于不同认知层次的“数据概念知识”视图,而空间知识则是各级的 “规则加例外”。认知层次主要由粒度和尺度表达,,基于认知层次的发现状态空间,空间数据清理,空间数据常有污染,需要清理。 空间数据清理指有助于提高空间数据质量的过程。 空间数据清理主要包括:不完整数据、不准确数据、重复记录、不一致数据、图形图像的清理等,以及清理空间观测数据的误差的广义线性概括模型、粗差的稳健估计、检测方法和可靠性分析方法。,空间数据挖掘的难点,空间数据挖掘面对的首先是空间观测数据,然后才形成概念;先有连续

6、的数据量,然后才有离散的符号量. 对同样的一堆数据,同一个人从不同的角度看,有不同的结果;不同的人看,也可能有不同的结果。可谓仁者见仁,智者见智。 若由空间观测数据不能完全精确地认识数据母体的规律时,则观测数据对应的样本对母体而言非完备,是一个病态反演问题。,从空间数据库可发现的知识类型,普遍的几何知识 空间分布规律 空间关联规则 空间分类/聚类规则 空间特征规则 空间区分规则 空间演变规则 面向对象的知识,空间数据挖掘和知识发现的方法,统计方法和空间统计学 归纳方法 聚类方法 空间分析方法 探测性的数据分析 Rough集方法 数据场和云模型 图像分析和模式识别、神经网络、证据理论、遗传算法、

7、数学形态学.,3.数据场和云模型及其应用,数据辐射 数据场的概念和性质条件 数据场的场强函数 数据场的势 数据场的影响因素,数据场,数据辐射,数据辐射就是观测数据能量从样本空间散布发射到整个母体空间,而被数域空间中的周围点所分享的过程。 数据通过数据辐射将其数据能量从样本空间辐射到整个母体空间,从离散的观测点辐射到连续面上的任意一点,以显示自己在空间数据挖掘和知识发现任务中的存在和作用。 数据辐射把每个空间数据在空间数据挖掘中的不同作用抽象为数据能量,使空间数据挖掘变得具体化。,数据辐射示意图,数据场的概念和性质条件,数据场是在数据辐射中接受数据能量并被数据辐射所覆盖的空间。是对数据辐射过程的

8、数学抽象和假定 数据场的存在,必须满足独立性、就近性、遍历性、叠加性、衰减性和各向同性等条件。,空间数据的场强函数和势函数,把空间数据辐射看作广义核辐射作用,考虑正态分布的普适性及其概率密度分布函数,最小二乘配置的协方差函数,以及数据辐射的距离衰减快速性,可得到如下的空间数据的场强分布函数及其势函数。,其中,p为数据场强(即数据辐射到某点的数据能量大小),r为数据x的辐射半径(即母体空间中某点和数据x的距离),CT(x) 是数据辐射亮度(即数据x对概念T的确定度),k为数据辐射因子(即顺应场合而定的数据场常数);P为数据场的势(即某点所接受的全部数据辐射过来的数据场的能量强度之和),N为数据的

9、数量,ri为该点和数据xi的距离,CT(xi)是数据xi的辐射亮度,,数据场的影响因素,数据辐射半径 数据辐射亮度 数据辐射因子 数据数量 势间距 笛卡尔网格点密度 两个或两个以上因素的综合作用,势间距和笛卡尔网格点密度,空间数据的势场,势间距对势场的影响,笛卡尔网格点密度对势场的影响,返回,云模型,空间数据的不确定性 云模型基础 云滴的概率密度辐射估计 云的辐射数字特征和期望函数 云的辐射拟合算法,云模型基础,云模型是用自然语言值表示的某个定性概念与其定量表示的数据之间的不确定性转换模型,集成了随机性和模糊性 云模型的可视化方法:带有灰度的点 ,带有尺度的圈或球 ,N+1维 云模型的种类:正

10、态云、衍生云、函数云 虚拟云:浮动云、综合云、分解云、几何云 云模型的三个数字特征:期望值Ex,熵En,超熵He 期望值Ex: 是概念在论域中的中心值,表示最能代表这个定性概念的值,它100%地属于这个定性概念; 熵En: 是定性概念模糊度的度量,反映了论域中可以被这个概念所接受的数值范围,体现了定性概念亦此亦彼性的裕度。 超熵He:可谓熵的熵,反映了云滴的离散程度。 云发生器:正向云、逆向云、X条件云、Y条件云、云推理 云变换:峰值法云变换,原子云模型集的归整,期望值: 反映了云滴群的重心位置。,云数字特征的双重性,熵反映定性概念模糊性,以及云滴出现的随机性。 熵揭示了模糊性和随机性的关联性

11、,超熵是熵的不确定度量,即熵的熵,反映云滴的凝聚度。,云发生器示意,云发生器算法,正向云发生器 输入: 表示定性概念的期望值 Ex 、熵 En 和 超熵 He,云滴数 N; 输出: N个云滴在数域空间的定量位置及每个云滴代表该概念的确定度。 逆向云发生器 输入: N个云滴在数域的精确位置及每个云滴代表该概念的确定度; 输出: 这N个云滴表示的定性概念的期望值 Ex 、熵 En 和 超熵 He; 两个算法:均值法、拟合法,二维正态云模型,多种形态的云,虚云,浮动云 综合云 分解云 几何云,浮动云,二维浮动云,综合云,二维综合云,几何云,最小二乘法生成的几何云的期望曲线,云变换,在一定的误差容限内

12、,将任意函数(如直方图)分解为基云的叠加,用于从数据分布中生成概念。 一种启发式云变换算法 峰值引导 迭代搜索,云变换,原始直方图(红实线)、重建直方图(蓝虚线)及残差(绿点线),原始直方图(红实线)分解为对称梯形云(蓝虚线),基于云理论的不确定性推理,单条件单规则发生器 If A, then B.,一个特定的输入值经过单条件 单规则发生器输出的云团,基于云理论的不确定性推理,多条件多规则发生器(以二条件五规则为例),基于云理论的不确定性推理,多规则推理中同时激活两条规则的情况,多规则推理中同时激活三条规则的情况,基于云理论的不确定性推理,单条件五规则推理输入输出响应图,基于云理论的不确定性推

13、理,二维规则组推理输入输出响应曲面,云理论在空间数据发掘中的应用,基于云模型的空间概念表达 基于云模型的知识表达 基于云理论的概念生成方法 云模型与Apriori算法相结合从空间数据库发现关联知识,基于云模型的空间概念表达,基于云理论的概念生成方法,基于黄金分割率生成的云模型和概念层次结构,云模型-Apriori算法发现关联知识,Apriori算法 基于云模型的属性泛化 2D clouds : location 1D clouds : elevation, road density, distance to the sea, average income 最小支持率 : 6% 最小置信度 :

14、75% 多层次关联规则,“位置” 二维云模型的数字特征值,泛化的属性表,“平均收入”的关联规则,Rule 1 : If location is “southeast”, road density is “high”, and distance to the sea is “close”, then average income is “high”. Rule 2 : If location is “north by east”, road density is “high”, and distance to the sea is “close”, then average income is

15、“high” Rule 5 : If location is “northwest”, road density is “low”, and distance to the sea is “far”, then average income is “low. Rule 6 : If location is “central”, road density is “high”, and distance to the sea is “middle”, then average income is “middle”.,“平均收入”的概化关联规则,Rule 5 : If location is “we

16、st”, road density is “low”, and distance to the sea is “far”, then average income is “low. Rule 6 : If location is “south and central China”, road density is “high”, and distance to the sea is “middle”, then average income is “middle”.,“路网密度”的关联规则,Rule 1: If elevation is “low”, then road density is

17、“high”. Rule 2: If elevation is “high”, then road density is “low”. Rule 3: If elevation is “middle” and location is “northwest”, then road density is “low”. Rule 4: If elevation is “middle” and location is “north”, then road density is “middle”.,云滴的概率密度辐射估计,其中,CT(x) 称为辐射云滴在基础论域L中对概念T的一个辐射亮度函数。如设给定的

18、x = (l-li) 的一个形式为x = (l-li) / d,d 0,叫做辐射单元。,云的辐射数字特征和期望函数,云的辐射数字特征 云的辐射期望函数,云的辐射拟合算法,输入:每个云滴在数域空间的坐标值li及其代表概念的确定度CT(li); 输出:概念的Ex、En和He,云滴数量N; (1)由已知云滴用云期望曲线 拟合得到Ex的估计值;(2)将CT(l) 0.999的点剔除,剩下m个云滴; (3)由 计算得到En(li);(4)根据 解得En的估计值;(5)根据 求出He的估计值。,针对逆向云发生器,基于均值算法、拟合算法、辐射拟合算法的云的数字特征和云图,三组不同的云数字特征,基于均值算法、

19、拟合算法、辐射拟合算法的云图,返回,4. Rough集理论及其应用,Rough集的基本概念 属性值系统 属性的依赖 属性的简化与属性的核 属性的重要性 决策表分析与简化 基于Rough集的空间实体 Rough 空间拓扑关系 基于粗集理论的遥感影像分类 云模型与Rough集方法相结合,Rough集的基本概念,设U是非空的论域; R是一个等价关系,或称不可辨别关系; A=(U, R),称为一个近似空间; U/R表示R中所有等价类的集合,或称U的分类; xR表示R中包含x的等价类; R中的等价类称为基本集; 基本集的有限并集称为可定义集。,Rough集的基本概念,设X是U的子集,则X可用可定义集的术

20、语从A中定义: A中包含在X中的最大可定义集称为A中X的下近似A中包含X的最小可定义集称为A中X的上近似下近似和上近似还可以表达为:,Rough集的基本概念,X的边界: X的正区域: X的反区域: 一个用下近似和上近似定义的子集称为Rough集 曲线所包含部分为集合 X,由矩形单元构成二 维近似空间,属性值系统,一个属性值系统用一个四元组S(U, A, V, f) 任一属性子集BA定义了一个等价关系(不可辨别关系),表示为IND(B),定义为,属性值系统,IND(B)中的所有等价类的集合表示为U/IND(B)。对于任一XU,BA,赋予两个集合:分别称为X的B-下近似和B-上近似。称为X的B-边

21、界,属性的依赖,设S(U, A, V, f)为一个属性值系统, ,C和D分别称为条件属性和决策属性,BC,定义D的B-正区域 定义属性集D与B的依赖程度,属性的简化与属性的核,设B为属性集,属性aB,如果IND(Ba)IND(B),则a在B中是可省去的。 子集BB是B的一个简化,当且仅当B中的属性都是不可省去的且IND(B)IND(B)。 属性集的简化是属性集的一个子集,它对论域中对象的分类能力与原始的属性集相同。,属性的重要性,属性集 相对于由属性C引起的分类的重要性测度可表示为:测度值越大, 的重要性越高,决策表简化,计算条件属性的简化,即从决策表中删去一些列; 删去重复的行; 删去多余的

22、属性值; 生成最小决策规则。,基于Rough集的空间实体,Rough 空间拓扑关系,基于Rough集的河流专题影像提取,遥感分类问题的近似集合示例,二者之间为边界区域RBN(X),是火山体的不确定部分 。,红色区域:所有可以确切地划分为火山体的部分,是火山体的下近似集合R_(X);,白色区域:所有可能属于这块火山体的部分,是火山体的上近似集合R(X);,(a) (R:B4, G:B3, B:B2) (b) (R:B2, G:B1, B: (B1+B2+B3)/3 ),基于粗集理论的遥感影像分类试验,原影像(SPOT 5),基于粗集理论的遥感影像分类试验,影像分类结果,粗糙分类结果(总体精度=7

23、4.8%,Kappa=82.1%),基于粗集理论的遥感影像分类试验,基于粗神经网络的遥感影像分类模型,粗集理论:模拟人类的抽象逻辑思维,基于不可分辨性的思想和知识简化的方法,从数据中推理逻辑规则作为知识系统的输入模型;,人工神经网络:模拟人类的形象直觉思维,利用非线性映射的思想,用神经网络本身结构表达输入与输出关联知识的隐函数编码。,粗集与神经网络结合,基于粗神经网络的遥感影像分类模型,基于粗集的多层感知器模型,X1,X2,Xn,R1,R2,R,R,Rp,C1,C2,Cm,基于粗集的多层感知器分类结果(总体精度=91.5%,Kappa=89.5%),基于粗集的多层感知器模型分类试验,云模型与R

24、ough集方法相结合,首先,将基于云模型的定量到定性的转换方法作为Rough集方法的预处理手段; 其次,应用Rough集方法发现分类决策知识; 最后,用基于云模型的不确定性推理方法应用这些知识,从而表达和传递知识和推理的不确定性。,返回,聚类挖掘,数据场的自然聚类 “数据场云”聚类 模糊综合聚类 数学形态学聚类,数据场的自然聚类,“数据场云”聚类,提出了数据场云聚类算法,给出了基于数据辐射的数据场聚类算法和消除势心的递推算法。 输入:数据集x1,x2,xn,输出:数据聚类结果 1 将数据集上的每个数据点看作云模型的一个云滴,数据点的各个数据特征看作云滴多维的坐标值。 2 将整个数据空间看做受云

25、滴对应的数据辐射的势场,按笛卡尔网格划分势场,把网格点作为聚类中心的候选集。 3 根据势函数计算各网格点的数据场强势值。 4 通过顺序地削除势心选择聚类中心,直至聚类完毕。,“数据场云”聚类算例:数据集,该聚类算法不同于常规聚类算法,其聚类观是在发现状态空间的不同认知层次上的聚类,聚类结果反映了所有样本观测数据的贡献。,基于数据辐射的模糊综合聚类的基本思想,模糊数学的分类缺陷:模糊综合评判在根据最大隶属度对综合评判矩阵确定定级结果时,难以区分0.70和0.69之间的等级类别。 模糊聚类分析凭经验选取分类阈值,分类不唯一。 提出基础:模糊集合把经典集合的值域从0,1扩充为0,1,反映了样本数据从

26、非隶属概念母体到完全隶属概念母体的过渡逼近趋势。逆向而言,这种趋势则是隶属值1向隶属值0的逐步辐射过程,和数据辐射所反映的样本从非完备到完备的过渡逼近趋势基本一致。 模糊综合聚类:就是遵循数据辐射原理,顾及每个样本数据从非完备到完备的过渡逼近趋势及其数据能量辐射,基于模糊集合作综合评判,根据扩张原则把统计概率知识融入模糊数学,依靠分解定理,在模糊聚类置信水平下予以极大剩余聚类。 聚类置信水平指两个或两个以上的空间实体属于同一类的模糊概率。,模糊综合聚类算例:土地评价,聚类过程,结果和讨论,基于数据辐射的模糊综合聚类土地定级,基于最大隶属度原则的模糊综合评判,土地定级土地单元的级别唯一,同时兼顾

27、了河流阻隔等因素。 明确给出120土地单元的等级,体现了南宁市土地级别由市中心到边缘、从高到低逐渐过渡,高级别集中在市中心繁华地段,低级别分布在市区边缘,整个城市的土地级别由市中心商业繁华区向周围呈辐射状,反映出土地质量与土地区位的对应关系。 因铁道和邕江阻隔,使二者两侧的繁华程度有明显差别,如龙宫大酒家(土地单元14)与区检察院(土地单元9) 。 因交通条件是影响土地质量的重要因素,因此主干道两侧呈级差递减趋势,如南宁火车站(土地单元1)和白沙造纸厂(土地单元20 )等。 聚类置信水平事先确定,只与要求的聚类可靠程度一有关,与模糊等价矩阵无关,聚类置信水平越大,聚类结果就越可靠。,问题 1把

28、处于市中心、商服繁华、基础设施完备、人口密度很大的I级地龙宫大酒家(土地单元14)错定为II级地; 2把被邕江阻隔于市中心另一岸的II级地区检察院(土地单元9)错定为I级地; 3把位于郊区、各项设施都较差的IV级地 白沙造纸厂(土地单元20 ) 错定为II级地。 原因:模糊综合评判据最大隶属度原则定级时,若次最大隶属度与最大隶属度相差不大,则丢失了河流道路阻隔、土地区位波及性等大量土地定级信息。由B204知,土地单元20 (白沙造纸厂) 对II级隶属度为0.622,对IV级为0.604,这是模糊综合评判本身所不能克服的,返回,数学形态学聚类,通过闭运算将数据聚成类 采用启发式方法自动确定最优聚

29、类数 在获得聚类结果的同时发现例外值和空洞 数学形态学聚类矢量算法,数学形态学聚类,空间数据库例子,圆形结构元,数学形态学聚类,聚类状态图,数学形态学聚类,聚类状态一阶导数图,数学形态学聚类,聚类状态二阶导数图,数学形态学聚类,聚类结果,数学形态学聚类,边界,空洞,返回,6.长江三峡宝塔滑坡监测数据挖掘,宝塔滑坡形变监测 监测数据挖掘视角 滑坡监测数据的利用困难 滑坡位移形变的泛概念树和监测数据辐射势场 滑坡监测数据的微观视角挖掘 滑坡监测数据的中观视角挖掘 滑坡监测数据的宏观视角挖掘 宝塔滑坡监测点聚类挖掘 对比讨论 发现的知识小结 知识检验,宝塔滑坡形变监测,长江三峡库区滑坡的稳态如何,在

30、长江三峡水利工程及三峡库区的生命财产安全中占有不可取代的地位。 宝塔滑坡位于重庆市云阳县城东约1公里处的长江左岸,体积估计1.04亿立方米,属于特大型滑坡。 宝塔滑坡形变监测系统建成于1996年12月,定期监测滑坡体内监测点的三维位移变化,dx, dy, dh,首期观测时期为1997年1月,至2000年9月共计观测17期,总数据量1G字节。,监测数据挖掘视角及其泛层次关系,滑坡监测数据的利用困难(1),滑坡监测关心的是,滑坡监测的好不好?滑坡的变形水平怎样?根据监测滑坡会否发生?等问题。常用自然语言发问,回答也当然最好是自然语言,可是,监测数据是定量的,自然语言是定性的,还有随机性和模糊性,怎

31、样把定量的监测数据和定性的语言、形象的图形结合起来,并实现相互转换呢?怎样把每个监测点的数据作用映射到整个滑坡体上?怎样反映每个监测数据对滑坡监测结论的不同作用呢? 滑坡灾害涉及的学科背景很多,不可能要求所有的决策者都对每个相关学科了如执掌。那么,如何解决这个“决策急需而学科背景不足”的矛盾呢? 采用云模型和数据场。,滑坡监测数据的利用困难(2),滑坡监测的结论,可能有不同的要求和应用层次。高层的决策者是宏观的,把握方向,可能只是一句话,一幅图;中层的决策者是中观的,带有一定的技术性,可能对滑坡每个断面的变形感兴趣,内容要求可能较多;底层的决策者,可能是技术型的,就要具体到每个监测点。那么,怎

32、样从滑坡监测数据中发现这些不同层次的监测结论呢?发现后,又如何表达出来呢? 采用空间数据挖掘和知识发现解决。决策是从理论到实践,对应一个自知识而数据的决策层次,而空间数据挖掘和知识发现是从实践到理论,对应一个自数据而知识的认知层次。基于多个不同的视角,空间数据挖掘和知识发现可把每个定量的精确监测数据的作用,在不同的认识层次上浓缩到定性的决策思维中。,滑坡位移形变的泛概念树,X方向的监测数据辐射势场(k=3),Y方向的监测数据辐射势场(k=3),H方向的监测数据辐射势场(k=3),来自监测数据辐射势场的知识,从X、Y、H方向的三辐监测数据辐射势场图可以很直观地看到, X方向位移dx的例外是监测点

33、BT21(向南的负位移,相对于其他监测点非常明显) Y方向位移dy的例外是BT14和BT21(BT14为向北的正位移,BT21为向南的负位移,相对于其他监测点明显,且BT21的例外幅度大于BT14) H方向位移dh的例外是BT31(向下的负位移,相对于其他监测点不是十分明显) dx的例外幅度最大,而dh的例外幅度最小,几乎不能称之为例外。,微观视角概率密度辐射估计(X方向),断面一的监测点在不同日期于X方向的位移概率分布密度,断面二的监测点在不同日期于X方向的位移概率分布密度,断面三的监测点在不同日期于X方向的位移概率分布密度,微观视角的dx数字特征及其定性诠释,宝塔滑坡监测数据微观知识,宝塔

34、滑坡监测数据微观知识解释,挖掘视角“同点异时同向”发现的是每个监测点的时间序列知识。 1南北方向(X方向),位移幅度非常大、位移之间离散程度非常高、监测水平也非常不稳定的,是断面二的监测点BT21;位移幅度较小、位移之间的离散程度较低、监测水平也较稳定的,是断面一的监测点BT14;监测点之间位移变化的范围为:断面二 断面三 断面一。2 东西方向(Y方向),向西位移幅度大、位移之间离散程度低、监测水平也较不稳定的,是断面二的监测点BT21;向西位移幅度较小、位移之间离散程度较低、监测水平也较稳定的,是断面三的监测点BT33。3 垂直方向(H方向),向下位移幅度大、位移之间离散度低、监测水平也稳定

35、的,是断面三的监测点BT31;向下位移幅度较小、位移之间离散度低、监测水平也较稳定的,是断面一的监测点BT14。 总体上,每个监测点在不同监测日期的形变位移,南北方向一直向南(长江方向)移动、垂直方向一直向下沉降,东西方向的位移没有一致性,东西波动,而且,南北方向的位移在总体上远大于东西方向、垂直方向),滑坡主要向长江方向移动,所有监测点的位移监测水平基本相似,而且在东西方向和垂直方向位移变化的范围也基本相似。,针对滑坡断面的中观视角概率密度辐射估计,针对滑坡断面的中观视角的数字特征及其定性诠释,宝塔滑坡监测数据中观知识,宝塔滑坡监测数据中观知识解释,三个断面的所有监测点都基本发生了大小不一的

36、位移。它们的位移幅度、位移离散度和监测水平的规律都是:X方向 H方向 Y方向,而且在H方向和Y方向上表现为:断面二 断面一 断面三。其中,断面二的监测点BT21在X方向和Y方向的位移幅度、位移离散度和监测水平方面都居首位。 在整体上,滑坡体的断面一、断面二和断面三都在三个方向有偏向长江的一定位移量,且滑坡体的后缘明显较前缘变化量大,证明该滑坡体为压推型滑坡。,宏观视角挖掘,宏观视角挖掘是针对整个滑坡体的异点同时同向的视角挖掘(视角五) 重点表现所有监测点在一段时期内,于给定位移方向的滑坡位移水平及其监测水平的可靠性。 在数域空间中,异点异时同向的视角的结果,表现为一个由多个云滴组成的云团,表示

37、滑坡体在给定位移方向上对概念“滑坡稳定”的总体确定水平。 在发现状态空间中,异点异时同向的视角面对的是,在给定位移方向上、具有不同时期的位移监测属性的、监测点对象构成的知识模板方向。 当以此视角观察滑坡体的形变监测数据时,通过空间数据挖掘和知识发现获得的,是滑坡体在给定方向上、于不同粒度层次的知识模板的共性知识。,针对整个滑坡体的宏观视角概率密度辐射估计、数字特征及其定性诠释,宝塔滑坡监测数据宏观 规则知识,宝塔滑坡监测数据宏观知识解释,生成的滑坡体整体位移形变云图,其表达的空间知识粒度在发现状态空间中沿知识模板的方向得到升华,可以归结为一句话“宝塔滑坡在监测期内发生了向南微偏西(长江方向)的

38、移动,并伴随少量的向下沉降。”,宝塔滑坡监测数据宏观 例外知识,宝塔滑坡体的最大例外是监测点BT21在X方向的负位移,即向长江方向移动。虽然BT14是正位移中的最大例外,即在Y方向向北的正位移,但是它的绝对位移在整个宝塔滑坡的所有监测数据中仍然较小。,宝塔滑坡监测点聚类挖掘,算法:“数据场云”聚类目的:求取监测点的自然拓扑聚类谱系图,聚类知识结果及其解释,1 等势线显露离群点 2 剔除离群点后的新聚类,3 含离群点的自然聚类谱图 4 剔除离群点后的新自然聚类谱图,在认知层次1(Level1)上,监测点相互独立,没有聚类。 在认知层次2(Level2)上,监测点BT13、BT23、BT24、BT

39、32、BT34自动聚集为一类,记为A类;监测点BT11、BT12、BT22、BT31、BT33自动聚集为另一类,记为B类;监测点BT14独列一类;监测点BT21独列一类;它们分别表示不同的滑坡形变位移水平。 在认知层次3(Level3)上,A类和B类又自动聚集为新的一类,说明宝塔滑坡的大部分监测点的形变位移水平具有相似性;监测点BT14、监测点BT21仍然分别独立成类,是宝塔滑坡的形变位移的例外。 在认知层次4(Level4)上,A类和B类聚集的新类,和监测点BT14聚集为新类,说明小例外个性知识在较高的认知层次上被融入共性知识之中;但监测点BT21仍然独立成类,是较大的例外个性知识,可能对宝

40、塔滑坡的稳定性监测具有重要意义。 在认知层次5(Level5)上,监测点BT21的“例外”作用被淹没在共性知识中,宝塔滑坡的所有监测点共同表达一个整体概念,即宝塔滑坡在监测时期内发生了大小不一的形变位移。 可见,从认知层次1(Level1)逐步上升到认知层次5,是求同;而从认知层次5(Level1)逐步下降到认知层次1,则是求异。这个认知过程,再次印证了空间数据挖掘和知识发现的“规则+例外”机理。当然,如果剔除例外的监测点BT14、监测点BT21,那么求同聚类或求异细化的过程就会简化三个认知层次。但是,剔除例外并非最佳的选择,使挖掘得到的空间知识保持“规则+例外”的形态,往往是实际应用的真正需

41、要。,宝塔滑坡监测数据宏观知识,把从宝塔滑坡监测数据中挖掘得到的结论归结在一起,可以使空间知识的粒度在发现状态空间中沿着认知层次(或知识模板)的方向再次升华 “宝塔滑坡在监测期内发生了向南微偏西(长江方向)的移动,并伴随少量的向下沉降,且后缘较前缘位移大,其监测点 BT21位移表现例外。” 这是对迄今为止所有宝塔滑坡形变监测数据的较为全面的总结,也是一句浓缩量极大的用概念语言描述的空间知识,与人们的思维非常接近,可以直接用于决策。 其中,监测点 BT21位移表现例外,可以解释为位于该压推型滑坡的监测点 BT21附近可能发生小范围的滑坡。 这条“规则+例外”的宝塔滑坡空间知识,是云模型和数据场在

42、发现状态空间共同作用的结果。,宝塔滑坡监测数据挖掘机理,首先,把滑坡监测数据的能量在整个滑坡体辐射,根据数据辐射估算监测数据的概率分布密度,并据此得到云模型的三个辐射数字特征; 其次,根据滑坡监测的特点获得数字特征的定性诠释概念,在遵循原始监测数据整体水平的前提下,利用正向云发生器得到定性概念的可视化云图; 最后,利用数据场得到滑坡位移形变的例外,进而得到粒度较大的“规则+例外”型的滑坡监测空间知识,返回,方法讨论,空间数据挖掘和知识发现得到的滑坡监测知识,信息量丰富、贴切和全面,非常接近于人们的思维和滑坡体运动的真实水平刻画,利于得出较为正确的智能化决策结果。 没有空间数据挖掘和知识发现,将

43、可能得不到这么丰富的不同层次空间知识,满足不了不同的决策要求。 在接近人类智能的有效性和正确性方面,空间数据挖掘和知识发现明显优于确定集合的发生与否(结果为没有灵性的二值逻辑,反应不出任何其他的信息)、一般的概率统计(只给出一个概率)、模糊学的发生隶属度(仅有一个模糊隶属度)、粗集的上下近似(留下一个模棱两可的边界)、专家群体打分(只有一个专家的主观经验均值)、或一般的精度评定法(只给出一个生硬的数值,反应不出任何其他的信息,如中误差)等方法。,宝塔滑坡监测数据挖掘 发现的知识小结(一),不同断面的知识。滑坡体在南北方向上向南移动的幅度最大,在垂直方向下沉的幅度次之,在东西方向上向西移动的幅度

44、最小,滑坡体的位移离散度和监测水平与此相似。同时,在三个方向上,断面的位移变化的大小顺序为:断面二 断面三 断面一,断面二的位移水平、形变离散度和监测水平仍然分别最大、最高和最不稳定。在整体上,滑坡体的断面一、断面二和断面三都在三个方向有偏向长江的一定位移量,且滑坡体的后缘明显较前缘变化量大,证明该滑坡体为压推型滑坡。 滑坡的三个方向知识。三个方向的位移形变数据的概率密度最大值,都集中在“0mm”附近。相对而言,南北方向的位移形变幅度最大,监测点向同一方向(长江方向)移动变形显著;东西方向次之,监测点变形左右波动;垂直方向最小,监测点基本是一直向下沉降。 滑坡整体知识。“宝塔滑坡在监测期内发生

45、了向南微偏西(长江方向)的移动,并伴随少量的向下沉降。”,宝塔滑坡监测数据挖掘 发现的知识小结(二),基于数据场的例外挖掘 滑坡在三个不同方向上的例外。在南北方向、东西方向、垂直方向的位移dx、dy、dh的例外分别是监测点BT21(向南的负位移,相对于其他监测点非常明显)、BT14和BT21(BT14为向北的正位移,BT21为向南的负位移,相对于其他监测点明显,且BT21的例外幅度大于BT14)、BT31(向下的负位移,相对于其他监测点不是十分明显)。其中,dx的例外幅度最大。 滑坡的最大例外。监测点BT21在南北方向上向长江方向移动。 自然拓扑聚类谱系知识。在认知层次1上,监测点相互独立,没

46、有聚类。在认知层次2上,除了监测点BT14、BT21分别独立,其他监测点开始聚为不同的类。在认知层次3上,大部分监测点自动聚为一类,监测点BT14、BT21仍然分别独立。在认知层次4上,监测点BT14被聚入大类,但BT21仍然独立。在认知层次5上,全部监测点聚为一类可见。这说明,宝塔滑坡的大部分监测点的形变位移水平具有相似性,“小例外”知识在较低的认知层次上就被融入共性知识,较大的例外个性知识必须在较高的认知层次才能被同化,可能对滑坡稳定性监测具有重要意义。最后聚为一类表明,宝塔滑坡的所有监测点数据共同表达了一个整体概念,即宝塔滑坡在监测时期内发生了大小不一的形变位移。,宝塔滑坡监测数据挖掘

47、发现的知识小结(三),规则+例外:“宝塔滑坡在监测期内发生了向南微偏西(长江方向)的移动,并伴随少量的向下沉降,且后缘较前缘位移大,其监测点 BT21位移表现例外。” 这条知识是在监测数据的基础上,经过不同层次的挖掘而获得的。可以解释为,宝塔滑坡的大部分监测点的形变位移水平相似,主要向长江方向移动,是压推型滑坡,监测点 BT21位移表现例外的原因是监测点 BT21附近滑坡变形最大,是小范围滑坡灾害的高发地。同时,宝塔滑坡的岩层走向是东西走向,倾角上陡下缓呈椅状。这种滑坡特性和上述的知识十分吻合,说明包括滑坡体的物质性质、地质构造和坡度在内的内力作用,是滑坡灾害的主要成因。 “规则+例外”的宝塔

48、滑坡空间知识,是云模型和数据场在发现状态空间共同作用的结果,具有一定的数据挖掘机理。,知识检验:长江水利委员会第十一工程勘测院对本文研究成果的肯定,返回,7.基于归纳法的空间数据挖掘,面向属性的归纳AOI和决策树方法ID3系列 最大方差法连续数据离散化方法MaxVar 空间数据库概念层次结构及其生成方法 一种探测性的归纳学习方法EIL 基于归纳学习的遥感图像分类方法 归纳学习用于银行经营收益分析及选址评价,最大方差法连续数据离散化,非监督离散化 以组间方差最大为最优化指标构成多变量极值问题 采用最优化方法中的因素交替法求解 直接从数据本身求解或从数据直方图求解 优于常用的等间隔、等频率、以及k

49、-均值聚类等方法,最大方差法连续数据离散化,世界各国家和地区“面积”离散化结果,最大方差法连续数据离散化,世界各国家和地区“人口增长率”离散化结果,空间概念层次结构生成方法,基于云模型的一系列概念层次结构生成方法 云变换、基于黄金分割率的方法、虚云 最大方差法离散化与云模型相结合 根据空间数据编码体系生成 根据面向对象的类结构生成,一种探测性的归纳学习方法EIL,探测性数据分析(Exploratory Data Analysis) 面向属性的归纳(Attribute Oriented Induction) Rough集方法,探测性归纳学习EIL (Exploratory Inductive Learning),EIL方法用于农业统计数据挖掘,EIL方法用于农业统计数据挖掘,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报