数据仓库与数据挖掘原理及应用（第二版）_教学课件_ppt 作者王丽珍周丽华陈红梅第10章.ppt-道客多多

资源描述

1、1,在线教务辅导网：http:/,教材其余课件及动画素材请查阅在线教务辅导网,QQ:349134187 或者直接输入下面地址：,http:/,第十章空间数据挖掘,3,第十章目录,10.1空间数据挖掘简介 10.2空间关联规则挖掘 10.3空间co-location模式挖掘 10.4本章小结,4,引言,近年来，随着数据处理工具、先进数据库技术以及万维网（WWW）技术的不断成熟和数据应用的普及，数据库不论是数量、单个数据库的容量，还是数据类型的复杂程度都大幅度地增加了。因此，传统数据挖掘面临着一个重要的课题就是针对复杂类型数据的挖掘。正是基于这个原因，作为数据挖掘技术的一个延伸发展，空间数据挖

2、掘应运而生。,5,10.1 空间数据挖掘简介,10.1.1 空间数据挖掘的产生 10.1.2 空间数据的特点 10.1.3 空间数据挖掘的过程 10.1.4 空间数据挖掘的分类,6,10.1 空间数据挖掘简介,空间数据挖掘是指对空间数据库中非显式存在的知识、空间关系或其他有意义的模式等的提取。空间数据挖掘需要综合数据挖掘与空间数据库技术。空间数据挖掘不仅在地理信息系统、地理市场、遥感、图像数据勘测、医学图像处理、导航、交通控制、环境研究等领域有着广泛的应用，空间数据挖掘还可以用于对空间数据的理解、空间关系和空间与非空间数据关系的发现、空间知识库的构造、空间数据库的重组和空间查询的优化。,7,1

3、0.1.1 空间数据挖掘的产生（1）,空间数据挖掘技术的产生来自于两个方面的推动力：首先，由于数据挖掘研究领域的不断拓展，由最初的关系数据和事务数据的挖掘，发展到对空间数据库的挖掘。空间信息正在逐步成为各种信息系统的主体和基础。空间数据是一类重要、特殊的数据，它有着比一般关系数据库和事务数据库更加丰富和复杂的语义信息，包含着更丰富的知识。因此，尽管数据挖掘最初产生于关系数据库和事务数据库，但由于空间数据的特殊性，从空间数据库中挖掘知识很快引起了数据挖掘工作者的关注。许多数据挖掘方面的研究工作也从关系型和事务型数据库扩展到空间数据库。,8,10.1.1 空间数据挖掘的产生（2）,其次，在地学领

4、域，随着卫星和遥感技术的广泛应用，日益丰富的空间数据和非空间数据收集和存储在空间数据库中，海量的地理数据在一定程度上已经超过了人们的处理能力，同时传统的地学分析难以胜任从这些海量数据中提取和发现地学知识。这给当前GIS技术提出了巨大的挑战，迫切需要增强GIS分析功能，提高GIS解决地学实际问题的能力。数据挖掘与知识发现的出现很好的满足了地球空间数据处理的需要，推动了传统地学空间分析的发展。根据地学空间数据的特点，将数据挖掘方法引入GIS，形成地学空间数据挖掘与知识发现的新型地学数据分析理论。,9,10.1.2 空间数据的特点（1）,空间数据是指用来记录空间实体的位置、形状、大小、空间分布

5、特征、相互关系以及质量数量等信息的数据, 不仅需要描述空间实体的常规属性信息和空间几何信息, 同时还要记录空间实体之间的关系, 包括空间拓扑关系, 方位关系和距离关系。与普通数据相比, 空间数据更加复杂, 其主要有如下的特点:,10,10.1.2 空间数据的特点（2）,1）海量性。一方面, 各种空间数据获取技术的进步, 使得可用空间数据总量呈几何量级不断增长。另一方面, 由于空间数据需要记录的内容多且复杂, 单个实体信息存储空间相对普通数据也较大。因此, 基于海量空间数据的挖掘, 不但要考虑算法的可行性, 而且还要考虑算法的效率。传统的非空间挖掘算法必须进行改进以满足在海量空间数据中进

6、行挖掘的要求。,11,2）多维性。空间数据记录空间实体的空间、非空间、空间与空间、空间与非空间、非空间与非空间属性之间的关系, 每个方面又由多个属性维构成, 故空间数据的维数很高。在进行空间数据挖掘时, 如何在如此复杂维度的数据中进行取舍, 并进行高效的知识获取, 是一个很有意义的研究方向。 3）多尺度。尺度是空间数据一个固有的特性, 又是其复杂性的一种体现。空间数据在不同观察层次上所遵循的规律以及体现出的特征不尽相同。在进行挖掘时, 可以利用不同尺度层次之间的渐变关系, 来进行同尺度、跨尺度的挖掘及由已知尺度下的挖掘结果推导其它尺度下的知识。,10.1.2 空间数据的特点（3

7、）,12,10.1.2 空间数据的特点（4）,4）不确定性。传统空间数据分析中, 空间实体的几何边界或定性属性都视为刚性。在现实世界中, 空间实体的边界却是柔性的, 而且不同实体边界弹性大小各异。空间数据的柔性边界使得在进行相应的空间数据挖掘时, 不同抽象层次空间和非空间关系计算具有了不确定性。如何在空间数据中表达这种柔性边界, 如何计算具有不确定性的空间实体间的关系是空间数据挖掘的一个重要的研究内容。,13,10.1.2 空间数据的特点（5）,5）相关性。传统数据在统计上是相互独立的。空间实体分布于一定的空间区域内, 相互之间存在着某种关系, 从而导致空间数据之间具有一定的相关性。这

8、种相关性可以是空间的也可以是非空间的, 可以是线性的也可以是非线性的。它是空间系统复杂性的一个主要标志, 是空间数据挖掘的一个主要任务。,14,10.1.3 空间数据挖掘的过程（1）,从空间数据库中发现知识是一个多步骤的处理过程，在处理过程中可能会有很多次反复。空间数据挖掘是空间数据知识发现过程中的一个重要步骤。空间知识发现过程如图10.1所示。,图10.1 空间知识发现过程图,15,10.1.3 空间数据挖掘的过程（2）,（1）准备了解空间数据挖掘（SDM, Spatial Data Mining）的相关情况，熟悉有关背景知识，弄清用户的需求。（2）数据选择根据用户的要求从空间数据库

9、（SDB, Spatial DataBases）中提取与SDM相关的数据，构成源相关数据集。,16,10.1.3 空间数据挖掘的过程（3）,（3）数据预处理检查数据的完整性和一致性，对其中的噪音数据进行处理，对丢失的数据利用统计方法进行填补，得到目标相关数据集。（4）空间数据挖掘,17,10.1.3 空间数据挖掘的过程（4）,（5）解释评价根据某种兴趣度度量，提取用户真正感兴趣的模式，并通过决策支持工具提交给用户。如果用户不满意，则需要重复以上知识发现过程。,18,10.1.4 空间数据挖掘的分类（1）,空间数据挖掘的主要任务有：空间聚类空间分类空间关联规则空间异常挖掘空间趋势

10、分析等等,19,10.1.4 空间数据挖掘的分类（2）,空间聚类空间数据聚类是要在一个比较大的多维数据集中根据距离的度量找出簇，或稠密区域。空间聚类所分析处理的数据均是无（事先确定）类别归属，类别归属在聚类分析处理的数据集中是不存在的，空间聚类属无教师监督的学习方法。空间数据库中聚类的应用包括通过对地震目录中实体的分组来探测地理断层和在地理信息系统中通过对特征空间的聚类来生成主题地图等。空间数据库上的聚类算法主要有三种：分区算法、层次聚类算法和单扫描算法。,20,10.1.4 空间数据挖掘的分类（3）,空间分类空间分类是指通过分析空间对象导出与一定空间特征有关的分类模式。空间分类的目的是在

11、空间数据库对象的空间属性和非空间属性之间发现分类规则。空间分类是近来空间数据挖掘领域中比较活跃的一个方向。在空间分类领域中常常使用决策树方法。例如，使用决策树的方法对星形结构对象的图像进行分类，从而探测星星与银河。,21,10.1.4 空间数据挖掘的分类（4）,空间关联规则空间关联规则是对传统数据挖掘中的关联规则的扩展。空间关联规则即是指空间邻接图中对象之间的关联。空间关联规则形如ABs%，c%，A和B是空间和非空间谓词的集合，s%表示规则的支持度，c%表示规则的可信度。,22,10.1.4 空间数据挖掘的分类（5）,空间关联规则挖掘算法：第一步，通过空间查询从初始空间数据库中获得和任务相

12、关的空间数据库；第二步，使用一些有效空间挖掘算法计算对象之间的空间关系，从而获得一个候选谓词集合；第三步，对第二步中所得到的谓词集合中的每一个谓词计算其支持度，并且将那些支持度小于最小支持度的谓词删除；第四步，对谓词集合进行进一步精化以决定准确的空间关系；第五步，以第四步所得的侯选集作为输入，生成空间关联规则。,23,10.1.4 空间数据挖掘的分类（6）,空间异常挖掘空间异常挖掘作为空间数据挖掘中的一个重要的研究方向，比传统的异常挖掘有着明显的、新的特点，由于空间数据具有高度的自相关性，如果只是采用传统异常挖掘中所使用的理论和方法来进行对数据的分析和处理，势必得不到满意的结果。因此

13、，在空间异常挖掘的过程中，要充分考虑空间数据的特点，采用相应的方法对空间数据进行分析处理，才能抓住空间异常的本质，找到隐藏在大量空间数据之后的知识、模式。空间异常是明显偏离数据集（库）中的其他数据、不满足数据的一般模式或行为，与存在的其他数据不一致的空间数据。,24,10.1.4 空间数据挖掘的分类（7）,空间趋势空间趋势指的是离开一个给定的起始对象时，非空间属性的变化情况。例如，当离城市中心越来越远时经济形势的变化趋势。空间趋势分析的结果可能是正向趋势、反向趋势，或者是没有趋势。一般而言，要在空间数据结构和空间访问方法之上分析空间趋势需要使用回归和相关的分析方法。由于空间数据库自身的特殊性

14、，传统的回归模型可能并不合适。例如，传统的线性回归模型：Y=X+在空间数据库中就不适用，需要使用空间自回归模型：Y=WY+X+。,25,10.2空间关联规则挖掘,10.2.1 空间关联规则挖掘的相关概念10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法,26,10.2.1 空间关联规则挖掘的相关概念（1）,1. 空间谓词。定义10.1（非空间谓词）表示空间对象的非空间属性的性质的谓词称为非空间谓词（Non-Spatial Predicates）。非空间属性一般分为两类：分类属性（categorical attribute）和量化属性（quantitative attribute）。分类属

15、性具有有限个不同值，值之间无序（例如：职位、种类、颜色等）。量化属性则是数值型的，并在值之间具有一个隐含的序（例如：年龄、收入、价格等）。,27,10.2.1 空间关联规则挖掘的相关概念（2）,定义10.2（空间谓词）空间关系是空间对象之间由于空间位置和形状的不同而造成的相互之间的各种联系，能够表示空间关系的谓词称为空间谓词（Spatial Predicates）。空间关系一般分为三类：拓扑关系对应空间谓词如：adjacent、disjoint、intersect、overlap等。距离关系对应空间谓词如：close_to、far_away、“distance100”等。空间方位关

16、系对应空间谓词如：above、below、north_of、southwest_of、left_of等。,28,10.2.1 空间关联规则挖掘的相关概念（3）,（1）拓扑关系（Topological Relationship）拓扑关系是最基本的空间关系，两对象之间的拓扑关系具有不因参照物的拓扑变换（如放缩、旋转）而改变的特点，可通过9个相交矩阵模型定义。例10.1 设A、B是两个空间对象，可以分别为一个点（P）、一条线（L）或一个多边形表示的面（R），那么符号A、A、A分别表示A的内部、外部和边界。A、B的33相交矩阵如图10.3所示，用它可以判别A、B之间的拓扑关系，包括A meet

17、B、A overlap B、A disjoint B、A equal B、A cover B、A covered_by B、A contain B、A inside B 。,A B AB AB AB AB AB A B A B A B,图10.3 A, B的33相交矩阵,29,10.2.1 空间关联规则挖掘的相关概念（4）,（2）距离关系（Metric relationship）距离关系说明A、B两个空间对象之间在距离度量上的关系，用A d B表示，其中d表示A、B两个对象之间的距离关系，由A、B之间的距离dist（A, B）与某个给定的常量c经过算术比较（、=、）确定，d可以是谓词也可以是

18、表达式，即：若距离关系A d B成立，当且仅当dist（A，B） c 。例如：A clost_to B成立，当且仅当dist（A, B）“3km”，即A distance“3km”B。,30,10.2.1 空间关联规则挖掘的相关概念（5）,例10.2 假设A、B分别表示两个空间对象，那么A、B之间的拓扑关系与距离关系如图10.4所示,图10.4 空间对象的拓扑关系与距离关系示意图,31,10.2.1 空间关联规则挖掘的相关概念（6）,（3）空间方位关系（Direction relationships）空间方位关系说明A、B两个空间对象在空间分布上的相对位置关系，用B r A表示，其中r是空

19、间方位关系，A是源对象，B是目标对象。在空间数据库中存储的空间对象可以是点、线或面，在考虑空间方位关系时我们将线和面看作是点的集合，因此，空间方位关系的确定依赖于所考虑的构成对象的点的个数。这里假定用源对象A的某个具有代表意义的中心点Rep（A）来代表A，目标对象B则要考虑其所有点，举例如下：,32,10.2.1 空间关联规则挖掘的相关概念（7）,B north_of A成立，当且仅当同理，可以定义south_of、west_of、east_of等。 B northeast_of A成立，当且仅当同理，可以定义southeast_of、southwest_of、northwest_of等

20、 B any_direction A恒成立,33,10.2.1 空间关联规则挖掘的相关概念（8）,例10.3 假设A、B、C、D分别表示不同的空间对象，A是源对象，其中心点用rep（A）表示，那么A、B、C、D之间的空间方位关系如图10.5所示：,图10.5空间对象的空间方位关系示意图,34,10.2.1 空间关联规则挖掘的相关概念（9）,2. 概念层次树定义10.3（概念分层）一个概念分层（concept hierarchy）定义一个映射序列，将低层概念映射到更一般的高层概念。,35,10.2.1 空间关联规则挖掘的相关概念（10）,例10.4 考虑空间对象“城镇”，按其“地理位置”划分的

21、概念分层。“地理位置”可以由属性“城镇”、“州（地区）”和“省”组成，这些属性按一个全序相关，形成层次信息：“城镇”“州（地区）”“省”，如图10.6（a）所示：,图10.6 概念分层结构：（a）“城镇”分层；（b）“气温”分层,36,10.2.1 空间关联规则挖掘的相关概念（11）,例10.5 考虑“气温”属性的概念分层，将可能的属性取值划分为不同范围的值区间，按区间大小划分的层次信息为：10204080，如图10.6（b）所示：,图10.6 概念分层结构：（a）“城镇”分层；（b）“气温”分层,37,10.2.1 空间关联规则挖掘的相关概念（12）,定义10.4（概念层次树）在空间数据库中

22、，给定空间数据对象SO(O1,On)，任一空间数据对象Oj的关系模式R(A1, Am)，其中Ai的域为，将Di中的元素（如果Ai为离散属性）或Di的划分子区间（如果Ai为连续属性）作为叶结点，自底向上逐步概化生成内结点，Di作为根结点而得到的树称为空间数据对象Oj的概念层次树hi。一般地，hi中的结点取一个名字代之，称为概念。,38,10.2.1 空间关联规则挖掘的相关概念（13）,在空间数据对象Oj按属性Ai构造的概念层次树hi中，高层概念是低层概念的概括，树叶是Ai的可能属性值或属性值区间描述，树根是Ai的所有可能属性值的最一般描述。概念层次树的构造过程可以使用两个函数s_parent(o

23、bj)和s_children(obj)来实现，分别返回对象obj的父结点和所有子结点的集合,39,10.2.1 空间关联规则挖掘的相关概念（14）,图10.7 空间数据对象“城镇”按地理位置概化的概念层次树,图10.8 “气温”属性的概念层次树,例10.6 根据图10.6给出的某空间数据库的“城镇”和“气温”属性的概念层次树如图10.7、图10.8所示。,40,10.2.1 空间关联规则挖掘的相关概念（15）,3. 空间查询数据库中通常存储了大量的数据，为了使数据挖掘过程主要集中在用户感兴趣的数据子集或抽象数据子集上，就需要通过空间查询获得相应的结果。空间数据挖掘查询与一般的数据挖掘查询有所

24、不同，在查询中需要描述空间对象的拓扑关系、空间距离和方位等。目前，已有一些在空间数据挖掘查询语言方面的研究，其中，Han等人设计的地理查询语言GMQL（Geo-Mining Query Language）是最具代表性的，并且已经成功的应用于空间数据挖掘原型系统GeoMiner中。,41,10.2.1 空间关联规则挖掘的相关概念（16）,GMQL的设计指导原则为：（1）挖掘过程中的数据包括空间属性数据和非空间属性数据，两类数据密切相关，因此这些数据和关系应储存起来；（2）空间-非空间概念层次应存在，相关数据集可通过归纳或提高概念层次的方法得到；（3）数据项集之间的关系可用类似SQL查询语言

25、的方法得到；（4）为方便用户与系统的交互，语言应当给挖掘过程中用到的对象提供指示设备；（5）能够说明各种各样的阈值，使得可以灵活的过滤掉那些不是很令人感兴趣的知识；（6）能够运用于不同类型知识的挖掘，如空间关联规则、空间聚类、空间分类等。,42,10.2.1 空间关联规则挖掘的相关概念（17）,GMQL用扩展的BNF语法表示如下：“ ”表示谓词条件，“ ”表示限制及层次条件。MINE ANALYZE WITH RESPECT TO FROM WHERE GROUP BY HAVING SET |,43,10.2.1 空间关联规则挖掘的相关概念（18）,“MINE ”不仅可以指定挖掘规则的

26、类型，还可以添加描述信息，如规则名、待描述类型名称等。 “ANALYZE ”定义了查询相关的数据，说明数据和表如何从数据库中抽取出来，主要用于说明构造数据立方体的方格，该条件是可选项。 “WITH RESPECT TO ”选择与挖掘任务相关的谓词表，包括空间谓词和非空间谓词。 “FROM WHERE GROUP BY HAVING ”用于构建SQL查询语言检索分析相关的数据集。 SET |是可选项，用于指定相关阈值和层次信息。,44,10.2.1 空间关联规则挖掘的相关概念（19）,例10.7 考虑澜沧江流域各城镇经济情况受其周围地理环境的影响。通过空间查询，找到城镇（T）与其周围交通设施（R

27、）、水资源（W）和旅游资源（L）之间的具有一定空间关系的数据集，使用GMQL查询语句如下： MINE SPATIAL ASSOCIATIONS AS “town“ WITH RESPECT TO T.geo, R.geo, W.geo, L.geo, T.economy FROM Lancang-mekong-riverWHERE g_close_to(T.geo, X,geo, “50km”) and X in R, W, L SET SUPPORT THRESHOLD 0.4 SET CONFIDENCE THRESHOLD 0.5,45,10.2.1 空间关联规则挖掘的相关概念（20）,

28、4. 空间关联规则定义10.5（空间关联规则）空间关联规则的表达形式: XY( c%, s%)，其中, X和 Y是谓词集合, 可以是空间谓词或非空间谓词, 但至少包含一个空间谓词, 且 XY= 。 s%是规则的支持度, 指 X和 Y在所有空间事务中同时发生的概率, (XY)。 c%为规则的可信度, 指在所有空间事务中 X 发生的前提下 Y 发生的概率, (Y/X)。,46,10.2.1 空间关联规则挖掘的相关概念（21）,例如规则： is- a(x, house) close- to(x, beach) is- expensive(x) (90%)（含义: 90%靠近海滩的房子价格都高）。再

29、如分析加拿大不列颠哥伦比亚省（B.C.）内各城市情况，发现如下空间关联规则：is_a（X, city）within（X, BC）adjacent_to（X, water）close_to（X, US）（92%）（含义：加拿大不列颠哥伦比亚省内92%临近水域的城市靠近美国），其中：adjacent_to和close_to 是空间谓词；is_a和within是非空间谓词。最小支持度阈值（minsup）最小置信度阈值（minconf）,47,10.2.1 空间关联规则挖掘的相关概念（22）,定义10.6（频繁谓词集）给定数据对象集合S，谓词集P在第k层是频繁的，当且仅当(P/S) minsup

30、k（minsupk是第k层上的最小支持度阈值），并且谓词集P在对应较高层概念层上的所有祖先是频繁的。规则PQ在第k层上置信度高，当且仅当(PQ/S) minconfk （minconfk是第k层上的最小可信度阈值）。定义10.7（强空间关联规则）规则“PQ/S”是强空间关联规则，当且仅当“PQ”在数据对象集合S中是频繁的，并且规则“PQ/S”的置信度高。,48,10.2.1 空间关联规则挖掘的相关概念（23）,例10.8 发现云南省境内澜沧江流域“城镇”与“水资源”、“交通设施”和“旅游资源”之间的空间关联关系，则找到以下空间关联规则：is_a(X,城镇)intersect(X,省级高速公路

31、)close_to(X,著名旅游点)（50%，83%）含义：流域内开通省级高速公路的城镇83%靠近著名旅游点，50%的城镇已开通省级高速公路，并靠近著名旅游点MINE SPATIAL ASSOCIATIONS AS “town“。,49,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（1）,Koperski和Han等人提出一种自顶向下，逐步求精的五步算法： Input: 算法输入由数据集、空间查询和一组阈值组成，具体如下： 1）数据集，它包含三部分：一个空间数据库SDB，它包含一组空间对象；一个关系数据库RDB，它描述了空间对象的非空间性质；一组概念分层。 2）空间查询，包括：查找参

32、考对象；从数据库中找出与任务相关的空间对象集合；从数据库中找出与任务相关的空间关系集合。 3）阈值：最小支持度（minsupl）和最小置信度（minconfl），l是指第l层概念分层的相应阈值。,50,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（2）,Output: 用户感兴趣的多层空间关联规则。 Method: 算法具体步骤。 step1、Task_relevant_DB:=extract_task_relevant_objects(SDB, RDB)； step2、Coarse_predicate_DB:=coarse_spatial_computation(Task_rele

33、vant_DB)； step3、Frequent_coarse_predicate_DB:=filtering_with_minimum_support(Coarse_predicate_DB)； step4、Fine_predicate_DB:=refine_spatial_computation(Frequent_coarse_predicate_ DB)；step5、Find_frequent_predicates_and_mine_rules(Fine_predicate_DB),51,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（3）,例10.9 分析加拿大不列颠哥伦比亚省

34、（British Columbia，简称B.C.）内相关对象之间的空间关联关系，其B.C.省的地图如图10.9所示，而描述空间对象的关系模式分别是：（1） town（name, type, population, geo,）；（2） road（name, type, geo,）；（3） mine（name, type, geo,）；（4） boundary（name, type, admin_region_1,admin_region_2, geo,）。在上述关系模式中，属性“geo”表示一个空间对象（如点、线、面等等），在相应关系模式中仅存储其空间对象的指针。属性“type”用于区

35、分空间对象的类型，如：道路（“road”）的类型（“type”）可能是national highway, local highway, street, back_lane, 而水（“water”）的类型（“type”）可能是ocean, sea, inlets, lakes, rivers, bay, creeks。边界（“boundary”）关系描述两个行政区之间的界线。关系模式中省略的域可以定义其它的一些信息，如：湖（lakes）的面积和河流（rives）的流量等。,52,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（4）,图10.9 B.C.省地图,53,10.2.2 自顶向下

36、，逐步求精的空间关联规则挖掘算法（5）,为方便和有效地挖掘多层空间关联规则，定义如下的空间对象和空间谓词的概念分层： -城镇（“towns”）的概念分层是：（town(large_town(big_city, medium_sized_city), small_town()） -水（“water”）的概念分层是：（ water(sea(strait(Georgia_Strait,), Inlet(),),river(large_river(Fraser_River,),),lake(large_lake(Okanagan_Lake,),),),) -道路（“road”）的概念分层是：（r

37、oad(national_highway(routel,),provincial_highway(highway_7,),city_drive(Hasting St., Kingsway,),city_street(E_1st Ave.,),),),54,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（6）,空间谓词的概念分层如图10.10所示：,图10.10 空间拓扑关系的概念分层,55,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（7）,于是，用五步算法挖掘B.C.省内相关对象之间的空间关联规则的过程是：首先，通过空间查询获得有一部分区域在B.C.省内的空间对象（数据）

38、，它们包括： towns：大城镇； roads：高速公路； water：包括海洋（seas）、大海（oceans）、大湖（large lakes）和大河（large rivers）； mines: 矿产资源； boundary: 与B.C.和U.S.A的交界线。,56,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（8）,接着，在空间谓词的粗级别（顶层）概念分层上，计算大城镇（town）与其他4类空间实体之间的“generalized close_to”(g_close_to)关系，这个计算可以使用计算代价较小的空间算法，如：MBR数据结构和平面扫描算法；或用R*-trees数据结构

39、和近似算法等。所获得的空间谓词被收集于 “g_close_to”关系表中（如表10.1所示），这个表是一个扩展的关系模式表，即表中的栏（列）可能是一些实体集。基于表10.1，计算相应空间实体的支持计数，然后删去其支持计数小于给定最小支持计数阈值的空间实体。例如：表10.1中，空间实体“mine”将被删除。,57,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（9）,表10.1. 计算获得的“g_close_to”关系表,58,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（10）,基于“g_close_to”关系表，可以挖掘在不同概念层上的有趣频繁项集和相应的空间关联规则。例如

40、：从表10.1，下面两个空间关联规则能被挖掘出来： is_a(X, large_town) g_close_to(X,water) (80%) is_a(X, large_town)g_clos_to(X,sea) g_close_to(X,us_boundary) (92%),59,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（11）,在频繁谓词集上实施精细计算（refine computation）。例如，对表10.1中余下的（频繁的）空间实体，将g_close_to谓词用一个或多个具体的谓词如intersect、adjacent_to、close_to、inside等等代替，如

41、此计算可获得如表10.2 所示的结果。,表10.2. 频繁空间实体集的详细（具体）级的空间关系表,60,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（12）,基于表10.2，进行空间实体各概念层上详细空间关系的计算，然后逐层挖掘频繁谓词和相应的空间关联规则，具体如下：从空间实体的顶（最高的）概念层开始，计算这一层的频繁谓词。例如：对于表10.2 的每一行（即，每一个大城镇（town），如果“water”属性值不空，则其值的支持计数(count)就累加1，其结果形成表10.3的频繁 1谓词集（k=1）和它的支持计数，同时删除支持计数小于给定最小支持计数阈值的谓词。如：对第1概念分层，

42、如果最小支持计数阈值设置为50%，那么，其计数值小于20的行，都可以从表中删除。频繁 2谓词（k=2）是通过频繁 1谓词的自配对组合而形成的，而它们的支持计数则需再扫描表10.2，同时也删除支持计数小于最小支持计数阈值的2谓词。类似地，频繁 3谓词（k=3）可以被计算。表10.3是计算频繁 k谓词集的结果。,61,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（13）,表10.3. 顶(最高)概念层的频繁k谓词集（涉及B.C.省的40个大城镇）,62,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（14）,空间关联规则可以直接从表10.3产生。例如：因为谓词的支持计数是29，

43、谓词组合，的支持计数是25，而25/29=86%，所以，产生如下关联规则： is_a(X,large_town)intersects(X,highway)adjacent_to(X,water). (86%) 。注意到：因为规则仅与大城镇相关，所以谓词“is_a(X, large_town)”是被加到规则的前件中的。相似地，可以导出如下的规则： is_a(X, large_town)adjacent_to(X,water) Close_to(X,us_boundary) (72%) 。然而，如果最小支持度阈值被设定为75%，那么，这个规则将被剔除。,63,10.2.2 自顶向下，逐步求精

44、的空间关联规则挖掘算法（15）,挖掘完空间实体的最高（顶）概念层的规则之后，以相同的方法计算在较低概念层上的频繁k谓词集，其结果见表10.4和表10.5。在较低的概念层上，最小支持度和最小可信度阈值通常需要减少，以保证挖掘到有趣的规则。例如：在第2层设置最小支持度阈值为25%，那么，其支持计数大于等于10的谓词将包含于表10.4；而如果第3层最小支持度阈值设置为15%，那么，包含于表10.5的行其支持计数大于等于7 。,64,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（16）,表10.4. 第二层的频繁k谓词集（涉及B.C.省的40个大城镇）,65,10.2.2 自顶向下，逐步求精

45、的空间关联规则挖掘算法（17）,表10.5. 第三层的频繁k谓词集（涉及B.C.省的40个大城镇）,66,10.2.2 自顶向下，逐步求精的空间关联规则挖掘算法（18）,在较低的概念层上挖掘时，仅上层频繁的谓词的子孙需要被考虑。例如：邻近湖的大城镇数目少，因此，谓词不出现在表10.4中，这样，在第三层，谓词的子孙谓词一定不是频繁的，不需要考虑。挖掘过程的终止条件是：最低的概念层挖掘结束，或在某一层的频繁1谓词集为空集。当然，空间实体“大城镇（large_town）”也可以进一步划分为big_city（其人口数大于50,000的城镇）、other_large_towns等等。那么，可以以类似的

46、方法挖掘到如下所示形式的规则： is_a(X, big_city)adjacent_to(X,sea) Close_to(X,us_boundary) (100%) 。,67,10.3空间co-location模式挖掘(1),10.3.1 空间co-location模式的基本概念10.3.2 基于完全连接的co-location模式挖掘算法,68,10.3空间co-location模式挖掘(2),传统的数据通常是相互独立的，而空间上分布的数据则是相关的，或者更确切的说是空间并置的（co-located），即两个对象的位置越近，就越可能有相似的性质。空间co-location模式就代表了一组空间

47、对象的子集，它们的实例在空间中频繁地关联。挖掘空间co-location模式可以看作是挖掘空间关联的一个特例。,69,10.3.1 空间co-location模式的基本概念(1),1. 空间对象及空间对象的实例空间对象（或称空间事件）代表了空间中不同种类的事物。空间对象集代表了空间中不同种类的事物的集合，记为F=f1, f2,fn。把每个具体空间位置上的对象称为空间对象的实例。将实例的集合称为实例集，记为S=S1S2Sn，其中Si(1in)是对应空间对象fi的实例集合。为了区别对象的不同实例，给每个实例一个唯一的编号，于是对象的实例信息通常包括。,70,10.3.1 空间co-locati

48、on模式的基本概念(2),例10.10 如图10.11所示，图中共有4 个空间对象A、B、C、D，空间对象A有4个实例A.1、A.2、A.3和A.4，B有5个实例B.1、B.2、B.3、B.4和B.5，C有3个实例C.1、C.2和C.3，D有2个实例D.1和D.2 。,71,10.3.1 空间co-location模式的基本概念(3),2. 空间邻近关系R 空间邻近关系R描述了空间实例之间的空间关系。空间邻近关系R可以是空间拓扑关系（如相连、相交等）、距离关系（如欧几里德距离）、混合关系（如在地图中的两点最短路径）等。如果这里定义邻近关系R为欧几里德距离小于等于阈值d，那么两个实例满足R当且仅

49、当它们的欧几里德距离小于等于d，即可以表示为:,当两个空间实例间满足空间邻近关系R时，我们称这两个空间实例R邻近，并用线段连接它们（如图10.11所示）。,72,10.3.1 空间co-location模式的基本概念(4),3. 团设有空间实例集，如果有，则称I是一个团；团在标出了空间邻近关系的图中，将表现为一个完全连通图，如图10.11 所示， A.3,B.3,C.1,D.1就是一个团,73,10.3.1 空间co-location模式的基本概念(5),4. 空间co-location模式一个空间co-location模式（简称“co-location模式”）是一组空间对象的集合c，其中。如图10.10中，A,B,C是一个co-location模式。 co-location模式的阶：一个co-location模式c的长度称为此co-location模式的阶，即co-location模式里空间对象的个数，记作。例如，size (A, B, C)=3 。,

展开阅读全文

数据仓库与数据挖掘原理及应用（第二版）_教学课件_ppt 作者 王丽珍 周丽华 陈红梅 第10章.ppt

数据仓库与数据挖掘原理及应用（第二版）_教学课件_ppt 作者王丽珍周丽华陈红梅第10章.ppt