收藏 分享(赏)

12空间数据挖掘和知识发现.ppt

上传人:天天快乐 文档编号:1368071 上传时间:2018-07-05 格式:PPT 页数:77 大小:1.51MB
下载 相关 举报
12空间数据挖掘和知识发现.ppt_第1页
第1页 / 共77页
12空间数据挖掘和知识发现.ppt_第2页
第2页 / 共77页
12空间数据挖掘和知识发现.ppt_第3页
第3页 / 共77页
12空间数据挖掘和知识发现.ppt_第4页
第4页 / 共77页
12空间数据挖掘和知识发现.ppt_第5页
第5页 / 共77页
点击查看更多>>
资源描述

1、在随机分布假设下,Morans I 的期望值和方差分别表示为:,The tools in the spatial statistics toolbox use the randomization null hypothesis as the basis for statistical significance testing. The randomization null hypothesis postulates that the observed spatial pattern of your data represents one of many (n!) possible spatia

2、l arrangements. If you could pick up your data values and throw them down onto the features in your study area, you would have one possible spatial arrangement. The randomization null hypothesis states that if you could do this exercise (pick them up, throw them down) infinite times, most of the tim

3、e you would produce a pattern that would not be markedly different from the observed pattern (your real data). Once in a while you might accidentally throw all of the highest values into the same corner of your study area, but the probabilities of doing that are small. The randomization null hypothe

4、sis states that your data is one of many, many, many possible versions of complete spatial randomness. The data values are fixed; only their spatial arrangement could vary.,空间数据挖掘和知识发现,李润奎,2014.4.2,GIS空间分析方法 第十二讲,本讲的主要内容,数据挖掘含义及研究内容空间数据挖掘与知识发现空间聚类简介,产生背景含义应用范围理论基础研究任务应用的注意点,1 空间数据挖掘和知识发现的含义及研究内容,1.1

5、 数据挖掘和知识发现的产生的背景,由于数据获取技术、网络技术和计算机技术的发展致使数据以几何级数增长。数据处理方法的匮乏 。 以遥感数据为例:每年采集的数据量之大都以TB计(据不完全的统计,SPOT有250TB;ESA有400TB;NOAA有1000TB;),而被应用的数据仅占获取数据的10-15%。,院士之见,John Naisbett说:“我们已被信息所淹没,但是却正在忍受缺乏知识的煎熬” 。We are drowning in information,but starving for knowledge.,数据挖掘的社会需求,数据爆炸,知识贫乏,1.1 数据挖掘和知识发现产生的背景,19

6、95年召开了第一届知识发现与数据挖掘国际会议(FU96),1998年成立的ACM-SIGKDD组织。专业杂志为: Data Mining & Knowledge Discovery,数据库技术的分支(80年代后期和90年代早期),飞速发展并形成了众多分支,数据挖掘的发展,1989 IJCAI会议: 数据库中的知识发现讨论专题Knowledge Discovery in Databases (G. Piatetsky-Shapiro and W. Frawley, 1991)1991-1994 KDD讨论专题Advances in Knowledge Discovery and Data Min

7、ing (U. Fayyad, G. Piatetsky-Shapiro, P. Smyth, and R. Uthurusamy, 1996)1995-1998 KDD国际会议 (KDD95-98)Journal of Data Mining and Knowledge Discovery (1997)1998 ACM SIGKDD, SIGKDD1999-2002 会议,以及SIGKDD Explorations数据挖掘方面更多的国际会议PAKDD, PKDD, SIAM-Data Mining, (IEEE) ICDM, DaWaK, SPIE-DM, etc.,Data Mining

8、& Knowledge Discovery from database(DM & KDD) 数据挖掘和从数据库中发现知识。 与此类似的叫法:知识抽取(information extraction);信息发现(information discovery);探索式数据分析(exploratory data analysis);数据考古(data archeology);,1.2 数据挖掘和知识发现的含义,数据挖掘概念,数据挖掘-从大量数据中寻找其规律的技术,是统计学、数据库技术和人工智能技术的综合;数据挖掘是从数据中自动地抽取模式、关联、变化、异常和有意义的结构;数据挖掘大部分的价值在于利用数据挖

9、掘技术改善预测模型。,数据挖掘与KDD,数据挖掘和知识发现的区别,知识发现的过程,数据,信息,知识,决策,从信息到决策的认知过程,数据挖掘,知识发现,决策分析,商业应用 市场行销:数据库行销(Database Marketing)和货篮分析(Basket Analysis)。前者的任务选择潜在的顾客以便向它们推销产品;后者的任务是分析市场销售数据(如POS数据库)以识别顾客的购买行为模式。(房地产案例)金融投资:金融分析领域有投资评估和股票交易市场预测欺诈甄别:银行或商业上经常发生诈骗行为,如恶性透支、洗钱等。,1.3 数据挖掘和知识发现的应用范围,Web挖掘(Web Mining)在搜索引擎

10、(Search Engine)上对文档进行自动分类、帮助寻找用户感兴趣的新闻以及利用数据挖掘设计一个电子新闻过滤系统,它利用文本学习建立起该用户的趣向模型。Google Trend和疾病爆发等(Science论文),数据挖掘和知识发现的应用范围,多媒体数据挖掘语音的识别(音色、声调、长短);人脸识别(刑事侦察、警报系统);动态跟踪(智能武器);,数据挖掘和知识发现的应用范围,异常检测,异常检测是数据挖掘中一个重要方面,用来发现”小的模式”(相对于聚类),即数据集中间显著不同于其它数据的对象。异常探测应用电信和信用卡欺骗贷款审批药物研究气象预报金融领域客户分类网络入侵检测故障检测与诊断等,数据挖

11、掘和知识发现的应用范围,生物信息知识发现DNA的碱基对数目达到30亿3万到4万个基因基因和基因组数据库(GenBank包含了已知的核算序列和蛋白质序列)核算序列数据库(EMBL)基因组数据库(GDB)蛋白质数据库(PIR、PSD、SWISSPROT),数据挖掘和知识发现的应用范围,数据挖掘应用,数据挖掘,保险客户,证券客户,银行客户,电信客户,零售客户,人类基因,植物基因,动物基因,特殊群体基因,基因序列基因表达谱基因功能基因制药 .,1.4 数据挖掘和知识发现的理论基础,数据挖掘和知识发现,粗糙集,概率统计,模糊理论,可视化理论,人工智能,决策理论,数据库理论,专业知识,1.5 数据挖掘和知

12、识发现研究的方法,数据总结与泛化聚类分类相关性分析关联规则提取偏差分析,1.6 数据挖掘应用的注意点,机械化机理不清所需的先验知识少归纳方法,参考文献,Miller, H. J., and Han, J., 2001, Geographic Data Mining and knowledge discovery. (Taylor & Francis)边肇祺,张学工. 模式识别. 北京:清华大学出版社,2000.,2 什么是空间数据挖掘,什么是空间数据和空间数据挖掘?空间数据从哪里来?空间数据的特点。空间数据挖掘的特点。空间数据挖掘的研究思路。空间数据挖掘研究理论结构。空间数据挖掘和知识发现的研

13、究任务。,空间数据挖掘的发展,1989年,1994年,1995年,2001年,1st International Joint Conference on Artificial Intelligence, IJCAI, DETROIT, MICHIGAN.首次出现KDD概念,标志着数据挖掘技术的诞生,6th the Canadian Conference on GIS, Ottawa, Canada.李德仁首次提出Knowledge Discovery from GIS (KDG),1stInternationalConferenceonKnowledge Discovery and Data

14、Mining, Montreal, Canada.诞生了数据挖掘学科,李德仁将KDG进一步发展为空间数据挖掘和知识发现(Spatial Data Mining and Knowledge Discovery),2.1 什么是空间数据,空间数据是带有空间位置信息的数据.,空间数据挖掘的概念,数据挖掘是指从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。空间数据挖掘是在空间数据库或空间数据仓库的基础上,综合利用多门学科的理论技术,从海量空间数据中挖掘事先未知潜在有用最终可理解的可信新知识,揭示蕴含在空间数据中的客观世界

15、的本质规律内在联系和发展趋势,实现知识的自动获取,提供技术决策与经营决策的依据。,空间数据挖掘和知识发现就是从空间数据库中抽取和发现新的空间信息,并通过解释评价,产生知识的过程。其应用范围包括:“数字地球”的战略目标;地球物理和地球化学异常的发现;遥感图象的分类、识别等等。,空间数据挖掘和知识发现,遥感数据,台站记录,传统数据源:,调查采样数据,2.2 空间数据从哪里来?,网络,现代通讯、通信技术,传统数据源:,2.3 空间数据的特点,1)海量的数据2)空间属性之间的非线性关系3)空间数据的尺度特征4)空间信息的不确定性等5)空间维数的增高,2.4 空间数据挖掘的特点,空间数据之间存在的空间关

16、系,距离关系,方位关系,拓扑关系,配置关系,距离关系,属性关系,空间数据挖掘与数据挖掘的区别,挖掘的对象不同,或称数据源不同挖掘的粒度不同数据维数不同挖掘结果的不同,李德仁(2006),徐胜华(2008),空间数据挖掘著名研究小组,美国明尼苏达大学University of MinnesotaSpatial Database and Spatial Data Mining Research Group,Prof. Shashi Shekhar,空间数据挖掘著名研究小组,德国慕尼黑大学University of MunichInstitute for Computer ScienceDataba

17、se and Information Systems,Dr. Hans-Peter Kriegel,2.5 空间数据挖掘的研究思路,空间数据挖掘,关联规则,异常模式,求同,求异,场数据,点集数据,栅格数据,点数据时空异常模式挖掘,.,空间图元的配置,空间概念元的关系,空间知识的表达形式,关联规则,决策树规则,特征模式,异常模式,空间知识的形式化表达,空间知识的逻辑表达,求同,求异,求同,求异,2.6 空间数据挖掘理论结构,2.7 空间数据挖掘和知识发现的研究任务,空间泛化空间聚类空间分类空间相关性分析空间关联规则提取空间偏差分析,例子:分类 VS. 预测,分类:预测分类标号(或离散值)根据训练

18、数据集和类标号属性,构建模型来分类现有数据,并用来分类新数据预测:建立连续函数值模型,比如预测空缺值典型应用信誉证实目标市场医疗诊断性能预测,数据分类:两步过程,第一步,建立一个模型,描述预定数据类集和概念集假定每个元组属于一个预定义的类,由一个类标号属性确定基本概念训练数据集:由为建立模型而被分析的数据元组形成训练样本:训练数据集中的单个样本(元组)学习模型可以用分类规则、判定树或数学公式的形式提供第二步,使用模型,对将来的或未知的对象进行分类首先评估模型的预测准确率对每个测试样本,将已知的类标号和该样本的学习模型类预测比较模型在给定测试集上的准确率是正确被模型分类的测试样本的百分比测试集要

19、独立于训练样本集,否则会出现“过分适应数据”的情况,第一步:建立模型,训练数据集,分类算法,IF rank = professorOR years 6THEN tenured = yes,分类规则,第二步:用模型进行分类,分类规则,测试集,未知数据,(Jeff, Professor, 4),Tenured?,空间聚类的含义空间聚类方法的分类相似性度量R型及Q型谱系聚类Kmeans聚类基于密度的聚类基于网格的聚类基于模型的聚类,3 空间聚类方法,3.1 空间聚类的含义,空间聚类是根据研究对象(样本或变量)的多种特征在数值上可能存在的相似性程度,将它们聚合为不同的点群的一种挖掘方法。,Jiawei

20、 Han(2001)给出的定义是:Spatial clustering is the process of grouping a set of objects into classes or clusters so that objects within a cluster have high similarity in comparison to one another, but are dissimilar to objects in other clusters.空间聚类规则把空间实体数据划分到不同的组中,使组之间的差别尽可能大,而组内的差别尽可能小。,什么是聚类分析?,簇(Cluste

21、r):一个数据对象的集合在同一个类中,对象之间具有相似性;不同类的对象之间是相异的。聚类分析把一个给定的数据对象集合分成不同的簇;聚类是一种无监督分类法: 没有预先指定的类别;典型的应用作为一个独立的分析工具,用于了解数据的分布; 作为其它算法的一个数据预处理步骤;,聚类的常规应用,模式识别空间数据分析 在GIS中,通过聚类发现特征空间来建立主题索引;在空间数据挖掘中,检测并解释空间中的簇;图象处理经济学 (尤其是市场研究方面)WWW文档分类分析WEB日志数据来发现相似的访问模式,应用聚类分析的例子,市场销售: 帮助市场人员发现客户中的不同群体,然后用这些知识来开展一个目标明确的市场计划;土地

22、使用: 在一个陆地观察数据库中标识那些土地使用相似的地区;保险: 对购买了汽车保险的客户,标识那些有较高平均赔偿成本的客户;城市规划: 根据类型、价格、地理位置等来划分不同类型的住宅;地震研究: 根据地质断层的特点把已观察到的地震中心分成不同的类;,聚类方法性能评价,一个好的聚类方法要能产生高质量的聚类结果簇,这些簇要具备以下两个特点:高的簇内相似性低的簇间相似性 聚类结果的好坏取决于该聚类方法采用的相似性评估方法以及该方法的具体实现;聚类方法的好坏还取决与该方法是能发现某些还是所有的隐含模式;,聚类方法性能评价,可伸缩性能够处理不同类型的属性能发现任意形状的簇在决定输入参数的时候,尽量不需要

23、特定的领域知识;能够处理噪声和异常对输入数据对象的顺序不敏感能处理高维数据能产生一个好的、能满足用户指定约束的聚类结果结果是可解释的、可理解的和可用的,数据矩阵差异度矩阵,评价聚类质量,差异度/相似度矩阵: 相似度通常用距离函数来表示;有一个单独的质量评估函数来评判一个簇的好坏;对不同类型的变量,距离函数的定义通常是不同的,这在下面有详细讨论;根据实际的应用和数据的语义,在计算距离的时候,不同的变量有不同的权值相联系;很难定义“足够相似了”或者“足够好了” 只能凭主观确定;,空间聚类的分类,划分聚类(partitioning cluster)层次聚类(hierarchical cluster)

24、基于密度的聚类(density-based cluster)基于网格的聚类 (grid-based cluster)基于模型的聚类(Model-Based),Partitioning algorithms: Construct various partitions and then evaluate them by some criterionHierarchy algorithms: Create a hierarchical decomposition of the set of data (or objects) using some criterionDensity-based: ba

25、sed on connectivity and density functionsGrid-based: based on a multiple-level granularity structureModel-based: A model is hypothesized for each of the clusters and the idea is to find the best fit of that model to each other,基于划分的聚类K-means(Lloyd,1957;J.MacQueen,1967)K-medoidsPAM(Kaufman,1990)CLARA

26、(Kaufman,1990)CLARANS(R. T. Ng,1994),基于层次的聚类BIRCH(T. Zhang,1996)ROCK(S. Guha,2000)Chameleon(K. George,1999)基于密度的聚类DBSCAN(M. Ester,1996)OPTICS(M. Ankerst,1999),基于网格的聚类STING(W. Wang,1997)WaveCluster(G. Sheikholeslami,1998)基于模型的聚类EM(A. P. Dempster,1977)COBWEB(D. H. Fisher,1987)ANN,3.2 R型及Q型层次聚类,相似性度量层次

27、聚类的算法流程Q型层次聚类及实例R型层次聚类,相关系数距离系数夹角余弦离差平方和其它的相似性统计量,相似性度量,如果有n块样本,每块样本具有m个属性,则任意两个属性i,j之间的相关系数为:,相关系数,夹角余弦,在m维空间中的两个向量i,j其夹角余弦为:,夹角余弦可理解为向量i和向量j坐标之间的相似程度。,距离系数,设在m维空间中,点i的坐标为xki ,点j的坐标为xkj ,那么点i和点j之间的距离为:,d值越小,表明点i和h的距离越近。,常用的距离度量方法有:明考斯基距离( Minkowski distance):其中 i = (xi1, xi2, , xip) 和 j = (xj1, xj2

28、, , xjp) 是两个p维的数据对象, q是一个正整数。当q = 1时, d 称为曼哈坦距离( Manhattan distance),其它相似性度量,绝对值距离系数切比雪夫距离马氏距离,S为样本之间的协方差,Ni,Co,Cr,Cu,S,As,1,3.279,2.436,3.071,2.204,3.911,0.602,2,3.367,1.898,3.512,0.778,2.768,1.146,3,2.872,1.415,2.925,0.000,2.628,0.477,4,3.444,2.436,3.380,2.176,3.916,1.568,5,3.249,1.973,3.497,1.114

29、,1.732,0.000,6,3.020,1.644,3.321,0.778,2.017,0.602,原始数据,0.991,0.991,0.987,0.962,0.981,0.985,1,1.000,2,0.962,1.000,3,0.941,0.985,1.000,4,0.972,1.000,0.935,5,0.936,0.966,0.926,0.950,1.000,6,0.947,0.981,0.952,0.972,0.987,1.000,1,2,4,3,5,6,1.00,0.99,0.98,0.97,0.96,0.95,1,4,5,6,2,3,连接点群号,0.987,顺序,相似水平,1,

30、1,4,0.991,2,5,6,0.981,5,6,3,2,3,0.985,4,2,3,0.972,2,3,5,6,5,1,4,相似性度量为 Q型聚类,1.00,0.80,0.60,0.40,0.20,0.0,Co,Cu,Ni,S,As,Cr,相似性度量为 R型聚类,对样 本(个案)进行分类,称为Q型聚类。它使具 有共同特点的样本聚齐在一起,以便对不同类 的样本进行分析;对研究对象的观察 变量进行分类,称为R型聚类。它使具有共同 特征的变量聚在一起,以便从不同类中分别选 出具有代表性的变量作分析,从而减少分析变 量的个数。,Q型聚类和R型聚类,层次聚类分析流程,绘制聚类谱系图,相似性度量矩阵,

31、依次选取较大的相似性度量,空间数据,选择分解阈值确定聚类结果,空间相似性度量,层次聚类的流程,层次聚类特点,呈树型的层次结构需要计算相似性度量矩阵聚类过程是从底部向上需要人为确定划分阈值,3.3 划分聚类(partitioning cluster),定义基本算法(K-Means)实例计算该算法的特点改进方法,3.3 划分聚类(partitioning cluster),定义:给定一个大小为N的数据 集,将其分为m类,使类内具有较高的相似度,而类间的相似度较低。,计算实例,划分聚类的算法流程,根据距聚类中心的距离划分样本点的归属,选取K个点作为初始聚类中心,计算各样本点到各聚类中心的距离,确定聚类数目K,重新计算各类别的中心(转入第3步),直到聚类中心坐标不再发生变化为止,一般采用欧氏距离,也可采用其它的相似性度量系数,实例及算法优缺点,直观、易实现且占用内存少类别数目以及初始类中心的选择具有较强的主观性无法处理形状复杂的数据,引入组内变量平均标准差上限作为类别是否分裂的标准引入类间距离下限作为类别是否合并的标准,划分聚类的改进算法,本讲小结,数据挖掘的含义及研究范围空间数据挖掘的含义及研究内容聚类分析的种类划分聚类和层次聚类算法及实例,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报