1、第二部分 地理空间数据组织与管理,(三),第七章 地理空间数据结构,数据结构是数据模型在特定的数据库中,经数据库的定义语言和数据描述语言精确描述的存储模型。它从两个方面对空间信息进行具体的表达,一是记录信息的数据结构,二是对空间数据的操作机制。考虑到现行多数GIS空间数据库在数据结构定义中,存在一定的共性,这里只讨论空间数据结构的普遍性内容,它们在具体的GIS数据中,可能存在差别。,第一节 无拓扑矢量数据结构,无拓扑关系的矢量数据结构是对Spaghetti数据模型的具体定义和描述。它仅记录空间对象的位置坐标和属性数据,而不记录空间关系。它有两种方式,一种是每个点、线、面目标分别记录其坐标,称为
2、多边形环路法,另一种方式是一个文件记录点坐标对,其他一些文件记录点与线、点与面的关系,称为点位字典法。,第一节 无拓扑矢量数据结构,第一节 无拓扑矢量数据结构,第一节 无拓扑矢量数据结构,多边形环路法的缺点是,除了多边形轮廓外,其它公共边均存储了两次,因而会产生数据在结点处不重合、边界处易产生裂缝和重叠。点位字典法避免了这些情况,但仍没有存储必需的拓扑关系。,第二节 拓扑数据结构,在拓扑数据结构中,点是相互独立存储的,它们相互连接构成线,线始于起结点,止于终结点。面由线(线段、弧段、链、环等)构成。一个多边形可以由一个外环和领个内环或多个内环组成,简单多边形没有内环,复杂多边形由一个或多个内环
3、组成。这些内环所包围的区域称为“岛”或“洞”。前者有实体意义,后者无实体意义。 在大多数的GIS软件中,仅存储部分的拓扑关系,主要是关联关系(不同类元素之间的关系),其他关系可以从这些关系导出,或通过空间运算得到。拓扑关系可以有两种表达方式,全显式和半隐含表达。,第二节 拓扑数据结构,一、全显式表达全显式表达是指结点、弧段、面块相互之间的所有关联关系都进行显式存储。,第二节 拓扑数据结构,第二节 拓扑数据结构,第二节 拓扑数据结构,第二节 拓扑数据结构,1027,第二节 拓扑数据结构,二、半隐含表达如果仅用上面的部分表格表示几何目标的拓扑关系,称为半显式表达,或半隐含表达。如System 9
4、使用了表6-8、表6-9表达从面块到弧段、弧段到结点的上下拓扑关系,其它关系则隐含表达,需要时再建立临时的拓扑关系。而美国人口调查局早期的DIME使用了表6-12。虽然人们对拓扑关系的表达进行了大量研究,提出了更复杂的关联和邻接关系,但到目前为止,各种使用GIS软件还没有超过使用上述所列的关系。,第三节 栅格数据结构,在GIS数据库中,对于分层的栅格数据的存储结构有三种基本方式(图6-29):1、基于像元:以像元作为独立存储单元,每个像元对应一条记录,每条记录中的记录内容包括像元坐标及其属性值的编码。不同层上同一个像元位置上的各属性值表示为一个数组。 2、基于层:以层作为基础,每层又以像元为序
5、记录坐标和属性值,一层记录完后再记录第二层。 3、基于多边形:以层作为基础,每层以多边形为序记录多边形的属性值和充满多边形的各像元坐标。,第三节 栅格数据结构,第三节 栅格数据结构,在数据无压缩的情况下,栅格数据按直接编码顺序进行存储。所谓直接编码,是将栅格数据看成一个数字矩阵,数据存储按矩阵编码方式存储。如果为了特定的目的,也可按下图的特殊编码顺序记录。,第三节 栅格数据结构,第四节 数字高程模型数据结构,数字高程模型数据结构是数字地形表示的2.5维表面模型的一种数据结构。在GIS中,对地形的分析以及其他专题分析中具有重要作用。它有两种存储形式,一是规则格网点的形式,二是不规则三角网形式。前
6、者实际上是一种栅格数据结构形式,后者是一种单一面的简单拓扑矢量数据结构形式。,Y11.3,第四节 数字高程模型数据结构,一、格网点数据结构,格网点高程数据结构,第四节 数字高程模型数据结构,二、不规则三角网数据结构将Voronoi多边形中的参考点连接起来,就形成了Delaunay三角网。它的构造也可直接有离散的数据点直接构造。,第四节 数字高程模型数据结构,不规则三角网数据结构,数字地形模型,第四节 数字高程模型数据结构,三、两种数据结构的比较格网点数据结构简单,但表达地形的精度较差,与影象的叠加吻合不好,对地形变化较大的地区精度更差。另外,关于地性线等线性不容易添加,、湖泊等水平区域的不容易
7、表达。不规则三角网则可避免上述情况,表达地形的质量总体好于格网点,但数据结构较复杂,表达地形的面积较大时,效率不高。,DEM的例子,第五节 四叉树和八叉树数据结构,一、四叉树数据结构四叉树的分割思想是把一幅图象或栅格地图按2k2k ,k1,等分成四部分,逐块检查其格网值,如果某个子区的所有格网都含有相同的值,则这个子区不再往下分割;否则,把这个子区再分成四个子区,这样递归地分割,直到每个子块都含有相同的值为止,第五节 四叉树和八叉树数据结构,区域四叉树及其分割过程,第五节 四叉树和八叉树数据结构,不能再分的块构称为树的叶结点,有值的叶结点为黑结点,没有值的结点为白结点。K为树的高度,图中k=3
8、。四叉树的存储可按常规叶结点的顺序存储,称为常规四叉树。按特定叶结点顺序存储的称为线性四叉树。,第五节 四叉树和八叉树数据结构,1、常规四叉树的存储结构常规四叉树除了记录叶结点外,还要记录中间接点,需要记录中间结点与上一级结点和四个子结点的指针,共需要记录六个量。指针不仅增加了存储量,而且增加了对树的操作的复杂性。 2、线性四叉树的存储结构线性四叉树只记录叶结点信息,不记录中间结点。不过叶结点的编码要包含叶结点在树种的位置信息。因此对叶结点的地址编码非常重要。最常用的地址编码有四进制和十进制的Morton码。四进制的编码如图,第五节 四叉树和八叉树数据结构,线性四叉树,第五节 四叉树和八叉树数
9、据结构,二、八叉树数据结构八叉树是四叉树向三维空间扩展的结果。八叉树的存储也有常规八叉树和线性八叉树。其分割和存储方法与四叉树的原理相同。,三维数据结构三维数据结构的例子1、点2、线3、面,第六节 其它数据结构,在数据结构的研究中,人们还提出了其它一些数据结构。如考虑到矢量数据与栅格各自的特点和互补性,提出了失栅混合数据结构、失栅一体化数据结构、镶嵌数据结构等。在超图和集合论的基础上,结合超文本、超媒体数据结构技术,以及拓扑数据结构等,提出了超图数据结构。鉴于这些数据结构的在GIS中的应用不是很广泛,这里不予一一介绍。,第八章 地理空间数据库,数据库是对数据存储管理的基本工具。是从建立数据模型
10、、设计数据结构到数据存储与管理过程的必然结果。建立数据库的目的不仅仅是保存数据,扩展人的记忆,而且也是为了帮助人们去管理和控制与这些数据相关联的事物。GIS的数据库具有明显的空间特征,它与传统的非空间数据库具有差别。,第一节 数据库的概念,数据库是为了一定的目的,在计算机系统中以特定的结构组织、存储和应用的相关联的数据集合。计算机对数据的管理到目前为止,共经历了四个阶段: (1) 程序管理阶段,数据和应用程序一同存在。 (2) 文件管理阶段,数据和应用程序独立。(数据间无明显关系) (3) 数据库管理阶段,数据和应用独立(逻辑独立),数据库和存储设备独立(物理独立)。数据库数据之间建立了联系。
11、数据面向操作组织。 (4) 数据仓库阶段,数据经过重构、融合等,面向主题组织。服务于决策系统。,第二节 数据库的系统结构,数据库作为一个复杂的系统,由以下三个基本部分构成: (1)数据集。一个结构化的相关数据的集合体,包括数据本身和数据间的联系。数据集独立于应用程序而存在,是数据库的核心和管理对象。 (2)物理存储介质。指计算机的外存储器和内存储器。前者存储数据;后者存储操作系统和数据库管理系统,并有一定数量的缓冲区,用于数据处理,以减少内外存交换次数,提高数据存取效率。 (3)数据库软件。其核心是数据库管理系统(DBMS)。主要任务是对数据库进行管理和维护。具有对数据进行定义、描述、操作和维
12、护等功能,接受并完成用户程序和终端命令对数据库的请求,负责数据库的安全。,1029,第二节 数据库的系统结构,数据库是一个复杂的系统。数据库的基本结构由三个层次构成,物理级、概念级和用户级,分别对应于存储模式、模式、子模式,第二节 数据库的系统结构,第二节 数据库的系统结构,存储模式。是对数据库在物理存储器上具体实现的描述。 模式是数据库的总框架。描述数据库中关于目标存储的逻辑结构和特性,基本操作和目标与目标及目标与操作的关系和依赖性,以及对数据的安全性、完整性等方面的定义。 子模式是数据库用户的数据视图。它属于模式的一部分,描述用户数据的结构、类型、长度等。所有的应用程序都是根据子模式中对数
13、据的描述而不是根据模式中对数据的描述而编写的。,第二节 数据库的系统结构,数据库不同级别之间通过映射进行转换。映射是实现数据独立的保证。数据结构变化时,数据独立性是通过改变相应的映射保持独立性。数据库系统的三级模式结构将数据库的全局逻辑结构同用户的局部逻辑结构和物理存储结构区分开来,给数据库的组织和使用带来了方便。,第三节 数据库管理系统的功能与组成,数据库管理系统提供数据库定义功能、数据库管理功能、数据库维护功能、数据库通讯功能等。 数据库管理系统由语言处理程序,包括DDL、DML、解释、编译等,系统运行控制程序,以及建立和维护程序,包括数据装入、重组、转储等软件组成。 数据库管理系统由数据
14、库管理员负责运行,主要负责决定数据库的信息内容、充当DBMS的联络员、决定存储结构和访问策略和监督系统工作。,第四节 空间数据库管理系统的管理模式,一、文件-关系型管理模式(混合管理模式),混合管理模式,这种模式也称为数据管理的地理相关模型。,第四节 空间数据库管理系统的管理模式,二、扩展模式,第四节 空间数据库管理系统的管理模式,扩展管理模式分为全关系型和对象-关系型两种模式。1、全关系型管理模式。全关系管理系统是指图形数据和属性数据都用某一关系数据库系统管理,由GIS软件开发商直接在某一关系型数据库的基础上开发。主要有两种方式:(1)基于关系模型。直接使用关系数据模型组织空间数据。其缺点是
15、涉及一系列关系连接运算,涉及多个表,查询分析相当费时,效率不高。,第四节 空间数据库管理系统的管理模式,(2)将图形数据的变长部分处理成大二进制字段。由于大部分关系数据库目前都支持大二进制字段的数据存储,GIS利用这种功能,把图形坐标当作一个二进制字段存储,管理交给关系数据库系统 。软件有Arc/Info的后期版本ArcGIS等。这个模式也称为数据管理的地理关系模型。,第四节 空间数据库管理系统的管理模式,大二进制字段存储坐标数据,第四节 空间数据库管理系统的管理模式,2、对象-关系型管理模式。它是数据库管理系统软件商在关系数据库的基础上进行功能扩展的结果。它提供了空间数据定义和操作的专门模块
16、,使之能直接存储和管理非结构化的数据。但由于组成模块的这些API功能函数都是预先进行了定义,而且一般不带拓扑关系,也没有很好解决对象嵌套问题,用户使用时必须满足这种数据结构要求,因而在使用上受到了较多的限制。软件有Oracle Spatial 、Informix、Ingres等。这个模式也称为数据管理的对象关系模型。,第四节 空间数据库管理系统的管理模式,三、统一管理模式它不是基于标准的RDBMS,而是在开放型的DBMS标准的基础上扩充空间数据表达功能 。软件有TIGRS、GEO+等。,第四节 空间数据库管理系统的管理模式,第四节 空间数据库管理系统的管理模式,支持这种管理模式的另一种方式是建
17、立纯对象型管理系统。纯对象管理方式最适合空间数据的表达与管理,它不仅支持变长记录,也支持对象的嵌套、信息继承与传播。纯对象空间数据管理系统允许用户定义对象和对象的数据结构(包括拓扑关系)、以及对它的操作。它可以选择是否带拓扑关系。这种数据库管理系统如Jasmine、O2等,对应的GIS软件有GDE、SmallWorld等。,在1980年代,数据库多数是集中式的,但1990年代后,随着网络的应用,为满足数据的共享,数据库出现了分布式数据库。,数据库技术的演化,OR-DBMS基础上搭建SDBMS体系结构的三层结构示意图,正是由于对象关系数据库所具有的这种特殊的结构,在研究和利用商业数据库及其数据库管理系统的前提下,GIS用户为了更好地组织和管理其使用的空间数据,在数据的有效存储和管理方面,具备了很大的将空间领域知识应用其中的开发利用空间。也就是说,以数据库厂商提供的OR-DBMS为基础平台,GIS用户仍有机会将自己对空间数据存储与管理的技术集成在这个平台上。如海量数据存储策略的技术(分层、分块或分区、缓存等)、数据压缩的技术、数据传输的技术、支持数据网络化访问的数据引擎技术、多数据库空间索引的技术、数据安全的技术等等。,数据库的例子,