1、第十一讲 地理信息系统的 数据管理,程承旗 北京大学遥感与地理信息系统所,一、地理信息系统的数据,地理信息系统的一个重要部分就是数据。 数据类型:在开发一个特定的GIS时,要根据应用需求确定对各类数据的要求。 数据获取:随着GIS产业化的深入发展,越来越多的数据资料被不同数据生产部门数字化 数据质量:数据质量是指数据适用于不同应用的能力。,一、数据类型,确定GIS数据需求,寻找数据源,大地测量控制 地籍测量 航空测量 遥感室外调查(土壤、植被、交通等) 定点观察(地球物理、气象、水文、生态等) 地形图 人口普查 工业/经济调查 基础设施 (通讯、电力、运输、医疗、教育等),有无所需的数据内容,
2、空间数据的基本特征,空间数据描述的是现实世界各种现象的三大基本特征:空间、时间和专题属性。,空间特征,空间特征指空间物体的位置、形状和大小等几何特征,以及与相邻物体的拓扑关系 人类对空间目标的定位一般不是通过记忆其空间坐标,而是确定某一目标与其他更熟悉的目标间的空间位置关系,而这种关系往往也是拓扑关系。,专题特征,专题特征指的是除了时间和空间特征以外的空间现象的其他特征。 如地形的坡度、坡向、某地的年降雨量、土地酸碱度、土地覆盖类型、人口密度、交通流量、空气污染程度等,时间特征,空间数据总是在某一特定时间或时间段内采集得到或计算产生的,数据的测量尺度,对特定现象的测量就是根据一定的标准对其赋值
3、或打分。 命名式的测量尺度也称作类型测量尺度,只对特定现象进行标识,赋予一定的数值或符号而不定量描述。 次序测量尺度是基于对现象进行排序来标识的。 比例测量尺度的测量值指那些有真零值而且测量单位的间隔是相等的数据,数据来源,数据来源可以大致分为原始数据或处理加工后的数据,又可将数据源分为非电子数据和电子数据两类。,数据种类,1、基础制图数据 基础制图数据包括地形数据和人文景观数据。1)图形结构2)拓扑结构格式 2、自然资源数据 3、调查统计数据 4、数字高程数据 获取和存贮高程数据的方法有4种基本方法:规则格网法、离散等高线法、断面量测法和不规则三角网法。 5、法律文档数据 6、已有系统数据,
4、全球定位系统,全球定位系统 卫星如何测距? GPS接收机如何与卫星同步产生伪码? GPS的误差与微分纠正 GPS系统:美国NAVSTAR GPSTRANSIT俄国GLONASS欧空局GEOSTAR,R-=c,航空象片,航空摄影胶片的特性 航空摄影 垂直摄影象片的几何性质 立体象对上测量高度并建立地面坐标系 1)航空象片相对定向,建立航空象片坐标系 2)测量象点视差计算象点高度 3)建立地面坐标系 航空象片坐标向通用的地图投影坐标系的转换 正射影象 航测数字景象目前可以有两种方式获得: 一是用高精度扫描仪对航空象片扫描得到数字影象;二是用数字摄影机直接得到数字影象,遥感数据,遥感数据有下列优点:
5、 1)增大了观测范围。 2)能够提供大范围的瞬间静态图象。 3)能够进行大面积重复性观测,即使是人类难以到达的偏远地区也能够做到这一点。 4)大大加宽了人眼所能观察的光谱范围。 5)空间详细程度高。,遥感图象的空间分辩率,名义分辩率=图象某行对应于地面的实际距离/该行的象元素 雷达是一种自身发射电磁能又回收这种能量的主动式系统,它又分为真实孔径雷达和合成孔径雷达。 雷达图象有两种分辩率:一种是由其发送信号脉冲持续的时间和信号传播方向与地面的夹角决定的,称为距离分辩率。另一种分辩率是由雷达波束的宽度和地物离飞行底线的距离决定的,而波束宽度又与雷达波长成正比,与天线的长度成反比,这种分辩率被称为方
6、位分辩率。,数据特点,扫描式传感器所获图象 侧视雷达图象 常的卫星数据 目前世界上常用的卫星数据仍名烟是美国的陆地卫星(Landsat)专题制图仪(ThematicMapper,TM)、诺阿气象卫星的甚高分辩率辐射仪(NOAA-AVHRR)和法国SPOT卫星的较高分辩率传感器(HRV)数据及美国的SPACEIMAGING的IKNOS高分辨率卫星数据。,地图,地图一般分为普通地图和专题地图。 普通地图是一般性的参考图,它主要用来表达六方面内容;居民地、道路、行政边界、地形、及地表覆盖、水系和典型目标物。 常见的专题地图: 天气预测图以天气类型、温度和降水空间分存为主的地图; 旅游图以介绍旅游景点
7、位置和交通状况为主的地图; 交通图以介绍街区和公共交通状况为主的地图; 地铁线路图反映地铁站点位置、路径、中转位置等为主的地图; 地势图以反映地形起伏和山脉高程为主的地图; 反映自然条件的专题地图有;地质图、土壤图、气候图、植被图、太阳能分布图、风能分布图、洋流图、潮汐图等; 反映经济状况的专题图:交通图、工业图、农业图、商业图、贸易图、水利图、电力图、渔业图、林业图、牧业图等。,地图符号,地图制作过程和地图综合,地图的制作与GIS开发过程有许多相似之处,大致可分下列步骤: 1)调查分析地图用户的要求; 2)确定制图目标,确定比例尺、投影、内容、设计符号、编制地图规范; 3)收集数据、野外测量
8、、象片判读、问卷调查等; 4)对数据进行鉴别、分析处理; 5)转绘数据到基础底图上; 6)进行地图综合,先选样区试验再对整个制图区域进行综合; 7)进行地图清绘; 8)检查质量,检验精度等; 9)修改后制版印刷。,地图制图工作要点,取舍;它实际上贯穿于整个制图过程中。 分类;指的是将同样的或类似的制图对象划入一组。 简化:实际上,取舍、分类和符号化都是为了简化细节,但简化还有其它形式。 符号化:由于不可能将所有制图对象的实际形状按比例缩小到地图上,所以地图上要用符号。符号又分为两类:抽象符号或象形符号。 地图综合分为两部分;图形综合和制图内容综合。 1)图形综合 对点状、线状、面状符号的综合需
9、要不同的方法。 2)内容综合 内容综合有两个方面:取舍和分类。,TIGER文件,建立TIGER系统原是为了达到以下目的: 1)建立并维护一个覆盖美国所有领土的数字地理数据基础; 2)美国生产用于普查局查计和发表报告的地图; 3)能够给由地理特征所构成的多边形为基础产生的普查地段和地理区域赋予独立的地址。 TIGER文件的应用经历了三个阶段:产生、更新、应用维护。 TIGER整合各种类型数据的基础是三种几何单元:零维单元、一维单元、二维单元。 Topologically Integrated Geographic Encoding Referencing,零维单元只代表地表线状特征的交点和端点,
10、而不是一般用于表达开头或其它类型的点;一维单元只代表连接两个零维单元的线,而不代表任何线的形状;二维单元只代表一组相连的一维单元所构成的最小面积,一组二维单元可用来定义地理范围。,二、数据获取,数据加工整理,一、数据分类标准 二、基础原始数据的确定 三、原始数据项目的确定 四、数据标准的准确性的确定 五、数据录入表设计,数据采集,一、空间图形数据的采集 二、非空间属性数据的采集 三、空间数据和非空间数据的连接,空间图形数据的采集,1、手扶跟踪数字化输入 1)数字化过程 2)数字化方式 数字化有两种基本方式:流方式和点方式。 3)数字化仪的其它输入功能 4)矢量到栅格数据的转换 5)数字化的精度
11、 6)数据共享,空间图形数据的采集,1、扫描数字化 1)栅格扫描仪扫描 2)栅格扫描数据到矢量的转换 3)矢量扫描仪扫描 4)其它类型的自动数字化仪器 视频数字化仪 解析测图仪 5)已是数字形式的空间数据的输入 6)其它数字形式的空间数据源 内插数据 其它数据,数字化设备,数字化设备种类,手扶跟踪数字化仪(数字化仪) 扫描数字化仪(扫描仪),数字化仪,又称图数转换器,是一种通过一定量测手段将图形或图像转换成数字信息的装置。常用的数字化设备有:,手扶跟踪数字化仪,简称数字化仪,是一种用来记录和跟踪地图点、线位置的手工数字化设备。,数字化仪的幅面,根据尺寸和使用条件的不同,大致可分为两类:小型数字
12、化仪 (Tablet):A4,A3,A2;大型数字化仪(Digitizer):A1,A0,A00。,数字化仪的构成,感应板 (Drawing Board) 标识器 (Pointing Device),数字化仪的性能参数,操作方式 输出格式 数据转换率 分辨率 精度,操作方式,点方式 流方式 (开关流/连续流) 增量方式 (距离/时间) .,扫描数字化仪,简称扫描仪,它是一种将地图或图像按一定的分辨率一般转换成栅格格式数据的装置。,扫描仪的种类,按辐射分辨率划分:二值扫描仪、灰度扫描仪和彩色扫描仪; 按结构划分:滚筒扫描仪、平台扫描仪和CCD摄像机 按扫描方式划分:栅格扫描仪、矢量扫描仪,扫描仪
13、的构成,滚筒/平台 扫描头 光学系统 光电转换系统 (CCD单元将光信号转换为模拟电信号) 模数转换器 (A/D转换器将模拟电信号变为数字电信号),扫描仪的主要性能指标,光学分辨率 最大分辨率 辐射分辨率(色彩位数) 扫描幅面 接口方式,光学分辨率,是指扫描仪的光学系统可以采集的实际信息量,也就是扫描仪的感光元件CCD的分辨率。例如A4扫描仪可扫描的最大宽度为216mm( 8.5英寸),它的CCD含有5100个单元,其光学分辨率为5100点/8.5英寸=600dpi。,最大分辨率,又叫内插分辨率,它是在相邻像素之间求出颜色或者灰度的平均值从而增加像素数的办法。内插算法增加了像素数,但不能增添真
14、正的图像细节,因此,我们应更重视光学分辨率。,辐射分辨率,又叫色彩分辨率,或色彩深度、色彩模式、色彩位或色阶,总之都是表示扫描仪分辨彩色或灰度细腻程度的指标,它的单位是bit(位)。色彩位确切的含义是用多少个位来表示扫描得到的一个像素。,接口方式,又称连接界面,是指扫描仪与计算机之间采用的接口类型。常用的有USB接口、SCSI接口和并行打印机接口。SCSI接口的传输速度最快,而采用并行打印机接口则更简便。,扫描数据处理,二值化:将彩色或灰度扫描数据的像元用1位即用0和1表示。 细化:将扫描图中的线划减细为分辨单元宽的线划。 矢量化:将栅格数据转换为矢量数据。 断线修复:由于扫描质量的影响或删除
15、了某些符号造成一些矢量线不连续,连接断线即为断线修复。,扫描数据处理(续),要素提取:选择需要的要素,剔除不需要的要素和噪声。 符号识别:提取出符号的特征。 属性赋值:对矢量化的要素赋予属性特征值。,交互式地图扫描数字化,也称屏幕数字化,由人工参与从扫描数据中提取矢量信息并赋予属性值。,扫描仪在制图中的利与弊,数字化速度快,人为误差小; 扫描数据量大,增加存储负担; 后续处理比较复杂和费时; 对扫描原图质量要求高。,三、数据质量,数据质量,数据质量是指数据适用于不同应用的能力。,数据质量的基本特点,1)准确度(Accuracy):即测量值与真值之间的接近程度,可用 误差来衡量。 2)精度(Pr
16、ecision):即对现象描述的详细程度。 3)不确定性(Uncertainty):指某现象不能精确测得,当真值不可测或无法知道时,我们就无法确定误差,因而用不确定性取代 误差。 4)相容性(Compatibility):指两个来源的数据在同一个应用中使用的难易程度。 5)一致性(Consistency):指对同一现象或同类现象的表达一致程度。 6)完整性(Completeness):指具有同一准确度和精度的数据在类型上和特定空间范围内是否完整的程度。 7)可得性(Accessibility):指获取或使用数据的容易程度。 8)现势性(Timeliness):指数据反映客观现象目前状况的程度。
17、,一、空间数据质量的内容,1、微观部分1)定位精度2)属性精度3)逻辑一致性 4)分解力2、宏观部分1)完整性2)时间性3)数据档案4) 适用性,数据的误差类型,数据误差 地形图的位置误差; 地形图的属性误差; 时域误差; 逻辑不一致性误差; 不完整性误差;,数据的误差类型,数据转换和处理的误差: 数字化误差; 格式转换误差; 不同GIS系统间数据转换误差;,数据的误差类型,应用分析时的误差: 数据层叠加时的冗余多边形; 数据应用时,由应用模型引进的误差。 这些误差分类对于了解误差分布特点、误差和处理方法、产生误差的特点有很多好处。,常见的 误差原因,1)空间数据不完整主要因为数字化不完整。
18、2)空间位置误差可能是较小的位移,也可能是较大的粗差。 3)空间数据的比例尺错误和误差大多是在数字化时用了错误的比例因子引起的。 4)空间数据的变形误差来源有原数字化材料上的各种变形误差。 5)空间与非空间数据的连接错误通常是在数字化时给空间实体输入了错误的识别符。 6)在非空间数据本来完整无缺的情况下,数据库中发生数据不全的现象主要是键盘输入错误和漏输数据;数字化前的准备工作中编码不完全或编码错误等。,二、数据的检核和存贮,一、一般检查二、误差检核 三、橡皮板变换和弯曲四、数据检核五、数据编辑1、修改各类差错 2、数据更新六、数据存贮,几何误差的检测和表达,1)点误差 2)线误差,属性误差,
19、1)确定抽样方法 系统抽样;等间距布点; 随机抽样;对整个区域随机布点; 分区抽样;按一定的样点个数在划分的每个区域随机布点; 系统分区随机抽样:对整个区域内等面积分区,并在区内随机布点。 2)确定抽样数 1)使用其他方法确定每个样本的属性做为参考数据 2)建立误差矩阵,计算各种精确定度或误差的方法,下面列出几个常用指标; 总准确度:对角线样点数之和除以总样点数; 生产者准确度;每个属性值的正确样点数除以该属性值总的验证样点数(列合计); 使用者准确度:每个属性值的正确样点数除以该属性值的总数(行合计); 错判误码差(Commissionj Error):1-使用者准确度; 遗漏误差(Omis
20、sion Error);1-生产者准确度;,大比例尺GIS数据采集 质量控制,一个GIS项目的成功,数据采集集是至关重要的。大比例尺GIS数据量大,必须考虑尽可能的提高效率及保证数据质量。扫描矢量化对以纸介质图的数字化仍然是一个很有效的方法,在INTERGRAPH的GIS软件MAPPINGOFFICEGISOFFICE基础上结合实际情况,提出了一套高效的与数据检查手段及严格的质量控制方案,保证了数据高效高质量的采集入库。,数据采集是基础GIS工程建设的关键,若采集的数据不合要求,整个GIS的应用就无法正确的展开,前期的工作及投入将变成极大的浪费。大比例尺图形数据的GIS工程尤其如此。一个城市的
21、基础GIS数据量往往达到1000M以上的量级,若在数据采集阶段未能严格控制数据的质量,则采集工程中的各种错误会严重影响后续的应用,要控制GIS的大比例尺图形数据的质量是一个非常复杂的问题,它包含测图、数字化等各个阶段各种因素产生的误差,以及采集阶段由于人为的因素导致的错误等等。前者一般来讲是不可避免的,有其产生处理的规律,本文只就在数字化过程中,由于未按照设计要求操作导致的数据问题进行讨论并提出一系列方案,及需开发诸多软件工具来进行严格的控制,以方便速查出各种错误并加以改正保证数据的质量。,主要从下面的几点来控制数据的质量: 是否满足制图要求; 每个图形要素是否为指定的GIS要素; 各种要素的
22、符号信息是否赋在正确的图 层,颜色、宽度等是否为指定的标准; 每个注记是否对应正确的对象,地名注记是否作了正确的标识:,由于GIS的数据量大,往往采用集中、多台机器联网运行来保证工程的进度。这样也便整个工程的数据质量控制,一般可采用下面的流程宋保证GIS的数据质量。,将矢量图及错误标记文件一同通过网络返回数字化人员修改,检查员要留下错误标记文件。作业人员接到返回的图件后,导入错误标志文件,就可以逐一浏览错误之处,而不必在文件中细细搜导,然后将错误一一改正并删除图中的错漏标记。完成修改后将图再次提交制图检查员。检查人员用同样的的方式打开该图并导入事先保留的错误标志文件,判断作业人员是否进行了正确
23、的修改:如此反复直支检查人员认为完全正确为止。,GIS要素检查,该步骤主要判断是否各种图素均标识为正确的C1S要素,检查的同样要打开矢量图及栅格底图,由于一张图上信息量大,若要逐一浏览判断,效率很低且易漏判。因此一定要开发一个工具,用来显示指定的某一种要素,其他要素则不显示,并且在显示时判断每种元素的类型,MGE将要素分为点(POINT)、线(LINE)、区域边界(AREA BOUNDARY)、区域中心点(AREA CENTROID)、标记(LABEL)、未定义的等交种,进行显示处理时,判断这些要素类型是否正解,并判断该要素的符号化信息(图层、颜色、线型、线宽)是否与该要素的定义完全相同,将不
24、符合要求的高亮(度)显示。这样分类浏览就可以大大提高检查效率,检查出来的错误同样作出各中标记,用与前一步骤相同的方案来与作业人员交互处理。,注记关联检查,该检查主要用来判断每个注记是否关联了正确的对象,检查时只显示各种注记及其关联的对象,并在二者之间高(亮)度显示一条线,对不正确的关聒要加以标记,返回数字化作业人员修改;,地名注记检查,检查图中的地名是否均加以特殊的标识,检查时同样只显示加地名标识的元素。,完成了上面的检查并经过作业人员的修改再检查无误后,先要进行预入库处理,进行入库的检查,若检查无误再行入库。入库前要将矢量化的GIS要素转换成MGE识别的要素,若该要素有关联的注记,按一定的规
25、则从注记中取出信息并存放在到数据中,预入库则是将完成数字化并经过前面检查的图,送入一个小型的GIS库中,该库所有的定义与最终使用的库结构完全一致。由于前面的检查中可能漏文件。预入库完毕后,可查阅错误记录文件,若无错则认为通过了最后一道检查,就可以将该图正式存入库中。,国家广播电视光缆传输干线网 地理信息系统数据设计,数据制作原始资料如下:,(1)1:100万中国地图数据l:100万中国地图数据是根据国家基础地理信息中心提供的原始资料,应用Maplnfo地理信息系统平台对政区、居民点、交通、旅游等数据信息的全面更新,形成的一套年代新、数据量大、精度较好的地图数据产品。该数据采用Maplnfo*t
26、ab格式详尽的反映我国的自然地理和社会经济状况,可作为各部门进行经济建设总体规划、生产布局、国土资源开发利用的底层地图数据库基础。l:100万中国地图数据所采用数学基础为:克拉索大斯基椭球、1956年黄海高程系。(2)广电干线网l:2000光缆线路竣工图用户方提供的待矢量化广电干线网1:2000光缆线路竣工图纸图.(3)广电干线网1:100机站竣工图用户方提供的待矢量化广电干线网1:100机站竣工图纸图。,2、数据制作标准,我们的数据制作将参照以下标准:(1)数字测绘产品、数字线划地形图质量标准GBT 1749120;(2)1:500 1:1000 1:2000地形图数字化规范GBT 1716
27、0-1997(3)l:5000 1:10000地形图数字化规范GBT 171571997:(4)1:500 1:1000 1:2000地形图图式GBT 7929一-1 995:(9)1:5000 1:10000地形图图式GBT 5791一93; (6)国土基础信息数据分类与代码GBT1392392: (7)数字地形图产品模式GB/T 13923-92,3、数据制作整体框架,31系统对数据的需求1数据要能在宏观上表现光缆主干线路,并提供一定的地物作为参照。2为满足系统功能的实现,1:2000光缆线路数据必须是无缝连接。3数据格式应为矢量格式。4提供满足系统要求的属性数据。,32数据体系的分析,招
28、标文件中对数据体系的提出是基于如下的思想:以全国l:100万矢量基础地理数据库为宏观的管理框架,将1:5万数据作为详细的参考底图,对广电干线网光缆线路和机站进行管理。实现上述方案的核心问题是要实现地理数据数据的无缝连接或者说是嵌套,但实现数据的无缝连接将遇到如下的实际问题。1:100万地理数据库与光缆沿线1:5万地理数据库的地理数据连接时将遇到的问题。,首先,l:100万与1:5万的数据在图形的表现形式上有很大差别。以道路为例,对于同一条道路,在相同的一条路段上1:5万数据的拐点要比1:l00万数据多几倍,因此无法进行准确的无缝连接。 其次,两者的信息量卜有很大差别。1:5万数据的信息量比l:
29、100万数据大很多。同样以道路为例,在1:5万数据里表现出的低级别道路在1:loo万数据中将不会表现出来,因此,在进行数据连接时将会出现很多道路中断的情况,既不利于分析也不利于美观基于以上两方面原因,1:l00万数据与光缆沿线l:5万数据的无缝连接将面临很多无法解决的问题。,同样,光缆沿线1:5万地理数据库的地理数据与l:2000光缆线路竣工图数据连接时也将遇到同样的问题。由于1:5万的数据在与1:100万数据和1:2000光缆线路数据进行无缝连接时都有很大困难,而且即使能连接上也会导致很多数据失真,另外l:5万数据的信息量有限,很难为实际操作提供更多的参照,因此使用1:5万数据的意义不是很大
30、。不使用l:5万数据既减少了系统运行时的数据量,也节省了大比资金。所以我们设计只建立三个数据库即全国1:100万基础地理数据库、1:2000光缆线路竣工图数据库、1:100机站竣工图数据库。对于这三个数据库,不再进行图形数据的连接,而是使用关键字进行关系上的连接,这样系统可根据不同需求进行调用。,33 设计框架,1以现有全国1:100万数据为底图,将光缆主干线路,节点站,中继站直接描述到1:100万数据上,以节点站、中继站为分段依据,将光缆主线路分为若干小段,给每段建立相应的关键字,制作成包含有光缆主网拓扑数据的全国l:100万基础地理数据库。,2对l:2000光缆线路竣工图进行拼接,对拼接后的栅格图矢量化,制作成1:2000光缆线路竣工图数据库。3直接对单张l:100机站竣工图进行矢量化,制作成1:100机站竣工图数据库。4由于原始资料的原因将造成数据各要素的空间相对关系与实地小符,这将给系统的分析统计查询等功能的执行带来困难,针对这各问题我们增加了各对象的相关属性信息,这就避免了错误的发生。,