1、城市空间信息学,合肥工业大学土木与水利工程学院 测量工程系 主讲:张志慧,第六章 空间数据的质量控制,主要内容: 空间数据质量的基本概念与质量描述框架 空间数据质量控制体系 空间数据质量评价体系 空间数据共享中的质量控制,6.1 空间数据质量,一、定义: 空间数据质量:空间数据适用于不同应用的能力。 狭义的数据质量: 数据在生产中形成的质量指标,也称本征质量,如精度、一致性、完整性。 除此之外,可得性(即获取的难易程度)、满足用户要求的程度、表达的是否清晰易懂,动态质量等称为衡量数据质量的重要方面。 这是广义的数据质量概念,综合包括:数据源、点位精度、要素完整性、属性完整性、数据逻辑一致性、数
2、据现势性等。,6.1 空间数据质量,二、数据质量的描述框架 空间信息工程项目的数据包括空间数据、非空间业务数据、管理维护数据3类。 空间数据:图的形式,包括图形和属性数据 非空间型业务数据:文档、报表、多媒体 管理维护数据:元数据、分类编码、各类标准,空间数据质量问题的十大原因(姜作勤,2004):,多重数据源 数据生产中主观的判断和技术 过松或过严的输入规则 大量的数据 分布式异构系统 复杂的数据表达,如文本和图像 不同功能领域的数据编码 客户改变数据需求 安全与可访问性的衡量 有限的计算资源。,6.1 空间数据质量,数据质量主要侧重两个方面: 数据的可信度:数据生产中形成的。本征质量 数据
3、的可用度:从用户或数据共享的角度描述数据质量,用户满意程度为指标。满足用户需求的相对状态。,数据可信度的内容,桥,桥,逻辑错误,改正后,数据不完整的实例,数据可用度的内容:,描述数据质量的框架,确定从哪方面描述数据质量。建立反映领域特点的数据质量框架,是数据质量控制首先要解决的问题。,数据质量的描述通常分为不同的层次,目前还没有形成表示这种层次性的统一术语。 域、元素:MIT 元素、子元素:ISO/TC 211 几种不同类型的数据质量框架: 美国联邦政府:实用、客观、安全 国际金融基金会:完整、一致、准确、服务、可访问 美国国防部:准确、完整、一致、现势、主键唯一、值域有效 国际地理信息标准:
4、定量、非定量 MIT:4大类,每类再分域;本征、应用、表达、可访问,MIT数据质量描述框架,数据质量元素( Data Quality Element)百度,描述数据质量的信息项,包括位置精度、属性精度、逻辑一致性、完整性、现势性和数据说明。 在数据分析和数据仓库领域,数据质量由数据质量元素来描述。 数据质量元素分为两类:数据质量的定量元素和数据质量的非定量元素。数据质量定量元素,用于描述数据集满足预先设定的质量标准及指标的程度,并提供定量的质量信息。数据质量非定量元素提供综述性的、非定量的质量信息。,确保空间数据质量存在的困境,空间数据数据来源多个方面;空间数据需求的专业性,加剧复杂性;各专业
5、生产部门独立的数据源,导致的数据分散性和差异性;空间认识和表达上的局限性,地理环境的表达不可能完全达到真实,只能在一定程度的近似值。总之,质量问题不可避免。 在统一的地理框架下建立跨系统、跨部门的统一用户视图,清理、合并数据,对数据质量解决方案的实施至关重要。,6.1.3影响空间数据质量的原因,信息系统不稳定,积累了大量的基础数据和专业数据,但数据的可利用率不高。 原因: 缺乏规范机制,数据标准不统一,数据应用模式,数据结构千差万别。 无效数据,大量过时、错误的数据基本没什么实际使用价值。 这就是数据质量问题,在不一致、不准确的数据基础上所作的处理、分析、挖掘无法取得预期的成果。,预防胜于修改
6、,有效地数据质量保证工作开始于数据采集。修正的成本是阻止错误的10倍。一些数据质量工具,可以对数据进行管理、分析、集成、标准化,以消除重复记录。 数据质量主要是数据生产、需求解析、应用程度等业务过程引起的。 所有数据生产人员都需要对数据采集的质量负责。建立质量控制体系。,空间数据生产应用过程中产生的误差,空间数据质量产生的原因,空间现象自身的不稳定性: 地球是复杂的动态巨大系统。空间特征和过程在空间、时间、专题、内容上的不确定性。 空间数据生产中的误差:(不同的技术方法产生的质量问题不同。)总体分为: 系统误差 随机误差 粗差 空间数据处理中的误差:空间数据组织中产生的质量问题:,1.空间现象
7、自身的不稳定性,空间现象在空间上的不确定性:位置、分布上的不确定的变化; 空间现象在时间上的不确定性:发生时间段上的游移性; 空间现象在属性上的不确定性:属性类型划分的多样,非数值型属性表达的不精确性。,2.空间数据生产中的误差,数据获取,数据录入,数据交换,数据编辑,数据存储,数据备份,数据查询,数据分析,数据挖掘,数据统计,数据通信,数据可视化,数据输出,信息发布,空间数据生产和处理过程,不同采集技术误差,全站仪数据采集误差: 仪器检验 人为误差:对中-整平-设置测站和后视方向-瞄准-记录;存储;检核 外界环境影响:温度、气压、湿度、磁场的变化,信号干扰、风力、日照等 平差数据处理模型误差
8、,不同采集技术误差,GPS数据采集误差 卫星钟差 环境因素:传播误差,多路径 整周模糊度 接收机误差 平差模型,不同采集技术误差,遥感和摄影测量误差: 摄影像片畸变:摄影机、大气、地形,飞机和卫星的转动 像片扫描误差 控制点误差 定向建模误差、立体测图误差 影像数据融合 模型拼接、镶嵌、图幅裁剪误差 人工判读误差,不同采集技术误差,图纸数字化误差 图纸变形: 线性变形:平移、旋转(刚体变形)、缩放(仿射) 非线性变形:扭曲 人工扫描、跟踪误差: 纠正方法误差: 矢量与栅格数据转换误差:,3.空间数据处理中的误差,地图投影变换 不同投影下,地理特征的位置、面积和方向有差异,如兰勃特投影,主比例尺
9、在标准纬线保持,标准纬线之间比例尺变小,标准纬线之外,比例尺变大。 地图数字化与矢量化处理 采样的位置精度、空间分辨率、属性赋值可能产生的误差 数据格式转换: 空间分析中:建立拓扑、叠置、匹配产生的位置和属性的差异。 数据的可视化表达:为了适应视觉效果而夸大、移位误差 空间数据使用时的用户解释偏差、无法使用、随意性使用的误差扩散。错标、错分类、编码错误等。,+1,+2,+3,+7,+6,+5,标识点遗漏,线段过长,线段过短,地图数字化与矢量化处理,4.数据组织时产生的质量问题,大量异构、异源数据的汇集,要进行有机的组织和管理才具有长久的生命力。 实例相关问题:与数据记录本身相关的质量问题 模式
10、相关问题:与数据组织有关的质量问题 完整性约束问题:与数据和组织有关的质量问题,数据源的模式相关问题,4.数据组织时产生的质量问题,实例相关的问题: 空缺值: 拼写问题:Metadata写成Matadata,“合工大” 内嵌数据:一个字段多个数据 属性依赖冲突: 数据重复: 多元数据模式相关问题: 名字冲突:同一名字表达不同对象,不同名字表达同一对象 结构冲突:同一对象表达方式不同 时间节点冲突:,6.1.4研究空间数据质量的重要意义,数据质量造成经济损失。 数据的多类、多源、多维、多尺度等特性。 信息复杂、相关性、数量大、数据类型和表达方式多样。 耗费大量人力、物力、财力,不可能重复采集。
11、保证质量具有特殊意义。 制定数据质量标准,建立和完善数据质量管理体系,提高数据质量非常必要。,6.2 质量控制体系,从采集、处理、组织、应用等多方面进行有效性、安全性、完备性、使用效果的全面管理。,质量控制过程,6.2.1 质量管理体系,数据的生命周期:数据的采集、处理、应用的不同阶段。 合理的质量管理体系:随时跟踪并记录数据的误差,以在相关的数据库中反应,并能被不同需求的用户精确的理解,以帮助用户精确地判断数据的可用性,并用于决策处理。 数据的生命周期质量管理提出的原因:数据转换时的质量报告;政府和私人的名誉保护;法律纠纷中的安全保护;科学研究的需要。,空间数据质量管理体系图,跟踪、监督,数
12、据生产周期的质量管理:针对生产流程进行的质量控制行为。,数据使用的质量管理:针对数据质量使用性的控制行为。,6.2.2 空间数据质量标准体系,对空间数据生产的全部过程进行监督管理,得到合格数据,并且详细记录空间数据的不确定性指标、空间数据的处理流程、空间数据的处理情况,利于空间数据的共享。,每个数据管理的责任者:要依据相关的工具,记录数据质量文档、跟踪、审核。并贯穿空间数据生产的整个流程。,数据管理的责任者:数据生产商、软硬件提供商、系统整合者,质量问题很抽象,必须通过数值、概念得到反映,即定量化和定性化不确定性指标值进行描述。比如:中误差、相对误差、正相关、离散等。而且必须和空间目标相联系,
13、即结合空间特征确定定量和定性的指标。,6.2.2 空间数据质量标准体系,标准化组织: ISO/TC 211:国际 CEN/TC 287:欧洲 FGDC:美国 ISO/TC 211从1995年开始立项研制第一批国际地理信息标准, 地理信息质量原理ISO 15046-13 地理信息质量评价规程ISO 15046-14,空间数据质量 规则,空间数据质量 的度量,质量标准与检查 规范,数据质量非定量质量描述,空间数据定量质量描述,数据标准,空间定位基准 数据分类标准 编码体系和代码标准 各数据库与文件命名标准 元数据标准 符号标准 数据格式与交换标准 数据质量标准 数据处理标准 数据库作业流程与技术规
14、定 数据库建设与验收标准,空间数据分类标准,中华人民共和国行政区划代码 国家基础地理信息系统地形数据库境界和居民地要素执行国家标准中华人民共和国行政区划代码(GB 2260-1995),并根据需要扩充了部分代码。代码的结构如下: 国土基础信息数据分类与代码 国家基础地理信息系统地形数据库数据分类编码执行国家标准国土基础信息数据分类与代码(GB/T 13923-92)。代码为五位数字码,其结构如下:,国家基础地理信息数据分类与代码举例,空间数据分类标准,公路路线命名编号和编码规则 国家基础地理信息系统地形数据库国道编码执行国家标准公路路线命名编号和编码规则(GB 917.1917.2-89)。代
15、码的结构如下: 其他相关资料参考国家基础地理信息中心(NFGIS)网站空间数据的分类体系是设计数据标准的前提,而分类体系应考虑专业领域专家的意见,并根据地理信息系统的要求来制定,尽可能反映分类的合理性。,空间数据交换标准,空间数据交换的主要方式有:(1)外部数据交换标准。这类标准通常是ASCII码文件,用户可以通过阅读说明书来直接读写这种外部数据格式。GIS的外部数据交换格式通常包括矢量数据交换格式、栅格数据交换格式和数字高程模型交换格式。(2)空间数据互操作协议。制定一套各方都能接受的标准空间数据操纵函数,通过调用这些函数以互相操作对方的数据。(3)空间数据共享平台。采用客户机/服务器体系结
16、构,各种GIS通过一个公共的平台在服务器存取所有数据,以避免数据的不一致性。(4)统一数据库接口。在对空间数据模型有共同理解的基础上,各系统开发专门的双向转换程序,将本系统的内部数据结构转换成统一数据库的接口。 目前外部数据交换标准仍然是实现数据共享的主流方式。,空间元数据标准,国内近几年来已经提出了几个元数据标准, 如中国可持续发展信息共享Metadate标准、 中国生态系统研究网络元数据标准、 科学数据库元数据标准等。 空间元数据(Geospatial Metadata):地理的数据和信息资源的描述性信息。它通过对地理空间数据的内容、质量、条件和其他特征进行描述与说明,以便人们有效地定位、
17、评价、比较、获取和使用与地理相关的数据。空间元数据是一个由若干复杂或简单的元数据项组成的集合。,管理标准,计算机软件配置管理计划标准GB/T12505-90 计算机软件质量保证计划标准 GB/T12504-90 计算机软件可靠性和可维护性管理GB/T14394-93 质量管理和质量保证标准第三部分GB/T19000394,质量标准,规定与质量有关的术语ISO 8402 质量管理和质量保证标准 ISO 9000-3 可信性大纲管理指南 ISO 9000-4对ISO 9000-3 未具体示出的软件质量特性规定标准 ISO/IEC 9126 对质量体系核查指南中核查步骤的规定管理和质量保证标准 IS
18、O 13011-1,6.2.3 质量控制措施,数据质量并非越高越好。 应当从费用分配、生产方水平、用户方(人、制度、技术)需求等方面制定切实可行的数据质量控制措施。 数据产品的质量控制应该满足4个要求: 理解客户的信息需求 明确定义数据产品的生产过程,进行过程管理 明确数据产品的生命周期,实行全面质量管理 设置产品管理员对过程和结果进行管理,6.2.3 质量控制措施,产品质量管理的5个发展阶段: 质量检验 统计质量控制 质量保证 质量管理 全面质量管理 全面质量管理:一个组织以质量为中心、以全员参与为基础,目的在于通过让顾客满意和本组织成员及社会受益而达到长期成功的管理途径。 空间数据的全面质
19、量管理:对空间数据生产进行全员参与、全方位、全过程的质量控制。,空间数据的质量总体控制5方面,总体技术方案的控制与评价:科学、合理、可行 用户需求分析与联合设计:根据空间数据可用性确定设计 数据源:决定数据的现势性、可信性、可用性 制图综合:繁简度,决定信息载负量和数据的冗余度。 数据生产时间:决定质量的重要方面。充足才行。 引用标准:决定数据的科学性、可共享性。国家、部门、行业标准。 数学基础: 要素分类编码:决定地理实体的表示内容,数据表达详细程度。 数据格式:根据用户需求,CAD,GIS,决定软件 技术路线与技术性试验:为确定产品的技术指标、技术路线、生产工艺流程、生产定额和成本定额提供
20、可操作的依据,为全面组织生产积累经验。,空间数据的质量总体控制5方面,数据源质量控制: 工程测量、制图等中收集的资料的质量控制、评价、分析 数据源误差控制在数据产品的质量要求范围内。,空间数据的质量总体控制5方面,数据生产质量控制: 准备工作:学习有关技术文件 软硬件质量:仪器检校 采集过程检核抽查,发现问题及时处理 数据格式转换,确保完整转换,数学精度、分层、空间关系、注记、线型准确无误。,空间数据的质量总体控制5方面,数据加工处理质量控制: 计算误差、拓扑分析质量、图层叠置质量等的控制,空间数据的质量总体控制5方面,数据质量控制策略 数据清洗:不完整的数据、错误的数据、重复的数据 生产组织
21、管理: 人员和设备的配备; 生产管理人员、生产作业人员、产品质量检验人员培训; 制定可行的生产进程,确定生产组织形式、生产岗位设置,制定合理的生产定额,按天、月、季的工作量,以及确保完成任务的关键措施。,空间数据的质量总体控制5方面,数据质量控制策略 建立质量保障体系:明确各部门和岗位的任务、职责、权限,使各项工作系统化、标准化、制度化。 建立“二级检查,一级验收”制度 二级检查:一级检查为过程检查,在全面自检、互查的基础上,由作业组的专职或兼职检查人员承担。二级检查由施测单位的质量检查机构和专职检查人员在一级检查的基础上进行。各级检查验收中发现的问题,必须及时处理并做好记录 。 一级验收:二
22、级检查合格后由上级或业主的检查验收组实施产品成果最终验收工作。,宗地房屋测量质量检查跟踪记录表,检查报告副封面格式,检查报告副封面格式,空间数据的质量总体控制5方面,建立“二级检查,一级验收”制度 各级检查、验收工作通过对内业资料的真实性、完整性、规范性的检查验收和外业实地勘测、核对相结合的方式进行 。 各级检查、验收工作必须独立进行,不得省略或代替。各级检查和验收工作完成后应分别写出检查报告和验收书。,空间数据的质量总体控制5方面,5.数据质量控制策略 目标与效益关系评价(性价比),即区分数据处理的优先级。 首先,我们可以运用检测出系统中存在的或暗藏的数据质量问题。 然后,评价其可能造成的不
23、良后果,进行可行性分析,包括各种解决方案的成本与功效,以及技术上的可能性。 最后,将解决成本与不解决的损失进行对比,若损失大于成本,将该项解决方案列入“待解决”的清单,对其中的各种方案列出优先顺序。 一般事务型的数据用户不需要更加清洁的数据,具有深层意义的数据必须保证质量。,空间数据的质量总体控制5方面,5.数据质量控制策略 监理机构设定: 较大项目,设工程监理:了解用户需求,对工程的实施进行检查,及时发现问题,避免损失。 用户联络人:受用户信任的人,在用户与系统开发者之间建立联系。帮助双方、优先考虑的问题建议等。 数据质量员:发现和报告数据质量问题;调查这些问题,区分轻重缓急,向质检部门报告
24、;确保专人负责。,6.3 质量评价体系,一、质量评价模式: 最小质量标准模式,规定阈值的评价模式 元数据标准模式,真实标记模式 市场标准模式,真实记录和信息反馈结合的模式,质量评价要素5类质量指标,现有质量评价要素中主要包括5类质量指标: 位置精度 属性精度 完整性 时态精度 逻辑一致性 空间数据处理流的记录,二、质量评价方法 数据质量评价模型评价规则的建立: 针对不同需求对质量评价指标进行取舍,必须涵盖数据可信度与数据可用度两个方面,采样合适的方法。 按评价模式分类:传统模式、现代模式,数据质量评价 Data Quality Evaluation(百度),对数据质量进行评估的方法和过程。 常
25、用的评价方法有:演绎推算、内部验证、与原始资料(或更高精度的独立原始资料)对比、独立抽样检查、多边形叠加检查、有效值检查等。 经检查应对每个质量元素进行说明,并给出总的评价,最后形成数据质量评价报告。,传统的评价模式,一年一度的“评优”活动: 体系不全、不规范 方法本质是定性的,半定量半定性 科技含量不高,主观成分重,现代评价模式,新兴的评价模式,发展方向 体系全、较规范。 方法本质是定量、可计算,尽可能排除主观成分。 科学、民主、公正、公平、公开的原则。 评价方法的选择原则: 精确性、公正性、可靠性、效用性、俭省性、实用性,评价方法分类,直接评价:数据抽样(人工、计算机抽样),与评质量价指标
26、比较。 间接评价:对数据的生产和使用过程带来的影响的评价,各种误差产播数学模型。 综合评价:对象是数据集、要素或属性的总体质量。评价指标复杂,不存在统一的同度量因素,最终结果是整体性的评判,用一个总指标来说明评价对象的一般水平。,农村土地房产测绘产品质量评定标准,测绘产品成果实行优级品、良级品、合格品、不合格品等四级评定制度。 测绘成果质量由生产单位负责评定,验收单位负责核定。 错漏扣分标准: 单位产品中出现一个严重缺陷,则该产品计为不合格品。 单位产品中出现一个重缺陷,扣除10分。 单位产品中出现一个轻缺陷,扣除2分。 单位产品质量评定方法 每个单位产品的得分预置为100分。,农村土地房产测
27、绘产品质量评定标准,采用缺陷扣分法,计算单位产品得分。 采用平均法,评定单位产品总和的得分。 单位产品质量等级的划分标准 优级品为90100分 良级品为7589分 合格品为6074分 不合格品为059分,单位产品的缺陷分类,土地房产测绘成果的缺陷分为严重缺陷、重缺陷、轻缺陷三类,6.4 空间数据共享中的质量控制,当前存在的问题 空间数据共享的法制建设 基于元数据的空间数据共享质量控制,当前存在的问题,现状: 不同工程项目与空间信息应用技术上相对封闭 不同行业对数据要求不同,用不同的方法采集 数据存储的方式和介质不同 数据的生产过程和质量对使用者未知 导致: 数据重复采集、 数量和质量不可控制、
28、 空间数据不能有效利用,一、空间数据共享的法制建设,空间数据共享的立法研究和实施,是使数据共享活动规范,促进空间信息产业发展的要求。 空间数据共享法:是国家为调整空间信息共享活动中所发生的各种社会关系而制定或认可的法律规范的总称。 空间数据共享法基本特征: 一般法律特征: 针对性:空间信息领域的社会关系为控制和协调对象。 空间数据共享法的理论研究内容: 空间数据的资源理论、空间数据商品经济理论 空间数据的社会公共功能理论 立法技术、法学理论 空间数据产权,产品质量:空间数据质量关键 产品的产权: 数据生产到使用的主体:所有者、投资者、生产者、管理者、分发者、代理者、使用者 主体责任、义务、权属
29、的规定: 数据获取者:外业测量者、图纸数字化、购买者 数据处理者:依据投入的时间和经费,是否体现处理者的思想等 数据发布形式: 数据使用目的:,二、基于元数据的空间数据共享质量控制,元数据:关于数据的数据,是数据库中用于描述、定位和控制数据的数据,处理方法及数据环境的数据。 元数据包括:数据集的基本信息、数据质量信息、数据沿革信息、空间数据表示、参照系统、要素分类信息、发行信息及元数据参考等内容。 元数据对空间数据的质量指标主要以定性的描述为主。,元数据标准项目示例,空间元数据内容,空间元数据主要有以下几个方面的作用:,(1)用来组织和管理空间信息,并挖掘空间信息资源,这正是数字地球的特点和优
30、点所在。通过它可以在Intranet或Internet上准确地识别、定位和访问空间信息。 (2)帮助数据使用者查询所需空间信息。比如,它可以按照不同的地理区间、指定的语言以及具体的时间段来查找空间信息资源。 (3)组织和维护一个机构对数据的投资。通过空间元数据内容,可以充分描述数据集的详细情况,便于数据使用者得到数据的可靠性保证。同时,当使用数据引起矛盾时,数据提供单位也可以利用空间元数据维护其利益。,空间元数据主要有以下几个方面的作用:,(4)用来建立空间信息的数据目录和数据交换中心。通常由一个组织产生的数据可能对其他组织也有用,而通过数据目录、数据代理机、数据交换中心等提供的空间元数据内容,用户便可以很容易地使用它们,达到空间信息的共享。 (5)提供数据转换方面的信息。通过空间元数据,人们便可以接受并理解数据集,并可以与自己的空间信息集成在一起,进行不同方面的分析决策,使地理空间信息实现真正意义上的共享,发挥其最大的潜力。,数据质量元数据有:完整性、逻辑一致性、位置准确度、专题准确度和时间准确度等一级质量特性,再进一步细分为二级质量特征。 现有的元数据大多针对数据集,对二级特征因涉及因素复杂,没有统一标准。而且受实际操作方法和能力的限制,大部分空缺。 建立不同层次的元数据标准,可以适应不同层次的用户需要。,空间元数据分类,作业,思考与习题 1,2,3,