1、空间科学主题数据库 功能设计构想,单位:中国科学院北京空间中心数据网络中心 报告人:傅衍杰 报告时间:2009-08-18,功能设计,空间科学数据库主题库,数据资源的 发现和检索,描述信息 的收割和 同步,数据资 源的维护 更新,数据资源 的发布,数据资源 的删除,数据资 源的发 布撤销,一站式的 登录,用户认证 和授权,面向数据,面向检索,面向用户,面向知识发现,空间频繁 事件序列,空间事件 噪音,空间事件 相关性,支持上层功能的公共数据模型,从用户角度看功能需求,非注册用户,用 户 注 册,数 据 资 源 的 列 表,获得 最新 发布 的数 据资 源信 息,数据 资源 搜索,注册用户,用
2、户 登 录,数 据 发 布,数据 资源 发布 撤销,数据 的维 护和 更新,管理员,用户管理,数据 资源 发布 审核,用 户 注 册,用户修改,用户删除,基于 空间 事件 的 知识 发现,数据 资源 的 删除,从拓扑的角度看,中心节点(Agent),数据节点 (科技大学),数据节点 (北京空间中心),数据节点 (国家天文台),数据节点 (地质地球所),元数据,物理数 据实体,元数据,物理数 据实体,元数据,物理数 据实体,元数据,物理数 据实体,1 描述信息的收割和同步 2 数据资源的检索定位,描述信息的保存地,对全局资源分布了如指掌,从数据角度,日地空间物理 数据实体,基于SPASE标准的元
3、数据,行星科学 物理数据实体,基于PDS标准的元数据,索引库,(1)基于属性值的精确检索(2)数据发布的撤销(3)数据的删除(4)物理数据的描述信息的收割和同步,(1)基于语义的模糊检索(2)数据的维护更新 (3)数据发布的撤销(4)数据的删除(4)物理数据的描述信息的收割和同步,(1)数据下载(2)数据删除,事件逻辑库,xx逻辑库,基于空间科学事件的知识发现和挖掘,一,数据资源发布,1. 数据资源的发布应该包含6个要点 数据资源发布的发起者是注册用户; 允许注册用户在任何一个数据节点登录并发布数据,所发布数据最终的物理分布对于注册用户是透明的; 用户发布的数据应该包含:物理数据+元数据+索引
4、数据;所有数据以文件的形式存在; 用户发布的数据属于哪个类别,由用户先行确定,再提交给管理员审核修正后通过,类别+用户单位将决定数据物理存储位置。 用户发布的数据是否合法由管理员审核检查后判断是否同意发布,并将审核结果返回给用户; 经过管理员同意用户提请的数据发布后,数据将会被发布到系统上,每一个数据节点+每一个用户都会获知新数据发布的消息;,2. 数据资源发布过程设计,用户登 录某一数 据节点,用户数据被复制到 本地数据节点的“待发 布数据暂存区”,图形化在 线编辑 数据,数据标准检查,申请发布数据资源,成为管理员的待审核 的数据资源任务列 表中的一个任务,管理员审核,发布位于暂存 区的数据
5、资源,在任何数据节点都可登录和发布,编辑时可以进行数据标准自检,1 自动审查和人公审查的结合; 2 同意,则发布;驳回,则反馈修正意见,(存储)移动暂存区的数据到目标节点; (通讯)通告用户和节点新数据发布; (索引)在索引树中添加新数据资源;,注册用户,管理员,命令中介节点 收割和同步 新数据变化,二,数据资源的维护更新,1 数据资源的维护更新应主要包含5个要点 修改的执行者是注册用户,而不是普通的非注册用户; 注册用户只能修改自己发布的数据,而不能僭越修改他人的数据; 可在任何一个数据节点登陆,并修改自己发布的数据,哪怕从数据分布的角度看,自己发布的数据并不一定就在当前所登录的数据节点上;
6、 用户修改数据资源后,“数据变动的最小覆盖” 需要和中介节点进行同步,因而它将会被移入“待同步的变动数据缓冲区”。 用户修改数据资源,必然导致数据的变动,因而,需要用户主动触发“同步程序”,使得中介节点同步数据资源修改后的描述信息;,2 数据资源的维护更新过程设计,登录某数据 节点,选择 自己发布的数据 资源,进行修改,用户,在线编 辑修改,保存修改,数据变动的最小覆盖” 被移入“待同步的变动 数据缓冲区”,用户主动 请求同步,系统从“待同步的变 动数据缓冲区” 删除该变动数据,同步成功,三,数据资源的删除,数据资源的删除应包含5个要点 删除应该完备的包含2个动作: 删除数据在中介节点的对应的
7、元数据和索引数据; 删除在数据节点上的数据; 删除的执行者是注册用户,而不是普通的非注册用户; 注册用户只能删除自己发布的数据,而不能僭越删除他人的数据; 用户可以在任何一个数据节点登陆,并删除自己发布的数据,哪怕从数据分布的角度看,自己发布的数据并不一定就在当前所登录的数据节点上; 用户删除数据资源,必然导致数据的变动,因而应主动触发“同步程序”,使得中介节点也删除用户所删除的那个数据资源,使得无法检索到。,四,数据资源的发布撤销,数据资源的发布撤销应包含5个要点 撤销发布的执行者是注册用户,而不是普通的非注册用户; 注册用户只能撤销自己发布的数据,而不能僭越撤销他人发布的数据; 用户可以在
8、任何一个数据节点登陆,并撤销自己发布的数据 数据被撤销发布后,用户仍然可见到可管理它;撤销发布的实质是删除在中介节点的描述信息,使得他人无法检索和使用。,1,收割同步的必要性 中介节点和所有的数据节点实现同步 保证中介节点的描述信息=系统各个数据节点的数据资源描述信息的综合 确保系统通过中介节点搜索定位的资源是准确符合数据资源在的分布状况的 2,收割同步的实现(主动和被动的结合) 主动同步 当用户导致数据发生变动的时候, “数据变动的最小覆盖”的集合被缓存在该数据节点的“待同步的变动数据缓冲区“ 数据节点和中介节点的同步 成功后,在原数据节点的“待同步的变动数据缓冲区”中删除该“数据变动的最小
9、覆盖 被动同步 中介节点定时的去检查系统中的各个“数据节点”的“待同步的变动数据缓冲区”, 看是否还存在没有同步的变动数据,如果存在则,自动进行同步。,五,数据描述信息的收割和同步,中心节点,中科大 数据节点,数据集,待同步 变动数据 缓冲区,变动数据,空 间 中 心,地 质 地 球 所,待同步 变动数据 缓冲区,待同步 变动数据 缓冲区,变动数据,待同步 变动数据 缓冲区,主动同步,被动同步,有新变 动尚未 同步么?,变动数据,六,数据资源的发现(检索),1 数据资源的发现应包括6个要点 系统用一个中介节点来维护所有在线数据节点的共享数据索引。某一个数据节点上提交的查询,都将会被提交到中介节
10、点,中节点处理后,把查找结果返回给查询节点。最后查询节点和要查询文件所在的节点建立连接,下载查找到的文件。 从任何一个数据节点都能检索到全局或局部的数据资源 面向文字,能够基于语义进行模糊匹配 面向数字,能够基于属性值来进行精确匹配 能够对检索返回的多结果进行排序,使得最符合用户需求的排在最前 应允许用户基于个人需求进行搜索过滤 2 精确搜索的实现(基于一个或多个精确属性值的联合查询) 通过数据库的SQL语句 3 模糊搜索的实现(基于语义) 基于搜索企业内部级别的小型搜索引擎机制:去无用词-分词-索引-检索-排序相关度,七,基于空间科学事件的知识发现和挖掘,1,空间科学事件频繁序列 这个事件序列为何频繁发生? 2,空间科学噪音事件 为何在众多空间事件中唯独它最特别和另类? 3,空间科学事件关联分析 一个事件和另一个事件的关联性紧密,是否潜在特别的物理原因?,