收藏 分享(赏)

《非结构化数据表示》编制说明.docx

上传人:oceanpvg 文档编号:5382716 上传时间:2019-02-27 格式:DOCX 页数:4 大小:11.66KB
下载 相关 举报
《非结构化数据表示》编制说明.docx_第1页
第1页 / 共4页
《非结构化数据表示》编制说明.docx_第2页
第2页 / 共4页
《非结构化数据表示》编制说明.docx_第3页
第3页 / 共4页
《非结构化数据表示》编制说明.docx_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、国 家标 准 非结 构 化数 据 表示规 范 ( 征求 意 见稿) 编制说明1 任 务 来 源2012 年按照国家标准化管理委员会的国家标准制定计划,全国信息技术标 准化技术委员会启动了 非结构化数据表示规范 的制定工作。 本标准为自主制 定标准,计划编号为 20121409-T-469, 起草单位为北京航空航天大学、中国电 子技术标准化研究院、 清华大学、 人民大学、 浙江大学 , 归口单位为全国信息技 术标准化技术委员会(SAC/TC28) 。主办单位为北京航空航天大学。 2 编 制 背 景伴随着云计算、 大数据时代的来临, 中国的信息技术产业正面临着前所未有 的 挑 战 , 如 何 对

2、海 量 的 数 据 进 行 有 效 的 存 储 、 索 引 、 组 织 、 管 理 , 进 而 支 持 高 效 的数据访问 和更新正成为各大企业、 研究院所的重点和难点课题 。 在当前的海量 数据中有高达 80%的 数 据 为 非 结 构 化 数 据 , 并 且 其 总 量 仍 在 迅 猛 的 增 长 之 中 。 因 此, 高效的非结构化数据访问已成为企业快速发展的重要支柱, 对中国当前的信 息 化 产 业 发 展 显 得 尤 为 重 要 。2012 年成立了全国信息技术标准化技术委员会非结构化数据管理标准工作 组 ,工 作 组 的 筹 建 书 中 明 确 提 出 : 在 国 家 “核 高 基

3、 ”专 项 的 推 动 下 , 我 国 在 该 领 域已经形成了一批核心技术, 申请了一些技术专利, 开发了若干系统 产品, 并在 一些典型应用领域进行了应用推广, 展示出良好的行业应用前景 。 为促进 “核高 基” 非结构化数据管理课题创新成果的产业化 , 加速课题成果向我国数据库产品 开发商和高端信息应用服务企业进行技术转移, 推动我国非结构化数据管理领域 的跨越发展, 提高我国非结构化数据管理领域的自主创新能力和核心竞争力, 有 必要尽快编制非结构化数据管理标准体系并研制非结构化数据管理相关标准。非结构化数据例如文本、 图形、 图像、 音频和 视频等 , 从内容上没有统一的 结构 , 数

4、据是以原生态形式保存的 , 因此计算机无法直接理解和处理 。 为了对不 同类型的非结构化数据进行处理, 本标准规定了文本 、 音频、 视频、 图像等非结 构化数据的统一数据表示,适用于非结构化管理系统中非结构化数据的表示。 3 编 制 原 则本标准以核高基 “非结构化数据管理系统” 课题中研制的非结构化数据管理系统处理的非结构化数据特征为基础, 结合了国内外非结构化数据表示方法的研 究 成 果 , 自 主 制 定 。4 简 要 过 程 及 里 程 碑 说 明2012 年年底国标委下达标准计划任务后, “非结构化数据管理标准工作组” 讨论确定成立标准编制组, 由北京航空航天大学牵头, 中国电子技

5、术标准化研究 院 、 清 华 大 学 、 中 国 人 民 大 学 和 浙 江 大 学 参 与 。在 “核 高 基 ”非 结 构 化 数 据 管 理 系 统 课 题 中 , 3 家课题牵头单位北京航空航 天大学 、 清华大学和浙江大学分别研制了 3 个非结构化数据管理系统原型 , 本标准以这 3 个原型系统能够处理的非结构化数据特征为基础编制,并分别于 2013年 10 月及 11 月集合 3 家高校召开 2 次标准讨论会, 于 2013 年 11 月形成标准草 案。2013 年 12 月在非结构化数据管理标准工作组第二次全会上, 北京航空航天 大 学 汇 报 了 本 标 准 的 编 制 情 况

6、 , 同 时 展 开 面 向 工 作 组 成 员 单 位 的 征 求 意 见 工 作 。 得到意见反馈后, 标准编制组认真处理了来自 2 个单位的 2 条反馈意见, 于 2014年 11 月形成标准征求意见稿。5 结 构 说 明非结构化数据表示规范 一共分为 11 章。 第 5 章介绍了非结构化数据 DDL表示框架 ; 第 6 章介绍了数据类型; 第 7 章介绍了基本属性描述; 第 8 章介绍了语 义 特 征 描 述 ; 第 9 章 介 绍 了 底 层 特 征 描 述 ; 第 10 章 介 绍 了 原 始 数 据 描 述 ; 第11 章介绍了关联描述符。6 主 要 技 术 内 容 说 明1)

7、非结构化数据描述:本标准从基本属性、 语义特征、 底层特征以及原始数据 4 个方面对一个非结 构 化 数 据 进 行 描 述 , 其 中 :基本属性: 所有非结构化数据都具有的一般属性, 这些属性不涉及数据的语 义 , 包括名称、类型、创建者、创建时间等;语 义 特 征 : 以 文 字 表 达 的 非 结 构 化 数 据 特 有 的 语 义 属 性 , 包 括 作 者 创 作 意 图、数据主题说明、底层特征含义等语义要素;底层特征:通过各种专用处理技术(如图像、语音、视频等处理技术) 获得的非结构化数据特性,例如对图像数据而言,有颜色、纹理、形状等; 原始数据:非结构化数据的原生态文件。2)

8、描述定义语言 DDL:在描述定义语言部分,本标准遵循 W3C 的 XML Schema Language 规范,即 支持 XML Schema 所有的数据类型以及类型扩展机制。基于该规范,并针对于非 结构数据表示中需要用到的常见数据类型, 对其进行了必要的拓展 , 如定义了向 量类型以及矩阵类型等基本数据结构。3) 非结构化数据 DDL 表示框架: 本标准将非结构化数据表示为基本属性、 语义属性、 底层特征及原始数据 通过抽象类定义的方式,用 XML Schema 来 表 达 整 个 框 架 , 整 个 框 架 的 DDL 语言均 遵循 XML Schema 规范。4) 扩展数据数据类型:在这

9、一部分基于 XML Schema 的基本数据类型,定义了标量类型,向量类型 以及矩阵类型等基本数据结构,以及所有描述符和描述方案的抽象超类。5) 非结构化数据基本属性描述: 本标准定义了一些基本元素, 它们作为基本结构而在多个描 述方案定义中反复使用。 这些基本元素主要包括如时间、 地点、 人物释等描述。 唯一标识符描述 符可作为多媒体内容描述的唯一标识。6) 语义特征描述: 语义特征描述包括对象描述方案、 事件描述方案、 概念描述方案、 数据编码描 述 方 案 和 数 据 语 义 描 述 方 案 。 对象描述方案描述可察觉的或抽象的对象。 一个可察觉的对象是一个存在的实体,具有时空性。而一个

10、抽象对象是对一个可察觉对象的抽象和概括的结果。 事件描述方案用于描述一可察觉或抽象事件。 一个可察觉事件与一个或多个对象存在一种动态关系, 还与叙述世界的时空性相关。 同样, 一个抽象事件是对 可 察 觉 事 件 的 抽 象 和 概 括 的 结 果 。概念描述方案描述一不能用普通方法或抽象方法对其对象、 事件、 时间、 位 置和状态进行描述的语法实体,它是用一种特性或多种特性群来表述的。数据编码描述方案用于指定数据的编码参数。 数据语义描述方案主要用于存储数据的描述。7) 非结构化数据底层特征描述: 在这一部分本标准给出了图像、 音频、 视频、 文本的部分具体底层特征描述子 的 定 义 , 并

11、 基 于 这 些 底 层 特 征 描 述 子 给 出 了 各 类 数 据 的 相 关 底 层 特 征 描 述 方 案。8) 非结构化数据原始数据描述: 在原始数据描述部分, 由于原始数据本身的内容主要涉及到压缩编码, 本标准不给予 具体定义, 可参考其他压缩编码标准。 考虑到原始数据主要以文件形 式 或者数据块形式存储,本标准给出如下便于定位原始数据的描述方案。9) 关联描述符: 本标准定义的关联描述符主要包括如下四类关联描述符:-语义特征:底层特征关联描述符-基本属性:原始数据关联描述符-语义特征:原始数据关联描述符-底层特征:原始数据关联描述符7 专 利 说 明无。非结构化数据表示规范国家标准编写组2014 年 11 月

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 统计图表

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报