1、ICS 35.020 L70 LS中 华 人 民 共 和 国 粮 食 行 业 标 准XX/T XXXXXXXXX粮食大数据资源池设计规范Specification for grain big data resource pool点击此处添加与国际标准一致性程度的标识(征求意见稿)(本稿完成日期:2017 年 8 月)-XX-XX 发布 XXXX-XX-XX 实施发 布XX/T XXXXXXXXXI目 次目次 .I前言 .II粮食大数据资源池设计规范 .11 范围 .12 规范性引用文件 .13 术语和定义 .24 总体要求 .45 层次结构 .46 数据构成 .47 数据描述 .68 数据接口
2、 .89 数据模型与存储体系 .910 数据安全 .1111 备份与恢复 .1112 可扩展性 .1313 资源池管理 .1314 运行环境 .1315 技术指标 .13附录 A 元数据内容定义 .14附录 B 元数据值域代码表 .24参考文献 .1XX/T XXXXXXXXXII前 言本标准按照 GB/T 1.1-2009 给出的规则起草。本标准由国家粮食局提出。本标准由全国粮油标准化技术委员会(SAC/TC270)归口。本标准起草单位:南京财经大学、国家信息中心、国家粮食局本标准主要起草人:张璐、伍之昂、曹杰、申冬琴、雷涛、林曦、徐枫、宦茂盛本标准为首次发布。XX/T XXXXXXXXX1
3、粮食大数据资源池设计规范1 范围粮食大数据资源池旨在汇聚和集成粮食生产、收购、仓储、加工、销售等过程中的各种相关数据,建立数据丰富、格式规范、存储安全、访问高效的数据资源平台,以支撑基于大数据的各种粮食信息化服务。本标准规定了粮食大数据资源池设计的基本要求,包括总体要求、层次结构、数据构成、数据描述、数据接口、数据模型与存储体系、数据安全、备份与恢复、可扩展性、资源池管理、运行环境、技术指标等。本标准适用于的粮食大数据资源池设计,支持与粮食行业其它信息系统的互联互通。2 规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文
4、件,其最新版本(包括所有的修改单)适用于本文件。GB 50174 电子信息系统机房设计规GB 17859 计算机信息系统安全保护等级划分准则GB/T 22239 信息系统安全等级保护基本要求GB/T 22240 信息系统安全等级保护定级指南GB/T 20273 信息安全技术数据库管理系统安全技术要求GB/T 2887 计算机场地通用规范GB/T 26882.1 粮油储藏.粮情测控系统第1部分.通则GB/T 7408 数据和交换格式.信息交换.日期和时间表示法GB/T 4880 语种名称代码GB/T 2659 世界各国和地区名称代码XX/T XXXXXXXXX2GB/T 2260 中华人民共和国
5、行政区划代码LS/T 1806-2017 粮食信息系统网络设计规范YD/T 1190-2002 基于网络的虚拟IP专用网ISO 19111 地理信息.坐标系的空间参考3 术语和定义3.1 结构化数据( Structural Data)可以组织成行列结构,可识别的数据。这类数据通常是一条记录,或者是被正确标记过的数据中的某一个字段,并且可以被精确地定位到。3.2 非结构化数据(Unstructured Data)不具备统一的结构,不方便用二维逻辑表来表现的数据,如文本、图像、声音、网页等。3.3 数据集(Dataset) 由相关数据组成的可标识集合。一个数据集可能是一个较小的数据集合,在物理上或
6、逻辑上位于一个较大的数据集之内;反之,一个数据集也可能由若干数据集组成,是这些子数据集的父数据集。理论上,一个数据集可以小到单个数据文件或关系数据库中的单个数据表。图像、音频、视频、软件等也可以被视为数据集。在本标准中,数据集是元数据的描述对象。3.4 数据集类型(Dataset type)根据数据集的结构或资源特征,对数据集所作的类型划分。3.5 数据类型(Data type)对数据的有效值域及对该值域中的值所允许的操作的规定。例如,数值型、布尔型、日期类型、文本类型等。对于复合元素,其数据类型用“复合类型”来标识。3.6 元数据(Metadata)关于数据的数据。3.7 元数据元素(Met
7、adata element)元数据的基本单元。3.8 复合元素(Compound data element)XX/T XXXXXXXXX3一个复合元素是由若干数据元素、或者数据元素与其它复合元素、或者若干其它复合元素共同组成的,通常用来表示较高层次的概念。3.9 数据元素(Data element)数据元素是元数据最基本的信息单元。本文档中对每一个元素的定义都用一个包含九个属性的集合来描述, 这些属性是中文名称、 英文名称、 标识、定义、类型、值域、可选性、最大出现次数、注释。3.10 实体(Entity)按一定结构组织起来的数据的集合,其结构可以用一组属性来刻画。例如,关系数据库中的数据表就
8、是一个典型的实体代表。3.11 关系型数据库(Relational Database)建立在关系模型基础上的数据库,借助于集合代数等数学概念和方法来处理数据库中的数据。3.12 分布式文件系统(Distributed File System)管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连的文件系统。3.13 专线(Private Line)服务商到用户之间铺设有一条专用的线路,只给用户独立使用,其他的数据不能进入此线路。3.14 虚拟专网 (Virtual Private Network VPN,缩略语:VPN)在共享网络中,通过多种技术(如隧道、加密等)实现原有专
9、用网络的能力,并在保证网络的安全性、可靠性、可管理性的同时提供更强的扩展性和灵活性。 (YD/T 1190-2002)3.15 数据加密 (Data Encryption)通过加密算法和加密密钥,将待传输的明文转换为密文,进而保证粮食流转各阶段信息数据传输的安全性。3.16 数字签名(Digital Signature)使用了公钥加密领域的技术实现,用于鉴别数字信息的方法。只有信息的发送者才能产生的别人无法伪造的一段数字串,这段数字串同时也是对信息的发送者发送信息真实性的一个有效证明。3.17 横向扩展(Scale-out)XX/T XXXXXXXXX4通过增加新设备而非升级设备部件的方式提升
10、系统处理能力的方法。4 总体要求总体而言,粮食大数据资源池规划、设计、开发和部署应满足以下要求:a) 应满足部门业务需求;b) 应具有可操作性、可靠性和可用性;c) 应具有可持续性和可扩展性;d) 应将数据保密和安全作为高优先项;e) 应履行验证和授权功能;f) 数据安全应与资源池建设同步考虑;g) 应使用基于开放的行业标准和采用成熟的主流技术;h) 资源池管理责任机制由主管、建设和运维单位相应确定;i) 资源池各类技术与设备的选用应遵循经济性要求,满足当前及未来一定时间内需求的前提下,宜选择性价比最好的设备及技术。5 层次结构粮食大数据资源池以云平台的方式建立并提供服务,平台分为两级:国家级
11、资源池和省级资源池。国家级资源池对接国家级粮食信息系统,同时接收来自省级资源池中的数据,汇集全国范围内的粮食数据资源;省级资源池对接省级粮食信息系统,汇集本省粮食数据,并定期将数据同步至国家级资源池中。涉粮央企及其它省部级单位的粮食大数据资源池可比照省级资源池设置。各级资源池提供其对应范围内的数据服务,在下级资源池中数据满足服务需求时,应首先使用下级资源池服务。6 数据构成粮食大数据资源池中包含粮食生产、收购、仓储、加工、销售等过程中的各种相关数据,与粮食有关的宏观经济数据、管理数据以及互联网公众舆情等数据。这些数据既包括结构化数据,也包含非XX/T XXXXXXXXX5结构化数据,如文本、图
12、片、音视频等,资源池需支持上述数据的存储与管理,并针对未来可能产生的新型粮食数据提供足够的扩展能力。6.1 粮食生产数据6.1.1 物料数据:种植粮食所使用的物料的使用记录,如种子种类、来源、数量、生产批次,农药编码、农药名称、生产商、供应商、数量,肥料编码、名称、生产商、供应商、数量等数据。6.1.2 田间环境数据:田间种植环节的环境参数,如水(高度、水质) 、空气(温度、湿度、CO 2浓度、光照) 、土壤(湿度、PH 值)等数据。6.1.3 产量统计数据:全国及各地区耕地面积、农作物播种面积、粮食播种面积、粮食总产量、粮食商品量、粮食平均亩产等信息。6.2 粮食收购数据6.2.1 粮食收购
13、数据:粮食“ 四项补贴”数据、粮食收购主体构成、粮食收购数量、质量、收购进度、检验结果、收购凭证、国有企业收购量、政策性粮食收购量等执行情况信息。6.3 粮食仓储数据6.3.1 粮食出入库数据:包括仓库名称、编码,出入库时间,出入库数量,出入库时粮食的水分、杂质、入库干燥方法等信息。6.3.2 粮食仓储数据:降水时间、方法,熏蒸时间、药剂、浓度,通风时间,以及仓库温度、湿度、水分、氧气、二氧化碳、磷化氢、储粮害虫及螨类等信息;6.3.3 粮情测控数据:粮油储藏:粮情测控系统第 1 部分通则 (GB/T 26882.1)中所规定的粮情测控系统各设备的运行记录。6.3.4 仓储账目数据:各粮库粮食
14、进出库、保管以及清仓查库过程中涉及的账目数据,来源包括:账本、统计报表、统计台账、原始凭证、粮食库保管账、统计表、会计账、银行资金账等数据。6.3.5 仓储视频数据:粮仓视频监控系统产生的视频数据。6.4 粮食加工数据6.4.1 粮食加工数据:包括加工企业信息,加工生产线编码、名称、加工产品名称,产品规格,加工数量,加工时间,检测时间,检验结论,检验员,产品生产日期等数据。6.5 粮食销售数据6.5.1 粮油市场数据:包括粮食销售总量,国有企业销售量,政策性粮食竞价交易数据,终端市场XX/T XXXXXXXXX6价格,主要粮食制品价格等数据。6.5.2 粮食消费信息:包括粮食消费总量,人均消费
15、量,工业用粮,饲料用粮,种子用粮,居民口粮等数据。6.6 粮食运输数据6.6.1 粮食运输数据:包括粮食的出发地、目的地,运输过程中的车辆轨迹,运输过程中粮食存放环境,时间、操作人员,通过 RFID 出入库系统检测的粮食货位号、运输工具编号、吨粮袋号、地磅计量信息等数据。6.7 宏观粮食数据6.7.1 宏观统计数据:包括储粮生态分区、产销分区、产量大县、粮食质量指标、人口总数、地区产值、地区财政收入、城镇居民人均可支配收入、农民人均纯收入等基本信息。6.7.2 粮食库存数据:包括国有及非国有粮食经营企业库存、粮食转化企业库存、农户存粮、城镇居民存粮等数据。6.7.3 宏观流通数据:包括省外购进
16、、销往省外、政策性粮食跨省移库情况,粮食进口量、粮食出口量等数据。6.7.4 国际市场数据:包括主要国家经济指标、粮食期货指数、现货价格、国际主要粮食制品价格、世界银行农业相关数据、国际粮农组织相关数据、美国农业部相关数据等。6.7.5 宏观调控信息:粮食供需平衡预测、粮食综合生产能力评价、优化运输、储备粮轮换计划编制信息等。6.8 粮食管理数据6.8.1 涉粮企业信息:包括全国粮食仓储企业,粮食加工企业等信息。6.8.2 行政许可业务管理信息:包括粮食收购资格许可、储备粮承储资格许可、仓储单位备案、熏蒸作业备案、经纪人备案、质量追溯等方面的数据。6.9 其它外部数据6.9.1 其它涉及粮食行
17、业的外部互联网数据,包括各种与粮食相关的新闻报道等。7 数据描述数据的组织结构、管理信息及访问信息等内容利用元数据进行描述,存储于粮食大数据资源池中XX/T XXXXXXXXX7的数据都应提供相应的元数据。具体的元数据依赖于其描述对象,由于资源池中的数据在来源、内容、结构、访问方式上具有差异,这里仅给出编写元数据描述的规范,即元数据标准。符合该标准的元数据能够保证数据的管理者、使用者能够顺利理解并应用相关数据。7.1 元数据内容元数据以不同层次的数据集作为基本描述对象,包括数据集描述信息、数据集分发与服务信息、结构描述信息等 3 个主要复合元素模块,还包括范围信息和联系信息两个辅助模块,此两个
18、模块不可单独使用,供其它模块的特定元素在需要的时候进行引用。7.1.1 数据集描述信息数据集描述信息模块是记录数据集基本信息的模块,是一个必选模块。通过使用数据集描述信息模块,建库人或单位可以对数据集本身的基本属性信息进行详细描述,例如数据集名称、分类、创建者、摘要、来源、所采用的语言等,数据集用户可以通过浏览这些描述信息对数据集形成一个总体了解。同时,在本模块中,还可以引用两个辅助模块的信息。具体定义见附录 A.1。7.1.2 数据集分发与服务信息数据集分发与服务信息模块是记录与数据集发行、获取及提供服务有关的信息的模块,为必选模块。主要包括数据格式、使用数据集的技术要求、收费策略、权限声明
19、、订购指南、联系信息等内容。记录与数据集相关的服务的标识信息,以及详细的服务元数据信息,该模块用于在数据集与相关服务之间建立连接。在本模块中,引用了“联系信息”这个辅助模块。具体定义见附录 A.2。7.1.3 结构描述信息结构描述信息模块记录数据集所包含实体的结构的有关信息,包括实体基本信息、属性信息、约束条件等内容。这里的实体结构信息包括关系数据库中的数据表及其属性信息,包含了关系数据库数据字典中的大部分信息。此外,对于不通过数据库管理,但是具备关系数据库表格类似特征的实体,也可以通过此模块来描述,例如具有明确字段或键的文档数据库和文本文件等。具体定义见附录 A.3。7.1.4 范围信息范围信息模块是一个辅助模块,其中包括数据集内容所涉及的分类、时间和空间范围的信息。该模块不能单独使用,而是被主要模块的有关元素引用。具体定义见附录 A.4。