1、科学实验数据元数据模型构建研究以植物学基因表达实验为例 常颖聪 何琳 南京农业大学信息管理系 摘 要: 目的 /意义科学实验数据组织现状混乱、丢失现象频繁,严重阻碍科学数据的保存、复用以及公开获取,因此构建规范的科学实验元数据模型对实验数据的组织、保存、检索、复用等有重大的现实意义。方法 /过程首先通过文献调研对现有科学实验元数据集进行总结;其次以植物学基因表达实验为例,通过用户访谈对实验室数据组织现状以及实验操作流程、特点等进行调查总结,初步构建植物学基因表达实验元数据描述方案;最后通过德尔菲法对元数据元素集进行打分、评估、筛选、确立。结果 /结论构建基于科学实验数据生命周期的植物学基因表达
2、实验元数据模型,能够完整描述包含实验设计、实验数据等在内的科学实验基础信息,同时包括科研成果、数据访问等信息;基于该元数据模型不仅便于科学实验数据的组织,还有利于科学实验数据公开获取以及科研成果的追溯,为不同类型科学数据语义化关联提供支撑。关键词: 科学实验; 实验数据; 元数据模型; 数据组织; 作者简介:常颖聪(ORCID:0000-0002-9747-889x),硕士研究生;作者简介:何琳(ORCID:0000-0002-0738-230X),副教授,通讯作者,E-mail:。收稿日期:2015-05-21Research on Construction of Metadata Mode
3、l for Scientific Experimental Data:An Example as Gene Expression Experiment of BotanyChang Yingcong He Lin Department of Information Management,Nanjing Agricultural University; Abstract: Purpose / significanceThe scientific experimental data lacks of suitable and effective organization and loses eas
4、ily and frequently,which seriously hinders preserving,reusing and publicly accessing the scientific data. So to build the normative scientific experimental data metadata model is of great significance to organize,preserve,retrieval and reuse experimental data. Method / processFirstly,this paper summ
5、arizes the existing scientific experimental metadata models by literature investigation. Secondly,it establishes a metadata description scheme of botany gene expression experiment,by investigating and summarizing organization condition of experimental data,operating process and characteristic of exp
6、eriment through expert interviews. Lastly,it scores,evaluates,selects and determines the metadata factors by Delphi method. Result / conclusionThis paper builds a metadata model for botany gene expression experiment based on scientific experimental data lifecycle. The model can completely describe t
7、he basic information such as experiment design and data,and other information such as scientific achievements and data access. The metadata model not only can help organize the scientific experimental data,but also publicly access experimental data and review achievements,to provide support for sema
8、ntic association of different types of scientific data.Keyword: scientific experiment experimental data metadata model data organization; Received: 2015-05-211 引言科学实验作为科学研究的一种重要方法,其产生的实验数据是科学数据的重要组成部分。在科研过程中,研究人员会检索、使用、参考或重用来自不同实验室、不同学科、不同类型的数据1。相对于国际合作项目,如国际空间站、人类基因图谱研究等大科学产生的科学实验数据有专门的政策、方式进行存储和组织
9、,高校实验室、科研机构等分散式的小科学产生的科学实验数据因缺乏关注及重视,现有实验数据组织混乱、丢失严重,导致很多科学实验无法复现和分析,科研成果的验证、实验方法追溯以及实验数据的复用存在很大困难,因此亟需采取有效手段实现小学科科学实验数据的保存、组织和维护,保证数据格式的更新可用2。笔者通过文献调研、用户访谈、德尔菲专家调查等研究方法,尝试构建一套基于科研过程以及用户需求的植物学基因表达实验元数据描述方案,以准确、专业地对基因表达实验产生的数据集进行标注,保证不同科研人员对数据集的正确理解; 在构建中注重复用已有本体、元数据集,在完整地保存实验信息、实验数据、 实验结果等信息的同时,还可以实
10、现实验数据与其他科学数据集、相关出版物、科研论文等更多外部数据之间的关联; 在科学数据组织技术层面保证数据的可用性,确保与其他科学数据组织系统间的互操作以及在硬件技术变革后科学数据仍能被获取并理解3。2 科学实验数据相关元数据2. 1 已有的相关元数据集都柏林核心元素集( Dublin Core Element Set,DC) 规定了 Web 资源都应遵循的通用的核心元数据标准, 基本涵盖了电子资源的主要特征,有广泛的适用性4。核心科学元数据模型( Core of Scientific Metadata Model,CSMD) 提出了Study、Topic、Access Conditions、
11、Data Description、Data Location、Related Material 6 个元数据对象,并相应地构建了分别描述元数据对象的元素,用于满足来自结构生物学领域的专家、研究人员对数据共享、数据组织的强烈需求5。生物医学研究本体 ( The Ontology for Biomedical Investigations,OBI) 是为描述生物临床调查而构建的元数据框架,涵盖了研究调查的设计、实验使用的仪器设备、实验材料、生成数据和数据分析软件、数据类型等方面的描述6。L. Lyon 等根据晶体学实验的实验步骤,提出了面向晶体实验学实验工作流的元数据描述项,列出了在实验过程中可能
12、产生的文件及其格式7。EXPO 提出了相对全面的实验活动元数据框架,涉及到了科学实验数据的组织和管理8。为了更好地理解实验结果,从分子层面了解基因致病原因,微列阵实验相关专家从组织机构、 实验背景、统计分析、数据描述 4 个层面来描述实验, 构建了微列阵实验元数据模型9。2. 2 不同科学实验元数据集对比不同科学实验元数据的着重点有所不同,涵盖的实验信息也略有差异,表 1 对上文列举的 5 个实验元数据进行了信息涵盖范围对比。由表 1 信息可以看出,大部分实验元数据包含研究机构、研究人员、实验主题、方法、实验使用仪器以及软件等基础信息; 对数据集的信息,如数据格式、存储位置等有一半以上进行了描
13、述; 除 CSMD 元数据集外,其他元数据集均忽略了数据访问权限、有效期、基金支持等信息; 元数据学科专指度越高,可跨学科使用的可能性越低,通用性越差,因此除晶体实验元数据外,其他都有较高的通用性和可扩展性。科学数据管理活动应该从科学数据生成即刻开始,确保科学数据的价值,保证数据可被发现和再利用10,涵盖对数据集内容的解释、访问限制细节、数据可公开获取的条件、数据资源唯一标识符等信息11, 保证科学数据管理的持续性12。而通过对现有实验元数据集的对比、总结,可以看出: 1 现有科学实验元数据集较少,科学实验数据仍然是被忽略的宝贵科研资源,亟需有效的方法来组织、挖掘; 2 现有元数据集仍较多关注
14、实验机构、实验主题等基本宏观信息,缺乏对科学数据集本身信息以及数据的公开获取权限、访问方式、位置以及可用有效期等信息的标注; 3 忽略了在大数据环境下科学实验数据与科研成果的链接功能,不利于科学数据共享理念下科学论文对源数据的追溯、验证以及复用。因此,构建一套能够面向科学实验数据生命周期的、实现实验数据与科研成果等外部信息的深度化、细度化关联的元数据模型是非常有必要的。表 1 不同实验元数据涵盖范围对比 下载原表 3 植物学基因表达实验元数据模型的构建3.1 实验数据保存现状对来自园艺、农学等专业的专职研究人员就实验室基因表达实验数据组织及管理现状进行访谈,得出了这类实验数据的组织和保存现状如
15、下:3. 1. 1 基因表达实验数据保存实验室缺乏统一的实验数据保存要求,实验数据主要以文本、表格等格式保存在实验操作员个人电脑文件夹中,数据文件、存储文件夹命名方式因人而异,数据查询困难、丢失严重。3. 1. 2 实验数据检索需求与重用研究人员主要通过 NCBI 等国际数据库查询实验数据,因缺乏正规途径,同行专家的实验数据较难获取; 实验数据的重用, 主要是实验方法的模仿、学习、复现,且实验方法具有跨学科参考价值,没有物种局限性,如研究草莓基因表达的科研人员同样会参考、复用水稻、大豆等其他物种的实验方法。3. 1. 3 基因表达实验数据组织需求研究人员认为统一的实验数据组织方法可以实现不同数
16、据作者记录数据的统一性,有助于数据的理解和再利用以及实验数据的传承。上文用户访谈结果显示实验室现有实验数据组织方式规范性差,因缺乏统一的存储、组织标准造成实验数据传承性差,且不利于实验数据的交流和理解。本研究拟基于科研人员的实际需求和现实要求,构建一套基因表达实验数据元数据标准,以从根本上改变实验数据保存方式多样化现状; 基于同一元数据标准组织基因表达实验数据,便于同行专家对数据的理解、交流与复用,同时消除不同物种同一实验原理的实验数据的交流壁垒。3.2 元数据模型构建流程本研究拟基于“元数据模型初步构建模型修正元数据模型最终确立”流程( 见图 1) 构建植物学基因表达实验元数据模型,其中初步
17、构建过程主要通过领域用户多轮访谈,确定领域核心概念及术语并基于现有元数据集复用可复用元数据; 模型修正阶段引入德尔菲法,目的是对初步构建的元数据模型中可能存在的概念性漏洞予以补充、修正,规范元数据模型,对于专家意见统一性较差的元数据通过专家回访确定其被保留或删除,保证元数据模型的科学性,最终构建领域内元数据模型。图 1 元数据模型构建流程 下载原图3.3 领域用户访谈用户访谈共进行三轮,访谈对象包括来自南京农业大学果木研究所、水稻研究室以及园艺专业的 15 名博士生及研究人员,第一轮访谈内容集中于实验室实验数据保存现状、实验数据的复用、检索以及实验室实验数据的组织需求; 第二轮集中调查访问基因
18、表达实验操作过程、数据处理注意事项等问题; 基于对第二轮访谈结果的结构化整理,以及实验数据与科研成果的链接需求进行了第三轮访谈( 三轮部分访谈内容见表 2) ,对第二、三轮的访谈结果进行整合,并对可复用元数据予以复用,初步确立了植物学基因表达实验元数据模型的核心元数据集。表 2 用户访谈内容问题项 下载原表 3.4 元数据核心元数据集在用户访谈过程中,领域专家概括基因表达实验遵循“实验样本样本处理实验引物转录、 反转录条件实验结果”的基本流程: 样本处理为基因表达实验主要实验信息,分为高盐、高碱等非生物胁迫和病原感染等生物胁迫两种处理形式; 实验引物则为实验标准配置,以上引物、下引物成对形式出
19、现; 转录、反转录条件是基因表达实验标准化操作流程,称为扩增程序,通过 PCR 仪实现,因此引入实验异常处理类型对应样本处理、实验引物、扩增程序3 个具有专业领域特殊性的元数据。根据植物学科学实验原理,实验材料分为实验组和对照组,且引入物种、培养条件、 取样条件、部位等信息。科学实验数据的科研产出一般为科研论文,在科研论文阅读参考方面领域专家表示注重实验方法、实验样本处理、数据处理等信息的获取,同时表示通过科研论文查询获取实验数据较困难但有很大的科研需求和价值。因此,笔者引入科研成果概念,并采用图书情报领域期刊文献类描述元素进行标注,详尽地记录科学实验数据的科研产出信息,实现实验数据与实验论文
20、的相互链接。为实现不同实验室、研究机构及不同学科之间科学实验数据的共享以及科学实验数据与现有机构库等数据的互操作,笔者在用户访谈结果概念提取的同时对现有元数据集进行了整合,在科学实验描述方面主要借鉴 CSMD5、EXPO8等实验元数据集,引入实验管理信息( EXPO) 、数据访问权限( CSMD) 等概念; 对科研成果、期刊等描述主要复用 DC4、BIBO13、FOAF 等元数据集; 同时对已存在的元数据词汇都采用复用的方式,复用元数据标准见表 3。由表 3 可以看出,植物学基因表达实验过程信息具有专业领域特殊性,有较少可复用的元数据集,为保障元数据词汇的专业性、 有效性、准确性和可复用性,需
21、要对基因表达实验的实验设计、实验操作、实验结果等专业领域色彩浓重的部分进行修正。表 3 植物学基因表达实验元数据复用标准 下载原表 4 植物学基因表达实验元数据模型的修正利用德尔菲法对上文初步构建的方案性元数据模型进行多轮打分、修正,直至意见统一,能够更加准确地基于专家角度对科学实验进行描述,对用户访谈过程中产生的概念性漏洞予以补充、修正,规范元数据表达及其专业性和科学性。4.1 专家选择与信息统计笔者选取园艺( 果树、植物) 、农学( 水稻) 、生物等具有专业知识背景、熟悉植物学基因表达实验操作知识的在读硕士、博士研究生以及专职科研人员进行问卷调查,在前期访谈中了解到基因表达实验为自然科学实
22、验中的基础性实验,科研过程均有涉及,因此专家调查结果具有较高科学性和信赖性。由于现有科学实验元数据集较少,植物学基因表达实验的专业领域性高,为满足元数据修正需求,确定专家组成员为 20 名 ( 一般不超过 20 名) ,专家组成员基本信息如表 4 所示:表 4 专家组成员基本信息 下载原表 4.2 量表设计、发放与调整将上文初步构建的植物学基因表达实验元数据集按一级、二级、三级元数据方案设计问卷,专家按其重要程度打分,主体打分遵循李克特 5 级量化模式,并支持专家给出补充意见。将第一轮统计结果、专家的意见和符合要求的指标反馈给专家,同时制作第二轮专家调查表,供专家对指标体系重新进行评价,最终采
23、用专家积极系数、加权算数平均值、满分频率和变异系数 4 个评价指标对评价结果进行筛选14-15。第一轮共发放 20 份专家问卷,回收 19 份,专家积极系数为 95% ; 第二轮回收 19份,专家系数为 100% 。 一般认为专家打分分数的算数平均值大于 3,评价指标才有保留意义16,第一轮所有评价指标打分算数平均值均大于 3,符合标准,全部进入第二轮调查中; 在专家补充意见中,47% 的专家在实验过程提出需要补充“实验结果分析”、“数据分析”、“数据校准”等过程, 在三级描述元素中应该添加“技术路线”、“内参基因” 分别描述实验设计、实验引物; 根据专家补充意见,第二轮调查对量表进行调整,将
24、“数据处理”调整为一级元数据,并添加“校准数据”、“数据验证”、“图表分析” 等二级元素描述,在实验设计、实验引物中分别添加 “技术路线”、“内参基因”元数据,进入第二轮打分。4.3 量表打分结果统计研究中元数据的选择和修正基于调查组专家成员意见集中程度和意见协调程度,其中,加权算数平均值、满分频率能够反映专家意见集中程度,变异系数则反映专家意见的协调程度,一般认为变异系数小于 0. 25,表示专家组成员意见协调程度高,趋于一致,反之则分歧较大。对第一轮算数平均值、第二轮算数平均值、满分频率、标准差、变异系数进行统计,一级、二级、三级元数据元素评测结果分别见表 5、表 6、表 7,表 8 为实
25、验室对科学实验数据保存、访问公开等信息的调查结果。表 5 一级元数据元素评测结果 下载原表 表 6 二级元数据元素评测结果 下载原表 表 7 三级元数据元素评测结果 下载原表 表 7 三级元数据元素评测结果 下载原表 表 8 科学实验数据访问现状调查 下载原表 4.4 元数据模型修正表 5、表 6 调查结果统计显示一级元数据中,加权平均值均保持在 4. 4 以上,满分频率大于 50% ,其中 “实验设计”满分频率为 100% ,专家变异系数均小于 0. 2,表明专家意见统一,元数据集元素的选择比较合理,能够完整的描述科学实验流程; 二级元数据元数两轮加权算数平均值均大于 4,满分频率在 60%
26、 、变异系数小于 0. 2 的比例分别为 35% 、85% ,专家意见较为统一。而其中二级元数据“实验仪器”变异系数为 0. 25, 两轮加权算数平均值绝对值差为 0. 05,说明专家组成员对该元数据认知有所不同,且两轮调查专家意见几乎一致,表 7 显示其下位类即对应三级描述元素“仪器名称”、“生产厂家”变异系数分别为 0. 29、0. 25,均不符合评价指标阈值,说明实验仪器在基因表达实验中重要程度不高,在专家回访中,专家表示在实验过程中实验仪器功能非常固定和单一,对实验操作、实验结果、实验数据及其组织等没有影响,因此对实验仪器及其下级元素予以删除。对不合格元数据予以剔除,表 7 中三级元数
27、据元素变异系数均小于 0. 25,其中小于 0. 2 的占 68% ,加权算数平均值大于 4 的有 95% ,说明元素重要程度较高。而元数据“实验样本来源”、“试剂名称”、“病原名称”、“病原来源”变异系数均为 0. 24,专家意见协调度一般,经过专家回访,专家表示在部分样本来源具有特殊性或样本本身较为罕见的实验中,实验样本来源较为重要,同理病原来源,因此本研究对以上指标均予以保留。科学实验数据访问现状调查表明基因表达实验产生数据的格式以 Excel、Word和图片文件为主,Txt 和 Pcrd 文件较少,因此在数据格式描述中,添加“Word 文件”,将 Txt 归为其他格式,可在注释中添加备
28、注。专家成员在实验数据存储位置中提出部分数据备份于 U 盘等移动设备中,因此添加“移动设备”描述元素为三级元数据; 在数据共享方式中,84% 的专家支持邮件联系方式,26% 表示涉密数据不可公开,5% 则表示需要付费,体现在元数据模型中分别为“邮件索取”、“涉密不公开”和“付费获取”。4.5 元数据模型确立通过德尔菲专家调查法对植物学基因表达实验元数据模型领域专业性较强的信息进行修正和调整,最终确立了植物学基因表达实验元数据模型( 见表 9) , 该元数据模型基于实验数据生命周期,涵盖基因表达实验的完整实验过程和实验数据处理、保存等信息,便于本地实验数据的保存、组织和检索,实验管理信息和科研成
29、果模块则能支持科学实验数据公开获取以及科研成果的追溯,数据访问元数据明确实验数据的格式、 访问权限和获取方式,减小了实验数据共享、获取的信息屏障。表 9 植物学基因表达实验元数据模型 下载原表 5 结语科学数据的生成者、使用者均为科研人员,因此科学数据组织必须基于用户需求,遵循科研人员共通的科学数据组织习惯17,减小甚至消除科学数据使用者二次使用时的语义、技术障碍。鉴于对领域知识的熟悉程度,有领域专家参与构建的元数据描述方案更加科学、专业,符合领域现实需求18,因此如何正确获取科研人员对科学数据组织的功能需求、提取学科专家科学数据组织知识,是领域科学数据组织首先要考虑的重点。在研究过程中,笔者
30、以植物学基因表达实验为例,首先基于用户访谈和现有元数据集复用的方法完成元数据模型的初步构建,其次引入德尔菲法对其进行修正、规范,目的是确保元数据模型能够专业、完整、科学地完成对植物学基因表达实验的描述,符合用户的现实需求且能够与现有元数据集具有一致性、通用性,降低甚至消除互操作的语义、结构障碍。基于本文构建的元数据模型可以有效组织、保存完整的植物学基因表达实验信息,对实验基础信息的记录便于科学实验的复现、实验结论的验证以及实验方法的追溯,且有利于不同科研机构、不同实验物种实验数据的交流、检索与重用。在后续研究中,重点关注的问题将主要有以下两个:( 1) 基于元数据集的领域本体构建。元数据模型只
31、定义了一种资源描述方案,因此需要在资源元数据描述的基础上构建某种机制,实现不同类型、格式间元数据的语义化描述和语义化互操作19。基于本文构建的植物学基因表达实验元数据模型,对 FOAF、DCMI、BIBO、EXPO 等已有本体的概念和属性进行整合、 复用,挖掘元数据间的实体与属性间的关系、类与类的映射,构建植物学基因表达实验本体,实现领域科学数据的组织,并基于该本体实现对元数据集的语义化转换转换成统一的具有相同语义的 RDF 或 OWL 语言格式,通过映射关系,实现不同元数据集之间的语义互操作,如 CSMD: hasinvestigator 用来描述实验管理信息与实验操作人员之间的从属关系。( 2) 面向关联数据的语义关系挖掘。随着语义网研究的逐渐深入,关联数据技术成为 Web 环境下分布式数据链接的最佳实践方法20,它可以通过可视化方式显示科学数据集之间的关系网络,增强科学数据在 web 环境中的被发现能力。基于植物学基因表达实验本体的属性定义,完成对实验数据集的 RDF 描述,并包含对应的唯一 URI,最终以关联数据集形式发布,实现科学数据集的语义访问,如根据一个实验数据集标注的相关元数据实现对 Gen Bank、期刊论文、作者及相关机构等数据对数据、数据对科研产物、数据对人、组织等的相关语义链接。