1、高校图书馆数据监护的流程管理研究 宋秀芬 邓仲华 金勇 武汉大学信息管理学院 湖北工业大学管理学院 摘 要: 基于数据生命周期的高校图书馆数据监护的流程规范了数据管理具体活动。在配备数据监护服务基础设施和制度后,高校图书馆还面临着各类问题,如数据共享、协同化、元数据与模型、可控词表与分类和领域本体等。据此,文章将基于数据生命周期的数据监护流程划分为 7 个阶段:收集、评价、组织、处理、描述、访问、再利用数据。同时,流程管理的实施仍需解决文件格式、文档质量、元数据及数据治理的挑战。关键词: 高校图书馆; 数据监护; 数据生命周期; 基金:国家自然科学基金资助项目“大数据环境下面向科学研究第四范式
2、的信息资源云研究”(项目编号:71373191)的研究成果之一A Research on Workflow Management of University Library Data CurationSong Xiufen Deng Zhonghua Jin Yong Abstract: The paper strives to standardize data management specific activities by university library data curation workflow based on data lifecycle.Being facilitated
3、 with basic conditions for developing the data curation service,university library still has the problems of data sharing,coevolution, metadata and schemas,controlled vocabularies and taxonomies,domain-specific ontology,etc.Therefore,the paper brings forward data curation workflow based on data life
4、cycle,dividing into seven stages as follows:receive,evaluate,organize,process,describe,access and reuse.Nevertheless,remaining barriers of workflow management exist as preservationfriendly file formats,documentation quality,metadata limitations and data governance concerns.Keyword: university librar
5、y data curation data lifecycle; 1 引言数据密集型科学环境下科研人员的数据需求改变了科研方式,数据更新、保存与共享影响其再利用价值。数据监护是为解决数据丢失问题而产生的,数据监护的出现为图书馆特别是高校图书馆提供了一个转型方向,高校图书馆的职能不再局限于文献保障和信息服务,而应肩负起数据监护这一新使命,即保障数据再发现与再利用的持续性来实现数据增值1。高校图书馆在数据监护中处于不可替代的地位并发挥着重要作用。一方面,科研人员需要高校图书馆提供数据监护的咨询与指导2。数据监护的出现改变了科研人员创造、交流与共享研究成果的方式。由于数据监护的复杂性和专业性,科研人员
6、单方面无法完成数据监护任务,高校图书馆作为专业的资源组织、管理、共享和长期保存机构应带头提供数据交流与共享平台、技术支持、政策法规与专业知识指导等。如:斯坦福大学、普渡大学、康奈尔大学等图书馆已构建了长期数据保存与发布平台来满足学术界的数据需求。因此,高校图书馆有责任与科研人员共同完成数据创造、整理、描述、管理、归档和访问等工作。另一方面,高校图书馆具备发展数据监护的条件。高校图书馆具备带头发展数据监护的理论方法、服务平台、保障制度等条件,为数据监护发展奠定了坚实基础。另外,高校图书馆作为长期保存智力成果的机构有责任与义务收集、保存和传播科学数据。如果社会选择并创建新的数据监护机构,这将导致文
7、献和相关数据分离,其结果限制了社会智力成果的增值3。因此,从数据需求、发展优势与服务范围来看,高校图书馆是实施数据监护的最佳机构。2 高校图书馆发展数据监护的条件与难点2.1 数据监护的条件为了有效管理科学数据,避免数据丢失,大数据时代高校图书馆已具备了发展数据监护的基础条件:图书馆利用现有基础条件实施数据监护并保障长期数据服务;图书馆的组织制度保障了长期数据服务。2.1.1 发展数据监护的优势专业人才、基础设施与资历等优势决定了高校图书馆具有带头发展数据监护的能力。在人才方面,跨学科数据的复杂性与多样性要求专业人员介入到数据监护服务中,具有丰富的信息组织经验与专业理论知识的图书馆员协助科研人
8、员组织与描述数据,图书馆员与科研人员的密切合作将构建最佳数据监护实践,以满足科研人员的个性化需求,专业人才方面体现了高校图书馆员胜任数据监护工作;在基础设施方面,高校图书馆将数据监护服务融入到传统信息服务中,数字图书馆建设中服务器、存储设备与通信设备等基础设施用来构建数据监护服务平台,可提高图书馆资源利用率,经济方面保障了高校图书馆实施数据监护的可行性;在信息服务资历方面,图书馆作为传统而专业的资源组织、管理与共享机构积累了许多有效的理论方法,利用专业信息组织知识进行数据处理,协调跨学科科研人员的工作,提供持续数据访问服务,并将数据知识嵌入到社会实践中,在信息服务经验方面体现了高校图书馆具备数
9、据监护的实践基础45。2.1.2 保障长期数据服务的制度高校图书馆的组织制度保障了可持续的数据监护服务。数据监护要求持续的人力、资金、技术等投入来保障数据、基础设施、软件等持续管理与更新,以实现数据的长期有效性与可用性。高校图书馆作为管理智力成果的专业组织有义务提供长期数据监护服务,可持续的数据监护服务依赖于组织制度保障。高校图书馆利用传统信息服务经验与制度规范将数据监护嵌入到传统信息服务中,没有任何机构比图书馆更适合长期保存科学数据。组织制度是高校图书馆稳定性与可信性的基石,可保障长期运作的数据发布与共享平台,制度方面保障了数据服务的稳定与可信。2.2 数据监护的难点高校图书馆数据监护既存在
10、发展机会也面临着挑战,数据监护发展过程中亟待解决以下难点:2.2.1 数据共享数据监护的假设条件是用户随时随地获取共享数据,发挥数据再利用价值。科研人员遵守分享科研成果的共同承诺,但数据作者的共享意愿与研究人员的需求期望之间存在差距,因此,数据发布协议中应包括保护数据作者的知识产权相关条款,如:抵制跨领域用户利用描述不当数据,其目的是防止数据滥用。因此,解决数据共享潜在风险的策略是政策法规、共享共建机制与数据监护技术等共同作用6。2.2.2 系统协同系统协同是数据监护系统中人力、技术、制度与标记语言等协调发展7。以上要素制约着数据监护服务质量,并且监护系统组成部分之间也相互影响,如:技术开发依
11、赖于数据监护系统中人力、经济结构、制度等因素的影响与制约。持续、健康与深层次的数据服务需要高校图书馆、研究机构与数据管理机构的协同工作,才能实现数据服务内容宽广、效果凸显与机制灵活的目标。因此,数据监护系统的组成部分需协调发展,共同提高数据监护服务的质量。2.2.3 元数据与模型元数据与模型是保障跨学科与跨领域数据有效性的基础,可实现跨学科与跨领域的数据检索与挖掘目标。元数据标准在实践应用中存在一些问题,一方面元数据隐性编码阻碍了跨领域数据共享;另一方面数据的复杂性限制了信息数量和类型描述,如:数据中未包括相关其他研究人员的背景信息。另外,由于元数据模型表示数据关系只是彰显了原始数据中的部分内
12、容,未能保障数据的完整性与可用性,影响数据再利用价值,因此,元数据标准与元数据模型需要在数据监护实践中得到检验与发展。2.2.4 可控词表与分类构建跨领域可控词表与分类是为了规范地描述跨领域概念和术语范围,展现概念或术语的相关关系。可控词表与分类的作用是消除概念与术语的歧义以及展现相关关系,其目的是便于不同背景的科研人员准确理解跨领域相同或相近概念的差别性,交流与利用高质量或无歧义概念或术语8。由于数据监护的复杂性,可控词表的权威性与分类标准需要在实践应用中进行评估和鉴定。因此,构建可控词表与分类的工作具有重要价值。2.2.5 领域本体领域本体在知识组织中起到枢纽和桥梁作用,在语义网络环境下构
13、建领域本体的数据关联可实现跨领域数据链接、整合与互操作9。数据及背景信息以概念或实体作为基本元素映射的本体消除了概念歧义来实现跨领域研究成果的共享。构建领域本体的现实难题是处理异构大数据与文件格式,大量科学研究团体致力于解决开放环境下跨领域数据的互操作与知识关联,如:概念网络联盟 (Concept Web Alliance)提出纳米出版物模式用于解决大数据的语义知识关联。因此,领域本体实现了跨领域数据的交流与共享。3 高校图书馆数据监护流程管理的思路与阶段3.1 流程管理的思路数据监护难点体现了数据服务的复杂性与专业性,高校图书馆需建立一套流程来规范数据管理的具体活动,规范化流程便于高校图书馆
14、实施数据监护的有序化与标准化,保障数据的完整性与有效性,有助于数据监护人员与科研人员明确工作任务,提高管理效率,减少数据丢失。高校图书馆数据监护的流程管理思路是依据数据生命周期理论,数据生命周期的实质是在科研过程中管理数据,包括数据产生、加工、发布、再 利用的循 环过程,其核心阶 段包括:数据产生、 收集、处理、 发布与利用10。由于数据生命周期每个阶段的数据格式、载体、结构等都不同,需针对各阶段制定具体数据管理的行为与策略,建立各个阶段数据的状态、操作、环境等信息的完整文档记录11,因此,结合高校科学数据特点与数据生命周期理论,笔者将基于数据生命周期的高校图书馆数据监护流程划分为 7 个阶段
15、:收集、评价、组织、处理、描述、访问、再利用数据。3.2 流程管理的阶段依据数据生命周期理论与数据监护的特征,高校图书馆数据监护流程的 7 个阶段为:收集、评价、组织、处理、描述、访问、再利用数据 (见图 1)。图 1 高校图书馆数据监护的流程管理 下载原图3.2.1 收集数据收集数据的工作包括:接收数据、初步检查与接收附加信息。图书馆接收数据时,数据作者检查数据中是否包含必要组成部分,并根据文件大小选择适当传输方式 (电子邮件或云盘);初步检查时,检查文件类型是否有利于图书馆存储,核实数据是否包括私有或受限数据,数据存储协议是否签名,数据作者是否具有存储数据的权限,数据再利用价值是否与数据服
16、务期望相匹配;接收附加信息时,确认或索要存储协议,收集数据的元数据,创建提交信息包,检查提交信息包的规范性。3.2.2 评价数据评价数据的工作包括:备份文件、存储提交信息包、评价与检验文件。备份文件时,非联网环境下创建隔离文件的工作副本,创建副本的备份,检测病毒以保障文件安全;存储提交信息包时,检查数据集的完整性及增值能力,创建提交文件列表 (删除重复或无效文件),识别数据文件大小、类型、文件组织 (文件结构、文件名、创建日期等);评价与检验文件时,评估数据文件的完整性和再利用能力,收集所有已知文件相关信息 (如:研究方法),辨别数据可用性以控制文件质量,识别隐藏文件夹中的文件格式,核查数据作
17、者提交的所有元数据及技术元数据 (音频/视频编解码器)。3.2.3 组织数据组织数据的工作包括:选择与索要附加信息、整理与组织文件。选择或索要附加信息时,图书馆机构库是数据存储的目的地,核查提交信息包中包含再利用文件的专业软件,要求创建者提供更多的文件 (如:背景与语境信息),移除不必要的文件;整理与组织文件时,判别需处理的共享文件,识别文件之间的关系与命名结构,创建与描述文件结构,设置文件显示顺序以便访问。3.2.4 处理数据处理数据的工作包括:选择文件格式、转换文件格式、清理数据、生成保存元数据。选择文件格式时,识别当前文件格式的利与弊,选择有利于保存的文件格式 (如:创建音频+视频文件的
18、工具便于快速上传/下载),保存文件原始格式和标准格式 (工程数据集的 .GIS 和 .PDF 版本),保存专用和通用格式的文件,如:数据透视表、计算公式、颜色编码等,Excel 文件的图表和公式不能转换成 .CSV 格式;转换文件格式时,遵循标准与可访问性保存多格式文件版本,如:为 .DOCX 或 .EAF 文件创建 .XML 版本;创建 .DOCX 的 .PDF 版本;通用格式的文件版本,访问视频字幕的格式。清理数据时,创建与更改文件的数据标签与名称,清除无效数据。生成保存元数据时,创建每个文件校验,保存完整的元数据,并保存离线的原始数据集 (存储与访问副本)。3.2.5 描述数据描述数据的
19、工作包括:创建附加文档和元数据、创建机构库元数据、描述数据背景。创建附加文档和元数据时,检查数据集的元数据,规范多学科元数据架构和领域词汇,利用信息系统 (XML) 从数据集中分离元数据文件,创建数据使用说明 (自述文件),利用工具 识别元数 据的元素,如:DataUp 识别 .XLS 文件元数 据元素;创建机构库元数据时,利用元数据标准 (如:柏林核心) 创建所有文件的元数据,描述每个文件,定义文件之间的关系,设置终端显示顺序;描述数据背景时,创建文献与数据的链接,描述数据集层次结构与数据粒度的级别,标识与申请数据作者 (如:ORCID 标准)、电子表格 (如:PURLs 标准)、数据集 (
20、如:DOI 标准)等标识符。3.2.6 访问数据访问数据的工作包括:上传数据到机构库系统,提高数据的检索能力,跟踪数据的影响力,建立长期访问机制。上传数据到机构库系统时,将数据集存储到机构库系统 (如:UDC),并检查终端显示顺序;提高检索能力时,添加数据作者联系方式 (如:电子邮件链接),提高全文索引数据 (如:关键字、元数据)在搜索引擎 (谷歌、百度、必应等)中的检索能力,建立数据、发表刊物与相关数据集的链接;跟踪数据的影响力时,跟踪数据分析、下载、引用等情况,建立数据、出版物与再利用例子之间的链接,跟踪用户反馈与使用情况来控制数据质量;建立长期访问机制和建立长期保存计划时,保障数据格式
21、(视频数据、空间数据、图像数据、空间数据等)的有效访问,跟踪数据集和历史版本关联,必要时进行数据转换与迁移。3.2.7 再利用数据再利用数据的工作包括:持续告知数据作者有关数据的跟踪指标,如访问量、下载量、被引数;并建立原始数据与再利用数据的实例链接 (网站、文献、新文件格式等)。4 流程管理的实施障碍由于数据监护在人力、资金、技术与政策法规等方面存在一定的局限性,数据监护流程管理在实践应用中也存在一些实施障碍,包括转换文件格式的软件多样性、文档质量和元数据局限性,及数据治理问题。4.1 转换文件格式软件的多样性转换文件格式软件对数据监护至关重要,不同领域数据集要求不同研究环境下工具转换文件格
22、式,利用专业软件转换文件格式有利于数据长期保存与访问,因此,数据监护软件的多样性要求数据监护人员掌握多学科数据处理软件12。由于领域工具昂贵、获取困难、专业技能操作等原因,研究人员与图书馆员需协同工作,利用专业工具打开和使用文件,才能保障数据的有效性与完整性,例如:(1)利用 SPSS 软件打开自然资源数据集的 .SAS 文件,补充数据需利用开源统计工具 R 导出数据字典并创建通用格式的数据文件,或者利用自编非专用格式的统计工具导出数据。(2)利用 ArcGIS 软件打开和操作工程数据集的 .GIS 文件,利用专业技能设计领域的专业软件呈现工程图并识别丢失元数据 (如:工程图上的数字代码)。(
23、3)利用 ELAN 软件处理多媒体数据集,用于创建视频和音频资源复杂注解的开放源代码工具。项目资助 ELAN 软件尚未在领域外被广泛知晓,软件的使用期限与影响力有待在实践中评估,因此,同时在保存 ELAN 与 XML 文件格式的基础版本方面保障数据长期访问的有效性13。数据监护学科软件多样性要求研究人员与图书馆员协同完 成数据监 护任务, 研究人员 应掌握专 业领域软件完成基础数据监护工作,图书馆员 则应精通 常用工具, 如: 统计工具 (SPSS、R) 和地理信 息系统软 件(ArcGIS) 等。4.2 文档质量与元数据的局限性文档质量与元数据的局限性影响数据再利用,由于学科数据管理方法不同
24、,数据质量和级别也存在差异,缺乏信息 (如:元数据、文档等)的数据将导致用户无法访问与再利用原始数据14,例如:(1)都柏林核心元数据标准限制了部分数据描述,元数据存在缺陷,缺乏背景与语境信息 (如:研究方法、数据收集工具,详细规程、数据管理技术、相关政策、数据字典)的数据影响可用性。(2)文档中应包括多种格式文件以保障数据的完整性,如:.GIS 格式数据的 .PDF文件有利于用户从地理空间进行定位和视觉上识别;补充文档中的自述文件 (readme.txt)需说明再利用数据集的文件格式、使用与转换文件格式工具等。因此,在实施数据监护过程中,图书馆开发各种元数据与文档模型来帮助研究人员创建高质量
25、文档,详细且具体的模型有助于增强数据可用性与完整性。4.3 数据治理问题数据治理问题包括数据有效性与知识产权问题,如:私有数据、数据使用权限以及数据版权问题。数据治理问题需关注以下几个方面:(1)数据发布协议条款。图书馆与研究人员在数据发布之前需签订同意数据发布协议,协议至少包括以下条款:数字作品中不允许含有私有数据。数字作品的作者向图书馆提交一份关于数字作品中未包含私有数据相关条款的协议,同时,图书馆在数据监护工作流程中检查并核实文档中未含私有数据。无意接受私有数据需权衡风险1516。限制数据访问与传播权限。在数据监护前,科研人员向图书馆咨询数据访问及再利用权限等问题;在发布数据前,科研人员
26、与数据作者签订允许数据发布的授权协议,该协议包括数据传播与访问权限,避免侵犯数据作者的数据版权;图书馆验收表中数据存储协议应包括数据访问与传播级别问题。例如:哈佛大学的基于Web 数据机构库 DataVerse 存储所有学科数据,该机构库使用条款之一:用户不得以任何方式利用从机构库下载的数据重新确立研究主题,该条款说明了技术标准的局限性影响数据使用范围。(2)处理数据相关利益主体的关系。公共机构 (美国国家科学基金会、美国国立卫生研究院)资助项目要求公开发布研究数据,但政府机构需重视相关利益主体:数据作者、科研人员、科研管理部门、图书馆、IT 部门等。数据共享需求和利益相关者期望之间存在差距,
27、图书馆存在不能或不愿意发布部分数据的局限性,包括私有或受限制信息;数据作者有兴趣参与数据监护,但并不一定愿意公开发布私有数据;科学人员担心滥用共享数据,侵犯知识产权。例如,人文社科的科研人员广泛关注数据访问和使用问题,数据共享许可协议鼓励科学数据再利用,但不允许以商业利益为目的来获取数据1718。因此,政府机构需构建数据共享规范,保护各方主体的利益,保障数据监护的持续健康发展。(3)数据的知识产权问题。数据监护涉及到数据资产及其相关产品的知识产权问题。例如,自然资源数据集部分数据 (视频、调查工具、仪器、软件等)的作者匿名化,科研人员得到数据作者的许可,使用数据和数据相关测量工具与商业化产品,
28、在这种情况下,调查工具包含在公开发布的数据中,因此,数据集中部分匿名化数据(调查工具)不受法律的版权保护,数据通过互联网自由利用,其价值受到影响。数据作者匿名化的部分工程图的知识产权问题。在国家公共机构推广数据共享的原则下与图书馆员满足数据灵活性使用的要求情况下,知识产权保护国家机关授权而不是数据作者授权共享工程数据集的扫描图,科研人员在数据机构库中公开发布匿名化工程图存在潜在侵权风险。因此,即使在低风险的情况下,数据监护人员也需重视数据的知识产权问题19。合作形式的研究生毕业论文的数据知识产权问题。图书馆需建立数据与论文链接服务,研究生毕业论文与相关数据应存储到机构库中。通常情况下,学生签订
29、数据发布协议时未征询另外数据作者 (指导教师)的同意,因此,部分数据被禁止传播,论文与数据之间未建立链接。5 结语科研人员的数据需求与组织使命决定了高校图书馆带头发展数据监护服务;基于数据生命周期的高校图书馆数据监护流程分为 7 个阶段:收集、评价、组织、处理、描述、访问、再利用数据。数据监护流程管理有利于解决的问题有:数据共享、协同、元数据与建模、可控词表与分类、领域本体等;数据监护流程管理的目的是规范具体的数据管理行为与策略,保障数据的完整性与可用性。流程管理也存在一些实施障碍,如文件格式、文档质量、元数据与数据治理等。文章提出了数据监护的流程管理理念,为国内高校图书馆数据监护的实践提供参
30、考与指南。私有数据的知识产权的研究具有重要价值,在接下来研究工作中,笔者将深入地研究图书馆与科研人员应如何处理数据治理中的私有数据问题。注释()1Witt M.Institutional Repositories and Research Data Curation in a Distributed EnvironmentJ.Library Trends,2008(2):191-201. ()2Heidorn P B.The Emerging Role of Libraries in Data Curation and E-ScienceJ.Journal of Library Adminis
31、tration,2011(7-8):662-672. ()3Choudhury G S.Case Study in Data Curation at Johns Hopkins UniversityJ.Library Trends,2008(2):211-220. ()4Lage K,Losoff B,Maness J.Receptivity to Library Involvement in Scientific Data Curation:A Case Study at the University of Colorado BoulderJ.Portal:Libraries and the
32、 Academy,2011(4):915-937. ()5Gold A K.Cyberinfrastructure,Data,and Libraries,Part 2:Libraries and the Data Challenge:Roles and Actions for LibrariesJ.Office of the Dean(Library),2007:17-29. ()6杨鹤林.数据监护:美国高校图书馆的新探索J.大学图书馆学报,2011(2):18-21. ()7杨鹤林.从数据监护看美国高校图书馆的机构库建设新思路来自DataStar 的启示J.大学图书馆学报,2012(2):2
33、3-28. ()8钟声.大数据驱动的高校图书馆数据监护探究J.情报资料工作,2014,35(3):103-106. ()9邓仲华,宋秀芬.信息资源云的数据监护研究J.图书馆学研究,2014(17):45-52. ()10Gold A.Data Curation and Libraries:Short-term Developments,Long-term ProspectsJ.Office of the Dean(Library),2010:27-38. ()11Helin Y.Data Curation:A New Development of University Libraries in
34、 the USJ.Journal of Academic Libraries,2011(2):4-20. ()12Fei L X W.The Implementation Status of Foreign Data Curation and Implications for the Domestic University LibrariesJ.Library,2012(5):25-50. ()13Lan Y.The Setting Up and Requirements of Data Curation Positions in Libraries at AbroadJ.Journal of
35、 Academic Libraries,2013,5:2-23. ()14Johnston L R.A Workflow Model for Curating Research Data in the University of Minnesota Libraries:Report from the 2013 Data Curation PilotJ.2014:2-45. ()15Bahls D,Zapilko B,Tochtermann K.A Data Restore Model for Reproducibility in Computational StatisticsC.Procee
36、dings of the 13th International Conference on Knowledge Management and Knowledge Technologies.ACM,2013:13-35. ()16Hedges M,Blanke T.Digital Libraries for Experimental Data:Capturing Process through Sheer CurationM.Research and Advanced Technology for Digital Libraries,2013:108-119. ()17Karasti H,Bak
37、er K S,Halkola E.Enriching the Notion of Data Curation in E-Science:Data Managing and Information Infrastructuring in the Long Term Ecological Research(LTER)NetworkJ.Computer Supported Cooperative Work(CSCW),2006(4):321-358. ()18Orchard S,Kerrien S,Abbani S,et al.Protein Interaction Data Curation:the International Molecular Exchange(IMEx)ConsortiumJ.Nature Methods,2012(4):345-350. ()19Walters T O.Data Curation Program Development in US Universities:The Georgia Institute of Technology ExampleJ.International Journal of Digital Curation,2009(3):83-92.