1、国外数据管理研究最新发展及启示陈清文嘉兴学院(嘉兴 314001)摘要近年来,数据管理日益成为国外图书情报领域研究的热点问题,该文介绍了国外对于数据管理研究的最新发展,提出了改进我国数据管理研究现状的建议,并对未来研究需要关注的重点问题进行了探讨。关键词 数据管理;科学数据;数字数据 数据保存the new development and Inspiration of data curation research abroadchenqingwenjiaxing university(jiaxing 314001)abstract In recent years, data managemen
2、t is becoming more and more foreign library and information science research hot topic, this article introduced the latest development of data management abroad, and put forward to improve our data management research proposals, and the future need to focus on the key issues are pointed out.keywords
3、 Data management; scientific data; digital data ;data Preservation近年来,随着以计算机为代表的现代信息技术的迅猛发展,改变了人们工作学习的方式,特别是数字文献的日益增多,带给人们如何长期有效管理数字信息的问题。为此,国外高校图书馆在原有数字信息长期保存研究的基础上开始了数据管理的深层次研究,数据管理日益成为国外图书情报界研究的热点问题。数据管理作为图书情报研究的新领域,对于图书馆与科研人员长期合作,提高学科化服务水平具有重要意义。它对于提高图书馆员社会地位,开拓图书馆新的服务领域,提高图书馆文献信息服务水平,都具有重要的价值。特
4、别是数据管理对于改变高校图书馆单纯研究数字资源保存的缺陷,忽视数字资源管理与开发具有重要价值。以往图书馆对科研过程中产生的大量数据没有给以足够重视,没有充分发挥图书馆在信息整序方面的职业优势,限制了图书馆学科化服务的进一步提升。因此,加强对数据管理相关问题的研究,关注国外数据管理研究的进展,借鉴国外研究成果及取得的经验,对于推动我国数据管理研究的发展很有必要。1.国外数据管理研究概述1.1 数据管理的兴起背景。近年来,国外高校图书馆在多年快速发展之后面临技术发展、资金紧缩、学习行为改变、学术与图书馆文献保障角色模糊不清、以及图书馆员技能单一,不适合现代信息社会发展要求等方面的问题与挑战。特别是
5、以谷歌为代表的网络技术公司的发展对传统图书馆带来了极大地生存挑战,但同时,我们也应该看到计算机技术的发展也为图书馆开展新型文献信息服务提供了发展机遇。例如在数字信息长期保存领域,图书馆开始探索数据长期管理的技术与方法,以便使人类共有的数字化遗产可以为子孙后代长期共享。国外在数据管理领域中对积极管理和评价学术和科学数据在整个生命周期中的价值,探讨数据管理的技术与方法,正成为数据管理领域的新的发展趋势,对如何更好地开展数据管理的策略与方法进行探索。由此,诞生了一个图书情报管理的新领域-数字数据管理(简称数据管理) 。1.2 数据管理的出现。数据管理(data curation)是一个在信息领域新兴
6、的职业,最早出现在美国国家科学基金会(National Science Foundation,以下简称 NSF)2003 年发表的由 9 位科学家提出的研究报告通过信息基础设施促进科学和工程的革命(Revolutionizing Science and Engineering through Cyberinfrastructure)中。该报告是由现任美国国家科学基金会信息基础设施阿特金斯首次提出的,也被称作阿特金斯报告。这个报告的内容集中在大量的科学与工程数据方面,其中特别提到数据管理的问题。它认为目前多学科的数字化研究数据大量涌现,但没有系统的存档和保存研究数据的结果,一旦出现信息丢失的问题
7、,损失将是巨大的。并进一步指出,精心管理的数字数据仓库对科学和工程技术研究来说越来越重要,今后应该建立长期、可持续的科学研究数据知识库,以方便研究数据的长期保存与共享。做好这些工作需要具有专业技能的人员,图书情报专业人员较适合。因为他们受过良好信息管理专业教育和掌握信息处理相关技术。11.3 数据管理的研究项目。成立于 1919 年的美国学术团体协会(American Council of Learned Societies,ACLS)在其发展研究报告中也对数据管理问题进行了相关论述。ACLS 是一家非营利机构,在国际学术联盟(Union Acadmique Internationale,UA
8、I)中代表美国鼓励与支持通过协作研究与出版来促进研究的学术合作。ACLS 目前拥有 68 个学术团体会员。在 2006 年的报告中指出,越来越多的学者依赖于数字数据,对数字数据的长期保存日益重要,大学和大学联盟应该制定新的政策或建立数字数据保存中心以支持人文和社会科学数字数据的长期保存,并负责相关人员的培训,以提高数据管理人员的专业技能。美国国家科学基金会(National Science Foundation,以下简称NSF)(2007)发表的信息基础设施委员会21世纪报告中再次强调数字数据的管理问题的重要性,并调研了the international Consultative Commit
9、tee for SpaceData Standards (CCSDS)和研究图书馆联盟 (RLG),指出应加强数据管理职业的规划与技术开发,以便保证数字管理的长期可持续发展。1.4.数据管理研究的国际会议及专业教育。近年来有关数据管理的国际会议不断增多,也扩大了对数据管理研究的范围与领域。如:在2006年数字图书馆联盟会议(JCDL)主办的一个数据管理与机构库的研讨会;以及美国北卡罗来纳大学图书馆与信息科学院主办的数据管理的学术会议,这两个会议引起了信息工作者对数据管理问题的极大关注,并对数据管理的专题进行了交流与探讨。还有就是由英国数字管理委员会发起的第三次会议,名称为管理我们的科学数字遗产
10、- 全球面临的合作与挑战,该会议受到多个国家专业组织的重视,对数据管理定义、模式、技术、法律以及开展国际合作等问题进行了交流与探讨。另外,除了召开的会议不断增多,数据管理专业教育也不断发展,如北卡罗来纳州大学、伊利诺伊大学、密歇根大学均建立了一个新的保存信息专业。22.数据管理的研究内容2.1数据管理的定义数据管理(data Curation)一词源于博物馆学,意为“策展”,表示对藏品持续养护并推出有主题的展览,最终提高馆藏面世率,促进科研和教育。杨鹤林,. 数据监护:美国高校图书馆的新探索J. 大学图书馆学报,2011,(2).当前有关数据管理的定义还没有统一的表述,有一些重点文献的定义值得
11、关注,例如在英国数字管理中心(DCC)网站指出, “数据管理是保持和增加价值到数字信息的可信主体,为现在和未来使用,特别是在数字数据的整个生命周期中,对科学和学术材料的有效管理和评价” 。3在维基百科全书中写到:“数据管理包括对所有需要长期保持数字化可读性的数字对象的管理,使数字对象在整个生命周期中或未来时间对用户长期可用的行为;或者在数字存档和数字保存中,对需要保持数据良好的数据生成和管理的所有过程” 。4在美国加利福尼亚数字图书馆(CDL)词汇表中定义数据管理是对数字文献进行管理、监督,以提供可以长期访问的行为。英国联合信息系统委员会(JISC)在2004年的相关报告中专门就图书馆中的da
12、ta curation及相关概念作了解释,还对数据管理的相关概念问题进行了比较。具体如下:(1)数据管理。指出数据管理(data curation)是在管理和创作过程中对数字数据的使用,保证它适合于当前的使用目的,并可供将来的发现和再利用。对动态数据包括连续的丰富内容和不断更新,保持其适合所需目的使用。(2)数据存档。是一种数字数据的管理活动,保证数据保存时的正确选择,可供将来访问以及保持它的逻辑和物理的完整性。随着时间的推移被长期维护,保持数字数据的安全和真实性。(3)数据保存。对数字数据通过较好的管理来保持其在今后相当长的一段时间里可以被访问、理解和使用,并保持过时的旧技术在新环境下的可用
13、性。从以上定义可以看出,数据管理的定义都强调积极的干预和保持未来的可用性,而数据管理的重点是强调数字数据的可持续性、再生性和可靠性以及值得信赖的数据资源内容。5 综上所述,笔者认为:数据管理是保存数字数据长期可用的一项持续的任务,要通过专业数据管理人员的日常维护使数字数据得以长期使用,并通过相关内容的开发为科学研究提供丰富的科研数据,实现价值增值。2.2.为什么数据需要管理(1)数字研究数据迅猛增长。近年来,随着计算机技术、网络技术的飞速发展,采用计算机网络开展科学研究的学者越来越普遍,由此产生大量数字科学数据需要存储于管理。(2)灰色数字科研数据不断增多。在众多科学研究数据中,除掉一些公开发
14、表的数字信息数据,还有许多大学、科研机构内部产生的大量数字数据需要管理。(3)数字数据类型多样。从数字数据的存储类型来看,多媒体数字文献日益增多,数字数据类型复杂多样,给数字数据的长期保存带来困难。以上因素都表明对于数字数据的长期保存,需要一个专业的机构才可以完成,以便使数字数据得到有效的管理和长期应用。2.3 谁来进行数据管理-图书馆员是数据管理的最佳人选对于管理数字数据的人员选择,在 IT 人员与图书馆员之间开始了激烈的角色选择的斗争。一般来说,IT 人员重视信息安全管理方面;而图书馆员重点关注数字信息的长期使用和信息安全,包括对长期保存的数字数据进行分析,建立数字数据长期保存标准等。在传
15、统印刷文献的长期保存中,图书馆员形成了独特的管理模式与方法,如文献的编目、索引等,他们对数字数据管理也同样具有经验和能力,因此,许多用户都认为图书馆员是数字数据管理的最佳人选。2.4 国外数据管理的实践案例(1)英国数字数据管理中心。英国数字数据管理中心(The Digital Curation Centre (DCC) http:/www.dcc.ac.uk/)是世界领先的专业数据管理中心,在英国高等教育中,对研究数据的管理方面它拥有较高的数据管理能力。可以对任何一个英国高校或研究机构想要存储、管理、保护和共享的研究数据给出专业化的建议。DCC 的建立是源于英国联合信息系统委员会JISC(J
16、oint Information Systems Committee)在数字信息长期保存策略的论文中提到建立一个国家数字信息保存中心来应对和解决单一机构或学科在数字数据管理方面面临的挑战的想法而建立的。DCC 开始于 2004 年 3 月,到 2007 年 2 月为第一阶段,这一阶段的目标是建立数字数据管理的组织机构,其中工作组人员包括数据专家,记录管理,图书馆,档案馆,研究人员(如数据的创造者)和决策者。DDC 中心也要求参与公共和商业部门的项目活动,制定工作标准和确定数字数据保存所采用的工具。然后建立 DDC 网站论坛提供对重要数字信息管理的交流平台。2007 年 3 月-2010 年 4
17、 月为第二阶段。在这个阶段中,重点是直接参与研究社区数字信息保存的活动,创建电子科学数字数据管理资助基金和启动一些个案研究。第三阶段(2010 年 5 月 - 2013 年 2 月)进一步开始加强对数字数据保存项目的结构性改变,从开发管理工具到数字数据能力建设重点都进行了改革,进一步提高了对英国高等教育研究社区的数字数据保存于管理能力。特别是在 2011 年由英国高等教育资助委员会(HEFCE)批准,作为其大学现代化倡议,开始对 21 个大学的数字数据管理实践项目。通过对以上大学数字研究数据的管理实践,训练了专业人员积累了数字数据管理的经验,建立了数字数据管理的基础设施,确立了进一步发展的策略
18、。6(2)数据管理的生命周期模式。DDC 通过对数字数据管理的实践,提出了数字数据管理的生命周期模式,指出数据管理是对整个生命周期中的数字数据进行维护、保存和增值的服务方式. 对研究数据进行积极主动的管理,以便减少其对长期研究价值的威胁和数据过时老化的风险。同时对大量研究数据进行有效的管理,可以减少重复劳动,加强信息共享,最终提高数据保存的质量。从表 1 可以看到 DDC 数据管理生命周期模式的内容。其中在数据管理生命周期中可以对任何二进制的数字形式进行有效管理,如数字对象、数据库等。其中数据库包括结构性记录或数据存储在计算机系统上,数字对象有文本、图像文件、或声音文件以及相关文件和标识符或复
19、杂的数字对象格式如网站等。在数据管理的过程中,按照表 1 顺序开展工作。7表 1. 数据管理的生命周期模式整个生命周期的活动A 描述和表示信息 对数据进行整理、编辑B 保存规划 制定保存规划C 管理和保存等活动 实施数据管理行动数据管理的步骤及过程A 构思 对数据管理过程进行计划与实施策略的构想,包括信息的搜集与存储。B 创建和接收 创建数据包括对数据结构进行描述和对保存元数据进行添加;接收数据包括根据数字数据收集政策,从数据创建者、档案、机构库或数据中心接收元数据。C 评价或选择 对需长期保存的数据对象进行评价,制定选择标准与策略D 摄取 按保存数据的标准要求,将数据保存到档案馆、知识库或其
20、他数据保管中心,E 保存行动 采取措施实施数据的长期保存与保值增值,确保数据真实可靠,为将来利用提供可能。F 储存 将数据按相关标准的要求,以安全的方式存储到数据中心。G 存取、使用和重用 确保存储的数据可以长期使用,为此,需建立强大的访问控制及认证程序软件系统。H 转变 从原来的不通用的数据格式上常见新的数据通用格式,保持数据的长期可用。I 处置 按数据管理法规、标准要求对数据进行编辑加工,保证其安全可用。J 再评价 对未处理完成的数据进行再次评价与选择。3.启示3.1.图书馆应积极开展跨系统的数据管理战略合作在美国很多数据管理研究项目都得到了资金的支持,这些基金单位包括:国家科学基金会(t
21、he National Science Foundation (NSF),),研究机构博物馆(the Institute for Museum)和图书馆服务(and Library Services (IMLS)),梅隆基金会(the Mellon Foundation)等。而这些研究项目的共同特点是开展了跨行业、跨系统、跨地区的合作,如国家档案和记录管理中心、美国国家海洋科学数据中心和大气管理局的国家气候数据中心、国家冰雪数据中心等。图书馆通过数据管理项目同这些中心开展合作,获得了跨系统合作进行数据管理的经验,使数据管理信息系统的开发更具针对性与实用性。另外,图书馆通过参与国家数据管理研究项
22、目,可以培养大量的数据管理人才,积累管理经验,提高数据管理的能力与水平。83.2.加强对大学校园研究数据的管理服务大学校园对于科学数据保存与管理的需求日益迫切,也成为开展数据管理的重要领域。美国的一些大学图书馆如:康奈尔,普渡大学,麻省理工学院(麻省理工学院) ,与明尼苏达大学图书馆已经开始了数据管理伙伴关系计划,提高大学图书馆在数据管理方面服务的能力。通过数据管理服务图书馆可以帮助教师获得网络信息基础设施服务,协助教师对研究数据进行系统的管理,建设研究资料库。并通过对数据的科学分析,对相关的研究信息进行深度挖掘和开发,提高教师的科研效率,辅助教学科研对数据分析的需要。3.3 加强数据管理专业
23、馆员的培训数据管理是图书情报界在网络信息环境下开展服务的重要新领域,其服务方式主要是通过信息技术手段,因此,加强对现有数据管理人员的培训,提高他们的专业知识水平,特别是计算机操作能力显得尤为重要。只有不断提高数据管理员的专业技能,才能使图书馆数据管理员在科学数据管理方面发挥更加重要的作用。还可以通过数据管理员的工作使广大科研人员认识到数据管理的重要性,培养良好的数据管理意识,采纳图书馆员的数据长期保存的建议,使大量科研数据可以长期利用与共享。3.4. 应加快数据管理共享空间的发展随着数字资源管理需求的日益迫切,世界范围内出现了大量的数据管理实践活动与研究项目,如英国的数字管理中心、美国的国家研
24、究资金资助的数据管理实践项目等,也有越来越多的在基层数据管理社区实践中建立的数据管理共享社区,以及一些专业图书馆和信息科学组织等建立的数据管理组织与教育计划。因此,我国数据管理项目的发展也应该尽可能多的给予数据管理研究实践以更多的支持,以便,促进数据管理研究的快速发展。特别是,一些大学或机构建立的数据管理研究共享空间,应作为发展数据管理项目的先导,优先予以发展,这样为将来更加深入的开展数据管理项目提供经验与技术支持。93.5.数据管理研究今后应关注的重点3.5.1 数据共享与知识产权对科学数据实施保存、管理与开发是一项非常有意义的活动,不但对当代科学研究的发展具有重要的信息支撑作用,同时,对将
25、来科学数据的长期共享也具有极其高的价值。然而,数据共享如果处理不好往往容易对版权人的利益造成侵害,因此,在进行数据管理过程中,处理好数据共享与知识产权的关系尤为重要,也是数据管理广泛发展过程中要进一步解决的问题,因此,我们在今后的数据管理实践中,应该对此问题进行深入的研究,以便使数据共享与知识产权共同发展,不会有所偏颇。3.5.2 元数据与数据管理格式数据管理的最大挑战是如何保证数据一旦被保存后可以长期共享利用。然而,由于数据格式众多,给数据管理带来困难,保存的科学数据经过一段时间后会因为技术过时无法阅读使用,而这一问题解决的最好方式就是采用数据管理的元数据格式。但是,对于研究数据来说,除了在
26、数据管理中要统一元数据格式以外,还要注意在对数据进行技术呈现的时候确定数据的目标、元数据选择标准等。也就是说你可以将所有数据的结构、大小、什么时间创建、什么时间消亡、被那些人使用等作为元数据,但这些信息可能会延伸得太广,如果不加以控制而试图去建一个非常完美的元数据管理体系,必败无疑。因此,开展数据管理元数据格式的进一步研究也是下一步需要解决的问题。3.5.3 建立受控词表与分类法对于数据管理来说,如同其他管理文献方式一样,最为重要的也是要解决将来信息检索的问题,因此数据规范与否显得特别重要。我们在今后的工作中,应建立数据管理受控此表与分类法。采用分级的方式开展数据管理工作,使数据管理更加规范,
27、也更加准确与细致的反映数据的原貌,以便使数据管理更加规范,能够为广大用户长期共享。3.5.4 本体与数据管理对于科学数据来讲,不只是数据可否阅读的问题,其数据的逻辑结构所呈现的科学内容需要被完整的保存,因此,本体是一个不可忽视的内容。本体在数据管理中具有广阔的应用前景,运用本体论方法对数据进行本体构建,可以解决数据孤单无联系的缺陷,提高数据管理的效率。通过列出研究课题所涉及到的词条,按照词条的固有属性和专属特征进行归纳和修改,对词条建立类以及层级化的分类模型,加入关系、添加实例,最后建立研究数据完整的本体模型具有重要意义,也是今后值得研究的重点。总之,近年来,数据管理在国外得到了较快的发展,也
28、成为图书馆研究的最热门领域之一。数据管理对于改变图书馆传统服务方式,拓展新的服务领域具有重要意义,因此,我国应加强对数据管理理论与实践的研究,以便,进一步推动我国数据管理的发展,为科学研究提供更加有力的信息支撑。参考文献:1Macdonald S, Martinez-Uribe L. Collaboration to Data Curation: Harnessing Institutional Expertise. New Review Of Academic Librarianship serial online. April 2, 2010;16:4-16.2Goble C, Steve
29、ns R, Hull D, Wolstencroft K, Lopez R. Data curation + process curation = data integration + science. Briefings In Bioinformatics serial online. November 2008;9(6):506-517. 3 www.dcc.ac.uk/about/2012-12-124http:/zh.wikipedia.org/wiki/Wikipedia:%E9%A6%96%E9%A1%B5,2012-12-125 Lord PM acdonald AData cu
30、ration for e Science in the UK :an audit to establish requirem ents for future curation and provision201211 29http:wwwjiscacukuploadeddocumentse-ScienceReportFinal.pdf6 http:/www.jisc.ac.uk/2012-12-107http:/www.dcc.ac.uk/sites/default/files/documents/publications/DCCLifecycle.pdf,2012-12-128Walton G. Data Curation and the Academic Library. New Review Of Academic Librarianship. April 2010;16(1):1-3. 9Schmidt L, Ghering C, Nicholson S. Digital Curation Planning at Michigan State University. Library Resources 55(2):104-118. 作者简介:陈清文;男;1964.2 出生;河北清河人,硕士研究生毕业;嘉兴学院图书馆,研究馆员职称;研究方向为:数字资源长期保存研究。