1、1用户元数据初探Study on User Metadata梁蕙玮 萨蕾 曲云鹏 张文静 李成文(国家图书馆 数字资源部 北京 100081)摘要:Web2.0 为用户的参与创造了条件,用户的参与将产生大量用户元数据,如何整合利用用户元数据将成为图书馆新的课题。本文论述了用户元数据的基本含义,介绍了国外相关的 2 个项目,提出了用户元数据基本的框架内容,并对用户元数据进行了分析,同时和图书馆制作的元数据进行了对比,最后提出了对用户元数据的质量控制方法。关键词:用户参与,用户元数据,规范控制,社会元数据分类:G254.36Abstract: Web2.0 creating the conditi
2、ons for the user to participate, the participation of users will produce a large number of user metadata, how to integrate and utilize the user metadata will become research subject to library. This article discusses the basic meaning of the user metadata, introduces two foreign projects, proposed a
3、 basic framework of the user metadata, analyzes the user metadata, and compares it with the metadata created by the librarians, then proposed method to control the quality of the user metadata.Keyword: user participation, user metadata, authority control, social metadata1. 引言互联网的广泛应用和服务功能与业务的拓展,为用户的
4、网络信息交流和发布提供了新的渠道和空间,改变着用户的信息发布和利用形态。Web2.0 将“用户=合作者”的理念应用于实际,吸纳读者的智慧来补充和改进网络的现状,用户可以通过评论、标签以及评级、博客、社区等一系列活动来扩充网络的资源与服务,同时也给其他用户提供了有价值的信息产品。对图书馆而言,用户的参与将产生大量的图书馆自身系统中未带的信息,理论上讲,这些信息是开放的,可供检索、链取、或是根据语境抽取目标信息。这些信息是增强元数据描述的一种重要手段,而这些信息又可以被整合到图书馆自身系统中或从图书馆系统中抽离出去。因此,图书馆仅仅将 Web2.0 的理念和技术引入到图书馆,给用户提供参与的2途径
5、还远远不够,更需要做的是对由用户产生的元数据进行深度挖掘,通过用户元数据对信息资源进行有效的整合,在给用户提供增值服务的同时,也尽一步扩充图书馆的资源,提高图书馆的服务能力。用户元数据的含义用户元数据并没有准确的定义,在不同的环境中有不同的表述,可以是描述用户信息的元数据、描述用户行为的元数据等,但本文中所定义的用户元数据为:由网络用户产生的元数据称为用户元数据,是用来描述网络用户所产生的内容的元数据以及有助于对内容进行判别的用户或其行为的信息。从定义来看,对于用户元数据来说从以下几个方面来理解:首先,它是网络用户产生的数据,而非网站建设者所产生的,它既可以是用户本人所产生的,如:用户上传图片
6、时,给图片添加的名称;也可以由其他用户所产生,如:用户添加的评论等。第二,它主要是对用户所产生的内容的描述,同时也包括一些对内容评判有关的用户信息,如用户的专长、参与度等,可以为其他用户对内容的可信度有所评判,但不包括对内容判别无意义的、纯粹的用户的描述。第三,它包括一些仅与内容相关的用户行为的描述,如:用户在进行投票、进行挖/埋等行为,这些实质上是对所投票内容的一个评判,是对其的一个描述,也属于用户元数据的范畴;而不包括与内容无关的用户行为,如用户登录的时间、用户访问网站的线路等。实际上,用户在产生内容的同时,都会无意识的产生用户元数据,如用户在提交一个博文,会写有博文的名称,给一个分类或写
7、一些标签,这实际上就是在对内容提交描述性的元数据;在用户对其他资源撰写评论或是评级时,就是在给资源添加一些评价性的元数据。3.国外相关项目对于用户元数据的研究,近几年在图书馆领域已逐渐展开,下面为 2 个典型的案例:Sharing and Aggregating Social Metadata和The commons3.1 Sharing and Aggregating Social MetadataSharing and Aggregating Social Metadata项目是由美国研究图书馆集团(RLG)在研的一个项目,该项目主要是用来研究如何通过对社会元数据的分享和整合,在网络层面上
8、充分利用由用户贡献的如评论、注释、图片等信息资源,具体研究的内容包括:什么是社会元数据,以及如何进行度量?在一个开放的网络环境下,对用户贡献的内容进行搜索和检索的政策,管理方式及相关的技术是什么?引导机构在管理用户贡献内容和各种有关的问题最佳做法是什么?怎样保护贡献者的隐私,如何能将大众分类纳入到分类体系?社会文化机构如何将社会元数据纳入正规的分类等内容。这里他们所提的社会元数据是指用户贡献的元数据,与我们所说的用户元数据极为相似,该项目预计于年底出项目报告。3.2 The CommonsThe Commons 是 LC 与 Flickr 的试点项目,该项目与 2007 年开始,在 2008
9、年 1 月推出。3在这个项目中,国会图书馆将部分没有明确版权限制的照片,在 Flickr 上开辟了专门的资源分享区域,通过加标签、评论和给照片注释三种方式作为交互的手段让用户参与。通过标签,用户可以分享图片,也可以提供一种迅捷的搜索渠道,通过评论和图片注释,用户可以加强对照片内容的理解。而这些由用户提供的信息,在图书馆原有的元数据中,并未被记录,随着 Web2.0 理念的深入,这些由用户产生的元数据将会被渐渐的纳入到图书馆的元数据系统中。该项目一经推出,便引起了多个国家的关注,到去年年底,已经有 16 个机构参与了这一分享计划,其中包括美国、澳大利亚、英国、加拿大、法国、葡萄牙和荷兰等国家的一
10、些机构,他们共同分享其收藏的照片,鼓励用户参与和贡献信息。这些都表明了图书馆对用户元数据的日益重视。4.用户元数据分析4.1 用户元数据框架目前,很多机构或者组织都对相关的问题或者概念进行了研究,其中比较重要的就是微内容微格式、FOAF 和 CAM 等。“微内容”和“微格式”是最近流行起来的一对概念。微内容(Microcontent)的最新定义是这样:“最小的独立的内容数据,如一个简单的链接,一篇网志,一张图片、音频、视频,一个关于作者、标题的元数据,Email 的主题,RSS 的内容列表等等。 ”由此来看,所有用户创作的内容都可以成为微内容。微格式是一种基于现有的并且广泛被应用的标准而建立的
11、简单、开放的数据格式。相对于机读,微格式更倾向于让人可以读懂。FOAF 是 Friend of a Friend 简称,是一个小型的本体系统,用于描述 web 中的人、实体、他们之间的联系以及他们的行为所产生的内容,FOAF 允许以分布式方式描述社会网络。拓展情境化注意元数据 (Contextualized AttentionMetadata,CAM) 主要是指用户在使用普通网站、Wiki、Blog、文本交流、电子邮件等资源过程中,被用户注意的和引起用户注意的任何内容 1。也可理解为是用于描述用户某个情景下发生的一系列行为的数据 2。通过对上述相关框架的分析,笔者认为:微格式和微内容描述的是文
12、档的信息;FOAF描述的是人与人、资源之间的关系;CAM 描述的是人、资源之间的情景关系。对图书馆来说,用户元数据的研究对于我们分析读者行为、读者资源取向、判断资源使用程度等都有很重要的意义,我们需要建立一套用户元数据框架,并对其加以管理,以满足需要。用户元数据框架应该以用户和资源为主,重点描述在一定情境之下资源(resources)同用户(Person )之间的关系。元数据框架可以包括三大主要部分,一个是通用框架,用于描述各类型资源,如论文、期刊、图片等,另外还涉及到用户(Person) 、用户群(Group) 、各种微格式、行为(Action ) 、进程(Session)等新的概念。需要为
13、这些概念设定描述性或者技术性元数据。对于这些元数据已经有比较稳定的框架,在这里我们可以借鉴这些稳定框架,如 DC、资源类型微格式框架等。另一重要的部分是用来定义资源之间的关系,这些关系可以包括资源和资源的关系,如评论(Comment)关系,说明(Depict)关系;1 Jehad Najjar, Martin Wolpers, Erik Duva.l Attention Metadata: Collection and Management EB/OL. 2009-05-13.2 Chairs Message of CAMA 2006EB/OL. 2009-05-20http:/portalp
14、arts.acm.org/1190000/1183604/fm/frontmatter.pdf4资源同用户的关系,如说明(Depict)关系、行为(Action)关系等,行为关系又可包括多种,如:创建(Create)关系、收藏关系(Favor ) ;推荐(Recommend )关系等;用户与用户之间的关系:如朋友(FriendOf )关系;成员( MemberOf)关系等;另外还需要对进程(session )类别进行定义,每个进程(session)由用户、资源以及用户对资源的行为(Action)构成。同一进程(Session)中不同的行为(Action)有先后之分,因此行为(Action)有一
15、个只在进程(Session)中有效的时间戳(TimeStamp) ,用来区别行为发生的先后顺序。每个行为设计两个元素,分别是用户(Person)和资源(Resource) ,分别是行为(Action)的主动方和受动方。行为( Action)关系中的子关系有创建(Create ) 、浏览(Browse ) 、推荐(Recommend )等。4.2 用户元数据质量本文所讨论的用户元数据包括:对用户创建内容的描述,对用户添加内容的描述、对用户行为产生的内容的描述以及对内容判断有所帮助的用户自身信息的描述。详细如下表:表 1:用户元数据分析 类型 产生方式 说 明用户人工制作 主要是对内容属性的描述,
16、如:名称,内容摘要,分类等用户创建内容的描述机器自动产生 主要是对内容外部属性的描述,如:文件大小、格式、上传时间等用户人工制作 主要是对内容的描述,如:标签、评论、注释等用户添加内容的描述机器自动产生 主要是管理性信息,如:创建时间、创建内容的类型(标签、评论、注释) ,关联对象用户行为产生的内容的描述机器自动产生 主要是管理性信息,如:创建时间、创建内容的类型(点击、收藏、分享) ,关联对象对内容判断有所帮助的用户自身信息的描述机器自动产生 管理信息,如用户在线时间长度、用户信誉度等对于用户元数据来说,一部分可以由机器自动产生,如用户所创建的内容外部属性:文件大小、文件格式;内容的管理信息
17、,如创建时间、访问量等;以及内容之间的关联关系。这部分元数据只要我们事先设计好结构和规则,由机器自动生成元数据的准确度是很高的。另外还有一部分用户元数据是由用户自己提供的,也就是需要人工制作的内容,主要是对内容的描述,如题名、标签、评论、注释等,这部分元数据实际上也是图书馆的核心业务,在 web2.0 环境下,这些也可以由用户来产生,这部分元数据的质量如何,我们可以从以下几个方面同图书馆的元数据进行对比分析。表 2:用户产生的元数据和图书馆员制作的元数据对比用户产生元数据 图书馆员制作元数据人员数量 海量 有限 人员专业水平 元数据制作缺乏专业性 元数据制作专家元数据数量 海量 有限5元数据描
18、述 非专业,需要规范 专业,规范元数据标引 对内容的专业性掌控较好,但表述不规范 表述规范,但对内容专业性的掌控不如行业专家 通过对比,我们不难看出,对于网络上海量的数据,由图书馆员来制作元数据已是远远不够的,引入用户元数据,通过对用户元数据的分析提取,把网络资源转化为图书馆的资源,或是通过用户元数据来扩充完善图书馆的元数据对图书馆来说不失为上策。当然,对于用户来说,由于其没有受过专业的培训,元数据质量是一个很大问题:如没有给图像提供有充分描述性的题名,没有给足够多的标签或是标签很随意,不规范等,这就需要我们对用户元数据进行规范控制。5.用户元数据与规范控制5.1 规范控制概述规范控制(Aut
19、hority Control)的定义为:为确保标目在检索款目及书目系统中的惟一性和稳定性,而建立、维护、使用规范款目和规范文档的工作过程 3。从这一定义可以看出,传统的规范控制主要是图书馆书目控制的重要组成部分,为书目功能的实现服务。从二十世纪六十年代起,计算机技术的发展推动了图书馆自动化的发展,规范控制的实质也被进一步明确为检索点控制。为使用户可以使用任何名称、题名或主题进行检索,图书馆员必须要控制检索,以避免用户淹没在信息的海洋中。5.2 对用户元数据进行规范控制存在的问题及设想规范控制工作经过近一个世纪的研究、探索与实践,具备较为完善的理论与体系。但是,在将规范控制应用于网络整合的过程中
20、也暴露出一些问题,如:规范数据由图书馆员制作,因制作者的局限,影响规范控制惯用性原则的实现;名称规范库和主题规范库都存在着用词陈旧、更新滞后的情况;规范控制的专业性限制了用户对规范数据的使用,未经过图书馆专业培训的大众往往只能望洋兴叹。如果对规范数据采取简单的拿来主义,这些问题将造成规范数据无法与用户元数据紧密结合,严重影响用户对信息资源的检索与利用。二者的结合必须要找到一个合适的嵌合点。笔者认为,应借力于网络信息服务的发展对传统规范控制工作进行改造,目的是使之适应不断变化的网络世界,促进网络信息资源的有序化,从而满足用户对信息资源的需求。这是个融合、互动的过程。(一)将 Web2.0 的理念
21、植入规范控制工作Web2.0 的核心理念为共建共享。从近年来图书馆在信息服务方面所做的努力与尝试看,主要集中在对图书馆拥有的资源的共享方面,在鼓励用户贡献内容、利用集体智慧方面却完全止步不前。如:全球最大的图书馆联机共建平台OCLC 也主要局限于集中图书馆员的智慧。所以,虽然许多图书馆信息门户使用了 web2.0 的工具为用户提供服务,但是往往3 黄俊贵规范控制概说J高校图书馆工作,1999(3 ):186只是借用了 web2.0 的形式,用户仍然只是图书馆资源的受众,而没有真正参与到信息资源的生产过程中,从其实质来说,仍是以图书馆员为中心。尽管传统规范控制工作由于其专业性强,很难实现对用户的
22、完全信任,但是,如果对集体智慧善加引导,吸收其优点,并通过一定规则进行适当的驾驭,一定会对传统规范控制工作的发展起到促进作用,进而完善网络资源的整合工作。因此,应充分利用集体智慧,推动规范控制工作的 2.0 化,使其与网络信息服务真正地融合在一起。(二)集中集体的智慧,弥补规范控制工作的缺点,为用户提供精确的导航。规范控制是为用户服务的,只有当用户真正地参与进来,才能够实现规范标目的惯用性原则,为用户提供被公众认同的规范数据,再将之应用于用户元数据的整合与利用。笔者认为,将用户贡献内容的做法引入规范控制的领域,充分利用集体智慧,吸收用户贡献的内容,作为规范数据的补充,是具有可行性的。设想如下:
23、 吸收分众分类法,补充主题规范库分众分类法(Folksonomy)是一个创造词,即 FolksTaxonomy,在维基百科中将其定义为:是指“群众”自发性定义的平面型非层级结构式标签分类,是在标签的基础上由用户群体定义的频率来确定某一信息资源的分类。分众分类法对标签进行了优化和控制,充分体现了集体智慧,相当于文献检索语言中的自由词。笔者认为,应深入研究网络检索语言,建立一定的规则,对由标签产生的分类进行更严格的控制与深度挖掘,吸收受控的分众分类作为相关主题规范标目的单纯参照。一方面,可以利用集体智慧补充与完善主题规范库,使主题规范更符合惯用性原则,做到与网络同时更新,普通用户在使用上也可以不再
24、受困于其专业性。另一方面,分众分类因嵌入了主题规范,也继承了主题规范已经形成的体系结构,规范统一的主题词将对标签的随意性起到很好的控制作用。 借鉴 Wiki 的形式,补充名称规范库Wiki 是指一种多人在网上协同创作的知识共享模式 4。就某一知识内容,多人参与写作、编辑、维护。Wiki 最显著的特点是其开放性、易用性及可扩展性。这些特点也使 Wiki存在一些备受质疑的缺点,如:开放性导致用户的权限设置非常宽松,有些用户的编辑可能存在错误,危及到信息资源的可信度;由于是多人共同创作,因此内容结构松散等。尽管有瑕疵,Wiki 仍然是一种符合网络发展趋势的知识组织方式。笔者认为,可以将Wiki 的形
25、式引入名称规范考证工作。名称规范考证工作指的是当文献信息源本身无法提供可供识别的个人名称信息时,编目员通过对文献信息源之外的其他参考信息源进行查询,获得相关信息的过程 5。如果能够利用集体智慧,那么将极大地推动名称规范的建设与维护。当然,在用户贡献内容的全过程中应按一定的规则进行必要的控制与规范,使名称规范保持其权威性。包括:适当对用户权限做出规定,如,要求贡献者有相应的学科背景,设立一套制度对贡献者进行信用度评级,并按信用度设立不同权限等级等;设立专门机构,由图书馆员、各学科领域专家对使用 Wiki 方式建立或维护的名称规范数据随时进行维护。参考文献:4 图书馆 2.0 工作室编 .图书馆
26、2.0:升级你的服务M. 北京:北京图书馆出版社,2008. P1315 2005 年中文名称规范数据库进展情况简报 lib.hku.hk/ccrcd/2-1.ppt71. 富平,刘小玲主编.中文书目规范控制的理论与实践M.北京:北京图书馆出版社,20072. 图书馆 2.0 工作室编.图书馆 2.0:升级你的服务M. 北京:北京图书馆出版社,20083. 法)让诺埃尔让纳内著.当 Google 向欧洲挑战的时候为奋起辩护M. 北京:北京图书馆出版社,20064. 付蔚,王海兰著.从 FRBR 到 FRAR兼述中文文献资源的规范控制工作J.大学图书馆学报,2007(2):97 1005. 李书
27、宁,张晓林, 国外情景化注意元数据的研究进展, 现代图书情报技术,2008,v2,1-76. 刘炜,张春景著.试论网络资源的规范控制J.现代图书情报技术,2008(12):27 317. 黄俊贵规范控制概说J高校图书馆工作,1999(3):1 88. Sharing, Privacy and Trust in our Networked World. http:/www.oclc.org/reports/sharing/default.htm,200906199. 第 23 次中国互联网络发展状况统计报告. http:/ Barbara B. Tillett. Authority Contro
28、l on the Web. http:/www.loc.gov/catdir/bibcontrol/tillett_paper.html,2009061911. http:/www.oclc.org/asiapacific/zhcn/terminologies/default.htm12. http:/www.lib.flinders.edu.au/resources/voyager/cloud.html13. http:/www.biblio.tu-bs.de/db/lcsh/14. http:/www.kevenlw.name/downloads/lib20material/lib2008/wangjun-doulor.pdf15. http:/ http:/ http:/www.libraryforlife.org/subjectguides/index.php/History-related_Mysteries18. 曹宁.2005 年中文名称规范数据库进展情况简报. lib.hku.hk/ccrcd/2-1.ppt