1、日本网络资源存档项目实践研究 闫晓创 新华社办公厅 摘 要: 日本国立国会图书馆实施的网络资源存档项目 (Web Archiving Project, WARP) 在网络资源存档的理论和实践方面都取得了显著成果。本文从 WARP 项目的基本情况、采集方式、采集频率、检索利用以及特色性内容采集等方面进行了介绍, 认为日本国立国会图书馆的经验对我国开展国家层面的网络资源存档工作, 包括合作共享、法律支撑、社交宣传、国际交流、理论研究等方面都有借鉴意义。关键词: WARP; 网络资源; 网页存档; 日本; 基金:2015 年国家档案局科技项目现代全媒体新闻机构网络资源保存模式研究 (项目批准编号:2
2、015-X-20) 阶段性成果之一Practical Researches on Web Archiving Project of JapanYan Xiaochuang Abstract: The Japanese Web Archiving Project (WARP) implemented by the National Diet Library (NDL) has got remarkable achievements both in theory and practice of archiving web resource. This paper introduces the co
3、llection mode, collection frequency, retrieval, utilization, and characteristic content collect of WARP. We can learn a lot from Japans experiences to carry out web archiving at the national level covering the following issues, including cooperation and sharing, legal support, social publicity, inte
4、rnational exchanges and theoretical researches.Keyword: WARP; Web Resource; Web Archiving; Japan; 根据中国互联网络信息中心 (CNNIC) 2017 年 8 月发布的第 40 次中国互联网络发展状况统计报告, 截至 2017 年 6 月, 中国网站总数为 506 万个, 其中“.CN”域名下网站数为 270 万个1, 平均每个网页的寿命仅为 44 天至 2 年。为了保存网络上珍贵的文化资源, 世界各国纷纷启动了网络资源的存档项目, 美国、欧洲、澳大利亚等国家和地区都开展了丰富多彩的项目。日本也以国
5、立国会图书馆为主体开展了网络资源的存档工作, 并且取得了较为丰富的成果, 极大地丰富了该国文化资源宝库。1 日本 WARP 项目基本情况日本网络资源存档项目 (Web Archiving Project, WARP) 从 2002 年启动, 由日本国立国会图书馆负责实施。2009 年日本国立国会图书馆对网络资源存档的相关法律进行了修订和完善, 2010 年修订了国立国会图书馆法和著作权法, 其中国立国会图书馆法的第二十五条第三款规定, 为了达到协助国政审议的目的, 国立国会图书馆有权利采集国家与地方公共团体等公共组织发布在网络上的信息;著作权法第四十二条第四款规定, 国立国会图书馆基于法律收集
6、网络信息, 无需取得著作权人的许可。通过这两个法律, 日本的网络资源存档工作做到了有法可依, 为项目的顺利开展提供了重要的法律保障。2010 年 4 月, 日本国立国会图书馆依照法律开始采集日本官方机构的网站, 主要包括中央政府、国会、法院、地方政府、独立的行政机构和高校的网站, 在日本运行的文化和国际活动的网站, 国际活动相关的电子杂志以及在其他网站允许情况下的网络信息。WARP 项目明确网络资源存档的生命周期是选定、收集、组织化、保存和公开 5 个部分, 紧紧围绕这几部分开展网络资源存档工作。1.1 WARP 项目的采集状况WARP 项目已采集了超过 1 万个网站, 采集次数达 9.6 万
7、次, 约 36 亿个文件, 存储容量达 630TB。从 2002 年至 2016 年, 日本国立国会图书馆的网络资源采集数量, 包括采集网站数、采集网页数以及数据量等都有了较大的增长 (见表1) 。尤其从 2010 年开始, 在日本相关法律配套支持下的网络资源采集量迅速增加。WARP 项目网络资源采集的格式涵盖了很多种, 主要包括jpg、png、tiff、html、pdf、xls 等, 其中图片和网页格式类占 60%以上2。以上数据及表 1 数据统计时间截止到 2017 年 3 月。1.2 WARP 项目的采集方法及频率1.2.1 采集方法WARP 项目的采集方法是利用开源的网络爬虫工具对指定
8、的网站进行自动采集。采集流程为首先确定采集对象网站, 设置网址 URL, 网络爬虫工具根据采集指令对网页的 HTML 文件进行复制, 复制内容包括 HTML 文件中的文字、图片、音视频文件, 网络爬虫工具从网站主页解析链接描述, 再次回到网页进行采集, 这样反复进行, 直至被采集网页的所有内容采集完毕。为了减轻采集对象网站服务器的负担和减少对被采集网站正常工作的影响, WARP 项目在采集时设置了一定的时间间隔3。表 1:WARP 项目年度采集情况 下载原表 针对设置了爬虫协议的网站, WARP 项目根据国立国会图书馆法第二十五条第三项规定, 采集对象网站有义务在爬虫协议中追加允许国立国会图书
9、馆采集的内容。国立国会图书馆在无法进行采集的情况下, 可以要求对象采集网站通过邮件等方式将相关内容发送至国立国会图书馆, 政府机构有义务向国立国会图书馆报送包括年鉴、要览、人员名单、业务报告和预算决算书等 17 类数据资源。WARP 项目采用了完全采集和差异采集两种采集方式。完全采集是将每次采集的内容全部留存, 不管内容是否一样 (在采集间隔内, 一个网站内有些网页进行了更新, 有些没有更新) 。差异采集是将每次采集活动中不同的内容留下, 相同的内容进行剔除。进行差异采集能够减少文件保存所需的存储容量, 大约有70%的减缩量, 也就是说差异采集需要的存储容量为完全采集的 30%左右, 在采集海
10、量网络资源的工作中, 差异采集会极大地节约存储空间。在差异采集中, 通过哈希值 (HASH) 的比较来判定是否为相同的文件。1.2.2 采集频率WARP 项目针对不同的采集对象, 制定了不同的采集频率。WARP 项目主要针对的是日本国家机关网站资源的采集, 因此对此类网站采集的频率最高, 对于国家机关网络资源每月采集一次;自治体、都道府县、政令指定都市、市町村、独立行政法人、大学等的网络资源, 每季度采集一次;民间机构的网站资源, 原则上一年采集一次。1.3 WARP 项目的提供利用WARP 项目通过专题网站提供了 3 种检索利用方式, 分别为关键词检索、机构检索和详细检索。关键词检索通过输入
11、关键词显示两类检索结果, 一类为元数据显示列, 显示的是含有输入关键词的被保存的网页的元数据;另一类为全文显示列, 显示的是含有输入检索词的被保存的网页内容及其网页名称。关键词检索的范围是数据库中存储的所有网络资源。机构检索主要包括国家中央机构 (立法:国会;行政:内阁、会计检察院;司法:裁判所) 和自治体, 可以通过自治体检索框对日本所有行政机关采集内容进行检索, 或者可以通过展示图点击相应的机构直接显示所采集到的内容。此外还有法人 (机构) , 选择后直接显示所采集到的法人 (机构) 的元数据显示列;大学, 选择后显示所采集到各个大学的元数据信息。通过元数据列进行展示。另外还有政党检索、主
12、题活动检索、电子杂志检索等。详细检索包括全文、元数据和范围三个检索项目, 其中全文包括采集到的网络内容、URL (网址) 和采集存储格式三个选项;元数据包括公开者 (出版者) 、编者、起始 URL、ISSN/ISBN 等;范围包括保存的时间以及保存的机构类型。1.4 WARP 项目检索结果展示WARP 项目提供的搜索结果包括元数据和正文信息两部分, 在检索出的结果中, 与输入的关键词相符的部分是由高光 (强调) 表示的。WARP 项目在所采集的网页完全没有被更新的情况下, 正文的检索结果只显示一个数据。在 WARP 项目中保存的网站信息, 其网络存储地址 (URL) 表示包含三部分, 即固定部
13、分、永久标识符和原始网站 URL。固定部分为 WARP 赋予每个采集网站的一个标识, 永久标识符为基于保存日期给定的标识符, 原始网站 URL 为所采集网站的网址。此外, 在存档网络资源的利用方面, 所保网站资源的著作权归属于原著作权者, 公众可在著作权法允许的范围内进行利用, 如果要进行二次开发利用 (图像、文档、报道、数据等的转载) , 利用者需通过相应的渠道获取使用许可。2 WARP 项目特色性内容采集情况WARP 项目对一些具有特色的网络资源进行了采集和整理, 通过各种可视化的方式让公众更好地了解和理解该项目的内容。2.1 国家机关或部门网站随时间的变化WARP 项目对所采集的日本国家
14、机关部门网站中超过 1000 万份文件进行抽取, 通过分析展示了网络资源随时间发展的变化情况, 主要是 URL 和内容的变化情况。一是 URL 存续情况的分析:对之前 5 年间的存续状况进行分析, 如在 2015年分析 2010 年至 2014 年采集到的 URL 存续情况, 发现随着时间的增加存续率持续降低, 2014 年的存续率为 86%, 2013 年存续率下降到 69%, 到 2010 年采集到的 URL 只有 40%还可访问。二是内容存续情况分析:对过去 5 年的存续情况进行分析, 如在 2015 年分析 2010 年至 2014 年采集内容的存续情况, 发现 2015年采集到的内容
15、在 2014 年有 80%还存在, 2013 年有 61%存在, 2010 年只有 40%还存在。此外, WARP 还对日本各中央机构如内阁官房、总务省、法务省、外务省、文部科学省等机构采集的网络资源进行更加细致的分析, 包括不同格式 (如 jpg、html、tiff 等) 变化情况以及相同网站不同层级 URL 的变化情况, 并对这些变化用可视化图表进行展示。2.2 日本列岛的网站资源WARP 项目对日本列岛的地方自治体的网站进行采集。2009 年以前由于合并而不复存在的自治体网站是重点的采集对象, 在获得所有者的许可后予以收集。2010 年 4 月以后, 由于法律的修正, 国立国会图书馆可不
16、经发布者的许可收集公共机构的网站资源。WARP 项目保存了日本都道府县、指定都市、市町村公共团体、东京 23 个区的网站首页, 通过配置各个机构的经纬度, 将以年为单位所发生的变化, 制作成了动画;还通过利用都道府县网站的链接关系进行了可视化展示, 公众通过可视化图表可以清楚地看到各个机构之间的关系。2.3 消亡的市町村公共团体网站1999 年至 2010 年, 日本在全国范围开展市町村大合并运动。根据日本总务省的统计, 日本市町村的数量由合并前的 3232 个 (1999 年 3 月 31 日) 减少为合并后的 1719 个 (2013 年 1 月 1 日) 。这项运动造成了日本大概 150
17、0 个市町村的网站从网络上消失。WARP 项目中对这些消亡的市町村网站和合并协议会的网站进行了采集保存以及可视化展示, 由此这些消失的市町村的网站资源目前仍然可以被访问和利用, 为日本留下了重要的历史记忆。2.4 东日本大地震网络资源WARP 项目对东日本大地震的相关网站进行了重点收集和保存, 2011 年 3 月 11日地震发生之后, WARP 项目对日本国家机关和受灾区域的自治体网站进行集中大范围收集, 此外还对 NPO、NGO、志愿者团体、学协会、相关企业等开展支援活动单位的网站也进行了积极的收集。WARP 项目共采集了约 300 个网站以及3600 个网页资源, 按照国家机关、地方自治
18、体、NPO 和 NGO、研究机构、企业团体进行分类后, 通过照片墙的形式对所采集到的网页资源进行了可视化展示。WARP 项目还建立网站专门对东日本大地震的网络资源进行采集、整理和利用。东日本大地震的网络资源采集共计 3581486 件, 其中图片 644332 张、音视频15006 条。WARP 项目建立的专门网站针对东日本大地震提供了多种检索方式, 包括简单检索、详细检索和分类检索。2.5 电子书籍和电子杂志日本国家机关、自治体、大学的网站中, 白皮书、会议资料、报告书、年报、论文等各类材料的电子版均定期公开。日本国立国会图书馆对这些资料进行了采集, 通过赋予这些资料题名和作者等方式设定唯一
19、标识符, 实现对这些资料的高效检索和利用。2.6 都道府县公报WARP 项目针对都道府县的公报也进行了重点采集。日本地方公共团体的条例或规则在制定时, 按照规定必须通过网络进行公示再通过法律予以确定。都道府县所公布的条例或规则、公告或告示等信息, 均会出现在公报中。目前, 日本所有都道府县的公报可在网络上浏览, 其中有的网站还提供可检索历史公报的服务, 但有时因为多种原因, 公众不可访问原始公报网站。WARP 项目开展采集工作, 很好地解决了这一问题。2.7 科研费网站WARP 项目对日本国内科研费网站进行了采集保存, 开展这项工作同样基于法律的规定, 在获得发布者的许可后予以收集, 主要针对
20、受资助的科研项目在网络中存在资源进行采集。WARP 项目对所采集保存的科研费网站中各个学科的研究网站信息进行了详细统计, 还对研究领域、研究课题名称、研究设定的期间等信息在采集后进行分析整理, 这项采集工作为科研人员开展研究工作提供了极大便利。3 日本 WARP 项目对我国开展网络资源存档工作的启示3.1 与图书馆、博物馆等文化机构合作目前世界范围内从事网络资源存档的机构多为图书馆, 尤其是国家图书馆, 如英国国家图书馆、美国国会图书馆、澳大利亚图书馆、日本国立国会图书馆等。这些国家图书馆均在本国网络资源存档工作中起主导作用, 而同样作为文化事业机构的档案馆、博物馆等较少参与这项工作。随着社会
21、网络化的不断深入, 公众对于文化消费的需求不断增强, 这对公共文化资源的融合提出了更高要求。档案部门作为保存社会记忆的主要机构, 在网络资源存档工作中应积极作为, 主动与图书馆、博物馆等文化机构进行深度合作, 实现资源融合开发利用。各方应共同就网络资源采集所涉及的标准、技术、方案进行探讨, 真正发挥各自所长, 在网络资源存档工作中分工协作, 通过建立共同的网络资源采集利用平台将各方已经进行数字化的资源进行融合开发, 满足公众多样化的文化需求。网络资源存档工作的分工协作, 应在国家相关部门的主持下, 成立国家层面的机构进行统筹协调, 保证项目开展过程中各项工作的协调有序, 并建立采集资源的共建共
22、享机制。3.2 与社交媒体进行合作, 增强公众参与度网络资源存档工作目前在国内并没有引起足够的重视。虽然国内有一些单位, 如北京大学、中科院文献情报研究中心、国家图书馆等机构有所开展, 但规模都较小、发展较慢、影响不大。对比欧美在网络资源存档方面的发展, 目前国内网络资源存档工作的发展与我国网络大国的地位极其不匹配。这其中很重要的一个原因是国内公众对于网络资源采集的认识不清、认知度不高, 即网络资源采集工作的需求侧不够强烈, 直接导致了网络资源采集工作这一供给侧的发展不够迅速。借鉴欧美国家的经验, 档案部门可以利用社交媒体工具进行推介。如以档案资源结合新媒体工具, 制作动漫、小视频等公众愿意接
23、触、容易接触的方式进行传播, 让更多的受众能够理解、参与并支持这项工作。还可通过各种方式对采集到的网络资源进行开发和宣传, 以提高采集资源的可见度, 形成良好的社会互动的, 进一步推动网络资源采集和保存工作。3.3 完善国家层面相应的法律支撑目前我国网络资源存档工作还没有相应的法律支撑, 亟需建立并完善配套的法律体系。可以看到, 日本网络资源存档工作迅速发展, 很大程度上是因为具备完善的法律法规;日本网络资源存档工作能够大规模开展起来并取得巨大成果, 其关键是制定并颁布了适用于全国的法律。日本通过立法的形式明确网络资源存档工作中网络资源采集的范围、内容等, 做到了有法可依, 在进行大规模采集的
24、同时避免了出现侵权等问题。2017 年上半年, 国家互联网信息办公室出台了互联网新闻信息服务许可管理实施细则, 对互联网站、应用程序、即时通信工具、微博、直播等服务提出规范化管理要求, 以进一步提高互联网服务管理规范化、科学化水平, 促进互联网服务行业健康有序发展, 这为开展网络资源存档工作提供了较好的外部环境, 为制定专门的网络资源存档工作法律法规奠定良好基础。3.4 加强理论研究, 为实践工作提供理论支撑国内开展的网络资源存档工作多为技术先行, 理论研究方面较少、较欠缺, 致使实践工作多为摸着石头过河。这样不利于工作的长远发展, 如在没有长远考虑和充分论证的基础上进行网络资源的存档工作,
25、随着互联网的高速发展, 网络资源的格式会不断变化, 给后续工作带来更多麻烦。再如已经存储的海量网络资源随着存储介质的升级换代, 进行数据迁移和转化也是较大的问题。目前, 网络资源存档工作主要的理论研究方向应包含但不局限于以下几个方面。一是网络资源著作权问题。日本的网络资源存档工作主要以图书馆为主体, 并进行了较为深入的理论研究, 针对采集工作中遇到的各种问题, 如著作权等都有明确规定。二是网络资源的采集方式。目前网络资源的采集大致有全部采集、选择性采集或两者相结合的方式。针对我国网络发展情况及资源情况, 在国家层面采取何种方式, 有待深化研究。三是网络资源的存储方式。网络资源最显著的特征就是海
26、量, 目前解决海量数据的存储多采用云的方式。国际上Internet Archive (互联网档案馆) 采用的是亚马逊提供的云服务, 国内大多互联网应用也都采用了阿里云、百度云、腾讯云等服务。网络资源存档工作如何进行存储有待进行深入的理论研究。四是网络资源的利用方式。目前网络资源的利用多采用网页、APP 等方式。但是随着网络技术的发展, 如何更好地为公众提供服务值得进行深入研究。3.5 加强国际间的交流与合作国际交流与合作将会促进网络资源的存档工作的开展。2003 年, 美国、加拿大、英国等国联合成立了国际互联网保存联盟 (International Internet Preservation
27、Consortium, IIPC) , 截至目前, 该联盟的成员已经超过 40 家, 其中包括国家图书馆、国家档案馆、高校、知名公司等4。该组织已经研究发布了网络资源保存领域的标准和规范, 并且已经运用到了成员的实践活动中, 取得了很好的效果。网络资源存档工作在国际间的合作交流更多地体现在技术方面, 日本网络资源采集工作中利用的技术, 包括采集工具 Heritrix、全文检索索引 solr、保存格式 Warc、检索利用工具 Wayback, 均为欧美国家为网络资源采集工作所开发出来的开源软件, 日本以这些工具为基础进行了二次开发。参考文献1第 40 次中国互联网络发展状况统计报告EB/OL.http:/ 2陈瑜.日本国立国会图书馆网络信息资源采集保存项目介绍研究J.图书馆杂志, 2014 (3) :91-94. 3日本国立国会图书馆 WARP 项目EB/OL.http:/ (IIPC) 成员为例J.浙江档案, 2016 (8) :10-14.