1、古籍文献数字化建设的几点思考2OO8 年 l2 月第 12 期古籍文献数字化建设的几点思考龚娅君(浙江中医药大学图书馆,浙江杭州 310053)摘要阐述了数字化对古籍文献应用与传播的重要意义,介绍了我国古籍文献数字化工作的现状,探讨了.古籍文献数字化面临的有关问题,并针对性的提出了解决措施.(关键词 古籍文献 ;数字化 ;资源共享中图分类号】G256.1 文献标识码 A文章编号1008 0821(21308)12009502StudyontheOigiConstructionofAncientBookLiteraturesGongYajun(Library,ZhiangUniversityof
2、TraditionalChineseMedicine,Hangzhou310053,A】 bs 岫 dThispaperexp0theimportantsignificanceofthedigit-li,tionfortheapplicationandpropa-gionoftheancientbookliteratures,introducedthepresentsituadonofthedigitalizationofChineseancientbookliterature.s.andprobedinto80lIleproblemsrelatedtothedigitalizationofa
3、ncientbookliteratures.Keywordsancientbookliteratures;digitalizafion;resosharing1 古籍文献数字化的重要意义1.1 古籍文献数字化的定义文献数字化是指将各种文字,图片,音频,视频等多媒体的文献信息内容以数字化形式存储与管理,通过控制系统标志数字对象,通过网络浏览,查询,检索和传输各种信息,采用权限管理技术保护知识产权,通过 Web 发布数字化信息.它是以计算机技术,网络通信技术,数字技术和文献处理技术为基础的大型的数字化文献资源信息系统.按照古籍着录规则中的定义,古籍主要是指 1912年以前在中国书写或印刷的,具有中
4、国古典装订形式的书籍1.中文古籍是前人留下的宝贵文化遗产,对后人进行科学研究和文化传承都具有非常重要的意义.但随着时间的推移,这些宝贵的文化遗产变得相当脆弱,从而限制了大部分用户的使用.古籍数字化就是利用现代信息技术将古籍转化为电子媒体的形式,通过光盘,网络等介质予以保存和传播.但是,很多图书馆和博物馆等古籍保存单位为使古籍得以保护而严格限制古籍的使用,使得古籍文献很难得到充分的开发和利用.1.2 古籍文献数字化的重要性信息技术的迅速发展使我们依托网络解决古籍文献的继承和利用成为可能.古籍文献的数字化是古籍整理发展的方向,顺应这种变化,是时代向古籍整理工作提出的新要求.传统古籍文献的数字化,可
5、以有效地解决古籍保存与使用之间的矛盾,对古籍研究工作必将产生巨大的推动作用.古籍文献数字化的优越性有很多:古籍电子版本可无限制地复制,成为取之不尽,用之不竭的资源;四通八达的计算机网络,可使古籍文献实现共享,避免了运输和分配的问题.古籍资料汇集后会产生新的信息,对研究工作非常重要.但要汇集大量古籍加以整理,仅靠人力几乎不可能,电子版本却可以做到快速检索和处理利用.古籍数字化是古籍整理工作提出的新要求,也是古籍整理发展的方向.本文试图就中文古籍数字化建设现状,古籍数字化建设样式,古籍数字化建设技术,古籍数字化建设存在的问题等内容进行探讨.2 中文古籍数字化建设现状2.1 中文古籍数据库建设近况我
6、国古籍数字化工作目前已经取得了相当的成绩.已经完成和正在进行的有关古籍数字化的大型项目有电子版四库全书,四部丛刊,康熙字典等,此外还有中华文化通志,汉语大词典,中华古汉语词典等.全唐诗网上电子检索系统“中国基本古籍库“ 光盘工程是北京大学的重点科研项目,全套光盘库根据中国古籍自身的特点,参照国际通行的图书分类法,分为哲科,史地,艺文,综合 4 个子库,20 个大类,近百个细目.范围涉及先秦至民国的重要典籍,基本可以满足文史和其他方面研究者的需求.适用于中,英,13,韩多语种操作平台,还提供多重检索功能.用户只需懂得一些基本的电脑操作方法,就可在极短的时间内查找到所需的资料,每次检索均收稿日期:
7、20O80717基金项目:浙江省图书馆学会 2O05 年度立项课题(ZIX2005B 一 6)作者简介:龚娅君(1971 一),女.办公室主任.馆员,研究方向:图书情报管理,发表论文数篇.一95 一数字图书馆技术论坛数字国书馆技术论坛2008 年 12 月第 12 期可在 5s 内完成.使大陆地区的古籍数字化从计算机书目服务走向全文服务 J.中国国家图书馆在 2000 年正式成立了中国数字图书馆有限责任公司来推动图书的数字化建设工作,其中古籍图书馆数字化建设也是国家图书馆的一项重点工程.近年来,该馆在建设特色珍稀文献数据库方面成果卓着,建设过程中采用了人工智能检索,信息海量存储,自动标引,电子
8、上网等现代信息技术 4j.2.2 中文古籍书目数据库建设近况除了图像形式的古籍数据库外,有些图书馆也进行了古籍书目数据库和索引数据库建设的尝试.如南京图书馆建立了 40 多万条中文古籍书目数据库等.此外,中国社科院研制的全唐诗,先秦魏晋南北朝诗,全唐文,诸子集成等数据库检索系统,深圳大学的红楼梦数据库,北京大学的全宋诗等古诗研究系统,哈尔滨师范大学的史记全文检索系统,河南大学的“宋人笔记“检索系统等都为大陆地区的古籍数字化做出了一定贡献.3 中文古籍数字化建设面临的问题3.1 中文古籍书目数据库分类方法繁多传统古籍不同于普通文献,这使古籍文献数字化工作面临许多问题.在图书馆业务中,古籍整理工作
9、相对独立,采,编,阅,藏自成体系,古籍整理保留旧有模式,采用旧的分类法,沿用传统的着录方式,馆际之间也没有国家统一标准,仅分类法就有四库法,中图法,科图法,人大法,刘国钧“十五大类 “等数种 .3.2 中文古籍数字化字库设计不规范为了能够处理中文文献,国际标准化组织和国家有关机构先后制定了 GB2312,GB18030 以及 Unicode3.0 等中国内地和台湾地区以及韩国等字符规范标准.这些标准只能说是古籍数字化的雏形,还不能算是真正意义上的数字化.它是将馆藏古籍的书名,着者,分类,索引等信息输入计算机从而形成古籍书目数据库,读者可以通过书名,着者等检索到某古籍的相关资料,该类型的代表是南
10、京图书馆建立的含 4JD 万条数据记录的中文古籍书目数据库.另外,北京大学和清华大学等高校图书馆也编有各自的馆藏古籍书目数据库,在一定程度上方便了读者的使用.全文型是将古籍资源全文通过手工方式录入,形成电子文本,供用户查阅.这种数据库的优点是便于阅读和检索,存储空间小;缺陷是未保持古籍原貌,文字录入难度比较大.其中台湾的汉籍全文资料库就是这种类型数据库中的佼佼者.全图像型是将古籍直接以图像格式扫描加上简单的标题和分类再存储到计算机中,这是国内采用最多的一种方式.该方式的优点是能保存古籍原貌,有助于专业学者的研究,缺点是检索不方便.例如武汉大学出版社以文渊阁本四库全书为底本,将全书 200 余万
11、页逐页扫描,并将“总目“ 手工录入,开发出“ 四库全书光盘版 “.图文型是在古籍书页图像存储基础上,将书中具有检索意义的内容数字化转为电脑可识别的文字,并辅以适当的软件工具,为读者提供快捷的检索,统计,整理和编辑功能.该方式的优点是检索快捷,原貌再现,查证方便.这种类型结合了上两种形式的优点而克服了其不足之处,是目前古籍数字化一96 一建设的最佳形式,是现阶段建立古籍数据库的首选方式.香港的汉达古籍数据库采用的就是这种形式,它可以在视窗系统上直接显示简帛图片和对照文本.4 中文古籍数字化建设技术4.1 中文古籍数据库字库建设技术在进行古籍全文数字化建设时面临最多的问题还是有关用字的问题,据查,
12、仅康熙字典收字就达 49030 个,其他古籍中含有的生僻字,异体字等就数不胜数了,这些字在现有电脑系统的字库中不存在.无论是大陆的 GB231280(信息交换用汉字编码字符集?基本集) 还是中,日,韩三国的 ISO10646 大字符集,都远远不能达到古籍的用字量.为了能够全部浏览古籍的内容,很多古籍数据库都要求下载相应的字库,例如使用香港汉达文库时,根据数据库的类型要分别下载不同的字库到本机电脑,其中甲骨文数据库须下载 ICS3 和 ICS4 字库等.另外,北京中易信息技术公司以 7 万汉字环境,ISO10646 国际标准内码,4 字节检索为核 fi,的技术,构造了中文网络应用平台 中易汉神
13、E,较好地解决了处理大汉字字符集的需要,也可以和国际互联网连接,实现全球浏览和检索 C6J.4.2 中文古籍数据库光学字符识别技术在对古籍全文数字化时,有时也用到 OCR(光学字符识别)技术 ,其中 OCR 技术运用比较成熟的是“数码翰林“ 软件 J,用该软件制作的“ 四库全书“及“四部丛刊“电子图书,文本页面保持了原书的竖排格式,增强了古籍阅读的真实感,基本实现了图文关联和阅读检索及全文检索的功能.此外,在对古籍数字化处理时,还用到一些其他图像处理软件,如 Photoshop,ACDSee 等.5 结论古籍全文数字化建设无疑是一项艰巨而复杂的系统工程,古籍数字化基本上还是以专用型为主,在实用
14、性,通用性和共享性方面还存在不足之处,建设中还有很多问题亟待信息工作者研究和探讨,信息技术的飞速发展,给古籍数据库建设和利用展现了广阔的前景.参考文献1陈阳.古籍数字化发展概述J.电子出版,2003,(8):24.2托雅.浅谈我国古籍数字化发展进程及发展方向J.内蒙古科技与经济,2004,(16):139 140.3杨虎.港台地区古籍数字化资源述略J.电子出版,2003,(8):811.4段泽勇,李弘毅 .古籍数字化的回顾与展望J.图书馆理论与实践,2004,9(2):37 39.5余述淳.古籍资源数字化建设的一些探讨J.大学图书情报学刊,2003,21(2):69 71.6北京中易郑码新技术有限公司.历史文献全文数字化难点与解决方案J.数字与缩微影像,2005,(1):1821.7包铮.让古籍数字化成为可能古籍数字化处理技术J. 数字与缩微影像,2003,(4):710.