收藏 分享(赏)

面向《天工开物》版本图像资源的知识图谱应用研究.pdf

上传人:学资料 文档编号:21202524 上传时间:2023-07-31 格式:PDF 页数:14 大小:2.46MB
下载 相关 举报
面向《天工开物》版本图像资源的知识图谱应用研究.pdf_第1页
第1页 / 共14页
面向《天工开物》版本图像资源的知识图谱应用研究.pdf_第2页
第2页 / 共14页
面向《天工开物》版本图像资源的知识图谱应用研究.pdf_第3页
第3页 / 共14页
亲,该文档总共14页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、 包 装 工 程 第 44 卷 S 1期 480 PACKAGING ENGINEERING 2023 年 4 月 收稿日期:20221213 基金项目:2018 年度全国高校古籍整理研究项目“天工开物异本图像整理研究”阶段性研究成果(1859)作者简介:谢玮(1980),女,博士,教授,主要研究方向为传统艺术设计史论、传统设计衍生与创新。面向天工开物版本图像资源的知识图谱应用研究 谢玮,衡雨,邱菊芯(扬州大学,江苏 扬州 225009)摘要:目的 提出一种面向 天工开物 版本图像的数字化资源开发,为实现该古籍数 10 种版本图像资源特征及知识图谱推理关联、主题性优化检索及功能设置和知识服务提

2、供参考。方法 构建本体架构与关联数据,选取 天工开物 具有代表性的 3 个版本资料为实证数据来源,搭建图文资料图数据库,兼顾领域本体和元数据描述 2 方面,以充分发掘利用图像知识,借助 古籍元数据规范、DC 实现元素互操作及模型运用。结论 为该古籍多版本资料的数据化转换提供新方法和思路,为设计、历史等多领域群体提供智能化知识服务,并推进古籍数字化传承及古籍图像智能化展示,在数字人文领域拓延推广范围及深度。关键词:天工开物;图像;版本;知识图谱 中图分类号:G255 文献标识码:A 文章编号:1001-3563(2023)S1-0480-13 DOI:10.19554/ki.1001-3563.

3、2023.S1.071 2022 年 4 月 11 日中共中央办公厅、国务院办公厅印发关于推进新时代古籍工作的意见,做好古籍工作,把祖国宝贵的文化遗产保护好、传承好、发展好,对赓续中华文脉、弘扬民族精神、增强国家文化软实力、建设社会主义文化强国具有重要意义1。意见 中强调了构建古籍知识服务体系,推进古籍数字化,实现古籍数字化资源汇聚共享,并做好古籍普及传播。1637 年天工开物初刻本(涂本)刊行以来,已有 10 余种中文版本,各版本文字、插图皆有所差异2,这为研读文本插图图像和探索明以前的工艺技术及工艺制作场景,解读我国古代传统工艺技术,了解古代农业、手工业发展的历史特点提供了丰富的信息,但为

4、学者带来插图引用辨析方面的困难。而目前天工开物古籍图像的数字开发处于采集图像、著录元数据、构建数据库、数据包审核发布4 个进程之中,传统检索方式仅支持用户获取图像实体与结构化信息的可视化结果,其内容组织方式仅能揭示 1 个维度的信息而弱化其他维度的内容,这对专业学者和普通用户进行图像检索与分析对比造成一定困难。本文以天工开物的代表性版本图像为研究对象,提出相关版本图像资源的梳理描述与知识组织的方法及思路,设计开发以图像及版本为核心的知识图谱检索功能,揭示知识资源之间隐含的复杂关系。基于上述思路构建天工开物图像及版本的本体模型,在此基础上完成知识图谱的实例展示,以期实现其可视化操作、检索复杂图像

5、及知识发现等应用层服务。1 古籍图像的相关研究 数字技术更新迭代,数字人文促使人文学科与计算机技术有机联结,对古籍文献的再生性保护与创新传承起到促进作用3。我国古籍数字化始于 20 世纪80 年代,历经设立中文古籍书目数据库、光盘版古籍、网络化古籍 3 个阶段4。而在早于我国古籍数字化的 10 年,已然开启对图像检索的研究方式,即涵括使用关键词对图像进行人工索引,以及基于内容的图像检索。开发古籍实体数字化多依托计算机可读字符代码形式,亦或扫描古籍文献页面的影像形式存储文献内容、支持计算机内容处理与数据库查询5,使用计算机图像检索技术用术语数据库中的术语图像模板在图像文件数据库中对所有图像进行匹

6、配,将含有相关术语的图像进行索引记录对应的编号,生成图像术语检索索引数据库。具有代表性的数据库有:爱如生中国基本古籍库 鼎秀古籍 瀚堂典藏 雕龙古籍数据库 文渊阁四库全书(电子版)书同文中国历代石刻史料汇编 书同文四部丛刊 书同文大清历朝实录 大成故纸堆 爱如生中国方志库 中国数字方志库 国学宝典第 44 卷 S1期 谢玮,等:面向天工开物版本图像资源的知识图谱应用研究 481 汉籍数字图书馆和中华经典古籍库等6,涵括图像型、文本型和图文型 3 类。大部分数据库通过库、类、目的树形结构进行定向分类浏览及检索7。汉籍数字图书馆 提供多种分类方式,其他皆提供 1 种。分类大多采用传统古籍的四部分类

7、法,少数根据子库进行分类,如雕龙古籍和书同文古籍由很多子库组成。大成古籍则按照首字母分类。中国基本古籍库依托其自创分类模式,即哲科、史地、艺文、综合四库,以便于不熟悉古籍四部分类法的用户进行查阅。该库功能最为全面,其独有的版本对照功能,将同书异本视为 1 条数据,支持不同古籍版本的图像进行同屏比对,为版本学家的研究提供便利。现阶段的古籍数字化是以对古籍文献资源信息进行语义标注与链接,借助这一知识图谱结构基础性平台,满足对用户的古籍文献目录知识化资源语义集成服务8。现已具备的数据库提供的关联检索与辅助检索功能尚处在嵌入知识工具的阶段,近年以图像为载体的知识关联网络开始应用于文物领域、传统工艺领域

8、,而古籍图像领域仅有个别专业知识领域依托知识图谱技术建立古籍图像知识关联网络。故而,将知识图谱构架于古籍图像,同时依托现有语义标注和链接,深入到古籍内容的图文层面,由于古籍文献的特殊性,同一古籍在传延过程中拥有多种版本,元数据的图像信息尽可能全面准确,如若为后人的刻本,原始版本的图文信息也应进行有效标引6,以提供多种形式的结果统计,增加并完善结果的元数据批量导出功能。2 图像及版本研究设计与方法架构 作为 1 种知识库表示方式,融合了语义体系和关联数据的知识图谱,其技术依托语义网络,由知识本体框架与三元组实例共同构建。天工开物图像及版本知识图谱更加强调本领域知识深度及其逻辑结构,面向用户集中于

9、有传统手工艺技术和设计学专业检索需求的群体,该知识图谱具备垂直知识图谱属性,其知识覆盖范围集中且领域单一。不同版本(简称异本)图像知识图谱检索系统的构建通过 3 个层次,分别为:数据层(以用户需求为导向)、功能层(以图像知识挖掘为导向)和应用层(以智能化知识服务为导向)。构建流程依次为数据来源、数据采集、信息抽取、知识表示、知识融合、知识加工存储和知识应用。其中古籍版本图像和母体文献数据来源于第三方古籍数据库,这构成了非结构化数据,所要获取的图像需要人工从 天工开物 不同版本中单独选取保存,母体文献文本亦需要有针对性地录入储存,与此同时借助人工完成碎片化和数据标注。在进行知识链接与融合前需根据

10、文本、图像信息进行实体抽取、关系抽取和属性抽取产生知识表示,形成 RDF 本体模型三元组,同时对三元组数据进行知识融合,并利用Python 将形成的数据导入 NOSQL 图形数据库(Neo4j)形成知识图谱。在服务应用的层面上,利用 SPARQL 用于对数据的获取与管理,完成、优化知识检索。天工开物异本图像知识图谱构建思路见图 1。图 1 天工开物异本图像知识图谱构建思路 482 包 装 工 程 2023 年 4 月 2.1 天工开物异本图像知识服务需求 天工开物异本图像数字化可方便相关用户群体与社会大众,借助知识图谱聚合重构知识元素,利用图像和母体文献数据的知识提取,将该古籍异本图像分散的知

11、识元素进行深度序化组织,并关联外部异构知识源,从而形成一个具备拓延、共享和聚合的有机体,为用户使用基于知识图谱的检索与服务功能,提供有针对性的知识获取路径。本文选择具有 天工开物 代表性的 3 个版本插图作为采集图像的来源,插图对于“人物环境”进行细致描摹。书中插图兼具“插图”与“图像”双重意义,成为能够窥探晚明社会景观和艺术创作的镜像,为后人研究古代工艺技术提供图像参考9。研究所选底本为明崇祯十年(1637 年)涂伯聚原刊本(涂本),并选取清初杨素卿坊刻本(杨本)、武进陶湘1927 年刊石印线装本(陶本)为参照。在上述诸版本中,涂本作为初刻本,是诸多版本所附插图最早的源头,杨本作为清初翻刻本

12、,以涂本为底本进行刊刻,该版本与涂本存在差异,杨本为涂本之后最早的版本,也是清代唯一刊行的版本,对于进行后世版本校勘具有较高的参考价值,因此将其列为对照版本之一。陶本则刊印于民国时期,与前两者差异较高,所附插图尤甚,其打乱了天工开物初刻本原有的插图体例,附着了时代特有的文化、印刷技术、审美等印迹,陶本图像源流与差异的问题也是值得关注、探讨的对象。以上 3 个版本分别对应了明代、清代、近代 3 个不同的历史阶段,且为其后天工开物诸多版本的参照对象,也是学者引辨最多且容易混用的 3个版本,可见“图像古籍版本”互证在学术研究中的重要性。本文涉及基础图像 400 余幅。天工开物所择选 3 个版本所共同

13、具有的插图共计 123 幅,其中杨本缺 3 幅,分别为粹精第 4 卷“木砻”“场稻”,与佳兵 第 15 卷“张弩”。陶本共计 160 幅插图,陶埏第 7 卷中“瓦坯脱桶”与“造瓦”合并,佳兵第 15 卷中“端箭”丹青第 16 卷中“取流松液”和珠玉第 18 卷中“没水采珠船”被拆分为 2 张,乃服第 2 卷较另外 2 个版本多出 1 幅“治丝图”与 1 幅“纺缕图”,其余多出的 33 幅插图,为陶本特有,其乃粒 乃服 粹精卷插图主题集中在农桑门类。陶本插图有部分以其他古籍为参照,其参照版包括东鲁王氏农书 农政全书 钦定古今图书集成 等10,因此在数据采集过程中,通过类推比对将其对应的插图筛选出

14、来一同进行收录。除乃粒乃服 粹精3 卷外,作咸卷陶本多出插图图像出自清光绪本四川盐法志等,另有部分陶本多出图幅是由原版拆分所得。所择天工开物的 3 个版本是一个具有内在逻辑关联性的知识领域,是在纵向历史中反思和总结学术,解读“图像等于阅读”的文化意义。每个版本的图像不再是独立的自性存在,而是历史坐标中的关联性存在。故而,从用户对检索功能的需求性和可行性角度看,天工开物异本图像知识发现及知识检索系统构建具有重要作用。天工开物 异本图像知识图谱检索系统拟将“图像母体文献版本”通过知识图谱形成关联网络,鉴于现有古籍数据库中获取的高质量图像版本多样,且难以针对图像进行检索,而网络搜索引擎检索出的图像质

15、量参差不齐,多作为知识储备和引导这一现状,本研究尽量做到检索明晰图像内容、甄别版本来源,提供快捷、精准、全面的图像获取。2.2 搭建核心元数据及本体模型 天工开物异本图像知识图谱的搭建,首先将代表性版本的图像和母体文献实体转换为计算机可识别知识,之后将实体进行相互关联,构筑网状知识结构,这一设计构建的知识本体模型,利于天工开物知识的组织与共享,且利于学者规范揭示该领域知识的本体概念、属性及关联。相较于传统树形结构下的检索与导览方式,其组合性强、灵活度高,通过推理可实现用户关于天工开物任一主题概念检索。本文通过本体框架结构构建知识图谱,本体模型将源数据层形成的关系型数据库进行实体抽取,并存储于数

16、据库中,基于 RDF(S)三元组表示法,即 G(三元组)Entityhead(头实体),Relation(关系),Entitytail(尾实体),可 实现实体描述信息的灵活添加与存储,并关联分散的图像数据资源,充分显示网状结构的优势,全方位展示图像的知识结构与技术脉络,协助用户深度挖掘隐性知识。在进行 RDF 数据格式转换前,需要进行属性的构建,并借助库中内置模块进行内容类型与节点的设计,RDF(S)涵括 RDF 和 RDF Schema,这一模型框架用于对语义网内容进行规范化描述,以图存储模式中的 Neo4j 图数据库为主,该图数据模型的主体就包含“节点”“边”(N-E)、“节点属性”“边属

17、性”(K-V),明确列出数据节点之间的依赖关系,该结构可包容大量中间态数据,该基本模型是有向标记的多边关系图,图中“节点”表示实体或资源,“边”表示实体间关系或实体属性11,通过不同“节点”与“边”关联约束,“节点”通过带标记的有向直线相连,借助“节点”间的语义关系进行推理,可实现数据查找、访问、交互、使用。鉴于原始数据具有垂直领域的特殊专业性,其对知识专业性要求高,应更加注重人工构建时概念之间的体系结构。故而,实体抽取时尽可能处理差异化信息,将在图书馆学、版本学、设计学、传统手工艺领域专家指引下,指定图像及母体文献实体的元数据标准,划分出“天工开物代表性版本图像(图像)”“母体文献(文献)”

18、2 类实体,并依据古籍元数据规范12古籍类专门元数据规范 和古代传统手第 44 卷 S1期 谢玮,等:面向天工开物版本图像资源的知识图谱应用研究 483 工艺知识,对核心元数据遵照以上 2 个规范和 文物数字化保护元数据核心元素应用指南 中的要求进行著录、取值,同时也根据天工开物异本图像特点扩展部分著录细节要求。手动抽取出 9 个核心元数据属性和 11 个子属性,即数据属性(Data Property),如“图像题名”“主要责任者”“出版者”“日期=创作时间”“版本类别”“正文”。对象属性(Object Prop-erty),如“题名”层次化分解“题名,章节题名”一二三级;“载体形态”层次化分

19、解“装订方式,图数,图幅”;“载体形态”层次化分解“工具(一级、二级),二级),技术(一级、二级),动能,原料,工序”。如此,以便后续设置属性与实体关系。在此基础上,采用手工方法进行“图像文献”本体框架设计,呈现出从属(subordinate)关系的图像(中 心 实 体)与 文 献 为 2 类实体,文献补充了图像无法直接显示的元数据属性13。实体属性(Property)分为图像和文献直接包含的内容性属性(Inc:)和图像不包含但文献包含的,以及需要根据专业知识分析归纳的描述性属性(Des:)14。知识图谱结构的“天工开物图像文献”本体框架设计见图 2。图 2 知识图谱结构的“天工开物图像文献”

20、本体框架设计“图像题名”“题名”归并关系于“来源”,与版本信息通过从属的文献来确定,“日期”标定“出版者”刊刻该书籍的纪年信息,“章节题名”“正文”提到的“工艺技术”中“工具”“技术”“工序”“动能”“原料”等表述模糊的内容通过图像作补充,以此呈现实体之间的描述关系(describe)。鉴于属性与属性存在层级逻辑,属性“工艺技术”下设“技术”子类,“耕地”“机织”“碾压”“汲卤”等皆为“技术”子属性的属性值。“出版者”“版本类别”的属性值主要通过文献扉页或序言中体现的版本信息进行抽取,“载体形态”的属性值通过所选的 3 个代表性版本进行逐图逐条目图像抽取。图像符号和文字符号组成“图像内容”。抽

21、取同时,实体间关系的名称进行归并,具体为“出版者,版本类别,载体形态”归并关系于“版本信息”“图像题名,题名,主要责任者,日期,出版者,版本类别,载体形态,工艺技术(工具、技术、工序、动能、原料),正文”归并关系于“描述”,并借助约束性(相同,不同)增加关系属性。2.3 设计“实体属性属性值”三元组 通过第三方古籍数据库来源获取的结构化数据,需经过清洗剔除无效数据以实现标准化转换,完成关系抽取;半结构化数据和非结构化数据需完成实体抽取和属性抽取,并借助人工标注校正“图像题名”“题名”“主要责任者”“日期”“出版者”“版本类别”“载体形态”“工艺技术”和“正文”。以上元数据人工标注中“图像题名”

22、的标注来源为母体文献的章节题名及正文、图像,其人工标注规则为选择图像内容中的文字文本作为标注和以图像所属章节题名作为标注。“题名”“主要责任者”“日期”“出版者”“版本类别”5 类的标注来源为母体文献扉页、内页以及其他数据库中录入的出版者相关信息,其人工标注规则为选择正题名进行标注,参照母体文献的“序”末和出版物中的主要责任者、日期以及其他数据库中录入的出版信息。“载体形态”“工艺技术”的标注来源均为母体文献与图像内容,“载体形态”人工标注规则依据文484 包 装 工 程 2023 年 4 月 献内容进行标注,“工艺技术”人工标注规则由专家根据图像内容进行标注,并参考专家结合母体文献的章节标题

23、和正文进行补充。“正文”的标注来源为母体文献,其人工标注规则为图像相关的描述性正文,即将无法录入的文字作为图像补充入正文中。“工艺技术”“载体形态”主要为人工标注对象,“工艺技术”属性值需从“正文”中抽取,天工开物中的“牛转翻车、人车”,从正文中可抽取“动能”(牛力、人踏)、“工具”(龙骨、转盘、木板)和尺寸(长者二丈,短者半之)。“载体形态”属性值需从母体文献对应的版本类别手动抽取,如“牛转翻车、人车”题名下分别对应“牛转翻车”图和“人车”图,在其对应的 3 个版本中,“牛转翻车”图初刻本(涂本)图数 2 幅、为横构图,坊刻本(杨本)图数 2 幅、为横构图,石印本(陶本)图数 1 幅、为竖构

24、图;“人车”图初刻本(涂本)图数 2 幅、为横构图,坊刻本(杨本)图数 2 幅、为横构图,石印本(陶本)图数1 幅、为竖构图。文本数据依次处理好后,即可在 RDF下转化成数据层的“实体属性属性值”三元组和数据层的逻辑架构。从图像与母体文献中抽取的属性值可能出现名称不一致的现象,如图像题名中“人车”在初刻本(涂本)、坊刻本(杨本)中名为“人车”,在石印本(陶本)中名为“踏车”,其图像指代一致。正文中“牛车”“牛转翻车”“牛力转盘”指代相同器物。因此,需进行整合、加工、消歧等知识融合操作,将相同指代的不同名称进行对齐。知识元素经实体链接后加入知识库,实现知识合并15。“牛转翻车、人车”数据层的“实

25、体属性属性值”的逻辑架构见图 3。图 3“牛转翻车、人车”数据层的“实体属性属性值”的逻辑架构 与此同时,实体的并列关系和实体之间上下位(IsA)关系抽取均基于属性的概念分类。以图像“牛转翻车、人车”为例,借助文献学及古代水利技术的概念分类知识,指定 3 个公共上位词16,分别是从属母体文献主题“天工开物”(牛转翻车、人车,IsA,天工开物)、技术为“灌溉”(牛转翻车、人车,IsA,水车),工具为“龙骨”(牛转翻车、人车,IsA,转盘)。正文展开分别为:天工开物(涂本)天工开物(杨本)和天工开物(陶本)正文相同,内容为“其湖池不流水,或以牛力转盘,或聚数人踏转。车身长者二丈,短者半之。其内用龙

26、骨拴串板,关水逆流而上。大抵一人竟日之力,灌田五亩,而牛则倍之。”东鲁王氏农书“人车”“其车之制,除压栏木及列槛桩外,车身用板作槽,长可二丈,阔则不等,或四寸,至七寸,高约一尺。槽中架行道板一条,随槽阔狭,比槽板两头俱短一尺,用置大小轮轴。同行道板上下通周以龙骨板叶。其在上大轴,两端各带拐木四茎,置于岸上木架之间。人凭架上,踏动拐木,则龙骨板随转,循环行道刮水上岸。”当然,本体的构建对于资源的组织极为重要,其设定关系到领域内知识的开放共享,因此对资源本体模型进行设计从而实现对多种类型数据的集成极为重要。2.4 设计本体知识加工储存与实体路径关系推导 天工开物图像及版本本体模型与知识信息库经过知

27、识融合,形成关联数据资源,在本体模型构建的基础上,将前序经过实体抽取并通过质量评估的结构化数据资源导入 Neo4j 图数据库,作为数据仓储完成知识图谱的实例构建,Neo4j 图数据库是适应Web2.0 环境下产生发展的基于 J AVA 的开源图形数据库,其数据类型支持 Graph DBMS 和 Document store,适合多种主流操作系统,支持事务操作,具备外键支持,通过 Python 语言和 Cypher 命令句对 Neo4j进行读写。Neo4j 拥有节点,属性、关系,资源数据的存储集中在“节点”及“边”的构建上,即添加实体及各实体间关系,旨在实现便捷高效地搜寻不易挖掘的复杂结构数据节

28、点。实体作为节点,链接节点的边代表不同实体间的相互关系。不仅可通过“图像文献”关联其他图像,还可借助其他描述性信息,如“相同题名”“相同技术”“相同载体”“相同日期”等方面进行聚类,推导实体间的路径。如以题名所涉第 44 卷 S1期 谢玮,等:面向天工开物版本图像资源的知识图谱应用研究 485“人车”“踏车”“筒车”“翻车”“拔车”图像为例,天工开物(涂本)、天工开物(杨本)、天工开物(陶本)、东鲁王氏农书均包含该图像,利用知识图谱可以推导相同技术为“灌溉人力脚踏灌溉”“灌溉牛力带动龙骨传送灌溉”“灌溉人力手摇灌溉”;涉及工具一级为“灌溉器械”、工具二级为“灌溉”“排涝”“汲水”等,工序/生产

29、流程为“中耕”,动能“人力”“牛力”“水力”,涉及装订方式:线装;“人车”或“踏车”图数:涂本 2、杨本 2、陶本 1、王氏农书 1,构图分为竖构图、横构图等信息。图像题名路径下的知识图谱见图 4。RDF 三元组数据转换与存储管理是实现 RDF 抽取、转换和加载(ETL)的流程化和集成化,在安装anaconda 的环境下,利用 pycharm 存储将数据存储到neo4j 图形数据库中(先用 pandas 对文件进行读取、再分别抽取多类属性的节点,再抽取关系。随后以此将属性节点、关系导入 neo4j 的数据库中,即可形成知识图谱),具有高度的可定制性和灵活性,为RDB2RDF 映射定义出系统的逻

30、辑框架,可支持转换流程、结果愈加标准化,并支持多种数据输入格式与输出格式,且开放源代码的工具更易于使用者接受,本文借助 R2RML 完成关系型数据转换储存12。实体间路径的长短决定推导的范围,节点间的链接权重代表联系的强度,以图像“布灰种盐”为例,通过多维度关系路径生成知识图谱节点图像“布灰种盐”的母体文献及基本出版信息节点之间路径短,属 图 4 图像题名路径下的知识图谱 于近距离推导;通过边“技术一级”“技术二级”“原料”和“工具”连接到其他图像节点,路径长度长,则属于远距离推导,表示与该图像发生关联的内容数量越多,涉及“淋水先入浅坑”“海卤煎炼”“池盐”“蜀省井盐”“量较收藏”“下石圈”“

31、汲卤”“场灶煮盐”“井火煮盐”“川滇载运”图像。可见该图谱呈现出可视化结果展示的重要信息,从其聚合网络中可以看出图像间的交互关系,便于向用户提供深度检索、智能推送。图像实体路径关系推导见图 5。图 5 图像实体路径关系推导 486 包 装 工 程 2023 年 4 月 3 建构知识图谱的天工开物图像检索应用 天工开物图像及版本知识图谱搭建的知识服务平台,作为信息互联、知识共享的知识库,拥有多重路径的知识检索功能,预计完成平台流程。其知识图谱的应用主要集中在通过关键词与组合方式的语义检索、应用视觉特征间的相似性度量之传图识图检索、运用知识图谱拟定主题的检索,为后续知识推荐与决策等服务。浏览用户检

32、索流程见图 6。3.1 基于知识图谱的普通检索 基于知识图谱的普通检索属于重量级语义检索,旨在从语义层次上理解用户的检索需求,能够对语义进行显式与形式化建模。用户利用知识图谱中的节点,浏览包含图像和文字数据的资源,寻找与之匹配的实体信息。天工开物知识图谱中不同图像涉及的工艺技术特征具有重合度非常高的内容(技术、工具、工序、工具与技术同名),呈现出非常大的关联度,在节点与节点、节点与边的关系上可以进行深一步的知识推理和表征。鉴于本知识图谱单一“实体”具有多个“属性”和“属性值”特征,故而在检索中可增设描述性词汇来约束范围,实践推理,借助实体列表以及筛选出的结果等信息细化,通过结果筛选亦或查看图像

33、信息推理呈现可视化结果。基于知识图谱结构的普通检索流程见图 7。图 6 浏览用户检索流程 图 7 基于知识图谱结构的普通检索流程 3.2 基于属性约束的知识图谱检索 属性约束的知识图谱检索以“节点”和“边”的形式对 天工开物 图像及版本知识进行细粒度展示,实现可视化展示和知识查询。天工开物“工艺技术”的属性值层次化分解见表 1。表 1 呈现了天工开物“工艺技术”的属性值层次化分解,“工艺技术”是重要的核心元数据属性,其类型属于 Object Property,包含多项子属性(技术、工具、动能、原料、工序),借助“工艺技术”中任一子属性单一或组合约束,可进行智能化知识图谱检索应用。第 44 卷

34、S1期 谢玮,等:面向天工开物版本图像资源的知识图谱应用研究 487 表 天工开物“工艺技术”的属性值层次化分解 属性值 Attribute Values 子属性 subPropertyOf 一级 sub_frist-level 二级 sub_sccond-level 三级 sub_third-level 稻工 土地处理 翻土、碎土、培土 水利 灌溉 橛坡障水、柳椿、闸、水枧、岸,脚踏灌溉,牛力带动龙骨传送灌溉,排涝,杠杆汲水,障流引水,池塘储水 麦工 播种 掘地与播种,压土埋麦,牟麦,锄草 索绪 单缴,双缴 缫丝 卷绕,收丝,络丝,并捻 机织 牵经,穿经,引纬,上浆,平素,提花 击打 脱秆,

35、打枷脱粒 石碾 稻谷脱粒,脱壳,石磙碾米 筛选 去壳、去糠秕,筛谷 粮食加工 磨面、舂米、罗面 制盐 引池种盐,凿井取盐 先日撒灰、日中扫盐,淋洗、煎炼盐,煮盐 制糖 榨蔗取浆 熬煮、凝固 陶埏 造瓦,制砖成坯,浇水转釉,烧窑,轮制拉坯,整形,沥干,过刀,挂釉塑模 灌注铁水 冶铸 模具凿锲 冷淬、锉磨 锤锻 锤炼 技术 造竹纸 蒸煮漂洗,荡竹入帘,覆帘压纸,透火烘干,人力 手摇,脚踏,挖掘 水力 风力 火力 动能 畜力(牛力、驴力)原料 稻、麦、草、茧、丝、棉花、棉絮、蚕种、蚕、蚕丝、小米、豆、谷、盐、甘蔗、陶土、泥、瓷、铁、铜、银、铅、锡、蛎、煤、硫磺、砒石、蓖麻、苏麻、桕、桐、竹、楻、礁砂

36、、炉甘石、火石、火镰、硝石、朱砂 例举 天工开物 第 1 卷乃粒、第卷粹精的“工艺技术工具”“工艺技术动能”“工艺技术原料”属性值层次化分解进行展示。第 1 卷乃粒主要论述水稻、小麦的种植、栽培技术和各种农具、水利机械,旁及黍、稷、粟、菽等谷物;第 4 卷粹精主要论及水稻、小麦的收割、脱粒及加工成米面的技术及工具,旁及其余杂粮的加工。以上两卷涉及工具、动能、原料诸多子属性的交叠,便于通过“边”链接图像节点。这一检索可以在探究天工开物传统耕作技术时进行一定范围的横向拓展,通过增设其他属性约束“章节题名”“原料”信息可以探索相关图像的纵向演变;通过“版本类别”可以明确引用图像之版本、辨析不同版本间

37、图像的差异性。天工开物乃粒、粹精的“工具”“动能”“原料”子属性值层次化分解见表 2。以“麦工”涉及的“北耕兼种图”“北盖种图”“南种牟麦图”3 幅图像为例,其关联工具为耧车、砘车、竹篓、锄具,将图像实体路径关系推导的优先顺序设置为“三级属性二级属性”,并设定三级属性值为“播种:掘地与播种,压土埋麦,牟麦”,并得到以“工艺技术”为关系路径的技术知识图谱,获得的知识图谱。“北耕兼种图”“北盖种图”“南种牟麦图”工艺技术工具路径关系推导见图 8。以“工具”第一层级“灌溉器械”“耕地器械”“栽培器械”“清选器械”为例,并设定“工具”“版本类别”属性约束,可以推导不同耕作阶段工具的发展演变过程。以关系

38、属性“工具”连接的节点图像的时空延续性为例,将耕作工序、动能、原料等进行关联,由此窥见其间存在的知识关联延续性。“栽培器械”“耕地器械”工艺技术工具路径关系推导见图 9。另外,可依托关系属性“工序/生产流程”或“原料”连接的节点图像为例,例举耕作工序,将耕种、中耕、清选、脱粒、加工进行聚类,可关联天工开物 涉及的相关图像,且为后续相关耕作图像展开进行铺垫。原料“稻”可关联乃粒卷与精粹卷,原料“瓷”关系属性例可关联陶埏卷,这些例证可聚类得出原料演变关系推导。“耕作工序”工序/生产流程路径关系推导见图 10。488 包 装 工 程 2023 年 4 月 表 天工开物乃粒、粹精的“工具”“动能”“原

39、料”子属性值层次化分解 属性值 Attribute Values 子属性 subPropertyOf 一级 sub_frist-level 二级 sub_sccond-level 三级 sub_third-level 稻工(耕)耕地器械 牛轭、耕槃、耕索、耒耜 稻工(耙)耕地器械 方耙 稻工(耔)耕地器械 木杖 稻工(耘)耕地器械 漏锄、薅马 水利(筒车)灌溉器械 水转筒车 水利(人车)灌溉器械 人踏水车 水利(牛转翻车)灌溉器械 牛力转盘、龙骨水车 水利(拔车)灌溉器械 手摇拔车 水利(桔槔)灌溉器械 吊杆、吊井 麦工(北耕兼种图)播种器械 耧车 麦工(北盖种图)播种器械 砘车 麦工(南种牟

40、麦图)播种器械 竹篓 麦工(耨)耕地器械 锄具 水利(水栅)灌溉器械 水栅 水利(水闸)灌溉器械 水闸 水利(陂塘)灌溉器械 陂塘 水利(水转翻车)灌溉器械 水转翻车 水利(高转筒车)灌溉器械 高转筒车 水利(戽斗)灌溉器械 戽斗 水利(辘轳)灌溉器械 辘轳 攻稻(湿田击稻)场上作业工具 木桶 攻稻(场稻)场上作业工具 石板 攻稻(赶稻及菽图)场上作业工具 石碾 攻稻(木砻)清选器械 木砻 攻稻(土砻)清选器械 土砻 攻稻(风扇车)清选器械 风扇车 攻稻(舂)粮食加工器械 杵臼、踩碓 攻稻(水碓图)粮食加工器械 水碓 攻稻(牛碾)粮食加工器械 石碾 攻麦(水磨)粮食加工器械 石磨 攻麦(面罗)

41、粮食加工器械 面罗 攻黍、稷、粟、梁、麻、菽(小碾图)粮食加工器械 石墩 攻黍、稷、粟、梁、麻、菽(打枷图)场上作业工具 竹木竿 攻稻(筛谷)清选器械 筛谷箉 攻稻(飏扇)清选器械 扬谷器 攻稻(砻)清选器械 扬谷器 攻稻(碓)粮食加工器械 杵臼 攻麦(磨)粮食加工器械 石磨 攻麦(砻磨)粮食加工器械 石磨 攻稻(水碾)粮食加工器械 石碾 攻稻(击麻)场上作业工具 掼、箪 工具 攻黍、稷、粟、梁、麻、菽(簸扬)场上作业工具 簸箕 人力 手摇,脚踏,挖掘 水力 风力 火力 动能 畜力 原料 稻、麦、草、小米、豆、谷 第 44 卷 S1期 谢玮,等:面向天工开物版本图像资源的知识图谱应用研究 48

42、9 图 8“北耕兼种图”“北盖种图”“南种牟麦图”工艺技术工具路径关系推导 图 9“栽培器械”“耕地器械”工艺技术工具路径关系推导 以关系“图像来源”为边链接图像节点,将节点概念的层次结构图形化,可用知识图谱明确区分天工开物图像版本,通过可视化结果反馈给用户,令用户更准确获取相关知识。由于当代研究学者引用图像时,来源不仅限于清代及清代以前的古籍,也涵盖民国至当代的出版的书籍和影印版古籍。因此,版本关系检索时,时空范围延续至当代,并在限定的天工开物母体文献版本之外进行拓延,以关联相关图像信息,“图像来源”路径关系推导见图 11。490 包 装 工 程 2023 年 4 月 图 10“耕作工序”工

43、序/生产流程路径关系推导 图 11“图像来源”路径关系推导 第 44 卷 S1期 谢玮,等:面向天工开物版本图像资源的知识图谱应用研究 491 4 设计提取天工开物图像背景特征的检索应用 在建构知识图谱的 天工开物 图像检索应用中提升应用视觉特征间的相似性度量之传图识图检索,则需设计提取图像背景特征的检索,也能从局部中窥探全貌。4.1 基于图像背景描述的语义图像检索架构 异本图像背景细节标注,需先人工标注一定量的图像背景并对其类别数据进行聚类,再应用最近邻法自动标注剩余图像背景。借助语义图像检索 SBIR,融合数字图像处理、计算机视觉、模式识别等技术,图像特征包括文本(语义)特征和视觉特征(如

44、云朵、山峦、树木、田、房屋等),视觉特征描述图像背景信息,利用图像特征进行相似性度量,完成图像匹配与检索17。在天工开物图像的背景中,本体对象作为图像中具有独立意义的个体,如云朵、山峦、树木、田、房屋等。本文将描述本体对象特点的一些词汇整理成1 个词库,应用日常生活中积累的知识把词库中的一些描述与图像的本体对象形成映射。如物类特征:山峦(远、近)、云朵(繁、简)、树木(繁、简)、田(远、近)、房屋(繁、简)等特征来细化表示。将一幅图像分割为若干区域,对每一区域位置(垂直、水平)、大小等进行特征描述,强调该图像视觉特征与图像描述对象间的对应,在天工开物单幅图像背景中,可能同时出现云朵、山峦、树木

45、、田、房屋,亦或其中几类特征的组合,图像区域的本体通常只有一个概念表示,特征、位置、大小组合的描述对应相应的语义内涵。本体对象语义描述见图 12。图 12 本体对象语义描述 继而,应用 CK(概念语义关键词)关系网,描述图像特征之间的模糊关系,应用德尔菲法、模糊统计相结合的方法计算关键词与其对应概念间的隶属程度及相关性,再通过综合分层图像检索,分别关注图像区域视觉特征的相似点,本体概念的一致性,本体概念所表达内涵的相似度。不同关注点的检索可以满足用户多样检索需求。CK 关系网见图 13。图 13 CK 关系网 4.2 天工开物图像及版本综合检索结果 以天工开物“乃粒”卷为例,针对其图像区域特征

46、提取和概念标注之后进行检索。该卷所附插图图像包括耕、耘等种植技术,筒车、牛转翻车等水利机械,以及对耨等农具的图示,天工开物图本与杨本共计 13 幅插图,且一一对应,而陶本在前两者的基础上多出水栅、水闸、陂塘、水转翻车、高转筒车、戽斗、辘轳 7 幅,且都属于水利灌溉工程或用具,在正文中,只有些许文字提及了辘轳,其他图片没有任何对应文字,且唯一提到辘轳,也仅“用桔槔、辘轳,功劳又甚细已”一句,因此,这 7 幅图片基本与天工开物原书没有关联性,经知识图谱关联,陶本所附图示与 钦定古今图书集成 有诸多相似之处,这也是陶本所附插图与涂本、杨本插图差异甚大的原因所在,陶本文末附一跋语,其称“菅生堂本附图粗

47、劣简略,已失宋氏之真,今据图书集成所载临摹重印,俾复旧观”,可知陶本并未以天工开物已有版本的插图作为参考,而是以其他的古籍所附农事插图为主要参考对象。但钦定古今图书集成所附插图也并非原创,而是参考自其他古籍。在此书面世之前,又有一东鲁王氏农书中农器图谱所附插图与之类似,且钦定古今图书集成中部分农书类的图文信息多与东鲁王氏农书相吻合。已知陶本天工开物刊印于 1927 年,明嘉靖东鲁王氏农书刊印于 1530 年,而清雍正钦定古今图书集492 包 装 工 程 2023 年 4 月 成刊印于 1726 年,形成了较为合理的时间线。通过比对可知,涂本作为天工开物初刻本,其绘画技术并不复杂,运用白描的手法

48、来展现人物神态和工艺场景,其画风朴拙、直观真实,能够切实体现出意图表达的古代农业、手工业等生产方式、生产技术与工具。在大方向上,涂本、杨本刊印时代较近,二者图像画风、内容基本保持一致,杨本插图多数对涂本进行原样复刻,其与涂本一样运用线条勾勒,但杨本更注重线条作用,绘制风格简约,但在部分图像中,出现了构件、人物缺失,或是曲解插图原意等问题,在背景的刻画上也有较为明显的简化,另外,因朝代的更替,图本插图中人物多为明代发饰、服饰,样本中人物的发型与衣着出现了改动,更偏向清代,但在画面内容、构成元素、整体布局方面未有过多变 动。与涂本、杨本对比较为明显的为陶本,陶本插图在数量上即与前二者相距甚远,杨本

49、图像编排方式与图本差异并不大,缺少的图像或属于缺印、漏印之故,陶本不然,其非但对图本所附图像进行拆分或合并,更在原版基础上多出 33 幅陶本独有的插图。除却图像数目,较之于涂本、杨本,陶本所附图像在画面风格、内容、构图、构成元素等方面都有明显的差异,画面元素更贴合民国时期插图风格,多以丰富的背景为陪衬,且更讲究透视关系。通过知识图谱关联,可推导出陶本所附图像皆出于其他古籍,包括农书 农政全书 钦定古今图书集成 钦定授时通考四川盐法志等。翻刻对象多样,带有民间艺人的画风,根据图像考悉与文献关联。陶本 天工开物所附插图形成路径见表 3。表 3 陶本天工开物所附插图形成路径 5 结语 以知识图谱表达

50、古籍图像领域,为天工开物图像及版本研究和知识服务拓展了新方向。本文的研究一定程度上突破了传统数字人文单一化和细粒度的方法局限,深度挖掘了图像关联的知识表示方式,构建具有多粒度、多角度的知识表示框架,运用“图像文献”本体框架结构间的内在关联,借助增设元素节点进行扩展,从多重维度呈现实体间的相关性,以便推理知识关联,增强检索系统与用户的交互体验。总之,该图像知识图谱的架构设计为 天工开物1 类古籍图像及版本的研究与知识服务提供 1 种全新、量化、动态的视角。作为学习新知识的媒介,对整个古籍图像领域的资源整合和知识共享均提供了创新性的实践经验,为人文学科的交叉研究和融合发展奠定知识资源基础18。参考

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报