收藏 分享(赏)

自动化构建的中文知识图谱系统.pdf

上传人:精品资料 文档编号:10292439 上传时间:2019-10-28 格式:PDF 页数:6 大小:1.02MB
下载 相关 举报
自动化构建的中文知识图谱系统.pdf_第1页
第1页 / 共6页
自动化构建的中文知识图谱系统.pdf_第2页
第2页 / 共6页
自动化构建的中文知识图谱系统.pdf_第3页
第3页 / 共6页
自动化构建的中文知识图谱系统.pdf_第4页
第4页 / 共6页
自动化构建的中文知识图谱系统.pdf_第5页
第5页 / 共6页
点击查看更多>>
资源描述

1、Journal of Computer Applications 计算机应用,2016,36(4):992996,1001 ISSN 10019081 C0DEN JYIIDU 20160410 http:wwwjocaan 文章编号:10019081(2016)040992-05 DOI:1011772jissn1001-90812016040992 自动化构建的中文知识图谱系统 鄂世嘉。,林培裕,向 阳 (同济大学电子与信息工程学院,上海201804) ( 通信作者电子邮箱eshijia1218vipqqcorn) 摘要:为解决当前中文知识图谱构建的准确率低、耗时长且需要大量人工参与的问题

2、,提出一种端到端基于中 文百科数据的完整中文知识图谱自动化构建解决方案,并在此基础上开发实现了面向用户的中文知识图谱系统。在 此方案中,通过自定义的网络爬虫,原始百科数据的词条属性以及相关的文本信息会不间断地被抓取到本地系统中, 并以带扩展属性的三元组形式保存。后端系统则自动通过图数据库Cayley以及MongoDB数据库系统,对三元组文件 数据进行导入,转换为庞大的知识图谱系统,从而在前端为用户提供丰富的基于知识图谱的应用服务。通过与其他 知识图谱系统的比较,该方案在构建时间上明显减少,并且知识图谱中的实体及关系数量总规模高于YAGO、知网 (HowNet)和中文概念词典等中文知识图谱系统至

3、少50。 关键词:知识图谱;网络爬虫;三元组文件;知识库;图数据库 中图分类号:TP3115 文献标志码:A Automatical construction of Chinese knowledge graph system E Shijia ,LIN Peiyu,XIANG Yang (College of Electronics and Information Engineering,rongii University,Shanghai 201 804,China) Abstract:To solve the problem that the methods currently used

4、 to construct Chinese knowledge graph system are time consuming,have low accuracy and require a lot of manual intervention,an integrated endtoend automatically constructed solution based on rich data from Chinese encyclopedia was proposed,and a useroriented Chinese knowledge graph was implementedIn

5、this solution,some property and related text information of the original encyclopedia data were scraped to local system uninterruptedly by the custom Web crawler,and saved as a triple with extended attributesThrough graph oriented database Cayley and document-oriented database MongoDB,the data in th

6、e archived triple files was imported in the backend system,and then converted to a huge knowledge graph system in order to provide various services dependent on the Chinese knowledge graph in the frontend systemCompared with other knowledge graph systems,the proposed system significantly reduces the

7、 construction time;moreover,the number of entities and relations is at least 50higher than that of the other knowledge graph systems such as YAGO,HowNet and the Chinese Concept Dictionary Key words:knowledge graph;Web crawler;triple file;knowledge base;graph-oriented database 0 引言 一个典型的知识图谱通常包含着一系列概

8、念、实例和关 系,其为最有效的知识表达形式之一_2。一些著名的知识 图谱包括Internet Movie Database、YAGO_3-4、DBpedia -6和 Freebase 。近几年来,大量的知识图谱已经被构建起来,并 且有关知识图谱的话题也非常丰富,在工业界以及学术界呈 现出日益增长的关注态势 j。这一现象背后的重要原因主 要是知识图谱已经逐渐被发现对于各种类型的应用都是至关 重要的 。 尽管大量的知识图谱日益涌现,但当前大多公开的研究 工作主要是孤立地强调了知识图谱构建环节的某一方面,诸 如知识图谱中的数据表示、存储格式或知识获取方法等问 题 。 ;此外,对知识图谱系统的维护及应

9、用问题仍然没有 有效解决;另外一个问题是,由于中文的语言特点,不能将语 义网络 中处理英文的方法直接应用于中文文本处理以及 进一步的语义提取。中文的句子结构并不像英文那样具有标 准的格式。相反,中文句子结构中会经常省略一些语法结构, 因而从非结构化的中文文本中直接自动获取有效的知识或事 实是非常困难的。截止到目前,在业界仍然没有对于以上问 题的成熟解决方案。 本文描述了一个真实的中文知识图谱构建过程,从知识 库的组织、知识的获取、知识图谱数据的存储与维护以及知识 图谱应用这四个角度重点了介绍了自动化构建中文知识图谱 的完整流程;并通过与现有相关知识图谱系统的比较,证明了 这种构建方法在构建速度

10、以及系统规模上的优势。 收稿日期:20150906;修回日期:2015-11-12。 基金项目:国家973计划项目(2014CB340404);上海市科委科研计划项目(14511108002)。 作者简介:鄂世嘉(1991一),男,辽宁大连人,博士研究生,CCF会员,主要研究方向:云计算、知识图谱、大数据系统;林培裕(1993一), 男,江苏盐城人,硕士研究生,主要研究方向:知识图谱、大数据系统;向阳(1962一),男,重庆人,教授,博士,CCF会员,主要研究方向:管理信 息系统、云计算、语义计算、大数据挖掘。 第4期 鄂世嘉等:自动化构建的中文知识图谱系统 995 构成了整个知识库的分类体系

11、;2)Predicate值的前缀为 “attribute:”,该类三元组数据表示某一概念实例Subject的属 性Predicate的值为Object;3)Predicate值为除前两种之外的 普通字符串,该类三元组数据在知识库中的数据量最大。 如图7所示,网络爬虫不间断地抓取百科页面词条的 InfoBox或相关的文本信息,以三元组文本形式将知识数据在 本地存储起来。数据导入程序采用多线程的方式不间断扫描 三元组文件,并在数据导入层进行了去重处理,保证导人到 MongoDB中数据的唯一性。基于此套流程,知识图谱系统的 后端就可以在无人工操作监督的情况下快速构建,使得数据 量不断累积,从而使得知

12、识图谱覆盖的知识领域更加丰富。 导入 l Cayley(前端数据库) l 请求I f响应 裎崖 l MongoDB(后端数据库) l 图7知识图谱数据的维护框架 4 知识图谱的应用 在从百科中构建了最初的中文知识图谱后,只相当于对 互联网中的数据进行了基本的格式化处理,形成了一份归档, 但对于普通用户来说,仍然是无法很好使用的一份资源。因 此,当前很多的知识图谱系统仅局限于为专业人员进行二次 开发而使用,没有充分体现出知识图谱对于普通用户的巨大 实用价值。基于本文介绍的知识图谱构建方法,我们为普通 用户在Web前端实现了面向内容理解的中文知识图谱 (Content UnderstandingK

13、nowledge Graph,CUKG)系统,其拥 有丰富的应用界面,从而让用户透明地使用及完善中文知识 图谱。 41关系搜索 在CUKG中,目前用户可以针对知识图谱所包含的海量 关系展开搜索。通过在网页中输入两个实体的名称,即可获 得两个实体间的多种关系,如图8所示。 图8(b)展示了针对用户输入的两个实体“周克华”与 “重庆市”之间的关系。可以看到针对这两个直接实体,通过 本文构建的知识图谱系统,不仅可以找出实体间的直接关系, 还可以找出与直接实体相关联的中间实体(图中的圆点实 体),以及他们之间的关系,如“周克华杀害了朱彦超”这样的 关系实例。 42知识库的多维搜索 与传统知识图谱不同,

14、CUKG为用户提供了多维的知识 库搜索功能,用户通过搜索实体名字,可以从多种属性的角度 来浏览实体的相关信息;并且在知识库中融合了多种数据类 型,除了基础的文本信息,还有图片、视频数据。这些多源异 构的数据通过在三元组中Predicate的attribute前缀进行标 识。例如,(周克华,attribute:图片,URL)在系统中将实体 “周克华”的图片通过统一资源定位符(Uniform Resource Locator,URL)找到其在本地存储的位置,进而在前端进行统 一的展示,视频数据的表达也是如此。用户可以选择按实体、 关系以及属性浏览等多种方式全角度理解实体的各种特征, 如图9所示。

15、Relation Search 墨曩 t , EZ: (a)用户输入接口 (b)针对用户输入的搜索结果 图8关系搜索中的用户输入和搜索结果 * 髑豳 黜 豳 船脚豳豳 #* 阑 嘲 秘 图9知识库的多维搜索示例 43带时序的实体关系演化 通过采用扩展的三元组对知识数据进行组织,其保留了 关系的时间维特征。用户可在CUKG中了解某个时间范围 内实体之间的关系随着时间的推移而发生的变化,以实体 “周克华”在“20120810”至“2012-0813”之间的关系演化 为例,“201208-10”的初始关系如图l0所示。 起曲时 : 2O12 O O 搏jb时 2o镏 oB 13 M4t x - *

16、图lO“周克华”实体“2012081O”的关系图 若选择演化周期为1 d,通过不断点击演化按钮,关系图 会因时间的推移,而有新的关系加入进来,图11为演化至 计算机应用 第36卷 “20120813”时的关系图,若某一天有新的关系产生,则会以 不同类型的连线在图中进行标识。 越蛐埘删 2012-0610 蚌m“M: 12-oB他 馥他蹰崩 1 太 图11 “周克华”实体关系演化后的关系图 可以看到,新产生的关系为“201208-11”生成的。 44知识图谱系统的应用前景 知识图谱系统对现实世界中零散的知识数据进行了组 织。基于中文知识图谱系统,除了上文介绍的部分知识图谱 的示例应用,其在问题理

17、解、深度信息搜索等领域都可以有广 泛的应用。例如,在智能问答领域,对于问题“周克华的女友 出生于中国的哪个省份”,经依存语义分析,并结合知识图谱 中现有的(周克华,绯闻女友,张贵英)、(张贵英,出生地,四 川省)、(中国,省份,四川I省)等关系实例,可得到该问题的答 案为“四川省”。这种基于知识图谱的问答方法可以对原有 的问题系统解决方案提供良好的补充,提升问答系统的准确 率。 5讨论与评价 构建通用的知识图谱是一项系统而又庞大的工作。现有 的中文知识图谱中,更常见的是面向领域的知识图谱,由于其 所覆盖的知识数据相对通用知识图谱来说较少,因而更容易 构建。而截止到目前,在中文知识图谱领域还没有

18、公开的标 准通用知识图谱系统。通过我们实践发现,领域知识图谱的 构建可以在通用知识图谱构建的基础上来完成。因为当通用 知识图谱具有一定规模后,通过对其中的数据分类,形成多种 类别的子知识图谱,进而再加上一定专业领域人工修正,即可 形成较为准确有效的领域知识图谱。 对于现有知识图谱系统的评价,可以将系统中的关系与 开放的诸如Freebase、WordNet等百科知识库数据进行对比来 进行评价。但对于中文知识图谱,现在仍然缺少相对标准的 事实关系库,并且现有的评价方法主要是对抽取的关系数据 进行人工的标注与验证。本文的目的是构建真实高可用的中 文知识图谱系统,CU-KG知识图谱系统的所有事实数据都

19、是 直接基于百科的半结构化信息所获取的,百科类数据是目前 中文知识图谱构建领域中最高可信度的数据源,因此其准确 率可以得到充分保证,且通过对词条页面的超链接分析,对同 义词列表进行了区分,避免了歧义性的问题。 从非结构化数据中直接抽取可能的三元组事实是当前研 究的方向之一,主要是依赖中文语法分析、语义依存技术进行 内容分析。对于此类关系需要与百科中获取的标准关系进行 比较,对关系的准确率和召回率进行评价。但所获得知识的 准确率将难以满足可用性的要求,因此目前还不能大规模应 用于中文知识图谱的自动化构建过程中。 CUKG知识图谱系统的当前规模及与相关公开的知识 系统的对比如表1所示。 表1 CU

20、KG与其他带有中文的知识图谱系统对比 从表1可看出,CUKG相对于其他中文知识图谱在实体 数量和事实数量这两个基本指标上优势明显,系统总规模平 均约比同类高出至少50。伴随着新的实体以及更多的事 实数据不断地被添加到知识图谱系统中,CUKG的系统规模 优势将越来越大。 在构建时间方面,根据能获得的数据,当前业界在知识图 谱的初始构建时间达125 h ,而通过本文所介绍的知识图 谱自动化构建流程,能够几乎随时地将互联网知识数据转换 至知识图谱系统中,无需进行长时的等待。 除此之外,CUKG充分利用了多源异构的大数据资源, 在应用过程中,将文本、图像和视频有机地融合在一起,从多 个角度向用户展示了

21、知识,弥补了传统知识图谱的不足。 6 结语 本文详细地阐明了一种自动化构建中文知识图谱系统的 方法,该方法基于可信度高的数据源,使用定制的知识图谱数 据维护框架,持续地从网络数据中抓取知识数据并以带扩展 属性的三元组的数据格式进行中间存储,将三元组数据通过 图数据库技术对知识数据进行持久化存储,并对所实现的 CUKG知识图谱系统的应用进行了充分地说明。实践结果 表明,该构建方法能够快速构建大规模的中文知识图谱系统, 并在实体和关系的数量上有着较为明显的优势。 在当前的CUKG系统中,由于采用了NoSQL技术,现有 的数据存储方式对于传统的图路径搜索支持并不是特别理 想,对于复杂的关系路径查询所

22、消耗的时间依然较高,后期仍 然需要研究相关算法,来优化关系搜索所要消耗的时间。并 且在未来可以扩展CUKG所依赖的知识数据源,从而充分丰 富现有知识图谱的实体及关系数量。 参考文献: 1】LENAT D BCYC:A largescale investment in knowledge infra- structureJCommunications of the ACM,1995,38(1 1):33 38 2】 SINGHAL AIntroducing the knowledge graph:things,not strings EBOLf 20141010https:googleblogb

23、logspotcom 201205introducingknowledgegraphthings-nothtml#!2012 05introducing-knowledgegraph-thingsnothtm1 3 SUCHANEK F M,KASNECI G,WEIKUM GYago:a core of se- mantie knowledgecProceedings of the 16th International Con ference on World Wide WebNew York:ACM,2007:697706 4 SUCHANEK F M,KASNECI G,WEIKUM G

24、Yago:a large ontol ogy from Wikipedia and WordNetJ】Web Semantics:Science, Services and Agents on the World Wide Web,2008,6(3):203 217 5 AUER S,BIZER C,KOBILAROV G,et a1DBpedia:a Nucleus for a Web of Open DataMBerlin:Springer,2007:722735 6 BIZER C,LEHMANN J,KOBILAROV G,et a1DBpediaa crystallization p

25、oint for the Web of dataJ】Web Semantics:Sci enee,Services and Agents on the World Wide Web,2009,7(3): 154165 (下转第1001页) 第4期 徐永秀等:基于间隔链表改进的频繁项集挖掘算法 1001 起来,实现算法的MapReduce化;另一方面,可以将该算法的 思想拓展到最大、闭频繁项集的挖掘领域。 致谢非常感谢邓志宏教授提供的PrePost算法的代码。 参考文献: 【1】 AGRAWAL R,IMIEILNSKI T,SWAMI AMining association rules bet

26、ween sets of items in large databases【C】Proceedings of 1993 ACM SIGMOD Conference on Management DataNew York: ACM,1993:207216 2】 AGRAWAL R,SRIKANT RFast algorithms for mining association rulesC】VLDB 1994:Proceedings of the 20th International Con- ference on Very Large Data BasesSan Francisco:Morgan

27、Kanf- mann Publishers,1994:487499 3】LIN K C,LIAO I E,CHEN Z SAn improved frequent pattern growth method for mining association rulesJ】Expert Systems with Applications,2011,38(5):51545161 4 GUPTA R,SATSANGI C SAn efficient range partitioning method for finding frequent patterns from huge database【JIn

28、ternational Journal of Advanced Computer Research,2012,2(2):6269 5 李也白,唐辉,贺玉明基于改进的FP-tree的频繁模式挖掘算 法【J】计算机应用,2011,31(1):101103(LIY B,TANGH, HE Y MFrequent pattern mining algorithm based on improved FP- tree fJ】Journal of Computer Applications,2011,31(1):101 103) 6】 SUCAHYO Y G,GOPALAN R PCTPRO:a bott

29、om-up non recur- sive frequent itemset mining algorithm using compressed FPtree data structureC】FIMI 2004:Proceedings of the IEEE ICDM Work- shop on Frequent hemset Mining ImplementationsPiscataway,NJ: IEEE,2004:212223 【7 ZAKI M J,GOUDA KFast vertical mining using diffsetsC】 Proceedings of the 9th A

30、CM SIGKDD International Conference on 8】 【9 【1O】 12】 Knowledge Discovery and Data miningNew York:ACM,2003: 326335 U Z F,LIU X F,CAO XA study on improved Eclat data mining algorithm【J】Advanced Materials Research,201 1,328329330: 1896一l899 DENG ZH。WANGZHJ1ANG J JA newalgorithmforfastmin ing frequent i

31、temsets using NlistsJ】Science China Information Sciences,2012,55(9):20082030 LIN K C,LIAO I E,CHANG T PA frequent itemset mining algo rithm based on the principle of inclusionexclusion and transaction mapping【J】Information Sciences,2014,276:278289 VO B,LE T,COENEN FMiningequent itemsets using the n-

32、 list and subsume conceptsC】Proceedings of the 2013 IEEE In teruational Conference on Systems,Man,and CybemeticsPiscat away,NJ:IEEE,2014:1一l3 GOETHALS B,ZAKI MFrequent itemset mining implementations repositoryEBOL】201502-20】http:fimiuaacbeda ta2 Background This work is supported by the National Natu

33、ral Science Foundation of China(61272029) XU Yongxiu,born in 1991,MScandidateHer research inter- ests include data mining LIU Xumin,born in 1956,PhD,professorHer research inter- ests include computer aided geometric design,graphics and image process- ing,data mining XU Weixiang,born in 1956,PhD,prof

34、essorHis research inter- ests include data mining, analysis and integration for transport systems, cloud computing- (上接第996页) 【7】 B0LLACKER K,EVANS C,PARITOSH P,et a1Freebase:a col laboratively created graph database for structuring human knowledge 【C】Proceedings of the 2008 ACM SIGMOD International

35、 Confer- enee on Management of DataNew York:ACM,2008:1247 1250 f 8】 BUTLER DScience searches shift up a gear as Google starts Sehol ar engineJNature,2004,432(7016):423-423 【9】 FERRUCCI D,BROWN E,CHUCARROLL J,et a1Building Watson:an overview of the DeepQA project【J】AI Magazine, 2010,31(3):5979 10PAVL

36、IDIS Y,MATHIHALLI M,CHAKRAVARTY I,et a1Anat omy of a gift recommendation engine powered by social media 【C】Proceedings of the 2012 ACM SIGMOD International Con ference on Management of DataNew York:ACM,2012:757 764 【l1】DEROSE P,SHEN W,CHEN F,et a1Building structured Web community portals:a top-down,

37、compositional,and incremental approach【c】VLDB 2007:Proceedings of the 33rd International Conference on Very Large Data BasesNew York:ACM,2007: 399410 12】 NIU F,ZHANG C,RE C,et a1DeepDive:Webscale knowl- edgebase construction using statistical learning and inference EBOL】20141010】http:wwwesstanforded

38、upeo plechrismrepapersdeepdivevldspdf 【13 Scrapy 10 documentationEBOL【201507l1http: docscrapyorgenlatestindexhtm1 【14】TARJAN R EFinding optimum branchings【J】Networks,1977, 7(1):2535 15 16】 17】 18】 BERNERS-LEE T,HENDLER J,LASSILA OThe semantic Web JScientific American,2001,284(5):2837 PANKRATIUS W JB

39、uilding all organized knowledge base:con cept mapping and achievement in secondary school physics【J】 Journal of Research in Science Teaching,1990,27(4):315 333 ZHU J,NIE Z,LIU X,et a1StatSnowball:a statistical approach to extracting entity relationshipsC】Proceedings of the 18th In ternational Confer

40、ence on World Wide WebNew York:ACM, 2OO9:101一l1O DESHPANDE O,LAMBA D S,TOURN M,et a1Building, maintaining,and using knowledge bases:a report from the trenches【CProceedings of the 2013 ACM SIGMOD Interna tional Conference on Management of DataNew York:ACM, 20】3:1209一】220 Background This work is parti

41、ally supported by the National Basic Research Pro- gram(973 Program)of China(2014CB340404),the Shanghai Municipal Science and Technology Research Project(145 1 1 108002) E Shijia,born in 1991,PhDcandidateHis research interests in clude cloud computing,knowledge graph,bigdata system LIN Peiyu,born in 1993,MScandidateHis research interests include knowledge graph,big-data system XIANG Yang,born in 1962,PhD,professorHis research inter- ests include management information system, cloud computing, semantic computing,bigdata mining

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报