分享
分享赚钱 收藏 举报 版权申诉 / 19

类型知识图谱构建技术综述.pdf

  • 上传人:weiwoduzun
  • 文档编号:5581434
  • 上传时间:2019-03-08
  • 格式:PDF
  • 页数:19
  • 大小:1.03MB
  • 配套讲稿:

    如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。

    特殊限制:

    部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。

    关 键  词:
    知识图谱构建技术综述.pdf
    资源描述:

    1、计算机研究与发展 :? ():,收稿日期 :;修回日期 :基金项目 :国家 “八六三 ”高技术研究发展计划基金项目 ();国家自然科学基金项目 (,);教育部中国移动科研基金项目 () ()(), (,), ()知识图谱构建技术综述刘峤李杨段宏刘瑶秦志光(电子科技大学信息与软件工程学院成都)() , , , , ( , ,) , , , , , , , , , , , , , , , ; ; ; ; 摘要谷歌知识图谱技术近年来引起了广泛关注 ,由于公开披露的技术资料较少 ,使人一时难以看清该技术的内涵和价值从知识图谱的定义和技术架构出发 ,对构建知识图谱涉及的关键技术进行了自底向上的全面解析)

    2、对知识图谱的定义和内涵进行了说明 ,并给出了构建知识图谱的技术框架 ,按照输入的知识素材的抽象程度将其划分为个层次 :信息抽取层 、知识融合层和知识加工层 ;)分别对每个层次涉及的关键技术的研究现状进行分类说明 ,逐步揭示知识图谱技术的奥秘 ,及其与相关学科领域的关系 ;)对知识图谱构建技术当前面临的重大挑战和关键问题进行了总结关键词知识图谱 ;语义网 ;信息检索 ;语义搜索引擎 ;自然语言处理中图法分类号:?:?:?:?:?:?信息技术的发展不断推动着互联网技术的变革 ,技术作为互联网时代的标志性技术 ,正处于这场技术变革的核心从网页的链接 ( )到数据的链接 ( ),技术正在逐步朝向之 父

    3、设 想 中 的 语 义 网 络( )演变根据的解释 ,语义网络是一张数据构成的网络 ( ),语义网络技术向用户提供的是一个查询环境 ,其核心要义是以图形的方式向用户返回经过加工和推理的知识而知识图谱 ()技术则是实现智能化语义检索的基础和桥梁传统搜索引擎技术能够根据用户查询快速排序网页 ,提高信息检索的效率然而 ,这种网页检索效率并不意味着用户能够快速准确地获取信息和知识 ,对于搜索引擎反馈的大量结果 ,还需要进行人工排查和筛选随着互联网信息总量的爆炸性增长 ,这种信息检索方式已经很难满足人们全面掌控信息资源的需求 ,知识图谱技术的出现为解决信息检索问题提供了新的思路知识图谱的概念是由谷歌公司

    4、提出的年月日 ,谷歌发布知识图谱项目 ,并宣布以此为基础构建下一代智能化搜索引擎该项目始于年谷歌收购公司 ,并籍此获得了该公司的语义搜索核心技术 ,其中的关键技术包括从互联网的网页中抽取出实体及其属性信息 ,以及实体间的关系这些技术特别适用于解决与实体相关的智能问答问题 ,由此创造出一种全新的信息检索模式虽然知识图谱的概念较新 ,但它并非是一个全新的研究领域早在年 ,就提出了数据链接 ( )的思想 ,呼吁推广和完善相关的技术标准如( ),( ),(),为迎接语义网络时代的到来做好准备随后掀起了一场语义网络研究热潮 ,知识图谱技术正是建立在相关的研究成果之上的 ,是对现有语义网络技术的一次扬弃和

    5、升华我国对于中文知识图谱的研究已经起步 ,并取得了许多有价值的研究成果早期的中文知识库主要采用人工编辑的方式进行构建 ,例如中国科学院计算机语言信息中心董振东领导的知网 ()项目 ,其知识库特点是规模相对较小 、知识质量高 、但领域限定性较强由于中文知识图谱的构建对中文信息处理和检索具有重要的研究和应用价值 ,近年来吸引了大量的研究例如在业界 ,出现了百度知心 、搜狗知立方等商业应用在学术界 ,清华大学建成了第个大规模中英文跨语言知识图谱、中国科 学 院 计 算 技 术 研 究 所 基 于 开 放 知 识 网 络()建立了 “人立方 、事立方 、知立方 ”原型系统 、中国科学院数学与系统科学研

    6、究院陆汝钤院士提出知件 ()的概念 、上海交通大学构建并发布了中文知识图谱研究平台、复旦大学实验室推出的中文知识图谱项目等,这些项目的特点是知识库规模较大 ,涵盖的知识领域较广泛 ,并且能为用户提供一定的智能搜索及问答服务随着近年来谷歌知识图谱相关产品的不断上线 ,这一技术也引起了业界和学术界的广泛关注它究竟是概念的炒作还是如谷歌所宣称的那样是下一代搜索引擎的基石 ,代表着互联网技术发展的未来方向 ? 为了回答这一问题 ,首先需要对知识图谱技术有完整深刻的理解本文的目的就是从知识图谱的构建角度出发 ,深度剖析知识图谱概念的内涵和发展历程 ,帮助感兴趣的读者全面了解和认识该技术 ,从而客观地做出

    7、判断 知识图谱的定义与架构维基百科对知识图谱给出的词条解释仍然沿用了谷歌的定义 ,即 :知识图谱是谷歌用于增强其搜索引擎功能的辅助知识库然而从业界的发展动态来看 ,这个定义显得过于简单微软在年月发布了自己的知识库之后 ,必应 ()搜索引擎产品的高级主管公开表示 ,发布只是表明微软已有类似的技术 ,然而目前这一技术本身还存在许多问题 ,微软希望取得领导地位 ,而不是追随谷歌这一表态 ,折射出该领域背后的技术竞争刘峤等 :知识图谱构建技术综述十分激烈 ,从当前披露出来的商业产品 ,也能看出业界对此的普遍重视表给出了当前主流的知识库产 品 和 相 关 应 用 ,其 中 ,包 含 实 体 数 最 多

    8、的 是知识库 ,实 体 总 数 已 超 过万 亿条谷歌的知识图谱拥有亿个实体和亿条实体间的关系 ,而且规模在不断地增加微软的包含的概念总量达到千万级 ,是当前包含概念数量最多的知识库 , 等当前流行的智能助理应用正是分别建立在知识库和谷歌的知识图谱基础之上值得注意的是 :国内也涌现出一些知识图谱产品和应用 ,如搜狗的知立方 ,侧重于图的逻辑推理计算 ,能够利用基于语义网三元组推理补充实体数据 ,对用户查询进行语义理解以及句法分析等 表 知识图谱及相关类似产品 , ? , ?, 从表可以看出 ,除传统搜索服务提供商之外 ,包括,等互联网领军企业也加入了竞争由于相关技术和标准尚未成熟 ,其应用也处

    9、于探索阶段 ,因此知识图谱的概念目前仍处在发展变化的过程中 ,通过对现有的研究成果进行比较和提炼 ,本文提出知识图谱的定义 知识图谱的定义定义知识图谱是结构化的语义知识库 ,用于以符号形式描述物理世界中的概念及其相互关系其基本组成单位是 “实体关系实体 ”三元组 ,以及实体及其相关属性值对 ,实体间通过关系相互联结 ,构成网状的知识结构通过知识图谱 ,可以实现从网页链接向概念链接转变 ,支持用户按主题而不是字符串检索 ,从而真正实现语义检索基于知识图谱的搜索引擎 ,能够以图形方式向用户反馈结构化的知识 ,用户不必浏览大量网页 ,就可以准确定位和深度获取知识定义包含层含义 :)知识图谱本身是一个

    10、具有属性的实体通过关系链接而成的网状知识库从图的角度来看 ,知识图谱在本质上是一种概念网络 ,其中的节点表示物理世界的实体 (或概念 ),而实体间的各种语义关系则构成网络中的边由此 ,知识图谱是对物理世界的一种符号表达)知识图谱的研究价值在于 ,它是构建在当前基础之上的一层覆盖网络 (),借助知识图谱 ,能够在网页之上建立概念间的链接关系 ,从而以最小的代价将互联网中积累的信息组织起来 ,成为可以被利用的知识)知识图谱的应用价值在于 ,它能够改变现有的信息检索方式 ,一方面通过推理实现概念检索 (相对于现有的字符串模糊匹配方式而言 );另一方面以图形化方式向用户展示经过分类整理的结构化知识 ,

    11、从而使人们从人工过滤网页寻找答案的模式中解脱出来 知识图谱的架构知识图谱的架构 ,包括知识图谱自身的逻辑结构以及构建知识图谱所采用的技术 (体系 )架构 ,后者是本文讨论的重点首先介绍知识图谱的逻辑结构 ,从逻辑上将知识图谱划分为个层次 :数据层和模式层在知识图谱的数据层 ,知识以事实 ()为单位存储在图数据库例如谷歌的和微软的都是典型的图数据库如果以 “实体关系实体 ”或者 “实体属性性值 ”三元组作为事实的基本表达方式 ,则存储在图数据库中的所有数据将构成庞大的实体关系网络 ,形成知识的 “图谱 ”模式层在数据层之上 ,是知识图谱的核心在模式层存储的是经过提炼的知识 ,通常采用本体库来管理

    12、知识图谱的模式层 ,借助本体库对公理 、规则和计算机研究与发展,()约束条件的支持能力来规范实体 、关系以及实体的类型和属性等对象之间的联系本体库在知识图谱中的地位相当于知识库的模具 ,拥有本体库的知识库冗余知识较少接下来从知识图谱构建的角度 ,介绍知识图谱的一般技术架构图给出了知识图谱技术的整体架构 ,其中虚线框内的部分为知识图谱的构建过程 ,同时也是知识图谱更新的过程如图所示 ,知识图谱的构建过程是从原始数据出发 ,采用一系列自动或半自动的技术手段 ,从原始数据中提取出知识要素 (即事实 ),并将其存入知识库的数据层和模式层的过程这是一个迭代更新的过程 ,根据知识获取的逻辑 ,每一轮迭代包

    13、含个阶段 :信息抽取 、知识融合以及知识加工 图 知识图谱的技术架构知识图谱有自顶向下和自底向上种构建方式所谓自顶向下构建是指借助百科类网站等结构化数据源 ,从高质量数据中提取本体和模式信息 ,加入到知识库中 ;所谓自底向上构建 ,则是借助一定的技术手段 ,从公开采集的数据中提取出资源模式 ,选择其中置信度较高的新模式 ,经人工审核之后 ,加入到知识库中在知识图谱技术发展初期 ,多数参与企业和科研机构都是采用自顶向下的方式构建基础知识库 ,例如 ,项目就是采用维基百科作为主要数据来源随着自动知识抽取与加工技术的不断成熟 ,目前的知识图谱大多采用自底向上的方式构建 ,其中最具影响力的例子包括谷歌

    14、的 和微软的知识库 ,都是以公开采集的海量网页数据为数据源 ,通过自动抽取资源的方式来构建 、丰富和完善现有的知识库因此 ,本文主要介绍自底向上的知识图谱构建技术 ,按照知识获取的过程分为个层次 :信息抽取 、知识融合以及知识加工 知识图谱的构建技术如节所述 ,采用自底向上的方式构建知识图谱的过程是一个迭代更新的过程 ,每一轮更新包括个步骤 :)信息抽取 ,即从各种类型的数据源中提取出实体 (概念 )、属性以及实体间的相互关系 ,在此基础上形成本体化的知识表达 ;)知识融合 ,在获得新知识之后 ,需要对其进行整合 ,以消除矛盾和歧义 ,比如某些实体可能有多种表达 ,某个特定称谓也许对应于多个不

    15、同的实体等 ;)知识加工 ,对于经过融合的新知识 ,需要经过质量评估之后 (部分需要人工参与甄别 ),才能将合格的部分加入到知识库中 ,以确保知识库的质量新增数据之后 ,可以进行知识推理 、拓展现有知识 、得到新知识 信息抽取信息抽取 ( )是知识图谱构建的第步 ,其中的关键问题是如何从异构数据源中自动抽取信息得到候选知识单元信息抽取是刘峤等 :知识图谱构建技术综述一种自动化地从半结构化和无结构数据中抽取实体 、关系以及实体属性等结构化信息的技术涉及的关键技术包括 :实体抽取 、关系抽取和属性抽取 实体抽取实体抽取 ,也称为命名实体识别 ( ,),是指从文本数据集中自动识别出命名实体实体抽取的

    16、质量 (准确率和召回率 )对后续的知识获取效率和质量影响极大 ,因此是信息抽取中最为基础和关键的部分早期对实体抽取方法的研究主要面向单一领域(如特定行业或特定业务 ),关注如何识别出文本中的人名 、地名等专有名词和有意义的时间等实体信息年 ,采用启发式算法与人工编写规则相结合的方法 ,首次实现了从文本中自动抽取公司名称的实体抽取原型系统然而 ,基于规则的方法具有明显的局限性 ,不仅需要耗费大量人力 ,而且可扩展性较差 ,难以适应数据的变化随后 ,人们开始尝试采用统计机器学习方法辅助解决命名实体抽取问题 ,例如 ,等人利用最近邻 ()算 法 和 条 件 随 机 场 模 型 ,实 现 了 对文本数

    17、据中包含实体的识别然而迄今为止 ,单纯基于有监督学习的实体抽取方法 ,在准确率和召回率上的表现都不够理想 ,且算法的性能依赖于训练样本的规模 ,对此类方法的发展形成了制约最近有学者采用有监督学习与规则 (先验知识 )相结合的方法 ,取得了一些积极的研究成果 ,例如等人采 用 字 典 辅 助 下 的 最 大 熵 算 法 ,在 基 于论文摘要的数据集上取得了实体抽取准确率和召回率均超过的实验结果随着命名实体识别技术不断取得进展 ,学术界开始关注开放域 ( )的信息抽取问题 ,即不再限定于特定的知识领域 ,而是面向开放的互联网 ,研究和解决全网信息抽取问题为此 ,需要首先建立一个科学完整的命名实体分

    18、类体系 ,一方面用于指导算法研究 ;另一方面便于对抽取得到的实体数据进行管理早在年 ,等人就提出了一个层次结构的命名实体分类体系 ,将网络中所有的命名实体划分为个分类该项成果引起了学术界对建立命名实体分类体系的重视 ,并对后续的命名实体识别研究产生了深远的影响年 ,等人借鉴的实体分类方法 ,归纳出种实体类别 ,并基于条件随机场模型进行实体边界识别 ,最后采用自适应感知机算法实现了对实体的自动分 类 ,其实验结果显著优于等当前主流的命名实体识别系统然而 ,互联网中的内容是动态变化的 , 技术更进一步推动了互联网的概念创新 ,采用人工预定义实体分类体系的方式已经很难适应时代的需求面向开放域的实体抽

    19、取和分类技术能够较好地解决这一问题 ,该方法的基本思想是对于任意给定的实体 ,采用统计机器学习的方法 ,从目标数据集(通常是网页等文本数据 )中抽取出与之具有相似上下文特征的实体 ,从而实现实体的分类和聚类在面向开放域的实体识别和分类研究中 ,不需要 (也不可能 )为每个领域或每个实体类别建立单独的语料库作为训练集因此 ,该领域面临的主要挑战是如何从给定的少量实体实例中自动发现具有区分力的模式针对该问题 ,等人提出了一种迭代扩展实体语料库的解决方案 ,基本思路是根据已知的实体实例进行特征建模 ,利用该模型对处理海量数据集得到新的命名实体列表 ,然后针对新实体建模 ,迭代地生成实体标注语料库另一

    20、种思路是通过搜索引擎的服务器日志获取新出现的命名实体例如等人提出了一种面向开放域的无监督学习算法 ,即事先并不给出实体分类 ,而是基于实体的语义特征从搜索日志中识别出命名实体 ,然后采用聚类算法对识别出的实体对象进行聚类 ,该方法已经在搜索引擎技术中得到应用 ,用于根据用户输入的关键字自动补全信息 关系抽取文本语料经过实体抽取 ,得到的是一系列离散的命名实体 ,为了得到语义信息 ,还需要从相关语料中提取出实体之间的关联关系 ,通过关系将实体 (概念 )联系起来 ,才能够形成网状的知识结构研究关系抽取技术的目的 ,就是解决如何从文本语料中抽取实体间的关系这一基本问题早期的关系抽取研究方法主要是通

    21、过人工构造语法和语义规则 ,据此采用模式匹配的方法来识别实体间的关系这种方法有点明显的不足 :)要求制定规则的人具有良好的语言学造诣 ,并且对特定领域有深入的理解和认知 ;)规则制定工作量大 ,难以适应丰富的语言表达风格 ,且难以拓展到其他领域为此学术界开始尝试采用统计机器学习方法 ,通过对实体间关系的模式进行建模 ,替代预定义的语法和语义规则例如等人利用自然语言中的词法 、句法以及语义特征进行实体关系建模 ,计算机研究与发展,()通过最大熵方法成功地实现了不借助规则硬编码的实体关系抽取随后 ,出现了大量基于特征向量或核函数的有监督学习方法 ,关系抽取的准确性也不断提高例如 ,刘克彬等人借助知

    22、网 ()提供的本体知识库构造语义核函数 ,在开放数据集上对定义的类实体关系进行抽取 ,准确率达到了然而 ,有监督学习方法也存在明显不足 ,为了确保算法的有效性 ,需要人工标注大量的语料作为训练集因此 ,近年来的研究重点逐渐转向半监督和无监督的学习方式例如 ,等人提出了一种基于算法的半监督学习方法 ,能够自动进行实体关系建模陈立玮等人针对弱监督学习中标注数据不完全可靠的问题 ,基于算法设计思想 ,提出了一种协同训练方法 ,通过向传统模型中引入特征进行协同训练 ,实现了对弱监督关系抽取模型的强化 ,在中文和英文数据集上关系抽取性能均得到了提升等人采用基于实例的无监督学习方法 ,在公开语料库上获得了

    23、较好的实验结果 ,能够对实体间的雇佣关系 、位置关系以及生产关系等多元关系进行精准识别以上研究成果的共同特点是需要预先定义实体关系类型 ,如雇佣关系 、整体部分关系以及位置关系等然而在实际应用中 ,要想定义出一个完美的实体关系分类系统是十分困难的为了解决这一制约关系抽取技术走向实际应用的关键问题 ,年 ,华盛顿大学图灵中心的等人提出了面向开放域的信息抽取方法框架 ( ,),并发布了基于自监督 ()学习方式的开放信息抽取原型系统 ()该系统采用少量人工标记数据作为训练集 ,据此得到一个实体关系分类模型 ,再依据该模型对开放数据进行分类 ,依据分类结果训练朴素贝叶斯模型来识别“实体关系实体 ”三元

    24、组 ,经过大规模真实数据测试 ,取得了显著优于同时期其他方法的结果面向开放域的关系抽取技术直接利用语料中的关系词汇对实体关系进行建模 ,因此不需要预先指定关系的分类 ,这是一个很大的进步 ,例如 ,等人在的基础上 ,发布了面向开放域信息抽取的系统 ,该系统能够利用维基百科网页信息框 ()提供的属性信息 ,自动构造实体关系训练集 ,性能优于早期的系统 ,这项工作也为批量构造高质量的训练语料提供了新的思路等人通过对系统和系统的实体关系抽取结果进行分析 ,发现其中错误的部分主要是一些无意义或不合逻辑的实体关系三元组 ,据此引入语法限制条件和字典约束 ,采用先识别关系指示词 ,然后再对实体进行识别的策

    25、略 ,有效提高了关系识别准确率等人针对上述系统均无法识别非动词性关系的局限 ,通过引入上下文分析技术 ,提出了一个支持非动词性关系抽取的系统 ,有效提高了自动关系抽取的准确率和召回率由于当前的面向开放域的关系抽取方法在准确率和召回率等综合性能指标方面与面向封闭领域的传统方法相比仍有一定的差距 ,因此有部分学者开始尝试将两者的优势结合起来例如等人提出了一种基于条件随机场的关系抽取模型 (),当目标数据集中拥有的关系数量不大 ,而且有预先定义好的实体关系分类模型可用的情况下 ,采用传统的机器学习算法进行关系抽取 ,而对于没有预先定义好的实体关系模型或者关系数量过多的情况 ,则采用开放域关系抽取方法

    26、微软公司人立方项目所采用的模型也是基于这种策略实现其关系抽取功能当前流行的系统在关系抽取方面存在个主要问题)当前研究的重点是如何提高二元实体间关系 (三元组模式 )的抽取准确率和召回率 ,很少考虑到在现实生活中普遍存在的高阶多元实体关系 ;)所采用的研究方法大多只关注发掘词汇或词组之间的关系模式 ,而无法实现对隐含语义关系的抽取对此 ,学术界有着清醒的认识 ,例如等人采用元关系模型对系统进行改进 ,提出了模型 ,能够有效提高系统对多元实 体 关 系 的 识 别 能 力在隐含关系识别方面 ,提出采用后期关系推理的方法 ,提高系统对隐含实体关系的发现能力这些工作都是该领域值得重视的研究动向 ,然而

    27、在关系抽取研究领域 ,要实现算法性能由量变到质变的飞跃 ,还需要一段时间的积累 属性抽取属性抽取的目标是从不同信息源中采集特定实体的属性信息例如针对某个公众人物 ,可以从网络公开信息中得到其昵称 、生日 、国籍 、教育背景等信息属性抽取技术能够从多种数据来源中汇集这些信息 ,实现对实体属性的完整勾画刘峤等 :知识图谱构建技术综述由于可以将实体的属性视为实体与属性值之间的一种名词性关系 ,因此也可以将属性抽取问题视为关系抽取问题例如郭剑毅等人将人物属性抽取问题转化为实体关系抽取问题 ,采用支持向量机算法实现了人物属性抽取与关系预测模型百科类网站提供的半结构化数据是当前实体属性抽取研究的主要数据来

    28、源例 如等人设计了基于规则和启发式算法的属性抽取算法 ,能够从和网页信息框中自动提取属性名和属性值信息 ,据此得到了扩展性良好的本 体 知 识 库 (),其 抽 取 准 确 率 高 达受和项目的启发 ,项目以维基百科作为研究对象 ,从维基百科网页信息框中抽取了超过万个实体和超过亿条实体关系信息作为 项目的重要组成部分 ,构建了一个维基百科之上的知识网络 ,反过来促进了维基百科的应用创新 ,如关系查询 、多维度搜索等 ,也因此成为了目前世界上最庞大的多领域本体知识库之一尽管可以从百科类网站获取大量实体属性数据 ,然而这只是人类知识的冰山一角 ,还有大量的实体属性数据隐藏在非结构化的公开数据中如何

    29、从海量非结构化数据中抽取实体属性是值得关注的理论研究问题一种解决方案是基于百科类网站的半结构化数据 ,通过自动抽取生成训练语料 ,用于训练实体属性标注模型 ,然后将其应用于对非结构化数据的实体属性抽取;另一种方案是采用数据挖掘的方法直接从文本中挖掘实体属性与属性值之间的关系模式 ,据此实现对属性名和属性值在文本中的定位这种方法的基本假设是属性名和属性值之间有位置上的关联关系 ,事实上在真实语言环境中 ,许多实体属性值附近都存在一些用于限制和界定该属性值含义的关键词 (属性名 ),在自然语言处理技术中将这类属性称为有名属性 ,因此可以利用这些关键字来定位有名属性的属性值 知识融合通过信息抽取 ,

    30、实现了从非结构化和半结构化数据中获取实体 、关系以及实体属性信息的目标 ,然而 ,这些结果中可能包含大量的冗余和错误信息 ,数据之间的关系也是扁平化的 ,缺乏层次性和逻辑性 ,因此有必要对其进行清理和整合知识融合包括部分内容 :实体链接和知识合并通过知识融合 ,可以消除概念的歧义 ,剔除冗余和错误概念 ,从而确保知识的质量 实体链接实体链接 ()是指对于从文本中抽取得到的实体对象 ,将其链接到知识库中对应的正确实体对象的操作实体链接的基本思想是首先根据给定的实体指称项 ,从知识库中选出一组候选实体对象 ,然后通过相似度计算将指称项链接到正确的实体对象早期的实体链接研究仅关注如何将从文本中抽取到

    31、的实体链接到知识库中 ,忽视了位于同一文档的实体间存在的语义联系 ,近年来学术界开始关注利用实体的共现关系 ,同时将多个实体链接到知识库中 ,称为集成实体链接 ( )例如等人提出的基于图的集成实体链接方法 ,能够有效提高实体链接的准确性实体链接的一般流程是 :)从文本中通过实体抽取得到实体指称项 ;)进行实体消歧和共指消解 ,判断知识库中的同名实体与之是否代表不同的含义以及知识库中是否存在其他命名实体与之表示相同的含义 ;)在确认知识库中对应的正确实体对象之后 ,将该实体指称项链接到知识库中对应实体)实体消歧实体消歧 ()是专门用于解决同名实体产生歧义问题的技术在实际语言环境中 ,经常会遇到某

    32、个实体指称项对应于多个命名实体对象的问题 ,例如 “李娜 ”这个名词 (指称项 )可以对应于作为歌手的李娜这个实体 ,也可以对应于作为网球运动员的李娜这个实体 ,通过实体消歧 ,就可以根据当前的语境 ,准确建立实体链接实体消歧主要采用聚类法聚类法是指以实体对象为聚类中心 ,将所有指向同一目标实体对象的指称项聚集到以该对象为中心的类别下聚类法消歧的关键问题是如何定义实体对象与指称项之间的相似度 ,常用方法有种空间向量模型 (词袋模型 )典型的方法是取当前语料中实体指称项周边的词构成特征向量 ,然后利用向量的余弦相似度进行比较 ,将该指称项聚类到与之最相近的实体指称项集合中例如等人采用该方法 ,在

    33、( )数据集上取得了很高的消歧精度 (值高达)然而该方法的缺点在于没有考虑上下文语义信息 ,这种信息损失会导致在某些情况下算法性能恶化 ,如短文本分析语义模型该模型与空间向量模型类似 ,区计算机研究与发展,()别在于特征向量的构造方法不同 ,语义模型的特征向量不仅包含词袋向量 ,而且包含一部分语义特征例如等人采用奇异值分解技术对文本向量空间进行分解 ,得到给定维度的浅层语义特征 ,以此与词袋模型相结合 ,能够得到更精确的相似度计算结果社会网络模型该模型的基本假设是物以类聚 、人以群分 ,在社会化语境中 ,实体指称项的意义在很大程度上是由与其相关联的实体所决定的建模时 ,首先利用实体间的关系将与

    34、之相关的指称项链接起来构成网络 ,然后利用社会网络分析技术计算该网络中节点之间的拓扑距离 (网络中的节点即实体的指称项 ),以此来判定指称项之间的相似度例如等人利用随机漫步模型对演员合作网络数据进行实体消歧 ,得到了比基于文本相似度模型更好的消歧效果百科知识模型百科类网站通常会为每个实体 (指称项 )分配一个单独页面 ,其中包括指向其他实体页面的超链接 ,百科知识模型正是利用这种链接关系来计算实体指称项之间的相似度例如等人利用维基百科条目之间的关联关系计算实体指称项之间的相似度 ,实验结果表明这种方式能够有效消除同名实体间的歧义等人以维基百科作为知识库 ,基于实体所在页面的上下文信息和指称项所

    35、在语料的上下文信息 ,利用词袋模型构造特征向量作为实体链接时进行相似度比较的依据 ,实现了实体消歧在此基础上 ,进一步采用主题模型作为相似度计算依据 ,在维基百科人物数据集上获得了高达的消歧准确率等人提出的模型则同时考虑到了文本相似性和主题一致性 ,基于维基百科和知识库 ,取得了当前最好的实体消歧实验结果然而 ,由于百科类知识库中的实体数非常有限 ,此类方法的推广性较差为了充分利用海量公开数据中包含的实体区分性证据 ,等人基于生成模型提出了一种增量证据挖掘算法 ,在数据集上实现了实体消歧准确率的大幅提升该方法降低了消歧算法对于知识库的依赖 ,提供了一种很有希望的算法新思路实体消歧技术能够帮助搜索引擎更好地理解用户的搜索意图 ,从而给出更好的上下文推荐结果 ,提高搜索服务质量其中还有一个很重要的问题是如何对存在歧义的实体进行重要性评估 ,以确定推荐内容的优先级当前的主要研究思路是为实体赋予权重 ,用于表示该实体出现的频率或先验概率例如等人通过统计维基百科中的实体出现的频率以此作为

    展开阅读全文
    提示  道客多多所有资源均是用户自行上传分享,仅供网友学习交流,未经上传用户书面授权,请勿作他用。
    关于本文
    本文标题:知识图谱构建技术综述.pdf
    链接地址:https://www.docduoduo.com/p-5581434.html
    关于我们 - 网站声明 - 网站地图 - 资源地图 - 友情链接 - 网站客服 - 联系我们

    道客多多用户QQ群:832276834  微博官方号:道客多多官方   知乎号:道客多多

    Copyright© 2025 道客多多 docduoduo.com 网站版权所有世界地图

    经营许可证编号:粤ICP备2021046453号    营业执照商标

    1.png 2.png 3.png 4.png 5.png 6.png 7.png 8.png 9.png 10.png



    收起
    展开