收藏 分享(赏)

人物关系抽取.pdf

上传人:HR专家 文档编号:5962897 上传时间:2019-03-22 格式:PDF 页数:29 大小:795.20KB
下载 相关 举报
人物关系抽取.pdf_第1页
第1页 / 共29页
人物关系抽取.pdf_第2页
第2页 / 共29页
人物关系抽取.pdf_第3页
第3页 / 共29页
人物关系抽取.pdf_第4页
第4页 / 共29页
人物关系抽取.pdf_第5页
第5页 / 共29页
点击查看更多>>
资源描述

1、 学 士 学 位 论 文 论文题目: 基于人物信息嵌入的人物关系挖掘 姓 名: 刘春花 学 号: BK1231209 院 系: 信息科学学院 专 业: 计算机科学与技术 指导教师: 于东 二一 六 年 六 月 北京语言大学学士学位论文 (2012 级 ) 论 文 题 目: 基于人物信息嵌入的人物关系挖掘 院 系: 信息科学学院 专 业: 计算机科学与技术 学 生 姓 名: 刘春花 指导教师姓名: 于东 论文完成日期: 2016年 6月 论文原创性声明 本人郑重声明:所呈交的论文,是本人在导师指导下,独立进行的研究工作及取得的研究成果。尽我所知,除了文中已经注明引用和致谢的地方外,论文中不包含其

2、他人或集体已经发表或撰写的研究成果,也不包含为获得北京语言大学或其他教育机构的学位或证书所使用过的材料。对本文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本人完全意识到本声明的法律结果由本人承担。 签 名: _ 日 期: _ 学位论文知识产权权属声明 本人郑重声明:本人所呈交论文,是在导师指导下所完成的,论文知识产权归属北京语言大学。学校有权保留并向国家有关部门或机构送交论文的复印件和电子版本,允许论文被查询和借阅,将论文编入有关数据库进行检索等。本人离校后发表或使用学位论文或与该论文直接相关的学术论文获成果时,署名仍为北京语言大学。 签 名: _ 导师签名: _ 日 期: _

3、目 录 摘要 . I ABSTRACT II 第一章 绪论 1 1 1 研究背景 . 1 1.2 研究现状 1 1.2.1 关系抽取的研究现状 1 1.2.2 人物关系抽取的研究现状 . 2 1.3 本文研究内容 . 3 1.4 论文框架 . 4 第 2章 中文信息处理相关工具介绍 4 2.1 相关工具 . 4 2.1.1 哈工大语言技术平台( LTP)功能简介 . 4 2.1.2 哈工大语言技术平台( LTP)的使用 . 7 2.2 Perl语言概述 . 8 2.3 正则表达式 . 9 第 3章 基于规则和依存句法抽取人物实体关系 9 3.1 基于半结构化数据上的规则抽取 9 3.2 基于依

4、存句法的人物关系抽取 10 3.2.1 预处理 11 3.2.2人名实体在句中的位置分布 11 3.2.3 人名实体关系分类 12 3.3 基于句法分析的模式提取 12 第 4章 实验设计和实现 . 18 4.1 实验设计 18 4.3实验结果 19 第 5章 总结 . 20 致 谢 . 21 II 参考文献 22 I 基于人物信息嵌入的人物关系挖掘 作者 :刘春花 指导教师: 于东 摘要 : 互联网技术的高速发展使得网络上的爆发式增长,如何从这些大规模文本中获取有价值的信息并且将其转化为结构化的数据用于计算机的识别与处理是目前研究的重要课 题。开放 信息抽取是指从 无结构化的 文本中抽取出指

5、定的信息,比如实体 识别 、实体关系 抽取 ,然后将其以结构化的形式填充到数据库中供用户查询或计算机进一步分析、处理。 本文研究的是人物关系抽取。本文以新闻网页和百度百科人物页面作为数据源,使用哈工大语音技术平台作为中文自然语言处理的工具,对无结构化的文本中出现的人物关系进行抽取,以构建人物关系数据库。 本文重点研究下面几个问题。 首先, 本文以句子作为限定,认为一句话中如果包含两个及以上人名,那么这句话中则有可能有包含人物关系的特征词。还对 人名实体在句中的位置分布 进行了研究 ,将人名实体的数量与句子的句法结构相结合进行分类 。 其次, 通过对中文语句 进行句法分析 , 根据句法分析的结果

6、,统计人名实体与关系特征词之间的依存模式,进而使用这些依存模式大数据上进行人物关系的抽取。 最后, 使用人物关系特征词列表对抽取的人物关系三元组进行过滤和关系分类。 关键词 : 实体关系 抽取,人物关系抽取,依存模式挖掘 II The Figure Relationship Mining Based On Character Information Embedding Author: Liu Chunhua Tutor: Yu Dong ABSTRACT: The rapid development of Internet technology makes the explosive grow

7、th of the Internet, how to extract the valuable information from these large-scale texts and convert them into structured data for the study of natural language processing is an extremely important issue. Open information extraction means extract structured information from unstructured text, such a

8、s the recognition of entities, and the extraction of their relationships. And then filled in these structured data to the database for further analysis and processing. This paper studies the extraction of relationship between the characters. In this paper, news pages and Baidu Encyclopedia character

9、 page are used as a data source, using LTP as technology platform as the Chinese natural language processing tools, extracting the relationship between humans, and finally build character relational database. This paper focuses on the following questions. Firstly, the sentence will be taken into con

10、sideration if it contains two or more name entities, because this sentence is likely to contain a characteristic relationship between the characters. Also, the location and distribution of the name entities in the sentence were studied, the syntactic structure of sentences and the number of name ent

11、ities were combined to classification. Secondly, according to the results of the Chinese statement syntax analysis, collect the patterns between name entities and characteristics of their relationship, and then use these patterns to extract the relationships between the characters on big data. Final

12、ly, filter and classify the triples extracted from the pattern by the list of feature words. KEY WORDS: Entity relation extraction, relation extraction figures, dependent pattern mining 北京语言大学信息科学学院学士学位论文 第 1 页 /共 22 页 第一章 绪论 1 1 研究背景 随着计算机的不断发展以及互联网在政治、经济、医疗等领域广泛地应用,作为社会最集中的参与者人的信息在互联网中也越来越多。关于人的各种

13、各样的信息存在于互联网的各个地方。 要想实现数字化的社会则必须学会如何有效的掌控和利用有效的信息,排除掉无用的信息。 正是 在 人类 互联网 数据急剧增长的社会 , 对于有效信息的抽取和分类是一件需要迫切解决的问题 ,所以开放信息抽( Open Information Extraction, Open IE)取成为了研究的重要课题 。 社交网络的兴起更是让人物之间的联系变得更加丰富,人物之间的关系也就更加复杂。在这样的背景下,探索人物之间的关系便成为了研究的热点 。此外, 人物搜索引擎和社会关系网络构建中一个重要的基础技术是人物 关系 的抽取。 本文主要研究的是人物领域中的人物关系抽取 。 网

14、络上的人物信息中蕴含着大量关于人物之间关系的信息, 抽取 人 物关系信息 来构建人物关系知识库 并 构成社会关系拓扑图 是可行的 。 目前己有基于搜索引擎的人物关系抽取系统如微软开发的“人立方关系搜索”,雅虎的“雅虎关系”等都是专注社会网络分析这方面的 研究 。 人物关系抽取对于人物领域内的知识图谱构建、 人物关系 推理以及人物行为分析至关重要 。 因此人物关系抽取这一任务是有需求、有意义、有前景的。 1.2 研究现状 1.2.1 关系抽取的研究现状 在大数据的背景下,信息抽取( Information Extraction)的需求不断上升。信息抽取主要包括实体抽取、事件抽取、关系抽取。关系抽

15、取的发展与各种类型的评测会议关联很大比如 MUC( Message Understanding Conference)、 ACE( Automatic Content Extraction)、 TAC( Text Analysis Conference)。 实体抽取是关系抽取和事件抽取的基础,旨在从文本中识别出人名、地名、机构名、日期、数额等实体信息。世界由一个一个的实体组成,但是这些实体之间不是孤立的,他们之间有着千万缕的联系, 正是这些联系使得这个世界变得更加具有逻辑、更加复杂和精彩。所以要在实体识别的基础上,抽取出这些实体之北京语言大学信息科学学院学士学位论文 第 2 页 /共 22 页

16、 间存在的语义关系,才能赋予实体最真实的意义。这项抽取实体间语义关系的任务,即关系抽取。实体间的关系可被形式化描述为关系三元组 ,其中 Entity1,和 Entity2是实体类型, Relation是关系描述,两个实体之间的 Relation可以是多个。 关系抽取即从自然语言文本中抽取出关系三元组 ,从而提取文 本信息 。 在美国国防部高级计划委员会资助的 MUC 会议MUC-6 上,关系抽取的概念作为模板元素任务的一部分引入, MUC-7 是最后一次MUC会议,在本次会议上首次引入模板关系抽取任务 (template relation task,包含 3 种关系 )。随着 MUC 会议的停

17、办,美国国家标准与技术研究院 (National工 nstitute ofStandards and Technology,KIST)组织展开了自动内容抽取 ( ACE)测评会议。 ACE会议旨在研究自动抽取出新闻语料中的实体,关系以及事件等内容。关系抽取属于 ACE会议定义的关系检测与识别任务。 ACE会议提供了关系抽取的评测语料,也构建了详细的实体关系类型,将关系抽取任务进一步细化。 ACE会议于 2009 年并入美国国家标准与技术研究组织的国际文本分析会议 (TAC)后,关系抽取并入知识库构建 (Knowledge Base Population, KBP)领域的槽填充(Slot-Fil

18、ling)。 关系抽取旨在从海量的非结构化的文本中抽取出结构化的知识。这些结构化的知识对于知识库的自动构建、知识图谱的补全和推理以及搜索引擎等领域都具有重大的意义。通过关系抽取技术,从无结构 的自然语言文本中抽取出格式统一的关系数据,有助于计算机快速处理大规模文本数据,提高处理效率 ;通过抽取实体之间的语义关系,能够建立多个实体之间广泛的信息关联,有助于建立领域本体,促进知识图谱的构建 ;通过深入挖掘和分析自然语言文本中的语义关系信息, 在问答系中 能够进一步理解和匹配用户的查询意图,从而为用户提供更精准的搜索服务 也更容易结合深度学习和情感分析来使人类更加了解自我了解这个社会 。由此可见,关

19、系抽取技术不仅仅具有深刻的理论意义,而且具有广阔的应用前景。 关系抽取 经典的抽取系统主要有: FASTUS 抽取系统 、 REES 系统 、 DIPR 和Snowball系统 、 OpenIE系统 。 1.2.2 人物关系抽取 的研究现状 人物关系抽取可看作 是实体关系抽取的的一个重要的分支,只是将关系抽取中的命名实体限定为人名 。 人物 由于其特定的存在而与他人之间产生的关系称为人物关系 。 人物关系抽取有其特定的模式和特征。在之前的研究中,人物关系抽取的方法主要有三种: 北京语言大学信息科学学院学士学位论文 第 3 页 /共 22 页 1) 采用关系描述模式。 该方法 一般事先定义好需要

20、抽取的人物关系类型,统计或自动生成关系描述词,接着收集人物关系描述模式或者有序列的关系特征词模式,利用这些模式匹配出更多的人物实例。 2) 利用机器学习算法训练分类器。这类方法摒弃关系模式方法的强制匹配, 而是选择有效特征,在标记关系数据的基础上,选择合适的机器学习算法 (常用算法是 SVM、改进 SVM等 )进行训练,得到关系分类器用以 关系识别。 3) 自动生成关系描述短语。这类方法一般采用聚类算法,无需定义人物关系类型,而是将两个人名实体的共现句中能表达关系的短语作为关系类型。 从当前人物关系抽取技术的研究现状来看,人物关系抽取的方法研究中仍然 存 在着以下几点所面临的挑战 : 1) 关

21、于是否预先定义人物关系类型。 2)关于人物关系在识别时被遗漏。 3)关于无效的人名实体共现句。在存在关系的人名实体共现句中,会有部分共现句对该人物关系的描述是没有明显作用,是无效的。或者共现句中存在两个以上的人名实体,多种关系类型,那么这些共现句对其中任意一个关系类型都没有太多有效性。 1.3 本文研究内容 本文主要采用的是关系描述模式的方法对人物关系进行抽取。结合依存句法分析的结果对人物关系进行依存模式抽取,再在大规模的语料中利用依存模式抽取人物关系,构建人物关系数据库。 人物关系通常包含三个部分(人物 1, 关系,人物 2),因此 人物关系挖掘需要解决两个主要的问题:人物关系识别(识别具有

22、两个关系的人物),人物关系挖掘(挖掘出两个人之间的具体关系)。 本文针对这两个问题的解放方法如下: 第一个问题人物关系识别包含两个子问题:一 是如何识别一个人名,这是命名实体识别中的任务,现在各类中文语 言分析工具已较为成熟,可以直接使用分析工具分析的结果;二 是如何识别两个人是有关系的,这个问题一般简单地可以根据两个人人名的共现来说明两个人之间有关系,也可以根据词向量计算词与词之间的相似度来说明两个人之间有关系。词向量的计算会显得稍微麻烦,并且与一个人名相似的词可能不仅仅是人名,即使是人名也还需要进行排除看是否在我所处理的句子中。本文认为如果两个人名实体出现在同一个句子中则说明他们是有关系的

23、。 第二个问题人物关系挖掘,主要是在句子中包含两个人名以上的情况下,判断句子中是否存在描述两个人名关系的词,如果两个人名满足某种依存模式则将两个人人名和关系抽取出来。这个过程其实是寻找人物实体之间存在关系北京语言大学信息科学学院学士学位论文 第 4 页 /共 22 页 的模式都有哪些,找到这些模式也就可以通过这些模式抽取出人物之间的关系。 抽取出正确的关系依存模式之后,将这些模式应用到大数据中进行抽取,进而使用抽取结果来构建数据库。 1.4 论文框架 本文主要针对实体关系抽取中的人物关系抽取进行研究,采取的方法是基于依存句法模式。本文主要分为 5章。 第 1章 为 绪论 , 本章 首先介绍论文

24、选题的背景和意义,然后 关系抽取和人物关系抽取的研究现状 ,最后 介绍了本文的研究内容。 第 2章 对 中文信息处理相关工具介绍 , 本章主要 介绍了哈工大语言技术平台( LTP)的功能和使用,以及 Perl 语言和正则表达式。这是本实验所使用的中文分析工具和编程语言。 第 3章 介绍 基于规则和 基于 依存句法来抽取人物实体之间的关系,主要介绍了人名实体在句中的位置分布 、 人名实体关系分类 以及 基于句法分析的模式提取 。 第 4章 为 实验设计与实现,介绍实验流程、实验数据、实验结果。 第 5章 为 总结与展望 ,主要介绍本文的成果以及对未来研究的思考。 第 2章 中文信息处理相关工具介

25、绍 2.1 相关工具 2.1.1 哈工大语言技术平台( LTP) 功能简介 语言技术平台( Language Technology Platform, LTP)是哈工大社会计算与信息检索研究中心历时十年研制的一整套开放中文自然语言处理系统。 LTP制定了基于 XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富、高效、高精度的中文自然语言处理模块 (包括 分词、词性标注、命名实体识别、依存句法分析、语义角色分析、语义依存分析) ,应用程序接口,可视化工具,以及能够以网络服务使用的语言技术云。 语言技术平台的整体构造和功能如 表 2.1所示 : 北京语言大学信息科学学院学士学位论文

26、第 5 页 /共 22 页 表 2.1 LTP总体 架构 表 语言技术平台架构( LTP) DLL API Web Service 分析结果可视化 基于 XML的应用程序接口 数据操作传输和共享 词法分析 句法分析 语义分析 分词 词性标注 命名实体识别 依存句法分析 语义角色标注 基于 XML的语言学知识资源和语料库资源 以下是每个功能的简要介绍: 分词 (Word Segmentation): LTP的分词模块基于机器学习框架,可以很好地解决歧义问题。同时,模型中融入了词典策略,使得 LTP的分词模块可以很便捷地加入新词信息。 词性 标注( Part-of-Speech tagging)

27、: LTP中采用 863词性标注集 ( v代表动词、 n代表名词、 c代表连词、 d代表副词、 a代表形容词 、 nh代表人名 、 ni代表机构名 、 ns代表地名 、 wp代表标点符号 ) 。 命名实体识别 (Named Entity Recognition, NER): 命名实体识别是在句子的词序列中定位并识别人名、地名、机构名等实体的任务。 在 LTP中人名如果是一个词则用 S-Nh标示,如果一个人民被划分成为多个词则用人名的第一个词用B-Nh标示,中间词用 I-Nh标示,最后一个词用 E-Nh。比如:“宋庆龄” 通过 命名实体识别的结果为 “宋庆龄 /nh#S-Nh”, 而 “卡罗琳

28、.阿玛丽 .冯 .梅灵” 命名实体 识别之后的结果就是“阿玛丽 ./nh#I-Nh 冯 ./nh#I-Nh 梅 灵 /nh#E-Nh” 。 依存语法 分析 (Dependency Parsing, DP): 依存语法通过分析语言单位内成分之间的依存关系揭示其句法结构。 直观来讲,依存句法分析识别句子中的 “ 主谓宾 ” 、 “ 定状补 ” 这些语法成分,并分析各成分之间的关系。 语义角色标注 (Semantic Role Labeling, SRL): 语义角色标注是一种浅层的语义分析技术,标注句子中某些短语为给定谓词的论元 (语义角色 ) ,如施事、受事、时间和地点等。其能够对问答系统、信息

29、抽取和机器翻译等应用产生推动作用。 语义依存分析 (Semantic Dependency Parsing, SDP): 语义依存分析,分析句子各个语言单位之间的语义关联,并将语义关联以依存结构呈现。 使用语义依存刻画句子语义,好处在于不需要去抽象词汇本身,而是通过词汇所承受的语北京语言大学信息科学学院学士学位论文 第 6 页 /共 22 页 义框架来描述该词汇,而论元的数目相对词汇来说数量总是少了很多的。语义依存分析目标是跨越句子表层句法结构的束缚,直接获取深层的语义信息。 表 2.2 LTP依存句法分析标注关系 关系类型 Tag Description Example 主谓关系 SBV s

30、ubject-verb 我送她一束花 (我 花 ) 间宾关系 IOB indirect-object 我送她一束花 (送 她 ) 前置宾语 FOB fronting-object 他什么书都读 (书 我 ) 定中关系 ATT attribute 红苹果 (红 大海 ) 介宾关系 POB preposition-object 在贸易区内 (在 内 ) 左附加关系 LAD left adjunct 大山和大海 (和 们 ) 核心关系 HED head 指整个句子的核心 在本文中所使用的依存句法分析就是 LTP的句法分析。依存句法中我们所用到的主要的关系有主谓关系 SBV、动宾关系 VOB、定中关系

31、 ATT、并列关系 COO、介宾关系 POB。 下面利用 LTP在线演示的可视化结果再次展示 上面所描述的几个功能: 图 2.1 LTP的 demo示意图 北京语言大学信息科学学院学士学位论文 第 7 页 /共 22 页 图 2.1的上部分是分词、词性标注、命名实体识别、依存句法分析和语义角色标注的结果,下部分是语义依存分析的结果。图的上部分中整句话被分为10个词(包括标点符号),每个词下方都有词性标注,词性标注下方绿色部分是命名实体识别,命名实体下面橙色部分是语义角色标注, 词的方带有弧线的是依存句法分析,弧线上 红色的字 母 是两个词之间的关系。 2.1.2 哈工大语言技术平台( LTP)

32、的使用 LTP的使用: 本文所使用过的 LTP主要有两种方式,分别为在线版和单机版。 在线版的使用需要用到的是一个 API接口,该接口是用户注册语言云的服务后 获得的标识。对于每句话生成一个 URL,然后将 URL传递给服务器让服务器解析完以后再传回本机,生成 URL需要的三个参数包括待解析句子、待解析的模式、输出格式形式。待解析的模式包括五个,即分词( ws)、词性标注( pos)、命名实体识别( ner)、依存句法分析( dp)、语义角色分析( srl)。输出格式形式包括四种 xml(XML格式 ), json(JSON格式 ), conll(CONLL格式 ), plain(简洁文本格式

33、 )。 这种方式主要提供了 HTTP GET和 HTTP POST两种方式的调用接口。 单机版既可以在 Linux系统下的使用也可以在 windows系统下的使用。但是 LTP是依赖编译工具 CMAKE构建项目的,所以在使用 LTP之前需要首先安装CMAKE, CMAKE可以从官网上进行下载 。 LTP的 使用必须包括两部分内容: LTP项目文件和 LTP模型文件,他们都可以从 LTP的官网上 技术支持栏目下( 从源代码编译安装 LTP) 获得。 在线版和单机版的比较: 在线版的好处在于可以输出的格式很多,方便后续处理;缺点是每一条句子都要经过服务器的来回传输,速度很慢 , 并且需要在有网的情

34、况下才可以进行解析 。单机版的优点在于可以同时开启多个线程进行处理,速度很快 ,使用方便,只需要修改一些参数就可以直接使用 ;缺点是输出格式较为单一, 上文在命名实体识别处所举的例子便是单机版解析后的结果, 各个待解析模式之间是有依赖的,比如说词性标注是依赖于分词文件的,语义角色标注是依赖于命名实体识别和依存句法分析的 ,当文件较大时只能一步一步的来而不能同时进行 。 北京语言大学信息科学学院学士学位论文 第 8 页 /共 22 页 2.2 Perl语言概述 在 Perl语言出现 (1987年 )之前,在类似 Unix这样的系统中,几乎所有的文本处理程序都是通过 awk, sed, shell

35、和 C语言或包含这些语言的文本工具来完成的。 Perl语言的创立者 Larry Wall想要创建一种语言,使得能够非常简单和高效地处理文本,并且该语言不但具有 C语言的特征和能力而且具有 awk、shell等脚本语言的特性,于是 Perl语言应运而生。 Perl语言的特点有 : 解释性脚本语言 :Perl程序不需要预先编译即可由 Perl解释器对源代码程序解释执行。 模块化和可重用性 :Perl的函数库被称作“模块”。“模块”可以被 Perl程序共享, Perl程序可以随意使用在“模块”中定义的函数接口。 可嵌入和可扩展 :Perl代码可以很容易地被嵌入到 C/ C+语言的应用程序中 ;同时,

36、 C/ C+例程也可以很容易地被嵌入到 Perl的应用程序中。遵循 POSIX标准 :POSIX标准的全称是“可移植的操作系统可扩展标准”。遵循 POSIX标准,有利于把 Perl程序移植到不同的操作系统平台上。 安全性好 :Perl通过 setuid来跟踪数据流,因而其安全性要比 C语言更高,避免了许多用 C语言实现时可能出现的安全漏洞。 适合多种操作系统平台 :现在, Unix,Linux及 Windows等操作系统都支持Perl,甚至一些 嵌入式系统也开始支持 Perl语言。 适合多种操作系统平台 :现在, Unix,Linux及 Windows等操作系统都支持Perl,甚至一些嵌入式系

37、统也开始支持 Perl语言。 免费的自由软件 :Perl是典型的自由软件之一,因而赢得了世界上用户的广泛支持和积极参与,这也使得 Perl语言的功能越来越完善和强大。 Perl语言中精髓的部分应该是正则表达式和它的各种各样的模块,应用甚广。 北京语言大学信息科学学院学士学位论文 第 9 页 /共 22 页 2.3 正则表达式 由于正则表达式主要应用对象是文本,因此它在各种文本编辑器场合都有应用,小到著名编辑器 EditPlus,大 到 Microsoft Word、 Visual Studio等大型编辑器,都可以使用正则表达式来处理文本内容。 正则表达式,在 Perl中通常被称为模式 (pat

38、tern)。 模式就是一个概括性标示字符串的方式,模式中定义了一些特殊含义的符号,应用这些符号的不同组合达到描述一组字符串的目的。 模式就是字符串的一组特征。 Perl利用特征来描述一组字符串,而不需列出字符串的具体内容。正则表达式的任务是判断一个字符串中是否与给定模式匹配,然后返回“是”或“否”,并且在需要的时候通过变量获取与给定模式匹配的字符子串。 Perl中内建了一个功能强大的正则表达式引擎。正则的 主要格式为 :/模式 /。在处理文本文件的过程中,利用正则表达式过滤筛选出所需内容是一种非常高效的手段。 在对网页进行 剔除不必要的标签时常常使用正则表达式进行匹配,在本文中后面涉及的提取人

39、名实体间的模式 的过程中 也将用到正则表达式。 第 3章 基于规则和依存句法抽取人物实体关系 3.1 基于半结构化数据上的规则抽取 百度百科的人物网页中,带有 InfoBox的网页有三万多个, infobox指的是百度百科网页中有结构的那一部分,描述了一个人的基本信息,比如 姓名,国籍,任职以及家庭关系等栏目,从这些栏目中抽取家庭关系这一栏的属性作为关系的 备选集。 下面以周恩来的人物页面的 InfoBox为例进行详细的描述实验思路: 北京语言大学信息科学学院学士学位论文 第 10 页 /共 22 页 图 3.1 InfoBox抽取的属性值 ( 1) 每个页面共有的属性是姓名,观察网页源码并抽

40、取出每个网页的“人名 _百度百科”中的人名,作为人物三元组 中人物1。如上图,提取周恩来作为人物 1 的值。 ( 2) 观察在属性中是否含有描述家庭关系的词,比如:妻子、配偶、女儿等等这一系列的词,如果存在则抽取该属性作为 中的关系;抽取该属性的属性值作为 中人物 2 如上图,提取“配偶”作为关系的值,“邓颖超”作为人物 2 的值。 观察百度百科 InfoBox的信息整理得到百度百科关于描述家庭关系的属性词的描述的列表,再根据同义词词林将该列表进行扩展最后得到的列表中的词条数为 123 条。 ( 3) 对从 InfoBox 中得到的数据进行清洗和整理。抽取的数据中包含有 这样类似的数据,要将其

41、整理成为三元组 的形式。 3.2 基于依存句法的人 物关系抽取 人物关系抽取属于实体关系抽取范畴,实体关系抽取可采用基于模式 提取的 方法,一般基于模式 提取的实体关系抽取包括一下几个主要处理过程 : 预处理、模式提取、关系抽取。 预处理主要包括语料清洗 与整理 、中文分词、词性标注、命名实体识别、语句选取。模式提取则是先对小部分语料进行观察,寻找人物与人物之间、人物与关系之间的模式类别,然后将这些模式应用到大的数据集中进行测试,观察测试结果的正确率,并从测试结果中不断完善和更新模式。关系抽取的过程主要是结合句北京语言大学信息科学学院学士学位论文 第 11 页 /共 22 页 中人物人名所处的

42、位置 。 3.2.1 预处理 1) 语料清洗 与整理。从百度百科爬得 的网页 中 包含大量的 HTML 标记以及一些 杂乱的符号 以及乱码的句子 要将其 处理掉。 在此过程中的数据清洗和格式化非常重要, 一盘采用正则表达式来抽取有效的文本信息, 因此前后起止标记的确定需要谨慎,既需要保留有价值的语料信息,又需要去除大量冗余网页标记。而且抽取的信息当中往往又含有大量的网页特效标记或超链信息标记,而不仅仅是简单地抽取起止标记中间的内容。 所以在用正则表达式进行匹配的时候需要仔细的观察,根据网页段落类型的不同设计不同的正则表达式。 2)中文分词。 3) 词性标注。 4)命名实体识别。 5) 语句选取

43、。利用大数据可以完成自然语言处理的很多任务,但是在完成这些任务当中如果选取具有明显特征的数据作为数据集会在提高数据的稠密度的同时提高模型的运算速度,这样对于结果更有利。在人物关系抽取的任务上,我们需要抽取的是三元组 ,那么在选取语句时一句话中至少应该包含两个人名 才有可能作为关系抽取的备选集。所以根据命名实体识别的结果来选取一句话中至少包含两个人名的句子。这样可以筛选掉许多无意义无价值的语句,选出对后续处理有价值的语句,以此可以减少后期的工作量。 3.2.2人名 实 体在句中的 位置 分布 人名实体在句中的位置关系与人名的句法成分是息息相关的。 对一句包含两个人名以上的句子进行句法分析,可以抽

44、取出一个句子的主干部分, 句子结构可以简单地划分为主谓宾。人名实体是名词性词语,名词性处于可以位于句中的主语和宾语位置。根据句法分析的结果,可以就两个人的人名所处的位置对句子进行分类。 在 文章 2中,作者将人名实体位置的特征情况分为九 种。 如表 3.1所示 : 表 3.1 人名实体位置的特征情况 两人名所处位置 两人名实体关系 特征标示 核心特征词 同处主语子句 并列关系 11 谓语动词 同处主语子句 修饰关系 12 修饰成分中名词 同处主语子句 无明显关系 13 无 同处宾语子句 并列关系 21 谓语动词 同处宾语子句 修饰关系 22 修饰成分中名词 同处宾语子句 无明显关系 23 无

45、分处主宾子句 施事与受事 31 谓语动词 分处主宾子句 无明显关系 32 无 北京语言大学信息科学学院学士学位论文 第 12 页 /共 22 页 在做实验的过程中发现这样的分类 是存在一些问题的, 因为每句话的特征标示只有一个, 这样的分类在单句的 应用上效果不错。但是在实际情况中,中文的表达很复杂, 在复句中当 一句话中包含多个人名时,可能主语子句有两个 以上人名实体,宾语也有多个人名实体, 一个特征标示不能描述这个句子中人名之间的关系, 这时 句子 应该 具有多个特征标示。所以提出一种新的划分方法,对于一个句子 需要同时考虑主语子句的实体之间的关系、宾语子句之间实体的关系以及主语人名实体和

46、宾语人名实体之间的关系。由人名实体的个数以及在句子中位置可以做如下分类: 表 3.2 人名实体的个数在句子中位置的分类表 类别 主语人名数 宾语人名数 需要判断的关系 1 =2 0 主语人名 2 =2 1 主语人名、主语人名与宾语人名 3 =2 =2 主语人名、宾语人名、主语人名与宾语人名 4 1 1 主语人名与宾语人名 5 0 =2 宾语人名 6 1 =2 宾语人名、宾语人名与主语人名 3.2.3 人名实体关系分类 结合 文章 2中人名实体位置的特征情况的分类,研究过程中进一步总结出 出两个人名实体之间的关系主要分为两个大的类别,类别一是两个人名实体有直接的关系,直接关系一般是并列关系;类别

47、 2是 间接关系,指 两个人名实体通过一个或者几个词相连,间接关系一般是两个人名实体通过谓语动词、修饰名词、 谓语动词的并列动词 将两个人名。 直接关系 可以直接采用表 3.1 所描述的方法进行模式抽取就可以。对于 简介关系 ,经过统计发现在能够体现人物关系的语句中,谓语动词常常为几个特定的词,比如“是”“有” 。当谓语动词是这些词的时候关系特征词的选取则需要再进一步考虑 主语名词或者宾语 名词。 例如“ 孔子是颜回 的老师”,此时的特点是“ 孔子 ”作为第一人名实体是句子的主语, 谓语是“是”,宾语是“老师”,而第二人名实体“颜回 ”是修饰宾语“老师”的,此时很明显被修饰的宾语名词 “老师”

48、是最具特征的词。反过来“颜回的老师是孔子 ”,也 具有这一特征。 3.3 基 于句法分析的模式 提取 通过统计的方法发现模式,再根据模式匹配 从 大规模 语料 中抽取大量的任务北京语言大学信息科学学院学士学位论文 第 13 页 /共 22 页 关系来构建 人物关系 数据库 ,关系数据库中每个三元组为 。 由表 1已经知道人名实体在句中的位置与核心特征词抽取的关系。在实验过程中发现对一句话进行依存句法分析以后,一个人名与父亲节点的关系的属性值主要有四种: SBV 、 ATT、 COO、 POB。统计结果表明 其中 SBV的最多,其次 ATT,然后是 COO和 POB( 其中 POB的对于人物关系

49、抽取没什么意义)。 在实验过程中统计得到的模式如下: (一 ) 两个及以上人名位于主语 ,宾语没有人名 ( 1) 当前人名 Nh1与父亲词的关系是 COO且父亲词的词性为 Nh。 对每个人名进行判断,判断父亲词和的关系,如果父亲词和谓语动词为SBV关系,这说明父亲词为该句子的主语 ,抽取父亲词为 Nh2。 当谓语动词不为“是”时, 抽取谓语动词作为特征词 Rel。 例如: 1914 年,孔祥熙与宋霭龄于日本结婚。抽取谓语动词“结婚”作为特征词。 利用哈 工大语言云进行句法分析得到结果如下: 图 3.2 两人名同处主语且是并列关系 的句法分析图 由图 3.2知 句中 “孔祥熙”与“宋霭龄”两个人名实体都是位于主语,且“孔祥熙”与“宋霭龄”之间的关系弧的标注是“ COO”,即 并列关系,句子的谓语动词也就是 HED所在弧指向的词语“结婚”。此时 提取 “结婚”作为

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 经营企划

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报