收藏 分享(赏)

专利信息摘取研究.pdf

上传人:weiwoduzun 文档编号:4505134 上传时间:2018-12-31 格式:PDF 页数:76 大小:1.77MB
下载 相关 举报
专利信息摘取研究.pdf_第1页
第1页 / 共76页
专利信息摘取研究.pdf_第2页
第2页 / 共76页
专利信息摘取研究.pdf_第3页
第3页 / 共76页
专利信息摘取研究.pdf_第4页
第4页 / 共76页
专利信息摘取研究.pdf_第5页
第5页 / 共76页
点击查看更多>>
资源描述

1、分类号 密级 U D C 专利摘要的信息抽取研究 余 丰 导师姓名(职称) 朱东华(教授)答辩委员会主席 李金林 申请学科门类 管理学 论文答辩日期 2006.6.25 申请学位专业 管理科学与工程 2006年 6 月 10 日 I 专 利 摘 要 的 信 息 抽 取 研 究 北 京 理 工 大 学 II摘 要 专利信息作为记载和传递各类科技成果的信息载体, 其重要作用正日益显现出来, 如何从专利中挖掘有用的技术信息成为人们关注的焦点。信息抽取作为一门应用性的 语言处理技术,通过对文本的浅层分析,为快速准确地从海量信息源中提取出用户感 兴趣的信息提供了可能。 本文选择信息抽取技术在专利信息分析

2、这个特殊领域进行了探索性研究,针对美 国闪存技术专利设计了一个信息抽取系统,从摘要信息中抽取出技术关键词,并探讨 这个系统发展应用于专利全文信息抽取的可移植性。 本文首先将美国闪存技术专利数据定制下载到本地;然后对专利数据进行预处理 并导入数据库存储;第三步是进行以词性标注为核心的词法分析,得到专利摘要信息 的标记序列;第四步是制定句法规则并运用线图分析算法和概率上下文无关算法进行 句法分析;第五步是完成候选技术关键词的命名实体识别;最后将符合完整性和逻辑 性的技术关键词填充到结果库中。 本文有机的结合词典、规则和统计模型方法,针对隐马尔可夫标注算法进行了合 理改进,并在此基础上进行了大量的人

3、工指导和机器学习训练,在抽取结果处理上本 文还提出了一套技术关键词识别模型及其算法。实验结果表明,本文所设计的信息抽 取系统召回率和准确率基本令人满意。 关键词:专利信息 信息抽取 隐马尔可夫模型 IIIABSTRACT As the information carrier of recording and transmitting various Science & Technology productions, patent information has been gradually essential in contemporary research, and how to extra

4、ct useful technique information has already became the humans attracting focus. Being an applied language processing technique, information extraction provides interfaces for rapid and precise extracting information from large volume of information sources in which users are interested, by superfici

5、al analysis on texts. This thesis goes along exploring research on information extraction applied in a special area, patent information analysis, designs an information extraction system for American flash memory patent which extracts technical keywords from abstract, and discusses the transplant ab

6、ility of this system developing and applying full text information extraction for patent. At first, this article makes use of sophisticated information retrieval technique to customized download American flash memory patent. Then, pretreatment for patent data and loading the patent information block

7、s into database would be illustrated. Consequently, accidence analysis is presented that extracting the patent abstract to finish participles of dictionary rules and part of speech label based on Hidden Markov Model (HMM) to obtain the sign sequence of the patent abstract. By the fourth step, Chart

8、Parsing Algorithm (CPA) and Stochastic Context-Free Grammar (SCFG) are used to parse syntax and syntax rules are constituted. Finally, the patent technical keywords which accords with integrity and logicality has been filled into the result library. This article has organically combined dictionaries

9、, rules and statistics modeling methods in the field of system analysis, rationally improved the HMM tagging algorithm in the field of algorithm design, and carried on plentiful human direction practices and robots study practices in demonstration research. From the experimental results, the recall

10、and precision of information extraction system designed in this article are acceptable. Key words:Patent information,information extraction,hidden markov model IV目 录 1 绪 论 1 1.1 选题背景 1 1.2 研究的主要内容和意义 2 1.3 论文结构与安排 3 2 信息抽取技术综述 5 2.1 信息抽取的概念 5 2.2 信息抽取处理的研究对象 5 2.2 信息抽取研究的历史及现状 5 2.3 信息抽取的类型 8 2.4 信息

11、抽取的方法设计与流程 8 2.5 信息抽取的模型选择 9 2.6 信息抽取系统的性能评价. 10 2.6.1 信息抽取的全面性和准确性评测. 10 2.6.2 事件复杂度的评测. 11 2.6.2 信息抽取系统的可移植性评测. 11 3 专利摘要信息抽取模型的提出 13 4 专利摘要的信息抽取系统设计. 15 4.1 总体框架与流程. 15 4.1.1 专利摘要信息抽取系统的设计思想. 15 4.1.2 专利摘要信息抽取的技术框架. 15 4.2 专利信息的获取. 16 4.3 数据预处理. 17 4.4 词法分析. 19 4.4.1 分词处理. 20 4.4.2 词性标注. 21 4.5 句

12、法分析. 31 4.5.1 句法规则. 32 4.5.2 句法的线图分析. 33 4.5.3 基于概率模型的句法分析. 34 4.5.4 阶段式句法分析模型的提出. 36 4.6 命名实体识别. 37 4.6.1 技术关键词识别模型的提出. 37 4.6.2 技术关键词识别的算法设计. 37 4.7 结果生成与模板填充. 39 5 专利摘要信息抽取实证研究. 40 5.1 数据准备. 40 V5.1.1 专利数据获取. 40 5.1.2 专利数据处理. 40 5.2 系统实现. 41 5.2.1 数据库设计. 41 5.2.2 交互界面设计. 47 5.3 实验与分析. 50 5.3.1 词法

13、分析结果. 50 5.3.2 技术关键词抽取结果. 52 5.3.3 命名实体识别结果. 50 5.3.4 结果评价与分析. 54 5.4 后续分析应用. 57 5.4.1 专利检索的理论与依据. 57 5.4.2 现有专利检索理论的局限性. 58 5.4.3 针对技术关键词的分类索引建立. 59 5.4.4 专利技术关键词检索的意义. 61 6 总结和展望. 62 6.1 研究工作总结. 62 6.2 本论文的创新之处. 62 6.3 研究限制. 63 6.4 下一步的工作. 63 致 谢 64 攻读硕士期间发表的学术论文 65 参考文献 66 VI图目录 图1.1 专利标引项示例 1 图2

14、.1 信息抽取系统模型 9 图3.1 智能化专利摘要信息抽取模型. 14 图4.1 专利摘要信息抽取系统的设计思想. 15 图4.2 信息抽取系统的技术框架. 16 图4.3 美国专利商标局USPTO网上专利数据检索页面. 17 图4.4 美国专利示意. 18 图4.5 网页格式的专利文本. 18 图4.6 基于MKIE方法的文本预处理流程 19 图4.7 分词指针序列. 20 图4.8 使用词典规则的词性标注算法. 23 图4.9 基于隐马尔可夫模型的词性标注. 24 图4.10 向前-向后算法图解示例 27 图4.11 Viterbi算法图解示意 . 28 图4.12 机器学习算法流程.

15、28 图4.13 剪枝操作示意. 29 图4.14 线图生成示意. 34 图4.15 歧义句子剖析树. 35 图4.16 阶段句法分析模型. 36 图5.1 常用动词词库示例. 43 图5.2 技术关键词词库. 44 图5.3 专利信息库. 44 图5.4 专利摘要库. 45 图5.5 技术关键词抽取结果库. 45 图5.6 结果集与数据集的关联关系. 46 图5.7 技术关键词索引表. 46 图5.8 专利摘要信息抽取系统. 47 图5.9 待处理的原始专利数据. 47 图5.10 经过预处理的专利分块信息. 48 图5.11 待抽取专利摘要. 48 图5.12 词性标注示意. 49 图5.

16、13 技术关键词抽取结果示意. 49 图5.14 专利技术关键词检索模型. 60 图5.15 专利技术关键词索引. 60 图5.16 技术关键词索引工作模式. 61 VII表目录 表4.1 专利基本信息表 19 表4.2 Brown 语料库中的词性数目 25 表4.3 词性分布概率示意 26 表4.4 引入剪枝操作对于系统的影响 30 表4.5 含混矩阵示意 31 表4.6 句法规则 32 表4.7 PCFG概率表 35 表4.8 权系数设置指标 38 表4.9 候选单词概率指标 38 表4.10 非技术关键词影响概率 39 表5.1 专利数据信息 41 表5.2 待处理专利摘要信息 41 表

17、5.3 词性规则标记 41 表5.4 词典库 42 表5.5 技术关键词库 43 表5.6 词性标注训练结果 50 表5.7 词性标注测试结果 50 表5.8 训练阶段的技术关键词抽取结果 52 表5.9 训练阶段信息抽取系统性能评价指标 52 表5.10 测试阶段的技术关键词抽取结果 53 表5.11 信息抽取系统性能比较 53 表5.12 候选技术关键词识别情况表 51 表5.13 命名实体识别算法评价指标 51 表5.14 单独模型和综合模型的性能比较 54 表5.15 MUC系列会议任务最优评测结果. 55 表5.16 863评测人名识别评测结果 56 VIII北京理工大学硕士学位论文

18、 1 绪 论 1.1 选题背景 专利是一种来源于技术的发明创造,并且转化成为具有独占权利的一种形态。目 前专利是记载和传递各类科技成果及其信息的最重要载体,成为占全世界每年各种图 书期刊总出版量四分之一的出版物 16 。 专利信息的分析研究正在国内外广泛开展,总的说来,对于专利的分析主要从定 性和定量两个角度展开。定性分析主要从专利信息的内容着手,通过分析专利中的某 些特定信息项以获得相关专利分析情报。定量分析则主要对一些专利中的固有标引项 目指标进行统计分析,再从技术和经济的角度对有关统计数据的变化进行解释,以获 得动态发展趋势的分析结果 20 。 图 1.1 专利标引项示例 如图1.1所示

19、的专利标引项示例可知,一条完整的专利包含了31项标引内容。目前 的专利研究主要围绕着专利的申请日期、专利权人、所属机构、国家、IPC分类号和 引用关系的统计分析展开,而记录着关键技术信息的专利摘要却一直得不到利用。究 其原因是由于专利摘要由自由文本写成,现有的专利分析工具不具备自然语言处理的 功能, 因此无法对其进行有效分析。 不能有效处理包括专利摘要在内的专利文本信息, 直接影响了专利信息的利用率,也制约着专利分析向更深层次的内容挖掘方面发展。 为了解决当前专利信息分析所面临的问题,本文创新性的将信息抽取技术引入到 专利信息的分析应用中。信息抽取是指从一段文本中抽取指定的一类信息并将其形成1

20、北京理工大学硕士学位论文 结构化的数据填入一个数据库中供用户查询使用的过程,也叫信息提取 1 。利用信息 抽取技术在处理文本信息方面的优势,更有效的分析和处理专利信息,从中获得专利 技术信息,填补目前专利信息分析研究中的空白,将定性与定量分析方法结合起来, 为我国专利信息分析的发展提供有益的参考。 1.2 研究的主要内容和意义 本文的研究重点是使用自然语言分析方法抽取专利摘要信息中用以描述专利技术 构思或技术方案的专利技术关键词。本文是针对英文专利摘要信息抽取进行研究。首 先,文本理解不是本文研究的重点,所以本文所提到的方法很少涉及深层次的自然语 言理解问题,只是应用自然语言处理过程中相关的统

21、计方法。另一方面,本文主要研 究将半结构化、自由文本为主的专利摘要信息转化为结构化信息,再通过人工指导训 练和机器学习相结合的方式设计信息抽取模型实验平台并实现技术关键词的抽取。 本文的研究目的是设计一个统计、词典和规则方法相结合的信息抽取模型,主要 工作归纳如下: (1)对信息抽取技术进行了综述,总结了三种常见的信息抽取模型,对比了三种 信息抽取模型的优缺点,设计了以基于统计方法的词性标注为核心,三种模型有机结 合的全新信息抽取模型。 (2)根据英文专利数据源和美国专利数据特征,在数据准备阶段利用知识发现与 数据分析实验室的专利自动下载工具从网上专利数据库下载的原始专利数据,再对获 取到的专

22、利数据进行清洗、非相关主题信息过滤、专利信息分块、数据库导入等操作, 从而积累了大量真实有效的美国闪存技术专利结构化信息。 (3)设计了以词性标注为核心的词法分析。将基于词典的分词和词性标注方法与 基于隐马尔可夫模型的统计方法相结合,在此基础上,初期使用了大量人工标注样本 对模型进行指导训练,中期将人工指导与机器学习相结合,通过系统反馈机制对模型 参数进行修正,后期实验则由机器自动完成。 (4)完成标注算法的合理改进。针对时间复杂度较大的问题引入阀值剪枝;针对 概率连乘计算的运算量过大问题引入对数变形公式,在单调性不变的情况下计算量大 大减小。实验结果表明,新的算法相对于原有算法有效降低了时间

23、复杂度和运算量。 (5) 句法分析主要在句法展开规则的基础上结合线图分析和概率无关上下文语法 分析的特点,提出了一个阶段式句法分析模型,使专利摘要句子序列的分析更加准确2北京理工大学硕士学位论文 有效。 (6)技术关键词提取主要通过命名实体识别技术来实现,本文设计了技术关键词 组的识别规则和阀值计算方法,使技术关键词的识别实现了自动化和规范化。实验结 果表明,新的信息抽取模型对于专利摘要中技术关键词的抽取具有比较满意的召回率 和准确率,达到了设计要求。 通过以上研究内容显示,将信息抽取技术应用于专利信息分析中,对于专利信息 分析有以下几点意义: (1)体现了专利分析工作的时效性。对于公开的专利

24、资源,目前分析者常常是通 过纸质或互联网粗略收集专利信息,专利中大量关键的技术信息还得通过人工过程加 以识别和分析。信息检索技术虽然为找到目标信息提供了很好的支持,但还得根据它 提供的地址去访问每一个页面,工作量大且浪费时间。信息抽取技术通过智能化处理 过程大大缩短了专利信息的分析处理时间,体现了专利分析工作的时效性。 (2)实现了专利信息的动态监测。信息抽取技术的使用为专利信息的快速分析和 传递提供了可能,更有效地实现了专利信息的动态监测。 (3)实现智能化的信息处理。原有的信息获取技术实现的是单纯的信息获取,在 信息的识别、判断和分析处理方面明显不足。信息抽取技术本质上是一种信息获取技 术

25、,但它在某种程度上实现了信息的自动识别、判断和分析处理。 (4)专利定性和定量分析方法的结合。通过信息抽取将专利摘要中的技术关键词 定性的提取出来,就可以进行技术关键词分类、关联分析和统计研究,从而将定量分 析方法有机结合起来。 (5)实现规范化的管理。传统的管理方式散乱、不易查找,信息抽取最后结构化 的表达方式易于理解且方便管理。充分利用这种现代信息技术,使需要的专利技术信 息得到及时、准确的处理,并实现数据库管理的自动化、规范化。 因此,进行专利摘要的信息抽取研究应用,可以丰富专利信息分析研究方法,提 高专利信息利用率,不仅具有理论研究价值,其实践应用价值也非常高。 1.3 论文结构与安排

26、 本文根据结构安排,共分为六个章节: 第一章:绪论 包括本文的选题背景、主要研究内容与意义、论文的结构安排以 及文章创新点设计。 3北京理工大学硕士学位论文 第二章:信息抽取技术综述 主要介绍信息抽取技术的概念、研究对象、研究历 史及发展现状、信息抽取的类型、方法设计与流程、抽取模型选择和信息抽取系统的 性能评价。 第三章:专利摘要信息抽取模型的提出 根据专利摘要信息的特点设计了一个抽 取模型,主要包括专利数据源分析、专利数据获取、专利数据存储、专利摘要信息抽 取、专利信息服务探讨等。通过建立新的理论和方法模型,为本文的进一步研究提供 理论依据。 第四章:专利摘要的信息抽取系统设计 完成了专利

27、摘要信息抽取系统的总体框 架与流程设计,解决数据准备问题,对专利数据进行预处理,设计词典、规则与统计 方法相结合的词法、句法分析,提出了一套全新的命名实体识别模型及其算法,并选 择合适的抽取结果输出方式。 第五章:专利摘要信息抽取实证研究 通过处理准备好的专利数据信息,结合人 工指导和机器学习训练,从专利摘要中抽取出技术关键词,分析抽取系统的召回率与 准确率,并将抽取结果生成基于技术关键词的专利索引。 第六章:总结和展望 总结全文,概述研究工作成果及意义,提出本文的创新之 处,明确当前研究的不足和下一步的工作方向。 4北京理工大学硕士学位论文 2 信息抽取技术综述 2.1 信息抽取的概念 信息

28、抽取是面向结构化、半结构化和非结构化文本所进行的浅层的或者说简化的 文本理解技术,其定义为从一段文本中抽取指定的一类信息并将其形成结构化的数据 填入一个数据库中供用户查询使用的过程 21 。即它从文本中抽取用户感兴趣的事件、 实体和关系,然后进入数据库,分析趋势,给出文摘,或进行在线服务。信息抽取还 可以看作是信息检索的进一步深化,研究指定信息的查找、理解和抽取,并将指定信 息以适当的方式输出。 2.2 信息抽取处理的研究对象 狭义的信息抽取,其处理对象主要是各种文本信息,包括结构化文本信息、半结 构化文本信息和自由文本信息。而广义上的信息抽取处理对象则还包括了语音、图像 和视频等多媒体数据信

29、息。在这里,主要研究的是狭义的信息抽取技术。 信息抽取的最初目的是开发实用系统,从自由文本中抽取有限的主要信息。处理 自由文本的信息抽取系统通常使用自然语言处理技巧,其抽取规则主要建立在词和词 类间句法关系的基础上。需要经过的处理步骤包括:句法分析、语义标注、命名实体 识别和抽取规则。 结构化文本信息是一种存储于数据库里的文本信息,或者根据事先规定的严格格 式生成的文本信息。从这样的文本信息中抽取信息是非常容易的,准确度也很高,通 过描述其格式即可达到目的。 半结构化文本信息是一种介于自由文本信息和结构化文本信息之间的数据信息, 通常缺少语法,也没有严格的格式。自然语言处理技术对于这样的文本信

30、息处理不一 定有效,因为其可能不是由完整语句构成;同时由于其非格式化的特点导致用来处理 结构化文本信息的规则方法也不能奏效。因此,半结构化文本信息的抽取模式通常依 赖字符和类似 HTML 标记的分隔符号,以从中抽取出所包含的一些结构化信息。 2.2 信息抽取研究的历史及现状 从自然语言文本中获取结构化信息的研究最早开始于20世纪60年代中期,这被看5北京理工大学硕士学位论文 作是信息抽取技术的初始研究, 它以两个长期的、 研究性的自然语言处理项目为代表。 其中一个是美国纽约大学开展于60年代中期并一直延续到80年代的Linguistic String项 目;另一个相关的长期项目是由耶鲁大学Ro

31、ger Schank及其同事在20世纪70年代开展 的有关故事理解的研究 21 。 从20世纪80年代末开始,消息理解系列会议(Message Understanding for Comprehension)的召开使信息抽取研究蓬勃开展起来并发展成为自然语言处理领域一 个重要分支, MUC定义的信息抽取任务的各种规范以及确立的评价体系也成为信息抽 取研究事实上的标准。在研究方面,主要侧重于:利用机器学习技术增强系统的可移 植能力、探索深层理解技术、篇章分析技术、多语言文本处理能力、WEB信息抽取 (Wrapper)以及对时间信息的处理等等。在应用方面,除自成系统以外,还往往与 其他文档处理技术

32、结合建立功能强大的信息服务系统。目前以美国国家标准技术研究 所(NIST)组织的自动内容抽取(Automatic Content Extraction)评测会议为主的各项 工作正在推动信息抽取研究进一步发展。 中文信息抽取方面的研究起步较晚,目前国内主要有中科院、北京大学、哈尔滨 工业大学和上海交通大学等研究机构和大学在进行相关研究,研究工作主要集中在中 文分词和中文命名实体的识别等方面,在设计实现完整的中文信息抽取系统方面还处 在探索阶段。 经过二十多年的发展,目前信息抽取技术的应用上已经非常广泛,一些比较典型 的信息抽取系统的推出也标志着信息抽取技术的发展 32 : ATRANS 系统 A

33、TRANS 系统是早在 1981 年由 Cowie 研究出来关于动植物正规结构描述数据库 的系统及其商用化产品。该系统采用了概念句子分析技术,通过一些简单的语言处理 技术能够完成限制在小规模,特定专业领域的信息抽取任务。 FRUMP系统 FRUMP系统由Gerald De Jone在 80年代初实现,该系统把有限新闻网络作为数据 源,使用一些新闻故事的简单脚本来对有限新闻网络进行监控。它采用关键字检索、 概念句子分析、脚本匹配等方法来寻找新闻故事。FRUMP系统是一个面向语义的系 统,采用了一个特定专业领域的事件描述脚本知识库 6 。 SCISOR系统 80年代末,美国 GE 研究与开发中心的

34、 Lisa F.Rau 等研制的 SCISOR(System for 6北京理工大学硕士学位论文 Conceptual Information,Organization and Retrieval)系统所处理的对象是有关“公司合 并”的新闻报导。 SCISOR 首先采用关键词过滤和模式匹配的方法对待处理文献进行主 题分析,以便判定该报道的内容是否与“公司合并”有关;然后采用自底向上的分析器 识别句子结构,生成概念表示;最后应用自顶向下的预期驱动分析器提取预期内容。 FASTUS系统 FASTUS系统(Finite State Automaton Text Understanding Syste

35、m)是美国加里福尼 亚斯坦福研究所人工智能中心从 1991 年开始开发的一个基于多层、非确定有限状态 自动机模型的自然语言文本信息抽取系统。它共有六层转换机制,即:切分标记层、 预处理层、名称项识别层、简单短语识别层、复杂短语识别层、指同求解层。分解的 语言处理使此系统能够处理大量的与专业领域无关的句法结构,以至于与专业领域相 关的语义和语用处理能被应用到相当大部分的语言结构上。正因为FASTUS系统具有 这样的特点,它已被成功地运用于许多应用中 2 。 LaSIE系统 采用统计学的方法进行词汇标注和语法分析,语法分析从底向上,语义信息也在 此分析过程中被建立,语段分析(Discourse A

36、nalysis)然后把语义信息对应为领域模 型。指代关系的判断(互指项处理)作为一个过程被调用,也可以识别命名实体。该 系统还可以生成抽取时间的摘要。 WHISK 系统 该系统既适用于结构化、半结构化的文本信息抽取,也适用于自由文本信息的处 理,在处理前二者时不使用自然语言处理技术。用户在可视化的环境下根据系统提供 的实例标记出感兴趣的信息并定义模式。系统使用语法分析器和语义类分析器,分析 出用户标记信息的语法成分和对应的语义类,生成基于语法标记和语义标记的抽取规 则,实现信息抽取。 TIPSTER 系统 由美国国防部和中情局共同资助,目的是改进文本处理的流行技术,使用一组通 用的文本处理模块

37、已能满足不同的文本处理应用的需要。第一阶段是改进文本检测和 信息抽取算法,第二阶段将技术组成构件标准化,目前进行中的第三阶段是开发架构 能力平台来支持评价、扩展和探索进展中的 TIPSTER系统 SMES系统 由德国人工智能研究中心语言技术实验室(DFKI-LT)在 Paradime 项目中所开发7北京理工大学硕士学位论文 的 SMES(Saarbrcken Information Extraction System)系统是一个联机的德语文档信 息抽取智能系统。文档的专业领域包括通讯稿、经济报告和技术说明书。SMES 系统 拥有大量的语言知识资源(如电子词典包括词条 12 万条以及可扩展性很强

38、的专门语 法)以及快速和鲁棒的自然语言构件。它还能利用机器学习机制使自身能为实现新功 能得到训练和配置,并能适应所需的信息数量和各种文档长度。它被集成了图形可视 化技术、服务器体系结构和英特网访问技术。SMES作为一个有效的智能信息检索的 核心系统已经成功地运用于科学和工业项目中。 2.3 信息抽取的类型 MUC系列研究项目根据信息抽取内容以及所抽取出的信息的集聚水平的不一样, 将信息抽取分为以下的几种主要类型:命名实体识别(Named Entity Recognition)、多 语种实体识别任务(Multi-lingual Entity Task)信息抽取、模板元素(Template Ele

39、ment)信 息抽取、参照(Co reference)、模板关系(Template Relation)信息抽取、情节模板 (Scenario Template)信息抽取。其中命名实体识别是信息抽取中最为基础的类型,它 仅仅需要系统能够从众多信息中标识并分离出相关的命名实体。 但NE具有非常直接的 实用价值,在对文本中的名称、地点、日期等进行标注之后,即提供了对这些信息进 行检索的可能。对于许多语言信息处理系统,NE都是其中一个很重要的组件 1 。 2.4 信息抽取的方法设计与流程 信息抽取系统设计主要有两大方法:一是知识工程方法(Knowledge Engineering Approach)

40、;二是自动训练方法(Automatic Training Approach)。知识工程方法主要靠 手工编制规则使系统能处理特定知识领域的信息抽取问题。这种方法要求编制规则的 知识工程师对该知识领域有深入的了解,且开发的过程可能非常耗时耗力。自动训练 方法系统主要通过学习已经标记好的语料库获取规则,并且经训练后的系统能自动学 习处理新的文本。这种方法要比知识工程方法快,但需要足够数量的训练数据,才能 保证其处理质量 21 。 信息抽取的工作流程可以表述为:用一组信息模式(Information Patterns)描述感 兴趣的信息;对待抽取文本信息进行“适度的” (浅层、非完整的)词法、句法及语

41、 义分析,并作各种文本标引;使用模式匹配方法识别指定的信息;进行上下文关联、 指代、引用等分析和推理,确定信息的最终形式;输出结果。根据信息抽取的一般工8北京理工大学硕士学位论文 作流程并结合其基本体系结构可以得到一个通用的信息抽取系统模型, 如图2.1所示。 预处理 过滤 预分析 词法分析 分析 语义分析 句法分析 词汇消歧 匹配 共指消解 模板填充 处理 输入 数据结构化 数据分析 信息处理 输出图 2.1 信息抽取系统模型 2.5 信息抽取的模型选择 有关信息抽取的模型发展相当迅速。在 1993 年的MUC-5,只提议了两个自动产 生规则系统:AutoSlog和PA L K A之后,大量

42、的信息抽取系统获得了发展:HASTEN, LIEP,WRAP-UP,CRYSTAL,RAPIER,WHISK,STALKER,HMM等等。尽管目 前的信息抽取系统在技术上存在差别,但是根据采用的模型的不同可以将他们分成三 类:基于词典的抽取模型,基于规则的抽取模型和基于隐马尔可夫模型(Hidden Markov Model)的抽取模型 28 。 基于词典的信息抽取模型需要首先构造抽取模式词典,然后使用该模式词典通过 匹配算法从未标记文本中抽取所需信息。这些系统有 AutoSlog,AutoSlog-TS, CRYSTAL,SRV,HASTEN,LIEP,PA L K A 等。基于词典的信息抽取

43、需要对概念结 点进行定义, 建立和维护相关的模式知识工作量比较大, 最佳词典的产生也比较麻烦, 领域相关性太强,应用不是很广泛,常常和基于规则的模型结合在一起使用。 基于规则的模型需要先构造抽取规则集,利用这些通用的规则从文本中抽取信 息。基于规则的模型也叫 Wrapper 模型。Wrapper 是一种软件构件,一个 Wrapper 类 一般针对某一单一数据源中的一类页面,负责将数据和查询请求由一种模式转换成另 一种模式。在 We b 环境下, Wrapper 负责将隐含在 HTML文档中的信息抽取出来,并 且转换成能够被进一步处理的以某种数据结构存储的数据。 就形式而言, 一个 Wrappe

44、r 类实际上是一类页面到该页面所含元组集合的映射函数。典型的 Wrapper 系统有9北京理工大学硕士学位论文 WIEN,SoftMealy,STALKER,WHISK,Wrapper-Up,T-Wrapper 等。基于规则的抽 取模型比较常用,在很多情况下其抽取速度和精度也非常令人满意,但无论是手工构 造规则还是机器归纳学习规则,都比较复杂,适应性较差。 利用隐马尔可夫模型进行信息抽取是一种基于统计学习的信息抽取方法,它提供 了一种基于训练数据的概率自动构造识别系统的技术,并拥有适合自然语言任务的强 大的统计学基础。虽然使用 HMM 模型有两个必要的条件:模型拓扑的先验观念和统 计学技术所需

45、的大量训练数据。但现有的一些成熟的模型学习、训练和评估算法都具 有很高的计算效率,使得模型易于建立。HMM 不需大规模的词典集与规则集,虽然 在某些专门领域精度不如基于规则的模型,但它能健壮地处理新数据,可移植性好, 应用领域广,有时甚至可以将规则的方法融入到该统计模型中来,因而得到研究者的 关注。应用 HMM 模型进行文本信息的抽取,一般以单词作为基本抽取单位,考虑到 文本排版格式、分隔符等信息的存在,在研究抽取模型时通常将待抽取文本划分成文 本分块序列,在信息抽取过程中采用单词与文本分块信息抽取相结合的 HMM 模型, 以便提高抽取的效率。HMM 虽然相对来说是一种比较新的文本信息抽取模型

46、,但被 认为有着很好的应用价值,值得进一步的研究。 2.6 信息抽取系统的性能评价 信息抽取系统的性能可从两个方面来进行评测:信息抽取的全面性和准确性以及 信息抽取系统的可移植性。但是,为了更为独立客观的评测信息抽取的全面性和准确 性,对信息抽取系统所应对的领域/任务的复杂度也要进行评测 36 。 2.6.1 信息抽取的全面性和准确性评测 一般采用三个指标来评测信息抽取系统的全面性和准确性: 召回率 R、 准确率 和 综合指标 。召回率和准确率是从信息检索的两个性能评测指标沿用而来的。 P F R= 系统返回的正确抽取结果个数/可能存在的正确结果个数; P= 系统返回的正确抽取结果个数/系统返

47、回的所有结果个数。 P和 R的值域为0,1,它们的最优值为1。一般的,对于一个信息抽取系统,单 独追求一个指标的提高而忽视另一个指标的提高是无意义的,应该同时追求较大的召 回率和准确率。事件抽取中,召回率和准确率一般是针对事件的各个角色来讲的,而 不是针对整个事件来讲的。 如果待抽取的事件较为复杂, 事件所包含的角色数目较多,10北京理工大学硕士学位论文 则常常出现某个事件角色的召回率和准确率都很高,但整个事件的召回率和准确率却 较低的情形。实际应用时,为了评价的方便,常常将 R和 结合在一起形成一个综合 指标 P F ,用来衡量信息抽取系统的整体性能。 2 2 (1 ) PR F PR +

48、= +(2.1) 其中, 决定了 R之于 P 的重要程度。若 1 = ,则将 R和 视为同等重要;若 P 2 = ,则将 R的重要程度视为 的两倍;若 P 0.5 = ,则将 R的重要程度视为 的一 半。 P 对实现了同样的领域/任务的信息抽取系统,它们的性能可以通过各自的 R、P、 F 较为准确的刻画出来。但是,对于不同领域/任务的两个或多个信息抽取系统,要 评测它们的性能,不仅要参考它们各自的 R、P、F ,还要将它们各自所应对的领域 /任务的复杂度也考虑进去。领域/任务越复杂,要提高系统的性能就越困难。领域/ 任务的复杂度主要体现在其中所描述事件的复杂度。 2.6.2 事件复杂度的评测

49、事件本身的复杂度和事件描述的复杂度对事件信息抽取的难度和性能都有影响。 一般的,用户提出的事件抽取需求中的事件都是比较复杂的,而抽取的结果往往因为 数据之间关系的丢失并不能反映文本中信息的结构。这种问题的产生是由于事件本身 的复杂及其描述的复杂共同造成的,因此,关注事件及其描述的复杂度对于深化事件 抽取的研究,找出应对复杂事件信息抽取的办法,是有意义的。 对于采用模式匹配方法的事件抽取来讲,事件的相关信息在句子(群)的分散程度 可以间接的反映事件描述的复杂度。因此,针对一个领域/任务计算出所有复杂层级 中事件描述的复杂度分布频率,就可以对事件领域/任务的复杂度进行量化评测。对 事件及其描述的复杂度和对事件领域/任务的复杂度进行量化评测,能更为准确的评 测已有事件抽取系统的性能,以弥补仅用召回率 R、准确率 和它们的混合指标 P F 来 评测信息抽取系统的性能的不足。 2.6.2 信息抽取系统的可移植性评测 目前来看,要找出一个恰当的量化指标来评测信息抽取系统的可移植性好坏还比 较困难。但却可以通过和其它系统做比较来衡量某个信息抽取系统的相对可移植性好11

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报