1、本 科 毕 业 论 文汉语分词技术研究Study of Chinese Word Segmentation Technology姓 名:学 号:学 院:软件学院系: 软件工程年 级: 指导教师: 年 月摘 要摘 要中文分词技术是中文信息处理的一项基础性工作,也是一项关键性工作。它是我国计算机科学研究领域的重要课题。信息检索是当前中文分词系统的主要应用领域。面向信息检索的中文分词技术是中文分词技术研究中的一个重要方向。面向信息检索的中文分词系统首先要有较高的分词速度,对于中文分词中存在的两大难点:歧义字段处理和未登录词识别也要有较完善的解决方案。本文从理论上比较和分析中文分词的三类主要方法:基于
2、字符串匹配的方法,基于统计的方法,基于理解的方法。并对其技术特点进行阐述,在此基础上提出了各方法存在的问题。基于字符串匹配的方法速度快,具有一定的歧义处理能力,但对于未登录词的识别存在明显的缺陷;基于统计的方法在有大型语料库的支持下可以具备很高的准确度,但是速度不易提高;基于理解的方法目前还处于初级阶段,难以实用化。针对信息检索领域和上述算法的特点,本文提出了基于字符串匹配和基于语言统计模型相结合的思想,利用语言统计模型在识别未登录词和歧义处理上的优势,来弥补基于字符串匹配方法的不足,同时发挥其速度快的优势。基于上述思想,本文设计并开发出了基于 Java 平台的中文分词基础工具包和分词系统。该
3、工具包实现了基本的分词算法及本人提出的改进算法,能够满足通用中文分词的基本需求。工具包预留了接口,具有较好的可扩展性。此外,它也能与 Lucene 全文检索引擎协同工作,用于满足信息检索的需求。最后,本文对系统进行了测评,在中文分词的三项指标:分词速度、准确率、召回率上,系统都达到了不错的效果。其较出色的分词速度决定其较适合于信息检索领域使用。根据测评结果,本文提出了系统存在的不足,对课题进行了总结,并提出了进一步研究的方向。关键词:中文分词;信息检索;最大匹配法AbstractAbstractChinese word segmentation is the foundation of NLP
4、(Natural Language Processing), and is also a key technology in the area of Chinese NLP. It is a important task at the present time.Information retrieval is the main application area of Chinese word segmentation. So ChineseWord segmentation for information retrieval is an important direction. The sys
5、tem should be fast and capable of identification of ambiguities and unlisted word, which are difficult in Chinese word segmentation. There are three main methods of the word segmentation. The mechanical word segmentation based on matching, The method based on statistical language model, The method b
6、ased on artificial intelligent. The author analyses and compares them theoretically, describe the technical features of them, and point out that the method based on matching is fast, and is able to identification of ambiguities in some way, however , it cant resolve the unlisted word problem; the me
7、thod based on statistical language model has a high precision when it has a large of natural language resource, but it is difficult to improve its speed; the method based on artificial intelligent is not practical at the present time. The author aims at these problems and the features of information
8、 retrieval, and makes use of advantages of the method based on statistical language model for remedying the disadvantage of mechanical word segmentation.On this basis, the author develops a basic Chinese word segmentation tool package and Chinese word segmentation system on Java platform. The basic
9、segmentation methods and the advanced method are implemented to satisfy the basic requirements of Chinese segmentation. For it provide the interfaces, it can be expended easily. And it can also work with Lucene for information retrieval.Finally, the paper evaluates the performance of the system. It
10、has quite good segmentation speed , and not bad precision and recall mark, so it is more fit for information retrieval. Then the paper point out the disadvantage of the system, Abstractsummarizes all the work and give suggestion for the future researches.Key words:Chinese Word Segmentation;Informati
11、on retrieval;Maximum Matching Method;目 录目 录第一章 绪论 11.1 汉语分词技术的背景与意义 11.2 汉语分词技术国内外发展历程和研究现状 21.3 论文研究目标与思路 21.4 论文组织架构 3第二章 汉语分词技术 52.1 汉语分词标准 52.2 汉语分词术语定义 72.3 汉语分词的基本方法 82.3.1 基于字符串匹配的分词方法 82.3.2 基于理解的分词方法 112.3.3 基于语言统计模型的分词方法 112.4 汉语分词技术的难点 132.4.1 歧义字段概述 132.4.2 歧义字段的识别 142.4.3 歧义字段的产生原因 142.
12、4.4 未登录词的识别 152.5 汉语分词系统的测评指标 152.6 Lucene 全文检索引擎介绍 .17第三章 汉语分词算法的改进 183.1 基础算法的选择 183.2 改进算法的提出 203.2.1 对交集型歧义处理的改进 203.2.2 对未登录词识别能力的改进 213.2.3 对词典机制的改进 253.2.4 改进小结 27第四章 汉语分词系统设计 294.1 系统总体设计 294.2 基本算法模块设计 314.3 歧义字段处理模块设计 324.4 未登录词识别模块设计 33第五章 系统实现与测评 .355.1 系统开发环境简介 355.2 系统测试与结论 36目录第六章 总结与
13、展望 376.1 工作总结 376.2 存在问题 376.3 系统展望 37ContentContentChapter 1 Introduction .11.1 Background and significance of Chinese word segmentation.11.2 Course of development and research status of Chinese word segmentation 21.3 The main purposes and content of this paper.21.4 Structure of this paper3Chapter
14、2 Chinese word segmentation technology52.1 Standard of Chinese word segmentation 52.2 Definition of Terms of Chinese word segmentation.72.3 Basic methods of Chinese word segmentation82.3.1 The machenical method.82.3.2 The method based on artificial intelligent.112.3.3 The method based on statistics1
15、12.4 Difficulty of Chinese word segmentation 132.4.1 Introductions of ambiguities132.4.2 Identification of ambiguities .142.4.3 Causes of ambiguities142.4.4 Identification of unlisted word 152.5 Chinese word segmentation evaluation .152.6 Introduction of Lucene .17Chapter 3 Improving Chinese word se
16、gmentation183.1 Choice of the basic algorithm.183.2 Improving the algorithm 203.2.1 Improving the ability of handing ambiguities .203.2.2 Improving the ability of identification of unlisted word .213.2.3 Improving the dictionary structure253.2.4 Summary .27Chapter 4 Chinese word segmentation sytem d
17、esign294.1 System design.294.2 Basic algorithm module design 314.3 Ambiguities module design.324.4 Unlisted word module design .33Chapter 5 Design of Chinese word segmentation.355.1 Development Environment.355.2 System Evaluation .36ContentsChapter 6 Summary and Outlook .376.1 Summary .376.2 Problem
18、 .376.3 Outlook37第一章 绪论1第 1 章 绪论1.1 汉语分词技术的背景与意义随着信息时代的来临,Internet 上的信息急速增长,高效、快速、准确地进行信息处理成为重要而紧迫的任务。中文信息处理也不例外。鉴于中文的语言特性,可以概括地把中文信息处理分为三个平台 1:字处理平台、词处理平台和句处理平台,每个平台以前一个平台为基础。其中,字处理平台技术主要包括汉字编码输入、汉字识别及文书处理软件等。经过近 20 年的研究,已经达到比较成熟的阶段。词处理平台最受关注的是面向因特网、不限文本的中文信息检索技术,包括通用搜索引擎、文本自动过滤、文本自动分类以及个性化服务软件等,语音
19、识别也是其重要应用领域。它是连接字处理平台和句处理平台的纽带。句处理平台的主要应用有两个方面:一是机器翻译,目前翻译质量还不令人满意,需要同人工智能联系起来;二是汉语文语转换,即不诉诸句的韵律结构。句处理平台的研究虽然已经取得一定成果,但还是处于初级阶段。因此,目前中文信息处理技术的重心还是词处理平台。词处理平台进行处理的基本单位是词。众所周知,英文以词为单位,词和词之间靠空格隔开,因此在这方面有着天然的优势;而中文和英文不同,词之间并没有明显的分词标志,而是表现为一连串的中文字符序列。因此,在词处理平台对中文进行其他处理之前,必须先将中文字符串切分为有意义的词,这种技术称为“中文分词技术”
20、。而绝大部分的中文文献都是汉语文献,因此,这种技术又称为“汉语分词技术” 。汉语分词技术是中文信息处理技术的基础。词是中文文本语义的基本单位,要对中文句子进行句法分析,必须先对词进行分析,因此,只有解决了汉语分词问题,其他基于词处理平台的技术才有用武之地。第一章 绪论21.2 汉语分词技术国内外发展历程和研究现状早期的汉语分词系统主要采用基于字符串匹配的方法。北京航空航天大学计算机科学与工程系于1983年设计完成了我国第一个实用性的自动分词系统CDWS。它采用最大匹配的机械分词方法,辅助以词尾字构词检错技术,实用知识库进行纠错。随着研究的发展,近年来采用统计方法的分词系统逐渐增多,如清华大学人
21、工智能实验室于90年代末研制的“CSeg张 教授 王 部长 李师傅10.4 简称、尊称等为分词单位。例如:老张 小李 郭老 陈总10.5.带排行的亲属称谓一律切分。例如:三叔 大 女儿11民族名、地名中的“族、省、市、州、县、乡、区、江、河、山”等应单独切分。但包括“族、省、市、州、县、乡、区、江、河、山”等只有两个字的民族名、地名,则不予切分。如,专名部分不能单独存在而保持原有意义的地名,不予切分。在信息时代,新的词汇层出不穷,以上的分词规则未必能完全覆盖到所有第二章 汉语分词技术与系统7的词汇。对于判定一个语素结合体是否是词,还可依据以下五个因素 45:(1)该组合能否单用,该组合的部分能
22、否单用,即单用标准;(2)该组合能否扩展,即扩展标准;(3)该组合的语义是否等于该组合的成分的意义的总和,即语义标准;(4)该组合包含的语素,这可归为音节标准;(5)该组合的使用频度,即频度标准。其中,单用标准、扩展标准、语义标准为主要依据,音节标准可作为补充,频度标准虽不能单独作为判定词的标准,但是对建设实用词典具有很大的意义。因此,它们的优先顺序为:单用标准扩展标准 语义标准 音节标准频度标准。2.2 汉语分词术语定义依照汉语分词的基本方法,结合汉语字、词、句的特性和分词规范 456,对本文所用到的与汉语分词有关的术语进行以下定义 7:(1)字符串汉字字符、英文字母与阿拉伯数字的任意混合序
23、列。设有字符串S=C1C2C3Cn则 S 所包含的字符总个数 n,称为字符串 S 的长度,记为 :LENs=n。如字符串“甲型 H1N1 流感病例”的长度即为 10。(2)词汉语文献中能独立、完整地表达语义,且语义上不可再作分割的字符串。所谓“语义上不可再作分割”,是指词在字面上也许还可以再进行分割,但在语义上则坚决不允许再分割。如“苏丹红”,字面上可以再分割成“苏丹”与“红”两个词,但若作这样的分割则语义完全改变,完全不能表达原词的语义。故,“苏丹红”符合词的定义。在汉语分词过程中,绝大多数词己收入分词词表。只有少部分词未收入分词词表,即未登录词。换而言之,绝大多数词已经是分词词表集合中的元
24、素,少部分词( 即未登录词) 目前还不是分词词表集合中的元素。考虑到分词词表需要不断地维护,不断地补充新发现的未登录词。因此,也可以说,词就是分词第二章 汉语分词技术与系统8词表集合中的元素,或者目前已经是,或者将来是。(3)词组词与词的复合体,由两个或两个以上的词组成的字符串。假设分词词表中已有“社会主义”与“政治经济学”两个词,则字符串“社会主义政治经济学”是词组。(4)子句从汉语文献的句子中抽取出来的、由标点符号分隔的字符串。子句是汉语文献分词的初始对象。(5)短语子句经分词算法的若干次处理后,已切分出若干个词之后的剩余部分。某些时候也可称作“残片”。2.3 汉语分词的基本方法汉语分词主
25、要有以下三大类 2:基于字符串匹配的分词方法、基于理解的分词方法、基于语言统计模型的分词方法。2.3.1 基于字符串匹配的分词方法这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。常用的基于字符串匹配的分词方法有以下几种:2.3.1.1 最大匹配法根据匹配方向的不同,最大匹配法可以分为正向最大匹配法 (MM)、逆向最大匹配算法(RMM),此外还可以将两者结合,构成双向最大匹配法。据实验结果3,在词表完备、没有任何其它知识的条件下,单纯使用正向最大匹配的错误率为1/169,单纯使用逆向最
26、大匹配的错误率为1/245。下面以正向最大匹配法(MM)为例,分析其基本算法。设有字符串 S=C1C2C3Cn,其中 Ci (i=1,2.n)为单字,n=1 ,分词词表第二章 汉语分词技术与系统9D,D 中最长的词的长度为 MaxLen,分词结果集 Tokens1.令 Tokens 为空集, i=02. 令 len = n-i,若 len=0,结束分词。否则,令 m=MaxLen,若 n=1,分词词表 D。建立一个节点数为 n+1 的切分有向无环图 G,各节点编号依次为 V0,V1,. ,Vn算法:通过以下两种方法建立 G 所有可能的词边。(1) 相邻节点 Vk-1, Vk之间建立有向边 ,边
27、的长度值为 Lk, 边对应的词默认为 Ck (k=1,2,n)(2) 若 W=Ci Ci+1Cj 是一个词,则节点 Vi-1, Vj之间建立有向边 ,边的长度值为 Lw,边对应的词为 w (0“结 合 成/分子” “结第三章 面向信息检索的汉语分词改进算法22合/成/分子” 。基于以上统计数据,改进算法制定以下的歧义消解规则: 对于链长为1的交集型歧义字段,采用互信息(MI)统计量指导歧义消解。MI(w1,w2) = log2(N*C(w1,w2) /(C(w1)C(w2) (4.1)其中,N代表文本总字数,C(w 1,w2)代表w 1,w2在文本中的共现次数,C(w 1),C(w2)分别表示
28、w 1,w2各自在文本中出现的次数。若MI(A,J)MI(J,B),取AJ/B为结果,否则取A/JB。 对于链长为2的交集型歧义字段,直接取AB/CD为结果。 对于链长为3的交集型歧义字段,先对C进行切分为ABC/DE,再对ABC按进行处理。 对于链长大于3的交集型歧义字段,取RMM 切分为结果。毕竟如此长的链长的交集型歧义字段在真实文本中出现的概率是很小的,考虑到归右原则,直接取RMM 即能得到很高的准确率。3.3.2 对未登录词识别能力的改进双向最大匹配法本身是没有未登录词识别能力的。因此,改进算法通过引入判断规则来辅助未登录词的识别。判断未登录词的基本思想如下:设字符串S=W1W2.Wm
29、-1WmWm+1.Wn,其中 Wi为词。假设 Wm是一个未识别出未登录词。若能正确识别出其上下文的 Wm-1 Wm+1,那么 Wm就自然识别出来了。这个方法其实和人识别生词的过程是相同的。当人对含有生词的句子进行分析的时候,也是先将可以确认的部分先行标出,再对有疑问的部分进行处理。根据最大匹配法的思想,没有被收录的未登录词在粗切分后,很有可能表现为一串连续的单字词。这是触发未登录词识别的一个重要条件。触发未登录词识别后,再使用各种判定细则,进行后续判定。常见的未登录词的识别方法如下:3.3.2.1 数词、量词、时间、日期等具有明显特征的词这类词虽然没有在分词词典中收录,但是特征明显,结构直观,可以通过一个受限的有限自动机来识别。如可以通过一组预先写好的正则表达式来识别。