1、1中文信息处理学号: 姓名: 班级: 时间: 浅谈中文信息处理之汉语自动分词 【摘 要】:汉语自动分词问题是中文信息处理技术发展的一大热点也是一大难点,对于自动分词研究的出发点的不同,其自动分词方法也是不一。自动分词给我们的日常的生活带来了便利,但同时也尚有一些急需解决的问题存在。【关键词】:自动分词;中文信息处理;技术中文信息处理是第一次接触的一门学科,几个月的学习下来对它也有了初步的一些了解。中 文 信 息 处 理 是 自 然 语 言 信 息 处 理 的 一 个 分支 , 是 一 门 与 计 算 机 科 学 、 语 言 学 、 信 息 学 、 声 学 等 多 种 学 科 相 关2联 的 综
2、 合 性 学 科 。 中文信息处理指的是利用计算机对汉语书面语形式和口语形式这两种信息进行加工,加工的结果形成各种信息处理系统,实现中文的信息检索、语音识别、机器翻译等。简单的说,中文信息处理就是解决汉字和汉语输入和输出电子计算机的问题的一门学科。笔者认为中文信息处理这门学科与其它的综合学科一样,内容繁多复杂,有一定的难度和复杂性,因此,我就几个月来所学的内容、课本以及一些对中文信息处理进行研究的学者的观点谈谈自己对汉语自动分词的看法。众所周知,中文文本没有类似英文空格之类的标志来标示词的边界标志。由于汉语的书写形式不像西文,词与词之间没有间隔,所以就比西文的语言处理多了一道手续:自动分词。所
3、谓汉语自动分词,是把输入计算机的汉语词句自动切分为词的序列的过程。汉语自动分词的任务我们用通俗的话来说,就是要由机器在中文文本中词与词之间自动加上空格。这样才能进行下一步的句法语义分析及处理。(一)自动分词方法根据对于自动分词研究的出发点的不同,目前较权威的观点来看大概可以归纳为三大类:基于词典的分词方法、基于统计的分词方法、基于AI 的分词方法。我们上课所学的主要是第二种,即基于统计的分词方法。因此,这里我主要谈谈基于统计的分词方法,其它两类简要概括一下。1.基于词典的分词方法这种分词方法是前苏联专家在上个世纪50 年代末提出来的。其基本思想是:事先建立一词库(词典),其中包含所有可能出现的
4、词。对给定的待分词的汉字串S,按照某种确定的原则切取S的子串,若该子串与词库中的某词条相匹配,则该子串是词,继续分割剩余的部分,直到剩余部分为空;否则,该子串不是词,转上重新切取S的子串进行匹配。这种分词方法又分为最大匹配法、逆 向 最 大 匹 配 法 、 设 立 切 分 标志 法 、 逐 词 遍 历 匹 配 法 、 正 向 最 佳 匹 配 法 和 逆 向 最 佳 匹 配 法 五 大 方法 。2. 基于统计的分词方法上面我已经谈到,中文文本没有类似英文空格之类的标志来标示词的边界标志。也就是说,词与词之间没有显著的分隔标记。而基于统计的分词方法就有一大优点,即能够有效地自动排除歧义,能够识别新
5、词、怪词,例如人名、地名等,解决了基于词典的分词方法的弊端。3基于统计的分词方法是我们学习中文信息处理课程时主要讲的分词方法。这类方法的主要依据和思想是:词是稳定的字的组合,因此在上下文中,相邻的字同时出现的越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率就能够较好地反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计, 计算它们的互现信息。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可以认为此字的组合可能构成了一个词。北京大学计算语言学研究所在开发人民日报语料库时,确定了具体的切分规范。规范中的切分单位包括词和大于词或小于词而在文本中独立使
6、用的固定短语、语素字、非语素字以及标点符号。对于切分单位从字数考虑,对两个字的组合较宽地看作是一个切分单位,三个字的较严,四个字以上的若不是成语、习惯用语一般不看作是一个切分单位。切分规范以国家标准为基础,适当加以调整。但这种分词方法也有一定的局限性,会经常抽出一些共现频度高,但并不是词的常用字组, 例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差。3.基 于 AI 的 分 词 方 法此 类 分 词 方 法 由 于 没 有 接 触 到 , 我 也 不 了 解 , 所 以 在 此 略 过 。(二)自动分词问题上 面 我 简 要 介 绍 了 三 种 自 动 分 词
7、 方 法 , 我 们 知 道 , 尽管汉语自动分词取得了重大进展和突破,但仍然存在着大量的问题。比如汉语无词的明显分隔标记,词的定义、词与词组划界标准与形式语法的缺乏等特点, 使得要自由进行汉语自动分词,将会遇到一些困难与问题。1.首先,就切分而言,中文原本没有词的概念,没有一个统一的词的确切定义。中文构词方法的多样性特点使得自动分词十分困难。汉字造词可以是字,也可以是词甚至词组。造句的方式有以字造词,以词造词。如果没有语法、语义知识或语境了解的帮助就很难对有些句子进行正确切分。2.其次,汉语迄今为止仍未有一部公认的、确切完备的并适合于计算机自动处理的语法规则。汉语词法的无标准性,句法的复杂性
8、,语法的模糊性与语义的多样性,如汉语中大量存在一词多义,多词一义,词性变化,词义转借等现象,使得研究中文信息处理的学者至今仍难以对它进行完备的总结。这也为汉语自动分词制造了困难。3.再次,现有的分词方法基本上都是基于统计和词典的分词方法,4它们都必须在分词速度和精度之间做出选择。要提高速度,就要适当放弃精度的追求,缩减词典,减少匹配次数。而要提高切分精度,就得舍弃速度,无限扩充词典,匹配次数也会无限增加。因此,切分效率不高也是一大问题。4.最后,我认为基于统计的分词方法虽然能够有效地自动排除歧义,但也不能百分百的消除歧义。因为汉语由于构词语素大多是不定位语素,又有相当数量的自由语素,汉语词理解
9、的多义性、复杂性, 再加上词与词之间没有空格隔开,没有任何区分标志,这就造成了切分中的多分字段,因而歧义现象是自动分词过程中不可避免的现象。在自动分词过程中具有两种或两种以上切分形式的字段称为歧义字段,这种情况在我们上网聊QQ用酷狗打字的时候经常出现。而这种歧义字段会产生错误切分,给人们的日常应用带来不便。但根据我们所学的知识我们知道,歧义现象普遍存在,根据基于统计的分词方法也只能有限减少,不可能完全消除。这一点也是研究自动分词的学者应该想办法攻克的一大难点。中文信息处理这门课程已经结束。除了书面的理论的知识外,还有上机实践课,将理论与实际结合起来,打好基础的同时又有点一定的实战经验。中文信息
10、处理的理论知识对于非计算机专业的人而言有一定的难度,因此,对于这门课程不能详尽的表述心中所想,只能对于相较理解的一小块谈谈自己的一点看法。我认为,汉语自动分词不是一项单一的技术问题,不是说有人攻克了目前的难度就可以了的。随着中国国力的强盛,汉语自动分词已经同汉语走向世界、中华民族文化的伟大复兴紧密地联系在一起。作为全世界使用人数的最多的语言,我们有责任与义务解决汉语自动分词问题,以便计算机能对汉语文本进行自由处理,增强汉语的生命力,让更多的外国人了解到汉语的趣味性,吸引更多的外国人学习汉语。参考文献:汉语自动分词研究进展,文庭孝,图书情报,2005.5汉语自动分词方法的综述,罗洋,职校论坛,2008年第七期汉语自动分词研究进展,王军辉,魅力中国下,2009.10自动分词与分词规范,李迅,泰山论坛中文文本信息处理的原则与应用,苗夺谦、卫志华,清华出版社百度百科