收藏 分享(赏)

海量中文智能分词技术白皮书(3.0).doc

上传人:tkhy51908 文档编号:8182658 上传时间:2019-06-13 格式:DOC 页数:11 大小:224.50KB
下载 相关 举报
海量中文智能分词技术白皮书(3.0).doc_第1页
第1页 / 共11页
海量中文智能分词技术白皮书(3.0).doc_第2页
第2页 / 共11页
海量中文智能分词技术白皮书(3.0).doc_第3页
第3页 / 共11页
海量中文智能分词技术白皮书(3.0).doc_第4页
第4页 / 共11页
海量中文智能分词技术白皮书(3.0).doc_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、 技术白皮书 保密 技术白皮书项目名称:_海量中文智能分词基础件_开发单位:_天津海量信息技术有限公司 _海量中文智能分词基础件 Version: 3.0技术白皮书 Date: 22/12/2007Page 1 of 11 目录序言.2第一章 产品概述31.1 产品简介 31.2 产品的适用范围 31.3 产品结构3第二章 产品技术特点32.1 分词准确率高 .42.2 分词效率高 .42.3 功能接口丰富,使用灵活方便 .4第三章 产品功能介绍.43.1 分词功能模块的介绍 .43.2 开发接口 .43.3 功能列表 .5第四章 典型应用.74.1 KM 知识管理系统 74.2 搜索引擎 7

2、4.3 辞书出版 74.4 信息服务 74.5 网站信息发布 7第五章 产品性能指标.8第六章 运行环境.86.1 WINDOWS 86.2 LINUX .86.3 UNIX9第七章 成功案例.97.1 商务印书馆 97.2 慧聪搜索引擎.97.3 其他案例.10海量中文智能分词基础件 Version: 3.0技术白皮书 Date: 22/12/2007Page 2 of 11 序言1.什么是中文分词?中文分词就是将连续的字序列按照一定的规范切分成词序列的过程。众所周知,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的

3、分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。2.中文分词的应用中文分词主要应用于信息检索、汉字的智能输入、中外文对译、中文校对、自动摘要、自动分类等很多方面。下面就以信息检索为例来说明中文分词的应用。通过近几年互联网的发展,互联网上的信息也在急剧膨胀,各类信息混杂在一起,要想充分利用这些信息资源就要对它们进行整理,如果面对中文信息不采用分词技术,那么整理的结果就过于粗糙,而导致资源的不可用,例如:“制造业和服务业是两个不同的行业” 和“ 我们出口日本的和服比去年有所增长”中都有“和服” ,如果都作为一个词来处理,结果是检索“和服” 的相关信息,

4、会将他们都检索到。很显然,检索到第一条信息是不恰当的。通过引入分词技术,可以使机器对信息的整理更准确、更合理,在“制造业和服务业是两个不同的行业”中“ 和服”不会被当作一个词来处理,那么检索“和服” 当然不会将它检索到,使得检索结果更准确,效率也会大幅度的提高。3.中文分词的意义和作用要想说清楚中文分词的意义和作用,就不得不提到智能计算技术。智能计算技术涉及的学科包括物理学、数学、计算机科学、电子机械、通讯、生理学、进化理论和心理学等等。简单的说,智能计算就是让机器“ 能看会想,能听会讲” 。要想实现这样的一个目标,首先就要让机器理解人类的语言,只有机器理解了人类的语言文字,才能使人与机器的交

5、流成为可能。对于自然语言来讲, “词是最小的能够独立活动的有意义的语言成分” ,所以对于中文来讲,将词确定下来是理解自然语言的第一步,只有跨越了这一步,中文才能像英文那样过渡到短语划分、概念抽取以及主题分析,以至于自然语言理解,最终达到智能计算的最高境界,实现人类的梦想。中文分词是中文信息处理系统的基础,有着极其广泛的实际应用。从基本的输入系统,到文字处理,以及语音合成,文本检索,文本分类,自然语言接口,自动文摘等等,无处不渗透着分词系统的应用。分词系统的完善与应用,必将促进中文信息处理系统的广泛应用,换言之,也就提高了中文软件对于中文的处理能力,这也将使得计算机用户的日常工作的效率得以提高。

6、海量中文智能分词基础件 Version: 3.0技术白皮书 Date: 22/12/2007Page 3 of 11 第一章 产品概述1.1 产品简介海量中文智能分词基础件是海量在中文智能分词技术基础之上推出的分词准确、高效、接口方便灵活,便于二次开发的软件包,以及为使软件包在目标系统中实现最优品质而提供的特定服务。其服务包括:目标系统架构咨询、辅助开发、技术培训、售后支持等。海量中文分词融合了多种先进、经典的分词方法,采用独特的算法调度机制,形成复方的分词算法。海量分词技术很好的解决了中文分词的两大技术难题,即:歧义切分和新词识别。分词效果因此而获得大幅提升:分词准确率达到99.7(北大语料

7、封闭测试),同时,通过对分词底层代码的优化分词效率达到每分钟2000万汉字(测试环境为:PC单机 CPU:Amd 2500+;内存512M DDR),使得分词真正达到实用化的水平。海量中文智能分词基础件在保留海量中文分词技术的优秀性能的前提下,提供了方便灵活的调用接口,以便于在其基础上的二次开发。1.2 产品的适用范围作为中文信息处理的核心和汉语自然语言理解的基础,海量中文智能分词基础件有着广泛的应用前景。主要应用领域有:1)信息检索领域如:全文检索、主题检索2)汉字处理领域如:智能拼音输入、手写识别输入、中文OCR 识别、自动校对、简繁转换3)语音处理领域如:语音合成、语音识别4)内容识别与

8、分析领域如:信息摘录、自动文摘、自动标引、文本自动分类、自动过滤、数据挖掘5)自然语言理解领域如:机器翻译、自然语言接口1.3 产品结构中文字序列文本中文分词新词识别 歧义切分复方分词算法字标注的分词方法逆向最大匹配法全切分 方案优选中文词序列文本中文分词规范海量中文智能分词基础件 Version: 3.0技术白皮书 Date: 22/12/2007Page 4 of 11 第二章 产品技术特点多年以来,中文分词技术一直是阻碍中文信息处理技术进一步发展的瓶颈。因为词是能独立活动的有意义的最小语言单位。在词的界定方面,中文不同于西文之处在于,西文词之间是有自然分隔符的,而中文却不具备,需要通过一

9、定的技术手段进行处理,才能将词准确的分离出来,这就是分词技术。所以,西文基本上不用经过分词就可以直接进入到检索技术、短语划分、语义分析等更高一层的技术领域,而对于中文,只有越过这个技术瓶颈问题,分词的准确率足够高、分词速度足够快,中文的信息处理技术才有可能和西文的信息处理技术在一个起跑线上。分词是中文信息处理从字符处理水平向语义处理水平提升的关键技术之一,是中文智能计算技术的基础。目前,中文分词技术普遍存在分词准确率低和分词效率不高两方面的问题,海量中文智能分词技术在这两方面都有所突破。通过研究发现,中文自动分词准确率低主要受以下几方面因素的困扰:1)词表收录2)分词规范3)新词识别4)歧义切

10、分从纯技术角度来看,新词识别和歧义切分是困扰分词的两大技术难点。海量中文智能分词采用复方概念平衡各算法,使海量分词在大规模语料测试中的准确率达到了99.7%(北大语料封闭测试),分词效率2000 万字/分钟(测试环境为:PC单机 CPU:Amd 2500+;内存512M DDR),该指标目前处于国内领先水平,已经达到实用要求。正因如此,海量承担了2000 年度国家863 计划课题“智能信息内容分析方法研究”。海量在中文分词技术基础之上推出了海量中文智能分词基础件,作为国内最优秀的中文智能分词产品,海量中文智能分词基础件具有以下特点:准 切分准确率99.7%(北大语料封闭测试)快 2000万字/

11、分钟(测试环境为:PC单机 CPU:Amd 2500+;内存512M DDR)活 丰富的功能接口,使用灵活方便,例如:系统外挂分词规范,用户可自定义。2.1 分词准确率高海量分词算法借鉴复方的概念,集成各种算法解决同一个问题,发展了受限的隐马尔科夫模型, 使知识库的冗余大幅降低。同时,在歧义切分和新词识别上投入了很大的力量。海量分词综合采用了最大匹配法、逆向最大匹配法、单扫描分词法、有穷多层次列举法、二次扫描法、全切分、字标注的分词方法等等多种分词方法,规则和统计相结合,最终是多种切分方案的选优,从而获得较为准确的分词结果。通过在北大语料库中的评测,其分词准确率达到99.7。2.2 分词效率高

12、为了使分词能够达到实际应用的目的,海量对于该产品进行了效率优化工作。主要体现在:1)对于分词算法进行优化,特别是调度算法的优化设计,可以有效的降低计算的复杂度;2)对于分词基础件进行代码级的优化,从程序的逻辑设计以及执行步骤上进行优化,关键环节用汇编进行了翻写,从而可以最大程度的提升分词效率。通过以上的效率优化工作,分词效率达到每分钟 2000 万字,其测试环境为:PC 单机 CPU:Amd 2500+;内存 512M DDR2.3 功能接口丰富,使用灵活方便海量中文智能分词基础件提供了丰富的接口,以满足不同用户的需求。主要接口包括:分词初始化,码制选择,是否检索优化,是否需要格式化,分词模式

13、,加载用户自定义词典以及其他附加信息的输出等等。通过这些接口的组合使用,可以满足目前所有的分词调用需求。海量中文智能分词基础件 Version: 3.0技术白皮书 Date: 22/12/2007Page 5 of 11 第三章 产品功能介绍3.1 分词功能模块的介绍该产品的主要模块是中文分词模块,该模块可以实现将字序列的文本转化为词序列的文本。3.2 开发接口海量中文智能分词功能基础件对外提供了四类接口:1. 基本接口基本接口是使用本软件包所需的基本功能函数。海量中文智能分词功能基础件提供的基本接口有四个:1) HLInitSeg:初始化海量分词系统,加载分词用数据,可在 ANSI 和 UN

14、ICODE 版本中使用。2) HLUnInitSeg:卸载海量中文智能分词基础件,释放分词所占资源。3) HLCreateSegHandle:创建自动中文分词结果句柄。 4) HLCloseSegHandle:关闭分词结果句柄,释放分词结果所占资源。2. 分词接口分词接口是用来对指定字符串进行分词的接口。海量中文智能分词功能基础件提供的分词接口有两个:1) HLSegment: 对指定字符串进行分词。2) HLSegmentEx: 对指定字符串进行分词。3. 获取分词结果接口获得分词结果接口是用于对分词后的结果进行获取的相关接口。海量中文智能分词功能基础件提供的获取分词结果接口有三个:1) H

15、LGetResultCnt:得到分词结果中的词的个数。2) HLGetResultBuff:得到分词结果的字符串空间。3) HLGetMin:得到指定的分词结果。4. 其他接口 本软件包提供了用户自定义词典和英文通配符查找的相关接口。海量中文智能分词功能基础件提供的其他接口有两个:海量中文智能分词基础件 Version: 3.0技术白皮书 Date: 22/12/2007Page 6 of 11 1) HLLoadUserDict:加载用户自定义词典。 2) HLUnloadUserDict:卸载用户自定义词典。3.3 功能列表分词模式: 为适应各种不同的需求,海量中文智能分词基础件目前提供三

16、种分词结果模式:大模式、中模式和小模式。其中,小模式结果仅提供了词串信息;中模式结果提供了词串、词性、词号等结果信息;大模式结果不仅提供了词串、词性、词号信息,还提供了句子号、段号等信息。在创建分词句柄时可以选择不同的模式,本文档只提供小模式,定义如下: 宏定义 宏定义SEGMENT_RESULT_MODE_NIN 小模式,只输出字符串指针数组附加计算标志:附加计算标志是为适应不同需求的用户而定,可以实现面向全文检索的分词优化。当不进行附加计算(标志取 0 值)时,只进行词形的切分,不作其他方面的计算。详细信息参看下表: 取 值 说 明0(默认值) 不进行附加计算HL_ECF_OPT_SEAR

17、CH 检索优化HL_ECF_OPT_SEARCH_EX 检索优化并转换相应码制格式化: 对分词结果进行格式化是指将分词结果的英文和数字的全角字符转变成半角字符,将大写英文字符转化成小写英文如:转化后的结果为 abc。在创建分词句柄(HLCreateSegHandle)时可以传入参数 bIsFormat = true 来进行格式化。分词支持的码制:海量分词软件包支持多种码制,包括:GB18030、BIG5、UNICODE。以代码页的形式实现,在调用分词接口时传入不同的参数即可实现不同码制的分词。 代码页标志 取 值 码 制CODE_PAGE_GB18030 54936 GB18030CODE_P

18、AGE_BIG5 950 BIG5CODE_PAGE_UNICODE 100 UNICODE代码页定义海量中文智能分词基础件 Version: 3.0技术白皮书 Date: 22/12/2007Page 7 of 11 码制和分词模式的关系:在不使用附加计算标志 HL_ECF_OPT_SEARCH 的情况下,码制和分词模式的关系如下:小 模 式输入码制 输出码制GB18030 GB18030UNICODE UNICODEBIG5 BIG5在使用附加计算标志 HL_ECF_OPT_SEARCH 的情况下,在三种模式下无论输入是什么码制,输出都是 GB18030。第四章 典型应用4.1 KM 知识

19、管理系统知识管理需要实现分析、辨认和调整文字、语音等各种信息,能够自动进行分类、链接和个性化地传递信息。海量中文智能分词基础件可应用于知识管理系统,辅助信息进行集成、分类,使知识管理系统成为强大的、综合性的信息源。4.2 搜索引擎搜索引擎的准确率一直是用户关注的。然而多数搜索引擎并未给使用者提供准确的结果。运用分词技术可以使其自动对请求做分词和断句处理,提高搜索的准确率,去处错误信息。4.3 辞书出版辞书的编纂是一项浩繁的工程,需要投入大量的人力物力。其中,语料采集、标注入库、提取书证最为烦琐。以前,这些工作都是依靠人工,因此,辞书的出版缺乏时效性,严重滞后于语言的发展,无法适应信息化社会的需

20、要。另一方面,大量用有经验的编辑人员从事简单的重复劳动,造成人力资源的浪费。采用分词技术使辞书出版不再需要大量的人力与物力,降低了成本。语料采集、标注入库、提取书证由基于分词技术的软件完成,提高了整理速度,保证了时效性,同时也提高了准确率。海量中文智能分词基础件 Version: 3.0技术白皮书 Date: 22/12/2007Page 8 of 11 4.4 信息服务随着信息技术的不断发展,特别是互联网应用的飞速普及。海量、无序的信息需要有效的管理、发布、查询工具。使用基于分词技术的搜索能够帮助可以迅速实现对海量数据的管理和快速查询,以其领先的技术和卓越的性能,成为当之无愧的海量信息管理专

21、家。4.5 网站信息发布使用基于分词技术的自动分类技术可方便对大量的资料进行查找与管理,实现网站信息资料的挖掘,帮助网站为访问者提供方便、准确的分类服务。网站发布信息量越大,自动分类越能体现它的作用, 网站的信息发布越便捷。第五章 产品性能指标版本与性能:针对不同的用户我们将本产品分为五个版本。其价格参见海量分词版本与价格。适用范围 词表支持码制支持 准确率 速度 占用资源版本 1 搜索引擎专用 词表 GB18030 99.7% 33.3 万字/秒版本 2 大型服务级 词表 GB18030 99.7% 11.1 万字/秒版本 3 企业应用级 词表 GB18030 99.7% 3.70 万字/秒

22、版本 4 研究应用级 词表 GB18030 99.7% 1.23 万字/秒版本 5 个人应用级 词表 GB18030 99.7% 0.41 万字/秒定制词表:客户可根据应用范围选择需要增加的词表。这些词表包括:中国分类主题词表、中国商用关键词表、行业词表、港台用语词表。定制码制:根据需求,用户可定制需要增加的码制。可增加的码制有 Unicode、BIG5。第六章 运行环境6.1 WINDOWS环境要求 软件开发环境:VC+6.0 软件支持环境:Windows98 第二版 /Windows Me 及其以上版本海量中文智能分词基础件 Version: 3.0技术白皮书 Date: 22/12/20

23、07Page 9 of 11 推荐使用 Windows2000 及其以后版本 硬件支持环境:最低配置:128M 内存,PII400 提供的开发接口: C/C+6.2 LINUX环境要求: 本产品在以下系统环境中测试通过:* gcc: Configured with: /configure -prefix=/usr -mandir=/usr/share/man -infodir=/usr/share/info -enable-shared -enable-threads=posix -disable-checking -host=i386-redhat-linux -with-system-zl

24、ib -enable-_cxa_atexit* Thread model: posixgcc version 3.2 20020903 (Red Hat Linux 8.0 3.2-7)* os: Red Hat Linux release 8.0 (Psyche)Kernel 2.4.18-14 on an i6866.3 UNIX 本软件在以下系统环境中测试通过:* gcc: Reading specs from /usr/local/lib/gcc-lib/sparc-sun-solaris2.8/2.95.3/specsgcc version 2.95.3 20010315 (rele

25、ase)* os: Sun OS 发行版 5.8 Generic_108528_01第七章 成功案例7.1 商务印书馆 商务印书馆是中国近现代出版事业中历史最悠久的出版机构, 以翻译介绍外国哲学、社会科学的学术著作和编纂出版语文工具书为主要任务,兼及研究著作、教材、普及读物等。2001 年海量依靠优秀的中文智能分词技术、中文自动词性标注技术、全文检索技术,中标商务印书馆辞书语料库及编篡系统。为商务印书馆开发语料自动分词及标注系统和语料库全文检索系统。系统实施后可以显著缩短辞书编纂周期,提高编辑工作效率。海量技术从各个方面全面满足了商务印书馆辞书语料库及编篡系统对于分词、标注、检索的需求。作为国

26、内最著名的辞书出版社,商务印书馆选择海量技术证明了海量在中文自动分词、自动标注和全文检索领域技术的领先地位。海量中文智能分词基础件 Version: 3.0技术白皮书 Date: 22/12/2007Page 10 of 11 7.2 慧聪搜索引擎海量自 2003 年 1 月起与慧聪国际软件合作,为其搜索引擎 I-Search2000 提供海量中文分词核心技术,全面提升 I-Search2000 检索准确率和检索效率。慧聪国际软件,隶属于慧聪国际资讯集团,从事 Internet 前沿信息技术的开发与应用。I-Search2000 Internet 搜索引擎是慧聪国际软件新一代的综合搜索引擎。目

27、前 I-Search2000 正在为新浪、搜狐、千龙新闻网、中国网等多家国内知名网站提供搜索服务。海量与慧聪国际软件合作,利用领先的海量中文智能分词技术,使 I-Search2000 得到全面提升,成为最优秀的中文搜索引擎之一。1)海量准确的中文分词,使 I-Search2000 有效避免了搜索引擎在中文检索中不分词或分词不准所造成的误检。2)海量分词技术的使用,使 I-Search2000 实现了基于词的中文检索,检索效率大大提高。3)使用海量分词技术使 I-Search2000 索引空间膨胀率大幅度降低,节约存储资源的同时提高了检索速度。慧聪国际软件对于海量中文分词技术给予了高度的评价,并与海量建立了长期稳定的合作关系。7.3 其他案例Autonomy、DESE、WISA、中国大百科全书出版社、3721(DBAPP 数据库加速产品)、方正研究院(数字图书馆产品)、天津日报、DoNews 站内检索、CSDN 站内检索、中华书局。

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报