你正在下载：《

中文分词工具对比.ppt

》 [预览]

格式：PPT ，页数：7 ，大小：190.80KB ,
资源ID：10809600 下载积分：10 金币

快捷下载

登录下载

邮箱/手机：
温馨提示：	快捷下载时，用户名和密码都是您填写的邮箱或者手机号，方便查询和重复下载（系统自动生成）。如填写123，账号就是123，密码也是123。
特别说明：	请自助下载，系统不会自动发送文件的哦；如果您已付费，想二次下载，请登录后访问：我的下载记录
支付方式：
验证码：	换一换

加入VIP,免费下载

温馨提示：由于个人手机设置不同，如果发现不能下载，请复制以下地址【https://www.docduoduo.com/d-10809600.html】到电脑端继续下载（重复下载不扣费）。

已注册用户请登录：

账号：
密码：
验证码：	换一换
当日自动登录忘记密码？

三方登录：

1: 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档，如果标题没有明确说明有答案则都视为没有答案，请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

本文（中文分词工具对比.ppt）为本站会员（精品资料）主动上传，道客多多仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对上载内容本身不做任何修改或编辑。若此文所含内容侵犯了您的版权或隐私，请立即通知道客多多（发送邮件至docduoduo@163.com或直接QQ联系客服），我们立即给予删除！

中文分词工具对比.ppt

1、几种中文分词工具简介,NLPIR(ICTCLAS)：中科院张华平博士，基于Bigram + HMM； Ansj：孙健，ICTLAS的Java版本，做了一些工程上的优化； Jieba：由fxsjy开源，基于Unigram + HMM； LTP：哈工大2011年开源，采用结构化感知器（SP）； FNLP：复旦大学2014年开源，采用在线学习算法Passive-Aggressive(PA)，JAVA； THULAC：清华大学2016年开源，采用结构化感知器（SP）； Standford CoreNLP, HanLP,对比：LTP、NLPIR、THULAC和jieba（C+）,1、数据集：SIGHAN

2、 Bakeoff 2005 MSR, 560KB,对比：LTP、NLPIR、THULAC和jieba（C+）,2、数据集：SIGHAN Bakeoff 2005 PKU, 510KB,对比：LTP、NLPIR、THULAC和jieba（C+）,3、数据集：人民日报 2014, 65MB（只测试分词速度）,结论,thulac和ltp都在各个数据集都有很不错的表现；分词速度上thulac和jieba表现的不错；真正想用分词工具来解决应用层面上的问题，需要借助于词库，对比的4个工具均支持用户自定义词库；哈工大的ltp支持分词模型的在线训练，即在系统自带模型的基础上可以不断地增加训练数据。,对比

3、： Ansj、CoreNLP、HanLP和THULAC（Java）,Thulac4j在官方THULAC-Java基础上做了工程性优化,补充,测试数据集为搜狗新闻语料，65MB（少量噪声）； THULAC两种模式：SegOnly模式，只分词没有词性标注；SegPos模式，分词兼有词性标注； SegOnly分词速度快，但是准确率较SegPos模式低；而SegPos具有更高的准确率，但内存占用更多、分词速度较慢； THULAC基于结构化感知器SP，CoreNLP基于CRF，Ansj与HanLP（其两种分词模式）是基于HMM；理论上讲，分词效果：CRF SP HMM；从分词速率的测试结果上来看，THULAC是兼顾效果与速率。,