收藏 分享(赏)

中文分词工具对比.ppt

上传人:精品资料 文档编号:10809600 上传时间:2020-01-10 格式:PPT 页数:7 大小:190.80KB
下载 相关 举报
中文分词工具对比.ppt_第1页
第1页 / 共7页
中文分词工具对比.ppt_第2页
第2页 / 共7页
中文分词工具对比.ppt_第3页
第3页 / 共7页
中文分词工具对比.ppt_第4页
第4页 / 共7页
中文分词工具对比.ppt_第5页
第5页 / 共7页
点击查看更多>>
资源描述

1、几种中文分词工具简介,NLPIR(ICTCLAS):中科院张华平博士,基于Bigram + HMM; Ansj:孙健,ICTLAS的Java版本,做了一些工程上的优化; Jieba:由fxsjy开源,基于Unigram + HMM; LTP:哈工大2011年开源,采用结构化感知器(SP); FNLP:复旦大学2014年开源,采用在线学习算法Passive-Aggressive(PA),JAVA; THULAC:清华大学2016年开源,采用结构化感知器(SP); Standford CoreNLP, HanLP,对比:LTP、NLPIR、THULAC和jieba(C+),1、数据集:SIGHAN

2、 Bakeoff 2005 MSR, 560KB,对比:LTP、NLPIR、THULAC和jieba(C+),2、数据集:SIGHAN Bakeoff 2005 PKU, 510KB,对比:LTP、NLPIR、THULAC和jieba(C+),3、数据集:人民日报 2014, 65MB(只测试分词速度),结论,thulac和ltp都在各个数据集都有很不错的表现; 分词速度上thulac和jieba表现的不错; 真正想用分词工具来解决应用层面上的问题,需要借助于词库,对比的4个工具均支持用户自定义词库; 哈工大的ltp支持分词模型的在线训练,即在系统自带模型的基础上可以不断地增加训练数据。,对比

3、: Ansj、CoreNLP、HanLP和THULAC(Java),Thulac4j在官方THULAC-Java基础上做了工程性优化,补充,测试数据集为搜狗新闻语料,65MB(少量噪声); THULAC两种模式:SegOnly模式,只分词没有词性标注;SegPos模式,分词兼有词性标注; SegOnly分词速度快,但是准确率较SegPos模式低;而SegPos具有更高的准确率,但内存占用更多、分词速度较慢; THULAC基于结构化感知器SP,CoreNLP基于CRF,Ansj与HanLP(其两种分词模式)是基于HMM; 理论上讲,分词效果:CRF SP HMM; 从分词速率的测试结果上来看,THULAC是兼顾效果与速率。,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报