1、几种中文分词工具简介,NLPIR(ICTCLAS):中科院张华平博士,基于Bigram + HMM; Ansj:孙健,ICTLAS的Java版本,做了一些工程上的优化; Jieba:由fxsjy开源,基于Unigram + HMM; LTP:哈工大2011年开源,采用结构化感知器(SP); FNLP:复旦大学2014年开源,采用在线学习算法Passive-Aggressive(PA),JAVA; THULAC:清华大学2016年开源,采用结构化感知器(SP); Standford CoreNLP, HanLP,对比:LTP、NLPIR、THULAC和jieba(C+),1、数据集:SIGHAN
2、 Bakeoff 2005 MSR, 560KB,对比:LTP、NLPIR、THULAC和jieba(C+),2、数据集:SIGHAN Bakeoff 2005 PKU, 510KB,对比:LTP、NLPIR、THULAC和jieba(C+),3、数据集:人民日报 2014, 65MB(只测试分词速度),结论,thulac和ltp都在各个数据集都有很不错的表现; 分词速度上thulac和jieba表现的不错; 真正想用分词工具来解决应用层面上的问题,需要借助于词库,对比的4个工具均支持用户自定义词库; 哈工大的ltp支持分词模型的在线训练,即在系统自带模型的基础上可以不断地增加训练数据。,对比
3、: Ansj、CoreNLP、HanLP和THULAC(Java),Thulac4j在官方THULAC-Java基础上做了工程性优化,补充,测试数据集为搜狗新闻语料,65MB(少量噪声); THULAC两种模式:SegOnly模式,只分词没有词性标注;SegPos模式,分词兼有词性标注; SegOnly分词速度快,但是准确率较SegPos模式低;而SegPos具有更高的准确率,但内存占用更多、分词速度较慢; THULAC基于结构化感知器SP,CoreNLP基于CRF,Ansj与HanLP(其两种分词模式)是基于HMM; 理论上讲,分词效果:CRF SP HMM; 从分词速率的测试结果上来看,THULAC是兼顾效果与速率。,