SEWM2005分类任务系统说明 - CWIRF----中文Web信息检索 ….ppt-道客多多

资源描述

1、SEWM2005分类任务系统说明,江西师范大学网络应用研究所曾雪强,2005年9月27日,分类系统结构说明,训练集,HTML格式处理,划分为Train Set和Test Set，优选特征维数和模型参数。,特征表示,生成分类模型,CWT100g,HTML格式处理,中文分词,特征表示,进行分类,结果,中文分词,分类训练模块,分类模块,HTML格式处理模块,中文分词模块,系统模块列表,HTML格式处理模块中文分词模块分类训练模块分类模块,网页格式处理,采用JAVA开源项目HTMLParser 遇到问题：字符集的编码类型较多：GB2312、GBK、UTF-8、BIG5、EUC-KR、Shi

2、ft JIS，只保留了前三种。字符集的标定有少量错误，我们发现一些标为GBK的网页是乱码；标为UTF-8 的网页，经过重新编码后仍为乱码。存在一部分二进制文件，如：RAR、ZIP、PDF等；而没有一种很好的算法进行自动识别。少量网页的格式不标准，HTML分析时会出错。共滤掉2G多的网页。,中文分词模块,采用中科院计算所ICTCLAS分词软件。存在的问题：由于我们采用的是该分词软件的免费版本，分词效果肯定不如商业版的好。分词系统，遇到一些异常情况会报错退出：比如超常英文字符串，特定的GBK汉字和乱码。过滤了所有分词出错的网页。,采用的分类模型,LSC1：基于潜在语义结构的二元分类

3、器 kNN：标准kNN算法 LSC2：基于潜在语义结构的多类分类器 SVM：SVMlight算法如果是二元分类器，就采用了多个二元分类器组合的方式。,系统的一些说明,特征提取去除了英文的停用词；根据分词信息，只保留了中文的名词和动词；采用文档频数进行初选（保留文档频数在3到8000之间的词）；采用CHI统计量进行进一步特征提取；特征维数优选在8000维。,系统的一些说明,权重计算采用了LTC权重对网页的不同部分，赋予不同的权重； TITLE，BODY，URL，ANCHOR的权重之比为：4:1:0.5:1 四种模型，在训练集上的最优微平均F1相近，在0.80到0.84之间。,系统运行环境,硬件平台：HP G3/570 CPU：2.83G*2 内存：4G 硬盘：280G 操作系统：RedHat AS4_64 编程语言：Java,我们的一些想法,希望CWT100g的下一个版本，收集的网页格式能更为规范；是否能提供更好的网页分类数据集；采集的网页分布的合理性；网页类别标签的合理性；,谢谢，欢迎探讨！,

展开阅读全文