1、SEWM2005分类任务系统说明,江西师范大学网络应用研究所 曾雪强,2005年9月27日,分类系统结构说明,训练集,HTML格式处理,划分为Train Set和Test Set, 优选特征维数和模型参数。,特征表示,生成分类模型,CWT100g,HTML格式处理,中文分词,特征表示,进行分类,结果,中文分词,分类训练模块,分类模块,HTML格式处理模块,中文分词模块,系统模块列表,HTML格式处理模块 中文分词模块 分类训练模块 分类模块,网页格式处理,采用JAVA开源项目HTMLParser 遇到问题: 字符集的编码类型较多:GB2312、GBK、UTF-8、BIG5、EUC-KR、Shi
2、ft JIS,只保留了前三种。 字符集的标定有少量错误,我们发现一些标为GBK的网页是乱码;标为UTF-8 的网页,经过重新编码后仍为乱码。 存在一部分二进制文件,如:RAR、ZIP、PDF等;而没有一种很好的算法进行自动识别。 少量网页的格式不标准,HTML分析时会出错。 共滤掉2G多的网页。,中文分词模块,采用中科院计算所ICTCLAS分词软件。 存在的问题: 由于我们采用的是该分词软件的免费版本,分词效果肯定不如商业版的好。 分词系统,遇到一些异常情况会报错退出:比如超常英文字符串,特定的GBK汉字和乱码。 过滤了所有分词出错的网页。,采用的分类模型,LSC1:基于潜在语义结构的二元分类
3、器 kNN:标准kNN算法 LSC2:基于潜在语义结构的多类分类器 SVM:SVMlight算法如果是二元分类器,就采用了多个二元分类器组合的方式。,系统的一些说明,特征提取 去除了英文的停用词; 根据分词信息,只保留了中文的名词和动词; 采用文档频数进行初选(保留文档频数在3到8000之间的词); 采用CHI统计量进行进一步特征提取; 特征维数优选在8000维。,系统的一些说明,权重计算 采用了LTC权重 对网页的不同部分,赋予不同的权重; TITLE,BODY,URL,ANCHOR的权重之比为:4:1:0.5:1 四种模型,在训练集上的最优微平均F1相近,在0.80到0.84之间。,系统运行环境,硬件平台:HP G3/570 CPU:2.83G*2 内存:4G 硬盘:280G 操作系统:RedHat AS4_64 编程语言:Java,我们的一些想法,希望CWT100g的下一个版本,收集的网页格式能更为规范; 是否能提供更好的网页分类数据集; 采集的网页分布的合理性; 网页类别标签的合理性;,谢谢,欢迎探讨!,