收藏 分享(赏)

SEWM2005分类任务系统说明 - CWIRF----中文Web信息检索 ….ppt

上传人:杨桃文库 文档编号:4173073 上传时间:2018-12-12 格式:PPT 页数:11 大小:71.50KB
下载 相关 举报
SEWM2005分类任务系统说明 - CWIRF----中文Web信息检索 ….ppt_第1页
第1页 / 共11页
SEWM2005分类任务系统说明 - CWIRF----中文Web信息检索 ….ppt_第2页
第2页 / 共11页
SEWM2005分类任务系统说明 - CWIRF----中文Web信息检索 ….ppt_第3页
第3页 / 共11页
SEWM2005分类任务系统说明 - CWIRF----中文Web信息检索 ….ppt_第4页
第4页 / 共11页
SEWM2005分类任务系统说明 - CWIRF----中文Web信息检索 ….ppt_第5页
第5页 / 共11页
点击查看更多>>
资源描述

1、SEWM2005分类任务系统说明,江西师范大学网络应用研究所 曾雪强,2005年9月27日,分类系统结构说明,训练集,HTML格式处理,划分为Train Set和Test Set, 优选特征维数和模型参数。,特征表示,生成分类模型,CWT100g,HTML格式处理,中文分词,特征表示,进行分类,结果,中文分词,分类训练模块,分类模块,HTML格式处理模块,中文分词模块,系统模块列表,HTML格式处理模块 中文分词模块 分类训练模块 分类模块,网页格式处理,采用JAVA开源项目HTMLParser 遇到问题: 字符集的编码类型较多:GB2312、GBK、UTF-8、BIG5、EUC-KR、Shi

2、ft JIS,只保留了前三种。 字符集的标定有少量错误,我们发现一些标为GBK的网页是乱码;标为UTF-8 的网页,经过重新编码后仍为乱码。 存在一部分二进制文件,如:RAR、ZIP、PDF等;而没有一种很好的算法进行自动识别。 少量网页的格式不标准,HTML分析时会出错。 共滤掉2G多的网页。,中文分词模块,采用中科院计算所ICTCLAS分词软件。 存在的问题: 由于我们采用的是该分词软件的免费版本,分词效果肯定不如商业版的好。 分词系统,遇到一些异常情况会报错退出:比如超常英文字符串,特定的GBK汉字和乱码。 过滤了所有分词出错的网页。,采用的分类模型,LSC1:基于潜在语义结构的二元分类

3、器 kNN:标准kNN算法 LSC2:基于潜在语义结构的多类分类器 SVM:SVMlight算法如果是二元分类器,就采用了多个二元分类器组合的方式。,系统的一些说明,特征提取 去除了英文的停用词; 根据分词信息,只保留了中文的名词和动词; 采用文档频数进行初选(保留文档频数在3到8000之间的词); 采用CHI统计量进行进一步特征提取; 特征维数优选在8000维。,系统的一些说明,权重计算 采用了LTC权重 对网页的不同部分,赋予不同的权重; TITLE,BODY,URL,ANCHOR的权重之比为:4:1:0.5:1 四种模型,在训练集上的最优微平均F1相近,在0.80到0.84之间。,系统运行环境,硬件平台:HP G3/570 CPU:2.83G*2 内存:4G 硬盘:280G 操作系统:RedHat AS4_64 编程语言:Java,我们的一些想法,希望CWT100g的下一个版本,收集的网页格式能更为规范; 是否能提供更好的网页分类数据集; 采集的网页分布的合理性; 网页类别标签的合理性;,谢谢,欢迎探讨!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 实用文档 > 说明文书

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报