1、SEWM2007中文网页分类评测参赛系统说明,北京大学信息管理系 小组成员:王建冬 田飞佳,内容提要,分类系统模块结构 各模块主要算法 系统运行环境介绍,分类系统模块结构,分类系统模块结构,系统设计整体思路,对训练集(包括训练集1和2)进行网页净化 然后对净化后的中文文本进行分词,接着从切分后的文本中选取最合适的特征向量表示文档,再利用分类模型对特征向量进行处理,确定其类别。 根据评测程序比较分类结果与网页本身所属的类别,并通过调整特征向量提取和分类模型的算法,以及调整参数的设定,使测试集评测指标达到最优。在评测指标达到最优以后,也就确立了分类器。,系统模块详解,网页净化模块 中文分词模块 特
2、征项提取模块 分类模块,网页净化模块,提出了一个基于开源项目Htmlparser的同层次 表间比较迭代算法 。 抽取网页主要内容及权值:标题(title) 权值为8正文 (content) 权值为6URL锚文本 权值为3,网页进化算法(对于正文),对网页结构进行分析,认为网页内容块无论形式如何,必定是存放在某一个表格中,对于不在表格中的部分,将其看作一个表格,便于处理。 根据表格的嵌套关系对每个表格进行分级,对处于最高级别的表格进行比较。主要是根据table表格中包含的文字数目和表格中的一些特殊字符进行比较,按照一定规则将一部分table内容去除掉。将剩下的内容视为一个新的网页,并进行同样的迭
3、代操作。 进行数次迭代消除网页“噪声”(经过反复实验我们认为进行四次迭代后网页“去噪”效果最好)。,网页进化算法(对于URL锚文本),经过调研,我们认为网页URL一般具有以下两条规律:锚文本长度一般不长、越长的url一般越重要。 我们计算每条锚文本与净化处理后的网页标题的编辑距离,并将其除以锚文本长度,选取该值小于1.5的锚文本为重要链接。,中文分词模块,采用了中科院的切词系统进行分词,但是发现中科院的切词系统存在一些问题,比如无法处理某些乱码,当网页中连续出现超过94个的数字或者英文字母或者连续1000字符中间没有标点符号时,系统会报错等。 同时考虑到数据中有很多繁体字网页,不加以转换的话会
4、影响最终的分类结果。因此我们增加了简繁转化和乱码自动检测模块,成功解决了中科院切词系统在处理各种类型网页过程中可能遇到的问题。,特征项提取模块,选择了CHI作为特征项的提取方法。 按照切分出的每个词的CHI值的大小进行排序,选择CHI值最大的前15%的词作为特征项。 在计算特征权值的时候,我们使用tf*idf*CHI值为每个特征项进行加权,通过实验发现,在最好情况下,这样做比传统的tf*idf可以将分类结果提高0.5个百分点。,分类模块,采用了KNN分类模型,经过反复实验,确定K取15。考虑到虽然余弦相似度是全局的相似度,但是KNN的计算结果取决于少量权重极大的项,权重很小的项对相似度贡献很小,因此,我们为特征项权值设立了一个阈值0.01,在读入数据时只读入权重大于该阈值的特征项,而小于该阈值的则舍弃。,系统运行环境,硬件环境CPU:AMD 1600+, 内存:256M,硬盘:80G,数量:8台 操作系统Windows XP 编程语言Java,Thank you!,