1、中文网页自动分类综述_网页分类论文摘要:本文介绍中文网页自动分类的研究状况;分析常用的特征提取方法并比较其在中文网页分类应用中的优劣,总结经典分类方法;简述分类评价指标;讨论目前分类系统。论文关键词:网页分类,特征提取,分类算法,评价指标1、引言随着网络应用的迅速普及和发展,互联网用户量急剧增长,网络上的信息资源呈爆炸式增长,面对这样海量的网络信息量,似乎能够满足人们对于信息的需求。但是实际的情况是对 99%的用户来说,互联网上 99%以上的信息是毫无用处的。可见对中文网页自动分类具有现实意义。2、中文网页分类的研究中文网页自动分类是从文本自动分类的基础上发展起来的,由于文本自动分类拥有比较成
2、熟的技术,不少研究工作试图使用纯文本分类技术实现网页分类。孙建涛指出:用纯文本方式表示网页是困难的,也是不合理的,因为网页包含的信息比纯文本包含的信息要丰富得多;用不同方式表示网页然后再组合分类器的方法能够综合利用网页的特征,但各个分类器的性能难以估计,使用什么组合策略也难以确定。董静等人提出了基于网页风格、形态和内容对网页分类的网页形式分类方法,从另外的方面对网页分类进行研究;范焱等人提出一种用朴素贝叶斯协调分类器综合网页纯文本和其它结构信息的分类方法;试验结果证明组合后的分类器性能都有一定程度的提高;都云琪等人采用线性支持向量机(LSVM)学习算法,实现了一个中文文本自动分类系统,并对该系
3、统进行了针对大规模真实文本的试验测试,结果发现,系统的招回率较低,而准确率较高,该文对此结果进行了分析,并提出一种采用训练中拒识样本信息对分类器输出进行改进的方法,试验表明,该方法有效地提高了系统的性能,取得了令人满意的结果。鲁明羽等提出一种网页摘要方法,以过滤网页中对分类有负面影响的干扰信息;刘卫红等提出了一种结合网页内容和链接方面的特征,采用机器学习对中文垃圾网页进行分类检测的方法。实验结果表明,该方法能有效地对中文垃圾网页分类;张义忠提出了一种 SOFM(自组织特征映射)与LVQ(学习矢量量化 )相结合的分类算法,利用一种新的网页表示方法,形成特征向量并应用于网页分类中。该方法充分利用了
4、 SOFM 自组织的特点,同时又利用 LVQ 解决聚类中测试样本的交迭问题。实验表明它不仅具有较高的训练效率,同时有比较好的查全率和查准率;李滔等将粗糙集理论应用于网页分类,约简一个已知类别属性的训练集并得出判断规则,然后利用这些规则判别待分网页的类别。3、中文网页分类关键技术3.1 网页特征提取特征提取在整个中文网页分类的过程中非常重要,是能够体现网页分类核心思想的地方,特征提取的效果直接影响分类的质量。特征提取就是对词条选择之后的词再次进行提取,提取那些能代表网页类别的词来构成用于分类的向量。特征提取的方法主要根据评估函数计算每个词条的值,再根据每个词条的值进行降序排序,选择那些值较高的词
5、条作为最后的特征。征提取的常用的评估函数有文档频率(DF)、信息增益(IG)、互信息(MI) 、开方拟和检验(CHI)、期望交叉熵(ECE)和术语强度(TS)等。通过对上述 5 种经典特征选取方法的实验,结果表明:CHI 和 IG 方法的效果最佳;DF、IG 和 CHI 的性能大体相当,都能够过滤掉 85%以上的特征项;DF 具有算法简单、质量高的优点,可以用来代替 CHI 和 IG;;TS 方法性能一般;MI 方法的性能最差。进而的实验结果表明组合提取方法不但提高分类精度 ,还显著缩短分类器训练时间。3.2 分类算法分类算法是分类技术的核心部分,目前存在多种中文网页分类算法,朴素贝叶斯(NB
6、) 、K-近邻(KNN) 、支持向量机( SVM) 、决策树(DecisionTree)和神经网络( NN)等。朴素贝叶斯(NB)算法首先计算特征词属于每个类别的先验概率 ,在分类新文本时,根据该先验概率计算该文本属于每个类别的后验概率,最后取后验概率最大的类别作为该文本所属的类别。很多学者对贝叶斯分类算法进行了改进,如结合潜在语义索引的贝叶斯方法,结合模糊聚类的朴素贝叶斯方法,贝叶斯层次分类法等。K-近邻(KNN)是传统的模式识别算法,在文本分类方面得到了广泛的研究与应用。它通过计算文本间的相似度,找出训练集合中与测试文本最相近的 k个文本,即新文本的 k 个近邻,然后根据这 k 个文本的类
7、别判定新文本的类别。支持向量机(SVM)以结构风险最小化原则为理论基础.通过适当选择函数子集及其该子集中的判别函数使学习机的实际风险达到最小,保证了通过有限训练样本得到的小误差分类器对独立测试集的测试误差相对也小,从而得到一个具有最优分类能力和推广能力的学习机。SVM 算法具有较强的理论依据,在应用到文本分类时取得了很好的实验结果。李蓉等提出了 KNN 与 SVM 相结合的分类算法,取得了更好的分类效果。目前,比较有效的 SVM 实现方法包括Joachims 的 SVMlight 系统和 Platt 的序列最小优化算法。决策树(DecisionTree )是通过对新样本属性值的测试,从树的根节点开始,按照样本属性的取值,逐渐沿着决策树向下,直到树的叶节点,该叶节点表示的类别就是新样本的类别。