1、1,SEWM06 中文网页分类评测,2,主要内容,网页分类评测的目的及背景评测的前期准备评测的结果及分析总结及讨论,3,1.中文网页分类评测,在各种web 应用中,中文网页分类技术都是一个基本的技术储备存在的问题:缺乏一个标准的评测工具、评测数据集历史2003年第一届全国搜索引擎及Web挖掘大会2005年第三届全国搜索引擎及Web挖掘大会,4,1.中文网页分类评测,2006年评测的目的:2005年评测结束后,参与人员提出了许多建设性建议。因此本次评测给出了2个数据集。为这个领域的研究人员提供一个交流的机会希望在国内外各个研究小组的共同参与下建立并完善以中文为主的分类训练集,以进一步促进中文We
2、b分类技术的发展。评测网页分类的核心技术, 考察分类结果的准确性以及全面性。,5,2.评测的前期准备,训练集说明:训练集1:2002年秋天 北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例。训练集2:分类体系是根据常见的新闻类别而设定,从新闻网站上抓取得到对应类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页,分布在8个类别中,6,2.评测的前期准备,2套测试网页的选取流程选取原则不是纯英文网页不限编码格式网页平均分布于各类别中,每个类别100个测试页面不限网
3、页文字多少选取流程从CWT200G均匀抽取6000个页面手工分类平均网页长度26.8k/30.3k,7,2.评测的前期准备,评测流程参赛队申请获得所需数据(包括CWT200G ,以及分类器训练集数据) 各参加评测单位建立分类系统,给出CWT200G中所有网页的类别号 提交结果根据前文所人工选取的测试集,检查每份结果的分类质量最终提交了有效结果集的共有5个单位,15/12份结果,8,2.评测的前期准备,评测指标:主要有精度presicion,召回率recall,宏观F1值 P值其中 是经分类系统输出分类结果为第i类的文档个数, 是在中分类正确的文档个数。 R值其中 为所有测试文档中,属于第i类的
4、文档个数; 是经分类系统输出分类结果为第i类且结果正确的文档个数 F1值,9,3.评测的结果及分析,已提交结果的队伍:,10,测试集1上的评测结果,11,精度: 平均精度为0.6434 0.7270.5162 召回率 平均值为0.5281 0.64630.2609 f1值 平均值为0.5771 0.684340.356,12,11个类别上各组结果的表现(f1),13,测试集2上的评测结果,14,精度: 平均精度为0.7791 0.85360.67 召回率 平均值为0.697 0.7950.54 f1值 平均值为0.735 0.8000.620,15,16,2个数据集上的数据对比,17,4.总结及讨论,本次评测的不足之处选择的尽可能是特征明显的测试页面工作人员的主观因素占了很大比重2套测试页面并不是完全一致。评测指标的局限性,18,4.2007年我们做什么么?,在现有评测形式上加大难度增加对效率的考虑 (训练速度&分类速度)考虑一个页面可能有多个分类结果对测试页面选择的,真的做到随机选择.就可能存在分类结果为空的情况。,改变现有的评测形式 由网页分类 - 网站分类结合聚类技术,做应用,19,谢谢!,