ImageVerifierCode 换一换
格式:PPT , 页数:19 ,大小:500.50KB ,
资源ID:804406      下载积分:10 金币
快捷下载
登录下载
邮箱/手机:
温馨提示:
快捷下载时,用户名和密码都是您填写的邮箱或者手机号,方便查询和重复下载(系统自动生成)。 如填写123,账号就是123,密码也是123。
特别说明:
请自助下载,系统不会自动发送文件的哦; 如果您已付费,想二次下载,请登录后访问:我的下载记录
支付方式: 支付宝    微信支付   
验证码:   换一换

加入VIP,免费下载
 

温馨提示:由于个人手机设置不同,如果发现不能下载,请复制以下地址【https://www.docduoduo.com/d-804406.html】到电脑端继续下载(重复下载不扣费)。

已注册用户请登录:
账号:
密码:
验证码:   换一换
  忘记密码?
三方登录: 微信登录   QQ登录   微博登录 

下载须知

1: 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。
2: 试题试卷类文档,如果标题没有明确说明有答案则都视为没有答案,请知晓。
3: 文件的所有权益归上传用户所有。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 本站仅提供交流平台,并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

版权提示 | 免责声明

本文(2006分类评测总结sewm06中文网页分类评测.ppt)为本站会员(无敌)主动上传,道客多多仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。 若此文所含内容侵犯了您的版权或隐私,请立即通知道客多多(发送邮件至docduoduo@163.com或直接QQ联系客服),我们立即给予删除!

2006分类评测总结sewm06中文网页分类评测.ppt

1、1,SEWM06 中文网页分类评测,2,主要内容,网页分类评测的目的及背景评测的前期准备评测的结果及分析总结及讨论,3,1.中文网页分类评测,在各种web 应用中,中文网页分类技术都是一个基本的技术储备存在的问题:缺乏一个标准的评测工具、评测数据集历史2003年第一届全国搜索引擎及Web挖掘大会2005年第三届全国搜索引擎及Web挖掘大会,4,1.中文网页分类评测,2006年评测的目的:2005年评测结束后,参与人员提出了许多建设性建议。因此本次评测给出了2个数据集。为这个领域的研究人员提供一个交流的机会希望在国内外各个研究小组的共同参与下建立并完善以中文为主的分类训练集,以进一步促进中文We

2、b分类技术的发展。评测网页分类的核心技术, 考察分类结果的准确性以及全面性。,5,2.评测的前期准备,训练集说明:训练集1:2002年秋天 北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例。训练集2:分类体系是根据常见的新闻类别而设定,从新闻网站上抓取得到对应类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页,分布在8个类别中,6,2.评测的前期准备,2套测试网页的选取流程选取原则不是纯英文网页不限编码格式网页平均分布于各类别中,每个类别100个测试页面不限网

3、页文字多少选取流程从CWT200G均匀抽取6000个页面手工分类平均网页长度26.8k/30.3k,7,2.评测的前期准备,评测流程参赛队申请获得所需数据(包括CWT200G ,以及分类器训练集数据) 各参加评测单位建立分类系统,给出CWT200G中所有网页的类别号 提交结果根据前文所人工选取的测试集,检查每份结果的分类质量最终提交了有效结果集的共有5个单位,15/12份结果,8,2.评测的前期准备,评测指标:主要有精度presicion,召回率recall,宏观F1值 P值其中 是经分类系统输出分类结果为第i类的文档个数, 是在中分类正确的文档个数。 R值其中 为所有测试文档中,属于第i类的

4、文档个数; 是经分类系统输出分类结果为第i类且结果正确的文档个数 F1值,9,3.评测的结果及分析,已提交结果的队伍:,10,测试集1上的评测结果,11,精度: 平均精度为0.6434 0.7270.5162 召回率 平均值为0.5281 0.64630.2609 f1值 平均值为0.5771 0.684340.356,12,11个类别上各组结果的表现(f1),13,测试集2上的评测结果,14,精度: 平均精度为0.7791 0.85360.67 召回率 平均值为0.697 0.7950.54 f1值 平均值为0.735 0.8000.620,15,16,2个数据集上的数据对比,17,4.总结及讨论,本次评测的不足之处选择的尽可能是特征明显的测试页面工作人员的主观因素占了很大比重2套测试页面并不是完全一致。评测指标的局限性,18,4.2007年我们做什么么?,在现有评测形式上加大难度增加对效率的考虑 (训练速度&分类速度)考虑一个页面可能有多个分类结果对测试页面选择的,真的做到随机选择.就可能存在分类结果为空的情况。,改变现有的评测形式 由网页分类 - 网站分类结合聚类技术,做应用,19,谢谢!,

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报