收藏 分享(赏)

Web检索评测.ppt

上传人:ysd1539 文档编号:6698409 上传时间:2019-04-21 格式:PPT 页数:21 大小:532KB
下载 相关 举报
Web检索评测.ppt_第1页
第1页 / 共21页
Web检索评测.ppt_第2页
第2页 / 共21页
Web检索评测.ppt_第3页
第3页 / 共21页
Web检索评测.ppt_第4页
第4页 / 共21页
Web检索评测.ppt_第5页
第5页 / 共21页
点击查看更多>>
资源描述

1、SEWM2007中文 Web检索评测,李静静, 北京大学网络实验室 2007-03,提纲,评测任务介绍 CWT200g测试集构建 评测结果 总结,评测任务之一:主题提取(Topic Distillation),对于一个特定主题发现一组关键资源 注重以站点作为资源的查询 要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站的入口页面表示) 判断是否一个好的入口页面,应该考查结果是否符合下面三个条件: 是否大部分切合主题; 提供主题的可靠的信息; 不是一个更大的切合主题站点的一部分,评测任务之二:导航搜索(Navigation search),主页查询(Home Page finding,H

2、P) 通常是一个网站的主页指定页面查询(Named Page finding,NP) 满足用户需求的特定页面评测准则 第一个正确答案出现位置的倒数平均值(MRR),测试集使用框架,CWT200g文档集,CWT200g 根据天网搜索引擎在2005年11月份数据中的627,036个站点为数据基础 容量:197GB 覆盖29,100个网站,37,482,913个网页 网页本身是压缩保存, 以天网格式保存,Topic 示例:主题提取(TD), Number:TD217 体育新闻 Description: 足球,篮球,奥运,亚运等等的新闻报道 ,Topic 示例:导航搜索(HP/NP), Number:

3、NP890 中国政法大学学工部 , Number:NP1145 政府网站2005年十件大事 ,相关答案集的构建,采用pooling方法,pooling的深度比去年加大 每个主题1000个待判断的文档 相关判断结果 保留了56个主题,共1848个相关文档 各主题平均答案数 SEWM2007:33个 vs. SEWM2006:33.5个,各主题相关答案数分布,pool深度对相关答案数的影响之一,pool深度对相关答案数的影响之二,2007年提交结果的参赛队,TD评测结果,根据保留的56个主题来评分的结果,不同pool深度结果与评测结果一致性,NPHP评测结果,HP评测结果,NP评测结果,HP/NP/NPHP的MRR分布图,总结,人工评测耗费的资源较大 pooling深度对评测结果的影响不大,即答案集不全对评测的影响不大 不同的主题对pooling深度的要求不同,采用更好的pooling方法可提高构建答案集的效率,谢谢!,

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 网络科技 > Web服务

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报