1、SEWM2007中文 Web检索评测,李静静, 北京大学网络实验室 2007-03,提纲,评测任务介绍 CWT200g测试集构建 评测结果 总结,评测任务之一:主题提取(Topic Distillation),对于一个特定主题发现一组关键资源 注重以站点作为资源的查询 要求是在前十个结果中寻找尽可能多的不同站点(用它们的网站的入口页面表示) 判断是否一个好的入口页面,应该考查结果是否符合下面三个条件: 是否大部分切合主题; 提供主题的可靠的信息; 不是一个更大的切合主题站点的一部分,评测任务之二:导航搜索(Navigation search),主页查询(Home Page finding,H
2、P) 通常是一个网站的主页指定页面查询(Named Page finding,NP) 满足用户需求的特定页面评测准则 第一个正确答案出现位置的倒数平均值(MRR),测试集使用框架,CWT200g文档集,CWT200g 根据天网搜索引擎在2005年11月份数据中的627,036个站点为数据基础 容量:197GB 覆盖29,100个网站,37,482,913个网页 网页本身是压缩保存, 以天网格式保存,Topic 示例:主题提取(TD), Number:TD217 体育新闻 Description: 足球,篮球,奥运,亚运等等的新闻报道 ,Topic 示例:导航搜索(HP/NP), Number:
3、NP890 中国政法大学学工部 , Number:NP1145 政府网站2005年十件大事 ,相关答案集的构建,采用pooling方法,pooling的深度比去年加大 每个主题1000个待判断的文档 相关判断结果 保留了56个主题,共1848个相关文档 各主题平均答案数 SEWM2007:33个 vs. SEWM2006:33.5个,各主题相关答案数分布,pool深度对相关答案数的影响之一,pool深度对相关答案数的影响之二,2007年提交结果的参赛队,TD评测结果,根据保留的56个主题来评分的结果,不同pool深度结果与评测结果一致性,NPHP评测结果,HP评测结果,NP评测结果,HP/NP/NPHP的MRR分布图,总结,人工评测耗费的资源较大 pooling深度对评测结果的影响不大,即答案集不全对评测的影响不大 不同的主题对pooling深度的要求不同,采用更好的pooling方法可提高构建答案集的效率,谢谢!,