收藏 分享(赏)

博士论文 搜索引擎检索系统的效率优化与效果评估研究.doc

上传人:杨桃文库 文档编号:4000077 上传时间:2018-12-03 格式:DOC 页数:113 大小:1.38MB
下载 相关 举报
博士论文 搜索引擎检索系统的效率优化与效果评估研究.doc_第1页
第1页 / 共113页
博士论文 搜索引擎检索系统的效率优化与效果评估研究.doc_第2页
第2页 / 共113页
博士论文 搜索引擎检索系统的效率优化与效果评估研究.doc_第3页
第3页 / 共113页
博士论文 搜索引擎检索系统的效率优化与效果评估研究.doc_第4页
第4页 / 共113页
博士论文 搜索引擎检索系统的效率优化与效果评估研究.doc_第5页
第5页 / 共113页
点击查看更多>>
资源描述

1、北 京 大 学 博 士 研 究 生 学 位 论 文题 目 : 搜 索 引 擎 检 索 系 统 的 效 率 优 化与 效 果 评 估 研 究On Efficiency Optimization and Effectiveness Evaluation of Search Engine Retrieval SystemDissertation Submitted toPeking Universityin partial fulfillment of the requirementFor the degree ofDoctor of Natural ScienceByPeng Bo( Comput

2、er Science and Technology )Dissertation Supervisor: Professor Xiaoming LIMay, 2004 i 摘 要本 文 研 究 工 作 是 国 家 重 点 基 础 研 究 发 展 规 划 项 目 “网 络 环 境 下 海 量 信息 组 织 与 处 理 的 理 论 与 方 法 研 究 ”的 一 部 分 ; 针 对 Web 搜 索 引 擎 应 用 背 景 ,以 构 建 大 规 模 、 高 性 能 搜 索 引 擎 的 检 索 系 统 为 目 标 , 系 统 地 研 究 了 检 索 系 统的 效 率 问 题 和 效 果 评 估 问 题 ,

3、 提 出 了 若 干 关 键 技 术 , 在 大 量 实 验 和 真 实 数 据分 析 的 基 础 上 , 得 到 了 如 下 研 究 成 果 和 结 论 :1) 提 出 了 一 种 混 合 索 引 技 术 。 该 技 术 针 对 中 文 信 息 检 索 索 引 词 选 择 的问 题 , 通 过 结 合 中 文 自 动 分 词 与 未 登 录 词 识 别 技 术 , 把 基 本 分 词 结 果 与 在 识别 生 成 的 扩 展 词 典 上 的 分 词 结 果 都 选 择 作 为 索 引 词 。 通 过 在 实 际 系 统 的 应 用实 践 , 表 明 该 技 术 能 有 效 提 高 短 语 检

4、 索 效 率 。2) 提 出 了 一 种 倒 排 文 件 分 块 组 织 方 法 , 它 兼 顾 了 文 档 编 号 序 列 和 文 档权 值 序 列 在 检 索 系 统 性 能 中 的 不 同 作 用 , 为 综 合 优 化 系 统 性 能 提 供 了 一 个 可操 作 的 框 架 。 和 已 有 相 关 工 作 相 比 , 这 一 研 究 基 于 搜 索 引 擎 应 用 背 景 , 通 过搜 索 引 擎 系 统 的 实 际 数 据 , 建 立 了 一 个 检 索 性 能 模 型 , 在 此 模 型 基 础 上 研究 分 块 组 织 策 略 对 性 能 的 影 响 和 分 块 参 数 的 优

5、 选 。 研 究 结 果 表 明 , 这 一 分 块组 织 策 略 可 以 有 效 提 高 检 索 效 率 。3) 倒 排 文 件 缓 存 是 检 索 系 统 效 率 优 化 的 重 要 技 术 。 结 合 到 大 规 模 检 索过 程 中 磁 盘 I/O 以 及 操 作 系 统 页 面 调 度 的 特 点 , 本 文 研 究 了 倒 排 文 件 缓 存 优化 设 计 中 的 性 能 指 标 选 择 、 替 换 算 法 、 页 面 大 小 和 倒 排 文 件 组 织 方 式 对 缓 存性 能 影 响 等 问 题 。 研 究 结 果 为 倒 排 文 件 缓 存 优 化 设 计 提 供 了 指 导

6、 。4) 针 对 搜 索 引 擎 检 索 系 统 效 果 评 估 中 的 若 干 问 题 , 设 计 并 实 现 了 一 个搜 索 引 擎 检 索 系 统 检 索 效 果 评 估 的 实 验 环 境 。 基 于 搜 索 引 擎 的 用 户 查 询 日 志 ,按 查 询 类 别 构 建 了 用 户 查 询 集 合 。 对 不 同 搜 索 引 擎 搜 集 系 统 搜 集 网 页 集 合 的差 异 、 评 测 员 结 果 之 间 的 差 异 对 评 估 实 验 的 稳 定 性 、 连 续 性 的 相 关 度 评 分 分值 以 及 对 应 的 评 估 指 标 、 查 询 集 合 大 小 对 评 估 实

7、 验 的 稳 定 性 等 问 题 进 行 了 研究 , 结 果 对 于 进 行 有 效 的 检 索 评 估 实 验 有 重 要 指 导 意 义 。5) 基 于 对 搜 索 引 擎 用 户 点 击 日 志 数 据 的 分 析 , 提 出 了 一 种 自 动 构 建 评估 实 验 相 关 结 果 集 合 与 进 行 自 动 评 估 实 验 的 方 法 。 实 验 显 示 这 一 自 动 方 法 得 ii 到 的 结 果 和 人 工 评 估 实 验 结 果 保 持 一 致 , 并 且 对 不 同 查 询 集 合 保 持 稳 定 。 这一 方 法 为 解 决 大 规 模 数 据 集 上 检 索 系 统

8、 评 估 的 可 扩 展 性 问 题 提 供 了 一 条 有 效的 途 径 。关 键 词 : 万 维 网 , 搜 索 引 擎 , 信 息 检 索 , 检 索 效 率 , 性 能 , 评 估 iii AbstractSearch engine is now an infrastructure of the information society. In this dissertation, we studied the performance of large-scale retrieval system of search engine; especially focused on effic

9、iency optimization and effectiveness evaluation. The main contributions include:1. A mixture index term selection method is proposed. By integrating the techniques of Chinese automatic word segmentation and unknown word detection, we select both the results of word segmentation on the basic dictiona

10、ry and the results on the extended dictionary consisting of detected words as index terms. This method can improve the efficiency of phrase query and is successfully applied in the Tianwang search engine system.2. A block organization of inverted file is proposed. It integrates the effects of the do

11、cument identifier data and document weight data to improve the efficiency of retrieving process. A performance model of retrieval system was build based on the real data of Tianwang search engine, and then the block organization was studied by simulations on this model. The results show that this me

12、thod improves the efficiency of retrieving process.3. Inverted file cache is an important technique for system performance optimization. We studied some important problems in the optimal design of inverted file cache, which include the performance metrics selection, replacement algorithms comparison

13、s, the effects of page size and physical organization of inverted file, etc. The results give a good guide for implementation of cache system.4. Aiming at the problems in effectiveness evaluation of the retrieval system in search engine, we designed and implemented an evaluation experiment platform.

14、 We constructed a query set with query types and studied many problems of the evaluation on Web search, which include the effects of the continuous relevance scores and the evaluation stableness on the iv difference of relevance assessors, measures and query set size. The results are important for g

15、uiding effective evaluation experiments.5. An automatic evaluation method is proposed based on analyzing the click log of search engine. The results of experiments based on this automatic evaluation method are consistent with the results of the one on the manual judgment, and keep stable to differen

16、t query sets. This automatic evaluation method is a promising answer for the scalability problem of the evaluation on large-scale Web search system.Keywords: Worldwide Web, Search Engine, Information Retrieval, Retrieval Efficiency, Performance, Evaluation v 目 录摘 要 iAbstractiii目 录 v图 示 .ix表 格 .xi第 1

17、 章 引 言 11.1 研 究 工 作 的 背 景 和 意 义 .11.2 本 文 研 究 工 作 的 内 容 .21.3 本 文 的 主 要 贡 献 .31.3.1 混 合 索 引 技 术 .31.3.2 倒 排 文 件 分 块 组 织 技 术 31.3.3 倒 排 文 件 索 引 的 缓 存 优 化 技 术 .41.3.4 搜 索 引 擎 检 索 效 果 评 估 方 法 .41.3.5 基 于 用 户 点 击 日 志 的 自 动 评 估 方 法 41.4 论 文 组 织 4第 2 章 搜 索 引 擎 检 索 系 统 基 本 技 术 62.1 引 言 62.2 系 统 设 计 与 结 构 .

18、62.3 索 引 创 建 102.3.1 索 引 词 选 择 .102.3.2 网 页 预 处 理 .112.3.3 索 引 创 建 算 法 122.4 检 索 过 程 122.4.1 索 引 压 缩 .132.4.2 随 机 访 问 的 索 引 组 织 132.4.3 重 要 索 引 词 单 独 索 引 142.5 本 章 小 结 14 vi 第 3 章 混 合 索 引 技 术 .153.1 引 言 153.2 混 合 索 引 原 理 .153.3 混 合 索 引 的 实 现 .183.3.1 未 登 录 词 识 别 183.3.2 扩 展 词 典 组 织 与 分 词 193.4 本 章 小

19、 结 20第 4 章 倒 排 文 件 分 块 组 织 技 术 214.1 引 言 214.2 倒 排 索 引 的 检 索 性 能 模 型 224.2.1 文 档 模 型 .224.2.2 用 户 查 询 模 型 244.2.3 计 算 机 系 统 性 能 参 数 264.3 分 块 索 引 项 的 组 织 策 略 264.3.1 倒 排 文 件 基 本 组 织 方 式 与 检 索 算 法 264.3.2 倒 排 文 件 分 块 组 织 方 式 与 检 索 算 法 284.4 实 验 设 计 294.4.1 算 法 仿 真 .294.4.2 问 题 分 析 .304.5 仿 真 实 验 和 结

20、果 .314.5.1 |R|与 k 比 较 .314.5.2 T(Q)以 及 分 块 因 子 对 T(Q)的 影 响 .334.6 本 章 小 结 35第 5 章 倒 排 文 件 索 引 缓 存 机 制 365.1 引 言 365.2 倒 排 文 件 缓 存 .375.2.1 体 系 结 构 .375.2.2 负 载 数 据 .385.3 负 载 特 性 395.3.1 I/O 序 列 对 象 大 小 395.3.2 序 列 中 对 象 的 频 度 分 布 .39 vii 5.3.3 序 列 中 对 象 的 时 间 间 隔 分 布 .405.3.4 序 列 的 重 复 模 式 415.4 实

21、验 设 计 415.4.1 问 题 分 析 .415.4.2 实 验 设 计 .445.5 仿 真 实 验 结 果 .455.5.1 I/O 序 列 的 缓 存 替 换 算 法 性 能 .455.5.2 PAGE 序 列 的 缓 存 替 换 算 法 性 能 465.5.3 PAGE 序 列 的 缓 存 性 能 与 页 面 大 小 的 关 系 .465.5.4 按 页 面 对 齐 倒 排 文 件 组 织 方 式 下 的 缓 存 及 性 能 .475.6 本 章 小 结 48第 6 章 检 索 系 统 质 量 评 估 506.1 引 言 506.2 查 询 类 别 分 析 与 查 询 集 构 建

22、526.3 评 估 实 验 546.4 实 验 结 果 分 析 .566.4.1 搜 索 引 擎 覆 盖 率 估 计 576.4.2 评 测 人 员 与 评 估 指 标 对 评 估 稳 定 性 影 响 596.4.3 查 询 集 合 大 小 对 评 估 稳 定 性 影 响 .616.4.4 各 类 查 询 的 评 估 结 果 分 析 .636.5 本 章 小 结 64第 7 章 基 于 用 户 点 击 日 志 的 自 动 评 估 方 法 .657.1 引 言 657.2 天 网 搜 索 引 擎 及 点 击 日 志 667.3 用 户 点 击 URL 的 特 征 分 析 687.3.1 用 户

23、点 击 不 同 URL 的 数 量 遵 从 Heaps 定 律 .687.3.2 点 击 URL 的 频 度 频 级 分 布 .697.3.3 URL 序 号 -频 度 关 系 .697.3.4 点 击 URL 对 应 页 面 的 大 小 .707.3.5 点 击 URL 对 应 页 面 的 类 别 特 征 .717.4 点 击 URL 的 局 部 性 与 自 相 似 性 分 析 .72 viii 7.4.1 点 击 URL 的 时 间 间 隔 .727.4.2 点 击 URL 的 过 程 具 有 自 相 似 性 特 征 747.5 点 击 URL 的 聚 类 分 析 757.6 自 动 评

24、估 实 验 .777.7 本 章 小 结 80第 8 章 总 结 和 未 来 工 作 展 望 81参 考 文 献 85北 京 大 学 学 位 论 文 原 创 性 声 明 和 使 用 授 权 说 明 94致 谢 95博 士 期 间 录 用 和 提 交 的 论 文 96 ix 图 示图 2-1 检 索 系 统 集 成 框 架 结 构 .7图 2-2 天 网 WWW 检 索 分 布 式 系 统 构 架 9图 3-1 扩 展 词 典 树 结 构 示 例 .20图 3-2 扩 展 词 典 匹 配 查 找 算 法 20图 4-1 词 序 号 -频 度 分 布 24图 4-2 用 户 查 询 词 个 数 分

25、 布 .25图 4-3 索 引 词 区 间 上 的 查 询 分 布 25图 4-4 倒 排 文 件 基 本 检 索 算 法 27图 4-5 分 块 组 织 倒 排 文 件 的 检 索 算 法 28图 4-6 |R| 与 K 比 较 的 仿 真 结 果 32图 4-7 分 块 检 索 I/O 访 问 比 例 32图 4-8 按 词 区 间 均 匀 分 块 下 的 T(Q) .34图 4-9 按 几 何 级 数 区 间 分 块 下 的 T(Q) .34图 5-1 搜 索 引 擎 检 索 系 统 缓 存 结 构 37图 5-2 文 档 数 据 访 问 对 象 大 小 分 布 40图 5-3 I/O

26、与 PAGE 序 列 序 号 -频 度 分 布 .40图 5-4 I/O 与 PAGE 序 列 时 间 间 隔 分 布 .41图 5-5 I/O 和 PAGE 序 列 中 唯 一 模 式 串 .41图 5-6 I/O 序 列 缓 存 替 换 算 法 比 较 45图 5-7 ( 4KB) PAGE 序 列 替 换 算 法 比 较 .46图 5-8 PAGESIZE 与 缓 存 性 能 .46图 5-9 页 面 对 齐 方 式 下 缓 存 性 能 与 页 面 大 小 的 关 系 48图 6-1 相 关 度 评 测 环 境 .56图 6-2 评 测 人 员 每 组 评 测 平 均 花 费 时 间 .

27、59图 6-3 评 测 人 员 评 分 差 异 .59图 6-4 不 同 评 估 人 员 与 评 估 指 标 下 结 果 比 较 .60图 6-5 查 询 集 合 大 小 对 评 估 稳 定 性 影 响 .62图 7-1 不 同 URL 的 数 量 遵 从 HEAPS LAW.68 x 图 7-2 点 击 URL 的 频 度 频 级 关 系 68图 7-3 热 点 击 URL 的 序 号 -频 度 关 系 70图 7-4 原 始 索 引 文 档 库 中 网 页 的 大 小 分 布 .70图 7-5 索 引 库 中 与 点 击 页 面 大 小 的 比 较 .71图 7-6 页 面 大 小 与 点

28、 击 次 数 关 系 71图 7-7 点 击 URL 出 现 的 时 间 间 隔 73图 7-8 .时 间 间 隔 在 60 秒 内 点 击 URL 的 特 征 .73图 7-9 点 击 URL 序 列 的 自 相 似 性 75图 7-10 不 同 的 URL 计 数 与 对 应 查 询 词 序 号 关 系 图 .78 xi 表 格表 4-1 文 档 模 型 参 数 .23表 4-2 用 户 查 询 模 型 参 数 .24表 4-3 计 算 机 性 能 参 数 .26表 5-1 数 据 集 基 本 统 计 信 息 .39表 5-2 页 面 对 齐 方 式 和 顺 序 方 式 的 性 能 比 较

29、 .47表 6-1 用 户 查 询 分 类 类 别 .53表 6-2 用 户 查 询 类 别 分 布 .53表 6-3 查 询 集 说 明 及 示 例 .53表 6-4 搜 索 引 擎 覆 盖 率 比 较 .58表 6-5 评 估 人 员 与 指 标 比 较 实 验 结 果 61表 6-6 导 航 型 查 询 评 估 结 果 .63表 6-7 导 航 型 查 询 评 估 结 果 显 著 性 和 错 误 率 .63表 6-8 事 务 型 查 询 评 估 结 果 .64表 7-1 天 网 用 户 点 击 日 志 记 录 格 式 67表 7-2 天 网 2003 年 9 月 -10 月 点 击 日

30、志 基 本 情 况 67表 7-3 点 击 URL 对 应 页 面 的 类 别 72表 7-4 基 于 URL 比 较 的 自 动 评 估 结 果 .78表 7-5 基 于 URL 比 较 的 相 关 判 别 结 果 统 计 .79表 7-6 基 于 站 点 判 别 的 自 动 评 估 结 果 79表 7-7 基 于 站 点 判 别 的 相 关 结 果 统 计 79表 7-8 基 于 站 点 判 别 的 自 动 评 估 实 验 错 误 率 .80 xii 第 1 章 引 言 1 第 1章 引 言1.1 研 究 工 作 的 背 景 和 意 义我 们 正 处 在 一 个 新 时 代 的 起 点 。

31、 Internet 和 Web 已 经 改 变 了 人 们 的 学 习 、生 活 和 工 作 等 各 个 方 面 , 它 们 的 影 响 力 已 经 开 始 渗 透 到 社 会 的 各 个 层 面 。 而这 一 切 才 刚 刚 开 始 。Vannevar Bush 在 1945 年 提 出 的 MemexBush,1945代 表 了 人 类 长 久 以来 的 一 个 梦 想 : 让 每 个 人 都 可 以 十 分 容 易 的 访 问 人 类 积 累 下 来 的 知 识 并 且 十分 容 易 的 共 享 自 己 的 见 解 。 Memex 被 描 述 成 一 个 存 放 了 无 数 本 书 籍

32、的 书 桌 ,这 些 书 籍 的 内 容 被 超 链 接 互 相 连 接 起 来 , 同 时 其 它 形 式 的 知 识 载 体 , 如 图 片 、声 音 录 音 等 也 被 放 进 来 。 人 们 可 以 通 过 链 接 在 Memex 中 浏 览 , 也 可 以 通 过简 单 的 界 面 , 比 如 口 头 的 命 令 来 搜 索 和 查 询 。 人 们 还 可 以 共 享 自 己 对 书 籍 阅读 的 注 解 。Web 的 出 现 使 Memex 不 再 仅 仅 是 一 个 梦 想 。 万 维 网 ( World Wide Web, 简 记 为 Web) 起 源 于 1989 年 欧 洲

33、 粒 子 物 理 研 究 室 CERN, 最 初 计 划是 由 CERN 的 物 理 学 家 Tim Berners-Lee 于 1989 年 3 月 提 出 , 在 1993 年2 月 , 随 着 第 一 个 图 形 界 面 Mosaic 的 发 布 而 开 始 迅 速 发 展 Vetter, et al.,1994。 据 估 计 每 年 Web 流 量 增 加 100%Coffman and A.Odlyzko,2001,每 天 增 加 大 约 100 万 的 新 网 页 Chakrabarti, et al.,1999。 到 2004 年 4 月 ,Google 声 称 提 供 对 4,

34、285,199,774 个 网 页 提 供 检 索 服 务 Google, 但 这 还 只是 Web 上 已 有 网 页 中 很 小 的 一 部 分 Lawrence and Giles,1999,DeepWeb。Web 的 核 心 技 术 是 超 文 本 和 超 媒 体 , 它 通 过 将 文 本 、 图 形 、 图 像 、 音 频 、 视频 等 信 息 的 有 机 结 合 , 给 人 们 提 供 了 丰 富 的 信 息 表 示 空 间 。 同 时 Web 使 得信 息 发 布 变 得 前 所 未 有 的 简 单 , 也 让 信 息 浏 览 十 分 方 便 。 整 个 Web 相 当 于一

35、个 巨 大 的 知 识 库 , 越 来 越 多 的 文 本 、 书 籍 被 数 字 化 提 供 在 线 服 务 , 越 来 越多 的 文 字 以 数 字 化 的 形 式 创 建 和 存 储 。Web 规 模 的 迅 速 增 长 和 内 容 不 断 丰 富 , 也 给 人 们 进 行 有 效 访 问 带 来 了 困难 。 人 们 需 要 Web 具 有 Memex 中 那 样 理 想 的 搜 索 和 查 询 的 功 能 , 以 帮 助 自己 快 速 、 准 确 的 在 信 息 的 海 洋 中 找 到 自 己 需 要 的 内 容 。 搜 索 引 擎 正 是 由 这 样一 种 需 求 推 动 而 得

36、 到 快 速 发 展 的 信 息 服 务 形 式 。 根 据 统 计 , 约 85%的 用 户使 用 搜 索 引 擎 去 定 位 他 们 需 要 的 信 息 , 并 且 , 几 个 著 名 的 通 用 搜 索 引 擎 一 直都 稳 定 的 处 于 全 球 访 问 量 最 大 的 50 个 网 站 之 列 。 搜 索 引 擎 已 经 成 为 了 人 们第 1 章 引 言 2 进 行 信 息 获 取 的 一 个 基 础 设 施 。搜 索 引 擎 的 检 索 系 统 建 立 在 信 息 检 索 技 术 之 上 。 广 义 的 信 息 检 索 是 研 究信 息 的 结 构 、 分 析 、 组 织 、

37、存 贮 和 检 索 的 学 科 。 其 中 , 非 结 构 化 的 文 本 信 息检 索 是 信 息 检 索 领 域 研 究 的 重 点 , 当 前 搜 索 引 擎 的 检 索 系 统 就 是 这 一 类 的 信息 检 索 系 统 。 信 息 检 索 从 1960 年 代 开 始 , 一 直 坚 持 采 用 统 计 的 方 法 处 理 语言 和 文 本 数 据 , 强 调 评 估 方 法 和 评 估 实 验 , 逐 步 建 立 了 大 规 模 的 测 试 数 据 集和 评 估 环 境 , 取 得 了 丰 硕 的 研 究 成 果 。 Web 搜 索 是 信 息 检 索 研 究 的 多 种 信息

38、获 取 类 型 中 的 一 种 , Web 上 的 用 户 查 询 是 多 种 用 户 信 息 需 求 类 型 中 很 重要 的 一 部 分 , 搜 索 引 擎 可 以 从 信 息 检 索 领 域 研 究 成 果 中 选 取 成 熟 的 技 术 。 同时 , Web 搜 索 本 身 的 特 点 也 为 信 息 检 索 研 究 带 来 了 新 的 研 究 问 题 , 比 如Web 搜 索 下 的 巨 大 数 据 规 模 和 用 户 数 量 , Web 数 据 的 超 文 本 结 构 , Web 搜索 下 用 户 短 查 询 的 特 点 等 等 。随 着 Web 的 日 益 重 要 , Web 搜

39、 索 成 为 计 算 机 学 科 多 个 领 域 研 究 的 对 象和 中 心 , 包 括 信 息 检 索 、 数 据 库 、 自 然 语 言 处 理 、 数 据 挖 掘 等 。 众 多 研 究 方法 、 技 术 的 融 合 、 互 相 促 进 是 这 一 方 向 的 特 点 。1.2 本 文 研 究 工 作 的 内 容本 文 研 究 工 作 集 中 在 搜 索 引 擎 检 索 系 统 的 性 能 和 评 估 , 主 要 围 绕 如 何 更有 效 的 组 织 数 据 , 如 何 高 效 检 索 , 如 何 对 检 索 系 统 的 检 索 效 率 和 效 果 进 行 评估 等 几 个 方 面 。

40、 具 体 体 现 在 研 究 海 量 Web 信 息 的 高 性 能 检 索 技 术 , Web检 索 系 统 的 评 估 方 法 。 内 容 如 下 :1. 混 合 索 引 技 术 : 中 文 全 文 索 引 技 术 中 索 引 词 选 择 直 接 影 响 检 索 系 统 性 能 。本 文 提 出 了 一 种 基 于 自 动 识 别 新 词 技 术 上 的 混 合 索 引 技 术 。 与 常 用 的 其它 几 种 索 引 词 选 择 技 术 相 比 , 这 一 技 术 能 够 有 效 提 高 搜 索 引 擎 检 索 效 率 ,同 时 不 会 导 致 检 索 效 果 下 降 。2. 分 块 索

41、 引 组 织 技 术 : 对 倒 排 文 件 索 引 项 数 据 访 问 的 开 销 是 影 响 检 索 系 统性 能 的 重 要 因 素 。 本 文 针 对 搜 索 引 擎 用 户 查 询 的 统 计 特 性 , 提 出 了 一 种分 块 组 织 倒 排 文 件 的 方 法 及 其 查 询 匹 配 操 作 算 法 。 该 方 法 兼 顾 了 文 档 编号 序 列 和 文 档 权 值 序 列 在 检 索 系 统 性 能 中 的 不 同 作 用 , 为 综 合 优 化 系 统性 能 提 供 了 一 个 可 操 作 的 框 架 。3. 索 引 缓 存 技 术 : 缓 存 技 术 是 提 高 系 统

42、 效 率 的 重 要 技 术 。 本 文 通 过 分 析 数据 访 问 序 列 的 局 部 性 特 性 , 和 基 于 用 户 查 询 日 志 数 据 的 缓 存 仿 真 实 验 ,第 1 章 引 言 3 探 讨 了 倒 排 文 件 缓 存 优 化 设 计 中 的 性 能 指 标 选 择 问 题 、 替 换 算 法 选 择 、页 面 大 小 和 倒 排 文 件 组 织 方 式 对 缓 存 性 能 影 响 等 问 题 。4. 检 索 系 统 效 果 评 估 : 检 索 系 统 效 果 评 估 是 信 息 检 索 研 究 的 重 要 内 容 。 本文 建 立 了 搜 索 引 擎 检 索 系 统 效

43、 果 评 估 的 工 具 和 评 估 实 验 环 境 , 对 Web搜 索 环 境 下 的 检 索 效 果 评 估 中 的 若 干 问 题 进 行 研 究 , 包 括 用 户 查 询 类 别问 题 、 数 据 规 模 和 数 据 集 不 一 致 问 题 、 连 续 型 相 关 性 分 值 与 评 估 标 准 选择 问 题 、 评 估 评 估 人 员 差 异 对 实 验 的 稳 定 性 问 题 、 查 询 集 合 大 小 对 实 验的 稳 定 性 问 题 等 。5. 点 击 日 志 分 析 : 本 文 对 搜 索 引 擎 用 户 点 击 日 志 进 行 统 计 分 析 , 包 括 用 户点 击

44、的 基 本 分 布 特 征 分 析 、 局 部 性 特 征 分 析 和 聚 类 分 析 。 结 果 用 于 指 导对 检 索 系 统 设 计 和 对 用 户 搜 索 行 为 的 研 究 。6. 自 动 评 估 方 法 : 自 动 评 估 是 解 决 传 统 检 索 系 统 评 估 的 可 扩 展 性 问 题 的 一种 方 法 。 本 文 基 于 用 户 点 击 日 志 分 析 , 提 出 了 一 种 自 动 构 建 评 估 实 验 相关 结 果 集 合 的 方 法 。 实 验 结 果 表 明 这 一 方 法 的 有 效 性 。1.3 本 文 的 主 要 贡 献1.3.1 混 合 索 引 技 术

45、提 出 了 一 种 基 于 词 自 动 识 别 技 术 上 的 混 合 索 引 技 术 。 与 短 语 索 引 相 比 ,混 合 索 引 使 用 统 一 的 倒 排 索 引 词 典 , 没 有 额 外 的 二 级 索 引 词 典 访 问 开 销 ; 并且 混 合 索 引 不 限 制 扩 展 词 条 为 两 个 基 本 词 条 长 , 可 以 索 引 更 长 的 短 语 , 更 加灵 活 。 与 词 索 引 +BI-gram 索 引 相 比 , 混 合 索 引 使 用 了 未 登 录 词 的 识 别 技 术 ,可 以 有 效 控 制 倒 排 索 引 词 典 规 模 , 避 免 了 Bi-gram

46、 词 典 膨 胀 的 问 题 。 这 一技 术 能 够 有 效 提 高 搜 索 引 擎 检 索 效 率 , 同 时 对 检 索 效 果 没 有 负 面 影 响 。1.3.2 倒 排 文 件 分 块 组 织 技 术提 出 了 一 种 分 块 组 织 倒 排 文 件 的 方 法 及 其 查 询 匹 配 操 作 算 法 。 其 基 本 思想 是 将 倒 排 文 件 的 倒 排 表 数 据 分 块 存 储 , 使 得 块 内 数 据 项 按 文 档 编 号 增 序 排列 , 以 利 于 高 效 数 据 压 缩 , 而 在 块 间 保 持 文 档 权 值 的 降 序 组 织 , 以 求 读 取 少量 倒

47、 排 表 数 据 而 得 到 检 索 结 果 , 减 少 检 索 算 法 的 执 行 时 间 , 总 体 上 提 高 检 索系 统 的 效 率 。 实 验 结 果 表 明 , 在 搜 索 引 擎 的 用 户 查 询 模 型 下 , 这 一 方 法 可 以有 效 减 少 检 索 算 法 的 执 行 时 间 , 提 高 系 统 检 索 效 率 。第 1 章 引 言 4 1.3.3 倒 排 文 件 索 引 的 缓 存 优 化 技 术本 文 研 究 了 倒 排 文 件 缓 存 优 化 设 计 中 的 几 个 重 要 问 题 , 它 们 在 相 关 文 献中 未 详 细 讨 论 。 具 体 包 括 性

48、能 指 标 选 择 问 题 、 替 换 算 法 选 择 、 页 面 大 小 和 倒排 文 件 组 织 方 式 等 对 缓 存 性 能 的 影 响 。 研 究 得 到 如 下 结 论 : 通 过 缓 存 变长 的 IO 序 列 对 象 , 采 用 GD-SIZE1 替 换 算 法 , 可 以 明 显 减 少 磁 盘 系 统 I/O访 问 的 次 数 ; 通 过 按 页 面 对 齐 方 式 组 织 倒 排 文 件 , 选 取 大 的 页 面 作 为 访 问倒 排 文 件 的 单 位 , 可 以 使 磁 盘 系 统 带 宽 利 用 率 得 到 优 化 。 这 些 结 论 用 于 指 导倒 排 文 件

49、 缓 存 的 实 现 , 对 提 高 搜 索 引 擎 检 索 系 统 的 效 率 有 重 要 的 意 义 。1.3.4 搜 索 引 擎 检 索 效 果 评 估 方 法研 究 了 搜 索 引 擎 检 索 质 量 评 估 中 的 若 干 问 题 , 构 建 了 按 类 别 分 类 的 用 户查 询 集 , 通 过 InfoMall 系 统 减 少 不 同 搜 索 引 擎 搜 集 系 统 搜 集 网 页 集 合 差 异 问题 对 评 估 的 影 响 , 实 验 得 到 如 下 结 论 : 人 工 评 测 员 评 测 结 果 之 间 的 差 异很 大 , 但 评 估 实 验 结 果 保 持 稳 定 。 使 用 连 续 型 的 相 关 度 评 分 分 值 , 以 及 对应 的 评 估 指 标 具 有 比 二 元 相 关 度 评 分 分 值 及 对 应 评 估 指 标 更 好 的 区 分 能 力 。 50 左 右 的 查 询 集 合 规 模 , 使 用 DCG(10)这 样 的 连 续 型 评 估 指 标 , 可 以 进行 有 效 的 评 估 实 验 。 这 些 结 论 可 用 于 指 导 进 行 有 效 的 搜 索 引 擎 检 索 质 量 的 评估 。1.3.5

展开阅读全文
相关资源
猜你喜欢
相关搜索
资源标签

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报