1、.页眉.页脚目 录 (Content)一、绪论 21.1 引 言 .21.2 背 景 .21.3 定 义 .3二、聚焦爬虫工作原理及关键技术 32.1 聚 焦 爬 虫 相 关 概 念 32.2 聚 焦 爬 虫 的 研 究 内 容 .32.3 网 络 爬 虫 工 作 原 理 .42.3.1 抓 取 目 标 42.3.2 抓 取 目 标 描 述 4三、网页搜索策略 53.1 广 度 优 先 搜 索 策 略 53.2 最 佳 优 先 搜 索 策 略 5四、网页分析算法 54.1 基 于 网 络 拓 扑 的 分 析 算 法 .54.1.1 网 页 (Webpage)粒 度 的 分 析 算 法 .54.
2、1.2 网 站 粒 度 的 分 析 算 法 64.1.3 网 页 块 粒 度 的 分 析 算 法 .64.2 基 于 网 页 内 容 的 网 页 分 析 算 法 .64.2.1 基 于 文 本 的 网 页 分 析 算 法 .64.2.2 Hidden Web 的 网 页 分 析 方 法 .64.2.3 数 据 密 集 型 网 页 的 分 析 方 法 .74.3 用 户 协 作 网 页 分 析 算 法 74.4 基 于 领 域 概 念 定 制 的 网 页 评 价 算 法 .7五、 聚焦爬虫系统体系结构 85.1 基 于 分 类 器 的 聚 焦 爬 虫 85.2 基 于 数 据 抽 取 器 的 聚
3、 焦 爬 虫 .85.3 基 于 用 户 学 习 的 聚 焦 爬 虫 。 .8六、 总结 8结论 9参考文献 9.页眉.页脚一、绪论1.1 引 言随 着 网 络 的 迅 速 发 展 , 万 维 网 成 为 大 量 信 息 的 载 体 , 如 何 有 效 地 提 取 并 利 用 这 些 信 息 成 为 一 个 巨大 的 挑 战 。 搜 索 引 擎 (Search Engine), 例 如 传 统 的 通 用 搜 索 引 擎 AltaVista, Yahoo 和 Google 等, 作 为 一 个 辅 助 人 们 检 索 信 息 的 工 具 成 为 用 户 访 问 万 维 网 的 入 口 和 指
4、南 。 但 是 , 这 些 通 用 性 搜 索 引 擎也 存 在 着 一 定 的 局 限 性 , 如 : (1) 不 同 领 域 、 不 同 背 景 的 用 户 往 往 具 有 不 同 的 检 索 目 的 和 需 求 , 通 用 搜 索 引 擎 所 返 回 的 结 果 包含 大 量 用 户 不 关 心 的 网 页 。 (2) 通 用 搜 索 引 擎 的 目 标 是 尽 可 能 大 的 网 络 覆 盖 率 , 有 限 的 搜 索 引 擎 服 务 器 资 源 与 无 限 的 网 络 数据 资 源 之 间 的 矛 盾 将 进 一 步 加 深 。 (3) 万 维 网 数 据 形 式 的 丰 富 和 网
5、 络 技 术 的 不 断 发 展 , 图 片 、 数 据 库 、 音 频 /视 频 多 媒 体 等 不 同 数据 大 量 出 现 , 通 用 搜 索 引 擎 往 往 对 这 些 信 息 含 量 密 集 且 具 有 一 定 结 构 的 数 据 无 能 为 力 , 不 能 很 好 地 发现 和 获 取 。 (4) 通 用 搜 索 引 擎 大 多 提 供 基 于 关 键 字 的 检 索 , 难 以 支 持 根 据 语 义 信 息 提 出 的 查 询 。以 上 4 个 局 限 性 已 经 将 目 前 通 用 的 搜 索 引 擎 的 “信 息 涉 及 领 域 太 广 ”, “返 回 冗 余 信 息 多
6、”, “结果 不 够 准 确 ”等 一 系 列 的 问 题 都 反 映 出 来 ; 结 果 将 是 导 致 在 某 些 特 定 领 域 的 查 询 上 则 不 够 深 入 和 专业 化 。 为 了 解 决 上 述 问 题 , 定 向 抓 取 相 关 网 页 资 源 的 聚 焦 爬 虫 应 运 而 生 。 聚 焦 爬 虫 是 一 个 自 动 下 载 网页 的 程 序 , 它 根 据 既 定 的 抓 取 目 标 , 有 选 择 的 访 问 万 维 网 上 的 网 页 与 相 关 的 链 接 , 获 取 所 需 要 的 信 息。 与 通 用 爬 虫 (general purpose web craw
7、ler)不 同 , 聚 焦 爬 虫 并 不 追 求 大 的 覆 盖 , 而 将 目 标 定 为 抓取 与 某 一 特 定 主 题 内 容 相 关 的 网 页 , 为 面 向 主 题 的 用 户 查 询 准 备 数 据 资 源 。1.2 背 景近 年 来 , 随 着 互 联 网 的 快 速 发 展 , 网 络 信 息 呈 指 数 级 的 增 长 , 这 种 信 息 量 的 飞 速 增 长 对 通 用 网 络爬 虫 和 搜 索 引 擎 呈 现 了 空 前 的 挑 战 , 越 来 越 多 的 人 希 望 能 够 快 速 且 有 效 地 找 到 自 己 所 需 要 的 信 息 。 聚焦 爬 虫 是 一
8、 种 面 向 主 题 的 信 息 搜 集 系 统 , 可 以 根 据 用 户 需 要 从 互 联 网 上 自 动 搜 集 到 主 题 相 关 信 息 , 在主 题 搜 索 引 擎 、 站 点 结 构 分 析 等 方 面 取 得 越 来 越 广 泛 的 应 用 。 传 统 的 聚 焦 爬 虫 抓 取 的 目 标 是 与 某 一特 定 主 题 内 容 相 关 的 网 页 , 而 在 有 些 应 用 中 , 如 网 络 目 录 , 更 多 的 是 给 用 户 提 供 主 题 相 关 网 站 。 随 着互 联 网 信 息 的 日 益 增 多 , 目 前 靠 人 工 来 维 护 的 网 络 目 录 越
9、来 越 显 得 低 效 和 不 可 行 。 为 了 实 现 具 有 自 动维 护 功 能 的 网 络 目 录 , 将 抓 取 目 标 锁 定 为 主 题 网 站 的 网 站 聚 焦 爬 虫 应 运 而 生 。 网 站 聚 焦 爬 虫 是 在 现有 聚 焦 爬 虫 的 基 础 上 加 入 网 站 选 取 和 分 类 机 制 , 从 用 户 提 供 的 种 子 网 站 开 始 , 以 Best-first 原 则 获取 最 佳 候 选 网 站 并 开 始 新 一 轮 的 爬 行 分 类 。.页眉.页脚1.3 定 义网 络 爬 虫 源 自 Spider (或 Crawler、 robots、 wan
10、derer)等 的 意 译 。 网 络 爬 虫 的 定 义 有 广 义 和 狭义 之 分 1, 狭 义 的 定 义 为 : 利 用 标 准 的 http 协 议 , 根 据 超 级 链 接 和 Web 文 档 检 索 的 方 法 遍 历 万 维网 信 息 空 间 的 软 件 程 序 。 广 义 的 定 义 为 : 所 有 能 利 用 http 协 议 检 索 Web 文 档 的 软 件 都 称 之 为 网 络爬 虫 。 网 络 爬 虫 是 一 个 功 能 很 强 大 的 自 动 提 取 网 页 的 程 序 , 它 为 搜 索 引 擎 从 万 维 网 下 载 网 页 , 是 搜 索引 擎 的 重
11、 要 组 成 部 分 。 它 通 过 请 求 站 点 上 的 HTML 文 档 访 问 某 一 站 点 。 它 遍 历 Web 空 间 , 不 断 从一 个 站 点 移 动 到 另 一 个 站 点 , 自 动 建 立 索 引 , 并 加 入 到 网 页 数 据 库 中 。 网 络 爬 虫 进 入 某 个 超 级 文 本 时。 利 用 HTML 语 言 的 标 记 结 构 来 搜 索 信 息 及 获 取 指 向 其 他 超 级 文 本 的 URL 地 址 可 以 完 全 不 依 赖用 户 干 预 实 现 网 络 上 的 自 动 “爬 行 ”和 搜 索 。二、聚焦爬虫工作原理及关键技术2.1 聚
12、焦 爬 虫 相 关 概 念 聚 焦 爬 虫 , 又 称 主 题 爬 虫 ( 或 专 业 爬 虫 ) , 是 “面 向 特 定 主 题 ”的 一 种 网 络 爬 虫 程 序 。 它 与 我 们通 常 所 说 的 爬 虫 ( 通 用 爬 虫 ) 的 区 别 之 处 就 在 于 , 聚 焦 爬 虫 在 实 施 网 页 抓 取 时 要 进 行 主 题 筛 选 。 它 尽量 保 证 只 抓 取 与 主 题 相 关 的 网 页 信 息 。2.2 聚 焦 爬 虫 的 研 究 内 容聚 焦 爬 虫 的 研 究 核 心 , 集 中 在 以 下 两 点 :( 一 ) 主 题 相 关 度 计 算 : 即 计 算 当
13、 前 已 经 抓 下 来 的 页 面 的 主 题 相 关 程 度 。 对 主 题 相 关 度 超 过 某 一 规定 阈 值 的 , 即 与 主 题 相 关 的 网 页 , 将 其 保 存 到 网 页 库 ; 不 相 关 的 , 则 抛 弃 不 管 。( 二 ) 主 题 相 关 度 预 测 : 主 题 相 关 度 预 测 是 针 对 待 抓 URL 的 。 也 就 是 我 们 在 分 析 当 前 已 下 载 网 页时 所 分 离 出 来 的 哪 些 URLS。 我 们 要 通 过 计 算 它 们 的 主 题 预 测 值 来 决 定 接 下 来 是 否 对 该 URL 所对 应 的 网 页 进 行
14、 抓 取 。针 对 以 上 两 个 问 题 , 研 究 聚 焦 爬 虫 的 学 者 们 大 体 提 出 了 如 下 思 路 和 方 法 来 进 行 该 课 题 的 研 究 :( 一 ) 基 于 网 络 拓 扑 结 构 的 研 究 方 法 : 网 络 的 拓 扑 结 构 表 征 了 网 页 间 的 一 种 链 接 关 系 , 而 大 部 分 互相 链 接 的 网 页 间 还 是 有 一 定 的 主 题 关 联 性 的 。 比 方 说 , 一 个 介 绍 “计 算 机 学 科 知 识 ”的 网 站 首 页上 可 能 会 出 现 “数 据 库 ”、 “操 作 系 统 ”等 相 关 子 学 科 的 链
15、 接 。 这 种 链 接 本 身 就 体 现 了 一 种 主 题上 的 关 联 性 。 再 者 , 了 解 PageRank 和 HITS 算 法 的 朋 友 都 知 道 , 网 页 间 的 链 接 关 系 还 能 反 映 网页 的 重 要 程 度 , 越 是 重 要 的 网 页 被 别 的 网 页 链 接 到 的 机 会 便 越 大 。 而 比 较 重 要 的 网 页 往 往 聚 集 了 最上 层 的 主 题 , 它 的 主 题 可 以 反 馈 到 它 所 链 接 的 所 有 网 页 中 。( 二 ) 基 于 网 页 内 容 的 分 析 算 法 : 基 于 网 页 内 容 的 分 析 算 法
16、 指 的 是 利 用 网 页 内 容 ( 文 本 、 数 据 等 资源 ) 特 征 进 行 的 网 页 评 价 算 法 。 它 包 括 纯 文 本 的 分 类 与 聚 类 算 法 和 超 文 本 的 分 类 聚 类 算 法 。 纯 文 本即 网 页 上 的 文 字 内 容 , 分 析 它 的 主 题 相 关 度 主 要 从 两 个 方 面 入 手 , 一 个 是 它 主 题 词 出 现 的 频 率 ( 词频 ) , 再 者 就 是 主 题 词 出 现 的 位 置 , 我 们 知 道 在 网 页 标 题 中 出 现 的 词 汇 往 往 更 能 反 映 网 页 的 主 题 信息 。 超 文 本 ,
17、 就 是 网 页 连 接 上 的 文 字 信 息 。 它 一 方 面 可 以 作 为 当 前 页 面 主 题 相 关 度 的 一 个 判 别 标 准 ,更 主 要 的 , 它 被 用 作 主 题 预 测 值 的 计 算 , 即 判 断 该 URL 所 对 应 的 网 页 的 主 题 相 关 性 。( 三 ) 基 于 URL 的 分 析 : 主 要 还 是 用 于 主 题 预 测 。 从 三 个 方 面 进 行 考 虑 :1 URL 串 自 身 所 携 带 的 信 息 。 对 于 以 下 两 个 链 接 的 分 析 :URL1: http:/ URL2: http:/ 们 很 容 易 知 道 U
18、RL1 是 有 关 北 京 ( beijing) 的 与 “房 ( fang) ”的 话 题 , 而 URL2 则 是 有 关 北 京beijing 方 面 与 旅 游 ( lvyou) 有 关 , 并 且 会 涉 及 到 旅 游 票 务 ( lvyoupiaowu) 的 网 页 。2 URL 可 分 为 三 个 部 分 前 面 部 分 的 主 题 信 息 可 以 反 馈 到 后 面 的 子 目 录 中 ; 一 个 URL 分 成 三 个 部 分.页眉.页脚( 去 掉 http 协 议 部 分 ) : host, path, query。 其 中 , path 由 一 系 列 director
19、y 组 成 , query 由 一 系列 键 值 对 组 成 。 比 如 http:/ , 其 host 为; path 为 /news_show.php; query 为 id=15, 组 成 该 query 的 键 值 对 为( id, 15) 。 URL 的 host 往 往 说 明 的 一 个 大 的 主 题 , 如 所 对 应 的 是 “山 东 科 技大 学 ”的 网 站 , 他 的 大 主 题 就 是 “山 东 科 技 大 学 ”; 而 其 后 的 path 则 表 征 了 有 关 与 “山 东 科 技 大 学 ”有 关 的 子 类 主 题 信 息 , 比 如 时 事 新 闻 、
20、 科 研 建 设 、 校 园 活 动 等 等 ; query 项 所 对 应 的 是 最 为 具 体 的信 息 , 该 实 例 中 id=15 对 应 的 就 是 “山 东 科 技 大 学 信 息 中 心 - 科 学 研 究 ”目 录 下 的 “科 研 概况 ”信 息 。3 URL 锚 文 本 所 体 现 的 信 息 。锚 文 本 也 叫 链 接 文 本 ,指 超 链 接 的 文 本 内 容 ,一 般 认 为 ,锚 文 本 代 表 了 网 页 作 者 对 超 链 接 所 指 向 网 页的 评 价 和 描 述 。 因 此 ,锚 文 本 可 能 不 会 为 网 页 自 身 的 主 题 预 测 提
21、供 有 用 的 信 息 ,但 是 它 极 有 可 能 为 它的 目 标 网 页 的 主 题 预 测 提 供 非 常 重 要 的 信 息 。 比 如 对 于 聚 焦 爬 虫 , 所 代表 的 网 页 主 题 很 可 能 是 聚 焦 爬 虫 方 面 的 。扩 展 锚 文 本 指 锚 文 本 和 锚 文 本 附 近 文 本 的 组 合 。 引 入 扩 展 锚 文 本 的 概 念 是 为 了 更 准 确 地 预 测 目 标 网 页的 主 题 相 关 度 。 在 有 些 情 况 锚 下 ,文 本 仅 仅 是 “点 击 这 里 ”、 “详 细 信 息 ”等 较 抽 象 的 描 述 ,这 个 时候 扩 展
22、锚 文 本 比 锚 文 本 身 更 具 有 描 述 能 力 。2.3 网 络 爬 虫 工 作 原 理网 络 爬 虫 是 一 个 自 动 提 取 网 页 的 程 序 , 它 为 搜 索 引 擎 从 Internet 网 上 下 载 网 页 , 是 搜 索 引 擎 的重 要 组 成 。 传 统 爬 虫 从 一 个 或 若 干 初 始 网 页 的 URL 开 始 , 获 得 初 始 网 页 上 的 URL, 在 抓 取 网 页 的过 程 中 , 不 断 从 当 前 页 面 上 抽 取 新 的 URL 放 入 队 列 ,直 到 满 足 系 统 的 一 定 停 止 条 件 。 聚 焦 爬 虫 的 工 作
23、流 程 较 为 复 杂 , 需 要 根 据 一 定 的 网 页 分 析 算 法 过 滤 与 主 题 无 关 的 链 接 , 保 留 有 用 的 链 接 并 将 其 放 入 等待 抓 取 的 URL 队 列 。 然 后 , 它 将 根 据 一 定 的 搜 索 策 略 从 队 列 中 选 择 下 一 步 要 抓 取 的 网 页 URL, 并重 复 上 述 过 程 , 直 到 达 到 系 统 的 某 一 条 件 时 停 止 , 另 外 , 所 有 被 爬 虫 抓 取 的 网 页 将 会 被 系 统 存 贮 , 进行 一 定 的 分 析 、 过 滤 , 并 建 立 索 引 , 以 便 之 后 的 查
24、询 和 检 索 ; 对 于 聚 焦 爬 虫 来 说 , 这 一 过 程 所 得 到 的分 析 结 果 还 可 能 对 以 后 的 抓 取 过 程 给 出 反 馈 和 指 导 。聚 焦 爬 虫 是 以 一 定 的 网 页 分 析 算 法 , 提 取 与 主 题 相 关 的 超 链 接 , 加 入 待 抓 取 队 列 根 据 一 定 的 搜 索 策略 , 从 待 抓 取 链 接 队 列 中 选 择 下 一 步 抓 取 链 接 , 并 重 复 上 述 过 程 , 直 到 满 足 某 一 条 件 停 止 从 被 抓 取 网页 中 提 取 结 构 化 数 据 和 元 数 据 信 息 基 础 核 心 工
25、作 环 节 : 网 页 抓 取 和 信 息 提 取 。 相 对 于 通 用 网 络 爬 虫 , 聚 焦 爬 虫 还 需 要 解 决 三 个 主 要 问 题 : (1) 对 抓 取 目 标 的 描 述 或 定 义 ; (2) 对 网 页 或 数 据 的 分 析 与 过 滤 ; (3) 对 URL 的 搜 索 策 略 。 2.3.1 抓 取 目 标抓 取 目 标 的 描 述 和 定 义 , 是 决 定 网 页 分 析 算 法 与 URL 搜 索 策 略 如 何 制 订 的 基 础 。 而 网 页 分 析 算 法和 候 选 URL 排 序 算 法 是 决 定 搜 索 引 擎 所 提 供 的 服 务
26、形 式 和 爬 虫 网 页 抓 取 行 为 的 关 键 所 在 。 这 两 个 部 分的 算 法 又 是 紧 密 相 关 的 。 2.3.2 抓 取 目 标 描 述 现 有 聚 焦 爬 虫 对 抓 取 目 标 的 描 述 可 分 为 基 于 目 标 网 页 特 征 、 基 于 目 标 数 据 模 式 和 基 于 领 域 概 念 3 种 。基 于 目 标 网 页 特 征 的 爬 虫 所 抓 取 、 存 储 并 索 引 的 对 象 一 般 为 网 站 或 网 页 。 根 据 种 子 样 本 获 取 方 式 可 分为 : ( 1) 预 先 给 定 的 初 始 抓 取 种 子 样 本 ; .页眉.页脚
27、( 2) 预 先 给 定 的 网 页 分 类 目 录 和 与 分 类 目 录 对 应 的 种 子 样 本 , 如 Yahoo!分 类 结 构 等 ; ( 3) 通 过 用 户 行 为 确 定 的 抓 取 目 标 样 例 , 分 为 : a) 用 户 浏 览 过 程 中 显 示 标 注 的 抓 取 样 本 ; b) 通 过 用 户 日 志 挖 掘 得 到 访 问 模 式 及 相 关 样 本 。 其 中 , 网 页 特 征 可 以 是 网 页 的 内 容 特 征 , 也 可 以 是 网 页 的 链 接 结 构 特 征 , 等 等 。 现 有 的 聚 焦 爬 虫 对 抓 取 目 标 的 描 述 或
28、定 义 可 以 分 为 基 于 目 标 网 页 特 征 , 基 于 目 标 数 据 模 式 和 基 于 领 域概 念 三 种 。基 于 目 标 网 页 特 征 的 爬 虫 所 抓 取 、 存 储 并 索 引 的 对 象 一 般 为 网 站 或 网 页 。 具 体 的 方 法 根 据 种 子 样本 的 获 取 方 式 可 以 分 为 : ( 1) 预 先 给 定 的 初 始 抓 取 种 子 样 本 ; ( 2) 预 先 给 定 的 网 页 分 类 目 录 和 与分 类 目 录 对 应 的 种 子 样 本 , 如 Yahoo!分 类 结 构 等 ; ( 3) 通 过 用 户 行 为 确 定 的 抓
29、 取 目 标 样 例 。 其 中 ,网 页 特 征 可 以 是 网 页 的 内 容 特 征 , 也 可 以 是 网 页 的 链 接 结 构 特 征 , 等 等 。 基 于 目 标 数 据 模 式 的爬 虫 针 对 的 是 网 页 上 的 数 据 , 所 抓 取 的 数 据 一 般 要 符 合 一 定 的 模 式 , 或 者 可 以 转 化 或 映 射 为 目 标 数 据模 式 。另 一 种 描 述 方 式 是 建 立 目 标 领 域 的 本 体 或 词 典 , 用 于 从 语 义 角 度 分 析 不 同 特 征 在 某 一 主 题 中 的 重要 程 度 。三、网页搜索策略网 页 的 抓 取 策
30、 略 可 以 分 为 深 度 优 先 、 广 度 优 先 和 最 佳 优 先 三 种 。 深 度 优 先 在 很 多 情 况 下 会 导 致 爬虫 的 陷 入 (trapped)问 题 , 目 前 常 见 的 是 广 度 优 先 和 最 佳 优 先 方 法 。 3.1 广 度 优 先 搜 索 策 略 广 度 优 先 搜 索 策 略 是 指 在 抓 取 过 程 中 , 在 完 成 当 前 层 次 的 搜 索 后 , 才 进 行 下 一 层 次 的 搜 索 。 该 算法 的 设 计 和 实 现 相 对 简 单 。 在 目 前 为 覆 盖 尽 可 能 多 的 网 页 , 一 般 使 用 广 度 优
31、先 搜 索 方 法 。 也 有 很 多 研究 将 广 度 优 先 搜 索 策 略 应 用 于 聚 焦 爬 虫 中 。 其 基 本 思 想 是 认 为 与 初 始 URL 在 一 定 链 接 距 离 内 的 网 页具 有 主 题 相 关 性 的 概 率 很 大 。 另 外 一 种 方 法 是 将 广 度 优 先 搜 索 与 网 页 过 滤 技 术 结 合 使 用 , 先 用 广 度 优先 策 略 抓 取 网 页 , 再 将 其 中 无 关 的 网 页 过 滤 掉 。 这 些 方 法 的 缺 点 在 于 , 随 着 抓 取 网 页 的 增 多 , 大 量 的无 关 网 页 将 被 下 载 并 过
32、滤 , 算 法 的 效 率 将 变 低 。 3.2 最 佳 优 先 搜 索 策 略 最 佳 优 先 搜 索 策 略 按 照 一 定 的 网 页 分 析 算 法 , 预 测 候 选 URL 与 目 标 网 页 的 相 似 度 , 或 与 主 题 的相 关 性 , 并 选 取 评 价 最 好 的 一 个 或 几 个 URL 进 行 抓 取 。 它 只 访 问 经 过 网 页 分 析 算 法 预 测 为 “有 用 ”的网 页 。 存 在 的 一 个 问 题 是 , 在 爬 虫 抓 取 路 径 上 的 很 多 相 关 网 页 可 能 被 忽 略 , 因 为 最 佳 优 先 策 略 是 一 种局 部 最
33、 优 搜 索 算 法 。 因 此 需 要 将 最 佳 优 先 结 合 具 体 的 应 用 进 行 改 进 , 以 跳 出 局 部 最 优 点 。 将 在 第 4节 中 结 合 网 页 分 析 算 法 作 具 体 的 讨 论 。 研 究 表 明 , 这 样 的 闭 环 调 整 可 以 将 无 关 网 页 数 量 降 低 30%90%。四、网页分析算法网 页 分 析 算 法 可 以 归 纳 为 基 于 网 络 拓 扑 、 基 于 网 页 内 容 和 基 于 用 户 访 问 行 为 三 种 类 型 。 4.1 基 于 网 络 拓 扑 的 分 析 算 法 基 于 网 页 之 间 的 链 接 , 通 过
34、 已 知 的 网 页 或 数 据 , 来 对 与 其 有 直 接 或 间 接 链 接 关 系 的 对 象 ( 可 以 是网 页 或 网 站 等 ) 作 出 评 价 的 算 法 。 又 分 为 网 页 粒 度 、 网 站 粒 度 和 网 页 块 粒 度 这 三 种 。 .页眉.页脚4.1.1 网 页 (Webpage)粒 度 的 分 析 算 法 PageRank 和 HITS 算 法 是 最 常 见 的 链 接 分 析 算 法 , 两 者 都 是 通 过 对 网 页 间 链 接 度 的 递 归 和 规 范化 计 算 , 得 到 每 个 网 页 的 重 要 度 评 价 。 PageRank 算 法
35、 虽 然 考 虑 了 用 户 访 问 行 为 的 随 机 性 和 Sink网 页 的 存 在 , 但 忽 略 了 绝 大 多 数 用 户 访 问 时 带 有 目 的 性 , 即 网 页 和 链 接 与 查 询 主 题 的 相 关 性 。 针 对 这个 问 题 , HITS 算 法 提 出 了 两 个 关 键 的 概 念 : 权 威 型 网 页 ( authority) 和 中 心 型 网 页 ( hub) 。 基 于 链 接 的 抓 取 的 问 题 是 相 关 页 面 主 题 团 之 间 的 隧 道 现 象 , 即 很 多 在 抓 取 路 径 上 偏 离 主 题 的 网 页也 指 向 目 标
36、网 页 , 局 部 评 价 策 略 中 断 了 在 当 前 路 径 上 的 抓 取 行 为 。 以 上 提 出 了 一 种 基 于 反 向 链 接 (BackLink) 的 分 层 式 上 下 文 模 型 ( Context Model) , 用 于 描 述 指 向 目 标 网 页 一 定 物 理 跳 数 半 径 内 的网 页 拓 扑 图 的 中 心 Layer0 为 目 标 网 页 , 将 网 页 依 据 指 向 目 标 网 页 的 物 理 跳 数 进 行 层 次 划 分 , 从 外 层网 页 指 向 内 层 网 页 的 链 接 称 为 反 向 链 接 。 4.1.2 网 站 粒 度 的 分
37、 析 算 法 网 站 粒 度 的 资 源 发 现 和 管 理 策 略 也 比 网 页 粒 度 的 更 简 单 有 效 。 网 站 粒 度 的 爬 虫 抓 取 的 关 键 之 处 在于 站 点 的 划 分 和 站 点 等 级 (SiteRank)的 计 算 。 SiteRank 的 计 算 方 法 与 PageRank 类 似 , 但 是 需 要 对网 站 之 间 的 链 接 作 一 定 程 度 抽 象 , 并 在 一 定 的 模 型 下 计 算 链 接 的 权 重 。 网 站 划 分 情 况 分 为 按 域 名 划 分 和 按 IP 地 址 划 分 两 。 以 上 讨 论 了 在 分 布 式
38、情 况 下 , 通 过 对 同 一 个域 名 下 不 同 主 机 、 服 务 器 的 IP 地 址 进 行 站 点 划 分 , 构 造 站 点 图 , 利 用 类 似 PageRank 的 方 法 评 价SiteRank。 同 时 , 根 据 不 同 文 件 在 各 个 站 点 上 的 分 布 情 况 , 构 造 文 档 图 , 结 合 SiteRank 分 布 式 计算 得 到 DocRank。 从 而 证 明 了 , 利 用 分 布 式 的 SiteRank 计 算 , 不 仅 大 大 降 低 了 单 机 站 点 的 算 法 代价 , 而 且 克 服 了 单 独 站 点 对 整 个 网 络
39、 覆 盖 率 有 限 的 缺 点 。 附 带 的 一 个 优 点 是 , 常 见 PageRank 造假 难 以 对 SiteRank 进 行 欺 骗 。4.1.3 网 页 块 粒 度 的 分 析 算 法 在 一 个 页 面 中 , 往 往 含 有 多 个 指 向 其 他 页 面 的 链 接 , 这 些 链 接 中 只 有 一 部 分 是 指 向 主 题 相 关 网 页的 , 或 根 据 网 页 的 链 接 锚 文 本 表 明 其 具 有 较 高 重 要 性 。 但 是 , 在 PageRank 和 HITS 算 法 中 , 没 有对 这 些 链 接 作 区 分 , 因 此 常 常 给 网 页
40、 分 析 带 来 广 告 等 噪 声 链 接 的 干 扰 。 4.2 基 于 网 页 内 容 的 网 页 分 析 算 法 基 于 网 页 内 容 的 分 析 算 法 指 的 是 利 用 网 页 内 容 ( 文 本 、 数 据 等 资 源 ) 特 征 进 行 的 网 页 评 价 。 网 页的 内 容 从 原 来 的 以 超 文 本 为 主 , 发 展 到 后 来 动 态 页 面 ( 或 称 为 Hidden Web) 数 据 为 主 , 后 者 的 数据 量 约 为 直 接 可 见 页 面 数 据 ( PIW, Publicly Indexable Web) 的 400500 倍 。 另 一 方
41、 面 , 多 媒 体数 据 、 Web Service 等 各 种 网 络 资 源 形 式 也 日 益 丰 富 。 因 此 , 基 于 网 页 内 容 的 分 析 算 法 也 从 原 来 的 较为 单 纯 的 文 本 检 索 方 法 , 发 展 为 涵 盖 网 页 数 据 抽 取 、 机 器 学 习 、 数 据 挖 掘 、 语 义 理 解 等 多 种 方 法 的 综合 应 用 。 本 节 根 据 网 页 数 据 形 式 的 不 同 , 将 基 于 网 页 内 容 的 分 析 算 法 , 归 纳 以 下 三 类 : 第 一 种 针 对 以文 本 和 超 链 接 为 主 的 无 结 构 或 结 构
42、 很 简 单 的 网 页 ; 第 二 种 针 对 从 结 构 化 的 数 据 源 ( 如 RDBMS) 动态 生 成 的 页 面 , 其 数 据 不 能 直 接 批 量 访 问 ; 第 三 种 针 对 的 数 据 界 于 第 一 和 第 二 类 数 据 之 间 , 具 有 较 好的 结 构 , 显 示 遵 循 一 定 模 式 或 风 格 , 且 可 以 直 接 访 问 。 4.2.1 基 于 文 本 的 网 页 分 析 算 法 1) 纯 文 本 分 类 与 聚 类 算 法 很 大 程 度 上 借 用 了 文 本 检 索 的 技 术 。 文 本 分 析 算 法 可 以 快 速 有 效 的 对 网
43、 页 进 行 分 类 和 聚 类 ,但 是 由 于 忽 略 了 网 页 间 和 网 页 内 部 的 结 构 信 息 , 很 少 单 独 使 用 。 2) 超 文 本 分 类 和 聚 类 算 法.页眉.页脚4.2.2 Hidden Web 的 网 页 分 析 方 法大 约 80%的 数 据 是 动 态 生 成 的 。 这 些 内 容 大 多 “隐 藏 ”存 储 在 后 台 的 可 查 询 数 据 库 中 , 因 此 称为 “Hidden Web”。 目 前 大 多 数 的 通 用 搜 索 引 擎 仅 仅 覆 盖 了 部 分 的 PIW, 却 忽 略 了 数 据 量 约 为 PIW 400500
44、倍 的 Hidden Web( 或 称 为 Deep Web) 。 针 对 Hidden Web 的 爬 虫 与 普 通 的 聚 焦 爬虫 相 比 , 需 要 更 多 地 对 网 页 中 表 单 进 行 发 现 、 探 测 查 询 ( probing query) 和 分 析 。对 于 网 页 上 表 单 的 处 理 很 多 时 候 需 要 采 用 用 户 辅 助 的 半 自 动 方 法 , 如 典 型 的 HIWE 系 统 。 该 方法 将 表 单 表 示 为 一 组 ( element, domain) 二 元 组 , 并 尝 试 通 过 标 注 、 页 面 布 局 等 信 息 确 定 表
45、 单 的 输入 数 据 模 式 。 另 一 种 无 需 人 工 辅 助 的 方 法 则 需 要 更 多 对 网 页 后 台 数 据 库 的 反 复 查 询 , 分 析 结 果 的 数量 和 属 性 , 在 利 用 熵 理 论 上 , 采 用 了 无 需 人 工 辅 助 的 方 法 来 自 动 发 现 领 域 相 关 的 Hidden Web 资 源。4.2.3 数 据 密 集 型 网 页 的 分 析 方 法数 据 密 集 型 ( data intensive) 网 页 的 数 据 形 式 介 于 Hidden Web 和 文 本 密 集 型 网 页 之 间 。 它 们具 有 良 好 的 结 构
46、 性 , 又 可 以 直 接 从 页 面 读 取 ; 而 且 数 据 的 语 义 在 网 页 上 显 示 标 注 , 因 此 不 需 要 对 这 些网 页 之 后 的 数 据 库 进 行 探 测 查 询 。 例 如 电 子 商 务 网 站 的 产 品 信 息 页 面 , 具 有 统 一 的 风 格 , 其 中 的 数 据表 示 具 有 固 定 格 式 , 并 按 照 一 定 目 录 层 次 结 构 来 组 织 , 因 此 也 称 为 分 类 导 向 型 ( taxonomy directed) 网 页 。 的 获 取 工 作 主 要 集 中 在 对 网 页 数 据 的 抽 取 , 如 页 面
47、块 或 目 录 发 现 , 结 构 化 数 据 的 记 录 边 界 确定 等 等 。 爬 虫 将 这 些 数 据 抽 取 出 来 , 以 一 定 格 式 在 本 地 存 储 、 分 析 , 从 而 指 导 下 一 步 的 抓 取 工 作 。 基本 思 路 是 , 将 html 页 面 转 化 为 token 序 列 或 标 记 树 ( tag tree) , 如 DOM 树 等 数 据 结 构 , 再 在 这种 转 化 的 数 据 结 构 上 进 行 模 式 发 现 , 实 现 从 抽 取 出 结 构 化 的 数 据 。普 遍 采 用 的 方 抽 取 法 是 wrapper 提 取 页 面 信
48、 息 。 Wrapper 可 人 工 维 护 , 或 半 自 动 的 生 成 。 这 种方 法 通 常 具 有 较 强 的 针 对 性 和 局 限 性 , 动 态 性 常 常 导 致 wrapper 失 效 , 因 此 需 要 大 量 的 wrapper 维护 和 用 互 。 另 一 种 方 法 是 从 具 有 统 一 风 格 和 显 示 规 则 的 若 干 网 页 来 学 习 并 抽 取 结 构 化 数 据 。 包 括 : 进行 连 续 数 据 记 录 之 间 的 记 录 边 界 发 现 ; 在 页 面 所 转 化 成 的 标 记 串 上 做 模 式 发 现 分 析 ; 当 网 页 上 的
49、数 据记 录 不 连 续 , 记 录 的 显 示 风 格 也 不 完 全 一 致 时 , 就 需 要 更 鲁 棒 的 算 法 查 找 标 记 树 种 的 重 复 结 点 。 在 很多 情 况 下 , 这 些 数 据 是 以 HTML 的 表 格 形 式 ( table /table ) 出 现 的 。4.3 用 户 协 作 网 页 分 析 算 法链 接 提 供 的 网 页 关 联 度 往 往 带 有 噪 音 , 网 络 的 异 构 性 和 动 态 性 使 得 对 链 接 结 构 的 建 模 很 难 达 到 令人 满 意 的 效 果 。 而 用 户 的 访 问 模 式 往 往 可 靠 反 映 了 资 源 的 主 题 相 关 性 , 且 具 有 时 效 性 , 可 即