收藏 分享(赏)

一种互联网新闻网页的采集分析方法.pdf

上传人:精品资料 文档编号:11103818 上传时间:2020-02-07 格式:PDF 页数:4 大小:137.29KB
下载 相关 举报
一种互联网新闻网页的采集分析方法.pdf_第1页
第1页 / 共4页
一种互联网新闻网页的采集分析方法.pdf_第2页
第2页 / 共4页
一种互联网新闻网页的采集分析方法.pdf_第3页
第3页 / 共4页
一种互联网新闻网页的采集分析方法.pdf_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、2 0 0 7 , 4 3 ( 3 6 )1 引 言随 着 信 息 技 术 的 迅 猛 发 展 , 信 息 经 济 的 特 征 日 趋 明 显 , 人们 越 来 越 重 视 对 信 息 资 源 的 开 发 和 利 用 。 I n t e r n e t 已 经 发 展 成为 当 今 世 界 上 最 大 的 信 息 库 和 全 球 范 围 内 传 播 知 识 的 主 要 渠道 , 站 点 遍 布 全 球 的 巨 大 信 息 服 务 网 , 为 用 户 提 供 了 一 个 极 具价 值 的 信 息 源 。 无 论 是 个 人 的 发 展 还 是 企 业 竞 争 力 的 提 升 都 越来 越 多 地

2、 依 赖 对 网 上 信 息 资 源 的 利 用 。 新 闻 媒 体 机 构 需 要 跟 踪全 球 热 门 网 站 , 采 集 网 络 媒 体 , 涵 盖 所 有 权 威 的 媒 体 , 每 天 要 采集 大 量 的 新 闻 。 电 信 行 业 需 要 及 时 呈 现 国 内 外 的 时 事 资 讯 , 关注 最 新 发 生 的 社 会 事 件 、 娱 乐 新 闻 , 大 量 发 布 来 自 全 球 各 地 的资 讯 内 容 。 党 政 机 关 需 要 实 时 收 集 与 业 务 工 作 相 关 的 信 息 资 源或 新 闻 , 为 网 民 提 供 各 方 面 的 资 讯 和 服 务 。 金

3、融 、 证 券 与 企 业 需要 定 期 或 实 时 追 踪 、 收 集 竞 争 对 手 的 相 关 情 报 资 料 , 收 集 竞 争对 手 公 开 的 用 户 信 息 以 及 其 他 公 开 的 商 业 情 报 , 每 日 掌 握 国 内外 财 经 信 息 等 。 网 络 监 控 部 门 需 要 对 网 络 信 息 进 行 监 控 。 网 络公 司 需 要 降 低 运 营 成 本 、 加 大 信 息 量 。以 上 这 些 需 求 的 根 本 目 标 就 是 跟 踪 和 监 控 最 新 事 件 的 消息 和 报 道 , 收 集 大 量 的 新 闻 信 息 , 进 而 建 立 即 时 的 信

4、息 资 料 库以 提 供 信 息 服 务 。 但 是 I n t e r n e t 上 网 站 的 情 况 复 杂 多 样 , 很 多 站点 , 尤 其 是 大 型 站 点 , 都 包 含 了 多 个 领 域 的 内 容 。 面 对 海 量 的 信息 , 人 们 无 所 适 从 , 难 以 从 杂 乱 的 信 息 当 中 筛 选 出 对 自 身 有 用的 部 分 , 找 不 到 想 要 的 信 息 。 为 了 解 决 这 个 问 题 , 有 关 网 上 各 种信 息 源 的 内 部 结 构 及 相 互 联 系 的 论 述 日 益 增 多 。 目 前 国 际 上 对超 文 本 页 面 的 研

5、究 主 要 集 中 在 对 页 面 内 部 结 构 和 格 式 的 分 析理 解 , 对 由 链 接 相 连 接 的 页 面 之 间 的 关 系 的 分 析 , 以 及 在 浏 览和 检 索 等 应 用 中 如 何 利 用 页 面 间 的 这 些 联 系 。对 超 文 本 及 链 接 的 分 析 很 早 就 开 始 了 , 人 们 在 研 究 超 文 本的 语 义 时 就 将 超 文 本 中 的 链 接 与 文 本 之 间 的 语 义 联 系 结 合 起来1 , 并 试 图 将 链 接 归 类 。 T r i g g 将 链 接 分 成 了 8 0 种 不 同 的 类 型 2 。随 着 超 文

6、 本 在 网 络 上 的 应 用 , 很 多 人 都 提 倡 在 W e b 页 面 中 使用 规 定 类 型 的 链 接 3 , 以 显 式 地 区 分 链 接 所 表 示 的 含 义 , 但 是 在I n t e r n e t 上 的 实 际 使 用 中 , 很 少 有 人 遵 循 这 样 的 规 范 。 面 对 I n -t e r n e t 中 的 实 际 情 况 , 最 可 行 的 办 法 不 是 要 求 人 们 用 什 么 样 的方 式 来 书 写 、 创 建 链 接 和 页 面 , 而 是 从 现 实 存 在 的 页 面 、 链 接 中去 发 现 规 律 。 因 此 近 来

7、有 人 开 始 分 析 在 W e b 页 面 中 链 接 所 表达 的 含 义 。 在 4 中 提 出 基 于 页 面 间 的 相 似 性 和 页 面 结 构 的 信 息来 区 分 链 接 的 类 别 , S p e r t u s 更 进 一 步 定 义 了 链 接 的 类 型 并 以Y a h o o 及 其 个 人 主 页 为 例 论 述 了 不 同 类 型 链 接 所 表 示 的 页 面一 种 互 联 网 新 闻 网 页 的 采 集 分 析 方 法吴 定 明 , 赵 东 岩W U D i n g - m i n g , Z H A O D o n g - y a n北 京 大 学 计

8、 算 机 研 究 所 , 北 京 1 0 0 8 7 1I n s t i t u t e o f C o m p u t e r S c i e n c e P a g e R a n k ; I n t e r n e t ; c o l l e c t w e b p a g e s ; i d e n t i f y h y p e r l i n k s ; h y p e r l i n k w e i g h t ; a n a l y z e p a g e w e i g h t ;n e w s p a g e摘 要 : 设 计 了 一 种 采 集 分 析 互 联 网 新

9、闻 网 页 的 方 法 。 该 方 法 根 据 给 定 的 新 闻 网 站 的 入 口 地 址 在 网 络 上 找 出 所 有 的 相 关 链 接 ; 区分 这 些 链 接 所 指 向 的 页 面 特 征 , 过 滤 掉 相 关 性 不 大 的 内 容 , 提 取 所 有 新 闻 网 页 的 链 接 ; 进 而 进 行 多 层 次 链 接 分 析 , 根 据 新 闻 的 图片 、 标 题 字 体 属 性 及 日 期 , 采 用 N e w s P a g e R a n k 算 法 计 算 每 个 新 闻 链 接 的 权 重 。 测 试 结 果 表 明 该 方 法 对 I n t e r n

10、e t 上 的 新 闻 站 点 普 遍具 有 较 好 的 分 析 效 果 , 性 能 可 以 满 足 实 用 要 求 。关 键 词 : 链 接 分 析 ; 页 面 评 估 ; 互 联 网 ; 网 页 采 集 ; 链 接 识 别 ; 链 接 权 重 ; 网 页 权 重 分 析 ; 新 闻 网 页文 章 编 号 : 1 0 0 2 - 8 3 3 1( 2 0 0 7 ) 3 6 - 0 1 6 9 - 0 4 文 献 标 识 码 : A 中 图 分 类 号 : T P 3 1 1基 金 项 目 : 国 家 部 委 “ 十 一 五 ” 预 研 项 目 ( t h e P r e - R e s e

11、 a r c h P r o j e c t o f t h e “ E l e v e n t h F i v e - Y e a r - P l a n ” o f C h i n a M i n i s t r i e s a n d C o m m i s s i o n s N o .2 0 0 6 B A H 0 2 A 1 0 ) 。作 者 简 介 : 吴 定 明 ( 1 9 8 2 - ) , 女 , 硕 士 研 究 生 , 主 要 研 究 方 向 : 网 络 与 数 据 库 应 用 ; 赵 东 岩 ( 1 9 6 9 - ) , 男 , 副 研 究 员 , 主 要 研 究 方

12、 向 : 网 络 与 数 据 库 应 用 ,数 字 资 产 管 理 。C o m p u t e r E n g i n e e r i n g a n d A p p l i c a t i o n s 计 算 机 工 程 与 应 用 1 6 9C o m p u t e r E n g i n e e r i n g a n d A p p l i c a t i o n s 计 算 机 工 程 与 应 用2 0 0 7 , 4 3 ( 3 6 )关 系 和 这 些 链 接 在 站 点 中 所 起 的 作 用 5 。 针 对 Y a h o o 站 点 中 的分 级 索 引 页 面 , 她

13、 提 出 了 3 条 启 发 式 规 则 , 可 根 据 这 些 索 引 页面 中 的 链 接 推 断 出 目 标 页 面 的 主 题 。 此 外 她 还 讨 论 了 在 个 人 主页 中 表 示 从 属 关 系 或 相 近 关 系 等 的 链 接 。 另 一 方 面 , P i r o l l i 利用 页 面 中 的 链 接 、 页 面 的 结 构 、 不 同 页 面 结 构 的 相 似 性 以 及 其它 站 点 信 息 试 图 区 分 不 同 类 型 的 页 面 , 并 分 析 这 些 页 面 在 站 点和 浏 览 过 程 中 的 作 用 6 。 但 是 作 为 超 文 本 与 普 通

14、文 本 的 根 本 差别 , 对 链 接 的 分 析 和 研 究 还 远 不 够 透 彻 。本 文 针 对 新 闻 信 息 领 域 , 设 计 了 一 种 采 集 新 闻 的 方 法 。 该方 法 包 括 两 个 方 面 : 一 是 对 新 闻 网 站 上 的 链 接 进 行 分 析 , 通 过一 种 链 接 判 定 逻 辑 过 滤 掉 冗 余 无 用 的 链 接 , 找 出 用 户 关 心 的 内容 的 链 接 ; 二 是 用 N e w s P a g e R a n k 算 法 计 算 每 个 有 用 的 新 闻 链接 的 权 重 , 确 定 该 条 新 闻 的 重 要 性 。2 新 闻

15、 网 页 链 接 分 析页 面 采 集 到 本 地 后 需 要 对 其 进 行 分 析 以 提 取 用 户 所 关 心的 内 容 。 在 一 个 实 际 的 站 点 中 , 显 然 不 可 能 所 有 的 页 面 都 讲 述同 一 个 主 题 , 即 使 是 专 业 站 点 也 不 可 避 免 地 存 在 许 多 操 作 说明 、 索 引 、 导 航 等 辅 助 页 面 。 因 此 不 能 简 单 地 将 页 面 上 所 有 的 链接 认 为 是 用 户 所 关 心 的 内 容 , 需 要 对 它 们 进 行 分 析 。 一 个 很 直观 却 往 往 很 有 效 的 办 法 就 是 : 找 同

16、 一 域 名 下 的 页 面 链 接 。链 接 的 提 取 是 页 面 分 析 中 的 一 个 重 要 任 务 , 必 须 保 证 完整 、 准 确 地 从 页 面 中 抽 取 出 所 有 链 接 及 相 关 数 据 , 包 括 链 接 目的 U R L ( 统 一 资 源 标 识 符 ) 、 链 接 的 说 明 文 字 等 。 由 于 H T M L 语法 包 含 了 多 种 链 接 方 式 并 仍 在 不 断 扩 充 之 中 , 在 H T M L 语 法 分析 器 中 对 各 种 链 接 形 式 都 必 须 加 以 识 别 和 处 理 , 并 对 一 个 页 面上 所 有 链 接 进 行

17、 分 类 。2 . 1 新 闻 网 页 的 链 接 分 类参 考 国 内 外 已 有 的 研 究 结 果 7 , 如 图 1 所 示 , 将 新 闻 网 页 的链 接 分 成 以 下 6 类 , 主 要 以 U R L 为 判 别 标 准 :( 1 ) D O W N W A R D ( 下 行 链 ) 。 目 标 页 面 是 当 前 页 面 的 下 级页 面 , 通 常 是 为 当 前 页 面 提 供 更 详 细 的 信 息 , 可 以 看 作 是 当 前页 面 的 附 属 子 页 面 。 典 型 运 用 在 主 页 、 索 引 页 面 中 。( 2 ) U P W A R D ( 上 行

18、链 ) 。 与 D O W N W A R D 链 相 反 , 目 标 页面 是 当 前 页 面 的 上 级 , 也 可 能 是 跨 了 好 几 级 。 许 多 页 面 都 提 供这 样 的 链 接 让 浏 览 者 方 便 地 返 回 上 一 级 索 引 或 直 接 返 回 主 页 。( 3 ) H O R I Z O N T A L ( 水 平 链 ) 。 同 一 目 录 下 的 页 面 间 的 链 接被 定 义 为 水 平 链 。 有 时 W W W 站 点 内 部 的 层 次 不 是 非 常 清 晰 ,有 些 页 面 都 不 加 区 分 地 放 在 同 一 目 录 下 , 无 法 直 接

19、 区 分 出 页 面的 上 下 级 关 系 。 此 时 只 有 将 这 些 链 接 统 统 当 作 水 平 链 , 留 待 以后 系 统 掌 握 了 页 面 及 站 点 的 更 多 信 息 后 再 加 以 区 别 。( 4 ) C R O S S W I S E ( 交 叉 链 ) 。 在 前 面 三 种 链 接 关 系 中 , 两 个页 面 都 处 在 站 点 目 录 中 同 一 条 路 径 上 。 当 两 者 分 别 位 于 两 个 不同 的 分 枝 上 时 , 就 无 法 比 较 它 们 的 上 下 级 , 称 之 为 交 叉 链 。 一 般说 来 这 类 链 接 只 表 明 两 个 页

20、 面 有 关 , 没 有 明 确 的 含 义 。( 5 ) O U T W A R D ( 外 向 链 ) 。 链 接 指 向 其 它 站 点 中 的 页 面 。 此类 链 接 所 表 示 的 页 面 关 系 更 加 模 糊 , 它 指 向 的 页 面 内 容 可 能 与当 前 页 面 毫 无 关 联 , 在 站 点 分 析 过 程 中 此 类 链 接 所 起 的 作 用不 大 。( 6 ) F R A M E ( 框 架 链 ) 。 此 类 链 接 比 较 特 殊 , 从 外 观 上 看 , 目标 页 面 实 际 上 嵌 入 到 当 前 页 面 中 , 完 全 可 以 看 作 当 前 页 面

21、 的 一部 分 , 因 而 它 所 表 示 的 关 系 是 最 紧 密 的 。 它 另 一 个 特 殊 的 方 面在 于 该 类 链 接 的 判 定 不 是 根 据 U R L , 而 是 在 语 法 分 析 构 成 中抽 取 链 接 时 就 已 经 确 定 了 。2 . 2 链 接 判 定 逻 辑基 于 上 述 6 种 链 接 的 类 型 , 提 出 的 新 闻 网 页 链 接 判 定 逻 辑的 基 本 步 骤 如 下 :( 1 ) 规 范 入 口 地 址 S t a r t U R L , 形 如 : h t t p : / / A . B . C / . . . / D 。( 2 ) 确

22、 定 一 级 域 名 , 即 B . C 。( 3 ) 对 该 入 口 页 面 上 每 一 个 U R L 进 行 分 析 。( 4 ) 若 该 U R L 是 相 对 路 径 , 用 入 口 地 址 S t a r t U R L 补 全 。( 5 ) 筛 选 出 与 入 口 地 址 S t a r t U R L 具 有 相 同 一 级 域 名 的 链接 , 在 这 个 过 程 中 舍 弃 掉 O U T W A R D ( 外 向 链 ) 。( 6 ) 若 该 U R L 与 入 口 地 址 S t a r t U R L 的 A 部 分 不 同 , 则 判定 为 C R O S S W

23、 I S E ( 交 叉 链 ) ; 若 相 同 , 进 行 下 一 步 判 断 。( 7 ) 判 断 该 U R L 是 否 为 入 口 地 址 S t a r t U R L 的 上 级 , 若 是 则判 定 为 U P W A R D ( 上 行 链 ) , 这 种 链 接 可 舍 弃 ; 若 不 是 进 行 下 一步 判 断 。( 8 ) 判 断 入 口 地 址 S t a r t U R L 是 否 为 该 U R L 的 上 级 , 若 是 则判 定 为 D O W N W A R D ( 下 行 链 ) , 同 时 判 断 该 链 接 是 否 为 锚 点 链接 , 若 是 则 舍

24、 弃 。( 9 ) 判 定 该 链 接 是 否 是 H O R I Z O N T A L ( 水 平 链 ) 。这 个 判 定 过 程 结 束 后 得 到 3 个 链 接 的 集 合 : 交 叉 链 集 合( a r r C r o s s w i s e L i n k ) , 下 行 链 集 合 ( a r r D o w n w a r d L i n k ) , 水 平 链 集合 ( a r r H o r i z o n t a l L i n k ) 。 下 面 分 别 对 这 3 个 集 合 进 行 处 理 。( 1 ) 交 叉 链 集 合 ( a r r C r o s s

25、w i s e L i n k )在 这 个 集 合 中 的 链 接 所 指 向 的 页 面 的 主 题 与 用 户 定 制 的入 口 地 址 S t a r t U R L 的 主 题 是 不 同 的 , 根 据 U R L 中 A 部 分 的 不同 把 该 集 合 中 的 链 接 进 行 分 类 , 对 每 一 个 类 别 提 取 一 个 U R L ,形 如 : h t t p : / / A . B . C , 作 为 该 类 别 的 入 口 地 址 , 把 它 加 入 到 集 合a r r N o d e L i n k 中 。 同 时 舍 弃 掉 默 认 的 目 录 页 面 , 防

26、 止 回 溯 抓 取 。( 2 ) 下 行 链 集 合 ( a r r D o w n w a r d L i n k )在 一 个 页 面 上 的 链 接 主 要 有 2 类 , 频 道 导 航 的 链 接 和 内 容页 面 的 链 接 。 频 道 导 航 的 链 接 是 少 数 , 内 容 页 面 的 链 接 是 多 数 。在 I n t e r n e t 上 , 任 意 一 个 网 页 的 U R L 具 有 不 确 定 性 , 没 有 特 征字 符 串 特 征 , 所 以 只 能 通 过 页 面 路 径 的 关 系 和 数 量 的 特 征 进 行判 断 。对 该 集 合 中 链 接

27、进 行 路 径 的 提 取 , 形 如 : h t t p : / / A . B . C / . . . / D ,提 取 p a t h = h t t p : / / A . B . C / . . . / , 它 是 D 页 面 所 在 路 径 。 根 据 p a t h 的不 同 对 链 接 分 类 , 并 计 算 出 每 个 类 别 链 接 的 个 数 。首 先 判 定 频 道 导 航 的 链 接 。 比 较 每 个 类 别 的 p a t h , 如 果 A -p a t h 是 B - p a r h 的 上 级 , 则 A - p a t h 在 这 个 网 站 结 构 中

28、处 于 中 间结 点 的 位 置 , 判 定 这 个 类 别 的 链 接 是 频 道 导 航 的 链 接 , 把 它 们加 入 到 集 合 a r r N o d e L i n k 中 ; 选 出 链 接 个 数 少 于 5 的 类 别 , 这 些链 接 也 可 作 为 频 道 导 航 的 链 接 , 把 它 们 加 入 到 a r r N o d e L i n k 中 。然 后 判 定 内 容 页 面 的 链 接 。 在 一 个 页 面 上 内 容 页 面 链 接 的1 7 02 0 0 7 , 4 3 ( 3 6 )属 性 Pi权 重 Wii m a g e5 0 %f o n t _

29、 s i z e2 0 %b o l d1 0 %H t m l T a g2 0 %表 1 打 分 矩 阵U R Lh t t p : / / n e w s . s i n a . c o m . c n / c / 2 0 0 6 - 0 4 - 1 2 / 1 0 5 9 9 5 9 8 5 0 5 . s h t m l( 图 )下 一 级 :h t t p : / / n e w s . s i n a . c o m . c n / c / 2 0 0 6 - 0 4 - 1 2 / 1 5 2 9 9 6 0 0 6 2 2 . s h t m lh t t p : / / f

30、 i n a n c e . s i n a . c o m . c n / g / 2 0 0 5 1 1 2 0 / 1 2 3 9 2 1 3 2 6 6 8 . s h t m l( 图 )h t t p : / / n e w s . s i n a . c o m . c n / c / 2 0 0 6 - 0 4 - 1 2 / 1 6 3 7 8 6 7 9 7 4 3 s . s h t m l下 一 级 :h t t p : / / n e w s . s i n a . c o m . c n / c / 2 0 0 6 - 0 4 - 1 2 / 1 6 2 0 8 6

31、 7 9 6 5 0 s . s h t m l结 点 链 接 区 分 度0 . 9 6 61权 重0 . 7 00 . 1 40 . 4 90 . 2 00 . 0 4站 点 U R LN e w s . s i n a . c o m . c n( 新 浪 )G z d a i l y . d a y a o o . c o m ( 广 州 日 报 )页 面 链 接 区 分 度0 . 7 8 70 . 9 2 7表 2 新 闻 站 点 测 试U R Lh t t p : / / w w w . 7 d n . c n / S o f t / S h o w S o f t . a s p

32、? S o f t I D = 6 6( 图 片 )h t t p : / / w w w . 7 d n . c n / A r t i c l e / C l a s s 3 9 / a s p 0 2 / 2 0 0 4 1 1 / 2 8 7 5 . h t m l结 点 链 接 区 分 度0 . 4 30 . 8 31 . 4 4权 重0 . 7 00 . 2 0站 点 U R Lw w w . f a r w e n . c o m ( 天 宇 网 苑 )w w w . c e n e t . o r g . c n( 中 国 经 济 学 教 育 科 研 网 )h t t p :

33、/ / w w w . 7 d n . c n( 极 点 网 络 )页 面 链 接 区 分 度11 . 7 70 . 6 7表 3 其 它 站 点 测 试分 布 主 要 有 2 种 。 一 种 是 该 页 面 包 含 的 内 容 比 较 单 一 , 这 种 情况 下 具 有 相 同 p a t h 的 链 接 的 数 量 很 多 , 在 该 页 面 上 占 绝 对 优势 , 判 定 这 种 数 量 最 多 的 类 别 为 内 容 页 面 的 链 接 , 把 它 们 加 入到 a r r P a g e I n f o 中 。 另 一 种 是 该 页 面 包 含 的 内 容 比 较 丰 富 ,

34、这 种情 况 下 各 个 p a t h 类 别 的 数 量 分 布 比 较 平 均 , 没 有 占 绝 对 优 势的 , 需 要 选 取 多 个 类 别 判 定 为 内 容 页 面 的 链 接 , 把 它 们 加 入 到a r r P a g e I n f o 中 。( 3 ) 水 平 链 集 合 ( a r r H o r i z o n t a l L i n k )该 链 接 集 合 处 理 过 程 与 下 行 链 集 合 类 似 。上 述 处 理 过 程 全 部 结 束 后 将 得 到 2 个 链 接 集 合 : a r r P a g e -I n f o( 页 面 链 接 集

35、合 ) 和 a r r N o d e L i n k( 结 点 链 接 集 合 ) 。 前 者 可 直接 用 于 采 集 新 闻 网 页 , 后 者 重 复 上 述 过 程 , 在 抓 取 深 度 的 限 制下 继 续 处 理 。3 新 闻 权 重 计 算在 采 集 新 闻 的 过 程 中 , 不 仅 仅 只 是 把 用 户 关 心 的 内 容 抓 取下 来 , 呈 现 给 用 户 的 不 能 是 一 堆 杂 乱 分 散 的 信 息 。 在 提 取 每 条链 接 的 同 时 需 要 获 取 附 带 的 相 关 属 性 , 借 此 来 确 定 该 条 信 息 的重 要 性 。 在 N e w

36、s P a g e R a n k 算 法 中 将 会 对 每 个 新 闻 链 接 进 行 评估 , 反 馈 给 用 户 哪 些 是 头 条 重 要 的 新 闻 , 哪 些 是 次 要 的 等 。新 闻 链 接 权 重 的 计 算 主 要 依 据 图 片 信 息 、 标 题 字 体 属 性 、页 面 深 度 信 息 , 这 是 显 而 易 见 的 , 判 断 新 闻 文 章 的 重 要 性 主 要看 它 在 网 页 上 的 显 示 方 式 。 由 于 采 集 到 的 页 面 主 要 是 H T M L 格式 , 在 分 析 H T M L 格 式 的 同 时 还 可 充 分 利 用 其 格 式

37、 文 本 的 特点 , 根 据 标 记 获 得 计 算 权 重 时 所 需 要 的 相 关 信 息 。 H T M L 页 面中 的 标 题 在 很 多 情 况 下 集 中 体 现 了 页 面 的 主 题 , 而 页 面 中 不 同文 字 所 使 用 的 字 体 、 样 式 等 往 往 显 示 了 其 在 整 个 页 面 内 容 中 重要 程 度 的 区 别 。下 面 给 出 N e w s P a g e R a n k 算 法 的 具 体 实 现 过 程 。( 1 ) 算 法 特 点 只 依 赖 于 网 页 链 接 结 构 , 可 以 离 线 计 算 。 每 一 个 链 接 P 有 一 个

38、 特 定 的 R a n k 值 r( P ) 。 r( P ) 的 大 小 取 决 于 6 个 因 素 : 图 片 ( i m a g e ) 、 字 体 大 小( f o n t _ s i z e ) 、 字 体 粗 细 ( b o l d ) 、 页 面 标 记 ( H t m l T a g ) 、 链 入 网 页 的权 重 ( r( P ) 。( 2 ) 权 重 计 算 方 法计 算 方 法 为 :r0( P ) =!W i P ir( P ) = r0( P ) r( P链 入)公 式 中 网 页 属 性 Pi及 其 权 重 Wi由 打 分 矩 阵 ( 参 见 表 1 ) 定 义

39、 ,且 可 以 按 照 不 同 应 用 需 求 调 整 和 扩 充 。Pi属 性 说 明 : 对 于 每 一 个 U R L , 如 果 有 相 应 属 性 则 Pi= 1 , 否则 Pi= 0 。Wi权 重 分 配 说 明 : 从 用 户 浏 览 新 闻 的 视 觉 效 果 上 来 说 , 有图 片 的 新 闻 最 能 吸 引 浏 览 者 的 注 意 力 , 所 以 认 为 有 图 片 的 新 闻最 重 要 。 字 体 的 大 小 和 粗 细 影 响 相 对 较 小 , 在 分 配 权 重 比 例 上考 虑 即 使 这 两 个 部 分 的 权 重 加 起 来 也 不 会 超 过 图 片 的

40、权 重 。H t m l T a g 这 一 项 的 意 义 是 , 在 同 一 级 页 面 上 , 新 闻 页 面 比 结 点页 面 要 重 要 。根 据 “ 从 许 多 优 质 的 网 页 链 接 过 来 的 网 页 , 必 定 还 是 优 质网 页 ” , 把 链 入 页 面 的 权 重 r( P链 入) 也 作 为 衡 量 该 链 接 权 重 的 一个 因 素 , 因 此 在 公 式 中 乘 以 上 一 级 页 面 的 权 重 。初 值 假 定 : 对 一 个 网 站 的 入 口 , 即 用 户 定 制 的 入 口 地 址 S t a r -t U R L , 认 为 它 的 链 入

41、页 面 的 权 重 r( P 链 入 ) 为 1 。4 实 验4 . 1 实 验 模 型采 用 网 络 爬 虫 程 序 在 网 站 上 采 集 页 面 , 然 后 利 用 上 述 方 法对 采 集 到 的 页 面 上 的 链 接 进 行 分 析 和 评 估 , 过 程 如 图 2 。4 . 2 测 试测 试 数 据 是 实 际 从 I n t e r n e t 上 采 集 的 一 批 站 点 。 选 取 了 其中 几 个 具 有 代 表 性 的 站 点 作 为 主 要 测 试 对 象 , 这 些 站 点 既 包 括领 域 单 一 的 专 业 站 点 , 也 包 括 综 合 站 点 ; 既 有

42、 公 共 网 站 , 也 有 个人 站 点 ; 站 点 的 规 模 小 至 近 百 页 , 多 至 上 万 个 页 面 。 根 据 这 些 测试 结 果 , 可 以 考 察 系 统 对 各 种 站 点 的 处 理 效 率 和 链 接 的 区 分 效 果 。新 闻 站 点 测 试 见 表 2 , 其 它 站 点 测 试 见 表 3 。吴 定 明 , 赵 东 岩 : 一 种 互 联 网 新 闻 网 页 的 采 集 分 析 方 法 1 7 1C o m p u t e r E n g i n e e r i n g a n d A p p l i c a t i o n s 计 算 机 工 程 与

43、应 用2 0 0 7 , 4 3 ( 3 6 )( 上 接 1 4 6 页 )数 据 , 因 为 E c / I o 数 据 在 整 个 路 测 数 据 文 件 中 数 量 最 多 , 读 取 它所 消 耗 的 时 间 反 映 了 优 化 软 件 的 最 低 处 理 速 度 。 为 了 得 到 三 种方 式 的 处 理 时 间 , 只 考 虑 当 路 测 数 据 量 小 于 1 0 0 M 的 情 况 , 从图 5 中 可 以 看 出 , 当 路 测 数 据 量 小 于 7 0 M 时 基 于 内 存 处 理 方式 读 取 E c / I o 的 性 能 优 于 新 方 式 , 这 是 由 于

44、 基 于 内 存 处 理 方 式获 取 E c / I o 数 据 时 不 需 要 进 行 详 细 解 析 , 而 新 方 式 需 要 进 行E c / I o 的 详 细 解 析 , 因 此 消 耗 了 更 多 的 时 间 。 但 是 随 着 路 测 数 据量 的 增 加 , 基 于 内 存 处 理 方 式 消 耗 的 内 存 也 迅 速 增 加 , 为 了 获取 数 据 而 在 内 存 中 的 寻 址 成 了 其 消 耗 时 间 的 来 源 , 从 而 占 用 了大 量 的 时 间 。 新 方 式 由 于 其 消 耗 的 内 存 少 , 随 着 数 据 量 的 增 加其 耗 时 仍 然 在

45、 于 E c / I o 的 详 细 解 析 8 。 对 于 基 于 A c c e s s 数 据 库方 式 , 由 于 数 据 库 的 读 取 是 逐 条 进 行 的 , 因 此 其 消 耗 时 间 将 会更 长 一 些 , 同 时 当 数 据 量 很 大 时 , 由 于 其 消 耗 了 较 少 的 内 存 , 其性 能 也 将 优 于 基 于 内 存 方 式 , 而 次 于 新 方 式 。综 上 所 述 , 对 于 海 量 数 据 , 新 方 式 由 于 使 用 了 索 引 结 构 , 其消 耗 的 内 存 明 显 减 少 , 因 此 提 高 了 其 路 测 数 据 处 理 的 能 力

46、和 效率 , 使 得 其 更 加 适 宜 于 处 理 海 量 的 路 测 数 据 。7 结 束 语文 章 提 出 了 一 种 新 的 基 于 索 引 的 海 量 路 测 数 据 处 理 方 式 ,能 够 显 著 提 高 优 化 软 件 的 性 能 , 并 与 两 种 传 统 的 路 测 数 据 处 理方 式 进 行 了 对 比 。 通 过 仿 真 表 明 当 处 理 海 量 路 测 数 据 时 , 新 方式 性 能 将 优 于 两 种 传 统 方 式 , 并 且 占 用 少 量 的 系 统 内 存 。( 收 稿 日 期 : 2 0 0 7 年 3 月 )参 考 文 献 : 1 K i m Y

47、S . E f f i c i e n t r a d i o n e t w o r k o p t i m i z a t i o n C / / V e h i c u l a r T e c h n o l -o g y C o n f e r e n c e , V T C 2 0 0 3 - S p r i n g , 2 0 0 3 , 3 : 2 2 - 2 5 . 2 Z h a n g J i a n - m i n g . A p p l i c a t i o n o f d r i v e t e s t f o r Q o S e v a l u a t i o n

48、 i n 3 Gw i r e l e s s n e t w o r k s C /C o m m u n i c a t i o n T e c h n o l o g y P r o c e e d i n g s , 2 0 0 3 , 2 :9 - 1 1 . 3 啜 钢 . C D M A 无 线 网 络 规 划 与 优 化 M . 北 京 : 机 械 工 业 出 版 社 , 2 0 0 4 :2 4 8 - 2 5 2 . 4 郑 恒 瑞 . 一 种 P H S 路 测 分 析 系 统 的 数 据 处 理 J . 广 东 通 信 技 术 , 2 0 0 4 :3 9 - 4 0

49、. 5 北 京 大 洋 信 业 电 信 技 术 有 限 责 任 公 司 . A I R E x p r e s s 1 . 0 用 户 手 册 . 6 L i e s k a K . O p t i m i z a t i o n o f G o S o f c e l l u l a r n e t w o r k C / / t h e 1 3 t h I E E EI n t e r n a t i o n a l S y m p o s i u m o n P e r s o n a l , I n d o o r a n d M o b i l e R a d i oC o m m u n i c a t i o n s , 2 0 0 2 , 5 : 1 5 - 1 8 . 7 华 为 技 术 有 限 公 司 . C D M A 2 0 0 0 1 x 无 线 网 络 规 划 与 优 化 M . 北 京 :人 民 邮 电 出 版 社 , 2 0 0 5 : 2 6 4 - 2 6 7 . 8 王 峰 . C + + 高 效 编 程 : 内 存 与 性 能 优 化 M . 北 京 : 中 国 电 力 出 版 社 ,

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报