收藏 分享(赏)

搜索引擎经验总结.doc

上传人:jinchen 文档编号:8767106 上传时间:2019-07-11 格式:DOC 页数:24 大小:210KB
下载 相关 举报
搜索引擎经验总结.doc_第1页
第1页 / 共24页
搜索引擎经验总结.doc_第2页
第2页 / 共24页
搜索引擎经验总结.doc_第3页
第3页 / 共24页
搜索引擎经验总结.doc_第4页
第4页 / 共24页
搜索引擎经验总结.doc_第5页
第5页 / 共24页
点击查看更多>>
资源描述

1、 搜 索 引 擎 经 验 总 结分 类 : 总 结 人 : 相 生 昌原 文 : http:/ 、 搜 索 引 擎 概 述搜 索 引 擎 的 发 展 历 史在 互 联 网 发 展 初 期 , 网 站 相 对 较 少 , 信 息 查 找 比 较 容 易 。 然 而 伴 随 互 联 网 爆 炸 性 的 发 展 , 普 通 网 络 用 户 想 找 到 所 需 的 资 料简 直 如 同 大 海 捞 针 , 这 时 为 满 足 大 众 信 息 检 索 需 求 的 专 业 搜 索 网 站 便 应 运 而 生 了 。现 代 意 义 上 的 搜 索 引 擎 的 祖 先 , 是 1990 年 由 蒙 特 利 尔

2、 大 学 学 生 Alan Emtage 发 明 的 Archie。 虽 然 当 时 World Wide Web 还 未 出 现 , 但 网 络 中 文 件 传 输 还 是 相 当 频 繁 的 , 而 且 由 于 大 量 的 文 件 散 布 在 各 个 分 散 的 FTP 主 机 中 , 查询 起 来 非 常 不 便 , 因 此 Alan Emtage 想 到 了 开 发 一 个 可 以 以 文 件 名 查 找 文 件 的 系 统 , 于 是 便 有 了 Archie。Archie 工 作 原 理 与 现 在 的 搜 索 引 擎 已 经 很 接 近 , 它 依 靠 脚 本 程 序 自 动 搜

3、 索 网 上 的 文 件 , 然 后 对 有 关 信 息 进 行 索 引 ,供 使 用 者 以 一 定 的 表 达 式 查 询 。 由 于 Archie 深 受 用 户 欢 迎 , 受 其 启 发 , 美 国 内 华 达 System Computing Services大 学 于 1993 年 开 发 了 另 一 个 与 之 非 常 相 似 的 搜 索 工 具 , 不 过 此 时 的 搜 索 工 具 除 了 索 引 文 件 外 , 已 能 检 索 网 页 。当 时 , “机 器 人 ”一 词 在 编 程 者 中 十 分 流 行 。 电 脑 “机 器 人 ”( Computer Robot)

4、是 指 某 个 能 以 人 类 无 法 达 到 的 速 度不 间 断 地 执 行 某 项 任 务 的 软 件 程 序 。 由 于 专 门 用 于 检 索 信 息 的 “机 器 人 ”程 序 象 蜘 蛛 一 样 在 网 络 间 爬 来 爬 去 , 因 此 , 搜索 引 擎 的 “机 器 人 ”程 序 就 被 称 为 “蜘 蛛 ”程 序 。世 界 上 第 一 个 用 于 监 测 互 联 网 发 展 规 模 的 “机 器 人 ”程 序 是 Matthew Gray 开 发 的 World wide Web Wanderer。刚 开 始 它 只 用 来 统 计 互 联 网 上 的 服 务 器 数 量

5、, 后 来 则 发 展 为 能 够 检 索 网 站 域 名 。与 Wanderer 相 对 应 , Martin Koster 于 1993 年 10 月 创 建 了 ALIWEB, 它 是 Archie 的 HTTP 版 本 。 ALIWEB不 使 用 “机 器 人 ”程 序 , 而 是 靠 网 站 主 动 提 交 信 息 来 建 立 自 己 的 链 接 索 引 , 类 似 于 现 在 我 们 熟 知 的 Yahoo。随 着 互 联 网 的 迅 速 发 展 , 使 得 检 索 所 有 新 出 现 的 网 页 变 得 越 来 越 困 难 , 因 此 , 在 Matthew Gray 的 Wan

6、derer基 础 上 , 一 些 编 程 者 将 传 统 的 “蜘 蛛 ”程 序 工 作 原 理 作 了 些 改 进 。 其 设 想 是 , 既 然 所 有 网 页 都 可 能 有 连 向 其 他 网 站 的 链 接 ,那 么 从 跟 踪 一 个 网 站 的 链 接 开 始 , 就 有 可 能 检 索 整 个 互 联 网 。 到 1993 年 底 , 一 些 基 于 此 原 理 的 搜 索 引 擎 开 始 纷 纷 涌现 , 其 中 以 JumpStation、 The World Wide Web Worm( Goto 的 前 身 , 也 就 是 今 天 Overture) , 和 Repos

7、itory-Based Software Engineering (RBSE) spider 最 负 盛 名 。然 而 JumpStation 和 WWW Worm 只 是 以 搜 索 工 具 在 数 据 库 中 找 到 匹 配 信 息 的 先 后 次 序 排 列 搜 索 结 果 , 因 此 毫 无 信息 关 联 度 可 言 。 而 RBSE 是 第 一 个 在 搜 索 结 果 排 列 中 引 入 关 键 字 串 匹 配 程 度 概 念 的 引 擎 。最 早 现 代 意 义 上 的 搜 索 引 擎 出 现 于 1994 年 7 月 。 当 时 Michael Mauldin 将 John Le

8、avitt 的 蜘 蛛 程 序 接 入 到 其 索引 程 序 中 , 创 建 了 大 家 现 在 熟 知 的 Lycos。 同 年 4 月 , 斯 坦 福 ( Stanford) 大 学 的 两 名 博 士 生 , David Filo 和 美 籍华 人 杨 致 远 ( Gerry Yang) 共 同 创 办 了 超 级 目 录 索 引 Yahoo, 并 成 功 地 使 搜 索 引 擎 的 概 念 深 入 人 心 。 从 此 搜 索 引 擎 进入 了 高 速 发 展 时 期 。 目 前 , 互 联 网 上 有 名 有 姓 的 搜 索 引 擎 已 达 数 百 家 , 其 检 索 的 信 息 量

9、也 与 从 前 不 可 同 日 而 语 。 比 如 最 近风 头 正 劲 的 Google, 其 数 据 库 中 存 放 的 网 页 已 达 30 亿 之 巨 ! 还 有 百 度 其 存 放 的 网 页 也 有 6 亿 多 。随 着 互 联 网 规 模 的 急 剧 膨 胀 , 一 家 搜 索 引 擎 光 靠 自 己 单 打 独 斗 已 无 法 适 应 目 前 的 市 场 状 况 , 因 此 现 在 搜 索 引 擎 之 间 开始 出 现 了 分 工 协 作 , 并 有 了 专 业 的 搜 索 引 擎 技 术 和 搜 索 数 据 库 服 务 提 供 商 。 象 国 外 的 Inktomi( 已 被

10、 Yahoo 收 购 ) ,它 本 身 并 不 是 直 接 面 向 用 户 的 搜 索 引 擎 , 但 向 包 括 Overture( 原 GoTo, 已 被 Yahoo 收 购 ) 、LookSmart、 MSN、 HotBot 等 在 内 的 其 他 搜 索 引 擎 提 供 全 文 网 页 搜 索 服 务 。 国 内 的 百 度 也 属 于 这 一 类 , 搜 狐 和 新 浪 用 的就 是 它 的 技 术 。 因 此 从 这 个 意 义 上 说 , 它 们 是 搜 索 引 擎 的 搜 索 引 擎 。现 在 一 提 到 搜 索 引 擎 , 人 们 往 往 想 到 的 是 Google、 百

11、度 、 雅 虎 、 搜 狐 等 。 那 么 究 竟 什 么 是 搜 索 引 擎 呢 ? “搜 索 引 擎 ”实 际 上 是 为 人 们 提 供 在 internet 网 上 利 用 关 键 词 来 进 行 全 文 检 索 的 一 种 网 页 检 索 工 具 。搜 索 引 擎 分 类搜 索 引 擎 按 其 工 作 方 式 主 要 可 分 为 三 种 , 分 别 是 全 文 搜 索 引 擎 ( Full Text Search Engine) 、 目 录 索 引 类 搜 索引 擎 ( Search Index/Directory) 和 元 搜 索 引 擎 ( Meta Search Engine)

12、 。 全 文 搜 索 引 擎 是 最 广 泛 也 是 用 得 最 多 的 一种 , 一 般 所 说 的 搜 索 引 擎 都 指 的 是 全 文 搜 索 引 擎 。全 文 搜 索 引 擎全 文 搜 索 引 擎 是 名 副 其 实 的 搜 索 引 擎 , 国 外 具 代 表 性 的 有Google、 Fast/AllTheWeb、 AltaVista、 Inktomi、 Teoma、 WiseNut 等 , 国 内 著 名 的 有 百 度 ( Baidu) 、 中 国 搜 索 等 。它 们 都 是 通 过 从 互 联 网 上 提 取 的 各 个 网 站 的 信 息 ( 以 网 页 文 字 为 主

13、) 而 建 立 的 数 据 库 中 , 检 索 与 用 户 查 询 条 件 匹 配 的 相 关记 录 , 然 后 按 一 定 的 排 列 顺 序 将 结 果 返 回 给 用 户 , 因 此 他 们 是 真 正 的 搜 索 引 擎 。从 搜 索 结 果 来 源 的 角 度 , 全 文 搜 索 引 擎 又 可 细 分 为 两 种 , 一 种 是 拥 有 自 己 的 检 索 程 序 ( Indexer) , 俗 称 “蜘 蛛 ”( Spider) 程 序 或 “机 器 人 ”( Robot) 程 序 , 并 自 建 网 页 数 据 库 , 搜 索 结 果 直 接 从 自 身 的 数 据 库 中 调

14、用 , 如 上 面 提 到 的 7家 引 擎 ; 另 一 种 则 是 租 用 其 他 引 擎 的 数 据 库 , 并 按 自 定 的 格 式 排 列 搜 索 结 果 , 如 Lycos 引 擎 。目 录 索 引 目 录 索 引 虽 然 有 搜 索 功 能 , 但 在 严 格 意 义 上 算 不 上 是 真 正 的 搜 索 引 擎 , 仅 仅 是 按 目 录 分 类 的 网 站 链 接 列 表 而 已 。 用 户 完 全可 以 不 用 进 行 关 键 词 ( Keywords) 查 询 , 仅 靠 分 类 目 录 也 可 找 到 需 要 的 信 息 。 目 录 索 引 中 最 具 代 表 性 的

15、 莫 过 于 大 名 鼎鼎 的 Yahoo 雅 虎 。 其 他 著 名 的 还 有 Open Directory Project( DMOZ) 、 LookSmart、 About 等 。 国 内 的 搜 狐 、 新 浪 、网 易 搜 索 也 都 属 于 这 一 类 。元 搜 索 引 擎 (META Search Engine)元 搜 索 引 擎 在 接 受 用 户 查 询 请 求 时 , 同 时 在 其 他 多 个 引 擎 上 进 行 搜 索 , 并 将 结 果 返 回 给 用 户 。 著 名 的 元 搜 索 引 擎 有InfoSpace、 Dogpile、 Vivisimo 等 ( 元 搜

16、 索 引 擎 列 表 ) , 中 文 元 搜 索 引 擎 中 具 代 表 性 的 有 搜 星 搜 索 引 擎 。 在 搜 索 结 果 排列 方 面 , 有 的 直 接 按 来 源 引 擎 排 列 搜 索 结 果 , 如 Dogpile, 有 的 则 按 自 定 的 规 则 将 结 果 重 新 排 列 组 合 , 如Vivisimo。除 上 述 三 大 类 引 擎 外 , 还 有 以 下 几 种 非 主 流 形 式 :1、 集 合 式 搜 索 引 擎 : 如 HotBot 在 2002 年 底 推 出 的 引 擎 。 该 引 擎 类 似 META 搜 索 引 擎 , 但 区 别 在 于 不 是

17、同 时 调用 多 个 引 擎 进 行 搜 索 , 而 是 由 用 户 从 提 供 的 4 个 引 擎 当 中 选 择 , 因 此 叫 它 “集 合 式 ”搜 索 引 擎 更 确 切 些 。2、 门 户 搜 索 引 擎 : 如 AOL Search、 MSN Search 等 虽 然 提 供 搜 索 服 务 , 但 自 身 即 没 有 分 类 目 录 也 没 有 网 页 数 据库 , 其 搜 索 结 果 完 全 来 自 其 他 引 擎 。3、 免 费 链 接 列 表 ( Free For All Links, 简 称 FFA) : 这 类 网 站 一 般 只 简 单 地 滚 动 排 列 链 接

18、条 目 , 少 部 分 有 简 单 的分 类 目 录 , 不 过 规 模 比 起 Yahoo 等 目 录 索 引 来 要 小 得 多 。 由 于 上 述 网 站 都 为 用 户 提 供 搜 索 查 询 服 务 , 为 方 便 起 见 , 我 们 通 常 将 其 统 称 为 搜 索 引 擎 。搜 索 引 擎 组 成 及 工 作 原 理搜 索 引 擎 系 统 一 般 由 蜘 蛛 ( 也 叫 网 页 爬 行 器 ) 、 切 词 器 、 索 引 器 、 查 询 器 几 部 分 组 成 。 蜘 蛛 负 责 网 页 信 息 的 抓 取 工 作 , 一般 情 况 下 切 词 器 和 索 引 器 一 起 使

19、用 , 它 们 负 责 将 抓 取 的 网 页 内 容 进 行 切 词 处 理 并 自 动 进 行 标 引 , 建 立 索 引 数 据 库 。 查 询 器根 据 用 户 查 询 条 件 检 索 索 引 数 据 库 并 对 检 索 结 果 进 行 排 序 和 集 合 运 算 , 如 并 集 、 交 集 运 算 , 再 提 取 网 页 简 单 摘 要 信 息 反 馈给 查 询 用 户 。Google 搜 索 引 擎 从 功 能 上 同 样 分 为 三 大 部 分 : 网 页 爬 行 、 标 引 入 库 和 用 户 查 询 。 网 页 爬 行 主 要 负 责 网 页 的 抓 取 , 由 URL服 务

20、 器 、 爬 行 器 、 存 储 器 、 分 析 器 和 URL 解 析 器 组 成 , 爬 行 器 是 该 部 分 的 核 心 ; 标 引 入 库 主 要 负 责 对 网 页 内 容 进 行 分析 , 对 文 档 进 行 标 引 并 存 储 到 数 据 库 里 , 由 标 引 器 和 分 类 器 组 成 , 该 模 块 涉 及 许 多 文 件 和 数 据 , 有 关 于 桶 的 操 作 是 该 部 分的 核 心 ; 用 户 查 询 主 要 负 责 分 析 用 户 输 入 的 检 索 表 达 式 , 匹 配 相 关 文 档 , 把 检 索 结 果 返 回 给 用 户 , 由 查 询 器 和 网

21、 页 级 别 评定 器 组 成 , 其 中 网 页 等 级 的 计 算 是 该 部 分 的 核 心 。 其 总 体 系 统 结 构 下 图 所 示 。搜 索 引 擎 的 主 要 工 作 流 程 是 : 首 先 从 蜘 蛛 开 始 , 蜘 蛛 程 序 每 隔 一 定 的 时 间 ( 象 google 一般 是 28 天 ) 自 动 启 动 并 读 取 网 页 URL 服 务 器 上 的 URL 列 表 , 按 深 度 优 先 或 广 度 优 先 算法 , 抓 取 各 URL 所 指 定 的 网 站 , 将 抓 取 的 网 页 分 配 一 个 唯 一 文 档 ID(DocId), 存 入 文 档数

22、 据 库 。 一 般 在 存 入 文 档 数 据 库 之 前 进 行 一 定 的 压 缩 处 理 。 并 将 当 前 页 上 的 所 的 超 连 接 存 入到 URL 服 务 器 中 。 在 进 行 抓 取 的 同 时 , 切 词 器 和 索 引 器 将 已 经 抓 取 的 网 页 文 档 进 行 切 词 处理 , 并 按 词 在 网 页 中 出 现 的 位 置 和 频 率 计 算 权 值 , 然 后 将 切 词 结 果 存 入 索 引 数 据 库 。 整 个 抓取 工 作 和 索 引 工 作 完 成 后 更 新 整 个 索 引 数 据 库 和 文 档 数 据 库 , 这 样 用 户 就 可

23、以 查 询 最 新 的 网页 信 息 。 查 询 器 首 先 对 用 户 输 入 的 信 息 进 行 切 词 处 理 , 并 检 索 出 所 有 包 含 检 索 词 的 记 录 , 通过 计 算 网 页 权 重 和 级 别 对 查 询 记 录 进 行 排 序 并 进 行 集 合 运 算 , 最 后 从 文 档 数 据 库 中 提 取 各 网页 的 摘 要 信 息 反 馈 给 查 询 用 户 。二 、 网 络 蜘 蛛概 述蜘 蛛 (即 Web Spider), 实 际 上 是 一 个 基 于 HTTP 协 议 的 网 络 应 用 程 序 。 网 络 蜘 蛛 是 通 过 网页 的 链 接 地 址

24、来 寻 找 网 页 , 从 网 站 某 一 个 页 面 ( 通 常 是 首 页 ) 开 始 , 读 取 网 页 的 内 容 , 并 抽取 出 网 页 中 的 其 它 超 链 接 地 址 , 然 后 通 过 这 些 链 接 地 址 寻 找 下 一 个 网 页 , 这 样 一 直 循 环 下 去 ,直 到 把 这 个 网 站 所 有 的 网 页 都 抓 取 完 为 止 。在 抓 取 网 页 的 时 候 , 网 络 蜘 蛛 一 般 有 两 种 策 略 : 广 度 优 先 和 深 度 优 先 。 广 度 优 先 是 指 网 络 蜘蛛 会 先 抓 取 起 始 网 页 中 链 接 的 所 有 网 页 ,

25、然 后 再 选 择 其 中 的 一 个 链 接 网 页 , 继 续 抓 取 在 此 网页 中 链 接 的 所 有 网 页 。 这 是 最 常 用 的 方 式 , 因 为 这 个 方 法 可 以 让 网 络 蜘 蛛 并 行 处 理 , 提 高 其抓 取 速 度 。 深 度 优 先 是 指 网 络 蜘 蛛 会 从 起 始 页 开 始 , 一 个 链 接 一 个 链 接 跟 踪 下 去 , 处 理 完 这条 线 路 之 后 再 转 入 下 一 个 起 始 页 , 继 续 跟 踪 链 接 。 这 个 方 法 有 个 优 点 是 网 络 蜘 蛛 在 设 计 的 时候 比 较 容 易 。主 要 组 成根

26、据 抓 取 过 程 蜘 蛛 主 要 分 为 三 个 功 能 模 块 , 一 个 是 网 页 读 取 模 块 主 要 是 用 来 读 取 远 程Web 服 务 器 上 的 网 页 内 容 , 另 一 个 是 超 链 分 析 模 块 , 这 个 模 块 主 要 是 分 析 网 页 中 的 超 链 接 ,将 网 页 上 的 所 有 超 链 接 提 取 出 来 , 放 入 到 待 抓 取 URL 列 表 中 , 再 一 个 模 块 就 是 内 容 分 析模 块 , 这 个 模 块 主 要 是 对 网 页 内 容 进 行 分 析 , 将 网 页 中 所 有 超 标 志 去 掉 只 留 下 网 页 文 字

27、 内 容 。蜘 蛛 的 主 要 工 作 流 程 如 下 图 所 示 :首 先 蜘 蛛 读 取 抓 取 站 点 的 URL 列 表 , 取 出 一 个 站 点 URL, 将 其 放 入 未 访 问 的 URL 列 表( UVURL 列 表 ) 中 , 如 果 UVURL 不 为 空 刚 从 中 取 出 一 个 URL 判 断 是 否 已 经 访 问 过 , 若没 有 访 问 过 则 读 取 此 网 页 , 并 进 行 超 链 分 析 及 内 容 分 析 , 并 将 些 页 存 入 文 档 数 据 库 , 并 将 些URL 放 入 已 访 问 URL 列 表 ( VURL 列 表 ) , 直 到

28、UVRL 为 空 为 止 , 此 时 再 抓 取 其 他 站 点 ,依 次 循 环 直 到 所 有 的 站 点 URL 列 表 都 抓 取 完 为 止 。关 键 技 术1、 多 线 程 技 术 : 由 于 抓 取 的 站 点 URL 相 当 多 , 采 用 单 线 程 蜘 蛛 抓 取 时 速 度 不 够 , 也 不 能 满 足 实 际 的需 要 。 因 而 需 要 多 线 程 技 术 来 创 建 多 个 蜘 蛛 线 程 来 同 时 抓 取 , 以 提 高 速 度 。2、 网 页 抓 取 : 网 页 抓 取 是 基 于 HTTP 协 议 之 上 的 , 网 页 上 的 资 源 有 多 种 , 有

29、 网 页 , 有 Word 文 档也 有 其 他 类 型 的 文 件 , 这 样 抓 取 时 需 要 判 断 URL 所 指 向 资 源 的 类 型 。3、 超 链 分 析 : 超 链 分 析 是 一 个 比 较 重 要 的 环 节 , 需 要 对 HTML 的 各 种 标 志 ( tag) 有 一 个 很 全 面 的了 解 。 需 要 反 复 测 试 , 考 虑 各 种 情 形 的 发 生 。超 链 分 析 时 从 网 页 里 提 取 出 来 的 是 相 对 于 当 前 页 的 相 对 URL, 因 而 需 要 根 据 当 前 页 的 绝 对 URL 将 提取 的 这 个 URL 转 换 成

30、 绝 对 URL。 在 此 过 程 中 需 要 根 据 ParentURL( 就 是 当 前 页 的 URL) 作 出 各 种判 断 。 各 种 情 况 判 断 如 下 图 所 示 :经 验 总 结商 业 化 的 蜘 蛛 需 要 抓 取 上 亿 的 网 页 , 因 而 抓 取 速 度 是 一 个 关 键 , 另 外 蜘 蛛 需 要 自 动 运 行 , 尽 是 减 少 人 工的 参 与 , 因 而 系 统 的 性 能 也 是 一 个 很 重 要 的 关 键 , 系 统 能 够 在 发 生 异 常 的 时 候 自 动 进 行 处 理 , 防 止 程 序的 退 出 和 死 机 。 本 人 认 为 有

31、 一 些 细 节 需 要 注 意 :1、 系 统 应 该 使 用 多 线 程 , 使 用 多 个 蜘 蛛 同 时 抓 取 , 在 可 能 的 情 况 下 , 最 好 是 做 成 分 布 式 的 蜘 蛛 程 序 ,蜘 蛛 应 该 分 布 地 网 络 上 多 台 服 务 器 上 协 同 抓 取 网 页 , 这 样 速 度 会 更 快 , 更 符 合 我 们 的 实 际 应 用 。2、 对 于 同 一 网 站 的 网 页 应 该 采 用 同 一 个 HttpConnection 这 样 有 效 地 节 省 创 建 一 个 连 接 的 时 间 , 另 外对 于 抓 取 的 URL 采 用 域 名 缓

32、冲 机 制 ( 可 在 网 关 一 级 上 实 现 ) , 这 样 抓 取 时 减 少 由 域 名 到 IP 地 址 的 转换 时 间 以 及 重 复 的 域 名 转 换 。 若 能 做 到 这 一 步 将 会 大 大 减 少 抓 取 时 间 , 因 为 访 问 一 URL 时 每 次 都 要进 行 域 名 到 主 机 IP 地 址 的 转 换 。3、 最 好 是 能 够 将 读 取 网 页 、 超 链 分 析 及 网 页 内 容 分 析 三 部 分 分 开 来 做 , 让 它 们 并 行 协 同 工 作 , 这 样 效率 会 更 高 。 因 为 在 这 三 个 过 程 中 网 页 读 取 比

33、 起 其 他 两 个 功 能 来 说 是 一 个 长 任 务 , 最 耗 时 间 。 当 抓 取 完 一网 页 后 , 在 抓 取 下 一 网 页 的 时 候 让 去 执 行 超 链 分 析 和 内 容 分 析 。 这 样 在 下 一 网 页 抓 取 完 成 之 前 超 链 分 析和 内 容 分 析 任 务 就 能 完 成 , 抓 取 任 务 不 会 延 迟 , 这 样 节 省 了 一 些 时 间 。三 、 切 词 器概 述1、 概 述众 所 周 知 , 英 文 是 以 词 为 单 位 的 , 词 和 词 之 间 是 靠 空 格 隔 开 , 而 中 文 是 以 字 为 单 位 , 句 子 中

34、所 有 的 字 连起 来 才 能 描 述 一 个 意 思 。 例 如 , 英 文 句 子 I am a student, 用 中 文 则 为 : “我 是 一 个 学 生 ”。 计 算 机可 以 很 简 单 通 过 空 格 知 道 student 是 一 个 单 词 , 但 是 不 能 很 容 易 明 白 “学 ”、 “生 ”两 个 字 合 起 来 才 表示 一 个 词 。 把 中 文 的 汉 字 序 列 切 分 成 有 意 义 的 词 , 就 是 中 文 分 词 , 有 些 人 也 称 为 切 词 。 我 是 一 个 学 生 ,分 词 的 结 果 是 : 我 是 一 个 学 生 。2、 切

35、词 算 法现 有 的 分 词 算 法 可 分 为 三 大 类 : 基 于 字 符 串 匹 配 的 分 词 方 法 、 基 于 理 解 的 分 词 方 法 和 基 于 统 计 的 分 词 方法 。1) 、 基 于 字 符 串 匹 配 的 分 词 方 法这 种 方 法 又 叫 做 机 械 分 词 方 法 , 它 是 按 照 一 定 的 策 略 将 待 分 析 的 汉 字 串 与 一 个 “充 分 大 的 ”机器 词 典 中 的 词 条 进 行 匹 配 , 若 在 词 典 中 找 到 某 个 字 符 串 , 则 匹 配 成 功 ( 识 别 出 一 个 词 ) 。 按 照 扫 描 方向 的 不 同 ,

36、 串 匹 配 分 词 方 法 可 以 分 为 正 向 匹 配 和 逆 向 匹 配 ; 按 照 不 同 长 度 优 先 匹 配 的 情 况 , 可 以 分 为 最大 ( 最 长 ) 匹 配 和 最 小 ( 最 短 ) 匹 配 ; 按 照 是 否 与 词 性 标 注 过 程 相 结 合 , 又 可 以 分 为 单 纯 分 词 方 法 和 分词 与 标 注 相 结 合 的 一 体 化 方 法 。 常 用 的 几 种 机 械 分 词 方 法 如 下 :a) 正 向 最 大 匹 配 法 ( 由 左 到 右 的 方 向 ) ;b) 逆 向 最 大 匹 配 法 ( 由 右 到 左 的 方 向 ) ;c) 最

37、 少 切 分 ( 使 每 一 句 中 切 出 的 词 数 最 小 ) 。还 可 以 将 上 述 各 种 方 法 相 互 组 合 , 例 如 , 可 以 将 正 向 最 大 匹 配 方 法 和 逆 向 最 大 匹 配 方 法 结 合 起 来 构成 双 向 匹 配 法 。 由 于 汉 语 单 字 成 词 的 特 点 , 正 向 最 小 匹 配 和 逆 向 最 小 匹 配 一 般 很 少 使 用 。 一 般 说 来 , 逆向 匹 配 的 切 分 精 度 略 高 于 正 向 匹 配 , 遇 到 的 歧 义 现 象 也 较 少 。 统 计 结 果 表 明 , 单 纯 使 用 正 向 最 大 匹 配 的错

38、 误 率 为 1/169, 单 纯 使 用 逆 向 最 大 匹 配 的 错 误 率 为 1/245。 但 这 种 精 度 还 远 远 不 能 满 足 实 际 的 需 要 。实 际 使 用 的 分 词 系 统 , 都 是 把 机 械 分 词 作 为 一 种 初 分 手 段 , 还 需 通 过 利 用 各 种 其 它 的 语 言 信 息 来 进 一 步提 高 切 分 的 准 确 率 。一 种 方 法 是 改 进 扫 描 方 式 , 称 为 特 征 扫 描 或 标 志 切 分 , 优 先 在 待 分 析 字 符 串 中 识 别 和 切 分 出 一 些 带有 明 显 特 征 的 词 , 以 这 些 词

39、 作 为 断 点 , 可 将 原 字 符 串 分 为 较 小 的 串 再 来 进 行 机 械 分 词 , 从 而 减 少 匹 配 的错 误 率 。 另 一 种 方 法 是 将 分 词 和 词 类 标 注 结 合 起 来 , 利 用 丰 富 的 词 类 信 息 对 分 词 决 策 提 供 帮 助 , 并 且 在标 注 过 程 中 又 反 过 来 对 分 词 结 果 进 行 检 验 、 调 整 , 从 而 极 大 地 提 高 切 分 的 准 确 率 。2) 、 基 于 理 解 的 分 词 方 法这 种 分 词 方 法 是 通 过 让 计 算 机 模 拟 人 对 句 子 的 理 解 , 达 到 识

40、别 词 的 效 果 , 但 这 种 方 法 需 要 大 量 的 词法 、 句 法 、 语 义 知 识 。 其 基 本 思 想 就 是 在 分 词 的 同 时 进 行 句 法 、 语 义 分 析 , 利 用 句 法 信 息 和 语 义 信 息 来处 理 歧 义 现 象 。 它 通 常 包 括 三 个 部 分 : 分 词 子 系 统 、 句 法 语 义 子 系 统 、 总 控 部 分 。 在 总 控 部 分 的 协 调 下 ,分 词 子 系 统 可 以 获 得 有 关 词 、 句 子 等 的 句 法 和 语 义 信 息 来 对 分 词 歧 义 进 行 判 断 , 即 它 模 拟 了 人 对 句 子

41、 的理 解 过 程 。 这 种 分 词 方 法 需 要 使 用 大 量 的 语 言 知 识 和 信 息 。 由 于 汉 语 语 言 知 识 的 笼 统 、 复 杂 性 , 难 以 将各 种 语 言 信 息 组 织 成 机 器 可 直 接 读 取 的 形 式 , 因 此 目 前 基 于 理 解 的 分 词 系 统 还 处 在 试 验 阶 段 。3) 、 基 于 统 计 的 分 词 方 法从 形 式 上 看 , 词 是 稳 定 的 字 的 组 合 , 因 此 在 上 下 文 中 , 相 邻 的 字 同 时 出 现 的 次 数 越 多 , 就 越 有 可 能构 成 一 个 词 。 因 此 字 与 字

42、 相 邻 共 现 的 频 率 或 概 率 能 够 较 好 的 反 映 成 词 的 可 信 度 。 可 以 对 语 料 中 相 邻 共 现的 各 个 字 的 组 合 的 频 度 进 行 统 计 , 计 算 它 们 的 互 现 信 息 。 定 义 两 个 字 的 互 现 信 息 , 计 算 两 个 汉 字X、 Y 的 相 邻 共 现 概 率 。 互 现 信 息 体 现 了 汉 字 之 间 结 合 关 系 的 紧 密 程 度 。 当 紧 密 程 度 高 于 某 一 个 阈 值 时 ,便 可 认 为 此 字 组 可 能 构 成 了 一 个 词 。 这 种 方 法 只 需 对 语 料 中 的 字 组 频

43、 度 进 行 统 计 , 不 需 要 切 分 词 典 , 因而 又 叫 做 无 词 典 分 词 法 或 统 计 取 词 方 法 。 但 这 种 方 法 也 有 一 定 的 局 限 性 , 会 经 常 抽 出 一 些 共 现 频 度 高 、但 并 不 是 词 的 常 用 字 组 , 例 如 “这 一 ”、 “之 一 ”、 “有 的 ”、 “我 的 ”、 “许 多 的 ”等 , 并 且 对 常 用 词 的 识别 精 度 差 , 时 空 开 销 大 。 实 际 应 用 的 统 计 分 词 系 统 都 要 使 用 一 部 基 本 的 分 词 词 典 ( 常 用 词 词 典 ) 进 行 串匹 配 分 词

44、 , 同 时 使 用 统 计 方 法 识 别 一 些 新 的 词 , 即 将 串 频 统 计 和 串 匹 配 结 合 起 来 , 既 发 挥 匹 配 分 词 切 分速 度 快 、 效 率 高 的 特 点 , 又 利 用 了 无 词 典 分 词 结 合 上 下 文 识 别 生 词 、 自 动 消 除 歧 义 的 优 点 。到 底 哪 种 分 词 算 法 的 准 确 度 更 高 , 目 前 并 无 定 论 。 对 于 任 何 一 个 成 熟 的 分 词 系 统 来 说 , 不 可 能 单 独 依 靠某 一 种 算 法 来 实 现 , 都 需 要 综 合 不 同 的 算 法 。 笔 者 了 解 ,

45、海 量 科 技 的 分 词 算 法 就 采 用 “复 方 分 词 法 ”,所 谓 复 方 , 相 当 于 用 中 药 中 的 复 方 概 念 , 即 用 不 同 的 药 才 综 合 起 来 去 医 治 疾 病 , 同 样 , 对 于 中 文 词 的 识别 , 需 要 多 种 算 法 来 处 理 不 同 的 问 题 。3、 关 键 问 题 1) 通 用 词 表 和 切 分 规 范 汉 语 的 语 素 和 单 字 词 , 合 成 词 和 短 语 之 间 没 有 清 晰 的 界 限 。 语 言 学 界 虽 然 对 于 词 在 概 念 上 有 一 个 十分 清 晰 的 定 义 , 即 , “词 是 最

46、 小 的 能 够 独 立 活 动 的 有 意 义 的 语 言 成 分 。 ”但 从 一 些 词 典 的 编 撰 中 , 我 们仍 然 可 看 出 一 些 上 述 界 限 难 以 区 分 的 问 题 。 比 如 : “听 见 ”“看 见 ”在 很 多 词 典 中 都 有 收 录 , 但 是 有 类似 结 构 的 “闻 见 ”却 没 有 收 录 。 在 建 立 分 词 系 统 词 表 时 , 仍 然 对 于 收 词 的 标 准 难 以 把 握 , 例 如 :“鸡 蛋 ”是 词 , 那 么 “鸭 蛋 、 鹌 鹑 蛋 ”是 否 也 作 为 词 收 入 词 表 ? 至 今 为 止 , 分 词 系 统 仍

47、 然 没 有 一 个 统 一的 具 有 权 威 性 的 分 词 词 表 作 为 分 词 依 据 。 这 不 能 不 说 是 分 词 系 统 所 面 临 的 首 要 问 题 。 除 了 分 词 词 表 , 还有 一 个 概 念 值 得 我 们 注 意 , 即 “分 词 单 位 ”。 从 计 算 机 进 行 分 词 的 过 程 来 看 , 其 输 出 的 词 串 我 们 称 之 为“切 分 单 位 ”或 “分 词 单 位 ”。 信 息 处 理 用 现 代 汉 语 分 词 规 范 中 对 于 “分 词 单 位 ”也 有 一 个 定 义 :“汉 语 信 息 处 理 使 用 的 、 具 有 确 定 的

48、语 义 或 语 法 功 能 的 基 本 单 位 。 包 括 本 规 范 的 规 则 限 定 的 词 和 词 组 。”由 此 可 见 , 信 息 处 理 中 分 词 单 位 的 定 义 比 传 统 意 义 上 的 词 更 宽 泛 些 。 这 也 就 避 开 了 理 论 上 对 于 词 的 界定 难 以 把 握 的 困 扰 。 分 词 系 统 可 以 面 向 解 决 实 际 问 题 的 需 求 和 真 实 语 料 中 使 用 的 频 繁 程 度 来 规 定“分 词 单 位 ”。 分 词 单 位 可 以 是 同 词 表 中 词 完 全 一 致 , 也 可 以 是 包 含 未 登 录 词 识 别 以

49、及 一 些 词 法 分 析 的 切分 单 位 , 例 如 , 一 些 人 名 、 地 名 、 机 构 名 、 外 国 人 译 名 , 应 予 以 识 别 和 切 分 。 一 些 动 词 和 形 容 词 重 叠 结构 , 如 “高 高 大 大 ”、 “甜 甜 蜜 蜜 ”等 ; 一 些 附 加 词 , 如 后 缀 , “亲 和 性 ”、 “热 敏 性 ”等 ; 都 可 以 作 为分 词 单 位 予 以 识 别 和 切 分 。 因 此 , 对 于 一 个 分 词 系 统 而 言 , 制 定 一 个 一 致 性 的 分 词 单 位 切 分 规 范 无 疑 也是 一 个 重 要 的 问 题 。 2) 歧 义 切 分 字 段 分 词 系 统 要 处 理 的 第 二 个 关 键 问 题 是 文 本 中 歧 义 切 分 字 段 的 判 别 。 汉 语 中 歧 义 切 分 字 段 最 基 本 有 以下 两 种 类 型 : 交 集 型 歧 义 字 段 , 据 统 计 , 这 种 歧 义 字 段 占 全 部 歧 义 字 段 的 以 上 。 4 所 以 这 也 是 分 词 系统 所 要 重 点 解 决 的 问 题 。 在 字 段 ABC 中 , 这 里 , A,B,C

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报