收藏 分享(赏)

多知识源融合的自动摘要系统研究与实现.doc

上传人:cjc2202537 文档编号:1216077 上传时间:2018-06-18 格式:DOC 页数:5 大小:208.50KB
下载 相关 举报
多知识源融合的自动摘要系统研究与实现.doc_第1页
第1页 / 共5页
多知识源融合的自动摘要系统研究与实现.doc_第2页
第2页 / 共5页
多知识源融合的自动摘要系统研究与实现.doc_第3页
第3页 / 共5页
多知识源融合的自动摘要系统研究与实现.doc_第4页
第4页 / 共5页
多知识源融合的自动摘要系统研究与实现.doc_第5页
第5页 / 共5页
亲,该文档总共5页,全部预览完了,如果喜欢就下载吧!
资源描述

1、多 知 识 源 融 合 的 自 动 摘 要 系 统 研 究 与 实 现摘 要 提出一种多知识源融合的自动摘要方法,有效地融合改进的浅层主题特征分析方法、改进的词汇链方法、话语结构方法的分析结果来生成文摘,在 捕 获 文 章 特 征 的 同 时 较好 地 保 持 了 原 文 的 内 容 及 内 在 逻 辑 结 构 。评测结果显示系统生成具有良好连贯性和流畅性的文摘;与采用单一方法的自动摘要系统相比较,生成的文摘质量有明显提高。关键词 自动摘要 特征词 词汇链 话语结构 融合0 引 言摘 要 是 通 过 对 文 档 内 容 处 理 , 从 中 提 取 出 满 足用 户 需 求 的 重 要 信 息

2、, 经 过 重 组 修 饰 后 生 成 比 原 文更 精 炼 的 文 摘 过 程 。 目 前 主 要 的 自 动 摘 要 技 术 有 三类 : 基 于 浅 层 分 析 的 方 法 、 基 于 实 体 分 析 的 方 法 、基 于 话 语 结 构 的 方 法 1。 基 于 浅 层 分 析 的 方 法 对 文档 中 蕴 含 的 一 些 浅 层 特 征 如 词 频 、 位 置 、 线 索 词 等进 行 统 计 分 析 , 据 此 选 择 出 文 档 核 心 内 容 2。 浅层 分 析 具 有 易 于 实 现 、 处 理 速 度 快 、 无 受 限 域 的 优点 , 但 这 一 方 法 是 建 立 在

3、 文 本 表 层 的 形 式 特 征 基 础上 的 , 缺 乏 对 文 本 内 容 的 深 层 次 分 析 , 难 以 保 证 生成 文 摘 的 逻 辑 连 贯 性 , 文 摘 质 量 的 进 一 步 提 高 将 受到 限 制 。 基 于 实 体 分 析 的 方 法 先 分 析 文 本 内 部 的 概念 性 表 示 , 然 后 提 取 出 文 档 中 各 实 体 并 建 立 起 实 体间 的 相 互 关 系 , 通 过 对 文 档 实 体 及 其 相 互 关 系 建 模来 确 定 各 实 体 对 表 述 文 档 内 容 的 作 用 , 如 词 汇 链 方法 3。 实 体 特 征 的 获 取 通

4、 常 需 要 比 较 复 杂 的 算 法 ,特 征 的 选 择 也 需 要 考 虑 多 方 因 素 。 这 种 方 法 易 于 描述 意 义 上 统 一 性 强 的 文 本 。 基 于 话 语 结 构 的 方 法 主要 通 过 对 文 档 格 式 、 主 题 线 索 、 修 辞 结 构 、 文 体 结构 等 的 分 析 对 全 文 宏 观 结 构 建 模 , 以 准 确 把 握 全 文的 内 容 结 构 4。 因 为 结 构 分 析 不 受 文 章 领 域 限 制 ,文 档 结 构 信 息 往 往 能 较 为 准 确 地 标 示 出 语 言 单 元 间的 逻 辑 关 系 , 为 自 动 文 摘

5、 生 成 提 供 重 要 线 索 。由于上述几种方法各自的优缺点,为解决单一方法存在的知识获取不足的问题,提高自动文摘质量,增强文摘系统的通用性,采用混合方法是自动摘要技术的必然趋势。多种方法的有机结合能实现优势互补,可以在捕获文章特征的同时较好地保持原文的内容及内在逻辑结构。为此文中系统采用将浅层分析与实体分析、话语结构分析相结合的方法,有效地融合文档的主题特征和内容结构,同时对原有单一方法进行改进,在满足系统处理性能的同时进一步提高生成文摘的质量。本文的第1部分介绍了相关工作,第2部分描述了多知识源融合的自动摘要系统结构及各个模块的算法,第3部分给出实验结果及评价,第4部分给出结论。1 相

6、 关 工 作浅 层 分 析 的 主 题 特 征 根 据 标 题 词 、 关 键 词 、 用户 指 定 词 等 确 定 , 可 以 是 单 个 词 、 多 个 词 或 句 子 ,不 包 括 高 频 词 、 虚 词 等 停 用 词 ( 停 用 词 由 于 出 现 在很 多 文 档 里 , 故 对 信 息 分 析 没 什 么 贡 献 ) 。 专 业 摘要 者 就 常 常 集 中 注 意 力 于 文 章 表 层 特 征 和 比 较 规 范的 部 分 , 特 别 是 标 题 , 他 们 的 经 验 对 自 动 摘 要 研 究有 很 大 价 值 5。 但 标 题 词 等 特 征 词 可 能 存 在 一 些

7、抽 象 语 义 含 义 的 内 容 , 目 前 许 多 文 摘 系 统 在 分 析 文档 的 特 征 词 时 , 对 不 同 类 型 的 特 征 词 作 相 同 处 理 ,这 样 常 常 会 给 系 统 加 入 一 些 无 用 的 甚 至 误 导 性 的 特征 。 因 此 对 主 题 特 征 词 的 分 析 需 要 进 一 步 改 进 。词 汇 集 聚 6是 把 文 本 中 相 关 的 词 构 成 一 个 链的 过 程 , 使 得 这 些 相 关 的 词 保 持 词 义 上 的 连 贯 性 。它 不 仅 存 在 于 单 词 对 之 间 , 还 存 在 于 文 本 中 围 绕 某个 主 题 的

8、许 多 相 关 的 词 之 间 , 这 些 相 关 词 的 序 列 就称 为 词 汇 链 。 词 汇 链 是 一 种 词 汇 间 语 义 关 系 引 起 的凝 聚 力 , 它 与 文 本 的 结 构 有 一 种 对 应 关 系 , 提 供 了关 于 文 本 结 构 和 主 题 的 重 要 线 索 , 也 提 供 了 解 释 词 、概 念 和 句 子 的 语 义 环 境 , 故 计 算 词 汇 链 很 有 用 。 词汇 链 技 术 可 用 于 词 语 误 用 的 检 测 纠 正 、 自 动 摘 要 、信 息 检 索 、 主 题 追 踪 等 78。 基 于 词 汇 链 技 术 构造 文 摘 的 方

9、 法 使 用 WordNet 等 词 典 作 为 计 算 词 汇链 的 主 要 知 识 库 , 根 据 文 本 中 出 现 于 词 典 中 的 词 间存 在 的 依 赖 关 系 如 重 复 、 同 义 反 义 、 上 下 义 、 部 分整 体 关 系 等 构 造 词 汇 链 , 计 算 各 链 的 强 度 及 链 中 成员 的 典 型 性 值 , 对 文 中 包 含 重 要 信 息 的 句 子 赋 予 相应 权 值 , 据 此 生 成 文 摘 。 但 由 于 汉 语 与 印 欧 语 系 的语 言 的 差 别 , 对 中 文 文 章 的 处 理 上 要 作 一 定 改 变 ,且 构 造 词 汇

10、链 时 也 要 根 据 所 使 用 词 典 的 结 构 作 相 应分 析 。 另 外 , 原 算 法 3仅 分 析 名 词 间 的 关 系 , 忽略 了 一 些 重 要 的 动 词 、 形 容 词 等 ,也 需 要 进 一 步 改进 。话 语 结 构 分 析 从 多 个 角 度 对 文 档 内 容 进 行 独 立分 析 , 它 主 要 包 含 三 部 分 : 文 档 的 内 容 结 构 分 析 先根 据 文 档 层 次 结 构 、 语 言 和 修 辞 结 构 建 立 各 语 言 单元 节 点 及 节 点 的 章 节 、 段 落 、 复 句 依 存 关 系 ; 然 后分 析 全 文 结 构 和

11、复 句 结 构 , 将 各 自 然 段 间 和 各 自 然段 内 部 各 复 句 间 的 依 存 关 系 分 为 并 列 、 总 分 等 ; 最后 进 行 层 次 结 构 分 析 , 建 立 一 棵 层 次 结 构 依 存 树 。文 档 的 子 主 题 切 分 主 要 将 以 自 然 段 为 基 础 的 文 本 的物 理 结 构 转 换 为 以 意 义 段 为 基 础 的 文 本 的 逻 辑 结 构 ,以 提 高 系 统 生 成 的 文 摘 的 中 心 主 题 覆 盖 率 及 文 摘 抽取 的 准 确 率 ; 这 里 使 用 一 种 基 于 语 义 相 似 度 的 隐 式章 节 划 分 方 法

12、 910。 语 句 间 的 修 辞 结 构 分 析 主要 分 析 各 语 句 间 的 语 义 连 接 关 系 , 通 过 基 于 关 联 词的 语 法 语 义 规 则 分 析 单 句 、 复 句 间 、 复 句 内 部 间 的语 义 依 存 关 系 如 并 列 、 因 果 等 , 据 此 构 造 分 析 树 ,确 定 每 个 语 句 在 表 达 文 本 内 容 时 的 角 色 。由于前述分析的各自优缺点,为进一步提高自动文摘系统的通用性及生成文摘的质量,下面提出一种多知识源融合的自动摘要方法,该方法有效地融合了改进的上述方法的分析结果来生成文摘,以多种方法的有机结合实现优势互补。2 多 知 识

13、 源 融 合 的 自 动 摘 要系 统 涉 及 自 然 语 言 处 理 中 多 个 领 域 , 利 用 多 种方 法 的 互 补 性 来 提 高 文 摘 质 量 , 具 体 过 程 如 图 1 所示 , 主 要 包 含 以 下 5 个 模 块 : 文 档 结 构 初 始 化 :将 文 档 用 文 档 结 构 树 11的 形 式 表 示 , 根 据 相 应 节点 在 树 中 的 位 置 给 每 个 基 本 单 元 赋 予 唯 一 对 应 坐 标值 , 以 方 便 获 取 并 处 理 文 档 中 任 一 单 元 节 点 的 信 息及 对 各 节 点 加 权 ; 文 章 主 题 特 征 分 析 :

14、采 用 浅 层分 析 的 方 法 对 主 题 特 征 词 进 行 分 析 ,以 有 侧 重 地 选择 原 文 内 容 ; 词 汇 链 分 析 : 采 用 实 体 分 析 技 术 分析 词 间 的 集 聚 关 系 , 提 供 关 于 文 本 结 构 和 主 题 的 重要 线 索 ; 文 本 话 语 结 构 分 析 : 利 用 修 辞 结 构 、 文本 结 构 分 析 等 自 然 语 言 处 理 技 术 对 文 档 进 行 独 立 的分 析 , 以 确 定 文 档 内 部 不 同 单 元 之 间 的 内 在 逻 辑 关系 ; 文 摘 句 的 抽 取 及 文 摘 生 成 : 融 合 三 种 分 析

15、结果 来 选 择 组 成 文 摘 的 文 摘 句 ; 应 用 指 代 消 解 整 合 各文 摘 句 , 以 生 成 较 连 贯 流 畅 的 文 摘 。2.1 改 进 的 浅 层 主 题 特 征 分 析在 分 析 研 究 大 量 网 络 文 档 后 , 系 统 对 主 题 特 征词 的 处 理 进 行 了 改 进 , 对 其 进 行 进 一 步 分 析 , 对 不同 类 型 的 特 征 词 采 用 不 同 的 处 理 方 法 , 去 掉 其 中 抽象 无 用 的 内 容 , 将 有 意 义 的 词 置 入 主 题 词 集 , 再 利用 HowNet 知 识 库 12对 其 进 行 扩 展 , 将

16、 与 之 有 同义 、 上 义 等 关 系 的 词 也 置 入 主 题 词 集 , 以 避 免 特 征主题特征词动态分析主题特征分析主题词集扩展基于主题词加权文档预处理词汇链分析选择候选词构造词汇链链权重计算选择典型词基于词汇链加权文档结构初始化知识库文档内容结构分析话语结构分析子主题切分修辞结构分析基于内容加权融合三种分析的结果及摘要抽取生成抽取文摘句指代消解文档摘要多知识源融合图 1 多 知 识 源 融 合 的 自 动 摘 要 系 统 结 构 图 的 遗 漏 。 这 里 出 于 评 测 比 较 的 需 要 , 主 要 关 注 标 题中 的 词 。 标 题 和 文 章 的 主 题 之 间 有

17、 着 紧 密 的 联 系 。为 了 详 细 分 析 标 题 与 主 题 之 间 的 关 系 , 我 们 从 互 联网 上 收 集 了 100 篇 不 同 风 格 的 文 章 并 对 其 进 行 分 类简 化 。 根 据 标 题 多 大 程 度 地 反 应 了 文 章 的 主 题 , 我们 将 文 章 的 标 题 分 为 2 类 : “具 体 型 ”标 题 和 “抽象 型 ”标 题 。 “具 体 型 ”标 题 明 显 指 示 了 文 章 的 主题 , 如 女 足 确 定 奥 运 会 目 标 : 至 少 进 入 前 四 争取 夺 奖 牌 。 “抽 象 型 ”标 题 常 常 是 文 章 主 题 的

18、一 种比 喻 性 表 达 , 特 点 是 标 题 中 词 很 少 出 现 在 正 文 中 ,如 世 界 杯 决 赛 “亚 洲 三 龙 ”能 否 升 天 ; 这 类 标题 还 包 含 “疑 问 型 ”, 如 环 球 嘉 年 华 到 底 要 从 北京 人 的 兜 里 掏 走 多 少 钱 ? 。 分 析 发 现 ,“抽 象 型 ”标 题 对 文 章 分 析 用 途 很 少 , 而 “具 体 型 ”标 题 常 常就 是 文 章 的 主 题 , 为 此 系 统 作 了 相 应 的 分 析 处 理 。基 于 动 态 主 题 特 征 的 算 法 描 述 如 下 :1) 提 取 文 档 标 题 , 对 其 进

19、 行 分 词 处 理 , 过 滤 掉 其中 的 停 用 词 , 将 标 题 特 征 词 集 存 入 向 量 Vh;2) 提 取 文 档 第 一 段 、 第 二 段 、 末 段 , 将 内 容 词 集存 入 向 量 Vc;3) 如 果 |Vh Vc|P, 则 判 断 文 档 标 题 为 “抽 象 型 ”标 题 。 其 中 , P 为 一 个 给 定 阈 值 , 根 据 实 验 确定 为 3; |为 集 合 的 势 ;4) , 如 x 疑 问 词 库 , 文 档 标 题 也 判 断hV为 “抽 象 型 ”标 题 , 其 中 疑 问 词 库 为 事 先 构 造 ;5) 如 果 标 题 无 3)或 4

20、)中 特 征 , 则 判 断 其 为 “具体 型 ”标 题 ;6) 对 于 有 “具 体 型 ”标 题 的 文 章 , 分 析 其 标 题 并将 其 中 有 意 义 的 词 置 入 主 题 词 集 ;7) 对 主 题 词 集 中 属 于 HowNet 词 库 的 词 w 进 行 扩展 : 取 w 在 HowNet 词 库 中 的 部 分DEF( concept definition) 词 集 D, 如 果D 停 用 词 库 , 将 D 存 入 主 题 词 集 ; 其 中 ,DEF 中 先 过 滤 掉 一 些 普 通 的 含 义 较 泛 的 词 , 如“属 性 ”、 “事 件 ”等 ;8) 遍

21、历 全 文 中 句 子 , 根 据 主 题 词 集 给 文 档 中 各 句赋 予 一 定 的 权 值 。9) 将 各 句 权 值 按 各 句 在 原 文 中 顺 序 输 出 到 一 个 文档 中 , 用 于 多 知 识 融 合 。2.2 改 进 的 词 汇 链 分 析这 里 使 用 HowNet 知 识 库 作 为 计 算 词 汇 链 的 主要 知 识 库 , 将 词 汇 链 方 法 首 次 应 用 于 中 文 自 动 摘 要 ,并 对 原 始 词 汇 链 方 法 3改 进 如 下 : 利 用 更 多 词 条间 关 系 而 不 仅 是 名 词 间 的 关 系 来 提 取 文 章 主 题 , 提

22、高 文 摘 质 量 ; 通 过 实 验 比 较 过 滤 掉 HowNet 词 库 中一 些 有 较 少 语 义 含 义 的 DEF,如 “属 性 ”、 “事 件 ”等 , 消 除 词 的 DEF 歧 义 , 避 免 其 干 扰 词 间 关 系 的判 断 以 致 构 造 出 错 误 的 链 ; 结 合 HowNet 词 库 及 中文 文 章 特 点 , 修 改 词 汇 链 构 造 时 的 判 断 规 则 , 使 系统 性 能 在 精 确 率 和 召 回 率 上 均 有 明 显 提 高 。 算 法 描述 如 下 :1) 读 取 文 件 , 进 行 分 词 处 理 将 其 转 换 为 词 串 ;2)

23、 过 滤 停 用 词 , 选 择 属 于 HowNet 知 识 库 中 的 词w1w2wn 入 候 选 词 集 ;3) 读 入 一 个 词 wi (i 1,n), 根 据 链 成 员 间 的 相 关标 准 , 为 wi 寻 找 一 条 适 当 的 链 L 并 将 wi 及 其在 HowNet 词 库 中 的 部 分 DEF 词 集 Di 插 入 链 ,如 果 找 到 这 样 的 链 则 转 第 6 步 ; 相 关 标 准 为 :wi 和 链 L 中 词 wr ( ri )在 HowNet 中 DEF 词集 Di 和 Dr 中 成 员 存 在 特 定 依 赖 关 系 ;4) 为 候 选 词 wi

24、 构 造 一 条 新 链 ;5) 如 果 未 到 候 选 词 集 尾 , 则 转 第 3 步 ;6) 计 算 各 词 汇 链 的 权 重 值 S:(1)Km1(2)H其 中 , 为 链 中 第 m 个 词 wm 在 文 中 出 现 的 频数 , K 为 链 中 成 员 数 , H 是 一 个 均 一 性 指 数 ;7) 将 各 词 汇 链 按 权 值 从 高 到 低 排 序 , 删 去 成 员 数为 1 的 链 ;8) 逐 条 读 入 词 汇 链 , 从 中 各 选 择 一 个 典 型 词 wj 代表 该 链 主 题 , wj 满 足 : , 其Kmj1中 为 词 wj 在 文 中 出 现 的

25、 频 数 ;j9) 从 文 中 找 到 包 含 强 链 中 典 型 词 首 次 出 现 的 句 子 ,依 链 分 值 赋 予 该 句 一 个 权 值 ; 若 该 句 已 赋 有 权值 则 对 典 型 词 在 文 中 下 次 出 现 的 句 子 赋 此 权 值 。2.3 话 语 结 构 分 析基 于 话 语 结 构 的 文 档 分 析 综 合 文 本 的 中 心 语 义 、各 个 主 要 单 元 间 的 内 在 逻 辑 关 系 及 每 个 基 本 单 元 的信 息 含 量 等 , 再 将 分 析 的 结 果 按 一 个 统 一 的 量 化 度量 融 合 到 一 起 , 给 文 档 中 每 个 句

26、 子 赋 予 一 定 权 值 ,以 定 量 确 定 其 在 文 章 中 的 作 用 。 具 体 算 法 如 下 :1) 进 行 内 容 结 构 分 析 , 借 助 通 过 大 规 模 语 料 库 人工 总 结 构 造 出 的 层 次 结 构 分 析 词 典 , 分 析 文 本单 元 之 间 在 内 容 上 的 逻 辑 关 系 , 建 立 一 棵 层 次结 构 依 存 树 Ts;2) 若 各 自 然 段 间 只 存 在 顺 序 关 系 , 则 进 行 子 主 题划 分 ,否 则 转 4;3) 将 子 主 题 划 分 后 位 于 同 一 意 义 段 的 多 个 自 然 段间 的 关 系 修 改 为

27、 并 列 关 系 并 重 新 构 造 每 个 意 义段 内 部 的 结 构 树 , 意 义 段 间 按 顺 序 关 系 重 新 构造 内 容 结 构 树 ; 4) 进 行 语 句 间 的 修 辞 结 构 分 析 , 借 助 大 规 模 文 档研 究 总 结 的 连 接 结 构 分 析 词 典 , 分 析 各 文 本 单元 之 间 的 相 互 关 系 , 构 造 一 颗 修 辞 结 构 树 Tr;5) 对 修 辞 结 构 树 和 内 容 结 构 树 进 行 重 构 , 将 树 中父 节 点 与 其 它 节 点 的 关 系 传 递 到 隶 属 关 系 中 的子 节 点 , 使 树 中 仅 保 留

28、对 应 于 文 摘 抽 取 的 基 本单 元 ( 复 句 ) 的 节 点 ;6) 遍 历 重 构 的 修 辞 结 构 树 Tr 和 内 容 结 构 树Ts , 依 规 则 融 合 两 树 构 造 一 个 有 向 图G(V,E,Wc), 图 中 每 个 节 点 vi 唯 一 对 应 于 文 档 中一 个 文 摘 基 本 单 元 ; 其 中 V 是 图 中 顶 点 集 , E是 各 顶 点 间 有 向 边 的 集 合 , Wc 是 顶 点 间 各 有 向边 的 连 接 权 值 ;7) 遍 历 构 造 出 的 有 向 图 G(V,E,Wc), 将 有 向 图 中 的每 种 连 接 关 系 ei 转

29、化 成 统 一 的 量 化 度 量 , 根 据加 权 规 则 计 算 图 中 每 个 节 点 vi 的 权 值 wci, 完成 对 文 摘 基 本 单 元 加 权 。2.4 多 知 识 源 融 合 生 成 文 摘多 种 分 析 结 果 需 要 融 合 在 一 起 , 以 定 量 确 定 各语 句 在 文 章 中 作 用 , 给 文 摘 抽 取 提 供 一 个 量 化 标 准 。由 于 获 取 的 结 果 所 对 应 的 基 本 单 元 相 同 , 即 同 一 文本 基 本 单 元 对 应 着 三 种 分 析 设 定 的 三 个 不 同 权 值 ,融 合 时 只 需 将 这 三 个 权 值 按

30、特 定 算 法 进 行 加 权 叠 加即 可 。 为 简 单 而 无 冲 突 地 融 合 这 些 分 析 结 果 , 权 值融 合 采 用 线 性 插 值 方 法 , 加 权 系 数 采 用 遗 传 算 法13进 行 确 定 和 优 化 。 这 样 的 综 合 分 析 策 略 不 仅 简化 了 融 合 问 题 , 也 使 系 统 很 容 易 加 入 新 的 方 法 , 以保 证 系 统 的 开 放 性 和 可 扩 充 性 。 最 终 句 子 的 权 值W 为 :(3)csuW321其 中 , , 为 第 i 项 权 值 的 权 重 系 数 , 采31ii用 遗 传 算 法 确 定 为 0.2、

31、 0.3 和 0.5; Wu 为 基 于 主题 特 征 分 析 获 得 的 权 值 ; Ws 为 基 于 词 汇 链 方 法 获得 的 权 值 ; Wc 为 基 于 话 语 结 构 方 法 获 得 的 权 值 。各 句 的 权 值 计 算 出 来 后 , 将 各 句 依 其 权 值 排 序 。文 摘 的 构 造 方 法 是 依 次 将 权 值 最 大 的 文 摘 基 本 单 元( 复 句 ) 加 入 文 摘 , 直 到 文 摘 达 到 特 定 长 度 。 其 中长 度 以 句 数 而 非 字 数 来 计 算 。 文 摘 长 度 由 用 户 确 定 ,通 常 为 原 文 长 度 的 5%-30%

32、。根 据 各 句 权 值 抽 取 文 摘 句 后 , 需 要 将 这 些 从 原文 抽 取 的 文 摘 句 重 新 组 织 , 按 其 在 原 文 中 顺 序 排 列 。因 为 算 法 得 到 的 文 摘 句 是 根 据 其 权 值 从 文 档 中 各 自独 立 地 抽 取 的 , 相 互 之 间 可 能 缺 少 一 定 的 逻 辑 上 的连 贯 性 及 流 畅 性 , 故 在 此 应 用 指 代 消 解 技 术 进 行 改进 。 为 解 决 指 代 问 题 , 须 先 将 文 档 中 相 关 的 人 名 识别 出 来 。 考 虑 到 摘 要 系 统 的 实 时 性 、 准 确 性 要 求 ,

33、经 过 对 大 规 模 真 实 语 料 的 统 计 研 究 , 系 统 采 用 计 算语 言 模 型 与 人 名 相 关 规 则 结 合 的 识 别 方 法 14, 借助 手 工 收 集 的 人 名 识 别 的 统 计 资 源 , 可 较 快 速 准 确地 识 别 出 文 档 中 人 名 。 然 后 通 过 对 大 量 汉 语 句 子 的分 析 、 文 章 中 句 子 、 段 落 之 间 的 结 构 关 系 分 析 、 和简 单 的 人 名 及 人 称 代 词 格 属 性 分 析 , 系 统 提 出 一 些指 代 消 解 规 则 和 基 于 这 些 规 则 的 消 解 算 法 。 算 法 能处

34、 理 文 章 中 出 现 的 80%以 上 的 指 代 现 象 , 这 样 生 成的 文 摘 已 能 较 好 地 满 足 用 户 要 求 。3 实 验 结 果 与 评 价通 常 有 两 种 评 价 方 法 : 内 部 评 价 方 法 、 外 部 评价 方 法 。 内 部 评 价 方 法 直 接 分 析 评 价 自 动 摘 要 系 统生 成 的 文 摘 , 通 过 比 较 来 判 断 文 摘 中 包 括 了 多 少 原文 的 主 题 内 容 及 文 摘 的 流 畅 度 等 。 如 将 自 动 摘 要 系统 生 成 的 文 摘 与 原 文 比 较 、 与 人 工 生 成 的 “理 想 ”文 摘 比

35、 较 、 与 不 同 自 动 摘 要 系 统 生 成 的 文 摘 比 较 等 。外 部 评 价 通 过 自 动 摘 要 系 统 对 某 项 工 作 的 作 用 来 评价 文 摘 质 量 。 例 如 , 用 户 使 用 文 摘 确 定 原 文 主 题 的程 度 、 用 户 基 于 文 摘 能 回 答 的 原 文 有 关 问 题 的 程 度等 。 本 文 采 用 的 是 一 种 内 部 评 价 方 法 , 先 对 系 统 进行 定 量 评 测 , 再 采 用 主 观 评 价 对 系 统 打 分 评 定 。3.1 多 知 识 源 融 合 的 自 动 摘 要 系 统 评 测评 价 实 验 构 建 如

36、下 : 从 网 络 上 收 集 100 篇 不 同风 格 的 新 闻 文 章 作 为 测 试 语 料 ; 对 于 每 篇 文 章 , 三位 专 家 各 自 独 立 地 从 中 抽 取 构 造 与 原 文 长 度 比 率 分别 为 10%和 20%的 手 工 文 摘 , 作 为 “理 想 ”文 摘 。其 中 文 章 长 度 以 句 子 数 来 计 算 。 这 样 一 共 构 造 了600 篇 “理 想 ”文 摘 。 然 后 将 系 统 生 成 的 文 摘 与 手工 抽 取 的 “理 想 ”文 摘 作 比 较 , 通 过 计 算 平 均 精 确率 和 召 回 率 来 评 价 系 统 生 成 文 摘

37、 的 质 量 。 精 确 率( Precision) 和 召 回 率 ( Recall) 按 如 下 公 式 计 算 :(4)mtSisr(5)cale其 中 , Sm 是 系 统 生 成 文 摘 的 句 子 集 , St 是 三 位 专 家手 工 抽 取 的 文 摘 并 集 , Sc 是 三 位 专 家 手 工 抽 取 的 文摘 交 集 , 算 子 “|”取 集 合 的 势 。系 统 性 能 评 价 结 果 如 表 1 所 示 , 比 较 了 多 知 识源 融 合 的 自 动 摘 要 系 统 a、 基 于 原 始 词 汇 链 方 法 的自 动 摘 要 系 统 b、 基 于 改 进 词 汇 链

38、 方 法 的 自 动 摘 要系 统 c、 基 于 话 语 结 构 方 法 的 自 动 摘 要 系 统 d 的 性能 :表 1 系 统 性 能 评 价摘 要 比 率 系 统a系 统b系 统c系 统d精 确 率 0.763 0.672 0.726 0.71410%召 回 率 0.795 0.729 0.772 0.76精 确 率 0.75 0.654 0.712 0.72820%召 回 率 0.781 0.694 0.75 0.74由 表 1 可 见 , 与 仅 基 于 单 一 话 语 结 构 或 词 汇 链 方 法的 摘 要 系 统 b、 c、 d 相 比 , 多 知 识 融 合 的 摘 要 系

39、 统a 在 精 确 率 和 召 回 率 上 均 有 明 显 提 高 。 这 表 明 系 统有 效 地 融 合 了 这 几 种 分 析 方 法 , 在 满 足 系 统 处 理 性能 的 同 时 也 进 一 步 提 高 了 生 成 文 摘 的 质 量 。 其 中 ,基 于 改 进 词 汇 链 方 法 的 系 统 c 的 性 能 也 比 采 用 原 方法 的 系 统 b 有 所 提 高 。 此 外 10%比 率 的 文 摘 质 量 要明 显 好 于 20%比 率 的 文 摘 , 这 显 示 随 着 文 摘 长 度 的增 加 , 文 摘 间 差 异 也 扩 大 了 。 事 实 上 , 各 个 专 家

40、所做 的 手 工 文 摘 之 间 的 差 异 也 是 随 文 摘 长 度 增 加 的 。此 外 , 虽 然 系 统 所 用 语 料 为 网 络 新 闻 类 文 档 , 但 系统 中 引 入 的 主 要 分 析 方 法 与 文 本 所 属 领 域 无 关 , 因而 系 统 具 有 良 好 的 移 植 性 能 。3.2 主 观 评 价 多 知 识 源 融 合 的 自 动 摘 要 系 统主 观 评 价 由 几 位 专 家 在 综 合 考 虑 文 摘 的 主 题 倾向 性 、 完 整 性 、 概 括 性 、 可 读 性 等 因 素 后 , 对 系 统生 成 的 100 篇 文 档 的 文 摘 的 可

41、接 受 度 给 予 打 分 评 定 。表 2 给 出 对 多 知 识 源 融 合 的 系 统 生 成 的 文 摘 ( 方 法1) 和 仅 融 合 词 汇 链 方 法 及 话 语 结 构 方 法 而 不 包 含改 进 浅 层 主 题 特 征 分 析 的 系 统 生 成 的 文 摘 ( 方 法2) 的 可 接 受 度 评 价 结 果 :表 2 文 摘 的 可 接 受 度 评 价可 接 受 度 方 法 1 方 法 2较 好 78 篇 71 篇一 般 13 篇 17 篇差 9 篇 12 篇评 价 结 果 表 明 , 与 不 包 含 改 进 浅 层 主 题 特 征 分 析 的方 法 2 相 比 , 多

42、知 识 源 融 合 的 方 法 1 的 文 摘 性 能 有明 显 提 高 。 仔 细 分 析 各 系 统 所 获 得 的 文 摘 结 果 发 现 ,采 用 动 态 主 题 特 征 分 析 方 法 , 根 据 标 题 的 “抽 象 ”或 “具 体 ”类 型 判 断 是 否 需 要 融 合 主 题 词 , 系 统 往往 能 将 文 本 中 一 些 具 有 画 龙 点 睛 作 用 的 关 键 性 主 题句 提 取 出 来 , 从 而 明 显 改 进 了 系 统 的 性 能 ; 同 时 也避 免 如 果 对 不 同 类 型 的 特 征 词 作 相 同 的 处 理 会 给 系统 加 入 一 些 无 用

43、甚 至 有 误 导 性 的 标 题 特 征 的 问 题 。4 结 论多 知 识 源 融 合 的 自 动 摘 要 方 法 在 进 行 特 征 词 条动 态 分 析 的 基 础 上 结 合 词 汇 链 分 析 方 法 和 话 语 结 构分 析 方 法 , 生 成 具 有 良 好 连 贯 性 和 流 畅 性 的 文 摘 。评 价 结 果 显 示 , 与 采 用 单 一 方 法 的 自 动 摘 要 系 统 相比 较 , 该 系 统 生 成 的 文 摘 质 量 有 明 显 提 高 。在 今 后 的 工 作 中 将 深 入 研 究 语 言 生 成 问 题 , 结合 未 登 陆 词 识 别 等 技 术 ,

44、进 一 步 改 进 生 成 的 自 动 文摘 的 质 量 , 使 其 更 接 近 人 工 文 摘 的 自 然 性 、 流 畅 性 。参 考 文 献1 Mani I, Maybury M. Advances in automatic text summarization. Cambridge: MIT Press, 1999. I-VIII2 Kupiec J, Pedersen J, and Chen F. A trainable document summarizer. In: Proceedings of the 18th Annual International ACM SIGIR Co

45、nference on Research and Development in Information Retrieval, Seattle, Washington. July 1995: 68-733 Barzilay R, Elhadad M. Using lexical chains for text summarization. In Mani I, Maybury M, editors, Advances in automatic text summarization. Cambridge: MIT Press, 1999: 111-1224 Marcu D. The rhetori

46、cal parsing of natural language texts. In: Proceedings of the 35th Annual Meeting of the Association for Computational Linguistics. July 1997: 96-1035 Cremmins E T. The art of abstracting. 2nd Edition. Arlington, Va.: Information Resources Press, 1996: 160-1606 Morris J, Hirst G. Lexical cohesion co

47、mputed by thesaural relations as an indicator of the structure of the text. Computational Linguistics, 1991, 17(1): 21-487 Chan S W. Extraction of salient textual patterns: synergy between lexical cohesion and contextual coherence. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems

48、 and Humans, 2004, 34(2): 205-2188 Alam H, Kumar A, Nakamura M, et al. Structured and unstructured document summarization: design of a commercial summarizer using lexical chains. In: Proceedings of the 7th International Conference on Document Analysis and Recognition. August 2003: 1147-11509Qing-cai

49、 Chen, Xiao-long Wang, Bing-quan Liu, et al. Subtopic segmentation of Chinese document: an adapted Dotplot approach. In: Proceedings of International Conference on Machine Learning and Cybernetics. November 2002: 1571-157610Reynar J C. An automatic method of finding topic boundaries. In: Proceedings of the 32nd Annual Meeting of the Association for Computational Linguistics. 1994: 331-33311刘 挺 ,王 开 铸 .基 于 篇 章 多 级 依 存 结 构 的 自 动 文 摘 研 究 . 计 算 机 研 究 与 发 展 , 1999

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 毕业论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报