收藏 分享(赏)

中文语句相似度计算的方法初探3.pdf

上传人:kuailexingkong 文档编号:1700939 上传时间:2018-08-18 格式:PDF 页数:4 大小:250.38KB
下载 相关 举报
中文语句相似度计算的方法初探3.pdf_第1页
第1页 / 共4页
中文语句相似度计算的方法初探3.pdf_第2页
第2页 / 共4页
中文语句相似度计算的方法初探3.pdf_第3页
第3页 / 共4页
中文语句相似度计算的方法初探3.pdf_第4页
第4页 / 共4页
亲,该文档总共4页,全部预览完了,如果喜欢就下载吧!
资源描述

1、第 16 卷 第 4 期2009 年 8 月兰 州 工 业 高 等 专 科 学 校 学 报Journal of Lanzhou Polytechnic CollegeVol. 16 ,N0. 4Aug. ,2009文 章 编 号 :1009 - 2269 (2009) 04 - 0001 - 03中 文 语 句 相 似 度 计 算 的 方 法 初 探 3李 伟(安 徽 工 业 大 学 计 算 机 学 院 ,安 徽 马 鞍 山 243002)摘 要 : 分 析 了 中 文 自 然 语 言 处 理 中 句 子 相 似 度 的 计 算 方 法 ,介 绍 了 基 于 向 量 空 间 模 型 的 TF

2、-IDF 的 、 基 于 句 子 语 义 和 基 于 句 子 依 存 关 系 的 三 种 句 子 相 似 度 计 算 模 型 ,并 对 它 们 的 计 算 原 理 、 计算 方 法 进 行 了 分 析 ,给 出 了 他 们 的 优 缺 点 . 基 于 向 量 空 间 模 型 的 句 子 相 似 度 计 算 模 型 已 经 比 较 成熟 ,一 般 情 况 下 能 够 产 生 较 好 的 效 果 . 由 于 TF - IDF 方 法 没 有 考 虑 这 种 语 义 信 息 ,所 以 传 统 的 TF- IDF 方 法 具 有 一 定 的 局 限 性 . 而 基 于 句 子 语 义 或 句 子 的

3、依 存 结 构 来 进 行 相 似 度 计 算 ,能 达 到 更好 的 效 果 .关 键 词 : TF - IDF ;语 义 ;依 存 结 构 ;相 似 度 计 算 ;模 型中 图 分 类 号 : TP 301. 6 文 献 标 识 码 : A相 似 度 是 一 个 很 复 杂 的 概 念 ,语 义 学 、 哲 学 和信 息 理 论 中 被 广 泛 地 讨 论 . 句 子 间 相 似 度 的 计 算在 自 然 语 言 处 理 的 各 个 领 域 都 占 有 很 重 要 的 地位 ,在 基 于 实 例 的 机 器 翻 译 、 自 动 问 答 和 多 文 档 文摘 系 统 中 ,语 句 相 似 度

4、 的 计 算 是 一 个 关 键 问 题 ,而语 句 相 似 度 的 衡 量 机 制 与 对 语 句 的 分 析 深 度 是 密切 相 关 的 . 在 相 似 度 计 算 中 ,按 照 对 语 句 的 分 析 深度 来 看 ,主 要 存 在 两 种 方 法 : 1) 基 于 向 量 空 间 模的 TF - IDF 的 方 法 . 该 方 法 把 句 子 看 成 词 的 线 性序 列 ,不 对 语 句 进 行 语 法 结 构 分 析 ,相 应 的 语 句 相似 度 衡 量 机 制 只 能 利 用 句 子 的 表 层 信 息 ,即 组 成句 子 的 词 的 词 频 、 词 性 等 信 息 . 由

5、于 不 加 任 何 结 构分 析 ,该 方 法 在 计 算 语 句 之 间 的 相 似 度 时 不 能 考虑 句 子 整 体 结 构 的 相 似 性 . 2) 对 语 句 进 行 完 全 的句 法 与 语 义 分 析 ,这 是 一 种 深 层 结 构 分 析 法 ,对 被比 较 的 两 个 句 子 进 行 深 层 的 句 法 分 析 ,还 可 以 结合 句 子 语 义 进 行 相 似 度 计 算 .1 基 于 向 量 空 间 模 型 的 TF - IDF方 法基 于 向 量 空 间 模 型 的 TF - IDF 方 法 属 于 统计 方 法 1 ,它 基 于 关 键 词 在 知 识 库 中 的

6、 出 现 词 频 ,建 立 在 大 量 真 实 文 本 语 料 基 础 之 上 . 在 自 动 问 答系 统 中 2 ,若 用 户 提 问 与 候 选 答 案 包 含 的 所 有 词为 W 1 , W 2 , , W n ,则 问 句 用 一 个 n 维 的 向 量 T =来 表 示 . 其 中 Ti = n 3 log ( Mm )(1 i n) , n 为 词 W i 在 这 个 问 句 中 出 现 的 个 数 ,m 为 知 识 库 中 含 有 词 W i 的 问 句 的 个 数 , M 为FAQ 库 中 问 句 的 总 数 ,以 上 Ti 的 表 达 式 综 合 反 映了 一 个 关 键

7、 词 的 出 现 频 率 和 这 个 关 键 词 对 不 同 问句 的 分 辨 能 力 ,因 为 出 现 次 数 多 的 关 键 词 n 值 大 ,但 是 这 样 的 关 键 词 的 log ( Mm ) 的 值 并 不 一 定 大 . 例如 ,在 汉 语 中 “ 的 ” 出 现 的 频 率 非 常 高 ,即 IF 值 很大 ,但 是 由 于 “ 的 ” 在 很 多 问 句 中 都 会 出 现 ,他 对 于分 辨 各 个 问 句 并 没 有 太 大 的 帮 助 , 他 的 IDF 值log ( Mm ) 将 是 一 个 很 小 的 数 . 同 样 地 ,候 选 答 案 用 一个 n 维 的 向

8、 量 T = 来 表 示 .得 到 的 T 和 T 后 ,他 们 所 对 应 的 两 个 句 子 之 间 的相 似 度 就 可 以 利 用 T 和 T 这 两 个 向 量 之 间 夹 角3 收 稿 日 期 :2009203204作 者 简 介 :李 伟 (19772) ,男 ,安 徽 临 泉 人 ,讲 师 .的 余 弦 值 来 表 示 .S ( T , T ) =ni = 1Ti T1( ni = 1T2i ) ( ni = 1T 2i ).TF - IDF 方 法 综 合 考 虑 了 不 同 的 词 在 问 句 中的 出 现 频 率 ( TF 值 ) 和 这 个 词 在 整 个 FAQ 库

9、中 对不 同 句 子 的 分 辨 能 力 ( IDF 值 ) . 这 种 方 法 不 需 要 任何 对 文 本 内 容 的 深 层 理 解 ,并 且 一 般 说 来 能 够 产生 较 好 的 效 果 . 但 是 单 靠 TF - IDF 方 法 往 往 不 能达 到 预 期 的 效 果 . 因 为 TF - IDF 方 法 只 考 虑 了 词在 上 下 文 中 的 统 计 特 性 ,而 没 有 考 虑 词 本 身 的 语义 信 息 . 例 如 :“ 西 红 柿 是 什 么 颜 色 ?”“ 番 茄 是 什 么 颜 色 ?”他 们 表 达 的 应 该 是 完 全 相 同 的 意 思 ,因 为 “

10、西红 柿 ” 和 “ 番 茄 ” 在 语 义 上 是 等 价 的 . 由 于 TF - IDF方 法 没 有 考 虑 这 种 语 义 信 息 ,所 以 传 统 的 TF -IDF 方 法 具 有 一 定 的 局 限 性 . 一 般 采 用 在 TF -IDF 向 量 空 间 的 元 素 构 成 中 加 入 语 义 信 息 ,以 消 除词 的 同 义 和 多 义 现 象 . 为 分 辨 词 的 同 义 和 多 义 现象 ,可 以 采 用 构 造 语 义 树 或 用 语 义 网 (如 Word2Net , Hownet)的 方 法 .2 句 子 语 义 相 似 度 分 析 3 计 算 语 义 相

11、似 度 ,需 要 一 定 的 语 义 知 识 资 源作 为 基 础 . 一 般 采 用 董 振 东 和 董 强 先 生 创 建 的 知网 ( HowNet) 4 作 为 系 统 的 语 义 知 识 资 源 . 知 网 中提 供 了 义 原 分 类 树 . 义 原 分 类 树 把 各 个 义 原 及 它们 之 间 的 联 系 以 树 的 形 式 组 织 在 一 起 ,树 中 父 节点 和 子 节 点 的 义 原 具 有 上 下 位 的 关 系 . 可 以 利 用义 原 分 类 树 计 算 2 个 词 之 间 的 语 义 距 离 . 知 网 中存 在 Entity、 Event 、 Attribu

12、te 等 11 棵 义 原 树 . 但有 些 义 原 树 ,例 如 Converse 、 Antonym 等 ,里 面 的义 原 没 有 父 子 关 系 ,并 不 体 现 上 述 的 词 与 词 之 间的 上 下 位 特 征 ,因 此 无 法 使 用 . 在 11 棵 义 原 树 中总 共 选 取 了 以 下 6 棵 义 原 树 用 来 计 算 词 的 语 义 距离 : Entity、 Event 、 Attribute、 Attribute Value、Quantity、 Quantity Value.首 先 需 要 计 算 2 个 词 之 间 的 语 义 距 离 . 这 里 ,把 语 义

13、距 离 定 义 为 2 个 词 对 应 的 义 原 在 义 原 树 中的 最 短 距 离 . 如 果 2 个 词 中 有 一 个 词 的 义 原 无 法在 6 棵 义 原 树 中 找 到 ,或 者 2 个 词 的 义 原 分 别 处 于2 个 不 同 的 义 原 树 ,则 认 为 这 2 个 词 之 间 的 语 义 距离 为 . 设 2 个 词 U ,V 之 间 的 语 义 距 离 为 D ,那 么U ,V 之 间 的 相 似 度 可 以 为 :s(U ,V ) = D/ p , p 0 , p = .式 中 : D = T1 T2 - T1 T2 . T1 、 T2分 别 是 2 个词 所

14、在 义 原 树 从 树 根 到 该 节 点 语 义 元 素 集 合 , T1 T2是 义 原 树 中 从 树 根 到 U , V 各 自 语 义 节 点 包括 的 所 有 义 原 的 集 合 , T1 T2是 该 集 合 元 素 个 数 ,T1 T2 表 示 U , V 对 应 语 义 树 相 同 语 义 节 点 集合 , T1 T2 表 示 公 共 节 点 的 个 数 ,则 D 表 示 义 原树 中 U ,V 这 2 个 节 点 的 路 径 最 短 距 离 . 不 同 的 义原 树 的 长 度 不 同 ,需 做 归 一 化 处 理 , p 为 义 原 树 的总 节 点 层 次 级 数 . 因

15、 此 ,2 个 词 相 似 度 取 值 在 0 到 1之 间 .有 了 词 与 词 之 间 的 语 义 相 似 度 ,就 可 以 来 计算 句 子 间 的 语 义 相 似 度 . 设 2 个 句 子 A 和 B , A 包含 的 词 为 A 1 、 A2 、 、 A m , B 包 含 的 词 为 B 1 、 B2 、 、 B n ,则 词 A i (1 i m) 和 B j (1 j n) 之 间的 相 似 度 可 用 s ( A i , B j ) 来 表 示 ,这 样 就 得 到 2 个句 子 中 任 意 2 个 词 的 相 似 度 . A , B 句 子 之 间 的 语义 相 似 度

16、s ( A , B) 为 :s( A , B) = mi = 1aim +ni = 1bin / 2.式 中 : ai = max ( s( A i , B1 ) , s ( A i , B2 ) , , s ( A i ,B n) ) ; bi = max ( s ( B i , A1 ) , s ( B i , A2 ) , ,s ( B i , A n) ) .3 基 于 句 子 依 存 关 系 的 相 似 度 计 算3. 1 句 子 依 存 结 构 的 建 立利 用 依 存 结 构 计 算 句 子 间 的 相 似 度 ,关 键 的一 步 是 如 何 获 得 句 子 各 成 分 间 的

17、依 存 关 系 信 息 .在 此 ,采 用 了 哈 尔 滨 工 业 大 学 计 算 机 科 学 与 技 术学 院 智 能 内 容 管 理 实 验 室 所 做 的 依 存 句 法 分 析器 5 . 目 前 该 分 析 器 对 依 存 弧 的 标 记 准 确 率 能 达到 86 %以 上 . 通 过 该 依 存 句 法 分 析 器 的 分 析 ,句 子各 成 分 之 间 的 依 存 关 系 如 图 1 所 示 .2 兰 州 工 业 高 等 专 科 学 校 学 报 第 16 卷图 1 依 存 关 系例 如 :爱 因 斯 坦 是 一 位 当 代 杰 出 人 才 .我 们 把 该 结 果 形 成 立 体

18、 结 构 的 依 存 树 (图 2).图 2 依 存 树有 了 句 子 的 依 存 结 构 信 息 ,就 可 以 用 它 来 计算 句 子 间 的 相 似 度 了 .3. 2 相 似 度 计 算我 们 知 道 ,依 存 树 是 一 个 复 杂 的 非 线 性 关 系 ,如 果 对 整 个 依 存 树 进 行 完 全 匹 配 的 话 ,所 花 费 的代 价 是 巨 大 的 ;另 外 ,一 个 完 整 的 汉 语 句 子 是 由 句子 的 关 键 成 分 和 修 饰 成 分 所 构 成 ,而 人 们 往 往 从关 键 成 分 就 可 以 了 解 一 个 句 子 的 大 概 意 思 . 但 由于 汉

19、 语 表 达 形 式 的 多 样 性 ,相 同 的 关 键 成 分 可 用不 同 的 修 饰 成 分 来 修 饰 ,如 果 强 调 修 饰 成 分 ,这 无疑 会 给 句 子 间 相 似 度 的 计 算 增 加 噪 音 . 基 于 以 上两 点 ,在 利 用 依 存 结 构 进 行 相 似 度 计 算 时 ,只 考 虑那 些 有 效 搭 配 对 之 间 的 相 似 程 度 . 所 谓 有 效 搭 配对 是 指 全 句 核 心 词 和 直 接 依 存 于 其 有 效 词 组 成 的搭 配 对 ,这 里 有 效 词 定 义 为 动 词 、 名 词 以 及 形 容词 ,它 是 由 分 词 后 的 词

20、 性 标 注 决 定 的 . 例 如 以 下 两个 句 子 间 的 比 较 :例 句 1 事 发 后 ,伤 员 被 及 时 送 往 就 近 医 院 救治 .例 句 2 晚 上 7 时 左 右 ,所 有 伤 员 被 送 到 了 医院 .从 图 3 和 图 4 中 可 以 看 出 ,图 中 标 记 为 斜 体 的词 就 可 以 代 表 各 自 句 子 的 主 要 意 思 ,所 以 句 子 1的 有 效 搭 配 对 为 :送 往 伤 员 、 送 往 医 院 、 送 往 救 治 .句 子 2 的 有 效 搭 配 对 为 :送 到 伤 员 、 送 到 医 院 . 我们 只 要 比 较 它 们 之 间 的

21、 相 似 程 度 即 可 ,这 样 一 来比 较 算 法 的 复 杂 度 就 大 大 降 低 了 ,而 准 确 率 也 会得 到 一 定 程 度 的 提 高 . 相 似 度 计 算 公 式 如 下 :s ( A , B) =ni = 1W iMA X PairCount1 ,PairCount2式 中 , ni = 1W i 为 句 子 1 和 句 子 2 有 效 搭 配 对 匹 配 的总 权 重 , PairCount1 为 句 子 1 的 有 效 搭 配 对 数 ,PairCount2 为 句 子 2 的 有 效 搭 配 对 数 .图 3 例 句 1 的 依 存 树 图 4 例 句 2 的

22、 依 存 树在 此 算 法 中 ,搭 配 对 的 匹 配 权 重 被 定 义 为 :假 设 有 两 个 搭 配 对 : Word1 Word2 ; Word1 Word2 . 如 果 Word1 = Word1 且 Word2= Word2 则 搭 配 对 和 搭 配 对 的 匹 配 权 重 为 1; 如 果 Word1 Word1 但 Word2 = Word2 或 者Word1 = Word1 但 Word2 Word2 ,则 搭 配 对 和 搭 配 对 的 匹 配 权 重 为 0. 5 ;否 则 为 0. 所 以由 上 面 的 公 式 就 可 以 求 出 例 句 1 和 例 句 2 的

23、相 似度 :SIM (Sen1 ,Sen2) = (0. 5 + 0. 5) / 3 = 0. 334 结 语TF - IDF 方 法 只 考 虑 了 词 在 上 下 文 中 的 统 计特 性 . 种 方 法 不 需 要 任 何 对 文 本 内 容 的 深 层 理 解 ,一 般 说 来 能 够 产 生 较 好 的 效 果 . 是 单 靠 TF - IDF方 法 往 往 不 能 达 到 预 期 的 效 果 ,因 为 没 有 考 虑 词本 身 的 信 息 .对 于 语 义 分 析 方 法 ,首 先 计 算 词 之 间 的 语 义 距离 ,然 后 计 算 句 子 语 义 的 相 似 度 ,在 专 业

24、 领 域 内 能 取得 较 好 的 效 果 .对 于 基 于 句 子 依 存 关 系 的 相 似 度 计算 ,考 虑 了 句 子 的 结 构 信 息 ,但 只 计 算 有 效 搭 配 对 的相 似 度 计 算 ,依 存 分 析 的 准 确 率 有 待 提 高 .参 考 文 献 :1 乌 庆 敏 ,杨 思 春 .概 念 向 量 空 间 模 型 在 职 能 答 疑 系 统中 的 应 用 J . 安 徽 工 业 大 学 学 报 ,2008 ,25 (2) :1932196. (下 转 第 24 页 )3第 4 期 李 伟 :中 文 语 句 相 似 度 计 算 的 方 法 初 探 幅 有 限 软 件

25、校 正 的 方 法 不 再 阐 述 .6 结 语综 合 上 述 分 析 ,在 混 合 信 号 处 理 电 路 设 计 中 ,如 何 提 高 A/ D 转 换 器 的 转 换 精 度 是 一 项 极 其 复 杂的 工 作 ,既 有 原 理 电 路 的 综 合 设 计 、 器 件 的 选 择 、印 制 板 的 结 构 设 计 等 硬 件 方 面 考 虑 ,又 有 系 统 各器 件 的 配 合 控 制 、 校 正 等 软 件 方 面 考 虑 . 笔 者 在 开发 研 制 折 弯 机 的 数 控 系 统 、 伺 服 放 大 器 的 检 测 效验 仪 等 多 项 课 题 中 ,对 混 合 信 号 处 理

26、 电 路 在 提 高A/ D 转 换 器 的 转 换 精 度 方 面 采 用 了 前 面 介 绍 的 方法 ,取 得 了 良 好 的 效 果 .参 考 文 献 :1 何 立 民 . 单 片 机 应 用 系 统 设 计 M . 北 京 :北 京 航 空 航天 大 学 出 版 社 ,1990.2 Stuart Ball. Analog Interfacing to Microprocessors M . Boston : Butterworth - Heinemann ,1998.3 韩 朔 嘹 . 国 外 常 用 A/ D、 D/ A 转 换 器 集 成 电 路 使 用 手册 (第 一 卷 A/

27、 D 转 换 器 (一 ) M . 广 州 :广 州 经 济 技术 开 发 区 电 脑 系 统 工 程 公 司 ,2008.4 MAXIM 产 品 资 料 全 集 (光 盘 ) 5. 0 版 Z. 美 信 集 成产 品 公 司 北 京 办 事 处 ,2001.5 周 征 . A/ D 转 换 器 参 考 电 压 的 软 件 校 正 J . 电 子元 件 与 材 料 ,2004 (2) :46248.Study on Improving Exchange Precise of A/ D ConvertorZHOU Zheng1 , L IAN G Feng2(1. Electrical Engi

28、neering Department of Lanzhou Polytechnic College , Lanzhou 730050 , China ;2. Shanghai Hualong Testing Instruments Ltd. , Shanghai 201202 , China)Abstract : The mechanics of influencing foctors to degree of accurancy of A/ D convertor is analysed , andcorresponding processing met hods are p ut forw

29、ard. It is indicated t hat t he processing met hods is effec2tive for imp roving degree of accurancy of A/ D convertor.Key words :A/ D convertor ; exchange precise ; buffer ; noise ; distortion ; reference voltage(上 接 第 3 页 )2 秦 兵 ,刘 挺 ,王 洋 ,等 . 基 于 常 问 问 题 集 的 中 文问 答 系 统 研 究 J . 哈 尔 滨 工 业 大 学 学 报 ,

30、2003 ,35(10) :117921182.3 李 素 建 . 基 于 语 义 计 算 的 语 句 相 关 度 研 究 J . 计 算机 工 程 与 应 用 J ,2002 ,38 (7) :75283.4 董 振 东 ,董 强 . 知 网 EB/ OL . http :/ / www. keen2age. com.5 李 彬 ,刘 挺 ,秦 兵 ,等 . 基 于 语 义 依 存 的 汉 语 句子 相 似 度 计 算 J . 计 算 机 应 用 研 究 ,2002 , (12) :15217.Study of Chinese Sentence Similarity Computing MethodL I Wei(College of Computer Science semantic ; dependency relationship ; similarity comp uting ; model42 兰 州 工 业 高 等 专 科 学 校 学 报 第 16 卷

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 企业管理 > 管理学资料

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报