1、计 算 机 与 现 代 化J I S U A N J I Y U X I A N D A I H U A 2 0 2 3 年 第 1 期 总 第 3 2 9 期0 引 言近 年 来,中 文 短 文 本 实 体 消 歧 成 为 自 然 语 言 处 理(N a t u r a l L a n g u a g e P r o c e s s i n g,N L P)领 域 中 众 多 下 游任 务 的 基 础 工 作,如 基 于 搜 索 引 擎 的 实 体 搜 索 任 务 1、基 于 知 识 库 的 问 答 任 务 2、知 识 图 谱 构 建 3 等,并 且 起到 了 越 来 越 重 要 的 作 用
2、。实 体 消 歧 是 指 将 一 段 文 本中 指 定 的 指 称 映 射 到 知 识 库 中 某 个 实 体 的 过 程,其 难点 主 要 在 于 知 识 库 中 一 般 存 在 多 个 与 指 称 同 名 的 实体 且 每 个 实 体 又 存 在 多 种 表 示 方 式。长 文 本 具 有 丰富 的 上 下 文 语 境 和 充 足 的 语 义 信 息,有 利 于 长 文 的 实体 消 歧。然 而 像 查 询 文 本、微 博 评 论 以 及 其 他 更 短 的文 本,由 于 上 下 文 语 境 不 够 充 分、语 义 稀 疏、文 本 口 语化 等 问 题,仅 凭 指 称 上 下 文 与 候
3、选 实 体 描 述 的 语 义 相似度来对指称进行消歧,往往难以取得较好的效果 4。针 对 基 于 短 文 本 实 体 消 歧 存 在 的 上 述 问 题,本 文提 出 一 种 基 于 多 特 征 因 子 融 合 的 实 体 消 歧 模 型,通 过使 用 多 层 感 知 机(M u l t i l a y e r P e r c e p t r o n,M L P)和 加 权融 合,将 候 选 实 体 在 不 同 角 度 的 特 征 得 分 进 行 融 合,综 合 考 虑 指 称 上 下 文 与 候 选 实 体 描 述 的 语 义 相 似 度、指 称 类 别 嵌 入 与 实 体 嵌 入 的 语
4、 义 相 似 度、同 一 查 询 文本 中 相 邻 指 称 候 选 实 体 间 的 共 现 关 系,以 及 实 体 流 行度 4 个特征,来更好地完成中文短文本的实体消歧。1 相 关 工 作1.1 中 英 文 长 文 本 消 歧 模 型早 期 的 实 体 消 歧 大 多 是 在 中 英 文 的 长 文 本 数 据集 上 进 行 的,并 且 按 照 消 歧 对 象 的 不 同 可 分 为 局 部 消歧 模 型 和 全 局 消 歧 模 型。局 部 消 歧 模 型 5-9 对 文 档 中的 每 个 指 称 单 独 消 歧,一 般 基 于 词 向 量 和 循 环 神 经 网基 于 多 特 征 因 子
5、融 合 的 中 文 短 文 本 实 体 消 歧王 永 缔,雷 刚(江 西 师 范 大 学 软 件 学 院,江 西 南 昌 3 3 0 0 2 2)摘 要:现 有 中 文 短 文 本 实 体 消 歧 模 型 在 消 歧 过 程 中 大 多 只 考 虑 指 称 上 下 文 与 候 选 实 体 描 述 的 语 义 匹 配 特 征,对 同 一 查 询文 本 中 候 选 实 体 间 的 共 现 特 征 以 及 候 选 实 体 与 实 体 指 称 类 别 相 似 特 征 等 有 效 的 消 歧 特 征 考 虑 不 足。针 对 这 些 问 题,本文 首 先 利 用 预 训 练 语 言 模 型 获 得 指 称
6、 上 下 文 与 候 选 实 体 描 述 的 语 义 匹 配 特 征;然 后,针 对 实 体 嵌 入 和 指 称 类 别 嵌 入 提 出共 现 特 征 与 类 别 特 征;最 后,通 过 融 合 上 述 特 征 实 现 基 于 多 特 征 因 子 融 合 实 体 消 歧 模 型。实 验 结 果 表 明 本 文 提 出 的 共 现特 征 及 类 别 特 征 在 实 现 实 体 消 歧 中 的 可 行 性 和 有 效 性,以 及 本 文 提 出 的 基 于 多 特 征 因 子 融 合 的 实 体 消 歧 方 法 能 够 取 得更 好 的 消 歧 效 果。关 键 词:共 现 特 征;类 别 特 征;
7、多 特 征 因 子;多 头 注 意 力;E r n i e中 图 分 类 号:T P 3 9 1 文 献 标 志 码:A D O I:1 0.3 9 6 9/j.i s s n.1 0 0 6-2 4 7 5.2 0 2 3.0 1.0 0 6C h i n e s e S h o r t T e x t E n t i t y D i s a m b i g u a t i o n B a s e d o n M u l t i-f e a t u r e F a c t o r F u s i o nW A N G Y o n g-d i,L E I G a n g(S c h o o l
8、 o f S o f t w a r e,J i a n g x i N o r m a l U n i v e r s i t y,N a n c h a n g 3 3 0 0 2 2,C h i n a)A b s t r a c t:M o s t o f t h e e x i s t i n g C h i n e s e s h o r t t e x t e n t i t y d i s a m b i g u a t i o n m o d e l s o n l y c o n s i d e r t h e s e m a n t i c m a t c h i n g
9、 f e a t u r e s b e t w e e n t h e m e n t i o n c o n t e x t a n d t h e d e s c r i p t i o n o f t h e c a n d i d a t e e n t i t y i n t h e d i s a m b i g u a t i o n p r o c e s s,a n d d o n o t c o n s i d e r t h e e f f e c t i v e d i s a m b i g u a t i o n f e a t u r e s s u c h a
10、 s t h e c o-o c c u r r e n c e f e a t u r e s b e t w e e n t h e c a n d i d a t e e n t i t i e s i n t h e s a m e q u e r y t e x t a n d t h es i m i l a r i t y f e a t u r e s b e t w e e n t h e m e n t i o n t y p e o f t h e c a n d i d a t e e n t i t i e s a n d e n t i t i e s.T o s
11、o l v e t h e s e p r o b l e m s,t h i s p a p e r f i r s t u s e st h e p r e-t r a i n i n g l a n g u a g e m o d e l t o o b t a i n t h e s e m a n t i c m a t c h i n g f e a t u r e s o f m e n t i o n c o n t e x t a n d c a n d i d a t e e n t i t y d e s c r i p t i o n.T h e n,c o-o c c
12、 u r r e n c e f e a t u r e a n d t y p e f e a t u r e a r e p r o p o s e d f o r e n t i t y e m b e d d i n g a n d m e n t i o n t y p e e m b e d d i n g.F i n a l l y,b y f u s i n gt h e a b o v e f e a t u r e s,t h e e n t i t y d i s a m b i g u a t i o n m o d e l b a s e d o n m u l t
13、i f e a t u r e f a c t o r s i s r e a l i z e d.T h e e x p e r i m e n t a l r e s u l t s s h o w t h a tt h e c o-o c c u r r e n c e f e a t u r e s a n d t y p e f e a t u r e s p r o p o s e d i n t h i s p a p e r a r e f e a s i b l e a n d e f f e c t i v e i n e n t i t y d i s a m b i g
14、 u a t i o n,a n d t h e e n t i t y d i s a m b i g u a t i o n m e t h o d b a s e d o n m u l t i-f e a t u r e f a c t o r f u s i o n p r o p o s e d i n t h i s p a p e r c a n a c h i e v e b e t t e r d i s a m b i g u a t i o n e f f e c t.K e y w o r d s:c o-o c c u r r e n c e f e a t u r
15、 e;t y p e f e a t u r e;m u l t i-f e a t u r e f a c t o r;m u l t i-h e a d a t t e n t i o n;E r n i e收 稿 日 期:2 0 2 2-0 2-2 3;修 回 日 期:2 0 2 2-0 4-1 1基 金 项 目:国 家 自 然 科 学 基 金 资 助 项 目(6 2 0 6 2 0 4 0);江 西 省 教 育 厅 科 技 项 目(G J J 1 6 0 3 1 5)作 者 简 介:王 永 缔(1 9 9 4),男,辽 宁 沈 阳 人,硕 士 研 究 生,研 究 方 向:自 然 语 言
16、 处 理,E-m a i l:w y d w o r k 2 0 2 2 1 6 3.c o m;雷 刚(1 9 7 4),男,江 西 进 贤 人,副 教 授,研 究 方 向:机 器 学 习,自 然 语 言 处 理,E-m a i l:l e i g a n g j x n u.e d u.c n。文 章 编 号:1 0 0 6-2 4 7 5(2 0 2 3)0 1-0 0 3 0-0 72 0 2 3 年 第 1 期络、卷 积 神 经 网 络 等 网 络 结 构 建 模 来 将 文 本 映 射 到 统一 的 语 义 向 量 空 间 中,在 此 基 础 上 根 据 指 称 上 下 文 与候
17、选 实 体 的 知 识 库 描 述 在 各 个 粒 度(表 面 形 式、上 下文、文 档)的 语 义 相 似 度、指 称 上 下 文 主 题 与 实 体 类 别相 似 度,以 及 实 体 流 行 度 等 基 于 统 计 的 稀 疏 特 征 进 行指 称 的 单 独 消 歧。Y i n 等 9 最 早 将 基 于 预 训 练 语 言 模型 B E R T(B i d i r e c t i o n a l E n c o d e r R e p r e s e n t a t i o nf r o m T r a n s f o r m e r s)1 0 微 调(f i n e t u n e
18、)处 理 N L P 任 务 的方 式 应 用 于 实 体 消 歧 中,在 当 时 的 多 个 数 据 集 上 达 到了 最 佳 效 果。早 期 的 全 局 消 歧 模 型 一 般 分 为 2 种:一种 是 根 据 消 息 传 播 机 制 使 用 动 态 规 划 算 法 求 取 全 局的 最 优 解 1 1-1 3;另 一 种 是 将 每 篇 文 档 中 的 指 称 和 候选 实 体 建 模 为 一 张 图,在 此 基 础 上 基 于 图 的 随 机 游 走算 法 求 取 每 个 候 选 实 体 的 稳 态 概 率 并 以 此 来 约 束 模型 的 训 练 1 4-1 5。此 后,Y a n
19、g 等 1 6 提 出 从 已 消 歧 指 称对 应 的 实 体 中 积 累 知 识 来 为 未 消 歧 指 称 提 供 更 多 的信 息 帮 助 决 策。P h a n 等 1 7 提 出 了 一 种 类 似 于 使 用 克鲁 斯 卡 尔 算 法 求 解 最 小 生 成 树 的 方 式 每 次 对 文 档 中的 一 对 指 称 进 行 消 歧,反 复 迭 代 直 到 文 档 中 的 全 部 指称 消 歧 完 成。此 外,C h e n 等 1 8 将 指 称 的 类 别 嵌 入 与实 体 嵌 入 的 余 弦 相 似 度 得 分 集 成 到 大 量 已 有 的 局 部模 型 得 分 的 计 算
20、 中,结 果 显 示 该 特 征 得 分 能 够 帮 助 模型 纠 正 大 量 类 别 不 正 确 的 链 接 实 体。1.2 中 文 短 文 本 实 体 消 歧 模 型早 期 中 文 短 文 本 实 体 消 歧 的 研 究 1 9-2 2 大 多 是 基于 词 向 量 2 3 和 机 器 学 习 中 的 词 频-逆 词 频(t f-i d f)值及 支 持 向 量 机 等,一 般 没 有 使 用 到 神 经 网 络 或 只 用 到了 浅 层 的 神 经 网 络,其 研 究 重 点 在 于 文 本 噪 声、知 识库 噪 声 的 处 理 以 及 候 选 实 体 生 成 策 略 等。在 近 期 的
21、中 文 短 文 本 实 体 消 歧 研 究 中,文 献 2 4-2 6 使 用 局 部消 歧 模 型,在 模 型 的 结 构 设 计 上 进 行 了 创 新,其 研 究重 点 在 实 体 描 述 与 指 称 上 下 文 的 相 似 性 上 并 未 考 虑到 实 体 的 共 现 特 征 及 类 别 特 征。Z h a o 等 4 基 于 注 意力 机 制 及 B E R T 的 微 调 捕 获 指 称 上 下 文 与 候 选 实 体描 述 的 局 部 语 义 相 似 信 息,在 此 基 础 上,基 于 重 启 随机 游 走 算 法 进 行 全 局 消 歧,其 采 用 的 实 体 转 移 概 率
22、矩阵 1 4 是 基 于 维 基 百 科 的 统 计 知 识 所 得。此 外,文 献 2 7-2 8 和 本 文 一 样 采 用 了 多 特 征 因 子 融 合 的 方 式对 候 选 实 体 进 行 打 分、消 歧。其 中 文 献 2 7 设 计 了 3种 模 型 从 不 同 角 度 生 成 候 选 实 体 相 关 特 征,并 使 用 梯度 提 升 树 构 建 分 类 模 型 进 一 步 完 成 实 体 消 歧,在C C K S 2 0 1 9 短 文 本 实 体 链 指 比 赛 中 取 得 了 第 4 名 的 成绩。文 献 2 8 使 用 多 个 微 调 后 的 预 训 练 语 言 模 型
23、对候 选 实 体 进 行 打 分 及 排 名,将 上 述 得 分 及 排 名 视 作 有助 于 实 体 消 歧 的 特 征 因 子,以 此 通 过 M L P 将 多 个 预训 练 语 言 模 型 的 消 歧 结 果 及 其 他 数 据 集 的 统 计 特 征进 行 融 合,得 到 候 选 实 体 的 最 终 得 分 完 成 消 歧。该 方案 在 C C K S 2 0 2 0 及 百 度 2 0 2 1 这 2 项 中 文 短 文 本 实 体链 指 评 测 比 赛 中 均 取 得 了 第 一 名 的 成 绩。综 上,实 体 消 歧 模 型 一 般 分 为 局 部 消 歧 模 型 和 全局 消
24、 歧 模 型 2 种,从 特 征 的 角 度 考 虑 其 区 别 在 于 模 型在 消 歧 的 过 程 中 是 否 考 虑 到 了 实 体 间 的 共 现,对 证 明共 现 特 征 在 实 体 消 歧 中 起 着 很 关 键 的 作 用 1 4-1 5。除了 共 现 特 征 外,类 别 特 征 通 常 对 改 善 模 型 消 歧 结 果 能起 到 一 定 作 用 1 8。此 外,实 体 流 行 度 特 征 一 直 是 实体 消 歧 中 一 项 不 可 忽 视 的 因 素。现 有 的 中 文 短 文 本实 体 消 歧 模 型 在 消 歧 过 程 中 大 多 仅 考 虑 候 选 实 体 描述 与
25、指 称 上 下 文 的 语 义 匹 配 特 征,对 类 别 特 征 与 共 现特 征 的 研 究 不 足。其 中 大 部 分 模 型 都 没 有 考 虑 到 类别 特 征 的 应 用,更 没 有 提 出 明 确 有 效 的 类 别 特 征 的 度量 与 应 用 方 法;对 共 现 特 征 的 研 究 一 般 停 留 在 使 用 图随 机 游 走 算 法 进 行 全 局 消 歧,然 而 当 使 用 固 定 外 部 知识 库 所 提 供 的 候 选 实 体 时,很 难 利 用 到 维 基 百 科 所 提供 的 有 效 的 初 始 概 率 转 移 矩 阵,因 此 此 类 全 局 消 歧 模型 也 就
26、 很 难 应 用 到 使 用 指 定 外 部 知 识 库 提 供 候 选 实体 的 实 体 消 歧 过 程 中。针 对 上 述 缺 点,本 文 首 先 基 于 实 体 嵌 入 和 指 称 类别 嵌 入 1 3,1 8 提 出 一 种 新 的 共 现 特 征 及 类 别 特 征 以 及它 们 的 计 算 方 式,然 后 将 计 算 得 分 集 成 到 使 用 指 称 上下 文 与 候 选 实 体 描 述 语 义 匹 配 特 征 进 行 消 歧 的 模 型 得分 中,最 后 在 集 成 模 型 的 得 分 上 通 过 加 权 的 方 式 融 入实 体 先 验 概 率 完 成 实 体 消 歧。实 验
27、 结 果 表 明,本 文 提出 的 类 别 及 共 现 特 征 得 分 衡 量 方 式 及 整 体 消 歧 流 程 是有 效 的,能 够 明 显 地 改 善 消 歧 的 模 型 中 基 于 指 称 上 下文 和 候 选 实 体 描 述 语 义 匹 配 特 征 进 行 消 歧 的 效 果。2 基 于 多 特 征 因 子 融 合 的 实 体 消 歧 方 法本 文 提 出 的 基 于 多 特 征 因 子 融 合 的 实 体 消 歧 方法,首 先 将 基 于 指 称 上 下 文 和 候 选 实 体 描 述 语 义 匹 配特 征 的 模 型 作 为 实 体 消 歧 基 模 型,然 后,在 其 基 础 上
28、采 用 系 列 特 征 得 分 融 合 方 式 来 提 高 模 型 的 消 歧 效 果。模 型 的 整 体 消 歧 流 程 如 图 1 所 示。基 于 多 特 征 因 子 融 合 的 实 体 消 歧 方 法 计 算 步 骤如 下:1)将 指 称 使 用 掩 码 替 换 后 的 查 询 文 本 和 知 识 库所 有 实 体 的 实 体 描 述 分 别 输 入 到 预 训 练 语 言 模 型 中,提 取 出 指 称 的 类 别 嵌 入 和 知 识 库 实 体 的 实 体 嵌 入。2)将 指 称 上 下 文 与 候 选 实 体 的 知 识 库 描 述 输 入到 步 骤 1 使 用 的 预 训 练 语
29、 言 模 型 中,基 于 二 者 的 语 义匹 配 得 分 筛 选 出 得 分 最 高 的 n 个 候 选 实 体 并 保 留 其语 义 匹 配 得 分。3)基 于 步 骤 1 所 得 指 称 类 别 嵌 入 及 实 体 嵌 入,使用 共 现 模 型 及 类 别 模 型 分 别 计 算 由 步 骤 2 所 得 的 n 个候 选 实 体 的 共 现 特 征 得 分 及 类 别 特 征 得 分。4)使 用 多 层 感 知 机 将 由 步 骤 2 和 步 骤 3 所 得 的 n个 候 选 实 体 的 3 个 特 征 得 分 映 射 到 一 维 向 量 空 间 中,得 到 这 n 个 候 选 实 体
30、在 上 述 3 个 特 征 角 度 的 综 合 得分,将 其 与 候 选 实 体 各 自 的 先 验 概 率 加 权 融 合 得 到 这n 个 候 选 实 体 的 最 终 得 分,选 取 最 终 得 分 最 高 的 候 选实 体 作 为 目 标 即 完 成 整 体 消 歧 流 程。2.1 基 模 型 特 征基 模 型 即 仅 使 用 指 称 上 下 文 与 候 选 实 体 描 述 语义 匹 配 特 征 进 行 消 歧 的 模 型,通 过 微 调 预 训 练 语 言 模型 处 理 实 体 消 歧 任 务 已 被 证 实 能 取 得 很 好 的 消 歧 效王 永 缔,等:基 于 多 特 征 因 子
31、 融 合 的 中 文 短 文 本 实 体 消 歧 3 1计 算 机 与 现 代 化 2 0 2 3 年 第 1 期果 9,因 此 本 文 同 样 采 用 微 调 预 训 练 语 言 模 型 来 捕 捉指 称 上 下 文 与 候 选 实 体 描 述 的 语 义 匹 配 得 分,即 预 训练 语 言 模 型 作 为 本 文 的 基 模 型。本 文 选 用 百 度 提 出的 知 识 增 强 型 预 训 练 语 言 模 型(E n h a n c e d R e p r e s e n t a t i o n t h r o u g h K n o w l e d g e I n t e g r a
32、t i o n,E r n i e)2 9 作 为预 训 练 语 言 模 型。首 先 本 文 利 用 基 模 型 是 获 得 每 个 候 选 实 体 知 识库 描 述 与 指 称 上 下 文 的 语 义 相 似 得 分,然 后 根 据 该 得分 过 滤 掉 大 量 无 关 的 候 选 实 体,保 留 n 个 得 分 最 高 的候 选 实 体 进 行 进 一 步 的 消 歧。基 模 型 的 具 体 消 歧 过程 如 下:首 先,将 指 称 上 下 文 和 指 称 拼 接 起 来 作 为 s e n t 1,将 候 选 实 体 的 知 识 库 描 述 作 为 s e n t 2,然 后 使 用 S
33、 E P 标 识 符 将 两 者 拼 接 起 来 并 在 首 尾 分 别 插 入 C L S、S E P 标 识 符,最 终 的 序 列 s 如 公 式(1)所 示:s=C L S,s e n t 1,S E P,s e n t 2,S E P(1)接 着,将 序 列 s 输 入 到 E r n i e 中,取 其 顶 层 C L S 位置 的 输 出 作 为 二 分 类 全 连 接 神 经 网 络 的 输 入,采 用 正负 比 1:2 的 负 采 样 方 法 在 每 轮 训 练 选 择 不 同 的 负 例 进行 预 训 练 语 言 模 型 的 微 调。模 型 结 构 如 图 2 所 示。图
34、1 整 体 消 歧 流 程 图图 2 基 于 预 训 练 语 言 模 型 微 调 的 二 分 类 模 型s o f t m a x(d e n s e(2)基 模 型 得 分d r o p o u t(0.1)t a n h(d e n s e(7 6 8)C L S 输 出s e n t 1 s e n t 2T r mT r mT r mT r mT r mT r mT r mT r mT r mT r mE r n i eS E P S E P C L S q1q2qn指 称 c1c2cnc3图 2 中 的 T r m 指 T r a n s f o r m e r 3 0 的 编 码
35、器。模 型使 用 交 叉 熵 损 失 函 数 计 算 损 失 值,具 体 的 计 算 公 式 如式(2)和 式(3)所 示:p(y)=ep(y|s,b a s e _ m o d e l)y 0,1 ep(y|s,b a s e _ m o d e l)(2)l o s s=-il o g2p(y(i)(3)其 中,i 表 示 第 i 个 样 本,y(i)是 第 i 个 样 本 对 应 的 真 实 标签,p(y(i)是模 型预 测样 本 i 标签 为y(i)的概 率,l o s s 即为损 失 函 数,b a s e _ m o d e l 表 示 上 述 基 模 型。将 指 称 上 下文 和
36、 候 选 实 体 按 上 述 方 式 拼 接 后 输 入 到 训 练 好 的 基 模型,取 模 型 预 测 样 本 为 正 的 概 率 即 得 到 指 称 上 下 文 与候 选 实 体 描 述 的 语 义 匹 配 特 征 得 分,称 为 基 模 型 特 征。2.2 实 体 共 现 特 征共 现 特 征 一 般 指 查 询 文 本 中 属 于 不 同 指 称 的 2 个或 多 个 候 选 实 体 同 时 出 现 的 概 率。其 值 通 常 可 以 基 于数 据 集 或 知 识 库 的 统 计 概 率 获 得 1 4,也 可 使 用 实 体 嵌入 间 的 语 义 相 似 度 进 行 衡 量 1 6
37、,或 是 综 合 考 虑 两3 22 0 2 3 年 第 1 期 王 永 缔,等:基 于 多 特 征 因 子 融 合 的 中 文 短 文 本 实 体 消 歧者 1 5。但 由 于 基 于 知 识 库 的 统 计 概 率 获 取 实 体 的 共 现概 率 对 知 识 库 的 大 小、质 量 有 极 高 的 要 求,因 此,本 文使 用 实 体 嵌 入 间 的 语 义 相 似 度 作 为 共 现 特 征 的 衡 量。在 短 文 本 消 歧 中,不 仅 指 称 上 下 文 语 境 有 限,而且 同 一 查 询 文 本 中 的 相 邻 指 称 的 联 系 更 为 紧 密。例如 在“周 杰 伦 你 比
38、从 前 快 乐 吉 他 谱-吉 他 谱 下载.”这 句 话 中“你 比 从 前 快 乐”既 与“周 杰 伦”存 在较 强 的 关 联(你 比 从 前 快 乐 是 周 杰 伦 的 歌 曲),又 与“吉 他 谱”存 在 着 一 定 的 关 联,而 与“下 载”之 间 的 关 联则 较 为 微 弱。针 对 于 上 述 短 文 本,本 文 首 先 将 待 消 歧指 称 候 选 实 体 与 其 前 后 向 相 邻 指 称 候 选 实 体 的 最 高语 义 关 联 得 分 相 加。然 后,将 其 作 为 当 前 待 消 歧 指 称候 选 实 体 的 共 现 特 征 得 分。在 该 过 程 中 语 义 关
39、联 得分 采 用 实 体 嵌 入 的 余 弦 相 似 度 进 行 衡 量。为 了 保 证本 文 所 用 语 义 特 征 均 来 自 同 一 模 型 不 存 在 语 义 间 差异,本 文 使 用 预 训 练 语 言 模 型 E r n i e 对 实 体 描 述 进 行编 码,取 模 型 顶 层 输 出 向 量 序 列 均 值 作 为 实 体 嵌 入。具 体 计 算 步 骤 描 述 如 下:首 先,计 算 当 前 待 消 歧 指 称 的 n 个 候 选 实 体 与 其前 后 向 紧 邻 指 称 的 2 n 个 候 选 实 体 的 余 弦 相 似 度 得 到 2个 n n 的 相 似 得 分 矩
40、阵。然 后,将 得 分 矩 阵 中 小 于 0 的值 替 换 为 0 以 删 去 无 关 实 体 对 共 现 得 分 计 算 的 影 响。最 后,挑 选 出 矩 阵 每 一 列 的 最 大 值 即 待 消 歧 指 称 候 选实 体 与 相 邻 指 称 候 选 实 体 的 最 大 语 义 匹 配 得 分,并 将得 到 2 个 n 维 向 量 相 加 得 到 待 消 歧 指 称 的 n 个 候 选 实体 的 共 现 特 征 得 分。具 体 计 算 如 式(4)式(7)所 示:C o _ m t=m a x(0,c o s(E bc u r,E ba d j)(4)C o _ m tf o r=m
41、a x p o o l i n g(C o _ m tf o r)(5)C o _ m tb a c=m a x p o o l i n g(C o _ m tb a c)(6)C o _ s c o=C o _ m tf o r+C o _ m tb a c(7)其 中,E bc u r Rn d表 示 当 前 待 消 歧 指 称 的 候 选 实 体嵌 入,n 是 候 选 实 体 的 个 数,d 表 示 实 体 嵌 入 的 维 度,E ba d j Rn d表 示 待 消 歧 指 称 的 紧 邻 指 称 候 选 实 体 的嵌 入,C o _ m t Rn n是 使 用 余 弦 相 似 度 计
42、 算 出 的 E bc u r与 E ba d j的 相 似 得 分 矩 阵 进 行 负 值 过 滤 后 的 共 现 得 分矩 阵,C o _ m tf o r Rn n表 示 前 向 共 现 得 分 矩 阵,C o _ m tb a c Rn n表 示 后 向 共 现 得 分 矩 阵,将 两 者 最 大池 化 后 得 到 2 个 n 维 向 量 进 行 相 加 即 得 到 待 消 歧 指 称的 n 个 候 选 实 体 共 现 特 征 得 分 C o _ s c o。具 体 计 算 方式 如 图 3 所 示。图 3 共 现 特 征 得 分 计 算 示 意 图图 3 中 E ba d j,f o
43、 r表 示 待 消 歧 指 称 的 前 向 共 现 实 体嵌 入,E ba d j,b a c表 示 待 消 歧 指 称 的 后 向 共 现 实 体 嵌 入。2.3 类 别 特 征C h e n 等 1 8 提 出 了 一 种 指 称 的 潜 在 类 别 信 息 的 获取 方 式,即 将 查 询 文 本 中 的 指 称 字 符 串 用 单 个 M A S K 标 识 符 替 换 后 输 入 到 预 训 练 语 言 模 型 B E R T中,取 其 顶 层 标 识 符 对 应 输 出 向 量 作 为 指 称 的 类 别 嵌入。由 于 本 文 选 用 E r n i e 预 训 练 语 言 模 型
44、 对 文 本 进 行编 码,在 其 预 训 练 的 过 程 中 会 对 连 续 的 被 掩 码 t o k e n进 行 预 测,以 学 习 被 掩 码 t o k e n 中 的 知 识,因 此 本 文 首先 将 待 消 歧 指 称 所 在 查 询 文 本 使 用 E r n i e 特 定 的 切 词工 具 进 行 切 词 后 将 所 获 得 的 t o k e n 序 列 中 指 称 对 应 的子 序 列 替 换 为 等 长 的 M A S K 序 列,其 余 位 置 保 持 不变 并 在 首 尾 添 加 C L S 及 S E P 标 识 符 得 到 序 列 s=C L S,t1 M
45、A S K M A S K,S E P。然 后 将 s输 入 到 E r n i e 中 取 模 型 C L S 标 识 符 对 应 输 出 作 为 指称 类 别 嵌 入,同 样 将 实 体 描 述 输 入 到 E r n i e 中 取 顶 层 C L S 标 识 符 对 应 输 出 作 为 类 别 消 歧 模 型 中 使 用 的 实体 嵌 入。在 C h e n 等 1 8 的 工 作 中 直 接 使 用 余 弦 相 似 度 计 算上 述 指 称 类 别 嵌 入 与 实 体 嵌 入 的 相 似 度,然 而 J i a n g等 2 5 认 为 使 用 预 训 练 语 言 模 型 所 提 取
46、 出 的 向 量 是 内容 宽 泛 的、有 噪 声 污 染 的。基 于 上 述 原 因,本 文 利 用多 头 注 意 力 机 制 结 合 前 馈 神 经 网 络 来 捕 捉 指 称 类 别嵌 入 与 每 个 指 称 候 选 实 体 嵌 入 的 相 似 得 分。具 体 过程 如 下:首 先,将 实 体 嵌 入 及 指 称 类 别 嵌 入 分 割 成 n _ h e a d份 等 长 向 量,n _ h e a d 即 为 注 意 力 头 数,将 分 割 后 的 每一 段 指 称 类 别 嵌 入 视 作 Qi,i 1,2,n _ h e a d,每一 段 实 体 嵌 入 视 为 Kj及 Vj,j
47、1,2,n _ h e a d,计算 所 有Qi 与 Vj的 内 积,得 到 注 意 力 权 重 矩 阵A t t _ m t Rn _ h e a d n _ h e a d。再 使 用 s a f t m a x 函 数 及 缩 放 因子 dk对 A t t _ m t 进 行 标 准 化,其 中 dk(k 表 示 键 Kj)表示Qi 与 Kj的 维 度,同 时 将 所 有 Vj按 行 拼 接 得 到V Rn _ h e a d dk,接 着 使 用 矩 阵 乘 法 计 算 A t t _ m t 与 V 的乘 积 得 到 重 编 码 的 注 意 力 向 量A t t _ vi,i 1,2
48、,n _ h e a d,将 所 有 A t t _ vi向 量 沿 着纵 轴 方 向 拼 接 得 到 完 整 的 注 意 力 向 量 A t t _ v e c。最 后将 其 输 入 到 前 馈 神 经 网 络 中 得 到 指 称 类 别 嵌 入 与 候选 实 体 嵌 入 的 相 似 得 分。详 细 计 算 公 式 如 式(8)式(1 7)所 示:E bt y p e=d r o p o u t(E bt y p e)(8)E bc a n d=d r o p o u t(E bc a n d)(9)Qi=n o r m a l i z e(E bt y p e)Wq,i(1 0)Kj=n
49、o r m a l i z e(E bc a n d)Wk,j(1 1)Vj=n o r m a l i z e(E bc a n d)Wv,j(1 2)V=c o n c a t(V1,V2,Vn _ h e a d)(1 3)A t t _ m ti,ji,j n _ h e a d=eQi KjT/dkl=1n _ h e a deQi KlT/dk(1 4)A t t _ vi=A t t _ m ti V(1 5)C o _ s c o(待 消 歧 指 称 的 n 个 侯 选 实 体 的 共 现 特 征 得 分)求 和M a x(0,C o _ m ti,j)最 大 池 化(列)最
50、大 池 化(列)E bc u rE bc u rE ba d j,b a cE ba d j,f o r3 3计 算 机 与 现 代 化 2 0 2 3 年 第 1 期A t t _ v e c=c o n c a t(A t t _ v1,A t t _ vn _ h e a d)(1 6)T y p _ s c o=s o f t m a x(F N N(A t t _ v e c)(1 7)其 中,E bt y p e R1 d表 示 指 称 的 类 别 嵌 入,E bc a n d Rn d表 示 指 称 的 n 个 候 选 实 体 的 嵌 入,n o r m a l i z e 是