收藏 分享(赏)

基于BERT和非自回归的医疗知识抽取_于清.pdf

上传人:学资料 文档编号:20325299 上传时间:2023-04-08 格式:PDF 页数:7 大小:1.25MB
下载 相关 举报
基于BERT和非自回归的医疗知识抽取_于清.pdf_第1页
第1页 / 共7页
基于BERT和非自回归的医疗知识抽取_于清.pdf_第2页
第2页 / 共7页
基于BERT和非自回归的医疗知识抽取_于清.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、计 算 机 与 现 代 化J I S U A N J I Y U X I A N D A I H U A 2 0 2 3 年 第 1 期 总 第 3 2 9 期摘 要:为 避 免 实 体 与 关 系 独 立 抽 取 产 生 的 误 差 累 计 及 实 体 重 叠 问 题,提 出 一 种 基 于 B E R T 和 非 自 回 归 的 联 合 抽 取 模 型 来 进行 医 疗 知 识 抽 取。首 先,通 过 B E R T 预 训 练 语 言 模 型 进 行 句 子 编 码;然 后,采 用 非 自 回 归(N A R,N o n-a u t o r e g r e s s i v e)的 方 法

2、实 现 并 行 解 码,抽 取 关 系 类 型,并 根 据 头 尾 实 体 的 位 置 索 引 抽 取 实 体,得 到 医 疗 实 体 的 关 系 三 元 组;最 后,将 抽 取 出 的 实 体和 关 系 导 入 N e o 4 j 图 数 据 库 中 实 现 知 识 可 视 化。通 过 对 电 子 病 历 中 的 数 据 进 行 人 工 标 注 得 到 数 据 集,实 验 结 果 表 明,基 于B E R T 和 非 自 回 归 联 合 学 习 模 型 的 F 1 值 为 0.9 2,p r e c i s i o n 值 为 0.9 3,r e c a l l 值 为 0.9 2,与 现

3、有 模 型 相 比 3 项 评 价 指 标 均 有 提升,表 明 本 文 方 法 能 够 有 效 抽 取 电 子 病 历 中 的 医 疗 知 识。关 键 词:联 合 学 习;非 自 回 归;B E R T;实 体 重 叠;电 子 病 历中 图 分 类 号:T P 3 9 1.1 文 献 标 志 码:A D O I:1 0.3 9 6 9/j.i s s n.1 0 0 6-2 4 7 5.2 0 2 3.0 2 0M e d i c a l K n o w l e d g e E x t r a c t i o n B a s e d o n B E R T a n d N o n-a u t

4、 o r e g r e s s i v eY U Q i n g,M A Z h i-l o n g,X U C h u n(S c h o o l o f I n f o r m a t i o n M a n a g e m e n t,X i n j i a n g U n i v e r s i t y o f F i n a n c e a n d E c o n o m i c s,U r u m q i 8 3 0 0 1 2,C h i n a)A b s t r a c t:I n o r d e r t o a v o i d t h e p r o b l e m s

5、o f e r r o r a c c u m u l a t i o n a n d e n t i t y o v e r l a p c a u s e d b y t h e p i p e l i n e e n t i t y r e l a t i o n e x t r a c t i o nm o d e l,a j o i n t e x t r a c t i o n m o d e l b a s e d o n B E R T a n d N o n-a u t o r e g r e s s i v e i s e s t a b l i s h e d f o r

6、 m e d i c a l k n o w l e d g e e x t r a c t i o n.F i r s t l y,w i t h t h e h e l p o f t h e B E R T p r e-t r a i n e d l a n g u a g e m o d e l,t h e s e n t e n c e c o d e i s o b t a i n e d.S e c o n d l y,t h e N o n-a u t o r e g r e s s i v e m e t h o di s p r o p o s e d t o a c h

7、i e v e p a r a l l e l d e c o d i n g,e x t r a c t t h e r e l a t i o n s h i p t y p e,e x t r a c t e n t i t i e s a c c o r d i n g t o t h e i n d e x o f t h e s u b j e c t a n do b j e c t e n t i t i e s,a n d o b t a i n t h e m e d i c a l t r i p l e t.F i n a l l y,w e i m p o r t t

8、 h e e x t r a c t e d t r i p l e s i n t o t h e N e o 4 j g r a p h d a t a b a s e a n d r e a l i z ek n o w l e d g e v i s u a l i z a t i o n.T h e d a t a s e t i s d e r i v e d f r o m m a n u a l l a b e l i n g o f d a t a i n e l e c t r o n i c m e d i c a l r e c o r d s.T h e e x p

9、e r i m e n t a lr e s u l t s s h o w t h a t t h e F 1 v a l u e,p r e c i s i o n a n d r e c a l l b a s e d o n B E R T a n d n o n-a u t o r e g r e s s i v e j o i n t l e a r n i n g m o d e l a r e 0.9 2,0.9 3a n d 0.9 2,r e s p e c t i v e l y.C o m p a r e d w i t h t h e e x i s t i n g

10、m o d e l,t h e t h r e e e v a l u a t i o n i n d i c a t o r s h a v e b e e n i m p r o v e d,i n d i c a t i n g t h a t t h ep r o p o s e d m e t h o d c a n e f f e c t i v e l y e x t r a c t m e d i c a l k n o w l e d g e f r o m e l e c t r o n i c m e d i c a l r e c o r d s.K e y w o r

11、 d s:j o i n t l e a r n i n g;n o n-a u t o r e g r e s s i v e;B E R T;e n t i t y o v e r l a p;e l e c t r o n i c m e d i c a l r e c o r d文 章 编 号:1 0 0 6-2 4 7 5(2 0 2 3)0 1-0 1 2 0-0 7收 稿 日 期:2 0 2 2-0 3-1 1;修 回 日 期:2 0 2 2-0 6-0 6基 金 项 目:新疆维吾尔自治区自然科学基金资助项目(2 0 1 9 D 0 1 A 2 3);新疆维吾尔自治区高校科研计划

12、项目(X J E D U 2 0 2 1 Y 0 3 8)作 者 简 介:于 清(1 9 9 7),女,山 东 烟 台 人,硕 士 研 究 生,研 究 方 向:信 息 处 理 与 管 理 决 策,E-m a i l:1 5 9 9 2 8 5 2 7 4 q q.c o m;马 志 龙(1 9 7 7),男,新 疆 乌 鲁 木 齐 人,讲 师,硕 士,研 究 方 向:自 然 语 言 处 理,E-m a i l:5 6 8 1 2 1 8 2 8 q q.c o m;徐 春(1 9 7 7),女,新 疆 乌鲁 木 齐 人,教 授,博 士,研 究 方 向:自 然 语 言 处 理,E-m a i l

13、:x u c h u n x j u f e.e d u.c n。0 引 言实 体 识 别 和 关 系 抽 取 是 信 息 抽 取 领 域 中 的 核 心任 务,而 医 疗 领 域 相 对 于 其 他 领 域,具 有 实 体 和 关 系数 量 较 多、种 类 繁 杂、命 名 不 规 则 等 难 点 1。如 何 从医 疗 文 本 中 提 取 知 识 是 医 疗 领 域 的 热 点 问 题。电 子病 历 中 蕴 含 着 大 量 真 实 且 与 病 人 密 切 相 关 的 医 疗 信息,从 中 有 效 提 取 实 体 及 其 关 系,对 构 建 医 疗 知 识 图谱、医 疗 问 答、辅 助 决 策

14、具 有 重 要 的 现 实 意 义 2-4。目 前,在 实 体 关 系 抽 取 任 务 中,基 于 循 环 神 经 网络 5 和 卷 积 神 经 网 络 6 等 神 经 网 络 技 术 7-8 的 深 度 学习 架 构 日 渐 成 熟,并 逐 渐 被 应 用 于 医 疗 领 域 中。U z u n e r 等 9 根 据 出 院 摘 要,首 次 对 医 疗 语 义 关 系 进 行分 类 研 究。S u n i l 等 1 0 首 次 将 C N N 模 型 运 用 到 电 子病 历 的 关 系 抽 取 中,但 此 方 法 不 适 于 距 离 较 远 的 实 体间 的 识 别 和 抽 取。2 0

15、 1 9 年,谷 歌 基 于 T r a n s f o r m e r 模型 提 出 了 B E R T 网 络 模 型 1 1,并 且 在 关 系 抽 取 的 相 关工 作 中 取 得 了 良 好 效 果。为 进 一 步 提 高 关 系 抽 取 的 效 果,一 些 学 者 开 始 融合 多 种 方 法 进 行 实 体 识 别 和 关 系 抽 取。Z h a n g 等 1 2 在 B E R T 模 型 的 基 础 上,提 出 了 基 于 B i-L S T M-C R F的 关 系 抽 取 优 化 方 法,成 功 从 临 床 乳 腺 癌 文 档 中 提 取出 相 关 概 念 及 属 性。

16、C h r i s t o p o u l o u 等 1 3 引 入 注 意 力机 制 和 T r a n s f o r m 网 络,实 现 药 物-药 物 在 句 子 内 和 句子 间 关 系 的 提 取 和 分 类。武 小 平 等 1 4 针 对 中 文 以 词为 单 位 的 特 性,提 出 了 改 进 的 B E R T(w w m)-C N N 模型,实 现 心 血 管 疾 病 领 域 的 实 体 识 别 及 关 系 抽 取。李丽 双 等 1 5 针 对 位 置 向 量 噪 声 和 语 义 表 达 匮 乏 等 问题,提 出 了 基 于 B i L S T M-C N N 的 关 系

17、 抽 取 模 型,取 得了 i 2 B 2/V A 语 料 的 最 优 结 果。基 于 B E R T 和 非 自 回 归 的 医 疗 知 识 抽 取于 清,马 志 龙,徐 春(新 疆 财 经 大 学 信 息 管 理 学 院,新 疆 乌 鲁 木 齐 8 3 0 0 1 2)2 0 2 3 年 第 1 期以 上 方 法 均 将 实 体 识 别 和 关 系 抽 取 分 开 处 理,属于 流 水 线 方 法,虽 然 取 得 了 较 好 的 成 果,但 这 些 方 法忽 视 了 2 个 子 任 务 之 间 的 相 关 性,会 产 生 误 差 传播 1 6,最 终 影 响 关 系 抽 取 的 效 果。为

18、 解 决 此 问 题,相关 学 者 将 2 个 子 任 务 融 合 成 一 个 任 务,进 行 联 合 学习。G e t o o r 等 1 7 提 出 了 一 种 基 于 线 性 规 划 的 全 局 推理 方 法,运 用 分 类 器 抽 取 句 子 中 可 能 存 在 的 实 体 和 关系,指 出 实 体 识 别 和 关 系 抽 取 是 密 切 相 关 的。联 合 学习 方 法 可 以 分 为 参 数 共 享 和 序 列 标 注 2 种,且 大 多 数研 究 集 中 在 通 用 领 域。M i w a 等 1 8 首 次 将 实 体 识 别 和关 系 抽 取 作 为 一 个 任 务 进 行

19、研 究,提 出 了 结 合 树 结 构的 B i L S T M-R N N 模 型,通 过 二 者 参 数 共 享 进 行 关 系抽 取,但 存 在 实 体 冗 余 问 题。Z h e n g 等 1 9 提 出 了 一 种基 于 序 列 标 注 的 联 合 学 习 模 型,有 效 地 缓 解 了 参 数 共享 方 法 存 在 的 实 体 关 系 冗 余 问 题。X u 等 2 0 将 关 系 抽取 问 题 视 为 序 列 标 注 问 题,采 用 B i L S T M s-C R F 相 结合 的 深 度 学 习 模 型,高 效 地 检 测 出 医 学 概 念-属 性 关系 对。P a r

20、 s a e i m e h r 等 2 1 提 出 了 一 种 基 于 深 度 学 习 的联 合 识 别 体 系,克 服 了 误 差 传 播 的 影 响。以 上 联 合 学习 方 法 虽 然 提 高 了 实 体 关 系 抽 取 的 效 果,但 均 无 法 解决 重 叠 三 元 组 问 题。电 子 病 历 中 包 含 大 量 半 结 构 化 和 非 结 构 化 信 息,文 本 中 的 三 元 组 重 叠 可 以 分 为 2 类:E P O 指 一 个 实 体对 之 间 具 有 多 种 关 系,例 如“患 者 因 反 复 腹 痛,伴 反酸、嗳 气 在 我 院 完 善 相 关 检 查 后 确 诊

21、胃 体 胃 窦 癌。”中存 在 三 元 组(胃 体 胃 窦 癌,症 状,腹 痛)、(胃 体 胃 窦 癌,并 发 症,腹 痛);S E O 指 一 个 实 体 存 在 于 多 个 三 元 组中,例 如“患 者 患 胃 窦 溃 疡,因 中 下 腹 疼 痛 进 行 胃 镜 检查。”句 子 中 存 在 三 元 组(胃 窦 溃 疡,检 查,胃 镜)、(胃窦 溃 疡,症 状,中 下 腹 疼 痛),这 种 多 种 关 系 和 共 享 实体 的 存 在 增 加 了 知 识 抽 取 任 务 的 难 度,传 统 方 法 很 难学 习 这 种 关 系。为 解 决 三 元 组 重 叠 问 题,W e i 等 2 2

22、提出 了 C A S R E L 模 型,采 用 级 联 二 进 制 标 注 方 法,将 关系 推 理 建 模 为 句 子 中 头 实 体 到 尾 实 体 的 映 射 函 数,但存 在 曝 光 偏 差 问 题。W a n g 等 2 3 提 出 了 T P L i n k e r 模型,采 用 多 头 标 注 方 法 实 现 了 单 阶 段 联 合 学 习,能 够解 决 实 体 重 叠 和 暴 露 偏 差 问 题,但 该 方 法 需 要 设 计 复杂 的 标 注 模 式。Z e n g 等 2 4 提 出 了 一 种 基 于 复 制 机 制的 s e q 2 s e q 模 型,可 以 利 用

23、 该 机 制 对 重 叠 的 实 体 进 行复 制,并 根 据 不 同 的 实 体 重 叠 类 型,采 用 统 一 解 码 器和 多 个 解 码 器 进 行 解 码,能 够 有 效 解 决 关 系 抽 取 中 的实 体 重 叠 问 题,但 会 产 生 大 量 无 效 的 实 体 对。C a b o t等 2 5 将 三 元 组 分 解 成 文 本 序 列,以 自 回 归 方 法 为 基础,提 出 了 基 于 B A R T 的 联 合 学 习 模 型,但 采 用 自 回归 解 码 的 方 法,需 要 考 虑 多 个 三 元 组 的 提 取 顺 序,而文 本 中 的 三 元 组 本 质 上 没

24、有 顺 序。本 文 以 s e q 2 s e q 模 型 为 框 架,运 用 基 于 B E R T 和非 自 回 归 的 联 合 学 习 模 型 实 现 实 体 识 别 和 关 系 抽 取,并 构 建 医 疗 知 识 图 谱。本 文 主 要 工 作 如 下:1)B E R T 预 训 练 语 言 模 型 结 合 上 下 文 语 义 信 息动 态 生 成 特 征 向 量,能 够 有 效 解 决 电 子 病 历 中 的 一 词多 义 问 题。2)采 用 基 于 T r a n s f o r m e r 的 非 自 回 归 方 法 实 现 并行 解 码,并 根 据 头 尾 实 体 开 始 和

25、结 束 的 位 置 索 引 进 行标 记,能 够 有 效 缓 解 三 元 组 重 叠 问 题。3)运 用 电 子 病 历 数 据 进 行 实 验 分 析,结 果 表 明,本 文 提 出 的 基 于 B E R T 和 非 自 回 归 的 知 识 抽 取 方 法,效 果 优 于 现 有 模 型。1 模 型 介 绍本 文 将 实 体 识 别 和 关 系 抽 取 看 作 一 个 任 务 进 行联 合 学 习,模 型 结 构 如 图 1 所 示,主 要 包 括 3 个 部 分。首 先 运 用 B E R T 模 型 对 句 子 进 行 编 码;然 后 运 用 基 于T r a n s f o r m

26、e r 的 非 自 回 归 方 法 解 码,根 据 解 码 结 果 进 行关 系 预 测(包 括 共 有 6 种 关 系 类 型),并 进 一 步 融 合编 码 信 息 进 行 实 体 抽 取;最 后,根 据 二 部 匹 配 损 失 函数 计 算 损 失 值。联 合 实 体 关 系 抽 取 的 目 标 是 识 别 原 始 句 子 中 所有 可 能 的 关 系 三 元 组,对 于 给 定 句 子 X,目 标 三 元 组 Y的 条 件 概 率 如 式(1)所 示:B E R T编 码 层非 自 回 归解 码 层二 部 匹 配损 失 函 数多 头 自 注 意 力 机 制B E R T多 头 相 互

27、注 意 力 机 制前 馈 神 经 网 络关 系 抽 取实 体 抽 取患 者 患 胃 窦 溃 疡,因 中 下 腹 疼 痛 进 行 胃 镜 检 查。(胃 窦 溃 疡,症 状,中 下 腹 疼 痛)空 集(胃 窦 溃 疡,检 查,胃 镜)r1r2GH N(s1,r1,o1)(s2,r2,o2)se n dss t a r to1s t a r to1e n do2s t a r to2e n d图 1 模 型 结 构于 清,等:基 于 B E R T 和 非 自 回 归 的 医 疗 知 识 抽 取 1 2 1计 算 机 与 现 代 化 2 0 2 3 年 第 1 期因 胃 窦 溃 疡 行 胃 镜 检

28、查检 查 胃 窦 溃 疡 胃 镜E n c o d e rD e c o d e rP(Y|X;)=p L(n|X)ni=1p(Yi|X,Yj i;)(1)其 中,p L(n|X)对 目 标 三 元 组 的 大 小 进 行 建 模,i 表 示句 子 中 三 元 组 数 量,p(Yi|X,Yj i;)表 示 目 标 三 元 组 Yi不 仅 与 给 定 的 句 子 X 相 关,还 与 其 他 三 元 组 Yj i相 关。1.1 B E R T 编 码 层B E R T 模 型 主 要 包 含 输 入 层、编 码 层 和 输 出 层,其 基 本 结 构 如 图 2 所 示。B E R T 的 输 入

29、 向 量 由 词 特征、句 子 特 征 和 位 置 特 征 组 成,且 句 首、句 尾 分 别 增 加 C L S 和 S E P 标 志,用 于 分 隔 2 个 句 子。编 码 层 由 多个 相 同 的 T r a n s f o r m e r 层 组 成,向 量 通 过 多 头 自 注 意 力(M u l t i-H e a d S e l f-A t t e n t i o n)层,传 输 到 前 馈 神 经 网 络(F e e d-F o r w a r d N e t w o r k)中,最 终 的 输 出 结 果 表 示 为:He Rl d其 中,l 是 句 子 长 度,d 是

30、B E R T 模 型 中 隐 藏 层 数 量。B E R T 模 型 是 基 于 双 向 T r a n s f o r m e r 编 码 的 预 训练 模 型,能 够 较 好 地 解 决 一 词 多 义 的 问 题,例 如,句 子“患 者 因 右 上 腹 隐 痛,行 胸 腹 部 C T 检 查”中,2 个“腹”表 示 不 同 的 含 义,其 输 入 形 式 如 图 3 所 示。图 2 B E R T 模 型 结 构1.2 非 自 回 归 解 码 层多 数 s e q 2 s e q 模 型 将 获 取 关 系 三 元 组 看 作 序 列 生成 问 题,利 用 自 回 归 模 型 逐 个

31、解 码。与 公 式(1)相 比,自 回 归 方 法 识 别 句 子 X 中 目 标 三 元 组 Y 的 条 件 概 率如 式(2)所 示:P(Y|X;)=p L(n|X)ni=1p(Yi|X,Yj i;)(2)其 中,p(Yi|X,Yj i;)表 示 目 标 三 元 组 Yi与 给 定 的 句 子X 和 已 生 成 的 三 元 组 Yj i相 关,说 明 自 回 归 解 码 需 要用 已 生 成 的 词 来 预 测 下 一 个 位 置 的 词,无 法 实 现 并 行解 码 2 6,解 码 速 度 比 较 慢。针 对 此 问 题,本 文 使 用 基于 T r a n s f o r m e r

32、的 非 自 回 归 方 法,打 破 了 解 码 时 的 顺 序要 求,可 以 并 行 解 码 整 个 句 子,对 比 如 图 4 所 示。从图 4(a)中 可 以 看 出,自 回 归 模 型 解 码 时,词 是 依 次 递归 生 成 的,要 生 成 长 度 为 N 的 句 子,需 要 经 过 N 次 解码 层;而 图 4(b)中 的 非 自 回 归 模 型 则 可 以 一 次 生 成所 有 词,只 需 经 过 1 次 解 码 层,减 少 了 经 过 解 码 层 的次 数,提 高 了 解 码 效 率。非 自 回 归 解 码 层 由 N 个 相 同 的 T r a n s f o r m e r

33、层 组成,如 图 1 所 示。解 码 层 的 输 入 是 初 始 化 后 的 目 标 文本 向 量,输 入 向 量 通 过 线 性 变 换 得 到 表 示 目 标 字 的 Q矩 阵、表 示 上 下 文 各 个 字 的 K 矩 阵 以 及 表 示 目 标 字 与上 下 文 各 个 字 的 原 始 矩 阵 V,并 通 过 计 算 放 缩 点 积 求得 自 注 意 力 值,如 公 式(3)所 示,经 过 i 次 计 算 后 获 得一 个 与 原 始 字 向 量 长 度 相 同 的 增 强 语 义 向 量,作 为 多头 自 注 意 力 层 的 输 出,如 公 式(4)、公 式(5)所 示;然 后运 用

34、 多 头 相 互 注 意 机 制 与 B E R T 层 的 输 出 编 码 融 合,根 据 B E R T 层 的 输 出 H 计 算 得 到 K、V,根 据 上 一 个 解码 器 的 输 出 计 算 Q,后 续 计 算 方 法 与 式(3)式(5)一致,得 到 输 出 向 量 G Rm d;最 后,通 过 前 馈 网 络 将 输 出向 量 解 码 为 关 系 类 型 和 实 体,得 到 最 终 预 测 的 三 元 组。A t t e n t i o n()Q,K,V=s o f t m a x(Q KTdk)V(3)h e a di=A t t e n t i o n()Q WQi,K W

35、Ki,V WVi(4)M u l t i H e a d(Q,K,V)=C o n c a t(h e a d1,h e a di)W0(5)其 中,Q、K、V 表 示 输 入 的 字 向 量 矩 阵,dk表 示 输 入 维A d d&N o r m a lF e e d F o r w a r d N e t w o r kA d d&N o r m a lM u l t i H e a d S e l f A t t e n t i o nE1E2EnH1H2Hn N输 出 层输 码 层输 入 层图 3 B E R T 模 型 的 输 入 形 式I n p u t C L S T o k

36、e nE m b e d d i n gS e g m e n tE m b e d d i n gP o s i t i o nE m b e d d i n g C L S C L S E0E1E2E3E4E5E6E7E8E9E1 0E1 1E1 2E1 3EBEBEBEBEBEBEBEAEAEAEA S E P S E P E因E上E腹E痛E行E腹E部ECETE检E查 S E P S E P+S E P S E P 因 上 腹 痛 行 腹 部 C T 检 查(b)非 自 回 归 模 型图 4 自 回 归 与 非 自 回 归 模 型 对 比因 胃 窦 溃 疡 行 胃 镜 检 查检 查 胃

37、窦 溃 疡 胃 镜E n c o d e rD e c o d e r(a)自 回 归 模 型1 2 22 0 2 3 年 第 1 期度,WiQ、WiK、WiV表 示 h e a di的 权 重 矩 阵,W0表 示 附 加权 重 矩 阵。本 文 根 据 头 尾 实 体 开 始 和 结 束 的 位 置 索 引 进 行 三元 组 抽 取,且 将 并 发 症、检 查、症 状、常 用 药 物、治 疗 方式 和 这 6 种 关 系 类 型 分 别 赋 值 为 0 5,三 元 组 可 表 示为 Y=(r,ss t a r t,se n d,os t a r t,oe n d)。例 如,句 子“患 者 患

38、胃 窦 溃疡,因中下 腹疼痛 进行胃 镜检查。”中存在 的三元 组(胃窦 溃 疡,检 查,胃 镜)、(胃 窦 溃 疡,症 状,中 下 腹 疼 痛),可 以 表 示 为(1,3,6,1 6,1 7)、(2,3,6,9,1 3),其 中,实 体“胃 窦 溃 疡”可 以 重 复 抽 取。该 方 法 类 似 S p a n 标 注,但不 需 要 对 头 尾 实 体 进 行 标 注,而 是 直 接 利 用 实 体 的 位置 索 引 为 标 记,能 够 有 效 解 决 三 元 组 重 叠 问 题。假 设 给 定 一 个 输 出 向 量 g Rd,经 过 关 系 预 测 和首 尾 实 体 预 测,可 得 到

39、 最 终 的 预 测 三 元 组=(pr,ps-s t a r t,ps-e n d,po-s t a r t,po-e n d),具 体 如 式(6)式(1 0)所 示:1)关 系 预 测:pr=s o f t m a x(Wrhd)(6)其 中,Wr Rt d,t 是 关 系 类 型(包 括 空 集)的 总 数,d 是B E R T 模 型 中 隐 藏 层 数 量。2)首 尾 实 体 预 测:通 过 s o f t m a x 分 类 器 预 测 头 尾实 体 开 始 和 结 束 的 位 置 索 引,如 式(7)式(1 0)所 示:ps-s t a r t=s o f t m a x(v1

40、Tt a n h(W1g+W2H)(7)ps-e n d=s o f t m a x(v2Tt a n h(W3g+W4H)(8)po-s t a r t=s o f t m a x(v3Tt a n h(W5g+W6H)(9)po-e n d=s o f t m a x(v4Tt a n h(W7g+W8H)(1 0)其 中,Wi Rd d和 vi Rd是 可 学 习 的 参 数。1.3 二 部 匹 配 损 失 函 数损 失 函 数 表 示 样 本 真 实 值 与 模 型 预 测 值 之 间 的误 差 2 7,适 用 于 评 价 模 型 性 能 的 优 劣。交 叉 熵 损 失法 是 衡 量

41、关 系 抽 取 模 型 优 劣 的 主 要 方 法,但 该 方 法 对预 测 值 的 排 列 顺 序 很 敏 感,而 非 自 回 归 解 码 采 用 并 行解 码 的 方 法,打 破 了 对 预 测 值 的 顺 序 要 求。因 此,本文 运 用 二 部 匹 配 法 以 在 预 测 三 元 组 和 真 实 三 元 组 之间 产 生 最 优 匹 配,该 方 法 计 算 损 失 值 时,与 预 测 值 的排 列 顺 序 无 关。计 算 二 部 匹 配 损 失 值 分 为 2 个 步 骤:寻 找 最 佳 匹 配 和 计 算 损 失 函 数。1)寻 找 预 测 三 元 组 的 最 佳 匹 配。与 指 派

42、 问 题 类 似,该 问 题 可 看 作 寻 找 m 个 预 测 三元 组 和 m 个 真 实 三 元 组 之 间 的 最 佳 匹 配 方 法,如 图 5所 示,此 类 问 题 可 以 用 匈 牙 利 算 法 求 解。首 先,计 算每 个 真 实 三 元 组 Y 和 预 测 三 元 组 之 间 的 成 对 匹 配 代价,如 公 式(1 1)所 示:Cm a t c h(Yi,j)=-pjr(ri)-pjs-s t a r t(sis t a r t)-pjs-e n d(sie n d)-pjo-s t a r t(ois t a r t)-pjo-e n d(oie n d)(1 1)其 中

43、,i,j=0,1,m-1,是 三 元 组 集 合 中 的 第 i 或 j 个 三元 组;ri 0,1,5,代 表 不 同 关 系 类 型;sis t a r t、sie n d、ois t a r t、oie n d是 第 i 个 真 实 三 元 组 中 头 实 体 或 尾 实 体 开 始或 结 束 的 位 置 索 引;m 为 解 码 层 一 次 性 输 出 三 元 组 的数 量,不 足 m 以 填 充。图 5 三 元 组 匹 配 示 例根 据 公 式(1 1),能 够 以 最 小 代 价 找 到 预 测 三 元 组集 合 的 最 佳 匹 配 策 略,如 公 式(1 2)所 示:a*=a r

44、g m i n Cm a t c h(Yi,j)(1 2)2)计 算 损 失 函 数。运 用 负 对 数 似 然 计 算 最 优 匹 配 情 况 下 的 损 失 值,由 式(6)式(1 0)可 知,预 测 三 元 组 得 到 是 关 系 及 实体 的 概 率 分 布,概 率 越 接 近 1,函 数 值 越 接 近 0,可 得到 损 失 函 数 的 最 小 值,如 式(1 3)所 示:L(Y,Y)=i=0m-1-l o g pra*()i()ri-l o g ps-s t a r ta*()i()ss t a r ti-l o g ps-e n da*()i()se n di-l o g po-

45、s t a r ta*(i)(os t a r ti)-l o g po-e n da*(i)(oe n di)(1 3)其 中,a*(i)是 最 优 匹 配 策 略 中,真 实 三 元 组 集 合 中 第 i个 三 元 组 对 应 的 预 测 三 元 组。2 实 验 分 析2.1 数 据 来 源本 文 运 用 新 疆 某 医 院 消 化 内 科 的 电 子 病 历,经 过人 工 检 查 选 取 5 8 6 条 数 据,将 文 本 按 句 拆 分 成 4 2 5 2 个句 子,并 进 行 人 工 标 注,标 注 示 例 如 下:s e n t T e x t:患 者 患 有 胃 窦 炎,因 上

46、 腹 部 隐 痛 入 院 行 上 消 化 道 钡 餐检 查。,r e l a t i o n M e n t i o n s:e m 1 T e x t:胃 窦 炎,e m 2 T e x t:上 腹 部 隐 痛,l a b e l:症 状,e m 1 T e x t:胃 窦 炎,e m 2 T e x t:上 消 化 道 钡 餐,l a b e l:检 查。将 标 注 后 句 子 按 3:1:1 比 例 随机 划 分 为 训 练 集、测 试 集 和 验 证 集。本 文 实 体 类 型 和 实 体 关 系 各 有 5 种,具 体 释 义 如表 1 所 示,数 据 集 中 关 系 类 型 统 计

47、 如 表 2 所 示。表 1 实 体 关 系 释 义(r0,s0s t a r t,s0e n d,o0s t a r t,o0e n d)(r1,s1s t a r t,s1e n d,o1s t a r t,o1e n d)(r2,s2s t a r t,s2e n d,o2s t a r t,o2e n d)(r3,s3s t a r t,s3e n d,o3s t a r t,o3e n d)()()真 实 三 元 组 集 合 预 测 三 元 组 集 合(p0r,p0s-s t a r t,p0s-e n d,p0o-s t a r t,p0o-e n d)(p1r,p1s-s t a

48、 r t,p1s-e n d,p1o-s t a r t,p1o-e n d)(p2r,p2s-s t a r t,p2s-e n d,p2o-s t a r t,p2o-e n d)(p3r,p3s-s t a r t,p3s-e n d,p3o-s t a r t,p3o-e n d)()()实 体 关 系a c c o m p a n y _ w i t hn e e d _ c h e c kh a s _ s y m p t o mc o m m o n _ d r u gc u r e _ w a y解 释并 发 症诊 断 检 查症 状常 用 药 物治 疗 方 式关 系 对疾 病-

49、疾 病疾 病-检 查疾 病-症 状疾 病-常 用 药 物疾 病-治 疗 方 式于 清,等:基 于 B E R T 和 非 自 回 归 的 医 疗 知 识 抽 取 1 2 3计 算 机 与 现 代 化 2 0 2 3 年 第 1 期表 2 关 系 类 型 统 计2.2 实 验 设 置本 模 型 是 基 于 编 程 工 具 P y t h o n 3.8.5,以 P y T o r c h1.8.1 为 框 架 开 发 的。基 于 B E R T-b a s e-C h i n e s e 预 训练 模 型,使 用 A d a m W 优 化 器 对 模 型 参 数 进 行 自 适 应学 习,具

50、体 参 数 设 置 如 表 3 所 示。表 3 参 数 设 置2.3 实 体 关 系 抽 取 结 果 分 析1)评 价 指 标。本 实 验 采 用 召 回 率 R e c a l l、精 确 率 P r e c i s i o n 和 F 1值 来 评 价 联 合 关 系 抽 取 模 型 的 性 能,各 评 价 指 标 的 计算 方 法 如 下:R=T PT P+F NP=T PT P+F PF 1=2 R PR+P其 中,T P 表 示 预 测 正 确 的 三 元 组 数 量;F P 表 示 预 测 错误 的 三 元 组 数 量;F N 表 示 数 据 集 中 的 相 关 三 元 组 但没

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报