1、 文 章 编 号:1673-5196(2023)01-0103-07基 于 词-标 签 概 率 的 多 标 签 文 本 分 类 研 究赵 宏*,郑 厚 泽,郭 岚(兰 州 理 工 大 学 计 算 机 与 通 信 学 院,甘 肃 兰 州 730050)摘 要:针 对 多 标 签 文 本 分 类 任 务 中 如 何 有 效 地 提 取 文 本 特 征 和 获 取 标 签 之 间 潜 在 的 相 关 性 问 题,提 出 一 种CNN(c onvo l u t i ona lneu r a lne two r ks)结 合B i-LSTM(b i-d i r e c t i ona ll ongsho
2、 r t-t e rmmemo r y)的 模 型.首 先,通 过CNN网络 和 最 大 池 化 提 取 文 本 的 特 征;然 后,利 用 训 练 的Labe l ed-LDA(l abe l edl a t en td i r i ch l e ta l l o c a t i on)模 型 获 取 所 有 词与 标 签 之 间 的 词-标 签 概 率 信 息;接 着,使 用B i-LSTM网 络 和CNN网 络 提 取 当 前 预 测 文 本 中 每 个 词 的 词-标 签 信 息特 征;最 后,结 合 提 取 的 文 本 特 征,预 测 与 当 前 文 本 相 关 联 的 标 签 集.
3、实 验 结 果 表 明,使 用 词-标 签 概 率 获 取 文 本 中 词与 标 签 之 间 的 相 关 性 信 息,能 够 有 效 提 升 模 型 的F1值.关 键 词:多 标 签 文 本 分 类;卷 积 神 经 网 络;双 向 长 短 期 记 忆 网 络;标 签 的 隐 狄 利 克 雷 分 布中 图 分 类 号:TP389.1 文 献 标 志 码:AM u l t i-l a b e l t e x t c l a s s i f i c a t i o n b a s e d o n w o r d-l a b e lpr o b a b i l i tyZHAOHong,ZHENGHo
4、u-z e,GUOLan(Schoo lo fCompu t e randCommun i c a t i on,LanzhouUn i v.o fTe ch.,Lanzhou 730050,Ch i na)A b s t r a c t:Mu l t i-l abe lt ex tc l a s s i f i c a t i oni soneo ft heimpo r t an tt a sksi nt hef i e l do fna t u r a ll anguagep r o-c e s s i ng,t hegoa lo fwh i chi st of i ndt hel abe
5、 lsubs e ta s so c i a t edwi t ht het ex tf r omag i venl abe ls e t.Aimi nga tt hep r ob l emo fhowt oe f f e c t i ve l yex t r a c tt ex tf e a t u r e sandob t a i nt hepo t en t i a lc o r r e l a t i onbe twe enl abe l si np r oc e s s i ngmu l t i-l abe lt ex tc l a s s i f i c a t i on,amod
6、e lo fc onvo l u t i ona lneu r a lne two rks(CNN)c omb i nedwi t hb i-d i r e c t i ona ll ongsho r t-t e rmmemo r y(B i-LSTM)i sp r opos edt op r o c e s smu l t i-l abe lt ex tc l a s s i f i c a-t i on.F i r s t l y,t ex tf e a t u r e sa r eex t r a c t edt hr ought heCNNne two rkandmaxpoo l i
7、ng.Then,t het r a i nedLabe l edLa t en tDi r i ch l e tAl l oc a t i on(l abe l edLDA)mode li sus edt oob t a i nt hewo r d-l abe lp r obab i l i t yi n f o r-ma t i ono fa l lwo rdsandl abe l s.I nadd i t i on,t heB i-LSTMne two rkandCNNne two rka r eus edt oex t r a c tt hewo rd-l abe li n f o rm
8、a t i onf e a t ur eo fe a chwo r di nt hecu r r en tp r ed i c t i ont ex t.F i na l l y,c omb i nedwi t ht heex t r a c t edt ex tf e a t ur e s,t hel abe ls e ta s s o c i a t edwi t ht het ex ti sp r ed i c t ed.Theexpe r imen t a lr e su l t sshowt ha tt heF1va l ueo ft hemode lc anbee f f e c
9、t i ve l yimp r ovedbyus i ngt hewo r d-l abe lp r obab i l i t yt oge tt hec o r r e l a t i oni n f o rma t i onbe twe ent hewo r dsandl abe l si nt het ex t.K e y w o r d s:mu l t i-l abe lt ex tc l a s s i f i c a t i on;c onvo l u t i ona lneur a lne two rks;b i-d i r e c t i ona ll ongsho r t-
10、t e rmmemo r y;l abe l edl a t en td i r i ch l e ta l l oc a t i on 文 本 分 类 是 自 然 语 言 处 理 中 的 重 要 内 容,通 过对 文 本 的 准 确 分 类,可 以 有 效 地 对 文 本 进 行 管 理 和检 索,是 处 理 海 量 文 本 的 常 用 手 段.传 统 的 文 本 分 类方 法 通 过 给 文 本 赋 予 单 个 标 签 实 现 文 本 的 二 分 类 或多 分 类.如 文 本 情 感 二 分 类 1通 过 给 文 本 赋 予 一 个 收 稿 日 期:2021-09-10 基 金 项 目:国
11、 家 自 然 科 学 基 金(62166025),甘 肃 省 重 点 研 发 计划(21YF5GA073)通 讯 作 者:赵 宏(1971-),男,甘 肃 西 和 人,博 士,教 授,博 导.Ema i l:zhaohl u 积 极 或 者 消 极 的 标 签,实 现 文 本 的 分 类;文 本 情 感 多分 类 1通 过 给 文 本 赋 予 高 兴、平 静、伤 心、愤 怒 等 标签 中 的 一 个 标 签,实 现 文 本 的 多 分 类.这 两 类 任 务 共同 点 是 每 段 文 本 仅 有 一 个 标 签,通 过 标 签 实 现 文 本分 类.给 文 本 赋 予 的 单 个 标 签 可
12、以 大 致 表 达 文 本 的 内容,实 现 文 本 分 类,但 单 个 标 签 对 文 本 的 表 达 不 够 细致.如 果 给 文 本 赋 予 多 个 标 签,则 多 个 标 签 将 从 多 个角 度 对 文 本 进 行 表 达,实 现 对 文 本 内 容 较 为 细 致 的第49卷 第1期2023年2月兰 州 理 工 大 学 学 报J ou r na lo fLan zhouUn i ve r s i t yo fTe chno l ogyVo l.49 No.1Feb.2023表 达.例 如,如 果 给 一 段 解 读 国 家 政 策 的 文 本 赋 予 政治、经 济、国 策 等 多
13、个 标 签,则 这 些 标 签 在 有 效 代 表文 本 内 容 的 同 时 可 以 细 化 文 本 的 分 类.多 标 签 文 本分 类 在 标 签 推 荐 2、信 息 检 索 3和 垃 圾 邮 件 分 类 4等 实 际 应 用 中 具 有 重 要 的 价 值.1 相 关 工 作传 统 的 多 标 签 文 本 分 类 主 要 使 用 问 题 转 换 和 算法 适 应 两 种 基 于 机 器 学 习 的 方 法.问 题 转 换 方 法 将 多 标 签 文 本 分 类 问 题 转 换 为BR 5(b i na r yr e l evanc e)或LP 6(l abe lpowe r s e t)
14、方法.BR方 法 通 过 为 每 个 标 签 建 立 互 相 独 立 的 二 分 类器,将 多 标 签 文 本 分 类 问 题 转 换 为 多 个 文 本 二 分 类问 题.在 预 测 文 本 标 签 时,如 果 当 前 二 分 类 器 预 测 结果 为 正,则 认 为 文 本 具 有 该 二 分 类 器 所 代 表 的 标 签.该 方 法 中,文 本 需 要 通 过 所 有 的 二 分 类 器,判 断 文 本所 具 有 的 标 签,实 现 文 本 的 多 标 签 分 类.BR方 法 的特 点 是 结 构 简 单,容 易 计 算,但 是BR方 法 忽 略 了 标签 之 间 的 关 系,使 得
15、预 测 的 性 能 下 降.LP方 法 将 多标 签 文 本 分 类 问 题 转 换 为 文 本 多 分 类 问 题,其 将 数据 集 中 的 标 签 组 织 成 包 含 不 同 标 签 的 多 个 标 签 子集,从 而 将 多 标 签 文 本 分 类 问 题 转 换 为 文 本 多 分 类问 题.LP方 法 简 单 直 接,但 是,由 于 不 同 标 签 子 集 所属 的 文 本 数 量 差 距 较 大,导 致 样 本 不 平 衡,并 且,由于 文 本 所 属 类 别 依 赖 于 训 练 集 中 的 标 签 集,所 以,LP方 法 无 法 有 效 预 测 包 含 训 练 集 中 未 出 现
16、标 签 的文 本.算 法 适 应 方 法 对 常 用 的 机 器 学 习 算 法 进 行 改 进以 适 应 多 标 签 文 本 分 类 任 务.经 典 算 法 包 括ML-kNN 7(mu l t i-l abe lk-ne a r e s tne i ghbo r)和r ank-SVM 8(r ank i ngsuppo r tve c t o rma ch i ne).ML-kNN对 传 统 的kNN算 法 改 进 以 适 应 多 标 签 文 本 分类 问 题.ML-kNN通 过 确 定 每 个 实 例 最 近 的k个 实例,然 后 通 过 这 些 实 例 的 标 签 集 合 使 用 最
17、大 后 验 概率 来 预 测 新 实 例 的 标 签 集.ML-kNN简 单、高 效,应用 广 泛,但 是 未 考 虑 标 签 之 间 的 相 关 性 信 息.Rank-SVM采 用“最 大 间 隔”策 略,通 过 定 义 一 组 线 性 分 类器 最 小 化r ank i ngl os s来 处 理 多 标 签 文 本 分 类 任 务.Rank-SVM方 法 使 用 排 名 解 决 了 类 别 不 平 衡 和 排序 损 失,但 是 具 有 计 算 复 杂 度 高 和 预 测 误 差 大 的 缺点.近 年 来 随 着 深 度 学 习 技 术 的 快 速 发 展,深 度 学习 逐 渐 应 用 到
18、 多 标 签 文 本 分 类 中.Ku r a t a等 9利 用标 签 共 现 信 息 通 过 全 连 接 网 络 建 立 标 签 之 间 的 相 关性,引 入CNN(c onvo l u t i ona lneur a lne two rks)处 理多 标 签 文 本 分 类 问 题.但CNN由 于 受 到 卷 积 窗 口 大小 的 限 制,无 法 捕 获 文 本 的 长 期 依 赖 信 息,使 得 分 类效 果 欠 佳.Chen等 10将CNN和RNN(r e cur r en tneur a lne two rk)结 合,使 用CNN网 络 提 取 文 本 的特 征,使 用RNN预 测
19、 文 本 的 标 签 序 列,但 由 于 忽 略了 标 签 之 间 的 相 关 性,效 果 仍 然 不 够 理 想.基 于 序 列到 序 列(Seq2Seq)方 法 的 出 现 极 大 地 提 高 了 多 标 签文 本 分 类 任 务 的 精 度,其 中Nam等 11-12利 用 序 列到 序 列 模 型 对 文 本 内 容 进 行 编 码,解 码 阶 段 则 使 用RNN依 次 生 成 预 测 标 签.但 使 用 序 列 到 序 列 方 法时,是 否 按 标 签 出 现 的 频 次 进 行 排 序 是 影 响 预 测 精度 的 一 个 重 要 因 素.L i n等 13使 用 多 级 空 洞
20、 卷 积 来捕 获 更 高 级 别 的 语 义 信 息,增 强 序 列 到 序 列 模 型 预测 的 性 能.Tang等 14-15利 用 图 卷 积 神 经 网 络 处 理 多标 签 文 本 分 类 问 题,不 同 于RNN和CNN,图 卷 积神 经 网 络 以 图 的 方 式 对 文 本 进 行 建 模,能 更 有 效 地捕 获 文 本 和 词 之 间 的 关 系.为 了 对 标 签 之 间 的 相 关 性 进 行 建 模,Yang等 16将 多 标 签 文 本 分 类 问 题 转 换 为 序 列 生 成 问 题,使 用 序 列 到 序 列 的 模 型 和 注 意 力 机 制 表 达 标
21、签 之 间的 相 关 性,提 高 了 多 标 签 文 本 分 类 的 精 度.但 是,这种 生 成 模 型 中 后 一 个 时 刻 标 签 生 成 的 正 确 与 否,严重 依 赖 前 一 时 刻 标 签 的 生 成 结 果,影 响 了 标 签 预 测的 准 确 性.Xi ao等 17提 出 一 种 新 的 针 对 标 签 的 注 意力 网 络,借 助 自 注 意 力 和 标 签 注 意 力 机 制 建 立 标 签之 间 的 相 关 性,取 得 了 较 好 的 效 果.L i ao等 18使 用CNN网 络 提 取 文 本 的 特 征,然 后 利 用 序 列 到 序 列 模型 解 决 多 标
22、签 文 本 分 类 问 题,并 通 过 在 输 出 层 设 置标 签 依 赖 信 息 矩 阵,建 立 标 签 之 间 的 相 关 性,但 是,曝 光 偏 差 问 题 的 存 在 导 致 前 一 时 刻 生 成 的 错 误 标 签对 后 一 时 刻 标 签 生 成 的 影 响 无 法 消 除.本 文 通 过 使 用 词-标 签 概 率 信 息,有 效 获 取 标 签之 间 相 关 性 和 词 与 标 签 之 间 潜 在 的 关 系,并 使 用CNN对 文 本 进 行 特 征 提 取,使 用 词-标 签 概 率 信 息建 立 词 与 标 签 和 标 签 与 标 签 之 间 的 相 关 性,提 高
23、分类 性 能.2 模 型 建 立本 文 针 对 现 有 多 标 签 文 本 分 类 问 题 中 如 何 有 效结 合 文 本 特 征 和 标 签 之 间 相 关 性 的 问 题,提 出 一 种利 用 词-标 签 概 率 信 息 的 多 标 签 文 本 分 类 模 型,分 类过 程 如 图1所 示.模 型 分 为 三 个 部 分:第 一 部 分,如红 色 虚 线 框 内 所 示,首 先 利 用CNN和 最 大 池 化,提取 文 本 特 征;第 二 部 分,如 蓝 色 虚 线 框 内 所 示,通 过训 练Labe l ed-LDA 19模 型,获 取 词 典 中 所 有 词 和 标4 0 1 兰
24、州 理 工 大 学 学 报 第49卷图1 模 型 预 测 过 程F i g.1 M o d e l p r e d i c t i o n p r o c e s s签 的 词-标 签 概 率,然 后,使 用 当 前 文 本 的 词-标 签 概率 信 息 与 标 签 的 嵌 入 向 量 矩 阵 相 乘 的 结 果,作 为B i-LSTM模 型 的 输 入,再 通 过CNN网 络 提 取 特 征;第三 部 分,如 黄 色 虚 线 框 内 所 示,将 文 本 特 征 和 词-标签 概 率 特 征 进 行 拼 接,将 拼 接 后 的 特 征 向 量 送 入 全连 接 神 经 网 络 进 行 分 类.
25、为 了 后 续 表 述 方 便,下 面 用 数 学 符 号 描 述 多 标签 文 本 分 类 任 务.X=x1,x i,x n 表 示 一 个 文 本,其 中x i表 示 为 文 本 中 的 第i个 单 词.L=l 1,l i,l K 表 示 标 签 集,其 中l i为 标签 集 中 的 第i个 标 签.Y=y1,y i,y h L表 示 文 本X的 标 签子 集,其 中y i为 标 签 集 中 的 第i个 标 签.Y=f(X)表 示 通 过 函 数f输 入X,输 出Y.P(y1,y i,y h|x1,x i,x n)表 示 在X条 件 下 得 出Y的 概 率,用 于 评 价 函 数f的 性
26、能.2.1 文 本 特 征 提 取这 一 部 分 将 介 绍 文 本 特 征 提 取 过 程,其 中 文 本X=x1,x i,x n 包 含n个 单 词,通 过 词 嵌 入将 文 本 中 的 单 词 向 量 化,相 应 的 文 本 表 示 为E X=e 1,e i,e n,其 中E X Rn k,k为 词 嵌 入 向 量的 维 度,e i:i+d-1表 示 拼 接 文 本 中 词 向 量e i,e i+1,e i+d-1.通 过 卷 积 核m Rd k卷 积 产 生 局 部 文 本 特 征c i的 计 算 如 公 式 为c i=f(m e i:i+d-1+b)(1)其 中:b R表 示 偏 差
27、;表 示 点 积 运 算;f为 双 曲 正切 函 数,公 式 为t anh(x)=exp(x)-exp(-x)exp(x)+exp(-x)(2)通 过 卷 积 核m获 取 文 本E X中 的 所 有 局 部 特征C=c1,c2,c n-d+1,最 后 通 过 最 大 池 化 捕 获当 前 文 本 在 卷 积 核m运 算 后 最 具 有 代 表 性 的 特 征:C=Poo l max(C)(3)其 中:C为 提 取 的 重 要 特 征;Poo l max为 最 大 池 化 操作.上 述 流 程 是 其 中 一 个 卷 积 核m在 文 本E X上卷 积 运 算 提 取 文 本 特 征 的 过 程,
28、本 模 型 使 用 多 个 不同 尺 度 的 卷 积 核 提 取 文 本 不 同 的 特 征.最 终,通 过 不同 的 卷 积 核 运 算,经 过 最 大 池 化,得 到 当 前 文 本 中 最具 有 代 表 性 的 特 征D Rs a.其 中:s是 不 同 尺 寸 卷积 核 的 个 数;a是 同 一 尺 寸 不 同 参 数 的 卷 积 核 的 个数.2.2 文 本 词-标 签 信 息 提 取本 节 将 介 绍 获 取 标 签 之 间 和 词 与 标 签 之 间 的 潜在 相 关 性,通 过 使 用Labe l ed-LDA模 型,获 取 文 本中 每 个 单 词 的 词-标 签 概 率 信
29、息.Labe l ed-LDA模 型是 一 个 概 率 生 成 模 型,该 模 型 将 每 篇 文 档 看 成 包 含多 个 主 题 概 率 的 多 项 式 分 布,每 个 主 题 看 作 包 含 多个 具 有 潜 在 相 关 性 的 词 概 率 的 多 项 式 分 布,通 过 加入 文 档 的 标 签 信 息 来 约 束 主 题,使 每 个 主 题 与 每 个标 签 建 立 映 射 关 系,如 图2所 示.其 中:是 主 题-词分 布 向 量,和为 狄 利 克 雷 分 布 的 两 个 先 验 参 数,为 标 签 的 先 验 参 数.Labe l ed-LDA模 型 的 生 成 过程 如 下:
30、S t ep1:为 标 签 空 间 中 的 每 一 个 标 签l生 成 主5 0 1 第1期 赵 宏 等:基 于 词-标 签 概 率 的 多 标 签 文 本 分 类 研 究 图2 L a b e l e d-L D A模 型 图F i g.2 G r a p h i c a l m o d e l o f L a b e l e d-L D A题-词 分 布,表 示 为l:l=(l,1,l,2,l,V)TDi r i ch l e t()(4)其 中:V为 词 典 大 小;RV是 狄 利 克 雷 分 布 参 数.S t ep2:为 数 据 集 中 的 每 一 个 文 本d,构 建 相 应的 标
31、 签 集(d)=(d)l1,(d)l i,(d)l K,(d)l i如 下式 所 示:(d)l i 0,1Be rnou l l i(i)(5)其 中:i为 第i个 标 签 的 先 验 概 率.S t ep3:将 文 本 的 标 签 向 量 表 示 为(d)=l i|(d)l i=1,通 过 文 本 的 标 签 向 量,定 义 投 影 矩 阵Q(d)RM d K,其 中M d=|(d)|.当(d)中 的 第i个元 素 为 第j个 标 签 时Q(d)i,j=1,其 他 位 置 为0.使 用 投影 矩 阵Q(d)生 成 被 限 制 的 标 签 先 验 参 数(d)RK,如 下 式 所 示:(d)=
32、Q(d)(6)其 中:=(1,2,K)T是 主 题 的 狄 利 克 雷 先 验.对 于 文 档d的 主 题 分 布 概 率(d)为(d)=(l1,l M d)TDi r i ch l e t(d)(7)S t ep4:对 于 文 档d中 的 每 一 个 词 的 位 置i,首先 根 据 多 项 式 分 布 得 到 该 位 置 的 主 题z i,然 后 利 用多 项 式 分 布 找 出 该 位 置 的 词:z i mu l t(d)(8)w i mu l t(z i)(9)通 过 提 取 训 练 好 的Labe l ed-LDA模 型 中 的 主题-词 分 布 概 率,再 将 获 得 的 主 题-
33、词 分 布 概 率 重 新排 序 为 词-标 签 概 率,获 取 流 程 如 图3所 示.图3 词-标 签 概 率 获 取 流 程F i g.3 W o r d-l a b e l p r o b a b i l i t y a c q u i s i t i o n p r o c e s s 在 预 测 当 前 文 本 可 能 的 标 签 子 集 时,首 先 提 取当 前 文 本 中 每 个 词 对 应 的 词-标 签 概 率 组 成P=p1,p i,p n,其 中p i RK对 应 当 前 文 本 中的 第i个 词.接 着 使 用 文 本 词-标 签 概 率 矩 阵P乘 以标 签 嵌 入
34、 向 量 矩 阵E L RK k,计 算 结 果 表 示 为U=u1,u2,u n,如 下 式 所 示:U=P E L(10)将U通 过B i-LSTM网 络 获 取 当 前 文 本 标 签 之间 的 相 关 性 信 息,B i-LSTM网 络 可 以 解 决LSTM网 络 只 能 获 取 正 向 信 息 或 者 逆 向 信 息 而 无 法 有 效 地获 取 双 向 信 息 的 问 题.H=h1,h i,h n 表 示为 经 过B i-LSTM网 络 后 获 取 的 隐 藏 信 息,第i个 隐藏 状 态h i的 计 算 公 式 为h i=hi;hi(11)其 中:hi表 示 为 正 向 传 播
35、 时 第i个 隐 藏 状 态 的 值,hi表 示 负 向 传 播 时 第i个 隐 藏 状 态 的 值,公 式 为hi=LSTM(u i,hi-1)(12)hi=LSTM(u i,hi+1)(13)通 过B i-LSTM网 络 获 取 的 隐 藏 状 态H,使 用CNN进 行 特 征 提 取,提 取 过 程 与 文 本 特 征 提 取 过 程相 似.2.3 标 签 预 测上 述 过 程 中 通 过CNN网 络 提 取 了 文 本 的 特征,利 用B i-LSTM网 络 和CNN网 络 提 取 了 文 本 的词-标 签 概 率 信 息.标 签 预 测 阶 段 将 提 取 的 文 本 特 征 和 词
36、-标 签 信息 进 行 拼 接,拼 接 后 的 特 征 表 示 为C,送 入 全 连 接 神经 网 络 作 为 模 型 的 输 出 层:ou t pu t=w CT+b w(14)其 中:w是 全 连 接 神 经 网 络 的 权 重 值;b w表 示 全 连接 神 经 网 络 的 偏 差.3 实 验 设 计 与 结 果 分 析3.1 数 据 集RCV1-V2(Reu t e r sCo r pusVo l ume):该 数 据集 由Lewi s等 20提 供,包 含 超 过800000条 手 工 分类 的 路 透 社 新 闻,单 条 新 闻 可 有 多 个 主 题,共 有103个 主 题.AA
37、PD(a rx i va c ademi cpape rda t a s e t):该 数 据集 是 由Yang等 16创 建 的 一 个 数 据 集,包 含a rx i v网 站 上55840篇 学 术 论 文 的 摘 要 部 分.每 一 篇 摘 要包 含 多 个 主 题,一 共 包 含54个 主 题.两 种 数 据 集 的 统 计 结 果 如 表1所 列.其 中:Sam-6 0 1 兰 州 理 工 大 学 学 报 第49卷表1 数 据 集 统 计 结 果T a b.1 T h e s u m m a r y o f t h e d a t a s e t s数 据 集Samp l es i
38、 z eLabe ls i z eWo r ds/Samp l eLabe l s/Samp l eRCV1-V2 804414 103 123.94 3.24AAPD 55840 54 163.42 2.41p l es i z e是 数 据 集 中 包 含 的 样 本 总 数;Labe ls i z e是数 据 集 中 标 签 的 总 数;Wo rds/Samp l e是 数 据 集 中每 个 样 本 的 平 均 字 数;Labe l s/Samp l e是 每 个 样 本对 应 标 签 的 平 均 数.3.2 评 估 方 法本 文 采 用 精 确 率(Pr e c i s i on)、召
39、 回 率(Pe c a l l)和F1值 为 模 型 的 评 估 方 式.其 中,精 确 率、召 回 率 和F1值 计 算 公 式 为 Pr e c i s i on=TPTP+FP(15)Re c a l l=TPTP+FN(16)F1=2Pr e c i s i onRe c a l lPr e c i s i on+Re c a l l(17)从 公 式 可 知,F1综 合 了 精 确 率 和 召 回 率,能 够 更 好地 评 价 模 型 的 综 合 性 能.3.3 实 验 设 计使 用Labe l ed-LDA模 型 获 得 词-标 签 概 率,模型 的 迭 代 次 数 为1000轮,
40、其 中=50/K,K为 标签 数 量,=0.01.预 测 模 型 的ba t chs i z e为64.RCV1-V2数 据 集 上 词 嵌 入 和 标 签 嵌 入 向 量 维 度 为512维,AAPD数 据 集 上 词 嵌 入 和 标 签 嵌 入 向 量 为256,初 始 值 均 为 随 机 初 始 化.为 了 提 取 完 整 的 词 语表 征,同 时 防 止 引 入 噪 声,CNN模 型 采 用 三 种 不 同尺 寸 的 卷 积 核,分 别 为2、3和4,且 每 种 不 同 尺 寸 的卷 积 核 分 别 有100个.B i-LSTM网 络 的 层 数 设 置 为3层.全 连 接 网 络 的
41、d r opou t=0.5.优 化 方 式 选 择 为Adam优 化,l e a rnr a t e=0.0008,1=0.9,2=0.999,=10-8.深 度 学 习 框 架 为Py t o r ch(h t t ps:/py t o r ch.o r g),GPU为Te s l aV100.3.4 词-标 签 概 率使 用Labe l ed-LDA模 型 获 取 的 词-标 签 概 率 信息 能 够 有 效 地 将 当 前 文 本 中 词 所 对 应 的 所 有 标 签 的概 率 信 息 带 入 模 型,在 表2中 列 举 了AAPD数 据 集中 一 些 标 签 以 及 最 能 代 表
42、 该 标 签 的6个 词,其 中 已经 除 去 了 一 些 无 意 义 的 词 如t he、o f、a、an等 词.表2中,s t a t.me标 签 代 表Me t hodo l ogy,quan t-ph标 签 代 表Quan t umPhys i c s,n l i n.ao标 签 代 表Adap t a t i onandSe l f-Or gan i z i ngSys t ems,phys i c s.da t a-an标 签 代 表Da t aAna l ys i s,S t a t i s t i c sandPr obab i l i t y,phys i c s.s o c
43、-ph标 签 代 表Phys i c sandSo c i e t y,ma t h.o c标 签 代 表Op t imi z a t i onandCon-t r o l,c s.db标 签 代 表Da t aba s e s,c s.mm标 签 代 表Mu l t imed i a.如 表2所 示,使 用Labe l ed-LDA模 型 训 练 出 来的 词-标 签 概 率 信 息 中 有 些 词 对 于 标 签 极 具 代 表 性,如:quan t um、c l a s s i c a l等 词 都 有 很 高 的 概 率 能 够 代表quan t-ph标 签,对 于ma t h.oc标
44、 签 有 代 表 性 的 词包 括p r ob l em、op t imi z a t i on、a l go r i t hm等,对 于c s.db标 签 有 代 表 性 的 词 包 括da t a、que r y和da t aba s e等,对 于c s.mm标 签 有 代 表 性 的 词 包 括v i deo、im-age和p r opo s ed等.通 过 表2列 举 的 部 分 标 签 与 词的 对 应 概 率 信 息,可 以 看 出 使 用Labe l ed-LDA模 型训 练 的 词-标 签 概 率 信 息,能 够 有 效 找 出 词 与 标 签 之间 的 概 率 关 系.在 预
45、 测 文 本 的 标 签 集 时,使 用 词-标表2 A A P D数 据 集 标 签 和 词 关 系 信 息T a b.2 A A P Dd a t a s e t l a b e l a n d w o r d r e l a t e d i n f o r m a t i o ns t a t.me词 概 率quan t-ph词 概 率n l i n.ao词 概 率phys i c s.da t a-an词 概 率da t a 0.0144 quan t um 0.0517 i n f o rma t i on 0.0325 i n f o rma t i on 0.0191mode l
46、 0.0124 c l a s s i c a l 0.0142 s ys t ems 0.0118 l eng t h 0.0152c aus a l 0.0102 wh i ch 0.0063 p r o c e s s 0.0102 l aw 0.0118mode l s 0.0102 c ommun i c a t i on 0.0051 dynami c s 0.0079 d i s t r i bu t i on 0.0093e s t ima t i on 0.0069 i n f o rma t i on 0.0049 o r gan i z a t i on 0.0064 e
47、n t r opy 0.0084va r i ab l e s 0.0068 s t a t e 0.0049 r obus t ne s s 0.0048 s e r i e s 0.0084phys i c s.s o c-ph词 概 率ma t h.o c词 概 率c s.db词 概 率c s.mm词 概 率ne two rks 0.0142 p r ob l em 0.0101 da t a 0.0220 v i deo 0.0259ne two rk 0.0116 op t imi z a t i on 0.0079 que r y 0.0083 image 0.0143mode l
48、 0.0058 a l go r i t hm 0.0071 da t aba s e 0.0073 p r opo s ed 0.0079node s 0.0048 p r ob l ems 0.0067 que r i e s 0.0066 mu l t imed i a 0.0071c ommun i t y 0.0040 c onvex 0.0060 pape r 0.0038 qua l i t y 0.0067s t r uc t ur e 0.0039 me t hod 0.0047 mi n i ng 0.0038 pape r 0.00667 0 1 第1期 赵 宏 等:基
49、于 词-标 签 概 率 的 多 标 签 文 本 分 类 研 究 签 概 率 信 息 能 够 通 过 文 本 中 的 词 来 提 高 可 能 标 签 的概 率.3.5 实 验 结 果 分 析为 验 证 本 文 模 型 的 有 效 性,在 相 同 的 实 验 环 境下 分 别 构 造BR(b i na r yr e l evanc e)5、LP(l abe lpowe r s e t)6、CNN 21、CNN-RNN 10、SGM(s e-quenc egene r a t i onmode l)16和CIFN(CNNandi n i t i a l i z edf u l l yc onne c
50、 t i on)18等 模 型.对 于 所 有 对 比 模 型,采 用 在 验 证 集 上 产 生 最 高F1值 的 结 果 作 为 最 终 模 型,并 利 用 测 试 集 验 证 模型,得 出 实 验 结 果.所 有 模 型 的 词 嵌 入 和 标 签 嵌 入 都进 行 随 机 初 始 化.本 文 模 型 在 两 个 数 据 集 上 的 结 果 以 及 对 比 模 型的 结 果 如 表3和 表4所 列.表3 R C V 1-V 2数 据 集 实 验 结 果T a b.3 T h e e x p e r i m e n t a l r e s u l t s o n R C V 1-V 2 d