收藏 分享(赏)

基于Dlib和变种Tran...former的哈欠检测方法_廖冬杰.pdf

上传人:学资料 文档编号:20803872 上传时间:2023-05-09 格式:PDF 页数:7 大小:1.02MB
下载 相关 举报
基于Dlib和变种Tran...former的哈欠检测方法_廖冬杰.pdf_第1页
第1页 / 共7页
基于Dlib和变种Tran...former的哈欠检测方法_廖冬杰.pdf_第2页
第2页 / 共7页
基于Dlib和变种Tran...former的哈欠检测方法_廖冬杰.pdf_第3页
第3页 / 共7页
亲,该文档总共7页,到这儿已超出免费预览范围,如果喜欢就下载吧!
资源描述

1、汽 车 技 术【摘 要】为 及 时 检 测 驾 驶 员 的 疲 劳 驾 驶 情 况,提 出 了 一 种 基 于 Dlib 和 变 种 Transformer 的 哈 欠 检 测 方 法。首 先,基 于 Dlib的 人 脸 关 键 点 模 型 构 建 驾 驶 员 眼 部 和 嘴 部 的 哈 欠 特 征 矩 阵,然 后 在 视 频 检 测 领 域 提 出 一 种 变 种 Transformer 模 型 对 哈 欠 特 征矩 阵 进 行 提 取 和 分 类,最 后 基 于 YawDD 数 据 集 进 行 验 证,结 果 表 明,所 提 出 算 法 的 哈 欠 检 测 准 确 率 达 96.8%,高

2、于 已 有 算 法,适 用 于 驾 驶 员 疲 劳 驾 驶 时 哈 欠 行 为 的 检 测。主题词:哈欠检测 Dlib 哈欠特征矩阵 变种 Transformer YawDD中图分类号:TP 391.4 文献标识码:A DOI:10.19620/ki.1000-3703.20220453Yawn Detection Method Based on Dlib and Variant TransformerLiao Dongjie1,2(1.East China Jiaotong University,Nanchang 330013;2.Key Laboratory of Advanced Con

3、trol and Optimization of JiangxiProvince,Nanchang 330013)【Abstract】In order to detect the driver s fatigue driving situation in time,this paper proposed a yawn detectionmethod based on Dlib and variant Transformer.First,the yawn feature matrix of the driver s eyes and mouth wasconstructed based on t

4、he face key point model of Dlib.Then a variant Transformer model was proposed in the field of videodetection,to extract the yawn feature matrix and classify the results.Finally,it was verified based on the YawDD dataset.The results show that the yawn detection accuracy of the proposed algorithm is 9

5、6.8%,which is higher than the existingalgorithms,and is suitable for the detection of yawning behavior when the driver is fatigued.Key words:Yawn detection,Dlib,Yawning features matrix,Variant Transformer,YawDD廖冬杰1,2(1.华 东 交 通 大 学,南 昌 330013;2.江 西 省 先 进 控 制 与 优 化 重 点 实 验 室,南 昌 330013)基于 Dlib 和变种 Tra

6、nsformer 的哈欠检测方法汽车技术 Automobile Technology【引用格式】廖冬杰.基于 Dlib 和变种 Transformer 的哈欠检测方法 J.汽车技术,2023(3):42-48.LIAO D J.Yawn Detection Method Based on Dlib and Variant TransformerJ.Automobile Technology,2023(3):42-48.1 前言疲 劳 驾 驶 是 造 成 交 通 事 故 的 主 要 原 因 之 一 1,而 打哈 欠 是 驾 驶 员 疲 劳 初 期 的 主 要 表 现 形 式 之 一 2。因 此,

7、研 究 驾 驶 员 疲 劳 初 期 的 哈 欠 特 征,从 而 进 行 准 确 检 测,对保障道路交通安全具有重要意义。国 内 外 研 究 人 员 针 对 哈 欠 检 测 已 进 行 了 大 量 的 研究。马 素 刚 等 3充 分 关 注 人 脸 的 各 种 特 征,以 驾 驶 员 面部 图 片 作 为 输 入,通 过 卷 积 核 进 行 特 征 提 取,并 利 用Softmax 分 类 器 判 断 驾 驶 员 是 否 打 哈 欠,但 只 关 注 了 单帧 图 像 的 分 类,没 有 充 分 利 用 多 帧 图 像 在 时 间 维 度 上的 关 联 性,可 能 把 讲 话、唱 歌、大 笑 等

8、张 嘴 行 为 误 检 测为 打 哈 欠。Mateusz Knapik 等 4 对 热 成 像 视 频 进 行 人 脸区 域 检 测,提 出 眼 角 检 测 算 法,实 现 了 人 脸 对 齐,通 过检 测 嘴 部 区 域 的 快 速 温 度 变 化 判 断 驾 驶 员 的 打 哈 欠 行为,但 未 考 虑 大 幅 度 张 嘴 呼 吸 以 及 咳 嗽 等 特 殊 情 况。史瑞 鹏 等 人 5提 出 了 一 种 基 于 多 任 务 卷 积 神 经 网 络(Multi-Task Convolutional Neural Network,MTCNN)的 加速 优 化 算 法,对 图 像 中 驾 驶

9、员 是 否 存 在 张 嘴 行 为 进 行分 类,以 嘴 部 持 续 张 开 时 间 作 为 评 判 驾 驶 员 是 否 打 哈欠 的 标 准,但 此 类 方 法 分 类 标 准 无 法 准 确 度 量,无 法 确定 嘴 部 持 续 张 开 时 间 阈 值,只 能 根 据 经 验 给 出,无 法 达到 最 优 效 果。王 超 等 6 提 出 只 关 注 嘴 部 图 像,利 用 卷 积神 经 网 络(Convolutional Neural Network,CNN)和 长 短 期记 忆(Long Short-Term Memory,LSTM)网 络 对 视 频 进 行空 间 和 时 间 的 特

10、征 提 取,从 而 实 现 哈 欠 检 测,但 是 这 类方 法 哈 欠 检 测 特 征 单 一,未 考 虑 眼 部 等 特 征 与 哈 欠 行 为的关联,缺乏全面性。本 文 基 于 Dlib 和 变 种 Transformer 7模 型,针 对 哈 欠检 测 特 征 单 一 的 问 题,同 时 关 注 左 右 眼 部、嘴 部 的 特 征变 化,构 建 包 含 直 接 哈 欠 特 征 和 隐 含 哈 欠 特 征 的 哈 欠 特征 矩 阵,有 效 避 免 驾 驶 员 嘴 部 呼 吸、咳 嗽 等 嘴 部 特 殊 情-422023 年 第 3 期b.哈 欠 特 征 矩 阵 构 建。根 据 定 位 关

11、 键 点 坐 标 提取 眼 部、嘴 部 直 接 哈 欠 特 征,得 到 每 帧 的 哈 欠 特 征 向 量,在 时 间 维 度 进 行 堆 积,构 建 包 含 直 接 哈 欠 特 征 和 隐 含 哈欠特征的视频哈欠特征矩阵。c.哈 欠 检 测。在 得 到 视 频 哈 欠 特 征 矩 阵 的 基 础上,利 用 变 种 Transformer 模 型 进 行 特 征 提 取 和 视 频 分类,完成对视频中是否有打哈欠行为的检测。3 基于 Dlib 的哈欠特征矩阵构建3.1 Dlib 人脸关键点定位Dlib 人 脸 关 键 点 定 位 使 用 了 Vahid Kazemi 等 人 提出 的 ERT

12、级 联 回 归 算 法 8,该 算 法 构 建 了 级 联 的 梯 度 提升 决 策 树(Gradient Boosting Decision Tree,GBDT),使 得预 测 的 人 脸 形 状 即 关 键 点 不 断 回 归 到 真 实 位 置 9,其 基本 思 想 是:每 一 个 GBDT 的 每 个 叶 子 节 点 均 储 存 着 残差 回 归 量,当 输 入 经 过 某 一 叶 子 节 点 时,将 当 前 输 入 和叶 子 节 点 储 存 的 残 差 回 归 量 相 加,起 到 回 归 作 用,所 有残 差 回 归 量 相 加 后,即 可 获 得 预 测 的 人 脸 形 状。与 传

13、统 算 法 相 比,ERT 算 法 具 有 较 出 色 的 准 确 率 和 检 测 速度,同 时 还 能 够 处 理 数 据 缺 失 的 问 题 8。ERT 算 法 核 心表达式为:S=(xT1,xT2,xTp)T R2 p(1)S(t+1)=S(t)+t(I,S(t)(2)式 中,S 为 由 p 个 关 键 点 坐 标 组 成 的 人 脸 真 实 形 状;xTi R2(i=1,2,p)为 面 部 图 像 I 的 第 i 个 关 键 点 的 坐 标;S(t)为 第 t 次 的 人 脸 估 计 形 状;t(I,S(t)为 第 t 次 计 算 得 到的残差回归量。考 虑 到 Dlib 在 人 脸

14、检 测 和 人 脸 关 键 点 检 测 上 的 出色 能 力,本 文 利 用 Dlib 提 供 的 人 脸 关 键 点 模 型 10 对 车 内驾 驶 员 的 68 个 人 脸 关 键 点 进 行 检 测,结 果 如 图 2 所 示,试 验 证 明,Dlib 人 脸 关 键 点 检 测 算 法 在 车 内 环 境 中 有 着优 秀 的 关 键 点 定 位 能 力。因 此,利 用 Dlib 人 脸 关 键 点 模型分析驾驶员疲劳时的眼部和嘴部哈欠特征是可行的。3.2 哈欠 特征构建眼 睛 和 嘴 是 驾 驶 员 在 打 哈 欠 时 表 现 最 为 突 出 的 部分。本 文 利 用 Dlib 人

15、脸 关 键 点 模 型 得 到 人 脸 关 键 点,提取 眼 部 的 12 个 关 键 点 坐 标 信 息、嘴 部 的 6 个 关 键 点 坐 标廖冬杰:基于 Dlib 和变种 Transformer 的哈欠检测方法况 的 误 检;针 对 无 法 度 量 阈 值 的 问 题,采 用 深 度 学 习 的方 法,利 用 变 种 Transformer 模 型 进 行 隐 含 哈 欠 特 征 提取,并 实 现 哈 欠 分 类,提 高 算 法 的 准 确 性;针 对 帧 与 帧 之间 缺 乏 联 系 的 问 题,引 进 多 头 注 意 力 机 制 和 序 列 编 码,以降低检测中大笑、说话等情况的误检

16、可能性。2 基 于 Dlib 和 变 种 Transformer 的 哈 欠 检 测 方法原理Dlib 是 一 个 包 含 众 多 机 器 学 习 算 法、图 像 处 理 和 数值 计 算 等 丰 富 功 能 的 开 源 工 具 箱,广 泛 应 用 于 人 脸 识别、分 类 等 领 域。Transformer 模 型 是 一 种 自 然 语 言 处 理模 型,由 编 码 器(Encoder)和 解 码 器(Decoder)组 成 7,可以 完 成 特 征 提 取,同 时 捕 获 远 距 离 的 依 赖 关 系,实 现 分类 和 生 成 等 功 能。本 文 旨 在 实 现 驾 驶 员 哈 欠 检

17、 测,故 提出 基 于 Dlib 和 变 种 Transformer 的 哈 欠 检 测 方 法,其 原 理如图 1 所示。本文提出的哈欠检测方法主要包含 3 个部分:a.人 脸 检 测 和 关 键 点 定 位。通 过 基 于 集 成 回 归树(Ensemble of Regression Trees,ERT)的 Dlib 算 法 进 行人脸检测以及 68 点关键点定位。输入视频视频帧1视频帧2Dlib 检测算法人脸检测人脸关键点定位眼部哈欠特征嘴部哈欠特征单帧特征向量眼部哈欠特征嘴部哈欠特征单帧特征向量Dlib 检测算法人脸检测人脸关键点定位视频特征矩阵变种Transformer模型哈欠分类

18、图 1 哈欠检测原理图 2 车内环境人脸检测关键点-43汽 车 技 术信 息,如 图 3、图 4 所 示,以 眼 部 和 嘴 部 张 度 作 为 直 接 哈欠 特 征,得 到 视 频 帧 哈 欠 特 征 向 量,再 按 照 时 间 维 度堆 积,构 建 包 含 嘴 部 持 续 张 开 时 间、眼 睛 闭 合 时 间 比例(Percentage Eyelid Closure over the Pupil over Time,PERCLOS)等 隐 含 哈 欠 特 征 的 视 频 哈 欠 特 征 矩 阵,从 而进行哈欠行为检测。3.2.1 眼部哈欠特征根 据 Soukupov 等 人 11提 出

19、的 观 点,驾 驶 员 眼 部 开合 程 度 的 改 变 可 以 通 过 眼 部 纵 横 比(Eye Aspect Ratio,EAR)的 变 化 来 表 征。用 p i 表 示 图 3、图 4 中 编 号 为 i 的点,左、右眼眼部纵横比 R eal 和 R ear 的计算公式为:Re a l=p2-p6+p3-p52 p1-p4(3)Re a r=p8-p1 2+p9-p1 12 p7-p1 0(4)John Sofia Jennifer 提 出,为 了 定 位 角 度 更 为 宽 广 的朝 向 角,不 必 同 时 考 虑 2 只 眼 睛,仅 使 用 单 眼 检 测 即 可达 到 出 色

20、效 果 12,但 本 文 考 虑 到 驾 驶 员 可 能 存 在 揉 眼、扭 头 等 行 为 造 成 实 际 仅 能 检 测 到 1 只 眼 睛 的 情 况,将左、右眼部纵横比均作为哈欠特征。3.2.2 嘴部哈欠特征鉴 于 人 在 打 哈 欠 时,嘴 部 的 张 合 程 度 会 发 生 明 显 改变,因 此 类 比 于 Soukupov 提 出 的 眼 部 纵 横 比,本 文 引 入一 种 评 估 嘴 部 开 合 程 度 的 新 指 标 嘴 部 纵 横 比(Mouth Aspect Ratio,MAR)。考 虑 到 不 同 驾 驶 员 嘴 部 的厚度差别,根据嘴唇的相关关键点进行特征提取:RM

21、 A=p1 4-p1 8+p1 5-p1 72 p1 3-p1 6(5)式中,R MA 为嘴部纵横比。至 此,已 经 根 据 人 脸 关 键 点 模 型 提 取 出 眼 部 和 嘴 部的 哈 欠 特 征,将 这 些 特 征 组 合 在 一 起,形 成 视 频 帧 哈 欠特征向量。3.2.3 特征矩阵构建基 于 驾 驶 员 驾 驶 状 态 的 视 频 采 集 图 像,提 取 每 个 视频帧 R eal、R ear、R MA 特征值,获得单帧的哈欠特征向量 V ec:V ec=R eal i R ear i R MA i,i 1,n(6)式 中,R eal i、R ear i、R MA i 分 别

22、 为 第 i 个 视 频 帧 的 左、右 眼 眼 部纵横比和嘴部纵横比;n 为视频所含视频帧数量。若 将 特 征 向 量 按 照 时 间 维 度 进 行 堆 积,得 到 视 频 特征矩阵 H Q:HQ=|Re a l 1Re a r 1RM A 1Re a l 2Re a r 2RM A 2Re a l 3Re a r 3RM A 3Re a l nRe a r nRM A n(7)由 于 存 在 时 间 信 息,H Q 除 了 包 含 视 频 每 帧 的 左、右眼 部 纵 横 比 和 嘴 部 纵 横 比 等 直 接 哈 欠 特 征 以 外,还 包 含嘴 部 持 续 张 开 时 间、短 时 间

23、 内 是 否 存 在 嘴 部 张 度 大 幅 度改 变、单 位 时 间 眨 眼 次 数、PERCLOS 等 隐 含 哈 欠 特 征,为后续分辨驾驶员是否存在哈欠行为奠定了基础。4 变种 Transformer 模型4.1 Transformer 模型李 小 平 等 1 3通 过 LSTM 对 得 到 的 驾 驶 员 疲 劳 特 征矩 阵 进 行 分 类,从 而 判 断 驾 驶 员 是 否 处 于 疲 劳 状 态。卢 喜 东 等 人 14通 过 深 度 森 林 方 法 对 方 向 梯 度 直 方 图(Histogram of Oriented Gradient,HOG)特 征 矩 阵 进 行 恶

24、意 代 码 分 类。本 文 选 择 变 种 Transformer 模 型 提 取 H H Q 的隐 含 哈 欠 特 征,从 而 完 成 对 视 频 中 驾 驶 员 是 否 打 哈 欠 的分类,因为 Transformer 通过 注意 力机 制可 以捕 获远 距离依 赖 关 系,并 可 实 现 循 环 神 经 网 络(Recurrent NeuralNetwork,RNN)不 能 实 现 的 并 行 训 练 功 能,结 构 如 图 5所 示。廖冬杰:基于 Dlib 和变种 Transformer 的哈欠检测方法p 1p 2 p 3p 4p 5p 6p 8p 9p 10p 11 p 12p 7图

25、 3 眼部关键点图 4 嘴部关键点p 13p 18 p 17 p 16p 15 p 14图 5 Transformer 模型结构输出Softmax线性变换解码器(Decoder)编码器(Encoder)N N 残差连接&层标准化前馈神经网络残差连接&层标准化多头注意机制残差连接&层标准化多头注意机制位置编码输出嵌入 输入嵌入位置编码多头注意机制残差连接&层标准化前馈神经网络残差连接&层标准化-442023 年 第 3 期图 5 中,编 码 器 部 分 的 输 入 为 词 向 量 矩 阵,考 虑 到单 词 间 的 顺 序,为 每 个 词 向 量 添 加 了 位 置 编 码,计 算 公式分别为:P

26、()s,2 i=s i n()s 10 0002 i dm o d e l(8)P()s,2 i+1=c o s()s 1 0 0002 i dm o d e l(9)式中,P(s,2i)、P(s,2 i+1)分别 为句 子中 第 s 个单 词偶 数维 度/奇数维度的位置编码;d model 为位置编码的维度。将 经 过 位 置 编 码 的 词 向 量 矩 阵 作 为 自 注 意 力(Self-Attention)层 的 输 入,得 到 查 询 矩 阵、键 矩 阵 和 值矩阵,如图 6 所示。图 6 中,X 为 位 置 编 码 后 的 词 向 量 矩 阵;x 1、x 2 分 别为 经 过 位

27、置 编 码 第 1 个 和 第 2 个 单 词 的 词 向 量;W Q、W K、W V 为 训 练 好 权 重 的 线 性 变 换 矩 阵;Q、K、V 分 别 为 X 的查询矩阵、键矩阵和值矩阵。Q 与 KT相 乘,得 到 词 向 量 与 其 他 词 向 量 之 间 的 关 联性,为 了 维 护 梯 度 的 稳 定 性,除 以 dK,通 过 Softmax 函数 得 到 该 词 向 量 与 其 他 词 向 量 关 联 性 的 权 重,再 与 词 向量包含的信息 V 相乘,可得:A(Q,K,V)=So f t m ax|Q KTdKV(10)式 中,A(Q,K,V)为 自 注 意 力 层 输 出

28、;d K 为 键 矩 阵 K 的 维度。为 了 学 习 到 更 多 独 立 信 息,充 分 关 注 不 同 子 空 间,引 进 多 头 注 意 力 机 制 7,设 h i 为 第 i 个 子 空 间 的 自 注 意 力层 输 出,将 m 个 子 空 间 的 h i 进 行 横 向 拼 接 得 到 多 头 拼 接矩 阵,通 过 线 性 变 换 矩 阵 Wo将 多 头 拼 接 矩 阵 变 换 成 与X 相同形状:hi=A(X WiQ,X WiK,X WiV)(11)M=C o nc at(h1,hm)Wo(12)式 中,X WiQ、X WiK、X WiV分 别 为 第 i 个 子 空 间 的 查

29、询 矩阵、键 矩 阵 和 值 矩 阵;M 为 多 头 注 意 力 值;Concat 为 横 向拼接函数。考 虑 到 网 络 中 可 能 出 现 的 退 化 问 题,将 X 与 M 进行连接,再进行层标准化,得到前馈神经网络输入 O f:Of=Lay e r N o r m(X+M)(13)式中,LayerNorm 为层标准化函数。将 O f 通 过 由 线 性 层、线 性 整 流 函 数(RectifiedLinear Unit,ReLU)层 和 线 性 层 构 成 的 前 馈 神 经 网 络 进行 残 差 连 接 和 层 标 准 化,结 束 模 型 的 编 码 器 部 分,公 式为:Os=m

30、 a x(0,OfW1+b1)W2+b2(14)Ot=Lay e r N o r m(Of+Os)(15)式 中,O s 为 前 馈 神 经 网 络 的 输 出;O t 为 编 码 器 部 分 的 输出;W 1、b 1 分 别 为 第 1 层 线 性 层 的 参 数 矩 阵 和 偏 置;W 2、b 2分别为第 2 层线性层的参数矩阵和偏置。O t 经 过 模 型 的 解 码 器 部 分,连 接 一 个 线 性 层,通 过Softmax 进行分类,完成整个 Transformer 模型的构建。4.2 Transformer 模型的改进由 于 Transformer 的 解 码 器 部 分 主 要

31、 完 成 生 成 类 功能,而 疲 劳 驾 驶 哈 欠 检 测 只 需 要 实 现 哈 欠 特 征 的 分 类 任务 即 可,故 本 文 提 出 一 种 只 使 用 编 码 器 部 分 的 变 种Transformer 模 型。其 基 本 思 想 是:在 继 承 Transformer 模型 编 码 器 部 分 的 基 础 上,对 输 入 嵌 入、位 置 编 码 以 及 输出层进行了改进,整体结构如图 7 所示。图 7 中,模 型 的 输 入 不 再 是 词 向 量 矩 阵,而 是 经 过Dlib 检 测 算 法 构 建 的 如 式(7)所 示 的 疲 劳 特 征 矩 阵 H Q,如图 8 所

32、示,设 d*m o d e l为序 列编 码的 维度,利用 3 d*m o d e l维的矩阵 W*,得到线性变换 的输出 H Q*:廖冬杰:基于 Dlib 和变种 Transformer 的哈欠检测方法输出Softmax编码器(Encoder)N 序列编码多头注意机制前馈神经网络残差连接&层标准化线性变换 线性变换 残差连接&层标准化线性变换 输入XXXx 1x 2x 1x 2x 1x 2W Q QKVW KW V=图 6 矩阵实现自注意力机制示意图 7 变种 Transformer 模型结构-45汽 车 技 术H*Q=HQ W*(16)为 了 充 分 考 虑 各 视 频 帧 之 间 的 时

33、 间 先 后 顺 序,将H*Q 进行序列编码:S()q,2 j=s i n|q 10 0 002 j d*m o d e l(17)S()q,2 j+1=c o s|q 10 0002 j d*m o d e l(18)式 中,S(q,2j)、S(q,2 j+1)为 视 频 中 第 q 帧 视 频 帧 偶 数 维 度、奇 数维度的序列编码。H*Q 与 对 应 序 列 编 码 相 加 后,形 成 新 哈 欠 特 征 矩 阵H*Q,再 通 过 训 练 好 的 矩 阵W*Q、W*K、W*V进 行 线 性 变 换,得 到 新 哈 欠 特 征 矩 阵H*Q 的 查 询 矩 阵 Q*、键 矩 阵 K*和值

34、矩阵 V*,计算过程为:Q*=H*Q W*Q(19)K*=H*Q W*K(20)V*=H*Q W*V(21)根 据 式(10),得 到 其 他 视 频 帧 包 含 的 该 视 频 帧 信息,通 过 式(11)和 式(12),多 个 子 空 间 充 分 挖 掘 学 习 视频 帧 相 关 信 息,之 后 根 据 式(13)式(15),得 到 变 种Transformer 模型 编码 器部 分的 输出 O*t,通过 图 9 所示 的变 换,利 用 d*m o d e l 2 维 的 线 性 变 换 矩 阵 W得 到 线 性 变 换的输出 O:O=O*t W(22)如 图 10 所 示,利 用(n 1

35、)维 的 矩 阵 W对 O 的 转 置 矩阵 OT进行线性变换,得到线性变换 的输出 O:O=OT W(23)最终分类结果为:An s=a r g m a x()S o f t m ax()OT(24)式中,A ns 为视频分类结果;OT 为 O 的转置矩阵。本 文 提 出 的 变 种 Transformer 模 型 充 分 考 虑 视 频 帧之 间 的 关 联 性,且 引 入 序 列 编 码 使 得 视 频 帧 时 间 维 度 得以 关 联,通 过 多 头 注 意 力 机 制 和 多 层 线 性 变 换,可 以 实现对哈欠特征矩阵的分类。5 试验验证与分析为 了 验 证 所 提 出 方 法

36、的 有 效 性,本 文 基 于 YawDD数 据 集 15 进 行 训 练 和 测 试,与 其 他 方 法 进 行 准 确 率 的 对比:Ac=TP+TNTP+TN+FP+FN(25)式 中,A c 为 准 确 率;T P、F P 分 别 为 被 模 型 预 测 为 哈 欠 的 哈欠 视 频、其 他 视 频 数 量;F N、T N 分 别 为 被 模 型 预 测 为 其 他的哈欠视频、其他视频数量。5.1 数据集构建YawDD 数 据 集 是 一 个 公 开 的 视 频 数 据 集,视 频 分辨 率 均 为 680 480,帧 率 为 30 帧/s,包 含 2 个 子 数 据 集,分 别 由

37、固 定 在 后 视 镜 下 方 的 摄 像 头 拍 摄 的 视 频 和 由 固定 在 组 合 仪 表 上 方 的 摄 像 头 拍 摄 的 视 频 组 成 15。考 虑到 角 度 问 题 以 及 人 脸 关 键 点 定 位 精 准 度,本 文 主 要 以 第2 个 子 数 据 集 为 研 究 对 象。该 子 数 据 集 中 的 每 个 视 频包 含 不 同 的 驾 驶 员,且 驾 驶 员 在 同 一 个 视 频 里 面 包 含 讲话、大 笑、唱 歌、打 哈 欠 等 行 为,不 能 直 接 用 来 进 行 驾 驶员 哈 欠 检 测,因 此 本 文 采 用 人 工 重 构 数 据 集 的 方 法 对

38、 数据 集 进 行 处 理,得 到 新 的 数 据 集 DX-YawDD:即 将 每 个视 频 中 出 现 的 打 哈 欠 视 频 片 段 单 独 裁 剪 出 来,作 为 哈欠 数 据 集,将 每 个 视 频 的 其 他 视 频 片 段 按 照 每 段 视 频3 10 s 进 行 随 机 切 割,得 到 新 的 视 频 集,作 为 其 他 数 据集。经 过 处 理 后,DX-YawDD 数 据 集 中 共 包 含 71 个 哈欠数据集视频,344 个其他数据集视频。5.2 试验环境本 文 试 验 环 境 配 置 如 下:服 务 器 处 理 器 为 IntelCore i 7-9750 H CP

39、U 2.60 GHz,安 装 内 存 为 8 GB,在Windows 10 环 境 下,在 Pytorch 深 度 学 习 框 架 下 搭 建 了 基于 Dlib 和 变 种 Transformer 哈 欠 检 测 模 型,使 用 数 据 集DX-YawDD 进 行 模 型 训 练 和 性 能 测 试。其 中,模 型 测试 集 共 有 125 个 视 频,包 括 随 机 选 取 的 22 个 打 哈 欠 视 频和 103 个 其 他 视 频,剩 下 的 49 个 哈 欠 视 频 和 241 个 其 他视频组成模型训练集。5.3 试验结果基于 训练 数据 集,选择 变种 Transformer

40、模型 的损 失函 数 为 交 叉 熵 损 失 函 数,采 用 随 机 梯 度 下 降 优 化 器,学廖冬杰:基于 Dlib 和变种 Transformer 的哈欠检测方法图 8 H Q 变换示意W*H Qnn=d*m o d e ld*m o d e lH*QO*t WOnn=d*m o d e ld*m o d e lOTWn=nQ图 10O变换示意图 9 O*t变换示意-462023 年 第 3 期习 率 为 0.001,动 量 为 0.99,得 到 图 11 所 示 的 损 失 函 数 曲线。由 图 11 可 知,当 训 练 1 700 次 时,损 失 函 数 收 敛,此时 模 型 训

41、练 的 准 确 率 为 100%。模 型 在 测 试 数 据 集 上 的哈 欠 检 测 结 果 如 表 1 所 示,准 确 率 达 到 96.8%,召 回 率 为95.5%,表明本方法哈欠漏检率较低。将 本 文 方 法 与 其 他 哈 欠 检 测 算 法 基 于 DX-YawDD数 据 集 进 行 对 比 验 证,不 同 算 法 的 哈 欠 检 测 准 确 率 如 表2 所示。由 表 2 可 知,本 文 算 法 的 检 测 准 确 率 为 96.8%,高 于其 他 检 测 算 法。这 是 因 为 本 文 算 法 综 合 考 虑 了 眼 部、嘴部 的 哈 欠 特 征,构 建 了 包 含 有 直

42、接、隐 含 哈 欠 特 征 的 视频特 征矩 阵,利用 变种 Transformer 模型 进行 特征 提取 和分 类,关 注 了 各 视 频 帧 之 间 的 联 系,捕 捉 到 远 距 离 视 频帧之间的依赖特性,提高算法的准确性。6 结束语针 对 现 有 驾 驶 员 哈 欠 检 测 时,哈 欠 特 征 单 一、分 类阈 值 无 法 度 量、视 频 图 像 中 帧 与 帧 之 间 缺 乏 联 系 等 问题,本 文 提 出 了 基 于 Dlib 和 变 种 Transformer 算 法,通 过公 开 数 据 集 YawDD 进 行 测 试,本 文 算 法 的 哈 欠 检 测 准确 率 高 达

43、 96.8%,可 以 应 用 于 驾 驶 员 疲 劳 驾 驶 初 期 哈 欠检 测 任 务,对 避 免 驾 驶 员 疲 劳 驾 驶,保 障 人 员 和 道 路 安全具有积极作用。同 时,利 用 本 文 算 法 进 行 哈 欠 检 测 时,虽 然 多 方 面考 虑 了 人 脸 特 征 点 对 于 哈 欠 检 测 的 作 用,但 还 存 在 面 部特 征 挖 掘 不 充 分 等 缺 陷,下 一 步 可 以 通 过 3 D 卷 积 等 方法 进 行 挖 掘,避 免 显 式 的 哈 欠 特 征 提 取,进 一 步 简 化 算法,提高准确率与鲁棒性。参 考 文 献 1 RAMZAN M,KHAN H U

44、,AWAN S M,et al.A Survey onState-of-the-Art Drowsiness Detection TechniquesJ.IEEE Access,2019,7:61904-61919.2 LI L L,CHEN Y Z,LI Z L.Yawning Detection forMonitoring Driver Fatigue Based on Two CamerasC/International IEEE Conference on Intelligent TransportationSystems.St.Louis,MO,USA:IEEE Xplore,200

45、9:1-6.3 马 素 刚,赵 琛,孙 韩 林,等.一 种 基 于 卷 积 神 经 网 络 的 哈 欠检测算法J.计算机科学,2018,45(增刊 1):227-229+241.MA S G,ZHAO C,SUN H L,et al.A Yawn DetectionAlgorithm Based on Convolutional Neural NetworkJ.Computer Science,2018,45(S 1):227-229+241.4 KNAPIK M,CYGANEK B.Driver s Fatigue RecognitionBased on Yawn Detection in

46、Thermal ImagesJ.Neurocomp uting,2019,338:274-292.5 史 瑞 鹏,钱 屹,蒋 丹 妮.一 种 基 于 卷 积 神 经 网 络 的 疲 劳 驾驶 检 测 方 法 J.计 算 机 应 用 研 究,2020,37(11):3481-3486.SHI R P,QIAN Y,JIANG D N.A Fatigue Driving DetectionMethod Based on Convolutional Neural NetworkJ.Application Research of Computers,2020,37(11):3481-3486.6 王

47、超,徐 楚 昕,王 志 锋.面 向 空 中 交 通 管 制 员 疲 劳 识 别 的哈 欠 检 测 J/OL.安 全 与 环 境 学 报:1-10 2022-05-14.https:/20220309001&uniplatform=NZKPT&v=8 I 6 eb 9 my 9 pOBu 6 DEUKHOhjzqycQ_xssEGLzK 8 T 5 lM 05 Lz rc 0 oOeNNhpgPYZ 0 Yemr.DOI:10.13637/j.issn.1009-6094.2021.2353.WANG C,XU C X,WANG Z F.Yawn Detection for AirTraffic

48、 Controller Fatigue RecognitionJ/OL.Journal ofSafety and Environment:1-10 2022-05-14.https:/e=AQHJ 20220309001&uniplatform=NZKPT&v=8 I 6 eb 9 my 9 pOBu 6 DEUKHOhjzqycQ_xssEGL zK 8 T 5 lM 05 Lzrc 0 oOeNNhpgPYZ 0 Yemr.DOI:10.13637/j.issn.1009-6094.2021.2353.廖冬杰:基于 Dlib 和变种 Transformer 的哈欠检测方法0.70.60.5

49、0.40.30.20.10 500 1 000 1 500 2 000 2 500迭代次数/次损失图 11 训练损失函数曲线表 1 测试集哈欠检测结果参数预测哈欠视频/个预测其他视频/个预测准确率/%22 个哈欠视频21195.5103 个其他视频310097.1全部测试集视频2410196.8表 2 不同算法哈欠检测准确率算法基于双层专家的检测算法 16 基于图片输入的 CNN 算法 3 基 于 三 维 卷 积 和 双 向 长 短 时 记 忆 网 络算 法 17基于卷积神经网络和优化监督下降方法(Supervised Descent Method,SDM)的算法 18本文算法哈欠检测准确率/

50、%94.092.493.687.096.8-47汽 车 技 术 7 VASWANI A,SHAZEER N,PARMAR N,et al.Attention IsAll You NeedC/Proceedings of the 31 st InternationalConference on Neural Information Processing Systems.NewYork,USA:ACM Press,2017:5998-6008.8 KAZEMI V,SULLIVAN J.One Millisecond Face Alignmentwith an Ensemble of Regres

展开阅读全文
相关资源
猜你喜欢
相关搜索

当前位置:首页 > 学术论文 > 期刊/会议论文

本站链接:文库   一言   我酷   合作


客服QQ:2549714901微博号:道客多多官方知乎号:道客多多

经营许可证编号: 粤ICP备2021046453号世界地图

道客多多©版权所有2020-2025营业执照举报