1、2023-05-10计 算 机 应 用,Journal of Computer Applications2023,43(5):1543-1550ISSN 1001-9081CODEN JYIIDU http:/基 于 改 进 深 度 强 化 学 习 的 边 缘 计 算 服 务 卸 载 算 法曹 腾 飞*,刘 延 亮,王 晓 英(青 海 大 学 计 算 机 技 术 与 应 用 系,西 宁 810016)(通 信 作 者 电 子 邮 箱)摘 要:在 边 缘 计 算(EC)网 络 中,针 对 边 缘 节 点 计 算 资 源 和 存 储 空 间 有 限 的 问 题,提 出 一 种 基 于 改 进 深
2、度 强 化 学习(DRL)的 边 缘 计 算 服 务 卸 载(ECSO)算 法,以 降 低 节 点 处 理 时 延 和 提 高 服 务 性 能。具 体 来 说,将 边 缘 节 点 服 务 卸 载问 题 转 化 为 资 源 受 限 的 马 尔 可 夫 决 策 过 程(MDP),利 用 DRL 算 法 解 决 边 缘 节 点 的 请 求 状 态 转 移 概 率 难 以 精 确 预 测 的问 题;考 虑 到 边 缘 节 点 执 行 缓 存 服 务 的 状 态 动 作 空 间 过 大,定 义 新 的 动 作 行 为 替 代 原 有 动 作,并 依 据 提 出 的 动 作 筛 选算 法 得 到 最 优
3、动 作 集 合,以 改 进 计 算 动 作 行 为 奖 励 值 的 过 程,进 而 大 幅 度 降 低 动 作 空 间 大 小,提 高 算 法 训 练 的 效 率 以及 收 益。仿 真 实 验 结 果 表 明,对 比 原 深 度 Q 网 络(DQN)算 法、邻 近 策 略 优 化(PPO)算 法 以 及 传 统 的 最 流 行(MP)算 法,ECSO 算 法 的 总 奖 励 值 分 别 提 升 了 7.0%、12.7%和 65.6%,边 缘 节 点 服 务 卸 载 时 延 分 别 降 低 了 13.0%、18.8%和66.4%,验 证 了 算 法 的 有 效 性,说 明 ECSO 能 有 效
4、提 升 边 缘 计 算 服 务 的 卸 载 性 能。关 键 词:边 缘 计 算;缓 存 服 务;服 务 卸 载;深 度 强 化 学 习;动 作 行 为 奖 励中 图 分 类 号:TP393;TP183 文 献 标 志 码:AEdge computing and service offloading algorithm based on improved deep reinforcement learningCAO Tengfei*,LIU Yanliang,WANG Xiaoying(Department of Computer Technology and Applications,Qing
5、hai University,Xining Qinghai 810016,China)Abstract:To solve the problem of limited computing resources and storage space of edge nodes in the Edge Computing(EC)network,an Edge Computing and Service Offloading(ECSO)algorithm based on improved Deep Reinforcement Learning(DRL)was proposed to reduce no
6、de processing latency and improve service performance.Specifically,the problem of edge node service offloading was formulated as a resource-constrained Markov Decision Process(MDP).Due to the difficulty of predicting the request state transfer probability of the edge node accurately,DRL algorithm wa
7、s used to solve the problem.Considering that the state action space of edge node for caching services is too large,by defining new action behaviors to replace the original actions,the optimal action set was obtained according to the proposed action selection algorithm,so that the process of calculat
8、ing the action behavior reward was improved,thereby reducing the size of the action space greatly,and improving the training efficiency and reward of the algorithm.Simulation results show that compared with the original Deep Q-Network(DQN)algorithm,Proximal Policy Optimization(PPO)algorithm and trad
9、itional Most Popular(MP)algorithm,the total reward value of the proposed ECSO algorithm is increased by 7.0%,12.7%and 65.6%,respectively,and the latency of edge node service offloading is reduced by 13.0%,18.8%and 66.4%,respectively,which verifies the effectiveness of the proposed ECSO algorithm and
10、 shows that the ECSO can effectively improve the offloading performance of edge computing services.Key words:Edge Computing(EC);caching service;service offloading;Deep Reinforcement Learning(DRL);action behavior reward0 引 言 随 着 互 联 网 与 无 线 通 信 技 术 的 发 展,现 代 信 息 社 会 逐 渐迈 入 了 万 物 互 联 的 物 联 网 时 代1。以 超
11、高 清 视 频、虚 拟 现 实(Virtual Reality,VR)、自 动 驾 驶 等 为 代 表 的 各 类 新 兴 移 动 互联 网 业 务 大 量 涌 现。根 据 中 国 互 联 网 信 息 中 心(China Internet Network Information Center,CNNIC)发 布 的 第 48 次中 国 互 联 网 发 展 状 况 统 计 报 告,截 至 2021 年 6 月,我 国 网 民规 模 达 10.11 亿,较 2020 年 12 月 增 长 2 175 万,互 联 网 普 及率 达 71.6%,较 2020 年 12 月 提 升 1.2 个 百 分
12、点2。随 着 用 户数 大 幅 增 长,人 们 对 于 网 络 多 媒 体 资 源 的 需 求 也 迅 速 增 长:我 国 网 络 视 频 用 户 规 模 达 9.44 亿,较 2020 年 12 月 增 长 1 707万。这 些 数 字 表 明 人 们 对 于 计 算 型 多 媒 体 资 源 的 需 求 增 多,由 于 云 端 服 务 器 通 常 远 离 用 户 侧,用 户 从 中 获 取 计 算 后 的 数文 章 编 号:1001-9081(2023)05-1543-08 DOI:10.11772/j.issn.1001-9081.2022050724收 稿 日 期:2022-05-19;
13、修 回 日 期:2022-06-25;录 用 日 期:2022-06-27。基 金 项 目:国 家 自 然 科 学 基 金 资 助 项 目(62101299,62162053);青 海 省 自 然 科 学 基 金 资 助 项 目(2020-ZJ-943Q)。作 者 简 介:曹 腾 飞(1987),男,湖 北 钟 祥 人,副 教 授,博 士,CCF 高 级 会 员,主 要 研 究 方 向:B5G 网 络 中 的 边 缘 计 算;刘 延 亮(2002),男,湖 南 衡 阳 人,硕 士 研 究 生,湖 南 衡 阳 人,主 要 研 究 方 向:边 缘 计 算、强 化 学 习;王 晓 英(1982),女
14、,吉 林 大 安 人,教 授,博 士 生 导 师,博 士,主 要 研究 方 向:计 算 机 网 络 体 系 结 构、移 动 计 算。第 43 卷 计 算 机 应 用据 往 往 会 导 致 较 高 的 时 延,仅 依 靠 云 服 务 的 计 算 方 式 无 法 有效 响 应 如 此 庞 大 的 资 源 需 求。因 此,也 诞 生 了 一 种 新 的 计 算模 型 边 缘 计 算(Edge Computing,EC)3。通 过 将 服 务 资源 从 云 端 迁 移 到 边 缘 节 点 上,EC 可 以 有 效 降 低 时 延,这 使EC 成 为 提 升 计 算 型 服 务 质 量(Quality
15、of Service,QoS)的 一种 重 要 方 法。然 而,由 于 当 前 边 缘 节 点 资 源 有 限,通 常 不 能 在 同 一 时隙 内 向 区 域 内 的 所 有 用 户 提 供 服 务,进 而 不 能 同 时 满 足 用 户对 于 低 时 延 的 要 求。因 此,将 云 与 边 缘 节 点 结 合 进 行 计 算 成了 当 前 主 要 的 研 究 方 向。然 而,由 于 边 缘 节 点 的 资 源 有 限,位 于 云 端 的 计 算 型 服 务 不 能 全 部 转 移 到 边 缘 节 点 上,边 缘 节点 需 要 自 行 决 定 应 该 从 云 端 卸 载 哪 些 服 务,而
16、如 何 提 高 卸 载服 务 效 率 来 满 足 低 时 延 的 要 求 成 了 当 前 面 临 的 问 题。相 关研 究 者 针 对 此 类 问 题 进 行 了 分 析4-9,但 这 些 工 作 只 考 虑 了边 缘 节 点 有 限 的 计 算 资 源,却 未 考 虑 到 边 缘 节 点 中 存 储 容 量有 限 的 问 题,因 为 资 源 和 服 务 需 要 占 据 实 际 空 间,许 多 计 算型 服 务 需 要 缓 存 所 需 服 务 资 源 至 边 缘 节 点 以 满 足 用 户 的 需求。例 如,自 适 应 视 频 流(Dynamic Adaptive Streaming over
17、 HTTP,DASH)10 中,视 频 文 件 以 多 个 视 频 块 的 形 式 存 储 在云 端 或 边 缘 节 点 中,每 个 块 以 不 同 的 码 率 编 码,DASH 作 为计 算 型 多 媒 体 服 务,需 要 设 计 算 法 提 升 用 户 的 体 验 质 量(Quality of Experience,QoE)。在 DASH 中 使 用 由 客 户 端 实现 的 码 率 自 适 应 技 术(Adaptive Bitrate Streaming,ABR)算法11,将 网 络 吞 吐 量 等 信 息 作 为 输 入,输 出 下 一 视 频 块 码 率级 别,视 频 服 务 应 根
18、 据 用 户 所 处 的 网 络 环 境 从 边 缘 节 点 缓 存中 获 取 合 适 码 率 的 视 频 块 提 供 给 用 户。另 外,由 于 边 缘 节 点存 储 资 源 有 限,当 大 量 用 户 从 边 缘 节 点 请 求 流 媒 体 服 务 时,将 导 致 边 缘 节 点 的 计 算 与 存 储 资 源 负 载 过 大 等 问 题,因 此 需要 同 时 考 虑 以 上 两 者 的 约 束 条 件,提 升 EC 的 服 务 卸 载 效 率。近 几 年,深 度 强 化 学 习(Deep Reinforcement Learning,DRL)12 算 法 被 广 泛 使 用。DRL 算
19、法 具 有 诸 多 优 势,它 能 从训 练 的 经 验 中 学 习 并 预 测 最 佳 行 为,而 且 能 适 应 不 同 的 网 络环 境。最 具 代 表 性 的 深 度 强 化 学 习 算 法 为 深 度 Q 学 习13。尽 管 已 经 有 将 深 度 Q 学 习 应 用 到 EC 的 相 关 工 作14-15,但 仍无 法 解 决 因 动 作 空 间 过 大 以 及 存 在 非 法 动 作 导 致 的 模 型 总体 收 益 降 低 等 问 题。本 文 将 计 算 型 服 务 卸 载 问 题 建 模 为 马尔 可 夫 决 策 过 程(Markov Decision Process,MDP
20、),在 实 现 深度 Q 网 络(Deep Q-Network,DQN)16 算 法 的 基 础 上 降 低 算 法的 动 作 空 间 大 小,并 提 出 了 基 于 改 进 深 度 强 化 学 习 的 边 缘 计算 服 务 卸 载(Edge Computing and Service Offloading,ECSO)算 法。本 文 主 要 工 作 如 下:1)将 边 缘 计 算 服 务 卸 载 问 题 建 模 为 存 储 空 间 以 及 计 算资 源 限 制 的 MDP,同 时 将 算 法 在 边 缘 计 算 服 务 卸 载 中 节 省的 时 间 消 耗 视 为 奖 励。但 由 于 本 问
21、题 中 的 概 率 转 移 矩 阵 在实 际 情 况 下 难 以 实 现,需 要 进 一 步 在 MDP 基 础 上 实 现 深 度强 化 学 习 算 法。2)提 出 了 基 于 改 进 深 度 强 化 学 习 的 ECSO 算 法。相 较于 原 DQN 算 法,本 文 提 出 了 一 种 新 的 动 作 行 为,规 避 了 非 法动 作,优 化 了 动 作 空 间 的 大 小,进 而 提 升 了 算 法 的 训 练 效 率;同 时,本 文 运 用 动 态 规 划 的 思 想 提 出 了 动 作 筛 选 算 法,针 对单 一 服 务 的 动 作 进 行 筛 选 与 组 合,以 便 得 到 理
22、论 收 益 最 大 的最 优 动 作 集;并 通 过 本 文 提 出 的 动 作 筛 选 算 法 得 到 最 优 动 作集,进 而 通 过 比 例 的 方 式 梯 度 下 降 更 新 网 络 参 数,优 化 算 法决 策。3)将 ECSO 算 法 分 别 与 DQN、邻 近 策 略 优 化(Proximal Policy Optimization,PPO)17 以 及 最 流 行(Most Popular,MP)18 算 法 进 行 仿 真 实 验 对 比。结 果 表 明 本 文 ECSO 算 法 能显 著 降 低 边 缘 计 算 处 理 时 延,相 较 于 DQN、PPO 以 及 MP 算法
23、,ECSO 的 算 法 奖 励 值 分 别 提 升 了 7.0%、12.7%和 65.6%,边 缘 计 算 传 输 时 延 分 别 降 低 了 13.0%、18.8%和 66.4%。1 相 关 工 作 边 缘 计 算 服 务 卸 载 作 为 边 缘 计 算 的 一 个 重 要 领 域,近 年来 被 人 们 广 泛 关 注。部 分 研 究 者 将 这 类 问 题 视 为 MDP,利用 最 优 化 方 法 进 行 求 解。文 献 4 中 提 出 了 一 个 由 用 户 和 网络 运 营 商 联 合 通 信 计 算(Joint Communication Computing,JCC)资 源 分 配
24、机 制 组 成 的 综 合 框 架,在 提 供 优 质 通 信 的 同时 最 小 化 资 源 占 用;文 献 5 中 提 出 了 一 种 用 于 分 配 资 源 的框 架,该 框 架 结 合 了 通 信 以 及 计 算 要 素 来 解 决 移 动 边 缘 云 计算 服 务 的 按 需 供 应 问 题;文 献 6 中 提 出 了 一 种 基 于 强 化 学习 的 状 态/动 作/奖 励/状 态/动 作(State-Action-Reward-State-Action,SARSA)算 法,以 解 决 边 缘 服 务 器 中 的 资 源 管 理 问题,降 低 系 统 成 本,并 作 出 最 佳 的
25、卸 载 决 策;文 献 7 中 探 究了 DQN 及 PPO 算 法 在 基 于 多 输 入 多 输 出(Multiple-Input Multiple-Output,MIMO)的 移 动 边 缘 计 算(Mobile Edge Computing,MEC)系 统 中 的 计 算 型 服 务 卸 载 问 题,目 标 是 在随 机 系 统 环 境 下 最 大 限 度 地 降 低 移 动 设 备 的 功 耗 及 卸 载 延迟;文 献 8 中 提 出 了 一 种 深 度 强 化 学 习 方 法 将 任 务 分 配 到不 同 的 边 缘 服 务 器 进 行 处 理,以 便 将 包 括 计 算 服 务
26、延 迟 和 服务 故 障 损 失 在 内 的 服 务 成 本 降 至 最 低;文 献 9 中 针 对 车 联网 中 车 对 外 界 的 信 息 交 换(Vehicle to Everything,V2X)网 络的 资 源 分 配 问 题 进 行 研 究,并 使 用 Double DQN 来 解 决 资 源分 配 问 题。然 而,这 些 工 作 都 基 于 一 个 未 定 的 假 设 边 缘节 点 能 卸 载 并 执 行 所 有 类 型 的 计 算 型 任 务。事 实 上,边 缘 节点 的 存 储 空 间 通 常 有 限,并 且 各 服 务 缓 存 策 略 并 不 一 致,因而 在 实 际 中
27、很 难 有 效 地 应 用。而 对 于 这 类 服 务 卸 载 问 题 来 说,云 服 务 器 与 边 缘 节 点 任务 的 分 配 效 率 以 及 多 媒 体 的 QoS 是 需 要 考 虑 的,例 如,文 献19 中 提 出 了 一 种 名 为 BitLat 的 ABR 算 法 以 提 高 用 户 在 线视 频 的 QoS。而 基 于 资 源 受 限 的 MDP 建 模 的 服 务 卸 载 问 题在 很 多 情 况 下 属 于 NP-hard 问 题20,常 规 的 搜 索 方 法 已 经 不适 用 于 解 决 此 类 问 题,因 而 近 年 来 不 断 有 学 者 针 对 边 缘 节 点
28、的 服 务 卸 载 问 题 提 出 优 化 理 论,并 取 得 了 不 错 的 效 果。文 献21 针 对 移 动 边 缘 计 算 上 的 在 线 计 算 与 服 务 卸 载 问 题,使 用适 应 性 遗 传 算 法(Adaptive Genetic Algorithm,AGA)优 化 深度 强 化 学 习 的 探 索 过 程,相 较 于 对 比 算 法,它 所 提 出 的DRGO 算 法 能 更 快 地 收 敛 并 得 到 更 好 的 卸 载 策 略。文 献22 针 对 5G 边 缘 网 络 中 的 计 算 服 务 卸 载 问 题,提 出 了 一 种高 效 可 靠 的 多 媒 体 服 务 优
29、 化 机 制,并 利 用 博 弈 理 论 对 问 题 进行 求 解,有 效 提 升 了 网 络 传 输 性 能。文 献 23 中 通 过 扩 宽 服务 缓 存 的 作 用,实 现 了 一 种 基 于 缓 存 服 务 和 计 算 卸 载 的 联 合优 化 算 法;但 该 算 法 假 定 计 算 型 服 务 是 可 分 割 的,而 本 文 假定 每 个 计 算 型 服 务 为 最 小 单 元,并 通 过 增 加 服 务 数 量 来 表 示它 是 可 分 割 的,改 进 文 献 23 的 算 法 以 解 决 本 文 的 问 题。因 此,不 同 于 以 上 工 作,本 文 提 出 了 一 种 基 于 改 进 深 度强 化 学 习 的 DRL 算 法 ECSO 算 法。通 过 对 边 缘 节 点 可 用存 储 资 源 及 计 算 资 源 加 以 限 制,并 基 于 MDP 模 型 实 现 DRL算 法,以 解 决 状 态 概 率 转 移 难 以 预 测 的 问 题;同 时,基 于 本 文给 出 的 动 作 筛 选 算 法 得 到 最 优 动 作 集,降 低 算 法 动 作 空 间 的大 小,进 一 步 优 化 算 法 决 策 过 程,进 而 满 足 边 缘 计 算 服 务 卸1544