1、第 47卷 第 4期 电 网 技 术 V ol.47 No.4 2023年 4月 Power System Technology Apr.2023 文章编号:1000-3673(2023)04-1601-11 中图分类号:TM 721 文献标志码:A 学科代码:470 40 基于优势柔性策略 评价算法和迁移学习的 区域综合能源系统优化调度 罗文健 1,张靖 1,何宇 1,古庭 赟 2,聂祥论 1,范璐钦 1,袁旭峰 1,李博文 2(1贵州大学电气工程学院,贵州省 贵阳市 550025;2贵州电网有限责任公司电力科学研究院,贵州省 贵阳市 550002)Optimal Scheduling of
2、 Regional Integrated Energy System Based on Advantage Learning Soft Actor-critic Algorithm and Transfer Learning LUO Wenjian1,ZHANG Jing1,HE Yu1,GU Tingyun2,NIE Xianglun1,FAN Luqin1,YUAN Xufeng1,LI Bowen2(1.College of Electrical Engineering,Guizhou University,Guiyang 550025,Guizhou Province,China;2.
3、Electric Power Research Institute of Guizhou Power Grid Co.,Ltd.,Guiyang 550002,Guizhou Province,China)1ABSTRACT:In order to improve the consumption rate of clean energy and reduce the pollution of carbon emissions to the environment,and to achieve a more generalized,robust and efficient regional in
4、tegrated energy system optimal scheduling,this paper proposes an optimal scheduling of regional integrated energy system based on advantage learning soft actor-critic(ALSAC)algorithm and transfer learning.Using environmental information to communicate and interact with agents,the regional comprehens
5、ive energy system is dispatched and optimized for the purpose of low carbon and economy.In this paper,the maximum entropy mechanism for improving the robustness of soft actor-critic(SAC)is analyzed,and the performance is compared with various deep reinforcement learning algorithms and heuristic algo
6、rithms based on policy gradients.The idea of advantage learning is introduced into the update of the Q value function of SAC,which solves the problem of overestimating the Q value of the algorithm and improves the performance of the algorithm.In order to improve the learning efficiency of the agent
7、and the generalization ability to deal with new scenarios,the parameter transfer of transfer learning is added.Calculation examples show that the optimal scheduling strategy based on ALSAC algorithm and transfer learning has good robustness,generalization ability and efficient learning efficiency,an
8、d realizes flexible and efficient scheduling of regional integrated energy systems.KEY WORDS:regional integrated energy system;deep reinforcement learning;soft actor-critic;transfer learning;advantage learning 基金项目:国家自然科学基金项目(51867005);黔科合支撑 2022一般 013;黔科合平台人才-GCC2022016-1。Project Supported by the N
9、ational Natural Science Foundation of China(51867005);Science and Technology Support Program of Guizhou Province 2022 General 013;Science and Technology Support Program for the Talents by Guizhou Province-GCC 2022016-1.摘要:为提高清洁能源消纳率及减少碳排放对环境的污染,实现更具泛化能力、鲁棒性和高效性的区域综合能源系统优 化调度,该文提出了基于优势柔性策略 评价(advanta
10、ge learning soft actor-critic,ALSAC)算法和迁移学习的区域综 合能源系统优化调度方法。利用 环境 信息与智 能 体进行通信 交互,以低 碳、经济 为目 标 实现区域综合能源系统的优化调 度。在 文 中分析 了提 升 柔性策略 评价(soft actor-critic,SAC)鲁棒性的 最大熵机制,并与 基于策略 梯 度的 多种深 度 强 化学 习算法和 启发式 算法 进行 了性能对 比,随后将 优势学习的 思 想引入 SAC的 Q值函数 更 新中,解决 了算法对 Q值 的 过估 计问题,提 升 了算法的性能。为提高 智 能 体 的学习效率和 应 对 新场景 的
11、泛化能力,加入 了迁移学习的 参数 迁移。算 例表 明,基于 ALSAC算法和迁移学习的优化调度策略具 有较好 的鲁棒性、泛化能力和高效的学习效率,实现区域综合能源 系统的 灵活 高效调度。关键词:区域综合能源系统;深 度 强 化学习;柔性策略 评 价;迁移学习;优势学习 DOI:10.13335/j.1000-3673.pst.2022.1241 0 引言 区域综合能源系统(regional integrated energy system,RIES)作 为 新兴 的能源 管理模式,旨在利用 先进 的 通信 和 控制 技术实现 多种 能源的高效 应用,有利 于提高能源 利用 效率、提 升可再
12、生 能源消 费比 重 1。在 区域综合能源系统 中,可再生 能源的 不稳 定 性和 多种 能源的 耦 合 使得 能源系统的 物理模型 过 于 复杂,同时智 能化的 信息设备 接 入,使得 系统 中 包含 大 量 的高 维 数 据 2。在 无 明 确 模型 和 包含庞 大数 据量 的 情况下,针 对区域综合能源系统的优化 调度,常 用 的 经 典 优化方法 3、基于 规划 的方法 4-5、启发式 算法 6-7等,计 算 成本增 大,求 解 速 率 过 慢,1602 罗 文 健等:基于优势柔性策略 评价算法和迁移学习的区域综合能源系统优化调度 V ol.47 No.4 将 难 以 适 用 8。近
13、年 来,深 度 强 化学习(deep reinforce-ment learning,DRL)作 为 处 理 序列 决 策 问题 的 有 效 手段 而被研究者们广 泛 应用并发 展。在复杂 的区域综合 能源系统优化调度 问题中,它 可以通过 直接 与 环境 进行交互 实现 端到端 的学习,学习 后 的 智 能 体 能 够 直接根据 该 时 段 的环境 信息 立即做 出调度 决 策,对 数 据 和 复杂模型 的 问题有 着 高效的 解决 能力 9。区 域综合能源系统调度 问题可以 看 作 是 时 序 决 策 问 题,此类 问题 完全符 合 DRL的 理 论框架 10,目 前 已 有 很 多 DR
14、L应用 于该 领 域,如 深 度 双 Q网 络 11-12(deep reinforcement learning with double q-learning,DDQN)、近端 策略优化算法 13(proximal policy optimization,PPO)、确 定 性策略 梯 度算法 14(deterministic policy gradient,DPG)等。DRL可分 为 2类:一 类 为基于 值函数,可作用 于 离散动 作 空间;另 一 类 为基于策略 梯 度,可作用 于 连续动 作 空间。本 文系统 中 的 动 作 皆 为 连续动 作,因此采 用 基于策略 梯 度的 DRL进
15、行 优化调度。但 在 区域综合能源系统的优化调度 中,基于策 略 梯 度的 DRL优化调度 存 在 2个困难 15:1)过估 计问题,算法的 贪婪 思想 会 将 一 些非 最 优 动 作 对 应 的 Q值估计过 高,扰乱 调度策略 生 成,导致 在新 环 境 中进行 了 错误 的 判断,泛化能力 降 低。文 献 16提出了 双 DQN,通过 延迟 策略更 新 2个 Q网 络来 解决过估计问题;但 在 基于策略的 DRL中,本 身 模型参数 更 新 波 动 不大,2个 Q网 络 的 参数 会很接 近,无 法 使用 此 方法。文 献 17提出了 使用 2个 独 立 的 Q网 络,每次运 行 取 最
16、 小 的 Q值,但 这样 会 出现 欠 估计。文 献 18将 优势学习的 思想加入 基于 策略的 DRL中,保持 了 最 优 动 作 的 值,减少 非 最 优 动 作 的 过估计,增 强 了泛化能力。2)算法 训练 时 收敛 速 度 较 慢。智 能 体 需要获 得 更 多新场景中 的 数 据 样 本来完 善 它 的调度策略,但 每次改善 策略 时 都需要 重新 采 集样 本,因此 样 本 利用 效率 低,降 低 了 智 能 体 的学习效率,且 随 着 新 的 训练样 本 的 加 入,DRL的 收敛 速 度 会 更 慢。文 献 19提出优 先 级 经 验回 放,将新场景数 据 与 之 前 的 数
17、 据 混 合,通过 求 和 树 将 价 值 高的 数 据 优 先 训练,加 快 算法 收敛 速 度,但 随 着 数 据量增 大,求 和 树 的 每次 应用 会 耗 费 更 多时 间。文 献 20利用 DRL结 合迁移学习的方法 研究 微 电网优化调度,实现调度 知识 的 积累 和 复 用,提高了 样 本 利用 效率,在 原 有 调度 知识 的基 础 上 对 新场景再 学习,学习 速 率提 升明 显。针 对 上述 2个 问题,本 文 利用 优势学习 值函数 理 论框架 结 合柔性策略 评价(soft actor-critic,SAC)算法,并加以 改 进,同时引入 迁移学习的 参数 迁移,提出了
18、基于优势柔性策略 评价(advantage learning soft actor-critic,ALSAC)算法和迁移学习的区域综 合能源系统优化调度策略,以低 碳和 经济 为目 标 实 现区域综合能源系统的优化调度。该方法 中 SAC的 最大熵机制 让 区域综合能源系统的优化调度更 具鲁棒性,结 合优势学习的 思想后,减少 Q网 络 对 非 最 优 动 作 价 值 的 过估计,降 低智 能 体 对 非 最 优 动 作 的 误选,提高泛化能力;同时在 算法 中加入 了 神 经 网 络 稳定 性 判断 来 决定 是 否 启 动 优势学习,防止 优势学习 干 扰前 期的 神 经 网 络 参数 迭
19、代。引入 迁移 学习的 参数 迁移,利用 K-Means的 相关 性 判断 场景 是 否 为 新场景。若 为 新场景,则 将 历史 调度 知识 迁 移 至 新场景 的目 标 任务 中,通过 ALSAC算法 再 对 深 度 神 经 网 络 参数进行 微 调,进 而 获 得最 佳 调度策 略。测试结果 表明,与 其他 的 DRL策略、启发式 算法 粒子群 算法(particle swarm optimization,PSO)以 及 混 合 整 数 规划 相 比,基于 ALSAC的优化调度 策略 在不同场景 下 的优化具 有较强 的鲁棒性、收敛 速 度 快。同时,在引入 迁移学习的 参数 迁移 后,
20、提 高了 智 能 体 的学习效率和 应 对 新场景 的泛化能力,为区域综合能源系统调度提 供 了更 加灵活 高效的 调度方 式。1 区域气 电 热综合能源系统的组成及其 设备模型 本 文 构建 的区域综合能源系统调度 模型 采 用 并 网 运 行,所给 出的 结构 如 图 1所示。电能 大 电网 清洁能源 风 电 光伏 电 负荷 电 储 能 燃气 轮 机 电 锅炉 电 解 水 气 能 储 氢罐 气 网 热 能 余热 回收 燃气 锅炉 气需 求 热 负荷 图 1 区域综合能源系统 Fig.1 Regional integrated energy system 1.1 氢储能模型 产氢 模型 采
21、用 质 子 交 换膜水 制 氢 设备,利用 固 体 聚 合 物 水 电 解制 氢。其 产氢 量 以 及 储 氢罐 的 储 氢 量如下:HES HES HES()()V t P t(1)HSOC HSOC HES t HOUT HOUT()(1)()()V t V t V t V t(2)第 47卷 第 4期 电 网 技 术 1603 式中:HES()V t 为 t 时 段 内 电 解 产 生 的 氢 气 体 积;HES()P t 为 t时 段 消 耗 的电 功 率;HES、t、HOUT 为 电 解 效率、储 氢罐 储 氢 效率和 输 出效率;HSOC()V t 为 t时 段 储 氢罐 的 储
22、氢 量;HOUT()V t 为 储 氢罐 t时 段 输 出 氢 的 体 积。电 解 池氢产 出 量 约束条件 为 HES,min HES HES,max()V V t V(3)式中 HES,maxV,HES,minV 分 别 为电 解 池 t时 段 产氢 量 的 上 下 限。利用 氢 储 能 当 前 储 存量 与最大 储 存量 之 比表 示 氢 储 罐 储 能 状态:HSOChh,max()()V ttV(4)式中:()ht 为 氢 储 罐 储 能 状态;,max hV 为 氢 储 能 最 大 储 存量。氢 储 能 罐约束条件:h,min h h,max()t(5)HOUT,min HOUT
23、HOUT,max()V V t V(6)式中:h,max、h,min 为 氢 储 能 状态 上 下 限;HOUT,maxV、HOUT,minV 为 t时 段 氢 储 能 输 出 上 下 限。氢 储 罐 t时 段 输 出的 氢 气 体 积 HOUT()V t,其 用 途 为 日 常 工业氢 需 求 和 天 然 气 管 道 混 氢输送:HOUT HDE H,in()=()()V t V t V t(7)式中:HDE()V t 为 t时 段 内工业氢 需 求 体 积;H,in()V t为 t时 段 内天 然 气 管 道 混 氢输送 体 积。1.2 电储能模型 本 文的电 储 能 模型 由蓄 电 池组
24、 成。蓄 电 池 的电 荷 状态公 式 如下:soc,in soc,oute e esoc()()()(1)P t P t tt tW(8)式中:()et 表 示 蓄 电 池 t时 刻 的电 荷 状态;soc,in()P t、soc,out()P t 表 示 t时 段 蓄 电 池 的 充、放电 功 率;socW 为 蓄 电 池 的 最大 容 量;e 为 充 放电效率;t 为 时 间 间 隔。为 延 长蓄 电 池 的 寿命,规 定 其 约束条件 为 e,min e e,max()t(9)soc,in soc,in max0()P t P(10)soc,out soc,out max0()P t
25、P(11)式中:e,max、e,min 为 储 能电 荷 状态 上 下 限;soc,in maxP、soc,out maxP 为 储 能 充 放电 功 率 最大值。1.3 热电联产模型 热 电 联产单位 包 括 燃气 轮 机 和 余热 回收 锅炉。燃气 轮 机通过 天 然 气 的消 耗 产 生 电能,同时 也 会 产 生 拥 有 热 能的 烟 气,输 出 热功 率。燃气 轮 机 的 发 电 功 率:GT GT NG GT()=()P t V t q(12)式中:GT()P t 为 t时 段 燃气 轮 机 的 发 电 功 率;GT()V t为 t时 段 热 电 联产单位 时 间 内天 然 气 的
26、消 耗 量;NGq为 天 然 气 低 热 值;GT 为 燃气 轮 机 的 发 电效率。燃 气 轮 机 的 发 电 功 率 满足约束条件:GT,min GT GT,max()P P t P(13)式中 GT,maxP、GT,minP 为 燃气 轮 机 t时 段 发 电 功 率的 上 下 限。燃气 轮 机 产 生 的 热功 率 数 学 表 达 式:GT GT NG GT()()(1)Q t V t q(14)式中 GT()Q t 为 t时 段 余热 回收 锅炉输 出 热功 率。燃气 轮 机 的 热功 率 约束 为 GT,min GT GT,max()Q Q t Q(15)式中 GT,maxQ、GT
27、,minQ 分 别 为 燃气 轮 机 t时 段 输 出 热 功 率的 上 下 限。余热 回收 锅炉 会 将 燃气 轮 机 排放的 烟 气 中 的 热 量 收集,供给 热 网。其 输 出的 热功 率为 HRSG GT HRSG()()Q t Q t(16)式中:HRSG()Q t 为 t时 段 余热 回收 锅炉 的 输 出 热功 率;GT()Q t 为 t时 段 燃气 轮 机 输 出的 热功 率;HRSG 为 余热锅炉 的 换热 效率。余热 回收 锅炉 的 热输 出 功 率 上 下 限 为 HRSG,min HRSG HRSG,max()Q Q t Q(17)式中 HRSG,maxQ,HRSG,
28、minQ 分 别 为 余热 回收 锅炉 t时 段 输 出 功 率的 上 下 限。1.4 电热锅炉模型 电 热锅炉 可将 清洁能源 转 化的电能 变 为 热 能,无 需 天 然 气燃 烧,极 大 地 减少了碳排放,提高了清 洁能源的消纳。热 排放的 数 学 表 达 式 为 EB EB EB()()Q t P t(18)式中:EB()P t 和 EB()Q t 分 别 为 t时 段 电 锅炉 用 电和 制 热功 率;EB 为电 锅炉 电 热转换 效率。电 热锅炉 热功 率 满足约束条件:EB,min EB EB,max()Q Q t Q(19)式中 EB,maxQ,EB,minQ 分 别 为 t时
29、 段 电 热锅炉输 出 功 率的 上 下 限。1.5 燃气锅炉模型 燃气 锅炉 是 区域综合能源系统 中利用 天 然 气 产 生 热 能的 设备,其 热功 率 输 出为 SB SB NG SB()()Q t V t q(20)式中:SB()Q t 为 t 时 段 燃气 锅炉输 出的 热 动 率;SB()V t 为 t时 段 燃气 锅炉 的 天 然 气 消 耗 量;SB 为 燃 气 锅炉 的效率。SB()Q t 满足约束条件:SB,min SB SB,max()Q Q t Q(21)式中 SB,maxQ,SB,minQ 分 别 为 t时 段 燃气 锅炉输 出 功 率的 上 下 限。1.6 换热装
30、置模型 换热装置 可将 余热 回收 锅炉、电 锅炉 和 燃气 锅1604 罗 文 健等:基于优势柔性策略 评价算法和迁移学习的区域综合能源系统优化调度 V ol.47 No.4 炉输送 的 热 能 进行 转 化,供给 热 负荷需 求,其 输 出 热功 率的 公 式 为 HE HE,in HE()()Q t Q t(22)式中:HE()Q t 为 t 时 段 换热装置输 出 热功 率;HE,in()Q t 为 t时 段 热 网 热功 率 输 入 量;HE 为 热 能 转 化效率。换热装置输 出 热功 率 约束条件 为 HE,min HE HE,max()Q Q t Q(23)式中 HE,maxQ
31、,HE,minQ 分 别 为 t时 段 换热装置输 出 功 率的 上 下 限。1.7 约束条件 根据 区域综合能源系统的能 量 结构 组 成,约束 平 衡 如下:1)电网平 衡 方 程。E HES soc,in EBGT soc,out G solar wind()()()()()()()()()L t P t P t P tP t P t P t P t P t(24)式中:G()P t、solar()P t、wind()P t 分 别 为电网 流 入 区 域综合能源系统电 功 率(当 区域综合能源系统 产 生 的 功 率 流 入 电网 时 G()P t 为 负 值)、光伏 发 电 功 率、
32、风 机发 电 功 率;E()L t 为电 负荷 功 率。2)热 网平 衡 方 程。HRSG EB SB Q HE()()()()/Q t Q t Q t L t(25)式中 Q()L t 为 热 负荷。3)气 网平 衡 方 程。HOUT GT SB RES H()()()+()()V t V t V t V t V t(26)式中:RES()V t 为 t时 段 居民 用 气 量;H()V t 为 t时 段 天 然 气 输 出 量。为 满足 用 气 单位 能 满载 运 行,天 然 气 管 道 t时 段 H()V t 输 出 限 制 为 H H,max0()V t V(27)式中 H,maxV
33、为 天 然 气 管 t时 段 内输 出 气 体 的 上 限。据 国 际 现 有 项目 展 开 经 验 21-22,氢 气混 入 天 然 气 的 体 积 分数最 高 可 达 20%。在 考虑 燃气 热 效率的 条件 下,以 12T-0作 为 掺 混 基 准 基 底 气,选取 5%掺氢 比例,其混 合 后 的 燃气 华白 数 和 发 热 量 都 优于 其他 比例,燃气 质 量符 合国家 标 准 GB17820 2012中 一 类 天 然 气 高 位 发 热 量 不 小 于 36.0MJ/m3的技术 指 标 23。本 文对于 氢 储 罐向天 然 气 管 道 t时 段 输送 氢 气 总 量 的 约束条
34、件 为 H,in H,max0()5.26%V t V(28)2 SAC算法原理 2.1 强化学习 强 化学习基于 马尔 科 夫 决 策 过 程(Markov decision process,MDP),即 智 能 体 基于 当 前 环境 信 息 下做 出 下个 环境的 动 作并 获 得 奖励,通过不 断 的“试错”使智 能 体 获 得最大 奖励 的 过 程。如 图 2所示,智 能 体 代 指 基于 某 种控制 算法的 控制 器。马尔 科 夫 决 策 过 程 的 模型 一般 表 示 为一 个 元组(S,A,P,R),其 中:S为 状态 空间,A为 动 作 空 间,P为 状态转 移 概 率,R为
35、 奖惩 函数。智 能 体 环境 奖励 状态 动 作()ts()tr(1)tr(1)ts()ta 图 2 马尔科夫决策过程 Fig.2 Markov decision process 2.2 SAC算法 当 要 解决 的 问题模型 未 知且 环境 信息种 类 繁 多,导致 状态 空间维 度 过 高,强 化学习 将 无 法 适 用。为了能 让 强 化学习 处 理 高 维 事件,为 此 引进 了 深 度 学习(deep learning,DL),二 者 结 合 成 为 DRL。SAC算法 是 由 Harrnoja等 人提出的 强 化学习算 法 24,其 引入 的 动 作最大熵 鼓 励 机制 相 比
36、于 其他 基 于策略 梯 度的 DRL算法 PPO、actor-critic多 线 程 探 索(actor-critic algorithm,A3C)和 DDPG(deep deterministic policy gradient)来 说,提高了算法的鲁 棒性,在复杂 的电力环境 中 能 够 探索 到 更 好 的调度 策略。2.2.1 SAC最大熵 熵定 义 为 信息 量 的期 望,是 一 种 描 述 随机 变 量 的 不 确 定 性的度 量,当事件 不 确 定 性 越 大时,熵 越 大。()ln()x PH P P x(29)式中 为期 望 函数。式(29)表 示 随机 变 量 x在 服从
37、 概 率 分 布 P时熵 H的 计 算 公 式。优 秀 的 DRL能 够 尽 可 能 地 去探索 环境 获 得最 优的策略,而 不 是贪婪 某 个 奖励 最大 的 动 作,陷 入 局部 最 优。当 一 个动 作 反 复 被 选 用时熵 就 会 变 小,利用最大熵机制,智 能 体 就 会 选 择 其他 动 作,增 加 了 探索范围,在 一 个 环 境 状态 下 可以 探索 更 多 的调度策略 以 及 伴 随 的 概 率,增 加 了系统的鲁棒性。在 SAC中,目 标函数中加入 了 奖励 值 和策略 熵,要 求 策略 不 仅 能提高 最 终 奖励 值,还 要 最大 化 熵。据此,构建 目 标函数()
38、J 如下 所示:(,)0()(,)(|)t tTs a t t ttJ r s a H s(30)式中:为策略;tS 和 ta 为 t时 刻 区域综合能源系 统 状态 和 动 作;(,)t tr s a 为 t 时 刻奖励 函数;(,)t ts a P 为策略 状态 动 作 轨迹;为 熵 温 度 项,决定熵 对于 奖励 的 影响 程 度。(|)tH s 为策略(|)ts 下 在 状态 ts时 的 动 作熵,其 熵值 的 计 算 公 第 47卷 第 4期 电 网 技 术 1605 式 为()()ln()ta s t t tH s a s(31)式(31)表 示 了策略()ts 对 应 概 率 分
39、 布 的 随机 程 度,策略 越 随机,熵 越 大。2.2.2 SAC迭代 方 式 值函数(,)t tQ s a 的更 新 如 式(32)所示,用 于 SAC 的策略价 值 评 估;策略更 新用 贝 尔 曼 算 子 如 式(33)所示。1+1(,)()(,)tt t s p t t tQ s a V s r s a(32)1+1(,)(,)()tt t t t s p tT Q s a r s a V s(33)式中:T 为策略 下 的 贝 尔 曼 算 子;为 奖励 的 折扣 因 子;+1()tV s 为 状态 1 ts 的 值函数,计 算方法:+1()(,)ln(|)tt a t t t t
40、V s Q s a a s(34)同时 结 合 贝 尔 曼 算 子,有+1=k kQ T Q(35)式中 kQ 为第 k次 计 算 时 的 值函数。柔性策略评 估可 以通过 公 式(35)进行 迭代,最 终 Q会 收敛 到 固 定 策 略 下 的 软 Q值函数。2.2.3 SAC策略 分 布 更 新 将 策略 输 出为高 斯 分 布,通过最 小 化 KL散 度 去 最 小 化 2个 分 布 的 差距。oldold,new KL1exp()=arg min(|)|()tttQ sD sZ s(36)式中:KLD 是 KL散 度(K-L divergence);为策略 集 合;old,()tQ s
41、 为 旧 策略 old 下 的 值函数;old()tZ s 为 旧 策略 下 的 分 配 函数,为对 Q 值进行 归 一化 分 布。2.2.4 SAC的 参数 更 新 SAC算法 是 一 种 Actor-Critic类 算法,Actor对 策略 建 模,Critic对 Q值函数 建 模。分 别 利用 2个 神 经 网 络来 拟 合 Q值函数 和策略 函数,Q值函数 的 神 经 网 络 参数 更 新 策略 如 式(37)所示,策略 函数参 数 更 新 策略 如 式(38)所示。Q2(,)+1()1(,)(,)()2t ts a D t t t t tJQ s a r s a V s(37)KL1
42、exp()()(|)|()tts D ttQ sJ D sZ s(38)式中:、为 Q值 网 络 和策略网 络 参数;V 和 Q 为更 新后 的 函数,()tZ s 为 分 配 函数,用 于 归 一化。在 策略网 络 中 也 会 输 出 动 作熵,其 中 温 度 参数 的更 新 对于 熵 至关 重 要,其 更 新 如 式(39)所示:,0()ln(|)t t ta s D t tJ a s H(39)式中 0H 为 动 作 矩阵 维 数,即 0dim()H a。本 文 SAC的 神 经 元 激 活函数 选 择线 性 修正 函 数(rectified linear unit,ReLU)()max
43、(0,)f x x(40)输 出 层 选 择 tanh函数,范围 在 1,1。为了方 便 调度,将 动 作 ta 数值 归 于 0,1。3 基于 SAC的多能源系统优化调度方案 3.1 状态空间 在 本 文的 多 能源系统环境 中,环境 给 智 能 体 的 信息 一般 包 括:风 能、光 能、主 网 分时 电价、微 网 分时 电价、电 负荷、热 负荷、电 储 能 情况、氢 储 能 情况、时 间。则 状态 空间 为 E Q solar windPG DG h e(),(),(),(),(),()()(),L t L t P t P tt t t t t S,(41)式中:PG()t 为 t时 段
44、 电网 分时 电价;DG()t 为 t时 段 区域综合能源系统 分时 电价。3.2 动作 空间 在智 能 体 从 环境 中 获 得 状态 信息后,根据 自 己 的策略 会 在 动 作 空间 选 择 一 个动 作。区域综合能 源系统 中 电力 设备模型较 为 复杂,储 能和能 量 转换 设备种 类 较多。为 简 化 动 作 空间,此处 将 2个 储 能 设备 的 动 作 转 化为 CT1A、CT2A 2 个动 作。由 式(12)和 式(14)可 知,热 电 联产 的电 量 和 热 量存 在耦 合 关 系,燃气 锅炉 的 输 出 功 率 可 根据 热 网平 衡 方 程(25)得 出,由 此,能 量
45、 转换 设备 的 动 作 选 用 电 锅炉 和 热 电 联产 的 功 率 输 出。动 作 空间如下:GT EB CT1 CT 2(),(),P t P t A A A(42)式中 CT1A、CT2A 为 可再生 能源 过多 和 不 足 的 2个动 作,当 可再生 能源 过多时 优 先 满足 电 储 能 充 能,电 解 水 释 放 氢 气。当 可再生 能源 不 足 时,对 比 电价,查 看是 否 启 动 储 能放电。3.3 奖励函数 奖励 函数 是 对目 标 任务 的 量 化,它 能 够 引 导 智 能 体 朝 着 目 标进行 优化。本 文的区域能源综合系统 的 奖励 函数 主 要 来 源于 运
46、 行 成本、能 量 出 售 收 入、碳排放 以 及策略 奖惩 常 数。运 行 成本来 源为区域综 合能源系统 购 电 成本、燃气 购买 成本 和 维 护 成本;能 量 出 售 获 得 的 收 入 来 自于区域综合能源系统的 电能、热 能和 氢 能出 售。考虑 到 区域综合能源系统 规 模较 小,热 电 气 网 络 网 损 费用以 及 设备启 停 成 本 可以 忽 略 不计。t时 段 内 的 运 行 成本 1()C t 为 1 e f ME()()()()C t C t C t C t(43)式中:e()C t 为 t时 段 电网 购 电 成本;f()C t 为 t时 段 燃气 成本;ME()C
47、 t 为 t时 段维 护 成本。其 中 t时1606 罗 文 健等:基于优势柔性策略 评价算法和迁移学习的区域综合能源系统优化调度 V ol.47 No.4 段 购 电 成本 e()C t 定 义 为 GePG G G0()0()()()()0P tC tt P t t P t,(44)式中:G()P t 为 t时 段 内 的 购 电 功 率;t 为 时 间间 隔。购买 天 然 气 的 成本 为 f f GT SB()()()C t c V t V t(45)式中:fc 为 天 然 气 价 格;GT()V t、SB()V t 为 t时 间 段 内热 电 联产 和 燃气 锅炉 消 耗燃气 量;其
48、 维 护 成 本 为 ME m,1()|()|Ni iiC t C P t(46)式中:ME()C t 为 t时 段维 护 成本;m,iC 是 第 i个 单元 的 维 护 成本 系 数;()iP t 为 单位 i在 t时 段 输 出 功 率。能源出 售 收 入 包 括 区域综合能源系统电能、热 能及 电 储 能和 氢 储 能 剩 余 能 量 出 售 收 入:DG Q QHOUT HES he soc,in DG G2 G E DGHOUT HES hQ Q e soc,in DGG()()()+()()+()()0()|()|()()()()()()+()()0EL t t L tV t tP
49、 t P tCtt P t L t tV t tL t t P tPtttt,(47)式中:2()C t 为 t时 段 区域综合能源系统的能 量 出 售 收 入;E()L t 和 Q()L t 为 t时 段 区域综合能源系统电 负荷、热 负荷 消 耗 功 率 量;Q()t、h()t 为 t时 间 段 的 热功 率和 氢 气 价 格。按照 国家“双 碳”建 设 目 标,预 计 到 2060年,我 国 风、光 等 新 能源 发 电 量 占 比将 达 65%。本 文 1kW h电 量 将 排放 0.45kg CO2,31m 天 然 气 产 生 1.9 kg的 CO2。t时 段 内 碳排放 量 3()
50、C t 定 义 为 GT SB G3 GT SB GG1.9()+(),()0()1.9()+()0.45()()0V t V t P tC t V t V t P t tP t,(48)式中 GT()V t 和 SB()V t 为 t 时 段 内热 电 联产 和 燃气 锅 炉 所 用 天 然 气 量。策略 惩奖 常 数 的出现减少了 探索 时 超 出 限 制 范围 动 作 的 次 数,增 加 策略 正 确动 作 的 次 数,加 快 算法 收敛。对 供 应 天 然 气 超 出 气 网 管 道 限 制 范围、热 和电力 总 线 不 平 衡 给 出 t时 间段 内 的 惩 罚 常 数 1()D t