基于优势柔性策略-评价算法...的区域综合能源系统优化调度_罗文健.pdf-道客多多

资源描述

1、第 47卷第 4期电网技术 V ol.47 No.4 2023年 4月 Power System Technology Apr.2023 文章编号：1000-3673（2023）04-1601-11 中图分类号：TM 721 文献标志码：A 学科代码：470 40 基于优势柔性策略评价算法和迁移学习的区域综合能源系统优化调度罗文健 1，张靖 1，何宇 1，古庭赟 2，聂祥论 1，范璐钦 1，袁旭峰 1，李博文 2（1贵州大学电气工程学院，贵州省贵阳市 550025；2贵州电网有限责任公司电力科学研究院，贵州省贵阳市 550002）Optimal Scheduling of

2、 Regional Integrated Energy System Based on Advantage Learning Soft Actor-critic Algorithm and Transfer Learning LUO Wenjian1,ZHANG Jing1,HE Yu1,GU Tingyun2,NIE Xianglun1,FAN Luqin1,YUAN Xufeng1,LI Bowen2(1.College of Electrical Engineering,Guizhou University,Guiyang 550025,Guizhou Province,China;2.

3、Electric Power Research Institute of Guizhou Power Grid Co.,Ltd.,Guiyang 550002,Guizhou Province,China)1ABSTRACT:In order to improve the consumption rate of clean energy and reduce the pollution of carbon emissions to the environment,and to achieve a more generalized,robust and efficient regional in

4、tegrated energy system optimal scheduling,this paper proposes an optimal scheduling of regional integrated energy system based on advantage learning soft actor-critic(ALSAC)algorithm and transfer learning.Using environmental information to communicate and interact with agents,the regional comprehens

5、ive energy system is dispatched and optimized for the purpose of low carbon and economy.In this paper,the maximum entropy mechanism for improving the robustness of soft actor-critic(SAC)is analyzed,and the performance is compared with various deep reinforcement learning algorithms and heuristic algo

6、rithms based on policy gradients.The idea of advantage learning is introduced into the update of the Q value function of SAC,which solves the problem of overestimating the Q value of the algorithm and improves the performance of the algorithm.In order to improve the learning efficiency of the agent

7、and the generalization ability to deal with new scenarios,the parameter transfer of transfer learning is added.Calculation examples show that the optimal scheduling strategy based on ALSAC algorithm and transfer learning has good robustness,generalization ability and efficient learning efficiency,an

8、d realizes flexible and efficient scheduling of regional integrated energy systems.KEY WORDS:regional integrated energy system;deep reinforcement learning;soft actor-critic;transfer learning;advantage learning 基金项目：国家自然科学基金项目(51867005)；黔科合支撑 2022一般 013；黔科合平台人才-GCC2022016-1。Project Supported by the N

9、ational Natural Science Foundation of China(51867005);Science and Technology Support Program of Guizhou Province 2022 General 013;Science and Technology Support Program for the Talents by Guizhou Province-GCC 2022016-1.摘要：为提高清洁能源消纳率及减少碳排放对环境的污染，实现更具泛化能力、鲁棒性和高效性的区域综合能源系统优化调度，该文提出了基于优势柔性策略评价(advanta

10、ge learning soft actor-critic，ALSAC)算法和迁移学习的区域综合能源系统优化调度方法。利用环境信息与智能体进行通信交互，以低碳、经济为目标实现区域综合能源系统的优化调度。在文中分析了提升柔性策略评价(soft actor-critic，SAC)鲁棒性的最大熵机制，并与基于策略梯度的多种深度强化学习算法和启发式算法进行了性能对比，随后将优势学习的思想引入 SAC的 Q值函数更新中，解决了算法对 Q值的过估计问题，提升了算法的性能。为提高智能体的学习效率和应对新场景的

11、泛化能力，加入了迁移学习的参数迁移。算例表明，基于 ALSAC算法和迁移学习的优化调度策略具有较好的鲁棒性、泛化能力和高效的学习效率，实现区域综合能源系统的灵活高效调度。关键词：区域综合能源系统；深度强化学习；柔性策略评价；迁移学习；优势学习 DOI：10.13335/j.1000-3673.pst.2022.1241 0 引言区域综合能源系统(regional integrated energy system，RIES)作为新兴的能源管理模式，旨在利用先进的通信和控制技术实现多种能源的高效应用，有利于提高能源利用效率、提升可再

12、生能源消费比重 1。在区域综合能源系统中，可再生能源的不稳定性和多种能源的耦合使得能源系统的物理模型过于复杂，同时智能化的信息设备接入，使得系统中包含大量的高维数据 2。在无明确模型和包含庞大数据量的情况下，针对区域综合能源系统的优化调度，常用的经典优化方法 3、基于规划的方法 4-5、启发式算法 6-7等，计算成本增大，求解速率过慢，1602 罗文健等：基于优势柔性策略评价算法和迁移学习的区域综合能源系统优化调度 V ol.47 No.4 将难以适用 8。近

13、年来，深度强化学习(deep reinforce-ment learning，DRL)作为处理序列决策问题的有效手段而被研究者们广泛应用并发展。在复杂的区域综合能源系统优化调度问题中，它可以通过直接与环境进行交互实现端到端的学习，学习后的智能体能够直接根据该时段的环境信息立即做出调度决策，对数据和复杂模型的问题有着高效的解决能力 9。区域综合能源系统调度问题可以看作是时序决策问题，此类问题完全符合 DRL的理论框架 10，目前已有很多 DR

14、L应用于该领域，如深度双 Q网络 11-12(deep reinforcement learning with double q-learning，DDQN)、近端策略优化算法 13(proximal policy optimization，PPO)、确定性策略梯度算法 14(deterministic policy gradient，DPG)等。DRL可分为 2类：一类为基于值函数，可作用于离散动作空间；另一类为基于策略梯度，可作用于连续动作空间。本文系统中的动作皆为连续动作，因此采用基于策略梯度的 DRL进

15、行优化调度。但在区域综合能源系统的优化调度中，基于策略梯度的 DRL优化调度存在 2个困难 15：1）过估计问题，算法的贪婪思想会将一些非最优动作对应的 Q值估计过高，扰乱调度策略生成，导致在新环境中进行了错误的判断，泛化能力降低。文献 16提出了双 DQN，通过延迟策略更新 2个 Q网络来解决过估计问题；但在基于策略的 DRL中，本身模型参数更新波动不大，2个 Q网络的参数会很接近，无法使用此方法。文献 17提出了使用 2个独立的 Q网络，每次运行取最

16、小的 Q值，但这样会出现欠估计。文献 18将优势学习的思想加入基于策略的 DRL中，保持了最优动作的值，减少非最优动作的过估计，增强了泛化能力。2）算法训练时收敛速度较慢。智能体需要获得更多新场景中的数据样本来完善它的调度策略，但每次改善策略时都需要重新采集样本，因此样本利用效率低，降低了智能体的学习效率，且随着新的训练样本的加入，DRL的收敛速度会更慢。文献 19提出优先级经验回放，将新场景数据与之前的数

17、据混合，通过求和树将价值高的数据优先训练，加快算法收敛速度，但随着数据量增大，求和树的每次应用会耗费更多时间。文献 20利用 DRL结合迁移学习的方法研究微电网优化调度，实现调度知识的积累和复用，提高了样本利用效率，在原有调度知识的基础上对新场景再学习，学习速率提升明显。针对上述 2个问题，本文利用优势学习值函数理论框架结合柔性策略评价(soft actor-critic，SAC)算法，并加以改进，同时引入迁移学习的参数迁移，提出了

18、基于优势柔性策略评价(advantage learning soft actor-critic，ALSAC)算法和迁移学习的区域综合能源系统优化调度策略，以低碳和经济为目标实现区域综合能源系统的优化调度。该方法中 SAC的最大熵机制让区域综合能源系统的优化调度更具鲁棒性，结合优势学习的思想后，减少 Q网络对非最优动作价值的过估计，降低智能体对非最优动作的误选，提高泛化能力；同时在算法中加入了神经网络稳定性判断来决定是否启动优势学习，防止优势学习干扰前期的神经网络参数迭

19、代。引入迁移学习的参数迁移，利用 K-Means的相关性判断场景是否为新场景。若为新场景，则将历史调度知识迁移至新场景的目标任务中，通过 ALSAC算法再对深度神经网络参数进行微调，进而获得最佳调度策略。测试结果表明，与其他的 DRL策略、启发式算法粒子群算法(particle swarm optimization，PSO)以及混合整数规划相比，基于 ALSAC的优化调度策略在不同场景下的优化具有较强的鲁棒性、收敛速度快。同时，在引入迁移学习的参数迁移后，

20、提高了智能体的学习效率和应对新场景的泛化能力，为区域综合能源系统调度提供了更加灵活高效的调度方式。1 区域气电热综合能源系统的组成及其设备模型本文构建的区域综合能源系统调度模型采用并网运行，所给出的结构如图 1所示。电能大电网清洁能源风电光伏电负荷电储能燃气轮机电锅炉电解水气能储氢罐气网热能余热回收燃气锅炉气需求热负荷图 1 区域综合能源系统 Fig.1 Regional integrated energy system 1.1 氢储能模型产氢模型采

21、用质子交换膜水制氢设备，利用固体聚合物水电解制氢。其产氢量以及储氢罐的储氢量如下：HES HES HES()()V t P t(1)HSOC HSOC HES t HOUT HOUT()(1)()()V t V t V t V t(2)第 47卷第 4期电网技术 1603 式中：HES()V t 为 t 时段内电解产生的氢气体积；HES()P t 为 t时段消耗的电功率；HES、t、HOUT 为电解效率、储氢罐储氢效率和输出效率；HSOC()V t 为 t时段储氢罐的储

22、氢量；HOUT()V t 为储氢罐 t时段输出氢的体积。电解池氢产出量约束条件为 HES,min HES HES,max()V V t V(3)式中 HES,maxV，HES,minV 分别为电解池 t时段产氢量的上下限。利用氢储能当前储存量与最大储存量之比表示氢储罐储能状态：HSOChh,max()()V ttV(4)式中：()ht 为氢储罐储能状态；,max hV 为氢储能最大储存量。氢储能罐约束条件：h,min h h,max()t(5)HOUT,min HOUT

23、HOUT,max()V V t V(6)式中：h,max、h,min 为氢储能状态上下限；HOUT,maxV、HOUT,minV 为 t时段氢储能输出上下限。氢储罐 t时段输出的氢气体积 HOUT()V t，其用途为日常工业氢需求和天然气管道混氢输送：HOUT HDE H,in()=()()V t V t V t(7)式中：HDE()V t 为 t时段内工业氢需求体积；H,in()V t为 t时段内天然气管道混氢输送体积。1.2 电储能模型本文的电储能模型由蓄电池组

24、成。蓄电池的电荷状态公式如下：soc,in soc,oute e esoc()()()(1)P t P t tt tW(8)式中：()et 表示蓄电池 t时刻的电荷状态；soc,in()P t、soc,out()P t 表示 t时段蓄电池的充、放电功率；socW 为蓄电池的最大容量；e 为充放电效率；t 为时间间隔。为延长蓄电池的寿命，规定其约束条件为 e,min e e,max()t(9)soc,in soc,in max0()P t P(10)soc,out soc,out max0()P t

25、P(11)式中：e,max、e,min 为储能电荷状态上下限；soc,in maxP、soc,out maxP 为储能充放电功率最大值。1.3 热电联产模型热电联产单位包括燃气轮机和余热回收锅炉。燃气轮机通过天然气的消耗产生电能，同时也会产生拥有热能的烟气，输出热功率。燃气轮机的发电功率：GT GT NG GT()=()P t V t q(12)式中：GT()P t 为 t时段燃气轮机的发电功率；GT()V t为 t时段热电联产单位时间内天然气的

26、消耗量；NGq为天然气低热值；GT 为燃气轮机的发电效率。燃气轮机的发电功率满足约束条件：GT,min GT GT,max()P P t P(13)式中 GT,maxP、GT,minP 为燃气轮机 t时段发电功率的上下限。燃气轮机产生的热功率数学表达式：GT GT NG GT()()(1)Q t V t q(14)式中 GT()Q t 为 t时段余热回收锅炉输出热功率。燃气轮机的热功率约束为 GT,min GT GT,max()Q Q t Q(15)式中 GT,maxQ、GT

27、,minQ 分别为燃气轮机 t时段输出热功率的上下限。余热回收锅炉会将燃气轮机排放的烟气中的热量收集，供给热网。其输出的热功率为 HRSG GT HRSG()()Q t Q t(16)式中：HRSG()Q t 为 t时段余热回收锅炉的输出热功率；GT()Q t 为 t时段燃气轮机输出的热功率；HRSG 为余热锅炉的换热效率。余热回收锅炉的热输出功率上下限为 HRSG,min HRSG HRSG,max()Q Q t Q(17)式中 HRSG,maxQ，HRSG,

28、minQ 分别为余热回收锅炉 t时段输出功率的上下限。1.4 电热锅炉模型电热锅炉可将清洁能源转化的电能变为热能，无需天然气燃烧，极大地减少了碳排放，提高了清洁能源的消纳。热排放的数学表达式为 EB EB EB()()Q t P t(18)式中：EB()P t 和 EB()Q t 分别为 t时段电锅炉用电和制热功率；EB 为电锅炉电热转换效率。电热锅炉热功率满足约束条件：EB,min EB EB,max()Q Q t Q(19)式中 EB,maxQ，EB,minQ 分别为 t时

29、段电热锅炉输出功率的上下限。1.5 燃气锅炉模型燃气锅炉是区域综合能源系统中利用天然气产生热能的设备，其热功率输出为 SB SB NG SB()()Q t V t q(20)式中：SB()Q t 为 t 时段燃气锅炉输出的热动率；SB()V t 为 t时段燃气锅炉的天然气消耗量；SB 为燃气锅炉的效率。SB()Q t 满足约束条件：SB,min SB SB,max()Q Q t Q(21)式中 SB,maxQ，SB,minQ 分别为 t时段燃气锅炉输出功率的上下限。1.6 换热装

30、置模型换热装置可将余热回收锅炉、电锅炉和燃气锅1604 罗文健等：基于优势柔性策略评价算法和迁移学习的区域综合能源系统优化调度 V ol.47 No.4 炉输送的热能进行转化，供给热负荷需求，其输出热功率的公式为 HE HE,in HE()()Q t Q t(22)式中：HE()Q t 为 t 时段换热装置输出热功率；HE,in()Q t 为 t时段热网热功率输入量；HE 为热能转化效率。换热装置输出热功率约束条件为 HE,min HE HE,max()Q Q t Q(23)式中 HE,maxQ

31、，HE,minQ 分别为 t时段换热装置输出功率的上下限。1.7 约束条件根据区域综合能源系统的能量结构组成，约束平衡如下：1）电网平衡方程。E HES soc,in EBGT soc,out G solar wind()()()()()()()()()L t P t P t P tP t P t P t P t P t(24)式中：G()P t、solar()P t、wind()P t 分别为电网流入区域综合能源系统电功率(当区域综合能源系统产生的功率流入电网时 G()P t 为负值)、光伏发电功率、

32、风机发电功率；E()L t 为电负荷功率。2）热网平衡方程。HRSG EB SB Q HE()()()()/Q t Q t Q t L t(25)式中 Q()L t 为热负荷。3）气网平衡方程。HOUT GT SB RES H()()()+()()V t V t V t V t V t(26)式中：RES()V t 为 t时段居民用气量；H()V t 为 t时段天然气输出量。为满足用气单位能满载运行，天然气管道 t时段 H()V t 输出限制为 H H,max0()V t V(27)式中 H,maxV

33、为天然气管 t时段内输出气体的上限。据国际现有项目展开经验 21-22，氢气混入天然气的体积分数最高可达 20%。在考虑燃气热效率的条件下，以 12T-0作为掺混基准基底气，选取 5%掺氢比例，其混合后的燃气华白数和发热量都优于其他比例，燃气质量符合国家标准 GB17820 2012中一类天然气高位发热量不小于 36.0MJ/m3的技术指标 23。本文对于氢储罐向天然气管道 t时段输送氢气总量的约束条

34、件为 H,in H,max0()5.26%V t V(28)2 SAC算法原理 2.1 强化学习强化学习基于马尔科夫决策过程(Markov decision process，MDP)，即智能体基于当前环境信息下做出下个环境的动作并获得奖励，通过不断的“试错”使智能体获得最大奖励的过程。如图 2所示，智能体代指基于某种控制算法的控制器。马尔科夫决策过程的模型一般表示为一个元组(S,A,P,R)，其中：S为状态空间，A为动作空间，P为状态转移概率，R为

35、奖惩函数。智能体环境奖励状态动作()ts()tr(1)tr(1)ts()ta 图 2 马尔科夫决策过程 Fig.2 Markov decision process 2.2 SAC算法当要解决的问题模型未知且环境信息种类繁多，导致状态空间维度过高，强化学习将无法适用。为了能让强化学习处理高维事件，为此引进了深度学习(deep learning，DL)，二者结合成为 DRL。SAC算法是由 Harrnoja等人提出的强化学习算法 24，其引入的动作最大熵鼓励机制相比

36、于其他基于策略梯度的 DRL算法 PPO、actor-critic多线程探索(actor-critic algorithm，A3C)和 DDPG(deep deterministic policy gradient)来说，提高了算法的鲁棒性，在复杂的电力环境中能够探索到更好的调度策略。2.2.1 SAC最大熵熵定义为信息量的期望，是一种描述随机变量的不确定性的度量，当事件不确定性越大时，熵越大。()ln()x PH P P x(29)式中为期望函数。式(29)表示随机变量 x在服从

37、概率分布 P时熵 H的计算公式。优秀的 DRL能够尽可能地去探索环境获得最优的策略，而不是贪婪某个奖励最大的动作，陷入局部最优。当一个动作反复被选用时熵就会变小，利用最大熵机制，智能体就会选择其他动作，增加了探索范围，在一个环境状态下可以探索更多的调度策略以及伴随的概率，增加了系统的鲁棒性。在 SAC中，目标函数中加入了奖励值和策略熵，要求策略不仅能提高最终奖励值，还要最大化熵。据此，构建目标函数()

38、J 如下所示：(,)0()(,)(|)t tTs a t t ttJ r s a H s(30)式中：为策略；tS 和 ta 为 t时刻区域综合能源系统状态和动作；(,)t tr s a 为 t 时刻奖励函数；(,)t ts a P 为策略状态动作轨迹；为熵温度项，决定熵对于奖励的影响程度。(|)tH s 为策略(|)ts 下在状态 ts时的动作熵，其熵值的计算公第 47卷第 4期电网技术 1605 式为()()ln()ta s t t tH s a s(31)式(31)表示了策略()ts 对应概率分

39、布的随机程度，策略越随机，熵越大。2.2.2 SAC迭代方式值函数(,)t tQ s a 的更新如式(32)所示，用于 SAC 的策略价值评估；策略更新用贝尔曼算子如式(33)所示。1+1(,)()(,)tt t s p t t tQ s a V s r s a(32)1+1(,)(,)()tt t t t s p tT Q s a r s a V s(33)式中：T 为策略下的贝尔曼算子；为奖励的折扣因子；+1()tV s 为状态 1 ts 的值函数，计算方法：+1()(,)ln(|)tt a t t t t

40、V s Q s a a s(34)同时结合贝尔曼算子，有+1=k kQ T Q(35)式中 kQ 为第 k次计算时的值函数。柔性策略评估可以通过公式(35)进行迭代，最终 Q会收敛到固定策略下的软 Q值函数。2.2.3 SAC策略分布更新将策略输出为高斯分布，通过最小化 KL散度去最小化 2个分布的差距。oldold,new KL1exp()=arg min(|)|()tttQ sD sZ s(36)式中：KLD 是 KL散度(K-L divergence)；为策略集合；old,()tQ s

41、为旧策略 old 下的值函数；old()tZ s 为旧策略下的分配函数，为对 Q 值进行归一化分布。2.2.4 SAC的参数更新 SAC算法是一种 Actor-Critic类算法，Actor对策略建模，Critic对 Q值函数建模。分别利用 2个神经网络来拟合 Q值函数和策略函数，Q值函数的神经网络参数更新策略如式(37)所示，策略函数参数更新策略如式(38)所示。Q2(,)+1()1(,)(,)()2t ts a D t t t t tJQ s a r s a V s(37)KL1

42、exp()()(|)|()tts D ttQ sJ D sZ s(38)式中：、为 Q值网络和策略网络参数；V 和 Q 为更新后的函数，()tZ s 为分配函数，用于归一化。在策略网络中也会输出动作熵，其中温度参数的更新对于熵至关重要，其更新如式(39)所示：,0()ln(|)t t ta s D t tJ a s H(39)式中 0H 为动作矩阵维数，即 0dim()H a。本文 SAC的神经元激活函数选择线性修正函数(rectified linear unit，ReLU)()max

43、(0,)f x x(40)输出层选择 tanh函数，范围在 1,1。为了方便调度，将动作 ta 数值归于 0,1。3 基于 SAC的多能源系统优化调度方案 3.1 状态空间在本文的多能源系统环境中，环境给智能体的信息一般包括：风能、光能、主网分时电价、微网分时电价、电负荷、热负荷、电储能情况、氢储能情况、时间。则状态空间为 E Q solar windPG DG h e(),(),(),(),(),()()(),L t L t P t P tt t t t t S，(41)式中：PG()t 为 t时段

44、电网分时电价；DG()t 为 t时段区域综合能源系统分时电价。3.2 动作空间在智能体从环境中获得状态信息后，根据自己的策略会在动作空间选择一个动作。区域综合能源系统中电力设备模型较为复杂，储能和能量转换设备种类较多。为简化动作空间，此处将 2个储能设备的动作转化为 CT1A、CT2A 2 个动作。由式(12)和式(14)可知，热电联产的电量和热量存在耦合关系，燃气锅炉的输出功率可根据热网平衡方程(25)得出，由此，能量

45、转换设备的动作选用电锅炉和热电联产的功率输出。动作空间如下：GT EB CT1 CT 2(),(),P t P t A A A(42)式中 CT1A、CT2A 为可再生能源过多和不足的 2个动作，当可再生能源过多时优先满足电储能充能，电解水释放氢气。当可再生能源不足时，对比电价，查看是否启动储能放电。3.3 奖励函数奖励函数是对目标任务的量化，它能够引导智能体朝着目标进行优化。本文的区域能源综合系统的奖励函数主要来源于运

46、行成本、能量出售收入、碳排放以及策略奖惩常数。运行成本来源为区域综合能源系统购电成本、燃气购买成本和维护成本；能量出售获得的收入来自于区域综合能源系统的电能、热能和氢能出售。考虑到区域综合能源系统规模较小，热电气网络网损费用以及设备启停成本可以忽略不计。t时段内的运行成本 1()C t 为 1 e f ME()()()()C t C t C t C t(43)式中：e()C t 为 t时段电网购电成本；f()C t 为 t时段燃气成本；ME()C

47、 t 为 t时段维护成本。其中 t时1606 罗文健等：基于优势柔性策略评价算法和迁移学习的区域综合能源系统优化调度 V ol.47 No.4 段购电成本 e()C t 定义为 GePG G G0()0()()()()0P tC tt P t t P t，(44)式中：G()P t 为 t时段内的购电功率；t 为时间间隔。购买天然气的成本为 f f GT SB()()()C t c V t V t(45)式中：fc 为天然气价格；GT()V t、SB()V t 为 t时间段内热电联产和燃气锅炉消耗燃气量；其

48、维护成本为 ME m,1()|()|Ni iiC t C P t(46)式中：ME()C t 为 t时段维护成本；m,iC 是第 i个单元的维护成本系数；()iP t 为单位 i在 t时段输出功率。能源出售收入包括区域综合能源系统电能、热能及电储能和氢储能剩余能量出售收入：DG Q QHOUT HES he soc,in DG G2 G E DGHOUT HES hQ Q e soc,in DGG()()()+()()+()()0()|()|()()()()()()+()()0EL t t L tV t tP

49、 t P tCtt P t L t tV t tL t t P tPtttt，(47)式中：2()C t 为 t时段区域综合能源系统的能量出售收入；E()L t 和 Q()L t 为 t时段区域综合能源系统电负荷、热负荷消耗功率量；Q()t、h()t 为 t时间段的热功率和氢气价格。按照国家“双碳”建设目标，预计到 2060年，我国风、光等新能源发电量占比将达 65%。本文 1kW h电量将排放 0.45kg CO2，31m 天然气产生 1.9 kg的 CO2。t时段内碳排放量 3()

50、C t 定义为 GT SB G3 GT SB GG1.9()+(),()0()1.9()+()0.45()()0V t V t P tC t V t V t P t tP t，(48)式中 GT()V t 和 SB()V t 为 t 时段内热电联产和燃气锅炉所用天然气量。策略惩奖常数的出现减少了探索时超出限制范围动作的次数，增加策略正确动作的次数，加快算法收敛。对供应天然气超出气网管道限制范围、热和电力总线不平衡给出 t时间段内的惩罚常数 1()D t

展开阅读全文