首页 > 专利 > 杭州电子科技大学 > 基于MFDRL-CTDE的跳频组网智能抗干扰决策方法专利详情

基于MFDRL-CTDE的跳频组网智能抗干扰决策方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2021-08-05

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2022-01-07

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-10-21

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2041-08-05

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202110896680.X	申请日	2021-08-05
公开/公告号	CN113824469B	公开/公告日	2022-10-21
授权日	2022-10-21	预估到期日	2041-08-05
申请年	2021年	公开/公告年	2022年
缴费截止日
分类号	H04B1/715 、G06N3/04 、G06N3/08 、G06N5/04	主分类号	H04B1/715
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	6
权利要求数量	7	非专利引证数量	0
引用专利数量	0	被引证专利数量	0
非专利引证
引用专利		被引证专利
专利权维持	1	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	朱家晟、赵知劲、郑仕链、姜明	第一发明人	朱家晟
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	4
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明公开了一种基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法。针对多种干扰并存的复杂电磁环境和跳频异步组网结构，设计了相应的状态‑动作空间和奖赏函数。为应对Agent之间的相互影响和动态的环境，引入集中式训练和分散式执行框架。提出基于模糊推理系统的融合权重分配策略，用于解决网络融合过程中各Agent的权重分配问题。采用竞争性DQN算法和优先经验回放技术以提高算法的效率。本发明方法在收敛速度和最佳性能方面都具有较大优势，且对多变复杂电磁环境具有较好的适应性。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4
说明书附图：图5

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-10-21	授权
2	2022-01-07	实质审查的生效	IPC(主分类): H04B 1/715 专利申请号: 202110896680.X 申请日: 2021.08.05
3	2021-12-21	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法，其特征在于其步骤如下：
步骤1、根据感知到的频谱瀑布，估计干扰的功率和频段，预测未来短时间内的频谱状态；
步骤2、初始化I个Agent的估值Q网络、1个集中式目标Q网络、共享经验池、Sumtree存储结构和模糊推理系统；设置Dueling DQN网络的学习率lr、集中式目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α和β以及总训练回合数随机初始化I个Agent的初始状态集
步骤3、对于当前状态集st，根据动作选择策略及各个Agent的估值Q网络选择最佳动作集并执行，得到下一状态集 s t+ 1 ，计算立即奖励
步骤4、判断st+1是否满足终止该训练回合的条件，对各Agent分别将其产生的样本按<当前状态动作下一状态立即奖励是否满足结束条件>的形式存入经验池；
步骤5、当经验池未被填满时，跳转至步骤9，否则，继续执行；
步骤6、若迭代次数t达到集中式目标Q网络更新周期Ttar则更新网络；统计各Agent的累计平均奖赏r'和累计平均样本优先度g'，根据最大累计平均奖赏r'max、最小累计平均奖赏r'min、最大累计平均样本优先度g'max和最小累计平均样本优先度g'min确定输入语义变量的隶属度函数区间，通过FIS计算融合权重并进行归一化，更新集中式目标Q网络的网络参数；
步骤7、更新共享经验池中样本的优先度和Sumtree，利用Sumtree结构根据优先级从共享经验池采集样本形成训练集；
步骤8、根据各Agent的估值Q网络和集中式目标Q网络计算各个样本的重要性采样权重和网络更新目标值，再计算损失函数并通过神经网络的梯度反向传播更新各个估值Q网络的参数；
步骤9、st←st+1；若网络训练回合数达到则结束算法，否则，返回步骤3。

2.根据权利要求1所述的基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法，其特征在于步骤1具体方法如下：
根据频谱感知的结果确定干扰的类型并估计其功率、频段，假设未来Δ时间内干扰的状态参数不变，建立干扰环境频谱瀑布图。

3.根据权利要求1所述的基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法，其特征在于步骤2具体方法如下：
在多智能体深度强化学习中，各Agent的值函数是由所有Agent的状态和动作决定的，单个Agent在执行时往往无法完整得到环境中隐藏信息，但是这些信息在训练时很容易获得；因此，仅在训练时有效地利用这些额外信息将能帮助Agent加速学习；
为了帮助Agent利用隐藏信息，保障深度强化学习算法在多智能体环境中的稳定性，采用了集中式训练分散式执行框架；集中式训练是指在训练时不对各Agent使用其局部行为值函数而使用联合行为值函数进行训练，从而达到利
用额外信息训练Agent的目的；分散式执行指的是Agent在执行时仅使用观测到的部分信息进行决策；
基于CTDE框架和共享经验池，采用多智能体系统模型，其中共享经验池(Shared
Experience Pool)用于使Agent之间能互相利用经验，进行信息交流；
采用竞争性DQN作为网络的基础结构，提高学习效率；Dueling DQN将Q网络最后一层拆分为状态值流和动作优势流，从而将每个动作的Q值变为状态价值和动作优势值之和；
为防止在状态价值函数为0，动作优势函数等于Q值的训练结果出现，采用式(1)所示的形式，将单个动作优势函数值减去所有动作优势函数值的平均值；该方式能够在保证各动作的优势函数相对排序不变的同时缩小Q值的范围：
其中，Q(st,at；θ,θV,θA)为在第t次迭代中Agent处于状态st时执行动作at的Q值，θ为Q网络从输出层到隐藏层n的网络参数，θV和θA分别为状态值流部分和动作优势流部分的网络参数，V(st；θ,θV)为状态价值函数，表示状态本身具有的价值，A(st,at；θ,θA)为动作优势函数，表示选择对应动作额外带来的价值，NA为可选动作的总数量；a'表示最大Q值对应的动作；
集中式目标Q网络的更新依赖于所有Agent的估值Q网络及其融合权重；考虑到各个Agent之间的竞争、协作关系及其差异，提出基于模糊推理系统的融合权重分配机制，以模拟网络优越性与融合权重的映射关系；
对于输入状态，模糊推理系统先通过隶属度函数进行模糊化，再经过模糊规则推理得到各输出状态隶属度，最后通过去模糊化确定输出；
以 Agent 在当前集中式目标 Q网络的更新周期中的累计平均奖赏
和累计平均样本优先度为系统输入
计算融合权重wF＝[wF1,wF2,…,wFi,…,wFI]；累计平均奖赏越高表明此时网络决策越优，跳频异步网络整体的能量效率越高；累计平均样本优先度越低表明网络预测精度的上升空间越小，网络对环境的学习程度越高；由此，系统的模糊规则定义如表1所示；
表1模糊规则定义
由此，初始化I个Agent的估值Q网络、共享经验池、Sumtree存储结构和模糊推理系统，并使用FIS初始化集中式目标Q网络，其中各个估值Q网络为Dueling DQN网络，其权重为服从均值为0、方差为0.1的高斯分布的随机数，设置Dueling DQN网络的学习率lr、集中式目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α、β以及总训练回合数随机初始化状态集

4.根据权利要求3所述的基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法，其特征在于步骤3具体方法如下：
基于ε‑greedy机制的动作选择策略的参数ε是固定的或随迭代次数线性下降的，在迭代中后期Agent仍有一定几率选择随机动作并执行，这将导致算法难以收敛；对此引入非线性因素，采用如式(2)所示的动作选择策略：
其中，为第t次迭代中第i个Agent在状态下最佳动作策略，arandom为随机选择的动作，rand∈[0，1]为随机数，λ用于控制ε下降的速率，为网络当前训练的回合数，为网络总训练回合数；该策略能保证ε在训练初期保持较大值，使Agent积极进行探索，随后ε快速下降，使Agent更重视利用；a'表示最大Q值对应的动作；
定义马尔可夫博弈模型中的状态空间由Agent的功率P和信源速率B构成，则状态集其中表示第t次迭代中第i个Agent的状态；动作空间由
跳频序列集F和跳频速率V构成，则动作集其中表示
第t次迭代中第i个Agent的动作；在构建跳频序列集时，将总可用频段按不等的频率间隔划分，形成变间隔跳频频率集，并生成数个跳频序列，结合可变化的跳速，从而实现比常规跳频图案抗干扰性能更强的变跳速变间隔跳频图案，以进一步提高网络的抗敌意干扰性能；
通过Agent之间的智能联合决策，根据Agent的功率和信源速率，调整其使用的跳频序列和跳速，为在复杂电磁环境下保障跳频异步组网整体的通信质量并兼顾能耗，以最大化未来短时间Δ内网络整体的能量效率为参数智能决策的目标，其中能量效率如式(3)、(4)所示；
i i i i
其中，φ 、W、P 、SINR 分别为第i个Agent的能量效率、当前占用的带宽、发射功率和信干噪比；为第i'个与第i个Agent的频点碰撞程度，由双方频段碰撞的程度和持续时间决i
定；n0为高斯白噪声功率；I为Agent数量；J表示第i个Agent受到的干扰功率，由式(1)、(2)i
可知，能量效率φ直接取决于Agent的发射功率、占用的带宽和受到的干扰功率；
为通过多智能体深度强化学习最大化网络整体的能量效率，将通过频谱感知预测的未来短时间Δ内的频谱状态划分为足够多的时隙，并定义如式(5)、(6)所示的联合奖赏函数；
其中，分别为第t次迭代中第i个Agent获得的立即奖赏、其信源速率和跳
i
速；为Agent在其决策的跳速Vt下在Δ时间内进行频率跳变的次数；和为在第τ跳中第i个Agent获得的奖赏和信道容量，表示第τ跳的能量效率；当信道容量小于信源速率时，通信质量过差，无法获得奖赏，否则，获得能量效率作为奖赏；
由此，将当前状态集st代入各个Agent的估值Q网络，采用动作选择策略处理网络输出得到最佳动作集并执行，得到下一状态st+1，再根据当前状态、执行的
动作和频谱瀑布计算立即奖励

5.根据权利要求4所述的基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法，其特征在于步骤6具体方法如下：
当网络的迭代次数t达到集中式目标Q网络更新周期Ttar时需要更新网络；根据各Agent历次迭代过程中的立即奖赏和其产生的样本的优先度，统计其累计平均奖赏r'和累计平均样本优先度g'，得到最大累计平均奖赏r'max、最小累计平均奖赏r'min、最大累计平均样本优先度g'max和最小累计平均样本优先度g'min，由此确定表1中FIS输入语义变量的隶属度函数区间；
根据最大累计平均奖赏r'max、最小累计平均奖赏r'min、最大累计平均样本优先度g'max和最小累计平均样本优先度g'min确定输入语义变量的隶属度函数区间；
FIS系统输入变量隶属度函数均采用三角隶属度函数；系统输出变量去模糊化过程采用质心解模糊法，求取阴影部分质心，其横坐标即为系统输出的融合权重；
将各个Agent的累计平均奖赏和累计平均样本优先度作为FIS系统的输入计算各Agent的融合权重；由于输出变量的区间为[0,1]，故获得融合权重wF后需要按式(7)进行归一化，使集中式目标Q网络的参数在数次更新后不会为0；参数更新形式可由式(8)表示；
其中，为归一化后的融合权重，I为Agent的数量；
分别为通过第i个Agent的估值Q网络的网络参数；
由归一化后的融合权重和各个估值Q网络更新集中式目标Q网络的网络参数。

6.根据权利要求5所述的基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法，其特征在于步骤7具体方法如下：
引入更高效的优先经验回放法PER；PER能为经验池里的样本赋予优先级并根据优先级确定该样本被采样的概率，其使用如式(9)所示的时序差分误差作为评判优先级的标准；
其中，和分别表示第t次迭代中由第i个Agent产生的第j样本的TD‑error和立即奖励；和分别为通过第i个Agent的估值Q
网络和集中式目标Q网络得到的Q值， θtar,θVtar，θAtar分别为两个网络的网络参数；越远离0代表网络预测精度的上升空间越大，回放该样本对网络的提升越大，更多地回放这类样本能提高网络训练的效率，使算法更容易收敛；
常用的优先级定义方式及对应的采样概率为如式(10)所示的基于TD‑error的优先级；
其中，gij为由第i个Agent产生的第j个样本的优先度；σ为一个较小的正数，用于保证很小的样本也具有一定的优先度；α∈[0,1]为用于控制优先度使用程度的系数，当α＝1时表示采用均匀随机采样；Gij为根据优先级得到的第j个样本被采样的概率；Ng为经验池容量；
另外，采样过程时间复杂度较低的Sumtree结构存储样本；假设需要采样M个样本，则该方法的时间复杂度为O(NgM)；
由此，根据基于时序差分误差的优先级定义方式更新经验池中样本的优先度和
Sumtree，利用Sumtree结构根据优先级从经验池采集样本形成训练集。

7.根据权利要求6所述的基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法，其特征在于步骤8具体方法如下：
由于优先级高的样本容易被频繁回放并导致训练样本多样性下降，网络容易过拟合，故通过如式(11)所示的重要性采样权重予以纠正，式(12)、(13)为用于网络参数训练的目标值和经过纠正的网络损失函数；
‑β
wij＝(NgGij) (11)
其中，wij和yij为在第i个Agent的网络更新过程中第j个样本的重要性采样权重和网络目标值，β为表示纠正程度的参数；
由此，根据经验池中各个样本被采样的概率计算重要性采样权重，通过各Agent的估值Q网络和集中式目标Q网络计算各个样本的网络更新目标值和损失函数并用于神经网络的梯度反向传播更新各个估值Q网络的参数。

说明书

技术领域

[0001] 本发明属于跳频组网通信中智能抗干扰决策领域，特别涉及一种利用集中式训练和分散式学习框架(Centralized Training and Decentralized Execution,CTDE)与基于模糊推理系统的融合权重分配策略的多智能体深度强化学习技术对跳频异步组网通信中各个子网的参数进行智能抗干扰决策的方法

背景技术

[0002] 为构建更稳定、高效的无线通信系统，抗干扰技术的重要性日益突出。跳频通信技术具有抗传统干扰能力较强、难以截获和易组网的特点，基于其建立的跳频通信网被广泛应用于通信领域。而通信设备的网络化运用不仅可以提升系统信息传递速率，其抗侦察、抗截获和抗干扰能力也明显优于点对点通信。

[0003] 跳频通信网是通过频率跳变方式将相当宽的频带内的大量用户组建成的通信网，实现网内任意用户间的通信。跳频组网通信中的抗干扰主要分为对抗自然干扰和敌意干扰、减小不同子网间和同一子网内节点间的同频干扰。跳频组网根据网络是否采用完全统一的时间基准可分为同步组网方式和异步组网方式。同步组网中各个子网采用相同的跳频技术体制和跳频图案算法，且工作在同一张跳频频率表上，其每一跳的起跳时间和驻留时间完全一致。因此，同步组网方式的效率很高，不存在同频干扰，但是对同步性能要求很高，实现困难，建网速度慢，复杂度高，难以保持，并且抗阻塞干扰能力差。异步组网对各子网之间跳频时序、跳频图案和频率表等方面没有约束，各子网之间不需要同步，而子网内各节点需要同步。异步组网方式组织使用方便、灵活，是目前最常用的组网方式，但是组网效率较低，抗侦察能力较差，存在一定程度的同频干扰，并且随着节点数量的增加和频谱资源的日益稀缺，同频干扰的影响会越来越大。为尽量避免同频干扰，异步组网方式需要更高效、更智能的频谱资源分配方式。

[0004] 传统的降低同频干扰的方法主要有增加频带宽度、跳频频点数、设计相关性好的跳频序列等。然而，复杂的电磁环境、稀缺的频谱资源和激增的设备数量导致跳频网络工作的电磁环境变得越来越复杂，需要大量频谱资源支持的传统抗干扰技术已无法在跳频组网中难以发挥作用。并且，目前几乎没有关于同时对抗同频干扰和敌意干扰的研究。而智能抗干扰技术由于具有更强的灵活性和抗干扰性能，已逐渐受到关注。

[0005] 跳频组网中的智能抗干扰决策涉及多个用户，是典型的多智能体系统。其中，每个用户的决策都将影响环境和其他用户的决策，这造成了环境的非平稳性。而强化学习是解决动态和未知环境中智能决策问题的有效方法。多智能体强化学习则将上述两个方面结合起来，是强化学习中的重要分支。多智能体系统中有多个Agent同时与环境交互，但由于单个Agent往往无法完整的观测整个环境，且其动作将影响环境和其他Agent，故为了获得更大的奖赏，每个Agent都需要学习环境和其他Agent的动作策略。马尔可夫博弈(Markov Game,MG)是多智能体强化学习的基础模型，其由马尔可夫决策过程(Markov DecisionProcess,MDP)扩展而来。具有I个Agent的马尔可夫博弈可以由描述所有Agent状态空间集合S、动作空间集合A1,A2,…,Ai,…,AI和观察集合O1,O2,…,Oi,…,OI构成，其常用多元组1]，这表明需要由给定的状态和所有Agent的动作决定下一状态的概率分布。同时，Agent将得到奖赏和私有的观察Oi。每个Agent的目标是最大化获得的
奖赏其中T为总迭代次数，t为当前迭代次数；γ为折扣因子，表示Agent对未来奖赏的重视程度。目前多智能体强化学习的主要问题包括智能体的差异性和协调合作、环境非平稳性、奖励机制复杂、算法效率较低等。

发明内容

[0006] 本发明针对现有跳频异步组网智能抗干扰决策问题的局限性，综合考虑调整跳频网络中各个子网的通信参数，以减小网间同频干扰和网内同频干扰的同时对抗敌意干扰和自然干扰，达到在复杂电磁环境中对抗干扰，提高网络整体通信质量的目的。因此，本发明提出一种基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法，提高决策效率。

[0007] 本发明解决其技术问题所采用的技术方案包括如下步骤：

[0008] 步骤1、根据感知到的频谱瀑布，估计干扰的功率和频段，预测未来短时间内的频谱状态；

[0009] 步骤2、初始化I个Agent的估值Q网络、1个集中式目标Q网络、共享经验池、Sumtree存储结构和模糊推理系统；设置Dueling DQN网络的学习率lr、集中式目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α和β以及总训练回合数随机初始化I个Agent的初始状态集

[0010] 步骤3、对于当前状态集st，根据动作选择策略及各个Agent的估值Q网络选择最佳动作集并执行，得到下一状态集st+1，计算立即奖励

[0011] 步骤4、判断st+1是否满足终止该训练回合的条件，对各Agent分别将其产生的样本按<当前状态动作下一状态立即奖励是否满足结束条件>的形式存入经验池；

[0012] 步骤5、当经验池未被填满时，跳转至步骤9，否则，继续执行；

[0013] 步骤6、若迭代次数t达到集中式目标Q网络更新周期Ttar则更新网络；统计各Agent的累计平均奖赏r'和累计平均样本优先度g'，根据最大累计平均奖赏r'max、最小累计平均奖赏r'min、最大累计平均样本优先度g'max和最小累计平均样本优先度g'min确定输入语义变量的隶属度函数区间，通过FIS计算融合权重并进行归一化，更新集中式目标Q网络的网络参数；

[0014] 步骤7、更新共享经验池中样本的优先度和Sumtree，利用Sumtree结构根据优先级从共享经验池采集样本形成训练集；

[0015] 步骤8、根据各Agent的估值Q网络和集中式目标Q网络计算各个样本的重要性采样权重和网络更新目标值，再进一步计算损失函数并通过神经网络的梯度反向传播更新各个估值Q网络的参数；

[0016] 步骤9、st←st+1；若网络训练回合数达到则结束算法，否则，返回步骤3。

[0017] 步骤1具体方法如下：

[0018] 根据频谱感知的结果确定干扰的类型并估计其功率、频段等主要参数，假设未来Δ时间内干扰的状态参数不变，建立干扰环境频谱瀑布图。

[0019] 步骤2具体方法如下：

[0020] 初始化I个Agent的估值Q网络、共享经验池、Sumtree存储结构和模糊推理系统(Fuzzy inference system,FIS)，并使用FIS初始化集中式目标Q网络，其中各个估值Q网络为Dueling DQN网络，其权重为服从均值为0、方差为0.1的高斯分布的随机数，设置Dueling DQN网络的学习率lr、集中式目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α、β以及总训练回合数随机初始化I个Agent的初始状态集

[0021] 步骤3具体方法如下：

[0022] 将当前状态集st代入各个Agent的估值Q网络，采用动作选择策略处理网络输出得到最佳动作集并执行，得到下一状态st+1，再根据当前状态、执行的动作和频谱瀑布计算立即奖励

[0023] 步骤6具体方法如下：

[0024] 当网络的迭代次数t达到集中式目标Q网络更新周期Ttar时需要更新网络。根据各Agent历次迭代过程中的立即奖赏和其产生的样本的优先度，统计其累计平均奖赏r'和累计平均样本优先度g'，根据最大累计平均奖赏r'max、最小累计平均奖赏r'min、最大累计平均样本优先度g'max和最小累计平均样本优先度g'min确定FIS输入语义变量的隶属度函数区间，再通过FIS计算各Agent的融合权重并进行归一化，由归一化后的融合权重和各个估值Q网络更新集中式目标Q网络的网络参数。

[0025] 步骤7具体方法如下：

[0026] 根据基于时序差分误差的优先级定义方式更新经验池中样本的优先度和Sumtree，利用Sumtree结构根据优先级从经验池采集样本形成训练集。

[0027] 步骤8具体方法如下：

[0028] 根据经验池中各个样本被采样的概率计算重要性采样权重，通过各Agent的估值Q网络和集中式目标Q网络计算各个样本的网络更新目标值和损失函数并用于神经网络的梯度反向传播更新各个估值Q网络的参数。

[0029] 本发明的有益效果是：

[0030] 1、为提高在复杂电磁环境中运作的跳频异步网络的抗干扰能力，同时对抗同频干扰、敌意干扰和自然干扰，采用多智能体深度强化学习算法进行智能决策。

[0031] 2、针对多智能体系统中各Agent相互影响和环境不稳定的问题，将集中式训练分散式执行框架以及共享经验池引入多智能体深度强化学习中，并使系统对多变的复杂电磁环境具有更好的适应性。

[0032] 3、针对Agent的差异性和协调合作问题，提出了基于模糊推理系统的融合权重分配策略，采用模糊推理系统以Agent获得的累计平均奖赏和样本优先度为标准估计各网络性能并分配权重用于网络融合，使性能好的Agent能做出更大的贡献，从而提高算法性能。

[0033] 4、采用竞争性DQN(Dueling Deep Q Network,Dueling DQN)作为网络的基础结构，解决DQN算法中由于复杂电磁环境和多智能体系导致的严重的过估计问题，提高决策效率和稳定性。

[0034] 5、采用优先经验回放计算代替原有的随机采样经验回放技术，使价值更高的样本由更大的几率被采样到，有效地减小Agent与环境交互的代价，提高样本利用率和经验回放的效率，提升算法的收敛速度。

实施方案

[0040] 下面进一步详细说明本发明的实施步骤。

[0041] 本发明针对多种干扰并存的复杂电磁环境和跳频异步组网结构，设计了相应的状态‑动作空间和奖赏函数。为应对Agent之间的相互影响和动态的环境，引入集中式训练和分散式执行框架。提出基于模糊推理系统的融合权重分配策略，用于解决网络融合过程中各Agent的权重分配问题。采用竞争性DQN算法和优先经验回放技术以提高算法的效率。本发明方法在收敛速度和最佳性能方面都具有较大优势，且对多变复杂电磁环境具有较好的适应性。

[0042] 如图1所示，一种基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法，具体包括如下步骤：

[0043] 步骤1、根据感知到的频谱瀑布，估计干扰的功率和频段等，预测未来短时间内的频谱状态，具体如下：

[0044] 根据频谱感知的结果确定干扰的类型并估计其功率、频段等主要参数，假设未来Δ时间内干扰的状态参数不变，建立干扰环境频谱瀑布图。

[0045] 步骤2、初始化I个Agent的估值Q网络、1个集中式目标Q网络、共享经验池、Sumtree存储结构和模糊推理系统，设置Dueling DQN网络的学习率lr、集中式目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α、β以及总训练回合数随机初始化I个Agent的初始状态集具体如下：

[0046] 在多智能体深度强化学习中，各Agent的值函数是由所有Agent的状态和动作决定的，单个Agent在执行时往往无法完整得到环境中隐藏信息，但是这些信息在训练时很容易获得。因此，仅在训练时有效地利用这些额外信息将能帮助Agent加速学习。

[0047] 为了帮助Agent利用隐藏信息，保障深度强化学习算法在多智能体环境中的稳定性，采用了集中式训练分散式执行框架。集中式训练是指在训练时不对各Agent使用其局部行为值函数而使用联合行为值函数进行训练，从而达到利用额外信息训练Agent的目的。分散式执行指的是Agent在执行时仅使用观测到的部分信息进行决策。

[0048] 基于CTDE框架和共享经验池，采用如图2所示的多智能体系统模型，其中共享经验池(Shared Experience Pool)用于使Agent之间能互相利用经验，进行信息交流。

[0049] 采用竞争性DQN作为网络的基础结构，提高学习效率；如图3所示，Dueling DQN将Q网络最后一层拆分为状态值流和动作优势流，从而将每个动作的Q值变为状态价值和动作优势值之和。

[0050] 为防止在状态价值函数为0，动作优势函数等于Q值的训练结果出现，通常采用式(1)所示的形式，将单个动作优势函数值减去所有动作优势函数值的平均值。该方式可以在保证各动作的优势函数相对排序不变的同时缩小Q值的范围，去除多余的自由度，提高算法稳定性。

[0051]

[0052] 其中，Q(st,at；θ,θV,θA)为在第t次迭代中Agent处于状态st时执行动作at的Q值，θ为Q网络从输出层到隐藏层n的网络参数，θV和θA分别为状态值流部分和动作优势流部分的网络参数，V(st；θ,θV)为状态价值函数，表示状态本身具有的价值，A(st,at；θ,θA)为动作优势函数，表示选择对应动作额外带来的价值，NA为可能的动作数量；a'表示最大Q值对应的动作。

[0053] 集中式目标Q网络的更新依赖于所有Agent的估值Q网络及其融合权重；考虑到各个Agent之间的竞争、协作关系及其差异，提出基于模糊推理系统的融合权重分配机制，以模拟网络优越性与融合权重的映射关系。

[0054] 对于输入状态，模糊推理系统先通过隶属度函数进行模糊化，再经过模糊规则推理得到其对各输出状态隶属度，最后通过去模糊化确定输出。

[0055] 以Agent在当前集中式目标Q网络的更新周期中的累计平均奖赏和累计平均样本优先度为系统输入
计算融合权重wF＝[wF1,wF2,…,wFi,…,wFI]。累计平均奖赏越高表明此时网络决策越优，跳频异步网络整体具有较高的能量效率；累计平均样本优先度越低表明网络预测精度的上升空间越小，网络对环境的学习程度越高。由此，系统的模糊规则定义如表1所示。

[0056] 表1模糊规则定义

[0057]

[0058]

[0059] 由此，初始化I个Agent的估值Q网络、共享经验池、Sumtree存储结构和模糊推理系统，并使用FIS初始化集中式目标Q网络，其中各个估值Q网络为Dueling DQN网络，其权重为服从均值为0、方差为0.1的高斯分布的随机数，设置Dueling DQN网络的学习率lr、集中式目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α、β以及总训练回合数随机初始化状态集

[0060] 步骤3、对于当前状态集st，根据动作选择策略及各个Agent的估值Q网络选择最佳动作集并执行，得到下一状态st+1，计算立即奖励具体如下：

[0061] 基于ε‑greedy机制的动作选择策略的参数ε是固定的或随迭代次数线性下降的，在迭代中后期Agent仍有一定几率选择随机动作并执行，这将导致算法难以收敛。对此，引入非线性因素，采用如式(2)所示的动作选择策略。

[0062]

[0063] 其中，为第t次迭代中第i个Agent在状态下最佳动作策略，arandom为随机选择的动作，rand∈[0，1]为随机数，λ用于控制ε下降的速率，为网络当前训练的回合数，为网络总训练回合数。该策略能保证ε在训练初期保持较大值，使Agent积极进行探索，随后ε快速下降，使Agent更重视利用；a'表示最大Q值对应的动作；

[0064] 定义该马尔可夫博弈模型中的状态空间由Agent的功率P和信源速率B构成，则状态集其中表示第t次迭代中第i个Agent的状态；动作空间由跳频序列集F和跳频速率V构成，则动作集其中
表示第t次迭代中第i个Agent的动作。在构建跳频序列集时，将总可用频段按不等的频率间隔划分，形成变间隔跳频频率集，并生成数个跳频序列，结合可变化的跳速，从而实现比常规跳频图案抗干扰性能更强的变跳速变间隔跳频图案，以进一步提高网络的抗敌意干扰性能。通过Agent之间的智能联合决策，根据Agent的功率和信源速率，调整其使用的跳频序列和跳速，为在复杂电磁环境下保障跳频异步组网整体的通信质量并兼顾能耗，本文以最大化未来短时间Δ内网络整体的能量效率为参数智能决策的目标，其中能量效率如式(3)、(4)所示。

[0065]

[0066]

[0067] 其中，φi,Wi,Pi,SINRi分别为第i个Agent的能量效率，当前占用的带宽、发射功率和信干噪比；为第i'个与第i个Agent的频点碰撞程度，由双方频段碰撞的程度和持续时i间决定；n0为高斯白噪声功率；I为Agent数量，J表示第i个Agent受到的干扰功率。由式(1)、i
(2)可知，能量效率φ直接取决于Agent的发射功率、占用的带宽和受到的干扰功率。

[0068] 为通过多智能体深度强化学习最大化网络整体的能量效率，将通过频谱感知预测的未来短时间Δ内的频谱状态划分为足够多的时隙，并定义如式(5)、(6)所示的联合奖赏函数。

[0069]

[0070]

[0071] 其中，分别为第t次迭代中第i个Agent获得的立即奖赏、其信源速率和跳速；为Agent在其决策的跳速下在Δ时间内进行频率跳变的次数，表示第τ跳的能量效率；和为在第τ跳中第i个Agent获得的奖赏和信道容量，当信道容量小于信源速率时，通信质量过差，无法获得奖赏，否则，获得能量效率作为奖赏。

[0072] 由此，将当前状态集st代入各个Agent的估值Q网络，采用动作选择策略处理网络输出得到最佳动作集并执行，得到下一状态st+1，再根据当前状态、执行的动作和频谱瀑布计算立即奖励

[0073] 步骤4、判断st+1是否满足终止该训练回合的条件，对各Agent分别将其产生的样本按当前状态动作下一状态立即奖励是否满足结束条件的形式存入经验池。

[0074] 步骤5、当经验池未被填满时，跳转至步骤9，否则，继续执行。具体如下:

[0075] 若当前经验池尚未填满，则不满足网络学习条件，直接跳转至步骤9；否则，满足网络学习条件，进行下述的网络学习步骤。

[0076] 步骤6、若迭代次数t达到集中式目标Q网络更新周期Ttar则更新网络。统计各Agent的累计平均奖赏r'和累计平均样本优先度g'，根据最大累计平均奖赏r'max、最小累计平均奖赏r'min、最大累计平均样本优先度g'max和最小累计平均样本优先度g'min确定输入语义变量的隶属度函数区间，通过FIS计算融合权重并进行归一化，更新集中式目标Q网络的网络参数，具体如下：

[0077] 当网络的迭代次数t达到集中式目标Q网络更新周期Ttar时需要更新网络。根据各Agent历次迭代过程中的立即奖赏和其产生的样本的优先度，统计其累计平均奖赏r'和累计平均样本优先度g'，得到最大累计平均奖赏r'max、最小累计平均奖赏r'min、最大累计平均样本优先度g'max和最小累计平均样本优先度g'min，由此确定表1中FIS输入语义变量的隶属度函数区间。

[0078] 如图4所示，FIS系统输入变量隶属度函数均采用三角隶属度函数。系统输出变量去模糊化过程采用质心解模糊法，求取阴影部分质心，其横坐标即为系统输出的融合权重。

[0079] 将各个Agent的累计平均奖赏和累计平均样本优先度作为FIS系统的输入计算各Agent的融合权重。由于输出变量的区间为[0,1]，故获得融合权重wF后需要按式(7)进行归一化，使集中式目标Q网络的参数在数次更新后不会为0。参数更新形式可由式(8)表示。

[0080]

[0081]

[0082] 其中，为归一化后的融合权重，I为Agent的数量；

[0083] 分别为通过第i个Agent的估值Q网络的网络参数；

[0084] 由归一化后的融合权重和各个估值Q网络更新集中式目标Q网络的网络参数。

[0085] 步骤7、更新共享经验池中样本的优先度和Sumtree，利用Sumtree结构根据优先级从共享经验池采集样本形成训练集，具体如下：

[0086] 引入更高效的优先经验回放法PER，PER能为经验池里的样本赋予优先级并根据优先级确定该样本被采样的概率，其通常使用如式(9)所示的时序差分误差(Temporal Difference‑error,TD‑error)作为评判优先级的标准。

[0087]

[0088] 其中，和为在第t次迭代中由第i个Agent产生的第j样本的TD‑error和立即奖励；和分别为通过第i个Agent的估值Q网络和集中式目标Q网络得到的Q值， θtar,θVtar，θAtar分别为两个网络的网络参数。越远离0代表网络预测精度的上升空间越大，回放该样本对网络的提升越大，更多地回放这类样本能提高网络训练的效率，使算法更容易收敛。

[0089] 常用的优先级定义方式及对应的采样概率为如式(10)所示的基于TD‑error的优先级。

[0090]

[0091] 其中，gij为由第i个Agent产生的第j个样本的优先度；σ为一个较小的正数，用于保证很小的样本也具有一定的优先度；α∈[0,1]为用于控制优先度使用程度的系数，当α＝1时表示采用均匀随机采样；Gij为根据优先级得到的第j个样本被采样的概率；Ng为经验池容量。

[0092] 另外，本文使用如图5所示的采样过程时间复杂度较低的Sumtree结构存储样本。假设需要采样M个样本，则该方法的时间复杂度为O(NgM)。

[0093] 由此，根据基于时序差分误差的优先级定义方式更新经验池中样本的优先度和Sumtree，利用Sumtree结构根据优先级从经验池采集样本形成训练集。

[0094] 步骤8、根据各Agent的估值Q网络和集中式目标Q网络计算各个样本的重要性采样权重和网络更新目标值，再进一步计算损失函数并通过神经网络的梯度反向传播更新各个估值Q网络的参数，具体如下：

[0095] 由于优先级高的样本容易被频繁回放并导致训练样本多样性下降，网络容易过拟合，故通过如式(11)所示的重要性采样权重予以纠正，式(12)、(13)为用于网络参数训练的目标值和经过纠正的网络损失函数。

[0096] wij＝(NgGij)‑β (11)

[0097]

[0098]

[0099] 其中，wij和yij为在第i个Agent的网络更新过程中第j个样本的重要性采样权重和网络目标值，β为表示纠正程度的参数。

[0100] 由此，根据经验池中各个样本被采样的概率计算重要性采样权重，通过各Agent的估值Q网络和集中式目标Q网络计算各个样本的网络更新目标值和损失函数并用于神经网络的梯度反向传播更新各个估值Q网络的参数。

[0101] 步骤9、st←st+1。若网络训练回合数达到则结束算法，否则，返回步骤3，具体如下：

[0102] 判断当前迭代次数t是否达到总迭代次数若是，则结束学习过程结束，否则返回步骤3。

附图说明

[0035] 图1为本发明实施例的干扰环境频谱瀑布图；

[0036] 图2为本发明实施例的多智能体系统模型示意图；

[0037] 图3为本发明实施例的竞争性DQN网络结构示意图。

[0038] 图4为本发明实施例的模糊推理系统的隶属度函数及质心解模糊法示意图[0039] 图5为本发明实施例的Sumtree存储结构示意图

1基于MFDRL-CTDE的跳频组网智能抗干扰决策方法 2基于HAQL-PSO的跳频系统智能抗干扰决策方法