[0040] 下面进一步详细说明本发明的实施步骤。
[0041] 本发明针对多种干扰并存的复杂电磁环境和跳频异步组网结构,设计了相应的状态‑动作空间和奖赏函数。为应对Agent之间的相互影响和动态的环境,引入集中式训练和分散式执行框架。提出基于模糊推理系统的融合权重分配策略,用于解决网络融合过程中各Agent的权重分配问题。采用竞争性DQN算法和优先经验回放技术以提高算法的效率。本发明方法在收敛速度和最佳性能方面都具有较大优势,且对多变复杂电磁环境具有较好的适应性。
[0042] 如图1所示,一种基于MFDRL‑CTDE的跳频组网智能抗干扰决策方法,具体包括如下步骤:
[0043] 步骤1、根据感知到的频谱瀑布,估计干扰的功率和频段等,预测未来短时间内的频谱状态,具体如下:
[0044] 根据频谱感知的结果确定干扰的类型并估计其功率、频段等主要参数,假设未来Δ时间内干扰的状态参数不变,建立干扰环境频谱瀑布图。
[0045] 步骤2、初始化I个Agent的估值Q网络、1个集中式目标Q网络、共享经验池、Sumtree存储结构和模糊推理系统,设置Dueling DQN网络的学习率lr、集中式目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α、β以及总训练回合数 随机初始化I个Agent的初始状态集 具体如下:
[0046] 在多智能体深度强化学习中,各Agent的值函数是由所有Agent的状态和动作决定的,单个Agent在执行时往往无法完整得到环境中隐藏信息,但是这些信息在训练时很容易获得。因此,仅在训练时有效地利用这些额外信息将能帮助Agent加速学习。
[0047] 为了帮助Agent利用隐藏信息,保障深度强化学习算法在多智能体环境中的稳定性,采用了集中式训练分散式执行框架。集中式训练是指在训练时不对各Agent使用其局部行为值函数 而使用联合行为值函数 进行训练,从而达到利用额外信息训练Agent的目的。分散式执行指的是Agent在执行时仅使用观测到的部分信息进行决策。
[0048] 基于CTDE框架和共享经验池,采用如图2所示的多智能体系统模型,其中共享经验池(Shared Experience Pool)用于使Agent之间能互相利用经验,进行信息交流。
[0049] 采用竞争性DQN作为网络的基础结构,提高学习效率;如图3所示,Dueling DQN将Q网络最后一层拆分为状态值流和动作优势流,从而将每个动作的Q值变为状态价值和动作优势值之和。
[0050] 为防止在状态价值函数为0,动作优势函数等于Q值的训练结果出现,通常采用式(1)所示的形式,将单个动作优势函数值减去所有动作优势函数值的平均值。该方式可以在保证各动作的优势函数相对排序不变的同时缩小Q值的范围,去除多余的自由度,提高算法稳定性。
[0051]
[0052] 其中,Q(st,at;θ,θV,θA)为在第t次迭代中Agent处于状态st时执行动作at的Q值,θ为Q网络从输出层到隐藏层n的网络参数,θV和θA分别为状态值流部分和动作优势流部分的网络参数,V(st;θ,θV)为状态价值函数,表示状态本身具有的价值,A(st,at;θ,θA)为动作优势函数,表示选择对应动作额外带来的价值,NA为可能的动作数量;a'表示最大Q值对应的动作。
[0053] 集中式目标Q网络的更新依赖于所有Agent的估值Q网络及其融合权重;考虑到各个Agent之间的竞争、协作关系及其差异,提出基于模糊推理系统的融合权重分配机制,以模拟网络优越性与融合权重的映射关系。
[0054] 对于输入状态,模糊推理系统先通过隶属度函数进行模糊化,再经过模糊规则推理得到其对各输出状态隶属度,最后通过去模糊化确定输出。
[0055] 以Agent在当前集中式目标Q网络的更新周期中的累计平均奖赏和累计平均样本优先度 为系统输入
计算融合权重wF=[wF1,wF2,…,wFi,…,wFI]。累计平均奖赏越高表明此时网络决策越优,跳频异步网络整体具有较高的能量效率;累计平均样本优先度越低表明网络预测精度的上升空间越小,网络对环境的学习程度越高。由此,系统的模糊规则定义如表1所示。
[0056] 表1模糊规则定义
[0057]
[0058]
[0059] 由此,初始化I个Agent的估值Q网络、共享经验池、Sumtree存储结构和模糊推理系统,并使用FIS初始化集中式目标Q网络,其中各个估值Q网络为Dueling DQN网络,其权重为服从均值为0、方差为0.1的高斯分布的随机数,设置Dueling DQN网络的学习率lr、集中式目标Q网络的更新周期Ttar、采样样本数量M、折扣因子γ、参数α、β以及总训练回合数 随机初始化状态集
[0060] 步骤3、对于当前状态集st,根据动作选择策略及各个Agent的估值Q网络选择最佳动作集 并 执行,得到下一状态st+1,计算立即奖励具体如下:
[0061] 基于ε‑greedy机制的动作选择策略的参数ε是固定的或随迭代次数线性下降的,在迭代中后期Agent仍有一定几率选择随机动作并执行,这将导致算法难以收敛。对此,引入非线性因素,采用如式(2)所示的动作选择策略。
[0062]
[0063] 其中, 为第t次迭代中第i个Agent在状态 下最佳动作策略,arandom为随机选择的动作,rand∈[0,1]为随机数,λ用于控制ε下降的速率,为网络当前训练的回合数,为网络总训练回合数。该策略能保证ε在训练初期保持较大值,使Agent积极进行探索,随后ε快速下降,使Agent更重视利用;a'表示最大Q值对应的动作;
[0064] 定义该马尔可夫博弈模型中的状态空间由Agent的功率P和信源速率B构成,则状态集 其中 表示第t次迭代中第i个Agent的状态;动作空间由跳频序列集F和跳频速率V构成,则动作集 其中
表示第t次迭代中第i个Agent的动作。在构建跳频序列集时,将总可用频段按不等的频率间隔划分,形成变间隔跳频频率集,并生成数个跳频序列,结合可变化的跳速,从而实现比常规跳频图案抗干扰性能更强的变跳速变间隔跳频图案,以进一步提高网络的抗敌意干扰性能。通过Agent之间的智能联合决策,根据Agent的功率和信源速率,调整其使用的跳频序列和跳速,为在复杂电磁环境下保障跳频异步组网整体的通信质量并兼顾能耗,本文以最大化未来短时间Δ内网络整体的能量效率为参数智能决策的目标,其中能量效率如式(3)、(4)所示。
[0065]
[0066]
[0067] 其中,φi,Wi,Pi,SINRi分别为第i个Agent的能量效率,当前占用的带宽、发射功率和信干噪比; 为第i'个与第i个Agent的频点碰撞程度,由双方频段碰撞的程度和持续时i间决定;n0为高斯白噪声功率;I为Agent数量,J表示第i个Agent受到的干扰功率。由式(1)、i
(2)可知,能量效率φ直接取决于Agent的发射功率、占用的带宽和受到的干扰功率。
[0068] 为通过多智能体深度强化学习最大化网络整体的能量效率,将通过频谱感知预测的未来短时间Δ内的频谱状态划分为足够多的时隙,并定义如式(5)、(6)所示的联合奖赏函数。
[0069]
[0070]
[0071] 其中, 分别为第t次迭代中第i个Agent获得的立即奖赏、其信源速率和跳速; 为Agent在其决策的跳速 下在Δ时间内进行频率跳变的次数, 表示第τ跳的能量效率; 和 为在第τ跳中第i个Agent获得的奖赏和信道容量,当信道容量小于信源速率时,通信质量过差,无法获得奖赏,否则,获得能量效率作为奖赏。
[0072] 由此,将当前状态集st代入各个Agent的估值Q网络,采用动作选择策略处理网络输出得到最佳动作集 并执行,得到下一状态st+1,再根据当前状态、执行的动作和频谱瀑布计算立即奖励
[0073] 步骤4、判断st+1是否满足终止该训练回合的条件,对各Agent分别将其产生的样本按当前状态 动作 下一状态 立即奖励 是否满足结束条件的形式存入经验池。
[0074] 步骤5、当经验池未被填满时,跳转至步骤9,否则,继续执行。具体如下:
[0075] 若当前经验池尚未填满,则不满足网络学习条件,直接跳转至步骤9;否则,满足网络学习条件,进行下述的网络学习步骤。
[0076] 步骤6、若迭代次数t达到集中式目标Q网络更新周期Ttar则更新网络。统计各Agent的累计平均奖赏r'和累计平均样本优先度g',根据最大累计平均奖赏r'max、最小累计平均奖赏r'min、最大累计平均样本优先度g'max和最小累计平均样本优先度g'min确定输入语义变量的隶属度函数区间,通过FIS计算融合权重并进行归一化,更新集中式目标Q网络的网络参数,具体如下:
[0077] 当网络的迭代次数t达到集中式目标Q网络更新周期Ttar时需要更新网络。根据各Agent历次迭代过程中的立即奖赏和其产生的样本的优先度,统计其累计平均奖赏r'和累计平均样本优先度g',得到最大累计平均奖赏r'max、最小累计平均奖赏r'min、最大累计平均样本优先度g'max和最小累计平均样本优先度g'min,由此确定表1中FIS输入语义变量的隶属度函数区间。
[0078] 如图4所示,FIS系统输入变量隶属度函数均采用三角隶属度函数。系统输出变量去模糊化过程采用质心解模糊法,求取阴影部分质心,其横坐标即为系统输出的融合权重。
[0079] 将各个Agent的累计平均奖赏和累计平均样本优先度作为FIS系统的输入计算各Agent的融合权重。由于输出变量的区间为[0,1],故获得融合权重wF后需要按式(7)进行归一化,使集中式目标Q网络的参数在数次更新后不会为0。参数更新形式可由式(8)表示。
[0080]
[0081]
[0082] 其中, 为归一化后的融合权重,I为Agent的数量;
[0083] 分别为通过第i个Agent的估值Q网络的网络参数;
[0084] 由归一化后的融合权重和各个估值Q网络更新集中式目标Q网络的网络参数。
[0085] 步骤7、更新共享经验池中样本的优先度和Sumtree,利用Sumtree结构根据优先级从共享经验池采集样本形成训练集,具体如下:
[0086] 引入更高效的优先经验回放法PER,PER能为经验池里的样本赋予优先级并根据优先级确定该样本被采样的概率,其通常使用如式(9)所示的时序差分误差(Temporal Difference‑error,TD‑error)作为评判优先级的标准。
[0087]
[0088] 其中, 和 为在第t次迭代中由第i个Agent产生的第j样本的TD‑error和立即奖励; 和 分别为通过第i个Agent的估值Q网络和集中式目标Q网络得到的Q值, θtar,θVtar,θAtar分别为两个网络的网络参数。 越远离0代表网络预测精度的上升空间越大,回放该样本对网络的提升越大,更多地回放这类样本能提高网络训练的效率,使算法更容易收敛。
[0089] 常用的优先级定义方式及对应的采样概率为如式(10)所示的基于TD‑error的优先级。
[0090]
[0091] 其中,gij为由第i个Agent产生的第j个样本的优先度;σ为一个较小的正数,用于保证 很小的样本也具有一定的优先度;α∈[0,1]为用于控制优先度使用程度的系数,当α=1时表示采用均匀随机采样;Gij为根据优先级得到的第j个样本被采样的概率;Ng为经验池容量。
[0092] 另外,本文使用如图5所示的采样过程时间复杂度较低的Sumtree结构存储样本。假设需要采样M个样本,则该方法的时间复杂度为O(NgM)。
[0093] 由此,根据基于时序差分误差的优先级定义方式更新经验池中样本的优先度和Sumtree,利用Sumtree结构根据优先级从经验池采集样本形成训练集。
[0094] 步骤8、根据各Agent的估值Q网络和集中式目标Q网络计算各个样本的重要性采样权重和网络更新目标值,再进一步计算损失函数并通过神经网络的梯度反向传播更新各个估值Q网络的参数,具体如下:
[0095] 由于优先级高的样本容易被频繁回放并导致训练样本多样性下降,网络容易过拟合,故通过如式(11)所示的重要性采样权重予以纠正,式(12)、(13)为用于网络参数训练的目标值和经过纠正的网络损失函数。
[0096] wij=(NgGij)‑β (11)
[0097]
[0098]
[0099] 其中,wij和yij为在第i个Agent的网络更新过程中第j个样本的重要性采样权重和网络目标值,β为表示纠正程度的参数。
[0100] 由此,根据经验池中各个样本被采样的概率计算重要性采样权重,通过各Agent的估值Q网络和集中式目标Q网络计算各个样本的网络更新目标值和损失函数并用于神经网络的梯度反向传播更新各个估值Q网络的参数。
[0101] 步骤9、st←st+1。若网络训练回合数达到 则结束算法,否则,返回步骤3,具体如下:
[0102] 判断当前迭代次数t是否达到总迭代次数 若是,则结束学习过程结束,否则返回步骤3。