[0004] 为解决上述问题,本发明提出了一种基于DDPG‑模糊PID的温度控制方法。通过模糊PID控制算法提高了温度系统的控制精度,进一步的通过遗传算法解决了模糊PID的隶属函数和模糊规则难以确定的优化问题,最后提出了一种以模糊PID作为主控制器、DDPG作为辅助控制器的控制方法,该控制器可以减少噪声干扰,增强系统的适应性和鲁棒性,有利于提高系统的控制精度。为达此目的,本发明提供一种基于DDPG‑模糊PID的温度控制方法,具体步骤如下,其特征在于:
[0005] 步骤1,获取温度控制系统实验数据:通过温度传感器检测系统温度,并记录执行器输出和指令信号;
[0006] 步骤2,设计温度系统模糊PID主控制器:将模糊PID控制器作为主控制器控制执行器的动作,完成对系统温度设定值的跟踪;
[0007] 步骤3,遗传算法优化模糊PID参数:采用遗传算法对模糊PID的隶属函数和模糊规则进行优化,提高温度系统的控制性能;
[0008] 步骤4,设计温度系统DDPG辅助控制器:DDPG辅助控制器通过检测温度控制系统的温度值、执行动作的奖励值和执行动作后的系统温度值,实现对温度系统的辅助控制;
[0009] 步骤5,主辅双控制器的联动控制,获得具有鲁棒性的温度调控系统,并将其嵌入上位机中进行实际应用。
[0010] 进一步,步骤2中设计温度系统模糊PID主控制器的过程表示为:
[0011] 温度控制系统将温度设定值与温度回采值分别设置为二维输入包括系统温度给定值与测量反馈值的偏差e(t),偏差信号变化率ec(t)和三维输出包括比例系数kp、积分系数ki、微分系数kd,系统通过监测和ec(t)的值对模糊PID控制器参数进行实时修改,进而优化其控制性能;在温度控制系统中,偏差信号e(t)通过传感器回采当前温度值与目标设定值的运算得到,再把偏差信号e(t)与偏差信号变化率ec(t)进行模糊化,得到相对应的模糊量,然后按照模糊规则经过推理得出模糊控制量,最终为了对被控对象进行精确的控制而进行清晰化处理得到kp、ki和kd。
[0012] 进一步,步骤3中遗传算法优化模糊PID参数的过程可以表示如下:
[0013] 遗传算法是一种基于自然选择原理和遗传机制的迭代式自适应最优求解算法,可提高温度系统的控制性能,基于遗传算法的PID参数整定步骤如下所示:
[0014] 步骤3.1,模糊域编码;温度偏差e(t)的实际范围可能到达‑100℃~100摄氏度,因此,其论域定为[‑100,100],由于温度变化缓慢,温度偏差变化率的基本论域大致为[‑2,2],经参数整定分析输出量kp、ki、kd实际论域设为为[‑1,1]、[‑0.02,0.02]、[‑0.3,0.3];输入、输出的模糊论域均设为[‑6,‑5,‑4,‑3,2,‑1,0,1,2,3,4,5,6];系统设定负大NB、负中NM、负NS、零ZO、正小PS、正中PM、正大PB的7个语言变量值,并用0、1、2、3、4、5、6进行编码表示;
[0015] 步骤3.2,初始种群选取;依据设定值对初始种群参数范围进行设置,将初始种群最优解参数范围设为[0,6],并在设定范围内随机生成规模为100的初始种群;
[0016] 步骤3.3,适应度函数选取;适应度函数通过对个体特征的判断从而判断个体的适应度,通过个体的适应度作为评价PID参数的好坏标准,将系统的动态偏差、超调量和调整时间性能指标作为目标函数,从而将基于适应度函数描述为:
[0017]
[0018] 式中,u(t)是控制器输出,tu是系统响应时间,ω1、ω2、ω3为加权常数;
[0019] 步骤3.4,选择遗传算子;轮盘赌选择法是利用整体种群中个体适应度值与整体适应度值的比例,来确定被选择的概率,公式如下:
[0020]
[0021] 其中,Pi是个体i被遗传选择的概率,fj是所有个体叠加的整体适应度值,fi是个体i的适应度值;
[0022] 步骤3.5,交叉和变异操作;遗传算法通过交叉操作将两个互相配对的个体按照某种方式相互交换部分基因,将交叉概率设为0.86,采用两点交叉算法,从而形成两个新的个体;同时为提高局部搜索能力,将变异概率设为0.04,采用变异运算改变个体某些基因值来产生新的个体。
[0023] 进一步,步骤4中,设计温度系统DDPG辅助控制器的过程可以表示如下:
[0024] DDPG算法通过温度控制系统获得样本数据(st,at,rt+1,st+1),其中st是在t时刻温度控制系统的温度值,at是系统在st状态下所执行的动作,rt+1是系统在状态st下执行动作at的奖励值,st+1是温度控制系统在执行动作at后的系统温度值,并将样本数据放入经验池中,再随机从经验池中采样最小批量数据进行学习、更新,最后DDPG辅助控制器的执行动作如下式:
[0025] at=μ(st|θμ)+Nt (3)
[0026] 式中,Nt是随机噪声,函数μ()为最优行为策略,θμ代表策略网络参数;DDPG辅助控制器主要用于补偿温度控制系统的温度跟踪误差,改善模糊PID主控制器的控制性能。
[0027] 本发明一种基于DDPG‑模糊PID的温度控制方法,有益效果:本发明的技术效果在于:
[0028] 1.本发明在模糊PID控制器的基础上,建立了以模糊PID为主控制器的温度调节系统,通过遗传算法筛选模糊PID的最优隶属函数和模糊规则,提高系统精度;
[0029] 2.本发明为了增加温度调节系统的自适应和抗干扰能力,设计了一种新的基于DDPG的辅助控制器,利用DDPG算法进行在线权值学习能力,对系统执行器进行辅助控制,能够自动补偿温控系统的不确定性和干扰;
[0030] 3.本发明通过主辅双控制器的联动控制,获得鲁棒的温度调控系统,对温度系统的调节鲁棒性要远优于传统温度控制系统,调节时间、延迟时间等都有明显缩短。