首页 > 专利 > 金陵科技学院 > 一种基于DDPG-模糊PID的温度控制方法专利详情

一种基于DDPG-模糊PID的温度控制方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2021-02-24

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2021-07-02

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-11-23

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2041-02-24

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202110206340.X	申请日	2021-02-24
公开/公告号	CN112947627B	公开/公告日	2021-11-23
授权日	2021-11-23	预估到期日	2041-02-24
申请年	2021年	公开/公告年	2021年
缴费截止日
分类号	G05D23/20	主分类号	G05D23/20
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	0
权利要求数量	1	非专利引证数量	1
引用专利数量	2	被引证专利数量	0
非专利引证	1、2019.06.20Junru Yang.Longitudinal TrackingControl of Vehicle Platooning Using DDPG-based PID《.2020 4th CAA InternationalConference on Vehicular Control andIntelligence (CVCI)》.2020,全文. 张旋武.基于强化学习的无人船路径跟随控制《.中国优秀博硕士学位论文全文数据库(硕士)》.2020,全文.;
引用专利	US2007260346A、US2019187631A	被引证专利
专利权维持	1	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	金陵科技学院	第一申请人	金陵科技学院
专利权人	金陵科技学院	当前专利权人	金陵科技学院
发明人	吴敏、王晓璐、姜玉东、钟磊、莫飞杨	第一发明人	吴敏
地址	江苏省南京市江宁区弘景大道99号	邮编	210000
申请人数量	1	发明人数量	5
申请人所在省	江苏省	申请人所在市	江苏省南京市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

南京众联专利代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

蒋昱

摘要

一种基于DDPG‑模糊PID的温度控制方法，该方法包括以下步骤：步骤1，获取温度控制系统实验数据；步骤2，设计温度系统模糊PID主控制器；步骤3，遗传算法优化模糊PID参数；步骤4，设计温度系统DDPG辅助控制器；步骤5，主辅双控制器的联动控制，获得具有鲁棒性的温度调控系统。针对传统温度控制系统控温时间长、误差大的问题，本发明首先，通过遗传算法解决了模糊PID的隶属函数和模糊规则难以确定的优化问题，提高了模糊PID的控制性能和精度；其次，提出了一种以模糊PID作为主控制器、DDPG作为辅助控制器的控制方法，该控制器可以减少噪声干扰，增强系统的适应性和鲁棒性，有利于提高系统的控制精度。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-11-23	授权
2	2021-07-02	实质审查的生效	IPC(主分类): G05D 23/20 专利申请号: 202110206340.X 申请日: 2021.02.24
3	2021-06-11	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于DDPG‑模糊PID的温度控制方法，具体步骤如下，其特征在于：
步骤1，获取温度控制系统实验数据：通过温度传感器检测系统温度，并记录执行器输出和指令信号；
步骤2，设计温度系统模糊PID主控制器：将模糊PID控制器作为主控制器控制执行器的动作，完成对系统温度设定值的跟踪；
步骤2中设计温度系统模糊PID主控制器的过程表示为：
温度控制系统将温度设定值与温度回采值分别设置为二维输入包括系统温度给定值与测量反馈值的偏差e(t)，偏差信号变化率ec(t)和三维输出包括比例系数kp、积分系数ki、微分系数kd，系统通过监测和ec(t)的值对模糊PID控制器参数进行实时修改，进而优化其控制性能；在温度控制系统中，偏差信号e(t)通过传感器回采当前温度值与目标设定值的运算得到，再把偏差信号e(t)与偏差信号变化率ec(t)进行模糊化，得到相对应的模糊量，然后按照模糊规则经过推理得出模糊控制量，最终为了对被控对象进行精确的控制而进行清晰化处理得到kp、ki和kd；
步骤3，遗传算法优化模糊PID参数：采用遗传算法对模糊PID的隶属函数和模糊规则进行优化，提高温度系统的控制性能；
步骤3中遗传算法优化模糊PID参数的过程表示如下：
遗传算法是一种基于自然选择原理和遗传机制的迭代式自适应最优求解算法，可提高温度系统的控制性能，基于遗传算法的PID参数整定步骤如下所示：
步骤3.1，模糊域编码；温度偏差e(t)的实际范围到达‑100℃～100摄氏度，因此，其论域定为[‑100,100]，由于温度变化缓慢，温度偏差变化率的基本论域为[‑2,2],经参数整定分析输出量kp、ki、kd实际论域设为为[‑1,1]、[‑0.02，0.02]、[‑0.3，0.3]；输入、输出的模糊论域均设为[‑6,‑5,‑4,‑3,2,‑1,0,1,2,3,4,5,6]；系统设定负大NB、负中NM、负NS、零ZO、正小PS、正中PM、正大PB的7个语言变量值，并用0、1、2、3、4、5、6进行编码表示；
步骤3.2，初始种群选取；依据设定值对初始种群参数范围进行设置，将初始种群最优解参数范围设为[0，6]，并在设定范围内随机生成规模为100的初始种群；
步骤3.3，适应度函数选取；适应度函数通过对个体特征的判断从而判断个体的适应度，通过个体的适应度作为评价PID参数的好坏标准，将系统的动态偏差、超调量和调整时间性能指标作为目标函数，从而将基于适应度函数描述为：
式中，u(t)是控制器输出，tu是系统响应时间，ω1、ω2、ω3为加权常数；
步骤3.4，选择遗传算子；轮盘赌选择法是利用整体种群中个体适应度值与整体适应度值的比例，来确定被选择的概率，公式如下：
其中，Pi是个体i被遗传选择的概率，fj是所有个体叠加的整体适应度值，fi是个体i的适应度值；
步骤3.5，交叉和变异操作；遗传算法通过交叉操作将两个互相配对的个体按照某种方式相互交换部分基因，将交叉概率设为0.86，采用两点交叉算法，从而形成两个新的个体；
同时为提高局部搜索能力，将变异概率设为0.04，采用变异运算改变个体某些基因值来产生新的个体；
步骤4，设计温度系统DDPG辅助控制器：DDPG辅助控制器通过检测温度控制系统的温度值、执行动作的奖励值和执行动作后的系统温度值，实现对温度系统的辅助控制；
步骤4中，设计温度系统DDPG辅助控制器的过程表示如下：
DDPG算法通过温度控制系统获得样本数据(st,at,rt+1,st+1)，其中st是在t时刻温度控制系统的温度值，at是系统在st状态下所执行的动作，rt+1是系统在状态st下执行动作at的奖励值，st+1是温度控制系统在执行动作at后的系统温度值，并将样本数据放入经验池中，再随机从经验池中采样最小批量数据进行学习、更新，最后DDPG辅助控制器的执行动作如下式：
μ
at＝μ(st|θ)+Nt (3)
μ
式中，Nt是随机噪声，函数μ()为最优行为策略，θ代表策略网络参数；DDPG辅助控制器用于补偿温度控制系统的温度跟踪误差，改善模糊PID主控制器的控制性能；
步骤5，主辅双控制器的联动控制，获得具有鲁棒性的温度调控系统，并将其嵌入上位机中进行实际应用。

说明书

技术领域

[0001] 本发明涉及温度控制领域，特别是涉及一种基于DDPG‑模糊PID的温度控制方法。

背景技术

[0002] 随着科学技术发展，温度控制被广泛应用于各技术领域，而实施集中供暖、合理利用资源、提高能源利用效率、减少环境污染，是加快城市现代化的有效措施和重要途径。集中供热已成为中国北方冬季供暖的主要形式，并得到越来越广泛的使用，它使用热网连接大量的热用户，通过均匀的热源提供必要的热量。在供热系统中，温度调节系统是一个大滞后、时变、非线性的复杂系统，传统的PID控制已无法满足控制要求。

[0003] 为了更好地解决系统的控制问题，模糊PID将模糊控制与经典PID调节器相结合，同时具有了模糊控制的灵活性和适应性，提高了系统的控制精度。然而当控制系统中存在剧烈频繁干扰以及大滞后时，模糊PID系统很难对温度进行精确控制。针对此问题，本发明设计了一种基于DDPG‑模糊PID的温度控制方法，对模糊PID控制系统引入了基于DDPG的辅助控制器，利用DDPG算法进行在线权值学习能力，对系统执行器进行辅助控制，实现自动补偿温控系统的不确定性干扰，通过主辅双控制器的联动控制，获得具有鲁棒性的温度调控系统。

发明内容

[0004] 为解决上述问题，本发明提出了一种基于DDPG‑模糊PID的温度控制方法。通过模糊PID控制算法提高了温度系统的控制精度，进一步的通过遗传算法解决了模糊PID的隶属函数和模糊规则难以确定的优化问题，最后提出了一种以模糊PID作为主控制器、DDPG作为辅助控制器的控制方法，该控制器可以减少噪声干扰，增强系统的适应性和鲁棒性，有利于提高系统的控制精度。为达此目的，本发明提供一种基于DDPG‑模糊PID的温度控制方法，具体步骤如下，其特征在于：

[0005] 步骤1，获取温度控制系统实验数据：通过温度传感器检测系统温度，并记录执行器输出和指令信号；

[0006] 步骤2，设计温度系统模糊PID主控制器：将模糊PID控制器作为主控制器控制执行器的动作，完成对系统温度设定值的跟踪；

[0007] 步骤3，遗传算法优化模糊PID参数：采用遗传算法对模糊PID的隶属函数和模糊规则进行优化，提高温度系统的控制性能；

[0008] 步骤4，设计温度系统DDPG辅助控制器：DDPG辅助控制器通过检测温度控制系统的温度值、执行动作的奖励值和执行动作后的系统温度值，实现对温度系统的辅助控制；

[0009] 步骤5，主辅双控制器的联动控制，获得具有鲁棒性的温度调控系统，并将其嵌入上位机中进行实际应用。

[0010] 进一步，步骤2中设计温度系统模糊PID主控制器的过程表示为：

[0011] 温度控制系统将温度设定值与温度回采值分别设置为二维输入包括系统温度给定值与测量反馈值的偏差e(t)，偏差信号变化率ec(t)和三维输出包括比例系数kp、积分系数ki、微分系数kd，系统通过监测和ec(t)的值对模糊PID控制器参数进行实时修改，进而优化其控制性能；在温度控制系统中，偏差信号e(t)通过传感器回采当前温度值与目标设定值的运算得到，再把偏差信号e(t)与偏差信号变化率ec(t)进行模糊化，得到相对应的模糊量，然后按照模糊规则经过推理得出模糊控制量，最终为了对被控对象进行精确的控制而进行清晰化处理得到kp、ki和kd。

[0012] 进一步，步骤3中遗传算法优化模糊PID参数的过程可以表示如下：

[0013] 遗传算法是一种基于自然选择原理和遗传机制的迭代式自适应最优求解算法，可提高温度系统的控制性能，基于遗传算法的PID参数整定步骤如下所示：

[0014] 步骤3.1，模糊域编码；温度偏差e(t)的实际范围可能到达‑100℃～100摄氏度，因此，其论域定为[‑100,100]，由于温度变化缓慢，温度偏差变化率的基本论域大致为[‑2,2],经参数整定分析输出量kp、ki、kd实际论域设为为[‑1,1]、[‑0.02，0.02]、[‑0.3，0.3]；输入、输出的模糊论域均设为[‑6,‑5,‑4,‑3,2,‑1,0,1,2,3,4,5,6]；系统设定负大NB、负中NM、负NS、零ZO、正小PS、正中PM、正大PB的7个语言变量值，并用0、1、2、3、4、5、6进行编码表示；

[0015] 步骤3.2，初始种群选取；依据设定值对初始种群参数范围进行设置，将初始种群最优解参数范围设为[0，6]，并在设定范围内随机生成规模为100的初始种群；

[0016] 步骤3.3，适应度函数选取；适应度函数通过对个体特征的判断从而判断个体的适应度，通过个体的适应度作为评价PID参数的好坏标准，将系统的动态偏差、超调量和调整时间性能指标作为目标函数，从而将基于适应度函数描述为：

[0017]

[0018] 式中，u(t)是控制器输出，tu是系统响应时间，ω1、ω2、ω3为加权常数；

[0019] 步骤3.4，选择遗传算子；轮盘赌选择法是利用整体种群中个体适应度值与整体适应度值的比例，来确定被选择的概率，公式如下：

[0020]

[0021] 其中，Pi是个体i被遗传选择的概率，fj是所有个体叠加的整体适应度值，fi是个体i的适应度值；

[0022] 步骤3.5，交叉和变异操作；遗传算法通过交叉操作将两个互相配对的个体按照某种方式相互交换部分基因，将交叉概率设为0.86，采用两点交叉算法，从而形成两个新的个体；同时为提高局部搜索能力，将变异概率设为0.04，采用变异运算改变个体某些基因值来产生新的个体。

[0023] 进一步，步骤4中，设计温度系统DDPG辅助控制器的过程可以表示如下：

[0024] DDPG算法通过温度控制系统获得样本数据(st,at,rt+1,st+1)，其中st是在t时刻温度控制系统的温度值，at是系统在st状态下所执行的动作，rt+1是系统在状态st下执行动作at的奖励值，st+1是温度控制系统在执行动作at后的系统温度值，并将样本数据放入经验池中，再随机从经验池中采样最小批量数据进行学习、更新，最后DDPG辅助控制器的执行动作如下式：

[0025] at＝μ(st|θμ)+Nt (3)

[0026] 式中，Nt是随机噪声，函数μ()为最优行为策略，θμ代表策略网络参数；DDPG辅助控制器主要用于补偿温度控制系统的温度跟踪误差，改善模糊PID主控制器的控制性能。

[0027] 本发明一种基于DDPG‑模糊PID的温度控制方法，有益效果：本发明的技术效果在于：

[0028] 1.本发明在模糊PID控制器的基础上，建立了以模糊PID为主控制器的温度调节系统，通过遗传算法筛选模糊PID的最优隶属函数和模糊规则，提高系统精度；

[0029] 2.本发明为了增加温度调节系统的自适应和抗干扰能力，设计了一种新的基于DDPG的辅助控制器，利用DDPG算法进行在线权值学习能力，对系统执行器进行辅助控制，能够自动补偿温控系统的不确定性和干扰；

[0030] 3.本发明通过主辅双控制器的联动控制，获得鲁棒的温度调控系统，对温度系统的调节鲁棒性要远优于传统温度控制系统，调节时间、延迟时间等都有明显缩短。

实施方案

[0035] 下面结合附图与具体实施方式对本发明作进一步详细描述：

[0036] 本发明提出了一种基于DDPG‑模糊PID的温度控制方法，旨在获得鲁棒的温度调控系统，减小系统调节时间、延迟时间。图1为本发明的控制结构图。下面结控制结构图对本发明的步骤作详细介绍。

[0037] 步骤1，获取温度控制系统实验数据：通过温度传感器检测系统温度，并记录执行器输出和指令信号；

[0038] 步骤2，设计温度系统模糊PID主控制器：将模糊PID控制器作为主控制器控制执行器的动作，完成对系统温度设定值的跟踪；

[0039] 步骤2中设计温度系统模糊PID主控制器的过程可以表示为：

[0040] 温度控制系统将温度设定值与温度回采值分别设置为二维输入(系统温度给定值与测量反馈值的偏差e(t)，偏差信号变化率ec(t)，和三维输出(比例系数kp、积分系数ki、微分系数kd)，系统通过监测和ec(t)的值对模糊PID控制器参数进行实时修改，进而优化其控制性能；在温度控制系统中，偏差信号e(t)通过传感器回采当前温度值与目标设定值的运算得到，再把偏差信号e(t)与偏差信号变化率ec(t)进行模糊化，得到相对应的模糊量，然后按照模糊规则经过推理得出模糊控制量，最终为了对被控对象进行精确的控制而进行清晰化处理得到kp、ki和kd。

[0041] 步骤3，遗传算法优化模糊PID参数：采用遗传算法对模糊PID的隶属函数和模糊规则进行优化，提高温度系统的控制性能；

[0042] 步骤3中遗传算法优化模糊PID参数的过程可以表示如下：

[0043] 遗传算法是一种基于自然选择原理和遗传机制的迭代式自适应最优求解算法，可提高温度系统的控制性能，基于遗传算法的PID参数整定步骤如下所示：

[0044] 步骤3.1，模糊域编码；温度偏差e(t)的实际范围可能到达‑100℃～100摄氏度，因此，其论域定为[‑100,100]，由于温度变化缓慢，温度偏差变化率的基本论域大致为[‑2,2],经参数整定分析输出量kp、ki、kd实际论域设为为[‑1,1]、[‑0.02，0.02]、[‑0.3，0.3]；输入、输出的模糊论域均设为[‑6,‑5,‑4,‑3,2,‑1,0,1,2,3,4,5,6]；系统设定负大NB、负中NM、负NS、零ZO、正小PS、正中PM、正大PB的7个语言变量值，并用0、1、2、3、4、5、6进行编码表示；

[0045] 步骤3.2，初始种群选取；依据设定值对初始种群参数范围进行设置，将初始种群最优解参数范围设为[0，6]，并在设定范围内随机生成规模为100的初始种群；

[0046] 步骤3.3，适应度函数选取；适应度函数通过对个体特征的判断从而判断个体的适应度，通过个体的适应度作为评价PID参数的好坏标准，本文将系统的动态偏差、超调量和调整时间性能指标作为目标函数，从而将基于适应度函数描述为：

[0047]

[0048] 式中，u(t)是控制器输出，tu是系统响应时间，ω1、ω2、ω3为加权常数；

[0049] 步骤3.4，选择遗传算子；轮盘赌选择法是利用整体种群中个体适应度值与整体适应度值的比例，来确定被选择的概率，公式如下：

[0050]

[0051] 其中，Pi是个体i被遗传选择的概率，fj是所有个体叠加的整体适应度值，fi是个体i的适应度值；

[0052] 步骤3.5，交叉和变异操作；遗传算法通过交叉操作将两个互相配对的个体按照某种方式相互交换部分基因，本发明将交叉概率设为0.86，采用两点交叉算法，从而形成两个新的个体；同时为提高局部搜索能力，将变异概率设为0.04，采用变异运算改变个体某些基因值来产生新的个体。

[0053] 本发明将遗传算法的迭代次数设为100次，经过100次的迭代计算后可得kp、ki、kd的模糊控制规则及其隶属函数分别如表1至表3所示和图2所示。

[0054] 表1遗传算法优化后的kp规则库

[0055]

[0056] 表2遗传算法优化后的ki规则库

[0057]

[0058] 表3遗传算法优化后的kd规则库

[0059]

[0060] 步骤4，设计温度系统DDPG辅助控制器：DDPG辅助控制器通过检测温度控制系统的温度值、执行动作的奖励值和执行动作后的系统温度值，实现对温度系统的辅助控制；

[0061] 步骤4中，设计温度系统DDPG辅助控制器的过程可以表示如下：

[0062] DDPG算法通过温度控制系统获得样本数据(st,at,rt+1,st+1)，其中st是在t时刻温度控制系统的温度值，at是系统在st状态下所执行的动作，rt+1是系统在状态st下执行动作at的奖励值，st+1是温度控制系统在执行动作at后的系统温度值，并将样本数据放入经验池中，再随机从经验池中采样最小批量数据进行学习、更新，最后DDPG辅助控制器的执行动作如下式：

[0063] at＝μ(st|θμ)+Nt (3)

[0064] 式中，Nt是随机噪声，函数μ()为最优行为策略，θμ代表策略网络参数；DDPG辅助控制器主要用于补偿温度控制系统的温度跟踪误差，改善模糊PID主控制器的控制性能，DDPG网络的参数如表4所示。

[0065] 表4 DDPG辅助控制器的参数设置

[0066]

[0067] 步骤5，主辅双控制器的联动控制，获得具有鲁棒性的温度调控系统，并将其嵌入上位机中进行实际应用。

[0068] 在同等条件下同时对比传统PID控制系统、模糊PID控制系统和所提方法的基于DDPG模糊自整定控制系统的响应曲线，结果如图3和图4所示

[0069] 以上所述，仅是本发明的较佳实施例而已，并非是对本发明作任何其他形式的限制，而依据本发明的技术实质所作的任何修改或等同变化，仍属于本发明所要求保护的范围。

附图说明

[0031] 图1为本发明的控制结构图；

[0032] 图2为本发明的遗传算法优化后的隶属函数；

[0033] 图3为本发明的目标温度为30℃时三种模型算法动态响应曲线；

[0034] 图4位本发明的白噪声干扰下目标温度为30℃时三种模型算法动态响应曲线。

1一种泡池外温度控制系统 2一种电力柜用温度控制器 3温度采集与控制分离式注塑机数字化远传温度测控系统 4印染车间空气温度控制方法 5一种养殖舍温湿度控制装置 6一种基于ARM的温度采集控制系统和控制方法 7一种制冷设备的温度调控装置 8一种反应釜温度混合控制方法 9一种微波炉温度控制的智能插座 10一种分数阶模型预测控制的加热炉温度控制方法