首页 > 专利 > 杭州电子科技大学 > 一种结合深度Q学习的机器人路径学习与避障系统及方法专利详情

一种结合深度Q学习的机器人路径学习与避障系统及方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2021-06-10

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2021-10-12

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-05-06

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2041-06-10

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202110648635.2	申请日	2021-06-10
公开/公告号	CN113419524B	公开/公告日	2022-05-06
授权日	2022-05-06	预估到期日	2041-06-10
申请年	2021年	公开/公告年	2022年
缴费截止日
分类号	G05D1/02	主分类号	G05D1/02
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	5
权利要求数量	6	非专利引证数量	0
引用专利数量	0	被引证专利数量	0
非专利引证
引用专利		被引证专利
专利权维持	1	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	颜成钢、裘健鋆、路荣丰、孙垚棋、张继勇、李宗鹏	第一发明人	颜成钢
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	6
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明公开了一种结合深度Q学习的机器人路径学习与避障系统及方法。本发明包括动作模块、学习模块和障碍物避险模块。在路径规划期间，动作模块会从学习模块和障碍物避险模块接收指令，并让机器人根据指令完成指定动作。学习模块根据机器人当前状态和动作的历史数据序列，训练动作选择策略。障碍物避险模块执行随机树搜索算法，以指导机器人从危险情况避险得到安全路径。每个模块在执行后，环境中机器人的当前状态都将发生变化。通过安排机制评估每个模块的风险并确定应激活风险最小的模块。本发明使用Q学习算法解决了大容量数据存储的问题。提高了机器人在避开障碍物时的效率问题。

摘要附图
说明书附图：图1
说明书附图：图2

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-05-06	授权
2	2021-10-12	实质审查的生效	IPC(主分类): G05D 1/02 专利申请号: 202110648635.2 申请日: 2021.06.10
3	2021-09-21	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种结合深度Q学习的机器人路径学习与避障系统，其特征在于包括动作模块、学习模块和障碍物避险模块；在路径规划期间，动作模块会从学习模块和障碍物避险模块接收指令，并让机器人根据指令完成指定动作；学习模块根据机器人当前状态和动作的历史数据序列，训练动作选择策略；障碍物避险模块执行随机树搜索算法，以指导机器人从危险情况避险得到安全路径；
每个模块在执行后，环境中机器人的当前状态都将发生变化；然后通过安排机制评估每个模块的风险并确定应激活风险最小的模块；即机器人是否应该摆脱当前的困境或更新从历史数据序列动作的结果中学到的行动策略；
所述的当前状态包括机器人当前所在位置坐标；
该系统的实现具体包括如下步骤：
步骤1、初始化机器人参数，机器人上设置有动作模块、学习模块和障碍物避险模块，同时还设置有距离传感器；
距离传感器用于检测当前机器人与最近障碍物的距离，并实时将该距离发送给学习模块，学习模块通过判断当前距离决定是否进入障碍物避险模块；
步骤2、基于Q学习构建机器人路径学习与避障的历史数据序列；
2‑
1.使用神经网络来计算Q学习，具体：
定义St为在时间t时机器人的状态，at为在时间t时执行的动作；令x(t)＝(St,at)是时间t处的状态动作对；然后路径规划中将时间从0到t的历史数据序列用Dh表示:
Dh＝(x(1),x(2),...,x(t)) (1)
NN
令NN作为Q学习策略中采用的神经网络；且NN是具有两层的BP网络；Q 是基于历史数据NN
序列学习得到的Q值矩阵；通过历史数据训练NN，并作为Q值函数Q 进行，即：
NN
Q :A→R (2)
其中A表示当前所有可能动作的集合，R表示集合A中每个可能动作对应的偏好值的集合；
S S
定义A为在当前状态S能够访问的一组动作，即：任何动作a∈A都是可供选择的候选对象；令qa成为当前状态S处NN评估的偏好值；然后，选择采用玻尔兹曼分布，如下所示：
在式(3)中，p(a|S)是机器人处于状态S并选择动作a作为下一个动作的概率；如果动作a对应的qa值较高，则的值也较高，并且a的选择概率较高；T是虚拟温度因子，用于表示动作选择中的随机程度；
历史数据序列Dh用作训练样本；对于Dh中的每个样本x(t)为其分配标签，通过标签指示该样本是正面的还是负面的；对于状态S，定义为状态S与目标之间的距离，为状态S和最近障碍物之间的距离；假设奖励值r＝(S,a)表示在状态S下选择动作a获得的奖励。

2.根据权利要求1所述的一种结合深度Q学习的机器人路径学习与避障系统，其特征在于
如果奖励值r是正的，则的值应该低于且的值应该低于具体地，标签表如下所示：
S′是当前状态S在选择动作后达到的下一个状态；对于和考虑和
来检查是否一个动作可以引导一个更为安全的路径；对设置一个阈值Td0，因为如果机器人和障碍物之间保持足够的距离则以不用考虑障碍物；
对于和考虑和来检查是否一个动作能够引导一个更为安全
的路径；因为如果机器人接近目标，应该更注意的值，因此我们也需要对设置阈值Tdt；
将状态从S到S′的变化进行分类，设置奖励机制：r＝ki×ri；在该奖励机制中，ri是能够选择的单位奖励{r1,r2,r1′,r2′}；ki是依赖于和Tdt之间关系的提升因子，在不同的条件下，能够选自{k1,k2,k3,k4}；此外，如果的值低于撞击阈值Tdhit，机器人通过其动作不能避免达到障碍，因此为r设置负值‑2。

3.根据权利要求2所述的一种结合深度Q学习的机器人路径学习与避障系统，其特征在于在每个操作之后，将更新该组历史数据序列，并且重新培训NN。

4.根据权利要求2所述的一种结合深度Q学习的机器人路径学习与避障系统，其特征在于利用快速随机树算法，以防止机器人选择可能导致击打墙壁的动作；当机器人获得状态S时，能够得到机器人与障碍物之间的距离将阈值Th设置为大于机器人撞击阈值Tdhit；当小于等于Th时，机器人进入障碍物避险模块，模块中的障碍物避险策略发挥重要作用；当时，机器人退出障碍物避险模块，其中p是机器人的步长。

5.根据权利要求4所述的一种结合深度Q学习的机器人路径学习与避障系统，其特征在于机器人进入障碍物避险模块，障碍物避险策略实现如下：
假设状态S被描述为一个节点的机器人位置S(x,y)，机器人在初始节点S0始遵循障碍物避险策略；然后，机器人任意选择在状态空间中随机产生的位置状态Srand；选择之后，该障碍物避险策略将沿着Srand方向探索步长为p的节点S1，从而得到下一状态S1；重复步骤能够得到S1,S2,...,Sk，从而形成局部状态随机树；直到第k个树节点满足停止条件：执行障碍物避险策略才会停止并退出；最终机器人获得路径S0→Sk，这能够帮助机器人从障碍物中逃脱并更接近目标；在这条道路上，机器人停留在Sk上，继续通过学习网络探索道路。

6.根据权利要求2或5所述的一种结合深度Q学习的机器人路径学习与避障系统，其特征在于机器人根据每个动作的偏好值选择下一阶段选择最终动作；最直接的方法是选择具有最高优先级值的操作，即选择对应偏好值高的动作作为下一阶段选择最终动作。

说明书

技术领域

[0001] 本发明属于机器人控制领域，具体涉及一种结合深度Q学习的机器人路径学习与避障方法。

背景技术

[0002] 对于类似于救援，采矿等机器人应用来说，移动机器人探索未知环境是一个非常普遍的问题。通常，借助视觉或深度传感器的信息，机器人需要有关障碍物和环境拓扑图的复杂逻辑。但是，这些传统方法没有高级的类似于人脑的智能。本发明开发了一种机器学习的方法，供机器人使用原始传感器输入探索未知环境。

[0003] 迄今为止，关于机器人路径规划的研究已经广泛开展，有关建模和求解方法的文献也很多。与实现威胁信息有关的研究可以分为两类：基于事先完整的环境信息的静态路径规划和实时路径规划研究。与完整的环境信息相比，实时方法假设威胁环境是部分或完全未知的，它具有更多的实际意义并引起了越来越多的关注。如何利用不完整的信息对动态环境做出反应是机器人实时路径规划中的关键问题。许多研究人员提出了各种人工智能(AI)方法，例如遗传算法和粒子群算法。通过建立动态模型，减少计算量和其他方法，他们用AI方法解决了一些实时路径规划问题。但是，人工智能方法无法解决潜在的问题。因为机器人要想准确地对实时环境做出反应，就必须开发一个动态，复杂且庞大的模型，而这需要很长时间才能获得结果。因此，准确与实时之间存在矛盾。

[0004] 由于不可能在未知环境中获得所有信息，也无法预测机器人可能遇到的所有事物，因此使用确定性AI方法来实现路径规划过程的最佳控制是不可行的。尽管某些自学习方法可以在某种程度上克服缺少先验知识的问题，但是由于任务场景的各种属性，它可能会遭受过度学习所引起的问题。相比之下，较少的环境知识可能会减慢学习速度，并导致机器人陷入局部最优状态。此外，对于大多数学习方法而言，必须有一个庞大的矩阵来保存计算值。

发明内容

[0005] 针对现有技术中存在的不足，本发明提供一种结合深度Q学习的机器人路径学习与避障系统及方法。

[0006] 本发明系统(即ARE框架)包括动作模块、学习模块和障碍物避险模块。在路径规划期间，动作模块会从学习模块和障碍物避险模块接收指令，并让机器人根据指令完成指定动作。学习模块根据机器人当前状态和动作的历史数据序列，训练动作选择策略。障碍物避险模块执行随机树搜索算法，以指导机器人从危险情况避险得到安全路径。

[0007] 每个模块在执行后，环境中机器人的当前状态都将发生变化。然后通过安排机制评估每个模块的风险并确定应激活风险最小的模块。即机器人是否应该摆脱当前的困境或更新从历史数据序列动作的结果中学到的行动策略。

[0008] 所述的当前状态包括机器人当前所在位置坐标

[0009] 一种结合深度Q学习的机器人路径学习与避障的方法，具体包括如下步骤：

[0010] 步骤1、初始化机器人参数，机器人上设置有动作模块、学习模块和障碍物避险模块，同时还设置有距离传感器；

[0011] 距离传感器用于检测当前机器人与最近障碍物的距离，并实时将该距离发送给学习模块，学习模块通过判断当前距离决定是否进入障碍物避险模块。

[0012] 步骤2、基于Q学习构建机器人路径学习与避障的历史数据序列。

[0013] 2‑1.使用神经网络(图2中的Neural Network部分)来计算Q‑value。用神经网络替代传统的基于马尔可夫的评估，从而通过位于不同级别的几个参数来保存机器人对当前环境的了解，减少机器人所需内存。此外，根据神经网络的机制，可以考虑不同状态的连接来形成连续图，从而达到预期的良好学习效果。

[0014] 定义St为在时间t时机器人的状态，at为在时间t时执行的动作。令x(t)＝(St，at)是时间t处的状态动作对。然后路径规划中将时间从0到t的历史数据序列用列Dh表示，Dh＝(x(1)，x(2)，...，x(t))。

[0015] 令NN作为Q学习策略中采用的神经网络。且NN是具有两层的BP网络。QNN是基于历史NN数据序列学习得到的Q值矩阵。通过历史数据训练NN，并作为Q值函数Q 进行，即：

[0016] QNN：A→R

[0017] 其中A表示当前所有可能动作的集合，R表示集合A中每个可能动作对应的偏好值的集合。

[0018] 机器人根据每个动作的偏好值选择下一阶段选择最终动作。最直接的方法是选择具有最高优先级值的操作，即选择对应偏好值高的动作作为下一阶段选择最终动作。

[0019] 定义As为在当前状态S能够访问的一组动作，即：任何动作a∈As都是可供选择的候选对象。令qa成为当前状态S处NN评估的偏好值。然后，选择采用玻尔兹曼分布，如下所示：

[0020]

[0021] 在上式中，p(a|S)是机器人处于状态S并选择动作a作为下一个动作的概率。如果动作a对应的qa值较高，则的值也较高，并且a的选择概率较高。T是虚拟温度因子，用于表示动作选择中的随机程度。在路径规划的开始，支持数据不足以进行Q学习，并且存在很大程度的不确定性。因此，应将T设置为一个很高的值，以保持数据的多样性。当历史数据变得足够多时，T的值应减小以强调学习结果。此外，当机器人接近障碍物时，合理的做法是减小T值以及每一步的长度，因为当前的学习结果可能不准确。

[0022] 路径规划中的学习过程是一种自我学习。也就是说，机器人首先不了解环境，应该收集支持学习过程的示例数据，只要路径规划就会收集。如上所述，历史数据Dh用作训练样本。对于Dh中的每个样本x(t)，我们为其分配标签，通过标签指示该样本是正面的还是负面的。对于状态S，定义为状态S与目标之间的距离，为状态S和最近障碍物之间的距离。假设奖励值r＝(S，a)表示在状态S下选择动作a获得的奖励。

[0023] S’是当前状态S在选择动作后达到的下一个状态。在本发明中，如果奖励值r是正的，则的值应该低于且的值应该低于具体地，标签表如下所示：

[0024]

[0025] 对于和我们考虑和来检查是否一个动作可以引导一个更为安全的路径。对设置一个阈值Td0，因为如果机器人和障碍物之间保持足够的距离则可以不用考虑障碍物。

[0026] 对于和我们考虑和来检查是否一个动作可以引导一个更为安全的路径。因为如果机器人接近目标，应该更注意的值，因此我们也需要对设置阈值Tdt。

[0027] 通过将状态从S到S’的变化进行分类，设置奖励机制：r＝ki×ri。在该公式中，ri是可以选择的单位奖励：{r1，r2，r1’，r2’}；ki是依赖于和Tdt之间关系的提升因子，在不同的条件下，能够选自{k1，k2，k3，k4}。此外，如果的值低于撞击阈值Tdhit，机器人通过其动作不能避免达到障碍。我们为r设置负值‑2。

[0028] 在每个操作之后，将更新该组历史数据，并且重新培训NN。

[0029] (2)障碍物避险策略

[0030] 在机器人移动和障碍物避险时，存在两个主要问题，不可以仅通过联网Q学习算法解决：一个是因为动作选择概率，机器人可能选择的一个动作将会撞击到障碍物；另一个是当机器人陷入局部最佳陷阱时，不可能通过环境奖励来探索避险路径。

[0031] 为了解决上述问题，本发明介绍了障碍物避险策略。首先，更改玻尔兹曼分布，例如提高温度参数T，这可以增加动作选择策略的随机性。因此，它将具有更大的可能性使机器人避开障碍物。其次，减少算法的步长，其功能就像“制动器”一样。最后，我们利用了快速随机树(RRT)算法的想法，以防止机器人选择可能导致击打墙壁的动作。因此，障碍物避险策略可以保护机器人撞击障碍物。

[0032] 当机器人获得状态S时，能够得到机器人与障碍物之间的距离将阈值Th设置为大于机器人撞击阈值Tdhit。当小于等于Th时，机器人进入障碍物避险模块，模块中的障碍物避险策略发挥重要作用。当时，机器人退出障碍物避险模块(p是机器人的步长)。

[0033] 机器人进入障碍物避险模块，障碍物避险策略实现如下：

[0034] 假设状态S被描述为一个节点的机器人位置S(x，y)。机器人在初始节点S0开始遵循障碍物避险策略。然后，机器人任意选择在状态空间中随机产生的位置状态Srand。选择之后，该障碍物避险策略将沿着Srand方向探索步长为p的节点S1。从而得到下一状态S1。重复上述步骤，能够得到S2，S3，...，Sk，从而形成局部状态随机树。直到第k个树节点满足停止条件：执行障碍物避险策略才会停止并退出。最终，机器人获得路径S0→Sk，这能够帮助机器人从障碍物中逃脱并更接近目标。在这条道路上，机器人停留在Sk上，继续通过学习网络探索道路。

[0035] 本发明有益效果如下：

[0036] 1.Q学习算法解决了大容量数据存储的问题。

[0037] 2.自适应和随机探索方法(ARE)解决了机器人路径规划任务中的收敛问题。

[0038] 3.提高了机器人在避开障碍物时的效率问题。

[0039] 4.启发式搜索策略改进了Q学习，从而导致动作搜索空间更小，从而减少了搜索时间并减少了冗余选择。

实施方案

[0042] 以下结合附图与实施例对本发明技术方案进行进一步描述。

[0043] 本发明提出了一种结合深度Q学习的机器人路径学习与避障系统及方法。通常采用蒙特卡洛树方法来处理局部最优问题，从而帮助机器人逃脱障碍物。有一个成功的例子，来自Google的AI机器人Alpha Go使用深度神经网络对当前游戏状态进行总体评估，并使用蒙特卡洛树方法完成严格的计算任务。类似于Go，对于机器人路径规划的任务，机器人需要对当前对抗环境进行整体启发，以形成合理的行动方向，并且在障碍物等极端情况下，还需要一种收敛策略来形成精确的路径。

[0044] 在本发明中，我们提出了自适应和随机探索方法(ARE)来解决机器人路径规划任务中的上述问题。ARE的基本思想是让机器人探索环境本身并根据当前评估采取行动。此外，只要靠近障碍物，就会采用随机机制将其校正为安全路径。我们的方法在自学习和收敛随机搜索的自适应机制之间取得了平衡，因此主观机器人既可以找到一般方向，又可以避免因学习错误而陷入困境。

[0045] 一种结合深度Q学习的机器人路径学习与避障系统，其特征在于包括动作模块、学习模块和障碍物避险模块；在路径规划期间，动作模块会从学习模块和障碍物避险模块接收指令，并让机器人根据指令完成指定动作；学习模块根据机器人当前状态和动作的历史数据序列，训练动作选择策略；障碍物避险模块执行随机树搜索算法，以指导机器人从危险情况避险得到安全路径。

[0046] 传统的Q学习描述离散空间中的状态‑动作对，并且Q‑value函数可以视为当前状态‑动作对的索引到下一个动作索引的映射。路径规划的状态空间是连续的。一种直接的方法是离散化连续状态数据。但是，在没有离散化粒度的初步知识的情况下，状态可能会在反映实际环境时具有较大的误差，如果我们要确保精度，可能会导致路径质量下降和矩阵的大规模计算。因此，我们使用神经网络NN(图2中的Neural Network部分)来计算Q‑value。神经网络代替了传统的基于马尔可夫的评估，而是通过位于不同级别的几个参数来保存机器人对环境的当前了解，这需要更少的内存。此外，根据神经网络的机制，可以考虑不同状态的连接来形成连续图，这可以达到预期的良好学习效果。

[0047] 所述的神经网络NN包括一个输入层，两个状态空间，一个隐藏层以及一个输出层：所述的状态空间包括当前状态St及动作索引集。当前状态包含机器人位置，距离目标和障碍物的距离。所述的隐藏层带十五个神经元，所述的输出层具有九个神经元，用于当前状态的九种动作选择的Q值矩阵。在每个学习过程中，当输入当前状态站动作索引集时，在神经网络计算之后能够获得与每个潜在动作相对应的预测Q值。

[0048] 定义St为在时间t时机器人的状态，at为在时间t时执行的动作；令x(t)＝(St,at)是时间t处的状态动作对；然后路径规划中将时间从0到t的历史数据序列用Dh表示:

[0049] Dh＝(x(1),x(2),...,x(t)) (1)

[0050] 令NN作为Q学习策略中采用的神经网络；且NN是具有两层的BP网络；QNN是基于历史NN数据序列学习得到的Q值矩阵；通过历史数据训练NN，并作为Q值函数Q 进行，即：

[0051] QNN:A→R (2)

[0052] 其中A表示当前所有可能动作的集合，R表示集合A中每个可能动作对应的偏好值的集合；

[0053] 定义As为在当前状态S能够访问的一组动作，即：任何动作a∈As都是可供选择的候选对象；令qa成为当前状态S处NN评估的偏好值；然后，选择采用玻尔兹曼分布，如下所示：

[0054]

[0055] 在式(3)中，p(a|S)是机器人处于状态S并选择动作a作为下一个动作的概率；如果动作a对应的qa值较高，则的值也较高，并且a的选择概率较高；T是虚拟温度因子，用于表示动作选择中的随机程度；

[0056] 历史数据序列Dh用作训练样本；对于Dh中的每个样本x(t)为其分配标签，通过标签指示该样本是正面的还是负面的；对于状态S，定义为状态S与目标之间的距离，为状态S和最近障碍物之间的距离；假设奖励值r＝(S,a)表示在状态S下选择动作a获得的奖励。

[0057] 即r＝(S,a)和S′是通过在S的情况下进行的状态达到的状态，如果实现了S的下一个状态。当r为正时，则的值应该低于且的值应该低于具体地，标签表如下所示：

[0058]

[0059]

[0060] S′是当前状态S在选择动作后达到的下一个状态；对于和考虑和来检查是否一个动作可以引导一个更为安全的路径；对设置一个阈值Td0，因为如果机器人和障碍物之间保持足够的距离则以不用考虑障碍物；

[0061] 对于和考虑和来检查是否一个动作能够引导一个更为安全的路径；因为如果机器人接近目标，应该更注意的值，因此我们也需要对设置阈值Tdt；

[0062] 将状态从S到S′的变化进行分类，设置奖励机制：r＝ki×ri；在该奖励机制中，ri是能够选择的单位奖励{r1,r2,r1′,r2′}；ki是依赖于和Tdt之间关系的提升因子，在不同的条件下，能够选自{k1,k2,k3,k4}；此外，如果的值低于撞击阈值Tdhit，机器人通过其动作不能避免达到障碍，因此为r设置负值‑2。

[0063] 进一步的，所述的障碍物避险模块采用障碍物避险策略的学习：首先，更改玻尔兹曼分布，以更大可能性逃离陷阱；其次，减少算法步长；最后，利用快速随机树算法，防止机器人选择可能击打墙壁的动作。

[0064] 在机器人移动和障碍物避险时，存在两个主要问题，不可以仅通过联网Q学习算法解决：一个是因为动作选择概率，机器人可能选择的一个动作将会撞击到障碍物；另一个是当机器人陷入局部最佳陷阱时，不可能通过环境奖励来探索避险路径。

[0065] 为了解决上述问题，本发明介绍了障碍物避险策略。首先，更改玻尔兹曼分布，例如提高温度参数T(表述不清)，这可以增加动作选择策略的随机性。因此，它将具有更大的可能性使机器人避开障碍物。其次，减少算法的步长，其功能就像“制动器”一样。最后，利用快速随机树(RRT)算法，以防止机器人选择可能导致击打墙壁的动作。

[0066] 当机器人获得当前状态S时，得到当前机器人与障碍物之间的距离将阈值Th设置为大于机器人达到阈值Tdhit。当小于Th时，通过障碍物避险策略控制机器人进行避障动作。当时(p是机器人的步长)，障碍物避险策略停止并退出。所述的障碍物避险策略，具体方法如下如下：

[0067] 假设状态S被描述为一个节点的机器人位置S(x,y)，机器人在初始节点S0始遵循障碍物避险策略；然后，机器人任意选择在状态空间中随机产生的位置状态Srand；选择之后，该障碍物避险策略将沿着Srand方向探索步长为p的节点S1，从而得到下一状态S1；重复步骤能够得到S1,S2,...,Sk，从而形成局部状态随机树；直到第k个树节点满足停止条件：执行障碍物避险策略才会停止并退出；最终机器人获得路径S0→Sk，这能够帮助机器人从障碍物中逃脱并更接近目标；在这条道路上，机器人停留在Sk上，继续通过学习网络探索道路。

[0068] 进一步的，障碍物避险模型与其他模型不同，因为它不会在每个学习过程中调用，直到它进入障碍物。

[0069] 进一步的，本发明采取行动并观察奖励，以及新状态使用观察到的奖励和下一个状态可能的最大奖励更新该状态的Q值神经网络。

[0070] 在机器人执行动作之后，环境将反馈奖励以衡量最后一个操作是否合适。在到达目标对象的路上，机器人应该保持一定的距离障碍物。

附图说明

[0040] 图1为ARE方法的框架图：

[0041] 图2为本发明方法实施例整体流程图：

1一种结合深度Q学习的机器人路径学习与避障系统及方法