首页 > 专利 > 杭州电子科技大学 > 基于注意力地图的目标检测方法专利详情

基于注意力地图的目标检测方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2018-02-05
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2018-10-09
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2020-05-15
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2038-02-05
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201810110564.9 申请日 2018-02-05
公开/公告号 CN108509949B 公开/公告日 2020-05-15
授权日 2020-05-15 预估到期日 2038-02-05
申请年 2018年 公开/公告年 2020年
缴费截止日
分类号 G06K9/32G06N3/04G06N3/08 主分类号 G06K9/32
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 4
权利要求数量 5 非专利引证数量 1
引用专利数量 5 被引证专利数量 0
非专利引证 1、Jiaming Zhang et al..Top-down NeuralAttention by Excitation Backprop. 《European Conference on Computer VisionECCV 2016》.2016,;
引用专利 CN106250812A、CN107291945A、CN103455990A、US2007258649A1、WO2017155660A1 被引证专利
专利权维持 4 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 郭春生、李慧娟、陈华华、应娜 第一发明人 郭春生
地址 浙江省杭州市经济技术开发区白杨街道2号大街1158号 邮编 310018
申请人数量 1 发明人数量 4
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
浙江千克知识产权代理有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
周希良、李欣玮
摘要
本发明公开了一种基于注意力地图的目标检测方法。本发明将自上而下的注意力引入当前主流的目标检测框架中,生成了可反映输入图像上各区域与待检测目标相关性的注意力地图,并基于生成的注意力地图对原先的候选框融合方案进行了优化,将自顶向下以及自底向上的信息结合进候选框的融合中,优化了目标检测的性能。本发明是一种更有效更接近生物视觉机制的目标检测方法。
  • 摘要附图
    基于注意力地图的目标检测方法
  • 说明书附图:图1
    基于注意力地图的目标检测方法
  • 说明书附图:图2
    基于注意力地图的目标检测方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2020-05-15 授权
2 2018-10-09 实质审查的生效 IPC(主分类): G06K 9/32 专利申请号: 201810110564.9 申请日: 2018.02.05
3 2018-09-07 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.基于注意力地图的目标检测方法,其特征在于,该方法的具体步骤是:
步骤一:输入任意尺寸的测试图像,输入图像被送入预训练的Faster R-CNN模型,并自底向上逐层提取从底层到高层的特征,从而建立从底层特征到高层语义的映射,高层特征通过底层特征构建,并在最后的输出层上得到关于输入图像的初始检测结果;
步骤二:初始检测结果中的目标类别信息被作为顶层驱动信号以驱动自顶向下的反馈传播;
步骤三:形成注意力信号的表述公式;
步骤四:注意力信号在不同神经层上进行反馈传播;
步骤五:将每个候选框内各点边缘获胜概率密度的累加值结合前景评分作为候选框的新排序参数,用于提升目标检测的精确度,即将自底向上和自顶向下的信息融合用于候选框的排序。

2.如权利要求1所述基于注意力地图的目标检测方法,其特征在于,步骤三具体如下:
在Faster R-CNN的输出端上,顶层驱动信号被送入额外添加的SoftMax层用于归一化初始识别结果;后在Faster R-CNN的输出端,输出识别结果的全连接层为oc,则其对偶全连接层为 其权值与oc相反,令w+表示识别结果输出层的权值,P1为对应的转移矩阵,P0表示顶层的先验信号,P2和P3分别表示Faster R-CNN中Fast R-CNN模块中两个全连接层的边缘获胜概率矩阵,则输入到RoI Pooling层的注意力信号的公式表述为:

3.如权利要求2所述基于注意力地图的目标检测方法,其特征在于,步骤四具体如下:
1)在ReLU层中,自上而下的注意力信号在通过此层前后保持不变,假设父结点的先验概率为pi,则子结点的边缘获胜概率pj为pj=pi;
2)在Max Pooling层中,自上而下的注意力信号在通过此层前后保持不变;
3)在卷积层和全连接层中,所述卷积层和全连接层对底层神经元响应执行了一个仿射变换:
其中, Pj是aj的父结点集,Ci是ai的子结点集; 是一个
归一化因子, 为正权值, 为输入;
神经层中所有pj表示成如下矩阵形式:
其中,Pn-1和Pn分别表示顶层神经元和底层神经元的边缘获胜概率密度,且是一个d1×d2的权重矩阵,表示层与层之间的兴奋性连接权重,d1为底层神经元的个数,d2为顶层神经元的个数,An是底层神经元的响应值,⊙和 分别表示元素的点乘和点除。

4.如权利要求3所述基于注意力地图的目标检测方法,其特征在于,步骤五具体如下:
注意力地图上各点的值表示当前点关于待检测目标的边缘获胜概率密度,因此,候选框内的各点的叠加值表示候选区域为待检测目标的概率值,即与待检测目标的相关度;当生成的注意力地图C是一个m×n的二维矩阵,单个候选框B的对角坐标为{(x1,y1),(x2,y2)},其中(x1,y1)表示B的左上点坐标,(x2,y2)表示B的右下点坐标,F是B的前景评分,则B对应的排序参数为:
注意力地图的尺寸与输入图像相同,w1和w2分别表示自顶向下和自底向上信息的影响因子,且两个影响因子满足:w1+w2=1。

5.如权利要求1-4任一项所述基于注意力地图的目标检测方法,其特征在于,在步骤五后,进行步骤六:选择出的候选框将会结合共享卷积层上的特征地图再次被逐个送入FRCN网络进行识别同时对每个候选框的边界进行微调。
说明书

技术领域

[0001] 本发明属于目标检测的技术领域,具体涉及一种基于注意力地图的目标检测方法。

背景技术

[0002] 目标检测是计算机视觉领域最具挑战性的问题,而且也是很多计算机视觉应用的第一步。得益于卷积神经网络及候选区域算法的发展,目标检测的性能在过去几年已经取得了突飞猛进的进展。在实际的人类视觉检测中,人类往往倾向于根据特定的目标来处理视野中的场景,感知学对这种人类的视觉行为给出了解释,人类视觉皮层在收到自上而下的激励后会得到性能的提升,且不相关的神经元会被抑制,而在主流的目标检测框架中,如Faster R-CNN,其只有一次自底向上的目标检测流程,这与生物视觉的目标检测流程并不一致。且NMS作为后处理步骤,其排序参数无法有效捕捉候选框内区域与待检测目标的关联度,这限制了目标检测的精确度。

发明内容

[0003] 本发明的目的是针对现有技术的不足,提出一种基于注意力地图的目标检测方法。
[0004] 本发明是一种更有效更接近生物视觉机制的目标检测方法。针对主流的单次前向目标检测流程无法有效结合高层语义和底层特征从而限制目标检测性能的问题,本发明将原Faster R-CNN检测流程扩增为结合了自底向上和自顶向下信息的目标检测流程,有助于提升目标检测的性能。本发明通过将自上而下的注意力引入目标检测网络,生成了输入图像上关于高层语义的注意力地图。在具体的候选框融合优化方案中,结合生成的注意力地图以及前景评分设计了一种新型 NMS排序参数,可以有效反映每个候选框与待检测目标的相关度,使得目标相关候选框被保留的同时非相关候选框也得以被抑制,从而提升了目标检测的精确度。
[0005] 该方法的具体思路:本发明将自上而下的注意力引入当前主流的目标检测框架中,生成了可反映输入图像上各区域与待检测目标相关性的注意力地图,并基于生成的注意力地图对原先的候选框融合方案进行了优化,将自顶向下以及自底向上的信息结合进候选框的融合中,优化了目标检测的性能。
[0006] 本发明采取以下技术方案:
[0007] 基于注意力地图的目标检测方法,根据注意力地图上各感兴趣区域与待检测目标的相关度对初始的检测结果进行融合,其具体实现步骤如下:
[0008] 步骤1:读入任意尺寸的输入图像,并送入预训练的Faster R-CNN 模型,自底向上逐层地提取从底层到高层的特征,从而建立从底层到高层语义的映射,在该层次中,高层特征通过底层特征构建,并在最后的输出层上得到关于输入图像的初始检测结果。
[0009] 步骤2:将顶层回归出的分类概率分布作为顶层驱动信号,从而驱动自顶向下的注意力信号的反向传播(即初始检测结果中的目标类别信息被作为顶层驱动信号以驱动自顶向下的反馈传播;所述目标类别信息代表了感兴趣区域在各个待检测类别上的概率分布,隐性地反映了每个感兴趣区域内目标地结构信息。)。这个顶层信号是感兴趣区域在各个待检测类别上的概率分布。
[0010] 步骤3:Faster R-CNN的输出端上,object with class全连接层的识别结果被送入SoftMax层用于归一化FRCN的识别结果。然后,为了进一步提升注意力地图的分辨力,本发明在Faster R-CNN中又进一步引入了对比注意力,因此,在Faster R-CNN的输出端,object with class(oc)全连接层的对偶全连接层被构建,记为 ,其权值与oc层相反,由于oc层输出了对应感兴趣区域在各个待检测类别上的概率分布,所以,若oc层对应的概率分布是A,则它的对偶层对应的就是非 A,从A的MWP地图上减去非A的MWP地图可以消除目标和非目标之间的共同获胜神经元,从而提高注意力地图的分辨力。令w+表示object with class层的权值,P1为对应的转移矩阵由下式确定:
[0011]
[0012] 是一个归一化因子,ωji为权值, 为输入。
[0013] P0表示顶层的先验信号,P2和P3分别表示FRCN模块中两个fc层的MWP矩阵,则输入到RoI Pooling层的注意力信号的公式表述为:
[0014]
[0015] 步骤4:注意力的自上而下传播通常结合随机反馈连接来将高层语义映射近似为误差反向传播中的误差导数,因此,与误差梯度类似,注意力信号在不同神经层上具有不同的传输特性。i)在ReLU层中,由于每个ReLU神经元只有一个子结点,因此,自上而下的注意力信号在通过此层前后保持不变,假设父结点的先验概率为pi,则子结点的边缘获胜概率pj为pj=pi。ii)在Max Pooling层中,由于每个 patch中的最大值神经元只有一个子结点,因此,自上而下的注意力信号在通过此层前后保持不变。iii)在卷积层和全连接层中,由于每个父结点都有多个子结点,因此,这两层对底层神经元响应执行了一个仿射变换,如下式:
[0016]
[0017] 这里, Pj是aj的父结点集,Ci是ai的子结点集, 是一个归一化因子, 为正权值, 为输入。神经层中所有pj可以表示成如下矩阵形式:
[0018]
[0019] 这里,Pn-1和Pn分别表示顶层神经元和底层神经元的边缘获胜概率密度,且是一个d1×d2的权重矩阵,表示层与层之间的兴奋性连接权重。d1(d2)等于底层(顶层)神经元的个数。An是底层神经元的响应值。⊙和 分别表示元素的点乘和点除。
[0020] 步骤5:考虑到注意力地图可以有效反映输入图像上各区域与待检测目标的相关性,以及为了充分利用检测网络的信息,本发明提出将每个候选框内各点边缘获胜概率密度的累加值结合前景评分作为候选框的新排序参数,用于提升目标检测的精确度,即将自底向上和自顶向下的信息结合起来用于候选框的融合。
[0021] 由上可知,注意力地图上各点的值表示当前点关于待检测目标的边缘获胜概率密度,因此,候选框内的各点的叠加值表示候选区域为待检测目标的概率值,即与待检测目标的相关度。假设生成的注意力地图C是一个m×n的二维矩阵,单个候选框B的对角坐标为 {(x1,y1),(x2,y2)},其中(x1,y1)表示B的左上点坐标,(x2,y2)表示B的右下点坐标,F是B的前景评分,则B对应的排序参数为:
[0022]
[0023] 这里,注意力地图的尺寸与输入图像相同,w1和w2分别表示自顶向下和自底向上信息的影响因子,且这两个影响因子满足:w1+w2=1。这种排序参数充分利用了网络中自底向上和自顶向下的信息,有效反映了候选区域与待检测目标的关联度,有助于提升目标检测的精确度。
[0024] 步骤6:选择出来的候选框将会结合共享卷积层上的特征地图再次被逐个送入FRCN网络进行识别同时对每个候选框的边界进行微调。
[0025] 本发明将自上而下的注意力引入当前主流的目标检测框架中,生成了可反映输入图像上各区域与待检测目标相关性的注意力地图,并基于生成的注意力地图对原先的候选框融合方案进行了优化,将自顶向下以及自底向上的信息结合进候选框的融合中,优化了目标检测的性能。

实施方案

[0028] 以下具体实施例是对本发明提供的方法与技术方案的进一步说明,但不应理解成对本发明的限制。
[0029] 本实施例基于注意力地图的目标检测方法,具体步骤如下:
[0030] 步骤1:读入任意尺寸的输入图像,并送入预训练的Faster R-CNN 模型,自底向上逐层地提取从底层到高层的特征,从而建立从底层到高层语义的映射,在该层次中,高层特征通过底层特征构建,并在最后的输出层上得到关于输入图像的初始检测结果。
[0031] 步骤2:将顶层回归出的分类概率分布作为顶层驱动信号,从而驱动自顶向下的注意力信号的反向传播(即初始检测结果中的目标类别信息被作为顶层驱动信号以驱动自顶向下的反馈传播;所述目标类别信息代表了感兴趣区域在各个待检测类别上的概率分布,隐性地反映了每个感兴趣区域内目标地结构信息。)。这个顶层信号是感兴趣区域在各个待检测类别上的概率分布。
[0032] 步骤3:Faster R-CNN的输出端上,object with class全连接层的识别结果被送入SoftMax层用于归一化FRCN的识别结果。然后,为了进一步提升注意力地图的分辨力,本发明在Faster R-CNN中又进一步引入了对比注意力,因此,在Faster R-CNN的输出端,object with class(oc)全连接层的对偶全连接层被构建,记为 ,其权值与oc层相反,由于oc层输出了对应感兴趣区域在各个待检测类别上的概率分布,所以,若oc层对应的概率分布是A,则它的对偶层对应的就是非 A,从A的MWP地图上减去非A的MWP地图可以消除目标和非目标之间的共同获胜神经元,从而提高注意力地图的分辨力。令w+表示object with class层的权值,P1为对应的转移矩阵由下式确定:
[0033]
[0034] 是一个归一化因子,ωji为权值, 为输入。
[0035] P0表示顶层的先验信号,P2和P3分别表示FRCN模块中两个fc层的MWP矩阵,则输入到RoI Pooling层的注意力信号的公式表述为:
[0036]
[0037] 步骤4:注意力的自上而下传播通常结合随机反馈连接来将高层语义映射近似为误差反向传播中的误差导数,因此,与误差梯度类似,注意力信号在不同神经层上具有不同的传输特性。i)在ReLU层中,由于每个ReLU神经元只有一个子结点,因此,自上而下的注意力信号在通过此层前后保持不变,假设父结点的先验概率为pi,则子结点的边缘获胜概率pj为pj=pi。ii)在Max Pooling层中,由于每个 patch中的最大值神经元只有一个子结点,因此,自上而下的注意力信号在通过此层前后保持不变。iii)在卷积层和全连接层中,由于每个父结点都有多个子结点,因此,这两层对底层神经元响应执行了一个仿射变换,如下式:
[0038]
[0039] 这里, Pj是aj的父结点集,Ci是ai的子结点集, 是一个归一化因子, 为正权值, 为输入。神经层中所有pj可以表示成如下矩阵形式:
[0040]
[0041] 这里,Pn-1和Pn分别表示顶层神经元和底层神经元的边缘获胜概率密度,且是一个d1×d2的权重矩阵,表示层与层之间的兴奋性连接权重。d1(d2)等于底层(顶层)神经元的个数。An是底层神经元的响应值。⊙和 分别表示元素的点乘和点除。
[0042] 步骤5:考虑到注意力地图可以有效反映输入图像上各区域与待检测目标的相关性,以及为了充分利用检测网络的信息,本发明提出将每个候选框内各点边缘获胜概率密度的累加值结合前景评分作为候选框的新排序参数,用于提升目标检测的精确度,即将自底向上和自顶向下的信息结合起来用于候选框的融合。
[0043] 由上可知,注意力地图上各点的值表示当前点关于待检测目标的边缘获胜概率密度,因此,候选框内的各点的叠加值表示候选区域为待检测目标的概率值,即与待检测目标的相关度。假设生成的注意力地图C是一个m×n的二维矩阵,单个候选框B的对角坐标为 {(x1,y1),(x2,y2)},其中(x1,y1)表示B的左上点坐标,(x2,y2)表示B的右下点坐标,F是B的前景评分,则B对应的排序参数为:
[0044]
[0045] 这里,注意力地图的尺寸与输入图像相同,w1和w2分别表示自顶向下和自底向上信息的影响因子,且这两个影响因子满足:w1+w2=1。这种排序参数充分利用了网络中自底向上和自顶向下的信息,有效反映了候选区域与待检测目标的关联度,有助于提升目标检测的精确度。
[0046] 步骤6:选择出来的候选框将会结合共享卷积层上的特征地图再次被逐个送入FRCN网络进行识别同时对每个候选框的边界进行微调。以上实施例的说明只是用于帮助理解本发明方法及其核心思想。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以对本发明进行若干改进和修饰,这些改进和修饰也落入本发明权利要求保护范围内。

附图说明

[0026] 图1为本发明的流程图。
[0027] 图2为具体的候选框融合优化方案。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号