[0003] 本发明的目的是针对现有技术的不足,提出一种基于注意力地图的目标检测方法。
[0004] 本发明是一种更有效更接近生物视觉机制的目标检测方法。针对主流的单次前向目标检测流程无法有效结合高层语义和底层特征从而限制目标检测性能的问题,本发明将原Faster R-CNN检测流程扩增为结合了自底向上和自顶向下信息的目标检测流程,有助于提升目标检测的性能。本发明通过将自上而下的注意力引入目标检测网络,生成了输入图像上关于高层语义的注意力地图。在具体的候选框融合优化方案中,结合生成的注意力地图以及前景评分设计了一种新型 NMS排序参数,可以有效反映每个候选框与待检测目标的相关度,使得目标相关候选框被保留的同时非相关候选框也得以被抑制,从而提升了目标检测的精确度。
[0005] 该方法的具体思路:本发明将自上而下的注意力引入当前主流的目标检测框架中,生成了可反映输入图像上各区域与待检测目标相关性的注意力地图,并基于生成的注意力地图对原先的候选框融合方案进行了优化,将自顶向下以及自底向上的信息结合进候选框的融合中,优化了目标检测的性能。
[0006] 本发明采取以下技术方案:
[0007] 基于注意力地图的目标检测方法,根据注意力地图上各感兴趣区域与待检测目标的相关度对初始的检测结果进行融合,其具体实现步骤如下:
[0008] 步骤1:读入任意尺寸的输入图像,并送入预训练的Faster R-CNN 模型,自底向上逐层地提取从底层到高层的特征,从而建立从底层到高层语义的映射,在该层次中,高层特征通过底层特征构建,并在最后的输出层上得到关于输入图像的初始检测结果。
[0009] 步骤2:将顶层回归出的分类概率分布作为顶层驱动信号,从而驱动自顶向下的注意力信号的反向传播(即初始检测结果中的目标类别信息被作为顶层驱动信号以驱动自顶向下的反馈传播;所述目标类别信息代表了感兴趣区域在各个待检测类别上的概率分布,隐性地反映了每个感兴趣区域内目标地结构信息。)。这个顶层信号是感兴趣区域在各个待检测类别上的概率分布。
[0010] 步骤3:Faster R-CNN的输出端上,object with class全连接层的识别结果被送入SoftMax层用于归一化FRCN的识别结果。然后,为了进一步提升注意力地图的分辨力,本发明在Faster R-CNN中又进一步引入了对比注意力,因此,在Faster R-CNN的输出端,object with class(oc)全连接层的对偶全连接层被构建,记为 ,其权值与oc层相反,由于oc层输出了对应感兴趣区域在各个待检测类别上的概率分布,所以,若oc层对应的概率分布是A,则它的对偶层对应的就是非 A,从A的MWP地图上减去非A的MWP地图可以消除目标和非目标之间的共同获胜神经元,从而提高注意力地图的分辨力。令w+表示object with class层的权值,P1为对应的转移矩阵由下式确定:
[0011]
[0012] 是一个归一化因子,ωji为权值, 为输入。
[0013] P0表示顶层的先验信号,P2和P3分别表示FRCN模块中两个fc层的MWP矩阵,则输入到RoI Pooling层的注意力信号的公式表述为:
[0014]
[0015] 步骤4:注意力的自上而下传播通常结合随机反馈连接来将高层语义映射近似为误差反向传播中的误差导数,因此,与误差梯度类似,注意力信号在不同神经层上具有不同的传输特性。i)在ReLU层中,由于每个ReLU神经元只有一个子结点,因此,自上而下的注意力信号在通过此层前后保持不变,假设父结点的先验概率为pi,则子结点的边缘获胜概率pj为pj=pi。ii)在Max Pooling层中,由于每个 patch中的最大值神经元只有一个子结点,因此,自上而下的注意力信号在通过此层前后保持不变。iii)在卷积层和全连接层中,由于每个父结点都有多个子结点,因此,这两层对底层神经元响应执行了一个仿射变换,如下式:
[0016]
[0017] 这里, Pj是aj的父结点集,Ci是ai的子结点集, 是一个归一化因子, 为正权值, 为输入。神经层中所有pj可以表示成如下矩阵形式:
[0018]
[0019] 这里,Pn-1和Pn分别表示顶层神经元和底层神经元的边缘获胜概率密度,且是一个d1×d2的权重矩阵,表示层与层之间的兴奋性连接权重。d1(d2)等于底层(顶层)神经元的个数。An是底层神经元的响应值。⊙和 分别表示元素的点乘和点除。
[0020] 步骤5:考虑到注意力地图可以有效反映输入图像上各区域与待检测目标的相关性,以及为了充分利用检测网络的信息,本发明提出将每个候选框内各点边缘获胜概率密度的累加值结合前景评分作为候选框的新排序参数,用于提升目标检测的精确度,即将自底向上和自顶向下的信息结合起来用于候选框的融合。
[0021] 由上可知,注意力地图上各点的值表示当前点关于待检测目标的边缘获胜概率密度,因此,候选框内的各点的叠加值表示候选区域为待检测目标的概率值,即与待检测目标的相关度。假设生成的注意力地图C是一个m×n的二维矩阵,单个候选框B的对角坐标为 {(x1,y1),(x2,y2)},其中(x1,y1)表示B的左上点坐标,(x2,y2)表示B的右下点坐标,F是B的前景评分,则B对应的排序参数为:
[0022]
[0023] 这里,注意力地图的尺寸与输入图像相同,w1和w2分别表示自顶向下和自底向上信息的影响因子,且这两个影响因子满足:w1+w2=1。这种排序参数充分利用了网络中自底向上和自顶向下的信息,有效反映了候选区域与待检测目标的关联度,有助于提升目标检测的精确度。
[0024] 步骤6:选择出来的候选框将会结合共享卷积层上的特征地图再次被逐个送入FRCN网络进行识别同时对每个候选框的边界进行微调。
[0025] 本发明将自上而下的注意力引入当前主流的目标检测框架中,生成了可反映输入图像上各区域与待检测目标相关性的注意力地图,并基于生成的注意力地图对原先的候选框融合方案进行了优化,将自顶向下以及自底向上的信息结合进候选框的融合中,优化了目标检测的性能。