[0037] 图1是本发明的残差采样结构示意图(右侧)和整体框架示意图。
[0038] 图2是Mask生成及ROI特征提取示意图。
[0039] 图3是HQP结构示意图。
[0040] 具体实施细节
[0041] 下面结合附图对本发明做进一步具体说明。
[0042] 本发明基于先目标定位,再进行判别性特征提取用于分类的思想,提出了一种基于多尺度ROI特征的双二次池化(Hierarchical biQuadratic Pooling,HQP)细粒度图像分类方法(Hierarchical biQuadratic Pooling with Multi‑scale ROI features,HQPMR)。该方法在不使用标注框、部位标注等额外信息的的情况下定位目标主体,提取出ROI特征,然后通过双二次池化进行有效的特征融合,最终使用得到的特征进行分类,其步骤如下:
[0043] 步骤(1)、使用Resnet‑34网络提取图像的深度视觉特征,并基于该特征生成掩膜(Mask);将Mask与视觉特征图进行点乘,构建图像的ROI特征。
[0044] 步骤(2)、选取Resnet‑34网络中低层、中层、高层三种不同尺度的ROI特征,并利用改进的残差采样结构对多尺度特征进行维度变换,实现多尺度特征融合,从而提取多尺度ROI特征。
[0045] 步骤(3)、利用多层次双二次池化结构,同时建模同层和跨层特征间的交互,并基于池化后的特征向量构建Softmax分类器。
[0046] 步骤(4)、针对如上步骤构建端到端的网络进行训练,并利用训练好的网络对任一测试图像进行细粒度分类,输出所属类别。
[0047] 步骤(1)所述的生成Mask,构建图像的ROI特征,具体如下:
[0048] 1‑1.我们的目标是要降低背景信息对于分类的影响,对于一个卷积特征X∈Rh*w*c,我们将所有c个通道的特征进行可视化,发现大多数特征都能在图片中目标主体的位置有较强的响应值,但仍有部分特征图的高响应值在边缘背景区域,这便是影响最终分类准确率的原因之一。为了矫正特征信息,我们将卷积特征X在通道方向上加和得到:
[0049] Ax=∑kX:,:,k,其中Ax∈Rh*w。
[0050] 1‑2.然后计算Ax的均值,将该均值设定为阈值α,Ax内大于等于α的位置判定为目标主体设置值为1,低于α的位置判定能够为背景设为ξ(ξ为一个趋于0的小数),于是得到一个二值化的Mask,其生成过程如公式(1)所述:
[0051]
[0052] 1‑3.将Mask与卷积特征X做点乘,能够保留住目标主体位置的特征,抑制背景区域的特征值。判定界限的阈值α,是作为区分背景与目标主体的重要依据,当α值过大时,会将过多的区域判定为背景,造成目标特征的损失,当α过小时,无法充分的去除背景信息,因此我们在选取阈值α时,在Ax的均值上再乘上一个权重θ,θ的值被限定在[0.5,1]之间,通过交叉验证实验来选取合适的θ值。
[0053] 1‑4.我们选取了Resnet中Conv5_3、Conv4_6和Conv3_4三层的卷积特征作为图片不同层次不同尺度的信息表达,对这三层特征我们分别称之为对X、Y、Z三种卷积特征,分别用步骤1‑1
到1‑3中步骤生成对应的Mask,将三个Mask进行结合生成一个新Mask,如公式(2)所述:
[0054]
[0055] 由于Conv5_3、Conv4_6和Conv3_4三层卷积特征的尺寸为14×14×512、28×28×256、56×56×128,因此Mx、My、Mz的大小分别为14×14、28×28、56×56,Maxpool(Mx,My)代表将My下采样至Mx相同尺寸,Maxpool(Mx,Mz)代表将Mz下采样至Mx相同尺寸。
[0056] 1‑5.Mx、My、My共同决定的新Mask使得背景与目标主体的区分更加精确,然后将新Mask与卷积特征X、Y、Z结合,新Mask的尺寸为14×14,可以直接与X点乘,对于卷积特征Y和Z,需要将新Mask通过双线性插值分别放大到28×28和56×56,然后再进行结合。具体如公式(3)所示:
[0057]
[0058] 其中, 代表最终提取出的ROI特征,函数BI(P,P′)代表将P′通过双线性插值放大到P的尺寸。
[0059] 步骤(2)所述的多尺度交互中,针对各尺度ROI特征的维度差异,利用残差采样结构(Residual Sampling Structure),在改变特征维度的同时能够保留关键信息,具体如下:
[0060] 在传统计算机视觉任务中,往往采用神经网络最后一层的卷积特征作为一张图片的特征表达,但是在卷积神经网络中,高层特征包含更多的语义信息,浅层特征包含更多的细节信息,相比于传统分类任务只采用最后一层卷积特征,多层次多尺度特征的融合能够带来更加具有判别性的信息。同时为了满足步骤(3)的操作需要,我们需要将特征处理为同一维度,因此我们设计了一种残差采样结构(Residual Sampling Structure),在改变特征维度的同时能够保留更多关键的信息,甚至能够增加目标主体区域的特征值响应,其结构为:
[0061] 2‑1.利用一个k×k的池化层(Maxpool)和一个1×1的卷积层构建主线路。池化层用来改变特征图尺寸,卷积层用来改变特征的通道数量。
[0062] 2‑2.利用一个k×k的卷积层构建残差分支,用来弥补在主线路中池化层所丢失的特征信息。该分支中的卷积层与主线路中1×1卷积层具有相同的卷积核数量。
[0063] 2‑3.将主线与残差分支加和得到最终的采样网络,并利用归一化层(Batch Normalization,BN)对其ROI特征进行归一化。
[0064] 如步骤2‑1到2‑3,公式如下:
[0065]
[0066] 其中Q′∈hq×wq×cq为特征原始维度,Q∈hp×wp×cp为需要转变成的目标维度。Conv(Q′,k,s,b)代表的意思为使用b个大小为k×k的卷积核,步长设为s,在特征Q′上进行卷积操作。在 上应用残差采样结构后得到归一化的特征
[0067] 步骤(3)所述的利用多层次双二次池化结构,同时建模同层和跨层特征间的交互,具体如下:
[0068] 我们提出了HQP结构,相比传统网络直接将卷积特征展开然后连接全连接层的做法,经过HQP处理的特征更加具有判别性。首先卷积特征两两之间做内积,使得不同层次的卷积特征进行交互,然后将每个卷积特征与自身的转置做矩阵外积,使得不同位置以及不同通道之间的特征得到关联。
[0069] 利用如上生成的归一化后的多尺度ROI特征 构建如公式(5)所示的双二次池化(HQP)得到最终的分类特征向量:
[0070]
[0071] 其中 为映射矩阵(projection matrix)。由于步骤(3)中的特征我们已经使用残差采样结构处理到维度14×14×512,因此在经过HQP运算之后,每组输出的特征维度为512×512,X、Y、Z两两交互共产生三种组合,将三组得到的特征向量拼接起来得到512×512×3的特征作为当前图片的表征向量,然后再接一个全连接层进行分类,通过Softmax输出分类概率。
[0072] 步骤(4)所述的训练模型和测试,具体如下:
[0073] 我们使用CUB‑200‑2011、Stanford Cars、FGVC‑Aircraft三个数据集验证我们的方法。由于每张图片的尺寸不一致,我们首先对图片大小进行了处理。根据不同数据集中目标主体占图片比例的不同,我们分别将CUB‑200‑2011、Stanford Cars、FGVC‑Aircraft三个数据集中的图片大小调整为600×600、500×500、500×480,然后将每张图片裁剪为448×448大小作为我们的训练数据。为了使训练数据更加多样化,将裁剪出的图片以50%的概率水平翻转,然后对图片进行了归一化操作。
[0074] 依据步骤(1)、(2)和(3)中构建得到的网络在训练集上训练模型,在测试集上验证准确率。
[0075] 首先为特征提取模型Resnet加载在Imagenet数据集上的预训练参数,然后固定Resnet参数结构,只训练在Resnet之后新添加的层(步骤(2)(3)中的结构),然后再微调整个网络,最终将训练好的网络在测试集上验证获得准确率,以一幅图像作为输入,输出所属类别。
[0076] 整个网络训练使用随机梯度下降法(Stochastic Gradient Descent,SGD)进行优化,使用交叉熵损失作为损失函数(Cross Entropy Loss)。
[0077] 如图1中框架示意图所示,首先将一张图片输入进网络,提取了经过Resnet后低层、中层、高层三种不同尺度的卷积特征。
[0078] 然后经过ROI Feature Generation步骤,使用图2中的结构生成Mask,将Mask与原来的卷积特征结合,抑制背景区域的特征,保留住目标主体区域的特征,得到我们所需要的ROI特征。
[0079] 然后经过Multi‑scale Interaction步骤,对多尺度特征进行处理,我们将之前选取的Resnet中低层、中层、高层三种不同尺度的特征输入残差采样结构,将三种特征处理为同一维度,这种结构使得在改变特征维度的时候,不仅能够有效保留住原先的特征信息,甚至能够增强关键区域特征的响应。残差采样结构如图1右侧所示。
[0080] 最后经过Biquadratic Pooling结构对特征进行融合,首先卷积特征两两之间做内积,使得不同层次的卷积特征进行交互,然后将每个卷积特征与自身的转置做矩阵外积,使得不同位置以及不同通道之间的特征得到关联。将得到的特征向量拼接起来,后面接一个全连接层进行分类,通过Softmax输出分类概率。
[0081] 表1展示的为本发明在三个数据集上得到的最终准确率。
[0082]
[0083] 表1