[0005] 本发明的目的就是针对现有技术的不足,提供一种基于困难感知的深度集成度量图像检索方法,可以充分利用图像的深度嵌入特征表示,通过感知困难程度差异化基学习器,从而构建明显提高图像检索性能的集成学习器。
[0006] 本发明方法首先获取图像数据集合,然后进行以下操作:
[0007] 步骤(1).对图像数据集合进行预处理,对图像数据进行增强操作,通过卷积神经网络模型提取图像的深度特征向量;
[0008] 步骤(2).将深度特征向量输入多个自注意力网络得到表达不同语义的特征向量后,再通过不同的基学习器得到相应的嵌入向量;
[0009] 步骤(3).训练基学习器,根据训练图像类别和嵌入向量的距离度量矩阵,按照不同困难程度进行图像样本对的排序,基学习器依据图像样本对产生的损失更新梯度直至收敛;
[0010] 步骤(4).构建由基学习器组成的集成学习器,并利用三联体损失函数微调,将待检索图像输入集成学习器,得到相似图像集合。
[0011] 进一步,步骤(1)具体方法是:
[0012] (1‑1).对图像数据集进行预处理,得到预处理后的训练数据集I,记为其中Ii为第i个图像样本,N为图像样本总数,w、h、c分别为图像宽度、高度、通道数;
[0013] (1‑2).利用大型图像库上预训练的卷积神经网络对训练数据集I中的图像样本提取深度特征向量X,记为X={xi|i=1,...,N}, 表示第i个图像样本经平均池化层后的深度特征向量。
[0014] 进一步,步骤(2)具体方法是:
[0015] (2‑1).将深度特征向量 逐一输入L个不同的自注意力网络,并计算注意力向量 将第i个图像样本对应的L个不同语义特征向量记为{xij|j=1,...,L}, 表示自注意力网络的卷积层权重参数;L为4~32的偶数;深度特征向量各元素之间的内部关系即自注意力,Wx表示深度特征向量各元素的加权关系,即可学习注意力;
[0016] (2‑2).采用全连接网络作为基学习器{fj|j=1,...,L},输入维度为2048,输出维k度为d=2 ,k=7,8,9,10;每一种不同语义的特征向量对应一个基学习器,将L个不同语义的特征向量{xij|j=1,...,L}分别输入L个基学习器,得到嵌入向量集合E={eij|j=
1,...,L},eij为第i个图像样本第j个语义特征向量对应的嵌入向量,嵌入向量的维度为d。
[0017] 进一步,步骤(3)具体方法是:
[0018] (3‑1).计算嵌入向量集合E中各元素之间的欧式距离矩阵,根据样本对的真实标记{yi|i=1,...,N}和欧式距离矩阵对样本对进行困难程度排序,并将样本对划分为L个困难程度等级,即困难程度与基学习器一一对应;
[0019] 所述的困难程度用于衡量负例样本对,其判定准则为:设A是锚点,P是正样本点,N1、N2分别是两个负样本点,通过与锚点之间的距离判定正负样本点,相对锚点A,负样本点N2比N1更难判定为负样本点,则样本对(A,N2)相比(A,N1)的困难程度更高;
[0020] (3‑2).根据三联体损失函数 计算每个困难等级的负例样本产生的损失,并用于指导其对应的基学习器训练, 不+ ‑
同类样本的间距应大于m,m为正负样本间的约束间距, x、x分别是参考样本、正例样本、+ ‑
负例样本,f、f、f分别是对应的特征向量;
[0021] (3‑3).用自适应矩估计算法进行梯度更新,迭代优化基学习器{fj|j=1,...,L},使L个基学习器分别拟合L个困难程度等级的样本对,直至基学习器收敛。
[0022] 进一步,步骤(4)具体方法是:
[0023] (4‑1).将已收敛的基学习器以线性按序方式合并为集成学习器,其输入为训练数据集的深度特征向量X;
[0024] (4‑2).根据所述三联体损失函数计算集成学习器模型的损失,通过梯度反向传播方法调整模型参数,迭代优化模型直至收敛;
[0025] (4‑3).将待检索图像作为查询集q,将训练图像作为图库集g,将查询集q和图库集g中的图像样本分别输入集成学习器,得到对应的深度嵌入表示其中Q,G分别是查询集和图库集的大小;
[0026] (4‑4) .计算查询集和图库集对应的深度嵌入表示之间的欧氏距离据此对与待检索图像相似的图库集图像进行排序,得到相似图像集合。
[0027] 本发明方法提出的基于困难感知的深度集成度量图像检索技术,不同于仅使用一组神经元作为基学习器的现有方法,而利用注意力机制使不同基学习器关注图像深度特征的不同语义层面,将全连接网络作为基学习器以弥补先前方法基学习器表达能力不足的缺陷。此外,本方法从损失函数的角度以添加强约束项的形式考虑不同困难程度的负例样本产生不同损失的情况,使得模型能生成性能更优的差异化基学习器,从而提高图像检索的准确度。
[0028] 本发明主要适合采用深度集成度量学习技术的图像检索系统,优点在于:1)基学习器具有较好表达图像特征的能力,体现在能够充分拟合图像的不同语义特征,且减轻了基学习器模型复杂所导致的计算空间开销增加的问题;2)从负例样本对的困难程度角度充分利用数据集所蕴藏的本征结构信息,训练能够适应不同困难程度的基学习器,更好地捕捉图像的不同语义特征,从而检索与待检索图像更加匹配的相似图像。本发明方法可应用于图像搜索引擎,如商品图像搜索、人脸图像检索等实际应用场景。