首页 > 专利 > 杭州电子科技大学 > 一种基于困难感知的深度集成度量图像检索方法专利详情

一种基于困难感知的深度集成度量图像检索方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2020-03-30

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2020-09-01

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-04-20

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2040-03-30

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202010239731.7	申请日	2020-03-30
公开/公告号	CN111506760B	公开/公告日	2021-04-20
授权日	2021-04-20	预估到期日	2040-03-30
申请年	2020年	公开/公告年	2021年
缴费截止日
分类号	G06F16/583 、G06N20/20 、G06N3/04 、G06N3/08	主分类号	G06F16/583
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	4
权利要求数量	5	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2008.10.30黄传波.基于视觉感知和相关反馈机制的图像检索算法研究《.万方数据》.2011,Zheng Wenzhao etal..Hardness-AwareDeep Metric Learning《.IEEE transactionson pattern analysis and machineintelligence》.2020,;
引用专利	US2008270478A	被引证专利
专利权维持	2	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	李平、赵国潘、徐向华	第一发明人	李平
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	3
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

杨舟涛

摘要

本发明公开了一种基于困难感知的深度集成度量图像检索方法。本发明方法首先预处理图像数据并通过卷积神经网络提取深度特征向量，将这些向量输入多个注意力网络得到表达不同语义的特征向量后，再通过不同的基学习器得到相应嵌入向量；然后，训练基学习器并按照图像样本对的困难程度不同进行排序，依据图像样本对产生的损失更新梯度直至收敛；最后，构建由基学习器组成的集成学习器并微调，将待检索的图像输入集成学习器可得到相似图像集合。本发明方法利用注意力机制使不同基学习器关注图像深度特征的不同语义层面，并考虑不同困难程度的负例样本产生不同损失的情况，使得模型能生成性能更优的差异化基学习器，从而提高图像检索方法的性能。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-04-20	授权
2	2020-09-01	实质审查的生效	IPC(主分类): G06F 16/583 专利申请号: 202010239731.7 申请日: 2020.03.30
3	2020-08-07	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于困难感知的深度集成度量图像检索方法，其特征在于，该方法首先获取图像数据集合，然后进行以下操作：
步骤(1).对图像数据集合进行预处理，对图像数据进行增强操作，通过卷积神经网络模型提取图像的深度特征向量；
步骤(2).将深度特征向量输入多个自注意力网络得到表达不同语义的特征向量后，再通过不同的基学习器得到相应的嵌入向量；
步骤(3).训练基学习器，根据训练图像类别和嵌入向量的距离度量矩阵，按照不同困难程度进行图像样本对的排序，基学习器依据图像样本对产生的损失更新梯度直至收敛；
步骤(4).构建由基学习器组成的集成学习器，并利用三联体损失函数微调，将待检索图像输入集成学习器，得到相似图像集合。

2.如权利要求1所述的一种基于困难感知的深度集成度量图像检索方法，其特征在于，步骤(1)的具体方法是：
(1‑1) .对图像数据集进行预处理，得到预处理后的训练数据集I，记为其中Ii为第i个图像样本，N为图像样本总数，w、h、c分别为图像
宽度、高度、通道数；
(1‑2).利用大型图像库上预训练的卷积神经网络对训练数据集I中的图像样本提取深度特征向量X，记为X＝{xi|i＝1,...,N}，表示第i个图像样本经平均池化层后的深度特征向量。

3.如权利要求2所述的一种基于困难感知的深度集成度量图像检索方法，其特征在于，步骤(2)的具体方法是：
(2‑1).将深度特征向量逐一输入L个不同的自注意力网络，并计算注意力向量将第i个图像样本对应的L个不同语义特征向量记为{xij|j＝1,...,
L}，表示自注意力网络的卷积层权重参数；L为4～32的偶数；深度特征向量各元素之间的内部关系即自注意力，Wx表示深度特征向量各元素的加权关系，即可学习注意力；
(2‑2).采用全连接网络作为基学习器{fj|j＝1,...,L}，输入维度为2048，输出维度为dk
＝2 ，k＝7,8,9,10；每一种不同语义的特征向量对应一个基学习器，将L个不同语义的特征向量{xij|j＝1,...,L}分别输入L个基学习器，得到嵌入向量集合E＝{eij|j＝1,...,L}，eij为第i个图像样本第j个语义特征向量对应的嵌入向量，嵌入向量的维度为d。

4.如权利要求3所述的一种基于困难感知的深度集成度量图像检索方法，其特征在于，步骤(3)的具体方法是：
(3‑1).计算嵌入向量集合E中各元素之间的欧式距离矩阵，根据样本对的真实标记{yi|i＝1,...,N}和欧式距离矩阵对样本对进行困难程度排序，并将样本对划分为L个困难程度等级，即困难程度与基学习器一一对应；
所述的困难程度用于衡量负例样本对，其判定准则为：设A是锚点，P是正样本点，N1、N2分别是两个负样本点，通过与锚点之间的距离判定正负样本点，相对锚点A，负样本点N2比N1更难判定为负样本点，则样本对(A,N2)相比(A,N1)的困难程度更高；
(3‑2).根据三联体损失函数计算每个困难等级的负例样本产生的损失，并用于指导其对应的基学习器训练，不同类
+ ‑
样本的间距应大于m，m为正负样本间的约束间距， x 、x分别是参考样本、正例样本、负例+ ‑
样本，f、f、f分别是对应的特征向量；
(3‑3).用自适应矩估计算法进行梯度更新，迭代优化基学习器{fj|j＝1,...,L}，使L个基学习器分别拟合L个困难程度等级的样本对，直至基学习器收敛。

5.如权利要求4所述的一种基于困难感知的深度集成度量图像检索方法，其特征在于，步骤(4)的具体方法是：
(4‑1).将已收敛的基学习器以线性按序方式合并为集成学习器，其输入为训练数据集的深度特征向量X；
(4‑2).根据所述三联体损失函数计算集成学习器模型的损失，通过梯度反向传播方法调整模型参数，迭代优化模型直至收敛；
(4‑3).将待检索图像作为查询集q，将训练图像作为图库集g，将查询集q和图库集g中的图像样本分别输入集成学习器，得到对应的深度嵌入表示
其中Q，G分别是查询集和图库集的大小；
(4‑4).计算查询集和图库集对应的深度嵌入表示之间的欧氏距离
据此对与待检索图像相似的图库集图像进行排序，得
到相似图像集合。

说明书

技术领域

[0001] 本发明属于多媒体信息检索技术领域，具体是图像检索技术领域，涉及一种基于困难感知的深度集成度量图像检索方法。

背景技术

[0002] 随着计算机网络的高速发展，以及智能手机、数码相机等便携式设备的普及，每时每刻都在产生海量的图像数据。人们通常想从庞大的图像数据库中寻找自己需要的特定图像，若采用传统的基于文本关键词检索方式显然无法满足用户需求，因而基于内容的图像检索方法受到工业界和学术界的青睐。图像检索的目标是从海量图库中检索出与用户查询相似的图像。可以广泛应用于搜索引擎，如商品图像搜索、人脸图像检索等。

[0003] 目前，图像检索的主流方法采用度量学习技术，以马氏度量学习为主的传统图像检索技术通常利用手工设计的图像特征，并以线性投影映射的方式学习图像相似度(或距离)度量函数；而在深度度量图像检索方法中，集成度量方法具有较高的检索性能，学习性能高且差异化程度强的基学习器是提高集成学习性能的关键。一些方法将深度特征嵌入层划分为一系列的基学习器，并通过在线梯度重新加权策略差异化基学习器，但是位于特征嵌入层之前的特征提取网络结构和参数是完全共享的，这意味着基学习器实际上对应于一组神经元，而这样的基学习器表达能力太弱以致于难以刻画多样化的语义。还有一些集成方法随机均匀地将数据集类划分为多个元类(每个元类包含多个类)，这些方法从数据集元类层面差异化了基学习器，但是这样的差异化策略并未利用损失函数对基学习器的多样性提供强约束，导致获得次优的基学习器，从而无法较好地保障集成模型的性能。

[0004] 现有图像检索方法主要有以下几方面不足：第一，通过划分深度特征嵌入层所形成的基学习器的表达能力比较欠缺，难以有效表征数据样本的多维度语义，通常会导致局部最优和欠拟合的检索结果；第二，直接拟合整个数据集的数据分布，忽略了数据样本存在不同的困难程度现象，会引起集成学习模型收敛缓慢的问题。因此，需要设计一种深度集成度量图像检索方法，既能够充分利用图像样本的深度嵌入特征表示，又能感知样本存在的不同困难程度，并获得差异化比较大的基学习器，从而提高检索准确率。

发明内容

[0005] 本发明的目的就是针对现有技术的不足，提供一种基于困难感知的深度集成度量图像检索方法，可以充分利用图像的深度嵌入特征表示，通过感知困难程度差异化基学习器，从而构建明显提高图像检索性能的集成学习器。

[0006] 本发明方法首先获取图像数据集合，然后进行以下操作：

[0007] 步骤(1).对图像数据集合进行预处理，对图像数据进行增强操作，通过卷积神经网络模型提取图像的深度特征向量；

[0008] 步骤(2).将深度特征向量输入多个自注意力网络得到表达不同语义的特征向量后，再通过不同的基学习器得到相应的嵌入向量；

[0009] 步骤(3).训练基学习器，根据训练图像类别和嵌入向量的距离度量矩阵，按照不同困难程度进行图像样本对的排序，基学习器依据图像样本对产生的损失更新梯度直至收敛；

[0010] 步骤(4).构建由基学习器组成的集成学习器，并利用三联体损失函数微调，将待检索图像输入集成学习器，得到相似图像集合。

[0011] 进一步，步骤(1)具体方法是：

[0012] (1‑1).对图像数据集进行预处理，得到预处理后的训练数据集I，记为其中Ii为第i个图像样本，N为图像样本总数，w、h、c分别为图像宽度、高度、通道数；

[0013] (1‑2).利用大型图像库上预训练的卷积神经网络对训练数据集I中的图像样本提取深度特征向量X，记为X＝{xi|i＝1,...,N}，表示第i个图像样本经平均池化层后的深度特征向量。

[0014] 进一步，步骤(2)具体方法是：

[0015] (2‑1).将深度特征向量逐一输入L个不同的自注意力网络，并计算注意力向量将第i个图像样本对应的L个不同语义特征向量记为{xij|j＝1,...,L}，表示自注意力网络的卷积层权重参数；L为4～32的偶数；深度特征向量各元素之间的内部关系即自注意力，Wx表示深度特征向量各元素的加权关系，即可学习注意力；

[0016] (2‑2).采用全连接网络作为基学习器{fj|j＝1,...,L}，输入维度为2048，输出维k度为d＝2 ，k＝7,8,9,10；每一种不同语义的特征向量对应一个基学习器，将L个不同语义的特征向量{xij|j＝1,...,L}分别输入L个基学习器，得到嵌入向量集合E＝{eij|j＝
1,...,L}，eij为第i个图像样本第j个语义特征向量对应的嵌入向量，嵌入向量的维度为d。

[0017] 进一步，步骤(3)具体方法是：

[0018] (3‑1).计算嵌入向量集合E中各元素之间的欧式距离矩阵，根据样本对的真实标记{yi|i＝1,...,N}和欧式距离矩阵对样本对进行困难程度排序，并将样本对划分为L个困难程度等级，即困难程度与基学习器一一对应；

[0019] 所述的困难程度用于衡量负例样本对，其判定准则为：设A是锚点，P是正样本点，N1、N2分别是两个负样本点，通过与锚点之间的距离判定正负样本点，相对锚点A，负样本点N2比N1更难判定为负样本点，则样本对(A,N2)相比(A,N1)的困难程度更高；

[0020] (3‑2).根据三联体损失函数计算每个困难等级的负例样本产生的损失，并用于指导其对应的基学习器训练，不+ ‑
同类样本的间距应大于m，m为正负样本间的约束间距， x、x分别是参考样本、正例样本、+ ‑
负例样本，f、f、f分别是对应的特征向量；

[0021] (3‑3).用自适应矩估计算法进行梯度更新，迭代优化基学习器{fj|j＝1,...,L}，使L个基学习器分别拟合L个困难程度等级的样本对，直至基学习器收敛。

[0022] 进一步，步骤(4)具体方法是：

[0023] (4‑1).将已收敛的基学习器以线性按序方式合并为集成学习器，其输入为训练数据集的深度特征向量X；

[0024] (4‑2).根据所述三联体损失函数计算集成学习器模型的损失，通过梯度反向传播方法调整模型参数，迭代优化模型直至收敛；

[0025] (4‑3).将待检索图像作为查询集q，将训练图像作为图库集g，将查询集q和图库集g中的图像样本分别输入集成学习器，得到对应的深度嵌入表示其中Q，G分别是查询集和图库集的大小；

[0026] (4‑4) .计算查询集和图库集对应的深度嵌入表示之间的欧氏距离据此对与待检索图像相似的图库集图像进行排序，得到相似图像集合。

[0027] 本发明方法提出的基于困难感知的深度集成度量图像检索技术，不同于仅使用一组神经元作为基学习器的现有方法，而利用注意力机制使不同基学习器关注图像深度特征的不同语义层面，将全连接网络作为基学习器以弥补先前方法基学习器表达能力不足的缺陷。此外，本方法从损失函数的角度以添加强约束项的形式考虑不同困难程度的负例样本产生不同损失的情况，使得模型能生成性能更优的差异化基学习器，从而提高图像检索的准确度。

[0028] 本发明主要适合采用深度集成度量学习技术的图像检索系统，优点在于：1)基学习器具有较好表达图像特征的能力，体现在能够充分拟合图像的不同语义特征，且减轻了基学习器模型复杂所导致的计算空间开销增加的问题；2)从负例样本对的困难程度角度充分利用数据集所蕴藏的本征结构信息，训练能够适应不同困难程度的基学习器，更好地捕捉图像的不同语义特征，从而检索与待检索图像更加匹配的相似图像。本发明方法可应用于图像搜索引擎，如商品图像搜索、人脸图像检索等实际应用场景。

实施方案

[0030] 以下结合附图对本发明作进一步说明。

[0031] 一种基于困难感知的深度集成度量图像检索方法，主要包括获取图像深度特征向量、计算不同语义特征向量和基学习器的嵌入向量、设计困难感知的基学习器训练策略、以及构建集成学习器得到待检索图像的相似图像等内容。该方法采用注意力网络获取图像不同语义的特征向量，能够更好地反映图像数据的内在结构；以全连接网络作为基学习器增强了集成学习器的检索性能；利用不同困难程度的样本对训练基学习器可深入挖掘图像数据潜在的本征维度信息。通过这种方式构建的图像检索系统可以更好地捕捉图像数据的不同语义特征，并获得更高的图像检索准确率。

[0032] 如图1，该方法首先获取图像数据集，然后进行如下操作：

[0033] 步骤(1).对图像数据集合进行预处理，对图像数据进行增强操作，包括缩放、修剪、翻转、旋转；通过卷积神经网络模型提取图像的深度特征向量。具体是：

[0034] (1‑1).对图像数据集进行预处理，得到预处理后的训练数据集I，记为其中Ii为第i个图像样本，N为图像样本总数，w、h、c分别为图像宽度、高度、通道数。

[0035] (1‑2).利用大型图像库上(如ImageNet)预训练的卷积神经网络(Inception v3)对训练数据集I中的图像样本提取深度特征向量X，记为X＝{xi|i＝1,...,N}，表示第i个图像样本经平均池化层后的深度特征向量。

[0036] 步骤(2).将深度特征向量输入多个自注意力网络得到表达不同语义的特征向量后，再通过不同的基学习器得到相应的嵌入向量。具体是：

[0037] (2‑1).将深度特征向量逐一输入L个不同的自注意力(Self‑Attention)网络，并计算注意力向量将第i个图像样本对应的L个不同语义特征向量记为{xij|j＝1,...,L}，表示自注意力网络的卷积层权重参数；L为4～32的偶数；深度特征向量各元素之间的内部关系即自注意力，Wx表示深度特征向量各元素的加权关系，即可学习注意力。

[0038] (2‑2).采用全连接网络作为基学习器{fj|j＝1,...,L}，输入维度为2048，输出维k度为d＝2 ，k＝7,8,9,10，本实施例d＝512；每一种不同语义的特征向量对应一个基学习器，将L个不同语义的特征向量{xij|j＝1,...,L}分别输入L个基学习器，得到嵌入向量集合E＝{eij|j＝1,...,L}，eij为第i个图像样本第j个语义特征向量对应的嵌入向量，嵌入向量的维度为d。

[0039] 步骤(3).训练基学习器，根据训练图像类别和嵌入向量的距离度量矩阵，按照不同困难程度进行图像样本对的排序，基学习器依据图像样本对产生的损失更新梯度直至收敛。具体是：

[0040] (3‑1).计算嵌入向量集合E中各元素之间的欧式距离矩阵，根据样本对的真实标记{yi|i＝1,...,N}和欧式距离矩阵对样本对进行困难程度排序，并将样本对划分为L个困难程度等级，即困难程度与基学习器一一对应。

[0041] 困难程度用于衡量负例样本对，其判定准则为：设A是锚点，P是正样本点，N1、N2分别是两个负样本点，通过与锚点之间的距离判定正负样本点，相对锚点A，负样本点N2比N1更难判定为负样本点，则样本对(A,N2)相比(A,N1)的困难程度更高。

[0042] (3‑2).根据三联体(Triplet)损失函数

[0043]

[0044] 计算每个困难等级的负例样本产生的损失，并用于指导其对应的基学习器训练；+ ‑
不同类样本的间距应大于m，m为正负样本间的约束间距，如1； x、x 分别是参考样本、正+ ‑
例样本、负例样本，f、f、f分别是对应的特征向量。

[0045] (3‑3).用自适应矩估计(Adam)算法进行梯度更新，迭代优化基学习器{fj|j＝1,...,L}，使L个基学习器分别拟合L个困难程度等级的样本对，直至基学习器收敛。

[0046] 步骤(4).构建由基学习器组成的集成学习器，并利用三联体损失函数微调，将待检索图像输入集成学习器，得到相似图像集合。具体是：

[0047] (4‑1).将已收敛的基学习器以线性按序方式合并为集成学习器，其输入为训练数据集的深度特征向量X。

[0048] (4‑2).根据所述三联体损失函数计算集成学习器模型的损失，通过梯度反向传播方法调整模型参数，迭代优化模型直至收敛。

[0049] (4‑3).将待检索图像作为查询集q(query)，将训练图像作为图库集g(gallery)，将查询集q和图库集g中的图像样本分别输入集成学习器，得到对应的深度嵌入表示其中Q，G分别是查询集和图库集的大小。

[0050] (4‑4) .计算查询集和图库集对应的深度嵌入表示之间的欧氏距离据此对与待检索图像相似的图库集图像进行排序，得到相似图像集合。

[0051] 本实施例所述的内容仅仅是对发明构思的实现形式的列举，本发明的保护范围的不应当被视为仅限于实施例所陈述的具体形式，本发明的保护范围也及于本领域技术人员根据本发明构思所能够想到的等同技术手段。

附图说明

[0029] 图1是本发明方法的流程图。

1一种非接触式交互装置及方法 2一种新型人脸识别设备固定支架 3基于对称性的人脸图像特征提取的方法及装置 4一种基于局部连续性的鲁棒性人脸识别方法及系统 5一种畜牧业生产管理用智能管理系统 6弦轴箱除尘控制平台 7一种优化模糊鉴别向量提取的电子鼻鉴别食醋品种方法 8一种便于清洗的键盘 9一种计算机自动化控制的辅助装置 10基于云计算和图像识别的智慧城市管理系统