首页 > 专利 > 杭州电子科技大学 > 基于多尺度NetVLAD和深度哈希的图像检索方法专利详情

基于多尺度NetVLAD和深度哈希的图像检索方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-04-18
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-10-08
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-07-09
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-04-18
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201910312824.5 申请日 2019-04-18
公开/公告号 CN110222218B 公开/公告日 2021-07-09
授权日 2021-07-09 预估到期日 2039-04-18
申请年 2019年 公开/公告年 2021年
缴费截止日
分类号 G06F16/583G06N3/04 主分类号 G06F16/583
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 2
权利要求数量 3 非专利引证数量 1
引用专利数量 0 被引证专利数量 0
非专利引证 1、CN 105512289 A,2016.04.20CN 108427738 A,2018.08.21孙一博.“一种用于人群计数的多尺度深度VLAD网络”《.中国优秀硕士学位论文全文数据库信息科技辑》.2018,曹卫娜.“基于深度学习的图像检索研究”. 《中国优秀硕士学位论文全文数据库 信息科技辑》.2017,Zenglin Shi等.“Multiscale MultitaskDeep NetVLAD for Crowd Counting”《.IEEETRANSACTIONS ON INDUSTRIAL INFORMATICS》.2018,第14卷(第11期),;
引用专利 被引证专利
专利权维持 3 专利申请国编码 CN
专利事件 转让 事务标签 公开、实质审查、授权、权利转移
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 西安华企众信科技发展有限公司
发明人 叶凌智、翁立、王建中 第一发明人 叶凌智
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 3
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明涉及基于多尺度NetVLAD和深度哈希的图像检索方法。本发明采用的是基于多尺度卷积神经网络的局部聚合描述符向量方法来对图像检索中的图片进行特征提取。将原始的只采用最后一层卷积层输出特征,优化为采用多层卷积层的输出特征融合后的特征。融合后的特征不仅包含高层语义特征,同时也包含了低层图片细节信息。在NetVLAD后面加一个哈希层进行特征编码,特征变得更加简洁,通过哈希编码层,使得特征维度和复杂度降低,显著减少了后续的存储开销和计算复杂度。加快了图像检索时的速度,实现在大规模数据集中快速精确的检索到相似图片。
  • 摘要附图
    基于多尺度NetVLAD和深度哈希的图像检索方法
  • 说明书附图:图1
    基于多尺度NetVLAD和深度哈希的图像检索方法
  • 说明书附图:图2
    基于多尺度NetVLAD和深度哈希的图像检索方法
  • 说明书附图:图3
    基于多尺度NetVLAD和深度哈希的图像检索方法
  • 说明书附图:图4
    基于多尺度NetVLAD和深度哈希的图像检索方法
  • 说明书附图:图5
    基于多尺度NetVLAD和深度哈希的图像检索方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-10-04 专利权的转移 登记生效日: 2022.09.22 专利权人由杭州电子科技大学变更为西安华企众信科技发展有限公司 地址由310018 浙江省杭州市下沙高教园区2号大街变更为710000 陕西省西安市国际港务区华南城二号交易广场C座6楼二十六街鑫大陆众创空间B49号
2 2021-07-09 授权
3 2019-10-08 实质审查的生效 IPC(主分类): G06F 16/583 专利申请号: 201910312824.5 申请日: 2019.04.18
4 2019-09-10 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.基于多尺度NetVLAD和深度哈希的图像检索方法,其特征在于:包括以下步骤:
步骤一、训练流程:对网络参数进行训练,以获得最佳的网络参数;首先将训练集分为查询集和数据库,将数据库中的数据按照与查询集的相似程度,从高到低进行排序,选取前m1个相对相似为正类,后m2个相对不相似为负类,构成三元组,并输入到提出的基于多尺度NetVLAD的深度哈希算法网络中进行网络训练;具体步骤如下:
步骤1、获得训练样本数据:
训练样本数据分为查询集和数据库,数据库中图片标签为与查询集中图片的近似程度,由相似度判别方法获得;
步骤2、根据训练样本数据,分别对查询集中的每一个样本qj,j=1,2,...,Q,其中Q为查询集样本数量,取图像数据库中的m1个与qj最相似的图片构成 取m2个与qj最不相似的图片构成 从而得到三元组
步骤3、将步骤二得到的三元组 作为输入,输入到多尺度卷
积网络中,将输出的特征进行融合,得到融合的特征,具体步骤如下:
3‑1、将训练样本输入到多尺度卷积网络,获得 总共P个卷积网
络的中间层特征输出,其中x为卷积网络的中间层输出特征矩阵,L为训练样本总数量,P为任意大于等于2的整数值;
3‑2、对特征进行融合: Xl为融合后输出特征矩阵,f表示基于
深度学习的特征融合方法;
步骤4、用K均值聚类算法获得初始化簇中心,具体步骤如下:
4‑1、选取聚类的簇数为K,最大迭代次数为nmax;
4‑2、以步骤3所得的融合后特征{X1,X2,...,XL}为输入,并从中随机选取K个值作为初始化质心{μ1,μ2,...,μK},μ为簇中心矩阵;
4‑3、将簇划分为C,并初始化为Ct=φ,t=1,2,...,K,其中C表示聚类簇群集合,t表示类别标号,总共有K个,φ为空集;
4‑4、计算所有样本特征{X1,X2,...,XL}与质心{μ1,μ2,...,μK}的距离将Xl归入距离最小的对应的类别t类,更新Ct=Ct
∪Xl;
4‑5、重新计算出新的质心
4‑6、重复4‑4、4‑5操作,直至质心不再发生改变或达到最大迭代次数,输出最终质心为所求簇中心c={μ1”,μ2”,...,μK”};
步骤5、对步骤3所得融合特征Xl进行VLAD池化,具体步骤如下:
5‑1、用K个空间大小为1*1,参数矩阵为Wk,偏置矩阵为bk的滤波器对特征矩阵Xl进行卷积操作获得输出 其中Sk表示卷积后输出矩阵;
5‑2、卷积后结果Sk(Xl)再经过Soft‑max函数,获得连续化后的权重ak(Xl),见式(1):
其中,k'=1,2,...,k,k=1,2,...,K;
5‑3、将图片特征矩阵Xl作为输入,步骤4中得出的K个簇中心、5‑2中所得的ak(Xl)作为VLAD的参数,得到D*K维VLAD特征矩阵Vl,见式(2):
其中Vl(g,k)表示池化后特征矩阵Vl的第g行第k列元素,Xl(g)表示第l个样本特征的第g维,ck(g)表示第k个簇中心的第g维;
5‑4、对5‑3获得的VLAD特征矩阵Vl的每列进行L2范数内部正则化,获得一个D*K维的矩阵Vl',见式(3):
5‑5、对5‑4获得的Vl'再次进行整体L2范数正则化,见式(4):
步骤6、进行哈希编码:
6‑1、将步骤5所得的D*K的列向量Vl”,降维为N维向量VN,见式(6):
H H
VN=Vl”*W+b            (6);
H H
其中W为(D*K)*N维权重矩阵,b为N维偏差;
6‑2、对N维向量VN进行二进制编码,见式(7):
其中 表示激活函数,我们采用的是sigmoid函数,其表达式为 z表示
(‑z)
函数 的输入,e 表示以自然常数e为底,‑z为指数的指数函数;sgn()为阶跃函数;
步骤7、损失函数求取,见式(8)‑(11):
L=αE1‑βE2+γE3         (11);
其中,d表示欧式距离;m为阈值;α、β、γ为权值;t取值为{1,2};mean(.)用来计算向量中元素的平均值;E1、E2、E3分别表示三个损失函数,通过最小化查询图像与相似图像集的欧式距离,最大化与不相似图像集之间的欧式距离,即E1,来获得更好的图像特征表示;通过最大化哈希编码与0.5之间的平方误差,即E2,来实现尽可能多的激活结点;通过最小化哈希编码向量均值与0.5之间的误差,即E3,使得哈希编码的离散分布的熵最大;L表示网络总的损失函数;
步骤8、使用反向传播算法,对步骤7所得损失函数进行求导优化以上步骤出现过的可学习参数;
步骤二、测试流程:用新的图片数据集对步骤一训练得到的网络进行检索测试,观察其效果;具体步骤如下:
1.1、将新的样本输入已经训练好的网络中,得到查询图片的最后输出特征哈希码 和对应的数据集的最后输出特征
1.2、取 对应的图片为最后检索结果,其中, 距离计算为汉明
距离,汉明距离定义为,两个等长字符串,将其中一个变换成另一个所需要的最小替换数;
取最小距离对应的数据库图像为检索结果。

2.如权利要求1所述的基于多尺度NetVLAD和深度哈希的图像检索方法,其特征在于:
所述的相似度判别方法采用直方图匹配或像素平均值向量匹配。

3.如权利要求1所述的基于多尺度NetVLAD和深度哈希的图像检索方法,其特征在于:
所述的基于深度学习的特征融合方法采用多卷积层特征矩阵拼接或多规格卷积核滤波方法。
说明书

技术领域

[0001] 本发明属于计算机视觉、目标检索领域,涉及一种基于多尺度 NetVLAD和深度哈希的图像检索方法。

背景技术

[0002] 图像检索技术是从图片数据库中检索出满足条件的图片,在现实生活中有着广泛的应用场景,比如在遥感影像,安防监控,检索引擎,电子商务,生物医学等方面,都起着至关重要的作用。
[0003] 目前普遍使用的图像检索方法主要包括基于文本和内容的检索。基于文本的检索方法是采用人工或半监督学习方式分配给图像一组自由文本来描述图像的内容,并经过文本检索系统将图像检索转换成文本检索。由于图像含有丰富的信息,文本标签往往不能对图像信息进行完整的表示,甚至会出现无法找到合适的关键词来描述,从而导致大量信息的丢失,影响最终的检索性能。在基于内容的图像检索算法中,基于词袋(Bag of Word,BoW)和局部聚合描述符向量(Vector of Locally Aggregated Descriptors,VLAD)的图像检索是目前的基础方法,并且有着广泛的应用。然而,需要指出的是,随着如今数据爆炸式的增长,为了不降低检索精度,所用的词典规模也急剧增大,从而导致检索速度降低。因此,如何在大数据中提取更加高级抽象的特征来进行快速准确的大规模图像检索是目前图像检索技术面临的主要问题。
[0004] 本文提出了一种基于多尺度NetVLAD(基于卷积神经网络的局部聚合描述符向量)和深度哈希的图像检索方法。

发明内容

[0005] 针对现有图像检索算法中存在的问题,本发明提出了一种基于多尺度NetVLAD和深度哈希的图像检索方法。该方法具有以下优点:1)具有卷积神经网络(Convolutional Neural Network,CNN)对图像强大的表达能力;2)通过NetVLAD层,能够在单纯的CNN基础上,提取更加高级且具有更强鲁棒能力的图像特征;3)通过融合不同卷积层的输出,使得学习到的特征对图像具有更完整的表示;4)通过哈希编码层,使得特征维度和复杂度降低,显著减少了后续的存储开销和计算复杂度。相比较于目前存在的图像检索技术,本发明提出的方法具有更高的检索速度以及更加准确的检索性能。
[0006] 本发明具体包括以下步骤:
[0007] 步骤一、训练流程:对网络参数进行训练,以获得最佳的网络参数。首先将训练集分为查询集和数据库,将数据库中的数据按照与查询集的相似程度,从高到低进行排序,选取前m1个相对相似为正类,后m2个相对不相似为负类,构成三元组,并输入到提出的基于多尺度NetVLAD的深度哈希算法网络中进行网络训练。
[0008] 具体步骤如下:
[0009] 步骤1、获得训练样本数据:
[0010] 训练样本数据分为查询集和数据库,数据库中图片标签为与查询集中图片的近似程度,由相似度判别算法获得,一般采用直方图匹配,像素平均值向量匹配等。
[0011] 步骤2、根据训练样本数据,分别对查询集中的每一个样本 qj,j=1,2,...,Q,其中Q为查询集样本数量,取图像数据库中的m1个与qj最相似的图片构成 i=1,2,...,m1,取m2个与qj最不相似的图片构成 k=1,2,...,m2,从而得到三元组 j=1,2,...,Q。
[0012] 步骤3、将步骤二得到的三元组 j=1,2,...,Q作为输入,输入到多尺度卷积网络中,将输出的特征进行融合,得到融合的特征,具体步骤如下:
[0013] 3‑1、将训练样本输入到多尺度卷积网络,获得 l=1,2,...,L, 总共P个卷积网络的中间层特征输出,其中x为卷积网络的中间层输出特征矩阵,L为训练样本总数量,P为任意大于等于2的整数值。
[0014] 3‑2、对特征进行融合: l=1,2,...,L,Xl为融合后输出特征矩阵,f表示基于深度学习的特征融合算法,一般采用多卷积层特征矩阵拼接,以及多规格卷积核滤波方法。
[0015] 步骤4、用K均值聚类算法获得初始化簇中心,具体步骤如下:
[0016] 4‑1、选取聚类的簇数为K,最大迭代次数为nmax;
[0017] 4‑2、以步骤3所得的融合后特征{X1,X2,...,XL}为输入,并从中随机选取K个值作为初始化质心{μ1,μ2,...,μK},μ为簇中心矩阵。
[0018] 4‑3、将簇划分为C,并初始化为Ct=φ,t=1,2,...,K,其中C表示聚类簇群集合,t表示类别标号,总共有K个,φ为空集;
[0019] 4‑4、计算所有样本特征{X1,X2,...,XL}与质心{μ1,μ2,...,μK}的距离l=1,2,...,L;k=1,2,...,K,将Xl归入距离最小的对应的类别t 类,更新Ct=Ct∪Xl。
[0020] 4‑5、重新计算出新的质心
[0021] 4‑6、重复4‑4,4‑5操作,直至质心不再发生改变或达到最大迭代次数,输出最终质心为所求簇中心c={μ1”,μ2”,...,μK”};
[0022] 步骤5、对步骤3所得融合特征进行VLAD池化,具体步骤如下:
[0023] 5‑1、用K个空间大小为1*1,参数矩阵为Wk,偏置矩阵为bk的滤波器对特征矩阵Xl进行卷积操作获得输出 其中Sk表示卷积后输出矩阵。
[0024] 5‑2、卷积后结果Sk(Xl)再经过Soft‑max函数,获得连续化后的权重ak(Xl),见式(1):
[0025]
[0026] 其中,k'=1,2,...,k。
[0027] 5‑3、将图片特征矩阵Xl作为输入,步骤4中得出的k个簇中心、 5‑2中所得的ak(Xl)作为VLAD的参数,得到D*K维VLAD特征矩阵Vl,见式(2):
[0028]
[0029] 其中Vl(g,k)表示池化后特征矩阵Vl的第g行第k列元素,Xl(g)表示第l个样本特征的第g维,ck(g)表示第k个簇中心的第g维。
[0030] 5‑4、将5‑3获得的VLAD特征矩阵Vl进行对列进行L2范数内部正则化,获得一个D*K维的矩阵Vl',见式(3):
[0031]
[0032] 5‑5、对5‑4获得的Vl'再次进行整体L2范数正则化,见式(4):
[0033]
[0034] 步骤6、进行哈希编码:
[0035] 6‑1、将步骤5所得的D*K的列向量Vl”,降维为N维向量VN,见式 (5):
[0036] VN=Vl”*wH+bH   (5);
[0037] 其中wH为(D*K)*N维权重矩阵,bH为N维偏差。
[0038] 6‑2、对N维向量VN进行二进制编码,见式(6):
[0039]
[0040] 其中 表示激活函数,我们采用的是sigmoid函数,其表达式为 z(‑z)
表示函数 的输入,e 表示以自然常数e为底,‑z为指数的指数函数;sgn(.)为阶跃函数。
[0041] 步骤7、损失函数求取,见式(7)‑(10):
[0042]
[0043]
[0044]
[0045] L=αE1‑βE2+γE3   (10);
[0046] 其中,d表示欧式距离;m为阈值;α、β、γ为权值;t取值为{1, 2};mean(.)用来计算向量中元素的平均值;E1、E2、E3分别表示三个损失函数,通过最小化查询图像与相似图像集的欧式距离,最大化与不相似图像集之间的欧式距离,即E1,来获得更好的图像特征表示;通过最大化哈希编码与0.5之间的平方误差,即E2,来实现尽可能多的激活结点;通过最小化哈希编码向量均值与0.5之间的误差,即E3,使得哈希编码的离散分布的熵最大;L表示网络总的损失函数;
[0047] 步骤8、使用反向传播算法,对步骤7所得损失函数进行求导优化以上步骤出现过的可学习参数。
[0048] 步骤二、测试流程:用新的图片数据集对步骤一训练得到的网络进行检索测试,观察其效果。具体步骤如下:
[0049] 1.1、将新的样本输入已经训练好的网络中,得到查询图片的最后输出特征哈希码和对应的数据集的最后输出特征
[0050] 1.2、取 对应的图片为最后检索结果,其中, 距离计算为汉明距离,汉明距离定义为,两个等长字符串,将其中一个变换成另一个所需要的最小替换数。取最小距离对应的数据库图像为检索结果。
[0051] 本发明采用的是基于多尺度卷积神经网络的局部聚合描述符向量(Multiscale‑NetVLAD)方法来对图像检索中的图片进行特征提取,该方法是一种比普通NetVLAD更全面的特征提取方法。它将原始的只采用最后一层卷积层输出特征,优化为采用多层卷积层的输出特征融合后的特征。融合后的特征不仅包含高层语义特征,同时也包含了低层图片细节信息。低层和高层特征的互补性可以提高查询图像与其他候选图像之间的相似性度量,对于图像检索,核心是需要找到与之最为相似而并非同类的图片这一特性。相对于直接将NetVLAD网络输出的图片特征表示直接进行计算损失函数,在NetVlAD后面加一个哈希层进行特征编码,特征变得更加简洁,通过哈希编码层,使得特征维度和复杂度降低,显著减少了后续的存储开销和计算复杂度。加快了图像检索时的速度。是一种实用高效的大规模图像检索算法,实现在大规模数据集中快速精确的检索到相似图片。附图说明:
[0052] 图1为本发明训练流程图;
[0053] 图2为用于提取CNN特征的多尺度卷积神经网络的示例结构;
[0054] 图3为NetVLAD层结构;
[0055] 图4为哈希层输入与输出的特征结构;
[0056] 图5为本发明测试流程图。

实施方案

[0057] 下面结合附图对本发明作进一步说明。
[0058] 基于多尺度NetVLAD和深度哈希的图像检索方法,如图1所示,步骤一、训练流程:将训练样本输入多尺度卷积神经网络中,得到P 层卷积特征组 然后将其经过特征融合,得到融合后特征Xl, 后经过NetVLAD层,得到池化后特征Vl,再经过哈希编码,输出最后的图片特征表示 最后利用反向传播算法,对损失函数进行求导,优化网络中出现的所有可学习参数。而测试流程则是将新的样本数据输入训练好的网络结构中,测试网络检索精度。
[0059] 具体步骤如下:
[0060] 步骤1、获得训练样本标签:训练样本分为查询集和数据库,数据库中图片标签为与查询集中图片的近似程度,一般采用直方图匹配,像素平均值向量匹配等。
[0061] 步骤2、根据训练样本数据,分别对查询集中的每一个样本 qj,j=1,2,...,Q,其中Q为查询集样本数量,取图像数据库中的m1个与qj最相似的图片构成 i=1,2,...,m1,取m2个与qj最不相似的图片构成 k=1,2,...,m2,从而得到三元组 j=1,2,...,Q;
[0062] 步骤3将步骤二得到的三元组 j=1,2,...,Q作为输入,输入到多尺度卷积网络中,将输出的特征进行融合,得到融合的特征,具体步骤如下:
[0063] 3‑1、将训练样本输入到多尺度卷积网络,获得 l=1,2,...,L, 总共P个卷积网络的中间层特征输出,其中x为卷积网络的中间层输出特征矩阵,L为训练样本总数量;
[0064] 如图2所示,以VGG16网络为例,融合特征个数P选取为2,选取第三个卷积块的最大池化后输出特征和第四个卷积块的第三层卷积后输出特征进行融合,由该两层不同深度的特征进行融合后的特征同时包含图片的细节信息和深度语义信息。在实际应用中,神经网络选取可以任意,并不局限于VGG16,特征融合个数也可以大于2。
[0065] 输出两个卷积后特征,见式(11):
[0066]
[0067] 其中x表示卷积后特征矩阵,x表示x的每一维。
[0068] 3‑2、对特征进行融合,以拼接方式为例,见式(12):
[0069]
[0070] 其中Xl表示融合后特征,f表示拼接融合方法。
[0071] 步骤4、用K均值聚类算法获得初始化簇中心,具体步骤如下:
[0072] 4‑1、选取聚类的簇数为K,最大迭代次数为nmax;
[0073] 4‑2、以步骤3所得的融合后特征{X1,X2,...,XL}为输入,并从中随机选取K个值作为初始化质心{μ1,μ2,...,μK},μ为簇中心矩阵;
[0074] 4‑3、将簇划分为C,并初始化为Ct=φ,t=1,2,...,K,其中C表示聚类簇群集合,t表示类别标号,总共有K个,φ为空集;
[0075] 4‑4、计算所有样本特征{X1,X2,...,XL}与质心{μ1,μ2,...,μK}的距离l=1,2,...,L;k=1,2,...,K,将Xl归入距离最小的对应的类别t 类,更新Ct=Ct∪Xl;
[0076] 4‑5、重新计算出新的质心
[0077] 4‑6、重复4‑4、4‑5操作,直至质心不再发生改变或达到最大迭代次数,输出最终质心为所求簇中心c={μ1”,μ2”,...,μK”};
[0078] 步骤5、如图3所示,对步骤3所得融合特征Xl进行VLAD池化,具体步骤如下:
[0079] 5‑1、用K个空间大小为1*1,参数矩阵为Wk,偏置矩阵为bk的滤波器对特征矩阵Xl进行卷积操作获得输出 其中Sk表示卷积后输出矩阵;
[0080] 5‑2、卷积后结果Sk(Xl)再经过Soft‑max函数,获得连续化后的权重ak(Xl),见式(1):
[0081]
[0082] 其中,k'=1,2,...,k;
[0083] 5‑3、将图片特征矩阵Xl作为输入,步骤4中得出的K个簇中心、 5‑2中所得的ak(Xl)作为VLAD的参数,得到D*K维VLAD特征矩阵Vl,见式(2):
[0084]
[0085] 其中Vl(g,k)表示池化后特征矩阵Vl的第g行第k列元素,Xl(g)表示第l个样本特征的第g维,ck(g)表示第k个簇中心的第g维;
[0086] 5‑4、将5‑3获得的VLAD特征矩阵Vl进行对列进行L2范数内部正则化,获得一个D*K维的矩阵Vl',见式(3):
[0087]
[0088] 5‑5、对5‑4获得的Vl'再次进行整体L2范数正则化,见式(4):
[0089]
[0090] 步骤6、如图4所示,进行哈希编码:
[0091] 6‑1、将步骤5所得的D*K的列向量Vl”,降维为N维向量VN,见式 (5):
[0092] VN=Vl”*wH+bH   (5);
[0093] 其中wH为(D*K)*N维权重矩阵,bH为N维偏差;
[0094] 6‑2、对N维向量VN进行二进制编码,见式(6):
[0095]
[0096] 其中 表示激活函数,我们采用的是sigmoid函数,其表达式为 z(‑z)
表示函数 的输入,e 表示以自然常数e为底,‑z为指数的指数函数;sgn()为阶跃函数;
[0097] 步骤7、损失函数求取,见式(7)‑(10):
[0098]
[0099]
[0100]
[0101] L=αE1‑βE2+γE3   (10);
[0102] 其中,表示欧式距离;为阈值;为权值;t取值为{1,2};用来计算向量中元素的平均值;分别表示三个损失函数,通过最小化查询图像与相似图像集的欧式距离,最大化与不相似图像集之间的欧式距离,即,来获得更好的图像特征表示;通过最大化哈希编码与0.5之间的平方误差,即,来实现尽可能多的激活结点;通过最小化哈希编码向量均值与 0.5之间的误差,即,使得哈希编码的离散分布的熵最大;表示网络总的损失函数;
[0103] 步骤8、使用反向传播算法,对步骤7所得损失函数进行求导优化以上步骤出现过的可学习参数;
[0104] 步骤二、如图5所示,测试流程:用新的图片数据集对步骤一训练得到的网络进行检索测试,观察其效果;具体步骤如下:
[0105] 1.1、将新的样本输入已经训练好的网络中,得到查询图片的最后输出特征哈希码和对应的数据库的最后输出特征
[0106] 1.2、计算所有的 其中, 表示数据库图像特征 的任意一个;d(.)为特征距离计算,我们采用的是汉明距离。汉明距离定义为,两个等长字符串,将其中一个变换成另一个所需要的最小替换数。
[0107] 1.3、取所有的 中最小值对应的数据库图片为最后检索结果。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号