首页 > 专利 > 杭州电子科技大学 > 一种基于深度学习的图像哈希编码方法专利详情

一种基于深度学习的图像哈希编码方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2017-03-24

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2017-08-29

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2020-06-05

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2037-03-24

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201710182659.7	申请日	2017-03-24
公开/公告号	CN107016708B	公开/公告日	2020-06-05
授权日	2020-06-05	预估到期日	2037-03-24
申请年	2017年	公开/公告年	2020年
缴费截止日
分类号	G06T9/00	主分类号	G06T9/00
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	2
权利要求数量	3	非专利引证数量	1
引用专利数量	5	被引证专利数量	0
非专利引证	1、彭天强,栗芳.基于深度卷积神经网络和二进制哈希学习的图像检索方法《.电子与信息学报》.2016,第38卷(第8期),2068-2075.;
引用专利	CN104657350A、CN106503106A、CN105512289A、US2015100558A1、CN106096538A	被引证专利
专利权维持	5	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	颜成钢、杨东宝、孙垚棋、彭冬亮、张勇东、薛安克	第一发明人	颜成钢
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	6
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

杜军

摘要

本发明公开了一种基于深度学习的图像哈希编码方法。本发明包括如下步骤：步骤1、采用在ImageNet图像识别数据库上训练好的图像分类模型GoogLeNet作为初始化的基本网络结构，并将GoogLeNet模型的最后一层分类层替换为哈希层，该哈希层的单元数即为图像要编码成的比特数；步骤2、对GoogLeNet模型的参数进行优化；步骤3、将图像检索数据集中的图像输入至优化好的GoogLeNet模型，并将GoogLeNet模型输出的浮点数量化为二值码，从而得到每幅图像的二值码。本发明实现了图像特征与哈希函数的联合优化，克服了传统哈希方法学习到的哈希编码与图像特征不符的缺点。

摘要附图
说明书附图：图1
说明书附图：图2

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2020-06-05	授权
2	2017-08-29	实质审查的生效	IPC(主分类): G06T 9/00 专利申请号: 201710182659.7 申请日: 2017.03.24
3	2017-08-04	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于深度学习的图像哈希编码方法，其特征在于包括如下步骤：
步骤1、采用在ImageNet图像识别数据库上训练好的图像分类模型GoogLeNet作为初始化的基本网络结构，并将GoogLeNet模型的最后一层分类层替换为哈希层，该哈希层的单元数即为图像要编码成的比特数；
步骤2、对GoogLeNet模型的参数进行优化；
2-
1.每次迭代将从图像检索数据集中选取的50幅图像，作为GoogLeNet模型的输入；并且将图像上人工标注的标签信息同时作为GoogLeNet模型的输入，用于判断图像间的相似性；共迭代M次；
2-
2.在每次迭代中，将从图像检索数据集中选取的50幅图像随机两两组合构成成对图像，并通过成对图像的标签信息判断两幅图像是否相似，从而对成对图像进行损失计算；
2-
3.根据每幅图像输入进GoogLeNet模型得到的二值码，进行二值码均匀分布损失的计算和量化损失的计算；
2-
4.计算出每一次迭代的图像的所有损失，即成对图像损失、二值码均匀分布损失和量化损失的累加；然后使用随机梯度下降算法和反向传播算法来对GoogLeNet模型的参数进行更新，迭代进行M次后，得到了优化好的GoogLeNet模型；
步骤3、将图像检索数据集中的图像输入至优化好的GoogLeNet模型，并将GoogLeNet模型输出的浮点数量化为二值码，从而得到每幅图像的二值码；
步骤2中所述的成对图像的损失通过如下损失函数计算：
s.t.bi∈{-1，+1}q，i∈{1，2}，   (1)
其中，设输入的成对图像分别为I1，I2，其对应的二值码为b1，b2；S表示两幅图像是否相似，若相似，S＝1；否则，S＝0；H(·,·)表示两个二值码间的海明距离，如果两幅图像是相似图像，则损失等于其二值码间的海明距离，否则当两幅图像不相似时，定义一个阈值t，若海明距离小于该阈值时，才对该损失函数有贡献；
由于上式(1)二值码是离散取值，直接优化困难，因此将整数限制变为范围限制{-1,+
1}->[-1,+1]，海明距离变为欧式距离，GoogLeNet模型得到浮点数输出，公式(1)更新为：
s.t.bi∈[-1，+1]q，i∈{1，2}.   (2)
对公式(2)的梯度进行计算如下：
当S＝1时，
当S＝0时，s.t.bi∈[-1，+1]q，i∈{1，2}，   (4)。

2.根据权利要求1所述的一种基于深度学习的图像哈希编码方法，其特征在步骤2中所述的二值码均匀分布损失的计算如下：
将压缩的二值码均匀分布，当二值码中-1和+1出现的概率都为50％时，熵最大信息量最多，所以该均匀分布损失函数定义为：
其中，q表示二值码的长度，即哈希层的单元数；n为图像数量，即得到的二值码数量，bi(j)表示第i个二值码的第j个比特。

3.根据权利要求2所述的一种基于深度学习的图像哈希编码方法，其特征在步骤2所述的二值码量化的损失通过如下损失函数计算：
由于GoogLeNet模型的哈希层的输出为浮点数，因此需要通过量化得到二值码，量化过程如下：
b＝sign(v)，   (6)
其中，v表示GoogLeNet模型的输出；为了减小从欧式空间到海明空间映射导致的量化误差，需要一个量化损失函数：用于计算最后一层哈希层的值与量化该哈希层后的值的差，即每个单元量化前与量化后的值相减，具体量化损失函数如下：
其中，如果vi>0，则b(i)＝1；否则，b(i)＝-1，其中,vi表示GoogLeNet模型哈希层输出的第i个单元的值。

说明书

技术领域

[0001] 本发明涉及一种编码方法，尤其涉及一种基于深度学习的图像哈希编码方法。

背景技术

[0002] 随着网络上的图像数量迅速增长，基于内容的图像检索日趋重要，哈希技术得到了越来越多的关注。哈希技术的目标是构建哈希函数，将数据从原始空间映射到压缩的二进制码，同时保留原始空间的数据结构。由于压缩的二进制码能提高计算和存储的效率，所以哈希对于最近邻查找来说是一项强有力的技术。大部分的哈希编码方法的流程是：首先提取图像的手工设计的特征表示，然后在此基础上学习哈希函数。手工设计的特征更倾向于描述图像的视觉信息，而不是其语义信息，此外特征的学习和哈希函数的学习两个阶段割裂，会导致产生的二值码与特征表示不符。

发明内容

[0003] 本发明的目的是针对现有技术的不足，提供一种基于深度学习的图像哈希编码方法。

[0004] 本发明解决其技术问题所采用的技术方案包括如下步骤：

[0005] 步骤1、采用在ImageNet图像识别数据库上训练好的图像分类模型GoogLeNet作为初始化的基本网络结构，并将GoogLeNet模型的最后一层分类层替换为哈希层，该哈希层的单元数即为图像要编码成的比特数；

[0006] 步骤2、对GoogLeNet模型的参数进行优化；

[0007] 2-1.每次迭代将从图像检索数据集中选取的50幅图像，作为GoogLeNet模型的输入；并且将图像上人工标注的标签信息同时作为GoogLeNet模型的输入，用于判断图像间的相似性；共迭代M次；

[0008] 2-2.在每次迭代中，将从图像检索数据集中选取的50幅图像随机两两组合构成成对图像，并通过成对图像的标签信息判断两幅图像是否相似，从而对成对图像进行损失计算；

[0009] 2-3.根据每幅图像输入进GoogLeNet模型得到的二值码，进行二值码均匀分布损失的计算和量化损失的计算；

[0010] 2-4.计算出每一次迭代的图像的所有损失，即成对图像损失、二值码均匀分布损失和量化损失的累加；然后使用随机梯度下降算法和反向传播算法来对GoogLeNet模型的参数进行更新，迭代进行M次后，得到了优化好的GoogLeNet模型；

[0011] 步骤3、将图像检索数据集中的图像输入至优化好的GoogLeNet模型，并将GoogLeNet模型输出的浮点数量化为二值码，从而得到每幅图像的二值码。

[0012] 所述的成对图像的损失通过如下损失函数计算：

[0013]

[0014] s.t.bi∈{-1，+1}q，i∈{1，2}， (1)

[0015] 其中，设输入的成对图像分别为I1，I2，其对应的二值码为b1，b2；S表示两幅图像是否相似，若相似，S＝1；否则，S＝0；H(·,·)表示两个二值码间的海明距离，如果两幅图像是相似图像，则损失等于其二值码间的海明距离，否则当两幅图像不相似时，定义一个阈值t，若海明距离小于该阈值时，才对该损失函数有贡献；

[0016] 由于上式(1)二值码是离散取值，直接优化困难，因此将整数限制变为范围限制{-1,+1}->[-1,+1]，海明距离变为欧式距离，GoogLeNet模型得到浮点数输出，公式(1)更新为：

[0017]

[0018] s.t.bi∈[-1，+1]q，i∈{1，2}. (2)

[0019] 对公式(2)的梯度进行计算如下：

[0020] 当S＝1时，

[0021]

[0022] 当S＝0时，s.t.bi∈[-1，+1]q，i∈{1，2}， (4)。

[0023] 所述的二值码均匀分布损失的计算如下：

[0024] 将压缩的二值码均匀分布，当二值码中-1和+1出现的概率都为50％时，熵最大信息量最多，所以该均匀分布损失函数定义为：

[0025]

[0026] 其中，q表示二值码的长度，即哈希层的单元数；n为图像数量，即得到的二值码数量，bi(j)表示第i个二值码的第j个比特。

[0027] 所述的二值码量化的损失通过如下损失函数计算：

[0028] 由于GoogLeNet模型的哈希层的输出为浮点数，因此需要通过量化得到二值码，量化过程如下：

[0029] b＝sign(v)， (6)

[0030] 其中，v表示GoogLeNet模型的输出；为了减小从欧式空间到海明空间映射导致的量化误差，需要一个量化损失函数：用于计算最后一层哈希层的值与量化该哈希层后的值的差，即每个单元量化前与量化后的值相减，具体量化损失函数如下：

[0031]

[0032] 其中，如果vi>0，则b＝1；否则，b＝-1，其中,vi表示二值码的第i个比特。

[0033] 综上所述，本发明利用一个深度卷积神经网络作为基本框架来学习二值码，并且使学习到的二值码应满足以下要求：(1)相似的图像应编码成相似的二值码，不相似的图像编码的二值码也不相似，从而保留图像间的语义相似性；(2)二值码应均匀分布以表示更多信息；(3)欧式空间到海明空间映射的量化误差应最小化。在图像检索过程中，图像输入进优化好的GoogLeNet模型来计算每幅图像的二值码，然后通过计算二值码之间的海明距离来检索图像。

[0034] 与现有技术相比，本发明的积极效果为：

[0035] 本发明通过利用深度神经网络，将图像的特征学习与哈希函数的学习整合到一个端到端的过程中，实现了图像特征与哈希函数的联合优化，克服了传统哈希方法学习到的哈希编码与图像特征不符的缺点。

[0036] 本发明同时考虑了利用图像间的相似性保留哈希编码的语义信息，哈希编码的均匀分布以及欧式空间到海明空间量化误差的最小化，从而得到高质量的图像哈希编码。

[0037] 在标准图像检索数据集CIFAR-10上，当图像编码为12、24、36、48比特时，平均精度均值(MAP)能够分别达到83.18％、86.84％、87.55％、87.67％。

实施方案

[0040] 下面结合附图对本发明进行进一步详细描述。

[0041] 如图1和2所示，一种基于深度学习的图像哈希编码方法，在学习部分引入了深度卷积神经网络，通过对图像特征与哈希函数的联合优化，实现了端到端的训练过程。其实现包括如下步骤：

[0042] 步骤1、采用在ImageNet图像识别数据库上训练好的图像分类模型GoogLeNet作为初始化的基本网络结构，并将GoogLeNet模型的最后一层分类层替换为哈希层，该哈希层的单元数即为图像要编码成的比特数。

[0043] 步骤2、对GoogLeNet的参数进行优化；

[0044] 共迭代M次，每次迭代将从检索数据集中选取的50幅图像作为GoogLeNet模型的输入；并且将图像人工标注的标签信息同时作为GoogLeNet模型的输入，用于判断图像间的相似性。

[0045] 所述的M为50000；

[0046] 在每次迭代中，将从检索数据集中选取的50幅图像随机两两组合构成成对图像，并通过成对图像的标签信息判断两幅图像是否相似，从而对成对图像进行损失计算。

[0047] 同时根据每幅图像输入进GoogLeNet模型得到的二值码，进行二值码均匀分布损失的计算和量化损失的计算。

[0048] 计算出以50幅图像为一批次的所有损失后，使用随机梯度下降算法和反向传播算法来对GoogLeNet模型的参数进行更新，迭代进行M次后，得到了训练好的模型。

[0049] 步骤3、利用上述训练好的GoogLeNet，将图像检索数据集中的图像输入GoogLeNet模型，由于GoogLeNet模型的输出为浮点数，所以要将浮点数量化为二值码，从而得到每幅图像的二值码，参看图2。

[0050] 下面详细介绍本发明定义的三个损失函数对GoogLeNet模型进行参数优化，从而得到高质量的图像哈希编码的过程。

[0051] 将成对图像作为GoogLeNet模型的输入，设两个输入的图像分别为I1，I2，对应的二值码为b1，b2。本发明定义如下三个损失函数来对GoogLeNet模型进行优化：

[0052] 步骤2所述的成对图像的损失函数：

[0053]

[0054] s.t.bi∈{-1，+1}q，i∈{1，2}， (1)

[0055] S表示两幅图像是否相似，若相似，S＝1；否则，S＝0。H(·,·)表示两个二值码间的海明距离。如果两幅图像是相似图像，则损失等于其二值码间的海明距离，否则当两幅图像不相似时，定义一个阈值t，若海明距离小于该阈值时，才对该损失函数有贡献。

[0056] 由于上式(1)二值码是离散取值，直接优化困难，因此本发明放松上式的限制，由整数限制变为范围限制{-1,+1}->[-1,+1]，海明距离变为欧式距离，GoogLeNet模型得到实值输出。公式(1)重写为：

[0057]

[0058] s.t.bi∈[-1，+1]q，i∈{1，2}. (2)

[0059] 公式(2)的梯度计算如下：

[0060] 当S＝1时，

[0061] 当S＝0时，

[0062] 步骤2所述的二值码均匀分布损失的计算如下：根据信息论，熵越大所蕴含的信息越多。为了提高二值码的信息量，本发明使压缩的二值码均匀分布。当二值码中-1和+1出现的概率都为50％时，熵最大信息量最多，所以该均匀分布损失函数定义为：

[0063]

[0064] q表示二值码的长度，即哈希层的单元数。n为图像数量，即得到的二值码数量，bi(j)表示第i个二值码的第j个比特。

[0065] 步骤2所述的二值码量化损失函数：

[0066] 利用GoogLeNet模型的哈希层输出为浮点数，为了得到二值码需要量化，量化过程如下：

[0067] b＝sign(v)， (6)

[0068] v表示GoogLeNet模型的输出；

[0069] 为了减小从欧式空间到海明空间映射导致的量化误差，本发明设计了一个量化损失函数,用于计算最后一层哈希层的值与量化该哈希层后的值的差，即每个单元(比特)量化前与量化后的值相减，具体如下：

[0070]

[0071] 如果vi>0，则b＝1；否则，b＝-1，其中,vi表示二值码的第i个比特；

[0072] 三个损失函数同时对哈希层的值进行计算，每幅图像的损失累加后，进行反向传播，更新GoogLeNet模型的参数。

[0073] 实施例

[0074] 下面以CIFAR图像数据集为例，进行进一步的说明。所述图像数据集包含60000张图片，共有10类标签，包括飞机、船、汽车、动物等。首先将该数据集中随机50000幅作为训练集，10000幅作为测试集。

[0075] 采用在ImageNet图像识别数据集上预训练好的图像分类模型GoogLeNet来完成图像的哈希编码任务。将GoogLeNet中的最后一层有1000个单元的分类层替换为一个哈希层，该哈希层的单元数量为图像编码为二值码的比特数，比如48比特，就定义48个单元。

[0076] 然后，对上述设置好的GoogLeNet模型进行参数的优化。该过程进行50000次迭代，每次迭代随机从训练集图像中选取50幅图像及图像对应标签输入进GoogLeNet，经过在GoogLeNet中的前向传播，在最后一层哈希层得到未进行二值化的哈希编码。利用上述定义的三个损失函数计算损失，通过随机梯度下降和反向传播算法来更新GoogLeNet网络的参数。

[0077] 最后，利用上述优化完成的GoogLeNet对训练集中所有图像进行哈希编码。对于测试集中的待检索图像，首先将待检索图像输入GoogLeNet，然后得到其哈希编码，用该哈希编码与训练集图像的哈希码进行逐一比较，计算海明距离，得到根据海明距离进行排序的图像列表，海明距离越小，两幅图像的相似性越大。

附图说明

[0038] 图1为本发明的方法框架图；

[0039] 图2为本发明的图像哈希编码流程图。

1一种基于深度学习的图像哈希编码方法