首页 > 专利 > 杭州电子科技大学 > 一种基于多尺度特征解码的图像轮廓检测方法专利详情

一种基于多尺度特征解码的图像轮廓检测方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2018-06-06
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-01-11
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-05-27
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2038-06-06
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201810575641.8 申请日 2018-06-06
公开/公告号 CN109035251B 公开/公告日 2022-05-27
授权日 2022-05-27 预估到期日 2038-06-06
申请年 2018年 公开/公告年 2022年
缴费截止日
分类号 G06T7/10G06N3/04G06N3/08 主分类号 G06T7/10
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 0
权利要求数量 1 非专利引证数量 1
引用专利数量 0 被引证专利数量 0
非专利引证 1、CN 107945185 A,2018.04.20CN 107610140 A,2018.01.19CN 107845128 A,2018.03.27CN 107967451 A,2018.04.27CN 107578418 A,2018.01.12Yun Liu et al..“Richer ConvolutionalFeatures for Edge Detection”《.arXiv》.2017,Fisher Yu et al.“.Deep LayerAggregation”《.arXiv》.2018,Yun Liu et al..“Semantic EdgeDetection with Diverse Deep Supervision”. 《arXiv》.2018,穆柯楠 等.“基于非采样高斯差分金字塔的多尺度融合边缘检测”《.四川大学学报(工程科学版)》.2015,(第5期),Baris Sumengen et al..“Multi-scaleedge detection and image degementation”. 《IEEE》.2015,;
引用专利 被引证专利
专利权维持 4 专利申请国编码 CN
专利事件 事务标签 实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 范影乐、张明琦、武薇、蒋涯 第一发明人 范影乐
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 4
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明涉及一种基于多尺度特征解码的图像轮廓检测方法。针对传统检测方法对轮廓细节检测的不精确问题,构造一种多尺度特征解码模型,以提高轮廓定位的准确性,并实现轮廓像素点的精细化。首先构建特征提取模块提取图像多尺度特征,该模块由四组基本单元串联构成,每组基本单元包括两个卷积层和一个下采样层的串联结构,因此特征提取模块可以提取四个不同尺度的特征信息。然后搭建多尺度特征解码模块,通过逐步融合相邻特征层之间的信息来挖掘各个尺度特征之间的差异和联系,从而达到精确定位图像轮廓的目的。
  • 摘要附图
    一种基于多尺度特征解码的图像轮廓检测方法
  • 说明书附图:图1
    一种基于多尺度特征解码的图像轮廓检测方法
  • 说明书附图:图2
    一种基于多尺度特征解码的图像轮廓检测方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-05-27 授权
2 2019-01-11 实质审查的生效 IPC(主分类): G06T 7/10 专利申请号: 201810575641.8 申请日: 2018.06.06
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于多尺度特征解码的图像轮廓检测方法,其特征在于,该方法具体包括以下步骤:
步骤(1)构建特征提取模块用于提取图像多尺度特征;
特征提取模块由八个卷积层和四个下采样层串联组成;每两个卷积层和一个下采样层构成一个特征提取基本单元,共有4个特征提取基本单元,因此图像经过特征提取模块后能得到一组多尺度特征F1,F2,F3,F4;
步骤(2)将特征提取模块的输出作用于损失层;
利用1×1‑1卷积将特征提取模块最后一层的多尺度特征F4转变为单通道特征图 然后经过sigmod函数激活后,与对应训练图像的已知标签进行损失运算,结果记为loss1;
步骤(3)构建多尺度特征解码模块;
将步骤(1)中的多尺度特征F1,F2,F3,F4送入特征解码模块;特征解码模块以金字塔形式从下往上搭建,首先通过线性插值法将特征F1,F2,F3,F4缩放到原图像大小,并将其作为第一层特征 对 分别做卷积运算,得到 然后将
1
中相邻的两个特征,即F1 和 和 和 中位于同一位置的像素点相
加起来,并对相加后的特征再做卷积运算,得到一组特征 按上述方式循环搭建
4
解码模块,直到获得最后的单通道特征图F1;
4
步骤(4)将特征解码模块的单通道特征F1 经过sigmod函数激活后,与对应训练图像的已知标签进行损失运算,结果记为loss2;将loss1和loss2按权重相加得到最后总损失值Loss,根据总损失值Loss对模型进行反向传播,利用梯度下降法迭代更新整个模型的权重和偏置,使其收敛,获得训练模型;
步骤(5)对测试图像进行4个尺度变换,将变换结果分别输入步骤(4)获得的训练模型,在特征解码模块中输出每个尺度下的轮廓响应,然后将轮廓响应插值恢复到与原图一致的尺寸,并进行融合运算,最后得到轮廓的检测结果。
说明书

技术领域

[0001] 本发明属于机器学习与视觉理解领域,涉及一种基于多尺度特征解码的图像轮廓检测方法。

背景技术

[0002] 轮廓检测的目的在于提取图像中显著的边缘信息以及物体的主体轮廓,快速准确地提取图像的轮廓细节,对于后续图像理解以及高级视觉任务,例如目标检测和图像分割等有重要的意义。传统轮廓检测方法着重于提取图像局部的光强、对比度、颜色和梯度信息,或者手工设计不同形状的边缘特征块,并采用分类器对轮廓及非轮廓像素点进行分类。但是它们大都忽略了轮廓在整体层面上的意义,因此容易将噪声或背景纹理判断为轮廓信息,抑制效果较差,在检测的准确性方面来说,很难满足实际应用的需求。
[0003] 近年来,随着深度学习的迅速发展,深度卷积神经网络凭借其强大的特征提取以及对抽象信息的表达能力,在计算机视觉方向得到了广泛的应用。在轮廓检测领域,卷积神经网络从初级的边缘信息逐渐过渡到高级的抽象语义信息,从图像的局部细节过渡到整体的轮廓,改善了传统方法所存在的特征表达不完整性,在检测性能上有了较大的提高。但同时也存在着如下问题:(1)基于深度学习的轮廓检测任务由于输入图像需要经过大量的卷积层以及全连接层网络,因此在检测速度方面并不理想。(2)轮廓检测结果通常是由网络的最后一层输出得到,而忽略了中间卷积层的特征信息,导致检测到的主体轮廓较粗,局部模糊。事实上上述被忽略的特征包含了丰富的图像初级边缘信息以及高级语义信息,充分利用这些特征将有助于提高轮廓检测的准确性。(3)输入图像在卷积层中利用下采样去除信息的冗余度,但在上采样恢复图像尺寸的过程会出现轮廓定位不准确的问题。

发明内容

[0004] 为解决上述存在的问题,本发明提出了一种基于多尺度特征解码的图像轮廓检测方法,该模型由特征提取模块和多尺度特征解码模块两部分组成。首先针对训练图像(每张图像都对应于一张相同尺寸的二值标签图),构建一个特征提取模块用于提取图像多尺度特征,然后构建一个多尺度特征解码模块,通过挖掘初级边缘信息和高级语义信息之间的差异和联系来细化检测轮廓,获得训练模型。最后对测试图像做N个尺度的变换,分别送入训练模型进行处理,并融合各个尺度的输出,获得轮廓检测结果。
[0005] 具体包括以下步骤:
[0006] 步骤(1)构建特征提取模块用于提取图像多尺度特征;
[0007] 特征提取模块由八个卷积层和四个下采样层串联组成。每两个卷积层和一个下采样层构成一个特征提取基本单元,共有4个特征提取基本单元,因此图像经过特征提取模块后能得到一组多尺度特征F1,F2,F3,F4。
[0008] 步骤(2)将特征提取模块的输出作用于损失层;
[0009] 利用1×1‑1卷积将特征提取模块最后一层的多尺度特征F4转变为单通道特征图然后经过sigmod函数激活后,与对应训练图像的已知标签进行损失运算,结果记为loss1。
[0010] 步骤(3)构建多尺度特征解码模块;
[0011] 将步骤(1)中的多尺度特征F1,F2,F3,F4送入特征解码模块。特征解码模块以金字塔形式从下往上搭建,首先通过线性插值法将特征F1,F2,F3,F4缩放到原图像大小,并将其1 1
作为第一层特征 对 分别做卷积运算,得到F1 , F3 , 然后将
1 1 1
相邻特征,相邻特征即为F1 和 和F3 ,F3 和 将相邻特征中位于同一位
2 2
置的像素点相加起来,并对相加后的特征再做卷积运算,得到一组特征F1 , F3 ;按上述
4
方式循环搭建解码模块,直到获得最后的单通道特征图F1。
[0012] 步骤(4)将特征解码模块的单通道特征F14经过sigmod函数激活后,与对应训练图像的已知标签进行损失运算,结果记为loss2。将loss1和loss2按权重相加得到最后总损失值Loss,根据总损失值Loss对模型进行反向传播,利用梯度下降法迭代更新整个模型的权重和偏置,使其收敛,获得训练模型。
[0013] 步骤(5)对测试图像(无对应二值标签图)进行N个尺度变换,将变换结果分别输入步骤(4)获得的训练模型,在特征解码模块中输出每个尺度下的轮廓响应,然后将轮廓响应插值恢复到与原图一致的尺寸,并进行融合运算,最后得到轮廓的检测结果。
[0014] 本发明具有的有益效果为:
[0015] 1、构建的多尺度特征解码模块,有效的利用了每个卷积阶段的特征,包括低级边缘特征和高级语义特征。解码了网络中不同类型的特征表达,提高轮廓检测的精度。
[0016] 2、利用多尺度的思想,将测试图像经过N个尺度变换后送入训练模型,并对轮廓响应进行融合运算,减小了图像单尺度检测轮廓点定位不精确的影响。

实施方案

[0019] 结合附图1,2,本发明具体的实施步骤为:
[0020] 步骤(1)构建特征提取模块提取图像多尺度特征。该模块包括8个3×3,步长为1的卷积层(8个卷积层的通道数分别为32,32,64,64,128,128,256,256),和4个2×2,步长为2的下采样层。每两个卷积层和一个下采样层作为一组特征提取基本单元,因此该模块共有4组特征提取基本单元。每张图像经过特征提取模块的前向传播后得到4个不同尺度的特征(尺寸分别是原图的1/2,1/4,1/8,1/16),如式(1)所示。
[0021] (F1,F2,F3,F4)=CNN(X;W1,b1) (1)
[0022] 其中,CNN(·)表示整个特征提取模块的前向传播部分,X,W1,b1分别表示输入的图像,特征提取模块的权重和偏置,F1,F2,F3,F4表示经过前向传播后所得到的4个多尺度特征。
[0023] 步骤(2)将特征提取模块的输出作用于损失层。首先对F4特征做上采样(16倍线性插值放大)使其达到原图尺寸,再利用1×1‑1卷积将其变成单通道特征图 然后对特征图中的每个像素点进行sigmod函数激活,与已知标签做损失运算,结果记为loss1,如式(2)所示。
[0024]
[0025] 其中 和S(X;W1,b1)分别表示未经过sigmod函数激活和经过sigmod激活后的单通道特征图;m表示图像的像素点个数;y表示与图像像素点对应位置的已知标签值,y=0表示非轮廓像素点,y=1表示轮廓像素点。
[0026] 步骤(3)构建多尺度特征解码模块。步骤(1)中得到的一组多尺度特征F1,F2,F3,F4中,F1,F2特征主要包含低级的边缘信息,而F3,F4主要包含高级的语义信息。附图2右上部分虚线框中为特征解码模块的具体结构,以金字塔的形式从下往上搭建,过程如下:
[0027] ①利用线性插值法对特征F1,F2,F3,F4进行2倍,4倍,8倍和16倍上采样,得到一组特征 并将其作为金字塔的底层(第一层特征)。1
[0028] ②对特征 做3×3的卷积,降低特征图的通道数,得到一组特征F1 ,1
F3 ,
[0029] ③将F11, F31, 相邻特征(F11和 和F31,F31和 )中位于同一位置的像素点2 2 2
相加起来,并对相加后的特征继续做卷积运算得到一组特征F1 ,F2 ,F3。
[0030] ④按上述②和③所述过程,循环搭建解码模块,直到获得最后的单通道特征图F14。
[0031] 在构建多尺度特征解码模块的过程中,第一层卷积核为3×3‑16,第二层卷积核为3×3‑8,第三层卷积核为3×3‑4,最后一层卷积核为1×1‑1。每层通用的操作如式(3)所示:
[0032]
[0033] 式中Fij(x,y;β)表示第j层,第i个,第β个通道的特征图,α表示特征的通道数,表示像素点相加后得到的特征图,n表示该层中特征的个数,W2,b2表示多尺度特征解码模块的权重和偏置,conv(·)表示卷积操作。
[0034] 步骤(4)采取与式(2)相同的方式,对单通道特征图F14的每个像素点进行sigmod函数激活后,与已知标签做损失运算,结果记为loss2。将loss2和步骤(3)中的loss1按权重相加,得到最后的总损失值Loss,如式(4)所示。
[0035] Loss=λloss1+μloss2 (4)
[0036] 式中λ和μ为权重参数,默认设置λ为0.5,μ为1。最后对Loss值进行反向传播,利用梯度下降法来更新整个模型的权重和偏置,如式(5)所示。
[0037]
[0038] 其中θ表示需要学习的参数,包括模型中的权重W1,W2和偏置b1,b2。η表示学习率,表示损失Loss对于参数θ的梯度值。通过迭代更新权重和偏置,使其收敛,最终获得训练模型。
[0039] 步骤(5)对测试图像进行N个尺度变换,得到与测试图像对应的N个不同尺度的输入图像。在N=5的默认情况时,N个变换尺度分别设置为0.5,0.8,1,1.2,1.5。将不同尺度的输入图像输入到步骤(4)获得的训练模型,输出N个响应图。然后将这N个响应图重新经过线性插值缩放到测试图像尺寸,得到S0.5,S0.8,S1,S1.2,S1.5,并按式(6)进行融合,得到最终的轮廓响应Sall。
[0040] Sall=Average(S0.5,S0.8,S1,S1.2,S1.5) (6)
[0041] 其中Average(·)表示图像矩阵均值运算。

附图说明

[0017] 图1为本发明的流程图;
[0018] 图2为本发明的网络框架图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号