首页 > 专利 > 广西科技大学 > 学习生物视觉通路的轮廓检测方法专利详情

学习生物视觉通路的轮廓检测方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2021-08-25
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2021-11-09
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-04-22
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2041-08-25
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202110784619.6 申请日 2021-08-25
公开/公告号 CN113538485B 公开/公告日 2022-04-22
授权日 2022-04-22 预估到期日 2041-08-25
申请年 2021年 公开/公告年 2022年
缴费截止日
分类号 G06T7/13G06K9/62G06N3/04G06N3/08G06V10/80G06V10/75G06V10/82 主分类号 G06T7/13
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 6
权利要求数量 7 非专利引证数量 1
引用专利数量 1 被引证专利数量 0
非专利引证 1、2004.08.26CN 113222328 A,2021.08.06CN 111325762 A,2020.06.23CN 109949334 A,2019.06.28CN 110222628 A,2019.09.10林川.基于多通道Gabor滤波的指纹图像二值化方法《.科学技术与工程》.2013,(第22期),王宇.高分辨率遥感图像典型目标高精度分割研究《.中国优秀博硕士学位论文全文数据库(博士)工程科技Ⅱ辑》.2020,M. Irfan.Design and Implementation ofViterbi Encoding and Decoding Algorithmon FPGA《.2005 International Conference onMicroelectronics》.2006,;
引用专利 CA2776988A 被引证专利
专利权维持 0 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 广西科技大学 当前专利权人 广西科技大学
发明人 林川、张哲一、谢智星、陈永亮、张晓、张贞光、吴海晨、李福章、潘勇才、韦艳霞 第一发明人 林川
地址 广西壮族自治区柳州市东环路268号 邮编 545006
申请人数量 1 发明人数量 10
申请人所在省 广西壮族自治区 申请人所在市 广西壮族自治区柳州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
长沙正奇专利事务所有限责任公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
周晟
摘要
本发明旨在提供一种学习生物视觉通路的轮廓检测方法,包括以下步骤:构建深度神经网络结构,深度神经网络结构具体如下:编码网络、解码网络、前馈融合模块;其中,编码网络为VGG16与FENet相结合的网络结构;原始图像依次经过编码网络、解码网络、前馈融合模块处理,获得最终输出轮廓。本发明能让编码器获得更丰富的轮廓特征信息,提升轮廓检测性能。
  • 摘要附图
    学习生物视觉通路的轮廓检测方法
  • 说明书附图:图1
    学习生物视觉通路的轮廓检测方法
  • 说明书附图:图2
    学习生物视觉通路的轮廓检测方法
  • 说明书附图:图3
    学习生物视觉通路的轮廓检测方法
  • 说明书附图:图4
    学习生物视觉通路的轮廓检测方法
  • 说明书附图:图5
    学习生物视觉通路的轮廓检测方法
  • 说明书附图:图6
    学习生物视觉通路的轮廓检测方法
  • 说明书附图:图7
    学习生物视觉通路的轮廓检测方法
  • 说明书附图:图8
    学习生物视觉通路的轮廓检测方法
  • 说明书附图:图9
    学习生物视觉通路的轮廓检测方法
  • 说明书附图:图10
    学习生物视觉通路的轮廓检测方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-04-22 授权
2 2021-11-09 实质审查的生效 IPC(主分类): G06T 7/13 专利申请号: 202110784619.6 申请日: 2021.08.25
3 2021-10-22 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种学习生物视觉通路的轮廓检测方法,其特征在于包括以下步骤:
A、构建深度神经网络结构,深度神经网络结构具体如下:
编码网络、解码网络、前馈融合模块;其中,编码网络为VGG16与FENet相结合的网络结构;
VGG16网络以池化层为分界线,分为S1、S2、S3、S4、S5阶段;
FENet包括四个子网络:单拮抗特征子网络、双拮抗特征子网络、V1输出子网络、V2输出子网络;
B、原始图像输入VGG16网络中,依次经S1、S2、S3、S4、S5阶段卷积处理,分别获得输出结果S1、S2、S3、S4、S5,其中输出结果S1送入解码网络;
原始图像经过公式1处理,得到R‑G,G‑R,B‑Y,Y‑B四种输入;
SOi=Cm‑ωCn            (1)
其中,i表示R‑G,G‑R,B‑Y,Y‑B;m和n都代表R、G、B、Y分量;ω为系数,取值为0.7;
将R‑G,G‑R,B‑Y,Y‑B输入单拮抗特征子网络处理,获得输出结果a,输出结果a与输出结果S2相加融合后,得到融合结果a,输入解码网络;
将R‑G,G‑R,B‑Y,Y‑B输入双拮抗特征子网络处理,获得输出结果b,输出结果b与输出结果S3相加融合后,得到融合结果b,输入解码网络;
原始图像经过SCO算法得到V1区的边缘响应,输入V1输出子网络处理,获得输出结果c,输出结果c与输出结果S4相加融合后,得到融合结果c,输入解码网络;
原始图像经过SED算法得到V2区的边缘响应,输入V2输出子网络处理,获得输出结果d,输出结果d与输出结果S5相加融合后,得到融合结果d,输入解码网络;
C、将输出结果a、输出结果b分别输入前馈融合模块中;
输出结果S1、融合结果a、融合结果b、融合结果c、融合结果d经解码网络处理后,获得解码输出结果,输入前馈融合模块中,并计算其损失;
D、在前馈融合模块中,输出结果a、输出结果b分别经过1x1‑1卷积层后,经上采样恢复到原始分辨率,并计算其损失,最后乘以权重,获得的结果与解码输出结果相加融合后获得最终输出轮廓,并计算其损失;
所述的单拮抗特征子网络包括:R‑G、G‑R、B‑Y、Y‑B四组单拮抗卷积处理阶段,SEM多尺度增强模块,3×3‑128卷积层;
R‑G,G‑R,B‑Y,Y‑B单拮抗卷积处理阶段相同,分别依次经过3×3‑3卷积层、3×3‑64卷积层、最大池化层、3×3‑128卷积层;
单拮抗特征子网络处理过程如下:
将R‑G,G‑R单拮抗卷积处理阶段处理后的特征相加融合,经过多尺度增强模块处理,获得单拮抗增强结果a;将B‑Y,Y‑B单拮抗卷积处理阶段处理后的特征相加融合,经过多尺度增强模块处理,获得单拮抗增强结果b;
将单拮抗增强结果a与单拮抗增强结果b拼接,然后通过3×3‑128卷积层来匹配通道数后得到融合结果a;
所述的双拮抗特征子网络包括:R‑G,G‑R,B‑Y、Y‑B双拮抗卷积处理阶段,SEM多尺度增强模块,1×1‑256卷积层;
R‑G,G‑R,B‑Y、Y‑B双拮抗卷积处理阶段相同,每个阶段的输入分成两路,每个阶段中的两路分别依次经过9×9‑3卷积层、9×9‑64卷积层、2×2最大池化层、9×9‑128卷积层、2×2最大池化层、9×9‑256卷积层,乘以sigmoid函数归一化的可训练权重后,相减,分别获得R‑G,G‑R,B‑Y、Y‑B双拮抗卷积处理结果;
将R‑G,G‑R双拮抗卷积处理结果相加融合后,通过SEM多尺度增强模块处理,获得双拮抗增强结果a;将B‑Y、Y‑B双拮抗卷积处理结果相加融合后,通过SEM多尺度增强模块处理,获得双拮抗增强结果b;
将双拮抗增强结果a与双拮抗增强结果b拼接,然后通过1×1‑256卷积层来匹配通道数后得到融合结果b。

2.如权利要求1所述的学习生物视觉通路的轮廓检测方法,其特征在于:
所述的VGG16网络由原始VGG16网络经过如下结构调整获得:
去掉S4和S5之间的池化层,同时把S5的三个卷积层依次改为空洞率为2、4、8的空洞卷积层。

3.如权利要求1所述的学习生物视觉通路的轮廓检测方法,其特征在于:
所述的V1输出子网络包括依次连接的三组2×2最大池层、SEM多尺度增强模块、3×3‑
512卷积层;
V1区的边缘响应在V1输出子网络中经过三次2×2最大池化,然后经过SEM多尺度增强模块提取多尺度特征,最后经过3×3‑512卷积层匹配通道数,得到融合结果c。

4.如权利要求1所述的学习生物视觉通路的轮廓检测方法,其特征在于:
所述的V2输出子网络包括依次连接的三组2×2最大池层、SEM多尺度增强模块、3×3‑
512卷积层;
V2区的边缘响应在V2输出子网络中经过三次2×2最大池化,然后经过SEM多尺度增强模块提取多尺度特征,最后经过3×3‑512卷积层匹配通道数,得到融合结果d。

5.如权利要求1所述的学习生物视觉通路的轮廓检测方法,其特征在于:
所述的解码网络由多个单元模块R组成的4层结构,第一层包含4个单元模块R,第二层包含3个单元模块,第三层包含2个单元模块R,第四层包含1个单元模块R;
融合结果d和融合结果c分别输入第一层的第一个单元模块R中,经该单元模块R处理获得处理结果R1;
处理结果R1与融合结果b分别输入第一层的第二个单元模块R中,经该单元模块R处理获得处理结果R2;
处理结果R2与融合结果a分别输入第一层的第三个单元模块R中,经该单元模块R处理获得处理结果R3;
处理结果R3与输出结果S1分别输入第一层的第四个单元模块R中,经该单元模块R处理获得处理结果R4;
处理结果R1与处理结果R2分别输入第二层的第一个单元模块R中,经该单元模块R处理获得处理结果R5;
处理结果R5与处理结果R3分别输入第二层的第二个单元模块R中,经该单元模块R处理获得处理结果R6;
处理结果R6与处理结果R4分别输入第二层的第三个单元模块R中,经该单元模块R处理获得处理结果R7;
处理结果R5与处理结果R6分别输入第三层的第一个单元模块R中,经该单元模块R处理获得处理结果R8;
处理结果R8与处理结果R7分别输入第三层的第二个单元模块R中,经该单元模块R处理获得处理结果R9;
处理结果R8与处理结果R9分别输入第四层的单元模块R中,经该单元模块R处理获得处理结果R10,处理结果R10经1×1‑1卷积获得解码输出结果。

6.如权利要求5所述的学习生物视觉通路的轮廓检测方法,其特征在于:
所述的单元模块R包含两个输入通道;
图像在通道1中依次经过3×3卷积,ReLU函数激活,批归一化层处理,乘以sigmoid函数归一化的可训练权重,获得通道1输出结果;
图像在通道2中依次经过3×3卷积,ReLU函数激活,批归一化层,乘以sigmoid函数归一化的可训练权重,经上采样与通道1输出结果尺寸一致,获得通道2输出结果;
其中,通道1和通道2中的3x3卷积层的输出通道数与两个输入中通道数小的保持一致;
将通道1输出结果于通道2输出结果相加融合,获得当前单元模块R的输出结果。

7.如权利要求5所述的学习生物视觉通路的轮廓检测方法,其特征在于:
所述的步骤C和D中,计算损失的公式如下:
总损失如下:
上式中,θi和θfuse分别表示三种子网络输出的损失的权重和最终预测的损失的权重,Pi代表三种不同的输出,Pfuse代表最终的边缘预测,Y表示真实边缘图;
l(Pfuse,Y)的计算公式如下:
+ ‑
对于一张真实边缘图Y=(yj,j=1,...,|Y|),yj∈{0,1},定义Y={yj,yj>η}和Y =+ ‑
{yj,yj=0},Y和Y分别代表正样本集和负样本集,其他像素全部忽略;
因此l(Pfuse,Y)计算如下:
式(3)和(4)中,P代表预测,pj代表在像素j处经过一个sigmoid函数处理后的值,α和β用于平衡正负样本,λ是控制系数大小的权重。
说明书

技术领域

[0001] 本发明涉及图像处理领域,具体涉及一种学习生物视觉通路的轮廓检测方法。

背景技术

[0002] 轮廓检测旨在提取一幅图像中背景和目标之间的分界线,通常作为多种中、高级计算机视觉任务的前端处理的关键步骤,是计算机视觉研究领域的基本任务之一。近几年,深度学习迅猛发展,一些学者设计了基于卷积神经网络(CNN)的轮廓检测模型,这些模型都由编码器和解码器组成,其中编码器普遍采用VGG16或ResNet,解码器架构设计为研究重点。基于CNN的模型可以实现端到端的轮廓提取,实验证明,这些模型在伯克利分割数据集(BSDS500)上取得了显著的效果。
[0003] 虽然基于CNN的端到端的轮廓检测方法实现了显著效果,但是目前模型的主要创新点均在解码器的设计,并且这些模型缺乏视觉机制的指导。解码器的作用就是通过融合编码器的输出特征还原出原始分辨率的图像。

发明内容

[0004] 本发明旨在提供一种学习生物视觉通路的轮廓检测方法,该方法从增强编码器的特征表达能力出发,同时受到生物视觉通路及其相关视觉机制启发,设计了一个仿生型轮廓增强器。该增强器与编码器结合,能让编码器获得更丰富的轮廓特征信息,从而达到提升轮廓检测性能的目的。
[0005] 本发明的技术方案如下:
[0006] 所述的学习生物视觉通路的轮廓检测方法,包括以下步骤:
[0007] A、构建深度神经网络结构,深度神经网络结构具体如下:
[0008] 编码网络、解码网络、前馈融合模块;其中,编码网络为VGG16与FENet相结合的网络结构;FENet网络为自创结构;FENet中文命名为特征增强网络;
[0009] VGG16网络以池化层为分界线,分为S1、S2、S3、S4、S5阶段;
[0010] FENet包括四个子网络:单拮抗特征子网络、双拮抗特征子网络、V1输出子网络、V2输出子网络;单拮抗特征子网络模拟视网膜/LGN中的单拮抗感受野机制,双拮抗特征子网络模拟V1中双拮抗感受野机制;
[0011] B、原始图像输入VGG16网络中,依次经S1、S2、S3、S4、S5阶段卷积处理,分别获得输出结果S1、S2、S3、S4、S5,其中输出结果S1送入解码网络;
[0012] 原始图像经过公式1处理,得到R‑G,G‑R,B‑Y,Y‑B四种输入;
[0013] SOi=Cm‑ωCn  (1)
[0014] 其中,i表示R‑G,G‑R,B‑Y,Y‑B;m和n都代表R、G、B、Y分量;ω为系数,取值为0.7;
[0015] 将R‑G,G‑R,B‑Y,Y‑B输入单拮抗特征子网络处理,获得输出结果a,输出结果a与输出结果S2相加融合后,得到融合结果a,输入解码网络;
[0016] 将R‑G,G‑R,B‑Y,Y‑B输入双拮抗特征子网络处理,获得输出结果b,输出结果b与输出结果S3相加融合后,得到融合结果b,输入解码网络;
[0017] 原始图像经过SCO算法得到V1区的边缘响应,输入V1输出子网络处理,获得输出结果c,输出结果c与输出结果S4相加融合后,得到融合结果c,输入解码网络;
[0018] 原始图像经过SED算法得到V2区的边缘响应,输入V2输出子网络处理,获得输出结果d,输出结果d与输出结果S5相加融合后,得到融合结果d,输入解码网络;
[0019] C、将输出结果a、输出结果b分别输入前馈融合模块中;
[0020] 输出结果S1、融合结果a、融合结果b、融合结果c、融合结果d经解码网络处理后,获得解码输出结果,输入前馈融合模块中,并计算其损失;
[0021] D、在前馈融合模块中,输出结果a、输出结果b分别经过1x1‑1卷积层后,经上采样恢复到原始分辨率,并计算其损失,最后乘以权重,获得的结果与解码输出结果相加融合后获得最终输出轮廓,并计算其损失。
[0022] SCO算法见如下文献记载:K.‑F.Yang,S.‑B.Gao,C.‑F.Guo,C.‑Y.Li,Y.‑J.Li,Boundary detection using double‑opponency and spatial sparseness constraint,IEEE Transactions on Image Processing,24(2015)2565‑2578.
[0023] SED算法见如下文献记载:A.Akbarinia,C.A.Parraga,Feedback and Surround Modulated Boundary Detection,International Journal of Computer Vision,126(2018)1367‑1380.
[0024] 所述的各步骤涉及的卷积表达式为m*n‑k conv+ReLU,其中,m*n表示卷积核的大小,k表示输出通道数,conv表示卷积公式,ReLU表示激活函数;m*n、k均为预设值;所述的最终融合层的卷积表达式为m*n‑k conv。
[0025] 所述的VGG16网络由原始VGG16网络经过如下结构调整获得:
[0026] 去掉S4和S5之间的池化层,同时把S5的三个卷积层依次改为空洞率为2、4、8的空洞卷积层。
[0027] 所述的单拮抗特征子网络包括:R‑G、G‑R、B‑Y、Y‑B四组单拮抗卷积处理阶段,SEM多尺度增强模块,3×3‑128卷积层;
[0028] R‑G,G‑R,B‑Y,Y‑B单拮抗卷积处理阶段相同,分别依次经过3×3‑3卷积层、3×3‑64、最大池化层、3×3‑128卷积层;
[0029] 单拮抗特征子网络处理过程如下:
[0030] 将R‑G,G‑R单拮抗卷积处理阶段处理后的特征相加融合,经过多尺度增强模块处理,获得单拮抗增强结果a;将B‑Y,Y‑B单拮抗卷积处理阶段处理后的特征相加融合,经过多尺度增强模块处理,获得单拮抗增强结果b;
[0031] 将单拮抗增强结果a与单拮抗增强结果b拼接,然后通过3×3‑128卷积层来匹配通道数后得到融合结果a。
[0032] 所述的双拮抗特征子网络包括:R‑G,G‑R,B‑Y、Y‑B双拮抗卷积处理阶段,SEM多尺度增强模块,1×1‑256卷积层;
[0033] R‑G,G‑R,B‑Y、Y‑B双拮抗卷积处理阶段相同,每个阶段的输入分成两路,每个阶段中的两路分别依次经过9×9‑3卷积层、9×9‑64卷积层、2×2最大池化层、9×9‑128卷积层、2×2最大池化层、9×9‑256卷积层,乘以sigmoid函数归一化的可训练权重后,相减,分别获得R‑G,G‑R,B‑Y、Y‑B双拮抗卷积处理结果;
[0034] 将R‑G,G‑R双拮抗卷积处理结果相加融合后,通过SEM多尺度增强模块处理,获得双拮抗增强结果a;将B‑Y、Y‑B双拮抗卷积处理结果相加融合后,通过SEM多尺度增强模块处理,获得双拮抗增强结果b;
[0035] 将双拮抗增强结果a与双拮抗增强结果b拼接,然后通过1×1‑256卷积层来匹配通道数后得到融合结果b。
[0036] 所述的V1输出子网络包括依次连接的三组2×2最大池层、SEM多尺度增强模块、3×3‑512卷积层;
[0037] V1区的边缘响应在V1输出子网络中经过三次2×2最大池化,然后经过SEM多尺度增强模块提取多尺度特征,最后经过3×3‑512卷积层匹配通道数,得到融合结果c。
[0038] 所述的V2输出子网络包括依次连接的三组2×2最大池层、SEM多尺度增强模块、3×3‑512卷积层;
[0039] V2区的边缘响应在V2输出子网络中经过三次2×2最大池化,然后经过SEM多尺度增强模块提取多尺度特征,最后经过3×3‑512卷积层匹配通道数,得到融合结果d。
[0040] 所述的解码网络为自创的RDNet网络,中文命名为残差解码器网络;
[0041] 解码网络由多个单元模块R组成的4层结构,第一层包含4个单元模块R,第二层包含3个单元模块,第三层包含2个单元模块R,第四层包含1个单元模块R;
[0042] 融合结果d和融合结果c分别输入第一层的第一个单元模块R中,经该单元模块R处理获得处理结果R1;
[0043] 处理结果dc与融合结果b分别输入第一层的第二个单元模块R中,经该单元模块R处理获得处理结果R2;
[0044] 处理结果R2与融合结果a分别输入第一层的第三个单元模块R中,经该单元模块R处理获得处理结果R3;
[0045] 处理结果R3与输出结果S1分别输入第一层的第四个单元模块R中,经该单元模块R处理获得处理结果R4;
[0046] 处理结果R1与处理结果R2分别输入第二层的第一个单元模块R中,经该单元模块R处理获得处理结果R5;
[0047] 处理结果R5与处理结果R3分别输入第二层的第二个单元模块R中,经该单元模块R处理获得处理结果R6;
[0048] 处理结果R6与处理结果R4分别输入第二层的第三个单元模块R中,经该单元模块R处理获得处理结果R7;
[0049] 处理结果R5与处理结果R6分别输入第三层的第一个单元模块R中,经该单元模块R处理获得处理结果R8;
[0050] 处理结果R8与处理结果R7分别输入第三层的第二个单元模块R中,经该单元模块R处理获得处理结果R9;
[0051] 处理结果R8与处理结果R9分别输入第四层的单元模块R中,经该单元模块R处理获得处理结果R10,处理结果R10经1×1‑1卷积获得解码输出结果。
[0052] 所述的单元模块R包含两个输入通道,通道1输入尺寸较大的图像,通道2输入尺寸较小的图像;
[0053] 图像在通道1中依次经过3×3卷积,ReLU函数激活,批归一化层处理,乘以sigmoid函数归一化的可训练权重,获得通道1输出结果;
[0054] 图像在通道2中依次经过3×3卷积,ReLU函数激活,批归一化层,乘以sigmoid函数归一化的可训练权重,经上采样与通道1输出结果尺寸一致,获得通道2输出结果;
[0055] 其中,通道1和通道2中的3x3卷积层的输出通道数与两个输入中通道数小的保持一致;
[0056] 将通道1输出结果于通道2输出结果相加融合,获得当前单元模块R的输出结果。
[0057] 所述的步骤C和D中,计算损失的公式如下:
[0058] 总损失如下:
[0059]
[0060] 上式中,θi和θfuse分别表示三种子网络输出的损失的权重和最终预测的损失的权重,Pi代表三种不同的输出,Pfuse代表最终的边缘预测,Y表示真实边缘图;
[0061] l(Pfuse,Y)的计算公式如下:
[0062] 对于一张真实边缘图Y=(yj,j=1,...,|Y|),yj∈{0,1},定义Y+={yj,yj>η}和+ ‑Y‑={yj,yj=0},Y和Y分别代表正样本集和负样本集,其他像素全部忽略。
[0063] 因此l(Pfuse,Y)计算如下:
[0064]
[0065]
[0066] 式(3)中,P代表预测,pj代表在像素j处经过一个sigmoid函数处理后的值。α和β用于平衡正负样本,λ是控制系数大小的权重。
[0067] 本发明的方法受到生物视觉通路及其相关视觉机制启发,形成了一种模拟仿生轮廓增强编码器,能有效增强编码器的轮廓特征,从而使解码网络获得更丰富的特征信息,提升轮廓检测性能。

实施方案

[0078] 下面结合附图和实施例具体说明本发明。
[0079] 实施例1
[0080] 本实施例提供的一种学习生物视觉通路的轮廓检测方法,包括以下步骤:
[0081] 所述的学习生物视觉通路的轮廓检测方法,包括以下步骤:
[0082] A、构建深度神经网络结构,深度神经网络结构如图1‑9所示,具体如下:
[0083] 编码网络、解码网络、前馈融合模块;其中,编码网络为VGG16与FENet相结合的网络结构;解码网络为RDNet网络;
[0084] VGG16网络以池化层为分界线,分为S1、S2、S3、S4、S5阶段;
[0085] FENet包括四个子网络:单拮抗特征子网络、双拮抗特征子网络、V1输出子网络、V2输出子网络;
[0086] B、原始图像输入VGG16网络中,依次经S1、S2、S3、S4、S5阶段卷积处理,分别获得输出结果S1、S2、S3、S4、S5,其中输出结果S1送入解码网络;
[0087] 原始图像经过公式1处理,得到R‑G,G‑R,B‑Y,Y‑B四种输入;
[0088] SOi=Cm‑ωCn  (1)
[0089] 其中,i表示R‑G,G‑R,B‑Y,Y‑B;m和n都代表R、G、B、Y分量;ω为系数,取值为0.7;
[0090] 将R‑G,G‑R,B‑Y,Y‑B输入单拮抗特征子网络处理,获得输出结果a,输出结果a与输出结果S2相加融合后,得到融合结果a,输入解码网络;
[0091] 将R‑G,G‑R,B‑Y,Y‑B输入双拮抗特征子网络处理,获得输出结果b,输出结果b与输出结果S3相加融合后,得到融合结果b,输入解码网络;
[0092] 原始图像经过SCO算法得到V1区的边缘响应,输入V1输出子网络处理,获得输出结果c,输出结果c与输出结果S4相加融合后,得到融合结果c,输入解码网络;
[0093] 原始图像经过SED算法得到V2区的边缘响应,输入V2输出子网络处理,获得输出结果d,输出结果d与输出结果S5相加融合后,得到融合结果d,输入解码网络;
[0094] C、将输出结果a、输出结果b分别输入前馈融合模块中;
[0095] 输出结果S1、融合结果a、融合结果b、融合结果c、融合结果d经解码网络处理后,获得解码输出结果,输入前馈融合模块中,并计算其损失;
[0096] D、在前馈融合模块中,输出结果a、输出结果b分别经过1x1‑1卷积层后,经上采样恢复到原始分辨率,并计算其损失,最后乘以权重,获得的结果与解码输出结果相加融合后获得最终输出轮廓,并计算其损失。
[0097] SCO算法见如下文献记载:K.‑F.Yang,S.‑B.Gao,C.‑F.Guo,C.‑Y.Li,Y.‑J.Li,Boundary detection using double‑opponency and spatial sparseness constraint,IEEE Transactions on Image Processing,24(2015)2565‑2578.
[0098] SED算法见如下文献记载:A.Akbarinia,C.A.Parraga,Feedback and Surround Modulated Boundary Detection,International Journal of Computer Vision,126(2018)1367‑1380.
[0099] 所述的各步骤涉及的卷积表达式为m*n‑k conv+ReLU,其中,m*n表示卷积核的大小,k表示输出通道数,conv表示卷积公式,ReLU表示激活函数;m*n、k均为预设值;所述的最终融合层的卷积表达式为m*n‑k conv。
[0100] 所述的VGG16网络由原始VGG16网络经过如下结构调整获得:
[0101] 去掉S4和S5之间的池化层,同时把S5的三个卷积层依次改为空洞率为2、4、8的空洞卷积层。
[0102] 所述的单拮抗特征子网络包括:R‑G、G‑R、B‑Y、Y‑B四组单拮抗卷积处理阶段,SEM多尺度增强模块,3×3‑128卷积层;
[0103] R‑G,G‑R,B‑Y,Y‑B单拮抗卷积处理阶段相同,分别依次经过3×3‑3卷积层、3×3‑64、最大池化层、3×3‑128卷积层;
[0104] 单拮抗特征子网络处理过程如下:
[0105] 将R‑G,G‑R单拮抗卷积处理阶段处理后的特征相加融合,经过多尺度增强模块处理,获得单拮抗增强结果a;将B‑Y,Y‑B单拮抗卷积处理阶段处理后的特征相加融合,经过多尺度增强模块处理,获得单拮抗增强结果b;
[0106] 将单拮抗增强结果a与单拮抗增强结果b拼接,然后通过3×3‑128卷积层来匹配通道数后得到融合结果a。
[0107] 所述的双拮抗特征子网络包括:R‑G,G‑R,B‑Y、Y‑B双拮抗卷积处理阶段,SEM多尺度增强模块,1×1‑256卷积层;
[0108] R‑G,G‑R,B‑Y、Y‑B双拮抗卷积处理阶段相同,每个阶段的输入分成两路,每个阶段中的两路分别依次经过9×9‑3卷积层、9×9‑64卷积层、2×2最大池化层、9×9‑128卷积层、2×2最大池化层、9×9‑256卷积层,乘以sigmoid函数归一化的可训练权重后,相减,分别获得R‑G,G‑R,B‑Y、Y‑B双拮抗卷积处理结果;
[0109] 将R‑G,G‑R双拮抗卷积处理结果相加融合后,通过SEM多尺度增强模块处理,获得双拮抗增强结果a;将B‑Y、Y‑B双拮抗卷积处理结果相加融合后,通过SEM多尺度增强模块处理,获得双拮抗增强结果b;
[0110] 将双拮抗增强结果a与双拮抗增强结果b拼接,然后通过1×1‑256卷积层来匹配通道数后得到融合结果b。
[0111] 所述的V1输出子网络包括依次连接的三组2×2最大池层、SEM多尺度增强模块、3×3‑512卷积层;
[0112] V1区的边缘响应在V1输出子网络中经过三次2×2最大池化,然后经过SEM多尺度增强模块提取多尺度特征,最后经过3×3‑512卷积层匹配通道数,得到融合结果c。
[0113] 所述的V2输出子网络包括依次连接的三组2×2最大池层、SEM多尺度增强模块、3×3‑512卷积层;
[0114] V2区的边缘响应在V2输出子网络中经过三次2×2最大池化,然后经过SEM多尺度增强模块提取多尺度特征,最后经过3×3‑512卷积层匹配通道数,得到融合结果d。
[0115] 所述的解码网络由多个单元模块R组成的4层结构,第一层包含4个单元模块R,第二层包含3个单元模块,第三层包含2个单元模块R,第四层包含1个单元模块R;
[0116] 融合结果d和融合结果c分别输入第一层的第一个单元模块R中,经该单元模块R处理获得处理结果R1;
[0117] 处理结果dc与融合结果b分别输入第一层的第二个单元模块R中,经该单元模块R处理获得处理结果R2;
[0118] 处理结果R2与融合结果a分别输入第一层的第三个单元模块R中,经该单元模块R处理获得处理结果R3;
[0119] 处理结果R3与输出结果S1分别输入第一层的第四个单元模块R中,经该单元模块R处理获得处理结果R4;
[0120] 处理结果R1与处理结果R2分别输入第二层的第一个单元模块R中,经该单元模块R处理获得处理结果R5;
[0121] 处理结果R5与处理结果R3分别输入第二层的第二个单元模块R中,经该单元模块R处理获得处理结果R6;
[0122] 处理结果R6与处理结果R4分别输入第二层的第三个单元模块R中,经该单元模块R处理获得处理结果R7;
[0123] 处理结果R5与处理结果R6分别输入第三层的第一个单元模块R中,经该单元模块R处理获得处理结果R8;
[0124] 处理结果R8与处理结果R7分别输入第三层的第二个单元模块R中,经该单元模块R处理获得处理结果R9;
[0125] 处理结果R8与处理结果R9分别输入第四层的单元模块R中,经该单元模块R处理获得处理结果R10,处理结果R10经1×1‑1卷积获得解码输出结果。
[0126] 所述的单元模块R包含两个输入通道,通道1输入尺寸较大的图像,通道2输入尺寸较小的图像;
[0127] 图像在通道1中依次经过3×3卷积,ReLU函数激活,批归一化层处理,乘以sigmoid函数归一化的可训练权重,获得通道1输出结果;
[0128] 图像在通道2中依次经过3×3卷积,ReLU函数激活,批归一化层,乘以sigmoid函数归一化的可训练权重,经上采样与通道1输出结果尺寸一致,获得通道2输出结果;
[0129] 其中,通道1和通道2中的3x3卷积层的输出通道数与两个输入中通道数小的保持一致;
[0130] 将通道1输出结果于通道2输出结果相加融合,获得当前单元模块R的输出结果。
[0131] 所述的步骤C和D中,计算损失的公式如下:
[0132] 总损失如下:
[0133]
[0134] 上式中,θi和θfuse分别表示三种子网络输出的损失的权重和最终预测的损失的权重,Pi代表三种不同的输出,Pfuse代表最终的边缘预测,Y表示真实边缘图;
[0135] l(Pfuse,Y)的计算公式如下:
[0136] 对于一张真实边缘图Y=(yj,j=1,...,|Y|),yj∈{0,1},定义Y+={yj,yj>η}和Y‑+ ‑={yj,yj=0},Y和Y分别代表正样本集和负样本集,其他像素全部忽略。
[0137] 因此l(Pfuse,Y)计算如下:
[0138]
[0139]
[0140] 式(3)中,P代表预测,pj代表在像素j处经过一个sigmoid函数处理后的值。α和β用于平衡正负样本,λ是控制系数大小的权重。
[0141] 实施例2
[0142] 将本实施例方法与以下文献1的方法进行边缘检测结果的对比;
[0143] 文献1:S.Xie and Z.Tu,"Holistically‑nested edge detection,"in International Comference on Computer Vision,2015,pp.1395‑1403.
[0144] 文献1所用到的参数和其原文一样,都是已经保证是该模型的最优参数。
[0145] 对于最终的轮廓图进行定量的性能评估,我们采用和文献1中一样的性能测量标准,具体评价如公式(3)所示。
[0146]
[0147] 其中,P表示精确率,R表示召回率。F的值越大,表明性能越好。
[0148] 图10所示为从伯克利分割数据集(BSDS500)选取的两幅自然图像、对应的真实轮廓图、文献1方法检测的轮廓图,实施例1方法检测的轮廓。
[0149] 从实验的效果来看,实施例1检测方法优于文献1的检测方法。

附图说明

[0068] 图1为本发明实施例1的深度神经网络的整体结构图;
[0069] 图2为本发明实施例1的编码网络的整体结构图;
[0070] 图3为本发明实施例1的单拮抗特征子网络的结构图;
[0071] 图4为本发明实施例1的双拮抗特征子网络的结构图;
[0072] 图5为本发明实施例1的V1输出子网络的结构图;
[0073] 图6为本发明实施例1的V2输出子网络的结构图;
[0074] 图7为本发明实施例1的前馈融合模块的结构图;
[0075] 图8为本发明实施例1的解码网络的结构图;
[0076] 图9为本发明实施例1的解码网络中单元模块R的结构图;
[0077] 图10为本发明实施例1方案与文献1方案的轮廓检测效果对比图;
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号