[0005] 本发明的目的就是针对现有技术的不足,提供一种基于非对称交叉融合的多光谱图像语义分割方法。本发明方法通过构建非对称结构编码器分别对RGB图像与Thermal图像进行特征提取,充分考虑RGB图像的颜色和纹理信息和Thermal图像的轮廓信息;同时设计门控交叉融合机制对两种光谱特征图中的显著性区域进行自适应融合,学习视觉显著性的先验知识,有利于提升模型在不同光照强度下对不同语义类别的判别能力,从而提高分割精度和鲁棒性。
[0006] 本发明方法首先获取多光谱图像数据集合,然后进行如下操作:
[0007] 步骤(1)对多光谱数据集进行预处理,将多光谱图像输入至非对称编码器,获得RGB图像的特征图和显著置信度,以及Thermal图像的特征图和显著置信度;
[0008] 步骤(2)构建多光谱显著性感知模块,输入为RGB图像和Thermal图像,输出为RGB显著伪标记和Thermal显著伪标记;
[0009] 步骤(3)构建门控交叉融合模块,输入为RGB图像和Thermal图像的特征图及其显著置信度,输出为融合特征图;
[0010] 步骤(4)将融合特征图输入由转置卷积组成的解码器,获得预测分割标记;
[0011] 步骤(5)对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络,使用交叉熵损失函数和L1损失函数进行优化,获得已训练的多光谱图像语义分割网络;
[0012] 步骤(6)将新多光谱图像输入至已训练的分割网络,输出对应的语义分割结果。
[0013] 步骤(1)具体是:
[0014] (1 ‑ 1) 对 多 光 谱 数 据 集 进 行 预 处 理 操 作 ,得 到 训 练 数 据 集其中Ii表示第i个增强多光谱图像训练样本,共N个训练样本,4表示多光谱通道数量,H表示多光谱图像的高度,W表示多光谱图像的宽度,其中表示多光谱由配对的RGB图像与Thermal图像拼接而成, 表示第i个三
通道的RGB图像样本, 表示第i个单通道的Thermal图像样本,上标r表示RGB,上标t表示Thermal;
[0015] (1‑2)进行像素级标记,记为标记集合 其中Yi是高为H、宽为W的矩阵,像素级标记Yi的元素取值为{0,1,…,K},其中K为待分割的类别总数,在训练阶段每张多光谱都有对应的像素级标记,处理新多光谱时不会给出像素级标记;
[0016] (1‑3)构建非对称编码器中的RGB编码器,即大型图像库ImageNet上预训练并去除全局池化层与全连接层的卷积神经网络ResNet,对训练数据集 的第i个RGB图像样本 依次提取RGB四个编码阶段特征图 其中H1=H/4,W1=W/4,Hj+1=Hj/2,Wj+1=Wj/2,Hj×Wj表示特征图分辨率,C1<C2<C3<C4表示特征图的通道维度,根据神经网络中间特征图的Hj维度和Wj维度的不同将ResNet分为4个编码阶段,第j个编码阶段为在ResNet中由多个卷积层组成的模块;
[0017] (1‑4)构建RGB置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将RGB第四编码阶段特征图 经过RGB置信度预测分类器r r得到RGB显著置信度Pi,0≤Pi≤1;
[0018] (1‑5)构建非对称编码器中的轻量级Thermal编码器,对训练数据集 的第i个Thermal图像样本 依次提取Thermal各个编码阶段特征图 其中Thermal编码器分为四个阶段,每个阶段均由7×7卷积层(7×7表示卷积核大小)、2×2最大池化层(2×2表示下采样比例)和两个结构相同的上下文卷积模块组成;将Thermal图像样本 输入Thermal编码器第一阶段的7×7卷积层、2×2最大池化层,获得浅层视觉特征图构建上下文卷积模块,具体包含了两条并行的特征提取支路:其中一条支路由
1×1卷积层、空洞率为1和分组数为C1的3×3卷积层(3×3表示卷积核大小)与1×1卷积层(1×1表示卷积核大小)组成;另一条支路由空洞率为2和分组数为C1的3×3卷积层与1×1卷积层组成;每个卷积层之后,经过批归一化操作和线性整流函数,将浅层视觉特征图x输入上下文卷积模块得到第一支路特征图 和第二支路特征图
再经过通道维度上的拼接得到初级上下文特征图 将初级上下文特征
图 输入到第二个上下文卷积模块,获得高级上下文特征图 再经过一次2×2最大池化层得到第一编码阶段Thermal特征图 将第一编码阶段特征图
输入到Thermal编码器的后续三个编码阶段获得后续特征图,最终输出四个编码阶段的Thermal特征图
[0019] (1‑6)构建Thermal置信度预测分类器,由全局平均池化操作、全连接层、线性整流函数、全连接层、Sigmoid函数组成,将Thermal第四编码阶段特征图 经过Thermal置信度t t预测分类器得到Thermal显著置信度Pi,0≤Pi≤1。
[0020] 步骤(2)具体是:
[0021] (2‑1)构建多光谱显著性感知模块,将RGB图像 进行静态细粒度显著性计算,得到RGB显著图 将Thermal图像 进行静态细粒度显著性计算,得到Thermal显著图静态细粒度显著性算法是一种基于中心像素点与周围像素点之间的差异计算显著值的传统图像处理方法;
[0022] (2‑2)对RGB显著图 通过OSTU(大津法)进行阈值分割得到RGB二值图像对Thermal显著图 通过OSTU(大津法)进行阈值分割得到Thermal二值图像[0023] (2‑3)计算RGB二值图像 与像素级标记Yi的交并比 计算Thermal二值图像 与像素级标记Yi的交并比
[0024] (2‑4)通过交并比得到两种光谱图像的显著伪标记:RGB显著伪标记‑7Thermal显著伪标记 1e 的作用是为
了防止除数为零。
[0025] 进一步,步骤(3)具体是:
[0026] (3‑1)构建门控交叉融合模块,由光谱引导模块和Sigmoid函数组成,将Thermal第四编码阶段特征图 输入到光谱引导模块得到Thermal第四编码阶段光谱特征图光谱引导模块由1×1卷积层、7×7卷积层、1×1卷积层组成,目的是利用大感受野捕获重要的细节区域,进而感知该编码阶段特征图的显著性区域;
[0027] (3‑2)将RGB第四编码阶段特征图 输入到新构建的光谱引导模块得到RGB第四编码阶段光谱特征图 将Thermal第四编码阶段光谱特征图 经过Sigmoid函数再与RGB第四编码阶段光谱特征图 进行逐元素乘法操作,得到RGB第四编码阶段多光谱融合特征图
[0028] (3‑3)将RGB第四编码阶段光谱特征图 经过Sigmoid函数,再与Thermal第四编码阶段光谱特征图 进行逐元素乘法操作,得到Thermal第四编码阶段多光谱融合特征图 将Thermal第四编码阶段特征图 与Thermal第四编码阶段多光谱融合t
特征图 进行逐元素相加再乘以Thermal显著置信度Pi ,得到Thermal第四编码阶段增强特征图 将RGB第四编码阶段特征图 与RGB第四编码阶段多光谱融合特征图r
进行逐元素相加再乘以RGB显著置信度Pi ,得到RGB第四编码阶段增强特征图将Thermal第四编码阶段增强特征图 和RGB第四编码阶段增强特征图
进行逐元素相加得到第四编码阶段融合特征图
[0029] (3‑4)将Thermal第三编码阶段特征图 和RGB第三编码阶段特征图输入到新构建的门控交叉融合模块,经过与(3‑1)~(3‑3)同类操作,获得第三编码阶段融合特征图 将Thermal第二编码阶段特征图 和RGB第二编码阶段特征图 输入到新构建的门控交叉融合模块,经过与(3‑1)~(3‑3)同类操作,获得第二编码阶段融合特征图 将Thermal第一编码阶段特征图
和RGB第一编码阶段特征图 输入到新构建的门控交叉融合模块,经
过与(3‑1)~(3‑3)同类操作,获得第一编码阶段融合特征图
[0030] 更进一步,步骤(4)具体是:
[0031] (4‑1)构建由五个转置卷积层组成的解码器,转置卷积即卷积的逆向过程,将第一编码阶段融合特征图fi,1输入到解码器第一个转置卷积层得到第一编码阶段修正特征图[0032] (4‑2)将第二编码阶段融合特征图fi,2输入到解码器第二个转置卷积层,得到第二编码阶段修正特征图 将第三编码阶段融合特征图fi,3输入到解码器第三个转置卷积层,得到第三编码阶段修正特征图 将第四编码阶段融合特征图fi,4输入到解码器第四个转置卷积层,得到第四编码阶段修正特征图
[0033] (4‑3)将各个编码阶段修正特征图进行通道维度上的拼接,得到集成修正特征图[0034] (4‑4)将集成修正特征图ti输入到解码器的第五个转置卷积,得到预测分割标记多光谱图像中每个像素对应的类别为这K个类别中概率最大的类别。
[0035] 再进一步,步骤(5)的具体是:
[0036] (5‑1)将预测分割标记 与像素级标记Yi作为输入,利用交叉熵损失函数计算损失值 h表示像素点纵轴坐标值,w表示像素点横轴坐标值,k表示K个语义类别中的第k个类别;
r
[0037] (5‑2)将RGB显著伪标记 和RGB显著置信度Pi作为输入,利用L1损失函数计算损失值: 其中||·||1表示L1范数;将Thermal显著伪标记 和Thermal显著置t信度Pi作为输入,利用L1损失函数计算损失值:
[0038] (5‑3)将损失值 作为输入,得到最终的损失函数为 λ>0为置信度损失函数权重;
[0039] (5‑4)通过随机梯度下降算法对由非对称编码器、多光谱显著性感知模块、门控交叉融合模块、解码器构成的分割网络模型进行优化,获得训练好的多光谱图像语义分割网络。
[0040] 还进一步,步骤(6)具体是:
[0041] (6‑1)获取新多光谱图像,并将其按照步骤(1)方法获得两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度;
[0042] (6‑2)将两种光谱的各个编码阶段特征图、RGB显著置信度和Thermal显著置信度按照步骤(3)和(4)进行操作,最终输出相应的分割结果 其中第一个维度表示语义类别。
[0043] 本发明方法利用非对称编码器和门控交叉融合模块对多光谱图像进行语义分割,具有以下几个特点:1)不同于已有方法利用两个大型对称编码器对RGB图像和Thermal图像进行特征提取,所设计的非对称编码器对多光谱进行特征提取,通过构建轻量级Thermal编码器从低层特征表示中捕获边缘、轮廓等信息以及从高层特征表示中捕获语义信息,进而减少冗余的Thermal图像编码特征和整体模型的参数量;2)通过构建门控交叉融合模块,根据计算多光谱显著置信度对两种光谱的特征图分配不同权重,能够自适应地选择两种光谱特征图中显著性区域进行融合,有效地选取两种光谱的互补特征进行融合,获得更加精确的分割结果。
[0044] 本发明方法适用于对实时性要求严格的多光谱图像语义分割,有益效果包括:1)通过构建非对称编码器对多光谱图像进行特征提取,能有效地减少冗余特征和整体网络的参数量,能够提高分割速度;2)通过构建门控交叉融合模块能够在不显著增加网络复杂度的情况下,能够自适应选择多光谱特征图中显著性区域进行有效融合,获得更加精确的分割结果。本发明具有高效的多光谱特征提取能力和有效的特征交叉融合能力,可应用于自动驾驶,无人机侦察、机器视觉等实际领域。