[0027] 为了便于本领域的普通技术人员理解和实施本发明,下面结合附图及实施例对本发明做进一步的描述。
[0028] 请见图1,模型一共分为四个阶段,在模型训练过程中,输入的图像首先进行数据预处理,获得图像嵌入向量。然后图像嵌入向量依次经过通道注意力计算和空间自注意力计算。当四个阶段都计算完成后,图像被送入到分类器单元进行类别的概率计算,最终输出分类结果。
[0029] 本发明提供的是一种图像分类方法,具体包括以下步骤。
[0030] 步骤1:基于Pyramid Vision Transformer的架构,构建通道维度注意力网络和空间维度的自注意力网络。
[0031] 如图3所示,本实施例的通道维度注意力网络,第一层是两个平行的池化层,包括最大池化和平均池化。第二层是共享参数层,它由多层感知机(MLP)和一层隐藏层组成。第三层是最大池化特征图与平均池化特征图的元素求和操作。第四层是sigmoid层。第五层是针对原特征图的特征强化器softmax层。第六层是对第四层和第五层输出的两个权重矩阵按元素求和操作。第七层是第六层输出的权重矩阵与原特征图进行矩阵乘法操作,最后输出通道维度注意力特征图。
[0032] 如图4所示,本实施例的空间维度的自注意力网络,第一层是两个平行的卷积核,卷积核分别为7×7和3×3,步长分别为7和1,分别生成区域特征图和局部特征图。第二层是层归一化。第三层是卷积核为3×3,步长为2的卷积操作。第四层是自注意力计算,包括矩阵相乘,softmax计算,权重矩阵与原矩阵的乘积,最终输出空间维度自注意力特征图。
[0033] 步骤2:将输入图像预处理后输入通道维度注意力网络,生成基于通道维度的注意力特征图;
[0034] 如图2所示,本实施例对输入图像进行预处理,获得图像嵌入向量,其具体实现包括以下子步骤。
[0035] 步骤2.1:对于任意输入图像,通过带有零填充的卷积操作(kernal size及卷积核大小设置为2s‑1,stride及步幅设置为s,padding size及图像填充大小设置为s‑1)以及flatten(张量扁平化操作)操作生成一维图像嵌入向量 ,在 的最前面拼接分类向量 。
[0036] 步骤2.2:对输入图像进行二维位置编码,得到二维位置编码向量 ,将其插入到步骤2.1最终拼接后生成的一维向量中作为模型的最终输入x。
[0037] (1)。
[0038] 其中, 和 是分类向量和图像嵌入向量,[ || ]表示向量之间的拼接, 表示位置编码向量。
[0039] 请见图3,本实施例将预处理后的特征图像x输入至通道维度注意力网络,生成基于图像通道维度的注意力特征图;其具体实现包括以下子步骤。
[0040] 步骤2.3:将预处理后的特征图像 同时输入到自适应最大池化层和自适应平均池化层中,输出两个中间特征图 。
[0041] 步骤2.4:将 分别输入到共享参数层,该共享参数层由多层感知机(MLP)和一个隐藏层组成,隐藏层的主要作用是降低参数开销,本发明将参数降低比率r设置为16,因此在MLP中,第一个全连接层输出的特征图为
,经过RELU激活函数得到
,紧接着再通过一个全连接层
将特征图的维度转换为 。将共享参数层输
出的平均池化特征图和最大池化特征图进行元素求和操作,最后再连接一个sigmoid层生成通道注意力权重矩阵Mc(x),计算过程可以概括为公式(2)。
[0042] (2)。
[0043] 步骤2.5:将原特征图像 输入到softmax强化特征层,输出原特征图像的权重矩阵 ,将权重矩阵 与Mc(x)进行元素求和操作,将求和结果和原特征图像x进行乘法操作,进行维度转换后生成最终的通道关注图 。公
式(3)描述了该步骤的计算过程。
[0044] (3)。
[0045] 步骤3:将通道关注图输入至空间维度的多尺度自注意力网络中,生成基于特征图空间维度的注意力特征图;其具体实现包括以下子步骤。
[0046] 步骤3.1:将通道关注图 维度重置为二维局部特征图作为空间维度的多尺度自注意力网络的输入。
[0047] 步骤3.2:将自注意力网络划分为局部特征和区域特征两条特征提取路线。
[0048] 第一条局部特征路线将二维局部特征图 进行卷积核大小为3×3,步长为1的深度可分离卷积操作,生成Query矩阵。
[0049] 第二条区域特征路线使用卷积核大小为7×7、步长为7的深度可分离卷积生成二维区域特征图 。
[0050] 步骤3.3:为了使数据均匀分布,使模型的训练更加稳健,我们将二维区域特征图维度重置为一维向量,进行层归一化操作后再重新维度重置为二维特征图。
[0051] 步骤3.4:对重新生成的二维区域特征图 使用卷积核大小为3×3,步长为2的深度可分离卷积操作,生成Key矩阵和Value矩阵。
[0052] 步骤3.5:将Query矩阵,Key矩阵以及Value矩阵进行Flattebn操作,将矩阵从二维矩阵扁平化为一维向量。随后,我们按照传统的自注意力机制的矩阵计算方式进行注意力计算,生成最终的空间维度自注意力特征图 。空间维度的自注意力计算过程可以描述为公式(4)。
[0053]
[0054]
[0055]
[0056]
[0057] (4)。
[0058] 步骤4:重复步骤2和3直到第四个阶段,将最终生成的多维度多尺度注意力特征图通过分类器单元将模型的输出转换成概率表示,完成图像分类。
[0059] 在本实例中,通过训练多维度多尺度的自注意力网络实现图像分类过程。在训练过程中,正向传播过程表现为:每个阶段反复地更新CLS分类向量,从浅到深地提取多维度多尺度的图像特征。在最后一个阶段,将最终的CLS向量经过前馈神经网络层FNN生成num×1的一维向量,其中num表示训练集的图像类别个数,随后利用softmax函数对映射结果向量进行归一化处理,得到概率结果,将最终结果与原始图像的标签向量进行比对,进而实现反向传播过程,完成模型的有监督训练。
[0060] 在本申请的一个具体实施方式中,将上述方法应用到ImageNet1K数据集中,通过与其它经典的分类学习方法对比,展示了本申请所提方法的有效性。
[0061] (1)数据集介绍。
[0062] 我们使用ImageNet1K数据集的训练集训练本实施例提出的多维度多尺度自注意力图像分类方法,并使用验证集上的最高精度作为评估模型性能的指标。ImageNet1K数据集包含130万个图像和1000类,训练和验证图像的数量分别为128万和50000。我们使用所有图像进行训练,在ImageNet1K上微调模型。
[0063] (2)实验设置。
[0064] 在我们的实验中,我们应用mixup(混类增强)、随机水平翻转、标签平滑和随机擦除作为数据增强算法。我们采用带有余弦学习速率调度的AdamW优化算法。我们使用300个时间段训练模型,权重衰减设置为0.01,初始学习率设置为0.001,动量设置为0.9。在训练期间,我们随机裁剪224×224区域,并在将短边调整为256后进行224×244中心裁剪以进行评估,此外,我们的模型在4个RTX 3090Ti服务器上进行训练。
[0065] (3)实验分析。
[0066] 在本节中,我们使用相同等级的参数数量作为模型性能比较的标准,并将提出的多维度多尺度自注意力图像分类方法与其他两种与我们的方法高度相关的方法进行比较,包括代表性的基于卷积神经网络的图像分类方法(表1)以及基于Transformer的图像分类方法(表2)。
[0067] 在 ImageNet1K数据集中,我们将提出的多维度多尺度自注意力图像分类方法与基于卷积神经网络的分类方法进行了比较。如表2,与 ResNet 残差网络系列的方法(包括 ResNet、SEResNet和SENet)相比,我们的方法体积更小,运行效率更高,精度更高。这主要源于我们方法中的注意力机制,它可以通过细化特征映射来提高模型性能。
[0068] 表1 与基于卷积神经网络的图像分类方法性能比较结果
[0069]
[0070] 我们进一步将多维度多尺度自注意力图像分类方法与最先进的基于视觉Transformer的图像分类方法进行比较。我们的方法在所有方面都始终优于基线方法ViT和PVT,并且我们以更少的参数和 FLOPs 实现了更高的准确度。优点主要得益于我们的方法实现了更抽象的高级特征表示并增强了细粒度特征提取能力。
[0071] 表2 与基于Transformer的图像分类方法性能比较结果
[0072]
[0073] (4)注意力图像可视化。
[0074] 为了实现方法的定性分析,我们用Grad‑CAM网络(对深度网络进行基于梯度的视觉解释网络)对所提出的方法以及基线方法PVT进行注意力图像可视化。由于网络最后一层输出的特征图具有丰富的高级语义和详细的空间信息,我们将模型的权重输入到Grad‑CAM网络中,目的是寻找所有特征的梯度并在最后一层映射,最终根据梯度信息计算每个神经元的重要性。我们提出的方法以及PVT的权重都是用ImageNet1K数据集训练的。本实施例从ImageNet1K数据集的验证集中针对大目标物体和小目标物体各选取了四张图像(目标物体占据图像尺寸的比例大于三分之一划分大目标物体,小于三分之一划分为小目标物体),请见图5和图6,分别展示了传统自注意力方法和本实施例提出的多维度多尺度自注意力方法的注意力图像可视化结果。
[0075] 在图5中,PVT和本文的方法的识别效果证明了即使多尺度自注意力的关注范围是局部的和区域的,它仍然可以获取有用的全局信息。在图6中,我们观察到对于复杂图像中的小目标物体,例如石英钟(第2列),PVT会受到图像中其他类似物体的混淆。相比之下,即使图像很复杂,具有其他相似的视觉外观,我们的方法可以准确地定位和覆盖目标对象。除此之外,我们发现由PVT实现的每个注意力图都包含噪声扰动。这些结果进一步证明了多维度多尺度表示学习可以有效降低图像分类方法在训练过程中的噪声干扰,并且可以更好地利用目标物体的局部位置信息聚合细粒度特征进行定位和覆盖目标地区。
[0076] 基于自注意力机制的图像分类问题是当下研究与应用最为广泛的分类问题之一,图像的细粒度特征表示一直是该领域的研究重点和难点之一。本发明提出了一种基于多维度多尺度自注意力机制的图像分类方法。首先,我们将通道注意力作为第一维度的表征学习,将多尺度的空间自注意力作为第二维度的表征学习,相比于单一的空间自注意力,模型能够学习到更加抽象的高级特征表示。其次,我们提出了一种新的多尺度空间自注意力方法,通过卷积实现局部和区域特征之间的信息交互。此外,我们在通道注意力中引入了原始特征强化器,抑制网络的更深层可能出现的权重矩阵趋向于0时产生的噪声扰动情况,优化模型的训练过程。相比于传统的基于自注意力机制的图像分类方法,该方法能够提高模型的泛化性能,不但可以增强模型对细粒度特征的提取能力,还可以有效地从图像中提取全局信息,降低模型训练过程中出现的噪声扰动,提升模图像分类性能。