首页 > 专利 > 杭州电子科技大学 > 一种图像分类方法专利详情

一种图像分类方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2022-09-15

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2022-11-08

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2023-01-03

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2042-09-15

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202211120458.1	申请日	2022-09-15
公开/公告号	CN115222998B	公开/公告日	2023-01-03
授权日	2023-01-03	预估到期日	2042-09-15
申请年	2022年	公开/公告年	2023年
缴费截止日
分类号	G06V10/764 、G06V10/30 、G06V10/40 、G06V10/774 、G06V10/82 、G06N3/04 、G06N3/08	主分类号	G06V10/764
是否联合申请	联合申请	文献类型号	B
独权数量	2	从权数量	5
权利要求数量	7	非专利引证数量	0
引用专利数量	2	被引证专利数量	0
非专利引证
引用专利	CN113344146A、CN114067107A	被引证专利
专利权维持	0	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学、浙江大华技术股份有限公司	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学,浙江大华技术股份有限公司	当前专利权人	杭州电子科技大学,浙江大华技术股份有限公司
发明人	颜成钢、殷俊、颜拥、王洪波、胡冀、熊剑平、李亮、郑博仑、林聚财、孔书晗、王亚运、孙垚棋、金恒、朱尊杰、高宇涵、殷海兵、王鸿奎、陈楚翘、刘一秀、李文超、王廷宇、张勇东、张继勇	第一发明人	颜成钢
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	2	发明人数量	23
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明公开了一种图像分类方法。首先构建通道维度注意力网络和空间维度多尺度自注意力网络；然后将输入图像预处理后输入通道维度注意力网络，生成基于通道维度的注意力特征图；将基于通道维度的注意力特征图输入至空间维度的多尺度自注意力网络，生成基于特征图空间维度的多尺度自注意力特征图；最后将最终生成的多维度多尺度注意力特征图输入到分类器单元中，将模型输出的向量转换成概率表示，完成图像分类。本发明设计了一种新的多尺度自注意力机制，它利用一系列的深度可分离卷积操作，生成特征信息高度相关的局部特征图和区域特征图，不但可以强化自注意力机制的细粒度特征提取能力，还可以高效的提取有效的全局信息。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4
说明书附图：图5
说明书附图：图6

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2023-01-03	授权
2	2022-11-08	实质审查的生效	IPC(主分类): G06V 10/764 专利申请号: 202211120458.1 申请日: 2022.09.15
3	2022-10-21	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种图像分类方法，其特征在于包括以下步骤：
步骤1:基于PVT的架构，构建通道维度注意力网络和空间维度多尺度自注意力网络；
步骤2:将输入图像预处理后输入通道维度注意力网络，生成基于通道维度的注意力特征图；
步骤3:将基于通道维度的注意力特征图输入至空间维度多尺度自注意力网络，生成基于特征图空间维度的多尺度自注意力特征图；
步骤4:重复步骤2和步骤3直到架构内的第四个阶段，将最终生成的多维度多尺度注意力特征图输入到分类器单元中，将模型输出的向量转换成概率表示，完成图像分类；
PVT的架构一共包含四个阶段，通过嵌入层来逐渐降低输入的分辨率；每个阶段中，分别构建通道维度注意力网络和空间维度多尺度自注意力网络；
步骤1中所述的通道维度注意力网络：
第一层是两个平行的池化层，包括最大池化和平均池化；
第二层是共享参数层，由多层感知机和一层隐藏层组成；
第三层是最大池化特征图与平均池化特征图的元素求和操作；
第四层是sigmoid层；
第五层是针对原特征图的softmax层；
第六层是对第四层和第五层输出的两个权重矩阵按元素求和操作；
第七层是第六层输出的权重矩阵与原特征图进行矩阵乘法操作，最后输出通道维度特征图；
步骤1中所述的空间维度的多尺度自注意力网络：
第一层是两个平行的卷积核，卷积核分别为7×7和3×3，步长分别为7和1；
第二层是层归一化操作；
第三层是卷积核为3×3，步长为2的卷积操作；
第四层是自注意力计算，包括矩阵相乘，softmax层归一化，权重矩阵与原矩阵的乘积，最终输出空间维度注意力特征图。

2.根据权利要求1所述的一种图像分类方法，其特征在于步骤2中对输入图像使用带有零填充的卷积操作生成图像嵌入向量；为了实现图像分类任务，在图像嵌入向量前拼接一个分类向量CLS，将其作为通道维度注意力网络的输入；将中间特征图输入至通道维度注意力网络，生成基于图像通道维度的注意力特征图。

3.根据权利要求1或2所述的一种图像分类方法，其特征在于步骤3中，对通道维度的注意力特征图进行维度重置，生成二维的局部特征图，并将其作为空间维度的多尺度自注意力网络的输入；利用卷积核的层次结构，通过使用不同的卷积核和步长的深度可分离卷积操作，将自注意力网络划分为局部特征计算和区域特征计算两条路线，生成语义特征高度相关的局部特征图和区域特征图；将局部的上下文信息作为查询Query，区域的上下文信息作为健值Key和Value来计算最终的空间维度多尺度自注意力特征图。

4.根据权利要求3所述的一种图像分类方法，其特征在于步骤4中，反复的在四个阶段中更新CLS分类向量，由浅到深的提取多维度多尺度的高级语义特征；在最后一个阶段，将最终的CLS分类向量输入到分类器单元的前馈神经网络层FNN生成num×1的向量，其中num表示训练集的图像类别个数，最终通过一个分类器单元的softmax层，完成类别概率计算，完成最终的分类。

5.根据权利要求2所述的一种图像分类方法，其特征在于步骤2中将输入图像预处理后输入通道维度注意力网络，生成基于通道维度的注意力特征图；具体实现包括以下子步骤：
步骤2.1：对于任意输入图像，通过带有零填充的卷积操作以及flatten操作生成一维图像嵌入向量，在图像嵌入向量的最前面拼接分类向量；
步骤2.2：对输入图像进行二维位置编码，得到二维位置编码向量，并将其插入到步骤
2.1最终拼接后生成的一维向量中作为模型的最终输入x：
x＝[xcls||xpatch]+xpos            (1)
其中，xcls和xpatch是分类向量和图像嵌入向量，[||]表示向量之间的拼接，xpos表示位置编码向量。

6.根据权利要求2所述的一种图像分类方法，其特征在于步骤2中将预处理后的特征图x输入至通道维度注意力网络，生成基于图像通道维度的注意力特征图；其具体实现包括以下子步骤：
H×W×C
步骤2.3：将预处理后的特征图像x∈R 同时输入到自适应最大池化层和自适应平C×1×1
均池化层中，输出两个中间特征图xAvg，xMax∈R ；
步骤2.4：将中间特征图xAvg，xMax分别输入到共亨参数层，该共亨参数层由多层感知机和一个隐藏层组成；将参数降低比率r设置为16，因此在多层感知机中，第一个全连接层输(16/C)×1×1
出的特征图为xAvg(FC1)，xMax(FC2)∈R ，经过RELU激活函数得到xAvg(RELU)，xMax(RELU)∈R(16/C)×1×1 C×1×1
，紧接着再通过一个全连接层将特征图的维度转换为xAvg(FC2)，xMax(FC2)∈R ；将共享参数层输出的平均池化特征图和最大池化特征图进行元素求和操作，最后再连接一个sigmoid层生成通道注意力权重矩阵Mc(x)，计算过程概括为公式(2)：
Mc(x)＝σ(MLP(AvgPool(x))+MLP(Maxpool(x)))      (2)
H×W×C
步骤2.5：将原特征图像x∈R 输入到softmax强化特征层，输出原特征图像的权重矩阵xw，将权重矩阵xw与Mc(x)进行元素求和操作，将求和结果和原特征图像x进行乘法操H×W×C
作，进行维度转换后生成最终的通道关注图x1∈R ，计算过程如下：
x1＝(Mc(x)+softmax(x))x           (3)。

7.根据权利要求3所述的一种图像分类方法，其特征在于步骤3具体实现包括以下子步骤：
H×W×C H×W×1
步骤3.1：将通道关注图x1∈R 维度重置为二维局部特征图localx∈R 作为空间维度的多尺度自注意力网络的输入；
步骤3.2：将自注意力网络划分为局部特征和区域特征两条特征提取路线；
H×W×1
第一条局部特征路线将二维局部特征图localx∈R 进行卷积核大小为3×3，步长为
1的深度可分离卷积操作，生成Query矩阵；
第二条区域特征路线使用卷积核大小为7×7、步长为7的深度可分离卷积生成二维区(H/7)×(W/7)×1
域特征图Regionx∈R ；
(H/7)×(W/7)×1
步骤3.3：将二维区域特征图Regionx∈R 维度重置为一维向量，进行层归一化操作后再重新维度重置为二维区域特征图；
(H/7)×(W/7)×1
步骤3.4：对重新生成的二维区域特征图Regionx∈R 使用卷积核大小为3×
3，步长为2的深度可分离卷积操作，生成Key矩阵和Value矩阵；
步骤3.5：将Query矩阵、Key矩阵以及Value矩阵进行Flattebn操作，将矩阵从二维矩阵扁平化为一维向量；随后根据自注意力机制的矩阵计算方式进行注意力计算，生成最终的空间维度自注意力特征图SA(x1)；空间维度的自注意力计算过程描述为公式(4)：
localx＝Reshape2D(x1)
Q＝Flatten(Conv2d(localx，k))
regionalx＝Reshape2D(LN(Flatten(Conv2d(localx，k))))
K，V＝Flatten(Conv2d(regionalx，k))

说明书

技术领域

[0001] 本发明属于图像分类技术领域，具体涉及一种图像分类方法，尤其是一种基于多维度多尺度特征表示的自注意力机制的图像分类方法。

背景技术

[0002] 近年来，Transformer凭借其强大的上下文建模能力，已被广泛用于NLP领域。计算机视觉领域的研究人员也跃跃欲试，将Transformer中设计的核心即自注意力机制引入到视觉任务中。ViT作为首个将Transformer引入CV领域的模型，首先证明了完全依赖Transformer中的Self‑Attention机制可以在图像分类方面实现最先进的性能。目前，基于自注意力机制的图像分类方法已经成为了当前研究的主流方法。然而，由于ViT继承了Transofrmer的整个架构，而Transformer最初是在机器翻译任务中被提出来的，它的设计更适用于NLP领域中的任务，因此ViT的研究进展中存在以下瓶颈。

[0003] （1)ViT继承了Transformer的柱状结构。它将粗图像块作为输入，只能输出低分辨率的特征图，这在计算和存储方面都很昂贵。目前，学者们通过引入特征金字塔来缓解这个问题。(2)Transformer按顺序对标记的图像块(tokens)之间的关系进行建模。在图像分类任务中，输入通常是2D图像，像素具有高度空间结构，ViT的这种方式破坏了二维图像的结构信息，不利于对不同尺度的特征图进行上下文建模。一些学者尝试引入卷积操作、overlap pooling以及zero‑padding等方法来解决这一问题。(3)全局范围内的自注意力机制。自注意力通过关注全局信息并在投影空间中取其加权平均来计算序列中某个位置的响应。它并没有考虑局部的细粒度特征之间的关注度，缺乏感知局部特征信息的能力。基于前两种瓶颈所提出的最新骨干技术如Pyramid Vision Transformer（Wenhai Wang, Enze Xie, Xiang Li, Deng‑Ping Fan, Kaitao Song, Ding Liang, Tong Lu, Ping Luo, and Ling Shao. 2021.Pyramid Vision Transformer: A Versatile Backbone for Dense Prediction Without Convolutions. 568–578），学者们相继设计了各种多尺度Vision Transformer。他们中的大多数人通过在自注意力机制外创建额外的tokens来实现不同尺度的自注意力计算的融合，虽然提高了模型的性能，但在实现部署方面却很复杂。

[0004] 除了以上被大家广泛关注到的瓶颈之外，我们发现自注意力机制压缩了特征图的通道信息，只在空间维度上计算注意力。这种单一方式的注意力在表示特征之间的重要程度时缺乏代表性，并且模型在学习过程中也会存在噪声扰动。

发明内容

[0005] 本发明的目的是针对以上瓶颈，提出一种图像分类方法，从而探索自注意力机制在图像分类任务上的应用。

[0006] 本发明解决其技术问题所采用的技术方案如下。

[0007] 步骤1:基于Pyramid Vision Transformer（PVT）的架构，构建通道维度注意力网络和空间维度多尺度自注意力网络。

[0008] Pyramid Vision Transformer（PVT）的架构一共包含四个阶段（Stage），通过嵌入层（Patch Embedding）来逐渐降低输入的分辨率。每个阶段中，分别构建通道维度注意力网络和空间维度多尺度自注意力网络。

[0009] 步骤2:将输入图像预处理后输入通道维度注意力网络，生成基于通道维度的注意力特征图。

[0010] 步骤3:将基于通道维度的注意力特征图输入至空间维度的多尺度自注意力网络，生成基于特征图空间维度的多尺度自注意力特征图。

[0011] 步骤4:重复步骤2和3直到第四个阶段，将最终生成的多维度多尺度注意力特征图输入到分类器单元中，将模型输出的向量转换成概率表示，完成图像分类。

[0012] 进一步的，步骤1中所述的通道维度注意力网络，第一层是两个平行的池化层，包括最大池化和平均池化。第二层是共享参数层，由多层感知机和一层隐藏层组成。第三层是最大池化特征图与平均池化特征图的元素求和操作。第四层是sigmoid层。第五层是针对原特征图的softmax层。第六层是对第四层和第五层输出的两个权重矩阵按元素求和操作。第七层是第六层输出的权重矩阵与原特征图进行矩阵乘法操作，最后输出通道维度特征图。

[0013] 进一步的，步骤1中所述的空间维度的多尺度自注意力网络，第一层是两个平行的卷积核，卷积核分别为7×7和3×3，步长分别为7和1。第二层是层归一化操作。第三层是卷积核为3×3，步长为2的卷积操作。第四层是自注意力计算，包括矩阵相乘，softmax层归一化，权重矩阵与原矩阵的乘积，最终输出空间维度注意力特征图。

[0014] 在步骤2中，对输入图像使用带有零填充的卷积操作生成图像嵌入向量；为了实现图像分类任务，在图像嵌入向量前拼接一个分类向量CLS，将其作为通道维度注意力网络的输入；将中间特征图输入至通道维度注意力网络，生成基于图像通道维度的注意力特征图。

[0015] 在步骤3中，对通道维度的注意力特征图进行维度重置，生成二维的局部特征图，并将其作为空间维度的多尺度自注意力网络的输入；利用卷积核的层次结构，通过使用不同的卷积核和步长的深度可分离卷积操作，将自注意力网络划分为局部特征计算和区域特征计算两条路线，生成语义特征高度相关的局部特征图和区域特征图。将局部的上下文信息作为查询（Query），区域的上下文信息作为健值（Key和Value）来计算最终的空间维度多尺度自注意力特征图。

[0016] 在步骤4中，反复的在四个阶段中更新CLS分类向量，由浅到深的提取多维度多尺度的高级语义特征。在最后一个阶段，将最终的CLS向量输入到分类器单元的前馈神经网络层FNN生成num×1的向量，其中num表示训练集的图像类别个数，最终通过一个分类器单元的softmax层，完成类别概率计算，完成最终的分类。

[0017] 相对于现有技术，本发明的有益效果包括。

[0018] 本发明在自注意力机制的基础上引入通道注意力，建立了多维度的表征学习空间。在图像分类任务中，相比于传统的自注意力方法，本发明能够更加高效地实现图像的通道维度和空间维度的特征提取，让模型学习到更抽象的高层特征表示，降低模型学习过程中的噪声扰动。

[0019] 在自注意力网络的设计中，不同于传统的在全局范围内计算自注意力的方法，本发明设计了一种新的多尺度自注意力机制，它利用一系列的深度可分离卷积操作，生成特征信息高度相关的局部特征图和区域特征图，不但可以强化自注意力机制的细粒度特征提取能力，还可以高效的提取有效的全局信息。

[0020] 本发明从优化模型训练的角度出发，在通道注意力中通过softmax层实现了一个原始特征强化器，在通道注意力和空间注意力叠加的深层网络中，增强有效的特征表示，抑制重复的点积运算使得权重矩阵趋向于0时产生的噪声。

实施方案

[0027] 为了便于本领域的普通技术人员理解和实施本发明，下面结合附图及实施例对本发明做进一步的描述。

[0028] 请见图1，模型一共分为四个阶段，在模型训练过程中，输入的图像首先进行数据预处理，获得图像嵌入向量。然后图像嵌入向量依次经过通道注意力计算和空间自注意力计算。当四个阶段都计算完成后，图像被送入到分类器单元进行类别的概率计算，最终输出分类结果。

[0029] 本发明提供的是一种图像分类方法，具体包括以下步骤。

[0030] 步骤1:基于Pyramid Vision Transformer的架构，构建通道维度注意力网络和空间维度的自注意力网络。

[0031] 如图3所示，本实施例的通道维度注意力网络，第一层是两个平行的池化层，包括最大池化和平均池化。第二层是共享参数层，它由多层感知机(MLP)和一层隐藏层组成。第三层是最大池化特征图与平均池化特征图的元素求和操作。第四层是sigmoid层。第五层是针对原特征图的特征强化器softmax层。第六层是对第四层和第五层输出的两个权重矩阵按元素求和操作。第七层是第六层输出的权重矩阵与原特征图进行矩阵乘法操作，最后输出通道维度注意力特征图。

[0032] 如图4所示，本实施例的空间维度的自注意力网络，第一层是两个平行的卷积核，卷积核分别为7×7和3×3，步长分别为7和1，分别生成区域特征图和局部特征图。第二层是层归一化。第三层是卷积核为3×3，步长为2的卷积操作。第四层是自注意力计算，包括矩阵相乘，softmax计算，权重矩阵与原矩阵的乘积，最终输出空间维度自注意力特征图。

[0033] 步骤2:将输入图像预处理后输入通道维度注意力网络，生成基于通道维度的注意力特征图；

[0034] 如图2所示，本实施例对输入图像进行预处理，获得图像嵌入向量，其具体实现包括以下子步骤。

[0035] 步骤2.1:对于任意输入图像，通过带有零填充的卷积操作（kernal size及卷积核大小设置为2s‑1，stride及步幅设置为s，padding size及图像填充大小设置为s‑1）以及flatten（张量扁平化操作）操作生成一维图像嵌入向量，在的最前面拼接分类向量。

[0036] 步骤2.2:对输入图像进行二维位置编码，得到二维位置编码向量，将其插入到步骤2.1最终拼接后生成的一维向量中作为模型的最终输入x。

[0037] (1)。

[0038] 其中，和是分类向量和图像嵌入向量，[ || ]表示向量之间的拼接，表示位置编码向量。

[0039] 请见图3，本实施例将预处理后的特征图像x输入至通道维度注意力网络，生成基于图像通道维度的注意力特征图；其具体实现包括以下子步骤。

[0040] 步骤2.3:将预处理后的特征图像同时输入到自适应最大池化层和自适应平均池化层中，输出两个中间特征图。

[0041] 步骤2.4:将分别输入到共享参数层，该共享参数层由多层感知机（MLP）和一个隐藏层组成，隐藏层的主要作用是降低参数开销，本发明将参数降低比率r设置为16，因此在MLP中，第一个全连接层输出的特征图为
，经过RELU激活函数得到
，紧接着再通过一个全连接层
将特征图的维度转换为。将共享参数层输
出的平均池化特征图和最大池化特征图进行元素求和操作，最后再连接一个sigmoid层生成通道注意力权重矩阵Mc(x)，计算过程可以概括为公式（2）。

[0042] (2)。

[0043] 步骤2.5:将原特征图像输入到softmax强化特征层，输出原特征图像的权重矩阵，将权重矩阵与Mc(x)进行元素求和操作，将求和结果和原特征图像x进行乘法操作，进行维度转换后生成最终的通道关注图。公
式（3）描述了该步骤的计算过程。

[0044] (3)。

[0045] 步骤3:将通道关注图输入至空间维度的多尺度自注意力网络中，生成基于特征图空间维度的注意力特征图；其具体实现包括以下子步骤。

[0046] 步骤3.1：将通道关注图维度重置为二维局部特征图作为空间维度的多尺度自注意力网络的输入。

[0047] 步骤3.2:将自注意力网络划分为局部特征和区域特征两条特征提取路线。

[0048] 第一条局部特征路线将二维局部特征图进行卷积核大小为3×3，步长为1的深度可分离卷积操作，生成Query矩阵。

[0049] 第二条区域特征路线使用卷积核大小为7×7、步长为7的深度可分离卷积生成二维区域特征图。

[0050] 步骤3.3:为了使数据均匀分布，使模型的训练更加稳健，我们将二维区域特征图维度重置为一维向量，进行层归一化操作后再重新维度重置为二维特征图。

[0051] 步骤3.4：对重新生成的二维区域特征图使用卷积核大小为3×3，步长为2的深度可分离卷积操作，生成Key矩阵和Value矩阵。

[0052] 步骤3.5:将Query矩阵，Key矩阵以及Value矩阵进行Flattebn操作，将矩阵从二维矩阵扁平化为一维向量。随后，我们按照传统的自注意力机制的矩阵计算方式进行注意力计算，生成最终的空间维度自注意力特征图。空间维度的自注意力计算过程可以描述为公式(4)。

[0053]

[0054]

[0055]

[0056]

[0057] (4)。

[0058] 步骤4:重复步骤2和3直到第四个阶段，将最终生成的多维度多尺度注意力特征图通过分类器单元将模型的输出转换成概率表示，完成图像分类。

[0059] 在本实例中，通过训练多维度多尺度的自注意力网络实现图像分类过程。在训练过程中，正向传播过程表现为：每个阶段反复地更新CLS分类向量，从浅到深地提取多维度多尺度的图像特征。在最后一个阶段，将最终的CLS向量经过前馈神经网络层FNN生成num×1的一维向量，其中num表示训练集的图像类别个数，随后利用softmax函数对映射结果向量进行归一化处理，得到概率结果，将最终结果与原始图像的标签向量进行比对，进而实现反向传播过程，完成模型的有监督训练。

[0060] 在本申请的一个具体实施方式中，将上述方法应用到ImageNet1K数据集中，通过与其它经典的分类学习方法对比，展示了本申请所提方法的有效性。

[0061] （1）数据集介绍。

[0062] 我们使用ImageNet1K数据集的训练集训练本实施例提出的多维度多尺度自注意力图像分类方法，并使用验证集上的最高精度作为评估模型性能的指标。ImageNet1K数据集包含130万个图像和1000类，训练和验证图像的数量分别为128万和50000。我们使用所有图像进行训练，在ImageNet1K上微调模型。

[0063] （2）实验设置。

[0064] 在我们的实验中，我们应用mixup（混类增强）、随机水平翻转、标签平滑和随机擦除作为数据增强算法。我们采用带有余弦学习速率调度的AdamW优化算法。我们使用300个时间段训练模型，权重衰减设置为0.01，初始学习率设置为0.001，动量设置为0.9。在训练期间，我们随机裁剪224×224区域，并在将短边调整为256后进行224×244中心裁剪以进行评估，此外，我们的模型在4个RTX 3090Ti服务器上进行训练。

[0065] （3）实验分析。

[0066] 在本节中，我们使用相同等级的参数数量作为模型性能比较的标准，并将提出的多维度多尺度自注意力图像分类方法与其他两种与我们的方法高度相关的方法进行比较，包括代表性的基于卷积神经网络的图像分类方法（表1）以及基于Transformer的图像分类方法（表2）。

[0067] 在 ImageNet1K数据集中，我们将提出的多维度多尺度自注意力图像分类方法与基于卷积神经网络的分类方法进行了比较。如表2，与 ResNet 残差网络系列的方法（包括 ResNet、SEResNet和SENet）相比，我们的方法体积更小，运行效率更高，精度更高。这主要源于我们方法中的注意力机制，它可以通过细化特征映射来提高模型性能。

[0068] 表1 与基于卷积神经网络的图像分类方法性能比较结果

[0069]

[0070] 我们进一步将多维度多尺度自注意力图像分类方法与最先进的基于视觉Transformer的图像分类方法进行比较。我们的方法在所有方面都始终优于基线方法ViT和PVT，并且我们以更少的参数和 FLOPs 实现了更高的准确度。优点主要得益于我们的方法实现了更抽象的高级特征表示并增强了细粒度特征提取能力。

[0071] 表2 与基于Transformer的图像分类方法性能比较结果

[0072]

[0073] （4）注意力图像可视化。

[0074] 为了实现方法的定性分析，我们用Grad‑CAM网络（对深度网络进行基于梯度的视觉解释网络）对所提出的方法以及基线方法PVT进行注意力图像可视化。由于网络最后一层输出的特征图具有丰富的高级语义和详细的空间信息，我们将模型的权重输入到Grad‑CAM网络中，目的是寻找所有特征的梯度并在最后一层映射，最终根据梯度信息计算每个神经元的重要性。我们提出的方法以及PVT的权重都是用ImageNet1K数据集训练的。本实施例从ImageNet1K数据集的验证集中针对大目标物体和小目标物体各选取了四张图像（目标物体占据图像尺寸的比例大于三分之一划分大目标物体，小于三分之一划分为小目标物体），请见图5和图6，分别展示了传统自注意力方法和本实施例提出的多维度多尺度自注意力方法的注意力图像可视化结果。

[0075] 在图5中，PVT和本文的方法的识别效果证明了即使多尺度自注意力的关注范围是局部的和区域的，它仍然可以获取有用的全局信息。在图6中，我们观察到对于复杂图像中的小目标物体，例如石英钟（第2列），PVT会受到图像中其他类似物体的混淆。相比之下，即使图像很复杂，具有其他相似的视觉外观，我们的方法可以准确地定位和覆盖目标对象。除此之外，我们发现由PVT实现的每个注意力图都包含噪声扰动。这些结果进一步证明了多维度多尺度表示学习可以有效降低图像分类方法在训练过程中的噪声干扰，并且可以更好地利用目标物体的局部位置信息聚合细粒度特征进行定位和覆盖目标地区。

[0076] 基于自注意力机制的图像分类问题是当下研究与应用最为广泛的分类问题之一，图像的细粒度特征表示一直是该领域的研究重点和难点之一。本发明提出了一种基于多维度多尺度自注意力机制的图像分类方法。首先，我们将通道注意力作为第一维度的表征学习，将多尺度的空间自注意力作为第二维度的表征学习，相比于单一的空间自注意力，模型能够学习到更加抽象的高级特征表示。其次，我们提出了一种新的多尺度空间自注意力方法，通过卷积实现局部和区域特征之间的信息交互。此外，我们在通道注意力中引入了原始特征强化器，抑制网络的更深层可能出现的权重矩阵趋向于0时产生的噪声扰动情况，优化模型的训练过程。相比于传统的基于自注意力机制的图像分类方法，该方法能够提高模型的泛化性能，不但可以增强模型对细粒度特征的提取能力，还可以有效地从图像中提取全局信息，降低模型训练过程中出现的噪声扰动，提升模图像分类性能。

附图说明

[0021] 图1是本发明实施例的流程图。

[0022] 图2是本发明实施例的数据预处理流程图。

[0023] 图3是本发明实施例的通道维度注意力网络结构示意图。

[0024] 图4是本发明实施例的空间维度自注意力网络结构示意图。

[0025] 图5是本发明实施例的对于大目标物体的注意力特征提取结果对比图。

[0026] 图6是本发明实施例的对于小目标物体的注意力特征提取结果对比图。

1一种图像分类方法 2基于像素分类的隐藏图像恢复方法 3一种基于深度学习的图像分类方法 4一种基于点击特征预测的图像分类方法 5一种用于工业零件图像的快速分类方法 6一种基于偏振图像的污染云分类识别方法 7一种边缘拟合的分类稀疏表示图像修复方法 8瘤细胞图像的分类方法及装置、设备、存储介质 9一种基于卷积神经网络的艺术图像分类方法 10基于图像熵K均值聚类的3D-HEVC快速CU分割方法