首页 > 专利 > 杭州电子科技大学 > 一种基于卷积神经网络的细粒度服装的属性识别方法专利详情

一种基于卷积神经网络的细粒度服装的属性识别方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2018-11-13
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-04-30
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-08-10
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2038-11-13
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201811343657.2 申请日 2018-11-13
公开/公告号 CN109583481B 公开/公告日 2021-08-10
授权日 2021-08-10 预估到期日 2038-11-13
申请年 2018年 公开/公告年 2021年
缴费截止日
分类号 G06K9/62G06K9/34G06K9/20 主分类号 G06K9/62
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 6
权利要求数量 7 非专利引证数量 1
引用专利数量 2 被引证专利数量 0
非专利引证 1、2017.11.30刘聪 等.基于视觉的服装属性分类算法. 《微电子学与计算机》.2016,第33卷(第1期),Hua Zhang等.Fine-grained trafficcheckpoint motor vehicle recognitionsystem based on deep convolutional neuralnetwork《.CISP-BMEI》.2017,Qiang Chen等.Deep domain adaptationfor describing people based on fine-grained clothing attributes《.2015 IEEEConference on Computer Vision and PatternRecognition》.2015,;
引用专利 US9672436B、US2017344823A 被引证专利
专利权维持 4 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 张桦、陶星、戴美想、戴国骏、刘高敏 第一发明人 张桦
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 5
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱月芬
摘要
本发明涉及一种基于卷积神经网络的细粒度服装的属性识别方法。本发明首先通过Faster‑RCNN和YOLO神经网络,对图像中的特征区域定位,针对袖子、裤子长度和领口类型分类采取相应的扩大特征区域方法,再对特征区域进行图像处理;处理后输进ResNet网络模型和InceptionV4网络模型,进行神经网络的训练;并将输出结果进行加权融合。训练好的神经网络模型可用于服装属性识别。本发明提取的特征区域实现较高的分割准确性,提高了卷积神经网络进行深度学习图像特征的效率和准确性,并将两个网络模型的输出结果进行加权融合,减少了过拟合现象。
  • 摘要附图
    一种基于卷积神经网络的细粒度服装的属性识别方法
  • 说明书附图:图1
    一种基于卷积神经网络的细粒度服装的属性识别方法
  • 说明书附图:图2
    一种基于卷积神经网络的细粒度服装的属性识别方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2021-08-10 授权
2 2019-04-30 实质审查的生效 IPC(主分类): G06K 9/62 专利申请号: 201811343657.2 申请日: 2018.11.13
3 2019-04-05 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于卷积神经网络的细粒度服装的属性识别方法,其特征在于包括如下步骤:
步骤(1)使用Faster‑RCNN和YOLO神经网络对图像进行特征性区域判别,结合两种判别结果,分割出初步的特征区域图片;
步骤(2)对初步的特征区域图片做进一步的处理,由于袖长、裤长和领口类型的分类的特征区域分布略有不同,因此根据不同的分类需求,对特征区域进行扩大,防止特征信息丢失;
步骤(3)将图片处理成宽高相等的图片,根据袖长、裤长和领口类型这三种不同的分类任务,采用不同的填补方法,将细长和扁平的图片调整成宽高相等的图片;
步骤(4)构建两个深度卷积神经网络,对网络进行预训练,然后将经过图像处理的服装图输入到卷积神经网络中,利用随机梯度下降算法进行权重矩阵和偏移量的调整;
步骤(5)将得到的训练好的各层中的权重矩阵和偏置值,对应地赋值给两个神经网络中的各个层,再对各自的Softmax层进行调整,把两个网络结构的输出结果进行融合,减少过拟合现象,使结果更加准确。

2.根据权利要求1所述的一种基于卷积神经网络的细粒度服装的属性识别方法,其特征在于步骤(1)分割出初步的特征区域图片的方法如下:
1‑
1.将原始图像大小用两个坐标进行表示,分别是左上角顶点坐标(0,0)和右下角顶点坐标(width,height);初步的特征区域图片的左上角坐标定义(XA,YB),右下角坐标定义为(XC,YD);
1‑
2.通过深度学习方法中的通用目标检测框架Faster‑RCNN和YOLO神经网络生成候选特征区域,使用Faster‑RCNN和YOLO神经网络能够识别出图像中的主要特征区域,通过坐标的方式能够获取特征区域左上角和右下角的顶点坐标,通过Faster‑RCNN神经网络获取的左上角坐标定义为(X1,Y1),右下角坐标定义为(X2,Y2);通过YOLO神经网络获取的左上角坐标定义为(X3,Y3),右下角坐标定义为(X4,Y4);
1‑
3.每张图像获取四个坐标后,通过如下四种情况得到初步的特征区域的左上角坐标( XA,YB),右下角坐标(XC,YD):
①两种目标检测网络均把原始图像作为判别区域,分割出初步的特征区域图片,即(X1,Y1)=(0,0),(X2,Y2)=(width,height),(X3,Y3)=(0,0),(X4,Y4)=(width,height);
②Faster‑RCNN检测出小于原始图像的判别区域,YOLO把原始图像作为判别区域,分割出的初步的特征区域图片,即(X1,Y1)=(x1,y1),(X2,Y2)=(x2,y2),(X3,Y3)=(0,0),(X4,Y4)=(width,height);
③Faster‑RCNN把原始图像作为判别区域,YOLO检测出小于原始图像的判别区域,分割出的初步的特征区域图片,即(X1,Y1)=(0,0),(X2,Y2)=(width,height),(X3,Y3)=(x3,y3),(X4,Y4)=(x4,y4);
④两种目标检测网络均检测出小于原始图像的判别区域,分割出的初步的特征区域图片,即(X1,Y1)=(x1,y1),(X2,Y2)=(x2,y2),(X3,Y3)=(x3,y3),(X4,Y4)=(x4,y4);
针对情况①:把原始图像作为初步的特征区域,即(XA,YB)=(0,0),(XC,YD)=(width,height);
针对情况②:把Faster‑RCNN检测区域作为初步的特征区域,即(XA,YB)=(x1,y1),(XC,YD)=(x2,y2);
针对情况③:把YOLO检测区域作为初步的特征区域,即(XA,YB)=(x3,y3),(XC,YD)=(x4,y4);
针对情况④:结合两种检测区域,为了尽可能减少特征信息丢失,在取检测区域坐标遵从尽可能最大获取信息原则,(XA,YB)=(min(x1,x3),min(y1,y3)),(XC,YD)=(max(x2,x4),max(y2,y4))。

3.根据权利要求2所述的一种基于卷积神经网络的细粒度服装的属性识别方法,其特征在于步骤(2)所述的对初步的特征区域图片做进一步的处理方法如下:
利用获取的参数坐标(XA,YB)和(XC,YD)做进一步的图像处理;
当图像通过情况①获取特征区域,此类特征区域特征信息无丢失;
当图像通过情况②③④获取特征区域,为了防止特征信息丢失,采用如下特征区域扩大方法:
由于服装的细粒度分类包括袖长、裤长、领口类型,各个分类任务的特征区域分布略有不同,因此基于不同的分类需求,采取不同的特征区域扩大方法;
(1)当任务为裤子长度的分类,即特征区域在靠下部分时,取原始图像的height作为YD坐标值,其余分类任务在YD的基础上向下再增加10像素(pixel)的宽度作为裕量,以减少特征信息丢失;
(2)当任务为领口类型的分类,即图片的特征区在靠上部分时,取0作为YB坐标值,其余分类任务在YB的基础上向上增加10像素(pixel)的宽度作为裕量,以减少特征信息丢失;
(3)当任务为袖子长度的分类,即图片的特征区在左右两侧时,在XA,XC的基础上往左右两侧各增加20像素(pixel)的宽度,其余分类任务各增加10像素(pixel)的宽度作为裕量,以减少特征信息丢失;
假设此时的(XA,YB)=(a,b),(XC,YD)=(c,d),则进一扩大特征区域,令XA=rand*a,YB=rand*b,XC=c+(width‑c)*rand,YD=d+(height‑d)*rand,rand为0‑1的随机小数;由此提取出的特征区域的宽度为w,高度为h;
当wh时,此特征区域为是扁平的,需要再往上下方向增加高度,直到w=h,除非已经增加到图片边缘,无法再增加;使用此方法得到特征区域的左上角坐标(XA,YB),右下角坐标(XC,YD),用该坐标分割特征区域图片,再进行步骤(3)的处理。

4.根据权利要求3所述的一种基于卷积神经网络的细粒度服装的属性识别方法,其特征在于所述步骤(3)图像处理方法如下:
对图片进行处理,调整成宽高相等的方形;经过步骤(1)(2)处理过的图像的宽度和高度作为图像处理的参考因素,并且结合分类任务要求,设计了相应的图像处理方法;每张图像根据宽度和高度关系,分成如下三种情况:
(1)当h=w时,此时图片已经是方形,不再做处理;
(2)当h>w时,此时需要在左右方向上进行填充,使图片的宽度等于高度;左边填充的宽度设置为rand*w,rand为0‑1的随机小数,右边填充的宽度为h‑(1+rand)*w,并且根据分类任务采取不同的填充内容;当分类任务是裤子长度或领口类型时,用边缘列的像素值进行填充;当分类任务为袖长时,用白色进行填充防止形成错误信息,通过这种方法把图片填充成方形;
(3)当h
5.根据权利要求4所述的一种基于卷积神经网络的细粒度服装的属性识别方法,其特征在于步骤(4)中所述的深度卷积神经网络用到的是ResNet152网络模型和InceptionV4网络模型;ResNet152和InceptionV4包括卷积层、池化层、全连接层、dropout层和Softmax分类层;池化层选择平均池化,在卷积层之间还使用了残差网络结构,在全连接层后设有dropout层,用于防止训练数据不平衡出现过拟合现象;Softmax层用于训练时的分类,输出节点个数N根据分类种类进行设置。

6.根据权利要求5所述的一种基于卷积神经网络的细粒度服装的属性识别方法,其特征在于步骤(4)中所述的预训练和权重矩阵和偏移量的调整过程,其步骤包括:
4‑
1.采用重复采样方法对细粒度服装图片的数据集进行数据平衡,使属于各类的图片数据做到相等;
4‑
2.迁移在ImageNet数据集上预训练ResNet网络模型和InceptionV4网络模型的权重参数,确定卷积层的权重参数;
4‑
3.用平衡好的服装图片数据集训练ResNet神经网络和InceptionV4神经网络,利用随机梯度下降算法进行权重矩阵和偏移量的调整;训练过程中,损失函数值收敛,分类达到最高准确率时,神经网络训练完成。

7.根据权利要求6所述的一种基于卷积神经网络的细粒度服装的属性识别方法,其特征在于
所述步骤(5)将步骤(4)中训练的ResNet152模型和InceptionV4中的权重矩阵和偏移量参数进行记录,对应地赋值给两个神经网络中的各个层,并且在两个网络结构的Softmax层后再添加一层网络结构,网络结构的节点权值采用两个模型训练时分类准确率的比值;
假设ResNet152模型和InceptionV4在训练时分类的准确率比值是t,ResNet152模型的Softmax层第一种分类节点输出的值为a,InceptionV4模型的Softmax层第一种分类节点输出的值为b,那么加权融合后第一种分类节点输出的值为a*t+b*(1‑t);每个分类节点都采用这样的方式将两个网络的输出结果进行融合;输出最大值的节点即对应分类结果。
说明书

技术领域

[0001] 本发明属于计算机视觉识别技术领域,尤其是涉及一种基于卷积神经网络的细粒度服装的属性识别方法。

背景技术

[0002] 服装图像作为细粒度图像的一种,在电子商务领域十分常见,而现有的视觉购物搜索引擎通常提取诸如颜色、形状、纹理等全局特征来比较图像。它们对于干净背景的图像获得了较好的搜索效果。然而,很大一部分的服装图像是自然场景的图像,具有杂乱的背景。为了提升商品的吸引力,并且呈现服装的实际穿着效果,电子商务店主请时尚模特穿着所售服装,来拍摄真实效果的图像。这些图像一般是在户外拍摄,背景较为杂乱。另一方面,用户上载的查询图像同样是嗓声较多的图像,尤其是通过手机拍摄的照片。这些复杂且杂乱的背景,使得基于视觉的服装图像的细粒度分类成为一项具有挑战性的难题。本发明结合服装图的特征区域分布特点,准确提取特征区域,并将处理过的图片输入卷积神经网络,从而提高分类的准确性和效率。

发明内容

[0003] 本发明的目的就是为了解决上述服装图片的细粒度属性准确分类问题,提供一种基于卷积神经网络的细粒度服装的属性识别方法。本发明考虑了服装特征区域对于分类的重要性,对于需要进行袖子长度,裤子长度,领口类型分类的服装图片,有效地提取出图像特征区域,并通过图像割补的处理方法,防止特征信息的丢失,使服装图片的属性分类结果更加准确和高效。
[0004] 为达到上述目的,本发明提供如下技术方案:
[0005] 一种基于卷积神经网络的细粒度服装的属性识别方法,使用Faster‑RCNN和YOLO网络进行特征区域识别和图像处理方法将特征区域扩大,令提取的特征区域实现较高的分割准确性,提高了卷积神经网络进行深度学习图像特征的效率和准确性,并且使用两个网络模型进行训练,将两个网络模型的输出结果进行加权融合,减少了过拟合现象。
[0006] 所述的过程具体步骤如下:
[0007] 步骤(1)使用Faster‑RCNN和YOLO神经网络对图像进行特征性区域判别,结合两种判别结果,分割出初步的特征区域图片。
[0008] 步骤(2)对初步的特征区域图片做进一步的处理,由于袖长、裤长和领口类型的分类的特征区域分布略有不同,因此根据不同的分类需求,对特征区域进行扩大,防止特征信息丢失。
[0009] 步骤(3)将图片处理成宽高相等的图片,根据袖长、裤长和领口类型这三种不同的分类任务,采用不同的填补方法,将细长和扁平的图片调整成宽高相等的图片。
[0010] 步骤(4)构建两个深度卷积神经网络,对网络进行预训练,然后将经过图像处理的服装图输入到卷积神经网络中,利用随机梯度下降算法进行权重矩阵和偏移量的调整。
[0011] 步骤(5)将得到的训练好的各层中的权重参数矩阵和偏置值,对应地赋值给两个神经网络中的各个层,再对各自的Softmax层进行调整,把两个网络结构的输出结果进行融合,减少过拟合现象,使结果更加准确。
[0012] 所述步骤(1)提取初步的特征区域方法如下:
[0013] 图像原始图像大小用两个坐标进行表示,分别是左上角顶点坐标(0,0)和右下角顶点坐标(width,height)。初步的特征区域的左上角坐标定义(XA,YB),右下角坐标定义为(XC,YD)。
[0014] 通过深度学习方法中的通用目标检测框架Faster‑RCNN和YOLO神经网络生成候选特征区域,使用Faster‑RCNN和YOLO神经网络能够识别出图像中的主要特征区域,通过坐标的方式体现,可以获取特征区域左上角和右下角的顶点坐标,通过Faster‑RCNN神经网络获取的左上角坐标定义为(X1,Y1),右下角坐标定义为(X2,Y2)。通过YOLO神经网络获取的左上角坐标定义为(X3,Y3),右下角坐标定义为(X4,Y4)。一张图像获取四个坐标后,分成如下四种情况:
[0015] (1)两种目标检测网络均把原始图像作为判别区域,分割出初步的特征区域图片,即(X1,Y1)=(0,0),(X2,Y2)=(width,height),(X3,Y3)=(0,0),(X4,Y4)=(width,height);
[0016] (2)Faster‑RCNN检测出小于原始图像的判别区域,YOLO把原始图像作为判别区域,分割出的初步的特征区域图片,即(X1,Y1)=(x1,y1),(X2,Y2)=(x2,y2),(X3,Y3)=(0,0),(X4,Y4)=(width,height);
[0017] (3)Faster‑RCNN把原始图像作为判别区域,YOLO检测出小于原始图像的判别区域,分割出的初步的特征区域图片,即(X1,Y1)=(0,0),(X2,Y2)=(width,height),(X3,Y3)=(x3,y3),(X4,Y4)=(x4,y4)
[0018] (4)两种目标检测网络均检测出小于原始图像的判别区域,分割出的初步的特征区域图片,即(X1,Y1)=(x1,y1),(X2,Y2)=(x2,y2),(X3,Y3)=(x3,y3),(X4,Y4)=(x4,y4)[0019] 情况(1)把原始图像作为初步的特征区域,即(XA,YB)=(0,0),(XC,YD)=(width,height),情况(2)把Faster‑RCNN检测区域作为初步的特征区域,即(XA,YB)=(x1,y1),(XC,YD)=(x2,y2),情况(3)把YOLO检测区域作为初步的特征区域,即(XA,YB)=(x3,y3),(XC,YD)=(x4,y4),情况(4)结合两种检测区域,为了尽可能减少特征信息丢失,在取检测区域坐标遵从尽可能最大获取信息原则,(XA,YB)=(min(x1,x3),min(y1,y3)),(XC,YD)=(max(x2,x4),max(y2,y4))。使用此方法得到初步的特征区域的左上角坐标(XA,YB),右下角坐标(XC,YD)。
[0020] 所述步骤(2)将初步的特征区域图片做进一步的处理方法如下:
[0021] 利用获取的参数坐标(XA,YB),(XC,YD)做进一步的图像处理。当图像通过情况(1)获取特征区域,此类特征区域特征信息无丢失,可直接使用步骤(3)进行图像处理。当图像通过情况(2)(3)(4)获取特征区域,为了防止特征信息丢失,采用如下特征区域扩大方法:
[0022] 服装的细粒度分类包括袖长、裤长、领口类型等,各个分类任务的特征区域分布略有不同,因此基于不同的分类需求,采取不同的特征区域扩大方法。
[0023] (1)当任务为裤子长度的分类(特征区域在靠下部分),取原始图像的height作为YD坐标值,其余分类任务在YD的基础上向下再增加10像素(pixel)的宽度作为裕量,以减少特征信息丢失。
[0024] (2)当任务为领口类型的分类(图片的特征区在靠上部分),取0作为YB坐标值,其余分类任务在YB的基础上向上增加10像素(pixel)的宽度作为裕量,以减少特征信息丢失。
[0025] (3)当任务为袖子长度的分类(图片的特征区在左右两侧),在XA,XC的基础上往左右两侧各增加20像素(pixel)的宽度,其余分类任务各增加10像素(pixel)的宽度作为裕量,以减少特征信息丢失。
[0026] 假设此时的(XA,YB)=(a,b),(XC,YD)=(c,d),则进一扩大特征区域,令XA=rand*a,YB=rand*b,XC=c+(width‑c)*rand,YD=d+(height‑d)*rand,rand为0‑1的随机小数。由此提取出一个特征区域,此特征区域的宽度为w,高度为h,此特征区域可能是细长(wh),当wh时,我们再往上下方向增加高度,直到w=h,除非已经增加到图片边缘,无法再增加。使用此方法得到特征区域的左上角坐标(XA,YB),右下角坐标(XC,YD),用该坐标分割特征区域图片,再进行步骤(3)的处理。
[0027] 所述步骤(3)图像处理方法如下:
[0028] 在使用神经网络做分类时,输入神经网络的图片尺寸是固定的。然而我们经过步骤(1)(2)的服装图片尺寸并无统一,为了防止图片因为尺寸不同而影响分类,所以在步骤(3)中,我们将图片进行处理,调整成宽高相等的方形。经过步骤(1)(2)处理过的图像的宽度和高度作为图像处理的参考因素,并且结合分类任务要求,我们设计了相应的图像处理方法。一张图像根据宽度和高度关系,分成如下三种情况:
[0029] (1)当h=w时,此时图片已经是方形,我们不再做处理。
[0030] (2)当h>w时,此时我们需要在左右方向上进行填充,使图片的宽度等于高度。左边填充的宽度我们设置为rand*w,rand为0‑1的随机小数,右边填充的宽度为h‑(1+rand)*w,并且我们根据分类任务采取不同的填充内容。当分类任务是裤子长度,领口类型时,我们用边缘列的像素值值进行填充,当分类任务为袖长时,我们用白色进行填充防止形成错误信息,因为在获取特征区域时,若分割边缘截取了不完整的袖子信息,此时用边缘列像素值填充会造成袖子长度改变,形成错误信息。通过这种方法把图片填充成方形。
[0031] (3)当h448。
[0032] 步骤(4)中所述的深度卷积神经网络用到的是ResNet152网络模型和InceptionV4网络模型。ResNet152和InceptionV4包括卷积层,池化层,全连接层,dropout层和Softmax分类层。池化层选择平均池化(average pool),在卷积层之间还使用了残差网络结构(shortcut connection),在全连接层后设有dropout层,用于防止训练数据不平衡出现过拟合现象。Softmax层用于训练时的分类,输出节点个数N根据分类种类进行设置。
[0033] 步骤(4)中所述的预训练和权重矩阵和偏移量的调整过程,其步骤包括:
[0034] 4‑1.采用重复采样方法对细粒度服装图片的数据集进行数据平衡,使属于各类的图片数据大致做到相等。
[0035] 4‑2.迁移在ImageNet数据集上预训练ResNet网络模型和InceptionV4网络模型的权重参数,确定卷积层的权重参数。
[0036] 4‑3.用平衡好的服装图片数据集训练ResNet神经网络和InceptionV4神经网络,利用随机梯度下降算法进行权重矩阵和偏移量的调整。训练过程中,损失函数值收敛,分类达到最高准确率时,神经网络训练完成。
[0037] 所述步骤(5)将步骤(4)中训练的ResNet152模型和InceptionV4中的权重矩阵和偏移量参数进行记录,对应地赋值给两个神经网络中的各个层,并且在两个网络结构的Softmax层后再添加一层网络结构,网络结构的节点权值采用两个模型训练时分类准确率的比值。假设ResNet152模型和InceptionV4在训练时分类的准确率比值是t,ResNet152模型的Softmax层第一种分类节点输出的值为a,InceptionV4模型的Softmax层第一种分类节点输出的值为b,那么加权融合后第一种分类节点输出的值为a*t+b*(1‑t)。每个分类节点都采用这样的方式将两个网络的输出结果进行融合。输出最大值的节点即对应该分类结果。
[0038] 与现有技术相比,本发明的有益效果在于:
[0039] 本发明提出的提取图像特征区域的方法,使用了Faster‑RCNN和YOLO网络进行特征区域识别和结合分类任务要求,使用图像处理方法,令提取的特征区域实现较高的分割准确性,使得在使用卷积神经网络分类时,能提高了卷积神经网络进行深度学习图像特征的效率和准确性。
[0040] 将两个神经网络的输出结果进行加权融合,减少过拟合现象,提高分类的准确率。

实施方案

[0043] 以下结合附图对本发明作进一步详细描述。
[0044] 本发明提出一种基于卷积神经网络的细粒度服装的属性识别方法,其实现总体框图如图1所示,具体包括如下5个步骤:
[0045] 步骤(1)使用Faster‑RCNN和YOLO神经网络对图像进行特征性区域判别,结合两种判别结果,分割出初步的特征区域图片。具体操作如下:
[0046] 图像原始图像大小可以用两个坐标进行表示,分别是左上角顶点坐标(0,0)和右下角顶点坐标(width,height)。初步的特征区域的左上角坐标定义(XA,YB),右下角坐标定义为(XC,YD)。
[0047] 通过深度学习方法中的通用目标检测框架Faster‑RCNN和YOLO神经网络生成候选特征区域,我们使用Faster‑RCNN和YOLO神经网络可以识别出图像中的主要特征区域,通过坐标的方式体现,可以获取特征区域左上角和右下角的顶点坐标,通过Faster‑RCNN神经网络获取的左上角坐标定义为(X1,Y1),右下角坐标定义为(X2,Y2)。通过YOLO神经网络获取的左上角坐标定义为(X3,Y3),右下角坐标定义为(X4,Y4)。一张图像获取四个坐标后,分成如下四种情况:
[0048] (5)两种目标检测网络均把原始图像作为判别区域,即(X1,Y1)=(0,0),(X2,Y2)=(width,height),(X3,Y3)=(0,0),(X4,Y4)=(width,height)
[0049] (6)Faster‑RCNN检测出小于原始图像的判别区域,YOLO把原始图像作为判别区域,即(X1,Y1)=(x1,y1),(X2,Y2)=(x2,y2),(X3,Y3)=(0,0),(X4,Y4)=(width,height)[0050] (7)Faster‑RCNN把原始图像作为判别区域,YOLO检测出小于原始图像的判别区域,即(X1,Y1)=(0,0),(X2,Y2)=(width,height),(X3,Y3)=(x3,y3),(X4,Y4)=(x4,y4)[0051] (8)两种目标检测网络均检测出小于原始图像的判别区域,即(X1,Y1)=(x1,y1),(X2,Y2)=(x2,y2),(X3,Y3)=(x3,y3),(X4,Y4)=(x4,y4)
[0052] 情况(1)把原始图像作为初步的特征区域,即(XA,YB)=(0,0),(XC,YD)=(width,height),情况(2)把Faster‑RCNN检测区域作为初步的特征区域,即(XA,YB)=(x1,y1),(XC,YD)=(x2,y2),情况(3)把YOLO检测区域作为初步的特征区域,即(XA,YB)=(x3,y3),(XC,YD)=(x4,y4),情况(4)结合两种检测区域,为了尽可能减少特征信息丢失,在取检测区域坐标遵从尽可能最大获取信息原则,(XA,YB)=(min(x1,x3),min(y1,y3)),(XC,YD)=(max(x2,x4),max(y2,y4))。使用此方法得到初步的特征区域的左上角坐标(XA,YB),右下角坐标(XC,YD)。
[0053] 步骤(2)对初步的特征区域进行进一步处理。
[0054] 利用获取的参数坐标(XA,YB),(XC,YD)做进一步的图像处理。当图像通过情况(1)获取特征区域,此类特征区域特征信息无丢失,可直接使用步骤(3)进行图像处理。当图像通过情况(2)(3)(4)获取特征区域,为了防止特征信息丢失,采用如下特征区域提取方法:
[0055] 服装的细粒度分类,包括袖长,裤长,领口类型等,各个分类任务的特征区域分布略有不同,因此基于不同的分类需求,采取不同的特征区域方法。
[0056] (1)当任务为裤子长度的分类(特征区域在靠下部分),取原始图像的height作为YD坐标值,其余分类任务在YD的基础上向下再增加10像素(pixel)的宽度作为裕量,以减少特征信息丢失。
[0057] (2)当任务为领口类型的分类(图片的特征区在靠上部分),取0作为YB坐标值,其余分类任务在YB的基础上向上增加10像素(pixel)的宽度作为裕量,以减少特征信息丢失。
[0058] (3)当任务为袖子长度的分类(图片的特征区在左右两侧),在XA,XC的基础上往左右两侧各增加20像素(pixel)的宽度,其余分类任务各增加10像素(pixel)的宽度作为裕量,以减少特征信息丢失。假设此时的(XA,YB)=(a,b),(XC,YD)=(c,d),我们进一步扩大特征区域,令XA=rand*a,YB=rand*b,XC=c+(width‑c)*rand,YD=d+(height‑d)*rand,rand为0‑1的随机小数。由此提取出一个特征区域,此特征区域的宽度为w,高度为h,此特征区域可能是细长(wh),当wh时,我们再往上下方向增加高度,直到w=h,除非已经增加到图片边缘,无法再增加。使用此方法得到特征区域的左上角坐标(XA,YB),右下角坐标(XC,YD),用该坐标分割出特征区域图片。
[0059] 步骤(3)根据袖长,裤长,领口类型这三种不同的分类任务,采用不同的填补方法,将细长和扁平的图片调整成宽高相等的图片。具体操作如下:
[0060] 经过步骤(1)处理过的图像的宽度和高度作为图像处理的参考因素,并且结合分类任务要求,我们设计了相应的图像处理方法如图2所示。一张图像根据宽度和高度关系,分成如下三种情况:
[0061] (1)当h=w时,此时图片已经是方形,我们不再做处理。
[0062] (2)当h>w时,此时我们需要在左右方向上进行填充,使图片的宽度等于高度。左边填充的宽度我们设置为rand*w,rand为0‑1的随机小数,右边填充的宽度为h‑(1+rand)*w,并且我们根据分类任务采取不同的填充内容。当分类任务是裤子长度,领口类型时,我们用边缘列的像素值进行填充,当分类任务为袖长时,我们用白色进行填充防止形成错误信息,因为在获取特征区域时,若分割边缘截取了不完整的袖子信息,此时用边缘列像素值填充会造成袖子长度改变,形成错误信息。通过这种方法把图片填充成方形。
[0063] (3)当h
[0064] 步骤(4)构建两个深度卷积神经网络,对网络进行预训练,然后将经过图像处理的服装图输入到卷积神经网络中,利用随机梯度下降算法进行权重矩阵和偏移量的调整。具体操作如下:
[0065] 首先采用重复采样方法对细粒度服装图片的数据集进行数据平衡,使属于各类的图片数据大致做到相等。迁移在ImageNet数据集上预训练ResNet网络模型和InceptionV4网络模型的权重参数,确定卷积层的权重参数。用平衡好的服装图片数据集训练ResNet神经网络和InceptionV4神经网络。利用随机梯度下降算法进行权重矩阵和偏移量的调整。训练过程中,损失函数值收敛,分类达到最高准确率时,神经网络训练完成。
[0066] 步骤(5)将得到的训练好的各层中的权重参数矩阵和偏置值,对应地赋值给两个神经网络中的各个层,再对各自的Softmax层进行调整,把两个网络结构的输出结果进行融合,减少过拟合现象,使结果更加准确。具体操作如下:
[0067] 将步骤(4)中训练的ResNet152模型和InceptionV4中的权重矩阵和偏移量参数进行记录,对应地赋值给两个神经网络中的各个层,并且在两个网络结构的Softmax层后再添加一层网络结构,网络结构的节点权值采用两个模型训练时分类准确率的比值。假设ResNet152模型和InceptionV4在训练时分类的准确率比值是t,ResNet152模型的Softmax层第一种分类节点输出的值为a,InceptionV4模型的Softmax层第一种分类节点输出的值为b,那么加权融合后第一种分类节点输出的值为a*t+b*(1‑t)。每个分类节点都采用这样的方式将两个网络的输出结果进行融合。输出最大值的节点即对应该分类结果。

附图说明

[0041] 图1为本发明的实现总体框图;
[0042] 图2为图像处理方法流程图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号