首页 > 专利 > 重庆邮电大学 > 一种人脸识别方法、装置及智能终端专利详情

一种人脸识别方法、装置及智能终端   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2020-03-18
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2020-08-18
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-05-20
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2040-03-18
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202010191943.2 申请日 2020-03-18
公开/公告号 CN111444802B 公开/公告日 2022-05-20
授权日 2022-05-20 预估到期日 2040-03-18
申请年 2020年 公开/公告年 2022年
缴费截止日
分类号 G06V40/16G06V10/774G06V10/82G06K9/62G06N3/08 主分类号 G06V40/16
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 9
权利要求数量 10 非专利引证数量 1
引用专利数量 2 被引证专利数量 0
非专利引证 1、2019.05.02王威.基于字典学习和局部约束的稀疏表示人脸识别《.电脑知识与技术》.2018,第14卷(第05期),张健.可预测判别字典学习网络研究《.中国优秀博硕士学位论文全文数据库(硕士)信息科技辑》.2021,(第02期),YongXu等.Using the idea of the sparserepresentation to perform coarse-to-fineface recognition《.Information Sciences》.2013,第238卷周洋等.基于lp范数和融合字典的人脸识别算法《.中原工学院学报》.2019,第30卷(第06期),Zheng Zhang等.A Survey of SparseRepresentation: Algorithms andApplications《. IEEE Access》.2015,第3卷;
引用专利 WO2018149133A、WO2019080488A 被引证专利
专利权维持 2 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 重庆邮电大学 当前专利权人 重庆邮电大学
发明人 米建勋、张健 第一发明人 米建勋
地址 重庆市南岸区南山街道崇文路2号 邮编 400000
申请人数量 1 发明人数量 2
申请人所在省 重庆市 申请人所在市 重庆市南岸区
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
成都行之专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
马碧娜
摘要
本发明公开了一种人脸识别方法、装置及智能终端,该方法包括以下步骤:采集人脸图片,剪裁至统一大小,转化为向量形式,并生成相对应0‑1标签向量;构建可预测判别字典学习模型并初始化,模型包含字典学习子模型以及预测神经网络子模型;迭代优化求解模型直至收敛;收敛过程中利用自生成过采样法训练预测神经网络子模块;保存最优模型,利用训练所得到的模型进行分类,进而获取与待识别的人脸图像相匹配的清晰的人脸图像及其对应的身份信息,并输出待识别图像的人脸识别结果。与现有技术相比,尤其是深度学习人脸识别技术方案相比,本发明具有更高的人脸识别率和时间效率,且对于样本多样性不足的场景效果提升明显。
  • 摘要附图
    一种人脸识别方法、装置及智能终端
  • 说明书附图:图1
    一种人脸识别方法、装置及智能终端
  • 说明书附图:图2
    一种人脸识别方法、装置及智能终端
  • 说明书附图:图3
    一种人脸识别方法、装置及智能终端
  • 说明书附图:图4
    一种人脸识别方法、装置及智能终端
  • 说明书附图:图5
    一种人脸识别方法、装置及智能终端
  • 说明书附图:图6
    一种人脸识别方法、装置及智能终端
  • 说明书附图:图7
    一种人脸识别方法、装置及智能终端
  • 说明书附图:图8
    一种人脸识别方法、装置及智能终端
  • 说明书附图:图9
    一种人脸识别方法、装置及智能终端
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-05-20 授权
2 2020-08-18 实质审查的生效 IPC(主分类): G06K 9/00 专利申请号: 202010191943.2 申请日: 2020.03.18
3 2020-07-24 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种人脸识别方法,其特征在于,该方法包括以下步骤:
步骤1:采集清晰的已知人脸图像,提取人脸区域,缩放至同样大小,人工标记每一张人脸图像,且来自同一个体的人脸图像样本标记为一类,一个类别包含一个个体的一张或多张人脸图像,将所有人脸图像和其对应的类别标签作为训练集;
步骤2:将步骤1训练集中所有人脸图像均转化为向量形式,并进行L2范数归一化处理;
相对应地,将训练集中每张人脸图像样本所对应的类别标签转化为0‑1标签向量;
步骤3:构建可预测判别字典学习网络模型,该模型包括判别字典学习子模型 和预测神经网络子模型
步骤4:结合步骤1和步骤2,将训练样本矩阵以及其对应的标签向量矩阵输入到步骤3中构建的可预测判别字典学习网络模型中,然后对该模型进行优化求解,学习该模型中的所需参数,保存所有学习得到的参数代入原始模型得到最终模型;
步骤5:在步骤4的过程中,同时利用自生成过采样方法生成虚拟训练样本用于训练预测神经网络子模型
步骤6:对于待识别图像,将待识别图像样本均转化向量形式,并进行L2范数归一化,利用上述获得的最终模型中的预测神经网络子模型 计算出待识别图像样本的预测稀疏编码向量;
步骤7:将步骤4中获得的预测稀疏编码向量作为判别字典学习子模型 的热启动值,通过判别字典学习子模型 计算出待识别图像样本的最优稀疏编码向量;
步骤8:将步骤6中所得到的预测稀疏编码向量输入到分类器中,获得预测类别;将步骤
7中所得到的最优稀疏编码向量输入到分类器中,获得最优类别;进而获取与待识别的人脸图像相匹配的清晰的人脸图像及其对应的身份信息,并输出待识别图像的人脸识别结果。

2.根据权利要求1所述的一种人脸识别方法,其特征在于,所述判别字典学习子模型S中的字典矩阵D每一列为一个字典项,D由两个子字典构成,其分别为通用描述字典Dde和标签字典Ddi,D,Dde与Ddi具有相同的行数,D的列数等于Dde与Ddi列数之和,Ddi的列数与类别数一致,Dde的列数取任意值,数学表达式记为D=[Dde,Ddi];对应的稀疏编码向量α为列向量,包含描述编码向量αu和类别标签编码向量αc,其中α的维数与D的列数一致,αu的维数与Dde的列数一致,αc的维数与Ddi的列数一致,数学表达式记为

3.根据权利要求2所述的一种人脸识别方法,其特征在于,在步骤3中构建的可预测判别字典学习网络模型如下:
其中,判别字典学习子模块为 为预测神经网络
子模块的参数集合,y为0‑1标签向量,∈(αc,y)为标签编码与标签向量的残差值;x为单个样本向量,X为样本数据集全体,λ1,λ2,λ3为人工设置的超参数。

4.根据权利要求1或3所述的一种人脸识别方法,其特征在于,所述预测神经网络子模型 的输入为人脸图像样本向量,输出为图像样本对应的预测稀疏编码;
对于所述可预测判别字典学习网络模型的参数,其初始值取值为服从高斯分布的随机值。

5.根据权利要求1所述的一种人脸识别方法,其特征在于,在步骤4中对所述可预测判别字典学习网络模型进行求解时,采用块坐标下降法进行优化,具体地,固定其中一个或多个系数,去求解剩下系数的最优值,经过反复迭代,以最终达到可预测判别字典学习网络模型收敛状态,或者达到预设的最大迭代次数为止。

6.根据权利要求1所述的一种人脸识别方法,其特征在于,在步骤5中,自生成过采样方法利用训练集样本对应的稀疏编码向量进行拆分组合,生成合理虚拟稀疏编码向量,并通过可预测判别字典学习网络模型中的判别字典学习子模型 生成合理虚拟样本,并用于训练预测神经网络子模型

7.根据权利要求1所述的一种人脸识别方法,其特征在于,所述步骤8中,分类器通过读取编码向量中标签编码部分αc直接获得待识别人脸图像类别;分类器利用如下公式判断人脸图像所属类别:
i
c=maxi ac
i
其中,ac表示ac在第i维的取值,c是图像所属类别。

8.一种人脸识别装置,其特征在于,该装置支持上述权利要求1至7中任意一项所述的一种人脸识别方法,所述装置包括:
接收模块,用于接收任一待识别人脸图像;
预处理模块,用于剪裁待识别人脸图像至规定大小,转化成向量的形式,并进行L2范数归一化处理;
预测模块,用于针对所述待识别人脸图像,计算人脸图像对应的预测稀疏编码;
优化模块,用于针对所述待识别人脸图像,计算人脸图像对应的最优稀疏编码;
类别输出模块,用于利用人脸图像对应的稀疏编码计算出人脸图像所属类别,及待识别的人脸图像相匹配的清晰的人脸图像及其对应的身份信息。

9.根据权利要求8所述的一种人脸识别装置,其特征在于,所述预测模块利用如下公式计算人脸图像对应的预测稀疏编码向量:
其中, 是预测神经网络编码表达式, 为预测神经网络子模块的参数集合,x为待识别人脸图像的一维向量;
所述优化模块利用如下公式计算人脸图像对应的最优稀疏编码向量:
其中,D为训练所得字典,x为待识别人脸图像的一维向量,α初始值为预测模块所计算出的预测稀疏编码向量。

10.一种人脸识别智能终端,其特征在于,该终端包括:处理器以及存储器,其中,所述存储器中存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行权利要求1~7任一所述一种人脸识别方法的步骤。
说明书

技术领域

[0001] 本发明涉及图像处理、计算机视觉、模式识别技术领域,尤其涉及一种人脸识别方法、装置及智能终端。

背景技术

[0002] 生物特征识别技术是身份识别的重要发展方向之一,人脸识别技术是最受关注的生物特征识别技术之一,近年来,人脸识别技术得到了迅猛发展,大量有关人脸识别技术的应用落地,然而,由于现实环境中存在大量的不确定性因素,目前人脸识别技术仍然面临多方面的挑战,其中包括训练样本较少、训练集中多样性不平衡、样本遮挡,光照,表情变化等。
[0003] 为了克服诸如上述的问题,基于各种方法的人脸识别方法被提出。稀疏字典学习往往具有鲁棒性的优点,因此基于字典学习的人脸识别方法得到了大量关注。根据已有方法采取的分类策略,这些基于字典学习方法的人脸识别大致可以被分为两个类别:i)使得稀疏系数具有判别性;ii)学习具有分类信息的字典。第i)类方法直接将稀疏系数作为分类任务中样本的特征向量,同时额外训练专用分类器。该类最具代表性的方法为判别性KSVD(D‑KSVD)。D‑KSVD在利用KSVD训练字典学习模型的同时训练了一个分类器,在重构性能和判别性能中间找到了一个平衡点使得字典学习在重构任务和分类任务中都获得了可以接受的表现。Jiang et al.基于DKSVD提出了一个改进算法LCKSVD(Label Consistent K‑SVD)。LCKSVD在原本的DKSVD模型中加入了一个标签回归项以获得更强的判别信息。最终LCKSVD在人脸识别和物体识别数据集上获得令人印象深刻的性能表现。第ii)类方法倾向于构造具有判别性的字典,最常见的做法是针对每个类构造该类的字典,而样本在每个类别字典上重构误差往往被用来作为分类依据,即样本属于重构误差最小的子字典所属的类。值得一提的是,这种方法是建立在样本和同一类的样本更加相似这个先验认知上的。最具有代表性的方法便是稀疏表达分类方法(SRC)。SRC直接利用所有类别训练样本构造判别性字典来编码新样本。它在分类任务中获得令人惊喜的表现,但SRC的缺陷也是显而易见:为提升最终分类性能所需要的字典规模往往十分庞大。以上提及的两类监督字典学习方法分别从两个方向提升字典学习模型的判别性能:使得编码具有判别性和使得字典具有判别性。此外,研究者们还提出了同时使得编码向量和字典兼具判别性的方法。比如,FDDL(Fisher discrimination dictionary learning)就是一种典型的编码向量和字典兼具判别性的方法。FDDL应用Fisher判别准则学习一个结构化的字典(即字典元素与类别标签相关联从而使得样本在每一类子字典上重构误差可以作为分类依据),与此同时,Fisher判别准则还被应用于编码系数上使得编码向量具有尽可能大的类间距离和尽可能小的类内距离,从而获得优异的判别性能。DLSPC提出了一种同时学习类别字典和通用字典的模型DLSPC。这种方法利用类别字典抓取每一类的最具判别性的细节特性而公共字典用于保存共享元素。此外,DLSPC还对编码加以约束,使得样本只在同一类的字典上进行表达抑制在不同类字典上的表达。DLSPC利用样本在每一类子字典上重构误差进行分类。
[0004] 然而,字典学习框架是一种非参数学习方法,在基于字典学习的模型的训练过程中,各个步骤相对是独立的,并不会因为某一个训练步骤的完成而减少其他步骤的计算时间,这一特性也影响到了测试阶段。对一个样本的稀疏编码通常要求额外的时间与计算开销,这一缺点在分类任务中尤为凸显。为了获得每个新样本最为合适的稀疏系数,总是需要进行迭代优化求解,这种迭代优化过程往往需要消耗大量的计算资源,并且这个过程中的时间消耗是不可预测的。另外,分类阶段在很大程度上依赖于稀疏编码系数,甚至后续还需要利用特定的字典计算和比较重构误差,使得每完成一次分类需要大量的时间。由于这些缺点,虽然许多字典学习方法已经取得了显著的性能,但是很少有方法在大规模问题中得到广泛应用。

发明内容

[0005] 本发明所要解决的技术问题是现有技术中人脸识别方法的识别率和时间效率不高,本发明提供了解决上述问题的一种人脸识别方法、装置及智能终端。
[0006] 本发明通过下述技术方案实现:
[0007] 一种人脸识别方法,该方法包括以下步骤:
[0008] 步骤1:采集清晰的已知人脸图像,提取人脸区域,缩放至同样大小,人工标记每一张人脸图像,且来自同一个体的人脸图像样本标记为一类,一个类别包含一个个体的一张或多张人脸图像,将所有人脸图像和其对应的类别标签作为训练集;
[0009] 步骤2:将步骤1训练集中所有人脸图像均转化为向量形式,并进行L2范数归一化处理;相对应地,将训练集中每张人脸图像样本所对应的类别标签转化为0‑1标签向量;
[0010] 步骤3:构建可预测判别字典学习网络模型,该模型包括判别字典学习子模型 和预测神经网络子模型
[0011] 步骤4:结合步骤1和步骤2,将训练样本矩阵以及其对应的标签向量矩阵输入到步骤3中构建的可预测判别字典学习网络模型中,然后对该模型进行优化求解,学习该模型中的所需参数,保存所有学习得到的参数代入原始模型得到最终模型;
[0012] 步骤5:在步骤4的过程中,同时利用自生成过采样方法生成虚拟训练样本用于训练预测神经网络子模型 以此提高预测神经网络的预测准确度;
[0013] 步骤6:对于待识别图像,将待识别图像样本均转化向量形式,并进行L2范数归一化,利用上述获得的最终模型中的预测神经网络子模型 计算出待识别图像样本的预测稀疏编码向量;
[0014] 步骤7:将步骤4中获得的预测稀疏编码向量作为判别字典学习子模型 的热启动值,通过判别字典学习子模型 计算出待识别图像样本的最优稀疏编码向量;
[0015] 步骤8:将步骤6中所得到的预测稀疏编码向量输入到分类器中,获得预测类别;将步骤7中所得到的最优稀疏编码向量输入到分类器中,获得最优类别;进而获取与待识别的人脸图像相匹配的清晰的人脸图像及其对应的身份信息,并输出待识别图像的人脸识别结果。
[0016] 工作原理如下:
[0017] 基于现有技术中多数是单独采用基于字典学习模型来进行人脸识别,现有技术中人脸识别方法在人脸图像数量较少或缺失的情况下,识别率和时间效率不高;这是因为方法中各个步骤相对是独立的,并不会因为某一个训练步骤的完成而减少其他步骤的计算时间,这一特性也影响到了测试阶段;对一个样本的稀疏编码通常要求额外的时间与计算开销,这一缺点在分类任务中尤为凸显;为了获得每个新样本最为合适的稀疏系数,总是需要进行迭代优化求解,这种迭代优化过程往往需要消耗大量的计算资源,并且这个过程中的时间消耗是不可预测的。另外,分类阶段在很大程度上依赖于稀疏编码系数,甚至后续还需要利用特定的字典计算和比较重构误差,使得每完成一次分类需要大量的时间。进而造成识别不精准,时间效果不高,且浪费时间。
[0018] 因此,本发明采用上述方案改进了传统字典学习模型,结合判别字典学习子模型和预测神经网络子模型 构建可预测判别字典学习网络模型;利用预测神经网络子模型加速稀疏编码的过程,克服了传统字典学习模型分类方法测试过程中需要额外迭代计算的缺点,极大地提高了时间效率;自生成过采样训练方法利用虚拟样本增加了人脸图像样本的多样性,提高了预测神经网络模块的预测鲁棒性;本发明方法尤其适应小样本以及样本缺失情况下的人脸识别。具体地,该方法通过采集人脸图片,剪裁至统一大小,转化为向量形式,并生成相对应0‑1标签向量;构建可预测判别字典学习模型并初始化,模型包含字典学习子模型以及预测神经网络子模型;迭代优化求解模型直至收敛;收敛过程中利用自生成过采样法训练预测神经网络子模块;保存最优模型,利用训练所得到的模型进行分类,进而获取与待识别的人脸图像相匹配的清晰的人脸图像及其对应的身份信息,并输出待识别图像的人脸识别结果。与现有技术相比,尤其是深度学习人脸识别技术方案相比,本发明方法具有更高的人脸识别率和时间效率。
[0019] 进一步地,所述判别字典学习子模型S中的字典矩阵D每一列为一个字典项,D由两个子字典构成,其分别为通用描述字典Dde和标签字典Ddi,D,Dde与Ddi具有相同的行数,D的列数等于Dde与Ddi列数之和,Ddi的列数与类别数一致,Dde的列数取任意值,数学表达式记为D=[Dde,Ddi];对应的稀疏编码向量α为列向量,包含描述编码向量αu和类别标签编码向量αc,其中α的维数与D的列数一致,αu的维数与Dde的列数一致,αc的维数与Ddi的列数一致,数学表达式记为
[0020] 进一步地,在步骤3中构建的可预测判别字典学习网络模型如下:
[0021]
[0022] 其中,判别字典学习子模块为 为预测神经网络子模块的参数集合,y为0‑1标签向量,∈(αc,y)为标签编码与标签向量的残差值;x为单个样本向量,X为样本数据集全体,λ1,λ2,λ3为人工设置的超参数。
[0023] 进一步地,所述预测神经网络子模型 的输入为人脸图像样本向量,输出为图像样本对应的预测稀疏编码;
[0024] 对于所述可预测判别字典学习网络模型的参数,其初始值取值为服从高斯分布的随机值。
[0025] 进一步地,在步骤4中对所述可预测判别字典学习网络模型进行求解时,采用块坐标下降法进行优化,具体地,固定其中一个或多个系数,去求解剩下系数的最优值,经过反复迭代,以最终达到可预测判别字典学习网络模型收敛状态,或者达到预设的最大迭代次数为止。
[0026] 进一步地,在步骤5中,自生成过采样方法利用训练集样本对应的稀疏编码向量进行拆分组合,生成合理虚拟稀疏编码向量,并通过可预测判别字典学习网络模型中的判别字典学习子模型 生成合理虚拟样本,并用于训练预测神经网络子模型
[0027] 进一步地,所述步骤8中,分类器通过读取编码向量中标签编码部分αc直接获得待识别人脸图像类别;分类器利用如下公式判断人脸图像所属类别:
[0028] c=maxi aci
[0029] 其中,aci表示ac在第i维的取值,c是图像所属类别。
[0030] 进一步地,在步骤2中,类别标签向量维度与训练集中的类别数相同,每个维度的可能取值可能为0或者1;其中,属于第i类的样本对应的样本向量在第i维取值为1,其他维度取值均为0。
[0031] 另一方面,本发明还提供了一种人脸识别装置,该装置支持上述权利要求1至7中任意一项所述的一种人脸识别方法,所述装置包括:
[0032] 接收模块,用于接收任一待识别人脸图像;
[0033] 预处理模块,用于剪裁待识别人脸图像至规定大小,转化成向量的形式,并进行L2范数归一化处理;
[0034] 预测模块,用于针对所述待识别人脸图像,计算人脸图像对应的预测稀疏编码;
[0035] 优化模块,用于针对所述待识别人脸图像,计算人脸图像对应的最优稀疏编码;
[0036] 类别输出模块,用于利用人脸图像对应的稀疏编码计算出人脸图像所属类别,及待识别的人脸图像相匹配的清晰的人脸图像及其对应的身份信息。
[0037] 进一步地,所述预测模块利用如下公式计算人脸图像对应的预测稀疏编码向量:
[0038]
[0039] 其中, 是预测神经网络编码表达式, 为预测神经网络子模块的参数集合,x为待识别人脸图像的一维向量。
[0040] 进一步地,所述优化模块利用如下公式计算人脸图像对应的最优稀疏编码向量:
[0041]
[0042] 其中,D为训练所得字典,x为待识别人脸图像的一维向量,α初始值为预测模块所计算出的预测稀疏编码向量。
[0043] 进一步地,优化模块非必须选项,可将预测模块计算所得的预测稀疏编码直接用于类别计算。
[0044] 进一步地,分类器利用如下公式判断人脸图像所属类别:
[0045] c=maxi aci
[0046] 其中,aci表示ac在第i维的取值,c是图像所属类别。
[0047] 同时,本发明还提供了一种人脸识别智能终端,该终端包括:处理器以及存储器,其中,所述存储器中存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述一种人脸识别方法的步骤。
[0048] 本发明与现有技术相比,具有如下的优点和有益效果:
[0049] 1、本发明一种人脸识别方法、装置及智能终端,本发明提出一种独特的字典结构,并利用标签字典存储类别信息;本发明改进了传统字典学习模型,结合判别字典学习子模型 和预测神经网络子模型 构建可预测判别字典学习网络模型;利用预测神经网络子模型加速稀疏编码的过程,克服了传统字典学习模型分类方法测试过程中需要额外迭代计算的缺点,极大地提高了时间效率;自生成过采样训练方法利用虚拟样本增加了人脸图像样本的多样性,提高了预测神经网络模块的预测鲁棒性;
[0050] 2、本发明尤其适应小样本以及样本缺失情况下的人脸识别。与现有技术相比,尤其是深度学习人脸识别技术方案相比,本发明对于样本量较小,样本多样性不足的场景效果提升明显;且本发明方法具有更高的人脸识别率和时间效率。

实施方案

[0061] 为使本发明的目的、技术方案和优点更加清楚明白,下面结合实施例和附图,对本发明作进一步的详细说明,本发明的示意性实施方式及其说明仅用于解释本发明,并不作为对本发明的限定。
[0062] 实施例1
[0063] 如图1至图9所示,本发明一种人脸识别方法,该方法包括以下步骤:
[0064] 步骤1:采集清晰的已知人脸图像,提取人脸区域,缩放至50×40(像素)大小,人工标记每一张人脸图像,且来自同一个体的人脸图像样本标记为一类,一个类别包含一个个体的一张或多张人脸图像,将所有人脸图像和其对应的类别标签作为训练集;
[0065] 步骤2:将步骤1训练集中所有人脸图像均转化为向量形式,并进行L2范数归一化处理;相对应地,将训练集中每张人脸图像样本所对应的类别标签转化为0‑1标签向量;
[0066] 步骤3:构建可预测判别字典学习网络模型并初始化,该模型包括判别字典学习子模型 和预测神经网络子模型 具体地,可预测判别字典学习网络模型如下:
[0067]
[0068] 其中,判别字典学习子模块为 为预测神经网络子模块的参数集合,y为0‑1标签向量,∈(αc,y)为标签编码与标签向量的残差值;x为单个样本向量,X为样本数据集全体,λ1,λ2,λ3为人工设置的超参数。
[0069] 本实施例中,参数Dde,Ddi,αu,αc, 均采用随机初始化,随机值服从高斯分布,超参数λ1,λ2,λ3取值分别为0.3,0.5,0.3。
[0070] 步骤4:结合步骤1和步骤2,将训练样本矩阵以及其对应的标签向量矩阵输入到步骤3中构建的可预测判别字典学习网络模型中,然后对该模型进行优化求解,学习该模型中的所需参数,保存所有学习得到的参数代入原始模型得到最终模型;具体地,[0071] 采用随机块坐标下降法优化模型,具体地,首先固定Dde,Ddi, 最优化αu,αc,然后固定αu,αc,最优化Dde,Ddi, 不断交替迭代直至收敛;
[0072] 步骤5:在步骤4的过程中,同时利用自生成过采样方法生成虚拟训练样本用于训练预测神经网络子模型 以此提高预测神经网络的预测准确度;具体地,
[0073] 在步骤4实施的过程中,分别记录αu,αc向量,将αu存放入描述编码池中,将αc存放入标签编码池中;将描述编码池和标签编码池中的编码向量进行随机组合,生成虚拟编码αv,利用xv=Dαv虚拟训练样本xv,将xv作为输入,αv作为目标训练预测神经网络子模型 此步骤在模型收敛过程中与迭代步骤交替进行;
[0074] 步骤6:对于待识别图像,将待识别图像样本均转化向量形式,并进行L2范数归一化,利用上述获得的最终模型中的预测神经网络子模型 计算出待识别图像样本的预测稀疏编码向量;
[0075] 步骤7:将步骤4中获得的预测稀疏编码向量作为判别字典学习子模型 的热启动值,通过判别字典学习子模型 计算出待识别图像样本的最优稀疏编码向量;
[0076] 步骤8:将步骤6中所得到的预测稀疏编码向量输入到分类器中,获得预测类别;将步骤7中所得到的最优稀疏编码向量输入到分类器中,获得最优类别;进而获取与待识别的人脸图像相匹配的清晰的人脸图像及其对应的身份信息,并输出待识别图像的人脸识别结果。
[0077] 作为进一步地优选方案,所述预测神经网络子模型 的输入为人脸图像样本向量,输出为图像样本对应的预测稀疏编码;
[0078] 对于所述可预测判别字典学习网络模型的参数,其初始值取值为服从高斯分布的随机值。
[0079] 作为进一步地优选方案,在步骤4中对所述可预测判别字典学习网络模型进行求解时,采用块坐标下降法进行优化,具体地,固定其中一个或多个系数,去求解剩下系数的最优值,经过反复迭代,以最终达到可预测判别字典学习网络模型收敛状态,或者达到预设的最大迭代次数为止。
[0080] 作为进一步地优选方案,在步骤5中,自生成过采样方法利用训练集样本对应的稀疏编码向量进行拆分组合,生成合理虚拟稀疏编码向量,并通过可预测判别字典学习网络模型中的判别字典学习子模型 生成合理虚拟样本,并用于训练预测神经网络子模型[0081] 作为进一步地优选方案,所述步骤8中,分类器通过读取编码向量中标签编码部分αc直接获得待识别人脸图像类别;分类器利用如下公式判断人脸图像所属类别:
[0082] c=maxi aci
[0083] 其中,aci表示ac在第i维的取值,c是图像所属类别。
[0084] 作为进一步地优选方案,在步骤2中,类别标签向量维度与训练集中的类别数相同,每个维度的可能取值可能为0或者1;其中,属于第i类的样本对应的样本向量在第i维取值为1,其他维度取值均为0。
[0085] 本实施例基于可预测判别字典学习网络的人脸识别方法在AR库以及Extended YaleB库进行测试。从AR库中选取100个不同个体的人脸图像,其中每一类包含14张不同光照,遮挡和表情的正面图像,实验中7张用于训练另外7张用于测试,所达到的识别率为:86%;从Extended YaleB库中选取31个不同个体的人脸图像,每个个体64张图片,实验中32张用于训练另外32张用于测试,所达到的识别率为:95%。
[0086] 工作原理如下:
[0087] 基于现有技术中多数是单独采用基于字典学习模型来进行人脸识别,现有技术中人脸识别方法在人脸图像数量较少或缺失的情况下,识别率和时间效率不高;这是因为方法中各个步骤相对是独立的,并不会因为某一个训练步骤的完成而减少其他步骤的计算时间,这一特性也影响到了测试阶段;对一个样本的稀疏编码通常要求额外的时间与计算开销,这一缺点在分类任务中尤为凸显;为了获得每个新样本最为合适的稀疏系数,总是需要进行迭代优化求解,这种迭代优化过程往往需要消耗大量的计算资源,并且这个过程中的时间消耗是不可预测的。另外,分类阶段在很大程度上依赖于稀疏编码系数,甚至后续还需要利用特定的字典计算和比较重构误差,使得每完成一次分类需要大量的时间。进而造成识别不精准,时间效果不高,且浪费时间。
[0088] 因此,本发明采用上述方案改进了传统字典学习模型,结合判别字典学习子模型和预测神经网络子模型 构建可预测判别字典学习网络模型;利用预测神经网络子模型加速稀疏编码的过程,克服了传统字典学习模型分类方法测试过程中需要额外迭代计算的缺点,极大地提高了时间效率;自生成过采样训练方法利用虚拟样本增加了人脸图像样本的多样性,提高了预测神经网络模块的预测鲁棒性;本发明方法尤其适应小样本以及样本缺失情况下的人脸识别。具体地,该方法通过采集人脸图片,剪裁至统一大小,转化为向量形式,并生成相对应0‑1标签向量;构建可预测判别字典学习模型并初始化,模型包含字典学习子模型以及预测神经网络子模型;迭代优化求解模型直至收敛;收敛过程中利用自生成过采样法训练预测神经网络子模块;保存最优模型,利用训练所得到的模型进行分类,进而获取与待识别的人脸图像相匹配的清晰的人脸图像及其对应的身份信息,并输出待识别图像的人脸识别结果。与现有技术相比,尤其是深度学习人脸识别技术方案相比,本发明方法具有更高的人脸识别率和时间效率。
[0089] 实施例2
[0090] 如图1至图9所示,本实施例提供了一种人脸识别装置,如图8所示,该装置支持实施例1所述的一种人脸识别方法,所述装置包括:
[0091] 接收模块,用于接收任一待识别人脸图像;
[0092] 预处理模块,用于剪裁待识别人脸图像至规定大小,转化成向量的形式,并进行L2范数归一化处理;
[0093] 预测模块,用于针对所述待识别人脸图像,计算人脸图像对应的预测稀疏编码;
[0094] 优化模块,用于针对所述待识别人脸图像,计算人脸图像对应的最优稀疏编码;
[0095] 类别输出模块,用于利用人脸图像对应的稀疏编码计算出人脸图像所属类别,及待识别的人脸图像相匹配的清晰的人脸图像及其对应的身份信息。
[0096] 进一步地,所述预测模块利用如下公式计算人脸图像对应的预测稀疏编码向量:
[0097]
[0098] 其中, 是预测神经网络编码表达式, 为预测神经网络子模块的参数集合,x为待识别人脸图像的一维向量。
[0099] 进一步地,所述优化模块利用如下公式计算人脸图像对应的最优稀疏编码向量:
[0100]
[0101] 其中,D为训练所得字典,x为待识别人脸图像的一维向量,α初始值为预测模块所计算出的预测稀疏编码向量。
[0102] 进一步地,优化模块非必须选项,可将预测模块计算所得的预测稀疏编码直接用于类别计算。
[0103] 进一步地,分类器利用如下公式判断人脸图像所属类别:
[0104] c=maxi aci
[0105] 其中,aci表示ac在第i维的取值,c是图像所属类别。
[0106] 实施例3
[0107] 如图1至图9所示,本发明实施例还提供了一种人脸识别智能终端,该终端包括:处理器以及存储器,其中,所述存储器中存储有程序代码,当所述程序代码被所述处理器执行时,使得所述处理器执行上述实施例1中一种人脸识别方法的步骤。
[0108] 如图9所示,为了便于说明,仅示出了与本发明实施例相关的部分,具体技术细节未揭示的,请参照本发明实施例方法部分。该智能终端可以包括智能手机、笔记本电脑、平板电脑、甚至是车载电脑等任意终端设备,介绍该智能终端必要部件如下:
[0109] 图9示出的是与本发明实施例提供的终端的部分结构的框图。参考图9,该终端必要部件包括:存储器、输入单元、显示单元、处理器、以及电源等部件。本领域技术人员可以理解,图9中示出的终端结构为实现本发明功能的最小终端结构,仅包含必要部件,可以包括比图示更多的部件,或者组合某些部件,或者不同的部件布置。
[0110] 存储器可用于存储软件程序以及模块,处理器通过运行存储在存储器的软件程序以及模块,从而执行终端的各种功能应用以及数据处理。存储器可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据终端的使用所创建的数据(比如音频数据、图片等)等,本发明中存储数据区可存储多个类别的人脸图像,其中,人脸图像可以被预先转化成向量的形式被存储。此外,存储器可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0111] 输入单元可用于接收输入的数字或字符信息,以及产生与终端的用户设置以及功能控制有关的键信号输入。本发明中的输入单元可用于接收待识别人脸图像。具体地,输入单元可包括触控面板以及其他输入设备。触控面板,也称为触摸屏,可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板上或在触控面板附近的操作),并根据预先设定的程式驱动相应的连接装置。可选地,触控面板可包括触摸检测装置和触摸控制器两个部分。其中,触摸检测装置检测用户的触摸方位,并检测触摸操作带来的信号,将信号传送给触摸控制器;触摸控制器从触摸检测装置上接收触摸信息,并将它转换成触点坐标,再送给处理器,并能接收处理器发来的命令并加以执行。此外,可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板。除了触控面板,输入单元还可以替换为其他输入设备。具体地,其他输入设备可以包括但不限于物理键盘、轨迹球、鼠标、操作杆等中的一种或多种。
[0112] 显示单元可用于显示由用户输入的信息或提供给用户的信息以及终端的各种菜单。显示单元可包括显示面板,可选地,可以采用液晶显示器(Liquid Crystal Display,LCD)、有机发光二极管(Organic Light‑Emitting Diode,OLED)等形式来配置显示面板。进一步的,触控面板可覆盖显示面板,当触控面板检测到在其上或附近的触摸操作后,传送给处理器以确定触摸事件的类型,随后处理器根据触摸事件的类型在显示面板上提供相应的视觉输出。虽然在图9中,触控面板与显示面板是作为两个独立的部件来实现终端的输入和输入功能,但是在某些实施例中,可以将触控面板与显示面板集成而实现终端的输入和输出功能。
[0113] 处理器是终端的控制中心,利用各种接口和线路连接整个终端的各个部分,通过运行或执行存储在存储器内的软件程序和/或模块,以及调用存储在存储器内的数据,执行终端的各种功能和处理数据,从而对终端进行整体监控。可选地,处理器可包括一个或多个处理单元。
[0114] 电源(比如电池),优选地,电源可以通过电源管理系统与处理器逻辑相连,从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。
[0115] 尽管未示出,除该终端最小结构外,还可以包括无线局域网模块,摄像头、蓝牙模块等,在此不再赘述。
[0116] 具体在本实施例中,终端中的处理器会按照如下的指令,将一个或多个的应用程序的进程对应的可执行文件加载到存储器中,并由处理器来运行存储在存储器中的应用程序,从而实现各种功能:
[0117] 步骤1:采集清晰的已知人脸图像,提取人脸区域,缩放至50×40(像素)大小,人工标记每一张人脸图像,且来自同一个体的人脸图像样本标记为一类,一个类别包含一个个体的一张或多张人脸图像,将所有人脸图像和其对应的类别标签作为训练集;
[0118] 步骤2:将步骤1训练集中所有人脸图像均转化为向量形式,并进行L2范数归一化处理;相对应地,将训练集中每张人脸图像样本所对应的类别标签转化为0‑1标签向量;
[0119] 步骤3:构建可预测判别字典学习网络模型并初始化,该模型包括判别字典学习子模型 和预测神经网络子模型 具体地,可预测判别字典学习网络模型如下:
[0120]
[0121] 其中,判别字典学习子模块为 为预测神经网络子模块的参数集合,y为0‑1标签向量,∈(αc,y)为标签编码与标签向量的残差值;x为单个样本向量,X为样本数据集全体,λ1,λ2,λ3为人工设置的超参数。
[0122] 本实施例中,参数Dde,Ddi,αu,αc, 均采用随机初始化,随机值服从高斯分布,超参数λ1,λ2,λ3取值分别为0.3,0.5,0.3。
[0123] 步骤4:结合步骤1和步骤2,将训练样本矩阵以及其对应的标签向量矩阵输入到步骤3中构建的可预测判别字典学习网络模型中,然后对该模型进行优化求解,学习该模型中的所需参数,保存所有学习得到的参数代入原始模型得到最终模型;具体地,[0124] 采用随机块坐标下降法优化模型,具体地,首先固定Dde,Ddi, 最优化αu,αc,然后固定αu,αc,最优化Dde,Ddi, 不断交替迭代直至收敛;
[0125] 步骤5:在步骤4的过程中,同时利用自生成过采样方法生成虚拟训练样本用于训练预测神经网络子模型 以此提高预测神经网络的预测准确度;具体地,
[0126] 在步骤4实施的过程中,分别记录αu,αc向量,将αu存放入描述编码池中,将αc存放入标签编码池中;将描述编码池和标签编码池中的编码向量进行随机组合,生成虚拟编码αv,利用xv=Dαv虚拟训练样本xv,将xv作为输入,αv作为目标训练预测神经网络子模型 此步骤在模型收敛过程中与迭代步骤交替进行;
[0127] 步骤6:对于待识别图像,将待识别图像样本均转化向量形式,并进行L2范数归一化,利用上述获得的最终模型中的预测神经网络子模型 计算出待识别图像样本的预测稀疏编码向量;
[0128] 步骤7:将步骤4中获得的预测稀疏编码向量作为判别字典学习子模型 的热启动值,通过判别字典学习子模型 计算出待识别图像样本的最优稀疏编码向量;
[0129] 步骤8:将步骤6中所得到的预测稀疏编码向量输入到分类器中,获得预测类别;将步骤7中所得到的最优稀疏编码向量输入到分类器中,获得最优类别;进而获取与待识别的人脸图像相匹配的清晰的人脸图像及其对应的身份信息,并输出待识别图像的人脸识别结果。
[0130] 对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0131] 以上对本发明实施例所提供的一种人脸识别的方法及装置进行了详细介绍,本文中应用了具体的个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想;同时,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本发明的限制。

附图说明

[0051] 此处所说明的附图用来提供对本发明实施例的进一步理解,构成本申请的一部分,并不构成对本发明实施例的限定。在附图中:
[0052] 图1为本发明实施例人脸识别的方法流程图;
[0053] 图2为可预测判别字典学习网络模型框架图;
[0054] 图3为自生成过采样训练流程图;
[0055] 图4为模型迭代优化流程图;
[0056] 图5为样本测试流程图;
[0057] 图6为基于AR数据集的部分描述字典;
[0058] 图7为基于AR数据集的部分标签字典;
[0059] 图8为本发明提供的人脸识别的装置结构图;
[0060] 图9为本发明提供的终端的部分结构的框图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号