首页 > 专利 > 杭州电子科技大学 > 基于深度学习的文本相关声纹生物密钥生成方法专利详情

基于深度学习的文本相关声纹生物密钥生成方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2021-03-31
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2021-08-13
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-05-17
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2041-03-31
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202110348221.8 申请日 2021-03-31
公开/公告号 CN113179157B 公开/公告日 2022-05-17
授权日 2022-05-17 预估到期日 2041-03-31
申请年 2021年 公开/公告年 2022年
缴费截止日
分类号 H04L9/08G10L17/02G10L17/04G10L17/18G10L25/24G10L25/30 主分类号 H04L9/08
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 5
权利要求数量 6 非专利引证数量 1
引用专利数量 1 被引证专利数量 0
非专利引证 1、2008.09.25CN 109326294 A,2019.02.12吴震东等.基于深度学习的污损指纹识别研究《.电子与信息学报》.2017,吴震东等.基于CNN的连续语音说话人声纹识别《.电信科学》.2017,Yaoping wu et al..A fingerprint andvoiceprint fusion identity authenticationmethod《.CSS》.2019,Soham Dasgupta et al..VoiceprintAnalysis for Parkinson’s Disease usingMFCC, GMM, and Instance based Learningand Multilayer Perceptron《.ICPCSI》.2018,Bin Liang et al..A Novel Fingerprint-Based Biometric Encryption《.3GPCIC》.2015,;
引用专利 US2008235016A 被引证专利
专利权维持 1 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 吴震东、周昊文 第一发明人 吴震东
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 2
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
朱亚冠
摘要
本发明公开基于深度学习的文本相关声纹生物密钥生成方法。利用经典声纹信号处理方法与针对声纹特征图像的深度神经网络处理方法相结合,实现了文本相关的声纹信号的稳定特征提取、特征序列稳定等系列操作,更为精准地提取话者不同样本的稳定特征分量,并通过声纹密钥深度神经网络的层层处理,进一步稳定声纹特征于特征值,最后通过声纹密钥模糊提取器,实现正常文本相关语音高强度声纹密钥序列生成,所生成的声纹生物密钥长度可大于512bit。本发明不存在需记录的生物特征模板信息,降低了隐私泄露的风险,同时用户无需高强度的记忆即可生成高安全性的密钥。
  • 摘要附图
    基于深度学习的文本相关声纹生物密钥生成方法
  • 说明书附图:图1
    基于深度学习的文本相关声纹生物密钥生成方法
  • 说明书附图:图2
    基于深度学习的文本相关声纹生物密钥生成方法
  • 说明书附图:图3
    基于深度学习的文本相关声纹生物密钥生成方法
  • 说明书附图:图4
    基于深度学习的文本相关声纹生物密钥生成方法
  • 说明书附图:图5
    基于深度学习的文本相关声纹生物密钥生成方法
  • 说明书附图:图6
    基于深度学习的文本相关声纹生物密钥生成方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-05-17 授权
2 2021-08-13 实质审查的生效 IPC(主分类): H04L 9/08 专利申请号: 202110348221.8 申请日: 2021.03.31
3 2021-07-27 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.基于深度学习的文本相关声纹生物密钥生成方法,其特征在于包括声纹生物密钥训练部分和声纹生物密钥提取部分;
所述声纹生物密钥训练部分具体步骤为:
步骤(1)、获取文本相关内容的纯净训练语音数据;
步骤(2)、对步骤(1)纯净训练语音数据进行第1阶段预处理,具体是对步骤(1)纯净训练语音数据提取MFCC系数,并利用上述MFCC系数进行混合数为N的高斯混合模型训练;
所述高斯混合模型由N个高维高斯分布组成;每一个高斯分布的均值向量组成N×nx维的矩阵,将N×nx维的矩阵归一化至取值为[0,255]的图像灰度矩阵,即声纹特征图像1,其中nx为MFCC系数个数;
高斯混合模型对应每一个高维高斯分布有一个权值,组合在一起为1×N维的权值向量λ;同时在用户端存储λ;
步骤(3)、对步骤(1)纯净训练语音数据进行第2阶段预处理,具体是对步骤(1)纯净训练语音数据生成文本相关声纹语谱图,并对上述文本相关声纹语谱图进行盲对齐与统一图像尺寸操作,获得声纹特征图像2;
步骤(4)、将声纹特征图像1、2进行拼接,获得声纹特征图像3;基于声纹特征图像3构建声纹密钥深度神经网络训练集合L1;
步骤(5)、构造声纹密钥深度神经网络,并利用训练集合L1进行训练
所述的声纹密钥深度神经网络包括依次级联的声纹稳定特征提取器、声纹生物密钥稳定器、声纹生物密钥提取器;
5‑1构造声纹稳定特征提取器M1,其输入为训练集合L1中声纹特征图像3,输出为声纹特征图像4;
5‑2构造声纹生物密钥稳定器M2,其输入为声纹稳定特征提取器M1输出的声纹特征图像4,输出为声纹生物特征序列L2;
5‑3构造声纹生物密钥提取器M3,其输入为声纹生物密钥稳定器M2输出的声纹生物特征序列L2,输出为声纹生物密钥;
声纹稳定特征提取器M1包括深度神经网络学习模型、声纹稳定特征选择器;
所述的深度神经网络学习模型采用现有ResNet或DenseNet模型,在模型经训练集L1训练稳定后,移除全连接层,用声纹稳定特征选择器替换全连接层;
所述的声纹稳定特征选择器M1用于从深度神经网络学习模型输出的所有特征图,选择拼接为一张输出特征图;
将训练集L1中基于声纹特征图像3经深度神经网络学习模型、声纹稳定特征选择器处理后得到的输出特征图组成集合U,其中图片集为U=(U1,U2,...,Ui,...,Un1),Ui为单张输出特征图,n1为输出特征图的数量,所有图片大小均相同;像素点集pi,j表示第i张特征图中第j个位置的单个像素点,每
张特征图有m1个像素点,共n1×m1个像素点;然后从像素点集P中选出取值更趋稳定的像素点集P',由像素点集P'整理为声纹特征图像4:
所述从像素点集P中选出取值更趋稳定的像素点集P'具体是:
a)根据公式(1)获得特征图Ui在j位置处的像素值pi,j的绝对误差R(pi,j),如果R(pi,j)<β1则将像素位置(i,j)存入队列,反之判断像素位置(i,j)是否已存在于队列中,若存在于队列中则执行步骤b);若不存在于队列中,则将像素位置(i,j)加入队列,并计算队列中所有像素点值的方差δ,若δ≥β2,则将像素位置(i,j)从队列中删除,则执行步骤b);
b)继续遍历i、j,选择一个新的像素点位置,返回步骤a);直至i=n1,j=m1时迭代结束,将队列中存放的所有像素位置对应的像素点组成像素点集P';
其中 为像素点集P中j列的所有像素点的均值,pi,j表示特征图Ui在j位置处的像素值,β1、β2均为人为定义的阈值;
声纹生物密钥稳定器M2以具备编码‑解码以及跳跃连接结构特点的Unet网络模型为基础,模型的基本构造为多层编码‑解码模块的堆叠,编码采用卷积加下采样操作,解码采用上采样加卷积操作;
声纹生物密钥提取器M3采用模糊提取器提取声纹生物密钥。

2.根据权利要求1所述的基于深度学习的文本相关声纹生物密钥生成方法,其特征在于Unet网络的跳跃连接采用神经连接控制NCC结构。

3.根据权利要求1所述的基于深度学习的文本相关声纹生物密钥生成方法,其特征在于声纹生物密钥提取器M3采用Shamir门限秘密共享方法进行密钥的模糊提取,具体方法为:
生成阶段:设定参数n2,t1,bx,其中参数n2表示从序列向量L2中选取的子序列的个数,bx表示选取的子序列的长度,子序列为连续的数字序列;参数t1表示阈值,当有t1个子序列成功匹配时即可准确提取出密钥;
(1)构造一个多项式,使Output与多项式常数项a0绑定,a0视为密钥
t1‑1 2 1
F(x)=at1‑1x +...+a2x+a1x+a0 mod(p),a0=Output
其中p为素数,系数at1‑1,...a2,a1随机选取,x∈Zp,Zp为模p剩余系域;
(2)从训练阶段的声纹密钥稳定器M2处理后的序列向量L2中取n2块比特长为bx的子序列1≤t1≤n2,将n2个子序列Mi作为上述多项式的输入x,得到对应的F(Mi),记录F(Mi)、p与loci(i=1,2,...,n2),其中loci表示选取的第i个子序列Mi的第一位在整个序列中的索引值;供密钥提取阶段使用;
提取阶段:
当x=0时F(0)=a0=Output,即可恢复出密钥;根据n2个索引值选取n2块bx比特长的子序列Qi,将(Qi,F(Mi))及x=0代入下式,若其中有t1(1≤t1≤n2)块Qi与Mi相等即可得到Output=a0,即为声纹生物密钥;

4.根据权利要求1所述的基于深度学习的文本相关声纹生物密钥生成方法,其特征在于声纹生物密钥提取部分包括声纹生物特征预处理、声纹稳定特征提取、声纹生物密钥稳定、声纹生物密钥提取,具体步骤为:
步骤(1)、获取与训练阶段文本相关内容一致的纯净测试语音数据;
步骤(2)、对步骤(1)测试语音数据进行第1阶段预处理,提取出MFCC系数;依据声纹生物密钥训练时存储的λ,训练GMM高斯混合模型,其中模型的混合数阶数N与声纹生物密钥训练时一致;取GMM高斯混合模型的每一个高斯分布的均值向量,组成N×nx维的矩阵,将矩阵用训练阶段步骤3的归一化方法归一化为[0,255]的图像灰度矩阵,获得声纹特征图像a1;
步骤(3)、将步骤(1)测试语音数据进行第2阶段预处理,生成文本相关声纹语谱图;对文本相关声纹语谱图进行盲对齐与统一图像尺寸操作,尺寸与训练阶段确定的尺寸相同,获得声纹特征图像a2;
步骤(4)、将声纹特征图像a1、a2进行拼接,获得声纹特征图像a3;
步骤(5)、用训练好的声纹密钥深度神经网络处理声纹特征图像a3,生成声纹生物密钥。

5.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现权利要求1‑4任一项所述的方法。

6.一种机器可读存储介质,其特征在于,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现权利要求1‑
4任一项所述的方法。
说明书

技术领域

[0001] 本发明属于信息安全技术领域,具体涉及一种从人类声纹中经由深度学习生成生物密钥的方法。生成的密钥即可用于身份认证,也可用于加密,可以理解为网络安全中泛在加密技术的一种。

背景技术

[0002] 声纹识别技术是现今比较成熟的生物特征识别技术,在低噪音环境中声纹识别准确率可达到95%以上。基于声纹的身份认证技术,其基本方法为:1)采集用户语音信号,经语音信号处理提取用户声纹特征,生成声纹特征模板,存储在本地安全域或远端网络认证服务器中;2)当某用户需要进行身份认证时,再次采集用户语音信号,提取用户声纹特征;3)将用户声纹特征与存储的相应用户声纹特征模板进行比对,一致则认证通过,不一致则认证失败。由于本地安全域存在被读取的可能,认证服务器一般不是可信第三方,使得存储的声纹特征模板的安全性受到质疑,一般认为目前的生物特征认证系统设计存在较为严重的隐私安全问题。
[0003] 现有的声纹特征隐私保护方案主要集中在声纹特征模板保护方面。模板保护一般采用对特征模板进行函数运算产生新的特征模板的方法来保护生物特征原始信息,要求由新的特征模板一般难以推知原始特征信息。模板变形、模糊金库等方法均可以归入此类方法。模板保护方法在使用过程中存在识别准确率下降,原始特征信息依然存在被恢复的可能等问题。声纹生物密钥技术直接从声纹特征中获取高强度的稳定的声纹密钥序列,可直接参与加密运算,亦可用于身份特征识别,可以扩展声纹技术在信息安全领域的应用范围。
[0004] 现有的声纹生物密钥生成技术主要有:(1)中国专利号201410074511.8公开了“一种人类声纹生物密钥生成方法”,方法将声纹特征序列向高维空间中投影,在高维空间中将特征序列稳定到可接受的波动范围内,再对稳定后的特征序列编码,从编码中提取生物密钥。该方法可以对基于MFCC的声纹特征序列起到一定的稳定效果,但由于基于MFCC的声纹特征受环境、发声状态等因素影响较大,使得单纯依靠MFCC的声纹特征的高维空间投影方法,密钥生成的准确率和强度均不够高,一般能提取的稳定比特序列长度不足256bit。中国发明专利ZL201110003202.8基于声纹的文档加密及解密方法,提出了一个从声纹信息中提取稳定密钥序列的方案。但是该方案仅用棋盘法稳定声纹特征值,稳定效果有限。并且棋盘法事实是通过缩小编码空间来稳定特征值,如1024的值空间映射为16的值空间,这使得密钥序列的长度缩短,降低了安全性。

发明内容

[0005] 本发明的目的是针对现有的文本相关声纹生物密钥生成方法的不足,提出了一种基于深度学习的文本相关声纹生物密钥生成方法。
[0006] 基于深度学习的文本相关声纹生物密钥生成分两部分,第一部分为声纹生物密钥训练部分,第二部分为声纹生物密钥提取部分。
[0007] 所述声纹生物密钥训练部分具体步骤为:
[0008] 步骤(1)、获取文本相关内容的纯净训练语音数据;
[0009] 步骤(2)、对步骤(1)纯净训练语音数据进行第1阶段预处理,具体是对步骤(1)纯净训练语音数据提取MFCC系数,并利用上述MFCC系数进行混合数为N的高斯混合模型训练;
[0010] 所述的MFCC系数提取方法为现有常规技术。
[0011] 所述高斯混合模型由N个高维高斯分布组成,N=8~32,可由用户根据经验选定;每一个高斯分布的均值向量组成N×nx维的矩阵,将N×nx维的矩阵归一化至取值为[0,
255]的图像灰度矩阵,即声纹特征图像1,其中nx为MFCC系数个数,一般取20。
[0012] 高斯混合模型对应每一个高维高斯分布有一个权值,组合在一起为1×N维的权值向量λ;同时在用户端存储λ。
[0013] 步骤(3)、对步骤(1)纯净训练语音数据进行第2阶段预处理,具体是对步骤(1)纯净训练语音数据生成文本相关声纹语谱图,并对上述文本相关声纹语谱图进行盲对齐与统一图像尺寸操作(一般取300×200~500×300),获得声纹特征图像2。
[0014] 步骤(4)、将声纹特征图像1、2进行拼接,获得声纹特征图像3;基于声纹特征图像3构建声纹密钥深度神经网络训练集合L1。
[0015] 步骤(5)、构造声纹密钥深度神经网络,并利用训练集合L1进行训练[0016] 所述的声纹密钥深度神经网络包括依次级联的声纹稳定特征提取器、声纹生物密钥稳定器、声纹生物密钥提取器;
[0017] 5‑1构造声纹稳定特征提取器M1,其输入为声纹特征图像3,输出为声纹特征图像4;
[0018] 5‑2构造声纹生物密钥稳定器M2,其输入为声纹稳定特征提取器M1输出的声纹特征图像4,输出为声纹生物特征序列L2;
[0019] 5‑3构造声纹生物密钥提取器M3,其输入为声纹生物密钥稳定器M2输出的声纹生物特征序列L2,输出为声纹生物密钥。
[0020] 声纹生物密钥提取部分包括声纹生物特征预处理、声纹稳定特征提取、声纹生物密钥稳定、声纹生物密钥提取,具体步骤为:
[0021] 步骤(1)、获取与训练阶段文本相关内容一致的纯净测试语音数据;
[0022] 步骤(2)、对步骤(1)测试语音数据进行第1阶段预处理,提取出MFCC系数;依据声纹生物密钥训练时存储的λ,训练GMM高斯混合模型,其中模型的混合数阶数N与声纹生物密钥训练时一致。取GMM高斯混合模型的每一个高斯分布的均值向量,组成N×nx维的矩阵,将矩阵用训练阶段步骤3的归一化方法归一化为[0,255]的图像灰度矩阵,获得声纹特征图像a1。
[0023] 步骤(3)、将步骤(1)测试语音数据进行第2阶段预处理,生成文本相关声纹语谱图;对文本相关声纹语谱图进行盲对齐与统一图像尺寸操作,尺寸与训练阶段确定的尺寸相同,获得声纹特征图像a2。
[0024] 步骤(4)、将声纹特征图像a1、a2进行拼接,获得声纹特征图像a3;
[0025] 步骤(5)、用训练好的声纹密钥深度神经网络处理声纹特征图像a3,生成声纹生物密钥。
[0026] 本发明的另一个目的是提供一种电子设备,包括处理器和存储器,所述存储器存储有能够被所述处理器执行的机器可执行指令,所述处理器执行所述机器可执行指令以实现上述的方法。
[0027] 本发明的又一个目的是提供一种机器可读存储介质,该机器可读存储介质存储有机器可执行指令,该机器可执行指令在被处理器调用和执行时,机器可执行指令促使处理器实现上述的方法。
[0028] 本发明提出了一种基于深度学习的声纹生物密钥生成方法。本发明利用经典声纹信号处理方法与针对声纹特征图像的深度神经网络处理方法相结合,实现了文本相关的声纹信号的稳定特征提取、特征序列稳定等系列操作,与现有经典的声纹模型系数密钥提取方法比较,可以更为精准地提取话者不同样本的稳定特征分量,并通过声纹密钥深度神经网络的层层处理,进一步稳定声纹特征于特征值,最后通过声纹密钥模糊提取器,实现正常文本相关语音高强度声纹密钥序列生成,所生成的声纹生物密钥长度可大于512bit。本发明不存在需记录的生物特征模板信息,降低了隐私泄露的风险,同时用户无需高强度的记忆即可生成高安全性的密钥,该密钥可用于现有的公私钥、对称加密等操作,能够为现有的基于人类声纹的身份认证技术、泛在加密技术提供一种新的认证模式与加密技术,扩展了声纹在信息安全领域内的应用范围,提高了声纹生物特征使用的安全性和灵活性。

实施方案

[0035] 下面结合附图对本发明作进一步说明。
[0036] 虽然在低噪音环境中声纹识别准确率可达到95%以上,但是直接从声纹中提取生物密钥依然存在诸多困难。声纹生物特征是依概率进行识别的,从语音信号中提取的声纹特征存在很大的波动性。如果不作处理,直接比较两组声纹特征数字序列,大于99%的概率没有一个数字是相同的。现有的稳定声纹特征数字序列的方法主要是棋盘法和高维空间矩阵投影法,但其稳定效果均有限,提取声纹生物密钥的成功率偏低。针对已有技术的不足,本发明提出了一种基于深度神经网络编码的文本相关声纹生物密钥生成方法,可使声纹生物密钥提取成功率达到90%以上。
[0037] 本发明分二部分,声纹生物密钥训练部分与声纹生物密钥提取部分。
[0038] 声纹生物密钥训练、提取的整体流程图如图1所示,声纹生物密钥训练部分的具体实施步骤为:
[0039] 步骤(1)、用户确定文本相关内容,用正常语速与音量读出文本内容,录取语音s1秒以上,s1一般取10~20,若叙述一遍文本内容录取的语音
[0040] 步骤(2)、对录取的语音信号进行第1阶段预处理,从录取语音中提取MFCC系数(Mel频率倒谱系数),如图2所示,具体方法为:
[0041] 2‑1、对步骤(1)获得的语音信号进行预增强(Pre‑Emphasis)
[0042] 以S1(n)(n=0,1,…,N‑1)表示语音时域信号,N表示离散时间序列个数。
[0043] 预增强公式为:
[0044] S(n)=S1(n)–a×S1(n‑1)
[0045] 其中0.9
[0046] 2‑2、对预增强后的语音信号进行音框化(Framing)
[0047] 音框化即对语音信号分帧,帧长一般取为20~50毫秒。
[0048] 2‑3、对音框化后的语音信号进行汉明窗(Hamming Windowing)处理[0049] 假设音框化后的信号为S(n),n=0,1,…,N‑1,那么乘上汉明窗后为:
[0050] S'(n)=S(n)*w(n)
[0051]
[0052] 其中w(n)表示汉明窗,a为汉明窗修正系数,一般取0.46。
[0053] 2‑4、对汉明窗处理后的语音信号S'(n)进行快速傅立叶转换(FFT),得到线性频谱X(k)。
[0054] 所述的快速傅立叶转换(FFT)为基2FFT变换。
[0055] 2‑5、对语音信号的线性频谱采用三角带通滤波器(Triangle Filters)进行滤波,得到每个滤波器输出的对数能量z(m),m=0,1,…,Ms‑1,计算如下:
[0056]
[0057] 其中Hm(k)为第m个梅尔尺度的三角形滤波器的频率响应,Ns为语音信号的点数,一般取256,Ms为三角带通滤波器个数,一般取20,X(k)表示第k个语音信号的线性频谱。
[0058] 2‑6、对对数能量进行离散余弦转换(DCT),获得DCT系数数组r[20],r[]=dct(z[]);
[0059] dct()变换公式为
[0060]
[0061] 其中r[]表示一帧语音信号的MFCC参数,一般为20个,k1取值0~19。D=20。
[0062] MFCC系数计算方法为语音信号处理领域通用算法。
[0063] 2‑7、用MFCC系数训练用户GMM高斯混合模型,取混合数为8~32阶,阶数可由用户根据经验选定,记为N。GMM高斯混合模型如图3所示。图中有N个混合数,每个混合数对应一个高维高斯分布,维数为MFCC参数个数,一般为20;μi为高斯分布的均值向量,∑i为高维高斯分布的协方差矩阵,pi为对应高斯分布在整个GMM高斯混合模型中所占的比例权值,∑pi=1。GMM训练方法采用语音信号处理领域通用算法。
[0064] 2‑8、混合数为N的高斯混合模型由N个高维高斯分布组成,取每一个高斯分布的均值向量,组成N×20维的矩阵,20为MFCC系数个数,将N×20维的矩阵归一化至取值为[0,255]的图像灰度矩阵,即声纹特征图像1。归一化可采用本领域的通用方法,归一化函数f也可采用如下设计:
[0065]
[0066] 其中,α为MFCC系数值域的最大值减去最小值,x0为MFCC系数取值的最小值,x1取遍N×20维矩阵的每一个分量, 为向下取整运算符;
[0067] 高斯混合模型对应每一个高维高斯分布有一个权值,组合在一起为1×N维的权值向量,记为λ,在用户端存储λ。
[0068] 步骤(3)、对步骤1录取语音进行第2阶段预处理;
[0069] 3‑1、生成文本相关声纹语谱图;用时间n作为时间轴坐标,k作为频谱轴坐标,将|X2
(n,k)|的值表示为灰度级,显示在相应的坐标点位置上,即构成了声纹语谱图。X(n,k)为第n段语音帧的频谱能量密度函数,是对语音时域信号S’(n)实施基2快速傅立叶变换(FFT变换)得到的线性频谱,基2FFT变换为本领域内通用算法,k对应频谱段,每一段语音帧对应
2
了时间轴上的一个时间片。通过变换10log10(|X(n,k)|)得到语谱图的dB表示。
[0070] 3‑2、对上述声纹语谱进行图盲对齐与统一图像尺寸操作,分为图像宽度尺寸统一、标志点定位、图像平移长度重整3部分;标志点定位方法如图4所示,具体为:
[0071] 1)声纹语谱图宽度对应人类语音的频率取值范围,一般为8000Hz,可采用双线性插值等领域内通用的图像缩放方法将所有生成的声纹语谱图宽度缩放到统一尺寸,一般为200~300像素。
[0072] 2)采用CNN深网模型G1寻找声纹语谱图标志点位置;确定声纹语谱图标志点的平移目标位置,一般为图像的中心点位置,将声纹语谱图进行整体平移,使声纹语谱图标志点与平移目标位置重合;
[0073] 3)采用CNN深网模型G2、G3寻找声纹语谱图起始点和终止点位置;统一声纹语谱图的长度尺寸,采用双线性插值等领域内通用的图像缩放方法将声纹语谱图标志点以左和以右2部分分别缩放到统一尺寸,完成声纹语谱图盲对齐操作。获得声纹特征图像2。
[0074] 所述的CNN深网模型G1、G2、G3可采用现有成熟的用于图像分类的深网模型,如Resnet模型,以声纹语谱图为输入,声纹语谱图标志点、起始点和终止点为输出;模型G1、G2、G3使用滑动窗口法识别标志点、起始点和终止点;
[0075] 所述的CNN深网模型G1、G2、G3的训练过程:
[0076] 1)制作数据集:
[0077] 一类是带有标签的声纹语谱图标志点、起始点和终止点区域图像集:标志点、起始点和终止点区域由用户依据本人声纹语谱图特点进行选择,选取标准如下:标志点、起始点和终止点区域固定形状和大小,其内部的各频段的能量变化较为剧烈;标志点区域一般选取声纹语谱图中心点区域,长宽为d1、d2的矩形,如图4所示,起始点和终止点区域在图像的起始和结束部分选取,长宽为d1、d2的矩形;标志点、起始点和终止点区域图像集数量分别达到图像集总数量的 λ由用户定义,一般取1~2;
[0078] 另一类是声纹语谱图其他区域的图像集,即非标志点、起始点和终止点区域,长宽与标志点、起始点和终止点区域设置相同,数量与标志点、起始点和终止点区域图像集大致相当;为两类图像集分别打上分类标签,标志点、起始点和终止点各自与其他区域图像集一起单独制作1个训练数据集,共3个训练数据集,分别对应模型G1、G2、G3的训练;
[0079] 2)将构建好的3个训练数据集分别带入到CNN深网模型G1、G2、G3进行训练,让模型能够识别声纹标志点、起始点和终止点区域和其他区域,识别的准确率>θ1;θ1为用户定义的准确率阈值,如95%;
[0080] 3)训练过程中采用Softmax输出+交叉熵的方式;
[0081] 模型G1、G2、G3进行二分类判别,Softmax输出为y={y1,y2},其中z1,z2为模型全连接层输出结节输出的值;
[0082] 损失函数设置为交叉熵损失函数 其中ti表示样本属于i类的概率,yi为y1,y2;
[0083] 4)使用滑动窗口法识别标志点、起始点和终止点;从左至右遍历声纹语谱图的每一个长宽与标志点、起始点和终止点区域设置相同的区域,由模型G1、G2、G3判断该区域是不是声纹标志点、起始点和终止点区域;如找到标志点、起始点和终止点区域,则将声纹语谱图进行平移和缩放,使声纹标志点区域的中心点与平移目标位置点重合,完成声纹语谱图盲对齐操作,获得声纹特征图像2;否则判定未找到声纹标志点、起始点和终止点区域,舍弃该幅声纹图像。
[0084] 步骤(4)、将声纹特征图像1、2进行拼接,获得声纹特征图像3,领域内通用的图像拼接方法均可使用;基于声纹特征图像3构建声纹密钥深度神经网络训练集合L1。
[0085] 步骤(5)、构造声纹密钥深度神经网络,并利用训练集合L1进行训练[0086] 所述的声纹密钥深度神经网络包括串联的声纹稳定特征提取器、声纹生物密钥稳定器、声纹生物密钥提取器;
[0087] 5‑1构造声纹稳定特征提取器M1,其输入为声纹特征图像3,输出为声纹特征图像4;
[0088] 声纹稳定特征提取器M1由深度神经网络学习模型、声纹稳定特征选择器组成;
[0089] 所述的深度神经网络学习模型可采用现有成熟的ResNet、DenseNet等模型,在模型经训练集L1训练稳定后,移除全连接层,用声纹稳定特征选择器替换全连接层,如图4所示;
[0090] 所述的声纹稳定特征选择器用于从深度神经网络学习模型输出的所有特征图,选择拼接为一张输出特征图。
[0091] 将训练集L1中的训练图片经步骤5‑1处理后得到的输出特征图组成集合U,其中图片集为U=(U1,U2,...,Ui,...,Un1),Ui为单张输出特征图,n1为输出特征图的数量,所有图片大小均相同;像素点集 pi,j表示第i张特征图中第j个位置的单个像素点,每张特征图有m1个像素点,共n1×m1个像素点;然后从像素点集P中选出取值更趋稳定的像素点集P',由像素点集P'整理为声纹特征图像4:
[0092] 所述从像素点集P中选出取值更趋稳定的像素点集P'具体是:
[0093] a)根据公式(1)获得特征图Ui在j位置处的像素值pi,j的绝对误差R(pi,j),如果R(pi,j)<Δ1则将像素位置(i,j)存入队列,反之判断像素位置(i,j)是否已存在于队列中,若存在于队列中则执行步骤b);若不存在于队列中,则将像素位置(i,j)加入队列,并计算队列中所有像素点值的方差δ,若δ≥Δ2,则将像素位置(i,j)从队列中删除,则执行步骤b);
[0094] b)继续遍历i、j,选择一个新的像素点位置,返回步骤a);直至i=n1,j=m1时迭代结束,将队列中存放的所有像素位置对应的像素点组成像素点集P';
[0095]
[0096] 其中 为像素点集P中j列的所有像素点的均值,pi,j表示特征图Ui在j位置处的像素值,Δ1、Δ2均为人为定义的阈值。
[0097] 5‑2构造声纹生物密钥稳定器M2,其输入为声纹稳定特征提取器M1输出的声纹特征图像4,输出为声纹生物特征序列L2;
[0098] 声纹生物密钥稳定器M2以现有成熟的具备编码‑解码(Encode‑Decode)以及跳跃连接(Skip Connection)结构特点的Unet网络模型为基础,模型的基本构造为多层编码‑解码模块的堆叠,编码采用卷积加下采样操作,解码采用上采样加卷积操作;
[0099] 作为优选,Unet网络的跳跃连接采用神经连接控制(Neural connection control,NCC)结构;
[0100] NCC将流经该网络的原始数据的特征保留;保留的原始数据特征信息将参与到解码运算中。
[0101] NCC采用h层(h一般取1~3)神经元连接网络结构构成,原始数据作为NCC结构的输入数据,作为第一层神经元的输入,第一层神经元的输出作为连接到的下一层神经元的输入,最后一层神经元的输出为NCC结构的输出,即保留的特征信息。
[0102] 单层神经元的计算过程如下:
[0103] Xi=σ(Wi*Xi‑1+bi)
[0104] 其中,i表示当前层为第i层神经连接网络,若i为1,则Xi‑1即为原始数据,若1
[0105] Unet网络处理后的输出为指静脉生物特征序列L2。
[0106] 5‑3构造声纹生物密钥提取器M3,其输入为声纹生物密钥稳定器M2输出的声纹生物特征序列L2,输出为声纹生物密钥。
[0107] 经过指纹特征稳定器M2处理后的序列向量L2一般依然有一定数量的数值是不稳定的,用指纹密钥提取器M3提取稳定的指纹密钥序列。M3的构造可以使用领域内通用的模糊提取器提取指纹生物密钥。也可以采用Shamir门限秘密共享方法进行密钥的模糊提取,具体方法为:
[0108] 生成阶段:设定参数n2,t1,bx,其中参数n2表示从序列向量L2中选取的子序列的个数,bx表示选取的子序列的长度,子序列为连续的数字序列;参数t1表示阈值,当有t1个子序列成功匹配时即可准确提取出密钥。
[0109] (1)构造一个多项式,使Output与多项式常数项a0绑定,a0视为密钥[0110] F(x)=at1‑1xt1‑1+...+a2x2+a1x1+a0mod(p),a0=Output
[0111] 其中p为素数,系数at1‑1,...a2,a1随机选取,x∈Zp,Zp为模p剩余系域。
[0112] (2)从训练阶段的指纹密钥稳定器M2处理后的序列向量L2中取n2块比特长为bx的子序列1≤t1≤n2,将n2个子序列作为多项式的输入x,得到对应的F(Mi),记录F(Mi)、p与loci(i=1,2,...,n2),其中loci表示选取的第i个子序列Mi的第一位在整个序列中的索引值。供密钥提取阶段使用。
[0113] 提取阶段:
[0114] 当x=0时F(0)=a0=Output,即可恢复出密钥。根据记录的n2个索引值选取n2块bx比特长的子序列Qi,将(Qi,F(Mi))及x=0代入下式,若其中有t1(1≤t1≤n2)块Qi与Mi相等即可得到Output=a0,即为指纹生物密钥。
[0115]
[0116] 声纹生物密钥训练完成。
[0117] 声纹生物密钥提取部分由:声纹生物特征预处理、声纹稳定特征提取、声纹生物密钥稳定、声纹生物密钥提取4部分顺次连接组成。具体步骤为:
[0118] 步骤(1)、用户用正常语速与音量读出训练阶段确定的文本相关内容,录取语音s2秒以上,s2一般取3~6,若叙述一遍文本内容录取的语音
[0119] 步骤(2)、对录取的语音信号进行第1阶段预处理,从录取语音中提取MFCC系数(Mel频率倒谱系数);依据声纹生物密钥训练时存储的λ,训练用户GMM高斯混合模型,取混合数阶数与声纹生物密钥训练时一致,记为N。取GMM高斯混合模型的每一个高斯分布的均值向量,组成N×nx维的矩阵,将矩阵用训练阶段步骤3的归一化方法归一化为[0,255]的图像灰度矩阵,获得声纹特征图像a1。
[0120] 步骤(3)、将用户输入语音进行第2阶段预处理,生成文本相关声纹语谱图;对语谱图进行盲对齐与统一图像尺寸操作,尺寸与训练阶段确定的尺寸相同,获得声纹特征图像a2。
[0121] 步骤(4)、将声纹特征图像a1、a2进行拼接,获得声纹特征图像a3;
[0122] 步骤(5)、用声纹密钥深度神经网络处理声纹特征图像a3,生成声纹生物密钥。
[0123] 本技术领域中的普通技术人员应当认识到,以上实施例仅是用来说明本发明,而并非作为对本发明的限定,只要在本发明的实质范围内,对以上实施例的变化、变型都将落在本发明的保护范围。

附图说明

[0029] 图1为基于深度学习的文本相关声纹生物密钥生成框图。
[0030] 图2为Mel频率倒谱系数计算流程图。
[0031] 图3为GMM高斯混合模型示意图。
[0032] 图4为声纹语谱图盲对齐示意图。
[0033] 图5为声纹稳定特征提取器M1结构图。
[0034] 图6为声纹生物密钥稳定器M2结构图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号