首页 > 专利 > 河海大学 > 一种基于不定长均值的声纹动态特征提取方法专利详情

一种基于不定长均值的声纹动态特征提取方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-07-16
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-12-03
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-09-28
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-07-16
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201910639183.4 申请日 2019-07-16
公开/公告号 CN110428841B 公开/公告日 2021-09-28
授权日 2021-09-28 预估到期日 2039-07-16
申请年 2019年 公开/公告年 2021年
缴费截止日
分类号 G10L17/02G10L25/24G10L25/03 主分类号 G10L17/02
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 0
权利要求数量 1 非专利引证数量 1
引用专利数量 2 被引证专利数量 0
非专利引证 1、2010.11.11CN 107393550 A,2017.11.24张承伟.基于帧间差分法的动体特征速度聚类分析《.计算机应用研究》.2016,第33卷(第10期),Yang Wu et al..Research_on_voiceprint_recognition_based_on_weighted_clustering_recognition_SVM_algorithm. 《2017 Chinese Automation Congress (CAC)》.2017,王金芳等.帧间差分相位谱帧长和帧移的最优设置方法《.吉林大学学报( 工学版)》.2013,第43卷;
引用专利 US2015095987A、US2010286991A 被引证专利
专利权维持 3 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 河海大学 当前专利权人 河海大学
发明人 严锡君、刘旭东、候添琪、刁宏志、蒋悦 第一发明人 严锡君
地址 江苏省南京市江宁开发区佛城西路8号 邮编 211100
申请人数量 1 发明人数量 5
申请人所在省 江苏省 申请人所在市 江苏省南京市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
南京经纬专利商标代理有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
施昊
摘要
本发明公开了一种基于不定长均值的声纹动态特征提取方法。首先,根据实时的采样率、帧长和帧移,计算出最优均值步长;然后,根据最优均值步长和每一帧语音信号的梅尔倒谱系数,计算出帧语音信号的均值系数,得到均值系数矩阵,采用均值系数矩阵提取声纹动态特征。本发明改善了动态特征提取算法与引入信息量最优长度的匹配度,能够降低声纹识别的平均等错误率,提高识别率。
  • 摘要附图
    一种基于不定长均值的声纹动态特征提取方法
  • 说明书附图:图1
    一种基于不定长均值的声纹动态特征提取方法
  • 说明书附图:图2
    一种基于不定长均值的声纹动态特征提取方法
  • 说明书附图:图3
    一种基于不定长均值的声纹动态特征提取方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2021-09-28 授权
2 2019-12-03 实质审查的生效 IPC(主分类): G10L 17/02 专利申请号: 201910639183.4 申请日: 2019.07.16
3 2019-11-08 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于不定长均值的声纹动态特征提取方法,其特征在于,包括以下步骤:
(1)根据实时的采样率、帧长和帧移,计算出实时的最优均值步长;
通过下式计算最优均值步长:
上式中,T为最优矩阵步长,fs为采样率,n为帧长,m为帧移,round表示四舍五入取整函数;
(2)根据最优均值步长和每一帧语音信号的梅尔倒谱系数,计算出帧语音信号的均值系数,得到均值系数矩阵;
通过下式计算帧语音信号的均值系数:
上式中,m(l,k)为语音信号的均值系数,C(l,t)为语音信号的梅尔倒谱系数,T为最优均值步长,l=1,2,..,L,k=1,2,…,K,L为梅尔倒谱系数阶数,K为语音数据的总帧数;
(3)采用均值系数矩阵提取声纹动态特征。
说明书

技术领域

[0001] 本发明属于智能识别技术领域,特别涉及了一种声纹动态特征提取方法。

背景技术

[0002] 目前,智能家居越来越广泛地应用到人们的生活和工作中。在实际使用中,能否为使用者提供合理的人机交互很大程度上决定了智能家居系统的用户体验。智能家居采用无线通信、图像处理、语音处理等技术,基于语音交互的智能家居系统使用更为便捷、信息采集空间更为广泛,用户体验更为友好。
[0003] 声纹识别在近年来已经取得了长足发展,在某些场合中,识别率也满足了人们对安全性的基本需求,且由于其具有经济性,便捷性等优势,应用前景十分广泛。如何能够尽可能地抑制外部噪声,从采集到的信号中提取尽可能纯净的语音特征,是各种语音处理技术走向实用化的前提。
[0004] 在人们生活品质飞速提高的今天,社会大众对智能家居系统的要求也不再仅仅局限于使其执行标准的、普通的控制功能,而是希望整体家居的智能化、便捷性、安全性以及舒适性都能够有更高的提升。为智能家居系统添加声纹识别功能,并采用语音增强来提高系统在噪声环境下的稳定性,不但可以进一步地改善智能家居的人机交互体验,提高用户对智能家居的使用效率;还可以为智能家居的控制与操作设定等级制度,针对不同权限等级的用户提供差异化的服务功能,使得系统整体安全性、实用性得到进一步提高。而这样的系统在未来的市场中必然有着强劲的冲击力,尤其在我国目前智能家居市场发展较为缓慢的大背景下,其一定会发挥越来越重要的作用,对大众的生活产生深远的影响。

发明内容

[0005] 为了解决上述背景技术提到的技术问题,本发明提出了一种基于不定长均值的声纹动态特征提取方法,提高声纹识别率。
[0006] 为了实现上述技术目的,本发明的技术方案为:
[0007] 一种基于不定长均值的声纹动态特征提取方法,包括以下步骤:
[0008] (1)根据实时的采样率、帧长和帧移,计算出实时的最优均值步长;
[0009] (2)根据最优均值步长和每一帧语音信号的梅尔倒谱系数,计算出帧语音信号的均值系数,得到均值系数矩阵;
[0010] (3)采用均值系数矩阵提取声纹动态特征。
[0011] 进一步地,在步骤(1)中,通过下式计算最优均值步长:
[0012]
[0013] 上式中,T为最优矩阵步长,fs为采样率,n为帧长,m为帧移,round表示四舍五入取整函数。
[0014] 进一步地,在步骤(2)中,通过下式计算帧语音信号的均值系数:
[0015]
[0016] 上式中,m(l,k)为语音信号的均值系数,C(l,t)为语音信号的梅尔倒谱系数,T为最优均值步长,l=1,2,..,L,k=1,2,…,K,L为梅尔倒谱系数阶数,K为语音数据的总帧数。
[0017] 采用上述技术方案带来的有益效果:
[0018] 针对经典方法采用定长均值方法可能导致提取到的动态特征引入误差的问题,本发明提供一种基于不定长均值的声纹动态特征提取方法,在不同系统设定的不同采样率、帧长、帧移下,提取动态特征时随之调整一次特征提取引入的相关帧数,以实现对动态特征引入数据量最优长度进行匹配,从而达到降低平均等错误率、提高识别率的目的。

实施方案

[0022] 以下将结合附图,对本发明的技术方案进行详细说明。
[0023] 如图1所示,在一些系统的动态特征提取方法中,一次动态特征计算引入的数据量常有一个最优值,该最优值的设定一般与原始数据所描述对象的固有周期大致相关。当某系统设定帧长长度一定时,一次动态特征提取过程中引入的数据量较少,则可能导致提取到的动态特征信息不足,而当一次动态特征提取过程中引入的数据量较多,则可能导致提取到的动态特征引入误差。
[0024] 如图2所示,对于语音信号,由于语音处理中一帧信号的长度选择在10~30毫秒之间均可,故在不同系统设定的不同采样率、帧长、帧移下提取动态特征时,应当随之调整一次特征提取引入的相关帧数,以对动态特征引入数据量最优长度进行匹配。
[0025] 考虑经典差分法在进行动态特征提取时,每次引入的相关帧数为定值,即在某些系统设定的采样率、帧长、帧移下,可能导致提取动态特征时选用的信息长度与最优长度匹配度较差,故针对该现象,为改善动态特征提取算法与引入信息量最优长度的匹配度,本发明设计了基于不定长均值的动态特征提取方案以代替经典差分法来对动态特征进行描述。
[0026] 在本实施例中,采用如下优选方案:
[0027] 第k帧语音信号的均值系数m(l,k)可由下式计算:
[0028]
[0029] 其中,C(l,t)为语音信号的梅尔倒谱系数,T为最优均值步长,l=1,2,..,L,k=1,2,…,K,L为梅尔倒谱系数阶数,K为语音数据的总帧数。
[0030] 最优均值T步长可由下式求取:
[0031]
[0032] 其中,fs为系统设定的采样率,n为系统设定的帧长,m为系统设定的帧移,round函数为四舍五入取整函数。
[0033] 将得到的2×L阶均值系数矩阵替换经典系数矩阵中的差分系数矩阵,进行信息提取。
[0034] 设定系统UBM模型高斯元件个数为64,并选定实验数据库中60人(女性17人,男性43人,称之为“UBM模型训练组”),每人5段语音用于训练系统本地UBM模型并保存模型参数。
同时选定实验数据库中另40人(女性12人,男性28人,称之为“GMM模型训练组”),每人5段语音组合得到10秒语音用于训练每个说话人的个人GMM模型并保存模型参数。将GMM模型训练组中40人每人剩余的5段语音,循环组合成10段5秒的语音用于对系统进行说话人确认测试,即一次完整的实验中包括400次说话人接受测试与15600次说话人拒绝测试,并最终以等错误率作为一次实验的输出结果。
[0035] 语音数据特征提取方面,针对每次输入至系统的可分为N帧的语音段,设定基础阶数为15,即可得到15×N的原始梅尔倒谱系数矩阵。分别计算差分系数与均值系数后又可得两组15×N的系数矩阵,经过相互组合后即可得30阶的经典算法系数矩阵与30阶的本发明算法系数矩阵。设定系统采样率为16KHz,帧移为帧长的1/2,考虑短时语音处理帧长范围(10~30毫秒)与计算机常用FFT长度,分别在帧长为160(10毫秒)、256(16毫秒)、320(20毫秒)、400(25毫秒)、480(30毫秒)下对上述两种系数矩阵进行五次系统性能测试,实验结果(等错误率)见表1和表2。
[0036] 表1
[0037]
[0038] 表2
[0039]
[0040] 图3为性能仿真对比图,将本发明算法与经典算法用MATLAB进行仿真、对比。当系统采用本发明算法来提取动态特征时,在实验设定的各组参数下,系统性能(平均等错误率)均优于采用经典差分法提取动态特征时的系统性能。且由于两种算法提取到的系数矩阵维度相同,故采用本发明算法生成的系数矩阵代替差分系数矩阵时,并不会因为额外增大的运算开销而致使系统响应实时性下滑。
[0041] 实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。

附图说明

[0019] 图1是动态特征引入数据量最优长度示意图;
[0020] 图2是不同帧长导致最优引入帧数的变化图;
[0021] 图3本发明与经典方法的性能对比图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号