实施方案
[0022] 以下将结合附图,对本发明的技术方案进行详细说明。
[0023] 如图1所示,在一些系统的动态特征提取方法中,一次动态特征计算引入的数据量常有一个最优值,该最优值的设定一般与原始数据所描述对象的固有周期大致相关。当某系统设定帧长长度一定时,一次动态特征提取过程中引入的数据量较少,则可能导致提取到的动态特征信息不足,而当一次动态特征提取过程中引入的数据量较多,则可能导致提取到的动态特征引入误差。
[0024] 如图2所示,对于语音信号,由于语音处理中一帧信号的长度选择在10~30毫秒之间均可,故在不同系统设定的不同采样率、帧长、帧移下提取动态特征时,应当随之调整一次特征提取引入的相关帧数,以对动态特征引入数据量最优长度进行匹配。
[0025] 考虑经典差分法在进行动态特征提取时,每次引入的相关帧数为定值,即在某些系统设定的采样率、帧长、帧移下,可能导致提取动态特征时选用的信息长度与最优长度匹配度较差,故针对该现象,为改善动态特征提取算法与引入信息量最优长度的匹配度,本发明设计了基于不定长均值的动态特征提取方案以代替经典差分法来对动态特征进行描述。
[0026] 在本实施例中,采用如下优选方案:
[0027] 第k帧语音信号的均值系数m(l,k)可由下式计算:
[0028]
[0029] 其中,C(l,t)为语音信号的梅尔倒谱系数,T为最优均值步长,l=1,2,..,L,k=1,2,…,K,L为梅尔倒谱系数阶数,K为语音数据的总帧数。
[0030] 最优均值T步长可由下式求取:
[0031]
[0032] 其中,fs为系统设定的采样率,n为系统设定的帧长,m为系统设定的帧移,round函数为四舍五入取整函数。
[0033] 将得到的2×L阶均值系数矩阵替换经典系数矩阵中的差分系数矩阵,进行信息提取。
[0034] 设定系统UBM模型高斯元件个数为64,并选定实验数据库中60人(女性17人,男性43人,称之为“UBM模型训练组”),每人5段语音用于训练系统本地UBM模型并保存模型参数。
同时选定实验数据库中另40人(女性12人,男性28人,称之为“GMM模型训练组”),每人5段语音组合得到10秒语音用于训练每个说话人的个人GMM模型并保存模型参数。将GMM模型训练组中40人每人剩余的5段语音,循环组合成10段5秒的语音用于对系统进行说话人确认测试,即一次完整的实验中包括400次说话人接受测试与15600次说话人拒绝测试,并最终以等错误率作为一次实验的输出结果。
[0035] 语音数据特征提取方面,针对每次输入至系统的可分为N帧的语音段,设定基础阶数为15,即可得到15×N的原始梅尔倒谱系数矩阵。分别计算差分系数与均值系数后又可得两组15×N的系数矩阵,经过相互组合后即可得30阶的经典算法系数矩阵与30阶的本发明算法系数矩阵。设定系统采样率为16KHz,帧移为帧长的1/2,考虑短时语音处理帧长范围(10~30毫秒)与计算机常用FFT长度,分别在帧长为160(10毫秒)、256(16毫秒)、320(20毫秒)、400(25毫秒)、480(30毫秒)下对上述两种系数矩阵进行五次系统性能测试,实验结果(等错误率)见表1和表2。
[0036] 表1
[0037]
[0038] 表2
[0039]
[0040] 图3为性能仿真对比图,将本发明算法与经典算法用MATLAB进行仿真、对比。当系统采用本发明算法来提取动态特征时,在实验设定的各组参数下,系统性能(平均等错误率)均优于采用经典差分法提取动态特征时的系统性能。且由于两种算法提取到的系数矩阵维度相同,故采用本发明算法生成的系数矩阵代替差分系数矩阵时,并不会因为额外增大的运算开销而致使系统响应实时性下滑。
[0041] 实施例仅为说明本发明的技术思想,不能以此限定本发明的保护范围,凡是按照本发明提出的技术思想,在技术方案基础上所做的任何改动,均落入本发明保护范围之内。