[0053] 下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
[0054] 实施例
[0055] 如图1所示,为本发明实施例中声纹识别中录音回放攻击检测的声学特征提取方法,该方法包括以下步骤:
[0056] S10、对输入语音进行预处理;
[0057] 步骤S10中的预处理包括分帧、加窗和去噪,步骤S10具体包括以下步骤:
[0058] S11、对输入语音信号x(n)进行分帧,将语音信号分割成帧长为N(实际可选1024)的多个语音帧,相邻两帧之间有重叠,帧移为L(实际可选256);
[0059] S12、对分帧后的每一帧语音信号x(i,n)加窗,用窗长为N的汉明窗乘每一帧语音信号,得到加窗后的语音帧 计算公式如下:
[0060]
[0061] S13、计算每一帧的短时能量SE(i),将SE(i)小于一定阈值θSE的帧作为背景噪声消除,阈值θSE根据应用场合的背景噪声短时能量平均值的二倍设置。得到消除背景噪声之后的纯输入语音信号,计算公式如下:
[0062]
[0063] S20、对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号,得到语音信号的频谱;
[0064] 具体的:根据离散傅里叶变换公式,采用快速傅里叶变换算法对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号 傅里叶变换公式如下:
[0065]
[0066] 其中,k表示频域中的第k条谱线。
[0067] S30、计算傅里叶变换后的每一帧语音信号的谱线能量;
[0068] 具体的,根据公式Ew(i,k)=|Xw(i,k)|2,k=0~N计算每一帧语音信号的谱线能量,其中,谱线能量是幅度谱的平方。
[0069] S40、根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波;
[0070] 其中,通过非对称双曲正弦频率尺度变换(HSFT,asymmetric Hyperbolic SinusoidalFrequency scale Transform)将原始频率映射到双曲正弦频率。HSFT将原始频率的低频和高频段进行了非线性扩张,而中频段进行了压缩,从而提高了高低两个频段的频率分辨率,既全面利用了语音的频谱信息,又强化了语音频谱中高低频段的特征信息。
[0071] 具体的,非对称双曲正弦频率尺度变换公式为:
[0072]
[0073] 其中,f是原始频率,Fsinh是双曲正弦频率,两个指数项参数0.0011和0.001分别用来控制高频段和低频段的非对称变换,参数3750控制变换的中心频率。
[0074] 如图2所示,为非对称双曲正弦频率尺度变换的频率映射曲线图。
[0075] 具体的,步骤S40包括以下步骤:
[0076] 步骤S41、使用非对称双曲正弦频率尺度变换公式计算实际频率分布范围对应的双曲正弦频率尺度分布范围,在新的双曲正弦频率尺度分布范围内配置多个满足相邻滤波器中心频率与边界频率之间关系的等宽三角形滤波器;
[0077] 其中,在新的双曲正弦频率尺度分布范围 内等间隔地选取L(实际可选取48)个中心频率值,采样频率fs=16KHz,并以这些中心频率设置等宽三角形滤波器构成三角形滤波器组。
[0078] 具体的,相邻滤波器中心频率与边界频率之间关系公式如下:
[0079]
[0080] fc(l)=flo(l+1)=fhi(l‑1),l=1~L
[0081] flo(1)=0
[0082] fhi(L)=Fsinh(fs/2)
[0083] 其中,fc(l)表示第l个滤波器的中心频率,fs表示采样频率,flo(l)表示第l个滤波器的低频边界频率,fhi(l)表示第l个滤波器的高频边界频率,L表示滤波器个数。
[0084] 步骤S42、通过非对称双曲正弦频率尺度变换公式的逆变换,计算双曲正弦频率尺度分布范围内等间隔分布的三角形滤波器组对应的原始频率尺度三角形滤波器组,得到原始频率尺度上每个三角形滤波器的中心频率值与边界频率值,得到每个滤波器的幅频响应,完成构建非对称双曲正弦频率尺度变换滤波器组。如图3所示,为构建的非对称双曲正弦频率尺度变换滤波器组,其中各个三角形滤波器宽度不等。
[0085] 步骤S43、根据每个滤波器的幅频响应计算每一帧语音信号谱线能量通过非对称双曲正弦频率尺度变换滤波器的输出值。
[0086] 具体的,步骤S43具体包括:
[0087] 在频域中将每一帧语音信号的谱线能量 与第l个非对称双曲正弦频率尺度变换滤波器幅频响应在对应频率点相乘然后相加得到其输出值Sw(i,l),计算公式如下:
[0088]
[0089] 实际计算时,非对称双曲正弦频率尺度变换滤波器组是可以预先确定的,每一个滤波器的幅频响应 也是预先确定的,不需要重复计算。
[0090] S50、对滤波后的每一帧语音信号进行对数变换,得到每一帧语音信号的对数能量谱;
[0091] 其中,原始频谱可视为由频谱细节和频谱包络组成,将滤波器的输出值进行对数变换后得到 可将乘性信号转换为加性信号,有利于分离频谱细节和频谱包络。
[0092] S60、对每一帧语音信号的对数能量谱进行离散余弦变换,得到每一帧语音信号的双曲正弦倒谱系数。
[0093] 其中,离散余弦变换有很好的能量集中性,仅用几个变换系数就可以代表信号能量。将以上滤波器组对数输出值 进行离散余弦变换,便得到双曲正弦倒谱系数。
[0094] 具体的,步骤60中离散余弦变换的公式为:
[0095]
[0096] 接着,我们使用ASVSpoof 2017 2.0数据库中的训练集样本(包含10个说话人,1508条原始语音,1508条录音回放语音)和评估集样本(包含24个说话人,1298条正常原始语音,12008条录音回放语音)作为训练语音和测试语音,其中,将将输入语音分割成帧长为
1024的语音帧,帧移为256,使用窗长为1024的汉明窗乘每一帧语音信号,录音回放攻击检测实验及结果介绍如下。
[0097] 模型训练
[0098] 训练集中的原始正常语音样本和录音回放语音样本被用于模型训练。这些语音通过上述特征提取方法提取双曲正弦倒谱系数HSCC,然后作为特征参数分别用于训练64分量原始语音高斯混合模型GMMgenuine和64分量录音回放攻击语音高斯混合模型GMMspoof。其中,训练高斯混合模型采用最大期望(EM)算法进行。
[0099] 系统测试
[0100] 测试集中的语音样本被用于系统性能测试。这些语音通过非对称双曲正弦频率尺度变换滤波提取双曲正弦倒谱系数HSCC,然后分别计算两个模型GMMgenuine和GMMspoof的似然度,得到由对数似然比表示的输入语音得分,如公式如下:
[0101] score=LL(GMMgenuine)‑LL(GMMspoof)
[0102] 其中,LL(GMMgenuine)和LL(GMMspoof)分别为测试语音对于原始语音模型和录音回放攻击语音模型的平均对数似然度。输入语音得分越高,表示其为原始语音的可能性越高,反之越低。
[0103] 检测判决根据对数似然比得分score与阈值θs的大小关系进行,判决规则公式如下:
[0104]
[0105] 其中,检测判决可能存在两类错误,一种是把录音回放攻击语音判决为原始语音,称错误接受;另一种是把原始语音判决为录音回放攻击语音,称错误拒绝。错误接受率(FAR,false Accept Rate)和错误拒绝率(FRR,False Reject Rate)是两个重要性能指标,与阈值θs有关,其值越大FRR越大而FAR越小,反之其值越小FAR越大而FRR越小。等错误率(EER,Equal Error Rate)是指FAR与FRR相同时的错误率,反映系统的综合性能,该指标值越低说明检测性能越好。EER也是2017年ASVSpoof挑战赛中用于衡量录音回放攻击检测性能的唯一标准。
[0106] 双曲正弦倒谱系数特征HSCC与CQCC特征(基线系统)在相同条件下测试得到的录音回放攻击检测比较结果如表1示。
[0107] 表1:录音回放攻击检测比较结果
[0108]特征 双曲正弦倒谱系数HSCC CQCC(基线系统)
EER 23.99% 30.69%
[0109] 从表1中可以看出在录音回放攻击检测中,基于非对称双曲正弦频率尺度变换滤波的HSCC特征提取方法性能明显优于CQCC特征提取方法。
[0110] 本发明通过非对称双曲正弦频率尺度变换(HSFT)规定了语音频谱信息的有效利用方法,强化了原始语音与录音回放攻击语音的信道差异,克服了现有技术的不足,可以提高录音回放攻击检测的性能。
[0111] 本发明通过非对称双曲正弦频率尺度变换滤波计算得到双曲正弦倒谱系数HSCC,相对现有CQCC和MFCC特征参数,不仅充分利用了低频段的频谱信息,同时充分利用了高频段的频谱信息,有利于提高攻击检测性能。
[0112] 本发明双曲正弦倒谱系数HSCC的提取中,非对称双曲正弦频率尺度变换滤波器组可以事先确定,没有重采样,相对现有方法降低了计算复杂度,缩短了提取特征所需的时间。
[0113] 以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。