首页 > 专利 > 苏州大学 > 一种声纹识别中录音回放攻击检测的声学特征提取方法专利详情

一种声纹识别中录音回放攻击检测的声学特征提取方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-07-04
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-11-01
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-07-13
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-07-04
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201910598714.X 申请日 2019-07-04
公开/公告号 CN110299141B 公开/公告日 2021-07-13
授权日 2021-07-13 预估到期日 2039-07-04
申请年 2019年 公开/公告年 2021年
缴费截止日
分类号 G10L17/02G10L17/22G10L19/02G10L19/26G10L25/24 主分类号 G10L17/02
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 9
权利要求数量 10 非专利引证数量 0
引用专利数量 5 被引证专利数量 0
非专利引证
引用专利 CN109613826A、CN102436810A、JP5243075B2、US9928842B1、CN102254161A 被引证专利
专利权维持 3 专利申请国编码 CN
专利事件 转让 事务标签 公开、实质审查、授权、权利转移
申请人信息
申请人 第一申请人
专利权人 苏州大学 当前专利权人 合肥九州龙腾科技成果转化有限公司
发明人 俞一彪、郭星辰 第一发明人 俞一彪
地址 江苏省苏州市吴中区石湖西路188号 邮编 215168
申请人数量 1 发明人数量 2
申请人所在省 江苏省 申请人所在市 江苏省苏州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
苏州市中南伟业知识产权代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
李娅
摘要
本发明公开了一种声纹识别中录音回放攻击检测的声学特征提取方法,该方法包括:对输入语音进行预处理;对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号,得到语音信号的频谱;计算傅里叶变换后的每一帧语音信号的谱线能量;根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波;对滤波后的每一帧语音信号进行对数变换,得到每一帧语音信号的对数能量谱;对每一帧语音信号的对数能量谱进行离散余弦变换,得到每一帧语音信号的双曲正弦倒谱系数。本发明通过非对称双曲正弦频率尺度变换规定了语音频谱信息的有效利用方法,强化了原始语音与录音回放攻击语音的信道差异,可以提高录音回放攻击检测的性能。
  • 摘要附图
    一种声纹识别中录音回放攻击检测的声学特征提取方法
  • 说明书附图:图1
    一种声纹识别中录音回放攻击检测的声学特征提取方法
  • 说明书附图:图2
    一种声纹识别中录音回放攻击检测的声学特征提取方法
  • 说明书附图:图3
    一种声纹识别中录音回放攻击检测的声学特征提取方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-08-09 专利权的转移 登记生效日: 2022.07.28 专利权人由苏州大学变更为合肥九州龙腾科技成果转化有限公司 地址由215168 江苏省苏州市吴中区石湖西路188号变更为230000 安徽省合肥市蜀山经济开发区井岗路电商园一期2号楼203
2 2021-07-13 授权
3 2019-11-01 实质审查的生效 IPC(主分类): G10L 17/02 专利申请号: 201910598714.X 申请日: 2019.07.04
4 2019-10-01 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,包括以下步骤:
S10、对输入语音进行预处理;
S20、对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号,得到语音信号的频谱;
S30、计算傅里叶变换后的每一帧语音信号的谱线能量;
S40、根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波;
S50、对滤波后的每一帧语音信号进行对数变换,得到每一帧语音信号的对数能量谱;
S60、对每一帧语音信号的对数能量谱进行离散余弦变换,得到每一帧语音信号的双曲正弦倒谱系数。

2.如权利要求1所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤S10中的预处理包括分帧、加窗和去噪。

3.如权利要求2所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤S10具体包括:
S11、对输入语音信号x(n)进行分帧,将语音信号分割成帧长为N的多个语音帧,相邻两帧之间有重叠,帧移为L;
S12、对分帧后的每一帧语音信号x(i,n)加窗,i表示第i帧,用窗长为N的汉明窗乘每一帧语音信号,得到加窗后的语音帧xw(i,n), n,计算公式如下:
S13、计算每一帧的短时能量SE(i),将SE(i)小于一定阈值θSE的帧作为背景噪声消除,得到消除背景噪声之后的纯输入语音信号,计算公式如下:

4.如权利要求3所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述阈值θSE根据应用场合的背景噪声短时能量平均值的二倍设置。

5.如权利要求1所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤S20具体包括:
根据离散傅里叶变换公式,采用快速傅里叶变换算法对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号Xw(i,k), k,傅里叶变换公式如下:
其中,k表示频域中的第k条谱线,i表示第i帧。

6.如权利要求1所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤S40具体包括:
步骤S41、使用非对称双曲正弦频率尺度变换公式计算实际频率分布范围对应的双曲正弦频率尺度分布范围,在新的双曲正弦频率尺度分布范围内配置多个满足相邻滤波器中心频率与边界频率之间关系的等宽三角形滤波器;
步骤S42、通过非对称双曲正弦频率尺度变换公式的逆变换,计算双曲正弦频率尺度分布范围内等间隔分布的三角形滤波器组对应的原始频率尺度三角形滤波器组,得到原始频率尺度上每个三角形滤波器的中心频率值与边界频率值,得到每个滤波器的幅频响应;
步骤S43、根据每个滤波器的幅频响应计算每一帧语音信号谱线能量通过非对称双曲正弦频率尺度变换滤波器的输出值。

7.如权利要求6所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述非对称双曲正弦频率尺度变换公式为:
其中,f是原始频率,Fsinh是双曲正弦频率,两个指数项参数0.0011和0.001分别用来控制高频段和低频段的非对称变换,参数3750控制变换的中心频率。

8.如权利要求7所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述相邻滤波器中心频率与边界频率之间关系具体包括:
fc(l)=flo(l+1)=fhi(l‑1),l=1~L
flo(1)=0
fhi(L)=Fsinh(fs/2)
其中,fc(l)表示第l个滤波器的中心频率,fs表示采样频率,flo(l)表示第l个滤波器的低频边界频率,fhi(l)表示第l个滤波器的高频边界频率,L表示滤波器个数。

9.如权利要求8所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤S43具体包括:
在频域中将每一帧语音信号能量谱Ew(i,k), 与第l个非对称双曲正弦频率尺度变换滤波器幅频响应Hl(k), 在对应频率点相乘然后相加得到其输出值Sw(i,l),计算公式如下:

10.如权利要求9所述的声纹识别中录音回放攻击检测的声学特征提取方法,其特征在于,所述步骤60中离散余弦变换的公式为:
其中,i表示第i帧。
说明书

技术领域

[0001] 本发明涉及声学信号处理技术领域,特别涉及一种声纹识别中录音回放攻击检测的声学特征提取方法。

背景技术

[0002] 声纹识别是一种基于生物特征的身份识别技术,可以通过说话人的语音特征鉴别说话人的身份,具有便捷、非接触、非易失性以及采集设备简单等特点,有望成为人脸识别之外另一种被普遍应用的生物特征身份识别技术。但声纹识别系统的安全应用必须解决仿冒攻击的问题,包括语音合成仿冒攻击和录音回放仿冒攻击两大类,由于录音回放语音与原始语音的高度相似性,因此最大的挑战是录音回放攻击。
[0003] 早期录音回放攻击检测由于缺乏公开的大语料数据库和基线系统,研发人员很难开展有效的研究工作并将自己的实验结果同他人的实验结果进行比较,因此录音回放攻击检测的相关研究长期处于停滞状态。2017年国际语音通信协会(ISCA)组织了ASVspoof国际挑战赛,主要针对声纹识别中录音回放攻击检测技术进行研究和交流,它提供了三个标准大语料数据库、基线系统和通用评估标准。在ASVspoof数据库上,各国研究人员提出了诸多方法提升录音回放攻击检测的性能并取得了一些进展,但在检测性能和实时性方面仍然需要提高。
[0004] 语音识别中常用的声学特征是语音频谱特征,主要有线性预测倒谱系数(LPCC,Linear Prediction Cepstrum Cofficients)和美尔频率倒谱系数(MFCC,Mel‑Frequency Cepstrum Cofficents)等,这些特征参数较好地表达了语音的频谱包络结构,也一定程度上反映了人类听觉系统的特点。这些特征参数可以用于录音回放攻击检测,但由于原始语音与录音回放语音在频谱包络结构上的高度相似性,以及录音回放攻击检测需要具有超越人类鉴别能力的水平,因此这些特征参数在实验中所表现出的性能一般。
[0005] 现有特征提取方法中,语音频谱的特征信息没有得到充分提取和利用,影响了攻击检测性能。无论LPCC、MFCC,还是CQCC(常数Q倒谱系数,Constant Q Cepstral Coefficients),都是采用了强化低频段频谱信息的方法。例如,CQCC使用了常数Q变换,该变换的频域采样点随频率呈现指数分布,低频段频率分辨率远远高于高频段频率分辨率,所以CQCC特征主要包含语音频谱低频段信息,弱化了语音频谱高频段的信息。而实际上,录音回放攻击语音与原始语音相比,由于存在录音和回放这两个额外过程,录音设备和回放设备的频响特性是非均匀的,使得其频谱在低频段和高频段都会不同程度地出现衰减或畸变现象,因此仅仅强调低频段频谱信息是不充分的。

发明内容

[0006] 针对现有技术的不足,本发明目的在于提供一种能够提取更全面、有效的声学特征,提升录音回放攻击检测性能的声学特征提取方法。其采用如下技术方案:
[0007] 一种声纹识别中录音回放攻击检测的声学特征提取方法,其包括以下步骤:
[0008] S10、对输入语音进行预处理;
[0009] S20、对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号,得到语音信号的频谱;
[0010] S30、计算傅里叶变换后的每一帧语音信号的谱线能量;
[0011] S40、根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波;
[0012] S50、对滤波后的每一帧语音信号进行对数变换,得到每一帧语音信号的对数能量谱;
[0013] S60、对每一帧语音信号的对数能量谱进行离散余弦变换,得到每一帧语音信号的双曲正弦倒谱系数。
[0014] 作为本发明的进一步改进,所述步骤S10中的预处理包括分帧、加窗和去噪。
[0015] 作为本发明的进一步改进,所述步骤S10具体包括:
[0016] S11、对输入语音信号x(n)进行分帧,将语音信号分割成帧长为N的多个语音帧,相邻两帧之间有重叠,帧移为L;
[0017] S12、对分帧后的每一帧语音信号x(i,n)加窗,用窗长为N的汉明窗乘每一帧语音信号,得到加窗后的语音帧 计算公式如下:
[0018]
[0019] S13、计算每一帧的短时能量SE(i),将SE(i)小于一定阈值θSE的帧作为背景噪声消除,得到消除背景噪声之后的纯输入语音信号,计算公式如下:
[0020]
[0021] 作为本发明的进一步改进,阈值θSE根据应用场合的背景噪声短时能量平均值的二倍设置。
[0022] 作为本发明的进一步改进,所述步骤S20具体包括:
[0023] 根据离散傅里叶变换公式,采用快速傅里叶变换算法对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号 傅里叶变换公式如下:
[0024]
[0025] 其中,k表示频域中的第k条谱线。
[0026] 作为本发明的进一步改进,所述步骤S40具体包括:
[0027] 步骤S41、使用非对称双曲正弦频率尺度变换公式计算实际频率分布范围对应的双曲正弦频率尺度分布范围,在新的双曲正弦频率尺度分布范围内配置多个满足相邻滤波器中心频率与边界频率之间关系的等宽三角形滤波器;
[0028] 步骤S42、通过非对称双曲正弦频率尺度变换公式的逆变换,计算双曲正弦频率尺度分布范围内等间隔分布的三角形滤波器组对应的原始频率尺度三角形滤波器组,得到原始频率尺度上每个三角形滤波器的中心频率值与边界频率值,得到每个滤波器的幅频响应;
[0029] 步骤S43、根据每个滤波器的幅频响应计算每一帧语音信号谱线能量通过非对称双曲正弦频率尺度变换滤波器的输出值。
[0030] 作为本发明的进一步改进,所述非对称双曲正弦频率尺度变换公式为:
[0031]
[0032] 其中,f是原始频率,Fsinh是双曲正弦频率,两个指数项参数0.0011和0.001分别用来控制高频段和低频段的非对称变换,参数3750控制变换的中心频率。
[0033] 作为本发明的进一步改进,所述相邻滤波器中心频率与边界频率之间关系具体包括:
[0034]
[0035] fc(l)=flo(l+1)=fhi(l‑1),l=1~L
[0036] flo(1)=0
[0037] fhi(L)=Fsinh(fs/2)
[0038] 其中,fc(l)表示第l个滤波器的中心频率,fs表示采样频率,flo(l)表示第l个滤波器的低频边界频率,fhi(l)表示第l个滤波器的高频边界频率,L表示滤波器个数。
[0039] 作为本发明的进一步改进,所述步骤S43具体包括:
[0040] 在频域中将每一帧语音信号能量谱 与第l个非对称双曲正弦频率尺度变换滤波器幅频响应在对应频率点相乘然后相加得到其输出值Sw(i,l),计算公式如下:
[0041]
[0042] 作为本发明的进一步改进,所述步骤60中离散余弦变换的公式为:
[0043]
[0044] 作为本发明的进一步改进,所述标记点的数量不少于四。
[0045] 本发明的有益效果:
[0046] (1)本发明通过非对称双曲正弦频率尺度变换(HSFT)规定了语音频谱信息的有效利用方法,强化了原始语音与录音回放攻击语音的信道差异,克服了现有技术的不足,可以提高录音回放攻击检测的性能。
[0047] (2)本发明通过非对称双曲正弦频率尺度变换滤波计算得到双曲正弦倒谱系数HSCC,相对现有CQCC和MFCC特征参数,不仅充分利用了低频段的频谱信息,同时充分利用了高频段的频谱信息,有利于提高攻击检测性能。
[0048] (3)本发明双曲正弦倒谱系数HSCC的提取中,非对称双曲正弦频率尺度变换滤波器组可以事先确定,没有重采样,相对现有方法降低了计算复杂度,缩短了提取特征所需的时间。
[0049] 上述说明仅是本发明技术方案的概述,为了能够更清楚了解本发明的技术手段,而可依照说明书的内容予以实施,并且为了让本发明的上述和其他目的、特征和优点能够更明显易懂,以下特举较佳实施例,并配合附图,详细说明如下。

实施方案

[0053] 下面结合附图和具体实施例对本发明作进一步说明,以使本领域的技术人员可以更好地理解本发明并能予以实施,但所举实施例不作为对本发明的限定。
[0054] 实施例
[0055] 如图1所示,为本发明实施例中声纹识别中录音回放攻击检测的声学特征提取方法,该方法包括以下步骤:
[0056] S10、对输入语音进行预处理;
[0057] 步骤S10中的预处理包括分帧、加窗和去噪,步骤S10具体包括以下步骤:
[0058] S11、对输入语音信号x(n)进行分帧,将语音信号分割成帧长为N(实际可选1024)的多个语音帧,相邻两帧之间有重叠,帧移为L(实际可选256);
[0059] S12、对分帧后的每一帧语音信号x(i,n)加窗,用窗长为N的汉明窗乘每一帧语音信号,得到加窗后的语音帧 计算公式如下:
[0060]
[0061] S13、计算每一帧的短时能量SE(i),将SE(i)小于一定阈值θSE的帧作为背景噪声消除,阈值θSE根据应用场合的背景噪声短时能量平均值的二倍设置。得到消除背景噪声之后的纯输入语音信号,计算公式如下:
[0062]
[0063] S20、对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号,得到语音信号的频谱;
[0064] 具体的:根据离散傅里叶变换公式,采用快速傅里叶变换算法对经过预处理的每一帧语音信号进行傅里叶变换,将时域信号转换为频域信号 傅里叶变换公式如下:
[0065]
[0066] 其中,k表示频域中的第k条谱线。
[0067] S30、计算傅里叶变换后的每一帧语音信号的谱线能量;
[0068] 具体的,根据公式Ew(i,k)=|Xw(i,k)|2,k=0~N计算每一帧语音信号的谱线能量,其中,谱线能量是幅度谱的平方。
[0069] S40、根据谱线能量对每一帧语音信号进行非对称双曲正弦频率尺度变换滤波;
[0070] 其中,通过非对称双曲正弦频率尺度变换(HSFT,asymmetric Hyperbolic SinusoidalFrequency scale Transform)将原始频率映射到双曲正弦频率。HSFT将原始频率的低频和高频段进行了非线性扩张,而中频段进行了压缩,从而提高了高低两个频段的频率分辨率,既全面利用了语音的频谱信息,又强化了语音频谱中高低频段的特征信息。
[0071] 具体的,非对称双曲正弦频率尺度变换公式为:
[0072]
[0073] 其中,f是原始频率,Fsinh是双曲正弦频率,两个指数项参数0.0011和0.001分别用来控制高频段和低频段的非对称变换,参数3750控制变换的中心频率。
[0074] 如图2所示,为非对称双曲正弦频率尺度变换的频率映射曲线图。
[0075] 具体的,步骤S40包括以下步骤:
[0076] 步骤S41、使用非对称双曲正弦频率尺度变换公式计算实际频率分布范围对应的双曲正弦频率尺度分布范围,在新的双曲正弦频率尺度分布范围内配置多个满足相邻滤波器中心频率与边界频率之间关系的等宽三角形滤波器;
[0077] 其中,在新的双曲正弦频率尺度分布范围 内等间隔地选取L(实际可选取48)个中心频率值,采样频率fs=16KHz,并以这些中心频率设置等宽三角形滤波器构成三角形滤波器组。
[0078] 具体的,相邻滤波器中心频率与边界频率之间关系公式如下:
[0079]
[0080] fc(l)=flo(l+1)=fhi(l‑1),l=1~L
[0081] flo(1)=0
[0082] fhi(L)=Fsinh(fs/2)
[0083] 其中,fc(l)表示第l个滤波器的中心频率,fs表示采样频率,flo(l)表示第l个滤波器的低频边界频率,fhi(l)表示第l个滤波器的高频边界频率,L表示滤波器个数。
[0084] 步骤S42、通过非对称双曲正弦频率尺度变换公式的逆变换,计算双曲正弦频率尺度分布范围内等间隔分布的三角形滤波器组对应的原始频率尺度三角形滤波器组,得到原始频率尺度上每个三角形滤波器的中心频率值与边界频率值,得到每个滤波器的幅频响应,完成构建非对称双曲正弦频率尺度变换滤波器组。如图3所示,为构建的非对称双曲正弦频率尺度变换滤波器组,其中各个三角形滤波器宽度不等。
[0085] 步骤S43、根据每个滤波器的幅频响应计算每一帧语音信号谱线能量通过非对称双曲正弦频率尺度变换滤波器的输出值。
[0086] 具体的,步骤S43具体包括:
[0087] 在频域中将每一帧语音信号的谱线能量 与第l个非对称双曲正弦频率尺度变换滤波器幅频响应在对应频率点相乘然后相加得到其输出值Sw(i,l),计算公式如下:
[0088]
[0089] 实际计算时,非对称双曲正弦频率尺度变换滤波器组是可以预先确定的,每一个滤波器的幅频响应 也是预先确定的,不需要重复计算。
[0090] S50、对滤波后的每一帧语音信号进行对数变换,得到每一帧语音信号的对数能量谱;
[0091] 其中,原始频谱可视为由频谱细节和频谱包络组成,将滤波器的输出值进行对数变换后得到 可将乘性信号转换为加性信号,有利于分离频谱细节和频谱包络。
[0092] S60、对每一帧语音信号的对数能量谱进行离散余弦变换,得到每一帧语音信号的双曲正弦倒谱系数。
[0093] 其中,离散余弦变换有很好的能量集中性,仅用几个变换系数就可以代表信号能量。将以上滤波器组对数输出值 进行离散余弦变换,便得到双曲正弦倒谱系数。
[0094] 具体的,步骤60中离散余弦变换的公式为:
[0095]
[0096] 接着,我们使用ASVSpoof 2017 2.0数据库中的训练集样本(包含10个说话人,1508条原始语音,1508条录音回放语音)和评估集样本(包含24个说话人,1298条正常原始语音,12008条录音回放语音)作为训练语音和测试语音,其中,将将输入语音分割成帧长为
1024的语音帧,帧移为256,使用窗长为1024的汉明窗乘每一帧语音信号,录音回放攻击检测实验及结果介绍如下。
[0097] 模型训练
[0098] 训练集中的原始正常语音样本和录音回放语音样本被用于模型训练。这些语音通过上述特征提取方法提取双曲正弦倒谱系数HSCC,然后作为特征参数分别用于训练64分量原始语音高斯混合模型GMMgenuine和64分量录音回放攻击语音高斯混合模型GMMspoof。其中,训练高斯混合模型采用最大期望(EM)算法进行。
[0099] 系统测试
[0100] 测试集中的语音样本被用于系统性能测试。这些语音通过非对称双曲正弦频率尺度变换滤波提取双曲正弦倒谱系数HSCC,然后分别计算两个模型GMMgenuine和GMMspoof的似然度,得到由对数似然比表示的输入语音得分,如公式如下:
[0101] score=LL(GMMgenuine)‑LL(GMMspoof)
[0102] 其中,LL(GMMgenuine)和LL(GMMspoof)分别为测试语音对于原始语音模型和录音回放攻击语音模型的平均对数似然度。输入语音得分越高,表示其为原始语音的可能性越高,反之越低。
[0103] 检测判决根据对数似然比得分score与阈值θs的大小关系进行,判决规则公式如下:
[0104]
[0105] 其中,检测判决可能存在两类错误,一种是把录音回放攻击语音判决为原始语音,称错误接受;另一种是把原始语音判决为录音回放攻击语音,称错误拒绝。错误接受率(FAR,false Accept Rate)和错误拒绝率(FRR,False Reject Rate)是两个重要性能指标,与阈值θs有关,其值越大FRR越大而FAR越小,反之其值越小FAR越大而FRR越小。等错误率(EER,Equal Error Rate)是指FAR与FRR相同时的错误率,反映系统的综合性能,该指标值越低说明检测性能越好。EER也是2017年ASVSpoof挑战赛中用于衡量录音回放攻击检测性能的唯一标准。
[0106] 双曲正弦倒谱系数特征HSCC与CQCC特征(基线系统)在相同条件下测试得到的录音回放攻击检测比较结果如表1示。
[0107] 表1:录音回放攻击检测比较结果
[0108]特征 双曲正弦倒谱系数HSCC CQCC(基线系统)
EER 23.99% 30.69%
[0109] 从表1中可以看出在录音回放攻击检测中,基于非对称双曲正弦频率尺度变换滤波的HSCC特征提取方法性能明显优于CQCC特征提取方法。
[0110] 本发明通过非对称双曲正弦频率尺度变换(HSFT)规定了语音频谱信息的有效利用方法,强化了原始语音与录音回放攻击语音的信道差异,克服了现有技术的不足,可以提高录音回放攻击检测的性能。
[0111] 本发明通过非对称双曲正弦频率尺度变换滤波计算得到双曲正弦倒谱系数HSCC,相对现有CQCC和MFCC特征参数,不仅充分利用了低频段的频谱信息,同时充分利用了高频段的频谱信息,有利于提高攻击检测性能。
[0112] 本发明双曲正弦倒谱系数HSCC的提取中,非对称双曲正弦频率尺度变换滤波器组可以事先确定,没有重采样,相对现有方法降低了计算复杂度,缩短了提取特征所需的时间。
[0113] 以上实施例仅是为充分说明本发明而所举的较佳的实施例,本发明的保护范围不限于此。本技术领域的技术人员在本发明基础上所作的等同替代或变换,均在本发明的保护范围之内。本发明的保护范围以权利要求书为准。

附图说明

[0050] 图1是本发明中实施例中声纹识别中录音回放攻击检测的声学特征提取方法的示意图;
[0051] 图2是本发明实施例中非对称双曲正弦频率尺度变换的频率映射曲线图;
[0052] 图3是本发明实施例中构建的非对称双曲正弦频率尺度变换滤波器组的示意图。
专利联系人(活跃度排行)
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号