首页 > 专利 > 杭州电子科技大学 > 一种采用联合特征与随机森林的伪装语音检测方法专利详情

一种采用联合特征与随机森林的伪装语音检测方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2021-06-10

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2021-10-15

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-09-23

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2041-06-10

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202110648176.8	申请日	2021-06-10
公开/公告号	CN113436646B	公开/公告日	2022-09-23
授权日	2022-09-23	预估到期日	2041-06-10
申请年	2021年	公开/公告年	2022年
缴费截止日
分类号	G10L25/51 、G10L25/18 、G10L25/03 、G06N3/00 、G06K9/62	主分类号	G10L25/51
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	3
权利要求数量	4	非专利引证数量	1
引用专利数量	3	被引证专利数量	0
非专利引证	1、2016.03.31Shamsiah Abidin等.Local BinaryPattern with Random Forest for AcousticScene Classification《.2018 IEEEInternational Conference on Multimediaand Expo (ICME)》.2018,高敏等.时频图像特征用于声场景分类《.声学技术》.2017,Shamsiah Abidin等.SpectrotemporalAnalysis Using Local Binary PatternVariants for Acoustic SceneClassification《.IEEE/ACM Transactions onAudio, Speech, and Language Processing》.2018,;
引用专利	US2018254046A、EP3608907A、WO2016046652A	被引证专利
专利权维持	1	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	简志华、于佳祺、朱雅楠、徐嘉、韦凤瑜、吴超、游林	第一发明人	简志华
地址	浙江省杭州市经济技术开发区白杨街道2号大街1158号	邮编	310018
申请人数量	1	发明人数量	7
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

浙江千克知识产权代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

周希良

摘要

本发明涉及一种采用联合特征与随机森林的伪装语音检测方法，包括以下步骤：S1、从训练语音库中随机选取真语音和伪语音，分别对随机选取的各语音进行LBP局部纹理特征和CQCC声学特征的提取，并将LBP局部纹理特征和CQCC声学特征联合组成联合特征向量，以得到训练数据集；S2、利用训练数据集对随机森林进行训练，以生成随机森林分类器；S3、将待测语音进行LBP局部纹理特征和CQCC声学特征的提取，并将LBP局部纹理特征和CQCC声学特征联合组成待测联合特征向量，将待测联合特征向量输入随机森林分类器以对待测语音进行真伪检测。本发明对待测语音进行真伪检测，有效提升ASV系统的安全性。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4
说明书附图：图5
说明书附图：图6

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-09-23	授权
2	2021-10-15	实质审查的生效	IPC(主分类): G10L 25/51 专利申请号: 202110648176.8 申请日: 2021.06.10
3	2021-09-24	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种采用联合特征与随机森林的伪装语音检测方法，其特征在于，包括以下步骤：
S1、从训练语音库中随机选取真语音和伪语音，分别对随机选取的各语音进行LBP局部纹理特征和CQCC声学特征的提取，并将LBP局部纹理特征和CQCC声学特征联合组成联合特征向量，以得到训练数据集；
S2、利用训练数据集对随机森林进行训练，以生成随机森林分类器；
S3、将待测语音进行LBP局部纹理特征和CQCC声学特征的提取，并将LBP局部纹理特征和CQCC声学特征联合组成待测联合特征向量，将待测联合特征向量输入随机森林分类器以对待测语音进行真伪检测；
所述LBP局部纹理特征的提取，包括：
获取待提取语音的语谱图，利用LBP算法对待提取语音的语谱图进行分析，得到LBP局部纹理特征；
其中，待提取语音为随机选取的语音或待测语音；
利用LBP算法对待提取语音的语谱图进行分析之前，先对语谱图进行分块，然后对每块语谱图分别利用LBP算法对待提取语音的语谱图进行分析，得到各块语谱图的LBP局部纹理特征组成的LBP局部纹理特征向量。

2.根据权利要求1所述的一种采用联合特征与随机森林的伪装语音检测方法，其特征在于，所述CQCC声学特征的提取，包括：
先对待提取语音进行常量Q变换得到频谱，然后得到对数功率谱
，之后将对数功率谱重采样转换为，最后对重采样后
的对数能量谱作离散余弦变换，得到待提取语音的CQCC声学特征；
其中，k、l分别为重采样前、后的频带序号，待提取语音为随机选取的语音或待测语音。

3.根据权利要求2所述的一种采用联合特征与随机森林的伪装语音检测方法，其特征在于，所述将LBP局部纹理特征和CQCC声学特征联合组成联合特征向量，包括：
采用主成分分析算法分别对LBP局部纹理特征和CQCC声学特征进行降维，然后将降维后的特征进行拼接，从而生成联合特征向量。

4.根据权利要求3所述的一种采用联合特征与随机森林的伪装语音检测方法，其特征在于，所述步骤S2，包括以下步骤：
S21、假设训练数据集中共有N个矢量样本，从训练数据集中有放回地随机抽取个矢量样本作为训练集样本来训练决策树，其中，；
S22、每个矢量样本包含M个属性，M为联合特征向量的维数；决策树分裂时，随机选择个属性，根据基尼指数完成决策树分裂，判断是否无法继续分裂；若是，则转至步骤S23；若否，则继续根据基尼指数完成决策树分裂；
S23、生成决策树，并判断决策树数量是否小于目标数量；若是，则返回至步骤S21；若否，则生成随机森林分类器。

说明书

技术领域

[0001] 本发明属于伪装语音检测技术领域，具体涉及一种采用联合特征与随机森林的伪装语音检测方法。

背景技术

[0002] 自动说话人验证(ASV,Automatic Speaker Verification)系统，就是通过对说话人语音信号进行分析，并检测出待识别的说话人身份的技术。ASV系统是一种无需直接接触便可完成识别的身份认证方式，检测设备成本低且便于操作是它的主要优势。虽然目前的ASV系统识别目标语音的准确率较高，但以冒充目标说话人真实身份为目的的恶意欺骗攻击极大的降低了ASV系统的安全性。

[0003] 欺骗攻击的类型主要有语音合成、语音转换、人为模仿与语音回放。为了应对这些不同种类的欺骗攻击，需要完善说话人识别系统应对欺骗攻击时的检测性能，使ASV系统具有反欺骗攻击的能力。在应用这种反欺骗攻击技术后，只有通过欺骗检测并被判定为真实语音的样本才能输入到ASV系统中进一步认证。

发明内容

[0004] 基于现有技术中存在的上述不足，本发明的目的是提供一种采用联合特征与随机森林的伪装语音检测方法。

[0005] 为了实现本发明的上述目的，采用如下技术方案：

[0006] 一种采用联合特征与随机森林的伪装语音检测方法，包括以下步骤：

[0007] S1、从训练语音库中随机选取真语音和伪语音，分别对随机选取的各语音进行LBP局部纹理特征和CQCC声学特征的提取，并将LBP局部纹理特征和CQCC声学特征联合组成联合特征向量，以得到训练数据集；

[0008] S2、利用训练数据集对随机森林进行训练，以生成随机森林分类器；

[0009] S3、将待测语音进行LBP局部纹理特征和CQCC声学特征的提取，并将LBP局部纹理特征和CQCC声学特征联合组成待测联合特征向量，将待测联合特征向量输入随机森林分类器以对待测语音进行真伪检测。

[0010] 作为优选方案，所述LBP局部纹理特征的提取，包括：

[0011] 获取待提取语音的语谱图，利用LBP算法对待提取语音的语谱图进行分析，得到LBP局部纹理特征；

[0012] 其中，待提取语音为随机选取的语音或待测语音。

[0013] 作为优选方案，利用LBP算法对待提取语音的语谱图进行分析之前，先对语谱图进行分块，然后对每块语谱图分别利用LBP算法对待提取语音的语谱图进行分析，得到各块语谱图的LBP局部纹理特征组成的LBP局部纹理特征向量。

[0014] 作为优选方案，所述CQCC声学特征的提取，包括：

[0015] 先对待提取语音进行常量Q变换得到频谱XCQ(k)，然后得到对数功率谱log|XCQ(k)2 CQ 2
| ，之后将对数功率谱重采样转换为log|X (l)|，最后对重采样后的对数能量谱作离散余弦变换，得到待提取语音的CQCC声学特征；

[0016] 其中，k、l分别为重采样前、后的频带序号，待提取语音为随机选取的语音或待测语音。

[0017] 作为优选方案，所述将LBP局部纹理特征和CQCC声学特征联合组成联合特征向量，包括：

[0018] 采用主成分分析算法分别对LBP局部纹理特征和CQCC声学特征进行降维，然后将降维后的特征进行拼接，从而生成联合特征向量。

[0019] 作为优选方案，所述步骤S2，包括以下步骤：

[0020] S21、假设训练数据集中共有N个矢量样本，从训练数据集中有放回地随机抽取N'个矢量样本作为训练集样本来训练决策树，其中，N'≤N；

[0021] S22、每个矢量样本包含M个属性，M为联合特征向量的维数；决策树分裂时，随机选择M'个属性，根据基尼指数完成决策树分裂，判断是否无法继续分裂；若是，则转至步骤S23；若否，则继续根据基尼指数完成决策树分裂；

[0022] S23、生成决策树，并判断决策树数量是否小于目标数量；若是，则返回至步骤S21；若否，则生成随机森林分类器。

[0023] 本发明与现有技术相比，具有如下技术效果：

[0024] 本发明提出通过使用局部二进制模式(Local Binary Pattern,LBP)提取出语音信号语谱图中的纹理特征，并结合常数Q倒谱系数(Constant Q Cepstral Coefficient,CQCC)这一声学特征得到联合特征，然后用获得的联合特征向量训练随机森林(Random forest,RF)分类器对待检测语音进行真伪检测分类，有效提升ASV系统的安全性。

实施方案

[0031] 以下通过具体实施例对本发明的技术方案作进一步解释说明。

[0032] 如图1所示，本发明实施例的采用联合特征与随机森林的伪装语音检测方法，包括以下步骤：

[0033] S1、从训练语音库中随机选取真语音和伪语音，分别对随机选取的各语音进行LBP局部纹理特征和CQCC声学特征的提取，并将LBP局部纹理特征和CQCC声学特征联合组成联合特征向量，以得到训练数据集；

[0034] 具体地，获取随机选取的语音的语谱图，利用LBP算法对待提取语音的语谱图进行分析，得到LBP局部纹理特征。其中，为了提升伪装语音检测方法的检测效率以及准确性，需要先对语谱图进行分块处理，然后对每块语谱图分别利用LBP算法对待提取语音的语谱图进行分析，得到各块语谱图的LBP局部纹理特征组成的LBP局部纹理特征向量。

[0035] CQCC声学特征的提取，包括：

[0036] 先对随机选取的语音进行常量Q变换得到频谱XCQ(k)，然后得到对数功率谱log|CQ 2 CQ 2X (k)| ，之后将对数功率谱重采样转换为log|X (l)| ，最后对重采样后的对数能量谱作离散余弦变换，得到待提取语音的CQCC声学特征；

[0037] 其中，k、l分别为重采样前、后的频带序号。

[0038] 上述两种特征提取完成之后，将LBP局部纹理特征和CQCC声学特征联合组成联合特征向量，由于LBP局部纹理特征与CQCC声学特征的维度不同，无法直接生成联合特征，并且特征参数维度过大，导致欺骗检测阶段计算量过大，影响伪装语音检测的效率。因此，上述两种特征联合的具体过程包括：

[0039] 采用主成分分析算法分别对LBP局部纹理特征和CQCC声学特征进行降维，然后将降维后的特征进行拼接，从而生成联合特征向量。

[0040] S2、利用训练数据集对随机森林进行训练，以生成随机森林分类器；

[0041] 其中，随机森林的训练，具体包括以下步骤：

[0042] S21、假设训练数据集中共有N个矢量样本，从训练数据集中有放回地随机抽取N'个矢量样本作为训练集样本来训练决策树，其中，N'≤N；

[0043] S22、每个矢量样本包含M个属性，M为联合特征向量的维数；决策树分裂时，随机选择M'个属性，根据基尼指数完成决策树分裂，判断是否无法继续分裂；若是，则转至步骤S23；若否，则继续根据基尼指数完成决策树分裂；

[0044] S23、生成决策树，并判断决策树数量是否小于目标数量；若是，则返回至步骤S21；若否，则生成随机森林分类器。

[0045] S3、将待测语音(即待验证语音)进行LBP局部纹理特征和CQCC声学特征的提取，并将LBP局部纹理特征和CQCC声学特征联合组成待测联合特征向量，将待测联合特征向量输入随机森林分类器以对待测语音进行真伪检测。

[0046] 其中，LBP局部纹理特征和CQCC声学特征的提取以及两种特征的联合的具体过程可以参考步骤S1，在此不赘述。

[0047] 以下详细介绍上述每个步骤的工作原理以及示例说明：

[0048] (1)LBP局部纹理特征的提取

[0049] LBP特征参数目前在图像识别领域有很好的表现，是一种效率高且分类效果好的纹理特征。LBP是通过比较目标图像相邻像素之间灰度值大小来描述目标的纹理特征，以一个图像中心点的像素的灰度值gc作为标准，相邻的所有像素点的灰度值gi与该中心像素点灰度值作比较，其中大于或等于gc的点编码为1，小于gc的点编码为0。同时规定左上角作为第一个数字并顺时针依次记录，于是就可以得到了一组由0和1组成的序列，这样组成的二进制数转化为十进制即完成了LBP基本运算。

[0050] LBP运算公式如下：

[0051]

[0052] 其中，gc为中心像素点的灰度值，R为半径形成一个原型区域中分布的像素点为gi(i＝1,…,N)，得到的LBPN,R为该中心像素点的LBP值。如图2所示，当R＝1时，一个图像像素点的LBP值求解过程示例。

[0053] 用LBP算法对待测的每段语音信号的语谱图进行纹理分析，为提升伪装语音检测系统整体性能，先对语谱图进行分块。本发明采用4×4的格式将整个语谱图均分为16块，每块分别进行LBP特征提取。提取LBP时选取采样半径R＝1，采样点数N＝8。

[0054] LBP8，1模式中，通过图2中3×3的LBP处理语谱图之后，每个像素点的值都位于0～255之间，利用统计直方图的方法对每个像素点的值进行统计，每块语谱图就得到一个1×
256维的特征向量。对于3×3的LBP来说，1×256维的特征向量里会有很多维是空的，这样就增加了许多无用的信息和计算量。因此，需要进行压缩处理，对3×3LBP的每个8位二进制数，如果0与1之间跳变超过2次就归为同一类。这样处理后，3×3的LBP原本256种情况就变成了59种情况，然后再对这59种可能情况的LBP值使用统计直方图进行统计，就得到了59维的特征向量。如图3所示，是用3×3的LBP提取纹理特征向量的示意图。对整个语谱图的16块区域进行同样的操作，就得到一个16×59维的特征矩阵。

[0055] (2)CQCC声学特征的提取

[0056] CQCC与传统声学特征提取方式相似，不过CQCC将传统特征提取所使用的短时傅里叶变换(Short‑time Fourier Transform,STFT)替换为常量Q变换(Constant Q Transform,CQT)。CQT最开始被应用于音乐识别中的乐音分析中，其主要优点是在低频段与高频段具有不同的频率分辨率和时间分辨率，从而避免了STFT时频分辨率均匀分布的缺点。

[0057] CQCC是基于CQT进行特征提取的，假定x(n)表示一帧语音信号，其CQT表示为：

[0058]

[0059] 式中，k＝1,2,…,K为频点的序号，是表示向下取整的运算符号。被分析频段的最小频率为fmin，最大频率为fmax，该频段被分割为NO个符合指数分布的八度音。再将每个八度音再分割为B个频带，即为ak(n)的复共轭，Nk为可变窗长，是时频分析中动态窗口的长度，并且ak(n)的数学表达式为：

[0060]

[0061] 式中，fk是第k个滤波器频带的中心频率，fs表示采样频率，φk表示相位偏移。C为正则因子，其数学表达式为：

[0062]

[0063] 式中，w(t)表示窗函数。K个频带的宽度分布符合十二平音率，故fk的数学表达式为：

[0064]

[0065] 式中，f1表示最低频带的中心频率。

[0066] 时间分辨率与频率分辨率的权衡参数Q的数学表达式为：

[0067]

[0068] 公式(6)中Q的数值只与B有关，在CQT过程中不发生变化，则Nk的值为：

[0069]

[0071]

[0072] 式中,p＝0,1,...,L‑1,l为重新采样后的频带序号。

[0073] (3)联合特征

[0074] 在欺骗攻击场景中，联合特征带有更多的语音信息，有着更好的表现。将声学特征CQCC与LBP纹理特征联合并组成联合特征，由于纹理特征与声学特征维度不同无法直接生成联合特征，并且特征参数维度过大，导致欺骗检测阶段计算量过大影响伪装语音检测系统整体性能。

[0075] 本发明采用主成分分析(principal component analysis,PCA)分别先对CQCC与LBP特征进行降维，然后再将降维后的特征进行拼接，从而生成联合特征。

[0076] 其中，PCA降维算法的具体流程如下：

[0077] (a)首先输入由N个M维矢量构成的数据集X＝{x1,x2,…,xi,…,xN}，将X中每一个矢量xi减去均值矢量，即这样就得到了去中心化的数据集

[0078] (b)构造协方差矩阵并对其做特征值分解，依次选取最大的N'个特征值对应的特征向量w1,w2,…,wN′，得到特征向量矩阵W＝{w1,w2,…,wN′}。其中T表示矩阵的转置运算。

[0079] (c)将数据集中每一个样本向量进行降维，即得到降维后的N'维数据集Z＝{z1,z2,...,zN}。

[0080] 联合特征的提取主要依赖于PCA降维方法。假定x(n)是一段L帧的语音信号，首先计算该语音信号的语谱图，使用前述的LBP算法对语谱图进行分析并得到16×59维的纹理特征矩阵LBP。同时提取每帧语音信号的CQCC特征矢量，矢量的维数取60，这样对于一段L帧T的语音信号来说，就得到60×L维的声学特征向量CQCC。再使用PCA分别对矩阵LBP和CQCC进行降维处理，并取N'＝1，这样就分别得到16×1维的LBP′和60×1维的CQCC′。最后将16×
1维的LBP′和60×1维的CQCC′首尾拼接，就得到了76×1维的联合特征向量。这样，对于一段任何时长的语音信号，经过联合特征提取过程后，最终生成76×1维的联合特征向量，具体的联合特征提取流程如图5所示。

[0081] (4)随机森林分类器

[0082] 随机森林(random forest,RF)属于机器学习算法，可以有效地处理分类与回归问题，是一种基于决策树模型的强大的监督学习算法。RF采用了集成学习的思想，将多个弱学习器组成一个强学习器。RF通过随机选取数据样本来形成多个决策树从而形成森林结构，每一棵树都会得出一个分类结果。RF根据少数服从多数的原则，选出票数最高的分类结果作为整个森林的分类结果。如图6所示，RF的训练流程如下所示：

[0083] (a)从语音库中随机选取真、伪语音，假设共有N个语音段，从每段语音提取一个76维的联合特征矢量，则共有N个矢量样本，形成数据集。从数据集中通过有放回抽取的方式随机提取N'(N'≤N)个矢量样本作为训练集样本来训练决策树。在该过程中可能存在被重复提取与没有被提取的样本。

[0084] (b)每个样本包含M个属性，即联合特征矢量的维数。当决策树开始分裂时，从M个属性中随机选择M'个属性，其中M'的数量应远小于M；使用基尼指数作为分裂策略来选取这M'个属性的分裂属性，即分裂规则就是在待选属性中找出信息增益高于平均值的属性，然后找出信息增益率最高的属性。

[0085] (c)对决策树的节点进行分裂，直到所有可能的值都已被使用时停止生长，从而最大限度生长决策树，避免剪枝；这样我们就得到了一棵决策树，将上述流程重复目标次数T从而生长出更多棵决策树，形成随机森林分类器。

[0086] 由于所有决策树之间是相互独立的，所以每个决策树的重要性相同，在本专利中使用随机森林用于分类时，每棵树都具有相同的权值，依据投票结果来决策最终的分类结果。本专利选取随机森林分类算法作为实现真、伪语音分类的分类器，使用包含真实语音与伪装语音的联合特征的数据集对随机森林系统进行训练，再对待认证语音集进行测试，即能实现对真实语音与伪装语音进行分类识别的效果。

[0087] 以上所述仅是对本发明的优选实施例及原理进行了详细说明，对本领域的普通技术人员而言，依据本发明提供的思想，在具体实施方式上会有改变之处，而这些改变也应视为本发明的保护范围。

附图说明

[0025] 图1是本发明实施例的采用联合特征与随机森林的伪装语音检测方法的流程图；

[0026] 图2是本发明实施例的LBP求解过程示例图；

[0027] 图3是本发明实施例的LBP纹理特征的提取流程示意图；

[0028] 图4是本发明实施例的CQCC声学特征的提取流程示意图；

[0029] 图5是本发明实施例的联合特征的联合流程图；

[0030] 图6是本发明实施例的随机森林的训练流程图。

1一种采用联合特征与随机森林的伪装语音检测方法