首页 > 专利 > 杭州电子科技大学 > 一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法专利详情

一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2020-11-06

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2021-02-26

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-08-12

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2040-11-06

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202011228473.9	申请日	2020-11-06
公开/公告号	CN112331232B	公开/公告日	2022-08-12
授权日	2022-08-12	预估到期日	2040-11-06
申请年	2020年	公开/公告年	2022年
缴费截止日
分类号	G10L25/63 、G10L21/0208 、G10L21/0232 、G10L25/03 、G10L25/18 、G10L25/30 、G10L25/45	主分类号	G10L25/63
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	8
权利要求数量	9	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2020.09.17Yuki Saito et al..StatisticalParametric Speech Synthesis IncorporatingGenerative Adversarial Networks《.IEEE/ACMTRANSACTIONS ON AUDIO, SPEECH, ANDLANGUAGE PROCESSING》.2018,时文华等.联合稀疏非负矩阵分解和神经网络的语音增强《.计算机研究与发展》.2018,(第11期),张雄等.基于卷积特征提取与融合的语音情感识别研究《.电子测量技术》.2018,(第16期),余琳等.基于Gammatone滤波器的混合特征语音情感识别《.光电技术应用》.2020,(第03期),;
引用专利	US2020293875A	被引证专利
专利权维持	2	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	应娜、李怡菲、郭春生、杨萌、杨鹏、方昕、郭凡	第一发明人	应娜
地址	浙江省杭州市经济技术开发区白杨街道2号大街1158号	邮编	310018
申请人数量	1	发明人数量	7
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

浙江千克知识产权代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

周希良

摘要

本发明公开了一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，包括：S1、获取干净语谱图以及加噪语谱图；S2、将干净语谱图和加噪语谱图输入基于矩阵距离的条件生成对抗网络进行训练，得到去噪模型；S3、利用去噪模型对加噪语谱图进行去噪处理，分别进行两个不同尺度的双边滤波，得到低、高尺度滤波图，低、高尺度滤波图相差再乘以增强系数，然后与低尺度滤波图相加，得到细节增强的语谱图；S4、将细节增强的语谱图输入卷积神经网络模型中进行分类，得到分类模型；S5、待识别语音的语谱图经过步骤S3中对语谱图的处理，得到的细节增强的语谱图输入分类模型，得到语音情感分类结果。本发明有效实现语音情感的识别。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4
说明书附图：图5

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-08-12	授权
2	2021-02-26	实质审查的生效	IPC(主分类): G10L 25/63 专利申请号: 202011228473.9 申请日: 2020.11.06
3	2021-02-05	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，包括以下步骤：
S1、采集语音情感数据集，获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集；
S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD‑CGAN进行去噪模型的训练，得到去噪模型；
S3、利用去噪模型对加噪语谱图进行去噪处理，得到去噪语谱图；对去噪语谱图分别进行两个不同尺度的双边滤波，得到低尺度滤波图和高尺度滤波图，低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计，然后与低尺度滤波图相加，得到细节增强的语谱图；
S4、引入卷积神经网络并迁移其预训练的卷积层权重参数，接着将细节增强的语谱图输入卷积神经网络中进行分类，得到分类模型；
S5、待识别语音的语谱图经过步骤S3中对语谱图的处理，得到待识别语音对应的细节增强的语谱图，并将其输入分类模型，得到语音情感分类结果；
所述步骤S2，包括：
对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下：
其中，D代表判决器，G表示生成器，V(D,G)表示去噪语谱图和干净的语谱图的差异程度；E为数学期望，x表示干净语谱图，pdata(x)表示干净语谱图的概率分布；z表示加噪语谱图，pz(z)为加噪语谱图的概率分布；y表示语音的情感标签，D(x|y)表示输入x和y时，判决器判定其为干净的语谱图的概率；
去噪模型的训练过程，包括以下步骤：
(1)给定生成器模型，优化判决器，判决器为一个二分类模型，用于判定输入的语谱图是干净语谱图还是加噪语谱图；
(2)在判决器取得优的情况下，训练生成器；生成器的训练目标是将输出的去噪语谱图能混淆判定器，使得判定器将去噪语谱图判定为1，即干净语谱图；
基于矩阵距离的条件生成对抗网络MD‑CGAN，通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束；
所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到，将语谱图损失和对抗损失结合起来共同作为损失方程，得到改进后的损失方程如下：
其中，Ig表示生成器的输出，即去噪语谱图；Ix表示干净语谱图，pG(x)表示通过生成器去噪之后的语谱图的概率分布，w、h、c分别指语谱图的宽、高和通道数；
(3)返回步骤(1)直到训练达到最优值，得到去噪模型。

2.如权利要求1所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，所述步骤S1，包括：
对语音情感数据集中的每个语音信号进行分帧、加窗的预处理，然后进行短时离散傅里叶变化，得到频谱X(k)：
其中，N为窗长，x(n)为语音信号，w(n)为汉明窗函数，k为语音的频率，i是虚函数单位，n为时序采样点；
再以对数振幅描述来生成语谱图：
S(k,t)＝20×log10|Xt(k)|
其中，Xt(k)为t时刻的频谱；
对语谱图按照情感类别设置相应的情感标签。

3.如权利要求1所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，所述步骤S3中，所述双边滤波的算法如下：
基于空间距离的权重因子生成，通过当前点与中心点的空间距离并使用如下公式计算滤波输出
2 2 2
||Sp‑Sq||＝(xp‑xq) +(yp‑yq)
其中，(xp，yp)为当前位置，(xq，yq)为中心点的位置，σs为空间域标准差，σs越小，对图片的模糊度越小；
基于灰度距离的权重因子的生成，主要通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成，主要通过两个当前灰度与中心点灰度的灰度距离计算
2 2
||Vp‑Vq||＝(gray(xp,yp)‑gray(xq,yq))
其中，V代表值域信息，gray(xp,yp)为当前灰度值，gray(xq,yq)为中心点灰度值，σr为值域标准差，σr越小，权重越小；离中心点位置越近，权重越大；
双边滤波图像输出计算：
其中，S表示空间域，表示归一化因子，表示像素q在邻域M内的所有像素的加权平均；σs和σr的取值范围为[0，1]；
通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图，将σs、σr都小的滤波图设为P1，并将其作为基底图像；将σs、σr都大的滤波图设为P2，P1与P2相减作为语谱图的纹理细节图，再乘以增强系数η，然后与P1相加，得到细节增强的语谱图的计算如下：
Z＝P1+η(P1‑P2)。

4.如权利要求1‑3任一项所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，所述卷积神经网络采用ResNet网络结构。

5.如权利要求4所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，所述卷积神经网络包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层，H为大于2的整数。

6.如权利要求5所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，所述第二卷积层至第H卷积层均配置残差单元。

7.如权利要求5或6所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，所述第二卷积层至第H卷积层的卷积核大小均为3×3。

8.如权利要求7所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，所述第二卷积层至第H卷积层的通道数依次增大。

9.如权利要求5所述的一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，所述第一卷积层的卷积核大小为7×7、通道数为64。

说明书

技术领域

[0001] 本发明属于语音识别领域，主要涉及人机交互领域，具体来说，即一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法。

背景技术

[0002] 将语音情感识别应用于人机交互系统，一方面能够使机器人像人类一样具有“情感”，通过听觉察觉到对方的情感变化，和人类进行更加自然的、智能的交流互动，将人性化、自然化、智能化相融合的交互方式赋予新型人机交互系统。另一方面，基于语音情感的系别系统，能为医疗、机械、教育、服务型提供更新颖的发展思路，将进一步丰富人们的日常生活，成为人类的帮手，高效率的帮助人们解决实际问题，有效提高人们的工作、学习效率，提高人们的生活质量和幸福感。

[0003] 语音在实际应用中，往往伴随着各种噪声，而噪声的存在会对语音情感识别造成一系列的影响，使得语音的质量和情感信息下降。因此对语音去噪对情感识别是一个重要的研究方向。

[0004] 当前语音情感特征主要包括韵律特征、频域特征、音质特征。语音信号频域和时域中信号间的相关性在语音情感识别中起到了重要作用。但针对语音信号间相关性的研究，往往仅集中在频域或时域中，语谱图是一种语音能量时频分布的可视化表达方式，其横轴代表时间，纵轴代表频率，连通了时频两域，将语谱图的频率点建模为图像的像素点，便可利用图像特征探讨相邻频点间的联系，为研究时频两域相关性提供了一种新的思路。

[0005] 原始生成对抗网络(Generative Adversarial Nets，GAN)是由生成器(Generator,G)和判决器(Discriminator,D)组成的训练生成式模型，它将随机噪声和真实图像输入GAN中，通过生成器和判决器不断的对抗学习，从而生成近似真实数据的图像。在对抗训练中，生成器通过不断的迭代学习生成图像，企图“欺骗”判决器；判决器通过不断学习，希望尽可能的“不受欺骗”，判决器和生成器通过不断的对抗训练，寻求最优解。

[0006] 双边滤波是一种非线性滤波器，它可以达到保持边缘、降噪平滑的效果。和其他滤波原理一样，双边滤波也是采用加权平均的方法，用周边像素亮度值的加权平均代表某个像素的强度，所用的加权平均基于高斯分布。最重要的是，双边滤波的权重不仅考虑了像素的欧氏距离，还考虑了像素范围域中的辐射差异，在计算中心像素的时候同时考虑这两个权重，这样就保证了边缘附近像素值的保存，有利于语谱图纹理细节的增强。

发明内容

[0007] 针对现有技术中存在的上述问题，本发明提供一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，通过将语音信号转换为语谱图，然后使用基于矩阵距离的生成对抗网络MD‑CGAN对语谱图去噪，并使用不同尺度的双边滤波增强语谱图的细节信息，最后将增强后的语谱图放入迁移的卷积神经网络中进行情感分类。

[0008] 本发明采取如下技术方案：

[0009] 一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，其特征在于，包括以下步骤：

[0010] S1、采集语音情感数据集，获取干净语音的语谱图数据集以及干净语音加噪后的加噪语谱图数据集；

[0011] S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD‑CGAN进行去噪模型的训练，得到去噪模型；

[0012] S3、利用去噪模型对加噪语谱图进行去噪处理，得到去噪语谱图；对去噪语谱图分别进行两个不同尺度的双边滤波，得到低尺度滤波图和高尺度滤波图，低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计，然后与低尺度滤波图相加，得到细节增强的语谱图；

[0013] S4、引入卷积神经网络并迁移其预训练的卷积层权重参数，接着将细节增强的语谱图输入卷积神经网络中进行分类，得到分类模型；

[0014] S5、待识别语音的语谱图经过步骤S3中对语谱图的处理，得到待识别语音对应的细节增强的语谱图，并将其输入分类模型，得到语音情感分类结果。

[0015] 作为优选方案，所述步骤S1，包括：

[0016] 对语音情感数据集中的每个语音信号进行分帧、加窗的预处理，然后进行短时离散傅里叶变化，得到频谱X(k)：

[0017]

[0018] 其中，N为窗长，x(n)为语音信号，w(n)为汉明窗函数，k为语音的频率，i是虚函数单位，n为时序采样点；

[0019] 再以对数振幅描述来生成语谱图：

[0020] S(k,t)＝20×log10|Xt(k)|

[0021] 其中，X(k)为t时刻的频谱；

[0022] 对语谱图按照情感类别设置相应的情感标签。

[0023] 作为优选方案，所述步骤S2，包括：

[0024] 对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下：

[0025]

[0026] 其中，D代表判决器，G表示生成器，V(D,G)表示去噪语谱图和干净的语谱图的差异程度；E为数学期望，x表示干净语谱图，pdata(x)表示干净语谱图的概率分布；z表示加噪语谱图，pz(z)为加噪语谱图的概率分布；y表示语音的情感标签，D(x|y)表示输入x和y时，判决器判定其为干净的语谱图的概率；

[0027] 去噪模型的训练过程，包括以下步骤：

[0028] (1)给定生成器模型，优化判决器，判决器为一个二分类模型，用于判定输入的语谱图是干净语谱图还是加噪语谱图；

[0029] (2)在判决器取得优的情况下，训练生成器；生成器的训练目标是将输出的去噪语谱图能混淆判定器，使得判定器将去噪语谱图判定为1，即干净语谱图；

[0030] 基于矩阵距离的条件生成对抗网络MD‑CGAN，通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束；

[0031] 所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到，将语谱图损失和对抗损失结合起来共同作为损失方程，得到改进后的损失方程如下：

[0032]

[0033]

[0034] 其中，Ig表示生成器的输出，即去噪语谱图；Ix表示干净语谱图，pG(x)表示通过生成器去噪之后的语谱图的概率分布，w、h、c分别指语谱图的宽、高和通道数；

[0035] (3)返回步骤(1)直到训练达到最优值，得到去噪模型。

[0036] 作为优选方案，所述步骤S3中，所述双边滤波的算法如下：

[0037] 基于空间距离的权重因子生成，通过当前点与中心点的空间距离并使用如下公式计算滤波输出

[0038]

[0039] ||Sp‑Sq||2＝(xp‑xq)2+(yp‑yq)2

[0040] 其中，(xp，yp)为当前位置，(xq，yq)为中心点的位置，σs为空间域标准差，σs越小，对图片的模糊度越小；

[0041] 基于灰度距离的权重因子的生成，主要通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成，主要通过两个当前灰度与中心点灰度的灰度距离计算[0042]

[0043] ||Vp‑Vq||2＝(gray(xp,yp)‑gray(xq,yq))2

[0044] 其中，V代表值域信息，gray(xp,yp)为当前灰度值，gray(xq,yq)为中心点灰度值，σr为值域标准差，σr越小，权重越小；离中心点位置越近，权重越大；

[0045] 双边滤波图像输出计算：

[0046]

[0047]

[0048] 其中，S表示空间域，表示归一化因子，表示像素q在邻域M内的所有像素的加权平均；σs和σr的取值范围为[0，1]；

[0049] 通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图，将σs、σr都小的滤波图设为P1，并将其作为基底图像；将σs、σr都大的滤波图设为P2，P1与P2相减作为语谱图的纹理细节图，再乘以增强系数η，然后与P1相加，得到细节增强的语谱图的计算如下：

[0050] Z＝P1+η(P1‑P2)。

[0051] 作为优选方案，所述卷积神经网络采用ResNet网络结构。

[0052] 作为优选方案，所述卷积神经网络包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层，H为大于2的整数。

[0053] 作为优选方案，所述第二卷积层至第H卷积层均配置残差单元。

[0054] 作为优选方案，所述第二卷积层至第H卷积层的卷积核大小均为3×3。

[0055] 作为优选方案，所述第二卷积层至第H卷积层的通道数依次增大。

[0056] 作为优选方案，所述第一卷积层的卷积核大小为7×7、通道数为64。

[0057] 本发明与现有技术相比有如下优点：

[0058] 1.本发明对噪声环境下的语谱图去噪，解决了经典语音去噪算法对语谱图像素间的相关性无法较好恢复的问题。

[0059] 2.本发明通过对语谱图进行双边滤波，可以平衡语谱图的微小细节和强边缘增强效果，充分发挥语谱图的频域和时域特征。

实施方案

[0065] 以下通过具体实施例对本发明的技术方案作进一步解释说明。

[0066] 如图1所示，本发明实施例的结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，包括以下步骤：

[0067] S1、采集语音情感数据集，并对语音情感数据集进行预处理，获取干净语音的语谱图数据集；还对语音进行加噪，得到干净语音加噪后的加噪语谱图数据集，即噪声环境下的语谱图数据集；

[0068] 具体地，对语音情感数据集中的每个语音信号进行分帧、加窗的预处理，然后进行短时离散傅里叶变化，得到频谱X(k)：

[0069]

[0070] 其中，N为窗长，x(n)为语音信号，w(n)为汉明窗函数，k为语音的频率，i是虚函数单位，n为时序采样点；

[0071] 再以对数振幅描述来生成语谱图：

[0072] S(k,t)＝20×log10|Xt(k)|

[0073] 其中，X(k)为t时刻的频谱；

[0074] 对语谱图按照情感类别设置相应的情感标签Y。

[0075] S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD‑CGAN进行去噪模型的训练，得到去噪模型；

[0076] 具体地，条件生成对抗网络(Conditional Generative Adversarial Networks，CGAN)，它在生成器G和判决器D的模型中都引入了约束条件y，y可以是类别标签，也可以是不同模态的数据，通过约束条件能够指导生成器生成正确的数据。因此，CGAN可以看作是将无监督的模型转换为有监督的模型。

[0077] 对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下：

[0078]

[0079] 其中，D代表判决器，G表示生成器，V(D,G)表示去噪语谱图和干净的语谱图的差异程度；E为数学期望，x表示干净语谱图，pdata(x)表示干净语谱图的概率分布；z表示加噪语谱图，pz(z)为加噪语谱图的概率分布；y表示语音的情感标签，D(x|y)表示输入x和y时，判决器判定其为干净的语谱图的概率；

[0080] 去噪模型的训练过程，包括以下步骤：

[0081] (1)给定生成器模型，优化判决器，判决器为一个二分类模型，用于判定输入的语谱图是干净语谱图还是加噪语谱图；当输入干净的语谱图时，D(x|y)输出的概率值较大；当输入去噪之后的语谱图G(z|y)时，D(G(z|y))输出的概率值较小，则1‑D(G(z|y))的值较大，则V(D,G)取得最大值。

[0082] (2)在判决器取得优的情况下，训练生成器；生成器的训练目标是将输出的去噪语谱图能混淆判定器，使得判定器将去噪语谱图判定为1，即干净语谱图；此时D(x|y)输出的概率值较小；当输入去噪之后的语谱图G(z|y)时，D(G(z|y))输出的概率值较大，则1‑D(G(z|y))的值较小，则V(D,G)取得最小值。

[0083] 由于噪声环境下提取的语谱图与对应干净语谱图的矩阵距离差异过大，通过原始生成器的损失函数很难完全学习到两幅图像间的映射关系。针对语谱图差异性过大的问题，本发明实施例基于矩阵距离的条件生成对抗网络MD‑CGAN，通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束；

[0084] 所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到，将语谱图损失和对抗损失结合起来共同作为损失方程，得到改进后的损失方程如下：

[0085]

[0086]

[0087] 其中，Ig表示生成器的输出，即去噪语谱图；Ix表示干净语谱图，pG(x)表示通过生成器去噪之后的语谱图的概率分布，w、h、c分别指语谱图的宽、高和通道数；该损失方程利用欧式距离防止过分拟合造成语谱图去噪之后质量下降问题，使得去噪之后的语谱图质量得到提升。

[0088] (3)返回步骤(1)直到训练达到最优值，得到去噪模型。

[0089] S3、利用去噪模型对加噪语谱图进行去噪处理，得到去噪语谱图；对去噪语谱图分别进行两个不同尺度的双边滤波，得到低尺度滤波图和高尺度滤波图，低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计，然后与低尺度滤波图相加，得到细节增强的语谱图。

[0090] 经过MD‑CGAN模型去噪后，虽然对噪声覆盖区域的情感特征进行了较好地还原，但经过去噪模型映射得到的图像较干净的谱图，纹理细节清晰度存在差异性。故本发明实施例提出了基于双边滤波的纹理细节增强模型，以增强谱图的情感特征细节信息。

[0091] 具体地，双边滤波是一种非线性的滤波方法，是结合图像的空间邻近度和像素值相似度的一种折中处理，同时考虑空域信息和灰度相似性，达到保边去噪的目的。

[0092] 根据下面算法实现双边滤波：

[0093] 基于空间距离的权重因子生成，通过当前点与中心点的空间距离并使用如下公式计算滤波输出

[0094]

[0095] ||Sp‑Sq||2＝(xp‑xq)2+(yp‑yq)2

[0096] 其中，(xp，yp)为当前位置，(xq，yq)为中心点的位置，σs为空间域标准差，σs越小，对图片的模糊度越小；

[0097] 基于灰度距离的权重因子的生成，通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成，通过两个当前灰度与中心点灰度的灰度距离计算

[0098]

[0099] ||Vp‑Vq||2＝(gray(xp,yp)‑gray(xq,yq))2

[0100] 其中，V代表值域信息，gray(xp,yp)为当前灰度值，gray(xq,yq)为中心点灰度值，σr为值域标准差，σr越小，权重越小；离中心点位置越近，权重越大；

[0101] 双边滤波图像输出计算：

[0102]

[0103]

[0104] 其中，S表示空间域，表示归一化因子，表示像素q在邻域M内的所有像素的加权平均；σs和σr的取值范围为[0，1]；

[0105] 经过去噪模型后的语谱图信息特征存在一定的模糊，所以需要进行细节增强。通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图，将σs、σr都小的滤波图设为P1，保留了更多的细节信息，将其作为基底图像；将σs、σr都大的滤波图设为P2，P2的模糊程度大，纹理细节消失的较多，图片较为光滑。P1与P2相减作为语谱图的纹理细节图，这幅图像包含了语谱图更多的纹理细节，再乘以增强系数η，更加凸显纹理细节，然后与P1相加，得到细节增强的语谱图的计算如下：

[0106] Z＝P1+η(P1‑P2)。

[0107] S4、引入卷积神经网络并迁移其预训练的卷积层权重参数，接着将细节增强的语谱图输入卷积神经网络中进行分类，得到分类模型；

[0108] 通过参数迁移的方法获取ResNet网络结构。深度神经网络的识别性能对数据量要求较高，参数迁移能够利用网络模型在大规模数据集上预先训练好的具有强大学习能力的参数来初始化训练小型数据集的网络模型的参数，从而加快网络训练速度，并减弱在小数据集上训练时过拟合现象的影响。

[0109] ResNet主要的优点如下：

[0110] 使得训练超级深的神经网络成为可能，避免了不断加深神经网络，提高准确率。输入可以直接连接到输出，使得整个网络只需要学习残差，简化学习目标和难度。ResNet是一个推广性非常好的网络结构，容易和其他网络结合。将增强后的语谱图输入ResNet网络中进行语音情感分类。用该预测结果就可以与样本的真实响应值比较，从而得到预测误差。

[0111] S5、待识别语音的语谱图经过步骤S3中对语谱图的处理，即经过去噪处理以及得到待识别语音对应的细节增强的语谱图，并将其输入分类模型，得到语音情感分类结果。

[0112] 当前公开的较为完整的语音情感数据集有CASIA汉语语音情感数据库。CASIA汉语情感语料库由中国科学院自动化所录制，共包括四个专业发音人，六种情绪：生气、高兴、害怕、悲伤、惊讶和中性，共9600句不同发音，包括300句相同文本和100句不同文本。

[0113] Noise‑92数据库是由荷兰的语音研究所测量的噪声数据库。其中包含了100种不同的噪声，样本采样率为19.98KHz，16bit量化。本论文种选取其中的4种常见的噪声，即白噪声，餐厅噪声，工厂噪声和马路上的噪声。

[0114] 将语音信号进行预处理，然后将语音信号转换为语谱图，并为得到的语谱图数据集中的图片打上相应的所属情感类别的标签。语谱图实例，如图2所示。

[0115] 在干净和噪声环境下生成的语谱图以及经过MD‑CGAN去噪之后的语谱图如图3所示。

[0116] 将语谱图经过两种不同尺度的滤波器进行双边滤波，得到两种图片，小尺度滤波和大尺度滤波，以及经过低尺度与高尺度语谱图相减再乘以增强系数作为加强细节的语谱图，如图4所示。

[0117] 卷积神经网络采用ResNet网络模型，通过迁移ResNet网络在ImageNet数据集预训练过的参数来训练语谱图。将每个音频对应的语谱图输入ResNet模型中，进行语音识别训练测试，ResNet结构图如图5所示，ResNet网络结构包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层，H为大于2的整数，其中，第二卷积层至第H卷积层均配置残差单元，第二卷积层至第H卷积层的卷积核大小均为3×3，且第二卷积层至第H卷积层的通道数依次增大，例如：64、128、256、512等。另外，第一卷积层的卷积核大小为7×7、通道数为64。

[0118] 本发明公开的结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法，涉及人机交互领域，使人类与机器交流更加便捷。其实现过程是：将噪声和干净环境下的语音信号转换为语谱图，经过MD‑CGAN对语谱图去噪，然后通过多尺度滤波获取两种模糊的语谱图，低尺度的语谱图作为滤波基图，将低尺度与高尺度语谱图相减再乘以增强系数作为加强细节的语谱图，将增强后语谱图输入到卷积神经中网络中分类，最终达到语音情感识别的目的。有效提高了语音情感识别的准确性。

[0119] 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解，本发明不受上述实施例的限制，上述实施例和说明书中描述的只是说明本发明的原理，在不脱离本发明精神和范围的前提下，本发明还会有各种变化和改进，这些变化和改进都落入要求保护的本发明范围内。

附图说明

[0060] 图1是本发明实施例的语音情感识别方法的流程图；

[0061] 图2是本发明实施例的语谱图；

[0062] 图3是本发明实施例的环境噪声为白噪声，信噪比为0dB时不同阶段的语谱图；

[0063] 图4是本发明实施例的不同尺度滤波后的语谱图和细节增强后的语谱图；

[0064] 图5是本发明实施例的ResNet结构图。

1一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法