[0065] 以下通过具体实施例对本发明的技术方案作进一步解释说明。
[0066] 如图1所示,本发明实施例的结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,包括以下步骤:
[0067] S1、采集语音情感数据集,并对语音情感数据集进行预处理,获取干净语音的语谱图数据集;还对语音进行加噪,得到干净语音加噪后的加噪语谱图数据集,即噪声环境下的语谱图数据集;
[0068] 具体地,对语音情感数据集中的每个语音信号进行分帧、加窗的预处理,然后进行短时离散傅里叶变化,得到频谱X(k):
[0069]
[0070] 其中,N为窗长,x(n)为语音信号,w(n)为汉明窗函数,k为语音的频率,i是虚函数单位,n为时序采样点;
[0071] 再以对数振幅描述来生成语谱图:
[0072] S(k,t)=20×log10|Xt(k)|
[0073] 其中,X(k)为t时刻的频谱;
[0074] 对语谱图按照情感类别设置相应的情感标签Y。
[0075] S2、将干净语音的语谱图数据集中的干净语谱图和加噪语谱图数据集中的加噪语谱图输入基于矩阵距离的条件生成对抗网络MD‑CGAN进行去噪模型的训练,得到去噪模型;
[0076] 具体地,条件生成对抗网络(Conditional Generative Adversarial Networks,CGAN),它在生成器G和判决器D的模型中都引入了约束条件y,y可以是类别标签,也可以是不同模态的数据,通过约束条件能够指导生成器生成正确的数据。因此,CGAN可以看作是将无监督的模型转换为有监督的模型。
[0077] 对于加噪语谱图的条件生成对抗网络CGAN的训练目标如下:
[0078]
[0079] 其中,D代表判决器,G表示生成器,V(D,G)表示去噪语谱图和干净的语谱图的差异程度;E为数学期望,x表示干净语谱图,pdata(x)表示干净语谱图的概率分布;z表示加噪语谱图,pz(z)为加噪语谱图的概率分布;y表示语音的情感标签,D(x|y)表示输入x和y时,判决器判定其为干净的语谱图的概率;
[0080] 去噪模型的训练过程,包括以下步骤:
[0081] (1)给定生成器模型,优化判决器,判决器为一个二分类模型,用于判定输入的语谱图是干净语谱图还是加噪语谱图;当输入干净的语谱图时,D(x|y)输出的概率值较大;当输入去噪之后的语谱图G(z|y)时,D(G(z|y))输出的概率值较小,则1‑D(G(z|y))的值较大,则V(D,G)取得最大值。
[0082] (2)在判决器取得优的情况下,训练生成器;生成器的训练目标是将输出的去噪语谱图能混淆判定器,使得判定器将去噪语谱图判定为1,即干净语谱图;此时D(x|y)输出的概率值较小;当输入去噪之后的语谱图G(z|y)时,D(G(z|y))输出的概率值较大,则1‑D(G(z|y))的值较小,则V(D,G)取得最小值。
[0083] 由于噪声环境下提取的语谱图与对应干净语谱图的矩阵距离差异过大,通过原始生成器的损失函数很难完全学习到两幅图像间的映射关系。针对语谱图差异性过大的问题,本发明实施例基于矩阵距离的条件生成对抗网络MD‑CGAN,通过在生成器的损失函数中加入语谱图的矩阵距离参数来对语谱图的生成过程进行约束;
[0084] 所述语谱图的矩阵距离参数通过计算两个语谱图整体的欧氏距离得到,将语谱图损失和对抗损失结合起来共同作为损失方程,得到改进后的损失方程如下:
[0085]
[0086]
[0087] 其中,Ig表示生成器的输出,即去噪语谱图;Ix表示干净语谱图,pG(x)表示通过生成器去噪之后的语谱图的概率分布,w、h、c分别指语谱图的宽、高和通道数;该损失方程利用欧式距离防止过分拟合造成语谱图去噪之后质量下降问题,使得去噪之后的语谱图质量得到提升。
[0088] (3)返回步骤(1)直到训练达到最优值,得到去噪模型。
[0089] S3、利用去噪模型对加噪语谱图进行去噪处理,得到去噪语谱图;对去噪语谱图分别进行两个不同尺度的双边滤波,得到低尺度滤波图和高尺度滤波图,低尺度滤波图和高尺度滤波图相差再乘以增强系数得到去噪细节图的估计,然后与低尺度滤波图相加,得到细节增强的语谱图。
[0090] 经过MD‑CGAN模型去噪后,虽然对噪声覆盖区域的情感特征进行了较好地还原,但经过去噪模型映射得到的图像较干净的谱图,纹理细节清晰度存在差异性。故本发明实施例提出了基于双边滤波的纹理细节增强模型,以增强谱图的情感特征细节信息。
[0091] 具体地,双边滤波是一种非线性的滤波方法,是结合图像的空间邻近度和像素值相似度的一种折中处理,同时考虑空域信息和灰度相似性,达到保边去噪的目的。
[0092] 根据下面算法实现双边滤波:
[0093] 基于空间距离的权重因子生成,通过当前点与中心点的空间距离并使用如下公式计算滤波输出
[0094]
[0095] ||Sp‑Sq||2=(xp‑xq)2+(yp‑yq)2
[0096] 其中,(xp,yp)为当前位置,(xq,yq)为中心点的位置,σs为空间域标准差,σs越小,对图片的模糊度越小;
[0097] 基于灰度距离的权重因子的生成,通过两个当前灰度与中心点灰度的灰度距基于值域的权重因子的生成,通过两个当前灰度与中心点灰度的灰度距离计算
[0098]
[0099] ||Vp‑Vq||2=(gray(xp,yp)‑gray(xq,yq))2
[0100] 其中,V代表值域信息,gray(xp,yp)为当前灰度值,gray(xq,yq)为中心点灰度值,σr为值域标准差,σr越小,权重越小;离中心点位置越近,权重越大;
[0101] 双边滤波图像输出计算:
[0102]
[0103]
[0104] 其中,S表示空间域, 表示归一化因子, 表示像素q在邻域M内的所有像素的加权平均;σs和σr的取值范围为[0,1];
[0105] 经过去噪模型后的语谱图信息特征存在一定的模糊,所以需要进行细节增强。通过不同尺度空间域标准差σs、值域标准差σr获取低尺度滤波图和高尺度滤波图,将σs、σr都小的滤波图设为P1,保留了更多的细节信息,将其作为基底图像;将σs、σr都大的滤波图设为P2,P2的模糊程度大,纹理细节消失的较多,图片较为光滑。P1与P2相减作为语谱图的纹理细节图,这幅图像包含了语谱图更多的纹理细节,再乘以增强系数η,更加凸显纹理细节,然后与P1相加,得到细节增强的语谱图的计算如下:
[0106] Z=P1+η(P1‑P2)。
[0107] S4、引入卷积神经网络并迁移其预训练的卷积层权重参数,接着将细节增强的语谱图输入卷积神经网络中进行分类,得到分类模型;
[0108] 通过参数迁移的方法获取ResNet网络结构。深度神经网络的识别性能对数据量要求较高,参数迁移能够利用网络模型在大规模数据集上预先训练好的具有强大学习能力的参数来初始化训练小型数据集的网络模型的参数,从而加快网络训练速度,并减弱在小数据集上训练时过拟合现象的影响。
[0109] ResNet主要的优点如下:
[0110] 使得训练超级深的神经网络成为可能,避免了不断加深神经网络,提高准确率。输入可以直接连接到输出,使得整个网络只需要学习残差,简化学习目标和难度。ResNet是一个推广性非常好的网络结构,容易和其他网络结合。将增强后的语谱图输入ResNet网络中进行语音情感分类。用该预测结果就可以与样本的真实响应值比较,从而得到预测误差。
[0111] S5、待识别语音的语谱图经过步骤S3中对语谱图的处理,即经过去噪处理以及得到待识别语音对应的细节增强的语谱图,并将其输入分类模型,得到语音情感分类结果。
[0112] 当前公开的较为完整的语音情感数据集有CASIA汉语语音情感数据库。CASIA汉语情感语料库由中国科学院自动化所录制,共包括四个专业发音人,六种情绪:生气、高兴、害怕、悲伤、惊讶和中性,共9600句不同发音,包括300句相同文本和100句不同文本。
[0113] Noise‑92数据库是由荷兰的语音研究所测量的噪声数据库。其中包含了100种不同的噪声,样本采样率为19.98KHz,16bit量化。本论文种选取其中的4种常见的噪声,即白噪声,餐厅噪声,工厂噪声和马路上的噪声。
[0114] 将语音信号进行预处理,然后将语音信号转换为语谱图,并为得到的语谱图数据集中的图片打上相应的所属情感类别的标签。语谱图实例,如图2所示。
[0115] 在干净和噪声环境下生成的语谱图以及经过MD‑CGAN去噪之后的语谱图如图3所示。
[0116] 将语谱图经过两种不同尺度的滤波器进行双边滤波,得到两种图片,小尺度滤波和大尺度滤波,以及经过低尺度与高尺度语谱图相减再乘以增强系数作为加强细节的语谱图,如图4所示。
[0117] 卷积神经网络采用ResNet网络模型,通过迁移ResNet网络在ImageNet数据集预训练过的参数来训练语谱图。将每个音频对应的语谱图输入ResNet模型中,进行语音识别训练测试,ResNet结构图如图5所示,ResNet网络结构包括依次连接的第一卷积层、池化层、第二卷积层、…、第H卷积层和自适应平均池化层,H为大于2的整数,其中,第二卷积层至第H卷积层均配置残差单元,第二卷积层至第H卷积层的卷积核大小均为3×3,且第二卷积层至第H卷积层的通道数依次增大,例如:64、128、256、512等。另外,第一卷积层的卷积核大小为7×7、通道数为64。
[0118] 本发明公开的结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法,涉及人机交互领域,使人类与机器交流更加便捷。其实现过程是:将噪声和干净环境下的语音信号转换为语谱图,经过MD‑CGAN对语谱图去噪,然后通过多尺度滤波获取两种模糊的语谱图,低尺度的语谱图作为滤波基图,将低尺度与高尺度语谱图相减再乘以增强系数作为加强细节的语谱图,将增强后语谱图输入到卷积神经中网络中分类,最终达到语音情感识别的目的。有效提高了语音情感识别的准确性。
[0119] 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。