首页 > 专利 > 安徽建筑大学 > 一种基于预测的多特征融合的老人语音情感识别方法专利详情

一种基于预测的多特征融合的老人语音情感识别方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2017-04-07

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2017-08-22

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2021-02-09

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2037-04-07

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201710223015.8	申请日	2017-04-07
公开/公告号	CN106992000B	公开/公告日	2021-02-09
授权日	2021-02-09	预估到期日	2037-04-07
申请年	2017年	公开/公告年	2021年
缴费截止日
分类号	G10L15/08 、G10L17/02 、G10L19/04 、G10L25/24 、G10L25/63	主分类号	G10L15/08
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	7
权利要求数量	8	非专利引证数量	1
引用专利数量	0	被引证专利数量	0
非专利引证	1、CN 101261832 A,2008.09.10CN 106293074 A,2017.01.04CN 106297825 A,2017.01.04CN 106205636 A,2016.12.07CN 105976809 A,2016.09.28KR 20090055426 A,2009.06.02王坤侠.语音情感识别方法研究《.中国博士学位论文全文数据库信息科技辑》.2017,I136-84.;
引用专利		被引证专利
专利权维持	5	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	安徽建筑大学	第一申请人	安徽建筑大学
专利权人	安徽建筑大学	当前专利权人	安徽建筑大学
发明人	王坤侠、刘文静、王鑫、夏巍	第一发明人	王坤侠
地址	安徽省合肥市经济技术开发区紫云路292号	邮编	230022
申请人数量	1	发明人数量	4
申请人所在省	安徽省	申请人所在市	安徽省合肥市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

合肥市浩智运专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

方荣肖

摘要

本发明公开一种基于预测的多特征融合的老人语音情感识别方法，包括以下步骤：获取空巢老人语音情感数据库；分别对数据库中的每条语音和表情提取不同的三种特征参数；采用基于预测的方法对多特征进行融合；用SVM进行特征识别；输出同一段语音下预测的最高准确率的情感类别，得到识别结果。基于预测的融合框架包括两部分：跨特征预测组件，其通过建模多特征之间的关系来组合三种特征，三种特征的连接由第一组预测器替代，分别学习语音情感类别的三种特征参数之间的映射；特征内预测组件，分别对三种特征的时间演进进行建模，特征内预测组件对应于决策级融合，每种特征由两个第二组预测器建模，分别学习每种类别的过去和当前特征之间的映射。

摘要附图
说明书附图：图1

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2021-02-09	授权
2	2017-08-22	实质审查的生效	IPC(主分类): G10L 15/08 专利申请号: 201710223015.8 申请日: 2017.04.07
3	2017-07-28	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于预测的多特征融合的老人语音情感识别方法，其特征在于：其包括以下步骤：
第一步：获取空巢老人语音情感数据库，所述数据库中包含多种情感类别和多个人物形象；
第二步：对所述数据库进行处理，分别对所述数据库中的每条语音和表情提取不同的特征参数：每条语音带有对应的情感类别，与相应语音对应的人物形象带有对应的表情：
第一种特征：小波系数；利用小波变换对每条语音进行分解，舍弃语音高频带小波系数，实现降噪目的，然后选取语音基频带的小波系数进行方差分析，进而预测带噪语音的基音周期；
第二种特征：傅立叶系数；利用傅里叶变换对每条语音整体变换，在得到加窗的每一帧信号后，需要知道此帧信号在不同频段的能量分布，从一个离散信号中提取离散频段频谱信息；
第三种特征：Mel频率倒谱系数；在Mel标度频率域提取出倒谱参数；
第三步：采用基于预测的方法对多特征进行融合；基于预测的融合框架包括两部分：
第一个是跨特征预测组件，其通过建模多特征之间的关系来组合小波系数X、傅立叶系数F、Mel频率倒谱系数M，跨特征预测组件对应于特征级融合，其中三种特征的连接由第一组预测器替代，分别学习语音情感类别的三种特征参数之间的映射；
在对特征进行预测的第一组预测器中，小波系数、傅立叶系数和Mel频率倒谱系数之间的关系分别由六个回归因子fX→F、fX→M、fF→M、fF→X、fM→X、fM→F建模；六个回归因子对应六个预测器，六个预测器分别将三种特征作为输入，并在相同帧t处预测对应的识别率；
识别率预测时，采用以下等式：
fX→F(X[t-kXF,t])＝FX→F[t]≈F[t]                   (1)
fX→M(X[t-kXM,t])＝MX→M[t]≈M[t]                (2)
fF→M(F[t-kFM,t])＝MF→M[t]≈M1[t]                (3)
fM→F(M[t-kMF,t])＝FM→F[t]≈F1[t]                 (4)
fM→X(M[t-kMX,t])＝XM→X[t]≈X[t]                (5)
fF→X(F[t-kFX,t])＝XF→X[t]≈X1[t]                 (6)
其中，在6个等式中，窗口k的大小取决于映射类型和建模类；
第二个是特征内预测组件，分别对三种特征的时间演进进行建模，特征内预测组件对应于决策级融合，其中每种特征由两个第二组预测器建模，这两个第二组预测器分别学习每个情感类别的过去和当前特征之间的映射；
在第二组预测器中，其在每个特征内进行预测，每个情感类别的过去和未来特征之间的关系由三个回归因子fX→X、fF→F和fM→M建模；三个回归因子对应三个预测器，三个预测器将过去的特征作为输入，并且在帧t处预测对应的特征；
特征预测时，采用以下等式：
fX→X(X[t-kXX,t-1])＝XX→X[t]≈X[t]                   (7)
fF→F(F[t-kFF,t-1])＝FF→F[t]≈F[t]                     (8)
fM→M(M[t-kMM,t-1])＝MM→M[t]≈M[t]                (9)
其中，在上述3个等式中，窗口k的大小取决于映射类型和建模类；
其中，跨特征预测组件和特征内预测组件以分层方式组合；在第一层中，跨特征预测组件的三个预测器被组合以便考虑特征之间的双向关系，特征内预测组件的三个预测器被组合以便合并关于特征的时间演进的信息；在第二层中，组合跨特征预测组件和特征内预测组件，以便研究特征关系和它们的时间演进；
第四步：用SVM进行特征识别；
第五步：输出同一段语音下预测的最高准确率的情感类别，得到识别结果。

2.如权利要求1所述的基于预测的多特征融合对老人语音情感的分类方法，其特征在于：所述数据库中包含7种情感类别和11个人物形象，7种情感类别为：生气，焦虑，无聊，厌恶，高兴，中性，伤心；11个人物形象，每一个人物表达出自己的情感类别，每一种情感类别里有不同的样本数。

3.如权利要求1所述的基于预测的多特征融合对老人语音情感的分类方法，其特征在于：每个预测器的总误差通过对所有帧N上的误差求和来计算，导致每个情感类别的每个序列有9个预测误差，情感类别的9个预测器误差使用以下等式计算；
其中，Err是均方误差或平均绝对误差或误差的L2范数。

4.如权利要求3所述的基于预测的多特征融合对老人语音情感的分类方法，其特征在于：利用等式(10)-(15)组合六个交叉特征预测模型，以考虑等式(19)中所示的受到等式(20)约束的特征双向关系；
eCP＝ωXF*eX→F+ωXM*eX→M+ωFM*eF→M+ωMF*eM→F+ωMX*eM→X+ωFX*eF→X        (19)ωXF+ωXM+ωFM+ωMF+ωMX+ωFX＝1         (20)
其中，eCP是总的跨特征预测误差，ωXF、ωXM、ωFM、ωMF、ωMX和ωFX是跨特征预测分量的权重。

5.如权利要求4所述的基于预测的多特征融合对老人语音情感的分类方法，其特征在于：利用等式(16)-(18)组合以便考虑特征之间的过去到未来关系，等式(21)受到等式(22)的约束；
eIP＝ωXX*eX→X+ωMM*eM→M+ωFF*eF→F                  (21)
ωXX+ωMM+ωFF＝1                        (22)
其中，eIP是总体特征内预测误差，ωXX、ωMM和ωFF是特征内预测分量的权重。

6.如权利要求5所述的基于预测的多特征融合对老人语音情感的分类方法，其特征在于：为了合并来自两个基于预测模型的信息，将两个分量的预测误差组合，等式(23)受到等式(24)的约束；
ec＝ωCP*eCP+ωIP*eIP                        (23)
ωCP+ωIP＝1                        (24)
c
其中，e是总预测误差，ωCP和ωIP分别是交叉特征预测和特征内预测融合分量的权重。

7.如权利要求5所述的基于预测的多特征融合对老人语音情感的分类方法，其特征在于：对等式(19)、(21)、(23)使用softmax函数进行归一化，使得它们的和等于1。

8.如权利要求6所述的基于预测的多特征融合对老人语音情感的分类方法，其特征在于：利用等式(23)基于误差向输入序列分配标签，通过选择对应于最低误差的标签来完成，采用等式(25)解释特征关系的情感类别特定模型相应地标记新序列：PredictedClass＝arg min ec                       (25)，
其中，c＝1,2,....C，C指的是情感类别。

说明书

技术领域

[0001] 本发明属于信号处理与模式识别领域，更具体地，涉及一种基于预测的多特征融合的老人语音情感识别方法。

背景技术

[0002] 近几十年来，人机交互技术发展势头迅猛，但随着各种智能机器不断涌现，人们开始注意到这个问题：是否让计算机感知情感。众所周知，人随时随地都会有喜、怒、哀、乐等情感的起伏变化，人在决策或处事时，掺杂太多的情感因素将会导致负面结果，而如果丧失了情感能力，理性的决策同样难以达到。但没有情感、无法感知情感的机器是否能见机行事呢？

[0003] “情感计算”一词最早是由美国麻省理工学院的Picard教授在1997年出版的《Affective Computing》一书中提出来的，她把“情感计算”定义为：“与情感有关、由情感引发或者能够影响情感的因素的计算。”情感计算的研究目的是通过赋予该计算系统识别、理解、表达和适应人的情感的能力，以实现和谐、高效的人机交互，使计算机具有更高、更全面的智能。

[0004] 目前，在情感识别领域中，就划分为多特征和多模态两大类情感识别研究方面。而单特征和单模态情感识别已经做得非常成熟，在多特征情感识别中，最核心的部分就是多个特征的特征融合，融合的好坏直接影响到最后识别的效果。现在已经有许多融合方法出现：主成分分析(PCA)、核典型相关分析(KCCA)、典型相关分析(CCA)、核矩阵融合(KMF)等。然而，主成分的解释及含义具有模糊性。标准的KCCA方法的计算复杂度会随着训练样本数目的增加而显著增加。另外，在存在高度相关的数据场中，由于矩阵的退化，使得CCA计算过程中所必须的逆矩阵的估计变得异常困难。KMF中若样本的数量大，则创建的矩阵大，难度增大，影响计算速度。所以上述融合方法都不适合对多特征语音库，尤其是高维数特征语音库进行更好的情感识别。

[0005] 现有技术中，人和计算机进行情感交流时，不能保证每一种情感识别率的准确性都有较高的百分比，各种算法在对不同情感特征向量的表达、区分能力上存在明显的差异；语音识别系统对环境条件的依赖性强、自适应性差；在噪声环境下使用容易导致发音失真；
一半以上的识别错误来自端点检测器；语音识别基元的选取不合适。

发明内容

[0006] 为提高语音情感的识别率，以便能够实现更好的人机互动，一种基于预测的多特征融合的老人语音情感识别方法。

[0007] 本发明的解决方案是：一种基于预测的多特征融合的老人语音情感识别方法，其包括以下步骤：

[0008] 第一步：获取空巢老人语音情感数据库，所述数据库中包含多种情感类别和多个人物形象；

[0009] 第二步：对所述数据库进行处理，分别对所述数据库中的每条语音和表情提取不同的特征参数：每条语音带有对应的情感类别，与相应语音对应的人物形象带有对应的表情：

[0010] 第一种特征：小波系数；利用小波变换对每条语音进行分解，舍弃语音高频带小波系数，实现降噪目的，然后选取语音基频带的小波系数进行方差分析，进而预测带噪语音的基音周期；

[0011] 第二种特征：傅立叶系数；利用傅里叶变换对每条语音整体变换，在得到加窗的每一帧信号后，需要知道此帧信号在不同频段的能量分布，从一个离散信号中提取离散频段频谱信息；

[0012] 第三种特征：Mel频率倒谱系数；在Mel标度频率域提取出倒谱参数；

[0013] 第三步：采用基于预测的方法对多特征进行融合；基于预测的融合框架包括两部分：

[0014] 第一个是跨特征预测组件，其通过建模多特征之间的关系来组合小波系数、傅立叶系数、Mel频率倒谱系数，跨特征预测组件对应于特征级融合，其中三种特征的连接由第一组预测器替代，分别学习语音情感类别的三种特征参数之间的映射；

[0015] 第二个是特征内预测组件，分别对三种特征的时间演进进行建模，特征内预测组件对应于决策级融合，其中每种特征由两个第二组预测器建模，这两个第二组预测器分别学习每种情感类别的过去和当前特征之间的映射；

[0016] 其中，跨特征预测组件和特征内预测组件以分层方式组合；在第一层中，跨特征预测组件的三个预测器被组合以便考虑特征之间的双向关系，特征内预测组件的三个预测器被组合以便合并关于特征的时间演进的信息；在第二层中，组合跨特征预测组件和特征内预测组件，以便研究特征关系和它们的时间演进；

[0017] 第四步：用SVM进行特征识别；

[0018] 第五步：输出同一段语音下预测的最高准确率的情感类别，得到识别结果。

[0019] 作为上述方案的进一步改进，所述数据库中包含7种情感类别和11个人物形象，7种情感类别为：生气，焦虑，无聊，厌恶，高兴，中性，伤心；11个人物形象，每一个人物表达出自己的情感类别，每一种情感类别里有不同的样本数。

[0020] 作为上述方案的进一步改进，在对特征进行预测的第一组预测器中，小波系数、傅立叶系数和Mel频率倒谱系数之间的关系分别由六个回归因子fX→F、fX→M、fF→M、fF→X、fM→X、fM→F建模；六个回归因子对应六个预测器，六个预测器分别将三种特征作为输入，并在相同帧t处预测对应的识别率；

[0021] 识别率预测时，采用以下等式：

[0022] fX→F(X[t-kXF,t])＝FX→F[t]≈F[t] (1)

[0023] fX→M(X[t-kXM,t])＝MX→M[t]≈M[t] (2)

[0024] fF→M(F[t-kFM,t])＝MF→M[t]≈M1[t] (3)

[0025] fM→F(M[t-kMF,t])＝FM→F[t]≈F1[t] (4)

[0026] fM→X(M[t-kMX,t])＝XM→X[t]≈X[t] (5)

[0027] fF→X(F[t-kFX,t])＝XF→X[t]≈X1[t] (6)

[0028] 其中，在6个等式中，窗口k的大小取决于映射类型和建模类。

[0029] 作为上述方案的进一步改进，在第二组预测器中，其在每个特征内进行预测，每个情感类别的过去和未来特征之间的关系由三个回归因子fX→X、fF→F和fM→M建模；三个回归因子对应三个预测器，三个预测器将过去的特征作为输入，并且在帧t处预测对应的特征；

[0030] 特征预测时，采用以下等式：

[0031] fX→X(X[t-kXX,t-1])＝XX→X[t]≈X[t] (7)

[0032] fF→F(F[t-kFF,t-1])＝FF→F[t]≈F[t] (8)

[0033] fM→M(M[t-kMM,t-1])＝MM→M[t]≈M[t] (9)

[0034] 其中，在上述3个等式中，窗口k的大小取决于映射类型和建模类。

[0035] 作为上述方案的进一步改进，每个预测器的总误差通过对所有帧N上的误差求和来计算，导致每个情感类别的每个序列有9个预测误差，情感类别的9个预测器误差使用以下等式计算；

[0036]

[0037]

[0038]

[0039]

[0040]

[0041]

[0042]

[0043]

[0044]

[0045] 其中，Err是均方误差或平均绝对误差或误差的L2范数。

[0046] 进一步地，利用等式(10)-(15)组合六个交叉特征预测模型，以考虑等式(19)中所示的受到等式(20)约束的特征双向关系；

[0047] eCP＝ωXF*eX→F+ωXM*eX→M+ωFM*eF→M+ωMF*eM→F+ωMX*eM→X+ωFX*eF→X (19)[0048] ωXF+ωXM+ωFM+ωMF+ωMX+ωFX＝1 (20)

[0049] 其中，eCP是总的跨特征预测误差，ωXF、ωXM、ωFM、ωMF、ωMX和ωFX是跨特征预测分量的权重。

[0050] 再进一步地，利用等式(16)-(18)组合以便考虑特征之间的过去到未来关系，等式(21)受到等式(22)的约束；

[0051] eIP＝ωXX*eX→X+ωMM*eM→M+ωFF*eF→F (21)

[0052] ωXX+ωMM+ωFF＝1 (22)

[0053] 其中，eIP是总体特征内预测误差，ωXX、ωMM和ωFF是特征内预测分量的权重。

[0054] 优选地，为了合并来自两个基于预测模型的信息，将两个分量的预测误差组合，等式(23)受到等式(24)的约束；

[0055] ec＝ωCP*eCP+ωIP*eIP (23)

[0056] ωCP+ωIP＝1 (24)

[0057] 其中，ec是总预测误差，ωCP和ωIP分别是交叉特征预测和特征内预测融合分量的权重。

[0058] 再优选地，对等式(19)、(21)、(23)使用softmax函数进行归一化，使得它们的和等于1。

[0059] 再优选地，利用等式(23)基于误差向输入序列分配标签，通过选择对应于最低误差的标签来完成，采用等式(25)解释特征关系的情感类别特定模型相应地标记新序列：PredictedClass＝arg min ec (25)，其中，c＝1,2,....C，C指的是情感类别。

[0060] 相比与现有技术，本发明很好的改善了以下技术问题：每一种特征下的情感测试，每一种情感的识别率都层次不齐，不能确保每一种情感识别都有较高的准确率。采用本发明，输入一段语音后，通过计算不同特征下的识别率，比较每一种特征下的识别结果，输出识别率最高的情感类型，保证使数据库能够进行最好的情感分类。

实施方案

[0062] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0063] 在多特征情感识别方面，对于同一组情感语音库，不同的特征有不同的识别方法，但是不同的特征之间也存在一定的联系。本发明就是利用预测的融合方法将不同的特征联系在一起。本发明通过不同特征的融合以及基于预测的融合方法，即使用基于预测的方法融合不同特征下的老人语音情感分类，得到更好的分类正确率。

[0064] 预测在近来的大脑计算模型中起着关键作用，并且已经提出大脑不断地进行多感觉时空预测。受这些发现的启发，本发明从基于预测的新视角解决了多特征融合的问题。本发明训练预测模型，通过学习每个类(即情感类别)对语音情感的识别来比较不同特征方法对同一语音的识别率高低。类似地，本发明训练预测模型，通过学习同一个类中对不同语音情感的识别来总结出更好的识别方法。在分类中，所有类特定的回归模型产生预期的特征预测，并且它们的预测误差被组合用于每个类。选择最好地识别视听特征(即导致最低预测误差)的类特定回归的集合来标记输入帧。在几乎所有情况下，基于预测的融合始终胜过两种最常用的融合方法，决策级和特征级融合。现有技术中，目前还没有发现将上述方法运用于多特征情感融合的实践尝试。

[0065] 请参阅图1，本发明的基于预测的多特征融合的老人语音情感识别方法主要包括五个大步骤：

[0066] 第一步：获取空巢老人语音情感数据库；

[0067] 第二步：对所述数据库进行处理，分别对所述数据库中的每条语音和表情提取不同的特征参数；

[0068] 第三步：采用基于预测的方法对多特征进行融合；

[0069] 第四步：用SVM进行特征识别；

[0070] 第五步：输出同一段语音下预测的最高准确率的情感类型(情感类别)，得到识别结果。

[0071] 下面做进一步的详细说明，本发明的基于预测的多特征融合的老人语音情感识别方法的实现，主要包含以下步骤。

[0072] 第一步：获取空巢老人语音情感数据库，所述数据库中包含多种情绪(即情感类别)和多个人物形象。

[0073] 在本实施例中，数据库中包含7种情绪和11个人物形象。7种情绪：angry(生气)，anxiety(焦虑)，boredom(无聊)，disgust(厌恶)，happy(高兴)，neutral(中性)，sad(伤心)。11个人物形象，每一个人物表达出自己的情感类别，每一种情感类别里有不同的样本数。

[0074] 第二步：对所述数据库进行处理，分别对所述数据库中的每条语音和表情提取不同的特征参数。

[0075] 特征提取是从语音信号中提取出对语音识别有用的信息，它对语音信号进行分析处理，去掉与语音识别无关的冗余信息，获得影响语音识别的重要信息。每条语音带有对应的情感类别，与相应语音对应的人物形象带有对应的表情。

[0076] 第一种特征：小波系数。利用小波变换对语音进行分解，舍弃语音高频带小波系数，实现降噪目的，然后选取语音基频带的小波系数进行方差分析，进而预测带噪语音的基音周期。

[0077] 第二种特征：傅立叶系数。傅里叶变换是一种信号的整体变换，在得到加窗的每一帧信号后，需要知道此帧信号在不同频段的能量分布。从一个离散信号(采样信号)中提取离散频段频谱信息的工具就是离散傅里叶变换(DFT)。

[0078] 第三种特征：Mel频率倒谱系数。梅尔倒谱系数(Mel-scale Frequency Cepstral Coefficients，简称MFCC)是在Mel标度频率域提取出来的倒谱参数。提取过程如下：(1)对输入的语音信号进行分帧、加窗，然后作离散傅立叶变换，获得频谱分布信息；(2)再求频谱幅度的平方，得到能量谱；(3)将能量谱通过一组Mel尺度的三角形滤波器组；(4)计算每个滤波器组输出的对数能量；(5)经离散余弦变换得到MFCC系数。

[0079] 第三步：采用基于预测的方法对多特征进行融合。基于预测的融合框架主要由两个组件组成。

[0080] 第一个是跨特征预测组件，其通过建模它们之间的关系来组合小波、傅立叶、Mfcc特征，此组件对应于特征级融合，其中三个特征的连接由预测器替代，分别学习语音情感类别的三个特征参数之间的映射。

[0081] 在对特征进行预测的第一组预测器中，小波X、傅立叶F和MfccM特征之间的关系分别由六个回归因子fX→F、fX→M、fF→M、fF→X、fM→X、fM→F建模。六个预测器分别将三组特征作为输入，并在相同帧t处预测对应的识别率，如以下等式所示：

[0082] fX→F(X[t-kXF,t])＝FX→F[t]≈F[t] (1)

[0083] fX→M(X[t-kXM,t])＝MX→M[t]≈M[t] (2)

[0084] fF→M(F[t-kFM,t])＝MF→M[t]≈M1[t] (3)

[0085] fM→F(M[t-kMF,t])＝FM→F[t]≈F1[t] (4)

[0086] fM→X(M[t-kMX,t])＝XM→X[t]≈X[t] (5)

[0087] fF→X(F[t-kFX,t])＝XF→X[t]≈X1[t] (6)

[0088] 在6个等式中，窗口k的大小取决于映射类型和建模类。

[0089] 第二个是特征内预测组件，分别对三个特征的时间演进进行建模，该组件对应于决策级融合，其中每个特征由两个预测器建模，这两个预测器分别学习每个类的过去和当前特征之间的映射。

[0090] 在第二组预测器中，其在每个特征内进行预测，每个类的过去和未来特征之间的关系由三个回归因子fX→X、fF→F和fM→M建模。三个预测器将过去的特征作为输入，并且在帧t处预测对应的特征，如下：

[0091] fX→X(X[t-kXX,t-1])＝XX→X[t]≈X[t] (7)

[0092] fF→F(F[t-kFF,t-1])＝FF→F[t]≈F[t] (8)

[0093] fM→M(M[t-kMM,t-1])＝MM→M[t]≈M[t] (9)

[0094] 在上述3个等式中，窗口k的大小取决于映射类型和建模类。

[0095] 最后，这两个组件以分层方式组合。在第一层中，跨特征预测分量的三个预测器被组合以便考虑特征之间的双向关系。类似地，特征内预测分量的三个预测器被组合以便合并关于特征的时间演进的信息。在第二层中，组合特征内和跨特征预测分量，以便研究特征关系和它们的时间演进。这对应于特征级和决策级融合的组合。

[0096] 重要的是要指出，所有预测变量都是类特定的，因为他们分别学习每个类的特征关系。关键思想是对应于新输入序列的真实类的类特异性预测因子将产生比对应于其他类的模型更好的特征估计，因为它们已经在目标类的特征上训练。

[0097] 一旦训练完成并且预测器f被学习，它们可以用于分类。当新的序列可用时，计算三个特征，其被馈送到由等式定义的所有预测器(1)-(9)，导致每个类的每帧有九个预测误差。我们考虑的预测误差测量是均方误差，平均绝对误差(MAE)和误差的L2范数(L2-E)。每个预测器的总误差通过对所有帧N上的误差求和来计算，导致每个类的每个序列有9个预测误差。类的9个预测器误差使用以下等式计算。

[0098]

[0099]

[0100]

[0101]

[0102]

[0103]

[0104]

[0105]

[0106]

[0107] 其中Err是均方误差或平均绝对误差或误差的L2范数。

[0108] 然后，组合六个交叉特征预测模型(等式(10)-(15))，以考虑如等式(19)中所示的受到等式(20)约束的特征双向关系。

[0109] eCP＝ωXF*eX→F+ωXM*eX→M+ωFM*eF→M+ωMF*eM→F+ωMX*eM→X+ωFX*eF→X (19)[0110] ωXF+ωXM+ωFM+ωMF+ωMX+ωFX＝1 (20)

[0111] 其中eCP是总的跨特征预测误差，ωXF、ωXM、ωFM、ωMF、ωMX和ωFX是跨特征预测分量的权重。

[0112] 类似地，将三个时间演化模型(等式(16)、(17)、(18))组合以便考虑特征之间的过去到未来关系，等式(21)受到等式(22)的约束。

[0113] eIP＝ωXX*eX→X+ωMM*eM→M+ωFF*eF→F (21)

[0114] ωXX+ωMM+ωFF＝1 (22)

[0115] 其中eIP是总体特征内预测误差，ωXX、ωMM和ωFF是特征内预测分量的权重。

[0116] 最后，为了合并来自两个基于预测模型的信息，将两个分量的预测误差组合，如等式23所示，受到等式24的约束。

[0117] ec＝ωCP*eCP+ωIP*eIP (23)

[0118] ωCP+ωIP＝1 (24)

[0119] 其中ec是总预测误差，ωCP和ωIP分别是交叉特征预测和特征内预测融合分量的权重。本发明选择了以分层方式组合子系统，因为它允许更轻松地优化权重。

[0120] 等式(19)、(21)、(23)中，预测误差在没有被正规化的情况下被组合。预示着预测器建模不同的关系，误差也将是不同程度的。因此，权重意味着每个预测器的相对重要性并且也充当比例因子。

[0121] 另一种方法是通过softmax标准化来转换相同尺度的预测误差。等式(19)、(21)、(23)使用softmax函数进行归一化，使得它们的和等于1。在这种情况下，权重简单地指示每个预测器的相对重要性。在本研究中，都考虑softmax标准化和无标准化。

[0122] 在最后一步中，基于误差向输入序列分配标签(如等式(23))，这是通过选择对应于最低误差的标签来完成的。换句话说，最佳地解释特征关系(即导致最低预测误差)的类特定模型相应地标记新序列，如等式(25)所示。PredictedClass＝arg min ec (25)，其中，c＝1....C，C指的是情感类别。

[0123] 在我们希望仅使用交叉特征预测融合或特征内预测融合来执行分类的情况下，可以通过用等式(19)、(21)中的交叉特征预测误差eCP或特征内预测误差eIP替换等式(25)中的总预测误差ec来实现。

[0124] 第四步：用SVM进行特征识别。

[0125] 分别使用老人库中的1个人物样本用于测试，其余10个人物样本用于训练，得到识别的准确率。实验中，所有算法都是在Matlab平台运行。

[0126] 第五步，输出同一段语音下预测的最高准确率的情感类型(即情感类别)，得到识别结果。

[0127] 现有技术中，每一种特征下的情感类别测试，每一种情感类别的识别率都层次不齐，不能确保每一种情感类别识别都有较高的准确率。本申请则很好的改善了这个问题，输入一段语音后，计算不同特征下的识别率，比较每一种特征下的识别结果，输出识别率最高的情感类别，保证使数据库能够进行最好的情感分类。

[0128] 以上所述仅为本发明的较佳实施例而已，并不用以限制本发明，凡在本发明的精神和原则之内所作的任何修改、等同替换和改进等，均应包含在本发明的保护范围之内。

附图说明

[0061] 图1为本发明的基于预测的多特征融合的老人语音情感识别方法的流程示意图。

1语音情感识别方法、装置、设备及存储介质 2基于特征集融合的语音情感识别及评价方法 3一种基于增强注意力机制的多模态情感识别方法 4基于注意力机制的特征融合用于语音情感识别的方法 5一种基于预测的多特征融合的老人语音情感识别方法 6结合互信息通道选择与混合神经网络的脑电情感识别方法 7一种基于语谱图提取深度空间注意特征的语音情感识别方法 8一种结合CGAN谱图去噪和双边滤波谱图增强的语音情感识别方法