首页 > 专利 > 杭州电子科技大学 > 基于特征集融合的语音情感识别及评价方法专利详情

基于特征集融合的语音情感识别及评价方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2020-06-19

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2020-11-10

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2022-10-11

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2040-06-19

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN202010563652.1	申请日	2020-06-19
公开/公告号	CN111816212B	公开/公告日	2022-10-11
授权日	2022-10-11	预估到期日	2040-06-19
申请年	2020年	公开/公告年	2022年
缴费截止日
分类号	G10L25/63 、G10L15/06	主分类号	G10L25/63
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	1
权利要求数量	2	非专利引证数量	1
引用专利数量	1	被引证专利数量	0
非专利引证	1、2016.01.28胡婷婷等.语音与文本情感识别中愤怒与开心误判分析《.计算机技术与发展》.2018,(第11期),;
引用专利	US2016027452A	被引证专利
专利权维持	2	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	周后盘、夏鹏飞、周伟东	第一发明人	周后盘
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	3
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

杨舟涛

摘要

本发明公开了一种基于特征集融合的语音情感识别及评价方法，本发明利用Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种语音情感特征集，建立Stacking集成学习模型，通过Stacking的初级学习器融合四种语音特征集，并通过Stacking的次级学习器建立最终的语音情感识别模型。实验结果表明在EMODB和RAVDESS这两种常见的语音数据库上，Stacking集成学习模型不仅关注单个语音情感特征集，同时可以融合不同语音情感特征集，进而达到更好的情感识别效果。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4
说明书附图：图5
说明书附图：图6
说明书附图：图7
说明书附图：图8
说明书附图：图9
说明书附图：图10

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2022-10-11	授权
2	2020-11-10	实质审查的生效	IPC(主分类): G10L 25/63 专利申请号: 202010563652.1 申请日: 2020.06.19
3	2020-10-23	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于特征集融合的语音情感识别及评价方法，其特征在于，具体包括以下步骤：
步骤一：从语音数据库中读取.wav语音文件，对语音文件预处理后提取N种语音特征集；
步骤二：建立Stacking学习模型；
通过初级学习器融合N种语音特征集，并建立Stacking学习模型的次级学习器，通过次级学习器对融合后的语音特征集做最终的语音情感识别预测；
将得到的语音特征集切分为训练数据和测试数据，分别为Training Data、Test Data；
采用K折交叉验证来切分训练数据得到Train1，Train
2...Traink；此时初级学习器要做K次训练和预测；
使用训练数据中的Train2，Train
3...Traink做为训练集Set1，Train1做为验证集，基于训练集Set1训练初级学习器，预测得到验证集Train1的预测结果Val1，同时预测得到测试集Test的预测结果Test1；
使用训练数据中的Train1，Train
3...Traink做为训练集Set2，Train2做为验证集，基于训练集Set2训练初级学习器，预测得到验证集Train2的预测结果Val2，同时预测得到测试集Test的预测结果Test2；
同理分别预测得到验证集Train3，Train
4...Traink的预测结果Val3，Val
4...Valk，同时分别预测得到测试集Test的预测结果Test3，Test
4...Testk；
将得到的Val1，Val
2...Valk进行矩阵拼接，得到1列的Val数据；将此Val数据作为次级学习器的训练数据；
对Test1，Test
2...Testk求取平均值得到Testavg，将Testavg作为次级学习器的测试数据；
N种语音情感特征的训练数据经过Stacking的初级学习器预测后得到N列数据，并将此数据作为次级学习器的训练数据；
N种语音情感特征集的测试数据经过Stacking的初级学习器预测后得到N列数据，并将此数据作为次级学习器的测试数据；
将次级学习器的训练数据作为次级学习器的训练数据，经训练后通过次级学习器的测试数据来验证次级学习器的预测结果；
步骤三：建立评价标准，通过Stacking学习模型得到的预测结果与真实结果进行计算，得到评价该模型的评价标准；
平均绝对误差
其中m，yi，分别为测试集样本个数、测试集真实值及测试集预测值；该指标计算用于评估预测结果和真实数据集的接近程度的程度，其值越小说明拟合效果越好；
均方差
其中m，yi，分别为测试集样本个数、测试集真实值及测试集预测值；该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值，其值越小说明拟合效果越好；
判定系数
其中m，yi，分别为测试集样本个数、测试集真实值、测试集预测值及测试集真实值的平均值；其含义是也是解释回归模型的方差得分，其值取值范围是[0，1]，越接近于1说明自变量越能解释因变量的方差变化，值越小则说明效果越差；
皮尔逊相关系数
其含义是计算测试集真实值与测试集预测值的相关度，相关系数在[‑1，1]之间，Pcc值越大，表示相关系数越显著。

2.根据权利要求1所述的基于特征集融合的语音情感识别方法，其特征在于：步骤一中提取的语音特征集，具体为：Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种语音特征集。

说明书

技术领域

[0001] 本发明涉及一种语音情感识别方法，具体涉及一种基于特征集融合的语音情感识别及评价方法。

背景技术

[0002] 语音作为情感的载体之一，包含了丰富的情感信息。在过去几十年中语音情感识别的相关研究取得了巨大的进步并在许多不同的研究领域都有着广阔的前景。随着计算机
语音识别等技术的成熟以及相关研究不断涌现，语音情感识别开始更多地应用到教育业、
娱乐业、通讯业当中，加强对语音情感、情绪的识别成为了下一代人工智能发展的重点，鉴
于此开展针对语音情感识别的研究具有较强的理论价值和实用意义。

[0003] 情感描述方式一般可分为离散和维度两种形式。PAD三维空间情感模型是既简单又被广泛使用的维度情感描述模型，其中P代表愉悦度(Pleasure‑Displeasure)，表明了个
体情感状态的积极或消极特性；A代表激活度(Arousal‑Nonarousal)，表明了个体的神经生
理激活程度；D代表优势度(Dominance‑Submissiveness)，表明了个体对环境和他人的主观
控制状态。

[0004] Stacking是一种集成学习模型，在stacking方法中，我们把个体学习器叫做初级学习器，用于结合的学习器叫做次级学习器，次级学习器用于训练的数据叫做次级训练集。
次级训练集是在训练集上用初级学习器得到的。

发明内容

[0005] 本发明针对目前语音情感识别中特征集单一、预测结果不精准等问题，提出了一种基于特征集融合的语音情感识别及评价方法。通过Opensmile工具包提取IS09_emotion、
IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种不同的语音情感特征集，
基于Stacking的初级学习器融合四种不同语音特征集，建立了不同语音情感特征集的关
系，并通过Stacking的次级学习器建立最终的语音情感识别模型，进而达到更好的情感识
别效果。

[0006] 基于特征集融合的语音情感识别及评价方法。实现包括以下步骤：

[0007] 步骤一：从语音数据库中读取.wav语音文件,对语音文件预处理后提取N种语音特征集；

[0008] 步骤二：建立Stacking学习模型；

[0009] 通过初级学习器融合N种语音特征集，并建立Stacking学习模型的次级学习器，通过次级学习器对融合后的语音特征集做最终的语音情感识别预测；

[0010] 将得到的语音特征集切分为训练数据和测试数据，分别为Training Data、Test Data；采用K折交叉验证来切分训练数据得到Train1,Train2…Traink。此时初级学习器要做
K次训练和预测。

[0011] 使用训练数据中的Train2,Train3…Traink做为训练集Set1，Train1做为验证集，基于训练集Set1训练初级学习器，预测得到验证集Train1的预测结果Val1，同时预测得到测试
集Test的预测结果Test1。

[0012] 使用训练数据中的Train1,Train3…Traink做为训练集Set2，Train2做为验证集，基于训练集Set2训练初级学习器，预测得到验证集Train2的预测结果Val2，同时预测得到测试
集Test的预测结果Test2。

[0013] 同理分别预测得到验证集Train3,Train4…Traink的预测结果Val3,Val4…Valk,同时分别预测得到测试集Test的预测结果Test3,Test4…Testk。

[0014] 将得到的Val1,Val2…Valk进行矩阵拼接，得到1列的Val数据。将此Val数据作为次级学习器的训练数据。

[0015] 对Test1,Test2…Testk求取平均值得到Testavg,将Testavg作为次级学习器的测试数据。

[0016] N种语音情感特征的训练数据经过Stacking的初级学习器预测后得到N列数据,并将此数据作为次级学习器的训练数据。

[0017] N种语音情感特征集的测试数据经过Stacking的初级学习器预测后得到N列数据,并将此数据作为次级学习器的测试数据。

[0018] 将次级学习器的训练数据作为次级学习器的训练数据，经训练后通过次级学习器的测试数据来验证次级学习器的预测结果。

[0019] 步骤三：建立评价标准，通过Stacking学习模型得到的预测结果与真实结果进行计算，得到评价该模型的评价标准；

[0020] 平均绝对误差(MAE)

[0021]

[0022] 其中m，yi，分别为测试集样本个数、测试集真实值及测试集预测值。该指标计算用于评估预测结果和真实数据集的接近程度的程度，其值越小说明拟合效果越好。

[0023] 均方差(MSE)

[0024]

[0025] 其中m，yi，分别为测试集样本个数、测试集真实值及测试集预测值。该指标计算的是拟合数据和原始数据对应样本点的误差的平方和的均值，其值越小说明拟合效果越
好。

[0026] 判定系数(R2)

[0027]

[0028] 其中m，yi，分别为测试集样本个数、测试集真实值、测试集预测值及测试集真实值的平均值。其含义是也是解释回归模型的方差得分，其值取值范围是[0,1]，越接近
于1说明自变量越能解释因变量的方差变化，值越小则说明效果越差。

[0029] 皮尔逊相关系数(Pea)

[0030]

[0031] 其含义是计算测试集真实值与测试集预测值的相关度，相关系数在[‑1，1]之间，Pea值越大，表示相关系数越显著。

[0032] 作为优选，步骤一中提取的语音特征集，具体为：Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种语音特征集。

[0033] 本发明相对于现有技术具有的有益效果：

[0034] 本发明利用Opensmile工具包提取IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait四种不同的语音情感特征集，采用LightGBM、
AdaboostRegressor作为Stacking的初级学习器，初级学习器融合了四种不同语音特征集，
建立了不同语音情感特征集的关系，并将岭回归作为Stacking的次级学习器，基于融合后
特征集训练岭回归模型，建立最终的语音情感识别模型。

实施方案

[0045] 本次实验选取的语音数据库是EMODB和RAVDESS，它们在语音情感识别中应用广泛。EMODB由10位演员对10条语句演绎得到，语音情感包括温和、生气、害怕、高兴、悲伤、厌
恶、难过，经过听辨测试后保留男性情感语句233句，女性情感语句302句，共535句语料。
RAVDESS语音数据库中由24位专业演员(12位女性，12位男性)用中性的北美口音述说，语音
情感包括平静(温和)，快乐(高兴)，悲伤(难过)，愤怒(生气)，恐惧(害怕)，惊吓和令人厌恶
(厌恶)，共1440句语料。

[0046] 上述2个数据库虽然是离散语音情感数据库，但是根据Mehrabian研制的原版PAD情绪量表以及中国科学院心理所修订的中文简化版PAD情绪量表与基本情感类型的对应关
系，可以获得数据库中各情感类型的PAD量表值，所以以上2个数据库中语料能够作为本文
实验所需的维度情感语音数据，涉及的基本情感类型对应的PAD量表值见表2。

[0047] 表2基本情感类型对应的PAD量表值

[0048]

[0049] 步骤1、使用Opensmile工具包读取语音数据库中.wav语音文件，并分别提取四种语音特征集。

[0050] 步骤1.1、配置Opensmile工具包读取IS09_emotion特征集，并读取EMODB语音数据库中的每一个.wav语音文件，Opensmile工具包自动提取IS09_emotion的语音特征并保存
在.txt文件，将每个.txt文件中的特征集保存在.csv文件中，得到EMODB语音数据库中每一
个.wav语音文件的IS09_emotion特征集；

[0051] 步骤1.2、同理配置Opensmile工具包分别读取IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集，得到EMODB语音数据库中每一个.wav语音文件的IS10_
paraling、IS11_speaker_state、IS12_speaker_trait特征集；

[0052] 步骤1.3、同上述提取步骤，得到RAVDESS语音数据库中每一个.wav语音文件的IS09_emotion、IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集；

[0053] 步骤2、建立Stacking学习模型。如图1所示，将LightGBM、AdaboostRegressor作为Stacking的M1(初级学习器，下同)，通过M1融合四种语音特征集，并将岭回归作为Stacking
的M2(次级学习器，下同)，通过M2对融合后的语音特征集做最终的语音情感识别预测。如图
2所示基于特征集融合的语音情感识别流程图。

[0054] LightGBM(Light Gradient Boosting Machine)是GBDT(Gradient Boosting Decision Tree，梯度提升迭代决策树)的一种，2015年由微软公司提出。传统GBDT模型在保
证速率时往往会导致精度的丢失，同时在分布式处理时，各机器之间的通信损失，也在一定
程度上降低了数据的处理效率。

[0055] LightGBM摈弃了level‑wise(按层生长)的决策树生长算法，而采用了leaf‑wise(按叶子生长)算法。Level‑wise是一种低效的算法，因为它不加区分的对待同一层的叶子，
带来了很多没必要的开销，因为实际上很多叶子的分裂增益较低，没必要进行搜索和分裂。
Leaf‑wise每轮迭代都从现有的叶子中找到最大增益的分裂方法，如此循环直至达到给定
的最大深度，此方法有效避免了不必要的开销，提高了计算速率。另外，传统GBDT算法中，最
耗时的步骤是利用Pre‑Sorted的方式在排好序的特征值上枚举所有可能的特征点，然后找
到最优划分点，而LightGBM中使用histogram直方图算法替换了传统的Pre‑Sorted以减少
对内存的消耗。

[0056] AdaboostRegressor是Adaboost的回归算法。Adaboost是一种迭代算法，本身是通过改变数据分布来实现的，它根据每次训练集之中每个样本的分类是否正确，以及上次的
总体分类的准确率，来确定每个样本的权值。其核心思想是针对同一个训练集训练不同的
分类器(弱分类器)，然后把这些弱分类器集合起来，构成一个更强的最终分类器(强分类
器)。

[0057] 岭回归(Ridge Regression)实质上是一种改良的最小二乘估计法，它是一种专用于共线性数据分析的有偏估计回归方法。最小二乘法可以简单的求得未知的数据，并使得
这些求的数据与实际数据之间误差的平方和为最小。如通过线性函数f(x)＝AX+b来拟合D
＝{(X1，y1)，(X2，y2)...(Xn，yn)}并使得损失函数最小，岭回归算法是
在上式基础加入L2正则化，得到损失函数如下：

[0058] 步骤2.1、分别将EMODB和RAVDESS语音数据切分训练数据集、测试数据集，分别记为Train、Test，切分比例为4∶1。如下表3所示。

[0059] 表3语音数据库切分

[0060]

[0061] 步骤2.2、基于EMODB语音数据库采用4折交叉验证来切分IS09_emotion的训练特征集得到Train1，Train2，Train3，Train4。此时LightGBM模型要进行4次训练和预测。

[0062] 步骤2.3、将训练数据中的Train2，Train3，Train4做为训练集Set1，Train1做为验证集，基于训练集Set1训练LightGBM模型，预测得到验证集Train1的结果Val1，同时预测得到
测试集Test的结果Test1。

[0063] 步骤2.4、将训练数据中的Train1，Train3，Train4做为训练集Set2，Train2做为验证集，基于训练集Set2训练LightGBM模型，预测得到验证集Train2的结果Val2，同时预测得到
测试集Test的结果Test2。

[0064] 步骤2.5、同理预测得到验证集Train3，Train4的结果Val3，Val4，同时每次预测得到测试集Test的结果Test3，Test4。

[0065] 步骤2.6、将得到的Val1，Val2Val3，Val4进行矩阵拼接，得到IS09_emotion特征集T
的融合前训练特征集ValLGBM‑09＝[Val1，Val2Val3，Val4] ，同理基于AdaboostRegressor模型要进行4次训练和预测，得到IS09_emotion特征集的融合前训练特征集ValAD‑09。将此
ValLGBM‑09、ValAD‑09数据作为M2的训练数据。

[0066] 步骤2.7、对Test1，Test2，Test3，Test4求平均值，得到融合前测试特征集TestLGBM‑avg‑09＝(+Test2+Test3+Test4)/4，同理也可得到TestAD‑avg‑09，将TestLGBM‑avg‑09、TestAD‑avg‑09作为M2的测试数据。

[0067] 步骤2.8、基于IS10_paraling、IS11_speaker_state、IS12_speaker_trait特征集做上述相同操作，分别得到融合前训练特征集ValLGBM‑10、ValAD‑10、ValLGBM‑11、ValAD‑11、ValLGBM‑12、ValAD‑12，同样也可以得到融合前测试特征集TestAD‑avg‑10、TestAD‑avg‑11、TestAD‑avg‑12、TeStLGBM‑avg‑10、TeStLGB‑avg‑11、TestLGBM‑avg‑12

[0068] 步骤2.9、基于RAVDESS语音数据库做上述相同操作。

[0069] 步骤3、建立评价标准，通过Stacking学习模型得到的预测结果与真实结果进行计算，得到评价该模型的评价标准。

[0070] 步骤3.1、基于EMODB语音数据库，将ValLGBM‑09、ValAD‑09、ValLGBM‑10、ValAD‑10、ValLGBM‑11、ValAD‑11、ValLGBM‑12、ValAD‑12作为岭回归的训练数据，经训练后通过TestAD‑avg‑09、TestAD‑avg‑10、TestAD‑avg‑11、TestAD‑avg‑12、TestLGBM‑avg‑09、TestLGBM‑avg‑10、TestLGBM‑avg‑11、TestLGBM‑avg‑12测试数据来验证模型的预测结果。通过预测计算得到各个评价标准值如表4所示。图3、4、5、6分别为MAE、MSE、R_2、Pcc结果簇状图。

[0071] 表4 EMODB语音数据库的预测结果

[0072]

[0073]

[0074] 步骤3.2、基于RAVDESS语音数据库做上述相同操作，得到最终的预测结果，并通过预测计算得到评价标准如表5所示。图7、8、9、10分别为MAE、MSE、R_2、Pcc结果簇状图。(注
意：AD_IS09_EMOTIO意思是在IS09_EMOTIO特征集上使用AdaboostRegresso模型训练预测
得到的评价指标；Stacking方法1指的是使用Stacking模型训练预测得到的评价指标，次级
学习器做了交叉验证；Stacking方法2指的是使用Stacking模型训练预测得到的评价指标，
次级学习器没做交叉验证。上同)。

[0075] 表5 RAVDESS语音数据库的预测结果

[0076]

[0077]

附图说明

[0035] 图1为基于特征集融合的语音情感识别流程图；

[0036] 图2为Stacking实验过程示意图；

[0037] 图3为EMODB语音数据库的平均绝对误差(MAE)结果簇状图；

[0038] 图4为EMODB语音数据库均方差(MSE)结果簇状图；

[0039] 图5为EMODB语音数据库判定系数(R_2)结果簇状图；

[0040] 图6为EMODB语音数据库皮尔逊相关系数(Pcc)结果簇状图；

[0041] 图7为RAVDESS语音数据库平均绝对误差(MAE)结果簇状图；

[0042] 图8为RAVDESS语音数据库均方差(MSE)结果簇状图；

[0043] 图9为RAVDESS语音数据库判定系数(R_2)结果簇状图；

[0044] 图10为RAVDESS语音数据库皮尔逊相关系数(Pcc)结果簇状图；

1基于特征集融合的语音情感识别及评价方法 2一种基于语音特征融合和GMM的说话人识别方法 3基于注意力机制的特征融合用于语音情感识别的方法 4一种基于预测的多特征融合的老人语音情感识别方法