首页 > 专利 > 杭州电子科技大学 > 基于注意力机制的特征融合用于语音情感识别的方法专利详情

基于注意力机制的特征融合用于语音情感识别的方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2020-04-30
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2020-09-04
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-06-21
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2040-04-30
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202010364837.X 申请日 2020-04-30
公开/公告号 CN111524535B 公开/公告日 2022-06-21
授权日 2022-06-21 预估到期日 2040-04-30
申请年 2020年 公开/公告年 2022年
缴费截止日
分类号 G10L25/63G10L25/03G10L25/27G10L25/18 主分类号 G10L25/63
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 0
权利要求数量 1 非专利引证数量 1
引用专利数量 2 被引证专利数量 0
非专利引证 1、2018.02.15CN 109285562 A,2019.01.29邓婷燕等.基于双向LSTM神经网络和注意模型的语音情感分析《.信息通信》.2020,(第01期),周后盘 等.基于LSTM循环神经网络的泊位需求短时预测研究《.自动化技术与应用》.2019,牛亚峰.基于深度学习的语音情感识别研究《.中国优秀硕士学位论文全文数据库(电子期刊)》.2019,;
引用专利 US2020073937A、US2018047389A 被引证专利
专利权维持 2 专利申请国编码 CN
专利事件 许可 事务标签 公开、实质审查、授权、实施许可
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 周后盘、周伟东、夏鹏飞 第一发明人 周后盘
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 3
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
杨舟涛
摘要
本发明公开了一种基于注意力机制的特征融合用于语音情感识别的方法,语音情感识别一直是自然语言处理领域的一项重要且极具挑战性的任务。其中对于从语音中获取与情感相关的特征在情感识别中更是占有很大的比重。在过去的工作中,人们对于从手工特征中提取情感相关特征,往往使用的是LSTM模型。本发明提出一个新颖的模型ATCRNN。其模型是由一个时间卷积网络加上注意力机制和一个LSTM网络加上注意力机制,最后再利用注意力机制进行非线性特征融合。ATCRNN不仅仅可以关注单个模型中提取的情感相关特征,还可以建立起相互依赖关系,以达到更好的情绪识别效果。
  • 摘要附图
    基于注意力机制的特征融合用于语音情感识别的方法
  • 说明书附图:图1
    基于注意力机制的特征融合用于语音情感识别的方法
  • 说明书附图:图2
    基于注意力机制的特征融合用于语音情感识别的方法
  • 说明书附图:图3
    基于注意力机制的特征融合用于语音情感识别的方法
  • 说明书附图:图4
    基于注意力机制的特征融合用于语音情感识别的方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-12-23 专利实施许可合同备案的生效 IPC(主分类): G10L 25/63 合同备案号: X2022330000731 专利申请号: 202010364837.X 申请日: 2020.04.30 让与人: 杭州电子科技大学 受让人: 杭州浙仪信息科技有限公司 发明名称: 基于注意力机制的特征融合用于语音情感识别的方法 申请公布日: 2020.08.11 授权公告日: 2022.06.21 许可种类: 普通许可 备案日期: 2022.12.06
2 2022-06-21 授权
3 2020-09-04 实质审查的生效 IPC(主分类): G10L 25/63 专利申请号: 202010364837.X 申请日: 2020.04.30
4 2020-08-11 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.基于注意力机制的特征融合用于语音情感识别的方法,其特征在于:实现包括以下步骤:
步骤一:情感特征提取
提取MFCC特征和韵律特征P;
步骤二:数据预处理
+
①、统计提取的MFCC特征中每个句子的时间步{Ln|L1,L2,…,Ln,n∈N },其中Ln表示每个句子经过特征提取后的时间步,n表示句子数量;
②、计算时间步的平均长度和时间步的标准差;
平均长度
标准差
③、统一每个句子的时间步
时间步Tn=Lave+Lsta
④、填充,裁减每个句子
每个句子都和时间步Tn比较,如果大于Tn,则裁减大于Tn部分;当小于Tn使用零去填充,使之等于Tn,最后的得到的数据为{XT|X1,X2,…,XT,T∈N},其中XT表示一个句子,T表示每个句子的时间步,其中T=750;
步骤三:建立基于注意力机制的长短期记忆网络解码器
①、长短期记忆网络解码
HT=LSTM(XT),T∈{0,1,…,750}
其中HT为长短期记忆网络的隐藏状态;
②、注意力加权
T
f(HT)=tanh(wHT+b)
vT=softmax(f(HT))
eT=vTHT
其中最后输出eT为加权后的三维矩阵,w和b为可训练参数,vT为中间变量,f(·)为相关度函数;
步骤四:建立基于注意力机制的时间卷积网络解码器
①、时间卷积网络解码
CT=TCN(XT,k,hd),
其中CT为时间卷积网络解码的三维向量,k为卷积核大小,hd为隐藏层大小,d为TCN的隐藏层数;
②、注意力加权
T
f(CT)=tanh(wCT+b)
aT=softmax(f(CT))
其中sT为注意力加权后的二维向量,w和b为可训练参数,aT为中间变量;
步骤五:建立基于注意力机制的特征融合层
DT=matmul(eT,sT)
AT=softmax(DT)
其中WT为非线性融合后的特征,DT表示eT与sT的相关度函数,AT为中间变量;
步骤六:建立输出层
y=softmax(concat(WT,sT,P)M+b)
其中P为韵律特征,y为最后输出结果,M和b为网络的可训练参数。
说明书

技术领域

[0001] 本发明是基于Attention机制的时间卷积网络(TCN)和长短期记忆网络(LSTM)所提出的一种语音情感识别方法。从数据库中获取原始语音数据,通过特征提取、预处理、LSTM解码、TCN解码,Attention机制的非线性特征融合,最后利用全连接网络输出。其中时间卷积网络利用膨胀卷积扩大感受野,跳跃连接可以保留更多的历史信息,因果卷积使未来消息只和过去相关。LSTM可以从低级的手工特征中获取长期的依赖关系。多个Attention机制的使用可以使模型不仅仅可以关注自身所提取的情感相关特征,同时可以建立模型之间的相互依赖关系,进而达到更好的情感识别效果。技术背景
[0002] 近年来,随着人机交互系统的发展,如何让机器可以通过人们的外部特征从而让机器理解人的意图以达到更好的人机交互效果成为巨大挑战。现实中研究者们通过音频、语音转录本、面部表情、肢体动作等特征来判别一个人的情绪。但在实际运用中往往最容易获取的数据是音频数据,因此基于语音的情感识别,在现实的人机交互系统中得到广泛的利用。

发明内容

[0003] 本发明是面向语音情感识别这一巨大挑战,利用基于Attention机制的TCN和LSTM来提取情感相关特征,以及最后利用Attention机制进行模型所提取特征之间的非线性融合,建立模型之间的依赖关系以达到更好的语音情感识别效果。
[0004] 基于注意力(Attention)机制的特征融合用于语音情感识别的方法,实现包括以下步骤:
[0005] 步骤一:情感特征提取
[0006] 提取MFCC特征和韵律特征P;
[0007] 步骤二:数据预处理。
[0008] ①、统计提取的MFCC特征中每个句子的时间步 其中Ln表示每个句子经过特征提取后的时间步,n表示句子数量。
[0009] ②、计算时间步的平均长度和时间步的标准差。
[0010] 平均长度
[0011] 标准差
[0012] ③统一每个句子的时间步
[0013] 时间步Tn=Lave+Lsta
[0014] ④、填充,裁减每个句子
[0015] 每个句子都和时间步Tn比较,如果大于Tn,则裁减大于Tn部分;当小于Tn使用零去填充,使之等于Tn,最后的得到的数据为{XT|X1,X2,…,XT,T∈N},其中XT表示一个句子,T表示每个句子的时间步,其中T=750。
[0016] 步骤三:建立基于注意力(Attention)机制的长短期记忆网络(LSTM)解码器。
[0017] ①、长短期记忆网络解码
[0018] HT=LSTM(XT),T∈{0,1,…,750}
[0019] 其中HT为LSTM的隐藏状态。
[0020] ②、注意力加权
[0021] f(HT)=tanh(wTHT+b)
[0022] vT=softmax(f(HT))
[0023] eT=vTHT
[0024] 其中最后输出eT为加权后的三维矩阵,w和b为可训练参数,vT为中间变量,f(·)为相关度函数;
[0025] 步骤四:建立基于注意力机制的时间卷积网络(TCN)解码器。
[0026] ①、时间卷积网络解码
[0027] CT=TCN(XT,k,hd),
[0028] 其中CT为TCN解码的三维向量,k为卷积核大小,hd为隐藏层大小,d为TCN的隐藏层数。
[0029] ②、注意力加权
[0030] f(CT)=tanh(wTCT+b)
[0031] aT=softmax(f(CT))
[0032]
[0033] 其中sT为注意力加权后的二维向量,w和b为可训练参数,aT为中间变量。
[0034] 步骤五:建立基于注意力机制的特征融合层。
[0035] DT=matmul(eT,sT)
[0036] AT=softmax(DT)
[0037]
[0038] 其中WT为非线性融合后的特征,DT表示eT与sT的相关度函数,AT为中间变量。
[0039] 步骤六:建立输出层
[0040] y=softmax(concat(WT,sT,P)M+b)
[0041] 其中P为韵律特征,y为最后输出结果,M和b为网络的可训练参数。
[0042] 本发明相对于现有技术具有的有益效果:
[0043] 本发明使用了一个新颖的模型时间卷积网络(TCN)从低级语音特征中提取情感相关特征,并利用Attention机制关注情感相关特征,实验证明单独的基于Attention机制的TCN实验精度较没有使用Attention机制之前得到大大提升。本发明利用Attention机制建立模型之间依赖关系,以达到非线性特征融合的效果,使模型可以建立不同解码器之间的相互依赖关系,最终达到更好的识别效果。

实施方案

[0048] 如图1所示,一种基于注意力机制的特征融合用于语音情感识别的方法,该方法具体包括以下步骤:
[0049] 步骤1.利用Opensmile从原始音频;数据中提取特征
[0050] 步骤1.1提取MFCC特征
[0051] 音频的来源是有固定采用频率的IEMOCAP语料库中,这里的采样频率是16khz。实验过程中我们利用一定的窗口和步长大小来逐帧提取特征,这里我们使用25ms的窗口,10ms的步长来逐帧提取时域信号。最终我们提取了39维MFCC特征,其中包含12个MFCC参数(1‑12),26个梅尔逊频率带宽参数,以及一个对数能量参数。提取的句子个数为10039条。
[0052] 步骤1.2提取韵律特征
[0053] 利用Opensmile工具包提取了一个34维的韵律特征,个数为10039。
[0054] 步骤2预处理提取的特征
[0055] 步骤2.1将每个句子提取的时间步通过标准差加上平均长度的做法,使他固定为750个时间步,句子维数为39。
[0056] 步骤2.2在10039条数据中取出实验所需情感(生气,高兴/激动,伤心,中性)对应的数据,一共5531条数据。
[0057] 步骤2.3将5531条数据划分为训练集、验证集、测试集。这里我们采用的划分细则具体见表1。
[0058]
[0059] 表1:IEMOCAP中4种情感类别划分的个数
[0060] 步骤3:建立基于Attention机制的非线性特征融合模型
[0061] 步骤3.1:将处理好的MFCC特征以一定批量训练,这里我们使用批量为125条数据进行训练,解码长度为750。因此传入数据的维数为125×750×39。
[0062] 步骤3.2:将数据喂给LSTM网络,其中LSTM网络的隐藏层大小为200,dropout为0.85。取出LSTM的隐藏层数据,数据维数为125×750×200,并将其传入Attention层,其中Attention的大小为2,Attention输出的维度为125×750×200。
[0063] 步骤3.3:将数据喂给TCN网络,其中TCN网络的隐藏层数目为1,隐藏层大小为200,dropout为0.7,卷积核大小为3。TCN的输出维度为125×750×200,将TCN的输出经过Attention层变为维度为125×200的向量。
[0064] 步骤3.4:取出TCN经过Attention层的输出,和LSTM经过Attention的输出,并将其传入到特征融合层,最后输出一个125×200的向量。
[0065] 步骤3.5:取出特征融合的向量和TCN经Attention层的向量,以及韵律特征。并将它们连接在一起,其输出维度为125×434。最后经过全连接层,将输出转化成维度为4的向量。
[0066] 步骤3.6:利用sigmoid交叉熵损失函数计算损失,利用Adam来优化模型,学习率设置为0.001。
[0067] 图2为基于Attention机制的LSTM进行语音情感识别的混淆矩阵,图3为基于Attention机制的TCN进行语音情感识别的混淆矩阵;图4为基于Attention机制的非线性特征融合后的语音情感识别混淆矩阵;通过图和表2对比可以看出基于Attention机制的非线性特征融合得到的分类精度得到有效提高;
[0068] 表2为模型在IEMOCAP上测试的WA和UA
[0069]
[0070] 其中WA是加权精度,UA未加权精度。

附图说明

[0044] 图1为基于Attention机制的非线性特征融合框架图;
[0045] 图2为基于Attention机制的LSTM进行语音情感识别的混淆矩阵;
[0046] 图3为基于Attention机制的TCN进行语音情感识别的混淆矩阵;
[0047] 图4为基于Attention机制的非线性特征融合后的语音情感识别混淆矩阵;
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号