首页 > 专利 > 安徽建筑大学 > 一种基于有限状态自动机的语音情感交互装置与方法专利详情

一种基于有限状态自动机的语音情感交互装置与方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2015-08-26

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2016-02-10

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2018-11-13

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2035-08-26

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201510535485.9	申请日	2015-08-26
公开/公告号	CN105244042B	公开/公告日	2018-11-13
授权日	2018-11-13	预估到期日	2035-08-26
申请年	2015年	公开/公告年	2018年
缴费截止日
分类号	G10L25/63 、G10L15/22	主分类号	G10L25/63
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	7
权利要求数量	8	非专利引证数量	1
引用专利数量	3	被引证专利数量	0
非专利引证	1、鲁小勇等.基于PAD三维情绪模型的情感语音韵律转换《.计算机工程与应用》.2013,第49卷(第5期),230-235. 李贤等.面向情感语音转换的韵律转换方法《.声学学报》.2014,第39卷(第4期),509-516.;
引用专利	CN101064104A、CN101618280A、US2010/0036660A1	被引证专利
专利权维持	7	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	安徽建筑大学	第一申请人	安徽建筑大学
专利权人	安徽建筑大学	当前专利权人	安徽建筑大学
发明人	王坤侠、严辉、李莹莹、孙全玲	第一发明人	王坤侠
地址	安徽省合肥市经济技术开发区紫云路292号	邮编	230601
申请人数量	1	发明人数量	4
申请人所在省	安徽省	申请人所在市	安徽省合肥市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

合肥市浩智运专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

丁瑞瑞

摘要

本发明公开了一种基于有限状态自动机的语音情感交互装置与方法。所述装置包括：语音采集模块，用于设置录音源、采样率、音频通道、音频数据格式，完成后向原始文件写入裸数据生成文件A；对文件A进行语音情感识别的语音情感识别模块；通过情感的载体进行情感交互的语音情感交互模块。语音情感交互模块包括：有限状态自动机模型的构建模块，用于采用有限状态机描述语音情感状态及其转换过程；情感交互状态转换表的建立模块，用于有限状态自动机转换函数的定义和有限状态自动机转换函数的确定；转换矩阵模块，用于在有限状态自动机模型中，用状态转换矩阵描述状态转换函数。本发明还公开所述装置的基于有限状态自动机的语音情感交互方法。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4
说明书附图：图5

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2018-11-13	授权
2	2016-02-10	实质审查的生效	IPC(主分类): G10L 25/63 专利申请号: 201510535485.9 申请日: 2015.08.26
3	2016-01-13	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于有限状态自动机的语音情感交互装置，其包括：
语音采集模块，其用于设置录音源、采样率、音频通道、音频数据格式四个基本参数，参数设置完成后向原始文件写入裸数据，生成文件A；
语音情感识别模块，其用于对文件A进行语音情感识别获得情感类型；
语音情感交互模块，其用于通过情感的载体进行情感的交互；
其特征在于：
所述语音情感交互模块包括：
有限状态自动机模型的构建模块，其用于采用有限状态机描述语音情感状态及其转换过程；
情感交互状态转换表的建立模块，其用于有限状态自动机转换函数的定义和有限状态自动机转换函数的确定；
转换矩阵模块，其用于在有限状态自动机模型中，用状态转换矩阵描述状态转换函数。

2.如权利要求1所述的基于有限状态自动机的语音情感交互装置，其特征在于：针对构建模块，确定性的有限状态机M是一个五元组，如式(1)所示：
M＝(Q，∑，δ，q0，F)    (1)；
其中，Q是指有限状态集合，Q＝{q1，q2，…，qn}；∑是指系统能接收的所有事件的集合，∑＝{σ1，σ2，...，σn}；δ是指状态转移函数，δ：Q×∑→Q；q0是指初始状态，q0∈Q；F是终止状态，

3.如权利要求2所述的基于有限状态自动机的语音情感交互装置，其特征在于：针对建立模块，情感交互的过程如下：令状态机在时间t的状态为qt，条件反馈状态为σt，在离散时间内，情感交互模型下一时刻的状态为qt+1，则有公式(2)：qt+1＝δ(qt,σt)    (2)，即情感交互模型下一时刻的状态取决于它当前的状态和它所接收的状态。

4.如权利要求3所述的基于有限状态自动机的语音情感交互装置，其特征在于：针对转换矩阵模块，在有限状态自动机模型中，状态转换函数用状态转换矩阵描述；令描述情感状态转移的矩阵有公式(3)的如下形式：
其中0≤fij≤1表示从状态qi转移到状态qj的概率；fij取值根据情感库样本分析统计得到，fij＝p(qj|qi，σi)i＝1，2，...，n；j＝1,2,…,n。

5.一种基于有限状态自动机的语音情感交互方法，其包括以下步骤：
(1)设置录音源、采样率、音频通道、音频数据格式四个基本参数，参数设置完成后向原始文件写入裸数据，生成文件A；
(2)对文件A进行语音情感识别获得情感类型；
(3)通过情感的载体进行情感的交互；
其特征在于：
步骤(3)包括以下步骤：
(3.1)采用有限状态机描述语音情感状态及其转换过程；
(3.2)有限状态自动机转换函数的定义和有限状态自动机转换函数的确定；
(3.3)在有限状态自动机模型中，用状态转换矩阵描述状态转换函数。

6.如权利要求5所述的基于有限状态自动机的语音情感交互方法，其特征在于：在步骤(3.1)中，确定性的有限状态机M是一个五元组，如公式(1)所示：M=(Q，∑，δ，q0，F)  (1)；
其中，Q是指有限状态集合，Q＝{q1，q2，…，qn}；∑是指系统能接收的所有事件的集合，∑＝{σ1，σ2，…，σn}；δ是指状态转移函数，δ：Q×∑→Q；q0是指初始状态，q0∈Q；F是终止状态，

7.如权利要求6所述的基于有限状态自动机的语音情感交互方法，其特征在于：在步骤(3.2)中，情感交互的过程如下：令状态机在时间t的状态为qt，条件反馈状态为σt，在离散时间内，情感交互模型下一时刻的状态为qt+1，则有公式(2)：qt+1＝δ(qt,σt)  (2)，即情感交互模型下一时刻的状态取决于它当前的状态和它所接收的状态。

8.如权利要求7所述的基于有限状态自动机的语音情感交互方法，其特征在于：在步骤(3.3)中，在有限状态自动机模型中，状态转换函数用状态转换矩阵描述；令描述情感状态转移的矩阵有公式(3)的如下形式：
其中0≤fij≤1表示从状态qi转移到状态qj的概率；fij取值根据情感库样本分析统计得到，fij＝p(qj|qi，σi)i＝1，2，...，n；j＝1,2,…,n。

说明书

技术领域

[0001] 本发明涉及一种基于Android客户端语音情感交互方法，尤其涉及一种基于有限状态自动机的语音情感交互装置、及基于有限状态自动机的语音情感交互方法。

背景技术

[0002] 随着移动互联网的蓬勃发展，智能手机的不断普及，智能手机的人机交互越来越受到人们的重视，人们日夜与电脑、手机为伴，“人-人互动”逐渐减少，“人-机互动”不断增加，在人机交互中人们都情感的需求提出了更高的要求，即情感交互越来越受到人们的关注。

[0003] 语音是人类交流的重要媒介，尤其是语音技术更加受到世界著名企业的青睐。如：Apple公司移动设备(iPhone、iPad以及iPod)中的语音助手Siri、Google公司可穿戴设备(如Google Glass)和装有Google服务的Android智能设备中的语音助手Google Now以及Microsoft公司Windows Phone移动设备上的Cortana私人数字助手等等，这些功能极大的提高了人机语音交互的机会。

[0004] 语音情感交互的研究对于增加计算机的智能化、个性化，开发智能新型人机交互环境，推动机器学习学科的发展，具有重要意义。

[0005] 目前语音情感交互技术在不断发展和完善，给人们的生活、学习和工作带来显著影响。在个人生活方面，语音情感交互可以记录个人的情绪波动曲线，总结出适合自己工作学习的最佳时间段，提高效率；在教育界，语音情感交互技术应用于幼教产品，可以教儿童如何讲话，甚至可以教他们如何把话讲的自然而富有感情；在娱乐界，语音情感交互技术可以构筑更加拟人化的风格和更加逼真的游戏场景，给用户更全面的感官享受；在工业界，智能家用电器、汽车等能够理解我们的情感，并做出响应，为我们的工作和生活提供优质的服务；在医学界，可以对部分心理病症(如抑郁症、焦虑症等心理疾病)和空巢家庭中的老年人的情感变化进行检测并提供相应帮助。语音情感交互又是语音交互的重要的研究方向，可想而知语音情感交互的发展势必会伴随着移动互联网的浪潮迎来一个崭新的阶段。

[0006] 语音情感交互中，语音情感识别是基础，情感交互是关键。目前，语音情感识别的研究已经取得一定进步，研究者大多关注语音特征提取、语音识别模型的构建等研究内容，而语音情感交互方法的研究较少涉及。目前大部分社交产品和娱乐游戏中的人机交互界面大多采用文本的方式，部分产品加入了语音输入功能，但也是淡出的录音传话，无法判断社交对象的情感，更谈不上情感交互。因此，如何构建应用于不同应用场景的情感交互模型，实现语音情感交互功能，是语音情感交互领域中一个亟待解决的重要问题。

发明内容

[0007] 本发明针对以上问题，提出一种基于有限自动机模型的语音情感交互装置、及基于有限自动机模型的语音情感交互方法，本发明用于语音情感交互，能够较好地反映语音情感的交互状态。

[0008] 本发明是通过以下技术方案实现的：一种基于有限状态自动机的语音情感交互装置，其包括：语音采集模块，其用于设置录音源、采样率、音频通道、音频数据格式四个基本参数，参数设置完成后向原始文件写入裸数据，生成文件A；语音情感识别模块，其用于对文件A进行语音情感识别获得情感类型；语音情感交互模块，其用于通过情感的载体进行情感的交互；

[0009] 其中：所述语音情感交互模块包括：有限状态自动机模型的构建模块，其用于采用有限状态机描述语音情感状态及其转换过程；情感交互状态转换表的建立模块，其用于有限状态自动机转换函数的定义和有限状态自动机转换函数的确定；转换矩阵模块，其用于在有限状态自动机模型中，用状态转换矩阵描述状态转换函数。

[0010] 作为上述方案的进一步改进，针对构建模块，确定性的有限状态机M是一个五元组，如式(1)所示：M＝(Q，Σ，δ，q0,F) (1)；其中，Q是指有限状态集合，Q＝{q1,q2,…,qn}；Σ是指系统能接收的所有事件的集合，Σ＝{σ1,σ2,…,σn}；δ是指状态转移函数，δ：Q×Σ→Q；q0是指初始状态，q0∈Q；F是终止状态，

[0011] 作为上述方案的进一步改进，针对建立模块，情感交互的过程如下：令状态机在时间t的状态为qt，条件反馈状态为σt，在离散时间内，情感交互模型下一时刻的状态为qt+1，则有公式(2)：qt+1＝δ(qt,qt) (2)，即情感交互模型下一时刻的状态取决于它当前的状态和它所接收的状态。

[0012] 作为上述方案的进一步改进，针对转换矩阵模块，在有限状态自动机模型中，状态转换函数用状态转换矩阵描述；令描述情感状态转移的矩阵有公式(3)的如下形式：

[0013]其中0≤fij≤1表示从状态qi转移到状态qj的概率；fij取值根据情感库样本分析统计得到，fij＝p(qj|qi,σi)i＝1,2,…,n；j＝1,2,…,n。

[0014] 本发明还提供一种基于有限状态自动机的语音情感交互方法，其包括以下步骤：(1)设置录音源、采样率、音频通道、音频数据格式四个基本参数，参数设置完成后向原始文件写入裸数据，生成文件A；(2)对文件A进行语音情感识别获得情感类型；(3)通过情感的载体进行情感的交互；

[0015] 其中：步骤(3)包括以下步骤：(3.1)采用有限状态机描述语音情感状态及其转换过程；(3.2)有限状态自动机转换函数的定义和有限状态自动机转换函数的确定；(3.3)在有限状态自动机模型中，用状态转换矩阵描述状态转换函数。

[0016] 作为上述方案的进一步改进，在步骤(3.1)中，确定性的有限状态机M是一个五元组，如公式(1)所示：M＝(Q，Σ，δ，q0,F) (1)；其中，Q是指有限状态集合，Q＝{q1,q2,…,qn}；Σ是指系统能接收的所有事件的集合，Σ＝{σ1,σ2,…,σn}；δ是指状态转移函数，δ：Q×Σ→Q；q0是指初始状态，q0∈Q；F是终止状态，

[0017] 作为上述方案的进一步改进，在步骤(3.2)中，情感交互的过程如下：令状态机在时间t的状态为qt，条件反馈状态为σt，在离散时间内，情感交互模型下一时刻的状态为qt+1，则有公式(2)：qt+1＝δ(qt,σt) (2)，即情感交互模型下一时刻的状态取决于它当前的状态和它所接收的状态。

[0018] 作为上述方案的进一步改进，在步骤(3.3)中，在有限状态自动机模型中，状态转换函数用状态转换矩阵描述；令描述情感状态转移的矩阵有公式(3)的如下形式：

[0019]其中0≤fij≤1表示从状态qi转移到状态qj的概率；fij取值根据情感库样本分析统计得到，fij＝p(qj|qi,σi)i＝1,2,…,n；j＝1,2,…,n。

[0020] 本发明提出情感交互的有限状态自动机模型，建立了情感交互模型，应用于人机语音情感交互。与现有技术相比，本发明有益效果体现在：提出有限情感状态自动机模型，应用于人机语音情感交互，该技术可以应用于智能家电、医学辅助治疗等方面，可以为人类提供更为人性化、情感化的产品和服务。

实施方案

[0026] 为了使本发明的目的、技术方案及优点更加清楚明白，以下结合实施实例，对本发明进行进一步详细说明。应当理解，此处所描述的具体实施例仅仅用以解释本发明，并不用于限定本发明。

[0027] 本发明主要包括三个方面：语音采集、语音情感识别、语音情感交互。语音情感交互是本发明的关键技术。如图1所示，基于有限状态自动机的语音情感交互装置包括语音采集模块、语音情感识别模块以及语音情感交互模块。

[0028] 每个模块的具体实施方式如下。

[0029] (1)语音采集模块

[0030] 语音采集模块的流程图如图2所示。具体实施如下：在采集语音步骤中需要设置四个基本参数：第一个参数是录音源，其在Android手机中主要有四种声音来源分别是麦克风、通话、通话上行通道和通话下行通道，Android平板中能用到的组要有麦克风来源，此方法默认采用麦克风源；第二个参数是采样率，44100Hz是目前可以运行在所有设备的通用频率，当然也有其他的一些频率如22050Hz，16000Hz，11025Hz可以工作在某些设备上，此方法默认采用44100Hz；第三个参数是音频通道，音频通道有单通道和立体声两种，其中单通道可以运行在所有的Android设备上，此方法默认采用单声道；第四个参数是音频数据格式，采样来的数据采用PCM编码，PCM通过抽样、量化、编码三个步骤将连续变化的模拟信号转换为数字编码，采样大小16bit或者8bit，此方法采用16bit。参数设置完成后向文件写入裸数据，生成文件A。

[0031] (2)语音情感识别模块

[0032] 如图3所示，本发明通过多特征融合方法提高语音情感识别结果。首先提取傅里叶参数特征、小波包系数特征和梅尔倒谱频率特征，然后构建不同分类器模型。针对本发明提取的不同特征参数，经过特征选择后找出每种特征参数的最优特征子集，构建情感识别模型，然后采取相应策略构建多特征多模型融合的识别模型。将(1)采集的语音信号经过语音情感识别模块进行识别，获得情感类型。

[0033] (3)情感交互模块

[0034] 情感是认知的基础，对外界刺激做出最基本的、快速的智能反应。情感通过情感的载体(人、计算机等)进行情感的交互。从工程的角度出发，建立情感交互模型，当情感载体在进行情感交互时，该模型能够再现情感的动态变化。本模块包括有限状态自动机模型的构建模块、情感交互状态转换表的建立模块和转换矩阵模块的确定三个部分。

[0035] ①有限状态自动机模型的构建模块

[0036] 本模块构建有限状态机情感交互模型，采用有限状态机描述语音情感状态及其转换过程。确定性的有限状态机M是一个五元组,如式(1)所示：

[0037] M＝(Q，Σ，δ，q0,F) (1)

[0038] 其中，Q是指有限状态集合，Q＝{q1,q2,…,qn}；Σ是指系统能接收的所有事件的集合，Σ＝{σ1σ, 2,…,σn}；δ是指状态转移函数，δ：Q×Σ→Q；q0是指初始状态，q0∈Q；F是终止状态，

[0039] ②情感交互状态转换表的建立模块

[0040] 本模块实现情感交互模型的建立，包括两个方面：A有限状态自动机转换函数的定义、B有限状态自动机转换函数的确定。

[0041] A有限状态自动机转换函数的定义

[0042] 假设情感状态集中包含4种情感状态。根据有限状态自动机模型，建立的情感交互如图4所示，其中q0代表个体的初始情感状态，σi表示输入的状态，即个体接收的事件，σi∈Σ，本系统中表示机器反馈的情感状态。其含义是根据当前的情感状态和输入状态，个体的情感状态发生改变。

[0043] 情感交互的过程如下：令状态机在时间t的状态为qt，条件反馈状态为σt，在离散时间内，情感交互模型下一时刻的状态为qt+1，则有：

[0044] qt+1＝δ(qt,σt) (2)

[0045] 即情感交互模型下一时刻的状态取决于它当前的状态和它所接收的状态。

[0046] B有限状态自动机转换函数的确定

[0047] 在语音情感识别系统中包含4种情感状态，故以状态集中的4种情感为例，情感状态集合定义为{H,S,A,N}，其中H是指高兴，S是指伤心,A是指生气,N是指平静。状态转换表如表1所示，表中行表示当前的情感状态，列表示状态机的机器情感的反馈，状态转换表取值表示状态机在时间t+1的状态。

[0048] 表1：状态转换表

[0049]

[0050] 根据情感载体的个性差异，情感交互的结果也有所不同，本发明中情感交互时的转换依据是根据情感库样本分析统计得到，其分析结果如表1所示。例如，初始情感状态为生气时，机器反馈的情感状态为高兴，对于不同的个性载体，情感变化也是不同的。可表现为高兴、生气、平和或悲伤，其他情感状况也是如此。针对本系统的情况考虑，设置的状态转换表如表1所示。

[0051] ③转换矩阵模块

[0052] 转换矩阵模块实现状态转换矩阵的确定。在有限状态自动机模型中，状态转换函数可以用状态转换矩阵描述。令描述情感状态转移的矩阵F有公式(3)的如下形式：

[0053]

[0054] 其中0≤fij≤1表示从状态qi转移到状态qj的概率。

[0055] fij＝p(qj|qi,σi)i＝1,2,…,n；j＝1,2,…,n。

[0056] 本系统中fij取值根据情感库样本分析统计得到，其取值如表2所示。

[0057] 表2：状态转换矩阵

[0058] H S A N
H 0.40816328 0.020408163 0.008746356 0.5626822
S 0.045698926 0.48924732 0.28225806 0.1827957
A 0.016587678 0.4028436 0.45734596 0.123222746
N 0.1590909 0.19444445 0.045454547 0.6010101

[0059] 情感状态机的状态转换图的确定，根据状态转换矩阵的确定，即可得到情感交互的状态转换图，如图5所示。根据情感交互模型，当有语音情感状态输入时，机器首先识别出情感信息，然后选择不同的情感反馈，分别做出不同的情感交互，如检测出是伤心的情感，可以随机抽取一个笑话给用户听，播放一个搞笑动画等等诸如此类的交互方式。

[0060] 本发明是一种基于Android客户端语音情感交互方法，在本发明中，首先要检测Android客户端的运行环境或状态参数，如SD卡是否存在数据网络或WIFI是否开启，若条件满足则可进行情感识别。随后Android客户端主要是采集原始语音，并进行抽样、量化、编码形成一个标准的音频文件，通过网络将音频文件传送到服务器进行复杂的数据分析，并能接收服务器返回的分析结果，并对分析结果进行相应的处理，最终得到情感分析结果，将情感分析结果通话UI反馈给用户。

[0061] 以上内容是结合具体的附图对本发明所作的详细说明，不能认定本发明具体实施仅限于这些说明。对于本发明所属技术领域的技术人员来说，在不脱离本发明构思的前提下，还可以做出若干简单替换和变更，都应当视为属于本发明由所提交的权利要求书确定的发明保护范围。

附图说明

[0021] 图1本发明较佳实施例提供的基于有限状态自动机的语音情感交互装置的结构框图。

[0022] 图2是图1中语音采集模块的流程图。

[0023] 图3是图1中语音情感识别模块的语音感情识别框图。

[0024] 图4是图1中情感交互模块建立的情感交互模型图。

[0025] 图5是图1中情感交互模块得到情感交互的状态转换图。

1EAPS协议MASTER交换机端口状态切换的自动化测试方法 2一种基于有限状态自动机的语音情感交互装置与方法