盲专网 - 基于神经网络堆叠自编码器多特征融合的声音识别方法

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2017-09-22

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2018-02-13

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2020-07-21

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2037-09-22

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201710864695.1	申请日	2017-09-22
公开/公告号	CN107610692B	公开/公告日	2020-07-21
授权日	2020-07-21	预估到期日	2037-09-22
申请年	2017年	公开/公告年	2020年
缴费截止日
分类号	G10L15/02 、G10L15/06 、G10L15/14 、G10L15/20 、G10L25/24 、G10L25/30 、G06N3/08	主分类号	G10L15/02
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	0
权利要求数量	1	非专利引证数量	0
引用专利数量	4	被引证专利数量	0
非专利引证
引用专利	CN107085704A、CN106485205A、CN107103338A、US2015019463A1	被引证专利
专利权维持	5	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	曹九稳、程飞、王建中	第一发明人	曹九稳
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	3
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

朱月芬

摘要

本发明涉及一种基于神经网络堆叠自编码器多特征融合的声音识别方法。首先对原始声音数据进行分帧加窗，对分帧加窗后的数据分别提取其典型的时域线性预测倒谱系数与频域Mel频率倒谱系数特征；再对所提取的特征进行拼接，构建声信号的初步特征表示向量并创建训练特征库；然后采用多层神经网络堆叠自编码器进行特征融合与学习；该多层自编码器采用超限学习机算法学习训练；最后所提取的特征再采用超限学习机分类算法训练得到分类器模型；所构建的模型最后用于测试样本分类识别。本发明采用基于超限学习机多层神经网络堆叠自编码器的多特征融合，相比于传统单一特征提取方法，本发明具有更高的识别精度。

摘要附图

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2020-07-21	授权
2	2018-02-13	实质审查的生效	IPC(主分类): G10L 15/02 专利申请号: 201710864695.1 申请日: 2017.09.22
3	2018-01-19	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于神经网络堆叠自编码器多特征融合的声音识别方法,其特征在于具体包括如下步骤：
(一)模型训练
步骤1、对原始声音数据进行分帧加窗，帧长为N，帧移为加汉明窗；
步骤2、采用LPCC特征提取算法和MFCC特征提取算法对处理过的原始数据分别提取特征，将提取的特征拼接获得R维特征向量；
步骤2-1、使用LPCC特征提取算法对每一帧的声源数据进行特征提取，其中LPCC的阶数即LPCC特征个数,记为RLPCC；
步骤2-2、使用MFCC特征提取算法对每一帧的声源数据进行特征提取，其中MFCC的阶数即MFCC特征个数,记为RMFCC；
步骤2-3、将每一帧提取的LPCC特征和MFCC特征进行拼接，组成RLPCC+RMFCC维的特征向量；
步骤3、将采集到的声源数据按步骤1和2进行处理，得到训练数据集为X＝{x1,x2,···,xP}，其中xi,i＝1,…,P为一帧声源数据的RLPCC+RMFCC维的特征向量，P为总共的样本个数；同时将需要识别的声源类型进行标号，即第一类声源记为1，第二类声源记为2，以此类推，总共有M类声源；然后将训练数据集中的每一个样本对应的声源类号组成集合T＝{t1,t2,···,tP}；
步骤4、将训练数据集X＝{x1,x2,···,xP}作为输入，输入至超限学习机自编码器进行特征融合；记第k个ELM-AE的输入为Xk，其中第1个的ELM-AE的输入X1＝X；假设总共K个ELM-AE，以第k个ELM-AE为例；首先获得第k个ELM-AE的隐藏层输出为Hk＝g(WkXk+bk)，其中Wk为第k个ELM-AE的输入层与隐藏层之间的输入权重矩阵，bk为第k个ELM-AE的隐藏层偏置向量，且Wk和bk均为随机生成，与训练集无关；
步骤5、求解最小化问题
其中，C是一个权衡系数，用来权衡两项之间的权重；βk是第k个ELM-AE的输出权重，即ELM-AE训练出的模型参数；求解上述问题得：
其中，Lk是第k个ELM-AE的隐藏层神经元的数量；
步骤6、求解第k+1个ELM-AE的输入为
步骤7、得到最终的ELM分类器的输入为Xk+1；
步骤8、以Xk+1作为输入，得到ELM分类器的隐藏层输出为HELM＝g(WELMXk+1+bELM)，其中WELM和bELM分别为随机生成的ELM的输入权重和隐藏层偏置向量；求解最小化问题得到输出权重
其中LELM为ELM分类器的隐藏层神经元数量；
(二)声源预测：
对于一个新的未知类型的声源数据，进行如下处理得到其类型：
步骤(1)、采用LPCC特征提取算法和MFCC特征提取算法对未知类型的声源数据进行特征提取，将两种提取的特征进行拼接得到特征向量x；
步骤(2)、求得特征融合的结果xK+1，xK+1＝βKβK-1…β1x；
步骤(3)、得到ELM的隐藏层输出h＝g(WELMxK+1+bELM)；
步骤(4)、获得未知声源的类型为hβELM。

说明书

技术领域

[0001] 本发明涉及声音识别技术领域，尤其涉及一种基于神经网络堆叠自编码器多特征融合的声音识别方法。

背景技术

[0002] 声音识别是人工智能的目标之一，对声音信号能够进行准确的识别分类，对于人工智能的发展起到关键作用。现有的技术中，传统的特征提取加分类器的方法已经得到广泛运用。但特征提取要根据不同类型的声音来选择，由于声音信号来源不同，特征提取的方法也不相同，针对不同声音要有相对应的专业知识选择特征提取方法。此外，某些环境下声音的情况比较复杂，传统的特征提取方法无法取得期望的识别性能。针对声音的差异导致的特征提取方法选择的差异性，最直接的方法是采用多种声音特征提取算法分别对声源进行特征提取，将提取到的多种特征直接进行拼接，然后采用分类器进行训练识别。但这种方法无法保证各个特征之间的无关性，即直接拼接得到的特征向量中存在冗余性，从而使得导致训练的得到的模型分类效果差。模型训练效率低等都是制约声音识别技术领域的难点。

发明内容

[0003] 本发明为了克服上述存在的传统的声音识别技术中的不足，提出了一种基于多层神经网络堆叠自编码器多特征融合的声音识别方法。该方法首先提取典型的声信号时域线性预测倒谱系数(LPCC)与频域Mel频率倒谱系数(MFCC)特征；再对所提取的特征进行拼接，构建声信号的初步特征表示向量并创建训练特征库；然后采用多层神经网络堆叠自编码器(Stacked autoencoder，SAE)进行特征融合与学习；该多层自编码器采用超限学习机算法学习训练；最后所提取的特征再采用超限学习机分类算法训练得到分类器模型。

[0004] 本发明解决其技术问题所采用的技术方案，采用声信号的线性预测倒谱系数和梅尔频率倒谱系数为基础特征构建特征融合算法，具体步骤如下：

[0005] (一)模型训练

[0006] 步骤1、对原始声音数据进行分帧加窗，帧长为N，帧移为加汉明窗；

[0007] 步骤2、采用不同的特征提取算法对处理过的原始数据分别提取不同的特征，将不同的特征拼接获得R维特征向量。

[0008] 步骤3、将采集到的声源数据按步骤1和2进行处理，得到训练数据集为X＝{x1,x2,···,xP}，其中xi,i＝1,L,P为一帧声源数据的RLPCC+RMFCC维的特征向量，P为总共的样本个数。同时将需要识别的声源类型进行标号，即第一类声源记为1，第二类声源记为2，以此类推，总共有M类声源。然后将训练数据集中的每一个样本对应的声源类号组成集合T＝{t1,t2,···,tP}。

[0009] 步骤4、将训练数据集X＝{x1,x2,…,xP}作为输入，输入至超限学习机自编码器(Extreme learning machine based autoencoder,ELM-AE)进行特征融合。记第k个ELM-AE的输入为Xk，特别的，第1个的ELM-AE的输入X1＝X。假设总共K个ELM-AE，以第k个ELM-AE为例。首先获得第k个ELM-AE的隐藏层输出为Hk＝g(WkXk+bk)，其中Wk为第k个ELM-AE的输入层与隐藏层之间的输入权重矩阵，bk为第k个ELM-AE的隐藏层偏置向量，且Wk和bk均为随机生成，与训练集无关。

[0010] 步骤5、求解最小化问题

[0011]

[0012] 其中，C是一个权衡系数，用来权衡两项之间的权重。βk是第k个ELM-AE的输出权重，即ELM-AE训练出的模型参数。求解上述问题得：

[0013]

[0014]

[0015] 其中，Lk是第k个ELM-AE的隐藏层神经元的数量。

[0016] 步骤6、求解第k+1个ELM-AE的输入为

[0017]

[0018] 步骤7、得到最终的ELM分类器的输入为Xk+1。

[0019] 步骤8、以Xk+1作为输入，得到ELM分类器的隐藏层输出为HELM＝g(WELMXk+1+bELM)，其中WELM和bELM分别为随机生成的ELM的输入权重和隐藏层偏置向量。求解最小化问题[0020]

[0021] 得到输出权重

[0022]

[0023]

[0024] 其中LELM为ELM分类器的隐藏层神经元数量。

[0025] (二)声源预测：

[0026] 对于一个新的未知类型的声源数据，我们对它进行如下处理得到其类型：

[0027] 步骤(1)、采用训练中的不同的特征提取算法提取其不同的特征进行拼接，得到特征向量x。

[0028] 步骤(2)、求得特征融合的结果xK+1，xK+1＝βKβK-1L β1x。

[0029] 步骤(3)、得到ELM的隐藏层输出h＝g(WELMxK+1+bELM)。

[0030] 步骤(4)、获得未知声源的类型为hβELM。

[0031] 本发明有益效果如下：

[0032] 使用自编码器相较于传统的声音识别方法，训练效果较好，泛化能力强，基于特征融合的自编码器的超限学习机，效率提升效果明显，对远距离声源识别效果优于传统方法。

[0033] 相比较于传统特征融合算法及单一的特征提取方法，本发明可以有效融合声信号时频域的典型特征，采用随机隐层神经元参数的超限学习机自编码算法能快速实现特征融合与学习，从而有效提高声信号的识别率与计算效率。本发明对复杂的环境噪声的识别性能有明显的改进，而且依据本发明的方法，可以降低特征维数，加快模型训练的速度。

附图说明

[0034] 图1为基于自编码器的极限学习机构建流程；

[0035] 图2为单层的基于自编码器的极限学习机结构图；

[0036] 图3为多隐藏层的基于自编码器的极限学习机结构图。

[0037] 图4为基于多层神经网络堆叠自编码器多特征融合的声音识别方法基本流程。具体实施方式：

[0038] 下面以4种开挖设备(包括手持电动镐、挖掘机、切割机、液压冲击锤)为例，使用线性预测倒谱系数特征(Linear Prediction Cepstrum Coefficients，LPCC)和梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficients,MFCC)这两种特征提取方法，对本发明作进一步说明。以下描述仅作为示范和解释，并不对本发明作任何形式上的限制。

[0039] 模型训练：

[0040] 步骤1、对采集的4种开挖设备作业时的声音数据进行分帧加窗，帧长为N，帧移为加汉明窗得到声音数据库；

[0041] 步骤2、使用LPCC特征提取算法对每一帧的声源数据进行特征提取，其中LPCC的阶数(即LPCC特征个数)我们记为RLPCC。

[0042] 步骤3、使用MFCC特征提取算法对每一帧的声源数据进行特征提取，其中MFCC的阶数我们记为RMFCC。

[0043] 步骤4、将每一帧提取的LPCC特征和MFCC特征进行拼接，组成RLPCC+RMFCC维的特征向量。

[0044] 步骤5、将采集到的声源数据按上述步骤进行处理，得到训练数据集为X＝{x1,x2,···,xP}，其中xi,i＝1,L,P为按上述步骤得到的一帧的RLPCC+RMFCC维的特征向量，P为总共的样本个数。我们将手持电动镐作业时的声音记为第1类，切割机记为第2类，液压冲击锤记为第3类，挖掘机记为第4类，其他声源为噪声，记为第5类。然后我们将训练数据集中的每一个样本对应的声源类号组成集合T＝{t1,t2,···,tP}。

[0045] 步骤6、将训练数据集将训练数据集X＝{x1,x2,···,xP}作为输入，输入至ELM-AE，训练得到K个ELM-AE的输出权重β1,β2,LβK，同时得到特征融合后的数据集XK+1＝βKβK-1Lβ1X。

[0046] 步骤7、以XK+1作为ELM分类器的输入，先随机产生输入权重和隐藏层偏置WELM和bELM。然后得到LM分类器的隐藏层输出为HELM＝g(WELMXK+1+bELM)。最后求解ELM分类器的输出权重为

[0047]

[0048]

[0049] 其中LELM为ELM分类器的隐藏层神经元数量。

[0050] 声源预测：

[0051] 对于一个新的未知类型的声源数据，我们对它进行如下处理得到其类型：

[0052] 步骤1、采用LPCC特征提取算法和MFCC特征提取算法对未知类型的声源数据进行特征提取，将两种提取的特征进行拼接得到特征向量x。

[0053] 步骤2、求得特征融合的结果xK+1为xK+1＝βKβK-1L β1x。

[0054] 步骤3、得到ELM的隐藏层输出h＝g(WELMxK+1+bELM)。

[0055] 步骤4、获得未知声源的类型为hβELM。

首页 > 专利 > 杭州电子科技大学 > 基于神经网络堆叠自编码器多特征融合的声音识别方法专利详情

基于神经网络堆叠自编码器多特征融合的声音识别方法 0 0

技术领域

背景技术

发明内容

附图说明