[0003] 本发明为了克服上述存在的传统的声音识别技术中的不足,提出了一种基于多层神经网络堆叠自编码器多特征融合的声音识别方法。该方法首先提取典型的声信号时域线性预测倒谱系数(LPCC)与频域Mel频率倒谱系数(MFCC)特征;再对所提取的特征进行拼接,构建声信号的初步特征表示向量并创建训练特征库;然后采用多层神经网络堆叠自编码器(Stacked autoencoder,SAE)进行特征融合与学习;该多层自编码器采用超限学习机算法学习训练;最后所提取的特征再采用超限学习机分类算法训练得到分类器模型。
[0004] 本发明解决其技术问题所采用的技术方案,采用声信号的线性预测倒谱系数和梅尔频率倒谱系数为基础特征构建特征融合算法,具体步骤如下:
[0005] (一)模型训练
[0006] 步骤1、对原始声音数据进行分帧加窗,帧长为N,帧移为 加汉明窗;
[0007] 步骤2、采用不同的特征提取算法对处理过的原始数据分别提取不同的特征,将不同的特征拼接获得R维特征向量。
[0008] 步骤3、将采集到的声源数据按步骤1和2进行处理,得到训练数据集为X={x1,x2,···,xP},其中xi,i=1,L,P为一帧声源数据的RLPCC+RMFCC维的特征向量,P为总共的样本个数。同时将需要识别的声源类型进行标号,即第一类声源记为1,第二类声源记为2,以此类推,总共有M类声源。然后将训练数据集中的每一个样本对应的声源类号组成集合T={t1,t2,···,tP}。
[0009] 步骤4、将训练数据集X={x1,x2,…,xP}作为输入,输入至超限学习机自编码器(Extreme learning machine based autoencoder,ELM-AE)进行特征融合。记第k个ELM-AE的输入为Xk,特别的,第1个的ELM-AE的输入X1=X。假设总共K个ELM-AE,以第k个ELM-AE为例。首先获得第k个ELM-AE的隐藏层输出为Hk=g(WkXk+bk),其中Wk为第k个ELM-AE的输入层与隐藏层之间的输入权重矩阵,bk为第k个ELM-AE的隐藏层偏置向量,且Wk和bk均为随机生成,与训练集无关。
[0010] 步骤5、求解最小化问题
[0011]
[0012] 其中,C是一个权衡系数,用来权衡两项之间的权重。βk是第k个ELM-AE的输出权重,即ELM-AE训练出的模型参数。求解上述问题得:
[0013]
[0014]
[0015] 其中,Lk是第k个ELM-AE的隐藏层神经元的数量。
[0016] 步骤6、求解第k+1个ELM-AE的输入为
[0017]
[0018] 步骤7、得到最终的ELM分类器的输入为Xk+1。
[0019] 步骤8、以Xk+1作为输入,得到ELM分类器的隐藏层输出为HELM=g(WELMXk+1+bELM),其中WELM和bELM分别为随机生成的ELM的输入权重和隐藏层偏置向量。求解最小化问题[0020]
[0021] 得到输出权重
[0022]
[0023]
[0024] 其中LELM为ELM分类器的隐藏层神经元数量。
[0025] (二)声源预测:
[0026] 对于一个新的未知类型的声源数据,我们对它进行如下处理得到其类型:
[0027] 步骤(1)、采用训练中的不同的特征提取算法提取其不同的特征进行拼接,得到特征向量x。
[0028] 步骤(2)、求得特征融合的结果xK+1,xK+1=βKβK-1L β1x。
[0029] 步骤(3)、得到ELM的隐藏层输出h=g(WELMxK+1+bELM)。
[0030] 步骤(4)、获得未知声源的类型为hβELM。
[0031] 本发明有益效果如下:
[0032] 使用自编码器相较于传统的声音识别方法,训练效果较好,泛化能力强,基于特征融合的自编码器的超限学习机,效率提升效果明显,对远距离声源识别效果优于传统方法。
[0033] 相比较于传统特征融合算法及单一的特征提取方法,本发明可以有效融合声信号时频域的典型特征,采用随机隐层神经元参数的超限学习机自编码算法能快速实现特征融合与学习,从而有效提高声信号的识别率与计算效率。本发明对复杂的环境噪声的识别性能有明显的改进,而且依据本发明的方法,可以降低特征维数,加快模型训练的速度。