实施方案
[0027] 以下参考附图,对本发明的进一步详细阐述。
[0028] 现有音频事件检测模型,以分辨音频所属事件类别为训练目标。提取音频的原始波形序列和声谱图,得到音频的两种表示形式。如此,一个音频有两种储存方式,分别作为音频的的原始波形训练集Dwaveform和音频的声谱图训练集Dspec。最后为数据集中的数据打上相应的所属音频事件的类别标签。数据集示例图,如图2和图3所示。
[0029] 基于不同的数据集,搭建不同的卷积神经网络。音频原始波形序列为一维信号,搭建一维卷积神经网络G1来提取音频原始波形中的特征进行音频事件的分类训练。音频声谱图为二维信号,搭建二维卷积神经网络G2来提取声谱图的特征进行音频事件的分类训练。网络G1和G2的结构如图4所示。
[0030] 每个音频对应的原始波形序列和声谱图分别输入至网络G1和G2,分别提取网络的全连接层数据x1和x2作为从音频的原始波形序列提取的特征向量和从音频声谱图提取的特征向量。两种特征向量训练得到不同的核函数,并将其线性加权获得新的核函数,得到基于多特征融合的多核支持向量机。利用两类特征向量训练此类多核支持向量机,音频数据集共N类音频事件,所以要训练N*(N‑1)个分类器,测试的时候将样本音频的原始波形序列和声谱图通过网络G1和G2得到的特征向量依次送入这10个分类器,采用一对一投票策略,将判定次数最多的类别作为此样本的分类结果。
[0031] 由此,本发明提出了基于卷积神经网络和多核学习SVM的关键音频检测模型。模型结构如图5所示。
[0032] 如图1所示,一种基于卷积神经网络和多核学习SVM的关键音频检测方法,涉及安全监控中遇到的异常音频。其实现过程是:在音频的原始波形序列的数据集和声谱图数据集基础上训练得到一个一维卷积神经网络和一个二维卷积神经网络,提取两个网络的全连接层作为两个网络提取的两类特征的特征向量,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数,以此训练多核支持向量机。测试时将输入网络提取样本音频的两类特征至训练的多核支持向量机,根据判定次数最多的类别作为此样本的分类结果。
[0033] 本发明的优选实施例如下:
[0034] 一种基于卷积神经网络和多核学习SVM的关键音频检测方法,按如下步骤进行:
[0035] 1.处理含有N类音频事件的音频数据集,得到数据集中每个音频所对应的原始波形序列和声谱图,分别整理成单独的原始波形序列数据集Dwaveform和声谱图数据集Dspec,并为数据集中的数据按音频事件的类别打上对应的标签Y;
[0036] 2.建立一维卷积神经网络G1和二维卷积神经网络G2,两个网络的最后两层均为全连接层Lful和Softmax层,网络输出为关于输入数据所属各个音频事件类别的概率向量P,以保证网络训练可靠性;
[0037] 3.训练过程中,输入数据集Dwaveform中数据到一维卷积神经网络,网络Softmax层输出属于各个音频事件类别的概率向量P。根据以下公式 ,更新网络参数:
[0038] 训练过程中,输入数据集Dspec中数据到二维卷积神经网络,网络Softmax层输出属于各个音频事件类别的概率向量P。根据以下公式,更新网络参数:
[0039]
[0040] 4.根据步骤1,2,3可训练得到音频原始波形序列和音频声谱图的两个特征提取模型,分别输入原始波形序列和声谱图,提取网络G1和G2的全连接层作为训练得到的两类特征向量x1和x2;
[0041] 5.根据步骤4得到的每段音频的特征向量x1和x2,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数 其中Km(xi,xj)为第种特征所对应的核函数,dm为这种特征对应的权值,由此得到基于多特征融合的多核支持向量机。
[0042] 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。