首页 > 专利 > 杭州电子科技大学 > 一种基于卷积神经网络和多核学习SVM的关键音频检测方法专利详情

一种基于卷积神经网络和多核学习SVM的关键音频检测方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2019-04-19
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2019-08-16
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-08-20
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2039-04-19
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN201910319987.6 申请日 2019-04-19
公开/公告号 CN110047506B 公开/公告日 2021-08-20
授权日 2021-08-20 预估到期日 2039-04-19
申请年 2019年 公开/公告年 2021年
缴费截止日
分类号 G10L25/30G10L25/03G10L25/48G06K9/62G06N3/04 主分类号 G10L25/30
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 4
权利要求数量 5 非专利引证数量 1
引用专利数量 3 被引证专利数量 0
非专利引证 1、2017.09.21CN 109633588 A,2019.04.16CN 108764316 A,2018.11.06CN 108460395 A,2018.08.28Na Ying et al.A New ImprovedAlgorithm of Speech Enhancement Based onMCRA and Noncausal a Priori SNREstimator《.International Conference onMechatronics, Electronic, Industrial andControl Engineering (MEIC 2014)》.2014, Shaobo Li et al.An Ensemble StackedConvolutional Neural Network Model forEnvironmental Event Sound Recognition. 《applied sciences》.2018,第8卷(第7期),李昊奇等.基于深度信念网络和线性单分类SVM 的高维异常检测《.电信科学》.2018,(第1期),胡涛.基于卷积神经网络的异常音频事件检测的研究《.中国优秀硕士学位论文全文数据库信息科技辑》.2018,(第08期),王金华等.基于语谱图提取深度空间注意特征的语音情感识别算法《.电信科学》.2019,(第7期),;
引用专利 US2018/0260699A、US2018/0181881A、US2017/0270406A 被引证专利
专利权维持 3 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 朱宸都、应娜、李怡菲、蔡哲栋、刘兆森、杨鹏 第一发明人 朱宸都
地址 浙江省杭州市经济技术开发区白杨街道2号大街1158号 邮编 310018
申请人数量 1 发明人数量 6
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
浙江千克知识产权代理有限公司 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
周希良
摘要
本发明提出一种基于卷积神经网络和多核学习SVM的关键音频检测方法,包括步骤:S1:处理音频数据集,得到音频原始波形序列数据集和音频声谱图数据集;S2:建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络;S3:使用音频的原始波形序列数据集和声谱图数据集分别训练一维和二维卷积神经网络,得到对应的两个特征提取的网络模型;S4:输入音频的原始波形序列和声谱图分别至对应的两个网络模型,提取对应的特征;S5:输入两类特征至多核支持向量机,构建基于特征融合模型的核函数,进行音频分类。本发明所述检测方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合,提高了检测识别准确率。
  • 摘要附图
    一种基于卷积神经网络和多核学习SVM的关键音频检测方法
  • 说明书附图:[转续页]
    一种基于卷积神经网络和多核学习SVM的关键音频检测方法
  • 说明书附图:图1
    一种基于卷积神经网络和多核学习SVM的关键音频检测方法
  • 说明书附图:图2
    一种基于卷积神经网络和多核学习SVM的关键音频检测方法
  • 说明书附图:图3
    一种基于卷积神经网络和多核学习SVM的关键音频检测方法
  • 说明书附图:图4
    一种基于卷积神经网络和多核学习SVM的关键音频检测方法
  • 说明书附图:图5
    一种基于卷积神经网络和多核学习SVM的关键音频检测方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2021-08-20 授权
2 2019-08-16 实质审查的生效 IPC(主分类): G10L 25/30 专利申请号: 201910319987.6 申请日: 2019.04.19
3 2019-07-23 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于卷积神经网络和多核学习SVM的关键音频检测方法,其特征在于,包括步骤:
S1:处理音频数据集,得到音频原始波形序列数据集和音频声谱图数据集;
S2:分别建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络;
S3:使用音频原始波形序列数据集和音频声谱图数据集分别训练一维卷积神经网络和二维卷积神经网络,得到对应的两个特征提取的网络模型;
S4:输入音频的原始波形序列和声谱图分别至对应的两个网络模型,提取得到对应的特征;
S5:输入两类特征至多核支持向量机,构建基于特征融合模型的核函数,进行音频分类。

2.如权利要求1所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法,其特征在于,所述步骤S3具体实施步骤如下:
S3.1:音频原始波形序列输入至一维卷积神经网络中,输出该波形对应于各个音频类别的可能性,随着网络输入端和输出端的数据不断更新,更新网络参数,直到训练结束;
S3.2:音频声谱图输入至二维卷积神经网络中,输出该声谱图对应于各个音频类别的可能性,随着网络输入端和输出端的数据不断更新,更新网络参数,直到训练结束。

3.如权利要求1所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法,其特征在于:
所述音频原始波形序列数据集和音频声谱图数据集均含有多种类别音频事件,每个类别的音频数量相同。

4.如权利要求1所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法,其特征在于:
所述一维卷积神经网络和二维卷积神经网络结构中均包含卷基层、池化层和Batch Normalization层。

5.如权利要求4所述的一种基于卷积神经网络和多核学习SVM的关键音频检测方法,其特征在于:
所述多核支持向量机,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数。
说明书

技术领域

[0001] 本发明属于音频监控技术领域,主要涉及安防领域,具体来说,即安防领域下音频监控中的关键音频检测方法。

背景技术

[0002] 随着多媒体技术发展,越来越多公共场所安装了音频监控以保障公共安全。声音信息中包含了不亚于图像信息的信息量,通过监控识别公共场合声音信息,可以迅速发现所关注的事件,从而做出应对。声音信息具有良好的实时性,对视频监控具有良好的辅助作用。
[0003] 卷积神经网络本质上是多层感知机模型的简单扩展,然而对于他们系统架构的更改带来更多的不同,使得他们更加适合用于图片分类,典型的卷积神经网络包含众多的网络层堆叠在一起:输入层、一群卷基层和池化层,有限数量的全连接层和输出层。
[0004] 多核学习是一种特征融合方法,可以处理异质或不规则数据,巨大的样本量,样本的不均匀分布以及其他问题,在多核学习中,多种特征被组织成组,并且每个组拥有自己的核函数。这些不同的核函数被组合成一个新的核函数,该核函数用于分类器中。

发明内容

[0005] 本发明提出一种基于卷积神经网络和多核学习SVM的音频事件检测方法,利用多核学习方法将卷积神经网络从音频语谱图和音频原始波形中提取的特征进行融合的方法,以达到两种特征互补来提高音频事件检测识别准确率的目的。
[0006] 为达到上述技术目的,本发明采取如下技术方案:
[0007] 一种基于卷积神经网络和多核学习SVM的关键音频检测方法,包括步骤:
[0008] S1:处理音频数据集,得到音频原始波形序列数据集和音频声谱图数据集;
[0009] S2:分别建立提取音频原始波形序列特征的一维卷积神经网络和提取音频声谱图特征的二维卷积神经网络;
[0010] S3:使用音频的原始波形序列数据集和声谱图数据集分别训练一维卷积神经网络和二维卷积神经网络,得到对应的两个特征提取的网络模型;
[0011] S4:输入音频的原始波形序列和声谱图分别至对应的两个网络模型,提取得到对应的特征;
[0012] S5:输入两类特征至多核支持向量机,构建基于特征融合模型的核函数,进行音频分类。
[0013] 进一步地,所述步骤S3具体实施步骤如下:
[0014] S3.1:音频原始波形序列输入至一维卷积神经网络中,输出该波形对应于各个音频类别的可能性,随着网络输入端和输出端的数据不断更新,更新网络参数,直到训练结束;
[0015] S3.2:音频声谱图输入至二维卷积神经网络中,输出该声谱图对应于各个音频类别的可能性,随着网络输入端和输出端的数据不断更新,更新网络参数,直到训练结束。
[0016] 进一步地,所述数据集中含有多种类别音频事件,各个类音频数量大约相同,都是安全监控中的关键音频事件;
[0017] 进一步地,所述一维和二维卷积神经网络结构中均包含卷基层,池化层和Batch Normalization层;
[0018] 进一步地,所述多核支持向量机,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数。
[0019] 本发明与现有技术相比,具有如下优点:
[0020] 1.本发明以深度学习的方法直接从音频的原始波形序列和声谱图中提取相应特征,使得特征对于目标类别更具有相关性。
[0021] 2.本发明采用特征融合的方法,分别从音频时域特征和频域特征着手,使得特征具有互补性并且提高识别准确率。

实施方案

[0027] 以下参考附图,对本发明的进一步详细阐述。
[0028] 现有音频事件检测模型,以分辨音频所属事件类别为训练目标。提取音频的原始波形序列和声谱图,得到音频的两种表示形式。如此,一个音频有两种储存方式,分别作为音频的的原始波形训练集Dwaveform和音频的声谱图训练集Dspec。最后为数据集中的数据打上相应的所属音频事件的类别标签。数据集示例图,如图2和图3所示。
[0029] 基于不同的数据集,搭建不同的卷积神经网络。音频原始波形序列为一维信号,搭建一维卷积神经网络G1来提取音频原始波形中的特征进行音频事件的分类训练。音频声谱图为二维信号,搭建二维卷积神经网络G2来提取声谱图的特征进行音频事件的分类训练。网络G1和G2的结构如图4所示。
[0030] 每个音频对应的原始波形序列和声谱图分别输入至网络G1和G2,分别提取网络的全连接层数据x1和x2作为从音频的原始波形序列提取的特征向量和从音频声谱图提取的特征向量。两种特征向量训练得到不同的核函数,并将其线性加权获得新的核函数,得到基于多特征融合的多核支持向量机。利用两类特征向量训练此类多核支持向量机,音频数据集共N类音频事件,所以要训练N*(N‑1)个分类器,测试的时候将样本音频的原始波形序列和声谱图通过网络G1和G2得到的特征向量依次送入这10个分类器,采用一对一投票策略,将判定次数最多的类别作为此样本的分类结果。
[0031] 由此,本发明提出了基于卷积神经网络和多核学习SVM的关键音频检测模型。模型结构如图5所示。
[0032] 如图1所示,一种基于卷积神经网络和多核学习SVM的关键音频检测方法,涉及安全监控中遇到的异常音频。其实现过程是:在音频的原始波形序列的数据集和声谱图数据集基础上训练得到一个一维卷积神经网络和一个二维卷积神经网络,提取两个网络的全连接层作为两个网络提取的两类特征的特征向量,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数,以此训练多核支持向量机。测试时将输入网络提取样本音频的两类特征至训练的多核支持向量机,根据判定次数最多的类别作为此样本的分类结果。
[0033] 本发明的优选实施例如下:
[0034] 一种基于卷积神经网络和多核学习SVM的关键音频检测方法,按如下步骤进行:
[0035] 1.处理含有N类音频事件的音频数据集,得到数据集中每个音频所对应的原始波形序列和声谱图,分别整理成单独的原始波形序列数据集Dwaveform和声谱图数据集Dspec,并为数据集中的数据按音频事件的类别打上对应的标签Y;
[0036] 2.建立一维卷积神经网络G1和二维卷积神经网络G2,两个网络的最后两层均为全连接层Lful和Softmax层,网络输出为关于输入数据所属各个音频事件类别的概率向量P,以保证网络训练可靠性;
[0037] 3.训练过程中,输入数据集Dwaveform中数据到一维卷积神经网络,网络Softmax层输出属于各个音频事件类别的概率向量P。根据以下公式 ,更新网络参数:
[0038] 训练过程中,输入数据集Dspec中数据到二维卷积神经网络,网络Softmax层输出属于各个音频事件类别的概率向量P。根据以下公式,更新网络参数:
[0039]
[0040] 4.根据步骤1,2,3可训练得到音频原始波形序列和音频声谱图的两个特征提取模型,分别输入原始波形序列和声谱图,提取网络G1和G2的全连接层作为训练得到的两类特征向量x1和x2;
[0041] 5.根据步骤4得到的每段音频的特征向量x1和x2,采用不同的特征向量来得到不同的核函数,并将其线性加权获得新的核函数 其中Km(xi,xj)为第种特征所对应的核函数,dm为这种特征对应的权值,由此得到基于多特征融合的多核支持向量机。
[0042] 以上显示和描述了本发明的基本原理和主要特征和本发明的优点。本行业的技术人员应该了解,本发明不受上述实施例的限制,上述实施例和说明书中描述的只是说明本发明的原理,在不脱离本发明精神和范围的前提下,本发明还会有各种变化和改进,这些变化和改进都落入要求保护的本发明范围内。本发明要求保护范围由所附的权利要求书及其等效物界定。本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代,但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

附图说明

[0022] 图1是本发明所述检测方法流程图;
[0023] 图2是音频原始波形序列数据集示例图;
[0024] 图3是音频声谱图数据集示例图;
[0025] 图4是生成网络G1和G2的结构图;
[0026] 图5是音频事件检测模型的流程图。
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号