首页 > 专利 > 杭州电子科技大学 > 基于时频域统计特征提取的自然环境声音识别方法专利详情

基于时频域统计特征提取的自然环境声音识别方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2016-08-04

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2017-02-01

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2019-11-22

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2036-08-04

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201610634966.X	申请日	2016-08-04
公开/公告号	CN106297770B	公开/公告日	2019-11-22
授权日	2019-11-22	预估到期日	2036-08-04
申请年	2016年	公开/公告年	2019年
缴费截止日
分类号	G10L15/02 、G10L15/06 、G10L15/08 、G10L25/03 、G10L25/45 、G10L25/51	主分类号	G10L15/02
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	6
权利要求数量	7	非专利引证数量	0
引用专利数量	7	被引证专利数量	0
非专利引证
引用专利	CN102708861A、CN105118516A、CN105139852A、CN101599271A、CN102254552A、EP2860706A2、EP1100073A2	被引证专利
专利权维持	6	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	曹九稳、徐茹、王建中、王天磊、曾焕强	第一发明人	曹九稳
地址	浙江省杭州市下沙高教园区2号大街	邮编	310018
申请人数量	1	发明人数量	5
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

杜军

摘要

本发明公开了一种基于时频域统计特征提取的自然环境识别方法。本发明包括如下步骤：步骤1、采集各类自然环境的声音，如发动机、汽车喇叭、风噪声等，建立声音样本库；步骤2、声音样本信号的加窗分帧处理；步骤3、提取所有帧信号在时域上的统计特征；步骤4、标记特征向量所属声音来源的种类，建立样本特征库；步骤5、利用支持向量机训练特征向量，建立训练模型；步骤6，提取目标声音的特征向量；步骤7、利用支持向量机对目标声音的特征向量进行匹配分类；步骤8、提供识别结果。本发明弥补了传统的声音LPCC和MFCC特征提取方法在时频结合方面的不足，能够判断各类目标声音的所属类型。

摘要附图
说明书附图：图1
说明书附图：图2

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2019-11-22	授权
2	2017-02-01	实质审查的生效	IPC(主分类): G10L 15/02 专利申请号: 201610634966.X 申请日: 2016.08.04
3	2017-01-04	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于时频域统计特征提取的自然环境声音识别方法，其特征在于包括如下步骤：
步骤1、采集各类自然环境声音，建立声音样本库；
步骤2、声音样本信号的加窗分帧处理；
步骤3、提取所有帧信号在时域上的统计特征：平均帧能量变化系数、能量冲击型帧信号占比、平均能量脉冲宽度、脉冲宽度离散程度、平均脉冲间隔宽度、间隔宽度离散程度和脉冲个数，以及在频谱分布上的特征：频带能量分量占比、频带帧能量分布离散程度和总频带帧能量分布离散程度，组成特征向量；
步骤4、标记特征向量所属声音来源的种类，建立样本特征库；
步骤5、利用支持向量机训练特征向量，建立训练模型；
步骤6，提取目标声音的特征向量；
步骤7、利用支持向量机对目标声音的特征向量进行匹配分类；
步骤8、提供识别结果；
所述步骤3的所有帧信号在时域上的统计特征提取过程如下：
3-
1.设fs为采样频率，每秒的连续声音信号s(t)经过采样后离散化为s[n]，设对每秒信号进行分帧处理的帧长为N，帧移为总帧数为NF；则第i帧信号si(n)的短时帧能量计算公式为：
3-
2.对所有帧能量中位值以下的帧能量取平均值，记为Emed-ave，则：
其中Emedian为所有帧能量的中位值，而Nlower为能量在中位值以下的帧的个数，El表示中位值以下的帧能量；
3-
3.对信号s[n]做傅里叶变换，得到频谱分布信息，短时傅里叶变换的公式为：
其中，Si(k)是第i帧信号si(n)的短时傅里叶变换STFT；
3-
4.根据不同的自然环境声音在每帧时域能量和频谱分布上的特点，取其统计值作为每段声音的特征；每帧信号时域能量帧能量变化系数公式表示为用于反映帧信号的能量冲击程度；在滤除低于帧能量平均值的帧后，取所有帧信号的平均帧能量变化系数作为特征I，即其中，为所有帧能量的
平均值，mean(·)为对集合中的元素求平均值；
3-
5.根据不同自然环境的特点，设定一个帧能量冲击系数的阈值T，将信号分为能量冲击型帧信号和非冲击型帧信号，滤除低于帧能量平均值的帧后，统计一段自然环境声音的冲击型能量帧信号所占比例，作为特征II，即
其中，Eave表示所有帧能量的平均值，crad(·)表示求集合中元素的个数；
由于不同的声音信号帧能量波形具有不同的脉冲特性，利用平均帧能量截取信号的能量波形，即高于平均能量的帧用平均能量替代，截取后的帧能量公式为：
3-
6.对将被截断的各帧的序号存入一个向量a，a中的数值是递增的，即a(k)＜a(k+1)；
设da(k)＝a(k+1)-a(k)，k＝1，…，K-1，其中，K是被截断的帧的总个数；根据定义，将da表示为其中，为li维向量，表
示有li个1，而Δi＞1是截断能量帧的不连续点，i＝1，…I是1-vector的数量，即这段信号的脉冲数量；因此脉冲的宽度脉冲之间的间隔宽度
3-
7.计算所有脉冲的宽度均值作为特征III，即计算所有脉冲之间的
间隔宽度的平均值作为特征IV，即计算所有脉冲的宽度变异系数作为特
征V，即计算所有脉冲间隔宽度的变异系数作为特征VI，即计算
所有脉冲的个数作为特征VII，即I；
3-
8.由于不同声音信号的频谱分布不同，其能量集中在不同的频带上，因此将每帧信号按照频率划分为三个频带，分别记为[k1，k2]、[k3，k4]、[k5，k6]，整段信号s(n)在第k频带的能量公式为：
其中，为短时傅里叶变换后，第i帧信号在第k频带的能量分
量；信号s(n)在所有频带的总能量为：
因此能够计算第一个频带的能量占总频带比重，作为一段自然环境声音信号的特征VIII，即计算第二个频带能量占总能量的比重作为特征IX，即计算第三个频带能量占总能量的比重作为特征X，即
由于不同声音信号的频谱特性，为了反映自然环境声音在不同帧信号之间的各频带和总能量上分布的离散程度，计算总频带所有帧能量的变异系数作为特征XI，即计算第一个频带所有帧能量的变异系数作为特征XII，即
计算第二个频带所有帧能量的变异系数作为特征XIII，即
计算第三个频带所有帧能量的变异系数作为特征XIV，即
将以上14个特征组成一个14维向量，作为一段声音信号的特征向量。

2.根据权利要求1所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于在提取所有帧信号在时域上的统计特征前，对声音样本信号的加窗分帧处理：首先对声音进行滤波处理，使用高通滤波器滤除50Hz以下的低频干扰信号；再将声音分为一秒钟每段，对每一段声音加Hamming窗做分帧处理，每帧选取256个采样点，为了保持帧信号间的连续性，帧移选取为128个采样点。

3.根据权利要求2所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于声音样本信号来源于声音样本库，将声音采集装置放置在户外施工现场，按照不同的距离采集自然环境声音，并给声音标定其所属自然环境声音的种类后作为声音样本库。

4.根据权利要求3所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于从声音样本库中提取每一类自然环境声音样本的特征，并给每类声音的特征标定其所属种类，形成样本特征库。

5.根据权利要求4所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于利用支持向量机对样本特征库进行训练，得到训练模型。

6.根据权利要求5所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于提取目标声音的特征向量，目标声音的特征向量的提取使用和样本声音特征提取完全相同的过程。

7.根据权利要求6所述的基于时频域统计特征提取的自然环境声音识别方法，其特征在于利用支持向量机对目标声音的特征向量与训练模型进行模式匹配，给出判断结果。

说明书

技术领域

[0001] 本发明属于声音信号识别技术领域，尤其涉及一种基于时频域统计特征提取的自然环境声音识别方法。

背景技术

[0002] 近年来自然环境声音的识别取得了广泛的关注，自然环境中充满了多种声音，如车辆行驶中的发动机声和汽车喇叭声，建筑工地上的施工声音，人的说话声，鸟虫鸣叫声，风雨声等。自然环境声音的识别是机器监控的一个重要部分，对建设智慧城市和发展智能家居也有重要的作用。

[0003] 目前的自然环境声音识别技术，在特征提取方面使用的技术大多借鉴于语音识别算法，包括：线性预测倒谱系数(LPCC)、梅尔频率倒谱系数(MFCC)、过零率(ZCR)等。但此类特征用于语音信号的识别，是以语音的短时平稳性为基础的，自然环境中的声音却并非都具有短时平稳性。同时，由于声音信号在传播中的的衰减效应，单一的时域特征如LPCC、ZCR或者单一的频域特征如MFCC，都不能够准确的描述不同距离下的自然环境声音信号。因此，语音识别的特征提取方法，在对自然环境声音的识别方面并不能完全适用。

发明内容

[0004] 针对目前存在如以上所述的技术问题，本发明提供了一种基于时频域统计特征提取的自然环境声音识别方法。针对不同声音信号如发动机声、汽车喇叭声、建筑施工声、说话声等，根据其能量随时间变化程度的区别和频谱能量分布上的区别，对各类自然环境中的声音进行识别，判断目标声音所属的类别。

[0005] 为了实现上述目的，本发明采用技术方案包括如下步骤：

[0006] 步骤1、采集各类自然环境声音，建立声音样本库；

[0007] 步骤2、声音样本信号的加窗分帧处理；

[0008] 步骤3、提取所有帧信号在时域上的统计特征：平均帧能量变化系数、能量冲击型帧信号占比、平均能量脉冲宽度、脉冲宽度离散程度、平均脉冲间隔宽度、间隔宽度离散程度和脉冲个数，以及在频谱分布上的特征：频带能量分量占比、频带帧能量分布离散程度和总频带帧能量分布离散程度，组成特征向量；

[0009] 步骤4、标记特征向量所属声音来源的种类，建立样本特征库；

[0010] 步骤5、利用支持向量机训练特征向量，建立训练模型；

[0011] 步骤6，提取目标声音的特征向量；

[0012] 步骤7、利用支持向量机对目标声音的特征向量进行匹配分类；

[0013] 步骤8、提供识别结果。

[0014] 所述步骤1的建立声音样本库：将声音采集装置放置在户外施工现场，按照不同的距离采集自然环境声音，并给声音标定其所属自然环境声音的种类后作为声音样本库。自然环境声音包括：发动机声、汽车喇叭声、建筑施工声、说话声和现场风噪声。

[0015] 所述步骤2的声音样本信号的加窗分帧处理：首先对声音进行滤波处理，使用高通滤波器滤除50Hz以下的低频干扰信号；再将声音分为一秒钟每段，对每一段声音加Hamming窗做分帧处理，每帧选取256个采样点，为了保持帧信号间的连续性，帧移选取为128个采样点。

[0016] 所述步骤3的所有帧信号在时域上的统计特征提取过程如下：

[0017] 3-1.设fs为采样频率，每秒的连续声音信号s(t)经过采样后离散化为s[n]，设对每秒信号进行分帧处理的帧长为N，帧移为总帧数为NF。则第i帧信号si(n)的短时帧能量计算公式为：

[0018]

[0019] 3-2.对所有帧能量中位值以下的帧能量取平均值，记为Emed-ave，则：

[0020]

[0021] 其中Emedian为所有帧能量的中位值，而Nlower为能量在中位值以下的帧的个数，El表示中位值以下的帧能量。

[0022] 3-3.对信号s[n]做傅里叶变换，得到频谱分布信息，短时傅里叶变换的公式为：

[0023]

[0024] 其中，Si(k)是第i帧信号si(n)的STFT。

[0025] 3-4.根据不同种类的自然环境声音在每帧时域能量和频谱分布上的特点，取其统计值作为每段声音的特征。每帧信号时域能量帧能量变化系数公式表示为它反映的是帧信号的能量冲击程度。为使各类自然环境声音之间具有区别性，滤除低于帧能量平均值的帧后，取所有帧信号的平均帧能量变化系数作为特征I ，即其中，为所有帧能量的平均值，mean(·)为对集合中的元素求平均值。

[0026] 3-5.根据不同声音信号的特点，设定一个帧能量冲击系数的阈值T，将信号分为能量冲击型帧信号和非冲击型帧信号，滤除低于帧能量平均值的帧后，统计一段自然环境声音的冲击型能量帧信号所占比例，作为特征II，即

[0027]

[0028] 其中，Eave表示所有帧能量的平均值，crad(·)表示求集合中元素的个数。

[0029] 由于不同的声音信号能量波形具有不同的脉冲特性，利用平均帧能量截取信号的能量波形，即高于平均能量的帧用平均能量替代，截取后的帧能量公式为：

[0030]

[0031] 3-6.对将被截断的各帧的序号存入一个向量a，a中的数值是递增的，即a(k)向量，表示有li个1，而Δi>1是截断能量帧的不连续点，i＝1,…I是1-vector的数量，即这段信号的脉冲数量。因此脉冲的宽度脉冲之间的间隔宽度

[0032] 3-7.计算所有脉冲的宽度均值作为特征III，即mean(TERda)；计算所有脉冲之间的间隔宽度的平均值作为特征IV，即mean(IoPda)；计算所有脉冲的宽度变异系数作为特征V，即计算所有脉冲间隔宽度的变异系数作为特征VI，即计算所有脉冲的个数作为特征VII，即I。

[0033] 由于不同声音信号的频谱分布不同，其能量集中在不同的频带上，因此将每帧信号按照频率划分为三个频带，分别记为[k1,k2]、[k3,k4]、[k5,k6]，整段信号s(n)在第k频带的能量公式为：

[0034]

[0035] 其中，为短时傅里叶变换后，第i帧信号在第k频带的能量分量。信号s(n)在所有频带的总能量为：

[0036]

[0037] 因此能够计算第一个频带的能量占总频带比重，作为一段声音信号的特征VIII，即计算第二个频带能量占总能量的比重作为特征IX，即计算第三个频带能量占总能量的比重作为特征X，即

[0038] 由于不同声音信号频谱特性，一段声音信号中，如说话声，建筑施工声的帧能量之间有高低间隔的情况出现，而发动机的帧能量近似平均，即不同声音信号帧能量的离散程度不同，且在不同频带有区别。因此，为了反映各类声音的在不同帧信号之间的各频带和总能量上分布的离散程度，计算总频带所有帧能量的变异系数作为特征XI，即计算第一个频带所有帧能量的变异系数作为特征XII，即计算第二个频带所有帧能量的变异系数作为特征XIII，即
计算第三个频带所有帧能量的变异系数作为特征XIV，即

[0039] 将以上14个特征组成一个14维向量，作为一段声音信号的特征向量。

[0040] 步骤4的建立样本特征库：从声音样本库中提取每一类自然环境声音样本的特征，并给每类声音的特征标定其所属种类。

[0041] 所述步骤5的建立训练模型：是利用支持向量机对样本特征库进行训练，得到训练模型。

[0042] 所述步骤6的提取目标声音特征向量：目标声音的特征提取和使用和样本声音特征提取完全相同的过程。

[0043] 所述步骤7的匹配分类：利用支持向量机对目标声音的特征向量与训练模型进行模式匹配，给出判断结果。

[0044] 本发明的有益效果如下：

[0045] 本发明的基于时频域统计特征提取的自然环境声音识别方法，由声音的特性入手，在短时帧分析的基础上，提取帧信号在时域和频谱上的特征，弥补了传统的声音LPCC和MFCC特征提取方法在时频结合方面的不足，满足自然环境声音的识别要求。利用本发明的基于时频域统计特征提取的自然环境声音识别方法能够提高识别效果。

实施方案

[0048] 下面结合的具体实施方式对本发明作详细说明，以下描述仅作为示范和解释，并不对本发明作任何形式上的限制。

[0049] 如图1和2所示，基于时频域统计特征提取的自然环境声音(如：发动机声，汽车喇叭声，建筑施工声，说话声)识别方法具体实施方式的步骤如下：

[0050] 步骤1、将采样频率为fs的声音采集装置放置在距离声源点不同距离处，多次采集每类自然环境的声音，标定声音所属类型后作为声音样本库。

[0051] 步骤2、将声音样本进行预处理，通过高通滤波器，滤除50Hz以下的低频干扰信号，再将声音分帧为分为一秒钟每段，并对每段信号加Hamming窗做分帧处理，每帧选取256个采样点，帧移选取为128个采样点。

[0052] 步骤3、组成样本特征向量步骤，分析每帧信号在时域及频谱上的特性，选取分析结果的统计值作为特征组成特征向量，具体分步操作如下：

[0053] (1)每秒的连续声音信号s(t)经过采样后离散化为s[n]，对每秒信号进行分帧处理的帧长为N，帧移为总帧数为NF。第i帧信号si(n)的短时帧能量为对所有帧能量中位值以下的帧能量取平均值，记为 E m ed - a v e ，则其中Emedian为所有帧能量的中位值，而Nlower为
能量在中位值以下的帧的个数，El表示中位值以下的帧能量。对信号做短时傅里叶变换：
其中，Si(k)是第i帧信号si(n)的STFT，
得到信号频谱分布信息。

[0054] (2)计算每帧的能量变化系数：统计一段声音内的帧能量冲击程度的平均值：作为特征I；

[0055] (3)选取能量大于Emed-ave的所有帧信号，帧能量变化系数的阈值以设定4.1为例，将选取的帧信号分为能量冲击型帧和非能量冲击型帧，统计一段声音中能量冲击型帧信号所占的比例：作为特征量II；

[0056] (4)取所有帧能量的平均值Eave，用Eave截取帧能量波形，得到截取的帧能量：将被截断的各帧的序号存入一个向量a，计算da(k)＝a(k+
1)-a(k),k＝1,…,K-1，其中，K是被截断的帧的总个数。将da表示为这种形式：
其中，为li维向量，表
示有li个1，而Δi>1是截断能量帧的不连续点，i＝1,…I是1-vector的数量，即这段信号的脉冲数量。因此截取脉冲的宽度截取脉冲之间的间隔宽度

[0057] 计算所有脉冲的宽度均值：作为特征III；计算所有脉冲之间的间隔宽度的平均值作为特征IV；计算所有脉冲宽度的变异系数：
作为特征V；计算所有脉冲间隔宽度的变异系数：作为特征VI；
计算所有脉冲的个数：I，作为特征VII。

[0058] (5)计算短时傅里叶变换后，第i帧信号在第k频带的能量分量：信号s(n)在所有频带的总能量：将
信号划分为[k1,k2]、[k3,k4]、[k5,k6]三个频带，计算整段信号s(n)在第k频带的能量：

[0059] 计算第一个频带的能量占总频带比重：作为一段自然环境声音信号的特征VIII；计算第二个频带能量占总能量的比重：作为特征IX；计算第三个频带能量占总能量的比重作为特征X。

[0060] 计算总频带所有帧能量的变异系数：作为特征XI；计算第一个频带所有帧能量的变异系数：作为特征XII；计
算第二个频带所有帧能量的变异系数：作为特征XIII；计算
第三个频带所有帧能量的变异系数：作为特征XIV。

[0061] 将以上14个特征组成14维向量，作为一段声音信号的特征向量。

[0062] 步骤4、提取所有类型声音的特征向量，标定所属种类，建立样本声音的特征向量库；

[0063] 步骤5、利用支持向量机对样本特征库进行分类训练，建立训练模型；

[0064] 步骤6、使用与样本声音同样的采集装置采集目标声音，按照与声音样本同样的步骤提取目标声音的特征向量；

[0065] 步骤7、利用支持向量机将目标声音的特征向量与已建立的训练模型做匹配，提供分类结果；

[0066] 步骤8、目标声音识别结果步骤，根据支持向量机提供的分类结果判断目标声音所属的来源种类。

附图说明

[0046] 图1为本发明方法流程图；

[0047] 图2为本发明方法中的特征提取流程图；

1一种基于声音诱发脑电信号的说话人识别方法 2基于声音信号的特种车辆行驶车道识别与自车变道决策系统及方法