[0004] 针对目前存在如以上所述的技术问题,本发明提供了一种基于时频域统计特征提取的自然环境声音识别方法。针对不同声音信号如发动机声、汽车喇叭声、建筑施工声、说话声等,根据其能量随时间变化程度的区别和频谱能量分布上的区别,对各类自然环境中的声音进行识别,判断目标声音所属的类别。
[0005] 为了实现上述目的,本发明采用技术方案包括如下步骤:
[0006] 步骤1、采集各类自然环境声音,建立声音样本库;
[0007] 步骤2、声音样本信号的加窗分帧处理;
[0008] 步骤3、提取所有帧信号在时域上的统计特征:平均帧能量变化系数、能量冲击型帧信号占比、平均能量脉冲宽度、脉冲宽度离散程度、平均脉冲间隔宽度、间隔宽度离散程度和脉冲个数,以及在频谱分布上的特征:频带能量分量占比、频带帧能量分布离散程度和总频带帧能量分布离散程度,组成特征向量;
[0009] 步骤4、标记特征向量所属声音来源的种类,建立样本特征库;
[0010] 步骤5、利用支持向量机训练特征向量,建立训练模型;
[0011] 步骤6,提取目标声音的特征向量;
[0012] 步骤7、利用支持向量机对目标声音的特征向量进行匹配分类;
[0013] 步骤8、提供识别结果。
[0014] 所述步骤1的建立声音样本库:将声音采集装置放置在户外施工现场,按照不同的距离采集自然环境声音,并给声音标定其所属自然环境声音的种类后作为声音样本库。自然环境声音包括:发动机声、汽车喇叭声、建筑施工声、说话声和现场风噪声。
[0015] 所述步骤2的声音样本信号的加窗分帧处理:首先对声音进行滤波处理,使用高通滤波器滤除50Hz以下的低频干扰信号;再将声音分为一秒钟每段,对每一段声音加Hamming窗做分帧处理,每帧选取256个采样点,为了保持帧信号间的连续性,帧移选取为128个采样点。
[0016] 所述步骤3的所有帧信号在时域上的统计特征提取过程如下:
[0017] 3-1.设fs为采样频率,每秒的连续声音信号s(t)经过采样后离散化为s[n],设对每秒信号进行分帧处理的帧长为N,帧移为 总帧数为NF。则第i帧信号si(n)的短时帧能量计算公式为:
[0018]
[0019] 3-2.对所有帧能量中位值以下的帧能量取平均值,记为Emed-ave,则:
[0020]
[0021] 其中Emedian为所有帧能量的中位值,而Nlower为能量在中位值以下的帧的个数,El表示中位值以下的帧能量。
[0022] 3-3.对信号s[n]做傅里叶变换,得到频谱分布信息,短时傅里叶变换的公式为:
[0023]
[0024] 其中,Si(k)是第i帧信号si(n)的STFT。
[0025] 3-4.根据不同种类的自然环境声音在每帧时域能量和频谱分布上的特点,取其统计值作为每段声音的特征。每帧信号时域能量帧能量变化系数公式表示为 它反映的是帧信号的能量冲击程度。为使各类自然环境声音之间具有区别性,滤除低于帧能量平均值的帧 后 ,取 所有帧 信号的平均帧 能量变化 系数作为 特征I ,即其中, 为所有帧能量的平均值,mean(·)为对集合中的元素求平均值。
[0026] 3-5.根据不同声音信号的特点,设定一个帧能量冲击系数的阈值T,将信号分为能量冲击型帧信号和非冲击型帧信号,滤除低于帧能量平均值的帧后,统计一段自然环境声音的冲击型能量帧信号所占比例,作为特征II,即
[0027]
[0028] 其中,Eave表示所有帧能量的平均值,crad(·)表示求集合中元素的个数。
[0029] 由于不同的声音信号能量波形具有不同的脉冲特性,利用平均帧能量截取信号的能量波形,即高于平均能量的帧用平均能量替代,截取后的帧能量公式为:
[0030]
[0032] 3-7.计算所有脉冲的宽度均值作为特征III,即mean(TERda);计算所有脉冲之间的间隔宽度的平均值作为特征IV,即mean(IoPda);计算所有脉冲的宽度变异系数作为特征V,即 计算所有脉冲间隔宽度的变异系数作为特征VI,即 计算所有脉冲的个数作为特征VII,即I。
[0033] 由于不同声音信号的频谱分布不同,其能量集中在不同的频带上,因此将每帧信号按照频率划分为三个频带,分别记为[k1,k2]、[k3,k4]、[k5,k6],整段信号s(n)在第k频带的能量公式为:
[0034]
[0035] 其中, 为短时傅里叶变换后,第i帧信号在第k频带的能量分量。信号s(n)在所有频带的总能量为:
[0036]
[0037] 因此能够计算第一个频带的能量占总频带比重,作为一段声音信号的特征VIII,即 计算第二个频带能量占总能量的比重作为特征IX,即 计算第三个频带能量占总能量的比重作为特征X,即
[0038] 由于不同声音信号频谱特性,一段声音信号中,如说话声,建筑施工声的帧能量之间有高低间隔的情况出现,而发动机的帧能量近似平均,即不同声音信号帧能量的离散程度不同,且在不同频带有区别。因此,为了反映各类声音的在不同帧信号之间的各频带和总能量上分布的离散程度,计算总频带所有帧能量的变异系数作为特征XI,即计算第一个频带所有帧能量的变异系数作为特征XII,即计算第二个频带所有帧能量的变异系数作为特征XIII,即
计算第三个频带所有帧能量的变异系数作为特征XIV,即
[0039] 将以上14个特征组成一个14维向量,作为一段声音信号的特征向量。
[0040] 步骤4的建立样本特征库:从声音样本库中提取每一类自然环境声音样本的特征,并给每类声音的特征标定其所属种类。
[0041] 所述步骤5的建立训练模型:是利用支持向量机对样本特征库进行训练,得到训练模型。
[0042] 所述步骤6的提取目标声音特征向量:目标声音的特征提取和使用和样本声音特征提取完全相同的过程。
[0043] 所述步骤7的匹配分类:利用支持向量机对目标声音的特征向量与训练模型进行模式匹配,给出判断结果。
[0044] 本发明的有益效果如下:
[0045] 本发明的基于时频域统计特征提取的自然环境声音识别方法,由声音的特性入手,在短时帧分析的基础上,提取帧信号在时域和频谱上的特征,弥补了传统的声音LPCC和MFCC特征提取方法在时频结合方面的不足,满足自然环境声音的识别要求。利用本发明的基于时频域统计特征提取的自然环境声音识别方法能够提高识别效果。