[0024] 下面结合附图和具体实现方法对本发明作详细的说明,并采用实际工程器械所产生声音信号为例,描述该特征提取算法,此描述仅作为示范和解释,并不对本发明方法作任何形式上的限制。
[0025] 如图1‑9所示,基于声信号语谱图纹理分布的声特征提取方法,具体步骤如下:
[0026] 步骤1:将采集到的声音信号预处理。
[0027] 步骤2:将增强的声音信号以语谱图的形式输出。
[0028] 步骤3:将彩色语谱图转换成灰度图。
[0029] 步骤4:将灰度图二值化处理,转换成对应的二值图。
[0030] 步骤5:根据转换后的二值图纹理分布特征提取相应特征数据。
[0031] 步骤6:通过分类器对提取到的声信号进行训练建模分类。
[0032] 所述步骤1的具体实现包括如下:
[0033] 1.1声音信号的采集及归一化处理
[0034] 声音信号在长时间内属于非平稳过程且是时变的,为了能对声音信号进行特征处理,首先需要对声音信号进行预处理。预处理是整个特征提取算法的基础,也是必不可少的部分。声音信号预处理过程主要包含了声音信号归一化、预加重、分帧和加窗这三个部分。
[0035] 对一维声音信号进行归一化的目的在于减少不同样本之间的差异,并且使得声信号的幅值范围投影到[‑1,1]之间。
[0036] 1.2预加重
[0037] 声音信号在传播过程中高频能量的衰减较快,通常采用预加重技术提高声音信号的高频成分,使得声音信号从低频到高频变得相对平坦。典型的方法是采用一阶高通滤波器提升高频分量,滤波器的响应特性如下:
[0038] H(z)=1‑uz‑1
[0039] 其中系数u的取值范围为[0.9,1]。
[0040] 1.3分帧加窗
[0041] 声音信号在10ms~30ms内被认为是平稳状态,因此为了得到短时信号,对声音信号进行分帧处理,为了防止帧与帧之间的跳变,采用帧重叠使其平稳度过。对每帧信号加上窗函数用来减少频谱泄露现象。
[0042] 声音信号采样归一化后的数据x(n)进行分帧加窗处理。可以采用一定长度的窗函数w(n)乘以声音信号x(n)得到每帧加窗后的信号xi(n),常用的窗函数有汉明窗、汉宁窗和矩形窗。其公式为:
[0043] xi(n)=w(n)*x(n)
[0044] 汉明窗:
[0045]
[0046] 汉宁窗:
[0047]
[0048] 矩形窗:
[0049]
[0050] 所述步骤2的具体实现包括如下:
[0051] 语谱图也称声谱图,是时间和频率的分布图。语谱图不仅体现了声信号的频域和时域特征,还同时展现出时域和频域两者的相互关系,从语谱图上可以观察到频域的一些特征随声音信号的发生而变化的情况;还可以观察到能量随声音过程的变化情况。所以语谱图所承载的声音信号的信息远大于单纯时域信号和单纯频域信号承载的信息。语谱图综合了频谱图和时域波形的特点,明显地显示出了声音频谱随时间的变化情况,或者说语谱图是一种动态的频谱。
[0052] 首先通过矩阵将分帧后的声音信号按帧信号拼接起来,其流程如图4所示;通过本发明方法,我们把声音信号转换成语谱图,将声音信号转换成数字图像来提取其特征,具体提取特征方法见步骤5。
[0053] 所述步骤3的具体实现包括如下:
[0054] 语谱图是一种三维频谱,它是表示声音频谱随时间变化的图形,其纵轴为频率,横轴为时间。对于任意一个给定的频率成分在某时刻的强弱由相应点的灰度或色调的浓淡来表示。由于语谱图数据存在冗余且会对数据处理产生干扰,为便于观察并方便研究语谱图的纹理分布特征。因此,在声信号转换成语谱图进行可视化处理时,本发明将彩色语谱图转成灰色语谱图。以R、G、B为轴建立空间直角坐标系,则彩色语谱图的每个象素的颜色可以用该三维空间的一个点来表示,而灰度图的每个象素的颜色可以用直线R=G=B上的一个点来表示。于是彩色语谱图转换成灰度图的本质就是寻找一个三维空间到一维空间的映射,最容易想到的就是射影:即过彩色语谱图空间的一个点(i,j)向直线R=G=B做垂线。
[0055] 本发明中采用的是对R、G、B分量进行加权平均的算法来进行灰度化处理:
[0056] Gray(i,j)=0.299*R(i,j)+0.578*G(i,j)+0.114*B(i,j)B(i,j)[0057] 所述步骤4的具体实现包括如下:
[0058] 图像二值化是图像分析与处理中最常见最重要的处理手段,对灰色语谱图进行二值化处理可以有效的将语谱图频谱与背景分离。
[0059] 常用的图像二值化方法有固定阈值法和自适应阈值法。固定阈值法是按照经验或实验自己设定阈值,自适应阈值法一般采用最大类间方差法通过计算像素点与邻域像素点的关系得到一个变化的浮动的阈值。本发明采用自适应阈值法对灰色语谱图进行二值化处理。使用最大类间方差法找到图片的一个合适的阈值(threshold)。在使用MATLAB函数将灰度图像转换为二值图像时,需要设定一个阈值,这个函数可以帮助我们获得一个合适的阈值。利用这个阈值通常比人为设定的阈值能更好地把一张灰度图像转换为二值图像。
[0060]
[0061] 其中,Sum是灰度值与其点数的乘积的总和,Amount是灰度值总和。
[0062] 最大类间方差法也被称为自适应阈值法。我们假设T是图像前景和背景的分割阈值。
[0063] u=w0·u0+w1×u1
[0064] 其中w0是指前景占的比例,u0是他的平均灰度值,w1是背景点的比例,u1是其平均灰度值,u是图像的平均灰度。
[0065] 所以,
[0066] g=w0·(u0‑u)2+w1·(u1‑u)2
[0067] 通过以上分析,我们可以得出以下公式:
[0068] g=w0·w1·(u0‑u1)2
[0069] 或者,
[0070]
[0071] 当g取最大值时,前景和背景之间的差异此时可视为最大值。
[0072] 所述步骤5的具体实现包括如下:
[0073] 由图6可以看出,不同器械的声音信号的二值图不论是局部分布情况还是纹理分布方面都有很大的差异,通过利用图像处理技术对不同器械声音信号的二值图纹理特征进行提取。此方法创造性的将数字图像处理的方法运用到对声音信号处理中,从不同的角度分析,对声音信号进行识别。
[0074] 利用上述基于语谱图提取的声信号二值图,本发明提出了基于其纹理特征及分布统计特征等五类新的特征表示方法,分别为:欧拉值参数特征(Euler)、面积分布参数(ADC),垂直分布参数(CDC)、水平分布参数(RDC)以及局部分布参数特征(LDC)。下面给出每一个特征的具体定义,并以实际工程器械所产生的声音信号为例做详细阐述说明。
[0075] 特征1:欧拉值表示一个二进制图像区域中的总数量和连接部分的数量之间的差异。欧拉数可以描述物体的结构。不同的二值图,其对应的欧拉值也是不同的,所以根据不同声音信号的二值图,我们可以计算其对应的欧拉值来表示二值图的一个特征参数。其计算方法如下:
[0076] Euler=V‑E+F
[0077] 其中,V是二进制映射中像素值为1的总数目,E是二进制图中相邻像素值为1的情况的总数,F是二进制图中四个相邻像素值为1的情况的总数。
[0078] 特征2:由不同器械声音信号的二值图纹理分布图7可以看出,不同二值图前景和背景的面积占比有比较大的差异,根据不同声音信号对
[0079] 应二值图统计其相应前景面积值参数来作为一种特征参数,面积分布值的不同代表着不同类型的声音信号。可以以此作为一维特征输入。其,面积求取方法如下:
[0080]
[0081] 其中x、y分别为二值图的像素长度。
[0082] 特征3:由不同器械声音信号的二值图纹理分布图7可以看出,不同声音信号转成的二值图按垂直方向看,不同的像素列对应的面积分布有一定的纹理差异,根据此,我们可以统计出不同声信号二值图的垂直分布情况,以此作为一维特征参数。其垂直分布求取方法如下:
[0083]
[0084] 其中,x、y分别为二值图的像素长度和垂直方向分的像素宽度。
[0085] 特征4:由不同器械声音信号的二值图纹理分布图7可以看出,不同声音信号转成的二值图按水平方向看,不同的像素行对应的面积分布有一定的纹理差异。因此,我们也可以统计出不同声信号二值图的水平分布情况,以此来作为特征参数。其垂直分布求取方法如下:
[0086]
[0087] 其中,x、y分别为二值图的像素长度和水平方向分的像素宽度。
[0088] 特征5:由不同器械声音信号的二值图纹理分布图7可以看出,我们可以把二值图平分成四个小方块区域,分别为左上,左下,右上,右下如图9所示;由不同声音信号转成的二值图可以看出,不同声音信号对应相同局部块的前景面积分布情况差异不同。因此,我们可以分别统计出不同局域块的分布情况,以此来作为区别不同声音信号的一种特征参数,其求取方法如下:
[0089]
[0090] 其中,x,y的取值根据具体区域选取的范围来选择。
[0091] 以上就是基于本发明方法中提及的根据不同声音信号二值图的纹理分布差异等来提取的特征参数。
[0092] 所述步骤6的具体实现包括如下:
[0093] 特征参数选取的好坏决定了不同信号之间的差异性。分类识别是特征提取后的重要环节,好的分类器则决定了识别结果的准确性、稳定性和快速性等各方面的特征。本发明方法中采用ELM极限学习机结合本方法中提及的特征来进行分类,通过对提取的特征参数进行训练分类测试试验。结果证实,将从二值图里提取的纹理等特征能够有效的对不同声音信号进行分类识别。
[0094] 在实际应用中时,本方法的具体实施流程参考图3所示。