首页 > 专利 > 杭州电子科技大学 > 基于十字形声阵列宽带波束形成的声识别方法专利详情

基于十字形声阵列宽带波束形成的声识别方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2016-06-12

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2016-11-09

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2019-08-27

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2036-06-12

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201610409905.3	申请日	2016-06-12
公开/公告号	CN106023996B	公开/公告日	2019-08-27
授权日	2019-08-27	预估到期日	2036-06-12
申请年	2016年	公开/公告年	2019年
缴费截止日
分类号	G10L17/20 、G01H17/00	主分类号	G10L17/20
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	3
权利要求数量	4	非专利引证数量	1
引用专利数量	5	被引证专利数量	0
非专利引证	1、Emanuël A. P. Habets 等.Multi-microphone noise reduction usinginterchannel and interframe correlations. 《2012 IEEE International Conference onAcoustics, Speech and Signal Processing》.2012,第305-308页. 赵拓等.基于△MFCC和KNN的挖掘设备声音识别《.工业控制计算机》.2016,第29卷(第4期),第110-112页.;
引用专利	CN1697018A、CN102664010B、CN105445723A、US2014278412A1、CN105139852A	被引证专利
专利权维持	6	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	王天磊、王建中、曹九稳、赖晓平	第一发明人	王天磊
地址	浙江省杭州市下沙高教园区2号大街	邮编	310027
申请人数量	1	发明人数量	4
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

杭州君度专利代理事务所

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

杜军

摘要

本发明公开了一种基于十字形声阵列宽带波束形成的声识别方法。本发明包括如下步骤：1、将十字形声阵列对准所需方向采集声音信号；2、对采集到声音信号进行预处理；3、对预处理后的每一帧数据进行离散傅里叶变换，然后根据需要的频带进行频带提取；4、提取的各频带分别在所需方向上进行LSMI‑MVDR波束形成。5、将波束形成后的频域信号进行逆离散傅里叶变换；6、对应分帧时的原则进行帧重叠合成，输出信号；7、对输出信号进行特征提取和分类学习、识别。本发明能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号，将其用于声音识别系统的信号处理阶段，能够有效的提高识别系统对识别对象的识别率和可靠性。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2019-08-27	授权
2	2016-11-09	实质审查的生效	IPC(主分类): G10L 17/20 专利申请号: 201610409905.3 申请日: 2016.06.12
3	2016-10-12	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.基于十字形声阵列宽带波束形成的声识别方法,其特征在于包括如下步骤：
步骤1、将十字形声阵列对准所需方向采集4通道声音信号；
步骤2、对采集到的4通道声音信号进行预处理，包括分帧、加窗；
步骤3、对预处理后的每一帧数据进行离散傅里叶变换，离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取；
步骤4、提取的各频带分别在所需方向上进行LSMI-MVDR波束形成；
步骤5、将波束形成后的频域信号进行逆离散傅里叶变换；
步骤6、对应分帧时的原则进行帧重叠合成，输出信号；
步骤7、对输出信号进行特征提取和分类学习、识别；
所述的步骤1：将十字形声阵列的其中一个通道对准声源方向，作为LSMI-MVDR宽带波束形成的方向，采集4通道声音信号，采样频率记为fs；
所述的步骤2：预处理包括数据的分帧、加窗，对声音信号进行分帧，声音信号每帧选取
1024个采样点，帧移为512个采样点；然后采用汉明窗对声音信号进行加窗；
所述的步骤3：通过FFT来实现信号的离散傅里叶变换，其中，每一帧信号经过FFT后频率分辨率为第p个通道的第m帧信号经过FFT后的结果为：
其中，L＝1024为每一帧的长度，为第p个通道第m帧的信号，k为各个频带的编号，其对应的中心频率为：
然后，根据声音信号的频率特性，选取相应的频率带，信号所在的频率带为[f1，f2]，则提取FFT后的k所在的区间为

2.根据权利要求1所述的基于十字形声阵列宽带波束形成的声识别方法,其特征在于所述的步骤4：设第k个频带的中心频率为fk，则对于十字形阵列，首先将十字形阵列建立在直角坐标系下，则十字形阵列接收到的第m帧信号在时域内表示为：
其中，S(t)为声源信号，它的方位角为θ；为方向矢量；
是噪声向量；ω为S(t)的中心角频率，τp(θ)是第p个阵元相对于参考点即坐标原点的延时，其中,p＝1,2,3,4；对于十字形声阵列，其值为：
c是声音在空气中的传播速度，r是十字形声阵列的半径；
将(1)式进行离散傅里叶变换得到在频域下表示方式为
其中，k＝0，1，...，L-1；a(θ，fk)是中心频率为fk的第k个频带所对应的方向矢量，即对于MVDR波束形成原理，表述为在保证期望方向θde的信号功率不变的情况下，使得阵列输出的功率最小，即
其中，R＝E[X(k)XH(k)]是接收信号在频域下的自相关矩阵；在实际应用中，用估计值来替代R，估计值的计算如下：
其中NF表示声音信号的帧数；
因此，MVDR波束形成的最佳权矢量wopt为：
是一个比例系数；
为了提高MVDR波束形成的稳健性，使用基于对角加载的改进MVDR波束形成算法，其原理是在自相关矩阵的对角线上增加一个加载量，即
从而，改进的最佳权矢量wLSMI变为
波束形成后的第m帧频域信号Y(m)(k)为：

3.根据权利要求2所述的基于十字形声阵列宽带波束形成的声识别方法,其特征在于所述的步骤5：将第m帧频域信号Y(m)(k)通过逆离散傅里叶变换转换到时域，其中逆离散傅里叶变换通过IFFT来实现，其中第m帧时域信号y(m)(i)为：

4.根据权利要求3所述的基于十字形声阵列宽带波束形成的声识别方法,其特征在于所述的步骤6：将经过逆离散傅里叶变换的各帧声音信号按照分帧时的原则进行重叠，然后再输出信号；其中：第一帧信号不变，后面每一帧信号去掉前面的512个点，只保留后512个点，然后再添加到前一帧信号后面。

说明书

技术领域

[0001] 本发明属于信号处理技术领域，尤其涉及一种基于十字形声阵列宽带波束形成的声识别方法。

背景技术

[0002] 传统的单传声器声识别系统中，存在以下几个问题：

[0003] 1.声识别系统只需要对某一个方向的信号进行识别，然而由于单个传声器的全向性，当识别对象并不在该方向附近时，识别系统依然会被触发，从而造成了误警。

[0004] 2.在真实的复杂环境中，识别对象附近存在多种干扰声源以及严重的背景噪声，这就会造成系统的整体识别率急剧下降，误警率、漏警率会急剧上升。

[0005] 3.在实际应用中，为了提高识别系统的作用区域的极限距离，就会使用高灵敏度的传声器，然而高灵敏的传声器势必会导致背景噪声的增强，从而造成对远距离的识别率并不会有着明显的增高，反而会下降。

发明内容

[0006] 针对以上问题，本发明提供了一种基于十字形声阵列宽带波束形成的声识别方法。

[0007] 为了实现上述目的，本发明采用的技术方案包括如下步骤：

[0008] 步骤1、将十字形声阵列对准所需方向采集4通道声音信号；

[0009] 步骤2、对采集到的4通道声音信号进行预处理，包括分帧、加窗；

[0010] 步骤3、对预处理后的每一帧数据进行离散傅里叶变换，离散傅里叶变换后的4通道声音信号根据需要的频带进行频带提取；

[0011] 步骤4、提取的各频带分别在所需方向上进行LSMI-MVDR波束形成；

[0012] 步骤5、将波束形成后的频域信号进行逆离散傅里叶变换；

[0013] 步骤6、对应分帧时的原则进行帧重叠合成，输出信号；

[0014] 步骤7、对输出信号进行特征提取和分类学习、识别。

[0015] 所述的步骤1：将十字形声阵列的其中一个通道对准声源方向，作为LSMI-MVDR宽带波束形成的方向，采集4通道声音信号，采样频率记为fs。

[0016] 所述的步骤2：预处理包括数据的分帧、加窗，对声音信号进行分帧，声音信号每帧选取1024个采样点，帧移为512个采样点；然后采用汉明窗对声音信号进行加窗；

[0017] 所述的步骤3：通过FFT来实现信号的离散傅里叶变换，其中，每一帧信号经过FFT后频率分辨率为第p个通道的第m帧信号经过FFT后的结果为：

[0018]

[0019] 其中，L＝1024为每一帧的长度，为第p个通道第m帧的信号，k为是各个频带的编号，其对应的中心频率为：

[0020]

[0021] 然后，根据声音信号的频率特性，选取相应的频率带，比如信号所在的频率带为[f1,f2]，则我们提取FFT后的k所在的区间为

[0022] 所述的步骤4：设第k个频带的中心频率为fk，则对于十字形阵列，首先将十字形阵列建立在直角坐标系下，则十字形阵列接收到的第m帧信号在时域内表示为：

[0023]

[0024] 其中，S(t)为声源信号，它的方位角为θ；为方向矢量；是噪声向量；ω为S(t)的中心角频率，τp(θ)(p＝1,2,3,4)是第p个阵元相
对于参考点即坐标原点的延时，对于十字形声阵列，其值为：

[0025]

[0026] c是声音在空气中的传播速度，r是十字形声阵列的半径。

[0027] 将(1)式进行离散傅里叶变换得到在频域下表示方式为

[0028]

[0029] 其中，k＝0,1,...,L-1；a(θ,fk)是中心频率为fk的第k个频带所对应的方向矢量，即

[0030]

[0031] 对于MVDR波束形成原理，表述为在保证期望方向θde的信号功率不变的情况下，使得阵列输出的功率最小，即

[0032]

[0033] 其中，R＝E[X(k)XH(k)]是接收信号在频域下的自相关矩阵。在实际应用中，用估计值来替代R，估计值的计算如下：

[0034]

[0035] 其中NF表示声音信号的帧数。

[0036] 因此，MVDR波束形成的最佳权矢量wopt为：

[0037]

[0038] 是一个比例系数。

[0039] 为了提高MVDR波束形成的稳健性，我们使用基于对角加载的改进MVDR波束形成算法，其原理是在自相关矩阵的对角线上增加一个加载量，即

[0040]

[0041] 从而，改进的最佳权矢量wLSMI变为

[0042]

[0043] 波束形成后的第m帧频域信号Y(m)(k)为：

[0044]

[0045] 所述的步骤5：将第m帧频域信号Y(m)(k)通过逆离散傅里叶变换转换到时域，其中逆离散傅里叶变换通过IFFT来实现，其中第m帧时域信号y(m)(i)为：

[0046]

[0047] 所述的步骤6：将经过逆离散傅里叶变换的各帧声音信号按照分帧时的原则进行重叠，然后再输出信号；其中：第一帧信号不变，后面每一帧信号去掉前面的512个点，只保留后512点，然后再添加到前一帧信号后面。

[0048] 所述的步骤7：将输出信号作为原始信号，进行特征提取和分类学习、识别。其中，声音的特征提取算法主要有线性预测倒谱系数(Linear Prediction Cepstral Coefficients，LPCC)或者梅尔频率倒谱系数(Mel Frequency Cepstrum Coefficient,MFCC)等，而分类学习识别算法主要有支持向量机(Support Vector Machine，SVM)或者极限学习机(Extreme Learning Machine，ELM)等。

[0049] 本发明有益效果如下：

[0050] 本发明使用4通道十字形声阵列采集声音信号数据进行LSMI-MVDR宽带波束形成，能够提高期望方向接收信号的信噪比并且抑制其他方向的干扰信号，达到空间滤波和噪声抑制的效果，提高的接收信号的信干噪比，非常有效的解决了上述的提到的缺陷，将其用于声音识别系统的信号处理阶段，可以有效的提高识别系统对识别对象的识别率和可靠性。

实施方案

[0055] 下面结合附图和具体实施方式对本发明作详细说明，以下描述仅作为示范和解释，并不对本发明作任何形式上的限制。

[0056] 如图4所示为4通道十字形声阵列建立在直角坐标系下的结构图，其中d为两个相邻传声器的间距；r为十字形阵列的半径；S(t)为声源，它的方向为θ；图中的A、B、C、D分别对应于通道1、通道2、通道3、通道4。假设只需要识别0度方向的信号，则将十字形声阵列的通道1对准0度方向，即在图4中，使得声源位于x轴正半轴上，然后采集信号，总共会采集到4个通道的信号，分别记为x1(t)，x2(t)，x3(t)，x4(t)。

[0057] 图2展示了基于LSMI-MVDR算法的宽带波束形成的实现流程图，按照图2中的步骤，我们首先将4通道信号分别进行分帧加窗，其中帧长为1024，帧移为512，加汉明窗。

[0058] 将4通道的每一帧后的数据通过FFT算法进行离散傅里叶变换。第p个通道的第m帧信号FFT后的结果为，

[0059]

[0060] 第k个频带对应的中心频率为

[0061]

[0062] 假设，我们需要进行波束形成的信号频带的区间为[f1,f2],则对应的频带编号k的区间为其中floor为向下取整函数。然后取出各通道同一帧下k对应的FFT结果写成向量形式，比如我们取出各通道第m帧信号第k个频带为

[0063]

[0064] 接下来以第k个频带为例来讲述LSMI-MVDR波束形成，其他的频带都通过同样的方法来进行LSMI-MVDR波束形成。

[0065] 首先，我们需要估计接收信号的自相关矩阵，通过

[0066]

[0067] 来进行估计，其中NF为采集的信号分帧后的总帧帧数。然后计算期望方向(本例中是0度方向)的方向矢量a(0°,fk)，其中fk表示第k个频带的中心频率，a(0°,fk)的计算公式为

[0068]

[0069] 得到自相关矩阵和方向矢量后，就可以计算LSMI-MVDR波束形成的最优权矢量的比例系数μ，其值为

[0070]

[0071] 然后我们需要确认对角加载量λ的值，该值可以通过组成十字形声阵列的传声器参数以及各传声器的幅相响应的差别来确定，或者也可以根据LSMI-MVDR波束形成后的波束响应图来不断进行调整以确定一个比较好的加载量λ。当λ被确定后，就可以计算LSMI-MVDR波束形成的最优权矢量，公式为

[0072]

[0073] 将第k个频带下求出的最优权矢量分别对每一帧信号的第k个频带信号进行处理，得到这一帧信号的LSMI-MVDR波束形成结果

[0074]

[0075] 通过同样的方法对其他频带进行LSMI-MVDR波束形成。

[0076] 将各帧下LSMI-MVDR波束形成后的各频带合成在一起进行逆离散傅里叶变换，通过IFFT进行，IFFT后的第m帧信号结果为

[0077]

[0078] 最后，需要将各帧信号进行合成输出，由于我们分帧时采取的帧移是512个点，即有512个点的重叠。因此，在将各帧信号进行重叠输出时，也需要采取同样的方式。首先，第1帧信号不做改变，从第二帧信号开始，我们只取后512个点，而前512个点我去舍去，然后将后512个采样点叠加到上一帧的尾端。通过这种方式就完成了信号的合成。

[0079] 经过LSMI-MVDR波束形成后的数据就可以作为声识别系统的输入进行特征提取以及分类学习识别的输入。图3展示了识别系统的特征提取、模型库建立和识别部分的流程示意图。在这里我们以LPCC特征提取和SVM分类学习算法为例来说明，其中，我们使用16阶LPCC系数，SVM的核函数我们选取径向基函数(Radial Basis Function，RBF)，需要进行识别的声音类型有A1，A2，A3三种类型。

[0080] 首先，我们将经过LSMI-MVDR波束形成后的声音进行分帧加窗。然后求得每帧信号的12阶线性预测系数(Linear Prediction Coefficients，LPC)值，其中LPC值可以采用Levinson-Durbin算法来求解。接下来通过LPCC值与LPC值的对应关系求得16阶的LPCC值。

[0081] 所述的声指纹库建立方法如下：

[0082] 对每帧信号提取出来的16阶LPCC值按行排列，然后在前面加入一列作为类标，标号‘0’代表A1，‘1’代表A2，‘2’代表A3。从而构成一个17阶的特征向量。

[0083] 用现有的libsvm库来实现SVM算法，选取RBF作为分类器函数；RBF有两个参数：惩罚因子c以及参数gamma，可以通过libsvm的网格搜索函数opti_svm_coeff选取出最优数值。

[0084] 训练过程使用libsvm库中的svmtrain函数，包含四个参数：特征向量，用上述提取出的有标号的LPCC值；核函数类型，选用RBF核函数；RBF核函数参数c和gamma，使用网格搜索法确定；调用svmtrain后会得到一个名为model的变量，这一变量保存了训练所得模型信息，即所述的声指纹库，将这一变量保存下来供下一步识别用。

[0085] 而声音的识别是通过libsvm库中的svmtest来实现的，将每帧信号得到的LPCC值用libsvm的svmtest函数进行智能分类，svmtest有三个参数：第一个为类标，用来测试识别率用的(在对未知类型的声音进行识别时，该参数不具有实际意义)；第二个为特征向量，即存储LPCC值的变量，第三个为匹配模型，就是上述步骤训练过程svmtrain函数的返回值。调用svmtest得到的返回值就是分类所得结果，即类标，从而能确定产生这一声音的设备类型。

[0086] 在实际应用中时，将实际采集到的声信号先进行LSMI-MVDR波束形成算法进行滤波，然后提取特征与已建立的声指纹库进行比较，来做到识别。其具体流程图见图1。

附图说明

[0051] 图1是本发明提出的基于4通道十字形声阵列LSMI-MVDR宽带波束形成的声识别方法的流程图

[0052] 图2是基于LSMI-MVDR算法的宽带波束形成的流程图

[0053] 图3是识别系统的特征提取、模型库建立和识别部分的流程示意图

[0054] 图4为4通道十字形声阵列建立在直角坐标系下的结构图

1信号处理方法和系统 2一种热超声信号处理装置 3一种桥梁施工信号处理装置 4一种抗浪涌、增益可调、带信号隔离的信号处理电路 5一种临时交通信号灯的信息处理装置 6一种突发信号处理方法及系统 7一种音频信号的传输处理方法 8触摸屏的信号处理方法及装置 9一种基于参考信号移相的激光外差干涉信号处理方法 10MIMO系统中的单用户多天线信号收发系统及其信号处理方法