首页 > 专利 > 南京信息工程大学 > 一种基于一致聚焦变换最小二乘法的双声源定位方法专利详情

一种基于一致聚焦变换最小二乘法的双声源定位方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2015-11-10

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2016-03-02

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2017-09-22

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2035-11-10

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201510763229.5	申请日	2015-11-10
公开/公告号	CN105301563B	公开/公告日	2017-09-22
授权日	2017-09-22	预估到期日	2035-11-10
申请年	2015年	公开/公告年	2017年
缴费截止日
分类号	G01S5/18	主分类号	G01S5/18
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	3
权利要求数量	4	非专利引证数量	1
引用专利数量	3	被引证专利数量	0
非专利引证	1、全文. 陈洪光.稳健的阵列处理波达方向估计算法研究《.中国博士学位论文全文数据库信息科技辑》.2008,(第07期),第35-36页. 郭业才等.基于圆形麦克风阵列的声源定位改进算法《.Journal of Data Acquisition andProcessing》.2015,第30卷(第2期),第344-349页.;
引用专利	EP0831458A2、GB2114744A、CN104076331A	被引证专利
专利权维持	2	专利申请国编码	CN
专利事件		事务标签	公开、实质审查、授权

申请人信息

申请人	南京信息工程大学	第一申请人	南京信息工程大学
专利权人	南京信息工程大学	当前专利权人	南京信息工程大学
发明人	郭业才、宋宫琨琨、禹胜林	第一发明人	郭业才
地址	江苏省南京市建邺区奥体大街69号	邮编
申请人数量	1	发明人数量	3
申请人所在省	江苏省	申请人所在市	江苏省南京市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

南京经纬专利商标代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

许方

摘要

本发明公开了一种基于一致聚焦变换最小二乘法的双声源定位方法，在该方法中，用先设计的六元圆形麦克风阵列采集声源信号，并获得采集信号的协方差矩阵；利用频率范围的中心频率点定义聚焦变换矩阵，并由最小二乘方法求解聚焦变换矩阵；利用不同带宽内的中心频率点、一致聚焦矩阵及多信号分类方法，获得每个中心频率点所对应的信号空间谱，再利用频率点均值和时间快拍估计方法（MUSIC）求得信号空间谱平均估计值，从而获求声源方位角估计值。本发明方法声源定位估计准确性高，有效克服了方位模糊问题。

摘要附图
说明书附图：图1
说明书附图：图2
说明书附图：图3
说明书附图：图4
说明书附图：图5
说明书附图：图6
说明书附图：图7
说明书附图：图8

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2017-09-22	授权
2	2016-03-02	实质审查的生效	IPC(主分类): G01S 5/18 专利申请号: 201510763229.5 申请日: 2015.11.10
3	2016-02-03	公开

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于一致聚焦变换最小二乘法的双声源定位方法，其特征在于，包括如下步骤：
步骤一：采用M个相同麦克风等间距的排列成半径为R的圆形麦克风阵列；
步骤二：根据麦克风阵列采集到的语音信号，得到信号的协方差矩阵，并在给定频率范围内定义中心频率点kb；具体如下：
(201)、对第d个声源发出的语音信号sd(t)进行采样，得到第m个麦克风采集到的离散信号xdm(t)，其中，t为时间，d＝1,2，…,D，D表示声源的个数，m＝1,2，…,M；
(202)、根据(201)中采集到的离散信号xdm(t)，经傅里叶变换后得到输入信号矢量X(k)T T
为X(k)＝(X1(k),…,XM(k)) ，Xm(k)＝(X1m(k),…,XDm(k)) ，信号的协方差矩阵为CX＝E[X(k)X(k)H]；
其中，k为波数且 f为频率，c为声波传播的速度，上标T为转置运算符，Xdm(k)表示xdm(t)的傅里叶变换，E[*]为期望的运算符，上标H为厄密共轭运算符；
(203)、在给定频率范围内划分频率间隔相等的B个子带，第b个子带的中心频率为kb，其中，b＝1,…,B；
步骤三：根据预设的一定测量范围内的任意角度，存在一个不随角度变化的一致聚焦变换，定义一致聚焦变换矩阵，并通过最小二乘方法求得聚焦变换矩阵；具体如下：
(301)根据带宽内定义的任意中心频率点kb以及给定的聚焦频率点k0，定义一致聚焦变换矩阵T(r,kb)，得到
V(r,θ,k0)＝T(r,kb)V(r,θ,kb)
其中，V(r,θ,k0)表示声源距离阵列中心的距离为r、方位角度为θ、聚焦频率点为k0的导向矢量矩阵，V(r,θ,kb)表示声源距离阵列中心的距离为r、方位角度为θ、中心频率点为kb的导向矢量矩阵；
(302)采用最小二乘方法，得到一致聚焦变换矩阵为
T(r,kb)＝R(r,kb)L(r,kb)
其中，T(r,kb)表示声源距离阵列中心的距离为r，中心频率点为kb的一致聚焦变换矩阵，R(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的左奇异矢量矩阵，L(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的右奇异矢量矩阵；
步骤四：根据步骤二中定义的中心频率点，结合最小二乘法求得的一致聚焦变换矩阵，采用MUSIC方法求得每个中心频率点所对应的信号空间谱，进而求得信号空间谱的均值函数harray(θ)；harray(θ)经下面公式得到，
其中，UN(r)表示声源位置矢量的噪声子空间矩阵，下标N表示噪声，下标array表示阵列；
步骤五：采用频率点均值和时间快拍估计的方法求得信号空间谱平均估计值，进而求得声源估计角度；具体如下：
(501)、采用时间快拍估计方法得到协方差矩阵CX的近似值
其中，t′＝T0,2T0…表示时间系数，T0表示时间间隔，W表示窗口的长度，表示输入信号在时间间隔为T0时、第l个傅里叶级数的近似值，为取整运算符；
(502)、根据求得信号空间谱平均估计值即
其中，表示声源位置矢量的噪声子空间矩阵UN(r)的近似值；
信号空间谱平均估计值的峰值所对应的角度即为声源估计角度

2.根据权利要求1所述的一种基于一致聚焦变换最小二乘法的双声源定位方法，其特征在于，所述(202)中的c＝343m.s-1。

3.根据权利要求1所述的一种基于一致聚焦变换最小二乘法的双声源定位方法，其特征在于，所述(203)中的B＝180。

4.根据权利要求1所述的一种基于一致聚焦变换最小二乘法的双声源定位方法，其特征在于，所述步骤三中一定测量范围内的任意角度为-90°～90°。

说明书

技术领域

[0001] 本发明涉及声源定位领域，特别是一种基于一致聚焦变换最小二乘法的双声源定位方法。

背景技术

[0002] 在阵列信号处理中，利用波达方向(Direction of Arrival，DOA)估计声源位置是一个新的研究方向，在声呐探测(见文献：王燕,邹男,梁国龙.强多途环境下水听器阵列位置近场有源校正方法[J].物理学报,2015,64(2):024304 1-10)，语音识别与追踪(见文献：戚聿波,周士弘,张仁和,任云.一种基于β-warping变换算子的被动声源距离估计方法[J].物理学报,2015,64(7):074301 1-6)，在未知环境中机器人的移动(见文献：居太亮.基于麦克风阵列声源定位算法研究[D].博士学位论文(成都：电子科技大学),2006)，以及下一代助听器等(见文献：苏林,马力,宋文化,郭圣明,鹿力成.声速剖面对不同深度声源定位的影响[J].物理学报,2015,64(2):024302 1-8)领域中都成为研究的热点，精确的DOA估计在许多应用中都是其中的关键要素之一(见文献：时洁,杨德森,时胜国.基于矢量阵的运动声源柱面聚焦定位方法试验研究[J].物理学报,2012,61(12):124302 1-15)。其中，最常见的是在电话会议中，通过知晓说话者扬声器的位置信息来引导相机，或者利用波束形成方法来增强捕获到的源信号，以避免翻领式麦克风带来的不便(见文献：Despoina Pavlidi,Anthony Griffin,Matthieu Puigt,Athanasios Mouchtaris.Real-time multiple sound source localization and counting using a circular microphone array[J].IEEE Transactions on Audio,Speech,and Language Processing,2013,21(10):2193-2206.)。

[0003] 在声源定位的早期研究中，主要针对单个声源进行定位的(见文献：Ali Pourmohammad,Seyed Mohammad Ahadi.Real time high accuracy 3-D PHAT-based sound source localization using a simple 4-microphone arrangement[J].IEEE Systems Journal,2012,6(3):455-468)。很多方法都是基于不同麦克风对间的到达时差(Time Difference of Arrival，TDOA)进行单声源定位的，其中广义互相关变换(Generalized Cross-Correlation PHAse Transform，GCC-PHAT)的方法是应用最为广泛的(见文献：Qilian Liang,Baoju Zhang,Chenglin Zhao,Yiming Pi.TDOA for passive localization underwater versus terrestrial environment[J].IEEE Transactions Parallel and Distributed Systems,2013,24(10):2100-2108)。文献(Jingdong Chen,Jacob Benesty,Yiteng Huang.Time delay estimation in room acoustic environments:an overview[J].EURASIP Journal on Applied Signal Processing,2006,26503:1-19)给出了TDOA方位估计技术的综述；在单声源中，由于存在噪声、混响等的干扰，会影响麦克风对间采集的信号，使定位估计结果精度下降，文献(Francesco Nesta,Maurizio Omologo.Generalized state coherence transform for multidimensional TDOA estimation of multiple sources[J].IEEE Transactions on Audio,Speech,and Language Processing,2012,20(1):246-260.)给出了改进的TDOA估计方法。进一步研究发现，同时定位多个声源是一个更困难的问题。事实上，即使是一个短暂的声音都会使采集到的语音信号存在微小的重叠，可能会导致多个源信号的定位不精确(见文献：Jacek P.Dmochowski,Jacob Benesty,Sofiene Affes.Broadband MUSIC：Opportunities and challenges for multiple source localization[C].IEEE Workshop on Applications of Signal Processing to Audio and Acoustics,2007:18-21)。对于多声源定位问题，一种是传统的多信号分类(Multiple Signal Classification，MUSIC)方法，属于经典子空间方法，该方法针对窄带信号，根据采集到信号的子空间协方差矩阵，进行特征分解，进而估计源信号方位(见文献：Dumidu S.Talagala,Wen Zhang.Broadband DOA Estimation Using Sensor Arrays on Complex-Shaped Rigid Bodies[J].IEEE Transactions on Audio,Speech,and Language Processing,2013,21(8):1573-1585.)，由于语音信号的频率带宽一般为[300Hz，3000Hz]，经典子空间方法只是针对窄带信号的，会导致声源定位结果不准确；另一种是基于独立分量分析的源定位方法，该方法首先运用盲源分离(Blind Source Separation，BSS)方法获得分离后单个信号，然后再运用对单个源信号进行定位的方法进行定位估计(见文献：Anthony Lombard,Yuanhang Zheng,Herbert Buchner,Walter Kellermann.TDOA Estimation for Multiple Sound Sources in Noisy and Reverberant Environments Using Broadband Independent Component Analysis[J].IEEE Transactions on Audio,Speech,and Language Processing,2011,19(6):1490-
1503.)，但此类源定位方法，由于将语音信号先分离再定位，会破坏源信号的完整性，会使定位结果不稳定、定位精确度不高。另外，随着麦克风个数的增加，波达方向(DOA)估计的定位精度也会随之提高，但在实际情况下，通常使用线性麦克风阵列模型，会产生定位模糊问题(无法准确区分声源位于阵列的前方或者后方)。

[0004] 如何解决现有技术的不足已成为声源定位领域亟待解决的一大难题。

发明内容

[0005] 本发明所要解决的技术问题是为了克服现有技术的不足，而提供一种基于一致聚焦变换最小二乘法的双声源定位方法，本发明方法实时、有效地解决多声源定位问题，在一定程度上降低了噪声、混响等对语音信号的干扰，提高了定位的精度与稳定性。

[0006] 本发明为解决上述技术问题采用以下技术方案：

[0007] 根据本发明提出的一种基于一致聚焦变换最小二乘法的双声源定位方法，包括如下步骤：

[0008] 步骤一：采用M个相同麦克风等间距的排列成半径为R的圆形麦克风阵列；

[0009] 步骤二：根据麦克风阵列采集到的语音信号，得到信号的协方差矩阵，并在给定频率范围内定义中心频率点kb；

[0010] 步骤三：根据预设的一定测量范围内的任意角度，存在一个不随角度变化的一致聚焦变换，定义一致聚焦变换矩阵，并通过最小二乘方法求得聚焦变换矩阵；

[0011] 步骤四：根据步骤二中定义的中心频率点，结合最小二乘法求得的一致聚焦变换矩阵，采用MUSIC方法求得每个中心频率点所对应的信号空间谱，进而求得信号空间谱的均值函数harray(θ)；

[0012] 步骤五：采用频率点均值和时间快拍估计的方法求得信号空间谱平均估计值，进而求得声源估计角度。

[0013] 作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，所述步骤二具体如下：

[0014] (201)、对第d个声源发出的语音信号sd(t)进行采样，得到第m个麦克风采集到的离散信号xdm(t)，其中，t为时间，d＝1,2，…,D，D表示声源的个数，m＝1,2，…,M；

[0015] (202)、根据(201)中采集到的离散信号xdm(t)，经傅里叶变换后得到输入信号矢量X(k)为X(k)＝(X1(k),…,XM(k))T，Xm(k)＝(X1m(k),…,XDm(k))T，信号的协方差矩阵为CX＝EH[X(k)X(k) ]；

[0016] 其中，k为波数且 f为频率，c为声波传播的速度，上标T为转置运算符，Xdm(k)表示xdm(t)的傅里叶变换，E[*]为期望的运算符，上标H为厄密共轭运算符；

[0017] (203)、在给定频率范围内划分频率间隔相等的B个子带，第b个子带的中心频率为kb，其中，b＝1,…,B。

[0018] 作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，所述步骤三具体如下：

[0019] (301)根据带宽内定义的任意中心频率点kb以及给定的聚焦频率点k0，定义一致聚焦变换矩阵T(r,kb)，得到

[0020] V(r,θ,k0)＝T(r,kb)V(r,θ,kb)

[0021] 其中，V(r,θ,k0)表示声源距离阵列中心的距离为r、方位角度为θ、聚焦频率点为k0的导向矢量矩阵，V(r,θ,kb)表示声源距离阵列中心的距离为r、方位角度为θ、中心频率点为kb的导向矢量矩阵；

[0022] (302)采用最小二乘方法，得到一致聚焦变换矩阵为

[0023] T(r,kb)＝R(r,kb)L(r,kb)

[0024] 其中，T(r,kb)表示声源距离阵列中心的距离为r，中心频率点为kb的一致聚焦变换矩阵，R(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的左奇异矢量矩阵，L(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的右奇异矢量矩阵。

[0025] 作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步-1优化方案，所述(202)中的c＝343m.s 。

[0026] 作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，所述(203)中的B＝180。

[0027] 作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，所述步骤四中的harray(θ)经下面公式得到，

[0028]

[0029] 其中，UN(r)表示声源位置矢量的噪声子空间矩阵，下标N表示噪声，下标array表示阵列。

[0030] 作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，所述步骤五具体如下：

[0031] (501)、采用时间快拍估计方法得到协方差矩阵CX的近似值

[0032]

[0033] 其中，t′＝T0,2T0…表示时间系数，T0表示时间间隔，W表示窗口的长度，表示输入信号在时间间隔为T0时、第l个傅里叶级数的近似值，为取整运算符；

[0034] (502)、根据求得信号空间谱平均估计值即

[0035]

[0036] 其中，表示声源位置矢量的噪声子空间矩阵UN(r)的近似值；

[0037] 信号空间谱平均估计值的峰值所对应的角度即为声源估计角度

[0038] 作为本发明所述的一种基于一致聚焦变换最小二乘法的双声源定位方法进一步优化方案，所述步骤三中一定测量范围内的任意角度为-90°～90°。

[0039] 本发明采用以上技术方案与现有技术相比，具有以下技术效果：

[0040] (1)本发明构建了六元圆形麦克风阵列，运用基于一致聚焦变换最小二乘法的宽带信号MUSIC方法，对室内近场双声源进行定位；为了确保声源定位的稳定性与精确性，求出麦克风对采集到的语音信号的协方差矩阵，并在频率范围内定义中心频率点，通过一致聚焦变换和最小二乘法，在不同的中心频率点上，运用多信号分类的方法求得每个中心频率点所对应的信号空间谱，再利用频率点均值和时间快拍估计的方法求得信号空间谱平均估计值，进而估计求得声源方位；

[0041] (2)本发明方法降低了噪声、混响等对语音信号的干扰，提高了定位的精度与稳定性；

[0042] (3)本发明在仿真与实测实验中都能准确地确定多声源方位，定位精度高与稳定性强，在语音信号处理领域，具有较强的实用性。

实施方案

[0051] 下面结合附图对本发明的技术方案做进一步的详细说明：

[0052] 本发明方法的流程参见图1，本发明是一种基于一致聚焦变换最小二乘法的麦克风阵列双声源定位方法，利用六元麦克风阵列，结合语音信号特性进行声源定位，其具体实施步骤如下：

[0053] 步骤一：建立圆形麦克风阵列模型；

[0054] 建立圆形麦克风阵列模型，如图2所示，由M个相同的麦克风等间距的排列组成，阵列的半径为R，M个阵元围绕旋转成一个圆阵，这里约定：当且仅当i≡j(mod M)时(mod表示数学中的求余数运算)，第i个麦克风与第j个麦克风为同一个麦克风。声源S(t)位于近场条件下，满足

[0055]

[0056] 式中，r为声源距离阵列中心的距离，L为阵列的最大尺寸(这里L＝2R)，λ为语音信号的波长。

[0057] 步骤二：求麦克风阵列采集到的语音信号的协方差矩阵，并在频率范围内定义中心频率点；

[0058] (201)在室内环境中有D个指向性声源，同时也存在着无指向性的环境噪声，由M＞D个全指向性麦克风采集声场中的语音信号。第d(d＝1，2，…,D)个声源的位置矢量在极坐系中表示为rd＝(rd,θd)T，rd表示第d个声源距离阵列中心的距离，θd表示第d个声源的方位-1角度，上标T表示转置运算符。设声波传播的速度c＝343m.s 。

[0059] (202)第d个声源的语音信号为sd(t)，则其频域值为

[0060] Sd(k)＝∫sd(t)e-2jπftdt＝∫sd(t)e-jkctdt (2)

[0061] 式中，j为虚数单位，e表示自然指数，f表示频率，表示波数，则源信号矢量为S(k)＝(S1(k),…,SD(k))T，Sd(k)表示第d个声源的频域信号。

[0062] 圆形麦克风阵列中，第m个麦克风采集到的第d个声源的语音信号为xdm(t)(d＝1，2，…,D；m＝1,…M)，则输入信号矢量为X(k)＝(X1(k),…,XM(k))T，Xm(k)＝(X1m(k),…,XDm(k))T，Xdm(k)表示xdm(t)的傅里叶变换，且

[0063] X(k)＝V(r1,…,rD,k)S(k)+B(k) (3)

[0064] 式中

[0065] V(r1,…,rD,k)＝(V(r1,k),…,V(rD,k)) (4)

[0066] 是由与第d个声源相关的导向矢量矩阵V(rd,k)构成的M×D阶矩阵，rd表示第d个声源的位置矢量。B(k)＝(B1(k),…,BM(k))T表示每个麦克风上的加性噪声，Bm(k)第m个麦克风上的加性噪声，假设噪声为零均值、稳定的白噪声，每个麦克风上的噪声能量是相等的，并且噪声信号与声源信号间是相互独立的，则

[0067]

[0068] E[B(k)(V(rd,k)S(k))H]＝0 (6)

[0069] 式中，E[*]表示期望的运算符，ΙM表示M×M的单位矩阵，H表示厄密共轭运算符，V(rd,k)表示导向矢量矩阵，表示噪声方差。

[0070] 在近场条件下，需要考虑每个声源与麦克风阵列间的距离，则导向矢量矩阵V(rd,k)＝V(rd,θd,k)，其中，第d个分量为

[0071]

[0072] 根据输入信号X(k)，可求得信号的协方差矩阵CX，为

[0073] CX＝E[X(k)X(k)H] (8)

[0074] 根据式(3)、(5)、(6)，CX可进一步表示为

[0075]

[0076] 式中，CS为源信号D×D阶协方差矩阵，CB为噪声信号的协方差矩阵，

[0077] CS＝E[S(k)S(k)H] (10)

[0078]

[0079] M×M阶矩阵CY＝V(r1,…,rD,k)CSVH(r1,…,rD,k)，矩阵CY满足埃尔米特对称、半正定，因此可得M个实的、非负的第m个特征值λm，以及相关的第m个正交特征向量Um(m＝1,…M)。这里假定声源信号间是相互独立的，V(r1,…,rD,k)为满秩矩阵，CY的秩为D那么其特征值满足λ1≥λ2≥…≥λD＞λD+1＝…＝λM＝0。由上述推导可以注意到向量U1,…,UD与V(r1,…,rD,k)生成空间的范围是一致的，因此可根据导向矢量所形成的D维子空间S来估计声源位置，且D维子空间S被称作信号子空间。

[0080] 根据

[0081]

[0082] 可得

[0083]

[0084] 式中，US＝(U1…UD)∈RM×D为信号子空间S的矩阵，是由上述的特征向量所构成的D阶矩阵，且与特征值相关；UN＝(UD+1…UM)∈RM×(M-D)为噪声子空间N的矩阵，是由余下的特征向量构成的M-D阶矩阵，且其特征值为

[0085] 信号子空间矩阵US与噪声子空间矩阵UN有如下关系，

[0086] (US|UN)H(US|UN)＝IM (14)

[0087] (203)由于语音信号的频率带宽一般为[300Hz，3000Hz]，为了在处理时确保语音信号的完整性，在给定频率范围内划分频率间隔相等的B个子带，第b个子带的中心频率为kb，其中，b＝1,…,B，这里取B＝180。

[0088] 步骤三：根据一定范围内的任意角度，存在一个不随角度变化的一致聚焦变换，定义聚焦变换矩阵，并通过最小二乘方法求解；

[0089] (301)对于一定测量范围内的任意角度(这里设定测量的范围为-90°～90°)，存在一个不随角度变化的一致聚焦变换。根据带宽内定义的任意中心频率点kb以及给定的聚焦频率点k0，定义一致聚焦变换矩阵T(r,kb),b＝1,…,B，任取(r,θ)，有

[0090] V(r,θ,k0)＝T(r,kb)V(r,θ,kb) (15)

[0091] 则变换T(r,kb)称为一致聚焦变换。

[0092] (302)利用最小二乘方法，对式(15)求解

[0093]

[0094] 可得，一致聚焦变换矩阵

[0095] T(r,kb)＝R(r,kb)L(r,kb) (17)

[0096] 式中，R(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的左奇异矢量矩阵，L(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的右奇异矢量矩阵；。

[0097] 步骤四：根据步骤二中定义的中心频率点，结合最小二乘法求得的一致聚焦变换矩阵，利用MUSIC方法求得每个中心频率点所对应的信号空间谱，进而求信号空间谱的均值函数；

[0098] 在每个中心频率点kb，计算T(r,kb)X(kb)的二阶统计量，再求和，结合式(12)，得输入信号的聚焦协方差矩阵，

[0099]

[0100] 式中，CX(kb)表示在中心频率点kb时，输入信号的协方差矩阵。

[0101] 根据式(15)、式(17)，式(18)得

[0102]

[0103] 式中，

[0104]

[0105] 式中，CS(kb)表示在中心频率点kb时，源信号的协方差矩阵。

[0106] 根据式(19)，可得噪声信号聚焦协方差矩阵为

[0107]

[0108] 式中

[0109]

[0110] 由输入信号的聚焦协方差矩阵ΓX(r)与噪声信号的聚焦协方差矩阵ΓN(r)，可构成矩阵对(ΓX(r),ΓN(r))，其第m个特征值为μm，且μm＞μm+1，第m个特征向量为Um,m＝1,…,M。那么US(r)＝(U1,…,UD)，UN(r)＝(UD+1,…,UM)，且有

[0111]

[0112] VH(r,θ,k0)UN(r)＝0 (24)

[0113] 基于上述分析，可得信号的空间谱函数为

[0114]

[0115] 式中，UN(r)表示声源位置矢量的噪声子空间矩阵，下标N表示Noise(噪声)。

[0116] 然后，根据式(25)，可得信号空间谱的均值函数，

[0117]

[0118] 式中，下标array表示阵列，

[0119] 因为式(26)正交特性趋向于0，则平均空间谱函数的峰值所对应的角度θ，即为声源位置角度估计值。

[0120] 步骤五：结合实际情况：仅有麦克风采集到的语音信号可用，运用频率点均值和时间快拍估计的方法求得信号空间谱平均估计值，进而求得声源估计角度；

[0121] 在实际中，由于CX是未知的，仅可以利用麦克风采集到的语音信号x(t)，而且矢量信号X(k)的复包络值也不能准确的确定。因此需要计算协方差矩阵CX、矢量信号X(k)的近似值，这里采用时间快拍估计方法来求近似值。设时间系数t′＝T0,2T0…，T0表示时间间隔，一方面x(t)以 (l为整数)速率进行采样，因此在每个t′上，在快拍为时，通过傅里叶级数(FS)估计X(k)的近似值为另一方面，在t′上估计CX，运用W长度的滑动窗口在T0空间进行采样再由加权求和方法求得的估计值替代定义的期望值。在W长度的窗口中，期望CX的近似值是完全基于得到的，且二者是相互独立的，这排除了快拍使用重叠的可能性，即

[0122]

[0123] 式中，表示输入信号在时间间隔为T0时，第l个傅里叶级数的近似值，为取整运算符；

[0124] 根据上述分析，式(26)可进一步表示为

[0125]

[0126] 式中，表示声源位置矢量的噪声子空间矩阵UN(r)的近似值，下标N表示Noise(噪声)。

[0127] 仿真环境为5.5m×3.3m×2.3m的房间冲激响应模型，运用含有6个麦克风的圆形阵列，相邻麦克风间的夹角为60°，阵列的直径为40cm，声速c＝343m/s，混响时间T60＝250ms。根据近场条件，声源响应在r＝0.6m～1.6m范围内，据此设定声源S1的角度为θ1＝
60°，距离阵列中心距离为0.7m，声源S2的角度为θ2＝-20°，距离阵列中心距离为1.2m；声源与阵列在同一个平面上，且二个声源信号相互独立、能量相等。环境噪声SNR分别取0dB、
5dB、10dB、15dB、20dB。对于采集的语音信号，设定帧长为512点，帧移为160点，FFT的长度为
1024点，采样率为16000Hz，窗函数选择汉明窗，窗长取150点。

[0128] 实测环境为全消声实验室、非消声实验室，房间尺寸(5.5m×3.3m×2.3m)、阵列摆放位置与仿真环境相同，声源高度、阵列高度都为1.2m，阵列为6个麦克风的圆形阵列。实验器材：数据采集设备为16通道的PXIE-4496数据采集卡、配套PC机(Intel 2GHz Core i7CPU，2GB RAM)；声源为AM012人工嘴、便携式音箱；麦克风为的简易声音传感器模块(全向性，工作电压5V)。由于人工嘴在通电工作时产生的嘶嘶声、房间换气扇转动时产生的呼呼声，实测环境下的信噪比平均为20dB。

[0129] 图3是本发明方法在相同混响时间(T60)，不同信噪比(SNR)条件下声源定位结果。图4是本发明方法在不同混响时间、相同信噪比条件下声源定位结果。图5是本发明方法与传统的MUSIC、BSS-TDOA方法的声源定位结果的比较。图6是本发明方法在全消声实验室声源定位结果。图7是本发明方法在非消声实验室声源定位结果。图8是本发明方法仿真实验与实测实验进行声源定位结果的比较。图3、图4、图5、图6、图7都是用来说明本发明定位效果。

[0130] 相同混响时间(T60)、不同信噪比(SNR)条件下声源定位结果：

[0131] 混响时间为T60＝250ms，信噪比(SNR)不同分别为20dB、15dB、10dB、5dB、0dB条件下，六元麦克风阵列的声源定位结果。

[0132] 图3表明，在声源与阵列间距离的增加情况下，随着信噪比的降低，声源定位结果的精确度降低，在近场条件下，图3中的(a)、图3中的(b)能准确、稳定地反应声源定位的结果，图3中的(c)、图3中的(d)、图3中的(e)能反应出声源定位的结果，但是随着信噪比降低会出现伪峰、出现局部衰减影响声源定位。图3中的(a)在20dB时，曲线很平滑；图3中的(b)在15dB时，在-40°附近产生幅值较小的伪峰；图3中的(c)在10dB时，在-40°附近产生幅值较小的伪峰，在1.0m附近产生局部衰减；图3中的(d)在5dB时，在40°、-30°、-70°附近产生伪峰，在0.8m、1.0m附近产生局部衰减；图3中的(e)在0dB时，在80°、30°、0°、-60°附近产生伪峰，在0.7m～1.0m附近产生局部衰减；但由图3中的(d)、图3中的(e)可看出，虽然有局部衰减与伪峰的影响，但仍能较为准确的得到声源位置。因此从总体上看，本发明方法能准确、稳定的确定声源位置结果。

[0133] 不同混响时间、相同信噪比条件下声源定位结果：

[0134] 图4表明，在相同信噪比下，混响时间对声源定位结果的影响较小。

[0135] 本发明方法与传统的MUSIC、BSS-TDOA方法的声源定位结果的对比：

[0136] 声源S1、S2分别位于{[10°、-10°]，[20°、-20°]，[30°、-30°]，[40°、-40°]，[50°、-50°]，[60°、-60°]，[70°、-70°]，[80°、-80°]，[90°、-90°]}位置。

[0137] 图5表明，在信噪比为20dB、混响时间为250ms的条件下，本发明方法能较为准确的确定声源S1、S2的位置，传统的MUSIC方法的估计误差基本在8°左右；而BSS-TDOA的方法，由于存在了盲源分离与声源定位二个步骤，对声源定位的精确度造成影响，估计误差基本在10°左右。

[0138] 在全消声实验室声源定位结果：

[0139] 图6是本发明方法在全消声实验室声源定位结果：图6中的(a)为三维图；图6中的(b)为侧视图。图6表明，在全消声实验室中，由于仅存在噪声因素的影响，因此本发明方法能准确的测得声源位置，声源S1为-21.4°、S2为61.5°。

[0140] 在非全消声实验室声源定位结果：

[0141] 图7是本发明方法在非消声实验室声源定位结果：图7中的(a)为三维图；图7中的(b)为侧视图。图7表明，在非消声实验室中，由于存在混响、噪声等因素的影响，本发明方法仍能较为准确的测得声源位置声源S1为-19.4°、S2为58.7°。

[0142] 图8是本发明方法仿真实验与实测实验进行声源定位结果的对比图，仿真实验与实测实验进行声源定位结果的对比：

[0143] 声源S1、S2分别位于{[10°、-10°]，[20°、-20°]，[30°、-30°]，[40°、-40°]，[50°、-50°]，[60°、-60°]}位置。

[0144] 由于存在实际环境噪声、混响以及采集设备A/D转换等影响因素，实测结果与仿真结果存在一定偏差，在仿真实验中声源定位平均绝对估计误差S1为0.7°、S2为1.1°，在实测实验中，全消声实验室情况下平均绝对估计误差S1为1.3°、S2为1.5°，非消声实验室情况下平均绝对估计误差S1为1.9°、S2为2.3°。

[0145] 本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段，还包括由以上技术特征任意组合所组成的技术方案。应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

附图说明

[0043] 图1是本发明的流程图。

[0044] 图2是本发明设计的六元麦克风房间仿真模型。

[0045] 图3是本发明在相同混响时间(T60)，不同信噪比(SNR)条件下声源定位结果：(a)为T60＝250ms，SNR＝20dB条件下声源定位结果；(b)为T60＝250ms，SNR＝15dB条件下声源定位结果；(c)为T60＝250ms，SNR＝10dB条件下声源定位结果；(d)为T60＝250ms，SNR＝5dB条件下声源定位结果；(e)为T60＝250ms，SNR＝0dB条件下声源定位结果。

[0046] 图4是本发明在不同混响时间、相同信噪比条件下声源定位结果。

[0047] 图5是本发明与传统的MUSIC、BSS-TDOA方法的声源定位结果的比较。

[0048] 图6是本发明在全消声实验室声源定位结果：(a)为三维图；(b)为侧视图。

[0049] 图7是本发明在非消声实验室声源定位结果：(a)为三维图；(b)为侧视图。

[0050] 图8是本发明仿真实验与实测实验进行声源定位结果的对比图。

1一种基于一致聚焦变换最小二乘法的双声源定位方法