[0051] 下面结合附图对本发明的技术方案做进一步的详细说明:
[0052] 本发明方法的流程参见图1,本发明是一种基于一致聚焦变换最小二乘法的麦克风阵列双声源定位方法,利用六元麦克风阵列,结合语音信号特性进行声源定位,其具体实施步骤如下:
[0053] 步骤一:建立圆形麦克风阵列模型;
[0054] 建立圆形麦克风阵列模型,如图2所示,由M个相同的麦克风等间距的排列组成,阵列的半径为R,M个阵元围绕旋转成一个圆阵,这里约定:当且仅当i≡j(mod M)时(mod表示数学中的求余数运算),第i个麦克风与第j个麦克风为同一个麦克风。声源S(t)位于近场条件下,满足
[0055]
[0056] 式中,r为声源距离阵列中心的距离,L为阵列的最大尺寸(这里L=2R),λ为语音信号的波长。
[0057] 步骤二:求麦克风阵列采集到的语音信号的协方差矩阵,并在频率范围内定义中心频率点;
[0058] (201)在室内环境中有D个指向性声源,同时也存在着无指向性的环境噪声,由M>D个全指向性麦克风采集声场中的语音信号。第d(d=1,2,…,D)个声源的位置矢量在极坐系中表示为rd=(rd,θd)T,rd表示第d个声源距离阵列中心的距离,θd表示第d个声源的方位-1角度,上标T表示转置运算符。设声波传播的速度c=343m.s 。
[0059] (202)第d个声源的语音信号为sd(t),则其频域值为
[0060] Sd(k)=∫sd(t)e-2jπftdt=∫sd(t)e-jkctdt (2)
[0061] 式中,j为虚数单位,e表示自然指数,f表示频率, 表示波数,则源信号矢量为S(k)=(S1(k),…,SD(k))T,Sd(k)表示第d个声源的频域信号。
[0062] 圆形麦克风阵列中,第m个麦克风采集到的第d个声源的语音信号为xdm(t)(d=1,2,…,D;m=1,…M),则输入信号矢量为X(k)=(X1(k),…,XM(k))T,Xm(k)=(X1m(k),…,XDm(k))T,Xdm(k)表示xdm(t)的傅里叶变换,且
[0063] X(k)=V(r1,…,rD,k)S(k)+B(k) (3)
[0064] 式中
[0065] V(r1,…,rD,k)=(V(r1,k),…,V(rD,k)) (4)
[0066] 是由与第d个声源相关的导向矢量矩阵V(rd,k)构成的M×D阶矩阵,rd表示第d个声源的位置矢量。B(k)=(B1(k),…,BM(k))T表示每个麦克风上的加性噪声,Bm(k)第m个麦克风上的加性噪声,假设噪声为零均值、稳定的白噪声,每个麦克风上的噪声能量是相等的,并且噪声信号与声源信号间是相互独立的,则
[0067]
[0068] E[B(k)(V(rd,k)S(k))H]=0 (6)
[0069] 式中,E[*]表示期望的运算符,ΙM表示M×M的单位矩阵,H表示厄密共轭运算符,V(rd,k)表示导向矢量矩阵, 表示噪声方差。
[0070] 在近场条件下,需要考虑每个声源与麦克风阵列间的距离,则导向矢量矩阵V(rd,k)=V(rd,θd,k),其中,第d个分量为
[0071]
[0072] 根据输入信号X(k),可求得信号的协方差矩阵CX,为
[0073] CX=E[X(k)X(k)H] (8)
[0074] 根据式(3)、(5)、(6),CX可进一步表示为
[0075]
[0076] 式中,CS为源信号D×D阶协方差矩阵,CB为噪声信号的协方差矩阵,
[0077] CS=E[S(k)S(k)H] (10)
[0078]
[0079] M×M阶矩阵CY=V(r1,…,rD,k)CSVH(r1,…,rD,k),矩阵CY满足埃尔米特对称、半正定,因此可得M个实的、非负的第m个特征值λm,以及相关的第m个正交特征向量Um(m=1,…M)。这里假定声源信号间是相互独立的,V(r1,…,rD,k)为满秩矩阵,CY的秩为D那么其特征值满足λ1≥λ2≥…≥λD>λD+1=…=λM=0。由上述推导可以注意到向量U1,…,UD与V(r1,…,rD,k)生成空间的范围是一致的,因此可根据导向矢量所形成的D维子空间S来估计声源位置,且D维子空间S被称作信号子空间。
[0080] 根据
[0081]
[0082] 可得
[0083]
[0084] 式中,US=(U1…UD)∈RM×D为信号子空间S的矩阵,是由上述的特征向量所构成的D阶矩阵,且与特征值 相关;UN=(UD+1…UM)∈RM×(M-D)为噪声子空间N的矩阵,是由余下的特征向量构成的M-D阶矩阵,且其特征值为
[0085] 信号子空间矩阵US与噪声子空间矩阵UN有如下关系,
[0086] (US|UN)H(US|UN)=IM (14)
[0087] (203)由于语音信号的频率带宽一般为[300Hz,3000Hz],为了在处理时确保语音信号的完整性,在给定频率范围内划分频率间隔相等的B个子带,第b个子带的中心频率为kb,其中,b=1,…,B,这里取B=180。
[0088] 步骤三:根据一定范围内的任意角度,存在一个不随角度变化的一致聚焦变换,定义聚焦变换矩阵,并通过最小二乘方法求解;
[0089] (301)对于一定测量范围内的任意角度(这里设定测量的范围为-90°~90°),存在一个不随角度变化的一致聚焦变换。根据带宽内定义的任意中心频率点kb以及给定的聚焦频率点k0,定义一致聚焦变换矩阵T(r,kb),b=1,…,B,任取(r,θ),有
[0090] V(r,θ,k0)=T(r,kb)V(r,θ,kb) (15)
[0091] 则变换T(r,kb)称为一致聚焦变换。
[0092] (302)利用最小二乘方法,对式(15)求解
[0093]
[0094] 可得,一致聚焦变换矩阵
[0095] T(r,kb)=R(r,kb)L(r,kb) (17)
[0096] 式中,R(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的左奇异矢量矩阵,L(r,kb)为矩阵VH(r,θ,k0)V(r,θ,kb)的右奇异矢量矩阵;。
[0097] 步骤四:根据步骤二中定义的中心频率点,结合最小二乘法求得的一致聚焦变换矩阵,利用MUSIC方法求得每个中心频率点所对应的信号空间谱,进而求信号空间谱的均值函数;
[0098] 在每个中心频率点kb,计算T(r,kb)X(kb)的二阶统计量,再求和,结合式(12),得输入信号的聚焦协方差矩阵,
[0099]
[0100] 式中,CX(kb)表示在中心频率点kb时,输入信号的协方差矩阵。
[0101] 根据式(15)、式(17),式(18)得
[0102]
[0103] 式中,
[0104]
[0105] 式中,CS(kb)表示在中心频率点kb时,源信号的协方差矩阵。
[0106] 根据式(19),可得噪声信号聚焦协方差矩阵为
[0107]
[0108] 式中
[0109]
[0110] 由输入信号的聚焦协方差矩阵ΓX(r)与噪声信号的聚焦协方差矩阵ΓN(r),可构成矩阵对(ΓX(r),ΓN(r)),其第m个特征值为μm,且μm>μm+1,第m个特征向量为Um,m=1,…,M。那么US(r)=(U1,…,UD),UN(r)=(UD+1,…,UM),且有
[0111]
[0112] VH(r,θ,k0)UN(r)=0 (24)
[0113] 基于上述分析,可得信号的空间谱函数为
[0114]
[0115] 式中,UN(r)表示声源位置矢量的噪声子空间矩阵,下标N表示Noise(噪声)。
[0116] 然后,根据式(25),可得信号空间谱的均值函数,
[0117]
[0118] 式中,下标array表示阵列,
[0119] 因为式(26)正交特性趋向于0,则平均空间谱函数的峰值所对应的角度θ,即为声源位置角度估计值。
[0120] 步骤五:结合实际情况:仅有麦克风采集到的语音信号可用,运用频率点均值和时间快拍估计的方法求得信号空间谱平均估计值,进而求得声源估计角度;
[0121] 在实际中,由于CX是未知的,仅可以利用麦克风采集到的语音信号x(t),而且矢量信号X(k)的复包络值也不能准确的确定。因此需要计算协方差矩阵CX、矢量信号X(k)的近似值,这里采用时间快拍估计方法来求近似值。设时间系数t′=T0,2T0…,T0表示时间间隔,一方面x(t)以 (l为整数)速率进行采样,因此在每个t′上,在快拍为时,通过傅里叶级数(FS)估计X(k)的近似值为 另一方面,在t′上估计CX,运用W长度的滑动窗口在T0空间进行采样再由加权求和方法求得的估计值替代定义的期望值。在W长度的窗口中,期望CX的近似值是完全基于 得到的,且二者是相互独立的,这排除了快拍使用重叠的可能性,即
[0122]
[0123] 式中, 表示输入信号在时间间隔为T0时,第l个傅里叶级数的近似值, 为取整运算符;
[0124] 根据上述分析,式(26)可进一步表示为
[0125]
[0126] 式中, 表示声源位置矢量的噪声子空间矩阵UN(r)的近似值,下标N表示Noise(噪声)。
[0127] 仿真环境为5.5m×3.3m×2.3m的房间冲激响应模型,运用含有6个麦克风的圆形阵列,相邻麦克风间的夹角为60°,阵列的直径为40cm,声速c=343m/s,混响时间T60=250ms。根据近场条件,声源响应在r=0.6m~1.6m范围内,据此设定声源S1的角度为θ1=
60°,距离阵列中心距离为0.7m,声源S2的角度为θ2=-20°,距离阵列中心距离为1.2m;声源与阵列在同一个平面上,且二个声源信号相互独立、能量相等。环境噪声SNR分别取0dB、
5dB、10dB、15dB、20dB。对于采集的语音信号,设定帧长为512点,帧移为160点,FFT的长度为
1024点,采样率为16000Hz,窗函数选择汉明窗,窗长取150点。
[0128] 实测环境为全消声实验室、非消声实验室,房间尺寸(5.5m×3.3m×2.3m)、阵列摆放位置与仿真环境相同,声源高度、阵列高度都为1.2m,阵列为6个麦克风的圆形阵列。实验器材:数据采集设备为16通道的PXIE-4496数据采集卡、配套PC机(Intel 2GHz Core i7CPU,2GB RAM);声源为AM012人工嘴、便携式音箱;麦克风为的简易声音传感器模块(全向性,工作电压5V)。由于人工嘴在通电工作时产生的嘶嘶声、房间换气扇转动时产生的呼呼声,实测环境下的信噪比平均为20dB。
[0129] 图3是本发明方法在相同混响时间(T60),不同信噪比(SNR)条件下声源定位结果。图4是本发明方法在不同混响时间、相同信噪比条件下声源定位结果。图5是本发明方法与传统的MUSIC、BSS-TDOA方法的声源定位结果的比较。图6是本发明方法在全消声实验室声源定位结果。图7是本发明方法在非消声实验室声源定位结果。图8是本发明方法仿真实验与实测实验进行声源定位结果的比较。图3、图4、图5、图6、图7都是用来说明本发明定位效果。
[0130] 相同混响时间(T60)、不同信噪比(SNR)条件下声源定位结果:
[0131] 混响时间为T60=250ms,信噪比(SNR)不同分别为20dB、15dB、10dB、5dB、0dB条件下,六元麦克风阵列的声源定位结果。
[0132] 图3表明,在声源与阵列间距离的增加情况下,随着信噪比的降低,声源定位结果的精确度降低,在近场条件下,图3中的(a)、图3中的(b)能准确、稳定地反应声源定位的结果,图3中的(c)、图3中的(d)、图3中的(e)能反应出声源定位的结果,但是随着信噪比降低会出现伪峰、出现局部衰减影响声源定位。图3中的(a)在20dB时,曲线很平滑;图3中的(b)在15dB时,在-40°附近产生幅值较小的伪峰;图3中的(c)在10dB时,在-40°附近产生幅值较小的伪峰,在1.0m附近产生局部衰减;图3中的(d)在5dB时,在40°、-30°、-70°附近产生伪峰,在0.8m、1.0m附近产生局部衰减;图3中的(e)在0dB时,在80°、30°、0°、-60°附近产生伪峰,在0.7m~1.0m附近产生局部衰减;但由图3中的(d)、图3中的(e)可看出,虽然有局部衰减与伪峰的影响,但仍能较为准确的得到声源位置。因此从总体上看,本发明方法能准确、稳定的确定声源位置结果。
[0133] 不同混响时间、相同信噪比条件下声源定位结果:
[0134] 图4表明,在相同信噪比下,混响时间对声源定位结果的影响较小。
[0135] 本发明方法与传统的MUSIC、BSS-TDOA方法的声源定位结果的对比:
[0136] 声源S1、S2分别位于{[10°、-10°],[20°、-20°],[30°、-30°],[40°、-40°],[50°、-50°],[60°、-60°],[70°、-70°],[80°、-80°],[90°、-90°]}位置。
[0137] 图5表明,在信噪比为20dB、混响时间为250ms的条件下,本发明方法能较为准确的确定声源S1、S2的位置,传统的MUSIC方法的估计误差基本在8°左右;而BSS-TDOA的方法,由于存在了盲源分离与声源定位二个步骤,对声源定位的精确度造成影响,估计误差基本在10°左右。
[0138] 在全消声实验室声源定位结果:
[0139] 图6是本发明方法在全消声实验室声源定位结果:图6中的(a)为三维图;图6中的(b)为侧视图。图6表明,在全消声实验室中,由于仅存在噪声因素的影响,因此本发明方法能准确的测得声源位置,声源S1为-21.4°、S2为61.5°。
[0140] 在非全消声实验室声源定位结果:
[0141] 图7是本发明方法在非消声实验室声源定位结果:图7中的(a)为三维图;图7中的(b)为侧视图。图7表明,在非消声实验室中,由于存在混响、噪声等因素的影响,本发明方法仍能较为准确的测得声源位置声源S1为-19.4°、S2为58.7°。
[0142] 图8是本发明方法仿真实验与实测实验进行声源定位结果的对比图,仿真实验与实测实验进行声源定位结果的对比:
[0143] 声源S1、S2分别位于{[10°、-10°],[20°、-20°],[30°、-30°],[40°、-40°],[50°、-50°],[60°、-60°]}位置。
[0144] 由于存在实际环境噪声、混响以及采集设备A/D转换等影响因素,实测结果与仿真结果存在一定偏差,在仿真实验中声源定位平均绝对估计误差S1为0.7°、S2为1.1°,在实测实验中,全消声实验室情况下平均绝对估计误差S1为1.3°、S2为1.5°,非消声实验室情况下平均绝对估计误差S1为1.9°、S2为2.3°。
[0145] 本发明方案所公开的技术手段不仅限于上述实施方式所公开的技术手段,还包括由以上技术特征任意组合所组成的技术方案。应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。