[0060] 2)音框化(Framing),即对语音信号分帧。
[0061] 3)汉明窗(Hamming Windowing)处理:
[0062] 音框化后的语音时域信号为S(n),n=0、1、2…、N‑1,表示分为了n段语音信号;那么乘上汉明窗后的语音时域信号为S’(n),见式⑴:
[0063] S’(n)=S(n)*W(n) ⑴;
[0064] 得: a=0.46,a的取值区间为0.3~0.7之间,具体数值根据实验和经验数据确定。w(n)为汉明窗函数,具有较平滑的低通特性,能够较好的反映短时语音信号的频率特性。
[0065] 5)快速傅立叶转换(FFT):
[0066] 对乘上汉明窗后的语音时域信号S’(n)实施基2FFT变换,得到线性频谱X(n,k),基2FFT变换为本领域内通用算法;X(n,k)为第n段语音帧的频谱能量密度函数,k对应频谱段,每一段语音帧对应了时间轴上的一个时间片。
[0067] 5)生成文本相关声纹语谱图:
[0068] 用时间n作为时间轴坐标,k作为频谱轴坐标,将|X(n,k)|2的值表示为灰度级,显2
示在相应的坐标点位置上,即构成了声纹语谱图。通过变换10log10(|X(n,k)|)得到语谱图的dB表示。
[0069] 第四步,对声纹语谱图进行滤波、归一化等预处理,具体滤波方式有高斯、小波、二值化等信号处理领域通用滤波方式,具体采用哪种方式,或几种方式的组合,由用户根据实际测试情况选择。归一化处理指语谱图尺寸统一到固定的长宽大小,语谱图每一个像素点的值统一到0‑255范围内,具体方法可均采用本领域内通用方法,如图像尺寸调整可采用matlab函数库中的imresize函数实现。
[0070] 第五步,对声纹语谱图进行机器学习,得声纹稳定特征学习矩阵,即声纹密钥提取矩阵。
[0071] 第四步得到的声纹语谱图分成两大类,一类为用户本人的相关文本声纹语谱图,另一类为非用户本人的相关文本与非相关文本混合的对比声纹语谱图,称为正负样本集合。
[0072] 用M=[M1,M2]表示参加训练的正负样本集合,Mi=[xi1,xi2,...,xiL],i∈{1,2}表d示第i类样本集合,i=1为正样本,i=2为负样本;xir∈R ,1≤i≤2,1≤r≤L,xir为一维列向量,由一张声纹语谱图的所有像素点的值形成一个二维矩阵,再将二维矩阵的每一行顺次d
拼接,得到一维行向量,转置后得到一维列向量xir,xir长度为d,R表示d维实数域,L表示同一类样本集合中有L张声纹语谱图,即L个列向量。
[0073] 现在根据两类样本的特点,训练声纹密钥提取矩阵W1,W1∈Rd×dz,得式⑵:
[0074]
[0075] 其中 为训练样本的正样本均值, 为训练样本的负样本均值。J为代价函数,反映了训练样本经声纹密钥提取矩阵W1投影后与正负样本集合均值之间的距离差,用欧氏距离计算。
[0076] 令:
[0077]
[0078] 求解矩阵(H1‑H2)的特征值与特征向量,得到声纹密钥提取矩阵W1,即:(H1‑H2)w=λw;w为矩阵(H1‑H2)的特征向量,λ为特征值。
[0079] 由于{w1,w2,...,wdz}为特征向量,分别对应特征值{λ1,λ2,...,λdz},其中λ1≥λ2≥...≥λdz≥0,特征值小于0的特征向量不被纳入矩阵W1的构造。
[0080] 至此训练出声纹密钥提取矩阵W1。
[0081] 步骤二、声纹密钥提取,如图4所示,具体步骤为:
[0082] 第1步,用户录取自身文本相关语音,3秒左右。
[0083] 第2步,提取声纹语谱图,具体参考步骤一第三步。
[0084] 第3步,对声纹语谱图进行滤波、归一化等预处理,然后将声纹语谱图转为矩阵形式,并按行顺次拼接,得声纹向量xt。
[0085] 第4步,用步骤一训练的声纹稳定特征学习矩阵W1,转置后左乘第3步得到的声纹T向量xt,即W1·xt,得dz维声纹特征向量xtz,xtz为稳定后声纹特征向量。
[0086] 第5步,对xtz的每一维分量进行一次棋盘法运算,进一步稳定声纹特征向量为[0087] 棋盘法运算,步骤如下:
[0088] 对xtz中的每一个维分量记为xtzi;
[0089] 量化公式见式⑶:
[0090]
[0091] 其中,D为棋盘法的格子大小,取正数,具体值可由用户根据经验选定,一般满足Λ(x)的取值在0~63之间,xtzi为xtz中的每一个分量,Λ(x)为整数值。
[0092] Λ(x)即xtzi量化后的值,为棋盘格子中最接近xtzi点与坐标原点的格子的坐标值。
[0093] 第6步,取第五步计算结果向量 的前32或64个分量,前后拼接,以每个分量取值0~64,可形成4比特密钥计算,即可形成128bit或256bit的声纹密钥;完成声纹密钥的提取。
[0094] 本发明利用同一个话者文本相关语音声纹频谱具有较高相似性的特点,从文本相关语音中提取声纹语谱图,同一个话者同一段文本经多次采样得到的多张声纹语谱图具有较高的相似性,同时,不同话者同一段文本提取的声纹语谱图之间有较明显的差异。提取声纹语谱图后,通过如图5所示的机器学习方法从多张声纹语谱图中提取出共有特征信息,经过分段量化后,得到文本相关声纹密钥。声纹密钥无需服务端保留生物特征模板,具有更高的安全性,并可以与AES、RSA等通用网络加解密算法融合,方便用户使用。该方法能够获得更稳定的声纹密钥,声纹密钥提取准确率大于95%,密钥长度可达256bit。