首页 > 专利 > 杭州电子科技大学 > 一种基于谐波冲激分解的语音转换方法专利详情

一种基于谐波冲激分解的语音转换方法 0 0

有效专利查看PDF

申请进展

基本信息

申请人信息

代理人信息

摘要

法律状态

权利要求

说明书

专利申请流程有哪些步骤？

申请

申请号：指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。

申请日：提出专利申请之日。

2018-04-16

申请公布

申请公布指发明专利申请经初步审查合格后，自申请日（或优先权日）起18个月期满时的公布或根据申请人的请求提前进行的公布。

申请公布号：专利申请过程中，在尚未取得专利授权之前，国家专利局《专利公报》公开专利时的编号。

申请公布日：申请公开的日期，即在专利公报上予以公开的日期。

2018-11-30

授权

授权指对发明专利申请经实质审查没有发现驳回理由，授予发明专利权；或对实用新型或外观设计专利申请经初步审查没有发现驳回理由，授予实用新型专利权或外观设计专利权。

2023-02-17

预估到期

发明专利权的期限为二十年，实用新型专利权期限为十年，外观设计专利权期限为十五年，均自申请日起计算。专利届满后法律终止保护。

2038-04-16

基本信息

有效性	有效专利	专利类型	发明专利
申请号	CN201810335633.6	申请日	2018-04-16
公开/公告号	CN108766450B	公开/公告日	2023-02-17
授权日	2023-02-17	预估到期日	2038-04-16
申请年	2018年	公开/公告年	2023年
缴费截止日
分类号	G10L19/02 、G10L15/06 、G10L13/02	主分类号	G10L19/02
是否联合申请	独立申请	文献类型号	B
独权数量	1	从权数量	3
权利要求数量	4	非专利引证数量	1
引用专利数量	3	被引证专利数量	0
非专利引证	1、2006.08.10TW 201001396 A,2010.01.01CN 103345920 A,2013.10.09邓立新等.一种改进的语音二项式正弦脉冲激励方案《.南京邮电学院学报》.2005,(第01期),甘振业等.基于STRAIGHT算法的汉语语音morphing方法《.西北师范大学学报(自然科学版)》.2008,(第05期),薛健等.一种基于声调规范模型的声调变换方法《.计算机工程与应用》.2005,(第10期),;
引用专利	WO9530983A、WO02062120A、US2006178874A	被引证专利
专利权维持	4	专利申请国编码	CN
专利事件		事务标签	实质审查、授权

申请人信息

申请人	杭州电子科技大学	第一申请人	杭州电子科技大学
专利权人	杭州电子科技大学	当前专利权人	杭州电子科技大学
发明人	简志华、张石磊、郭珊、徐剑	第一发明人	简志华
地址	浙江省杭州市经济技术开发区白杨街道2号大街1158号	邮编	310018
申请人数量	1	发明人数量	4
申请人所在省	浙江省	申请人所在市	浙江省杭州市

代理人信息

代理机构

专利代理机构是经省专利管理局审核，国家知识产权局批准设立，可以接受委托人的委托，在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。

浙江千克知识产权代理有限公司

代理人

专利代理师是代理他人进行专利申请和办理其他专利事务，取得一定资格的人。

周希良

摘要

本发明提出一种基于谐波冲激分解的语音转换方法，包括如下步骤：S1，将语音信号分解成谐波信号和冲激信号；S2，将所述谐波信号进行语音转换，形成目标谐波信号；S3，将所述目标谐波信号与所述冲激信号进行叠加，形成目标语音信号。本发明采用谐波冲激分解模型对语音信号进行分解，将语音信号分解成谐波信号部分和冲激信号部分，仅对谐波信号部分做频谱分解和稀疏表示，不对冲激信号做任何处理，既能够保证信息的完全性、又可以减少信息的丢失，还有利于提高转换后语音的质量，处理过程简单、方便，推广性强，具有较高的应用前景。

摘要附图
说明书附图：图1
说明书附图：图2

法律状态

序号	法律状态公告日	法律状态	法律状态信息
1	2023-02-17	授权
2	2018-11-30	实质审查的生效	IPC(主分类): G10L 19/02 专利申请号: 201810335633.6 申请日: 2018.04.16

权利要求

权利要求书是申请文件最核心的部分，是申请人向国家申请保护他的发明创造及划定保护范围的文件。

1.一种基于谐波冲激分解的语音转换方法，其特征在于，包括如下步骤：
S1，将语音信号分解成谐波信号和冲激信号；
S2，将所述谐波信号进行语音转换，形成目标谐波信号；
S3，将所述目标谐波信号与所述冲激信号进行叠加，形成目标语音信号；
步骤S1中，将语音信号分解成谐波信号和冲激信号的具体步骤如下：
S11，采用STRAIGHT模型对所述语音信号进行建模，得到该语音信号的频谱矢量序列X，X表示成语音信号的语谱图；
S12，计算水平方向的幅度谱和垂直方向的幅度谱分别为：
其中m表示语谱图的时间点，k表示语谱图的频点；wh用来描述水平方向中值滤波器的长度；wp用来描述垂直方向中值滤波器的长度；median(·)表示中值滤波函数；
S13，对语音信号的语谱图X进行标记，得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp，即：
S14，计算所述语音信号的谐波信号频谱Xh(m，k)和冲激信号频谱Xp(m，k)，即：
Xh(m，k)＝X(m，k)·Mh(m，k)
Xp(m，k)＝X(m，k)·Mp(m，k)。

2.根据权利要求1所述的方法，其特征在于：所述方法包括训练阶段和转换阶段，在所述训练阶段，所述语音信号包括源语音信号和样本语音信号，步骤S1中，对所述源语音信号和样本语音信号进行激光冲激分解，同时提取梅尔频率倒谱系数MFCC，用MFCC根据动态时间规整算法对源语音信号和样本语音信号在时间上进行规整并保留时间对齐信息；
在所述转换阶段，所述语音信号为源语音信号，步骤S1中，对所述源语音信号进行激光冲激分解。

3.根据权利要求2所述的方法，其特征在于：
步骤S2中，将谐波信号进行语音转换形成目标谐波信号，是指对所述谐波信号频谱进行转换形成目标谐波信号频谱，具体为：
S21，根据所述时间对齐信息，随机抽取源语音信号和样本语音信号相同位置的谐波信号频谱构造平行的源语音字典A和样本语音字典B，并存储，之后结束所述训练阶段；
S22，在所述转换阶段，对源语音信号的谐波信号频谱Xh(m，k)进行稀疏表示；即Xh(m，k)＝AH
N×M
激励矩阵H∈R ，其中，N表示基矢量的个数，M表示语音信号的帧数，激励矩阵H由激励矢量h迭代求解，
K×1
其中，A是源语音字典，x∈R 表示一帧语音信号的幅度谱，K表示一帧幅度谱的维数，I表示K维的数值全为1的矢量，λ表示K维的惩罚因子矢量，T表示矩阵转置运算符，.×表示矩阵对应点之间相乘运算符；
S23，在所述转换阶段，利用源语音信号的激励矩阵H和样本语音信号的谐波信号样本字典B对源语音的谐波信号频谱进行转换，转换后的目标谐波信号频谱表示为

4.根据权利要求3所述的方法，其特征在于：
步骤S3中，将所述目标谐波信号与所述冲激信号进行叠加，形成目标语音信号的具体步骤为：将转换后的目标谐波信号频谱和未经过处理的源语音冲激信号部分进行叠加，得到转换后的目标语音频谱。

说明书

技术领域

[0001] 本发明属于语音转换技术领域，具体涉及一种基于谐波冲激分解的语音转换方法。

背景技术

[0002] 说话人身份特征是语音信号中所包含的一种非常重要的特征信息。语音转换的处理对象就是语音信号中的身份特征信息，它的目的就是要改变源语音中的身份特征，使得转换后的语音听起来就像是特定的目标说话人的声音一样。语音转换技术具有广泛的应用前景，特别是应用于个性化的语音合成领域。

发明内容

[0003] 本发明提出一种基于谐波冲激分解的语音转换方法，以提高语音转换后的语音质量，简化语音转换处理过程。

[0004] 为实现本发明的目的，本发明采用以下技术方案：

[0005] 一种基于谐波冲激分解的语音转换方法，包括如下步骤：

[0006] S1，将语音信号分解成谐波信号和冲激信号；

[0007] S2，将所述谐波信号进行语音转换，形成目标谐波信号；

[0008] S3，将所述目标谐波信号与所述冲激信号进行叠加，形成目标语音信号。

[0009] 进一步地，步骤S1中，将语音信号分解成谐波信号和冲激信号的具体步骤如下：

[0010] S11，采用STRAIGHT模型对所述语音信号进行建模，得到该语音信号的频谱矢量序列

[0011] X，X表示成语音信号的语谱图；

[0012] S12，计算水平方向的幅度谱和垂直方向的幅度谱分别为：

[0013]

[0014]

[0015] 其中m表示语谱图的时间点，k表示语谱图的频点；wh用来描述水平方向中值滤波器的长度；wp用来描述垂直方向中值滤波器的长度；median(·)表示中值滤波函数。

[0016] S13，对语音信号的语谱图X进行标记，得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp，即：

[0017]

[0018]

[0019] S14，计算所述语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k)，即：

[0020] Xh(m,k)＝X(m,k)·Mh(m,k)

[0021] Xp(m,k)＝X(m,k)·Mp(m,k)

[0022] 进一步地，所述方法整体包括训练阶段和转换阶段，

[0023] 在所述训练阶段，所述语音信号包括源语音信号和样本语音信号，所述步骤S1中，对所述源语音信号和样本语音信号进行激光冲激分解，同时提取梅尔频率倒谱系数MFCC，用MFCC根据动态时间规整算法对源语音信号和样本语音信号在时间上进行规整并保留时间对齐信息；

[0024] 在所述转换阶段，所述语音信号为源语音信号，所述步骤S1中，对所述源语音信号进行激光冲激分解。

[0025] 进一步地，步骤S2中，将谐波信号进行语音转换形成目标谐波信号，是指对所述谐波信号频谱进行转换形成目标谐波信号频谱，具体为：

[0026] S21，根据所述时间对齐信息，随机抽取源语音信号和样本语音信号相同位置的谐波信号频谱构造平行的源语音字典A和样本语音字典B，并存储，之后结束所述训练阶段；

[0027] S22，在所述转换阶段，对源语音信号的谐波信号频谱Xh(m,k)进行稀疏表示；即[0028] Xh(m,k)＝AH

[0029] 激励矩阵H∈RN×M，其中，N表示基矢量的个数，M表示语音信号的帧数，激励矩阵H由激励矢量h迭代求解，

[0030]

[0031] 其中，A是源语音字典，x∈RK×1表示一帧语音信号的幅度谱，K表示一帧幅度谱的维数，Ι表示K维的数值全为1的矢量，λ表示K维的惩罚因子矢量，T表示矩阵转置运算符，.×表示矩阵对应点之间相乘运算符；

[0032] S23，在所述转换阶段，利用源语音信号的激励矩阵H和样本语音信号的谐波信号样本字典B对源语音的谐波信号频谱进行转换，转换后的目标谐波信号频谱表示为[0033] 进一步地，步骤S3中，将所述目标谐波信号与所述冲激信号进行叠加，形成目标语音信号的具体步骤为：将转换后的目标谐波信号频谱和未经过处理的源语音冲激信号部分进行叠加，得到转换后的目标语音频谱。

[0034] 本发明与现有技术相比，有益效果是：

[0035] 采用谐波冲激分解模型对语音信号进行分解，将语音信号分解成谐波信号部分和冲激信号部分，仅对谐波信号部分做频谱分解和稀疏表示，不对冲激信号做任何处理，既能够保证信息的完全性、又可以减少信息的丢失，还有利于提高转换后语音的质量，处理过程简单、方便，推广性强，具有较高的应用前景。

实施方案

[0039] 为了使本领域技术人员更好地理解本发明的技术方案，下面将结合附图以及具体的实施方式，对本发明进行详细地介绍说明。

[0040] 如图1所示，本发明所述基于谐波冲激分解的语音转换方法，包括如下步骤：

[0041] S1，将语音信号分解成谐波信号和冲激信号；

[0042] S2，将所述谐波信号进行语音转换，形成目标谐波信号；

[0043] S3，将所述目标谐波信号与所述冲激信号进行叠加，形成目标语音信号。

[0044] 谐波信号是语音中具有固定基频的结构化的信号部分，而冲激信号是没有固定基频的信号部分。由于语音信号中说话人身份信息主要来自于说话人的声道特性和基频信号，而声道的共振特性是一个非常重要的因素，它和基频信号共同对语音信号中的谐波结构具有重要的影响。因此，谐波信号部分基本上包含了全部的说话人身份信息。而冲激信号部分具有散状的、不规律的频谱结构，含有语音频谱的细节成分，对于提高语音信号的质量很有作用。根据这一原理，在进行语音转换时，只对语音信号中的谐波部分进行转换，而保持冲激部分不变，有利于提高转换后的语音质量。

[0045] 在进行语音转换时，尽可能分离出语音信号中的包含说话人身份信息的信号部分，而对未含有身份信息的语音部分不进行处理，这样就减少了不必要的信息处理过程，根据信息论的数据处理定理，可以减少信息的丢失，有利于提高转换后语音的质量。语音信号的谐波冲激分解是通过中值滤波实现的，中值滤波能够有效地分离出沿时间轴方向分布的谐波部分和沿频率轴方向分布的冲激部分。

[0046] 根据上述思想，步骤S1中，将语音信号分解成谐波信号和冲激信号的具体步骤如下：

[0047] S11，采用STRAIGHT模型对所述语音信号进行建模，得到该语音信号的频谱矢量序列X，X表示成语音信号的语谱图；

[0048] S12，在幅度谱水平方向(时间方向)和垂直方向(频率方向)分别进行中值滤波，得到水平方向的幅度谱和垂直方向的幅度谱分别为：

[0049]

[0050]

[0051] 其中m表示语谱图的时间点，k表示语谱图的频点。wh是用来描述水平方向中值滤波器的长度，即水平方向中值滤波器的长度2wh+1；而wp是用来描述垂直方向中值滤波器的长度，即垂直方向中值滤波器的长度为2wp+1。median(·)是表示中值滤波函数。

[0052] S13，对于时频分布上任何一点的值，如果则该频点判决为谐波信号成分，反之就是冲激信号成分。根据这个原则分别对语音信号的语谱图X进行标记，得到谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp，即：

[0053]

[0054]

[0055] S14，将谐波信号的标记矩阵Mh和冲激信号的标记矩阵Mp分别与源语音信号或目标语音信号的语谱图X进行点乘，即矩阵的对应点相乘，得到语音信号的谐波信号频谱Xh(m,k)和冲激信号频谱Xp(m,k)，即：

[0056] Xh(m,k)＝X(m,k)·Mh(m,k) (5)

[0057] Xp(m,k)＝X(m,k)·Mp(m,k) (6)

[0058] 如图2所示，所述语音转换方法通过转换语音信号的频谱来实现，包括训练阶段和转换阶段，在所述训练阶段，语音信号包括源语音信号和样本语音信号，步骤S1对所述源语音信号和样本语音信号进行激光冲激分解，同时提取梅尔频率倒谱系数MFCC，用MFCC根据动态时间规整算法对源语音信号和样本语音信号在时间上进行规整并保留时间对齐信息；在所述转换阶段，语音信号为源语音信号，步骤S1对所述源语音信号进行激光冲激分解。

[0059] 训练阶段的目的是获取源语音信号频谱特征矢量空间与目标语音信号频谱特征矢量空间之间的映射关系，转换阶段是利用所述训练阶段所获得的映射关系实现对源语音信号频谱转换成目标语音频谱。

[0060] 步骤S2中，将谐波信号进行语音转换形成目标谐波信号，是指对所述谐波信号频谱进行转换形成目标谐波信号频谱，具体为：

[0061] S21，根据所述时间对齐信息，随机抽取源语音信号和样本语音信号相同位置的谐波信号频谱构造平行的源语音字典A和样本语音字典B，并存储，之后结束所述训练阶段。

[0062] S22，在所述转换阶段，对源语音信号的谐波信号频谱Xh(m,k)进行稀疏表示；即[0063] Xh(m,k)＝AH (7)

[0064] 激励矩阵H是N×M维的实数矩阵，其中，N表示基矢量的个数，M表示语音信号的帧数，激励矩阵H由激励矢量h迭代求解，

[0065]

[0066] 其中，A是源语音字典，x∈RK×1表示一帧语音信号的幅度谱，K表示一帧幅度谱的维数，Ι表示K维的数值全为1的矢量，λ表示K维的惩罚因子矢量，T表示矩阵转置运算符，.×表示矩阵对应点之间相乘运算符。

[0067] 根据稀疏表示理论，该帧语音信号的频谱可以由多个基矢量的线性组合表示。在数学上可以表示为：

[0068]

[0069] 其中an表示基矢量空间中第n个基矢量，an的维数也为K，hn表示第n个基矢量所对T应的权重系数，h＝[h1,h2,...,hN]称为激励矢量，N个基矢量的组合形成所述源语音字典AK×N
＝[a1,a2,...,aN]∈R ，该字典是在训练阶段得到，在语音转换阶段固定不变。

[0070] 激励矢量h是稀疏的，即矢量h的大部分元素都为零，只有部分元素是非零的。矢量h的值是在训练阶段通过非负矩阵分解法进行循环迭代求解，如公式(8)所示。

[0071] 将一段语音信号进行分帧处理，分为M帧，其频谱矢量序列表示为X∈RK×M。对该矢量序列中的每一帧频谱参数采用公式(9)进行稀疏表示。

[0072] S23，在所述转换阶段，利用源语音信号的激励矩阵H和样本语音信号的谐波信号样本字典B对源语音的谐波信号频谱进行转换，转换后的目标谐波信号频谱表示为[0073] 步骤S3中，将所述目标谐波信号与所述冲激信号进行叠加，形成目标语音信号的具体步骤为：将转换后的目标谐波信号频谱和未经过处理的源语音冲激信号部分进行叠加，得到转换后的目标语音频谱，从而实现语音转换。

[0074] 本发明所述基于谐波冲激分解的语音转换方法，采用谐波冲激分解模型对语音信号进行分解，将语音信号分解成谐波信号部分和冲激信号部分，仅对谐波信号部分做频谱分解和稀疏表示，不对冲激信号做任何处理，既能够保证信息的完全性、又可以减少信息的丢失，还有利于提高转换后语音的质量，具有较高的应用前景。

[0075] 以上所述仅为本发明的优选实施例而已，并不用于限制本发明，对于本领域的技术人员来说，本发明可以有各种更改和变化。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

附图说明

[0036] 为了更清楚地说明本发明实施例或现有技术的技术方案，下面将对实施例或现有技术描述所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

[0037] 图1是本发明的基于谐波冲激分解的语音转换原理框图；

[0038] 图2是本发明的基于谐波冲激分解的语音转换整体框图；

1一种语音转换方法 2语音转换通信终端 3语音转换通信控制系统 4一种基于谐波冲激分解的语音转换方法 5一种基于直方图匹配的自适应实例规一化语音转换方法