首页 > 专利 > 杭州电子科技大学 > 基于Fbank特征和MFCC特征融合的声纹识别方法专利详情

基于Fbank特征和MFCC特征融合的声纹识别方法   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2021-05-27
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2021-10-01
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2022-11-15
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2041-05-27
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202110586134.6 申请日 2021-05-27
公开/公告号 CN113393847B 公开/公告日 2022-11-15
授权日 2022-11-15 预估到期日 2041-05-27
申请年 2021年 公开/公告年 2022年
缴费截止日
分类号 G10L17/02G10L17/04G10L17/22 主分类号 G10L17/02
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 5
权利要求数量 6 非专利引证数量 1
引用专利数量 0 被引证专利数量 0
非专利引证 1、CN 105869644 A,2016.08.17CN 108305641 A,2018.07.20CN 111724899 A,2020.09.29CN 111785285 A,2020.10.16CN 108922556 A,2018.11.30CN 111863003 A,2020.10.30JP 2017037222 A,2017.02.16IN 201621016130 A,2016.07.15李铮等.说话人识别系统中特征提取的优化方法《.厦门大学学报(自然科学版》.2020,;
引用专利 被引证专利
专利权维持 1 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 杭州电子科技大学 当前专利权人 杭州电子科技大学
发明人 周后盘、赵将焜 第一发明人 周后盘
地址 浙江省杭州市下沙高教园区2号大街 邮编 310018
申请人数量 1 发明人数量 2
申请人所在省 浙江省 申请人所在市 浙江省杭州市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
杭州君度专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
杨舟涛
摘要
本发明公开了一种基于Fbank特征和MFCC特征融合的声纹识别方法,本发明先对于语音数据集进行预处理,提取Fbank特征和MFCC特征;将得到40维Fbank特征和12维MFCC特征的基础上进行特征融合。本发明在广义端到端模型上进行实验,相比单独的Fbank和MFCC特征,本发明提出的特征融合方法优于单独的特征。本发明的特征融合方法降低了特征维度、降低了冗余、减少了存储空间以及训练复杂度。
  • 摘要附图
    基于Fbank特征和MFCC特征融合的声纹识别方法
  • 说明书附图:图1
    基于Fbank特征和MFCC特征融合的声纹识别方法
  • 说明书附图:图2
    基于Fbank特征和MFCC特征融合的声纹识别方法
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2022-11-15 授权
2 2021-10-01 实质审查的生效 IPC(主分类): G10L 17/02 专利申请号: 202110586134.6 申请日: 2021.05.27
3 2021-09-14 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.基于Fbank特征和MFCC特征融合的声纹识别方法,其特征在于,具体包括以下步骤:
步骤一、准备语音数据集,并对数据集进行预处理;
步骤二、提取Fbank特征;
将预处理后的语音帧序列经过快速傅里叶变换、取功率谱、取幅度平方、经过梅尔滤波器组并取对数得到Fbank特征;
步骤三、提取MFCC特征;
在Fbank特征的基础上进行离散余弦变换得到MFCC特征;
步骤四、特征融合;
在得到40维Fbank特征和12维MFCC特征的基础上进行特征融合,将第1‑12组的MFCC特征嵌入到40维Fbank的第1‑12组中。

2.根据权利要求1所述的基于Fbank特征和MFCC特征融合的声纹识别方法,其特征在于:所述的梅尔滤波器组系数取40。

3.根据权利要求1所述的基于Fbank特征和MFCC特征融合的声纹识别方法,其特征在于:所述的在Fbank特征的基础上进行离散余弦变换得到MFCC特征,具体为:提取第1‑12组系数进行DCT变换得到12维的MFCC特征。

4.根据权利要求1所述的基于Fbank特征和MFCC特征融合的声纹识别方法,其特征在于:所述的对数据集进行预处理具体为:预加重、分帧、加窗,最后输出语音帧序列。

5.根据权利要求4所述的基于Fbank特征和MFCC特征融合的声纹识别方法,其特征在于:所述的分帧采用25ms帧长、10ms帧移。

6.根据权利要求4所述的基于Fbank特征和MFCC特征融合的声纹识别方法,其特征在于:所述的加窗的窗口选择为汉明窗。
说明书

技术领域

[0001] 本发明涉及语音信号处理、人工智能领域,特别涉及一种基于Fbank特征和MFCC特征融合的声纹识别方法。

背景技术

[0002] 声纹识别又叫做说话人识别,是一种通过语音信号提取能够代表说话人身份的特征、并基于该特征识别出说话人身份的技术。声纹识别作为生物特征应用之一,与指纹识别、人脸识别有着同等重要的应用领域,且声纹识别具有采集方便、非接触性便利、造价低廉等优点。声纹识别可以应用在金融、智能锁、特定人唤醒等领域,随着应用范围的扩大,人们对声纹识别的要求也越来越高,提高声纹识别的性能也有着重要的意义。
[0003] 声纹识别流程一般分为特征提取、模型构建、打分判决三个模块。在特征提取模块中,常用的声纹特征有MFCC、Fbank、LPC、PLP等。当前常用的方式大多是基于单独的一类特征进行训练,且仅有的特征融合方法是选择将两种不同的特征进行直接拼接。

发明内容

[0004] 本发明针对现有技术中直接拼接不同类特征造成的维度过大以及冗余问题,提出了一种基于Fbank特征和MFCC特征融合的声纹识别方法。
[0005] 本发明公开一种基于Fbank特征和MFCC特征融合的声纹识别方法,具体包括以下步骤:
[0006] 步骤一、准备语音数据集,并对数据集进行预处理;
[0007] 步骤二、提取Fbank特征;
[0008] 将预处理后的语音帧序列经过快速傅里叶变换、取功率谱、取幅度平方、经过梅尔滤波器组并取对数得到Fbank特征;
[0009] 步骤三、提取MFCC特征;
[0010] 在Fbank特征的基础上进行离散余弦变换得到MFCC特征;
[0011] 步骤四、特征融合;
[0012] 在得到40维Fbank特征和12维MFCC特征的基础上进行特征融合。
[0013] 作为优选,所述的梅尔滤波器组系数取40。
[0014] 作为优选,所述的在Fbank特征的基础上进行离散余弦变换得到MFCC,具体为:提取第1‑12组系数进行DCT变换得到12维的MFCC特征。
[0015] 作为优选,所述的在得到40维Fbank特征和12维MFCC特征的基础上进行特征融合,具体为:将第1‑12组的MFCC特征嵌入到40维Fbank的第1‑12组中。
[0016] 作为优选,所述的对数据集进行预处理具体为:预加重、分帧、加窗,最后输出语音帧序列。
[0017] 作为优选,所述的分帧采用25ms帧长、10ms帧移。
[0018] 作为优选,所述的加窗的窗口选择为汉明窗。
[0019] 与现有技术相比,本发明具有以下有益效果:本发明在广义端到端模型上进行实验,相比单独的Fbank和MFCC特征,本发明提出的特征融合方法优于单独的特征。本发明的特征融合方法降低了特征维度、降低了冗余、减少了存储空间以及训练复杂度。

实施方案

[0022] 下面结合附图详细说明本发明的具体实施步骤。
[0023] 图1描述了声纹识别中Fbank特征和MFCC特征的提取流程。如图1所示,特征提取流程包括预处理、快速傅里叶变换、取功率谱、取幅度平方、经过梅尔滤波器组并取对数得到Fbank特征(图1中的a),再经过离散余弦变换(DCT)得到MFCC特征(图1中的b)。
[0024] 其中预处理包括预加重、分帧、加窗。具体细节为:采样率8khz、帧长25ms、帧移10ms、采用汉明窗。
[0025] 图2描述了本发明的特征融合方法的具体过程。语音信号经过预处理、快速傅里叶变换、取功率谱并取幅度的平方、经过梅尔滤波器组。梅尔滤波器组是一种拟合人耳接收特性的滤波器,取滤波器组系数为40,得到40维的Fbank特征。取Fbank特征中的第1‑12维特征做DCT变换得到12维的MFCC特征,之后将12维MFCC特征嵌入到Fbank特征中的第1‑12维的位置,即可得到融合特征。
[0026] 本发明提出的特征融合方法在基于广义端到端损失的LSTM和BiLSTM网络模型上进行实验,相对单独的MFCC和Fbank特征均验证了该方法能够提升声纹识别的性能,有利于声纹识别的应用。
[0027] 通过实验对比了单独的MFCC特征、Fbank特征、以及融合特征的结果。并在Bi‑LSTM模型和LSTM模型上进行实验,结果表明,本发明提出的特征融合方法有效地改善了说话人识别的性能。表1为Bi‑LSTM模型下的结果,表2为LSTM模型下的结果。
[0028]
[0029] 表1
[0030]
[0031] 表2
[0032] 此次实验对比了单独的MFCC特征、Fbank特征以及本发明提出的特征融合方法。通过在Bi‑LSTM和LSTM模型上进行实验,结果均验证了本发明提出的方法可以改善说话人识别的性能。实验都采用等错误率(EER)的评判标准,EER越低,实验效果越好。

附图说明

[0020] 图1为本发明所涉及的Fbank与MFCC特征提取流程图;
[0021] 图2为本发明提出的特征融合方法示意图;
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号