首页 > 专利 > 吉林农业科技学院 > 一种基于大数据挖掘技术的韩语发音纠正系统专利详情

一种基于大数据挖掘技术的韩语发音纠正系统   0    0

有效专利 查看PDF
专利申请流程有哪些步骤?
专利申请流程图
申请
申请号:指国家知识产权局受理一件专利申请时给予该专利申请的一个标示号码。唯一性原则。
申请日:提出专利申请之日。
2021-01-18
申请公布
申请公布指发明专利申请经初步审查合格后,自申请日(或优先权日)起18个月期满时的公布或根据申请人的请求提前进行的公布。
申请公布号:专利申请过程中,在尚未取得专利授权之前,国家专利局《专利公报》公开专利时的编号。
申请公布日:申请公开的日期,即在专利公报上予以公开的日期。
2021-06-15
授权
授权指对发明专利申请经实质审查没有发现驳回理由,授予发明专利权;或对实用新型或外观设计专利申请经初步审查没有发现驳回理由,授予实用新型专利权或外观设计专利权。
2021-12-07
预估到期
发明专利权的期限为二十年,实用新型专利权期限为十年,外观设计专利权期限为十五年,均自申请日起计算。专利届满后法律终止保护。
2041-01-18
基本信息
有效性 有效专利 专利类型 发明专利
申请号 CN202110060609.8 申请日 2021-01-18
公开/公告号 CN112863263B 公开/公告日 2021-12-07
授权日 2021-12-07 预估到期日 2041-01-18
申请年 2021年 公开/公告年 2021年
缴费截止日
分类号 G09B5/04G09B19/06G10L25/51G10L25/90 主分类号 G09B5/04
是否联合申请 独立申请 文献类型号 B
独权数量 1 从权数量 7
权利要求数量 8 非专利引证数量 0
引用专利数量 1 被引证专利数量 0
非专利引证
引用专利 US2015056580A1 被引证专利
专利权维持 1 专利申请国编码 CN
专利事件 事务标签 公开、实质审查、授权
申请人信息
申请人 第一申请人
专利权人 吉林农业科技学院 当前专利权人 吉林农业科技学院
发明人 金清子 第一发明人 金清子
地址 吉林省吉林市经济技术开发区翰林路77号 邮编 132101
申请人数量 1 发明人数量 1
申请人所在省 吉林省 申请人所在市 吉林省吉林市
代理人信息
代理机构
专利代理机构是经省专利管理局审核,国家知识产权局批准设立,可以接受委托人的委托,在委托权限范围内以委托人的名义办理专利申请或其他专利事务的服务机构。
北京卓特专利代理事务所 代理人
专利代理师是代理他人进行专利申请和办理其他专利事务,取得一定资格的人。
段宇
摘要
本发明涉及一种基于大数据挖掘技术的韩语发音纠正系统,在发音过程中,利用传感器检测共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数,并在发音过程中,进行了声学和肌电图分析,还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
  • 摘要附图
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0010]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0012]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0014]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0015]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0018]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0020]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0021]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0027]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0032]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0033]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0034]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0038]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0041]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0047]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0058]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0079]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0081]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0083]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0084]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0087]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0089]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0090]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0097]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0103]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0104]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0105]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0109]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0120]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0125]
    一种基于大数据挖掘技术的韩语发音纠正系统
  • 说明书附图:[0128]
    一种基于大数据挖掘技术的韩语发音纠正系统
法律状态
序号 法律状态公告日 法律状态 法律状态信息
1 2021-12-07 授权
2 2021-06-15 实质审查的生效 IPC(主分类): G09B 5/04 专利申请号: 202110060609.8 申请日: 2021.01.18
3 2021-05-28 公开
权利要求
权利要求书是申请文件最核心的部分,是申请人向国家申请保护他的发明创造及划定保护范围的文件。
1.一种基于大数据挖掘技术的韩语发音纠正系统,其特征在于,包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块,云端模块,信号传输装置包括声带振动传感器、电磁传感器,电磁传感器用于捕捉语音识别中舌头和下巴的运动,所述电磁传感器是穿戴永磁示踪剂,利用磁传感器阵列无线跟踪舌头的运动,对舌头的坐标及其曲率位置的超声成像测量,以表示说话过程中的舌头,同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率,所述数据分析模块对韩语元音和辅音前两个共振峰进行优化,具体步骤包括:
S
1.对于元音,第一共振峰表示为 其值与舌头高度h成反比:
第二个共振峰,表示为 对于元音的产生,其值与舌头的水平轴推进l成反比:
口腔被认为是一个管状模型,并认为是一个谐振器,对模型进行修正,获得:
β1和β2是提供的舌头元音发音系统共振峰响应的最接近的常量值,β1、β2∈R,c是音速,c=340m/s;
S
2.确定β1和β2的值,β1和β2的值基于永磁示踪剂实验值的现有口腔系统共振峰的采集值计算而得,为了提高准确率,计算估计系统和舌发音系统的共振峰之间的损失函数,使用均方误差函数计算损失:
计算损失函数的偏导数,并通过下式更新β1和β2的当前值:
S
3.松音、紧音、送气音的第一共振峰分别表示为:
松音、紧音、送气音的第二共振峰分别表示为:
式中,γ1、γ2是提供的舌头辅音发音系统共振峰响应的最接近的常量值,c是音速,B是爆破释放时间,Duration是发音持续时间;
S
4.将简化的基于舌头的口腔系统与喉部系统级联而提出声道系统的计算公式,声道系统共振峰频率的传递函数由表示为V(z)k,喉系统和舌的共振峰频率的传递函数表示为L(z)k和O(z)k:
A1,A2分别表示喉和舌发音系统的共振峰频率,T表示每个共振峰的持续时长,z表示共振峰的带宽,Fik表示根据i,k取值的不同,分别代表
S
5.所述纠正模块通过传感器获知共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数;并在发音过程中,进行了声学和肌电图分析,利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导;
所述音频信号采集模块包括信号传输装置、音频信号调制器、解调器、语音采集器。

2.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正系统,其特征在于,引入消错计算可以有效地进行高精度的口语发音校正计算,首先进行数据处理和误差计算,其过程如下:
式中,E误差,H为误差阈值,B为振动波谷的极值,C为音频的有效周期律,D为恒频参数,PAH为韩语语音的标准振幅;
结合自适应滤波和盲源分离,对语音信号进行分解,得到韩语语音检测的FM分量输出如下:
Tm(θ)=(m‑1)T0(θ);
式中,T0(θ)表示初始FM分量,Tm(θ)是FM分量;
将收集到的韩语口语发音规范化计算:
式中,ηE是韩语发音过程中的函数离散值,n是函数离散值的权重,T表示两个音频节点之间的跳数,dij表示音频节点i和节点j之间的最短路径;
按如下公式对发音进行纠正:
T ‑1 ‑1
Vi=RUi(AS )
T ‑1
式中,A为音频固有偏斜度,是衡量音符的参数,S 为音频属性的组合,是音频校对的函数参数,R为高级音频的提升权重,Ui是音频的度量,Vi为音频防错极限。

3.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正系统,其特征在于,声带振动传感器包括语音信号采集传感器阵列,韩语语音信号特征检测的频域为v(t,θ),即:
式中,ωi(θ)表示韩语第i条发音输出的瞬时时域信号加权向量, 表示韩语发音输出的瞬时时域信号分量,θ为语音信号参数,*表示共轭算子,m表示传感器,且数量的最大值为M;
采用自适应波束形成方法对语音信号进行时域匹配和滤波,输出信号的频域特性如下:
H
V(t,θ)=x(t)ω(θ)
式中,H表示复共轭转置;
韩语语音输出的瞬时时域信号的加权向量和分量可以表示为:
T
x(t)=[x1(t),x2(t),…,xM(t)]
T
ω(θ)=[ω1(θ),ω2(θ),…,ωM(θ)];
结合传感器阵列的信号处理方法,得到韩语发音错误检测的信号模型如下:
式中,gm为计算系数,nm(t)为辅助参数。

4.根据权利要求3所述的一种基于大数据挖掘技术的韩语发音纠正系统,其特征在于,所述音频信号调制器通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输,所述音频信号调制器与所述解调器成对使用,用来将数字信号调整为高频信号进行传输,而所述解调器则将数字信号还原为原始信号。

5.根据权利要求4所述的一种基于大数据挖掘技术的韩语发音纠正系统,其特征在于,所述解调器将调制在高频数字信号中的低频数字信号还原。

6.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正系统,其特征在于,所述控制模块由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成,用于发布命令,协调和指挥整个系统的运行。

7.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正系统,其特征在于,所述终端模块包括客户端UI模块、可视化模块,所述客户端UI模块适于采集终端用户信息。

8.根据权利要求1所述的一种基于大数据挖掘技术的韩语发音纠正系统,其特征在于,所述云端模块包括讯号接收模块,所述云端模块包括韩语标准发音以及口腔系统与喉部系统的数据库。
说明书

技术领域

[0001] 本发明涉及语言学习领域,具体而言,涉及一种基于大数据挖掘技术的韩语发音纠正系统。技术背景
[0002] 由于历史原因,韩语受到汉语的影响很大,使其和汉语有很多相似之处,这种相似给韩国人学习汉语带来很多便利,同时也带来很多负迁移。从发音方面说,虽然有很多韩语发音和汉语发音很像,尤其在韩语的汉字词中表现得尤为明显,但事实上,无论是发音方法还是发音部位,都存在着很大的差异。这种差异使韩国学生在学习汉语时,有很多难以克服的困难,给对韩的汉语语音教学带来很多麻烦。研究汉韩语音的辅音差异问题,探讨汉韩辅音方面的差异,并探讨相应的教学策略很有必要。
[0003] 辅音,即指发音时气流在发音部位受到明显的阻碍而形成的音,又叫子音。汉语和韩语中的辅音,二者在发音方法、发音部位及发音强弱方面有着不同。汉语普通话的辅音系统和韩语辅音系统并无对应关系,有一些音汉语普通话中存在,而韩语中并不存在,比如f[f];也有一些音似乎发音部位和发音方法相同,但事实上发出的音并不一样,比如和g、k;还有一些音是韩语中存在,而汉语中没有,比如韩语的紧音,汉语辅音系统没有。韩语中还存在紧音,紧音与松音的区别在于气流更强一些。同时,韩语辅音系统中存在喉音鼻音 闪音 这三个音在汉语中并不存在,在韩语中也较为特别,鼻音 在音节开头位置的时候不发音,喉音 与h音相似,闪音 在做收音时发音方法较为类似于r音。
[0004] 语习过程中,学习者往往对母语依赖性较强。一般而言,学习者喜欢从母语出发去学习第二种语言,以母语与目的语中相似的音代替目的语的情况十分普遍,或用母语思维学习目的语也同样会引起偏误。(1)语音相似引起偏误,汉语普通话和韩语本身就很相似,替代现象更为常见,如上文所述一些近似音,比如用 代替g、k,由此引起偏误;(2)用母语语音替代母语中没有的发音,比如用喉音 代替h,或以 发音代替l或者r。(3)韩语语流音变引起偏误。因此,以母语的语流音变思维学习汉语普通话,同样会造成偏误。
[0005] 综上,理解发音特征与声信号之间的关系对于解决发音反转问题至关重要。

发明内容

[0006] 本发明提出了一种基于大数据挖掘技术的韩语发音纠正系统,实现了韩语口语发音错误的检测和自动纠正,为学生学习韩语提供了技术支持。
[0007] 一种基于大数据挖掘技术的韩语发音纠正系统,包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块,云端模块,所述信号传输装置包括声带振动传感器、电磁传感器,电磁传感器用于捕捉语音识别中舌头和下巴的运动,所述电磁传感器是穿戴永磁示踪剂,利用磁传感器阵列无线跟踪舌头的运动,对舌头的坐标及其曲率位置的超声成像测量,以表示说话过程中的舌头,同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率,所述数据分析模块对韩语元音和辅音前两个共振峰进行优化,具体步骤包括:
[0008] S1.对于元音,第一共振峰表示为 其值与舌头高度h成反比:
[0009]
[0010] 第二个共振峰,表示为 对于元音的产生,其值与舌头的水平轴推进l成反比:
[0011]
[0012] 口腔被认为是一个管状模型,并认为是一个谐振器,对模型进行修正,获得:
[0013]
[0014]
[0015] β1和β2是提供的舌头元音发音系统共振峰响应的最接近的常量值,β1、β2∈R,c是音速,c=340m/s;
[0016] S2.确定β1和β2的值,β1和β2的值基于永磁示踪剂实验值的现有口腔系统共振峰的采集值计算而得,为了提高准确率,计算估计系统和舌发音系统的共振峰之间的损失函数,使用均方误差函数计算损失:
[0017]
[0018] 计算损失函数的偏导数,并通过下式更新β1和β2的当前值:
[0019]
[0020]
[0021] S3.松音、紧音、送气音的第一共振峰分别表示为:
[0022]
[0023]
[0024]
[0025] 松音、紧音、送气音的第二共振峰分别表示为:
[0026]
[0027]
[0028]
[0029] 式中,γ1、γ2是提供的舌头辅音发音系统共振峰响应的最接近的常量值,c是音速,B是爆破释放时间,Duration是发音持续时间;
[0030] S4.将简化的基于舌头的口腔系统与喉部系统级联而提出声道系统的计算公式,声道系统共振峰频率的传递函数由表示为V(z)k,喉系统和舌的共振峰频率的传递函数表示为L(z)k和
[0031]
[0032]
[0033]
[0034] A1,A2分别表示喉和舌发音系统的共振峰频率,T表示每个共振峰的持续时长,z表示共振峰的带宽 ,Fik表示根 据i ,k取值的 不同 ,分别代表
[0035] S5.所述纠正模块通过传感器获知共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数;并在发音过程中,进行了声学和肌电图分析,利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
[0036] 进一步地,引入消错计算可以有效地进行高精度的口语发音校正计算,首先进行数据处理和误差计算,其过程如下:
[0037]
[0038] 式中,E误差,H为误差阈值,B为振动波谷的极值,C为音频的有效周期律,D为恒频参数,PAH为韩语语音的标准振幅;
[0039] 将收集到的韩语口语发音“规范化”:
[0040]
[0041] 式中,ηE是韩语发音过程中的函数离散值,n是函数离散值的权重,T表示两个音频节点之间的跳数,dij表示音频节点i和节点j之间的最短路径;
[0042] 按如下公式对发音进行纠正:
[0043] Vi=RUi(ATS‑1)‑1
[0044] 式中,AT为音频固有偏斜度,是衡量音符的参数,S‑1为音频属性的组合,是音频校对的函数参数,R为高级音频的提升权重,Ui是音频的度量,Vi为音频防错极限。
[0045] 进一步地,声带振动传感器包括语音信号采集传感器阵列,韩语语音信号特征检测的频域为v(t,θ),即:
[0046]
[0047] 式中,ωi(θ)表示韩语第i条发音输出的瞬时时域信号加权向量, 表示韩语发音输出的瞬时时域信号分量,θ为语音信号参数,*表示共轭算子,m表示传感器,且数量的最大值为M;
[0048] 采用自适应波束形成方法对语音信号进行时域匹配和滤波。输出信号的频域特性如下:
[0049] V(t,θ)=xH(t)ω(θ)
[0050] 式中,H表示复共轭转置;
[0051] 韩语语音输出的瞬时时域信号的加权向量和分量可以表示为:
[0052] x(t)=[x1(t),x2(t),…,xM(t)]T
[0053] ω(θ)=[ω1(θ),ω2(θ),…,ωM(θ)]T;
[0054] 结合自适应滤波和盲源分离,对语音信号进行分解,得到韩语语音检测的FM分量输出如下:
[0055] Tm(θ)=(m‑1)T0(θ);
[0056] 式中,T0(θ)表示初始FM分量。结合传感器阵列的信号处理方法,得到韩语发音错误检测的信号模型如下:
[0057]
[0058] 式中,gm为计算系数,nm(t)为辅助参数。
[0059] 进一步地,所述音频信号采集模块包括信号传输装置、音频信号调制器、解调器、语音采集器。
[0060] 进一步地,所述音频信号调制器通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输,所述音频信号调制器与所述解调器成对使用,用来将数字信号调整为高频信号进行传输,而所述解调器则将数字信号还原为原始信号。
[0061] 进一步地,所述解调器将调制在高频数字信号中的低频数字信号还原。
[0062] 进一步地,所述控制模块由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成,用于发布命令,协调和指挥整个系统的运行。
[0063] 进一步地,所述终端模块包括客户端UI模块、可视化模块,所述客户端UI模块适于采集终端用户信息。
[0064] 进一步地,所述云端模块包括讯号接收模块,所述云端模块包括韩语标准发音以及口腔系统与喉部系统的数据库。
[0065] 本发明在发音过程中,利用传感器检测共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数。并在发音过程中,进行了声学和肌电图分析,还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。

实施方案

[0066] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0067] 本发明的韩语发音错误纠正系统主要用于韩语口语发音的识别、韩语口语发音错误的检测和自动纠正。口语发音是学习韩语的第一步,是整个韩语学习的基础。学习韩语的首要问题是记住单词。记住单词的首要任务是记住单词的发音。正确的口语发音习惯也能大大提高听力。即使是一些熟悉的单词在句中,他们也会因为自己独特的口语发音而无法理解别人正确的口语发音,从而导致韩语口语交际的困难。所以准确的韩语发音对学生听力非常重要。
[0068] 系统硬件架构构建根据韩语口语发音错误自动纠错系统的要求,构建了系统的硬件架构,包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块,云端模块。
[0069] 音频信号调制器是通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输的设备。音频信号调制器通常与解调器成对使用,用来将数字信号调整为高频信号进行传输,而解调器则将数字信号还原为原始信号。解调器是一种利用数字信号处理技术将调制在高频数字信号中的低频数字信号还原的设备。语音采集器的主要功能是采集韩语口语发音。控制器是指改变预定顺序的主电路,对控制电路的接线和电路进行说明,控制冲模电阻,控制冲模电机在冲模中的转速,制动和反转的主装置,控制器主要由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成;发布命令,即协调和指挥整个系统的运行,是“决策主体”。
[0070] 传统的口语语音纠正系统,采用信号处理的方法提取口语语音信号的特征并识别信息,将提取的声纹图与标准的声纹进行比较,但并没有从发音机理上对其进行纠正。本发明对语音系统进行了研究,通过放置在颈带上的信号传输装置,使用户能够感知并检测发音过程中自己的发音器官(包括嘴唇、下巴、舌头和牙齿)的肌肉运动方式,进而对发音进行纠错调整。语音系统用于记录发音系统(包括面部肌肉)的活动,使用电磁信号检测语音信号的合成,通过描述下颌、嘴唇、舌体和舌尖的发音轨迹来确定发音映射的声学性能。
[0071] 声带振动装置位于喉部并捕捉传感器信号,这些信号被发送到控制系统,以检测与发声相关的周期性振动。同时,电磁传感器被连接到面部并记录脉冲,而舌头和耳朵接口是一个可穿戴系统,可以捕捉用于语音识别的舌头和下巴的运动。
[0072] 舌头在元音产生方面的特征,在本发明中被认为是通过口腔产生语音的主要角色。在舌头上固定可穿戴永磁示踪剂,利用磁传感器阵列无线跟踪舌头的运动,可穿戴系统没有物理入侵。对舌头的坐标及其曲率位置的超声成像测量,以表示说话过程中的舌头,同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率。元音共振峰频率值是用一万名韩国人的记录语音进行实验统计的,这些语音与他们的舌头曲率相关,这些曲率是通过超声分析口腔声道系统的共振机制获得的。通过舌头的坐标与共振峰频率之间的关系,得出结论:第一共振峰频率取决于舌头的高度,第二共振峰取决于舌头的水平轴的推进长度。
[0073] 在的发音过程中,利用传感器检测共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数。并在发音过程中,进行了声学和肌电图分析,还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征。
[0074] 第一共振峰与舌体高度成反比,第二共振峰频率与前额口腔的大小或基于显示舌头和嘴唇位置的舌头推进程度有关。且共振峰频率与说话人有关,并随性别和年龄而变化。在本发明中,从元音的积累结果出发,提出了元音共振峰频率的优化统计公式,并扩展到辅音,所有的研究都是基于元音和辅音发音过程中的舌运动映射。本发明所提出的舌基口腔统计模型已与喉模型相关联,并与声道模型产生的语音进行了详细的比较。该算法基于共振峰表达式,适用于不同年龄组和性别的元音和辅音生成。
[0075] 本发明提出韩语元音和辅音前两个共振峰的优化统计关系,使用人类的舌头运动来定义年龄和性别独立的语音生成系统,并将舌头的发音系统和一个已知的喉模型关联在一起。
[0076] 当声带突然关闭时,振动源中的脉冲状激励导致声门闭合,正是在这一阶段,声门下区和声门上区分离,因此,声道的有效长度减少,从而仅因声门上部分而产生共振。声道长度的这种变化引起了频谱主要共振的变化,准确提取共振频率及其相关带宽是困难的,因为这些频率及其相关带宽由于声道形状的变化而不断变化,不仅在基音周期内,而且在基音周期内(即从声门的闭合相位到开放相位),因此,共振带宽的估计必须针对短的语音片段仔细地进行。当语音频谱被分解为振幅和相位分量时,突出的共振位置以及与之相关的带宽被称为共振峰。在元音发音过程中,口腔系统共振峰的前两个共振峰分别与舌头高度和舌头推进成反比。采用声道合成器和元音空间理论,通过映射舌头方向特征进行统计估计。声道形状和四边形成对显示,代表每个元音。在元音空间理论中,同样的模式是四边形的,其中水平轴l表示舌头前进,例如,前、中、后,它描述了在元音发音过程中舌头被抬高,倾斜线h表示舌头高度,例如,闭合、中间和张开。
[0077] 第一共振峰,表示为 对于元音的产生,其值与舌头高度h成反比:
[0078]
[0079] 第二个共振峰,表示为 对于元音的产生,其值与舌头的水平轴推进l成反比:
[0080]
[0081] 口腔被认为是一个管状模型,并假定为一个谐振器。对模型进行修正,获得:
[0082]
[0083]
[0084] β1和β2是提供的舌头元音发音系统共振峰响应的最接近的常量值,β1、β2∈R,c是音速,c=340m/s。
[0085] 下一步是确定β1和β2的值,β1和β2的值基于永磁示踪剂实验值的现有口腔系统共振峰的采集值计算而得,为了提高准确率,计算估计系统和舌发音系统的共振峰之间的损失函数,使用均方误差函数计算损失:
[0086]
[0087] 计算损失函数的偏导数,并通过下式更新β1和β2的当前值。
[0088]
[0089]
[0090] 对辅音产生的发音通过辅音的舌高h和水平轴推进l之间的关系来表示舌头的位置和运动。以类似于元音的方式,建立了辅音四边形的舌头高度h和舌头的水平轴推进l之间的关系。利用梯度下降法得到了辅音口腔共振峰的统计公式,并对其进行了优化。辅音是用音位和方式系统来描述和区分的,在此基础上,将辅音分为三个不同的组:松音、紧音、送气音。从辅音的声学特性来看,第一和第二共振峰受收缩的大小、发音方式(舌头高度)和爆破(突然释放空气)、舌头位置的影响,以及浊音或清音和发音部位(舌头向前)影响。
[0091] 松音、紧音、送气音的第一共振峰分别表示为:
[0092]
[0093]
[0094]
[0095] 松音、紧音、送气音的第二共振峰分别表示为:
[0096]
[0097]
[0098]
[0099] 式中,γ1、γ2是提供的舌头辅音发音系统共振峰响应的最接近的常量值,c是音速,B是爆破释放时间,Duration是发音持续时间。
[0100] 在建立了全套元音和辅音的共振峰后,利用上述结果,本发明提出了一种定量语音清晰度的新方法,并指出舌发音系统的前两个共振峰的共振系统是不同的。
[0101] 声道模型包括肺(声门源)和喉部,以及作为单个管道的口腔。肺起着动力作用,为喉部提供气流。喉部调节来自肺部的气流,并提供周期性的气流或嘈杂的气流源。因此,输出通过对光源进行光谱整形来提供调制气流,通过将简化的基于舌头的口腔系统(舌头发音系统)与喉部系统级联而提出声道系统的计算公式,声道系统共振峰频率的传递函数由表示为V(z)k,喉系统和舌的共振峰频率的传递函数表示为L(z)k和
[0102]
[0103]
[0104]
[0105] A1,A2分别表示喉和舌发音系统的共振峰频率,T表示每个共振峰的持续时长,z表示共振峰的带宽 ,Fik表示根据i,k取值的不同 ,分别代表
[0106] 此外,本发明还可以通过短时处理得到的共振峰带宽可以近似于每个共振峰的瞬时带宽,除了利用瞬时频带宽度来提取振幅分量外,还可以利用瞬时频带宽度来提取共振峰。共振峰带宽是通过将语音信号通过一组带通滤波器进行分解,然后对每个频带进行解调,得到振幅包络和瞬时频率信号来确定的。然后利用能量分离算法从这些瞬时频率信号中提取共振峰的带宽,将带宽值相对于最大值进行标准化,并绘制为直方图曲线,从语音的短片段中提取频谱响应的主共振频率处的带宽,以突出元音和辅音片段中带宽的变化。
[0107] 声带振动传感器包括语音信号采集传感器阵列,韩语语音信号特征检测的频域为v(t,θ),即:
[0108]
[0109] 式中,ωi(θ)表示韩语第i条发音输出的瞬时时域信号加权向量, 表示韩语发音输出的瞬时时域信号分量,θ为语音信号参数,*表示共轭算子,m表示传感器,且数量的最大值为M。
[0110] 采用自适应波束形成方法对语音信号进行时域匹配和滤波。输出信号的频域特性如下:
[0111] V(t,θ)=xH(t)ω(θ)
[0112] 式中,H表示复共轭转置。
[0113] 韩语语音输出的瞬时时域信号的加权向量和分量可以表示为:
[0114] x(t)=[x1(t),x2(t),…,xM(t)]T
[0115] ω(θ)=[ω1(θ),ω2(θ),…,ωM(θ)]T
[0116] 结合自适应滤波和盲源分离,对语音信号进行分解,得到韩语语音检测的FM分量输出如下:
[0117] Tm(θ)=(m‑1)T0(θ)
[0118] 式中,T0(θ)表示初始FM分量。结合传感器阵列的信号处理方法,得到韩语发音错误检测的信号模型如下:
[0119]
[0120] 式中,gm为计算系数,nm(t)为辅助参数。
[0121] 语音错误检测
[0122] 学习者根据系统提示发音后,系统会结合标准发音词典和发音规则,形成音位检测网络。同时,通过传感器获知共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数;并在发音过程中,进行了声学和肌电图分析,利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
[0123] 引入消错计算可以有效地进行高精度的口语发音校正计算,首先进行数据处理和误差计算,其过程如下:
[0124]
[0125] 式中,E误差,H为误差阈值,B为振动波谷的极值,C为音频的有效周期律,D为恒频参数,PAH为韩语语音的标准振幅。
[0126] 通过以上方法,将收集到的韩语口语发音“规范化”:
[0127]
[0128] 式中,ηE是韩语发音过程中的函数离散值,n是函数离散值的权重,T表示两个音频节点之间的跳数,dij表示音频节点i和节点j之间的最短路径。
[0129] 按如下公式对发音进行纠正:
[0130] Vi=RUi(ATS‑1)‑1
[0131] 式中,AT为音频固有偏斜度,是衡量音符的参数,S‑1为音频属性的组合,是音频校对的函数参数,R为高级音频的提升权重,Ui是音频的度量,Vi为音频防错极限。
[0132] 通过对声道及口腔模型的研究,基于发音音位对韩语口语发音错误进行自动纠错,为学生学习韩语提供了技术支持。
[0133] 以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。
专利联系人(活跃度排行)
版权所有:盲专网 ©2023 zlpt.xyz  蜀ICP备2023003576号