[0066] 为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
[0067] 本发明的韩语发音错误纠正系统主要用于韩语口语发音的识别、韩语口语发音错误的检测和自动纠正。口语发音是学习韩语的第一步,是整个韩语学习的基础。学习韩语的首要问题是记住单词。记住单词的首要任务是记住单词的发音。正确的口语发音习惯也能大大提高听力。即使是一些熟悉的单词在句中,他们也会因为自己独特的口语发音而无法理解别人正确的口语发音,从而导致韩语口语交际的困难。所以准确的韩语发音对学生听力非常重要。
[0068] 系统硬件架构构建根据韩语口语发音错误自动纠错系统的要求,构建了系统的硬件架构,包括音频信号采集模块、数据分析模块、纠正模块、控制模块、终端模块,云端模块。
[0069] 音频信号调制器是通过数字信号处理技术将低频数字信号调制成高频数字信号并进行传输的设备。音频信号调制器通常与解调器成对使用,用来将数字信号调整为高频信号进行传输,而解调器则将数字信号还原为原始信号。解调器是一种利用数字信号处理技术将调制在高频数字信号中的低频数字信号还原的设备。语音采集器的主要功能是采集韩语口语发音。控制器是指改变预定顺序的主电路,对控制电路的接线和电路进行说明,控制冲模电阻,控制冲模电机在冲模中的转速,制动和反转的主装置,控制器主要由程序计数器、指令寄存器、指令译码器、时序发生器和操作控制器组成;发布命令,即协调和指挥整个系统的运行,是“决策主体”。
[0070] 传统的口语语音纠正系统,采用信号处理的方法提取口语语音信号的特征并识别信息,将提取的声纹图与标准的声纹进行比较,但并没有从发音机理上对其进行纠正。本发明对语音系统进行了研究,通过放置在颈带上的信号传输装置,使用户能够感知并检测发音过程中自己的发音器官(包括嘴唇、下巴、舌头和牙齿)的肌肉运动方式,进而对发音进行纠错调整。语音系统用于记录发音系统(包括面部肌肉)的活动,使用电磁信号检测语音信号的合成,通过描述下颌、嘴唇、舌体和舌尖的发音轨迹来确定发音映射的声学性能。
[0071] 声带振动装置位于喉部并捕捉传感器信号,这些信号被发送到控制系统,以检测与发声相关的周期性振动。同时,电磁传感器被连接到面部并记录脉冲,而舌头和耳朵接口是一个可穿戴系统,可以捕捉用于语音识别的舌头和下巴的运动。
[0072] 舌头在元音产生方面的特征,在本发明中被认为是通过口腔产生语音的主要角色。在舌头上固定可穿戴永磁示踪剂,利用磁传感器阵列无线跟踪舌头的运动,可穿戴系统没有物理入侵。对舌头的坐标及其曲率位置的超声成像测量,以表示说话过程中的舌头,同时基于下颌、舌头和喉部的组合来估计发音模型中元音的共振峰频率。元音共振峰频率值是用一万名韩国人的记录语音进行实验统计的,这些语音与他们的舌头曲率相关,这些曲率是通过超声分析口腔声道系统的共振机制获得的。通过舌头的坐标与共振峰频率之间的关系,得出结论:第一共振峰频率取决于舌头的高度,第二共振峰取决于舌头的水平轴的推进长度。
[0073] 在的发音过程中,利用传感器检测共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数。并在发音过程中,进行了声学和肌电图分析,还利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征。
[0074] 第一共振峰与舌体高度成反比,第二共振峰频率与前额口腔的大小或基于显示舌头和嘴唇位置的舌头推进程度有关。且共振峰频率与说话人有关,并随性别和年龄而变化。在本发明中,从元音的积累结果出发,提出了元音共振峰频率的优化统计公式,并扩展到辅音,所有的研究都是基于元音和辅音发音过程中的舌运动映射。本发明所提出的舌基口腔统计模型已与喉模型相关联,并与声道模型产生的语音进行了详细的比较。该算法基于共振峰表达式,适用于不同年龄组和性别的元音和辅音生成。
[0075] 本发明提出韩语元音和辅音前两个共振峰的优化统计关系,使用人类的舌头运动来定义年龄和性别独立的语音生成系统,并将舌头的发音系统和一个已知的喉模型关联在一起。
[0076] 当声带突然关闭时,振动源中的脉冲状激励导致声门闭合,正是在这一阶段,声门下区和声门上区分离,因此,声道的有效长度减少,从而仅因声门上部分而产生共振。声道长度的这种变化引起了频谱主要共振的变化,准确提取共振频率及其相关带宽是困难的,因为这些频率及其相关带宽由于声道形状的变化而不断变化,不仅在基音周期内,而且在基音周期内(即从声门的闭合相位到开放相位),因此,共振带宽的估计必须针对短的语音片段仔细地进行。当语音频谱被分解为振幅和相位分量时,突出的共振位置以及与之相关的带宽被称为共振峰。在元音发音过程中,口腔系统共振峰的前两个共振峰分别与舌头高度和舌头推进成反比。采用声道合成器和元音空间理论,通过映射舌头方向特征进行统计估计。声道形状和四边形成对显示,代表每个元音。在元音空间理论中,同样的模式是四边形的,其中水平轴l表示舌头前进,例如,前、中、后,它描述了在元音发音过程中舌头被抬高,倾斜线h表示舌头高度,例如,闭合、中间和张开。
[0077] 第一共振峰,表示为 对于元音的产生,其值与舌头高度h成反比:
[0078]
[0079] 第二个共振峰,表示为 对于元音的产生,其值与舌头的水平轴推进l成反比:
[0080]
[0081] 口腔被认为是一个管状模型,并假定为一个谐振器。对模型进行修正,获得:
[0082]
[0083]
[0084] β1和β2是提供的舌头元音发音系统共振峰响应的最接近的常量值,β1、β2∈R,c是音速,c=340m/s。
[0085] 下一步是确定β1和β2的值,β1和β2的值基于永磁示踪剂实验值的现有口腔系统共振峰的采集值计算而得,为了提高准确率,计算估计系统和舌发音系统的共振峰之间的损失函数,使用均方误差函数计算损失:
[0086]
[0087] 计算损失函数的偏导数,并通过下式更新β1和β2的当前值。
[0088]
[0089]
[0090] 对辅音产生的发音通过辅音的舌高h和水平轴推进l之间的关系来表示舌头的位置和运动。以类似于元音的方式,建立了辅音四边形的舌头高度h和舌头的水平轴推进l之间的关系。利用梯度下降法得到了辅音口腔共振峰的统计公式,并对其进行了优化。辅音是用音位和方式系统来描述和区分的,在此基础上,将辅音分为三个不同的组:松音、紧音、送气音。从辅音的声学特性来看,第一和第二共振峰受收缩的大小、发音方式(舌头高度)和爆破(突然释放空气)、舌头位置的影响,以及浊音或清音和发音部位(舌头向前)影响。
[0091] 松音、紧音、送气音的第一共振峰分别表示为:
[0092]
[0093]
[0094]
[0095] 松音、紧音、送气音的第二共振峰分别表示为:
[0096]
[0097]
[0098]
[0099] 式中,γ1、γ2是提供的舌头辅音发音系统共振峰响应的最接近的常量值,c是音速,B是爆破释放时间,Duration是发音持续时间。
[0100] 在建立了全套元音和辅音的共振峰后,利用上述结果,本发明提出了一种定量语音清晰度的新方法,并指出舌发音系统的前两个共振峰的共振系统是不同的。
[0101] 声道模型包括肺(声门源)和喉部,以及作为单个管道的口腔。肺起着动力作用,为喉部提供气流。喉部调节来自肺部的气流,并提供周期性的气流或嘈杂的气流源。因此,输出通过对光源进行光谱整形来提供调制气流,通过将简化的基于舌头的口腔系统(舌头发音系统)与喉部系统级联而提出声道系统的计算公式,声道系统共振峰频率的传递函数由表示为V(z)k,喉系统和舌的共振峰频率的传递函数表示为L(z)k和
[0102]
[0103]
[0104]
[0105] A1,A2分别表示喉和舌发音系统的共振峰频率,T表示每个共振峰的持续时长,z表示共振峰的带宽 ,Fik表示根据i,k取值的不同 ,分别代表
[0106] 此外,本发明还可以通过短时处理得到的共振峰带宽可以近似于每个共振峰的瞬时带宽,除了利用瞬时频带宽度来提取振幅分量外,还可以利用瞬时频带宽度来提取共振峰。共振峰带宽是通过将语音信号通过一组带通滤波器进行分解,然后对每个频带进行解调,得到振幅包络和瞬时频率信号来确定的。然后利用能量分离算法从这些瞬时频率信号中提取共振峰的带宽,将带宽值相对于最大值进行标准化,并绘制为直方图曲线,从语音的短片段中提取频谱响应的主共振频率处的带宽,以突出元音和辅音片段中带宽的变化。
[0107] 声带振动传感器包括语音信号采集传感器阵列,韩语语音信号特征检测的频域为v(t,θ),即:
[0108]
[0109] 式中,ωi(θ)表示韩语第i条发音输出的瞬时时域信号加权向量, 表示韩语发音输出的瞬时时域信号分量,θ为语音信号参数,*表示共轭算子,m表示传感器,且数量的最大值为M。
[0110] 采用自适应波束形成方法对语音信号进行时域匹配和滤波。输出信号的频域特性如下:
[0111] V(t,θ)=xH(t)ω(θ)
[0112] 式中,H表示复共轭转置。
[0113] 韩语语音输出的瞬时时域信号的加权向量和分量可以表示为:
[0114] x(t)=[x1(t),x2(t),…,xM(t)]T
[0115] ω(θ)=[ω1(θ),ω2(θ),…,ωM(θ)]T
[0116] 结合自适应滤波和盲源分离,对语音信号进行分解,得到韩语语音检测的FM分量输出如下:
[0117] Tm(θ)=(m‑1)T0(θ)
[0118] 式中,T0(θ)表示初始FM分量。结合传感器阵列的信号处理方法,得到韩语发音错误检测的信号模型如下:
[0119]
[0120] 式中,gm为计算系数,nm(t)为辅助参数。
[0121] 语音错误检测
[0122] 学习者根据系统提示发音后,系统会结合标准发音词典和发音规则,形成音位检测网络。同时,通过传感器获知共振峰频率以及舌头和下巴的位置变化,以确定与音高相关的下巴发音参数;并在发音过程中,进行了声学和肌电图分析,利用磁共振成像和腭电图数据捕捉近辅音的三维声道几何特征,根据实际音素串与标准发音,对学习者的下颌、舌头和喉部运动进行动态调整的指导。
[0123] 引入消错计算可以有效地进行高精度的口语发音校正计算,首先进行数据处理和误差计算,其过程如下:
[0124]
[0125] 式中,E误差,H为误差阈值,B为振动波谷的极值,C为音频的有效周期律,D为恒频参数,PAH为韩语语音的标准振幅。
[0126] 通过以上方法,将收集到的韩语口语发音“规范化”:
[0127]
[0128] 式中,ηE是韩语发音过程中的函数离散值,n是函数离散值的权重,T表示两个音频节点之间的跳数,dij表示音频节点i和节点j之间的最短路径。
[0129] 按如下公式对发音进行纠正:
[0130] Vi=RUi(ATS‑1)‑1
[0131] 式中,AT为音频固有偏斜度,是衡量音符的参数,S‑1为音频属性的组合,是音频校对的函数参数,R为高级音频的提升权重,Ui是音频的度量,Vi为音频防错极限。
[0132] 通过对声道及口腔模型的研究,基于发音音位对韩语口语发音错误进行自动纠错,为学生学习韩语提供了技术支持。
[0133] 以上所述仅是对本发明的较佳实施例而已,并非对本发明作任何形式上的限制,凡是依据本发明的技术实质对以上实施例所做的任何简单修改,等同变化与修饰,均属于本发明技术方案的范围内。