[0049] 下面结合附图,对本发明一种基于声音诱发脑电信号的说话人识别方法,做详细描述。
[0050] 图1为本发明基于声音诱发脑电信号说话人识别框图。
[0051] 图2为本发明使用的脑电帽电极分布图
[0052] 图3为本发明具体实施方案系统流程图,其具体包括以下步骤:
[0053] 步骤1、脑电信号采集
[0054] 从年龄在22‑25岁之间的20名学生中筛选了4名学生,其中2名男性2名女性,这4名学生普通说讲的很标准。一共挑选了12篇短篇新闻,分别是3篇新冠类、3篇政治类、3篇课文选读类和3篇花边新闻类,并分别为每篇短新闻设置了3个选择题让被试在休息时间内作答,用来检验被试是否认真听了这篇新闻录音。在安静的会议室内分别对这4名说话人录音,要求用正常语气顺畅地朗读完这12篇文章,每篇文章的录音控制在60‑65秒范围内,得到48个录音。实验中用到的录音的软件是cool edit2000,录音的设备是普通的联想麦克风和联想台式电脑,采样频率是48000Hz,用16比特方式进行量化。
[0055] 对年龄在22‑25岁之间的10名受试者(其中8名男性志愿者,2名女性志愿者),进行脑电实验培训,了解注意事项和熟悉实验流程,避免实验过程中不规范的行为导致实验数据异常。在本实验室专用的脑电实验房间进行数据采集,脑电采集设备是Neuroscan和64通道的脑电帽,设备符合10‑20系统标准,使用头顶参考电极而不是双侧耳垂参考电极,因此实际采样通道数为62个,通道的分布如图2所示。录音刺激在E‑Prime上面呈现,一共48个录音依次去刺激被试,相邻两个录音之间休息60秒,被试在这个时间内做完选择题,剩下的时间用来放松。按照顺序轮流去刺激被试,受试者对48个录音依次进行基线校正部分、听觉刺激部分、休息部分三个阶段,并获取对应阶段的脑电信号;
[0056] 所述的基线校正部分要求被试在正式开始前的t1=1秒内处于平静无任务状态。
[0057] 所述的听觉刺激部分,要求被试在t2=60秒内身体保持静止,认真听录音中说话人讲述的内容。
[0058] 所述的休息部分要求被试在t3=60秒内做完事先设计好的选择题,剩下的时间可以用来眨眼休息,但是整个过程中不能出现大的肢体动作,防止脑电采集设备与头皮接触不良。
[0059] 步骤2、对步骤1基线校正部分脑电信号进行数据预处理,得到delta、theta、alpha、beta、high gamma五个频段基线校正部分脑电信号;
[0060] 所述的预处理包括降采样、滤波;
[0061] 降采样:Neuroscan的采样频率为1000Hz,将原始数据降采样到250Hz,这样可以大大减少数据量,提高计算速度,方便进一步分析。
[0062] 滤波:不同的频段包含的信息不一样,为了探究哪个频段的信息能够区分不同说话人,将降采样后的数据进行滤波操作,使用工具箱eeglab的带通滤波,分别将数据滤到0.1‑3Hz(delta),3‑8Hz(theta),8‑13Hz(alpha),13‑30(beta)以及51‑80Hz(high gamma)5个频段。
[0063] 步骤3、对步骤1听觉刺激部分脑电信号进行数据预处理,得到delta、theta、alpha、beta、high gamma五个频段的多个听觉刺激部分脑电信号样本;
[0064] 所述的预处理包括降采样、滤波、去伪迹、样本切分;具体是:
[0065] 3.1降采样:Neuroscan的采样频率为1000Hz,将原始数据降采样到250Hz,这样可以大大减少数据量,提高计算速度,方便进一步分析。
[0066] 3.2滤波:不同的频段包含的信息不一样,为了探究哪个频段的信息能够区分不同说话人,将降采样后的数据进行滤波操作,使用工具箱eeglab的带通滤波,分别将数据滤到0.1‑3Hz(delta),3‑8Hz(theta),8‑13Hz(alpha),13‑30(beta)以及51‑80Hz(high gamma)5个频段。
[0067] 3.3去伪迹:在采集脑电信号的时候,眼电、心电和肌电等噪音信号不可避免地会混入到脑电信号中,采用独立成分分析方法,将原始脑电信号分离成各个不同的成分,然后通过现有技术去除伪迹成分比如眨眼的成分、肌肉紧张的成分等,从而得到相对干净的脑电信号,具体实现是利用工具箱eeglab上的run ica函数。
[0068] 3.4样本切分:对步骤3.3处理后的t2=60秒脑电信号进行样本切分,获得20个时长为3秒的多个样本。由于60秒时间太长,不适合作为一个样本,需要将48个trial听觉刺激部分脑电数据进行切分,将一个trial切分为20个3秒的sample,每个sample一共有750个采样点。划分好之后,需要查看每个sample在各个通道上的幅值,将幅值大于100uV的sample人工舍弃掉,因为EEG信号比较微弱,大于100uV的数据很可能是噪音。
[0069] 步骤4、听觉刺激部分脑电信号的特征提取
[0070] 经过样本切分后,每个样本的数据格式为62*750,数据量太多,需要从中提取出重要的特征,一方面可以减小样本数据大小,另一方面可以去除掉无用信息的干扰,从而更好地去分类。在脑电信号处理中,一般常见的特征可以分为时域特征、时频特征和频域特征等。
[0071] 在时域,计算每个样本中每个通道的统计量:均值、方差、最大值、最小值、标准差、面积和信息熵,将这7个值组成一个7维的特征向量,最终的特征大小为62*7。
[0072] 在时频域,通过使用短时傅里叶变换,信号从一维时域分解为时域和频域的二维联合表示,用以描述信号在不同时间段内的频率分布情况。短时傅里叶变换将信号在时域内进行分段,等效于用位置不同的窗函数与原信号想乘,先选定一个基本窗函数,然后将窗函数沿时间轴平移得到一组窗函数。平移后的窗函数与原信号相乘,其结果就是得到原信号在不同时间段内的时域信息,时频特征能够同时提到时域相关信息和频域相关信息。例如,delta频段数据经过短时傅里叶变换后得到特征大小是62*192。
[0073] 在频域,进行功率谱密度(Power Spectral Density,PSD)分析,通过一定方法求解信号的功率power随着频率变化曲线。
[0074] 分别用这三种特征在SVM上面做分类任务,发现时域统计特征以及时频特征能够很好地区分说话人声音,PSD无法区分说话人声音,于是将时域统计特征和时频特征拼接在一起,融合成新的特征,每个样本的数据格式为62*199。
[0075] 步骤5、插值法减弱背景噪声
[0076] 听觉刺激部分采集到的脑电数据由任务态数据和背景噪声数据组成,背景噪声数据是与任务无关的大脑自发活动而产生的数据。delta频段和high gamma频段的脑电数据能够很好地区分不同说话人的声音,而alpha频段的数据分类准确率表现为随机水平。因此,alpha频段的数据成分中包含更多的背景噪声,几乎不包含与任务相关信息。故本发明采用alpha频段基线校正部分的脑电信号数据作为基线,经过步骤4的特征提取后,得到背景模板。对步骤(3)处理后的5个频段样本的融合特征减去背景模板,得到干净任务态数据融合特征,即包含更多说话人差异性的特征,减弱了背景噪声的影响。
[0077] 步骤6、通道选择
[0078] 脑电信号采集装置一共62通道,分别对应着不同的脑区,大致可以分为额叶(F区)、颞叶(T区)、中央脑区(C区)、顶叶(P区)和枕叶(O区)。可分性指数FCSI(Fisher’s class separability index)可以计算单个通道在待分类别上的差异性。对每名被试的数据都做FCSI处理,计算出每个通道的分数,然后加权平均计算出所有数据下每个通道的分数,最后按分数大小做一个排序。选择排名靠前的通道做分类,并且计算不同数量通道的情况下分类准确率,从而选择一个最优的通道数量。实验结果如图5所示,优选为32个通道,32通道的数据就能够达到使用所有通道的效果。做完通道选择后,每个样本的数据格式为32*199。
[0079] 同时将上述融合特征的对应说话人作为标签,构建训练集。
[0080] 步骤7、利用上述训练集对分类器训练
[0081] 图4为本发明分类器的网络模型,分类器由时域卷积网络、二维卷积网络、Flatten层、全连接层构成;以步骤(6)处理后融合特征为输入,说话人分类结果为输出;
[0082] 二维卷积网络的输入为步骤(6)处理后融合特征,由两个串联的卷积块构成;每个卷积块由二维卷积单元、最大池化层串联构成。其中,二维卷积核的大小是3×1,用于提取通道相关性;
[0083] 时域卷积网络(Temporal Convolutional Network,TCN)的输入为二维卷积网络的输出,由两个串联的残差块构成;每个残差块由两个串联的一维卷积单元、以及一个恒等映射构成;
[0084] TCN能够很好地在时间这个维度上提取脑电信号特征,但是通道和通道间的相关性可能无法提取到,本发明提出把CNN与TCN相结合,总网络的前半部分是一个CNN网络,总网络的后半部分是一个TCN网络,前半部分提取通道间的相关性特征,后半部分再提取时间维度上的特征。TCN网络后面的Flatten层用于展平多维的数据,将数据展平成一维,Flatten层用于连接卷积层和全连接层。
[0085] 步骤8、利用训练好的分类器以实现说话人分类。
[0086] 图5表示不同的分类器在不同数量的通道情况下区分说话人的准确率,本发明提出的网络模型性能最好,并且使用32个通道时,分类准确率和使用全通道情况接近。
[0087] 该发明设计出来的网络模型能够根据脑电信号的多通道特殊性,很好地提取时域和空域重要特征,最终用该模型识别说话人,4分类准确率达到90%。
[0088] 上面基于声音诱发脑电信号的说话人识别方法说明书和附图详细介绍了本发明的具体实施方式,但应注意的是,以上只是本发明的最优实施方案,但本发明不限于上述实施方案,凡在本发明精神和原则之内,所作的任何修改、等同置换、改进等,均应包含在本发明的保护范围之内。