基于脑电信号的语音生成方法、装置、终端及存储介质

文档序号：1906535 发布日期：2021-11-30 浏览：20次 >En<

阅读说明：本技术 基于脑电信号的语音生成方法、装置、终端及存储介质 (Electroencephalogram signal based voice generation method and device, terminal and storage medium ) 是由张莹谭力海于 2021-08-30 设计创作，主要内容包括：本发明实施例公开了基于脑电信号的语音生成方法、装置、终端及存储介质,该方法,包括：获取脑电信号；从所述脑电信号提取多个脑电图特征；通过训练好的声码器对所述多个脑电图特征进行预测,得到声学特征；所述训练好的声码器是基于关联有发音数据的样本脑电图训练神经网络模型得到；基于所述声学特征以及预先选择模式的指令生成对应所述模式的自定义语音；所述模式预先设置有一种或多种,不同的模式对应不同的声学特征处理方式。本方案中直接以原始脑电信号为输入,声音波形为输出,减少中间转换步骤,大大提高通信速率；以此,实现了对用户意图的快速识别,提高了用户的沟通效率与使用体验。(The embodiment of the invention discloses a method, a device, a terminal and a storage medium for generating voice based on electroencephalogram signals, wherein the method comprises the following steps: acquiring an electroencephalogram signal; extracting a plurality of electroencephalogram features from the electroencephalogram signal; predicting the electroencephalogram characteristics through a trained vocoder to obtain acoustic characteristics; the trained vocoder is obtained by training a neural network model based on a sample electroencephalogram associated with pronunciation data; generating a self-defined voice corresponding to the mode based on the acoustic features and an instruction for pre-selecting the mode; the modes are preset with one or more types, and different modes correspond to different acoustic feature processing modes. In the scheme, the original electroencephalogram signal is directly used as input, the sound waveform is used as output, intermediate conversion steps are reduced, and the communication speed is greatly improved; therefore, the user intention is quickly identified, and the communication efficiency and the use experience of the user are improved.)

技术领域

本发明涉及脑电信号处理技术领域，尤其涉及基于脑电信号的语音生成方法、装置、终端及存储介质。

背景技术

语音是人类交流最便捷最自然的形式，然而遭受外伤，患喉癌或者神经退行性疾病的人可能会丧失说话能力。这类交流障碍会使人们在日常交流中陷入困境，进而产生个人孤立和社会退缩的感觉，这可能导致抑郁，对个人和社会经济生活产生影响。

目前，可通过使用增强和替代性语音的设备来解决交流障碍的特定情况。增强替代语音设备多种多样，例如最简单的纸笔代替，或者记录头和眼等运动来代替通信设备，或者连接脑机接口设备控制光标来选择字母拼出单词等。

近年来，出现了更便捷的更高效的语音替代方法：无声语音接口设备，它利用语音生成过程中产生的非声学生物信号解码出语音来恢复口头交流。例如熟知的唇语交流，此外还有通过各种传感模式来捕获与语音相关的生物信号转换为语音交流的方法，例如声道成像、电磁关节造影术(语音发音器运动的磁跟踪)，表面肌电图(使用表面电极捕获驱动面部肌肉的电活动)，以及脑机接口技术(捕获大脑解剖区域的神经活动用于言语产生)。这些方法能够在不依赖声学信号的情况下实现语音通信，因此它们提供了一种全新的方式来恢复语言障碍者的通信能力。

其中，脑机接口受到了相当多的关注。脑机接口可基于电生理信号确定用户的意图，脑机接口技术的出现为那些无法通过言语或者肢体动作进行交互控制的病人带来了极大便利，但是现有脑机接口设备识别意图时需要经过文本与语音等的多次转换，导致识别的速度极低，这导致病人的沟通效率很低，使得实际体验不够好。

发明内容

有鉴于此，本发明提出了基于脑电信号的语音生成方法、装置、终端及存储介质，实现了对用户意图的快速识别，提高了用户的沟通效率与使用体验。

具体的，本发明提出了以下具体的实施例：

本发明实施例提出了一种基于脑电信号的语音生成方法，包括：

获取脑电信号；

从所述脑电信号提取多个脑电图特征；

通过训练好的声码器对所述多个脑电图特征进行预测，得到声学特征；所述训练好的声码器是利用样本脑电图训练神经网络模型得到的；

基于所述声学特征以及预先选择的模式生成对应所述模式的自定义声音特征的语音；所述模式预先设置有一种或多种，不同的模式对应不同的声学特征处理方式。

在一个具体的实施例中，所述“获取脑电信号”包括：

通过脑电帽上设置的多个电极获取用户实时的脑电信号。

在一个具体的实施例中，所述“从所述脑电信号提取多个脑电图特征”包括：

以一定的频率对所述脑电信号进行采样，得到由多个采用点组成的采样信号；

通过陷波滤波器对所述采样信号中的工频信号进行过滤，且去除绝对幅度超过一定值的采样点，得到过滤信号；

采用独立成分分析从所述过滤信号中去除用户以外的其他生物信号伪影，并提取脑电图的多个统计特征；

对所有的脑电图的统计特征以核主成分分析的方式进行降维，得到限定个数的脑电图特征。

在一个具体的实施例中，所述统计特征包括：均方根、过零率、平均移动窗、峰度和功率谱熵。

在一个具体的实施例中，所述样本脑电图中包括相互关联的发音数据与脑电图特征；

所述声码器的训练过程包括：

将多个样本脑电图中的脑电图特征输入基于门控循环单元的回归模型，得到输出的声学特征结果；

基于预设的损失函数确定输出的声学特征结果与所述发音数据中的声学特征之间的差值；

若差值大于预设阈值，则对所述回归模型进行调整后，继续执行“将多个样本脑电图中的脑电图特征输入基于门控循环单元的回归模型”的步骤，直到所述差值小于或等于所述预设阈值，并将最终调整得到的回归模型作为训练好的声码器。

在一个具体的实施例中，所述声学特征包括：短时能量平均变化率、振幅平均变化率、基频平均变化率、标准方差、基频变化率的1/4分位点、基频变化率的3/4分位点、基频变化率的1/3分位点、基频变化率的2/3分位点及12阶的一阶差分梅尔频率倒谱系数。

在一个具体的实施例中，所述模式包括用户自身声音特征定制模式以及个性化声音特征定制模式；

若选择用户自身声音特征定制模式，基于用户预先录制的声音对所述声学特征中的共振峰参数进行调整，以生成用户自身声音特征的语音；

若选择个性化声音特征定制，则根据所述声学特征与预设的定制声音模板，以生成个性化声音特征的语音。

本发明实施例提出了一种基于脑电信号的语音生成装置，包括：

获取模块，用于获取脑电信号；

提取模块，用于从所述脑电信号提取多个脑电图特征；

预测模块，用于通过训练好的声码器对所述多个脑电图特征进行预测，得到声学特征；所述训练好的声码器是利用样本脑电图训练神经网络模型得到的；

合成模块，用于基于所述声学特征以及预先选择的模式生成对应所述模式的自定义声音特征的语音；所述模式预先设置有一种或多种，不同的模式对应不同的声学特征处理方式。

本发明实施例还提出了一种终端，包括存储器以及处理器，所述存储器存储有计算机程序，所述处理器运行所述计算机程序以使所述处理器执行上述基于脑电信号的语音生成方法。

本发明实施例还提出了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现上述基于脑电信号的语音生成方法。

以此，本发明提出了基于脑电信号的语音生成方法、装置、终端及存储介质，该方法，包括：获取脑电信号；从所述脑电信号提取多个脑电图特征；通过训练好的声码器对所述多个脑电图特征进行预测，得到声学特征；所述训练好的声码器是利用样本脑电图训练神经网络模型得到的；基于所述声学特征以及预先选择的模式生成对应所述模式的自定义声音特征的语音；所述模式预先设置有一种或多种，不同的模式对应不同的声学特征处理方式。本方案中直接以原始脑电信号为输入，声音波形为输出，减少中间转换步骤，大大提高通信速率；以此，实现了对用户意图的快速识别，提高了用户的沟通效率与使用体验。

附图说明

为了更清楚地说明本发明的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，应当理解，以下附图仅示出了本发明的某些实施例，因此不应被看作是对本发明保护范围的限定。在各个附图中，类似的构成部分采用类似的编号。

图1示出了本发明实施例提出的一种基于脑电信号的语音生成方法的流程示意图；

图2示出了本发明实施例提出的一种基于脑电信号的语音生成方法的具体流程示意图；

图3示出了本发明实施例提出的一种基于脑电信号的语音生成装置的结构示意图；

图4示出了本发明实施例提出的一种终端的结构示意图。

图示说明：

201-获取模块；202-提取模块；203-预测模块；204-合成模块。

具体实施方式

下面将结合本发明实施例中附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。

通常在此处附图中描述和示出的本发明实施例的组件可以以各种不同的配置来布置和设计。因此，以下对在附图中提供的本发明的实施例的详细描述并非旨在限制要求保护的本发明的范围，而是仅仅表示本发明的选定实施例。基于本发明的实施例，本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例，都属于本发明保护的范围。

在下文中，可在本发明的各种实施例中使用的术语“包括”、“具有”及其同源词仅意在表示特定特征、数字、步骤、操作、元件、组件或前述项的组合，并且不应被理解为首先排除一个或更多个其它特征、数字、步骤、操作、元件、组件或前述项的组合的存在或增加一个或更多个特征、数字、步骤、操作、元件、组件或前述项的组合的可能性。

此外，术语“第一”、“第二”、“第三”等仅用于区分描述，而不能理解为指示或暗示相对重要性。

除非另有限定，否则在这里使用的所有术语(包括技术术语和科学术语)具有与本发明的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关技术领域中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义，除非在本发明的各种实施例中被清楚地限定。

实施例1

本发明实施例1公开了一种基于脑电信号的语音生成方法，如图1所示，包括以下步骤：

步骤S101、获取脑电信号；

具体的步骤S101中的所述“获取脑电信号”包括：

通过脑电帽上设置的多个电极获取用户实时的脑电信号。

具体的，如图2所示，通过采用脑电帽对用户的脑电信号进行实时的收集，具体的例如脑电帽为32导脑电极帽，其中一个为接地电极，电极放置方法可以参照国际脑电图学会规定的10-20系统电极放置法。额极中点至鼻根的距离和枕点至枕外粗隆的距离各占此连线全长的10％，其余各点均以此连线全长的20％相隔。放置点分别可以为O1,Oz,O2,P7,P3,Pz,P4,P8,TP9,CP5,CP1,CP2,CP6,TP10,T7,C3,C4,T8,FT9,FC5,FC1,FC2,FC6,FT10,F7,F3,Fz,F4,F8,Fp1,Fp2。

步骤S102、从所述脑电信号提取多个脑电图特征；

具体的，步骤S102中的所述“从所述脑电信号提取多个脑电图特征”包括：

以一定的频率对所述脑电信号进行采样，得到由多个采用点组成的采样信号；

通过陷波滤波器对所述采样信号中的工频信号进行过滤，且去除绝对幅度超过一定值的采样点，得到过滤信号；

采用独立成分分析从所述过滤信号中去除所述用户以外的其他生物信号伪影，并提取脑电图的多个统计特征；具体的，所述统计特征包括：均方根、过零率、平均移动窗、峰度和功率谱熵。

对所有的脑电图的统计特征以核主成分分析的方式进行降维，得到限定个数的脑电图特征。

在获取到脑电信号之后，进行特征提取，如图2所示，可以通过脑电图特征分析模块来进行提取，具体的先对脑电信号进行采样，具体采样频率为1000Hz，此外采用截止频率分别为0.5Hz和75Hz的带通滤波器。采用50Hz的陷波滤波器过滤工频信号，将绝对幅度超过75μv的采样点视为噪声。利用独立成分分析(ICA)从过滤了噪声的脑电图信号中去除病人以外的其他生物信号伪影，会提取5个脑电图的统计特征：均方根，过零率，平均移动窗，峰度和功率谱熵，接着使用核主成分分析(KPCA)对提取的155个脑电特征(31个通道×5个特征)进行降维，降维到30个特征用于预测不同的声学特征。

步骤S103、通过训练好的声码器对所述多个脑电图特征进行预测，得到声学特征；所述训练好的声码器是利用样本脑电图训练神经网络模型得到的；

具体的，所述样本脑电图中包括相互关联的发音数据与脑电图特征；由此，所述声码器的训练过程包括：

将多个样本脑电图中的脑电图特征输入基于门控循环单元的回归模型，得到输出的声学特征结果；

具体的，所述声学特征包括：短时能量平均变化率、振幅平均变化率、基频平均变化率、标准方差、基频变化率的1/4分位点、基频变化率的3/4分位点、基频变化率的1/3分位点、基频变化率的2/3分位点及12阶的一阶差分MFCC(梅尔频率倒谱)系数。

基于预设的损失函数确定输出的声学特征结果与所述发音数据中的声学特征之间的差值；

若差值大于预设阈值，则对回归模型进行调整后，继续执行“将多个样本脑电图中的脑电图特征输入基于门控循环单元的回归模型”的步骤，直到差值小于或等于预设阈值，并将最终调整得到的回归模型作为训练好的声码器。

具体的，如图2所示，声码器用于脑电图特征到声学特征的映射。预测的前提是有大量的脑电图和相应发音的映射，也即样本脑电图，例如声码器中预收集的数据为100位正常人录音频时，同时获取其脑电图来获取<EEG(脑电图),audio>的并行数据。音频语句例如可以包括：你好，妈妈，我需要帮助，我想上厕所，打开电视，天气怎么样等日常语句。录音信号以16KHz频率采样，抽取了9个不同的声学特性，包括短时能量平均变化率，振幅平均变化率，基频平均变化率，标准方差，基频变化率的1/4分位点，3/4分位点，1/3分位点和2/3分位点以及12阶的一阶差分MFCC系数。

为了从脑电图特征中预测不同的声学特征，本方案中采用基于门控循环单元(GRU)的回归模型。该模型由一层256个隐藏单元的GRU组成，以30维的脑电图特征作为输入，使用了attention机制来优化基于脑电图的语音合成；输出特征传递到一个dropout(0.2)，再传递到一层由128个隐藏单元的GRU，最后传递到一个具有线性激活函数的时间分布全连接层(TDD)。

在一个实际的情况下，声码器的训练周期可以为500个epoch，batch size为100，以adam为优化器，以MSE作为损失函数。除了根据上述提到的100位正常人脑电信号和音频训练得出的预训练模型外，用户还可以选择定制模式，脑电帽记录发声时的脑电信号，以此训练自身的专用模型。

步骤S104、基于所述声学特征以及预先选择的模式生成对应所述模式的自定义声音特征的语音；所述模式预先设置有一种或多种，不同的模式对应不同的声学特征处理方式。声音特征可以包括音色。

在一个具体的实施例中，所述模式包括用户自身声音特征定制模式以及个性化声音特征定制模式；

若选择用户自身声音特征定制模式，基于用户预先录制的声音对所述声学特征中的共振峰参数进行调整，以生成用户自身声音特征的语音；

若选择个性化声音特征定制，则根据所述声学特征与预设的定制声音模板，以生成个性化声音特征的语音。

具体的，声音定制模式的功能被图2中的语音预测模块实现，在该语音预测模块中，脑电帽采集的脑电信号通过特征分析模块后经过训练好的声码器输出相应的音频，在语音合成模块中根据预设的定制声音模版发出声音，具体的例如可以发出张三、李四或某些明星等的声音；

至于个人音色自定义模式，则是发出自己的声音，但是对自己声音的音色进行一定的调整，具体的用户先录入几段自己的声音，系统自动将用户录入的音频和自带音频对比，对应修改影响音色的共振峰的参数(频率，带宽和能量)。

而共振峰参数的提取过程为：先将语音信号进行分帧加窗和快速傅里叶变换(FFT)得到语音信号的短时谱，取对数后进行快速傅里叶逆变换(IFFT)，得到语音的倒谱。倒谱将基音谐波和频谱包络信息分离，加窗后进行FFT取对数，平滑处理后的对数谱即为输入的语音信号的谐振结构，最后对峰值进行定位即可得到共振峰。

而修改共振峰频率时可以采用逐段修改策略，确定每一段的伸缩系数；共振峰带宽的修改，是对共振峰附近的频谱进行渐变比例的拉伸或者压缩；修改能量是对共振峰附近的频谱增加或减少相同的能量值，同时在边界部分采用插值方法平滑，以减少杂音。另外也有简单的声音调节选项，例如音调升高，语速加快等。

以此，本方案使用脑电图信号构建脑机接口，该信号获取便捷，无需开颅；相较于以往的通信替代或增强设备，每分钟输出10-20个字的低通信率，使用神经网络模型，以脑电图波形信号为输入，语音为输出，每分钟可输出150个字，大大减少了交流的延迟，提高了通信效率；此外，为了提升用户使用的舒适度，增加语音个性化定制功能，改变共振峰参数即可输出与自己音色相似或者自我满意的声音。

实施例2

为了对本方案进行进一步的说明，本发明实施例2还公开了一种基于脑电信号的语音生成装置，如图3所示，包括：

获取模块201，用于获取脑电信号；

提取模块202，用于从所述脑电信号提取多个脑电图特征；

预测模块203，用于通过训练好的声码器对所述多个脑电图特征进行预测，得到声学特征；所述训练好的声码器是利用样本脑电图训练神经网络模型得到的；

合成模块204，用于基于所述声学特征以及预先选择的模式生成对应所述模式的自定义声音特征的语音；所述模式预先设置有一种或多种，不同的模式对应不同的声学特征处理方式。

在一个具体的实施例中，所述获取模块201，用于：

通过脑电帽上设置的多个电极获取用户实时的脑电信号。

在一个具体的实施例中，所述提取模块202，用于：

以一定的频率对所述脑电信号进行采样，得到由多个采用点组成的采样信号；

通过陷波滤波器对所述采样信号中的工频信号进行过滤，且去除绝对幅度超过一定值的采样点，得到过滤信号；

采用独立成分分析从所述过滤信号中去除用户以外的其他生物信号伪影，并提取脑电图的多个统计特征；

对所有的脑电图的统计特征以核主成分分析的方式进行降维，得到限定个数的脑电图特征。

在一个具体的实施例中，所述统计特征包括：均方根、过零率、平均移动窗、峰度和功率谱熵。

在一个具体的实施例中，所述样本脑电图中包括相互关联的发音数据与脑电图特征；

所述声码器的训练过程包括：

将多个样本脑电图中的脑电图特征输入基于门控循环单元的回归模型，得到输出的声学特征结果；

基于预设的损失函数确定输出的声学特征结果与所述发音数据中的声学特征之间的差值；

在一个具体的实施例中，所述声学特征包括：短时能量平均变化率、振幅平均变化率、基频平均变化率、标准方差，基频变化率的1/4分位点，基频变化率的3/4分位点，基频变化率的1/3分位点、基频变化率的2/3分位点及12阶的一阶差分梅尔频率倒谱系数。

在一个具体的实施例中，所述模式包括用户自身声音特征定制模式以及个性化声音特征定制模式；

若选择用户自身声音特征定制模式，基于用户预先录制的声音对所述声学特征中的共振峰参数进行调整，以生成用户自身声音特征的语音；

若选择个性化声音特征定制，则根据所述声学特征与预设的定制声音模板，以生成个性化声音特征的语音。

实施例3

本发明实施例3还公开了一种终端，如图4所示，包括存储器以及处理器，所述存储器存储有计算机程序，所述处理器运行所述计算机程序以使所述处理器执行实施例1中所述基于脑电信号的语音生成方法。

实施例4

本发明实施例4还公开了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现实施例1中所述基于脑电信号的语音生成方法。

以此，本发明提出了基于脑电信号的语音生成方法、装置、终端及存储介质，该方法，包括：获取脑电信号；从所述脑电信号提取多个脑电图特征；通过训练好的声码器对所述多个脑电图特征进行预测，得到声学特征；所述训练好的声码器是利用样本脑电图训练神经网络模型得到的；基于所述声学特征以及预先选择的模式生成对应所述模式的自定义声音特征的语音；所述模式预先设置有一种或多种，不同的模式对应不同的声学特征处理方式。本方案中使用神经网络模型，以脑电图波形信号为输入，直接以原始脑电信号为输入，声音波形为输出，减少中间转换步骤，大大提高通信速率；以此，实现了对用户意图的快速识别，提高了用户的沟通效率与使用体验。

在本申请所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和结构图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，结构图和/或流程图中的每个方框、以及结构图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

另外，在本发明各个实施例中的各功能模块或单元可以集成在一起形成一个独立的部分，也可以是各个模块单独存在，也可以两个或更多个模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是智能手机、个人计算机、服务器、或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。

13页详细技术资料下载

基于脑电信号的语音生成方法、装置、终端及存储介质

相关技术

网友询问留言