声音处理设备

文档序号:1650339 发布日期:2019-12-24 浏览:27次 >En<

阅读说明:本技术 声音处理设备 (Sound processing apparatus ) 是由 T·伦纳 C·格拉弗森 E·阿里科维克 C·F·门多萨·劳拉 A·塞格尔 于 2019-06-14 设计创作,主要内容包括:本申请公开了声音处理设备,其中语音分类设备(100)包括:声音处理单元(10),配置成从至少一外部传声器(15)捕获声音输入信号(11)并将所捕获的声音输入信号分段为分段的声音信号(17);语音分类单元(20),包含:配置成计算每一分段的声音信号(17)的语音倒谱(14)的语音倒谱计算单元(21);EEG倒谱计算单元(40),配置成计算用户大脑(220)的EEG信号(12)的EEG倒谱(13);映射单元(22),配置成从每一计算的声音倒谱(14)及从所计算的EEG倒谱(13)选择预先确定的多个系数;及相关单元(23),配置成基于从相应计算的声音倒谱选择的预先确定的多个系数(13,14)与从所计算的EEG倒谱选择的预先确定的多个系数的相关计算每一捕获的声音输入信号(11)的相关值;其中所注意的语音源基于所获得的相关值进行分类。(The application discloses a sound processing apparatus, wherein a speech classification apparatus (100) comprises: a sound processing unit (10) configured to capture a sound input signal (11) from at least one external microphone (15) and segment the captured sound input signal into segmented sound signals (17); speech classification unit (20) comprising: a speech cepstrum calculation unit (21) configured to calculate a speech cepstrum (14) of each segmented sound signal (17); an EEG cepstrum calculation unit (40) configured to calculate an EEG cepstrum (13) of an EEG signal (12) of a user&#39;s brain (220); a mapping unit (22) configured to select a predetermined plurality of coefficients from each calculated sound cepstrum (14) and from the calculated EEG cepstrum (13); and a correlation unit (23) configured to calculate a correlation value for each captured sound input signal (11) based on a correlation of a predetermined plurality of coefficients (13,14) selected from the respective calculated sound cepstrum with a predetermined plurality of coefficients selected from the calculated EEG cepstrum; wherein the noted speech sources are classified based on the obtained correlation values.)

声音处理设备

技术领域

本发明涉及用于听力装置的声音处理设备,具有随脑电波而变的声音处理。更具体地,本发明涉及听力装置如助听器、听力仪器、听音装置、主动耳朵保护装置、耳麦或头戴式耳机,其具有用于测量听力装置用户的脑电波的传感器并根据测得的脑电波调整声音处理。

本发明例如可用在下述应用中:用于补偿听力受损人员的听觉能力损失的助听器、用于增强正常听力人员的听觉能力的听音装置、用于保护人的听觉系统的主动耳朵保护装置、用于将电子声音信号传给用户的头戴式耳机、或者用于与另一人通信的耳麦。

背景技术

听力装置技术领域的常见挑战是在具有两个以上讲话者的声音环境中提高听力装置用户将注意力集中在特定讲话者上的能力,即改善所谓的“鸡尾酒会”效应。

在“鸡尾酒会”情形下,足够幸运具有正常听力的人通常能够以很小的努力调谐到特定讲话者。然而,如果有背景噪声或者听者具有听力受损,这可能极困难。具有听力受损的大多数人发现这种有噪声环境中理解语音相较在安静环境中理解语音要困难得多。标准助听器(HA)或听力仪器(HI)对具有该类型听力受损的人帮助很小,因为它们既放大语音又放大噪声。

定向助听器提供信噪比(SNR)的增大,这提高了理解力。然而,一般地,定向助听器设计成降低不直接在听者前面的声音,这产生局限性。数据已表明,听者需要面向感兴趣的信号并在某一距离内以获得定向益处。同样,噪声应包围听者或者直接在听者后面。

在咖啡厅或餐厅,听者周围通常有多个讲话者,在给定时刻希望仅注意他们中的一个。通常有来自特定方向而不是周围或者来自听者正后方的背景噪声。当前的研究的目标之一是使用脑电图(EEG)信号产生脑机接口(BCI)系统。该系统将能够决定听者正注意哪一声源,然后操控定向传声器和/或抑制噪声。

EEG信号为头皮表面上的电位变化的度量。调查对听觉刺激的EEG反应的最初实验发现,EEG反应反映简单短音的听觉神经处理。之后,在20世纪70年代进行的使用语音的实验表明,语言特征如词汇和句子上下文的语义影响语音的神经处理。

在现有技术中,已知用户大脑的神经活动跟随语音包络,及几个高度执行的、语音跟踪线性递归LR方法已知。一种这样的方法,称为刺激重建SR,通过使用从EEG到声音数据的逆映射而在下述情形时使用:(1)从记录的神经反应重建刺激包络;及(2)在多讲话者听音环境中分类所注意的语音。

在该SR方法中,重建的刺激与真实刺激比较,及重建准确度用相关系数(皮尔逊r)量化。重建准确度为语音的神经兴奋的度量。刺激重建也可用于设计分类器,其通过比较重建的语音包络与实际可得的语音包络之间的相关进行。具有最高相关值的语音包络被分类为所注意的语音。

然而,迄今已实现的EEG数据的相关系数通常在r=0.1–0.2级,这非常低。这主要由下述事实引起:(1)EEG信号反映不同的大脑处理,除了选择性注意任务之外,仅一部分EEG方差可从语音预测;及(2)一些语音特征不影响感知或诱发神经反应。

此外,向前模型已被考虑,结果表明实际的与重建的信号之间相关低。

此外,已提出使用编码和解码的结合,及在参数优化时使用典型相关分析(CCA)。当与向前和向后模型的相关系数比较时,CCA中的相关系数明显更大,对于单讲话者听音环境,约r=0.1–0.4。

一般地,目前文献中发现的方法仅依赖于经LR将提取的谱-时间语音包络映射到(时间)神经数据。

现有技术中的技术的主要缺点在于在重建准确度(相关系数)、分类准确度方面性能低。即,在现有技术中,没有方法能够可靠地将语音映射到EEG数据,即没有能够给出高重建准确度(相关系数)的方法。此外,在现有技术中,迄今没有接近100%的分类准确度。

因此,给定声音信号和EEG(脑电图)输入信号,需要所注意声源的高度准确的编码和分类方案。

需要提供一种解决至少部分上面提及的问题的解决方案,同时还需要从语音和声音信号及EEG数据提取特征的备选方法,因而需要怎样定义EEG和声音数据之间的映射及怎样定义递归模型以解决该问题的不同想法。

发明内容

根据一方面,提供一种用于具有随脑电图EEG而变的声音处理的听力装置的语音分类设备,包括:声音处理单元,配置成从至少一外部传声器捕获声音输入信号并将所捕获的声音输入信号分段为分段的声音信号;包含声音倒谱计算单元的语音分类单元,声音倒谱计算单元配置成计算每一分段的声音信号的声音倒谱;EEG倒谱计算单元,配置成计算用户大脑的EEG信号的EEG倒谱;映射单元,配置成从每一计算的声音倒谱及从所计算的EEG倒谱选择预先确定的多个系数;及相关单元,配置成基于从相应计算的声音倒谱选择的预先确定的多个系数与从所计算的EEG倒谱选择的预先确定的多个系数的相关计算每一捕获的声音输入信号的相关值,其中所注意的语音源基于所获得的相关值进行分类。

这使能提供从语音和声音信号及EEG数据提取特征的新方式,因而提供怎样定义EEG与声音数据之间的映射的不同方法,从而解决本发明的问题。此外,给定声音信号和EEG信号输入,这提供高度准确的编码/解码及所注意声源的分类。

在一实施例中,EEG信号由配置成记录用户大脑的听觉部分的活动的EEG装置提供。

在一实施例中,声音倒谱计算单元配置成计算声音输入信号的倒谱,及EEG倒谱计算单元配置成计算EEG信号的倒谱,其通过计算相应声音和EEG输入信号的对数化功率谱的逆傅里叶变换的实数进行。

在一实施例中,声音处理单元包括预处理单元,其中声音预处理单元配置成使每一声音输入信号延迟预定时间,或者EEG倒谱计算单元包括预处理单元,其中EEG预处理单元配置成使EEG输入信号延迟预定时间。

在一实施例中,相关单元配置成使用线性递归方法、非线性递归方法或者使用神经网络计算每一分段的声音信号的相关值。

在一实施例中,相关单元配置成基于声音和EEG相关值识别用户正听的所选声音输入信号。

根据另一方面,用于具有随脑电图EEG而变的声音处理的听力装置的助听系统,包括一个或两个听力装置,每一听力装置适于位于用户耳朵处或耳朵中或者适于完全或部分植入在用户头部中,每一听力装置包括用于提供可由用户感知为声音的输出刺激的输出单元,其中至少一听力装置包括上面描述的语音分类设备,至少一听力装置配置成通过至少一EEG电极提供EEG输入信号,及输出刺激基于相关单元计算的相关值。

在一实施例中,至少一听力装置包括助听器、耳麦、头戴式耳机、耳朵保护装置、喇叭扩音器或其组合。

在一实施例中,所述系统包括第一听力装置和第二听力装置,其中所述助听系统配置成使能在第一和第二听力装置之间或者在第一和第二听力装置与辅助装置之间交换信息。

根据又一方面,提供具有随脑电图EEG而变的声音处理的听力装置的语音分类方法。该方法包括:从至少一外部传声器捕获声音输入信号并将所捕获的声音输入信号分段为分段的声音信号;捕获用户大脑的EEG信号;计算每一捕获的声音信号和EEG信号的倒谱;从每一计算的声音倒谱及从所计算的EEG倒谱选择预先确定的多个系数;基于从相应计算的声音倒谱选择的预先确定的多个系数与从所计算的EEG倒谱选择的预先确定的多个系数的相关计算每一捕获的声音输入信号的相关值;及基于所获得的相关值分类所注意的语音源。

在一方面,在倒谱计算步骤之前执行预处理步骤,包括通过声音倒谱计算单元使分段的声音信号延迟预定时间或者通过EEG倒谱计算单元使EEG输入信号延迟预定时间。

在一实施例中,EEG信号由配置成记录用户大脑的听觉部分的活动的EEG装置提供。

在一实施例中,声音倒谱及EEG倒谱的计算步骤包括计算相应信号的对数化功率谱的逆傅里叶变换的实数。

在一实施例中,所述方法还包括通过声音倒谱计算单元使分段的声音信号延迟预定时间或者通过EEG倒谱计算单元使EEG输入信号延迟预定时间。

在一实施例中,相关值的计算步骤还包括,从每一声音倒谱选择的预先确定的多个系数使用线性递归方法、非线性递归方法或者使用神经网络与从EEG倒谱选择的预先确定的多个系数相关联。

在一实施例中,所述方法还包括基于声音和EEG相关值识别用户正听的所选声音输入信号的步骤。

附图说明

本发明的各个方面将从下面结合附图进行的详细描述得以最佳地理解。为清晰起见,这些附图均为示意性及简化的图,它们只给出了对于理解本发明所必要的细节,而省略其他细节。

在整个说明书中,同样的附图标记用于同样或对应的部分。每一方面的各个特征可与其他方面的任何或所有特征组合。这些及其他方面、特征和/或技术效果将从下面的图示明显看出并结合其阐明,其中:

图1a-b示出了根据本发明实施例的装置。

图2示出了根据本发明实施例的系统。

图3示出了根据本发明实施例的方法。

图4a-c示出了根据本发明实施例的数学运算的顺序。

图5示出了根据本发明实施例的仿真的图解。

图6a-b示出了根据本发明实施例的仿真的图解。

图7-8示出了根据本发明实施例的仿真的图解。

图9a-b示出了根据本发明实施例的仿真的图解。

图10示出了根据本发明实施例的数学运算的顺序。

图11a-c示出了根据本发明实施例的仿真的图解。

图12a-c示出了根据本发明实施例的仿真的图解。

图13a-b示出了根据本发明实施例的仿真的图解。

图14a-b示出了根据本发明实施例的仿真的图解。

图15a-b示出了根据本发明实施例的仿真的图解。

图16a-c示出了根据本发明实施例的仿真的图解。

图17a-b示出了根据本发明实施例的仿真的图解。

图18a-b示出了根据本发明实施例的仿真的图解。

图19a-b示出了根据本发明实施例的仿真的图解。

图20a-b示出了根据本发明实施例的仿真的箱形图。

具体实施方式

下面结合附图给出的具体描述用作多种不同配置的描述。具体描述包括用于提供多个不同概念的彻底理解的具体细节。然而,对本领域技术人员显而易见的是,这些概念可在没有这些具体细节的情形下实施。装置和方法的几个方面通过多个不同的块、功能单元、模块、元件、电路、步骤、处理、算法等(统称为“元素”)进行描述。根据特定应用、设计限制或其他原因,这些元素可使用电子硬件、计算机程序或其任何组合实施。

电子硬件可包括微处理器、微控制器、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、选通逻辑、分立硬件电路、及配置成执行本说明书中描述的多个不同功能的其它适当硬件。计算机程序应广义地解释为指令、指令集、代码、代码段、程序代码、程序、子程序、软件模块、应用、软件应用、软件包、例程、子例程、对象、可执行、执行线程、程序、函数等,无论是称为软件、固件、中间件、微码、硬件描述语言还是其他名称。

在一方面,听力装置可包括适于改善或增强用户的听觉能力的助听器,其通过从用户环境接收声信号、产生对应的声音信号、可能修改该声音信号、及将可能已修改的声音信号作为可听见的信号提供给用户的至少一只耳朵而实现。“听力装置”还可指适于以电子方式接收声音信号、可能修改该声音信号、及将可能已修改的声音信号作为听得见的信号提供给用户的至少一只耳朵的装置如耳麦或头戴式耳机。听得见的信号可以下述形式提供:辐射到用户外耳内的声信号、作为机械振动通过用户头部的骨结构和/或通过中耳的部分传到用户内耳的声信号、及直接或间接传到用户耳蜗神经和/或听觉皮层的电信号。

听力装置适于以任何已知的方式进行佩戴。这可包括:i)将听力装置的单元安排在耳后(具有将空传声信号导入耳道的管或者具有设置成靠近耳道或位于耳道中的接收器/扬声器),如耳后型助听器;和/或ii)将听力装置整个或部分设置在用户的耳廓和/或耳道中,如耳内式助听器或耳道式/深耳道式助听器;或iii)将听力装置的单元设置成连接到植入到颅骨内的固定装置,如骨锚式助听器或者耳蜗植入物;或iv)将听力装置单元设置为整个或部分植入的单元,如骨锚式助听器或耳蜗植入物。

“听力系统”指包括一个或两个听力装置的系统。“双耳听力系统”指包括两个听力装置的系统,其中这些听力装置适于协同地向用户的两只耳朵提供听得见的信号。听力系统或双耳听力系统还可包括与至少一听力装置通信的辅助装置,该辅助装置影响听力装置的运行和/或受益于听力装置的功能。在至少一听力装置和辅助装置之间建立有线或无线通信链路以使信息(如控制和状态信号,可能声音信号)能在其间进行交换。辅助装置可至少包括下述之一:遥控器、远程传声器、声音网关设备、移动电话、广播系统、汽车声音系统、音乐播放器或其组合。声音网关设备适于如从娱乐装置例如TV或音乐播放器,从电话装置例如移动电话,或从计算机例如PC接收多个声音信号。声音网关设备还适于选择和/或组合所接收声音信号(或信号组合)中的适当信号以传给至少一听力装置。遥控器适于控制至少一听力装置的功能和运行。遥控器的功能可实施在智能电话或另一电子设备中,该智能电话/电子设备可能运行控制至少一听力装置的功能的应用程序。

一般地,如图2中所示,听力装置210a、210b包括i)用于从用户周围接收声信号并提供对应的输入声音信号11的输入单元15如传声器;和/或ii)用于以电子方式接收输入声音信号的接收单元。听力装置还包括用于处理输入声音信号的信号处理单元10及用于根据处理后的声音信号将听得见的信号提供给用户220的输出单元。

在一方面,输入单元15可包括多个输入传声器,例如用于提供随方向而变的声音信号处理。前述定向传声器系统适于增强用户环境中的多个声源中的目标声源。在一方面,该定向系统适于检测(如自适应检测)传声器信号的特定部分源自哪一方向。这可使用传统已知的方法实现。信号处理单元包括适于将随频率而变的增益施加到输入声音信号的放大器(未示出)。信号处理单元适于提供其它适宜的功能如压缩、降噪等。输出单元包括输出变换器(未示出)如用于经皮将空传声信号提供给颅骨的扬声器/接收器,或者用于提供结构传播的或液体传播的声信号的振动器。在一些听力装置中,输出单元包括用于提供电信号的一个或多个输出电极,如在耳蜗植入物中。

数学上,我们可将模拟信号定义为按连续时间变化的函数x(t)。以采样周期T采样该连续信号x(t),我们获得离散时间信号或数字信号,其可被定义为x[n]=x(nT)。注意,方括号和时间指数n用于数字信号,与此相对,圆括号和t用于模拟信号。该约定贯穿本申请文件使用以区分离散和连续信号。采样频率可被定义为F=1/T。在本申请文件中,将使用赫兹(Hz),1Hz对应于每秒1个样本的采样频率,及1秒的采样周期。

由于声能的施加,空气分子沿能源的通路在压缩和稀疏之间交替。这通常通过正弦波曲线表示。该声音表示为声波是语音通常怎样进行表示。

在一方面,如图2中所示,EEG信号通过适于检测用户220尤其是用户大脑的听觉部分的电大脑电位的一个或多个电极230捕获。电极被植入或者固定到用户身体。提供EEG测量电路400(脑电图装置、EEG装置)以从通过电极接收的电信号确定和记录一个或多个EEG信号。

EEG信号为在大脑皮层中的突触兴奋期间流动的电流的测量。这些电流在用户头上产生电场,其可使用EEG系统进行测量。EEG信号使用放在脑内(脑皮层电图)、颅骨下面皮层上面(颅内信号)、或者用户头皮上的某些位置的多个电极进行记录。头皮EEG为非侵入EEG且为本发明中使用的EEG信号类型。任何进一步提及EEG均指头皮EEG信号。语音和EEG信号的统计如均值和方差随时间均不保持稳定。这样,这些信号通常非平稳。然而,它们似稳,即在短时间间隔内它们可被视为平稳。

语音记录器通常以8kHz到11kHz的速率采样。

神经信号有效地在0.5Hz到50Hz之间变动。基于它们的频率范围,它们已被分组为五个主要类别:δ(0.5Hz到4Hz)、θ(4Hz到8Hz)、α(8Hz到12Hz)、β(12Hz到30Hz)和γ(高于30Hz,主要高达45Hz)。有时,神经信号被滤波以仅考虑特定范围。然而,在本发明中,EEG信号的所有频率均保留。

由于EEG信号具有低于语音的频率,在保留信号信息的同时使用的采样速率可更低。EEG的采样速率通常约为512Hz,然而,根据所需分辨率及处理速度也可设定为不同的频率。

具体地,现有技术中的技术的主要缺点在于在重建/再现准确度(相关系数)和分类准确度方面性能低。也就是说,在现有技术中,没有方法能够可靠地将语音映射到EEG信号,即没有能够给出高重建准确度(相关系数)的方法。

这样的低性能的一种情况是缺乏能够足够好地描述EEG-声音关系的表示。现有技术中提取语音包络的技术不反映讲话者声道(包括舌头、牙齿等)的形状,其确定出来什么样的声音。如果讲话者的声道的形状可被更精确地确定,可实现音位的更准确的表示。

因此,本发明的目标在于从用户当前听到的一个或多个声源识别一个声源。

本发明因而提供一种从声音/语音信号和EEG信号提取特征并使声音/语音信号与EEG信号映射的方法及提供递归模型,以解决上面提及的问题。

倒谱处理目标在于提取可以高保真度描述语言内容的成分/分量并舍弃无关特征。倒谱处理学习在语音识别中可达到高性能。倒谱处理用于从EEG信号提取基于谱-包络的语音识别特征。因此,倒谱处理被应用于描述来自声音数据和EEG信号的基于谱-包络的语音特征,以获得声音/语音信号与EEG信号之间的更鲁棒的映射。

倒谱的定义基于模拟信号的功率谱。然而,使用现代计算技术应用倒谱要求数字处理,因而需要倒谱在离散时间信号理论方面的清晰定义。对于离散时间信号,倒谱因而被定义为信号的DTFT的对数的逆离散时间傅里叶变换IDTFT。

在本发明中,倒谱分析用于对来自声音信号和EEG信号的有关语言内容建模。即,倒谱分析不仅用于从语音信号提取语言内容,而且用于对EEG信号建模,因为声音/语音信号存在于EEG信号中。通过使用倒谱分析,来自记录的EEG测量结果的有关语音内容可被发现,以在第一步中获得高相关得分(重建准确度)及从所获得的相关得分分类所注意的语音。

换言之,根据本发明的实施例,如图1a-b中所示,提供用于具有随脑电图(EEG)而变的声音处理的听力装置的语音分类设备100,包括:音频处理单元10,配置成从至少一外部传声器15捕获声音输入信号11并将所捕获的声音输入信号分段为分段的声音信号17;语音分类单元20,包含配置成计算每一分段的声音信号17的声音倒谱14的声音倒谱计算单元21;EEG倒谱计算单元40,配置成计算用户大脑220的EEG信号12的EEG倒谱13;映射单元22,配置成从每一计算的声音倒谱14及从所计算的EEG倒谱13选择预先确定的多个系数;及相关单元23,配置成基于从相应计算的声音倒谱选择的预先确定的多个系数13,14与从所计算的EEG倒谱选择的预先确定的多个系数的相关计算每一捕获的声音输入信号11的相关值;其中所注意的语音源基于所获得的相关值进行分类。

倒谱分析用于捕获关于声道构成器官的有关信息,从而以高保真度从语音和EEG信号提取特征,因为声音信号与EEG信号相关联。

在本发明中,倒谱处理用于在语音信号的倒谱系数与EEG信号的倒谱系数之间建立联系。通过经相关分析学习如线性递归分析EEG倒谱特征与声音信号倒谱特征之间的联系,可能在训练阶段发现EEG信号中的声音信号(语音)的表示,并使用该知识在测试阶段期间以高保真度、从EEG准确地重建语音,即可实现重建的和实际的语音信号之间的高度相关。通过学习以从来自共同特征空间的EEG数据重建语音,本发明使用获取的知识解释新传入的声音信号和EEG信号,从而以最高的准确度重建输入语音流并识别语音流。

根据本发明,下面的方法用于多讲话者听音环境中所注意的语音的重建和分类。倒谱图被计算,即声音信号和EEG信号的倒谱系数跨多个短时间帧(这些帧中的每一个的长度优选为25ms到100ms)分别进行计算,及选择前几个系数并保留(S350)。设ccSpeech(i,j)和ccEEG(i,j)分别指语音和EEG信号的第i帧的第j个倒谱系数。接着,这些EEG帧使用线性或非线性递归如学习用户大脑对语音的脉冲响应的深度神经网络映射到声音帧。

根据本发明,时间-频率特征即EEG倒谱也从EEG信号提取,这使能提供更高的EEG信号分辨率。因而,可识别被表示在EEG数据中的有关语音特征。

在训练阶段期间,映射教导更深的声音信号和EEG信号的结构,因而对语音信号被怎样表示在用户大脑中提供超乎寻常的知识。

在测试阶段期间,EEG信号的倒谱特征被计算,及在训练阶段获得的映射用于预测所注意的语音的倒谱图。

为评估该重建的性能,使重建的倒谱图与实际所注意的语音的倒谱图相关。然而,在分类任务的测试阶段,不知道听者注意可用声音信号的哪一个,因而必须评估哪一声音倒谱图与重建的倒谱图最佳地相关,因而该语音可被分类为所注意的语音流。

根据本发明的声音/语音分类设备100的示意图如图1a-b中所示并在下面进行描述。

一个或多个声音输入信号11(信号的数量n,n为大于零的正整数)连同EEG信号12一起被输入到语音分类设备100。语音分类设备100包括包含波束形成计算单元的声音处理单元10、选择单元20、及(作为一选择)估计单元30。声音处理单元10还可包括用于预处理(101)声音输入信号的装置。

选择单元20包括语音倒谱计算单元21、映射单元22和相关单元23,如图1b中所示。语音倒谱计算单元21从每一分段的声音信号17a-e计算语音倒谱(倒谱系数)。即,分段的声音信号17a-e的离散时间傅里叶变换(DTFT)的对数的逆离散时间傅里叶变换(IDTFT)被计算。

在声音倒谱计算单元21中的倒谱计算之前,声音信号11可由预处理单元101预处理,如图1a中所示,只要适于信号处理的速度和分辨率性能,其可包括滤波、延迟、同步、再采样或语法分析中的一个或多个。在一实施例中,预处理单元101包括滤波元件和/或分隔元件并配置成在倒谱计算步骤之前预处理音频或声音输入信号11。滤波元件配置成对输入信号11进行滤波,及分隔元件配置成将滤波后的音频或声音信号分隔为分段的声音信号17a-e。有几种滤波备选方案,例如使用多通道齐纳滤波器(Multi-Channel WienerFilter,MWF)或深度神经网络(Deep Neural Network,DNN)。

此外,开窗函数如Hanning窗、Hamming窗、Flat-top窗、Blackman-Harris窗、矩形窗或另一已知的窗口函数可应用于分段的声音信号。优选地,Hanning窗应用于分段的声音信号。

换言之,声音倒谱计算单元21配置成通过计算每一分段的输入信号17a-e的对数化功率谱的逆傅里叶变换的实数而计算每一相应的分段的输入信号17a-e的倒谱。

应注意,对于DTFT的计算,使用复数对数函数。然而,通过声音倒谱计算单元21计算的倒谱为复数倒谱的实部,其在下面称为实倒谱或者简单地称为倒谱。

实倒谱不同于复数倒谱,因为取倒谱的量值的对数,而不是复数倒谱。通常,实倒谱在语音技术中使用,这样,在本申请中仅考虑实倒谱,即在本说明书的上下文中倒谱指实倒谱。

应注意,几个EEG信号12也可被输入到声音/语音分类设备100,在该情形下,下面描述的EEG信号倒谱及相关映射必须针对每一EEG信号12进行计算。在一实施例中,EEG信号12由由配置成记录用户大脑的听觉部分的活动的EEG装置提供。

EEG倒谱计算单元40从EEG信号12计算倒谱。即,EEG信号12的离散时间傅里叶变换(DTFT)的对数的逆离散时间傅里叶变换(IDTFT)被计算。

在EEG倒谱计算之前,EEG信号可由预处理单元401预处理,如图1a中所示,只要适于信号处理的速度和分辨率性能,其可包括滤波、延迟、同步、再采样或语法分析中的一个或多个。此外,开窗函数如Hanning窗、Hamming窗、Flat-top窗、Blackman-Harris窗、矩形窗或另一已知的窗口函数可应用于EEG信号12。优选地,与应用于声音信号11的窗口函数相同的函数也应用于EEG信号12。

例如,对优选具有5ms到1000ms的长度及更优选具有25ms到100ms长度的每一短时间帧分别计算一个或多个声音信号11和EEG信号12的倒谱系数。然而,本发明不限于这些时间长度,更长的信号帧或更短的信号帧均可用于倒谱系数的计算。

通常,在制造时或者在针对某一用户调整听力仪器时确定预先确定的延迟。

所得的倒谱(声音信号倒谱和EEG信号倒谱)之后分别从声音倒谱计算单元21和EEG倒谱计算单元40输出到映射单元22。

映射单元22从每一计算的声音倒谱及从所计算的EEG倒谱选择预先确定的多个倒谱系数(语音识别特征),其中这些倒谱系数为由声音倒谱计算单元21和EEG倒谱计算单元40计算的离散值。

例如,第一倒谱系数可被选择,同时在0Hz-1的第一值可被省略。然而,任何数量的倒谱系数可被选择,或者一组非连贯倒谱系数可被选择,取决于语音分类设备100需要实现的速度和映射分辨率。

然而,应注意,在语音分类设备100中,选择同样的预先确定的多个或者同样的一组系数。例如,如果第一(多个)倒谱系数被从第一声音信号倒谱选择,则同样从第二声音信号倒谱选择第一倒谱系数,依此类推,从EEG信号倒谱也选择第一倒谱系数。

所选的倒谱系数之后从映射单元22输出给相关单元23。

相关单元23计算描述每一语音信号倒谱与EEG信号倒谱的相关的相关值13。相关单元23配置成计算每一分段的声音信号17a-e的相关值。相关值使用归一化均方误差(Normalised Mean Square Error,NMSE)和皮尔逊(Pearson)相关系数值(ρ)进行计算。

然而,本发明在计算相关值时不限于使用NMSE和皮尔逊相关系数值,而是可使用其它相关方法如线性递归方法、非线性递归方法或者神经网络。

NMSE提供来自声音信号倒谱14的倒谱系数怎样接近EEG倒谱13的倒谱系数的度量。NMSE提供在区间(-∞,1]的值,值1为完美匹配,及0意味着拟合序列与直线之间没有差异。负值描述相应倒谱信号的反相关。为了测量两个信号的所选倒谱系数之间的线性相关,可使用皮尔逊的相关值ρ。

在一实施例中,相关单元基于声音和EEG相关值识别用户正听的所选声音输入信号16。针对每一声音输入信号11计算的相关值表示每一声音输入信号11与EEG输入信号12的相关的度量。即,所计算的相关值使能从一个或多个其它声音输入信号识别一个具有最高相关值的声音输入信号。该一个声音输入信号表示所谓的所注意的声音信号或所注意的语音,即用户当前听的声音信号。

所计算的相关值随后从语音分类设备100输出以使声音处理设备100外部的单元能进行进一步的处理。

在一实施例中,语音分类设备100根据图1a提供,除前面描述的实施例之外,其还提供另外的估计单元30。

估计单元30从相关单元23接收所计算的相关值。估计单元30从所接收的相关值可基于所计算的相关值识别用户听的一个声音信号11即所注意的声音信号,因而输出使能识别所注意的声音信号18的识别值。

换言之,语音分类设备100另外包括估计单元30,配置成指明一个或多个声音信号11中的一个声音信号,EEG信号12基于相关值指明。

估计单元30的输出(识别值)可在例如助听器的另外的部件中使用,如下面进一步描述的。

在一实施例中,如图2中所示,提供包括至少一助听器210a,210b和语音分类设备100的助听系统200。与EEG输入信号12(或EarEEG)的倒谱相关用于选择用户正听哪一传入的音频流或声音输入信号11。

传入的音频流或声音输入信号11的不同实施例或经多通道波束形成产生,如作为独立流传输的源15,或经靠近各个源的远处传声器产生。

传输音频流或声音输入信号的源15的备选例子为:

-独立的流传输源,经有线或无线链路流传输

--单一传声器

--移动电话;或

--娱乐设备如电视机/媒体设备

-远处传声器

--FM传声器;或

--拾音线圈传声器

-助听器(HA)传声器,例如波束形成源

--具有两个以上定向传声器的单一HA

--双HA,每一HA具有两个以上定向传声器

--N个传声器(M1,M2,…,MN),例如传声器阵列配置,安装在眼镜架上并与至少一HA相关联,例如听力眼镜;或

--助听器用户环境中的N个本地分布的传声器

一个或多个语音包络从每一个别语音流提取。语音包络的估计量(经EEG重建的语音包络)经称为刺激重建的方法从EEG信号产生。如果对于两个分开的语音流(但混合听),语音包络已知,则在“语音包络1”与“语音包络2”之间具有最高相关的(从EEG)重建的所注意的包络分类所注意的或所选的流16、18。给定该分类,所注意的/所选的独立流(波束形成、流传输、远处传声器)则可在放大器中增强或放大,未注意的流可被衰减。

在下面,首先描述刺激重建方法,其可用在相关单元23或估计单元30中以计算相关值和/或识别值。

刺激重建方法通过线性重建模型g使用反应R(EEG信号12)重建输入刺激S(声音信号11)的估计量。因此,描述神经反应被映射到刺激上的方式的函数可被建模。

刺激重建为线性时不变方法类型,尽管人大脑并非线性系统,其可被建模为具有良好结果的模型。

表示从神经反应r(t,n)到刺激s(t)的线性映射的重建模型g(τ,n)可被写为

其中为重建的刺激,t为时间点,τ为(在时间点的)滞后,及n为EEG通道数量。在下面,考虑几个EEG信号的情形。

函数g通过使s(t)与之间的均方误差最小化进行估计:

这使用下面的等式获得:

g=(RTR)-1RTs

(等式3)

其中R为反应矩阵r的滞后时间序列。对于单通道反应系统,R定义为:

其中集{τmin,...,τmax}表示考虑的滞后从最小滞后τmin到最大滞后τmax的范围。

这可通过用N列替代R的每一列而扩展到N通道系统,N列中的每一列表示单独的通道。因而,对于N个通道,R的维度将为T×N×τ窗口。

在现有技术中,刺激重建方法已将声音信号用作刺激及将EEG信号用作反应。然而,在本发明中,具有同样的采样频率的声音信号倒谱和EEG信号倒谱用于刺激重建的计算。

在本发明中,声音信号11和EEG信号12的倒谱系数分别视为刺激和反应。这可通过将声音信号和EEG信号打破(分)为不重叠的时间帧然后计算这些帧中的每一个的倒谱系数进行。分别选择前m个系数。

这些帧可被视为时间点,每一帧给出m个倒谱系数。因此,我们设s(k)指语音信号(刺激)的第k帧的m个倒谱系数的集合,并写为

考虑对应于声音信号(刺激)的EEG信号(反应),事实上有多个声音信号需要被考虑。

与声音信号11类似,EEG信号12被分开为不重叠的时间帧(在多个EEG信号的情形下对于每一相应的通道)。

对于每一时间帧,EEG信号12的倒谱系数可被计算,及选择前m个系数。设r(k,m,n)指第n个EEG通道的第k帧的第m个倒谱系数,其可写为

现在,需要考虑滞后矩阵。由于信号被分开为帧,时间点为信号的时间帧。

因此,滞后表示时间帧中的滞后,滞后矩阵可以与等式4类似的方式设置,差别在于时间滞后现在代表时间帧而不是初始信号中的时间点。

因此,使用倒谱系数的滞后矩阵可被写为:

其中K为帧的总数。

观察到等式5被嵌套在等式7内,该模型可被写为:

其中为重建的刺激。

函数g通过使s(k,m)与之间的均方误差最小化进行估计:

如同先前一样,这使用等式3获得,R为在等式8中给出的新的滞后矩阵:

g=(RTR)-1RTs

(等式10)

在另一实施例中,如同2中所示,本发明提供用于具有随脑电图EEG而变的声音处理的听力装置的助听系统200,包括:用于一个用户220的一个或两个听力装置210a,210b,每一听力装置210a,210b适于位于用户耳朵处(如图2中所示)或耳朵中或者适于完全或部分植入在用户头部中;每一听力装置210a,210b包括用于提供可由用户感知为声音的输出刺激的输出单元(未示出);其中至少一听力装置210a,210b包括上面描述的语音分类设备100;至少一听力装置210a,210b配置成通过至少一EEG电极230提供EEG输入信号12;及输出刺激基于相关单元23计算的相关值。

在另一实施例中,至少一听力装置210a,210b可包括助听器、听力仪器、耳麦、头戴式耳机、耳朵保护装置、喇叭扩音器或其组合。

此外,助听系统200可包括第一听力装置210a和第二听力装置210b,其中该助听系统200配置成使能在第一和第二听力装置之间或者在第一和第二听力装置与辅助装置之间交换信息。

在另一实施例中,如图3中所示,提供具有随脑电图EEG而变的声音处理的听力装置的语音分类方法300。该方法包括:步骤S310,从至少一外部传声器15捕获一个或多个声音信号11并将所捕获的声音输入信号分段为分段的声音信号17。该方法还包括:步骤S320,捕获用户大脑的EEG信号12;步骤S340,计算每一分段的声音信号17的语音倒谱13和所捕获的EEG信号12的EEG倒谱14;步骤S350,从每一计算的语音倒谱14及从所计算的EEG倒谱13选择预先确定的多个系数;步骤S360,基于从相应计算的语音倒谱14选择的预先确定的多个系数与从所计算的EEG倒谱13选择的预先确定的多个系数的相关计算每一捕获的声音输入信号11的相关值;及步骤S380,基于所获得的相关值分类所注意的语音源。

在一方面,倒谱计算步骤S340包括计算分段的声音信号17a-e和EEG信号12的对数化功率谱的逆傅里叶变换的实数。

在一方面,在倒谱计算步骤S340之前执行预处理步骤S330,包括使分段的声音信号17延迟由语音倒谱计算单元21设定的预定时间或者使EEG输入信号延迟由EEG倒谱计算单元40设定的预定时间。

在一方面,计算相关值步骤S360包括,使从每一语音倒谱14选择的预先确定的多个系数使用线性递归方法、非线性递归方法或者使用神经网络与从EEG倒谱13选择的预先确定的多个系数相关联。

在一方面,该方法还包括步骤:基于声音和EEG相关值识别用户正听的所选声音输入信号11。

在倒谱计算步骤S340中,如上所述,包括倒谱系数的语音倒谱从每一分段的声音信号17a-e计算。即,计算分段的声音信号17a-e的离散时间傅里叶变换(DTFT)的对数的逆离散时间傅里叶变换(IDTFT)。

在倒谱计算步骤S340中,如上所述,EEG倒谱从EEG信号12计算。即,计算EEG信号12的离散时间傅里叶变换(DTFT)的对数的逆离散时间傅里叶变换(IDTFT)。

在一个或多个声音信号11与EEG信号12之间需要时间同步的情形下,一个或多个声音信号11可在计算语音信号倒谱之前延迟预先确定的时间,或者EEG信号12在计算EEG信号倒谱之前可被延迟预先确定的时间。

在系数选择步骤S350中,从所计算的一个或多个语音信号倒谱及从所计算的EEG信号倒谱选择预先确定的多个倒谱系数(语音识别特征),其中倒谱系数为语音倒谱计算单元21及EEG倒谱计算单元40计算的离散值。如前面描述的,也可选择预先确定的一组系数,只要在每一选择步骤中选择同样的系数。

在相关值计算步骤S360中,描述每一语音信号倒谱与EEG信号倒谱的相关的相关值根据上面提供的描述进行计算。该计算可基于归一化均方误差(NMSE)和皮尔逊相关系数(ρ)的计算,或者可基于线性递归方法、非线性递归方法或者使用神经网络。

估计步骤S370为可选步骤,及可仅在上述实施例的改型中执行,如图1a中所示。在估计步骤S370中,用户听的一个声音输入信号11即所注意的声音信号基于计算的相关值确定。

估计步骤S370的输出即识别值可用在进一步的处理步骤中。

分类步骤S380,所注意的语音源基于所获得的相关值进行分类。

结果

在本发明的例子中,表示两个不同故事的两个声音信号被预先记录。这两个声音信号在30个个别试验中被播放给30个不同的测试人员(用户)。用户被要求在30分钟长的实验期间跟随两个声音信号之一。在向用户播放声音信号的同时,来自30个不同人员中的每一人的EEG信号被记录,及所得的数据随后使用根据本发明的声音处理设备进行评价。

具体地,每一人经历30次试验,每次试验实质上1分钟长,每一测试人员被呈现两篇经典的小说著作:一个故事被呈现(使用头戴式耳机播放)给左耳,另一故事被呈现给右耳。每一故事由不同的男性讲话者预先阅读录制。

测试人员被分为两组,每组15人,每组被指令在所有30次试验中或注意他们左耳中的故事或注意他们右耳中的故事。在每一试验之后,测试人员被要求回答4-6个针对两个故事的多选问题以确保测试人员注意所选的故事,及其中每一问题具有4个可能的答案。

实验对象之间设计被用于确保每一测试人员跟随一个故事以使得实验尽可能自然并避免刺激的任何重复呈现。对于两个故事,每一试验在该故事先前试验结束的地方开始。

在每一试验内每一音频流中的刺激振幅被归一化以具有同样的均方根(RMS)强度。为了使在所注意的流安静时间段期间未注意的流捕获实验对象的注意的可能性最小化,超过0.5s的安静间隙被截短到0.5s的持续时间。刺激使用耳麦呈现。测试人员被指令将视觉保持固定在屏幕中心的十字准线上每一试验的持续时间,并使眨眼及所有其它运动活动最小化。

针对测试人员的实验对象,使用128个电极位置记录脑电图数据。这些数据之后使用插值样条函数重新映射到对等的128个电极位置。该数据跨从0Hz到134Hz的范围滤波并以512Hz的速率数字化。数据被称为所有头皮通道的平均。

为了减少所需要的处理时间,所有EEG数据被上采样以给出等效的1024Hz的采样速率。语音信号被下采样到1024Hz以允许与EEG的那些数据的动态学关系。

对于每一用户,所得的最高计算的相关值平均为r>0.5,这相较于通常提供r=0.1-0.2范围的现有技术为高相关值。

类似地,通过根据本发明的用于识别所注意的声音信号的方法,获得高分类准确率(对于所有测试人员,>95%)。

另外的例子和仿真在下面的部分1-6呈现。

计算机可读介质

一方面,这些函数可被存储或编码为有形计算机可读介质上的一个或多个指令或代码。计算机可读介质包括适于保存包括程序代码的计算机程序的计算机存储介质,当计算机程序在处理系统上运行时,使得数据处理系统执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。

作为例子但非限制,前述有形计算机可读介质可包括RAM、ROM、EEPROM、CD-ROM或其他光盘存储器、磁盘存储器或其他磁性存储装置,或者可用于执行或保存指令或数据结构形式的所需程序代码并可由计算机访问的任何其他介质。如在此使用的,盘包括压缩磁盘(CD)、激光盘、光盘、数字多用途盘(DVD)、软盘及蓝光盘,其中这些盘通常磁性地复制数据,同时这些盘可用激光光学地复制数据。上述盘的组合也应包括在计算机可读介质的范围内。除保存在有形介质上之外,计算机程序也可经传输介质如有线或无线链路或网络如因特网进行传输并载入数据处理系统从而在不同于有形介质的位置处运行。例如,方法步骤S310到S380可实施为软件,同样,语音倒谱计算单元、EEG倒谱计算单元、选择单元、相关单元和估计单元可用软件实施。

数据处理系统

一方面,数据处理系统包括处理器,其适于执行计算机程序从而使得处理器执行上面描述的、“具体实施方式”中详细描述的及权利要求中限定的方法的至少部分(如大部分或所有)步骤。例如,方法步骤S310到S380可被实施在数据处理系统中,同样,语音倒谱计算单元、EEG倒谱计算单元、选择单元、相关单元和估计单元也可实施在数据处理系统中。

当由对应的过程适当代替时,上面描述的、“具体实施方式”中详细描述的或权利要求中限定的装置的结构特征可与本发明方法的步骤结合。

已在上面描述的领域内进行研究,部分仿真及结果将在下面的部分1-6给出。

1、介绍

所公开的研究的目标之一是使用脑电图(EEG)信号产生脑机接口(BCI)系统。该系统将能够决定听者正听哪一声源,然后操控定向传声器和/或抑制噪声,如Wostmann等公开的。

EEG信号为头皮表面上的电位变化的度量。首次使用头皮电极记录脑电位是由Berger在20世纪20年代进行。

调查对听觉刺激的EEG反应的最初实验发现,EEG反应反映简单短音的听觉神经处理。之后,在20世纪70年代进行的使用语音的实验表明,语言特征如词汇和句子上下文的语义影响语音的神经处理。

2、数字信号处理

理解实验所需要的数学概念将首先给出。语音和EEG信号均被使用,因此,信号处理方法形成基础。

2.1语音及EEG信号

声音为通过气体或液体的压力波。由于声能的施加,空气分子沿能源的通路在压缩和稀疏之间交替。这通常通过正弦波曲线表示。该声音表示为声波是语音通常怎样进行表示。声音为空气分子的交替压缩和稀疏。简单的声波可通过正弦波描述。

数学上,模拟信号定义为按连续时间变化的函数x(t)。以采样周期T采样该连续信号x,获得离散时间信号或数字信号,其可被定义为x[n]=x(nT)。注意,方括号和时间指数n用于数字信号,与此相对,圆括号和t用于模拟信号。该约定贯穿本申请文件使用以区分离散和连续信号。采样频率可被定义为F=1/T。在本申请文件中,将使用赫兹(Hz),1Hz对应于每秒1个样本的采样频率,及1秒的采样周期。

EEG信号为在大脑皮层中的突触兴奋期间流动的电流的测量。这些电流在头皮上方产生电场,其可使用EEG系统进行测量。EEG信号使用放在脑内(脑皮层电图(ECoG))、颅骨下面皮层上面(颅内信号(iEEG))、或者用户头皮上的某些位置(EEG)的多个电极进行记录。头皮EEG为非侵入EEG且为本发明中使用的EEG信号类型。任何进一步提及EEG均指头皮EEG信号。

语音和EEG信号的统计如均值和方差随时间均不保持稳定。这样,这些信号通常非平稳。然而,它们似稳,即在短时间间隔内它们可被视为平稳。

在语音处理中进行的基本假设之一为,当跨短时间间隔(通常20-25ms)考虑时,语音信号可被视为平稳。语音记录器通常以8-11kHz的速率采样。

神经信号有效地在0.5-50Hz之间变动。基于它们的频率范围,它们已被分组为五个主要类别:δ(0.5-4Hz)、θ(4-8Hz)、α(8-12Hz)、β(12-30Hz)和γ(高于30Hz,主要高达45Hz)。在一些研究中,神经信号被滤波以仅考虑特定范围。然而,在本发明中,EEG信号的所有频率均保留。

由于EEG信号具有低于语音的频率,在保留信号信息的同时使用的采样速率可更低。EEG的采样速率趋于约为512Hz。

2.2平稳随机过程

设x(t)指连续时间信号(模拟信号)。通过以采样时间间隔Ts采样该信号x,即t=nTs,我们获得定义为{x[n];n=0,+/-1,+/-2,…}的离散时间数据序列,也称为数字信号。设该离散时间数据序列{x[n];n=0,+/-1,+/-2,…}为随机过程。该随机过程具有定义如下的一阶和二阶矩:

平稳随机过程将被进一步使用,在具有弱平稳过程的具体情形下。这样的过程为即使在时标变化或置换之后统计性质(一阶和二阶矩)仍保持一样的那些过程。离散时间数据序列{x[n]}为弱平稳过程,如果其具有恒定均值m(n)及其协方差函数r(s,t)<∞为有限函数并仅取决于时间变化τ=m-n。

设Es指离散信号x[n]的能量,如果该序列x[n]具有有限能量,即

则该序列x[n]具有定义如下的离散时间傅里叶变换(DTFT):

对于具有周期2π的频率f。本情形将在频域f起作用。注意,用于参考,在部分文本中可发现ω=2πf的记法。

初始序列x[n]则通过对应的逆离散时间傅里叶变换(IDTFT)获得:

及能量谱密度定义为:

S(f)=X(f)X*(f)=|X(f)|2

(等式2.4)

其中(·)*指标量变量的复共轭或者向量或矩阵的共轭转置。

2.3数字系统

数字信号处理在语音处理中扮演重要角色,因为最流行的表征语音的方法之一依据信号或声学波形。

已知数字系统指那些在给定输入数字信号x(t)的情形下能够产生输出信号y(t)的系统:

y(t)=T{x(t)

(等式2.5)

一般地,数字系统T在且仅在下述情形下定义为线性:

对于任何信号x1(t)和x2(t)。如果输出不受输入被施加到系统的特定时间点影响,T被定义为时不变。线性时不变系统可由下式描述:

通过在前面等式中替换x(t)=ei2πf,我们得到

及使用卷积的交换性,我们获得下面的表达式:

其中H(ei2πf)为h(t)的离散时间傅里叶变换并被表达为具有周期2π的频率的函数。其被称为该系统的频率响应或传递函数。按先前子部分中描述的类似方式,对应的逆离散时间傅里叶变换则为

2.4功率谱密度(PSD)

如果信号具有有限平均功率,则其可通过平均功率谱密度描述。在本发明中,将把信号的平均谱密度称为功率谱密度(PSD)。PSD为表征和提供该功率在频率之间怎样分布的细节的方式。

由Lindgren等给出的协方差函数的定义将被使用。对于m<n,设τ为通过τ=n-m给出的时滞,则协方差函数由下式给出:

其中mx(n)和mx(m)分别为x[n]和x[m]的均值函数。对于具有零均值的离散时间信号x[n],

渐近无偏估计器将被发现用于协方差函数,使用其对应的样本协方差,并假定过程m(n)=m的平均已知。下面的定理阐述这样的估计器。

定理1

协方差函数r(τ)的估计^r(τ)由下式给出

及如果满足下面条件,其渐近无偏

等式(2.8)用于将PSD(看作频率的函数)定义为下面协方差函数的DTFT:

协方差函数r(τ)可经R(f)的逆DTFT获得:

既然已介绍PSD的前述定义,非参数方法可被引入并用在本发明中以获得PSD的估计量

2.5谱估计的非参数方法

在该部分,介绍谱估计的非参数方法,它们及其部分性质在本发明中考虑。当使用非参数方法时,在分辨率和高方差之间有平衡。Periodogram(周期图)已知用于在谱峰值时提供良好的分辨率,但其具有高方差。目标在于降低该高方差(周期图的特性)的多种改进方法已被提出,该方差降低以损失峰值时的分辨率为代价。周期图将在本发明中使用,具有Hanning(汉宁)开窗的周期图、方法及多讲话者方法。

2.5.1 Periodogram

在估计平稳过程Xn;n∈Z的谱密度时,其已被采样以获得实值数据序列{x([n];n=0,+/-1,+/-2,…}并满足等式2.14。该数据序列的谱估计可通过使用周期图进行,定义为

该项的共轭可用在绝对值内以分离功率并将等式2.15表达为

设τ=m-n。如果所有可能的M值被首先求和及所有项x[m]x[n]被聚集,可以看出,对于其将以N个可能的项结束

x[0]x[0],x[1]x[1],...,x[N-1]x[N-1]

对于其将以N-1个可能的项结束

x[0]x[1],x[1]x[2],...,x[N-1]x[N]

依此类推,对于m值,高达N-1-|τ|,τ∈[-N+1,N+1]。可以看出,所有可能的组合可被表达为x[n]x[n-|τ|],因此将等式2.15写为

假定过程m(n)=m的平均已知并等于0,可从等式2.13认识到估计器的表达^r(τ)以就协方差函数将Periodogram表达为

周期图的预期值可使用来自等式2.18的表达式从该等式2.19计算。

在此,如果项E[^r(τ)]通过设N→∞而被展开,对于r(τ),获得渐近无偏估计器,从而产生下一表达式

在等式2.20中替代等式2.24,周期图的预期值可被表达为

从该表达式可获得所谓的滞后窗

当N→∞时,^R(f)产生PSD的渐渐无偏估计量时。但当处理N<∞的值时,即在具有从有限长度数据序列获得的多个有限长度序列时,将获得谱偏差B(f)=E[^R(f)]-R(f)。一方面,该偏差在具有多个有限长度序列时出现。另一方面,PSD估计中特有的可变性将获得,其即使对于大的N值也不减少。这两个原因导致从Periodogram得到不一致的PSD估计器。作为处理该情形的备选,可尝试不同类型的滞后窗。在本发明中使用的滞后窗将在下一部分提出。

2.5.2开窗

在实践中,为在周期图中获得一些旁瓣,对数据开窗很常见,其是将为有偏估计器的主要原因。减少该偏差的一种方法是使用与数据序列同样长度的窗口w,这种开窗技术也被称为数据的渐变。在等式2.26中包括该窗口w,获得改进的周期图的下面表达式

在多种窗口之中,最适宜且广泛使用的窗口之一为Hanning窗

如果Hanning窗与周期图比较,旁瓣将更快速地下降,停止功率泄漏到侧面,而是保留在主瓣周围。该方法的缺点(与前面提及的平衡有关)在于主瓣可能变得更宽,及如果两个主要频率靠近在一起,它们可被错误解释为仅一个频率。

3、倒谱处理

3.1介绍

在1963年,观察到信号加上其回声(即信号之后为延迟且缩小的复制品)的功率谱的对数由信号谱及因回声引起的周期性分量的对数组成。进行进一步的谱分析,发现可能识别对数谱中的周期性分量,因而具有新的、回声出现的指示器。

新的词汇被创建以反映“将谱分析技术应用于信号谱”。从谱分析取得的这些词的第一音节被重新排列以突出二者之间的联系,同时还使这些方法之间的差别清楚。因此,在频域,时间波形的对数谱的谱被称为倒谱,及该倒谱的滤波被命名为同态滤波。谐波在频域被命名为倒谐波。

倒谱的初始定义基于模拟信号的功率谱。然而,使用现代计算技术应用倒谱要求数字处理因而需要倒谱在离散时间信号理论方面的清晰定义。对于离散时间信号,倒谱被定义为信号的DTFT的对数的逆离散时间傅里叶变换(IDTFT)。即,对于离散时间信号x[n],离散时间倒谱由下式给出:

3.2同态系统

在20世纪60年代早期,与正工作于倒谱理论的Bogert等同时,AlOppenheim正研究非线性信号处理的新理论,称为同态系统。Oppenheim的工作基于将线性向量空间理论应用于信号处理。想法是信号组合的某些运算(特别是卷积和相乘)满足与线性向量空间理论中的向量相加同样的公理。

在此感兴趣的是同态系统针对卷积的分类。这可通过图4a中的图解表示。D*{}表示卷积的特性系统并将卷积组合变换为对应的相加组合。因此,D*{}由下面的性质定义,当x[n]=x1[n]*x2[n]时,对应的输出为

L{}为满足叠加原理的一般线性系统,相加作为信号组合的输入和输出运算。逆特性系统

必须将和变换为卷积。在每一阶段应用的运算被写在每一框的上角。

图4b给出了满足等式(3.2)的性质的数学运算顺序。即,我们可通过下面等式表示^x[n]:

其中为DTFT,等式3.3为复对数,及等式3.4为复值函数X(ei2πf)的IDTFT。注意,在等式3.3中,使用复对数,其定义为

lnX(ei2πf)=ln|X(ei2πf)|+i·arg[X(ei2πf)].

(等式3.6)

该顺序使用图解3.1图示。卷积的特性系统的逆在图4c中示出,通过应用复指数颠倒复对数的影响。

卷积的特性系统与倒谱之间的联系在1965年在贝尔电话实验室的Oppenheimer和Jim Flanagan之间讨论期间被首次提出。Flanagan谈到,卷积的同态系统使他想起Bogert等提出的倒谱。在图解3.1和3.2中给出的卷积特性系统由Oppenheim、Schafer和Stockham开发。由于与Bogert等给出的倒谱的相似性,当Oppenheim、Schafer和Stockham在1968年发表他们的文章时,他们将卷积特性系统的输出(等式3.3到3.4)称为复倒谱。

倒谱为复倒谱的实部且仅在取谱量值的对数而不是复对数方面不同于复倒谱。实倒谱在语音技术领域被最广泛地使用,这样,在本项目中我们仅考虑倒谱。进一步提及倒谱均指实倒谱。

在Oppenheim和Flanagan在1965年的讨论期间,Flanagan还提出Oppenheim看了Michael Noll的文章。在1964年,Noll在美国声学学会的期刊发表了两篇论文(Noll和Schroeder;Noll),其将倒谱分析技术应用于语音的短时间段。随后在本发明中考虑语音的Oppenheim和Schafer倒谱处理。

3.3倒谱处理例子

作为倒谱的说明,考虑具有简单回声的信号x(t)。其可被写为

x(t)=s(t)+αs(t-τ),

(等式3.7)

其中τ和α分别表示回声的延迟和缩放比例。

该信号的谱密度由下式给出:

|X(f)|2=|S(f)|2[1+α2+2αcos(2πfτ)]

(等式3.8)

因此,等式3.8表明,具有回声的信号的谱密度由初始信号调制频率f的周期函数的谱组成。其谱的对数,该结果被转换为两个分量的和,即

C(f)=log|X(f)|2=log|S(f)|2+log[1+α2+2αcos(2πfτ)]

(等式3.9)

作为波形,C(f)具有附加周期性分量,其具有回声延迟τ作为其“基频”。取该对数谱的谱因此在初始信号包含回声的情形下将展现峰值,如图5中所示。

设τ=100、α=0.8,及x[n]为长度N=26的信号。该信号首先出现在n=50,其回声出现在n=150(即信号之后为延迟且缩小的复制品)。x[n]的PSD及PSD的对数分别在图6a-b中示出。图6a示出了使用Periodogram方法估计的信号x[n]的功率谱密度PSD。图6b示出了功率谱密度估计量的绝对值的对数。观察x[n]的谱密度及对数谱密度,显现谱峰值f=0.2,其表明这是信号中的主要频率。还显现该谱显得具有高频和低频分量。有慢速变化的包络,其峰值在f=0.2,及还有具有可见周期性的快速变化的波动。

将IDTFT应用于对数谱密度,获得倒谱,如图7中所示。在n=50的顶点为第一倒谐波峰值,其后在100的倍数处为其它倒谐波。这对应于x[n]中回声的延迟在初始信号之后的个时间点。图8示出了倒谱^x[n]的低频范围。

利用Bogert等引入的概念,倒谱中的不同分量可被分离。对倒谱应用低通滤波,我们获得图9a-b中所示的低频分量,具有初始脉冲响应x1[n]。

3.4语音的倒谱处理

人通过他们的肺、声带、舌头和唇的一系列受控运动产生语音信号。

语音信号的简单离散时间模型在图10中给出。脉冲训练发生器对声门脉冲激励(对应于出声语音)建模,随机噪声发生器对声道的摩擦激励(对应于未出声语音)建模。时变数字滤波器为具有慢速时变脉冲响应的线性系统,其对人声道的频率谐振(共振峰)建模。

语音处理中的核心假设之一为,接替短时间间隔或帧(通常20-30ms),语音信号平稳。另一假设在于,语音性质如基音周期和声道响应跨这些帧恒定不变。

这样,跨长度L的帧,我们假定,语音信号s[n]可被建模为激励u[n]和滤波器h[n]的卷积

s[n]=u[n]×h[n],0≤n≤L-1

(等式3.10)

其中h[n]为声道响应。

在此,倒谱分析的意义变得明显,因为等式3.10可经同态变换而转换为和。

4、刺激重建

刺激重建方法试图通过线性重建模型g使用反应R重建输入刺激S的估计量。这是对描述神经反应被映射到刺激上的方式的函数进行数学建模的方法,该技术称为系统识别。刺激重建为LTI系统类型,尽管人大脑并非线性系统,可进行某些假设以使其能被建模为线性模型。

刺激重建在多个研究中已被用于建模和预测多讲话者环境中的选择性注意。

考虑重建模型g(τ,n),其表示从神经反应r(t,n)到刺激s(t)的线性映射。这可被写为

其中为重建的刺激,t为时间点,τ为(在时间点的)滞后,及n为EEG通道数量。

函数g通过使s(t)与之间的MSE最小化进行估计:

这使用下面的等式获得:

g=(RTR)-1RTs

(等式3)

其中R为反应矩阵r的滞后时间序列。对于单通道反应系统,R定义为:

其中集{τmin,...,τmax}表示考虑的滞后范围。

这可通过用N列替代R的每一列而扩展到N通道系统,N列中的每一列表示单独的通道。因而,对于N个通道,R的维度将为T×N×τ窗口。

刺激重建方法的先前应用已将语音包络用作刺激及将EEG信号用作反应。在该情形下,只要语音包络和EEG信号具有同样的采样频率,它们可被用在上面概述的模型中。

语音和EEG信号的倒谱系数分别视为刺激和反应。这可通过将语音信号和EEG信号破分为不重叠的时间帧然后计算这些帧中的每一个的倒谱系数进行。

这些帧可被视为时间点,每一帧给出m个倒谱系数。s(k)指语音信号(刺激)的第k帧的m个倒谱系数的集合,并写为

考虑对应于语音信号(刺激)的EEG信号(反应),有多个通道的事实需要被考虑。如针对语音信号进行的一样,对于每一相应的通道,EEG信号被分开为不重叠的时间帧。对于每一帧,计算倒谱系数并保存前m个系数。设r(k,m,n)指第n个EEG通道的第k帧的第m个倒谱系数,其可写为

现在考虑滞后矩阵。由于信号被分开为帧,时间点现在为信号的时间帧。因此,滞后表示帧中的滞后,滞后矩阵可以与等式4类似的方式设置,差别在于时间滞后现在代表时间帧而不是初始信号中的时间点。因此,使用倒谱系数的滞后矩阵可被写为:

其中K为帧的总数。

观察到等式6被嵌套在等式7内,该模型可被写为:

其中为重建的刺激。

函数g通过使s(k,m)与之间的MSE最小化进行估计:

如同先前一样,这使用等式3获得,但现在R作为在等式7中给出的新的滞后矩阵:

g=(RTR)-1RTs

(等式10)

重建模型g现在已完成,可取得EEG信号并重建语音信号。该语音信号为导致神经反应的语音信号的预测。之后,通过使用NMSE和皮尔逊ρ值将该预测与两个不同的相应语音流比较。NMSE和ρ值向我们给出听者正听哪一语音流的预测,及具有最高NMSE和ρ值的语音流被视为所注意的语音流。之后,该预测与真实结果比较以给出分类结果是正确还是错误。

G在30次试验的29次训练,然后在第30次试验进行测试。将每一试验分别取为测试集,使用其余29次试验训练,对每一实验对象能够获得30个分类结果。分类率则基于这30个结果正确的数量。

5、鸡尾酒会问题的仿真

如在开始描述的,当实验对象处于不同的讲话者同时竞争的场合时,我们想要识别实验对象正试图注意哪一讲话者。在该章节,我们将我们的初步调查概括为所注意的语音信号及EEG信号的倒谱系数之间的联系。

首先,考虑语音信号,其将被称为所注意的语音。之后,在EEG反应跟随所注意的语音信号的假设下,通过向所注意的语音信号添加白噪声仿真/模拟极基本的EEG信号。该仿真的EEG信号将被称为EEGsim。由于EEGsim从所注意的语音信号构建,如果少到没有噪声被添加,将可能得到两个信号之间的联系。目标在于调查在产生EEGsim时在能够认识到两个信号之间的联系之前多少噪声可被添加。为此,所注意的语音的倒谱系数及EEGsim被获得并使用归一化均方误差(NMSE)和皮尔逊相关系数(ρ)进行比较。NMSE提供来自所注意的speechsim(attended speechsim)的倒谱系数怎样接近EEGsim的倒谱系数的度量。NMSE取区间(-∞,1]中的值,值1为完美匹配,0意味着拟合的序列与直线之间没有差异。为测量两个信号的倒谱系数之间的线性相关,使用皮尔逊的相关系数ρ。针对EEGsim中不同水平的添加噪声找到NMSE和ρ值以给出在EEGsim的倒谱系数不再匹配所注意的语音的那些倒谱系数时的噪声水平。

已假定语音和EEG信号均为1秒长。使用两种不同类型的所注意的语音。第一信号,其将被记为attended speechsim,使用脉冲训练和脉冲响应进行仿真。第二信号为先前章节2中使用的真实语音信号,记为attended speechreal(所注意的speechreal)。

考虑两种类型的EEGsim。第一种通过将白噪声(white noise)的实现添加到所注意的语音而获得,其将被称为EEGsim1。第二种,EEGsim2,通过将仿真的背景EEG(simulated EEG)的实现添加到所注意的语音而获得。在该章节的第一阶段,对于每一信号,使用单一20ms帧。随后,扩展分析,对于整个1秒长度的信号,考虑所有帧。这是为了调查系数随时间的性态。

八种设置将被示出和测试。对于每一设置,在SNR水平范围进行10000次仿真以评估在发现所注意的语音与仿真的EEG之间的联系时的准确度水平。

5.1仿真的语音和仿真的EEG-单一20ms帧

为什么语音信号可被建模为脉冲训练和脉冲响应的原因先前已在本发明中讨论。记住该观点,考虑仿真的语音和EEG信号及不同类型和水平的噪声。仿真的语音信号使用线性滤波器的脉冲响应h[n]产生,其与脉冲训练e[n]卷积。所注意的speechsim用10000个数据点仿真。由于该被仿真的信号为1秒长,所注意的speechsim的采样频率为10000Hz。图11c示出了从脉冲响应h(t)(如图11a中所示)与脉冲训练e(t)(如图11b中所示)的卷积获得的1秒所注意的speechsim的仿真。

考虑两种类型的仿真噪声:白噪声和仿真的背景EEG(simulated backgroundEEG)。白噪声序列通过从N(0,1)分布产生1000个随机数而获得。仿真的背景EEG从使AR(15)模型适合EEG记录而获得,EEG记录取自靠近左耳的单一通道(通道T5)。

图12a示出了白噪声的仿真。对于该练习,仿真的信号为1秒长。1000个噪声点对应于1000Hz的采样频率,为使该频率与来自所注意的speechsim的频率(10kHz)匹配,使用插值对噪声信号执行上采样,其通过以10倍初始采样速率对噪声序列再采样进行。一旦两个信号具有同样的点数和同样的采样频率,两个噪声信号被分别添加到所注意的语音信号,给出

噪声的两种类型被缩放到不同的信噪比(SNR)水平以识别到哪一点仍可能识别如上所述的倒谱系数。为了更清楚地度量噪声的不同水平,换算因子σ从信噪比得出

获得对应于不同水平的SNR的σ。图12c包括通过对应于-10的SNR的因子换算的噪声的可视化。图12a示出了上采样的噪声的实现,图12b示出了所注意的speechsim,最后,图12c示出了通过使用SNR=-10将来自和的两个信号加在一起获得的EEGsim

在上面部分详述的程序之后,从这些信号取20ms帧,使用下面的PSD估计方法(PSDE)针对所注意的speechsim及EEGsim获得倒谱系数:使用高斯(Gaussian)窗的FFT、Periodogram、具有Hanning窗的Periodogram、Welch方法及Multitaper。

对于该练习,来自这些20ms帧的前13个倒谱系数被保留,然后如上所述使用NMSE和皮尔逊ρ值彼此比较。下面的表展现10000轮的NMSE和ρ的均值。

图13a示出了NMSE的均值,及图13b示出了来自所注意的speechsim倒谱系数与EEGsim1(白噪声)倒谱系数使用不同PSDE方法的吻合的ρ的均值。X轴展现从-40到0范围的SNR。

表5.1所注意的speechsim和EEGsim1的10000次实现的NMSE均值

表5.2所注意的speechsim和EEGsim1的10000次实现的ρ均值

图14a示出了NMSE的均值,及图14b示出了来自所注意的speechsim倒谱系数与EEGsim2(仿真的背景EEG)倒谱系数使用不同PSDE方法的吻合的ρ的均值。X轴展现从-40到0范围的SNR。

表5.3所注意的speechsim和EEGsim2的10000次实现的NMSE均值

表5.4所注意的speechsim和EEGsim2的10000次实现的ρ均值

图15a-b示出了来自序列:所注意的speechsim(以蓝色示出)和EEGsim1(点线)的实现的前13个倒谱系数。为了参考(红色),显示了“纯”噪声的倒谱系数。图15a对应于使用白噪声的一种实现,图15b对应于使用仿真的背景EEG的一种实现。从这些曲线可以看出来自所注意的speechsim倒谱系数的梯度怎样遵循来自EEGsim1和EEGsim2的梯度。

看来自表5.1和5.3的NSME,可观察到,在所选的PSDE方法之中,具有Hanning窗的周期图对两个帧的系数给出最佳吻合。这也被表5.2和5.4中所示的ρ值确认。从图15a-b还可以看出,一旦SNR水平达到-30到-40,EEGsim系数更接近地跟随噪声系数,及评估吻合的良好性变得复杂。

5.2真实语音和仿真的EEG-单一20ms帧

对于该第二设置,来自部分4.1的同样程序被执行,但这次使用真实语音而不是仿真的语音。如同部分4.1中一样,两种不同类型的噪声被添加到语音流,及为获得仿真的EEG,多种不同的SNR水平。仿真具有10000个数据点并被考虑为1秒长,这对应于10000Hz的采样频率。对于所注意的speechreal(attended speechreal),从先前的记录取1秒的语音,即使用“Hola”。两种类型的噪声被添加到真实语音信号以获得两种EEG仿真:

图16a示出了白噪声的仿真,图16b示出了仿真序列所注意的speechreal,图16c示出了噪声缩放对应于-20的SNR的因子的可视化,因而通过使用SNR=-20将来自(a)和(b)的两个信号加在一起获得的EEGsim

从这些信号,在图16a-c中示出,对应于语音的前20ms的帧被提取。如所提及的,使用与部分3.1中所详述的一样的程序,20ms帧被从信号提取,考虑同样的PSD方法:使用高斯(Gaussian)窗的FFT、Periodogram、具有Hanning窗的Periodogram、Welch方法及Multitaper。

以与先前部分类似的方式,来自每一序列的前13个倒谱系数被保留,然后使用NMSE和ρ值彼此比较。

图17a示出了NMSE的均值,及图17b示出了来自所注意的speechreal倒谱系数与EEGsim1(白噪声)倒谱系数使用不同PSDE方法的吻合的ρ的均值。X轴展现从-40到0范围的SNR。

表5.5所注意的speechreal和EEGsim1的10000次实现的NMSE均值

表5.6所注意的speechreal和EEGsim1的10000次实现的ρ均值

图18a示出了NMSE的均值,及图18b示出了来自所注意的speechreal倒谱系数与EEGsim2(白噪声)倒谱系数使用不同PSDE方法的吻合的ρ的均值。X轴展现从-40到0范围的SNR。

表5.7所注意的speechreal和EEGsim2的10000次实现的NMSE均值

表5.8所注意的speechreal和EEGsim2的10000次实现的ρ均值

图19a-b示出了序列:所注意的speechsim(以蓝色示出)和EEGsim1(点线)的前13个倒谱系数。为了参考(红色),显示了“纯”噪声的倒谱系数。图19a对应于使用白噪声的一种实现,图19b对应于使用仿真的背景EEG的一种实现。

从这些曲线可以看出来自所注意的speechsim系数的梯度怎样遵循来自EEGsim1和EEGsim2的梯度。从表5.5到5.8可观察到,当使用真实语音时,相较于使用仿真的语音流所获得的,NMSE和ρ值均更高。甚至对于-30的SNR水平(对于白噪声和仿真的背景EEG),NMSE值高于0.8(除了之外)。对于该练习中考虑的所有SNR,所获得的ρ值均高于0.85。

5.3真实语音和仿真的EEG-整个序列

使用与部分4.1和4.2中同样的方法,对每一实现而不是对整个语音帧考虑单一20ms帧。这是为了使得更接近下一阶段,其中两个语音流(一个所注意的语音流及一个未注意的语音流)将与仿真的EEG比较。。

EEGsim的20ms帧的系数与分别从所注意的语音及未注意的语音的20ms帧获得的系数比较。

当看到SNR变得太低的水平时,来自EEGsim的倒谱系数相较未注意的语音的倒谱系数将更接近地吻合所注意的语音的倒谱系数。

继续真实语音信号情形,现在语音即“Hola”的两个不同记录。被记录的第一语音流为女性话音,其将被称为所注意的语音。第二流由男性话音的记录组成,其将被称为未注意的语音。仿真的噪声被添加到所注意的语音以获得仿真的EEG信号记录EEGsim。这样,获得3个序列:

1、所注意的语音

2、未注意的语音

3、EEGsim=所注意的语音+噪声

来自序列的长度20ms的帧的倒谱系数与分别来自所注意的语音序列及未注意的语音序列的长度20ms的帧的倒谱系数比较。

该练***的SNR,来自EEGsim的倒谱系数将怎样好地吻合所注意的语音而不是未注意的语音的倒谱系数。

类似地,如先前部分中一样,考虑两种类型的噪声:

语音和EEG信号被破分为不重叠的帧,及针对这些帧中的每一个计算倒谱系数。设CCA(k,m)、CCU(k,m)和CCE(k,m)分别指所注意的、未注意的语音和EEGsim信号的第k帧的m个倒谱系数的集合,写为:

这些m个倒谱系数的集合中的每一集合被堆叠为长度km的列向量以将它们考虑为时间点

对于每一相应帧的每一倒谱系数,在仿真的EEG和所注意的及未注意的语音流之间分别计算NMSE和皮尔逊ρ值。这些NMSE和ρ值用于确定序列CCE(km)是否更好地吻合序列CCA(km)或序列CCU(km)。如果CCE(km)与CCA(km)之间的NMSE和ρ高于CCE(km)与CCU(km)之间的NMSE和ρ,可推断EEGsim更接近所注意的语音。该程序用EEGsim1和EEGsim2的10000个相应实现进行以确定仿真的EEG怎样好地跟随所注意的语音。

表5.9所注意的speechreal和EEGsim1的10000次实现的NMSE均值

表5.10未注意的speechreal和EEGsim1的10000次实现的NMSE均值

表5.11所注意的speechreal和EEGsim1的10000次实现的ρ均值

表5.12未注意的speechreal和EEGsim1的10000次实现的ρ均值

表5.13所注意的speechreal和EEGsim2的10000次实现的NMSE均值

表5.14未注意的speechreal和EEGsim2的10000次实现的NMSE均值

表5.15所注意的speechreal和EEGsim2的10000次实现的ρ均值

表5.15未注意的speechreal和EEGsim2的10000次实现的ρ均值

6、结果

下面给出当使用倒谱系数的刺激重建基于真实数据进行时所获得结果的描述和概要。需要使用某些规格的第一设置。这是因为计算时间和计算能力的要求。为了评估长度帧、通道和倒谱系数数量的哪一组合为最佳组合,目标在于以最高效的可能方式使用较少数据量获得最高的分类率。上面注意到Welch方法可能是PSD估计的适合的第一选择。这是用于第一设置的方法。在具有谁是最佳设置组合的较好判断之后,具有汉宁窗的周期图用于PSD估计。所获得的结果非常类似。

6.1初始设置

由于对所有可能的组合运行模型复杂及计算时间太长,选择初始设置。所使用的第一设置包括针对不同长度的帧:20、50和75,使用Welch方法估计PSD。考虑来自一组9个通道的EEG记录:A1,A19,A23,B22,B26,C17,C21,D18,D23。针对这些不同长度的帧,获得倒谱系数。如对章节3中的仿真进行的,第一系数m0被舍弃,保留不同数量的系数,高达m5,m7,m11和m13

针对初始设置,通道A1,A19,A23,B22,B26,C17,C21,D18和D23被选择为第一组。

表6.1使用NMSE的解码准确度、NMSE的均值及所注意的和未注意的语音的标准偏差(圆括号中)

表6.2使用ρ的解码准确度、ρ的均值及所注意的和未注意的语音的标准偏差(圆括号中)

注意,被保留的系数数量为m-1,因为系数由于对应于零脉冲而被忽略。

使用被决定保留进行进一步分析的倒谱系数的刺激重建的设置为使用25ms长度的帧并保留前13个倒谱系数(这排除了第一脉冲m0)的设置。下一步是尝试使用不同数量的通道的多组。第一组是使用所有128个通道以看结果是否有明显改善。在此之后,尝试使用减少数量的通道,在该情形下,仅使用3个通道。这些其它测试的结果和进一步的细节将在下面部分中讨论。

6.2使用25ms帧及13个倒谱系数

在决定使用倒谱系数模型的刺激重建的设置之后,下一步是验证解码准确度结果和/或NMSE或ρ是否可被提高。这通过使用来自所有128个通道的EEG数据运行模型进行。使用128个通道获得的结果并不明显不同于使用9个通道获得的结果(参见表6.3和6.4)。下一步则是以进一步降低数量的通道即3个通道运行模型。结果和通道的选择在该部分讨论。

图20a-b示出了所注意的(用瓶形标志图示)和未注意的(用粗黑线图示)语音的NMSE和ρ箱形图。

表6.3使用NMSE的解码准确度、NMSE的均值及所注意的和未注意的语音的标准偏差(圆括号中)。使用不同组的通道,所选设置的结果。

表6.4使用ρ的解码准确度、ρ的均值及所注意的和未注意的语音的标准偏差(SD)(圆括号中)。使用不同组的通道,所选设置的结果。

对所有实验对象和所有试验,NMSE和ρ的分散图使用3个通道从模型获得,未示出。从这些图,我们可以看出,使用所注意的语音获得的大多数NMSE和ρ值均大于使用未注意的语音获得的值。表6.5包含使用这3个通道和所提及的设置时所注意的及未注意的语音的NMSE和ρ中值。

表6.5所注意的及未注意的语音的NMSE和ρ中值

度量 所注意的 未注意的

NMSE 0.4855 0.3968

ρ 0.6976 0.6440

除非明确指出,在此所用的单数形式“一”、“该”的含义均包括复数形式(即具有“至少一”的意思)。应当进一步理解,说明书中使用的术语“具有”、“包括”和/或“包含”表明存在所述的特征、整数、步骤、操作、元件和/或部件,但不排除存在或增加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其组合。应当理解,除非明确指出,当元件被称为“连接”或“耦合”到另一元件时,可以是直接连接或耦合到其他元件,也可以存在中间***元件。如在此所用的术语“和/或”包括一个或多个列举的相关项目的任何及所有组合。除非明确指出,在此公开的任何方法的步骤不必须精确按所公开的顺序执行。

应意识到,本说明书中提及“一实施例”或“实施例”或“方面”或者“可”包括的特征意为结合该实施例描述的特定特征、结构或特性包括在本发明的至少一实施方式中。此外,特定特征、结构或特性可在本发明的一个或多个实施方式中适当组合。提供前面的描述是为了使本领域技术人员能够实施在此描述的各个方面。各种修改对本领域技术人员将显而易见,及在此定义的一般原理可应用于其他方面。

权利要求不限于在此所示的各个方面,而是包含与权利要求语言一致的全部范围,其中除非明确指出,以单数形式提及的元件不意指“一个及只有一个”,而是指“一个或多个”。除非明确指出,术语“一些”指一个或多个。

因而,本发明的范围应依据权利要求进行判断。

附图标记说明

10 声音处理单元

101 声音预处理单元

11 声音输入信号

12 EEG输入信号

13 EEG倒谱

14 声音倒谱

15 传声器

16 所选的声音流/信号

17 分段的声音流/信号

18 所注意的声音信号

20 选择单元

21 语音倒谱计算单元

22 映射单元

23 相关单元

30 估计单元

40 EEG倒谱计算单元

401 EEG预处理单元

75页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种数据处理方法、装置和用于数据处理的装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!