使用多传感器的语音识别

文档序号:144568 发布日期:2021-10-22 浏览:37次 >En<

阅读说明:本技术 使用多传感器的语音识别 (Speech recognition using multiple sensors ) 是由 卢卡·约翰·坎贝尔 德拉甘·彼得罗维奇 于 2019-12-20 设计创作,主要内容包括:本文介绍的是利用被放置在多个语音传输区域,诸如用户的嘴唇,喉咙,耳道等的多个传感器来增加语音识别准确性的系统和方法。多个语音传输区域更好地传输某些音素,以及靠近特定语音转换区域放置的传感器可以更准确地检测通过特定语音传输区域传输的音素。例如,靠近嘴唇放置的麦克风比靠近喉咙放置的麦克风可以更好地检测唇音音素,诸如m,n,p,和b。此外,本文公开了在执行语音识别的同时降低能耗的方法。(Described herein are systems and methods for increasing speech recognition accuracy using multiple sensors placed in multiple speech transmission regions, such as a user&#39;s lips, throat, ear canal, etc. Multiple speech transmission regions better transmit certain phonemes and sensors placed close to a particular speech conversion region can more accurately detect phonemes transmitted through a particular speech transmission region. For example, a microphone placed close to the lips may detect lip sounds phonemes such as m, n, p, and b better than a microphone placed close to the throat. Further, a method of reducing power consumption while performing speech recognition is disclosed herein.)

使用多传感器的语音识别

本申请要求于2018年12月21日提交的题为“使用多传感器的语音识别”的美国临时专利申请序列号为62/784,201的优先权,通过引用其整体并入本文。

技术领域

本申请涉及在语音识别中使用的传感器,并且更具体地涉及使用多个传感器来识别语音的方法和系统。

背景技术

今天,与计算机的声频交互变得无处不在,并且语音识别起着核心作用。然而,由于较差的音响效果或说话者的特质(idiosyncrasies),诸如口音,语音模式等,语音识别充满了不准确性。此外,语音识别往往会消耗大量的处理时间和能量。

发明内容

概要

本文介绍的是通过利用被放置在多个语音传输区域(诸如用户的嘴唇,喉咙,耳道等)的多个传感器来增加语音识别准确性的系统和方法。多个语音传输区域在传输某些音素方面更好,被放置在靠近特定语音转换(transition)区域的传感器可以更准确地检测通过该特定语音传输区域被传输的音素。例如,被放置在靠近嘴唇的麦克风比被放置在靠近喉咙的麦克风可以更好地检测唇音音素(labial phonemes),诸如m,n,p,和b。此外,本文公开了在执行语音识别的同时降低能耗的方法。

附图说明

通过结合所附权利要求和附图研究以下详细描述,本实施例的这些和其他对象,特征,和特性对于本领域技术人员来说将变得更加清楚,所有这些都构成本说明书的一部分。虽然附图包括多种实施例的图示,但附图并不旨在限制所要求保护的主题。

图1A–1B示出了围绕用户并记录用户语音的多个传感器。

图2示出了与用户语音系统相关联的语音传输区域。

图3A–3B示出了根据多种实施例的听力设备。

图4是使用多个传感器完成语音识别的方法的流程图。

图5是计算机系统的示例形式的机器的示意图表示,其中可以执行一组指令,用于使机器完成本文讨论的任何一个或多个方法(methodologies)或模块。

具体实施方式

术语

在本申请中使用的术语,缩写,和短语的简要定义在下面给出。

本说明书中提及“一个实施例”或“一实施例”是指结合实施例描述的特定特征,结构,或特性被包括在本公开的至少一个实施例中。说明书中多处出现的短语“在一个实施例中”不一定都指同一个实施例,也不是与其他实施例相互排斥的单独或替代的实施例。而且,描述了可以由一些实施例而不是由其他实施例展示的多种特征。类似地,描述了可以是一些实施例的要求而不是其他实施例的要求的多种要求。

除非上下文另有明确要求,否则在整个说明书和权利要求中,词语“包含”(“comprise”,“comprising”)等应被解释为包含性意义,而不是排他性或穷尽性意义;也就是说,在“包括,但不限于”的意义上。如本文所用,术语“被连接”,“被耦合”,或其任何变体是指两个或更多个元件之间的任何直接或间接的连接或耦合。元件之间的耦合或连接可以是物理的,逻辑的,或其组合。例如,两个设备可以被直接耦合,或者经由一个或多个中介通道或设备耦合。作为另一个示例,设备可以以这样的方式被耦合,即信息可以在它们之间被传递,而彼此之间不共享任何物理连接。此外,在本申请中使用的词语“本文”,“以上”,“以下”,和类似含义的词语应指本申请作为整体,而不是指本申请的任何特定部分。在上下文允许的情况下,具体实施方式中使用单数或复数的词语也可以分别包括复数或单数。关于两个或多个项目的列表,“或”一词涵盖了对该词的所有以下解释:列表中的任何项目,列表中的所有项目,以及列表中项目的任意组合。

如果说明书规定(state)组件或特征“可以”(”may”,“can”,“could”,或“might”)被包括或具有特性,则该特定组件或特征不需要被包括或具有特性。

术语“模块”泛指软件,硬件,或固件组件(或其任何组合)。模块通常是功能组件,可以使用指定的输入生成有用的数据或其他输出。一个模块可以是也可以不是独立(self-contained)的。一个应用程序(也被称为“应用”)可以包括一个或多个模块,或者一个模块可以包括一个或多个应用程序。

具体实施方式中使用的术语旨在以其最广泛合理的方式进行解释,即使它与某些示例结合使用。本说明书中使用的术语在本领域中,在本公开的上下文中,以及在使用每个术语的特定上下文中通常具有它们的普通含义。为方便起见,某些术语可能会被突出显示,例如使用大写,斜体,和/或引号。突出显示的使用对术语的范围和含义没有影响;在相同的上下文中,无论是否被突出显示,术语的范围和含义都是相同的。应当被领会,可以以不止一种方式描述相同的元件。

因此,替代语言和同义词可用于本文中讨论的任何一个或多个术语,但是对于术语是否在本文中详细阐述或讨论并没有特别的意义。一个或多个同义词的使用不排除使用其他同义词。本说明书中任何地方的示例的使用,包括本文讨论的任何术语的示例,仅是说明性的,并不旨在进一步限制本公开或任何示例性术语的范围和含义。同样,本公开不限于本说明书中给出的多种实施例。

使用多个传感器进行语音识别

本文介绍的是通过利用被放置在多个语音传输区域(诸如用户的嘴唇,喉咙,耳道等)的多个传感器来增加语音识别准确性的系统和方法。多种语音传输区域在传输某些音素方面更好,被放置在靠近特定语音转换区域的传感器可以更准确地检测通过该特定语音传输区域被传输的音素。例如,被放置在靠近嘴唇的麦克风比被放置在靠近喉咙的麦克风可以更好地检测唇音音素,诸如m,n,p,和b。此外,本文公开了在执行语音识别的同时降低能耗的方法。

当今最准确的语音识别系统之一是用于识别母语人士的Google语音。该系统的准确性为95%。但是,对于带有口音的说话者的语音识别准确性显著下降,下降到59%。通过使用沿着多种语音传输区域放置的多个传感器,对于母语和非母语的说话者来说,语音识别的准确性都可以超过95%。

图1A–1B示出了围绕用户并感测用户语音的多个传感器。传感器100,110,120,150,和/或160可以与诸如耳塞,耳机,助听器等的听力设备130相关联。传感器100,110,120,150,和/或160可以和与听力设备130相关联的处理器140进行有线或无线通信。传感器100,110,120,150,和/或160可以是麦克风,压电传感器,电容传感器,干电极,加速度计,激光器,红外传感器等。

传感器100,110,120,150,和/或160可以被设置临近与用户的语音系统相关联的多个语音传输区域。传感器100,110,120,150,和/或160可以感测与语音传输区域相关联的声音。语音传输区域可以是沿着用户语音系统的位置,在该位置可以听到与用户语音相关联的声音,如下所述。

第一传感器100可以被设置在入口处或耳道内,以测量通过用户耳道被传输的第一声音。通过用户耳道被传输的第一声音可以使用骨传导进行传输,通常是低频声音。第一传感器100可以被物理地附接到听力设备130或者可以与听力设备130进行无线通信。例如,第一传感器100可以被封装(enclosed)在听力设备130内,如下所述。

第二传感器110可以被设置为临近用户的嘴唇,以测量通过用户的嘴唇被传输的第二声音。第二传感器110可以被物理地附接到如图1所示的听力设备130或可以与听力设备130进行无线通信。

第三传感器120可以被设置为临近用户的喉咙,以测量通过用户的喉咙被传输的第三声音。第三传感器120可以被物理地附接到如图1A所示的听力设备130,或者第三传感器120可以与听力设备130无线通信。如图1B所示,第三传感器120可以用贴纸170被附接到用户的喉咙。如下所述,传感器150和/或160可以被放置为临近舌尖音(coronal)和舌鄂音(dorsal)语音传输区域。

第一传感器100可以测量用户语音的低频,因为在用户耳道内或入口处听到的声音是使用骨传导通过用户头部被传输的。第二传感器110,120,150,160可以测量用户语音的高频。人类语音的范围在80Hz到300Hz之间。第一传感器检测到的低频范围可以在80Hz到200Hz之间,而第二传感器检测到的高频范围可以在180Hz到300Hz之间。处理器140可以接收由第一传感器记录的低频和由第二传感器记录的高频,并将它们组合成人类的语音记录。

此外,多个传感器可以被放置在人的头部之外,例如靠近人的嘴或喉咙,诸如传感器110,120,150,160,形成传感器阵列。传感器阵列中的每个传感器在空间上都与其他传感器分开,并且每个传感器都可以与人的语音来源相距已知距离。当人说话时,由于语音来源和传感器位置之间的不同距离,每个传感器110,120,150,160在与传感器阵列中的其余传感器不同的时间接收人的语音。因此,在传感器110,120,150,160中的每一个处接收佩戴听力设备130的人的语音的时间延迟是已知的。

为了基于时间延迟准确地检测声音来源,传感器阵列中的每个传感器之间的距离需要小于被检测到的声音的波长。为了检测高频,传感器需要比检测低频时更靠近在一起。为了准确检测人类语音的来源,传感器之间的距离需要小于1m。

如果传感器110,120,150,160从佩戴听力设备130的人以外的人接收环境语音,则在不同传感器110,120,150,160之间接收其他人语音的时间延迟,与当传感器110,120,150,160接收到佩戴听力设备130的人的语音时相比是不同的。传感器110,120,150,160可以将所接收到的语音发送到处理器140。基于所接收到语音的不同的时间,处理器140可以过滤掉环境语音和噪音,即使在拥挤的房间里,也可以检测佩戴听力设备130的人的语音。

传感器100,110,120,150,160可用于测量远离主要目标记录位置的声音。例如,传感器100,110,120,150,160可以被认为是临近用户的嘴唇并且可以测量由用户的嘴唇传输的声音。在更具体的示例中,耳塞中的两个传感器阵列可用于测量来自用户嘴唇的信号,即使传感器100的主要目标记录位置可能不是用户的嘴唇。

图2示出了与用户语音系统相关联的语音传输区域。如图2所示有多个语音传输区域与用户的语音系统相关联。四个主要的语音传输区域是唇音,舌尖音,舌鄂音,和喉音。唇音传输区可包括双唇音,唇齿音,和舌唇音区域。舌尖音语音传输区域可以包括舌唇音,齿音,齿龈音,后齿龈音,和卷舌音区域。舌鄂音区域可包括腭音,软腭音,和小舌音区域。喉音语音传输区可包括会厌和声门区域。

当传感器110在图1A–1B中被放置在靠近唇音语音传输区域时,诸如m,n,p,b,t,v,等音素被很好地检测到。当传感器110,150,和/或160在图1A–1B中被放置在靠近舌尖音语音传输区域时,诸如r,s,z,t∫,等音素被很好地检测到。当传感器110,150,和/或160被放置在靠近舌鄂音语音传输区域时,诸如k,g,j等音素被很好地检测到。当传感器110和/或120被放置在靠近喉音语音传输区域时,诸如h,u:,和ɑ:的音素被很好地检测到。

语音传输区域可以包括用户的耳道,因为用户的语音是由骨传导通过用户的头部被传输的。因此,用户的耳道可用于检测用户的语音,特别是用户语音的低频。传感器,诸如麦克风,图1A–1B中的100可以被放置在入口处或用户的耳道内,以检测和记录用户的语音。单个传感器可以检测多个音素。此外,单个传感器可以检测从多个语音传输区域产生的音素。

不同的音素具有不同的声音成分的生成位置。这意味着生成地点和每个记录仪器之间的转移(transfer)函数是不同的。跨频率可以有不同的幅度和相位/延迟(delay)/潜伏期(latency)。通过比较从头部/身体/房间周围不同位置记录的数据,可以更准确地确认音素。例如,在嘴唇附近生成的声音在嘴唇附近比喉咙附近更响亮。因此,如果记录了声音并且嘴唇上的传感器示出比喉咙传感器响得多的信号,那么试图被确认的音素更有可能是在嘴唇附近被生成的。因此,处理器可以选择嘴唇附近的传感器的测量来执行语音识别和/或可以更多地依赖由嘴唇附近的传感器记录的声音来执行语音识别。

通过确定第一声音的一部分和第二声音的一部分之间的差异并基于该差异选择第一声音的一部分或第二声的一部分,该附加信息可以用于提高语音识别算法的准确性。例如,为了提高语音识别算法的准确性,处理器可以修改由任何其他语音识别算法(诸如基于神经网络的方法(approach))生成的哪个音素被说出的概率。处理器可以基于从每个传感器所记录的差异信息来修改音素预测的概率。差异信息可以包括由两个或更多个不同传感器测量的两个或更多个声音之间的幅度,和/或相位/延迟/潜伏期之间的差异。此外,或可替代地,可以通过构建具有来自多个传感器位置的输入的神经网络模型来隐式(implicitly)提取该附加信息,并且该神经网络以从差异信息中受益的方式被构建。

第一声音和第二声音的部分之间的差异可以反映在幅度,和/或相位/延迟/潜伏期中。基于差异,例如一个传感器检测更高音量的声音,或者一个传感器比另一个传感器更快地检测到声音,处理器可以确定一个传感器更靠近语音传输区域的位置。因此,处理器可以确定可能的语音传输区域,以及正在说出的可能的音素组。此外,处理器可以选择由一个传感器记录的声音的测量来执行语音识别和/或可以与另一个传感器相比更多地依赖更靠近语音传输区域的一个传感器来执行语音识别。

分析可以在本地完成,或者如目前更常见的那样,通过将所记录的声音流式传输到基于云的提供商。使用当前的技术,多个记录传感器信号通道被发送到基于云的提供商,而不仅是今天使用的一个。

图3A–3B示出了根据多种实施例的听力设备。听力设备300可以是听筒,诸如有线或无线耳塞,助听器,耳机等。听力设备300可以包括图3B中的耳罩302和听筒304,它们彼此有线或无线通信。耳罩302和听筒304可以是听力设备300(诸如耳机)的一部分。听力设备300可以包括一个或多个处理器310,315,320,和/或325;一个或多个传感器,330,335,337,340,345,和/或347;收发器,350,355,或357;音频发射器,360,365,或367;和外壳,370,375,或377等。

传感器330,335,和/或345可以是用于记录声音的麦克风。传感器337和/或347可以是电极和/或电容传感器以检测听觉诱发的电位信号(AEP)。AEP是一种从大脑通过头皮发出的脑电图(EEG)信号,以响应声学刺激。传感器337和/或347可以测量任何AEP,诸如听觉脑干响应,中潜伏期响应,皮层响应,声学变化复合体,听觉稳态响应,复杂听觉脑干响应,耳蜗电图,耳蜗微音,或耳蜗神经音AEP。传感器320还可以测量声反射(也被称为镫骨肌反射,中耳肌肉(MEM)反射,减弱反射,或听觉反射)。声反射是响应于高强度声音刺激或当人开始发声时在中耳中发生的不自主肌肉收缩。

第一处理器310或315可以被配置为在等待接收激活发声时消耗少量能量。第一处理器310或315可被配置为始终消耗少量能量,并将用户的语音发送到第二处理器320或325,或用于语音识别的远程处理器。第一处理器310或315可以被配置为作为双模式处理器操作,即在低能量模式和高能量模式下均可操作。例如,当第一处理器310或315正在等待接收激活发声时,第一处理器310或315可以在低能量模式下操作,而当第一处理器310,315正在执行语音识别时,处理器310可以在高能量模式下操作。

第一处理器310或315可以接收由一个或多个传感器:330,335,337,340,345,和/或347进行的一个或多个记录。第一处理器310或315可以基于一个或多个记录识别激活发声。激活发声可以是唤醒短语或唤醒词,例如“Nura”,“okay Nura”,“wake up Nura”等。在识别激活发声时,第一处理器310或315便于用户语音的识别。

为了便于识别用户的语音,第一处理器310或315可以切换到高能量模式以执行语音识别,激活第二处理器320或325以执行语音识别,或者可以将一个或多个用户语音的记录传输到远程处理器,诸如云处理器。

可以使用收发器350,355,和/或357来执行传输。收发器350,355,和/或357可以经由蜂窝网络,无线网络等将用户语音的记录发送到远程处理器。收发器350,355,和/或357可以将记录发送到诸如手机,智能手表,家庭设备等的中介,然后该中介将记录转发到远程处理器,或者收发器350,355,和/或357可以直接与远程处理器通信。

传感器330,335,337,340,345,和/或347可以是能够记录代表用户语音的信号的任何传感器。例如,传感器330,335,337,340,345,和/或347可以是麦克风,电极,电容传感器,或其任何组合。第一处理器310或315可以减少听力设备300的能耗,通过仅保持传感器330,335,337,340,345,或347的一个操作来检测用户是否在说话,并保持传感器330,335,337,340,345,和/或347的其余传感器处于低能量模式或关闭,直到活动传感器检测到用户的语音。

例如,传感器330和/或335可以通过外壳370或375与环境声音隔离并且因为传感器330和/或335与环境声音隔离所以可以更好地检测用户的语音。传感器330可以被放置在入口处或用户的耳道内,以便除了外壳370或375之外,用户的头部也减弱环境声音。图3中的传感器335可以被放置在外壳375内,外壳375被放置在入口处或用户的耳道内。传感器335可以检测通过由外壳375限定的腔传导的用户语音。一旦传感器330接收到信号,诸如声音,传感器330可以向第一处理器310或315发送通知以激活其余的传感器340。通过仅在选定时间激活其余的传感器340,听力设备300的能耗被降低。

即使在高能量模式下操作时,传感器330和/或335也不消耗太多能量,因为传感器330和/或335不检测环境声音并且不花费能量记录环境声音。然而,传感器330和/或335在检测通过嘴唇传输的音素方面很差,因此,需要使用另一个传感器330和/或335。总的来说,即使使用两个传感器,一个在耳道内,另一个靠近嘴唇,两个传感器消耗的能量的量也比仅仅使用一个靠近嘴唇的传感器要少,因为靠近嘴唇的传感器暴露在环境声音中,并且比与环境声音隔离的传感器330和/或335消耗更多的能量来检测激活发声。

传感器330可以响应于所接收到的声音测量在用户耳道内生成的耳声发射。基于所测量的耳声发射,处理器310,315,320,和/或325可以获得表示用户如何感知所接收到的声音的用户听力概况。换句话说,听力概况可以将所接收到的频率和幅度与所感知到的频率和幅度相关。

基于听力概况,处理器310,315,320,和/或325可以修改被传递给用户的声音。例如,当听力设备300正在向用户播放音乐时,处理器310,315,320,和/或325可以在音频发射器360,365,和/或367向用户发出音乐之前自动均衡(equalize)音乐。此外,基于听力概况,处理器310,315,320,和/或325可以确认用户。例如,处理器310,315,320,和/或325可以测量用户的听力概况(profile)并搜索听力概况数据库以匹配听力概况。如果处理器310,315,320,和/或325找到匹配,则处理器可以确认用户。

基于耳声发射创建听力概况会消耗大量能量。因此,处理器310和/或315可以在高能量模式下操作时创建听力概况,或者处理器310和/或315可以激活处理器320和/或325以在高能量模式下操作同时创建听力概况。

基于包含在激活发声中的一个或多个音素,处理器310,315,320,和/或325可以确定传感器330,335,337,340,345,和/或347中的一个传感器可能记录一个或多个音素。处理器310,315,320,和/或325可以相比其他传感器更依赖更可能检测音素的传感器。可能在激活发声中记录一个或多个音素的一个或多个传感器可以在高能量模式下被连续操作,而剩余传感器在低能量模式下操作,直到接收到激活发声。一旦接收到激活发声,所有传感器330,335,337,340,345,和/或347都可以在高能量模式下操作以测量用户的语音。处理器可以将激活发声中的某些音素选择为更清楚(distinct)和/或在语音中使用频率更低,并且只能操作一个或多个可能在高能量模式下连续检测所选音素的传感器。

例如,传感器340更可能记录唇音音素,而传感器330更可能记录喉音音素。为了检测“okay Nura”,传感器330可以在用户说“okey”时检测用户的语音并向处理器310,315,320,和/或325发送信号以激活传感器340。处理器310,315,320,和/或325可以激活传感器340,并从传感器330,335,337,340,345,和/或347接收用户语音“Nura”的记录。处理器310,315,320,和/或325可以依赖传感器330和/或335来检测音素u:和ɑ:,而传感器340和/或345可以检测音素n和r。传感器330和/或335可以获得(pick up)由喉音语音传输区域传输的低频声音,因为传感器330和/或335可以获得使用骨传导传输的低频声音。如果传感器330,335,和340,345之间存在冲突,其中传感器340,345没有表示音素u:的存在,而传感器330,335表示音素u:的存在,则处理器310,315,320,325可以依赖传感器330,335的记录来解决冲突,因为传感器330,335更有可能检测到音素u:。

由传感器330,335,337,340,345,和/或347对用户语音的记录可以用每个记录更有可能被检测到的音素进行标记。标记可以帮助语音识别。例如,执行语音识别的处理器可以接收记录和记录可能正确代表的音素列表。语音识别可以使用人工智能(诸如神经网络,统计建模系统等)来执行。

听力设备300可以通过在第一处理器310,315识别出激活发声之后将第二处理器320,325转换到高能量模式来降低能耗。第二处理器320,325在未被激活时可以在低能量模式下操作并且在被激活时可以在高能量模式下操作。当在高能量模式下操作时,第二处理器320,325可以执行语音识别。

第二处理器可以是图3B中的处理器325,与耳罩302相关联。当第二处理器325与耳罩302相关联时,第二处理器325可以使用(access)能量源380,该能量源380大于与听筒304相关联的能量源390。能量源380可以比能量源390大,因为耳罩302具有比听筒304更大的体积,这是由于耳罩不必塞入(fit into)用户的耳朵。

第一处理器310,315可以通过从传感器330,335,340,345接收用户的语音并将用户的语音发送到远程处理器以执行语音识别来降低能耗。远程处理器可以是与膝上型电脑,家用设备,移动设备,互联网服务器(诸如云计算机)等相关联的处理器。

图4是使用多个传感器执行语音识别的方法的流程图。在步骤400中,多个传感器可以测量记录由与用户的语音系统相关联的多个语音传输区域传输的多个声音。传感器可以被放置在临近多个语音传输区域。语音传输区域是沿着用户语音系统的位置,在该位置与用户语音相关联的多个声音中的一个声音是可听到的,如图2所示。语音传输区域可以包括用户语音系统中的发音点以及用户的耳道。

第一传感器可以被放置在用户的耳道处或耳道内,并且可以测量第一声音。第一声音可以包括低频语音,因为低频语音可以通过骨传导被传输到用户的耳道中。第二个传感器可以被放置在用户的头部之外,例如靠近用户的嘴巴或喉咙。第二传感器可以测量可以包括高频语音的第二声音。处理器可以将低频和高频语音组合成用户声频的记录。第一声音和第二声音可以是同一声音的不同方面,其中第一声音是由第一传感器在第一位置检测到的声音,第二声音是由第二传感器在第二位置检测到的相同声音。例如,当用户说话时,第一声音可以是在耳道入口处或耳道内所检测到的用户语音,而第二声音可以是在用户嘴巴或喉咙处所检测到的用户语音。

在步骤410中,处理器可以通过确定第一声音的一部分和第二声音的一部分之间的差异,并基于该差异选择第一声音的一部分或第二声音的一部分,或基于从每个传感器所记录的差异信息修改音素预测的概率来增强语音识别算法的准确性,如本申请所述。差异信息可以包括由两个或多个不同传感器测量的两个或多个声音之间的幅度和/或相位/延迟/潜伏期之间的差异。

处理器可以通过基于表示第一和第二传感器中的哪个传感器更好地感测第一语音部分和第二语音部分的标准(criterion)从第一声音中选择第一语音部分和从第二声音中选择第二语音部分来重构用户的语音。例如,标准可以在选择适当的传感器时指定频率范围,和/或要使用的音素。

当标准可以指定音素时,处理器可以从由被放置得比其他传感器更靠近音素的传输源的传感器所记录的声音中选择音素。例如,当第二个传感器被放置比第一个传感器更靠近用户的嘴唇时,处理器可以从第二个声音中选择唇音音素。在另一个示例中,处理器可以从被放置在最靠近用户喉咙的传感器中选择喉音音素。

当标准可以指定频率范围时,处理器可以选择来自被放置在用户耳道入口处或耳道内的第一传感器的低频声音和来自被放置在用户头部外部的第二传感器的高频声音。

处理器可以基于多个声音的多个记录来识别激活发声。激活发声可以是单词或短语,诸如“Nura”,“hey Nura”,“okay Nura”等。

识别激活发声时,处理器可以便于用户语音的识别。处理器可以通过在等待激活发声的同时以低能量模式操纵来节省能量。处理器可以在执行用户语音识别的同时切换到高能量模式,或者可以将用户语音的一个或多个记录发送到另一个以高能量模式操作的处理器。

用户头部之外的多个传感器可以形成传感器阵列,其中每个传感器以独特的时间延迟接收相同的声音。处理器可以确定时间延迟以在多个传感器中的每个传感器处接收相同声音。处理器可以基于多个时间延迟来确认声音的来源并且可以从声音中提取属于所需来源的声音的部分。例如,处理器可以从声音中滤除环境语音和/或噪声,以隔离所需的声音来源,即用户的语音。

可以通过仅使多个传感器中的传感器子集以高能量模式操作,而其余传感器以低能量模式操作或被完全关闭来降低能耗。传感器子集在检测用户语音方面比其余传感器更好,因为传感器可以被减弱到达传感器子集的环境声音的外壳围绕。传感器子集在检测用户语音时,可以向处理器发送表示检测用户语音的通知。收到通知时,处理器可以激活多个传感器中的其余传感器来记录用户的语音。

一个或多个传感器可以响应于所接收到的声音测量在用户耳道内生成的耳声发射。传感器可以被放置在入口处或用户的耳道内。处理器可以基于所测量的耳声发射获得用户的听力概况。该概况可以通过将所接收到的频率和幅度,与所感知到的频率和幅度相关来表示用户如何感知声音。

基于用户的听力概况,处理器可以基于用户的听力概况修改被传递给用户的声音。例如,处理器可以通过将用户对音乐的享受与预期的音乐感知(例如与录制歌曲的艺术家的意图一样)相匹配来增加用户对音乐的享受。此外,基于用户的听力概况,处理器可以确认用户,因为用户的听力概况对用户来说是唯一的。

为了检测激活发声,处理器可以确定多个传感器中更可能记录激活发声中包含的一个或多个音素的传感器。例如,如果激活词是“okay Nura”,则音素n更有可能由被放置在临近嘴巴的传感器检测到。例如,当所选传感器记录一个或多个音素时,处理器可以识别激活发声。在另一个示例中,处理器可以通过对来自多个流的所记录的音素进行加权来识别激活发声,使得可能记录音素的传感器比不太可能记录音素的传感器的加权更大。换句话说,与多个传感器中的其余传感器相比,处理器可以更依赖于该传感器来检测音素。

计算机

图5是计算机系统500的示例形式的机器的图解表示,其中可以执行一组指令,用于使机器完成本文讨论的任何一个或多个方法或模块。

在图5的示例中,计算机系统500包括处理器,存储器,非易失性存储器,和接口设备。为说明简单起见,省略了多种通用组件(例如,高速缓冲存储器)。计算机系统500旨在说明硬件设备,在其上可以实现图1–4的示例中描述的任何组件(以及本说明书中描述的任何其他组件)。计算机系统500可以是任何适用的已知或方便的类型。计算机系统500的组件可以经由总线或通过一些其他已知或方便的设备被耦合在一起。

计算机系统500的处理器可以是与图3A–3B中的听力设备300相关联的处理器。计算机系统500的处理器可以执行本申请中描述的多种方法。非易失性存储器和/或驱动单元可以存储本申请中描述的包含多种听力概况的数据库。计算机系统500的网络接口设备可以是图3A–3B中的收发器350,355,和/或357。

本公开包含采用任何合适的物理形式的计算机系统500。作为示例而非限制,计算机系统500可以是嵌入式计算机系统,片上系统(SOC),单板计算机系统(SBC)(诸如,例如,计算机模块(COM),或系统模块(SOM)),台式计算机系统,膝上型或笔记本计算机系统,交互式自助服务终端,大型机,计算机系统网状结构,移动电话,个人数字助理(PDA),服务器,或其中两个或多个的组合。在适当的情况下,计算机系统500可以包括一个或多个计算机系统500,单一的或分布式的,跨越多个位置,跨越多个机器,或驻留在云中,云可以包括一个或多个网络中的一个或多个云组件。在适当的情况下,一个或多个计算机系统500可以在没有实质性的空间或时间限制的情况下执行本文描述或说明的一种或多种方法的一个或多个步骤。作为示例,而非限制,一个或多个计算机系统500可以实时,或以批处理模式执行本文描述或说明的一种或多种方法的一个或多个步骤。在适当的情况下,一个或多个计算机系统500可以在不同时间或在不同位置执行本文描述或说明的一种或多种方法的一个或多个步骤。

处理器可以是,例如,传统的微处理器,诸如英特尔奔腾微处理器或摩托罗拉能源PC微处理器。相关领域的技术人员将认识到术语“机器可读(存储)介质”或“计算机可读(存储)介质”包括可由处理器访问的任何类型的设备。

存储器通过,例如,总线被耦合到处理器。存储器可以包括,作为示例但不限于,随机存取存储器(RAM),诸如动态RAM(DRAM)和静态RAM(SRAM)。存储器可以是本地的,远程的,或分布式的。

总线还将处理器耦合到非易失性存储器和驱动单元。非易失性存储器通常是磁软盘或硬盘,磁光盘,光盘,只读存储器(ROM)(诸如CD-ROM,EPROM,或EEPROM),磁卡或光卡,或另一种存储大量数据的形式。在计算机500中的软件执行期间,这些数据中的一些经常被直接存储器访问程序写入存储器中。非易失性存储器可以是本地的,远程的,或分布式的。非易失性存储器是可选的,因为可以使用存储器中可用的所有适用数据创建系统。典型的计算机系统通常至少包括处理器,存储器,和将存储器耦合到处理器的设备(例如,总线)。

软件通常被存储在非易失性存储器和/或驱动单元中。事实上,在存储器中存储整个大型程序可能甚至是不可能的。然而,应该理解的是,为了使软件运行,如有必要,它被移动到适合处理的计算机可读位置,并且为了说明的目的,该位置在本文中被称为存储器。即使将软件移动到存储中用于执行,处理器通常也会使用硬件寄存器来存储与软件相关联的值,以及理想情况下用于加速执行的本地缓存。如本文所使用的,当软件程序被称为“在计算机可读介质中被实现”时,假定软件程序被存储在任何已知或方便的位置(从非易失性存储器到硬件寄存器)。当与程序相关联的至少一个值被存储在处理器可读的寄存器中时,处理器被视为“被配置以执行程序”。

总线还将处理器耦合到网络接口设备。该接口可以包括调制解调器或网络接口中的一个或多个。应当理解,调制解调器或网络接口可以被认为是计算机系统500的一部分。该接口可以包括模拟调制解调器,ISDN调制解调器,电缆调制解调器,令牌环接口,卫星传输接口(例如“direct PC”),或用于将计算机系统耦合到其他计算机系统的其他接口。接口可以包括一个或多个输入和/或输出设备。I/O设备可以包括,作为示例但不限于,键盘,鼠标或其他指点设备,磁盘驱动器,打印机,扫描仪,和其他输入和/或输出设备,包括显示设备。显示设备可以包括作为示例但不限于阴极射线管(CRT),液晶显示器(LCD),或一些其他适用的已知或方便的显示设备。为简单起见,假设没有在图5的示例中描绘的任何设备的控制器驻留在接口。

在操作中,计算机系统500可以由包括文件管理系统的操作系统软件控制,诸如磁盘操作系统。与文件管理系统软件相关联的操作系统软件的一个示例是来自华盛顿州雷德蒙市的微软公司的被称为的操作系统系列及其相关联文件管理系统。操作系统软件及其相关联的文件管理系统软件的另一个示例是LinuxTM操作系统及其相关联的文件管理系统。文件管理系统通常被存储在非易失性存储器和/或驱动单元中,并使处理器执行操作系统所需的多种动作以输入和输出数据并将数据存储在存储器中,包括将文件存储在非易失性存储器和/或驱动单元。

详细描述的一些部分可以由对计算机存储器内的数据位的操作的算法和符号表示呈现。这些算法描述和表示是数据处理领域的技术人员用来最有效地将他们工作的实质传达给本领域的其他技术人员的手段。算法在这里并且通常被认为是导致所需结果的自洽操作序列。这些操作是那些需要对物理量进行物理操纵的操作。通常,尽管不一定,这些量采用能够被存储,转移,组合,比较,和以其他方式操纵的电或磁信号的形式。有时,主要是出于常用的原因,将这些信号称为位,值,元素,符号,字符,术语,数字等已被证明是方便的。

然而,应当记住,所有这些和类似的术语都将与适当的物理量相关联并且仅仅是应用于这些量的方便的标签。除非从以下讨论中显而易见地另有具体说明,应当理解,在整个描述中,使用诸如“处理”或“计算”(“computing”或“calculating”)或“确定”或“显示”或“生成”等术语的讨论,指的是计算机系统或类似电子计算设备的动作和过程,其操纵并将在计算机系统的寄存器和存储器中表示为物理(电子)量的数据转变为在计算机系统存储器或寄存器或其他此类信息存储,传输,或显示设备中类似地表示为物理量的其他数据。

本文中呈现的算法和显示与任何特定计算机或其他装置不固有的相关。根据本文教导,多种通用系统可以与程序一起使用,或者可以证明构造更专门的装置来执行一些实施例的方法是方便的。多种这些系统所需的结构将从下面的描述中显现出来。此外,没有参考任何特定编程语言来描述这些技术,并且因此可以使用多种编程语言来实现多种实施例。

在替代实施例中,机器作为独立设备操作或者可以被连接(例如,联网)到其他机器。在联网部署中,机器可以在客户端–服务器网络环境中作为服务器或客户端机器操作,或者在对等(或分布式)网络环境中的作为对等机器操作。

机器可以是服务器计算机,客户端计算机,个人计算机(PC),平板PC,膝上型计算机,机顶盒(STB),个人数字助理(PDA),蜂窝电话,iPhone,黑莓手机,处理器,电话,网络设备,网络路由器,交换机或网桥,或任何能够执行一组指令(顺序或其他)的机器,这些指令指定该机器要采取的行动。

虽然机器可读介质或机器可读存储介质在示例性实施例中被示出为单个介质,但是术语“机器可读介质”和“机器可读存储介质”应当被认为包括存储一组或多组指令的单个介质或多个介质(例如,集中式或分布式数据库,和/或相关联的高速缓存和服务器)。术语“机器可读介质”和“机器可读存储介质”还应被认为包括能够存储,编码,或携带一组由机器执行的指令并使机器执行本公开的技术和创新的任何一种或多种方法或模块的任何介质。

一般而言,为实现本公开的实施例而执行的例程,可以被实现为操作系统或具体应用,组件,程序,对象,模块或被称为“计算机程序”的指令序列的一部分。计算机程序通常包含被设置在不同时间在计算机中的多种存储器和存储设备中的一个或多个指令,并且当被计算机中的一个或多个处理单元或处理器读取和执行时,使计算机完成操作以执行涉及本公开的多个方面的元素。

而且,虽然已经在全功能计算机和计算机系统的情境中描述了实施例,但本领域技术人员将理解,多种实施例能够以多种形式作为程序产品被分布,并且无论用于实际影响分布的特定类型的机器或计算机可读介质如何,本公开均同等应用。

机器可读存储介质,机器可读介质,或计算机可读(存储)介质的其他示例包括但不限于可记录类型介质,诸如易失性和非易失性存储设备,软盘和其他可移动磁盘,硬盘驱动器,光盘(例如,光盘只读存储器(CD ROMS),数字多功能磁盘(DVDs)等)等,以及传输类型介质(诸如数字和模拟通信链路)。

在一些情况下,存储器设备的操作,诸如从二进制一到二进制零或反之亦然的状态改变,例如,可以包含转变(诸如物理转变)。对于特定类型的存储器设备,这种物理转变可以包含物品到不同状态或事物的物理转变。例如,但不限于,对于一些类型的存储器设备,状态的改变可能涉及电荷的积累和存储或所存储电荷的释放。同样地,在其他存储器设备中,状态的改变可以包含磁取向的物理改变或转变或分子结构的物理改变或转变,诸如从结晶到非晶或相反的转变。前述内容并非旨在是一个详尽的列表,其中存储设备中二进制一到二进制零或反之的状态改变可包含转变,诸如物理转变。相反,前述内容旨在作为说明性示例。

存储介质通常可以是非暂时性的或包含非暂时性设备。在这种情境下,非暂时性存储介质可以包括有形的设备,这意味着该设备具有具体(concrete)的物理形式,尽管该设备可以改变其物理状态。因此,例如,非暂时性是指尽管状态发生这种改变,但设备仍然保持有形的。

备注

为了说明和描述的目的,提供了所要求保护的主题的多种实施例的前述描述。并不旨在穷举或将要求保护的主题限制为所公开的精确形式。许多修改和变化对于本领域技术人员来说将是显而易见的。选择和描述实施例是为了最好地描述本发明的原理及其实际应用,从而使相关领域的其他技术人员能够理解要求保护的主题,多种实施例,以及适合被包含的特定用途的多种修改。

虽然已经在全功能计算机和计算机系统的情境中描述了实施例,但是本领域技术人员将理解,多种实施例能够以多种形式作为程序产品被分布,并且无论用于实际影响分布的机器或计算机可读介质的特定类型如何,本公开均同等应用。

尽管以上详细描述描述了某些实施例和所包含的最佳模式,但无论以上在文本中显得多么详细,实施例可以以多种方式实践。系统和方法的细节在它们的实现细节上可能有很大不同,但仍被说明书所涵盖。如上所述,在描述多种实施例的某些特征或方面时使用的特定术语不应被视为暗示该术语在本文中被重新定义以被限制于与该术语相关联的本发明的任何特定特性,特征,或方面。通常,以下权利要求中使用的术语不应被解释为将本发明限制为说明书中公开的特定实施例,除非这些术语在本文中有明确定义。因此,本发明涵盖的实际范围不仅包括所公开的实施例,还包括实践或实现权利要求下的实施例的所有等同方式。

说明书中使用的语言主要是出于可读性和指导目的而选择的,并且可能未被选择来描绘或约束本发明的主题。因此,本发明的范围旨在不受本详细描述的限制,而是由基于本文的申请所授权的任何权利要求限制。因此,多种实施例的公开旨在说明而非限制在以下权利要求中阐述的实施例的范围。

24页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:临床事件的记录方法、医疗设备和存储介质

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!