用于语言模型个性化的系统和方法

文档序号:1009404 发布日期:2020-10-23 浏览:35次 >En<

阅读说明:本技术 用于语言模型个性化的系统和方法 (System and method for language model personalization ) 是由 阿尼尔·亚达夫 阿卜杜勒·劳福·哈利达 阿里雷扎·迪拉夫佐恩 ***·梅迪·穆阿兹米 宋璞 于 2019-03-06 设计创作,主要内容包括:提供了一种方法、电子设备和计算机可读介质。该方法包括识别与一个或多个用户相关联的可观察特征集合。该方法还包括根据可观察特征集合生成潜在特征。该方法还包括将潜在特征分类为一个或多个集群。该一个或多个集群的每个集群表示共享一部分潜在特征的用户组的言语表达。该方法还包括生成与一个或多个集群中的特定集群相对应的语言模型。语言模型表示与特定集群的用户组相关联的言语表达的概率排序。(A method, electronic device, and computer-readable medium are provided. The method includes identifying a set of observable features associated with one or more users. The method also includes generating potential features from the set of observable features. The method also includes classifying the potential features into one or more clusters. Each cluster of the one or more clusters represents a verbal expression of a group of users that share a portion of the potential features. The method also includes generating a language model corresponding to a particular cluster of the one or more clusters. The language model represents a probabilistic ranking of speech expressions associated with a user group of a particular cluster.)

用于语言模型个性化的系统和方法

技术领域

本公开总体上涉及电子设备。更具体地,本公开涉及生成用于自动语音识别的个性化语言模型。

背景技术

与计算设备进行交互并且控制计算设备的方法在不断改进,以便符合更自然的方法。用于与计算设备进行交互并且控制计算设备的许多此类方法通常要求用户利用诸如键盘、鼠标之类的用户界面工具,或者如果屏幕是触摸屏,则用户可以物理地触摸屏幕本身以提供输入。某些电子设备采用语音使能的用户界面来使用户能够与计算设备进行交互。使用自然语言正成为人们所选择的与某些电子设备和器具进行交互的方法。从自然语言到预期交互的平稳过渡可以在消费者满意度方面发挥越来越重要的作用。

发明内容

技术问题

某些电子设备采用语音使能的用户界面来使用户能够与计算设备进行交互。使用自然语言正成为人们所选择的与某些电子设备和器具进行交互的方法。从自然语言到预期交互的平稳过渡可以在消费者满意度方面发挥越来越重要的作用。

本公开提供了一种用于使自动语音识别情境化的系统和方法。

技术方案

在一个实施例中,提供了一种方法。该方法包括识别与一个或多个用户相关联的第一信息(例如,可观察特征集合)。该方法还包括根据该可观察特征集合获得(生成)第二信息(例如,潜在特征集合)。该方法还包括通过将潜在特征分类为一个或多个集群来获得该一个或多个集群,该一个或多个集群的每个集群表示共享一部分所述潜在特征的用户组的言语表达。该方法还包括生成(获得)与该一个或多个集群的特定集群相对应的语言模型。语言模型表示与特定集群的用户组相关联的言语表达的概率排序。

在另一实施例中,提供了一种电子设备。该电子设备包括处理器。该处理器被配置为识别与一个或多个用户相关联的第一信息(例如,可观察特征集合)。处理器还被配置为根据该可观察特征集合生成(获得)第二信息(例如,潜在特征集合)。处理器还被配置为通过将潜在特征分类为一个或多个集群来获得该一个或多个集群,该一个或多个集群的每个集群表示共享一部分所述潜在特征的用户组的言语表达。处理器还被配置为生成(获得)与该一个或多个集群的特定集群相对应的语言模型。语言模型表示与该特定集群的用户组相关联的言语表达的概率排序。

在另一实施例中,提供了一种体现计算机程序的非暂时性计算机可读介质。该计算机程序包括计算机可读程序代码,该计算机可读程序代码在由电子设备的处理器执行时使该处理器:识别与一个或多个用户相关联的第一信息(例如,可观察特征集合);根据该可观察特征集合生成(获得)第二信息(例如,潜在特征集合);通过将潜在特征分类为一个或多个集群来获得该一个或多个集群,该一个或多个集群的每个集群表示共享一部分所述潜在特征的用户组的言语表达;并且生成(获得)与该一个或多个集群的特定集群相对应的语言模型,语言模型表示与该特定集群的用户组相关联的言语表达的概率排序。

根据以下附图、说明书和权利要求书,其他技术特征对于本领域技术人员而言可以是显而易见的。

在进行下面的

具体实施方式

之前,阐明在本专利文件全文中使用的某些字词和短语的定义可能是有利的。术语“耦合”及其派生词是指两个或更多个元件之间的任何直接或间接的通信,无论这些元件是否彼此物理地接触。术语“发送”、“接收”和“通信”及其派生词涵盖直接和间接的通信。术语“包括”和“包含”及其派生词是指包括但不限于。术语“或”是包含性的,意指和/或。短语“与……相关联”及其派生词意指包括、被包括在内、与……互连、包含、被包含在内、连接到……或与……连接、耦合到……或与……耦合、与……可通信、与……协作、交错、并置、与……接近、结合到……或与……结合、具有、具有……的属性、关系到……或与……有关系等。术语“控制器”是指控制至少一个操作的任何设备、系统或其一部分。这样的控制器可以以硬件或硬件和软件和/或固件的组合来实现。无论是本地的还是远程的,与任何特定控制器相关联的功能都可以是集中式或分布式的。当与项目的列表一起使用时,短语“至少一个”意指可以使用一个或多个所列项目的不同组合,并且可以只需要列表中的一个项目。例如,“A、B和C中的至少一个”包括以下组合的任何一种:A;B;C;A和B;A和C;B和C及A和B和C。

此外,以下描述的各种功能可以由一个或多个计算机程序实现或支持,每个计算机程序由计算机可读程序代码形成并且体现在计算机可读介质中。术语“应用程序”和“程序”是指适于以合适的计算机可读程序代码实现的一个或多个计算机程序、软件组件、指令集、过程、功能、对象、类、实例、相关数据或其一部分。短语“计算机可读程序代码”包括任何类型的计算机代码,包括源代码、目标代码和可执行代码。短语“计算机可读介质”包括能够由计算机访问的任何类型的介质,例如只读存储器(ROM)、随机存取存储器(RAM)、硬盘驱动器、光盘(CD)、数字视频光盘(DVD)或任何其他类型的存储器。“非暂时性”计算机可读介质不包括传输暂时性电信号或其他信号的有线、无线、光学或其他通信链路。非暂时性计算机可读介质包括可以永久存储数据的介质以及可以存储数据并且随后覆盖数据的介质,例如可重写光盘或可擦除存储器件。

在本专利文件全文中还提供其他某些字词和短语的定义。本领域普通技术人员应理解,在很多情况下,即使不是大多数情况,这样的定义也适用于这些被定义的字词和短语的先前和将来的使用。

本发明的有利效果

通过参考下面的说明书、所附权利要求和附图,将理解一个或多个实施例的这些和其他特征、方面和优点。

附图说明

为了更完整地理解本公开及其优点,现在参考以下结合附图所进行的描述,其中相同的附图标记表示相同的部件:

图1示出了根据本公开的实施例的示例通信系统;

图2示出了根据本公开的一个实施例的示例电子设备;

图3示出了根据本公开的一个实施例的示例电子设备;

图4a和图4b示出了根据本公开的一个实施例的自动语音识别系统;

图4c示出了根据本公开的一个实施例的示例环境架构的框图;

图5a、图5b和图5c示出了根据本公开的一个实施例的示例自动编码器;

图6a示出了根据本公开的一个实施例的用于创建多个个性化语言模型的示例过程;

图6b示出了根据本公开的一个实施例的示例集群;

图7示出了根据本公开的一个实施例的用于为新用户创建个性化语言模型的示例过程;以及

图8示出了根据本公开的一个实施例的基于情境信息确定要执行的操作的示例方法。

具体实施方式

本专利文件中在下面讨论的图1至图8以及用于描述本公开的原理的各种实施例仅作为示例说明,并且不应以任何方式解释为限制本公开的范围。本领域技术人员将理解,本公开的原理可以在任何适当布置的系统或设备中实现。

根据本公开的实施例,提供了用于控制计算设备并与计算设备进行交互的各种方法。图形用户界面通过使用户能够定位和选择屏幕上的对象而允许与电子设备(例如,计算设备)进行用户交互。常见的交互包括物理操控,例如用户物理地移动鼠标、在键盘上打字、触摸触敏表面的触摸屏等。在某些情况下,利用诸如触摸触摸屏之类的各种物理交互是不可行的,例如当用户佩戴头戴式显示器时,或者在设备不包括显示器的情况下等等。另外,在某些情况下,利用诸如触摸触摸屏或使用附件(例如,键盘、鼠标、触摸板、遥控器等)之类的各种物理交互是不方便或繁琐的。本公开的实施例还允许与电子设备进行交互的另外的方法。注意,如本文所使用的,术语“用户”可以表示使用该电子设备的人或另一设备(例如,人工智能电子设备)。

根据本公开的实施例的电子设备可以包括个人计算机(例如,膝上型计算机、台式计算机)、工作站、服务器、电视、器具等。另外,电子设备可以是家具或建筑物/结构的一部分、电子板、电子签名接收设备、投影仪或测量设备中的至少一个。在某些实施例中,电子设备可以是便携式电子设备,例如便携式通信设备(例如,智能电话或移动电话)、膝上型计算机、平板电脑、电子书阅读器(例如,电子阅读器)、个人数字助理(PDA)、便携式多媒体播放器(PMP)、MP3播放器、移动医疗设备、虚拟现实头戴式设备、便携式游戏机、相机和可穿戴设备等。电子设备是以上所列设备之一或其组合。另外,本文公开的电子设备不限于以上所列设备,并且可以根据技术的发展而包括新的电子设备。

根据本公开的实施例,与计算设备进行交互并控制计算设备的自然方法是语音使能的用户界面。语音使能的用户界面使用户能够通过说话的行为与计算设备进行交互。说话可以包括人直接对电子设备说话或另一电子设备通过扬声器投射声音。一旦计算设备检测到并接收到声音,计算设备就可以从口头命令中导出情境含义,然后执行所请求的任务。

某些自动语音识别(ASR)系统能够将口头语言识别和翻译为计算设备上的文本,例如语音到文本。另外,ASR系统还可以包括基于从用户接收的特定指令执行一个或多个功能或动作的用户界面。例如,如果用户向电话叙述“呼叫配偶”,则电话可以通过查找与“配偶”相关联的电话号码来解释用户的含义,并且拨打与用户的“配偶”相关联的电话号码。类似地,如果用户向智能电话口头说出“呼叫配偶”,则智能电话可以将任务识别为使用电话功能并激活设备的电话特征的请求,查找与“配偶”相关联的电话号码,然后拨打用户的配偶的电话号码。在另一示例中,用户可以对特定设备说“天气怎么样”,而该设备可以基于用户的位置查找天气,并且可以在显示器上显示天气或通过扬声器向用户说天气。在另一示例中,用户可以向电子设备叙述“打开TV”,则特定的TV将会打开。

本公开的实施例认识并考虑到某些言语表达比其他言语表达更有可能被说出。例如,基于情境,某些言语表达比其他言语表达更有可能被说出。因此,本公开的实施例提供了将情境与特定语言模型相关联以得出改进的ASR系统的系统和方法。在某些实施例中,情境可以包括:(i)域情境;(ii)对话流情境;(iii)用户简档情境;(iv)使用日志情境;(v)环境和位置情境;以及(vi)设备情境。域情境指示言语表达的主题。例如,如果域是音乐,则用户更有可能说出歌曲名称、专辑名称、艺术家姓名。域流情境基于对话本身的情境。例如,如果用户说“预订飞往纽约的航班”,则电子设备可以通过说“何时”来响应。用户对电子设备的指定特定日期的响应是对电子设备的问题的响应,而不是无关的表达。用户简档情境可以将与特定用户相关联的方言和发音相关联。例如,基于年龄、性别、位置和其他生平信息,与其他字词相比,用户更有可能说出某些字词。例如,基于用户的位置,“ya’ll”的言语表达比“you guys”的表达更常见。类似地,基于用户的位置,“traffic circle”的言语表达比“round-a-bout”更常见,即使两种表达都指的是同一物体。使用日志指示若干个常用命令。例如,基于使用日志,如果一种言语表达是常见的,则用户更有可能再次使用同一命令。用户的环境和位置帮助电子设备理解口音或相似字词的各种发音。设备情境指示电子设备的类型。例如,如果电子设备是电话或器具,则用户的言语表达可以变化。此外,情境基于:所识别的用户兴趣和基于个人用户创建个性化语言模型,该个性化语言模型指示某些言语表达比其他言语表达更有可能被说出的概率。

本公开的实施例还考虑到某些语言模型可以包括针对人群中的不同组的各种模型。这样的模型没有发现情境特征和与特定用户相关联的潜在特征之间的相互依赖性。例如,可以训练语言模型以便获知英语(或任何其他语言)的行为。所以,语言模型可以是域特定的,例如针对特定人员的特定地理或地区区域。因此,本公开的实施例提供了一种情境ASR系统,其使用来自诸如不同的情境的各个方面的数据来提供对表达的重新评分,以追求计算设备的更高的准确性和理解度。

本公开的实施例提供了用于通过建立个性化语言模型情境化ASR系统的系统和方法。语言模型是字词序列的概率分布。例如,语言模型根据用于与ASR系统相关联的自然语言处理的不同短语的相对可能性进行估计。例如,在ASR系统中,电子设备尝试将声音与字词序列进行匹配。语言模型提供情境以区分听起来相似的字词和短语。在某些实施例中,可以为人群中的每个组生成单独的语言模型。可以基于可观察特征来进行分组。

另外,本公开的实施例提供了用于生成语言模型的系统和方法,该语言模型利用从用户简档和使用模式提取的潜在特征。用户简档和使用模式是可观察特征的示例。可观察特征可以包括典型特征和增强特征。在某些实施例中,可观察特征包括两者。

根据本公开的实施例,个性化语言模型改进了语音识别,例如与ASR系统相关联的那些。个性化语言模型还可以改进各种预测性用户输入,例如预测性键盘和智能自动更正功能。个性化语言模型还可以改进个性化机器翻译系统和个性化手写识别系统。

图1示出了根据本公开的示例计算系统100。图1所示的系统100的实施例仅用于举例说明。可以在不脱离本公开的范围的情况下使用系统100的其他实施例。

系统100包括便于系统100中各个组件之间进行通信的网络102。例如,网络102可以在网络地址之间通信Internet协议(IP)包、帧中继帧、异步传输模式(ATM)单元或其他信息。网络102包括一个或多个局域网(LAN)、城域网(MAN)、广域网(WAN)、诸如Internet之类的全球网络的全部或一部分或在一个或多个位置处的任何一个或多个其他通信系统。

网络102便于服务器104与各种客户端设备106-114之间进行通信。客户端设备106-114可以例如是智能电话、平板计算机、膝上型计算机、个人计算机、可穿戴设备、头戴式显示器(HMD)等。服务器104可以表示一个或多个服务器。每个服务器104包括可以为一个或多个客户端设备(例如,客户端设备106-114)提供计算服务的任何合适的计算或处理设备。每个服务器104可以例如包括一个或多个处理设备、存储指令和数据的一个或多个存储器、便于通过网络102进行通信的一个或多个网络接口。在某些实施例中,服务器104是可以识别用户的言语表达的ASR系统。在某些实施例中,服务器生成语言模型并且将语言模型提供给客户端设备106-114之一以执行ASR。每个所生成的语言模型可以在客户端设备106-114的任何一个中自适应地使用。在某些实施例中,服务器104可以包括神经网络,例如从与特定用户相关联的可观察特征集合中导出潜在特征的自动编码器。另外,在某些实施例中,服务器104可以从可观察特征集合中导出潜在特征。

每个客户端设备106-114表示通过网络102与至少一个服务器(例如,服务器104)或其他计算设备进行交互的任何合适的计算或处理设备。在该示例中,客户端设备106-114包括台式计算机106、移动电话或移动设备108(例如,智能电话)、个人数字助理(PDA)110、膝上型计算机112和平板计算机114。但是,在系统100中也可以使用任何其他或另外的客户端设备。智能电话表示这样一类移动设备108,即具有移动操作系统和用于语音、短消息服务(SMS)和互联网数据通信的集成移动宽带蜂窝网络连接的手持设备。如下面更详细地描述的,电子设备(例如,移动设备108、PDA 110、膝上型计算机112和平板计算机114)可以包括用户界面引擎,其修改在触摸屏上显示给用户的一个或多个用户界面按钮。

在该示例中,一些客户端设备108-114与网络102间接地通信。例如,客户端设备108和110(分别为移动设备108和PDA 110)经由一个或多个基站116(例如,蜂窝基站或eNodeB(eNB))进行通信。而且,客户端设备112和114(分别为膝上型计算机112和平板计算机114)经由一个或多个无线接入点118(例如,IEEE 802.11无线接入点)进行通信。注意,这些仅用于举例说明,并且每个客户端设备106-114可以直接与网络102通信,或者经由任何合适的中间设备或网络与网络102间接通信。

在某些实施例中,移动设备108(或任何其他客户端设备106-114)安全且高效地将信息传输到另一设备(例如,服务器104)。移动设备108(或任何其他客户端设备106-114)可以触发自身与服务器104之间的信息传输。

尽管图1示出了系统100的一个示例,但是可以对图1进行各种改变。例如,系统100可以以任何合适的布置包括任何数量的各组件。通常,计算和通信系统具有各种各样的配置,而图1并不将本公开的范围限制为任何特定的配置。尽管图1示出了可以使用本专利文件中公开的各种特征的一个操作环境,但是这些特征也可以用于任何其他合适的系统中。

本公开中提供的过程和系统允许客户端设备从用户接收言语表达,并且通过ASR系统导出、识别并理解来自用户接收的言语表达。在某些实施例中,服务器104或任何客户端设备106-114可以为客户端设备106-114的ASR系统生成个性化语言模型,以导出、识别并且理解来自用户接收的言语表达。

图2和图3示出了根据本公开的一个实施例的计算系统中的示例设备。具体地,图2示出了示例服务器200,并且图3示出了示例电子设备300。服务器200可以表示图1中的服务器104,电子设备300可以表示图1中的一个或多个客户端设备106-114。

服务器200可以表示一个或多个本地服务器、一个或多个远程服务器、充当单个无缝资源池的集群计算机和组件、基于云的服务器、神经网络等。服务器200可以由一个或多个客户端设备106-114访问。

如图2所示,服务器200包括总线系统205,其支持至少一个处理设备210、至少一个存储设备215、至少一个通信接口220和至少一个输入/输出(I/O)单元225之间的通信。

处理设备210(例如,处理器)执行可以存储在存储器230中的指令。处理设备210可以以任何合适的布置包括任何合适数量和类型的处理器或其他设备。处理设备210的示例类型包括微处理器、微控制器、数字信号处理器、现场可编程门阵列、专用集成电路和分立电路。

存储器230和持久性存储器235是表示能够存储信息(例如,临时或永久性基础上的数据、程序代码或其他合适的信息)并便于检索信息的任何结构的存储设备215的示例。存储器230可以表示随机存取存储器或任何其他合适的易失性或非易失性存储设备。持久性存储器235可以包含支持长期数据存储的一个或多个组件或设备,例如只读存储器、硬盘驱动器、闪存或光盘。

通信接口220支持与其他系统或设备的通信。例如,通信接口220可以包括便于通过网络102进行通信的网络接口卡或无线收发器。通信接口220可以支持通过任何合适的物理或无线通信链路的通信。

I/O单元225允许数据的输入和输出。例如,I/O单元225可以提供用于通过键盘、鼠标、小键盘、触摸屏或其他合适的输入设备进行用户输入的连接。I/O单元225还可以将输出发送到显示器、打印机或其他合适的输出设备。

注意,尽管图2被描述为表示图1的服务器104,但是可以在各种客户端设备106-114的一个或多个中使用相同或相似的结构。例如,台式计算机106或膝上型计算机112可以具有与图2所示的结构相同或相似的结构。

在某些实施例中,服务器200是包括神经网络(例如,自动编码器)的ASR系统。在某些实施例中,自动编码器被包括在电子设备(例如,图3的电子设备300)中。服务器200能够从与用户相关联的可观察特征中导出潜在特征。在某些实施例中,服务器200还能够基于导出的潜在特征来生成多个语言模型。然后,使用该多个语言模型为特定用户生成个性化语言模型。在某些实施例中,该个性化语言模型由服务器200或客户端设备(例如,图1的客户端设备106-114)生成。应注意,也可以在图1的任何客户端设备106-114上生成多个语言模型。

神经网络是一种硬件和软件的组合,它的模式仿照人脑中神经元的运作模式。神经网络可以从复杂的信号处理、模式识别或模式生成中解析和提取信息。模式识别包括对看到、听到、感觉到等的物体的识别。

神经网络处理可以以不同的方式处理信息。例如,神经网络具有并行的架构。在另一示例中,信息由神经网络表示、处理和存储,而非传统计算机。神经网络的输入被处理为分布在离散处理元素上的信号模式,而非二进制数。结构上,神经网络涉及大量并行运行并按层布置的处理器。例如,第一层接收原始输入信息,而每个后续层接收来自前一层的输出。每一层高度互连,使得层n中的每个节点可以连接到层n-1和层n+1中的多个节点(例如,节点输入),从而为这些节点提供输入。每个处理节点包括为其原始提供的或随时间推移而自身开发的规则集合。

例如,神经网络可以识别数据序列中的模式。例如,神经网络可以从与一个用户或多个用户相关联的可观察特征中识别模式。神经网络可以分析可观察特征并且从可观察特征中导出潜在特征。

神经网络的架构规定:每个神经元可以通过某些规则修改输入和输出之间的关系。神经网络的一种类型是前馈网络,其中信息通过节点传递,但不会两次接触同一节点。神经网络的另一类型是递归神经网络。递归神经网络可以包括允许向节点提供过去的决策的反馈回路。递归神经网络可以包括多个层,其中每一层包括多个单元(被称为长短期记忆(LSTM))。LSTM可以包括输入门、输出门和遗忘门。单个LSTM可以在一段时间内记住一值,并且可以帮助防护(preserving)能够通过神经网络的各层反向传播的错误。

神经网络的另一类型是自动编码器。自动编码器以无监督的方式导出高效的数据编码。在某些实施例中,自动编码器学习用于降维的数据集合的表示。例如,自动编码器学习将来自输入层的数据压缩为短代码,然后将该代码解压缩为与原始数据基本匹配的内容。

可以将神经网络适配为使得当神经网络学习并执行后续任务时,神经网络可以对其自身进行修改。例如,可以训练最初神经网络。训练涉及向神经网络提供特定的输入以及指示神经网络期望什么输出。例如,可以训练神经网络以识别何时修改用户界面对象。例如,神经网络可以接收初始输入(例如,来自可观察特征的数据)。通过提供初始答案,允许神经网络调整神经网络在内部如何权衡特定决策以执行给定任务。然后,神经网络能够从可观察特征中导出潜在特征。在某些实施例中,神经网络然后可以接收反馈数据,其允许神经网络不断改进各种决策和权衡过程,以便消除假阳性并且提高每个决策的准确性和效率。

图3示出了根据本公开的一个实施例的电子设备300。图3所示的电子设备300的实施例仅用于举例说明,可以在不脱离本公开的范围的情况下使用其他实施例。电子设备300可以具有各种各样的配置,而图3并不将本公开的范围限制为电子设备的任何特定的实施方式。在某些实施例中,图1的一个或多个设备104-114可以包括与电子设备300相同或相似的配置。

在某些实施例中,电子设备300可以使用数据传输应用程序,例如向神经网络提供信息和从神经网络接收信息。在某些实施例中,电子设备300可以使用用户界面应用程序,其可以基于电子设备300的状态数据和神经网络的参数来修改用户界面。电子设备300可以是移动通信设备,例如,移动站、订户站、无线终端、台式计算机(类似于图1的台式计算机106)、便携式电子设备(类似于图1的移动设备108、图1的PDA 110、图1的膝上型计算机112和图1的平板计算机114)等。

如图3所示,电子设备300包括天线305、通信单元310、发送(TX)处理电路315、麦克风320和接收(RX)处理电路325。通信单元310可以例如包括RF收发器、蓝牙收发器、WI-FI收发器、ZIGBEE,红外等。电子设备300还包括扬声器330、处理器340、输入/输出(I/O)接口(IF)345、输入设备350、显示器355、存储器360和传感器365。存储器360包括操作系统(OS)361、一个或多个应用程序362和可观察特征363。

通信单元310从天线305接收从网络102(例如,WI-FI、蓝牙、蜂窝、5G、LTE、LTE-A、WiMAX或任何其他类型的无线网络)的接入点(例如基站、WI-FI路由器、蓝牙设备)发送的输入RF信号,例如蓝牙或WI-FI信号。通信单元310对输入RF信号进行下变频以生成中频或基带信号。该中频或基带信号被发送到RX处理电路325,RX处理电路325通过对基带信号或中频信号进行滤波、解码或数字化或上述操作的组合而生成处理后的基带信号。RX处理电路325将处理后的基带信号发送到扬声器330(例如,用于语音数据)或发送到处理器340以进行进一步的处理(例如,用于网页浏览数据)。

TX处理电路315从麦克风320接收模拟或数字语音数据,或者从处理器340接收其他输出基带数据。输出基带数据可以包括网络数据、电子邮件或交互式视频游戏数据。TX处理电路315对输出基带数据进行编码、复用、数字化或其组合,以生成处理后的基带或中频信号。通信单元310从TX处理电路315接收输出的经处理的基带信号或中频信号,并将该基带信号或中频信号上变频为经由天线305发送的RF信号。

处理器340可以包括一个或多个处理器或其他处理设备,并执行存储在存储器360中的OS 361,以便控制电子设备300的整体操作。例如,处理器340可以根据公知原理控制通过通信单元310、RX处理电路325和TX处理电路315进行的正向信道信号的接收和反向信道信号的发送。

处理器340可以执行存储在存储器360中的指令。处理器340可以以任何合适的布置包括任何合适数量和类型的处理器或其他设备。例如,在一些实施例中,处理器340包括至少一个微处理器或微控制器。处理器340的示例类型包括微处理器、微控制器、数字信号处理器、现场可编程门阵列、专用集成电路和分立电路。

处理器340还能够执行驻留在存储器360中的其他处理和程序,例如通过提供ASR处理等来接收、存储和及时指示的操作。处理器340可以根据执行过程的需要将数据移入或移出存储器360。在一些实施例中,处理器340被配置为基于OS 361或响应于从eNB或运营商接收的信号来执行多个应用程序362。例如,应用程序362可以包括相机应用程序(用于静止图像和视频)、视频电话呼叫应用程序、电子邮件客户端、社交媒体客户端、SMS消息客户端、虚拟助手等。在某些实施例中,处理器340被配置为接收、获得并导出可观察特征363。处理器340还耦合到I/O接口345,I/O接口345向电子设备300提供连接到其他设备(例如,客户端设备104-116)的能力。I/O接口345是这些附件与处理器340之间的通信路径。

处理器340还耦合到输入设备350和显示器355。电子设备300的操作员可以使用输入设备350将数据或输入键入到电子设备300中。输入设备350可以是键盘、触摸屏、鼠标、轨迹球、语音输入或其他能够充当用户界面以允许用户与电子设备300进行交互的设备。例如,输入设备350可以包括语音识别处理,从而允许用户输入语音命令。再例如,输入设备350可以包括触摸面板、(数字)笔传感器、按键或超声输入设备。触摸面板可以例如以电容方案、压敏方案、红外方案或超声方案中的至少一种方案来识别触摸输入。通过向处理器340提供另外的输入,输入设备350可以与传感器365和/或照相机相关联。在某些实施例中,传感器365包括惯性测量单元(IMU)(例如,加速度计、陀螺仪和磁力计)、运动传感器、光学传感器、相机、压力传感器、心率传感器、高度计等。输入设备350还可以包括控制电路。在电容方案中,输入设备350可以识别触摸或接近。

显示器355可以是液晶显示器(LCD)、发光二极管(LED)显示器、有机LED(OLED)、有源矩阵OLED(AMOLED)或其他能够呈现文本和/或图形(例如,来自网站、视频、游戏、图像等)的显示器。

存储器360耦合到处理器340。存储器360的一部分可以包括随机存取存储器(RAM),存储器360的另一部分可以包括闪存或其他只读存储器(ROM)。

存储器360可以包括持久性存储器(未示出),其表示能够存储信息并且便于检索信息(例如,临时或永久性基础上的数据、程序代码和/或其他合适的信息)的任何结构。存储器360可以包含支持长期数据存储的一个或多个组件或设备,例如只读存储器、硬盘驱动器、闪存或光盘。存储器360还可以包含从典型特征以及增强特征中接收或导出的可观察特征363。典型特征包括从用户简档中导出或获得的信息,例如用户的年龄、用户的位置、用户的教育程度、用户的性别等。增强特征是从各种其他服务或来源中获得或导出的。例如,增强特征可以包括用户在社交媒体上出现而生成的信息、向用户发送的和来自用户的电子邮件和SMS消息、用户的在线足迹以及表达(言语的和电子输入的(例如,键入的))的使用日志等。

在线足迹是用户访问Internet时由用户生成的数据轨迹。例如,用户的在线足迹表示在Internet上显现的可跟踪数字活动、动作、贡献和通信。在线足迹可以包括访问过的网站、互联网搜索历史、发送的电子邮件、提交给各种在线服务的信息。例如,当某人访问特定网站时,该网站可以保存标识此人的互联网服务提供商、此人的大概位置的IP地址。在线足迹还可以包括用户提供给产品、服务、餐厅、零售机构等的评论。用户的在线足迹还可以是博客发帖、社交媒体发帖。

电子设备300还包括一个或多个传感器365,其可以计量物理量或检测电子设备300的激活状态,并将所计量的或检测到的信息转换为电信号。例如,传感器365可以包括用于触摸输入的一个或多个按钮、相机、手势传感器、IMU传感器(例如,陀螺仪或陀螺仪传感器和加速度计)、气压传感器、磁传感器或磁力计、握持传感器、接近传感器、颜色传感器、生物物理传感器、温度/湿度传感器、照度传感器、紫外线(UV)传感器、肌电图(EMG)传感器、脑电图(EEG)传感器、心电图(ECG)传感器、IR传感器、超声传感器、虹膜传感器、指纹传感器等。传感器365还可以包括用于控制包括在其中的传感器中的至少一个的控制电路。这些传感器365中的任何一个都可以位于电子设备300内。

尽管图2和图3示出了计算系统中的设备的示例,但是可以对图2和图3进行各种改变。例如,图2和图3中的各种组件可以被组合、进一步细分或省略,并且可以根据特定需要添加另外的组件。作为特定示例,处理器340可以被划分为多个处理器,例如一个或多个中央处理单元(CPU)和一个或多个图形处理单元(GPU)。另外,与计算和通信网络一样,电子设备和服务器可以具有各种各样的配置,而图2和图3并不将本公开限制为任何特定的电子设备或服务器。

图4a和图4b示出了根据本公开的一个实施例的示例ASR系统400。图4a和图4b示出了根据本公开的一个实施例的高级架构。图4b是图4a的延续。图4a和图4b所示的ASR系统400的实施例仅用于举例说明。可以在不脱离本公开的范围的情况下使用其他实施例。

ASR系统400包括各种组件。在某些实施例中,ASR系统400中包括的一些组件可以被包括在单个设备中,例如图1的移动设备108,其包括类似于图3的电子设备300的内部组件。在某些实施例中,ASR系统400中包括的组件的一部分可以被包括在两个或更多个设备中,例如图1的服务器104(其可以类似于图2的服务器200包括内部组件)和移动设备108(其可以类似于图3的电子设备300包括内部组件)。ASR系统400包括接收的言语表达402、特征提取404、声学模型406、通用语言模型408、发音模型410、解码器412、域分类器414、域特定语言模型416、对话管理器418、设备情境420、可观察特征422、自动编码器428、情境化模块430和个性化语言模型的生成输出432。

言语表达402是由电子设备(例如,图1的移动设备108)接收的音频信号。在某些实施例中,言语表达402可以由对电子设备300说话的人创建,麦克风(例如,图3的麦克风320)将声波转换为移动设备108可以处理的电信号。在某些实施例中,可以由另一电子设备(例如,人工智能电子设备)来创建言语表达402,从而发送电信号或通过扬声器产生噪声(由移动设备108接收)。

特征提取404对言语表达402进行预处理。在某些实施例中,特征提取404相对于所接收的言语表达402执行噪声消除。特征提取404还可以相对于所接收的言语表达402执行回声消除。特征提取404还可以从所接收的言语表达402中提取特征。例如,特征提取404使用傅立叶变换从言语表达402中提取各种特征。在另一示例中,特征提取404使用梅尔频率倒谱系数(MFCC)从言语表达402提取各种特征。由于音频易受噪声影响,因此特征提取404从言语表达402中提取特定的频率分量。例如,傅立叶变换将时域信号变换到频域,以便产生频率系数。

声学模型406生成声学特征与语音单元(例如,音素和包括语音的其他语言单元)之间的关系的概率模型。声学模型406向解码器412提供声学特征与音素之间的概率关系。在某些实施例中,声学模型406可以接收在特征提取404中生成的MFCC特征,然后将每一帧分类为特定音素。基于时间,每一帧是所接收的言语表达402的一小部分。例如,一帧是预定持续时间的所接收的言语表达402。音素是声音的单位。例如,声学模型406可以将诸如“SHE”之类的所接收的言语表达402转换为“SH”和“IY”的音素。在另一示例中,声学模型406可以将诸如“HAD”之类的所接收的言语表达402转换为“HH”、“AA”和“D”的音素。在另一示例中,声学模型406可以将诸如“ALL”之类的所接收的言语表达402转换为“AO”和“L”的音素。

通用语言模型408对字词序列进行建模。例如,通用语言模型408确定字词序列的概率。通用语言模型408提供哪些字词序列比其他字词序列更有可能的概率。例如,通用语言模型408向解码器412提供与给定字词序列相关联的各种概率分布。通用语言模型408标识不同短语的可能性。例如,基于情境,通用语言模型408可以区分听起来相似的字词和短语。

发音模型410将字词映射到音素。字词到音素的映射可以是统计的。发音模型410将音素转换为解码器412可以理解的字词。例如,发音模型410将“HH”、“AA”和“D”的音素转换为“HAD”。

解码器412接收:(i)来自声学模型406的声学特征与语音单元之间的关系的概率模型;(ii)来自通用语言模型408的与特定字词序列相关联的概率;以及(iii)解码器412可以理解的转换后的音素。解码器412基于给定的声学信号搜索最佳字词序列。

解码器412的结果是基于由通用语言模型408确定的字词序列的概率等级而受限制的。例如,通用语言模型408可以表示被训练为理解一部分人群的方言语音模式的一个或多个语言模型。例如,通用语言模型408不是基于某个特定人员,而是基于具有不同年龄、性别、位置、兴趣等的一大群人。

本公开的实施例考虑到,为了增加ASR系统400的准确性,语言模型是针对正在说话的或创建言语表达402的用户(而非一般人或一组人)而定制的。根据情境,某些表达比其他表达更有可能。例如,每个人在说话时使用的字词序列略有不同。改变可以是基于个人的年龄、性别、地理位置、兴趣和说话习惯的。因此,创建对每个人唯一的语言模型可以改进ASR系统400的整体结果。为了创建语言模型,需要书面示例和口头示例。当用户在新的ASR系统中注册时,关于该用户的已知信息很少。可以基于用户简档(例如年龄、性别、位置等)来获知某些信息。生成针对特定人员而定制的语言模型标识用户的潜在特征,然后将用户的潜在特征与多个语言模型进行比较。基于该特定人员的潜在特征与各种语言模型之间的相似性,可以为该特定用户创建个性化语言模型。

解码器412基于与最高概率相对应的特定音素序列导出一系列字词。在某些实施例中,解码器412可以创建单个输出或多个可能的序列。如果解码器412输出多个可能的序列,则解码器412还可以创建与每个序列相关联的概率。为了增加来自解码器的输出的准确性,针对言语表达402的发言人而个性化的语言模型可以增加由解码器412确定的一系列字词。

为了针对特定人员创建语言模型,为特定人员收集可观察特征422。另外,个性化语言模型是基于与用户的言语表达相关联的各种情境的。例如,解码器412还可以将信息提供给域分类器414。此外,个性化语言模型可以基于接收言语表达的设备的类型,其中该类型由设备情境420来标识。

域分类器414是从言语表达中识别各种语言或音频特征以确定言语表达的目标域的分类器。例如,域分类器414可以识别域情境,例如与言语表达相关联的主题。如果域分类器414识别出域情境是音乐,则情境化模块430将能够确定下一字词序列将最有可能与音乐相关联,例如艺术家的姓名、专辑名称、歌曲标题、歌曲的歌词等。如果域分类器414识别出域情境是电影,则情境化模块430将能够确定下一字词序列将最有可能与电影相关联,例如演员、流派、导演、电影标题等。如果域分类器414识别出域情境是运动,则情境化模块430将能够确定下一字词序列将最有可能与运动相关联,例如运动的类型(橄榄球、足球、曲棍球、篮球等)以及运动员、评论员等,以上仅为举例。在某些实施例中,域分类器414在ASR系统400的外部。

域分类器414可以将数据输出到域特定语言模型416和对话管理器418中。域特定语言模型416内的语言模型包括使用来自特定域情境内的特定表达来训练的语言模型。例如,域特定语言模型416包括与特定域情境相关联的语言模型,例如音乐、电影、体育等。

对话管理器418识别用户与设备之间对话的状态。例如,对话管理器418可以捕获正在被执行的当前动作以识别哪些参数已经被接收以及哪些剩余。在某些实施例中,对话管理器418还可以导出与言语表达相关联的语法。例如,对话管理器418可以导出与每个状态相关联的语法,以便描述所期望的表达。例如,如果ASR系统400提示用户输入日期,则对话管理器418会认为从用户接收的言语表达将是日期的概率较高。在某些实施例中,由对话管理器418导出的语法不被转换为语言模型,这是因为情境化模块430使用言语表达与所导出的语言输出的匹配的指示符。

设备情境420识别接收言语表达的设备的类型。例如,个性化语言模型可以基于接收言语表达的设备的类型。示例设备包括移动电话、电视、诸如烤箱、冰箱等的器具等。例如,当对电视说出“TURN IT UP”的言语表达时,它可以指示用户想要音量增大,而当对烤箱说出这样的话时,它可以指示温度将要更高。

可观察特征422包括典型特征424和增强特征426。典型特征424可以包括关于个人的生平信息(例如年龄、性别、位置、家乡等)。增强特征426可以包括关于用户而获得的特征,例如SMS文本消息、社交媒体帖子、书面评论、书面博客、日志、环境、情境等。可以通过用户的在线足迹导出增强特征426。增强特征426还可以包括导出的用户兴趣,例如特定人员的爱好。在某些情境下(例如运动、足球、钓鱼、烹饪、芭蕾舞、游戏、音乐、摩托艇、帆船、歌剧等),基于每个特定爱好或兴趣的各种字词序列会比其他字词序列出现更多。分析用户的日志使语言模型能够导出该特定人员过去所说或所写的内容的趋势,这提供了关于该用户将来可能会说什么的指示。环境标识用户当前所在的位置。处于特定位置的人说话时常常带有特定的口音,或者使用特定的字词。例如,地区差异会导致不同的发音和方言。例如,“YA’LL”相比于“YOU GUYS”、“POP”相比于“SODA”等。情境可以包括与言语表达402相关联的主题以及言语表达402的发言人所针对的对象。例如,如果言语表达402指向电话线上的自动化系统或指向器具,则言语表达的情境可以改变。

可观察特征422可以被收集并将其表示为单个多维向量。向量的每个维度可以表示与用户有关的含义特征。例如,单个向量可以基于可观察特征422指示用户的性别、用户的位置、用户的兴趣。由于与单个用户相关联的可观察特征422中包括的大量信息,表示可观察特征422的向量可以涵盖许多维度。由自动编码器428从可观察特征422中导出潜在特征。潜在特征是基于用户之间的隐藏相似性的潜在情境特征。所导出的潜在特征提供两个或更多个可观察特征422之间的联系。例如,由自动编码器428导出的潜在特征可以对应于多维向量的单个维度。多维向量的单个维度可以对应于一个人的个性的多个方面。通过在可观察特征(类似于可观察特征422)上训练自动编码器(例如,自动编码器428)而学习潜在特征。

自动编码器428基于可观察特征422执行无监督学习。自动编码器428是神经网络,其执行高效编码的无监督学习。自动编码器428被训练为将来自输入层的数据压缩为短代码,然后将该代码解压缩为与原始数据高度匹配的内容。短代码表示潜在特征。对输入进行压缩会创建隐藏在可观察特征422内的潜在特征。短代码被压缩到一种状态,使得自动编码器428可以重构以进行输入。结果,自动编码器428的输入和输出基本相似。自动编码器压缩信息,使得可观察特征422中包括的多条信息在单个向量内。将可观察特征422中包括的信息压缩成更小规格会创建包括隐藏含义或潜在含义的有意义的表示。下面相对于图5a、图5b和图5c更详细地描述自动编码器428。

情境化模块430从解码器412中选择前k个假设,并且对值进行重新评分。基于域特定语言(由域特定语言模型416标识的)、当前对话状态的语法(来自对话管理器418)、个性化语言模型(经由可观察特征422、自动编码器428导出的)和设备情境420来对值进行重新评分。情境化模块430对由解码器412标识的与每个序列相关联的概率进行重新评分。

情境化模块430对来自解码器412的概率进行重新评分。例如,情境化模块430基于以下数学式(Math Figure)1对概率进行重新评分:

【数学式1】

数学式1描述了由各种情境元素的子集Si给出的字词序列的概率。元素“W”是句子假设[W0...Wk],其中Wi是表达式C={Ci}i=1,...,N的序列中的第i个字。表达式Ci∈{域,状态,用户简档,使用日志,环境,设备等},每个是包含相互依赖元素的C的子集。表达式Si和Sj是相互独立的例如,表达式S1={位置,天气},表达式S2={年龄,性别}。结果,表达式PLM(W|S1)表示根据S1(即,用户位置和天气)创建的语言模型中的字词序列的概率。

如果所有情境元素是相互独立的,则情境化模块430基于以下数学式2对概率进行重新评分:

【数学式2】

Figure BDA0002660456520000214

在以上数学式2中,PLM(W|C)表示对于情境Ci在特定语言模型的情境中的字词序列的概率。例如,表达式PLM(W|Domain)是域特定语言模型中的字词序列的概率。表达式PLM(W|State)是该状态的语法中的字词序列的概率。类似地,表达式PLM(W|UserProfile)是给定用户的简档的字词序列的概率。表达式PLM(W|UserLogs)是根据该用户的使用日志创建的语言模型中的字词序列的概率。表达式PLM(W|Environment)是针对用户的当前环境的语言模型中的字词序列的概率。表达式PLM(W|Device)是针对用户正在与之说话的当前设备的语言模型中的字词序列的概率。

情境化模块430的输出432是基于创建言语表达402的用户的个人语言模型的语音识别。

图4c示出了根据本公开的一个实施例的示例环境架构450的框图。环境架构450的实施例仅用于举例说明。可以在不脱离本公开的范围的情况下使用其他实施例。

环境架构450包括通过网络460与服务器480通信的电子设备470。电子设备470可以被配置为类似于图1的一个或多个客户端设备106-116中的任何一个,并且可以包括与图3的电子设备300的内部组件类似的内部组件。服务器480可以被配置为类似于图1的服务器104,并且可以包括与图2的服务器200的内部组件类似的内部组件。服务器480的组件或组件的一部分可以被包括在电子设备470中。电子设备470的组件的一部分可以被包括在服务器480中。例如,服务器480可以生成如图4c所示的个性化语言模型。可替代地,电子设备470可以生成个性化语言模型。例如,电子设备470或服务器480可以包括自动编码器(例如,图4b的自动编码器428),以从与电子设备470的用户相关联的可观察特征422集合中识别潜在特征。在识别到潜在特征之后,电子设备470或服务器480可以创建特定用户的个性化语言模型。电子设备470还可以自适应地使用由服务器480提供的语言模型,以便创建特定于电子设备470的用户的个性化语言模型。

网络460类似于图1的网络102。在某些实施例中,网络460表示由一个或多个网络互连的计算机的“云”,其中网络是利用集群计算机和组件以在被访问时充当单个无缝资源池的计算系统。在某些实施例中,网络460与一个或多个神经网络(例如,图4b的自动编码器428)、一个或多个服务器(例如,图1的服务器104)、一个或多个电子设备(例如,图1的客户端设备106-116和电子设备470中的任何一个)连接。在某些实施例中,网络可以连接到信息存储库(例如,数据库)和ASR系统(类似于图4a和图4b的ASR系统400),信息存储库包含属于各种语言模型的查找表和信息。

电子设备470是可以接收言语表达(例如,图4a的言语表达402)并基于所接收的言语表达执行功能的电子设备。在某些实施例中,电子设备470是类似于图1的移动设备108的智能电话。例如,电子设备470可以接收言语输入并且通过ASR系统(类似于图4a和图4b的ASR系统400)从言语输入中导出含义并执行特定功能。电子设备470包括接收器472、信息存储库474和自然语言处理器476。

接收器472类似于图3的麦克风320。接收器472接收声波(例如,语音数据)并将声波转换为电信号。从接收器472接收的语音数据可以与解释由用户说出的一条或多条言语表达的自然语言处理器476相关联。接收器472可以是类似于动态麦克风、电容麦克风、压电麦克风等的麦克风。接收器472还可以从另一电子设备接收言语表达。例如,另一电子设备可以包括创建言语表达的扬声器(类似于图3的扬声器330)。在另一示例中,接收器472可以接收表示言语表达的有线或无线信号。

信息存储库474可以类似于图3的存储器360。信息存储库474表示能够存储信息并便于检索信息(例如,临时或永久性基础上的数据、程序代码和/或其他合适的信息)的任何结构。信息存储库474可以包括存储器和持久性存储器。存储器可以是RAM或任何其他合适的易失性或非易失性存储设备,而持久性存储器可以包含支持长期数据存储的一个或多个组件或设备,例如ROM、硬盘驱动器、闪存或光盘。

在某些实施例中,信息存储库474包括图4b的可观察特征422和图3的可观察特征363。在信息存储库474中维护的信息和内容可以包括可观察特征422和与电子设备470的用户相关联的个性化语言模型。可观察特征422可以以日志方式维护并按预定间隔更新。如果电子设备470包括多个用户,则与每个用户相关联的可观察特征422以及与每个用户相关联的个性化语言模型可以被包括在信息存储库474中。在某些实施例中,信息存储库474可以包括经由自动编码器(例如,图4b的自动编码器428)基于可观察特征422导出的潜在特征。

自然语言处理器476类似于图4a和图4b的ASR系统400或ASR系统400的一部分。自然语言处理器476允许用户通过由接收器472检测到的声音(例如,语音和话语)与电子设备470进行交互。自然语言处理器476可以包括用于将用户的话语转换为可执行指令的一个或多个处理器。自然语言处理器476允许用户通过与设备对话而与电子设备470进行交互。例如,用户可以说出命令,且自然语言处理器476可以例如通过图4a的解码器412和图4b的情境化模块430外推声波并执行给定命令。在某些实施例中,自然语言处理器476利用诸如语音生物特征识别之类的语音识别来基于用户的语音模式识别用户,以便减少、过滤或消除不是源自用户的命令。当多个用户可以与同一电子设备(例如,电子设备470)相关联时,语音生物特征识别可以为说出言语表达的个人选择特定的语言模型。自然语言处理器476可以利用个性化语言模型从所接收的言语表达中识别出字词序列的更高概率。在某些实施例中,自然语言处理器476可以基于先前创建的语言模型生成个性化语言模型。

个性化语言模型是基于个人发言人的语言模型。例如,个性化语言模型基于用户的兴趣以及诸如年龄、位置、性别等的生平数据。在某些实施例中,电子设备470可以经由自动编码器(例如,图4b的自动编码器428和图5a的自动编码器500)导出用户的兴趣。自动编码器可以基于存储在信息存储库474中的可观察特征(例如,可观察特征422)导出潜在特征。自然语言处理器476将针对创建言语表达的发言人或用户的个性化语言模型用于语音识别。可以在电子设备上本地地或远程地(例如,通过服务器480的个性化语言模型引擎484)创建个性化语言模型。例如,基于所导出的用户的潜在特征,个性化语言模型引擎484生成特定于特定用户的兴趣和生平信息的加权语言模型。在某些实施例中,可观察特征422、个性化语言模型或其组合被存储在电子设备470外部的信息存储库中。

服务器480可以表示一个或多个本地服务器、一个或多个自然语言处理服务器、一个或多个语音识别服务器、一个或多个神经网络(例如,自动编码器)等。服务器480可以是网络服务器、诸如管理服务器之类的服务器计算机或能够发送和接收数据的任何其他电子计算系统。在某些实施例中,服务器480是由一个或多个网络互连的计算机的“云”,其中服务器480是利用集群计算机和组件以在通过网络460被访问时充当单个无缝资源池的计算系统。服务器480可以包括潜在特征生成器482、个性化语言模型引擎484和信息存储库。

下面相对于图5a、图5b和图5c更详细地描述潜在特征生成器482。在某些实施例中,潜在特征生成器482是电子设备470的组件。潜在特征生成器482可以从电子设备470接收可观察特征,例如可观察特征422。在某些实施例中,潜在特征生成器482是神经网络。例如,神经网络可以是自动编码器。神经网络使用无监督学***,使得输入得以重构,并且该输入和重构的输入基本相同。压缩后的中间层表示潜在特征。

下面相对于图6a、图6b和图7更详细地描述个性化语言模型引擎484。针对每个用户的个性化语言模型引擎484将特定用户的潜在特征分类为集群。个性化语言模型引擎484建立信息存储库,例如与每个集群相关联的信息存储库486。每个信息存储库486可以包括来自共享同一集群或共享重叠集群的多个不同用户的言语表达。可以为与每个集群相关联的每个信息存储库486构建语言模型。也就是说,语言模型是围绕在使用潜在特征的空间中定义的集群而建立的。可以将集群映射到由潜在特征定义的空间。

可以预先确定个性化语言模型引擎484识别的集群的数量。例如,个性化语言模型引擎484可以被配置为导出预定数量的集群。在某些实施例中,集群的量是数据驱动的。例如,基于从潜在特征生成器482导出的潜在特征的量,可以向个性化语言模型引擎484指示集群的数量。在另一示例中,基于文本的可识别分组的数量,可以指示集群的数量。

然后,个性化语言模型引擎484基于每个用户的个人潜在特征和与每个集群相关联的文本为用户建立个性化语言模型。例如,用户可以具有与与语言模型相关联的一个或多个集群重叠的潜在特征。可以基于用户潜在特征的量级来加权和定制语言模型。例如,如果个人的集群指示对运动的兴趣且在纽约州纽约市的位置,则个性化语言模型引擎484选择特定于那些集群的先前生成的语言模型,根据用户个人集群对它们进行加权,并且为该用户生成个性化语言模型。个性化语言模型可以存储在用户的电子设备(例如,信息存储库474)中,或远程地存储在经由网络460访问的信息存储库486中。

信息存储库486类似于信息存储库474。另外,信息存储库486可以类似于图2的存储器230。信息存储库486表示能够存储信息并且便于检索信息(例如,临时或永久性基础上的数据、程序代码和/或其他合适的信息)的任何结构。信息存储库486可以包括存储器和持久性存储器。存储器可以是RAM或任何其他合适的易失性或非易失性存储设备,而持久性存储器可以包含支持长期数据存储的一个或多个组件或设备,例如ROM、硬盘驱动器、闪存或光盘。在某些实施例中,信息存储库486包括与一个或多个集群相关联的言语表达数据库。信息存储库486还可以包括集群特定语言模型。集群特定语言模型可以与特定集群相关联,例如兴趣、年龄组、地理位置、性别等。例如,集群特定语言模型可以是针对来自特定区域或年龄范围或相似的政治偏好、相似的兴趣(例如,运动、戏剧、电视节目、电影、音乐等以及每项的子类型)的人员的语言模型。与一个或多个集群相关联的言语表达数据库的每个语料库可以用于创建、构建和训练各种语言模型。

图5a示出了根据本公开的一个实施例的示例自动编码器500。图5b和图5c示出了根据本公开的一个实施例的自动编码器500的不同组件方面。图5a、图5b和图5c的实施例仅用于举例说明。可以在不脱离本公开的范围的情况下使用其他实施例。

自动编码器500是无监督的神经网络。在某些实施例中,自动编码器500高效地编码高维数据。例如,自动编码器500压缩高维数据以提取隐藏特征。自动编码器500可以类似于图4b的自动编码器428和图4c的潜在特征生成器482。自动编码器500包括输入510、输出520和潜在特征530。

自动编码器500压缩输入510直到产生潜在特征530的瓶颈为止,然后将潜在特征530解压缩到输出520中。输出520和输入510基本相同。潜在特征530是被压缩到阈值的可观察特征的输入510,使得当其被解压缩时,输入510和输出520基本相似。如果增加对输入510的压缩,则当对潜在特征进行解压缩时,由于压缩产生的数据的劣化,输出520和输入510并不基本相似。在某些实施例中,自动编码器500是被训练为根据输入510生成潜在特征530的神经网络。

输入510表示可观察特征,例如图3的可观察特征363和图4b的可观察特征422。输入510被分解为包括典型特征512和增强特征514两个部分。典型特征512类似于图4b的典型特征424。增强特征514类似于图4b的增强特征426。

在某些实施例中,典型特征512包括各种数据元素512a至512n(512a-512n)。数据元素512a-512n表示关于特定用户或个人的生物学数据。例如,数据元素512a可以表示用户的年龄。在另一示例中,数据元素512b可以表示用户的当前位置。在另一示例中,数据元素512c可以表示用户出生的位置。在另一示例中,数据元素512d可以表示用户的性别。其他数据元素可以表示用户的教育程度、用户当前正在使用的设备、地域、国家、用户使用的语言等。

增强特征514包括各种数据元素514a至514n(514a-514n)。数据元素514a-514n表示用户在线足迹的各个方面。例如,数据元素514a-514n中的一个或多个可以表示社交媒体上的用户简档的各个方面。在另一示例中,数据元素514a-514n中的一个或多个可以表示用户例如通过SMS或其他消息收发应用程序发送或接收的各种消息。在另一示例中,数据元素514a-514n中的一个或多个可以表示由用户例如在博客上撰写的帖子、评论等。

潜在特征530包括各种学习到的特征,其包括数据元素532a至数据元素532n(532a-532n)。数据元素532a-532n是数据元素514a-514n的压缩表示。图4b的自动编码器428能够执行无监督的神经网络学习,以从较高维度的数据(数据元素514a-514n的数据)生成高效编码(数据元素532a-532n)。数据元素532a-532n表示瓶颈编码,使得自动编码器428可以将输入510重构为输出520。数据元素532a-532n是典型特征512和增强特征514的组合。例如,数据元素532a-532n包括足够的信息以使自动编码器可以创建与输入510基本匹配的输出520。这是单个维度的潜在特征530(其包括数据元素532a-532n),可以包括一个或多个典型特征512和增强特征514。例如,单个数据元素(例如,数据元素532b)可以包括彼此相关的典型特征512和增强特征514。

图6a和图6b示出了创建多个个性化语言模型的过程。图6a示出了根据本公开的一个实施例的用于创建语言模型的示例过程600。图6b示出了根据本公开的一个实施例的示例集群640a。过程600和集群640a的实施例仅用于举例说明。可以在不脱离本公开的范围的情况下使用其他实施例。

过程600可以由类似于图1的服务器104和图4c的服务器480的服务器执行,并且包括与图2的服务器200的内部组件类似的内部组件。过程600可以由类似于图1的客户端设备106-114和图4c的电子设备470中的任一个的服务器执行,并且包括与图3的电子设备300的内部组件类似的内部组件。过程600可以包括分别与图4a和图4b的ASR系统400类似的内部组件。过程600可以由图4c的个性化语言模型引擎484执行。

过程600包括可观察特征610、自动编码器620、潜在特征630、集群化640、信息存储库650a、650b至650n(统称为信息存储库650a-650n)和语言模型660a、660b和660n(统称为语言模型660a-660n)。过程600示出了基于可观察特征610的多个语言模型(例如,语言模型660a-660n)的训练和创建。语言模型660a-660n不与特定的人员或用户相关联,而是语言模型660a-660n与特定的潜在特征相关联。

语言模型660a-660n可以与特定主题或多个主题相关联。例如,语言模型660a可以与运动相关联,而语言模型660b可以与音乐相关联。在另一示例中,语言模型660a可以与橄榄球相关联,而语言模型660b可以与足球相关联,语言模型660c可以与篮球相关联。也就是说,如果集群大于阈值,则可以为该特定主题构建语言模型。例如,可以为运动构建语言模型,或者如果每种运动类型足够大,则可以为超出阈值的运动构建特定的语言模型。类似地,音乐的主题可以包括多个流派,政治可以包括多个政党,计算游戏可以包括不同的类型、平台等。可以基于由每个集群的文本语料库识别的主题的受欢迎程度为每个组或子组构建单独的语言模型。注意,集群点包括相似的属性。例如,讨论运动或类似主题的一组人可以具有多个如下的字词:其对该组有一定的含义,但如果结合另一组说出该字词,则该字词具有另一含义。基于与特定潜在特征相关联的集群和字词语料库,与特定集群相关联的语言模型可以将字词具有第一含义(相比于另一含义)与更高的概率相关联。

在某些实施例中,在将用户注册到ASR系统中之前执行过程600。例如,过程600创建特定于共享共同潜在特征的一组用户的多个语言模型。然后,可以为注册到ASR系统中的用户定制多个所创建的语言模型,以便为每个用户创建个性化语言模型。在某些实施例中,按预定的间隔执行过程600。重复训练和创建语言模型使每个语言模型能够适应与每个潜在特征相关联的当前方言。例如,可以基于言语表达的改变和与ASR系统的用户相关联的可观察特征610创建新的语言模型。

可观察特征610类似于图3的可观察特征363、图4b的可观察特征422和图5a的输入510。在某些实施例中,可观察特征610表示针对用户的语料库的可观察特征。也就是说,可观察特征610可以与多个个人相关联。在某些实施例中,与多个个人相关联的可观察特征610可以用于训练自动编码器620。可观察特征包括典型特征(例如,图4b的典型特征424)和增强特征(例如,图4b的增强特征426)。可观察特征610内的每个元素可以被表示为多维向量的向量。

自动编码器620类似于图4b的自动编码器428和图5a的自动编码器500。自动编码器620从可观察特征610中识别潜在特征630。潜在特征630可以被表示为多维向量。注意,由自动编码器620导出的多维潜在特征向量可以包括大量的维度。多维潜在特征向量所包括的维度少于多维可观察特征向量的维度。例如,多维潜在特征向量可以包括超过100个维度,每个维度表示与一个或多个用户相关联的潜在特征。

集群化640标识与每个潜在特征相关联的文本组。集群化640可以标识文本的集群,例如图6b的示例集群640a所示。集群640a描绘了三个集群:集群642、集群644和集群646。集群化640划分潜在特征630以标识集群。每个集群以质心为中心。质心是潜在特征的权重最高的位置。集群化640上的每个点可以是与潜在特征相关联的言语表达。例如,如果集群化640的每个维度对应于潜在特征,则每个点表示言语表达。当言语表达创建质心时,就可以识别出集群。可以通过二维图表或多维图表来表示集群化640。例如,集群640a可以以多维图表呈现,使得集群640a的每个轴作为潜在特征630的一个维度。

在某些实施例中,可以基于数据来识别集群的数量。例如,潜在特征可以被分组为某些可标识的分组,然后每个分组被标识为一个集群。在某些实施例中,集群的数量可以是预定的数量。例如,集群化640划分潜在特征630,并且基于大小、密度等标识预定数量的集群。如果集群的预定数量是三个,则集群化640标识具有最高集中度的三个质心,例如集群642、集群644和集群646的质心。

在对潜在特征630进行集群化640之后,生成信息存储库650a-650n。信息存储库650a-650n可以类似于图4c的信息存储库486。信息存储库650a-650n表示与每个集群相关联的言语表达。使用每个相应信息存储库650a-650n中的文本语料库,生成语言模型660a-660n。围绕在使用潜在特征的空间中定义的集群创建语言模型660a-660n。

图7示出了根据本公开的一个实施例的用于为新用户创建个性化语言模型的示例过程700。过程700的实施例仅用于举例说明。可以在不脱离本公开的范围的情况下使用其他实施例。

过程700可以由类似于图1的服务器104和图4c的服务器480的服务器执行,并且包括与图2的服务器200的内部组件类似的内部组件。过程700可以由类似于图1的客户端设备106-114和图4c的电子设备470中的任何一个的服务器执行,并且包括与图3的电子设备300的内部组件类似的内部组件。过程700可以包括分别与图4a和图4b的ASR系统400类似的内部组件。过程700可以由图4c的个性化语言模型引擎484执行。

过程700包括新用户的潜在特征710、(图6b的)集群640a、相似性度量模块720、使用图6b的语言模型660a-660n的模型适配引擎730和个性化语言模型740。基于新用户的潜在特征710定义个性化语言模型740。

当新用户加入ASR系统时,收集新用户的可观察特征(例如,图4b的可观察特征422)。在某些实施例中,图4c的个性化语言模型引擎484指示电子设备470收集可观察特征。在某些实施例中,个性化语言模型引擎484收集用户的可观察特征。当用户使用ASR系统创建简档时,可以识别一些可观察特征。可以基于用户简档、用户的SMS文本消息、用户的社交媒体帖子、用户撰写的评论、用户撰写的博客、用户的在线足迹等识别一些可观察特征。自动编码器(类似于图4b的自动编码器428)识别新用户的潜在特征710。在某些实施例中,电子设备470可以将可观察特征发送到远离电子设备470的自动编码器。在某些实施例中,电子设备470包括可以识别新用户的潜在特征710的自动编码器。

相似性度量模块720接收新用户的潜在特征710,并且识别新用户的潜在特征710与由图6b的集群化640产生的集群642、644和646之间的相似性程度。注意,集群640a中可以包括更多或更少的集群。在某些实施例中,相似性通过余弦相似性度量来识别。在某些实施例中,相似性度量模块720识别用户与一个或多个集群的相似程度。在某些实施例中,相似性度量模块720包括亲和性度量。亲和性度量定义新用户的不同集群与已被识别的各个集群(例如,集群640a的那些集群)的相似性。

在某些实施例中,相似性度量模块720生成函数722并且将该函数转发给模型适配引擎730。函数722表示用户与各个集群642、644和646的相似性度量。例如,函数722可以被表示为S(u,ti)。在表达式S(u,ti)中,每个集群(集群642、644和646)分别由“t1”、“t2”和“t3”标识,且新用户的潜在特征710由“u”标识。

模型适配引擎730基于函数722组合某些语言模型以生成针对用户“u”个性化的语言模型。模型适配引擎730基于概率和线性插值生成个性化语言模型740。例如,模型适配引擎730识别与用户的潜在特征相似的某些集群。可以以函数表示所识别的集群,例如S(u,ti),其中ti表示与用户最相似的集群。每个集群用于建立特定的语言模型660a-660n。然后,模型适配引擎730基于函数722对每个语言模型(语言模型660a-660n)进行加权,以创建个性化语言模型740。在某些实施例中,如果一个或多个语言模型660a-660n低于阈值,则那些语言模型被模型适配引擎730排除并且不用于创建个性化语言模型740。

由于每个集群(例如,集群642)表示具有相似兴趣(潜在特征)的一组人员,因此基于特定集群的语言模型将具有分配给每个字词的概率。结果,基于不同集群的两个语言模型可以具有与相似字词相关联的不同概率。基于用户与每个集群的相似性,模型适配引擎730将与各个语言模型中的各个字词相关联的概率进行组合,并且为每个字词分配唯一的权重,从而创建个性化语言模型740。例如,过程700可以由以下数学式3表示。

【数学式3】

LMu=F(LM1,LM2,...,LMn,S(t1,u),S(t2,u),...,S(tn,u))

数学式3描述了注册新用户并且为新用户创建个性化语言模型740的过程700。自动编码器(类似于图5a的自动编码器500)获得由变量“h”表示的潜在特征。潜在向量可以被集群化为相似的组“Ci”。每个集群的质心“Ci”由“ti”表示。对于每个这样的集群,基于与在集群“Ci”中的点相对应的所有文本语料库而创建语言模型LMi,其中集群“Ci”反向投射到原始可观察特征(例如,可观察特征610),并且由变量“V”表示。每个变量LM表示从集群中构建的特定语言模型。在某些实施例中,函数722(S(ti,u))由以下数学式4创建。类似地,数学式3的函数“F”由以下数学式5表示。另外,以下数学式6描绘了用于创建相应语言模型的数据库的构造。

【数学式4】

【数学式5】

【数学式6】

数学式4表示基于d(t1,u)的倒数获得函数722,其中函数d(t1,u)是向量“u”到最近的集群t1的欧几里得距离。数学式5表示用于创建个性化语言模型740的数学式3的函数。表达式P(u∈Ci)∝S(ti,u)和PLMi(w)表示基于语言模型“LMi”的给定字词“w”的概率。例如,通用语言模型LM基于概率PLM(w),其中“w”是字词序列假设[w0,...,wk],其中“wi”是序列中的相应字词。例如,PLM是与特定语言模型(例如,语言模型“i”)的每个字词相关联的概率。类似地,LMu是与特定用户“u”相关联的个性化语言模型(例如,个性化语言模型740)。上面的数学式6表示针对特定集群“ci”创建数据库“DB”。

在某些实施例中,一旦为特定用户构建了个性化语言模型(例如,个性化语言模型740),就可以执行动态运行期情境重新评分,以便基于对语言模型(例如,语言模型660a-660n)的更新来更新个性化语言模型。动态运行期情境重新评分由以下数学式7表示。

【数学式7】

Figure BDA0002660456520000334

表达式PLM(W|DM)、PLM(W|DC)和PLM(W|D)表示由各个元素给出的字词序列“W”的各自的概率。例如,“DM”对应于对话管理情境,类似于图4b的对话管理器418。在另一示例中,“DC”对应于域分类器,类似于图4b的域分类器414。在另一示例中,“D”对应于设备标识,例如图4b的设备情境420。例如,数学式7表示一旦基于用户的潜在特征为特定用户构建了个性化语言模型740,就可以更新用于构建个性化语言模型740的语言模型(例如,语言模型660a-660n)。如果可以更新用于构建个性化语言模型740的语言模型(例如,语言模型660a-660n),则可以生成通知来通知个性化语言模型740要被相应地更新。在某些实施例中,即使当用于构建个性化语言模型740的语言模型(例如,语言模型660a-660n)被更新时,也不更新个性化语言模型740。可以基于来自对话管理、域、设备等的情境信息来更新语言模型660a-660n。

图8示出了根据本公开的一个实施例的基于情境信息确定要执行的操作的示例方法。图8不将本公开的范围限制为任何特定实施例。尽管过程800描绘了一系列顺序步骤,除非明确指出,否则不应从该顺序中得出关于特定执行顺序的推论。例如,过程800所描绘的步骤的执行可以顺序地、同时地或以重叠的方式发生。过程800所描述的步骤的执行也可以在存在介入或中间步骤或者不存在介入或中间步骤的情况下发生。用于语音识别的方法由图1的客户端设备104-114、图2的服务器200、图3的电子设备300、图4a和图4b的ASR系统400、图4c的电子设备470和图4c的服务器480中的任何一个执行。为了便于说明,用于语音识别的过程800由图4c的服务器480执行。然而,过程800可以与任何其他合适的系统一并使用。

在框810中,服务器480识别第一信息(例如,可观察特征集合)。该可观察特征集合可以包括至少一个典型特征和至少一个增强特征。典型特征可以包括关于个人的生平信息(例如年龄、性别、位置、家乡等)。增强特征可以包括关于用户而获得的特征,例如SMS文本消息、社交媒体帖子、书面评论、书面博客、日志、环境、情境等。可以通过用户的在线足迹导出增强特征。

在框820中,服务器480从可观察特征集合中生成(获得)第二信息(例如,潜在特征集合)。为了生成潜在特征集合,处理器基于可观察特征集合生成多维向量。多维向量的每个维度对应于可观察特征集合的一个特征。然后,处理器减少多维向量的维度的量,以导出潜在特征集合。在某些实施例中,使用自动编码过程来减少多维向量的维度的量。可以通过自动编码器神经网络执行自动编码。自动编码器可以位于服务器480上,或者位于另一设备(例如,外部自动编码器)或接收言语表达并且与用户相关联的电子设备(例如,客户端设备106-114之一)上。

在框830中,服务器480将潜在特征分类为一个或多个集群,或者通过将潜在特征分类为一个或多个集群而获得一个或多个集群。该一个或多个集群的每个集群表示共享一部分潜在特征的用户的言语表达。每个集群包括与所映射的特定潜在特征相关联的言语表达。

在框840中,服务器480生成(或获得)与该一个或多个集群中的集群相对应的语言模型。语言模型表示与该集群的用户相关联的言语表达的概率排序。

在某些实施例中,语言模型至少包括第一语言模型和第二语言模型。至少第一语言模型和第二语言模型中的每个语言模型分别对应于一个或多个集群中的一个集群。然后,服务器480可以识别一个或多个集群中的每个集群的质心。基于所识别的质心,服务器480基于与一个或多个集群中的第一集群相关联的第一用户集合的言语表达构建第一数据库。类似地,基于第二所识别的质心,服务器480基于与一个或多个集群中的第二集群相关联的第二用户集合的言语表达构建第二数据库。此后,服务器480可以基于第一数据库生成第一语言模型并基于第二数据库生成第二语言模型。服务器还可以基于对第一语言模型和第二语言模型进行加权来生成语言模型。

在某些实施例中,语言模型包括多个语言模型,例如至少第一语言模型和第二语言模型。每个语言模型分别对应于一个或多个集群中的一个集群。服务器480可以获得与新用户相关联的一个或多个可观察特征。在获得新的可观察特征之后,处理器基于与新用户相关联的该一个或多个可观察特征来识别新用户的一个或多个潜在特征。服务器480可以识别新用户的一个或多个潜在特征与包括在一个或多个集群中的潜在特征集合之间的相似性程度。在识别出新用户的一个或多个潜在特征与包括在一个或多个集群中的潜在特征集合之间的相似性程度之后,服务器480生成针对新用户的个性化加权语言模型。个性化加权语言模型基于新用户的一个或多个潜在特征与一个或多个集群之间的相似性程度。

为了生成针对新用户的个性化加权语言模型,服务器480可以识别低于新用户的一个或多个潜在特征和与一个或多个集群的子集相关联的潜在特征集合之间的相似性阈值的集群。响应于识别出低于相似性阈值的集群,服务器480在生成针对新用户的个性化加权语言模型时排除与所识别的集群相关联的语言模型。

已经参考方法、装置(系统)和计算机程序产品的流程图示和/或框图描述了实施例。可以通过计算机程序指令来实现这样的图示/框图的每个框或其组合。当被提供给处理器时,该计算机程序指令会产生一种机构,使得经由处理器执行的指令创建用于实现流程图和/或框图中指定的功能/操作的装置。流程图/框图中的每个框可以表示硬件和/或软件模块或逻辑。在可替代实施方式中,框中所指出的功能可以不按图中指出的顺序发生、同时发生等。

术语“计算机程序介质”、“计算机可用介质”、“计算机可读介质”和“计算机程序产品”通常用于指代诸如主存储器、辅助存储器、可移动存储设备、安装在硬盘驱动器中的硬盘和信号之类的介质。这些计算机程序产品是用于向计算机系统提供软件的装置。计算机可读介质允许计算机系统从该计算机可读介质中读取数据、指令、消息或消息包以及其他计算机可读信息。例如,计算机可读介质可以包括非易失性存储器,例如软盘、ROM、闪存、磁盘驱动器存储器、CD-ROM和其他永久性存储器。它例如对于在计算机系统之间传输信息(例如,数据和计算机指令)很有用。可以将计算机程序指令存储在计算机可读介质中,其可以指导计算机、其他可编程数据处理装置或其他设备以特定方式运行,使得存储在计算机可读介质中的指令产生包括实现流程图和/或框图的一个或多个框中指定的功能/动作的指令的制品。

如本领域技术人员将理解的,实施例的各方面可以被体现为系统、方法或计算机程序产品。因此,实施例的各方面可以采取以下形式:完全硬件实施例、完全软件实施例(包括固件、驻留软件、微代码等)或组合了软件和硬件方面的实施例(所有这些方面在本文中通常都可以被称为“电路”、“模块”或“系统”)。此外,实施例的各方面可以采取在其上体现有计算机可读程序代码的一个或多个计算机可读介质中体现的计算机程序产品的形式。

可以利用一个或多个计算机可读介质的任何组合。该计算机可读介质可以是计算机可读存储介质。计算机可读存储介质可以例如是但不限于电子、磁性、光学、电磁、红外或半导体系统、装置或设备或前述的任何合适的组合。计算机可读存储介质的更具体示例(非详尽列表)将包括以下类型:具有一条或多条导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存)、光纤、便携式光盘只读存储器(CD-ROM)、光学存储设备、磁存储设备或前述的任何合适的组合。在本文的上下文中,计算机可读存储介质可以是可包含或存储供指令执行系统、装置或设备使用或与其结合使用的程序的任何有形介质。在一个实施例中,非暂时性计算机可读介质体现计算机程序,该计算机程序包括计算机可读程序代码,其中当由电子设备的处理器执行时,该计算机可读程序代码使处理器:识别与一个或多个用户相关联的第一信息;通过基于与一个或多个用户相关联的情境信息减少第一信息的量而获得第二信息;基于第二信息获得一个或多个集群,该一个或多个集群的每个集群表示共享一部分第二信息的用户组的言语表达;以及获得与该一个或多个集群中的集群相对应的语言模型,语言模型表示与该集群的用户组相关联的言语表达的概率排序。

可以以一种或多种编程语言的任何组合来编写用于执行一个或多个实施例的各方面的操作的计算机程序代码,该一种或多种编程语言包括诸如Java、Smalltalk、C++等的面向对象的编程语言以及诸如“C”编程语言或类似编程语言等的传统的过程编程语言。程序代码可以完全地在用户计算机上、部分地在用户计算机上、作为独立的软件包、部分地在用户计算机上并且部分地在远程计算机上或完全地在远程计算机或服务器上执行。在后一种情况下,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户计算机,或者可以与外部计算机建立连接(例如,通过使用Internet服务提供商的Internet)。

以上参考方法、装置(系统)和计算机程序产品的流程图示和/或框图描述了一个或多个实施例的各方面。将理解,流程图示和/或框图的每个框以及流程图示和/或框图中的框的组合可以由计算机程序指令来实现。可以将这些计算机程序指令提供给专用计算机或其他可编程数据处理装置以产生一种机构,使得经由计算机或其他可编程数据处理装置的处理器执行的指令创建用于实现流程图和/或框图中指定的功能/动作的装置。

还可以将这些计算机程序指令存储在计算机可读介质中,其可以指导计算机、其他可编程数据处理装置或其他设备以特定方式运行,使得存储在计算机可读介质中的指令产生包括实现流程图和/或框图的一个或多个框中指定的功能/动作的指令的制品。

还可以将计算机程序指令加载到计算机、其他可编程数据处理装置或其他设备上,以使一系列操作步骤在计算机、其他可编程装置或其他设备上执行,从而产生计算机实现的过程,使得在计算机或其他可编程装置上执行的指令提供用于实现流程图和/或框图的一个或多个框中指定的功能/动作的过程。

附图中的流程图和框图示出了根据各种实施例的系统、方法和计算机程序产品的可能实现方式的架构、功能和操作。就此而言,流程图或框图中的每个框可以表示指令的模块、片段或部分,其包括用于实现所指定的逻辑功能的一个或多个可执行指令。在一些可替代实施方式中,框中所指出的功能可以不按图中指出的顺序发生。例如,根据所涉及的功能,实际上可以基本同时地执行连续示出的两个框,或者有时可以以相反的顺序执行这些框。还应注意,框图和/或流程图示的每个框以及框图和/或流程图示中的框的组合可以由执行指定功能或动作或执行专用硬件和计算机指令的组合的基于专用硬件的系统来实现。

尽管附图示出了用户设备的不同示例,但是可以对附图进行各种改变。例如,用户设备可以以任何合适的布置包括任何数量的各组件。通常,附图不将本公开的范围限制为任何特定的配置。此外,尽管附图示出了可以使用本专利文件中公开的各种用户设备特征的操作环境,但是这些特征也可以用于任何其他合适的系统中。

本申请中的任何描述均不应被理解为暗示任何特定元件/元素、步骤或功能是必须包含在权利要求范围内的必要元素。专利主题的范围仅由权利要求书限定。申请人将在权利要求中使用的任何其他术语(包括但不限于“机制”、“模块”、“设备”、“单元”、“组件”、“元件/元素”、“构件”、“装置”、“机构”、“系统”、“处理器”或“控制器”)理解为指代相关领域技术人员已知的结构。

尽管已经用示例性实施例描述了本公开,但是可以向本领域技术人员提出各种改变和修改。本公开旨在涵盖落入所附权利要求的范围内的这种改变和修改。

41页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种语音交互的方法及装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!