跨越多个设备协调音频查询的并行处理

文档序号:1580986 发布日期:2020-01-31 浏览:6次 >En<

阅读说明:本技术 跨越多个设备协调音频查询的并行处理 (Coordinating parallel processing of audio queries across multiple devices ) 是由 梁健威 尼库·科尔内亚 玛雅·特克·阿南特 于 2017-10-03 设计创作,主要内容包括:本公开一般地涉及一种跨越多个设备协调音频查询的并行处理的数据处理系统。一种数据处理系统可接收在显示设备处检测到的音频输入信号并且解析所述音频输入信号以识别实体。所述数据处理系统可向所述显示设备发送查询命令以使多媒体内容应用执行针对所述实体的搜索。所述数据处理系统可访问地址数据库和多媒体内容提供器中的至少一个以识别用于所述实体的引用地址。所述数据处理系统可提供用于所述实体的所述引用地址以使所述显示设备呈现内容选择界面。在由所述多媒体内容应用执行的针对所述实体的所述搜索完成之前,所述内容选择界面可包括用于所述引用地址的元素。(of the present disclosure generally relates to data processing systems that coordinate parallel processing of audio queries across multiple devices. data processing systems may receive audio input signals detected at a display device and parse the audio input signals to identify an entity.)

跨越多个设备协调音频查询的并行处理

背景技术

在计算设备之间的网络业务数据的基于分组的或另外的过度网络传输可能妨碍计算设备适当地处理网络业务数据、完成与网络业务数据有关的操作或者及时对网络业务数据做出响应。如果响应计算设备达到或超过其处理能力,这可能导致效率低的带宽利用,则网络业务数据的过度网络传输也可使数据路由复杂化或者使响应的质量降级。过度网络传输的一部分可包括针对不是有效请求的请求的传输。

发明内容

根据本公开的一个方面,一种跨越多个设备协调基于音频查询的搜索的并行处理的系统可包括数据处理系统。由所述数据处理系统执行的自然语言处理器组件可经由接口接收包括由显示设备的传感器检测到的音频输入信号的数据分组。所述自然语言处理器组件可解析所述数据分组的音频输入信号以识别请求和来自所述请求的实体。由所述数据处理系统执行的搜索协调器组件可生成查询命令,该查询命令包括从解析所述音频信号输入识别的所述请求。所述搜索协调器组件可经由所述接口将所述查询命令发送到所述显示设备,使得在所述显示设备上执行的多媒体内容应用执行针对所述实体的搜索。由所述数据处理系统执行的内容索引器组件可访问地址数据库和多媒体内容提供器中的至少一个以识别与所述实体相对应的引用地址。由所述数据处理系统执行的响应处置器组件可经由所述接口向所述显示设备提供用于所述实体的所述引用地址,使得所述显示设备呈现内容选择界面。在由所述多媒体内容应用执行的针对所述实体的所述搜索完成之前,所述内容选择界面可包括用于所述实体的引用地址的选择元素和用于由所述多媒体内容应用执行的所述搜索的占位符元素。

根据本公开的一个方面,一种跨越多个设备协调基于音频查询的搜索的并行处理的方法可包括:在数据处理系统上执行的自然语言处理器组件经由接口接收包括由显示设备的传感器检测到的音频输入信号的数据分组。所述方法可包括:所述自然语言处理器组件解析所述数据分组的音频输入信号以识别请求和来自所述请求的实体。所述方法可包括:在所述数据处理系统上执行的搜索协调器组件获得查询命令,该查询命令包括从解析所述音频信号输入识别的所述请求。所述方法可包括:所述搜索协调器组件经由所述接口将所述查询命令发送到所述显示设备,使得在所述显示设备上执行的多媒体内容应用执行针对所述实体的搜索。所述方法可包括:在所述数据处理系统上执行的内容索引器组件访问地址数据库和多媒体内容提供器中的至少一个以识别与所述实体相对应的引用地址。所述方法可包括:在所述数据处理系统上执行的响应处置器组件经由所述接口向所述显示设备提供用于所述实体的所述引用地址,使得所述显示设备呈现内容选择界面。在由所述多媒体内容应用执行的针对所述实体的所述搜索完成之前,所述内容选择界面可包括用于所述实体的引用地址的选择元素和用于由所述多媒体内容应用执行的所述搜索的占位符元素。

在下面详细地讨论这些及其它方面和实施方式。前面的信息和以下详细描述包括各个方面和实施方式的说明性示例,并且提供用于理解所要求保护的方面和实施方式的性质和特征的概述或框架。附图提供图示以及对各个方面和实施方式的进一步理解,并且被并入在本说明书中并构成本说明书的一部分。

附图说明

附图不旨在按比例绘制。在各个附图中相似的附图标记和名称指示相似的元素。出于清楚的目的,可以不在每一附图中标记每一组件。

在附图中:

图1图示用于跨越多个设备协调音频查询的并行处理的示例系统。

图2图示图1中图示的系统的信号流过程图。

图3图示用于使用图1中图示的示例系统来跨越多个设备协调音频查询的并行处理的方法。

图4是示例计算机系统的框图。

具体实施方式

以下是与用于跨越多个设备(诸如数据处理系统、显示设备和客户端设备)协调音频查询的并行处理的方法、装置和系统有关的各种构思以及这些方法、装置和系统的实施方式的详细描述。可以以许多方式中的任一种实现在上面介绍并在下面更详细地讨论的各种构思。

本公开总体上致力于一种跨越多个设备协调音频查询的并行处理的数据处理系统。本文描述的系统和方法可包括可接收音频输入查询的数据处理系统,所述音频输入查询在本文中也可被称为音频输入信号。根据音频输入查询,数据处理系统可识别请求。请求可包括与多媒体内容相对应的实体。数字助理应用可承载、获得、响应于或者处理从音频输入查询中提取的命令。数字助理应用可以是在数据处理系统或与该数据处理系统对接的显示设备(例如,智能电视、混合电视或连接到电视的机顶盒等)和客户端设备(例如,智能电话、平板、膝上型电脑、台式机等)上执行的程序或脚本。数字助理应用可接收音频输入查询,使用自然语言处理算法来处理与此类查询相关联的请求,然后以谈话方式呈现音频响应。

在显示设备上执行的多媒体内容应用可用于播放、流式传输、下载或者以其它方式访问由多媒体内容提供器提供的多媒体内容。然而,响应于来自客户端多媒体内容应用的查询而搜索多媒体内容的所有可能的源可消耗过度的时间量,从而导致在检索查询的结果时的等待时间。这些可以是影响多媒体内容应用可检索查询的结果的时间量的若干因素。例如,多媒体内容应用可利用大量的存储器来初始化然后运行以播放多媒体内容。在初始化时,多媒体内容应用还可与多媒体内容提供器一起对于显示设备执行账户认证,从而导致占用更多的时间。即使在初始化和认证完成的情况下,从显示设备访问多媒体内容提供器以获得可用多媒体内容的目录也可导致花费附加时间。此外,显示设备可能缺少诸如用于快速处理包含实体的音频输入信号的处理速度和存储器这样的计算资源。在这些因素的共同作用下,此类多媒体内容应用及时对查询做出响应以确定多媒体内容提供器是否可提供多媒体内容可能是有挑战性的。

通过在显示设备和数据处理系统上并行运行查询的处理,本文描述的本系统和方法可减少检索针对基于音频的查询的搜索结果的时间量。当显示设备接收到音频输入查询时,显示设备可将具有该音频输入查询的数据分组发送到数据处理系统。数据处理系统进而可使用自然语言处理技术来处理数据分组中的音频输入查询以识别请求和来自该请求的实体。实体可以包括从音频输入查询中辨识的一个或多个单词。实体的一个或多个单词可以包括与多媒体内容有关的信息,诸如标题、作者、发布者、发行日期、语言、流派、时间长度和其它关联的关键词。使用从音频分组中识别的实体,数据处理系统可生成查询命令并将它发送回给显示设备,以在显示设备处使用多媒体内容应用中的一个或多个来执行搜索。查询命令可触发客户端设备以初始化每个多媒体内容应用,执行与多媒体内容服务器的认证,然后基于实体访问可用多媒体内容的目录。

与显示设备执行的搜索并行地,数据处理系统可针对实体执行它自己的搜索。数据处理系统可访问数据储存库。数据储存库可包括用于实体的引用地址(例如,统一资源定位符)的列表。引用地址可包括与具体多媒体内容提供器相对应的主机名以及与托管在多媒体内容提供器上的实体相对应的文件路径名。可以通过数据处理系统使用机器学习技术和来自先前请求的引用地址来跨越多个显示设备维护引用地址的列表。数据处理系统还可通过发送另一查询命令来直接从多媒体内容提供器中检索结果。在接收到查询命令时,多媒体内容提供器可访问它自己的数据储存库以得到与实体相对应的引用地址。

一旦用于实体的引用地址被识别,数据处理系统就可将搜索结果发送到显示设备。作为响应,显示设备可呈现显示卡。显示卡可具有用于打开并播放通过引用地址所识别的多媒体内容的选择元素以及用于由显示设备上执行的多媒体内容应用执行的搜索的占位符元素。与占位符元素的后续交互可使显示设备利用来自多媒体内容应用在本地执行的搜索的另一引用地址替换占位符元素。

本方案可通过并行协调基于音频的查询搜索来改进听觉数据分组处理的效率和有效性。因为数据处理系统不执行在显示设备上执行的多媒体内容应用的初始化、认证或附加过程,所以数据处理系统可比显示设备更快地检索结果,从而降低等待时间。从人类-计算机交互(HCI)角度来看,基于音频的搜索查询的这种并行处理除了可导致实际等待时间的减少之外还可导致感知等待时间的减少。

图1图示用于跨越多个设备协调音频查询的并行处理的示例系统100。系统100可包括至少一个数据处理系统102、至少一个多媒体内容提供器106、一个或多个客户端设备104、一个或多个显示设备108和网络110。显示设备108可经由有线或无线连接(例如,通过网络110、短距离通信或配对)耦合到客户端设备104。客户端设备104可以是显示设备108的一部分,或者被以其它方式集成到显示设备中。至少一个数据处理系统102、一个或多个客户端设备104和一个或多个显示设备108可经由网络110彼此通信地耦合。

数据处理系统102可包括接口122。数据处理系统102可包括数字助理应用120。数据处理系统102可包括用于解析基于音频的输入的自然语言处理器(NLP)组件124。数据处理系统102可包括用于检测并管理系统100中的其它设备的接口的接口管理组件128。数据处理系统102可包括用于生成基于音频的信号的音频信号生成器组件130。数据处理系统102可包括用于履行从基于音频的输入中解析的请求的直接动作应用编程接口(API)126。数据处理系统102可包括用于选择对基于音频的输入信号的响应的音频信号生成器组件130。数据处理系统102可包括数据储存库140。数据处理系统102还可包括搜索协调器组件132、内容索引器组件134、深度链模型引擎136和响应处置器组件138。NLP组件124、接口管理组件128、音频信号生成器组件130、数据储存库140、直接操作API 126、接口管理组件128、搜索协调器组件132、内容索引器组件134、深度链模型引擎136、响应处置器组件138可形成数字助理应用120。

可包括或者可以其它方式从一个或多个客户端设备104和一个或多个显示设备108访问数据处理系统102的功能性,诸如数字助理应用120。数据处理系统102的功能性可以对应于在客户端设备104或显示设备108上执行的数字助理应用120的功能性,或者与在客户端设备104或显示设备108上执行的数字助理应用120对接。客户端设备104和显示设备108可各自包括并执行数字助理应用120的一个或多个组件的单独的实例。客户端设备104和显示设备108可经由网络110以其它方式访问远程数据处理系统102上的数字助手应用120的组件的功能性。例如,显示设备108可包括NLP组件124的功能性并且经由到数据处理系统102的网络110访问数字助理应用120的组件的剩余部分。数据处理系统102、客户端设备104和显示设备108可包括并执行数字助理应用120的组件的单独的实例。在客户端设备104和显示设备108上可访问或者执行的数字助理应用120可以各自具有不同的功能性。

客户端设备104和显示设备108可各自包括至少一个逻辑设备,诸如具有处理器以经由网络110与数据处理系统102彼此通信的计算设备。客户端设备104和显示设备108可包括关于数据处理系统102描述的组件中的任一个的实例。客户端设备104可包括台式计算机、膝上型电脑、平板计算机、个人数字助理、智能电话、移动设备、便携式计算机、客户计算机、虚拟服务器、基于扬声器的数字助理或其它计算设备。显示设备108可包括智能电视、混合电视、连网电视、连接到电视的机顶盒、数字视频记录、监视器、屏幕或具有显示功能性的其它计算设备。客户端设备104可与显示设备108通信地耦合。例如,一旦被配对,客户端设备104就可以充当遥控器来控制显示设备108处的各种功能性。客户端设备104可以是显示设备108的一部分或者与显示设备108集成在一起。

系统100的组件可通过网络110通信。网络110可包括例如点对点网络、广播网络、广域网、局域网、电信网络、数据通信网络、计算机网络、ATM(异步转移模式)网络、SONET(同步光网络)网络、SDH(同步数字体系)网络、NFC(近场通信)网络、局域网(LAN)、无线网络或有线网络及其组合。网络110可包括无线链路,诸如红外信道或卫星频带。网络110的拓扑可以包括总线、星形或环形网络拓扑。网络110可包括使用用于在移动设备之间通信的任何一种或多种协议的移动电话网络,所述协议包括高级移动电话协议(AMPS)、时分多址(TDMA)、码分多址(CDMA)、全球移动通信系统(GSM)、通用分组无线电服务(GPRS)或通用移动电信系统(UMTS)。可以经由不同的协议发送不同类型的数据,或者可以经由不同的协议发送相同类型的数据。

网络110可包括使用蓝牙、低功耗蓝牙、专用短距离通信(DSRC)或近场通信(NFC)协议来在客户端设备104与显示设备108之间建立的短距离通信链路(例如,范围达30米)。使用此类协议,数据处理系统102可经由接口122与一个或多个客户端设备104建立通信链路。数据处理系统102可经由接口122与一个或多个显示设备108建立通信链路。可以经由配对协议在客户端设备104与显示设备108之间建立远程通信链路。

客户端设备104还可包括传感器152、扬声器150、接口122和换能器154。显示设备108还可包括传感器152、扬声器150、接口122和换能器154。客户端设备104和显示器设备108可包括至少一个传感器152、至少一个换能器154、至少一个音频驱动器和至少一个扬声器150。传感器152可包括麦克风或音频输入传感器。传感器152还可包括GPS传感器、接近传感器、环境光传感器、温度传感器、运动传感器、加速度计或陀螺仪中的至少之一。该传感器可包括占用或重量传感器。换能器154可将音频输入转换成电子信号。音频驱动器可包括由客户端设备104或显示设备108的一个或多个处理器执行以控制扬声器150的脚本或程序。扬声器150可通过将电信号转换成可听波来渲染音频信号。客户端设备104和显示设备108可各自包括***设备,诸如键盘、指点设备、监视器(内置的或独立的)和耳机以及其它设备。

客户端设备104和显示设备108可各自执行多媒体内容应用160的实例。多媒体内容应用160可与特定多媒体内容提供器106相关联。多媒体内容应用160可包括在客户端设备104或显示设备108处安装的脚本或程序。多媒体内容应用160可包括可经由在客户端设备104或显示设备108处安装的另一应用(诸如web浏览器)执行的脚本或程序。多媒体内容应用160可包括应用编程接口(API),所述API可允许客户端设备104或显示设备108处的其它应用(例如,数字助理应用120)与多媒体内容应用160对接。多媒体内容应用160可播放、流式传输、下载或者以其它方式访问多媒体内容。多媒体内容可以对应于任何格式的一个或多个视听内容文件,所述任何格式诸如MP3、ACC、OPUS、RTMP、RTP、MP4、FLV、WebM、ASF、ISMA、HEVC、H.264、VP8、VP9、HLS、HDS和SMIL等。一个或多个视听内容文件可包括用于在客户端设备104或显示设备108处播放的音频和/或视觉内容。在加载一个或多个视听内容文件时,多媒体内容应用160可在客户端设备104或显示设备108上播放或者流式传输多媒体内容。

多媒体内容应用160还可执行与多媒体内容提供器106的认证过程。认证过程可包括对在客户端设备104或显示设备108处经由输入或从存储装置中检索的账户标识符和接入码的识别。在收到后,多媒体内容应用160可将账户标识符和接入码发送到多媒体内容提供器106。多媒体内容提供器106进而可将它自己存储的用于账户标识符的接入码与从客户端设备104或显示设备108接收到的接入码相比较。响应于确定两个接入码之间的匹配,多媒体内容提供器106可向客户端设备104或显示设备108发送成功认证指示符。

响应于接收到成功认证指示符,多媒体内容应用160可检索由多媒体内容提供器106针对账户标识符提供的可用多媒体内容的目录。多媒体内容应用160可在每个元素与每个可用多媒体内容相对应的图形用户界面中显示可用多媒体内容的目录。在与图形用户界面的元素中的一个交互时,多媒体内容应用160可将对所选择的多媒体内容的请求发送到多媒体内容提供器106。多媒体内容提供器106可识别并提供与所选择的多媒体内容相对应的一个或多个视听内容文件。多媒体内容应用160进而可在客户端设备104或显示设备108处存储、播放或者流式传输与所选择的多媒体内容相对应的一个或多个视听内容文件。在本文中说明有关系统100的上下文中的多媒体内容提供器106和多媒体内容应用160的功能性的附加细节。

可在客户端设备104或显示设备108处安装与数据处理系统102相关联的应用、脚本、程序或其它组件。应用可使得客户端设备104或显示设备108能够向数据处理系统102的接口122传送输入音频信号(和其它数据)。应用可使得客户端设备104和显示设备108能够驱动客户端设备104和显示设备108的组件以渲染输出音频信号。

客户端设备104和显示设备108可与最终用户相关联,所述终端用户将语音查询作为输入音频信号输入到客户端设备104或显示设备108中(经由传感器152)并且接收形式为可从数据处理系统102提供的计算机生成的语音的音频输出。响应于输入音频信号,客户端设备104和显示设备108还可接收用于执行预定功能或动作的动作数据结构。接口122可接收数据消息或者将数据消息提供给数据处理系统102的直接动作API 126并且使得能实现系统100的组件之间的通信。客户端设备104和显示设备108还可包括使得用户能够与系统100的组件交互的用户界面。

数据处理系统102可包括具有至少一个处理器的至少一个服务器。例如,数据处理系统102可包括位于至少一个数据中心或服务器场中的多个服务器。数据处理系统102可从音频输入信号中确定请求和与该请求相关联的触发关键词。基于请求和触发关键词,数据处理系统102可生成或者选择响应数据。响应数据可以是基于音频的或基于文本的。例如,响应数据可包括一个或多个音频文件,所述一个或多个音频文件当被渲染时,提供音频输出或声波。响应数据内的数据也可被称为内容项。除了音频内容之外,响应数据还可包括其它内容(例如,文本、视频或图像内容)。

数据处理系统102可包括多个逻辑上分组的服务器并且便于分布式计算技术。服务器的逻辑组可以被称为数据中心、服务器场或机器场。服务器可在地理上分散。数据中心或机器场可以作为单个实体被管理,或者机器场可包括多个机器场。每个计算机场内的服务器可以是异构的——这些服务器或机器中的一个或多个可根据一种或多种类型的操作系统平台来操作。数据处理系统102可包括数据中心中的被存储在一个或多个高密度机架系统中的服务器以及例如位于企业数据中心中的关联的存储系统。以这种方式,具有合并服务器的数据处理系统102可通过将服务器和高性能存储系统定位在本地化高性能网络上来改进系统的可管理性、数据安全、物理安全以及系统性能。包括服务器和存储系统并且将它们与高级系统管理工具耦合在一起的数据处理系统102组件中的全部或一些的集中化允许更高效地使用服务器资源,这节约电力和处理需求并减少带宽使用。数据处理系统102的组件中的每一个均可包括至少一个处理单元、服务器、虚拟服务器、电路、引擎、代理、器具或其它逻辑设备,诸如被配置成与数据储存库140且与其它计算设备进行通信的可编程逻辑阵列。

数据处理系统102可包括数据储存库140。数据储存库140可包括一个或多个本地或分布式数据库并且可包括数据库管理系统。数据储存库140可包括计算机数据存储装置或存储器并且可存储一个或多个应用标识符142、一个或多个实体元数据144、一个或多个引用地址146和地址模型148。每个应用标识符142可以是与要在客户端设备104或显示设备108上执行的多媒体内容应用160相对应的字母数字值。每个实体元数据144可对应于一个实体。每个引用地址146可识别或者引用。在下面提供一个或多个应用标识符142、一个或多个实体元数据144、一个或多个引用地址146和地址模型148的使用和功能性的细节。

数据储存库140可包括计算机数据存储装置或存储器并且可存储一个或多个参数、一个或多个策略、响应数据和模板以及其它数据。参数、策略和模板可包括诸如关于客户端设备104、数据处理系统102和显示设备108之间的基于语音的会话的规则的信息。参数、策略和模板也可包括经由接口122从另一源(例如,数据处理系统102、客户端设备104和显示设备108)接收的用于另一数字助理应用120的信息。例如,存储在托管在客户端设备104或显示设备108上的数字助理应用120的数据储存库140中的参数、策略和模板可包括来自可经由客户端设备104和显示设备108访问的数字助理应用120的数据储存库140的参数、策略和模板,并且反之亦然。以这种方式,不同的数字助理应用120的参数、策略和模板可以被彼此共享和使用。响应数据可包括用于音频输出或关联的元数据的内容项以及可以是与客户端设备104和显示设备108的一个或多个通信会话的一部分的输入音频消息。

NLP组件124可接收输入音频信号。数据处理系统102可(例如,经由换能器154或传感器152)从客户端设备104或显示设备108接收包括在数据分组中的输入音频信号。数据分组还可包括与客户端设备104或显示设备108相关联的设备标识符。数据分组还可包括可在客户端设备104或显示设备108处执行的多媒体内容应用160的应用标识符。可在数据处理系统102、客户端设备104和显示设备108之间分割NLP组件124的功能性。例如,在客户端设备104或显示设备108上执行的NLP组件124可将在传感器152处检测到的输入音频信号封装到数据分组中,并且可将该数据分组发送到数据处理系统102以用于在数据处理系统102处执行的NLP组件124处进一步处理。

NLP组件124可通过对照存储的代表性音频波形集比较输入音频信号并且选择最接近的匹配来将输入音频信号转换成辨识的文本。可跨越一大组输入音频信号生成代表性波形。一旦输入音频信号被转换成辨识的文本,NLP组件124就可使文本与例如经由学习阶段与动作或输出音频信号相关联的单词相匹配。

从输入音频信号中,NLP组件124可识别至少一个请求。请求可指示输入音频信号的意图或主题。请求可指示很可能被采取的动作的类型。例如,NLP组件124可解析输入音频信号以识别要播放多媒体内容的至少一个请求(例如,“Okay,play Bat Movie form 2015(好的,播放从2015年起的蝙蝠电影)”)。请求可包括至少一个单词、短语、词根或部分单词或指示要采取的动作的派生词。请求还可包含触发关键词,例如“Okay(好的)”或“go(开始)”。NLP组件124可检测请求中的触发关键词。响应于对触发关键词的检测,NLP组件124可从输入音频信号中识别意图、主题以及要采取的动作的类型。

NLP组件126还可从请求中识别至少一个实体。该至少一个实体可对应于请求中的至少一个单词、短语、词根或部分单词或派生词。该至少一个实体可以包括用于多媒体内容的描述符,诸如标题、作者、发布者、原始发行日期、语言、流派、时间长度和其它关联的关键词(例如,演员名字)。例如,用于2005年发行的“Bat Movie I(蝙蝠电影I)”影片的实体可以包括:作为标题的“Bat Movie I(蝙蝠电影I)”、作为作者的“Ms.Director(导演女士)”、作为原始发行日期的“June 15,2005(2005年6月15日)”、作为语言的“English(英语)”、作为流派的“Action(动作)”和作为长度的“140minutes(140分钟)”以及其它信息。NLP组件126可确定请求中的至少一个单词、短语、词根或部分单词或派生词对应于至少一个实体。为了执行确定,NLP组件126可访问语义知识图。语义知识图可指定一组单词、短语、词根或部分单词或与至少一个实体有关的派生词。语义知识图可包括经由边彼此连接的节点。节点可以与单词、短语、词根或部分单词或派生词相关联,并且可以被标记为与至少一个实体有关或无关。连接两个节点的每条边可表示两者之间的关系。从前一个示例继续,在语义知识图中用于“Bat Movie(蝙蝠电影)”的节点可以被标记为与实体有关,并且可使到标记为“BatMovie I(蝙蝠电影I)”的节点的边也被标记为与指示两项之间的关系的实体有关。使用语义知识图,NLP组件126可确定请求中的至少一个单词、短语、词根或部分单词或派生词对应于至少一个实体。

NLP组件124还可基于实体来确定至少一个请求是否对应于对多媒体内容的查询。响应于识别请求中的至少一个单词、短语、词根或部分单词或派生词对应于至少一个实体,NLP组件124可确定至少一个请求对应于对多媒体内容的查询。响应于识别请求中的单词、短语、词根或部分单词或派生词都不对应于至少一个实体,NLP组件124可确定至少一个请求不对应于对多媒体内容的查询。如下所述,至少一个请求对应于对多媒体内容的查询的确定可触发搜索协调器组件132、内容索引器组件134、深度链模型引擎136和响应处置器组件138的功能性。

音频信号生成器组件130可从数据储存库140获得信息,其中它可作为响应数据的一部分被存储。音频信号生成器组件130可查询数据储存库140以例如从响应数据中选择或者以其它方式识别响应短语或内容项。音频信号生成器组件130可生成或者以其它方式获得包括内容项的输出信号。数据处理系统102可执行音频信号生成器组件130以生成或者创建与内容项或请求相对应的输出信号。例如,一旦请求被履行,音频信号生成器组件130就可生成包括短语“The action was completed(动作完成了)”的音频输出信号。

接口122可以是使得系统100的组件能够彼此通信的数据接口或网络接口。数据处理系统102的接口122可经由网络110向客户端设备104或显示设备108提供或者发送包括动作数据结构、音频信号或其它数据的一个或多个数据分组。例如,数据处理系统102可将来自数据储存库140或来自音频信号生成器组件130的输出信号提供给客户端设备104。数据处理系统102还可经由数据分组传输来指示客户端设备104或显示设备108执行动作数据结构中指示的功能。可获得、生成输出信号,将输出信号变换为一个或多个数据分组(或其它通信协议),或者将输出信号作为一个或多个数据分组(或其它通信协议)从数据处理系统102(或其它计算设备)发送到客户端设备104或显示设备108。

数据处理系统102的直接动作API 126可基于例如请求生成动作数据结构。动作数据结构可包括用于执行指定的动作以满足请求的数据或指令。在一些实施方式中,动作数据结构可以是JSON格式化数据结构或XML格式化数据结构。

取决于请求中指定的动作,直接动作API 126可执行识别履行请求所需要的参数的代码或对话脚本。动作数据结构可以响应于请求而生成。可将动作数据结构包括在被发送到客户端设备104或显示设备108或者由客户端设备104或显示设备108接收的消息中。直接动作API 126可将请求封装到动作数据结构中以便传输到显示设备108。动作API 126可从响应数据访问设备标识符以确定客户端设备104或显示设备108中的哪一个与生成请求的用户相关联。一旦被接收,显示设备108就可处理动作数据结构并且可执行所指示的动作。直接动作API126还可将请求封装到动作数据结构中以用于客户端设备104或显示设备108执行。一旦被接收,客户端设备104就可使用数字助理应用120或在客户端设备104上运行的一个或多个应用来处理动作数据结构。

动作数据结构可包括用于完成请求的信息。例如,动作数据结构可以是包括在完成或者以其它方式履行请求时使用的属性的XML或JSON格式化数据结构。属性可包括显示设备108的位置、客户端设备104的位置、与客户端设备104相关联的用户的授权级别、设备标识符、接口标识符、车辆状态或请求状态。在一些实施方式中,请求状态包括在动作被履行之前应该满足的一个或多个属性。例如,在请求“Ok,change the song(好的,改变歌曲)”情况下,请求状态可以具有属性{请求者:[被授权,乘客]},指示请求应该是显式地授权的用户。

直接动作API 126可从数据储存库140中检索模板以确定哪些字段或属性要包括在动作数据结构中。直接动作API 126可确定必要的参数并且可将信息封装到动作数据结构中。直接动作API 126可从数据储存库140中检索内容以获得用于数据结构的属性的信息。

直接动作API 126可用来自输入音频信号的数据填充字段。直接动作API 126还可用来自客户端设备104或显示设备108或者来自另一源的数据填充字段。直接动作API 126可在填充字段时针对附加信息提示用户。可针对不同类型的动作、对消息做出响应并且在客户端设备104或显示设备108内执行功能来使模板标准化。最初可通过由远程数据处理系统102执行的直接动作API 126来生成动作数据结构。远程数据处理系统102可将动作数据结构发送到客户端设备104或显示设备108,其可向动作数据结构添加字段和属性。

直接动作API 126可获得来自数据储存库140的响应数据(或参数或策略),以及在最终用户同意情况下从客户端设备104或显示设备108接收的数据。可将响应数据(或参数或策略)包括在操作数据结构中。当包括在动作数据结构中的内容包括被用于认证的最终用户数据时,数据可在被存储在数据储存库140中之前通过哈希函数来解析。

数据处理系统102可包括搜索协调器组件132,与搜索协调器组件132对接,或者以其它方式与搜索协调器组件132通信。搜索协调器组件132可生成要发送到客户端设备104或显示设备108的查询命令。由搜索协调器组件132生成查询命令可以响应于确定请求对应于对多媒体内容的查询。查询命令可包括从响应中识别的实体。查询命令还可包括用于客户端设备104或显示设备108处理查询命令的指令。指令可以指示客户端设备104或显示设备108上的哪一个多媒体内容应用160将执行针对实体的搜索。为了生成指令,搜索协调器组件132可访问数据储存库140以识别要包括在查询命令中的一个或多个应用标识符142。数据储存库140可通过与客户端设备104或显示设备108相关联的设备标识符来识别一个或多个应用标识符142。每个应用标识符142还可以通过客户端设备104或显示设备108使用的频率来标记。搜索协调器组件132还可将初始数据分组中的一个或多个应用标识符142***到查询命令的指令中。搜索协调器组件132可基于由客户端设备104和显示设备108使用的频率来识别用于客户端设备104和显示设备108的应用标识符142的子集。例如,搜索协调器组件132可识别显示设备108比多媒体内容应用160“C”、“D”和“E”更频繁地使用多媒体内容应用160“A”和“B”。在此示例中,搜索协调器组件132可选择与多媒体内容应用160相对应的应用标识符142以用于***到查询命令中。查询命令的每个应用标识符142可指示客户端设备104或显示设备108上的哪一个多媒体内容应用160将执行针对实体的搜索。继查询命令的生成之后,搜索协调器132可将查询命令发送到客户端设备104或显示设备108。

查询命令的接收可使客户端设备104或显示设备108到多媒体内容应用160执行针对实体的搜索。响应于查询命令的接收,客户端设备104或显示设备108可解析查询命令以识别实体。客户端设备104或显示设备108可解析查询命令以同样识别一个或多个应用标识符142。客户端设备104或显示设备108可识别与查询命令的一个或多个应用标识符142相对应的多媒体内容应用160。客户端设备104或显示设备108可发起对从查询命令的一个或多个应用标识符142中识别的多媒体内容应用160的执行。为了执行搜索,客户端设备104或显示设备108可经由用于多媒体内容应用160的应用编程接口将查询命令中的至少一个实体提供给每个多媒体内容应用160。一旦实体被提供,每个实体多媒体内容应用160就可向所关联的多媒体内容提供器106发送查询请求。

与查询命令的生成和到客户端设备104或显示设备108的发送并行地,搜索协调器组件132还可生成要发送到多媒体内容提供器106的查询请求。由搜索协调器组件132生成对查询请求可以响应于确定请求对应于对多媒体内容的查询。由搜索协调器组件132对查询请求的生成可以响应于由内容索引器组件134进行的调用,如将在下面所讨论的。查询请求可包括从响应中识别的实体。查询请求还可包括用于多媒体内容提供器106处理查询请求的指令。搜索协调器132可从用于客户端设备104或显示设备108的一个或多个应用标识符142中识别哪一个多媒体内容提供器106要发送查询请求。继查询请求的生成之后,搜索协调器132可将查询请求发送到多媒体内容提供器106。

从客户端设备104、显示设备108或搜索协调器组件132接收到查询请求可使多媒体内容提供器106执行针对实体的搜索。因为客户端设备104或显示设备108可能已初始化多媒体内容应用160来发送查询请求,所以可以继来自搜索协调器组件132的查询请求之后接收来自客户端设备104或显示设备108的查询请求。多媒体内容提供器106可响应于查询请求而访问内容数据储存库162。内容数据储存库162可包括一个或多个实体元数据144和一个或多个引用地址146。每个实体元数据144可对应于一个实体。数据储存库162上的每个实体元数据144可包括关于与该实体相对应的多媒体内容的一个或多个条目,诸如标题、作者、发布者、原始发行日期、语言、流派、时间长度和其它关联的关键词。例如,一个实体元数据144可对应于“Bat Movie I(蝙蝠电影I)”而另一实体元数据144可对应于“Bat Movie II(蝙蝠电影II)”。每个实体元数据144还可与引用地址146(例如,统一资源定位符)相关联。引用地址146可以包括主机名、文件路径名和查询参数。主机名可对应于多媒体内容提供器106。文件路径名可对应于用于与实体相对应的多媒体内容的一个或多个视听文件。查询参数可包括属性-值对。查询参数可由多媒体内容提供器106动态地生成,并且每客户端设备104、显示设备108或搜索协调器组件132可以变化。

基于来自查询请求的实体,多媒体内容提供器106可识别与该实体相对应的引用地址146。多媒体内容提供器106可遍历内容数据储存库162。对于每个实体元数据144,多媒体内容提供器106可将实体与实体元数据144相比较。例如,多媒体内容提供器106可将实体“Bat Movie(蝙蝠电影)”与用于实体元数据144的条目中的任一个(诸如标题)相比较。多媒体内容提供器106可确定实体元数据144的一个或多个条目是否与来自查询请求的实体匹配。多媒体内容提供器106可确定在实体与实体元数据144之间不存在匹配。响应于确定不存在匹配,多媒体内容提供器106可继续遍历内容数据储存库162。多媒体内容提供器106可确定没有更多的实体元数据144要遍历。响应于确定没有更多的实体元数据144要遍历,多媒体内容提供器106可确定实体不存在于内容数据储存库162上。多媒体内容提供器106还可发送空响应。空响应可指示多媒体内容提供器106不具有与实体相对应的多媒体内容。

相反地,多媒体内容提供器106可确定在实体与实体元数据144之间存在匹配。响应于对匹配的确定,多媒体内容提供器106可确定实体存在于内容数据储存库162上。多媒体内容提供器106可识别与和实体匹配的实体元数据144相对应的引用地址146。多媒体内容提供器106可生成搜索响应。搜索响应可指示多媒体内容提供器106确实具有与实体相对应的多媒体内容。搜索响应可包括与用于实体的多媒体内容相对应的引用地址146。

多媒体内容提供器106可继续遍历内容数据储存库162以识别查询请求的实体与实体元数据144之间的附加匹配。在附加匹配情况下,多媒体内容提供器106可重复地识别与匹配于实体的实体元数据144相对应的引用地址146,并且可将引用地址146包括到搜索响应中。多媒体内容提供器106可确定没有更多的实体元数据144要遍历。响应于确定没有更多的实体元数据144要遍历,多媒体内容提供器106可将响应发送到发送了查询搜索的客户端设备104、显示设备108或搜索协调器组件132。

数据处理系统102可包括内容索引器组件134,与内容索引器组件134对接,或者以其它方式与内容索引器组件134进行通信。内容索引器组件134可访问数据处理系统102或多媒体内容提供器106的数据储存库140以识别与实体相对应的引用地址146。在访问多媒体内容提供器106以识别引用地址146之前,内容索引器组件134可访问数据储存库140。内容索引器组件134可遍历数据储存库140。除了应用标识符142之外,数据储存库140还可包括一个或多个实体元数据144和一个或多个引用地址146。可以与内容数据储存库162上的实体元数据144和引用地址146分开地且独立地维护数据储存库140上的实体元数据144和引用地址146。数据储存库140上的实体元数据144和引用地址146可以来源于来自多媒体内容提供器106的先前搜索响应。内容索引器组件134可维护定时器以针对数据储存库140处的存储装置中的每个实体元数据144和所关联的引用地址146跟踪经过的时间。

内容索引器组件134可遍历内容数据储存库140。对于每个实体元数据144,内容索引器组件134可将实体与实体元数据144相比较。例如,内容索引器组件134可将实体“BatMovie(蝙蝠电影)”与用于实体元数据144的条目中的任一个(诸如标题)相比较。内容索引器组件134可确定实体元数据144的一个或多个条目是否与来自查询请求的实体匹配。内容索引器组件134可确定在实体与实体元数据144之间不存在匹配。响应于确定不存在匹配,内容索引器组件134可继续遍历内容数据储存库140。内容索引器组件134可确定没有更多的实体元数据144要遍历。响应于确定没有更多的实体元数据144要遍历,内容索引器组件134可确定实体不存在于内容数据储存库140上。响应于确定实体不存在于内容数据储存库140上,内容索引器组件134可调用搜索协调器组件132将查询请求发送到多媒体内容提供器106以检索引用地址146。

相反地,内容索引器组件134可确定在实体与实体元数据144之间存在匹配。响应于对匹配的确定,内容索引器组件134可确定实体存在于内容数据储存库140上。内容索引器组件134可识别与匹配于实体的实体元数据144相对应的引用地址146。内容索引器组件134可存储与实体相对应的引用地址146。

内容索引器组件134可针对所识别的引用地址146识别经过的时间。内容索引器组件134可将经过的时间与预设期满时间相比较。预设期满时间可从1小时到1个月变动,因为多媒体内容提供器106可以周期性地更新或者改变可用多媒体内容的目录。预设期满时间可对应于引用地址146对于多媒体内容提供器106处的实体来说有效的时间量。内容索引器组件134可确定经过的时间小于预设期满时间。响应于确定经过的时间小于预设期满时间,内容索引器组件134可存储与实体相对应的引用地址146。内容索引器组件134还可终止访问多媒体内容提供器106以搜索与实体相对应的引用地址。

另一方面,内容索引器组件134可确定经过的时间大于或等于预设期满时间。响应于确定经过的时间大于或等于预设期满时间,内容索引器组件134可替换来自数据储存库140的引用地址146。为了更新数据储存库140,内容索引器组件134可调用搜索协调器组件132将查询请求发送到多媒体内容提供器106以检索引用地址146。内容索引器组件134可从多媒体内容提供器106接收搜索响应。搜索响应可包括用于实体的新引用地址146。响应于从多媒体内容提供器106接收到引用地址146,内容索引器组件134可将引用地址146保存到数据储存库140上并且可使新近保存的引用地址146关联于和实体匹配的实体元数据144。内容索引器组件134可从多媒体内容提供器106接收空响应。响应于对空响应的接收,内容索引器组件134可从数据储存库140中移除引用地址146。

内容索引器组件134可继续遍历内容数据储存库140以识别查询请求的实体与实体元数据144之间的附加匹配。在附加匹配情况下,内容索引器组件134可重复地识别与匹配于实体的实体元数据144相对应的引用地址146并且可将引用地址146包括到搜索响应中。内容索引器组件134可确定没有更多的实体元数据144要遍历。响应于确定没有更多的实体元数据144要遍历,内容索引器组件134可终止在数据储存库140处对附加引用地址146的搜索。继遍历之后,内容索引器组件134也可调用搜索协调器组件132将查询请求发送到多媒体内容提供器106以检索引用地址146。搜索协调器组件132的调用可以不管经过的时间与上述预设期满时间的比较。

继调用搜索协调器组件132来发送查询请求之后,内容索引器组件134可从多媒体内容提供器106接收搜索响应。从多媒体内容提供器106接收到搜索响应可指示多媒体内容提供器106能够访问实体。搜索响应可包括与实体相对应的引用地址146。内容索引器组件134可解析搜索响应以识别引用地址146。响应于对实体与数据储存库140上的实体元数据144之间的匹配的识别,内容索引器组件134可将来自数据储存库140的引用地址146与来自多媒体内容提供器106的引用地址146相比较。内容索引器组件134可确定来自数据储存库140的引用地址146与来自多媒体内容提供器106的引用地址146不同。引用地址146中的差异可以表示多媒体内容提供器106已更新了用于实体的引用地址146。响应于确定引用地址146不同,内容索引器组件134可用来自多媒体内容提供器106的引用地址146替换存储在数据储存库140处的引用地址146。内容索引器组件134可确定来自数据储存库140的引用地址146与来自多媒体内容提供器106的引用地址146相同。如下所述,响应于确定引用地址146是相同的,内容索引器组件134可继续调用响应处置器组件138来向客户端设备104或显示设备108发送查询结果。

内容索引器组件134还可从多媒体内容提供器106接收空响应。从多媒体内容提供器106接收到空响应可指示多媒体内容提供器106不再有该实体。例如,多媒体内容提供器106可能已更新了可用多媒体内容的目录以排除该实体。响应于对空响应的接收并响应于对实体与数据储存库140上的实体元数据144之间的匹配的识别,内容索引器组件134可从数据储存库140中移除引用地址146。如下所述,内容索引器组件134可继续调用响应处置器组件138以向客户端设备104或显示设备108发送查询结果。在一些情况下,例如,由于网络110的问题或多媒体内容提供器106处的宕机,内容索引器组件134可能在继查询响应的传输之后的预定时间量内未从多媒体内容提供器106接收到响应。在此类情况下,内容索引器组件134可在数据储存库140处维护引用地址146。

数据处理系统102可包括深度链模型引擎136,与深度链模型引擎136对接,或者以其它方式与深度链模型引擎136进行通信。当内容索引器组件132从多媒体内容提供器106接收到搜索响应时,深度链模型引擎136可维护用于多媒体内容提供器106为引用地址146生成地址结构的地址模型148。地址模型148可以是人工神经网络(ANN)、贝叶斯模型、高斯混合模型、支持向量机或决策树等,以表示并辨识用于多媒体内容提供器106的引用地址148的地址结构。由内容索引器组件132接收到的引用地址148可以是深度链。例如,深度链可以具有形式“www.example_mp.com/video33?123&987”或“e_mp://stream?=vid45670”。引用地址148可包括与多媒体内容提供器106相对应的主机名、到用于与实体相对应的多媒体内容的一个或多个视听内容文件的文件路径名以及查询字符串。在前一个示例中,主机名可以是“example_mp.com”,路径名可以是“/video33”,并且查询字符串可以是“?123&987”。即使对于相同的一个或多个视听内容文件,形成引用地址148的文件路径名或查询字符串的字符的子集也可以基于接收方设备(例如,客户端设备104、显示设备108和数据处理系统102)的属性而变化。属性的示例可以包括账户标识符、设备类型、显示器的分辨率、位置标识符、平台应用(例如,用于运行多媒体内容应用106的web浏览器)和操作系统等。

深度链模型136可使用从多媒体内容提供器106接收到的引用地址146以及客户端设备104、显示设备108和数据处理系统102的属性作为地址模型148的输入。使用地址模型148的输入,深度链模型引擎136可训练地址模型148。在训练地址模型148时,深度链模型136可维护比较器以跨越用于多媒体内容提供器106的引用地址148跟踪字符的哪些索引而变化。

使用地址模型148,深度链模型引擎136可为多媒体内容提供器106的引用地址146生成地址结构。使用地址模型148,深度链模型引擎136也可为多媒体内容提供器106的新接收到的引用地址146确定地址结构。地址结构可指定跨越用于多媒体内容提供器106的引用地址146被识别为静态的字符的索引。地址结构可指定跨越用于多媒体内容提供器106的引用地址146被识别为可变的字符的索引。对于每个新近接收到的引用地址146,深度链模型引擎136可基于被识别为静态的字符的索引来移除识别静态部分。对于每个新接收到的引用地址146,深度链模型引擎136可基于被识别为可变的字符的索引来识别变体部分。深度链模型引擎136可维护与静态部分相对应的引用地址148的字符。深度链模型引擎136可移除与变体部分相对应的引用地址148的字符。深度链模型引擎136然后可将具有与被移除的变体部分相对应的字符的引用地址148添加到数据储存库140中。

数据处理系统102可包括响应处置器组件138,可与响应处置器组件138对接,或者可以其它方式与响应处置器组件138进行通信。响应于对与请求中的实体相对应的引用地址148的识别,响应处置器组件138可向客户端设备104或显示设备108发送或者提供引用地址148。响应处置器组件138还可生成用于在客户端设备104或显示设备108处渲染内容选择界面的指令。内容选择界面可包括一个或多个选择元素和占位符元素(有时统称为“显示卡”)。一个或多个选择元素可对应于用于包括在客户端设备104或显示设备108的请求中的实体的引用地址148。在响应处置器组件138将引用地址148发送到客户端设备104或显示设备108之前,由多媒体内容应用160执行的搜索可能尚未完成。因此,内容选择界面最初可从在客户端设备104或显示设备108上执行的多媒体内容应用160所执行的搜索中排除结果。响应处置器组件138可将用于渲染内容选择界面的指令连同引用地址148一起提供给客户端设备104或显示设备108。

继在客户端设备104或显示设备108处呈现内容选择界面之后,与占位符元素的交互可使客户端设备104或显示设备108确定由多媒体内容应用160执行的搜索是否完成。客户端设备104或显示设备108可确定由多媒体内容应用160执行的搜索完成。响应于确定搜索完成,客户端设备104或显示设备108可修改内容选择交互以包括附加选择元素。每个附加选择元素可对应于在客户端设备104或显示设备108上执行的多媒体内容应用160所执行的搜索期间找到的引用地址148。与内容选择元素的选择元素的交互可使客户端设备104或显示设备108启动多媒体内容应用160(或在客户端设备104或显示设备108上运行的另一应用)以播放与所关联的选择元素的引用地址148相对应的一个或多个视听文件。

另一方面,客户端设备104或显示设备108可确定由多媒体内容应用160执行的搜索尚未完成。响应于确定搜索尚未完成,客户端设备104或显示设备108可等待达预定时间量。在预定时间量期间,客户端设备104或显示设备108可确定由多媒体内容应用160执行的搜索完成。响应于确定搜索完成,客户端设备104或显示设备108可修改内容选择交互以包括附加选择元素。客户端设备104或显示设备108可确定已经过预定时间量并且搜索尚未完成。响应于确定已经过预定时间量并且搜索尚未完成,客户端设备104或显示设备108可修改内容选择界面以移除占位符元素。

图2图示图1中图示的系统的信号流过程图200。响应于对音频输入查询的检测,显示设备108可向数据处理系统102发送具有音频输入查询的数据分组202。数据处理系统102进而可解析音频输入查询并确定音频输入查询对应于对多媒体内容的查询请求。数据处理系统102还可识别查询请求中的实体(例如,与多媒体内容有关的单词)。数据处理102向显示设备108发送查询命令204以触发显示设备108初始化多媒体内容应用160。在初始化多媒体内容应用160时,显示设备108可分配存储器,执行与多媒体内容提供器106的认证和其它过程。在初始化之后,多媒体内容应用160可开始搜索实体。

同时,数据处理系统102可搜遍本地缓存(例如,数据储存库140)以识别与实体相对应的引用地址148并且可向多媒体内容提供器106发送查询请求206。查询请求206可包括从音频输入查询中识别的实体。多媒体内容提供器106可以访问它自己的数据储存库162以识别与实体148相对应的引用地址148。多媒体内容提供器106然后可向数据处理系统102返回搜索响应208。数据处理系统102可生成用于在显示设备108处渲染内容选择界面216的指令。内容选择界面216可包括选择元素218和占位符元素220。选择元素218可与在由数据处理系统102进行的搜索期间找到的引用地址148相关联。在时间T1,数据处理系统102可将指令212发送到显示设备108。显示设备108然后可呈现内容选择界面216。

在显示设备108处,在初始化之后,多媒体内容应用160可开始搜索实体。多媒体内容应用160可向多媒体内容提供器106发送查询请求210。多媒体内容提供器106可访问它自己的数据储存库162以识别与实体148相对应的引用地址148。在时间T2,多媒体内容提供器106然后可向数据处理系统102返回搜索响应214。在时间T2之后,与占位符元素220的交互可使显示设备108用附加选择元素218替换占位符元素220。附加选择元素218可与多媒体内容应用160进行的搜索期间找到的引用地址148相关联。由于显示设备108处的较少计算资源以及在多媒体内容应用160的初始化中消耗的时间,在本地缓存处搜索或者查验多媒体内容提供器106都可以比多媒体内容应用160在显示设备108上执行的搜索更快。因此,时间T2可以大于T1

图3图示用于跨越多个设备协调音频查询的并行处理的示例方法300。方法300可以由是上面结合图1和图2描述的系统100或在下面结合图4描述的系统400来实现或者执行。方法300可包括从显示设备接收音频信号(块305)。方法300可包括解析音频信号以识别实体(块310)。方法300可包括向显示设备发送查询命令(块315)。方法300可包括识别用于实体的引用地址(块320)。方法300可包括将引用地址发送到显示设备(块325)。

方法300可包括从客户端设备接收音频信号(块305)。例如,数据处理系统的NLP组件可接收可包括音频信号的数据分组。数据处理系统(和NLP组件)可以是客户端设备、显示设备的组件或者以其它方式由客户端设备、显示设备执行,或者可以是独立设备。客户端设备或显示设备处的传感器(诸如麦克风)可检测输入音频信号,然后相应的客户端设备或显示设备可将输入音频信号发送到数据处理系统。例如,在显示设备上执行的应用可检测到用户说出“Okay,play Bat Movie form 2005(好的,播放蝙蝠电影2005)”。所检测到的发言可被编码成输入音频信号并发送到数据处理系统或车辆的NLP组件。

方法300可包括解析音频信号以识别实体(块310)。例如,NLP组件可解析输入音频信号以识别输入音频信号中的请求。NLP组件可识别形成请求的一个或多个单词。从一个或多个单词中,NLP组件可使用语义知识图来识别实体。实体可以与多媒体内容相关联,并且语义知识图可包括被标记为与多媒体内容有关或无关的一组单词。

方法300可包括向显示设备发送查询命令(块315)。例如,数据处理系统的搜索协调器组件可生成针对显示设备的查询命令。查询命令可包括从音频信号的请求中识别的实体。查询命令还可包括指示哪些多媒体内容应用将在显示设备上执行搜索的指令。搜索协调器组件可将查询命令发送到显示设备。在收到后,显示设备就可初始化在查询命令中指示的多媒体内容应用以执行针对实体的搜索。搜索协调器组件还可生成针对多媒体内容服务器的另一查询命令。针对多媒体内容提供器的查询命令可包括要在与内容服务器相关联的内容数据库处搜索的实体。搜索协调器组件可将查询命令发送到多媒体内容提供器。在收到后,多媒体内容提供器可执行针对实体的搜索。

方法300可包括识别用于实体的引用地址(块320)。例如,数据处理系统的内容索引器组件可从本地缓存(例如,数据储存库)和多媒体内容服务器中的至少一个中识别引用地址。内容索引器组件可在本地缓存处维护用于实体的引用地址的本地列表。内容索引器组件可访问本地缓存以遍历引用地址的列表并且识别与实体相对应的引用地址。内容索引器组件还可从多媒体内容提供器接收搜索响应。搜索响应可包括与实体相对应的引用地址。内容索引器组件可将本地缓存中的引用地址与来自多媒体内容提供器的引用地址相比较以确定本地缓存中的引用地址是否是最新的。

方法300可包括将引用地址发送到显示设备(块325)。例如,响应处置器组件可生成用于渲染具有引用地址的内容选择界面的指令。内容选择界面可包括选择元素和占位符元素。选择元素可对应于由数据处理系统找到的引用地址。响应处置器组件可将用于渲染内容选择界面的指令发送到显示设备。当被接收到时,显示设备可呈现内容选择界面。与占位符元素的后续交互可使显示设备用它自己的由多媒体内容应用执行的搜索来更新内容选择界面。

图4是示例计算机系统400的框图。计算机系统或计算设备400可包括或者用于实现系统100或其组件,诸如数据处理系统102、客户端设备104、多媒体内容提供器106和显示设备108。计算系统400包括用于传送信息的总线405或其它通信组件以及耦合到总线405以用于处理信息的处理器410或处理电路。计算系统400还可包括耦合到总线以用于处理信息的一个或多个处理器410或处理电路。计算系统400还包括主存储器415,诸如随机存取存储器(RAM)或其它动态存储设备,其耦合到总线405以用于存储信息以及要由处理器410执行的指令。主存储器415可以是或者包括数据储存库140。主存储器415也可被用于在由处理器410执行指令期间存储位置信息、临时变量或其它中间信息。计算系统400还可包括耦合到总线405以用于为处理器410存储静态信息和指令的只读存储器(ROM)420或其它静态存储设备。存储设备425(诸如固态设备、磁盘或光盘)可耦合到总线405以持久地存储信息和指令。存储设备425可包括或者是数据储存库140的一部分。

计算系统400可以经由总线405耦合到显示器435,诸如液晶显示器或有源矩阵显示器,以用于向用户显示信息。输入设备430(诸如包括字母数字和其它键的键盘)可以耦合到总线405以用于向处理器410传送信息和命令选择。输入设备430可包括触摸屏显示器435。输入设备430还可包括光标控件,诸如鼠标、轨迹球或光标方向键,以用于向处理器410传送方向信息和命令选择并且以用于控制光标在显示器435上的移动。例如,显示器435可以是图1的数据处理系统102、客户端设备140、显示设备108或其它组件的一部分。

本文描述的过程、系统和方法可由计算系统400响应于处理器410执行包含在主存储器415中的指令的布置来实现。可将此类指令从另一计算机可读介质(诸如存储设备425)读取到主存储器415中。包含在主存储器415中的指令的布置的执行使计算系统400执行本文描述的说明性过程。还可以采用多处理布置中的一个或多个处理器来执行包含在主存储器415中的指令。可使用硬连线电路代替软件指令,或者可与本文描述的系统和方法一起与软件指令相结合地使用硬连线电路。本文描述的系统和方法不限于硬件电路和软件的任何具体组合。

尽管已在图4中对示例计算系统进行了描述,然而包括本说明书中描述的操作的主题可用其它类型的数字电子电路或者用计算机软件、固件或硬件(包括本说明书中公开的结构及其结构等同物)或者用它们中的一个或多个的组合加以实现。

对于本文讨论的系统收集关于用户的个人信息或者可以利用个人信息的情形,可以给用户提供控制程序或特征是否可以收集个人信息(例如,关于用户的社交网络、社交动作或活动、用户的偏好或用户的位置的信息)或者控制是否或者如何从内容服务器或其它数据处理系统接收与用户更相关的内容的机会。此外,某些数据可以在它被存储或者使用之前被以一种或多种方式匿名化,使得个人可识别的信息在生成参数时被去除。例如,可以使用户的身份匿名化,使得对于该用户来说不可确定个人可识别的信息,或者可以在获得位置信息的情况下使用户的地理位置一般化(诸如到城市、邮政编码或州级别),使得不能确定用户的特定位置。因此,用户可以控制关于他或她的信息如何被收集并由内容服务器使用。

本说明书中描述的主题和操作可用数字电子电路或者用计算机软件、固件或硬件(包括本说明书中公开的结构及其结构等同物)或者用它们中的一个或多个的组合加以实现。本说明书中描述的主题可作为一个或多个计算机程序(例如,编码在一个或多个计算机存储多媒体上以供由数据处理装置执行或者控制数据处理装置的操作的计算机程序指令的一个或多个电路)被实现。替换地或此外,可将程序指令编码在人工生成的传播信号上,所述传播信号例如机器生成的电、光或电磁信号,该信号被生成来对信息进行编码以便传输到适合的接收器装置以供由数据处理装置执行。计算机存储介质可以是或者被包括在计算机可读存储设备、计算机可读存储基板、随机或串行存取存储器阵列或设备或它们中的一个或多个的组合中。虽然计算机存储介质不是传播信号,但是计算机存储介质可以是编码在人工生成的传播信号中的计算机程序指令的源或目的地。计算机存储介质还可以是或者被包括在一个或多个单独的组件或多媒体(例如,多个CD、磁盘或其它存储设备)中。本说明书中描述的操作可作为由数据处理装置对存储在一个或多个计算机可读存储设备上或者从其它源接收到的数据执行的操作被实现。

术语“数据处理系统”、“计算设备”、“组件”或“数据处理装置”包含用于处理数据的各种装置、设备和机器,作为示例包括可编程处理器、计算机、片上系统或多个可编程处理器、计算机、片上系统或上述的组合。装置可包括专用逻辑电路,例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。装置除了包括硬件之外还可包括为所述计算机程序创建执行环境的代码,例如,构成处理器固件、协议栈、数据库管理系统、操作系统、跨平台运行时环境、虚拟机或它们中的一个或多个的组合的代码。装置和执行环境可实现各种不同的计算模型基础设施,诸如web服务、分布式计算和网格计算基础设施。系统100的组件可包括或者共享一个或多个数据处理装置、系统、计算设备或处理器。

计算机程序(也称为程序、软件、软件应用、app、脚本或代码)可用任何形式的编程语言(包括编译或解释语言、声明或过程语言)编写,并且可被以任何形式部署,包括作为独立程序或者作为模块、组件、子例行程序、对象或适合于在计算环境中使用的其它单元。计算机程序可对应于文件系统中的文件。可在保持其它程序或数据(例如,存储在标记语言文档中的一个或多个脚本)的文件的一部分中、在专用于所述程序的单个文件中或者在多个协调文件(例如,存储代码的一个或多个模块、子程序或部分的文件)中存储计算机程序。可将计算机程序部署成在一个计算机上或者在位于一个站点处或者跨越多个站点分布并通过通信网络互连的多个计算机上执行。

本说明书中描述的过程和逻辑流程可通过一个或多个可编程处理器执行一个或多个计算机程序(例如,数据处理系统102、客户端设备104、多媒体内容提供器106和显示设备108的组件)以通过对输入数据进行操作并生成输出来执行动作而被执行。过程和逻辑流程也可由专用逻辑电路执行,并且装置也可作为专用逻辑电路被实现,所述专用逻辑电路例如FPGA(现场可编程门阵列)或ASIC(专用集成电路)。适合于存储计算机程序指令和数据的设备包括所有形式的非易失性存储器、多媒体和存储设备,作为示例包括半导体存储设备,例如EPROM、EEPROM和闪速存储器设备;磁盘,例如内部硬盘或可移动盘;磁光盘;以及CDROM和DVD-ROM盘。处理器和存储器可由专用逻辑电路补充,或者被并入在专用逻辑电路中。

可在计算系统中实现本文所描述的主题,所述计算系统包括后端组件(例如,作为数据服务器),或者包括中间件组件(例如,应用服务器),或者包括前端组件(例如,具有用户可用来与本说明书中描述的主题的实施方式交互的图形用户界面或web浏览器的客户端计算机),或者包括一个或多个此类后端、中间件或前端组件的组合。系统的组件可通过任何形式或介质的数字数据通信(例如,通信网络)来互连。通信网络的示例包括局域网(“LAN”)和广域网(“WAN”)、互连网络(例如,因特网)和对等网络(例如,自组织对等网络)。

诸如系统100或系统400这样的计算系统可包括客户端和服务器。客户端和服务器一般地彼此远离并且通常通过通信网络(例如,网络110)来交互。客户端和服务器的关系借助于在相应的计算机上运行并且彼此具有客户端-服务器关系的计算机程序而产生。在一些实施方式中,服务器向客户端设备发送数据(例如,表示内容项的数据分组)(例如,为了向与客户端设备交互的用户显示数据并从与客户端设备交互的用户接收用户输入)。可在服务器处从客户端设备接收在客户端设备处生成的数据(例如,用户交互的结果)(例如,由数据处理系统102从客户端设备140或显示设备108接收)。

虽然在附图中以特定次序描绘了操作,但是不要求以所示的特定次序或者以顺序次序执行此类操作,并且不要求执行所有图示的操作。可以不同的次序执行本文描述的动作。

各种系统组件的分离不要求在所有实施方式中分离,并且所描述的程序组件可被包括在单个硬件或软件产品中。例如,NLP组件124和直接动作API 126可以是单个组件、app或程序,或具有一个或多个处理电路的逻辑器件,或数据处理系统102的一个或多个服务器的一部分。

在现在已描述了一些说明性实施方式后,显而易见的是,上文是说明性的而不是限制性的,已作为示例被呈现。特别地,尽管本文呈现的许多示例涉及方法行为或系统元素的具体组合,但是可以以其它方式组合那些行为和那些元素以实现相同的目标。在其它实施方式中连同一个实施方式一起讨论的行为、元素和特征不旨在被排除在相似角色之外。

本文使用的措词和术语是为了描述而不应该被认为是限制性的。“包括有”、“含有”、“具有”、“包含”、“涉及”、“特征是”、“特征在于”及其变化在本文中的使用意在包含此后列举的项、其等同物和附加项以及仅由此后排他地列举的项构成的替代实施方式。在一个实施方式中,本文描述的系统和方法由所描述的元素、行为或组件中的一个或多于一个的每种组合或全部构成。

对在本文中以单数形式提及的系统和方法的实施方式、元素或行为的任何引用也可以包含包括多个这些元素的实施方式,并且在本文中以复数对任何实施方式、元素或行为的任何引用也可以包含包括仅单个元素的实施方式。单数或复数形式的引用不旨在将目前公开的系统或方法、其组件、行为或元素限于单个或多个配置。基于任何信息、行为或元素的对任何行为或元素的引用可以包括该行为或元素至少部分地基于任何信息、行为或元素的实施方式。

本文公开的任何实施方式可以与任何其它实施方式或实施例组合,并且对“实施方式”、“一些实施方式”、“一个实施方式”等的引用不一定是互斥的并且旨在指示连同实施方式一起描述的特定特征、结构或特性可以被包括在至少一个实施方式或实施例中。如本文所使用的此类术语不一定全部参考同一实施方式。任何实施方式可以以与本文公开的方面和实施方式一致的任何方式包括地或排他地与任何其它实施方式组合。

对“或”的引用可以被解释为包括的,使得使用“或”描述的任何术语可以指示所描述的术语中的单个、多于一个和全部中的任一个。对“‘A’和‘B’中的至少一个”的引用可包括仅‘A’、仅‘B’以及‘A’和‘B’两者。与“含有”或其它开放式术语相结合地使用的此类引用可包括附加项。

在附图、详细描述或任何权利要求中的技术特征后面是附图标记的情况下,附图标记已被包括来增加附图、详细描述和权利要求的可理解性。因此,附图标记或其不存在都不对任何权利要求元素的范围没有任何限制作用。

本文描述的系统和方法可以在不脱离其特性的情况下用其它具体形式加以具体化。前面的实施方式是说明性的,而不是限制所描述的系统和方法。本文描述的系统和方法的范围因此通过所附权利要求而不是前述描述来指示,并且落在权利要求的等价含义和范围内的变化被包含在其中。

28页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于实时交互式推荐的方法和装置

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!