媒体环境中的智能自动化助理

文档序号：1875106 发布日期：2021-11-23 浏览：3次 >En<

阅读说明：本技术 媒体环境中的智能自动化助理 (Intelligent automated assistant in a media environment ) 是由 L·T·纳波利塔诺 G·H·黄 H·D·彭哈 J·D·肖 J·S·菲诺于 2016-08-16 设计创作，主要内容包括：本发明公开了一种用于在媒体环境中操作数字助理的系统和过程。在示例性实施方案中,用户可在内容被媒体设备显示时与媒体设备的数字助理进行交互。在一种方法中,可响应于检测到第一输入类型的用户输入而显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。在另一种方法中,可响应于检测到第二输入类型的用户输入而接收用户请求。可执行至少部分地满足用户请求的任务。所执行的任务可取决于用户请求的性质以及正被媒体设备显示的内容。具体地,在减少用户消费媒体内容过程中的干扰时,可满足该用户请求。(A system and process for operating a digital assistant in a media environment is disclosed. In an exemplary embodiment, a user may interact with a digital assistant of a media device while content is displayed by the media device. In one approach, a plurality of exemplary natural language requests may be displayed in response to detecting a user input of a first input type. The plurality of exemplary natural language requests may be contextually related to the displayed content. In another approach, a user request may be received in response to detecting a user input of a second input type. A task that at least partially satisfies the user request may be performed. The tasks performed may depend on the nature of the user request and the content being displayed by the media device. In particular, the user request may be satisfied while reducing interference during consumption of the media content by the user.)

媒体环境中的智能自动化助理

相关专利申请的交叉引用

本申请是国际申请日为2016年8月16日、于2017年4月20日进入中国国家阶段、中国国家申请号201680003291.7、发明名称为“媒体环境中的智能自动化助理”的发明专利申请的分案申请。

本专利申请要求于2015年9月8日提交的名称为“Intelligent AutomatedAssistant in a Media Environment”的美国临时序列号62/215,676和2015年12月8日提交的名称为“Intelligent Automated Assistant in a Media Environment”的临时序列号14/963,094的优先权，这两个专利申请据此全文以引用方式并入本文以用于所有目的。

本专利申请与以下共同未决的专利申请相关：于2015年12月8日提交的美国非临时专利申请序列号14/963,089，“Intelligent Automated Assistant for Media Searchand Playback”(代理人案卷号106842137900(P27499US1))；于2014年9月26日提交的美国非临时专利申请序列号14/498,503，“Intelligent Automated Assistant for TV UserInteractions”(代理人案卷号106842065100(P18133US1))；以及于2014年9月26日提交的美国非临时专利申请序列号14/498,391，“Real-time Digital Assistant KnowledgeUpdates”(代理人案卷号106842097900(P22498US1))，这三个申请据此全文以引用方式并入本文以用于所有目的。

技术领域

本发明整体涉及智能自动化助理，并且更具体地涉及正在媒体环境中操作的智能自动化助理。

背景技术

智能自动化助理(或数字助理)可提供用户与电子设备之间的直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如，用户可通过以自然语言形式将口头用户输入提供至与电子设备相关联的虚拟助理来访问电子设备的服务。该虚拟助理可对口头用户输入执行自然语言处理，以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务，并且在一些示例中，可将相关的输出以自然语言形式返回给用户。

期望将数字助理集成到媒体环境(例如，电视机、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)中，以帮助用户执行与媒体消费相关的任务。例如，可使用数字助理来帮助找到所需的媒体内容来消费。然而，与数字助理的用户交互可包括可能干扰媒体内容的消费的音频输出和视频输出。因此，将数字助理以一种方式集成到媒体环境中使得在使对媒体内容的消费的干扰最小化时向用户提供足够多的帮助具有挑战性。

发明内容

本发明公开了一种用于在媒体环境中操作数字助理的系统和过程。在一些示例性过程中，可在显示内容时检测用户输入。该过程可确定用户输入是否对应于第一输入类型。根据确定用户输入对应于第一输入类型，可显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。

在一些实施方案中，根据确定用户输入不对应于第一输入类型，该过程可确定用户输入是否对应于第二输入类型。根据确定用户输入对应于第二输入类型，可对音频数据进行采样。该过程可确定音频数据是否包含用户请求。根据确定音频数据包含用户请求，可执行至少部分地满足用户请求的任务。在一些示例中，该任务可包括获取至少部分地满足用户请求的结果，并且显示具有结果的一部分的第二用户界面。可在显示第二用户界面时继续显示内容的一部分，并且第二用户界面的显示区域可小于内容的该一部分的显示区域。

在一些实施方案中，可在显示第二用户界面时检测第三用户输入。响应于检测到第三用户输入，可利用对具有结果的该一部分的第三用户界面的显示来替换对第二用户界面的显示。该第三用户界面可至少占据显示单元的大部分显示区域。此外，可获取至少部分地满足用户请求的第二结果。该第二结果可不同于该结果。该第三用户界面可包括第二结果的至少一部分。

在一些实施方案中，可在显示第三用户界面时检测第四用户输入。该第四用户输入可指示方向。响应于检测到第四用户输入，该第三用户界面的焦点可从第三用户界面中的第一项目切换至第三用户界面中的第二项目。该第二项目可相对于第一项目而被定位在所指示的方向上。

在一些实施方案中，可在显示第三用户界面时检测第五用户输入。响应于检测到第五用户输入，可显示搜索字段。此外，可显示虚拟键盘界面，其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。此外，在一些实施方案中，可使得得可选择示能表示出现在第二电子设备的显示器上，其中对示能表示的选择使得文本输入将能够由电子设备经由第二电子设备的键盘来接收。

在一些实施方案中，可在显示第三用户界面时检测第六用户输入。响应于检测到第六用户输入，可对包含第二用户请求的第二音频数据进行采样。该过程可确定第二用户请求是否为用于细化用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求，可经由第三用户界面来显示结果的子组。根据确定第二用户请求不是用于细化用户请求的结果的请求，可获取至少部分地满足第二用户请求的第三结果。可经由第三用户界面来显示第三结果的一部分。

在一些实施方案中，经采样的音频数据可包括用户话语，并且可确定与用户话语对应的用户意图。该过程可确定用户意图是否包括用于调整应用程序的状态或设置的请求。根据确定用户意图包括用于调整应用程序的状态或设置的请求，可调整应用程序的状态或设置以满足用户意图。

在一些实施方案中，根据确定用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求，该过程可确定用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型。根据确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型，可显示至少部分地满足用户意图的纯文本结果。

在一些实施方案中，根据确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型，该过程可确定所显示的内容是否包括媒体内容。根据确定所显示的内容包括媒体内容，该过程可进一步确定媒体内容是否可被暂停。根据确定媒体内容可被暂停，使媒体内容暂停，并且可经由第三用户界面来显示至少部分地满足用户意图的结果。该第三用户界面可至少占据显示单元的大部分显示区域。根据确定媒体内容不可被暂停，在显示媒体内容时可经由第二用户界面来显示结果。第二用户界面所占据的显示区域可小于媒体内容所占据的显示区域。此外，在一些实施方案中，根据确定所显示的内容不包括媒体内容，可经由第三用户界面来显示结果。

附图说明

图1示出了根据各种示例的用于实现数字助理的系统和环境的框图。

图2示出了根据各种示例的媒体系统的框图。

图3示出了根据各种示例的用户设备的框图。

图4A示出了根据各种示例的数字助理系统或其服务器部分的框图。

图4B示出了根据各种示例的图4A所示的数字助理的功能。

图4C示出了根据各种示例的知识本体的一部分。

图5A至图5I示出了根据各种示例的用于操作媒体系统的数字助理的过程。

图6A至图6Q示出了根据各种示例的在图5A至图5I中所示过程的各个阶段中由媒体设备在显示单元上显示的屏幕截图。图6O被有意地省略，以避免大写字母O和数字0(零)之间的任何混淆。

图7A至图7C示出了根据各种示例的用于操作媒体系统的数字助理的过程。

图8A至图8W示出了根据各种示例的在图7A至图7C中所示过程的各个阶段中由媒体设备在显示单元上显示的屏幕截图。图8O被有意地省略，以避免大写字母O和数字0(零)之间的任何混淆。

图9示出了根据各种示例的用于操作媒体系统的数字助理的过程。

图10示出了根据各种示例的被配置为操作媒体系统的数字助理的电子设备的功能框图。

图11示出了根据各种示例的被配置为操作媒体系统的数字助理的电子设备的功能框图。

图12是示出根据各种示例的用于实现数字助理的系统和环境的框图。

图13是示出根据各种示例的媒体系统的框图。

图14是示出根据各种示例的用户设备的框图。

图15A是示出根据各种示例的数字助理系统或其服务器部分的框图。

图15B示出了根据各种示例的图15A中所示的数字助理的功能。

图15C示出了根据各种示例的知识本体的一部分。

图16A至图16E示出了根据各种示例的用于操作媒体系统的数字助理的过程。

图17A至图17K示出了根据各种示例的在图16A至图16E中所示过程的各个阶段由媒体设备在显示单元上显示的屏幕截图。

图18示出了根据各种示例的被配置为操作媒体系统的数字助理的电子设备的功能框图。

图19示出了用于使用虚拟助理控制电视用户交互的示例性系统。

图20示出了根据各种示例的示例性用户设备的框图。

图21示出了用于控制电视用户交互的系统中的示例性媒体控制设备的框图。

图22A至图22E示出了视频内容上的示例性语音输入界面。

图23示出了视频内容上的示例性媒体内容界面。

图24A至图24B示出了视频内容上的示例性媒体详情界面。

图25A至图25B示出了示例性媒体过渡界面。

图26A至图26B示出了菜单内容上的示例性语音输入界面。

图27示出了菜单内容上的示例性虚拟助理结果界面。

图28示出了使用虚拟助理来控制电视交互并使用不同界面来显示相关联的信息的示例性过程。

图29示出了移动用户设备上的示例性电视媒体内容。

图30示出了使用虚拟助理的示例性电视控制。

图31示出了移动用户设备上的示例性图片和视频内容。

图32示出了使用虚拟助理的示例性媒体显示控制。

图33示出了示例性虚拟助理交互，其中结果在移动用户设备和媒体显示设备上。

图34示出了示例性虚拟助理交互，其中媒体结果在媒体显示设备和移动用户设备上。

图35示出了基于接近度的示例性媒体设备控制。

图36示出了使用虚拟助理和多个用户设备来控制电视交互的示例性过程。

图37示出了具有关于背景视频内容的虚拟助理查询的示例性语音输入界面。

图38示出了视频内容上的示例性信息性虚拟助理响应。

图39示出了具有针对与背景视频内容相关联的媒体内容的虚拟助理查询的示例性语音输入界面。

图40示出了具有可选媒体内容的示例性虚拟助理响应界面。

图41A至图41B示出了节目菜单的示例性页面。

图42示出了被划分为多个类别的示例性媒体菜单。

图43示出了使用媒体内容观看历史和在显示器上所示的媒体内容来控制电视交互的示例性过程。

图44示出了具有基于背景视频内容的虚拟助理查询建议的示例性界面。

图45示出了用于确认对所建议的查询的选择的示例性界面。

图46A至图46B示出了基于所选择的查询的示例性虚拟助理回答界面。

图47示出了媒体内容通知和具有基于该通知的虚拟助理查询建议的示例性界面。

图48示出了具有能够在媒体控制设备上播放的示例性图片和视频内容的移动用户设备。

图49示出了具有基于可播放用户设备内容并且基于在独立显示器上所示的视频内容的虚拟助理查询建议的示例性移动用户设备界面。

图50示出了具有基于来自独立用户设备的可播放内容的虚拟助理查询建议的示例性界面。

图51示出了用于建议用于控制媒体内容的虚拟助理交互的示例性过程。

图52示出了根据各种示例的被配置为使用虚拟助理来控制电视交互并使用不同界面来显示相关联的信息的电子设备的功能框图。

图53示出了根据各种示例的被配置为使用虚拟助理和多个用户设备来控制电视交互的电子设备的功能框图。

图54示出了根据各种示例的被配置为使用显示器上所示的媒体内容和媒体内容观看历史来控制电视交互的电子设备的功能框图。

图55示出了根据各种示例的被配置为建议用于控制媒体内容的虚拟助理交互的电子设备的功能框图。

图56示出了用于提供对媒体回放的语音控制和虚拟助理知识的实时更新的示例性系统。

图57示出了根据各种示例的示例性用户设备的框图。

图58示出了用于提供媒体回放的语音控制的系统中示例性媒体控制设备的框图。

图59示出了根据各种示例的对媒体回放进行语音控制的示例性过程。

图60示出了将媒体流中的事件与媒体流中的特定时间关联起来的示例性数据馈送。

图61示出了基于媒体流中的事件来提示视频回放的示例性虚拟助理查询响应。

图62示出了在回放位置之前和之后出现的可用于解译用户查询的示例性事件。

图63示出了将媒体流中的事件与媒体流中的特定时间关联起来的示例性颁奖典礼数据馈送。

图64示出了将媒体流中的事件与媒体流中的特定时间关联起来的示例性电视节目数据馈送。

图65示出了与视频中的特定时间相关联的示例性隐藏式字幕文本，其可用于响应用户查询。

图66A示出了具有可用于解译用户查询的示例性视频内容的电视显示器。

图66B示出了具有可用于解译用户查询的示例性图像和文本内容的移动用户设备。

图67示出了用于将信息整合到数字助理知识中并响应用户请求的示例性过程。

图68示出了根据各种示例的电子设备的功能框图，该电子设备被配置为提供对媒体回放的语音控制和虚拟助理知识的实时更新。

图69示出了根据各种示例的电子设备的功能框图，该电子设备被配置为将信息整合到数字助理知识中并响应用户请求。

具体实施方式

在以下对示例的描述中将引用附图，在附图中以例示的方式示出了可被实施的特定示例。应当理解，在不脱离各个示例的范围的情况下，可使用其他示例并且可作出结构性变更。

本发明涉及一种用于在媒体环境中操作数字助理的系统和过程。在一个示例性过程中，可在显示内容时检测用户输入。该过程可确定用户输入是否对应于第一输入类型。根据确定用户输入对应于第一输入类型，可显示多个示例性自然语言请求。该多个示例性自然语言请求可与所显示的内容上下文相关。可期望上下文相关的示例性自然语言请求可方便地将与媒体设备上的用户的当前使用条件最相关的数字助理的能力告知用户。这可鼓励用户使用数字助理服务并且还可改善与数字助理的用户交互式体验。

在一些实施方案中，根据确定用户输入不对应于第一输入类型，该过程可确定用户输入是否对应于第二输入类型。根据确定用户输入对应于第二输入类型，可对音频数据进行采样。该过程可确定音频数据是否包含用户请求。根据确定音频数据包含用户请求，可执行至少部分地满足用户请求的任务。

在一些实施方案中，所执行的任务可取决于用户请求的性质以及在检测到第二输入类型的用户输入时所显示的内容。如果用户请求是用于调整电子设备上的应用程序的状态或设置的请求(例如，打开已显示的媒体内容的字幕)，则该任务可包括调整应用程序的状态或设置。如果用户请求是与纯文本输出(例如，对当前时间的请求)相关联的多个预先确定的请求类型中的一个预先确定的请求类型，则任务可包括显示满足用户请求的文本。如果所显示的内容包括媒体内容并且用户请求要求获取并显示结果，则该过程可确定是否媒体内容可被暂停。如果确定媒体内容可被暂停，则使媒体内容暂停，并且可在经扩展的用户界面(例如，图6H中所示的第三用户界面626)上显示满足该用户请求的结果。如果确定媒体内容不可被暂停，则在继续显示媒体内容时可将满足该用户请求的结果显示在经缩窄的用户界面(例如，图6G中所示的第二用户界面618)上。第二用户界面的显示区域可小于媒体内容的显示区域。此外，如果所显示的内容不包括媒体内容，则可在经扩展的用户界面上显示满足该用户请求的结果。根据所显示的内容和用户请求的类型来调整输出格式，数字助理可在使对媒体内容的用户消费的干扰最小化时通过提供全面的帮助来智能地取得平衡。这样可改善用户体验。

1.系统和环境

图1示出了根据各种示例的用于操作数字助理的示例性系统100。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”可指用于解译口头形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如，为了根据推断出的用户意图采取行动，系统可执行以下内容中的一者或多者：利用被设计以实现所推断出的用户意图的步骤和参数来识别任务流；将来自推断出的用户意图的具体要求输入到任务流中；通过调用程序、方法、服务、应用编程接口(API)等来执行任务流；以及生成对用户的听觉(例如，语音)和/或视觉形式的输出响应。

具体地，数字助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问形式的用户请求。通常，用户请求可寻求数字助理作出信息性回答或者寻求数字助理执行任务。针对用户请求的令人满意的响应可以是提供所请求的信息性回答、执行所请求的任务或这两者的组合。例如，用户可向数字助理提问，诸如“Paris现在是几点？”数字助理可检索所请求的信息并回答“Paris现在是下午4:00。”。用户还可请求执行任务，例如“为我查找由Reese Witherspoon主演的电影。”。作为响应，数字助理可执行所请求的搜索查询，并显示相关电影名称以供用户从中选择。在执行所请求的任务期间，数字助理有时可在很长时间段内在涉及多次信息交换的持续对话过程中与用户进行交互。存在与数字助理进行交互以请求信息或执行各种任务的许多其他方法。除了提供文本响应和采取所编程的动作之外，数字助理还可提供其他视觉形式或音频形式的响应，例如言语、警报、音乐、图像、视频、动画等形式的响应。此外，如本文所讨论的，示例性数字助理可控制媒体内容的回放(例如，在电视机顶盒上)，并且将媒体内容或其他信息显示在显示单元(例如，电视机)上。

如图1中所示，在一些示例中，数字助理可根据客户端-服务器模型来实现。数字助理可包括在媒体设备104上执行的客户端侧部分102(后文称作“DA客户端102”)，以及在服务器系统108上执行的服务器侧部分106(后文称作“DA服务器106”)。此外，在一些示例中，客户端侧部分还可在用户设备122上执行。DA客户端102可通过一个或多个网络110来DA服务器106进行通信。DA客户端102可提供客户端侧功能，诸如面向用户的输入和输出处理，以及与DA服务器106的通信。DA服务器106可为各自驻留在相应设备(例如，媒体设备104和用户设备122)上的任意数量的DA客户端102提供服务器侧功能。

媒体设备104可以是被配置为管理和控制媒体内容的任何合适的电子设备。例如，媒体设备104可包括电视机顶盒，诸如电缆盒设备、卫星盒设备、视频播放器设备、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray Disc^TM播放器、此类设备的组合等。如图1所示，媒体设备104可以是媒体系统128的一部分。除了媒体设备104之外，媒体系统128可包括遥控器124和显示单元126。媒体设备104可在显示单元126上显示媒体内容。显示单元126可以是任何类型的显示器，诸如电视显示器、监视器、投影仪等。在一些示例中，媒体设备104可连接到可与显示单元126集成或分开的音频系统(例如，音频接收器)和扬声器(未示出)。在其他示例中，显示单元126和媒体设备104可一起并入单个设备中，诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中，媒体设备104的功能可作为组合设备上的应用程序来执行。

在一些示例中，媒体设备104可用作针对媒体内容的多种类型和来源的媒体控制中心。例如，媒体设备104可便于用户访问电视直播(例如，无线电视、卫星电视或有线电视)。因此，媒体设备104可包括电缆调谐器或卫星调谐器等。在一些示例中，媒体设备104还可记录电视节目以供稍后时移观看。在其他示例中，媒体设备104可提供对一个或多个流媒体服务的访问，诸如访问有线递送的点播电视节目、视频和音乐，以及互联网递送的电视节目、视频和音乐(例如，来自各种免费、付费和订阅式流服务)。在其他示例中，媒体设备104可方便回放或显示来自任何其他来源的媒体内容，诸如显示来自移动用户设备的照片，播放来自耦接的存储设备的视频，播放来自耦接的音乐播放器的音乐等。媒体设备104还可根据需要包括本文所讨论的媒体控制特征部的各种其他组合。下文参考图2详细描述了媒体设备104。

用户设备122可以是任何个人电子设备，诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如，数字眼镜、腕带、手表、胸针、臂带等)，等等。下文参考图3详细描述了用户设备122。

在一些示例中，用户可通过用户设备122、遥控器124或与媒体设备104集成的接口元件(例如，按钮、麦克风、相机、操纵杆等)来与媒体设备104进行交互。例如，可在用户设备122和/或遥控器124处接收包括用于数字助理的媒体相关查询或命令的语音输入，并且该语音输入可用于使得媒体相关的任务将在媒体设备104上执行。同样，可在用户设备122和/或遥控器124(以及未示出的其他设备)处接收用于控制媒体设备104上的媒体的触觉命令。因此，可采用各种方式来控制媒体设备104的各种功能，从而给予用户控制来自多个设备的媒体内容的多种选择。

一个或多个通信网络110的示例可包括局域网(LAN)和广域网(WAN)，例如互联网。一个或多个通信网络110可使用任何已知的网络协议来实现，包括各种有线或无线协议，诸如例如以太网、通用串行总线(USB)、火线、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网语音协议(VoIP)、Wi-MAX、或任何其他合适的通信协议。

DA服务器106可包括面向客户端的输入/输出I/O接口112、一个或多个处理模块114、数据与模型116、以及至外部服务的I/O接口118。面向客户端的I/O接口112可有利于DA服务器106的面向客户端的输入和输出处理。一个或多个处理模块114可利用数据与模型116来处理语音输入，并基于自然语言输入来确定用户意图。此外，一个或多个处理模块114可基于推断出的用户意图来执行任务。在一些示例中，DA服务器106可通过一个或多个网络110来与外部服务120(诸如，电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务、媒体搜索服务等)进行通信，以完成任务或获取信息。至外部服务的I/O接口118可促进此类通信。

服务器系统108可在计算机的一个或多个独立式数据处理装置或分布式网络上实现。在一些示例中，服务器系统108还可采用第三方服务提供方(例如，第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108的潜在计算资源和/或基础结构资源。

虽然图1中所示的数字助理可包括客户端侧部分(例如，DA客户端102)和服务器侧部分(例如，DA服务器106)两者，但在一些示例中，数字助理的功能可被实现为被安装在用户设备或媒体设备上的独立式应用程序。此外，数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如，在一些示例中，在用户设备122或媒体设备104上执行的DA客户端可以是仅提供面向用户的输入和输出处理功能并且将数字助理的所有其他功能委派给后端服务器的瘦客户端。

2.媒体系统

图2示出了根据各种示例的媒体系统128的框图。媒体系统128可包括通信地耦接至显示单元126、遥控器124和扬声器268的媒体设备104。媒体设备104可经由遥控器124来接收用户输入。来自媒体设备104的媒体内容可被显示在显示单元126上。

在本示例中，如图2所示，媒体设备104可包括存储器接口202、一个或多个处理器204、和外围设备接口206。媒体设备104中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。媒体设备104还可包括耦接至外围设备接口206的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进媒体设备104的各种功能。

例如，媒体设备104可包括通信子系统224。可通过一个或多个有线和/或无线通信子系统224来促进通信功能，这些通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如，红外)接收器和发射器。

在一些示例中，媒体设备104还可包括耦接至外围设备接口206的I/O子系统240。I/O子系统240可包括音频/视频输出控制器270。音频/视频输出控制器270可耦接至显示单元126和扬声器268，或者能够以其他方式提供音频和视频输出(例如，经由音频/视频端口、无线传输等)。I/O子系统240还可包括远程控制器242。远程控制器242可通信地耦接至遥控器124(例如，经由有线连接、蓝牙、Wi-Fi等)。

遥控器124可包括用于捕获音频数据(例如，来自用户的语音输入)的麦克风272、用于捕获触觉输入的按钮274，以及用于促进经由远程控制器242与媒体设备104的通信的收发器276。此外，遥控器124可包括基于触觉和/或触感接触来接受来自用户的输入的触敏表面278、传感器或传感器组。触敏表面278和远程控制器242可检测触敏表面278上的接触(以及接触的任何移动或中断)，并将检测到的接触(例如，手势、接触动作等)转换成与被显示在显示单元126上的用户界面对象(例如，一个或多个软键、图标、网页或图像)的交互。在一些示例中，遥控器124还可包括其他输入机构，诸如键盘、操纵杆等。在一些示例中，遥控器124还可包括输出机构，诸如灯、显示器、扬声器等。在遥控器124处所接收的输入(例如，用户语音、按钮按压、接触动作等)可经由遥控器124而被传送到媒体设备104。I/O子系统240还可包括一个或多个其他输入控制器244。可将一个或多个其他输入控制器244耦接至其他输入/控制设备248，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中，媒体设备104还可包括耦接至存储器250的存储器接口202。存储器250可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器诸如紧凑型闪存卡、安全数字卡、USB存储设备、记忆棒等。在一些示例中，存储器250的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108的非暂态计算机可读存储介质上，或者可在存储器250的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器250可存储操作系统252、通信模块254、图形用户界面(GUI)模块256、设备内置媒体模块258、设备外置媒体模块260、和应用程序模块262。操作系统252可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块254可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256可促进图形用户界面处理。设备内置媒体模块258可促进在媒体设备104上本地存储的媒体内容的存储和回放。设备外置媒体模块260可促进从外部源(例如，在远程服务器上、在用户设备122上等)获取的媒体内容的流式回放或下载。此外，设备外置媒体模块260可促进接收广播和有线内容(例如，频道调谐)。应用程序模块262可促进媒体相关应用程序的各种功能，诸如网页浏览、媒体处理、游戏和/或其他过程和功能。

如本文所述，存储器250还可存储客户端侧数字助理指令(例如，在数字助理客户端模块264中)和各种用户数据266(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的媒体搜索历史、媒体观看列表、最近观看的列表、喜爱的媒体项等)，从而例如提供数字助理的客户端侧功能。用户数据266还可用于执行语音识别来支持数字助理或用于任何其他应用程序。

在各种示例中，数字助理客户端模块264可能够通过媒体设备104的各种用户界面(例如，I/O子系统240等)来接受声音输入(例如，语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块264还能够提供音频(例如，语音输出)、视觉和/或触觉形式的输出。例如，可将输出作提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，数字助理客户端模块264可使用通信子系统224来与数字助理服务器(例如，DA服务器106)进行通信。

在一些示例中，数字助理客户端模块264可利用各种子系统和外围设备来从媒体设备104的周围环境收集与媒体设备104相关的附加信息，以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息，诸如来自用户设备122的信息。在一些示例中，数字助理客户端模块264可将上下文信息或其子组与用户输入一起提供至数字助理服务器，以帮助推断用户的意图。数字助理还可使用上下文信息来确定如何准备输出并将该输出递送至用户。上下文信息还可由媒体设备104或服务器系统108用于支持准确的语音识别。

在一些示例中，伴随用户输入的上下文信息可包括传感器信息，诸如照明、环境噪声、环境温度、至另一个对象的距离等。上下文信息还可包括与媒体设备104的物理状态(例如，设备位置、设备温度、功率电平等)或媒体设备104的软件状态(例如，运行过程、已安装应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括从用户接收的信息(例如，语音输入)、用户请求的信息、和呈现给用户的信息(例如，当前或先前由媒体设备显示的信息)。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如，在用户设备122上显示的内容、用户设备122上的可播放内容等)。这些类型的上下文信息中的任何一种上下文信息可作为与用户输入相关的上下文信息而被提供至DA服务器106(或用于媒体设备104本身)。

在一些示例中，数字助理客户端模块264可响应于来自DA服务器106的请求而选择性地提供被存储在媒体设备104上的信息(例如，用户数据266)。除此之外或作为另外一种选择，该信息可在媒体设备104本身上用于执行语音识别和/或数字助理功能。数字助理客户端模块264还可在由DA服务器106进行请求时经由自然语言对话或其他用户界面引出来自用户的附加输入。数字助理客户端模块264可将附加输入传送至DA服务器106，以帮助DA服务器106进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中，存储器250可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理电路和/或专用集成电路中)实现媒体设备104的各种功能。

3.用户设备

图3示出了根据各种示例的示例性用户设备122的框图。如图所示，用户设备122可包括存储器接口302、一个或多个处理器304、以及外围设备接口306。用户设备122中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备122还可包括耦接至外围设备接口306的各种传感器、子系统、以及外围设备。传感器、子系统以及外围设备可采集信息和/促进用户设备122的各种功能。

例如，用户设备122可包括运动传感器310、光传感器312以及接近传感器314，这些传感器耦接至外围设备接口306，以促进取向、照明和接近感测功能。一个或多个其他传感器316(诸如定位系统(例如，GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等)也可连接至外围设备接口306以促进相关功能。

在一些示例中，相机子系统320和光学传感器322可用于促进相机功能，诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统324来促进通信功能，该无线通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如，红外)接收器和发射器。可将音频子系统326耦接至扬声器328和麦克风330，以促进支持语音的功能，诸如语音识别、语音复制、数字记录和电话功能。

在一些示例中，用户设备122还可包括耦接至外围设备接口306的I/O子系统340。I/O子系统340可包括触摸屏控制器342和/或一个或多个其他输入控制器344。触摸屏控制器342可耦接至触摸屏346。触摸屏346和触摸屏控制器342例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将一个或多个其他输入控制器344耦接至其他输入/控制设备348，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中，用户设备122还可包括耦接至存储器350的存储器接口302。存储器350可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器，诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中，存储器350的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108的非暂态计算机可读存储介质上，或者可在存储器350的非暂态计算机可读存储介质与服务器系统108的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器350可存储操作系统352、通信模块354、图形用户界面(GUI)模块356、传感器处理模块358、电话模块360和应用程序模块362。操作系统352可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356可促进图形用户界面处理。传感器处理模块358可促进与传感器相关的处理和功能。电话模块360可促进与电话相关的过程和功能。应用程序模块362可促进用户应用程序的各种功能，诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。

如本文所述，存储器350还可存储客户端侧数字助理指令(例如，存储在数字助理客户端模块364中)以及各种用户数据366(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等)，从而例如提供数字助理的客户端侧功能。用户数据366还可用于执行语音识别来支持数字助理或用于任何其他应用程序。数字助理客户端模块364和用户数据366可分别与数字助理客户端模块264和用户数据266类似或相同，如上面参考图2所述。

在各种示例中，存储器350可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备122的各种功能。

在一些示例中，用户设备122可被配置为控制媒体设备104的各个方面。例如，用户设备122可用作遥控器(例如，遥控器124)。经由用户设备122接收的用户输入可(例如，使用通信子系统)被传输到媒体设备104，以使得媒体设备104执行对应的动作。此外，用户设备122可被配置为从媒体设备104接收指令。例如，媒体设备104可将任务移交给用户设备122，以执行并使得对象(例如，可选择示能表示)被显示在用户设备122上。

应当理解，系统100和媒体系统128不限于图1和图2所示的部件和配置，并且用户设备122、媒体设备104和遥控器124同样不限于图2和图3中所示的部件和配置。在根据各种示例的多种配置中，系统100、媒体系统128、用户设备122、媒体设备104和遥控器124可全部包括更少的部件，或包括其他部件。

4.数字助理系统

图4A示出根据各种示例的数字助理系统400的框图。在一些示例中，数字助理系统400可在独立式计算机系统上实现。在一些示例中，数字助理系统400可跨多个计算机分布。在一些示例中，数字助理的一些模块和功能可被划分成服务器部分和客户端部分，其中客户端部驻留在一个或多个用户设备(例如，设备104或设备122)上并通过一个或多个网络与服务器部分(例如，服务器系统108)进行通信，例如如图1中所示。在一些示例中，数字助理系统400可以是图1中所示的服务器系统108(和/或DA服务器106)的具体实施。应当指出，数字助理系统400仅为数字助理系统的一个示例，并且该数字助理系统400可具有比所示更多或更少的部件、可组合两个或更多个部件，或者可具有部件的不同配置或布局。图4A中所示的各种部件可在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路)或者它们的组合中实现。

数字助理系统400可包括存储器402、一个或多个处理器404、I/O接口406、以及网络通信接口408。这些部件可通过一条或多条通信总线或者信号线410而彼此通信。

在一些示例中，存储器402可包括非暂态计算机可读介质，诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如，一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备)。

在一些示例中，I/O接口406可将数字助理系统400的I/O设备416诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块422。与用户界面模块422结合的I/O接口406可接收用户输入(例如，声音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中，例如当数字助理在独立式用户设备上实现时，数字助理系统400可包括相对于图2或图3中各自的设备104或设备122所描述的部件和I/O通信接口中的任一者。在一些示例中，数字助理系统400可代表数字助理具体实施的服务器部分，并且可通过驻留在客户端设备(例如，设备104或设备122)上的客户端侧部分与用户进行交互。

在一些示例中，网络通信接口408可包括一个或多个有线通信端口412、和/或无线传输和接收电路414。一个或多个有线通信端口可经由一个或多个有线接口例如以太网、通用串行总线(USB)、火线等来接收和发送通信信号。无线电路414可从通信网络及其他通信设备接收RF信号和/或光学信号，并且将该RF信号和/或光学信号发送至通信网络和其他通信设备。无线通信可使用多种通信标准、协议和技术中的任一者，诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口408可使数字助理系统400通过网络诸如互联网、内联网以及/或者无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN)来与其他设备之间的通信成为可能。

在一些示例中，存储器402或存储器402的计算机可读存储介质可存储程序、模块、指令和数据结构，其包括以下内容中的全部或其子组：操作系统418、通信模块420、用户界面模块422、一个或多个应用程序424和数字助理模块426。具体地，存储器402或存储器402的计算机可读存储介质可存储用于执行下文描述的过程800的指令。一个或多个处理器404可执行这些程序、模块和指令，并且可从数据结构读取数据或将数据写到数据结构。

操作系统418(例如，Darwin、RTXC、LINUX、UNIX、iOS、OS X、WINDOWS或者嵌入式操作系统诸如VxWorks)可包括用于控制和管理一般系统任务(例如，存储器管理、存储设备控制、功率管理等)的各种软件组件和/或驱动器，并且促进各种硬件、固件与软件组件之间的通信。

通信模块420可促进数字助理系统400与其他设备之间通过网络通信接口408进行的通信。例如，通信模块420可与电子设备(例如，104,122)的通信子系统(例如，224,324)进行通信。通信模块420还可包括用于处理由无线电路414和/或有线通信端口412所接收的数据的各种部件。

用户界面模块422可经由I/O接口406来从用户(例如，来自键盘、触摸屏、指向设备、控制器和/或麦克风)接收命令和/或输入，并在显示器上生成用户界面对象。用户界面模块422还可准备输出(例如，语音、声音、动画、文本、图标、振动、触觉反馈、光照等)，并经由I/O接口406(例如，通过显示器、音频通道、扬声器和触摸板等)将其递送至用户。

应用程序424可包括被配置为由一个或多个处理器404执行的程序和/或模块。例如，如果数字助理系统400在独立式用户设备上实现，则应用程序424可包括用户应用程序，诸如游戏、日历应用程序、导航应用程序、或电子邮件应用程序。如果数字助理系统400在服务器上实现，则应用程序424可包括例如资源管理应用程序、诊断应用程序、或调度应用程序。

存储器402还可存储数字助理模块426(或数字助理的服务器部分)。在一些示例中，数字助理模块426可包括以下子模块，或包括它们的子集或超集：I/O处理模块428、语音转文本(STT)处理模块430、自然语言处理模块432、对话流处理模块434、任务流处理模块436、服务处理模块438、以及语音合成模块440。这些模块中的每个模块可具有对以下数字助理模块426的系统或数据与模型中的一者或多者或者其子集或超集的访问权限：知识本体460、词汇索引444、用户数据448、任务流模型454、服务模型456、和自动语音识别(ASR)系统431。

在一些示例中，使用在数字助理模块426中实现的处理模块、数据和模型，该数字助理可执行以下操作中的至少一些操作：将语音输入转换成文本；识别从用户接收的在自然语言输入中表达的用户意图；主动引出并获取充分推断用户意图所需的信息(例如，通过对字词、游戏、意向等消歧)；确定用于满足推断出的意图的任务流；以及执行任务流以满足推断出的意图。

在一些示例中，如图4B中所示，I/O处理模块428可通过图4A中的I/O设备416与用户进行交互或通过图4A中的网络通信接口408与电子设备(例如，设备104或设备122)进行交互，以获取用户输入(例如，语音输入)并提供对用户输入的响应(例如，作为语音输出)。I/O处理模块428在接收到用户输入时或在接收到用户输入之后不久可以可选地获取与来自电子设备的用户输入相关联的上下文信息。该上下文信息可包括特定于用户的数据、词汇和/或与用户输入相关的偏好。在一些示例中，该上下文信息还包括在接收到用户请求时的电子设备的软件和硬件状态，和/或与在接收到用户请求时的用户的周围环境相关的信息。在一些示例中，I/O处理模块428还可向用户发送与用户请求有关的跟进问题，并从用户接收回答。在用户请求被I/O处理模块428接收并且用户请求可包括语音输入时，I/O处理模块428可将语音输入转发至STT处理模块430(或语音识别器)，以进行语音文本转换。

STT处理模块430可包括一个或多个ASR系统(例如，ASR系统431)。一个或多个ASR系统可处理通过I/O处理模块428所接收的语音输入，以产生识别结果。每个ASR系统可包括前端语音预处理器。前端语音预处理器可从语音输入中提取代表性特征。例如，前端语音预处理器可对语音输入执行傅里叶变换，以提取表征语音输入的光谱特征作为代表性多维向量的序列。此外，每个ASR系统可包括一个或多个语音识别模型(例如，声音模型和/或语言模型)，并且可实现一个或多个语音识别引擎。语音识别模型的示例可包括隐马尔可夫模型、高斯混合模型、深层神经网络模型、n元语言模型以及其他统计模型。语音识别引擎的示例可包括基于动态时间规整的引擎和基于加权有限状态变换器(WFST)的引擎。一个或多个语音识别模型和一个或多个语音识别引擎可用于处理前端语音预处理器的所提取的代表性特征，以产生中间识别结果(例如，音素、音素串和子字词)，并且最终产生文本识别结果(例如，字词、字词串或符号的序列)。在一些示例中，语音输入可至少部分地由第三方服务处理或在电子设备(例如，设备104设备122)上处理以产生识别结果。一旦STT处理模块430产生包含文本串(例如，字词、字词的序列或符号的序列)的识别结果，该识别结果便可被传送至自然语言处理模块432以供意图推断。

在一些示例中，一个或多个ASR系统的一个或多个语言模型可被配置为偏向于媒体相关结果。在一个示例中，可使用媒体相关的文本的语料库来训练一个或多个语言模型。在另一个示例中，ASR系统可被配置为有利于媒体相关的识别结果。在一些示例中，一个或多个ASR系统可包括静态语言模型和动态语言模型。静态语言模型可使用文本的一般语料库来训练，而动态语言模型可使用特定于用户的文本来训练。例如，可使用与从用户所接收的先前语音输入的文本来生成动态语言模型。在一些示例中，一个或多个ASR系统可被配置为基于静态语言模型和/或动态语言模型来生成识别结果。此外，在一些示例中，一个或多个ASR系统可被配置为有利于与最近接收的先前语音输入对应的识别结果。

有关语音转文本处理的更多细节在于2011年9月20日提交的名为“ConsolidatingSpeech Recognition Results”的美国实用新型专利申请序列号13/236,942中有所描述，其全部公开内容以引用方式并入本文。

在一些示例中，STT处理模块430可包括可识别字词的词汇和/或可经由语音字母转换模块431来访问词汇。每个词汇字词可与以语音识别语音字母表示的字词的一个或多个候选发音相关联。具体地，可识别字词的词汇可包括与多个候选发音相关联的字词。例如，该词汇可包括与和的候选发音相关联的字词“tomato”。此外，词汇字词可与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音可被存储在STT处理模块430中并且可经由设备上的用户配置文件而与特定用户相关联。在一些示例中，可基于字词的拼写以及一个或多个语言学和/或语音学规则来确定字词的候选发音。在一些示例中，候选发音可手动生成，例如，基于已知的标准发音而手动生成。

在一些示例中，可基于候选发音的普遍性来对候选发音进行排名。例如，候选发音可比排名更高，因为(例如，在所有用户中，对于特定地理区域的用户而言，或者对于任何其他合适的用户子组而言)前者是更常用的发音。在一些示例中，可基于候选发音是否为与用户相关联的自定义候选发音来对候选发音进行排名。例如，自定义候选发音的排名可高于标准候选发音。这可用于识别具有偏离标准发音的独特发音的专有名词。在一些示例中，候选发音可与一个或多个语音特征相关联，诸如地理起源、国家或种族。例如，候选发音可与美国相关联，而候选发音可与英国相关联。此外，候选发音的排名可基于被存储在设备上的用户配置文件中的用户的一个或多个特征(例如，地理起源、国家、种族等)。例如，可从用户配置文件确定该用户与美国相关联。基于该用户与美国相关联，候选发音(与美国相关联)可比候选发音(与英国相关联)排名高。在一些示例中，经排名的候选发音中的一个候选发音可被选作预测发音(例如，最可能的发音)。

在接收到语音输入时，STT处理模块430可用于(例如，使用声音模型)确定与该语音输入对应的音素，并且然后可尝试(例如，使用语言模型)确定与该音素匹配的字词。例如，如果STT处理模块430可首先识别与该语音输入的一部分对应的音素序列则其随后可基于词汇索引444来确定该序列对应于字词“tomato”。

在一些示例中，STT处理模块430可使用模糊匹配技术来确定话语中的字词。因此，例如，STT处理模块430可确定音素序列对应于字词“tomato”，即使该特定音素序列不是该字词的候选音素序列。

数字助理的自然语言处理模块432(“自然语言处理器”)可采用由STT处理模块430生成的字词或符号的序列(“符号序列”)，并尝试使该符号序列与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”可表示可由数字助理执行并且可具有在任务流模型454中实现的相关联的任务流的任务。相关联的任务流可以是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围可取决于已在任务流模型454中实现并存储的任务流的数量和种类，或换言之，取决于数字助理所识别的“可执行意图”的数量和种类。然而，数字助理的有效性还可取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。

在一些示例中，除从STT处理模块430获取的字词或符号的序列之外，自然语言处理器432还可(例如，从I/O处理模块428)接收与用户请求相关联的上下文信息。自然语言处理模块432可以可选地使用上下文信息来明确、补充和/或进一步限定被包含在从STT处理模块430接收的符号序列中的信息。上下文信息可包括例如：用户偏好；用户设备的硬件和/或软件状态；在用户请求之前、期间或之后不久收集的传感器信息；数字助理与用户之间的先前交互(例如，对话)等。如本文所述，上下文信息可以是动态的，并且可随对话的时间、位置、内容以及其他因素而变化。

在一些示例中，自然语言处理可基于例如知识本体460。知识本体460可以是包含许多节点的分级结构，每个节点表示“可执行意图”或者与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述，“可执行意图”可表示数字助理能够执行的任务，即该任务为“可执行的”或可被进行的。“属性”可表示与可执行意图或另一属性的子方面相关联的参数。知识本体460中的可执行意图节点与属性节点之间的连接可定义由属性节点表示的参数如何与由可执行意图节点表示的任务相关。

在一些示例中，知识本体460可由可执行意图节点和属性节点组成。在知识本体460内，每个可执行意图节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节点。类似地，每个属性节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如，如图4C所示，知识本体460可包括“媒体”节点(即，可执行意图节点)。属性节点“一个或多个演员”、“媒体分类”和“媒体标题”可各自直接连接到可执行意图节点(即，“媒体搜索”节点)。另外，属性节点“名称”、“年龄”、“Ulmer scale排名”和“国籍”可以是属性节点“演员”的子节点。

在另一个示例中，如图4C所示，知识本体460还可包括“天气”节点(即，另一可执行意图节点)。属性节点“日期/时间”和“位置”可各自连接到“天气搜索”节点。应当认识到，在一些示例中，一个或多个属性节点可与两个或更多个可执行意图相关。在这些示例中，该一个或多个属性节点可连接到与知识本体460中的两个或更多个可执行意图对应的相应节点。

可执行意图节点连同其连接的概念节点一起可被描述为“域”。在本讨论中，每个域可与相应可执行意图相关联，并且可涉及与特定可执行意图相关联的一组节点(以及彼此间的关系)。例如，图4C中所示的知识本体460可包括知识本体460内的媒体域462的示例和天气域464的示例。媒体域462可包括可执行意图节点“媒体搜索”和属性节点“一个或多个演员”、“媒体分类”和“媒体标题”。天气域464可包括可执行意图节点“天气搜索”，以及属性节点“位置”和“日期/时间”。在一些示例中，知识本体460可由多个域组成。每个域可与一个或多个其他域共享一个或多个属性节点。

虽然图4C示出了知识本体460内的两个示例性域，但其他域可包括例如“运动员”、“股市”、“方向”、“媒体设置”、“运动队”、“时间”、以及“讲笑话”等。域“运动员”可与可执行意图节点“搜索运动员信息”相关联，并且可还包括属性节点诸如“运动员名称”、“运动员所属队”和“运动员统计信息”。

在一些示例中，知识本体460可包括数字助理能够理解并对其起作用的所有域(以及因此可执行的意图)。在一些示例中，知识本体460可诸如通过添加或移除整个域或节点或者通过修改知识本体460内的节点之间的关系而被修改。

在一些示例中，知识本体460中的每个节点可与和由节点表示的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语可以是与节点相关联的所谓的“词汇”。与每个节点相关联的相应组的字词和/或短语可被存储在词汇索引444中，该词汇索引与由节点表示的属性或可执行意图相关联。例如，返回图4C，与“演员”的属性的节点相关联的词汇可包括字词诸如“A列表”、“Reese Witherspoon”、“Arnold Schwarzenegger”、“Brad Pitt”等。在另一个示例中，与“天气搜索”的可执行意图的节点相关联的词汇可包括字词和短语诸如“天气”、“天气如何”、“预报”等。词汇索引444可以可选地包括不同语言的字词和短语。

自然语言处理模块432可从STT处理模块430接收符号序列(例如，文本串)，并确定符号序列中的字词牵涉哪些节点。在一些示例中，如果发现符号序列中的字词或短语(经由词汇索引444)与知识本体460中的一个或多个节点相关联，则该字词或短语可“触发”或“激活”这些节点。基于已激活节点的数量和/或相对重要性，自然语言处理模块432可选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些示例中，可选择具有最多“已触发”节点的域。在一些示例中，可(例如，基于其各个已触发节点的相对重要性)选择具有最高置信度的域。在一些示例中，可基于已触发节点的数量和重要性的组合来选择域。在一些示例中，在选择节点的过程中还要考虑附加因素，诸如数字助理先前是否已正确解译来自用户的类似请求。

用户数据448可包括用户特定的信息，诸如用户特定的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表、以及每位用户的其他短期或长期信息。在一些示例中，自然语言处理模块432可使用用户特定的信息来补充被包含在用户输入中的信息，以进一步限定用户意图。例如，对于用户请求“本周天气如何”，自然语言处理模块432可访问用户数据448来确定用户位于何处，而不是要求用户在其请求中明确地提供此类信息。

基于符号串搜索知识本体的其他细节在于2008年12月22日提交的名为“Methodand Apparatus for Searching Using An Active Ontology”的美国实用新型专利申请序列号12/341,743中有所描述，其全部公开内容以引用方式并入本文。

在一些示例中，一旦自然语言处理模块432基于用户请求识别出可执行意图(或域)，自然语言处理模块432便可生成结构化查询来表示识别的可执行意图。在一些示例中，结构化查询可包括域内针对可执行意图的一个或多个节点的参数，并且该参数中的至少一些参数填充有在用户请求中指定的特定信息和要求。例如，用户可以说“为我查找这个电视连续剧的其他几个季。”。在这种情况下，自然语言处理模块432可基于用户输入来将可执行意图正确地识别为“媒体搜索”。根据知识本体，用于“媒体”域的结构化查询可包括参数，诸如{媒体演员}、{媒体分类}、{媒体标题}等。在一些示例中，基于语音输入和使用STT处理模块430从语音输入得出的文本，自然语言处理模块432可针对餐厅预订域来生成部分结构化查询，其中该部分结构化查询包括参数{媒体分类＝“电视连续剧”}。然而，在该示例中，用户话语包含不足以完成与域相关联的结构化查询的信息。因此，基于当前可用信息，在结构化查询中可能未指定其他必要参数，诸如{媒体标题}。在一些示例中，自然语言处理模块432可使用所接收的上下文信息来填充结构化查询的一些参数。例如，当前在媒体设备上正在播放电视连续剧“Mad Men”。基于该上下文信息，自然语言处理模块432可使用“Mad Men”来填充结构化查询中的{媒体标题}参数。

在一些示例中，自然语言处理模块432可将结构化查询(包括任何已完成的参数)传送至任务流处理模块436(“任务流处理器”)。任务流处理模块436可被配置为从自然语言处理模块432接收结构化查询，并且在必要时完成结构化查询，并且执行“完成”用户最终请求所需的动作。在一些示例中，可在任务流模型454中提供完成这些任务所必需的各种过程。在一些示例中，任务流模型454可包括用于获取来自用户的附加信息的过程，以及用于执行与可执行意图相关联的动作的任务流。

如上所述，为了完成结构化查询，任务流处理模块436可能需要发起与用户的附加对话，以便获取附加信息和/或对可能有歧义的话语进行消歧。当有必要进行此类交互时，任务流处理模块436可调用对话流处理模块434来参与和用户的对话。在一些示例中，对话流处理模块434可确定如何(和/或何时)向用户请求附加信息，并且可接收和处理用户响应。通过I/O处理模块428可将问题提供至用户并可从用户接收回答。在一些示例中，对话流处理模块434可经由音频和/或视频输出来向用户呈现对话输出，并且可接收经由口头或物理(例如，点击)响应的来自用户的输入。例如，用户可问“Paris的天气如何？”当任务流处理模块436调用对话流处理模块434来确定与域“天气搜索”相关联的结构化查询的“位置”信息时，对话流处理模块434可生成诸如“哪个Paris？”等问题传送给用户。此外，对话流处理模块434可使得与“得克萨斯州的Paris”和“法国的Paris”相关联的示能表示将被呈现，以供用户选择。一旦接收到来自用户的响应，对话流处理模块434便可利用缺失信息来填充结构化查询，或将信息传送给任务流处理模块436以来自完成结构化查询的缺失信息。

一旦任务流处理模块436已针对可执行意图完成结构化查询，任务流处理模块436便可开始执行与可执行意图相关联的最终任务。因此，任务流处理模块436可根据结构化查询中包含的特定参数来执行任务流模型454中的步骤和指令。例如，“媒体搜索”的可执行意图的任务流模型可包括用于执行媒体搜索查询以获取相关媒体项的步骤和指令。例如，通过使用结构化查询诸如：{媒体搜索，媒体分类＝电视连续剧，媒体标题＝Mad Men}，任务流处理模块436可执行以下步骤：(1)使用媒体数据库来执行媒体搜索查询以获取相关媒体项；(2)根据相关性和/或流行度来对所获取的媒体项进行排名，以及(3)根据相关性和/或流行度来显示经分类的媒体项。

在一些示例中，任务流处理模块436可在服务处理模块438(“服务处理模块”)的帮助下完成在用户输入中所请求的任务或提供在用户输入中所请求的信息性回答。例如，服务处理模块438可代表任务流处理模块436来执行媒体搜索、检索天气信息、调用被安装在其他用户设备上的应用程序或与其进行交互，并且调用第三方服务(例如，社交网站、媒体评论网站、媒体订阅服务等)或与所述第三方服务进行交互。在一些示例中，可通过服务模型456中的相应服务模型来指定每项服务所需的协议和API。服务处理模块438可针对服务来访问适当的服务模型，并依服务模型根据该服务所需的协议和API来生成针对该服务的请求。

例如，第三方媒体搜索服务可提交用于指定用于执行媒体搜索的必要参数的服务模型，以及用于将必要参数的值传送到媒体搜索服务的API。当任务流处理模块436发出请求时，服务处理模块438可建立与媒体搜索服务的网络连接，并且以根据媒体搜索服务的API的格式来向在线预订界面发送媒体搜索的必要参数(例如，媒体演员、媒体类型、媒体标题)。

在一些示例中，自然语言处理模块432、对话流处理模块434以及任务流处理模块436可被共同并且反复地使用，以推断并限定用户的意图、获取信息以进一步明确并细化用户意图，并且最终生成响应(即，输出至用户或完成任务)以满足用户的意图。所生成的响应可以是至少部分地满足用户的意图的对语音输入的对话响应。此外，在一些示例中，所生成的响应可被输出为语音输出。在这些示例中，所生成的响应可被发送至语音合成模块440(例如，语音合成器)，其中该响应可被处理，以将该对话响应合成为语音形式。在其他示例中，所生成的响应可以是与满足语音输入中的用户请求相关的数据内容。

语音合成模块440可被配置为合成语音输出，以供呈现给用户。语音合成模块440基于数字助理提供的文本来合成语音输出。例如，所生成的对话响应可为文本串的形式。语音合成模块440可将文本串转换成可听语音输出。语音合成模块440可使用任何适当的语音合成技术，以便从文本生成语音输出，该任何适当的语音合成技术包括但不限于：拼接合成、单位选择合成、双音子合成、域特定合成、格式合成、发音合成、基于隐马尔可夫模型(HMM)的合成、以及正弦波合成。在一些示例中，语音合成模块440可被配置为基于与字词对应的音素串来合成各个字词。例如，音素串可与所生成的对话响应中的字词相关联。音素串可被存储在与字词相关联的元数据中。语音合成模块440可被配置为直接处理元数据中的音素串，以合成语音形式的字词。

在一些示例中，替代使用语音合成模块440(或除此之外)，语音合成可在远程设备(例如，服务器系统108)上执行，并且合成的语音可发送至用户设备，以供输出给用户。例如，这可发生在一些具体实施中，其中在服务器系统处生成数字助理的输出。并且由于服务器系统通常比用户设备具有更强的处理能力或更多的资源，其有可能获取比客户端侧合成将实现的质量更高的语音输出。

有关数字助理的更多细节可见于2011年1月10日提交的名称为“IntelligentAutomated Assistant”的美国实用新型专利申请号12/987,982，以及2011年9月30日提交的名称为“Generating and Processing Task Items That Represent Tasks toPerform”的美国实用新型专利申请号13/251,088中，这两个专利申请的全部公开内容以引用方式并入本文。

4.用于在媒体环境中与数字助理进行交互的过程

图5A至图5I示出了根据各种示例的用于操作媒体系统的数字助理的过程500。可使用实现数字助理的一个或多个电子设备来执行过程500。例如，可使用上述系统100、媒体系统128、媒体设备104、用户设备122或数字助理系统400中的一者或多者来执行过程500。图6A至图6Q示出了根据各种示例的在过程500的各个阶段由媒体设备在显示单元上显示的屏幕截图。下面同时参考图5A至图5I和图6A至图6Q来对过程500进行描述。应当理解，过程500中的一些操作可组合，一些操作的顺序可改变，而一些操作可省略。

在过程500的框502处，可在显示单元(例如，显示单元126)上显示内容。在图6A所示的本示例中，所显示的内容可包括在媒体设备(例如，媒体设备104)上播放的媒体内容602(例如，电影、视频、电视节目、视频游戏等)。在其他示例中，所显示的内容可包括与媒体设备相关联的其他内容，诸如与媒体设备上运行的应用程序相关联的内容，或用于与媒体设备的数字助理进行交互的用户界面。具体地，所显示的内容可包括主菜单用户界面或包含用户先前请求的对象或结果的用户界面(例如，第二用户界面618或第三用户界面626)。

在过程500的框504处，可检测用户输入。可在显示框502的内容时检测用户输入。在一些示例中，可在媒体设备的遥控器(例如，遥控器124)上检测用户输入。具体地，用户输入可以是用户与遥控器的交互，诸如按压按钮(例如，按钮274)或接触遥控器的触敏表面(例如，触敏表面278)。在一些示例中，可经由被配置为与媒体设备进行交互的第二电子设备(例如，设备122)来检测用户输入。响应于检测到用户输入，可执行框506至框592中的一个或多个框。

在过程500的框506处，可确定用户输入是否对应于第一输入类型。第一输入类型可以是至媒体设备的预定义的输入。在一个示例中，第一输入类型可包括按压遥控器的特定按钮，并在按压该按钮的预先确定的持续时间内释放该按钮(例如，短按)。媒体设备可确定用户输入是否与第一输入类型相匹配。根据确定用户输入对应于第一输入类型，可执行框508至框514中的一个或多个框。

在过程500的框508处，并且参考图6B，可显示用于调用数字助理并与其进行交互的文本指令604。具体地，指令604可描述调用数字助理并与其交互所需的用户输入。例如，指令604可解释如何执行下面在框516处描述的第二输入类型。

在过程500的框510处，如图6B中所示，被动视觉指示符606可被显示在显示单元上。被动视觉指示符606可指示数字助理尚未被调用。具体地，媒体设备的麦克风(例如，麦克风272)可响应于检测到用户输入而不被激活。因此，被动视觉指示符606可用作数字助理并未正在处理音频输入的视觉信号。在本示例中，视觉指示符606可以是不响应于用户的语音的被动平坦波形。此外，被动视觉指示符606可包括中性色(例如，黑色、灰色等)，以指示其被动状态。应当认识到，对于被动视觉指示符可预期其他视觉图案或图像。被动视觉指示符606可与指令604同时被显示。此外，可在执行框512至框514中的一个或多个框时连续显示被动视觉指示符606。

在过程500的框512处，并且参考图6C，用于执行键入搜索的指令608可被显示在显示单元上。具体地，指令608可描述显示可用于执行键入搜索的虚拟键盘界面所需的用户输入。在一些示例中，用于调用数字助理并与其进行交互的指令604和用于执行键入搜索的指令608可按顺序在不同的时间被显示。例如，对指令608的显示可替换对指令604的显示，或反之亦然。在本示例中，指令604,608是文本形式。应当认识到，在其他示例中，指令604,608可以是图形形式(例如，图片、符号、动画等)。

在过程500的框514处，可在显示单元上显示一个或多个示例性自然语言请求。例如，图6D至图6E示出了显示在显示单元上的两种不同的示例性自然语言请求610,612。在一些示例中，示例性自然语言请求可经由显示单元上的第一用户界面而被显示。第一用户界面可被覆盖在所显示的内容上。示例性自然语言请求可向用户提供与数字助理进行交互的指导。此外，示例性自然语言请求可告知用户数字助理的各种能力。响应于接收到与示例性自然语言请求中的一个示例性自然语言请求对应的用户话语，数字助理可使得执行相应动作。例如，响应于媒体设备的数字助理被调用(例如，通过框504处的第二输入类型的用户输入)并且(例如，在框518处)提供有“向前跳30秒”的用户话语，数字助理可使得在媒体设备上播放的媒体内容向前跳30秒。

所显示的示例性自然语言请求可与正在显示的内容(例如，媒体内容602)上下文相关。例如，一组示例性自然语言请求可被存储在媒体设备上或独立的服务器上。该组示例性自然语言请求中的每个示例性自然语言请求可与一个或多个上下文属性(例如，正在播放的媒体内容、主页、iTunes媒体商店、演员、电影、天气、体育、股市等)相关联。在一些示例中，框514可包括从具有对应于与显示单元上的显示内容对应的上下文属性的该组示例性自然语言请求识别示例性自然语言请求。然后可在显示单元上显示所识别的示例性自然语言请求。因此，针对显示单元上的不同显示内容可显示不同的示例性自然语言请求。显示上下文相关的示例性自然语言请求可用于方便地告知用户与媒体设备上的用户的当前使用条件最相关的数字助理的能力。这样可改善整体用户体验。

在图6D至图6E所示的本示例中，示例性自然语言请求610和示例性自然语言请求612可各自与显示单元上的媒体内容602上下文相关。具体地，示例性自然语言请求610和示例性自然语言请求612可以是用于修改或控制与在媒体设备上播放的媒体内容相关联的一个或多个设置的请求。此类示例性自然语言请求可包括用于以下操作的请求：打开/关闭隐藏式字幕、打开特定语言的字幕、快退/向前跳、暂停播放媒体内容、重新开始播放媒体内容、减慢或加快播放媒体内容、提高/降低媒体内容的音量(例如，音频增益)等。此外，与媒体内容602上下文相关的其他示例性自然语言请求可包括用于以下操作的请求：向用户的观看列表添加与媒体内容602对应的媒体项、显示与媒体内容602相关的信息(例如，演员信息、剧情简介、发行日期等)、显示与媒体内容602相关的其他媒体项或内容(例如，同一系列、同一季、同一演员/导演、同一分类等)，等等。

在所显示的内容包括与媒体设备的应用程序相关联的内容的示例中，上下文相关的示例性自然语言请求可包括用于修改应用程序的一个或多个设置或状态的请求。具体地，示例性自然语言请求可包括用于打开或关闭应用程序或者操控应用程序的一个或多个特征的请求。

在一些示例中，所显示的内容可包括用于搜索、浏览或选择项目的用户界面(例如，第二用户界面618或第三用户界面626)。具体地，所显示的用户界面可包括一个或多个媒体项。此外，用户界面的焦点可位于一个或多个媒体项中的媒体项(例如，在图6G中由光标624突出显示的媒体项623)上。在这些示例中，上下文相关的示例性自然语言请求可包括对有关所显示的用户界面中的一个或多个媒体项的信息或其他媒体项的请求。具体地，示例性自然语言请求可包括与作为用户界面的焦点的媒体项相关的请求。在这些示例中，示例性自然语言请求可包括多个请求，诸如“它的内容是什么？”、“它排名多少？”、“其中有谁？”、“下一集何时出现？”、“为我显示更多这样的电影。”以及“为我显示由同一演员主演的电影。”。在特定示例中，可经由用户界面来显示与一个媒体项或一系列媒体项相关的信息，诸如电视连续剧Mad Men。在该示例中，上下文相关的示例性自然语言请求可包括基于媒体项或一系列媒体项(例如，January Jones参加的其他节目)的一个或多个属性(例如，阵容、情节、排名、发行日期、导演、提供方等)的要求。此外，上下文相关的示例性自然语言请求可包括用于播放、选择或获取所聚焦的媒体项或在用户界面中显示的另一媒体项的请求(例如，“租这个。”、“播放这个。”、“买这个。”或“播放How to Train Your Dragon 2。”)，或包括用于在用户界面中导航媒体项(例如，“转到喜剧。”或“跳转到恐怖电影。”)的请求。此外，在这些示例中，上下文相关的示例性自然语言请求可包括用于搜索其他媒体项的请求(例如，“查找新喜剧。”、“显示免费且好看的电影。”或“由Nicole Kidman主演的节目有哪些？”)。

在一些示例中，所显示的内容可包括根据特定类别或主题组织的媒体项。在这些示例中，上下文相关的示例性自然语言请求可包括与该特定类别或主题相关的请求。例如，在所显示的内容包括根据各种演员组织的媒体项的示例中，上下文相关的示例性自然语言请求可包括对与演员相关的信息或媒体项的请求(例如，“由Jennifer Lawrence主演的电影有哪些？”、“Scarlett Johansson年龄多大？”、“Brad Pitt的最新电影有哪些？”)。在所显示的内容包括根据节目频道或内容提供方(例如，频道页面或电视指南页面)组织的媒体项的另一示例中，上下文相关的示例性自然语言请求可包括对与节目频道或内容提供方相关的信息或媒体项的请求(例如，“一小时之后播放什么？”、“HBO在黄金时段播放什么？”、“调到ABC。”或“哪些频道正在播放篮球比赛？”)。在所显示的内容包括用户最近选择(例如，“最近播放”列表)的媒体项或被识别为用户感兴趣的媒体项(例如，“观看列表”)的另一示例中，上下文相关的示例性自然语言请求可包括用于观看或继续观看媒体项中的一者的请求(例如，“从上次停止的地方开始继续播放。”、“继续观看Birdman。”或“从头开始播放。”)。

在一些示例中，所显示的内容可包括包含与特定主题对应的结果或信息的用户界面。具体地，结果可与先前的用户请求(例如，对数字助理的请求)相关联，并且可包括与主题诸如天气、股市或体育对应的信息。在这些示例中，上下文相关的示例性自然语言请求可包括用于细化结果的请求或对有关特定主题的附加信息的请求。例如，在所显示的内容包括特定位置的天气信息的示例中，上下文相关的示例性自然语言请求可包括用于显示另一位置或不同的时间范围的附加天气信息的请求(例如，“在New York市如何？”、“下周是什么样？”、“Hawaii呢？”等)。在所显示的内容包括与运动队或运动员相关的信息的另一示例中，上下文相关的示例性自然语言请求可包括用于提供与运动队或运动员相关的附加信息的请求(例如，“Shaquille O’Neal有多高？”、“Tom Brady是什么时候出生的？”、“49ers的下一场比赛什么时候开始？”、“Manchester United在最后一场比赛中的表现如何？”、“LALakers的控球后卫是谁？”等)。在所显示的内容包括与股市相关的信息的另一示例中，上下文相关的示例性自然语言请求可包括对附加的股市相关信息的请求(例如，“S&P 500的开盘价是多少？”、“Apple的股价走势如何？”、“昨天的道琼斯指数收盘价是多少？”等)。此外，在一些示例中，所显示的内容可包括包含与先前的用户请求相关联的媒体搜索结果的用户界面。在这些示例中，上下文相关的示例性自然语言请求可包括用于细化所显示的媒体搜索结果的请求(例如，“只查找自去年上映的那些”、“只查找那些评级为G的”、“只查找免费的”)，或用于执行不同的媒体搜索的请求(例如，“查找好看的动作电影”、“为我显示一些成龙出演的电影”等)。

在一些示例中，所显示的内容可包括媒体设备的主菜单用户界面。主菜单用户界面可以是例如主屏幕或媒体设备的根目录。在这些示例中，上下文相关的示例性自然语言请求可包括表示数字助理的各种能力的请求。具体地，数字助理可具有与媒体设备相关联的一组核心竞争力，并且上下文相关的示例性自然语言请求可包括与数字助理的每个核心竞争力相关的请求(例如，“为我显示一些好看且免费的电影”、“天气怎么样”、“播放Breaking Bad的下一集”或“Apple的股价是多少？”)。

示例性自然语言请求可以是自然语言形式。这可用于告知用户数字助理能够理解自然语言请求。此外，在一些示例中，示例性自然语言请求可以是上下文模糊的，从而告知用户数字助理能够基于所显示的内容来推断与用户的请求相关联的正确的用户意图。具体地，如上述示例所示，示例性自然语言请求可包括上下文模糊的术语诸如“这个”或“一些”，或上下文模糊的短语诸如“只查找免费的。”或“在New York如何？”。这些示例性自然语言请求可告知用户数字助理能够基于所显示的内容来确定与此类请求相关联的正确的上下文。这将鼓励用户在与数字助理进行交互时依赖于所显示的内容的上下文，这样可促进与数字助理的更自然的交互式体验是可取的。

在一些示例中，框514可在框508至框512之后执行。具体地，在框506处确定用户输入对应于第一输入类型之后可在预先确定量的时间在显示单元上显示示例性自然语言请求。应当认识到，在一些示例中，可按任何顺序来执行框508至框514，并且在一些示例中，可同时执行框508至框514中的两个或更多个框。

在一些示例中，示例性自然语言请求按预先确定的顺序轮番显示。每个示例性自然语言请求可在不同的时间单独显示。具体地，可利用对后续示例性自然语言请求的显示来替换对当前示例性自然语言请求的显示。例如，如图6D中所示，可最先显示示例性自然语言请求610。在预先确定量的时间之后，可利用对示例性自然语言请求612(“播放下一集”)的显示来替换对示例性自然语言请求610(“向前跳30秒”)的显示，如图6E所示。因此，在该示例中，示例性自然语言请求610和示例性自然语言请求612一次显示一个，而不是同时显示。

在一些示例中，示例性自然语言请求可被分成多个列表，其中每个列表包括一个或多个示例性自然语言请求。在这些示例中，框514可包括在显示单元上显示示例性自然语言请求的列表。每个列表可按预先确定的顺序在不同的时间显示。此外，这些列表可轮番显示。

当执行框508至框514中的一个或多个框时，所显示的内容可继续在显示单元上显示。例如，如图6B至图6E所示，在执行框508至框512时，媒体内容602可继续在媒体设备上播放并在显示单元上显示。此外，在播放媒体内容时可由媒体设备输出与该媒体内容相关联的音频。在一些示例中，响应于检测到用户输入或根据确定用户输入对应于第一输入类型，不减小音频振幅。这样可减少对正在播放的媒体内容602的消费的干扰是可取的。因此，虽然元素604至元素612正在显示单元上显示，但用户仍然可经由音频输出来继续关注媒体内容602。

在一些示例中，如图6B至图6D中的媒体内容602的轮廓字体所表示的，响应于检测到用户输入或者根据确定用户输入对应于第一输入类型，可降低所显示的内容的亮度(例如，降低20％至40％)。在这些示例中，所显示的元素604至元素612可覆盖在所显示的媒体内容602上。降低亮度可用于突出显示所显示的元素604至元素612。与此同时，媒体内容602在显示单元上仍然是可辨别的，从而使得用户在元素604至元素612显示时能够继续消费媒体内容602。

在执行框508至框512中的一个框时，可(例如，通过在框504处检测第二输入类型的用户输入)调用数字助理，并且可(例如，在框518处)接收与示例性自然语言请求中的一个示例性自然语言请求对应的用户话语。然后，数字助理可(例如，在框532处)响应于所收到的请求来执行任务。下文参考图5B至图5I提供了关于调用数字助理并与其进行交互的更多细节。此外，在执行框508至框512中的一个框时，可(例如，通过在框558处检测第五用户输入)调用虚拟键盘界面来执行键入搜索。下文参考图5G提供了关于调用虚拟键盘界面并执行键入搜索的更多细节。

再次参考框506，根据确定用户输入不对应于第一输入类型，可执行图5B的框516至框530中的一个或多个框。在框516处，可确定用户输入是否对应于第二输入类型。第二输入类型可以是至媒体设备的不同于第一输入类型的预定义的输入。在一些示例中，第二输入类型可包括按压媒体设备的遥控器上的特定按钮，并按住该按钮超过预先确定的持续时间(例如，长按)。第二输入类型可与调用数字助理相关联。在一些示例中，可使用遥控器的相同按钮(例如，被配置为调用数字助理的按钮)来实现第一输入类型和第二输入类型。这样可将对数字助理的调用和提供用于调用数字助理并与其进行交互的指令直观地集成到单个按钮中是可取的。此外，缺乏经验的用户可直观地实现短按，而不是长按。因此，响应于检测到短按而提供指令可使得指令主要针对缺乏经验的用户，而不是有经验的用户。这可通过将指令轻松显示给最需要指导的缺乏经验的用户同时允许有经验的用户选择绕过指令的选项来改善用户体验。

根据确定框516处的用户输入对应于第二输入类型，可执行框518至框530中的一个或多个框。在一些示例中，在执行框518至框530中的一个或多个框时，可在媒体设备上继续播放媒体内容602。具体地，在框518处对音频数据进行采样以及在框528处执行任务时，媒体内容602可在媒体设备上继续播放并且在显示单元上继续显示。

在过程500的框518处，可对音频数据进行采样。具体地，可激活媒体设备的第一麦克风(例如，麦克风272)，以开始对音频数据进行采样。在一些示例中，经采样的音频数据可包括来自用户的用户话语。用户话语可表示针对数字助理的用户请求。此外，在一些示例中，用户请求可以是用于执行任务的请求。具体地，用户请求可以是媒体搜索请求。例如，参考图6F，经采样的音频数据可包括用户话语“查找由Reese Witherspoon主演的浪漫喜剧。”。在其他示例中，用户请求可以是用于播放媒体项或提供特定信息(例如，天气、股市、体育等)的请求。

经采样的音频数据中的用户话语可以是自然语言形式。在一些示例中，用户话语可表示部分指定的用户请求，其中通过该用户话语没有明确定义满足用户请求所需的所有信息。例如，用户话语可以是“播放下一集。”。在该示例中，用户请求没有明确定义要播放哪个媒体系列的下一集。此外，在一些示例中，用户话语可包括一个或多个模糊术语。

对音频数据进行采样的持续时间可基于对终点的检测。具体地，可在从最初检测到第二输入类型的用户输入的开始时间至检测到终点的结束时间对音频数据进行采样。在一些示例中，终点可基于用户输入。具体地，可在最初检测到第二输入类型的用户输入(例如，按压按钮超过预先确定的持续时间)时激活第一麦克风。在继续检测到第二输入类型的用户输入时，第一麦克风可保持激活状态以对音频数据进行采样。一旦检测不到第二输入类型的用户输入(例如，按钮被释放)，便可去激活第一麦克风。因此，在这些示例中，在检测到用户输入的结束时检测到终点。因此，在检测第二输入类型的用户输入时对音频数据进行采样。

在其他示例中，检测终点可基于经采样的音频数据的一个或多个音频特征。具体地，可监测经采样的音频数据的一个或多个音频特征，并且可在确定一个或多个音频特征不满足一个或多个预先确定标准之后的预先确定时间检测到终点。在其他示例中，可基于固定的持续时间来检测终点。具体地，可在最初检测到第二输入类型的用户输入之后在预先确定的持续时间检测到终点。

在一些示例中，在执行框504或框516时，可(例如，使用扬声器268)输出与所显示的内容相关联的音频。具体地，该音频可以是在媒体设备上播放并显示在显示单元上的媒体项的音频。可经由来自媒体设备的音频信号来输出音频。在这些示例中，在确定用户输入对应于第二输入类型并且在对音频数据进行采样时，可使与所显示的内容相关联的音频闪避(例如，减小音频的振幅)。例如，可通过减小与音频信号相关联的增益来使音频闪避。在其他示例中，在框518处对音频数据进行采样时，可停止与媒体内容相关联的音频的输出。例如，可通过阻止或干扰音频信号来停止音频输出。使音频输出闪避或停止可降低经采样的音频数据中的背景噪声，并增加与用户话语相关联的语音信号的相对强度。此外，音频的闪避或停止可用作提示用户开始向数字助理提供语音输入的音频提示。

在一些示例中，可在对音频数据进行采样时对背景音频数据进行采样，从而消除噪声。在这些示例中，遥控器或媒体设备可包括第二麦克风。第二麦克风可在不同于第一麦克风(例如，与第一麦克风相对)的方向上进行取向。可激活第二麦克风，以在对音频数据进行采样时对背景音频数据进行采样。在一些示例中，背景音频数据可用于消除音频数据中的背景噪声。在其他示例中，媒体设备可生成用于输出与所显示的内容相关联的音频的音频信号。所生成的音频信号可用于从音频数据中消除背景噪声。从音频信号中消除背景噪声可特别适合于媒体环境中的与数字助理的交互。这可能是由于消费媒体内容的公共性质，其中来自多个个体的话语可在音频数据中混合。通过消除音频数据中的背景噪声，可获取音频数据中更高的信噪比，这在处理用户请求的音频数据时是可取的。

在过程500的框520处并参考图6F，主动视觉指示符614可在显示单元上显示。主动视觉指示符614可向用户指示数字助理被调用且在主动收听。具体地，主动视觉指示符614可用作提示用户开始向数字助理提供语音输入的视觉提示。在一些示例中，主动视觉指示符614可包括颜色和/或视觉动画，以指示数字助理被调用。例如，如图6F所示，主动视觉指示符614可包括响应于由数字助理接收的音频数据的一个或多个特征(例如，振幅)的主动波形。例如，主动视觉指示符614响应于音频数据中较大声的部分而显示具有较大振幅的波形，并且响应于音频数据中较轻声的部分而显示具有较小振幅的波形。此外，在显示被动视觉指示符606(例如，图6E)时调用数字助理的示例中，可利用对主动视觉指示符614的显示来替换对视觉指示符606的显示。这样可提供从图6B至图6E中所示的用于演示如何调用数字助理并与其进行交互的指导性用户界面到图6F中所示的用于主动地与数字助理进行交互的主动用户界面的自然转换。

在过程500的框522处，可确定经采样的音频数据中的用户话语的文本表示。例如，可通过对经采样的音频数据执行语音转文本(STT)处理来确定文本表示。具体地，可使用STT处理模块(例如，STT处理模块430)来处理经采样的音频数据，以将经采样的音频数据中的用户话语转换成文本表示。文本表示可以是表示对应的文本串的符号串。

在一些示例中，可使STT处理偏向于媒体相关的文本结果。可通过利用使用媒体相关的文本的语料库训练的语言模型来实现偏置。除此之外或作为另外一种选择，可通过对与媒体相关的候选文本结果进行更重的加权来实现偏置。这样，与媒体相关的候选文本结果在利用偏置时可比没有偏置时排名更高。对于增加媒体相关用户话语(例如，电影名称、电影演员等)的STT处理的准确性，偏置可能是可取的。例如，在不偏向媒体相关文本结果的情况下，在典型的文本语料库中可能很少找到某些媒体相关的字词或短语，例如“JurassicPark”、“Arnold Schwarzenegger”和“Shrek”，并因此可能无法在STT处理期间成功地识别这些字词或短语。

在一些示例中，可从独立设备(例如，DA服务器106)获取文本表示。具体地，可将经采样的音频数据从媒体设备传输至独立设备，以执行STT处理。在这些示例中，媒体设备可(例如，通过被传输到具有经采样的音频数据的独立设备的数据)向独立设备指示经采样的音频数据与媒体应用程序相关联。该指示可使STT处理偏向于媒体相关的文本结果。

在一些示例中，文本表示可基于在对音频数据采样之前由媒体设备接收的先前用户话语。具体地，与先前用户话语的一个或多个部分对应的经采样的音频数据的候选文本结果可被更重地加权。在一些示例中，先前的用户话语可用于生成语言模型，并且所生成的语言模型可用于确定经采样的音频数据中的当前用户话语的文本表示。在接收和处理附加用户话语时，可动态地更新语言模型。

此外，在一些示例中，文本表示可基于在对音频数据采样之前接收到先前用户话语的时间。具体地，对与相对于经采样的音频数据更近期地接收的先前用户话语对应的候选文本结果的加权可重于对与相对于经采样的音频数据更早接收的先前用户话语对应的候选文本结果的加权。

在过程500的框524处，文本表示可在显示单元上显示。例如，图6F示出了与经采样的音频数据中的用户话语对应的文本表示616。在一些示例中，在对音频数据进行采样时可执行框522和框524。具体地，可通过流方式显示用户话语的文本表示616，使得在对音频数据进行采样以及对经采样的音频数据执行STT处理时，实时显示文本表示616。显示文本表示616可向用户提供数字助理正在正确处理用户请求的确认。

在过程500的框526处，可确定与用户话语对应的用户意图。可通过对框522的文本表示执行自然语言处理来确定用户意图。具体地，可使用自然语言处理模块(例如，自然语言处理模块432)来处理文本表示，以得到用户意图。例如，参考图6F，从与“查找由ReeseWitherspoon主演的浪漫喜剧”对应的文本表示616可确定用户意图是请求搜索分类为浪漫喜剧并且演员Reese Witherspoon出演的媒体项。在一些示例中，框526可还包括使用自然语言处理模块来生成用于表示所确定的用户意图的结构化查询。在“查找由ReeseWitherspoon主演的浪漫喜剧”的本示例中，可生成表示对于分类为浪漫喜剧并且演员Reese Witherspoon出演的媒体项的媒体搜索查询的结构化查询。

在一些示例中，用于确定用户意图的自然语言处理可偏向于媒体相关的用户意图。具体地，可训练自然语言处理模块来识别用于触发知识本体中的媒体相关的节点的媒体相关的字词和短语(例如，媒体标题、媒体分类、演员、MPAA电影评级标签等)。例如，自然语言处理模块可将文本表示中的短语“Jurassic Park”识别为电影标题，并由此触发与搜索媒体项的可执行意图相关联的知识本体中的“媒体搜索”节点。在一些示例中，可通过将知识本体中的节点限制于预先确定组的媒体相关的节点来实现偏置。例如，该组媒体相关的节点可以是与媒体设备的应用程序相关联的节点。此外，在一些示例中，相比于与媒体不相关的候选用户意图，可对与媒体相关的候选用户意图进行更重的加权来实现偏置。

在一些示例中，可从独立设备(例如，DA服务器106)获取用户意图。具体地，音频数据可被传输至独立设备以执行自然语言处理。在这些示例中，媒体设备可(例如，经由被传输至具有经采样的音频数据的独立设备的数据)向独立设备指示经采样的音频数据与媒体应用程序相关联。该指示可使自然语言处理偏向于媒体相关的用户意图。

在过程500的框528处，可确定经采样的音频数据是否包含用户请求。可根据框526的已确定用户意图来作出该确定。如果用户意图包括用于执行任务的用户请求，则可确定经采样的音频数据包含用户请求。相反，如果用户意图不包括用于执行任务的用户请求，则可确定经采样的音频数据不包含用户请求。此外，在一些示例中，如果在框526处不能从文本表示确定用户意图或者在框522处不能从经采样的音频数据确定文本表示，则可确定经采样的音频数据不包含用户请求。根据确定音频数据不包含用户请求，可执行框530。

在过程500的框530处，可在显示单元上显示用于澄清用户意图的请求。在一个示例中，用于澄清的请求可以是要求用户重复用户请求的请求。在另一个示例中，用于澄清的请求可以是数字助理无法理解用户话语的陈述。在又一示例中，可显示错误消息来指示无法确定用户的意图。此外，在一些示例中，根据确定音频数据不包含用户请求，可不提供响应。

参考图5C，根据在框528处确定经采样的音频数据包含用户请求，可执行框532。在过程500的框532处，可执行至少部分地满足用户请求的任务。例如，在框526处执行任务可包括执行在框526的所生成的结构化查询中定义的一个或多个任务。可使用数字助理的任务流处理模块(例如，任务流处理模块436)来执行一个或多个任务。在一些示例中，任务可包括改变媒体设备上的应用程序的状态或设置。更具体地，任务可包括例如选择或播放所请求的媒体项、打开或关闭所请求的应用程序，或以所请求的方式在所显示的用户界面中进行导航。在一些示例中，可在框532处执行任务并且不从媒体设备输出与任务相关的语音。因此，虽然在这些示例中用户可通过语音的形式向数字助理提供请求，但是数字助理可不以语音形式向用户提供响应。相反，数字助理可通过在显示单元上显示结果而仅在视觉上作出响应。这样可保留消费媒体内容的公共体验是可取的。

在其他示例中，任务可包括检索和显示所请求的信息。具体地，在框532处执行任务可包括执行框534至框536中的一个或多个框。在过程500的框534处，可获取至少部分地满足用户请求的结果。可从外部服务(例如，外部服务120)获取结果。在一个示例中，用户请求可以是执行媒体搜索查询的请求，诸如“查找由Reese Witherspoon主演的浪漫喜剧。”。在该示例中，框534可包括执行所请求的媒体搜索(例如，使用外部服务的媒体相关数据库)，以获取分类为浪漫喜剧并且具有演员Reese Witherspoon的媒体项。在其他示例中，用户请求可包括对其他类型的信息诸如天气、体育和股市的请求，并且可在框534处获取相应信息。

在过程500的框536处，可在显示单元上显示第二用户界面。第二用户界面可包括在框534处获取的结果的一部分。例如，如图6G所示，第二用户界面618可被显示在显示单元上。第二用户界面618可包括满足“为我查找由Reese Witherspoon主演的浪漫喜剧”的用户请求的媒体项622。在该示例中，媒体项622可包括一些媒体项，诸如“Legally Blonde”、“Legally Blonde 2”、“Hot Pursuit”和“This Means War”。第二用户界面618可还包括描述所获取的结果的文本标头620。文本标头620可改述用户请求的一部分，以传达用户的请求已被直接处理的印象。这提供了用户和数字助理之间更加人性化的交互式体验。在图6G中所示的本示例中，媒体项622跨第二用户界面618而被组织在单个行中。应当认识到，在其他示例中，媒体项622的组织和展示可变化。

第二用户界面618可还包括用于在第二用户界面618中导航和选择媒体项622的光标624。可通过相对于其他媒体项可视地突出显示光标所在的媒体项来指示光标的位置。例如，在本示例中，与第二用户界面618中显示的其他媒体项相比，光标624所在的媒体项623可更大且更粗。

在一些示例中，在显示第二用户界面时，可继续显示所显示的内容的至少一部分。例如，如图6G所示，第二用户界面618可以是在显示单元的基部显示的小窗格，而媒体内容602继续在媒体设备上播放并且在第二用户界面618上方的显示单元上显示。可将第二用户界面618覆盖在正在播放的媒体内容602上。在本示例中，显示单元上的第二用户界面618的显示区域可小于显示单元上的媒体内容602的显示区域。这样可减少在用户正在消费媒体内容时由数字助理显示的结果的干扰是可取的。应当认识到，在其他示例中，第二用户界面的显示区域相对于所显示的内容的显示区域可变化。此外，如图6G中的实心字体“MEDIAPLAYING”所示的，在显示第二用户界面618时，媒体内容602的亮度可恢复到正常亮度(例如，在检测用户输入之前的图6A处的亮度)。这可用于向用户指示与数字助理的交互已完成。因此，用户可在观看所请求的结果(例如，媒体项622)时继续消费媒体内容602。

在从媒体搜索获取的媒体项显示在第二用户界面上的示例中，可限制显示的媒体项的数量。这样可允许用户关注最相关的结果并且防止用户在进行选择时面对过多的选项是可取的。在这些示例中，框532可还包括确定所得结果中的媒体项的数量是否小于或等于预先确定数量(例如，30、28或25)。根据确定所得结果中的媒体项的数量小于或等于预先确定数量，所得结果中的所有媒体项可被包括在第二用户界面中。根据确定所得结果中的媒体项的数量大于预先确定数量，所得结果中只有预先确定数量的媒体项可被包括在第二用户界面中。

此外，在一些示例中，在第二用户界面中可仅显示所得结果中的与媒体搜索请求最相关的媒体项。具体地，所得结果中的媒体项中的每个媒体项可与相对于媒体搜索请求的相关性得分相关联。所显示的媒体项在所得结果中可具有最高的相关性得分。此外，可根据相关性得分来排列第二用户界面中的媒体项。例如，参考图6G，具有较高相关性得分的媒体项更可能接近第二用户界面618的一侧(例如，接近光标624的一侧)，而具有较低相关性得分的媒体项更可能接近用户界面618的相对侧(例如，远离光标624的一侧)。此外，所得结果中的每个媒体项可与流行度评级相关联。流行度评级可基于电影评论家的评级(例如，烂番茄评级(rotten tomatoes ratings))或基于已选择回放媒体项的用户的数量。在一些示例中，媒体项622在第二用户界面618中的布置可基于流行度评级。例如，具有较高流行度评级的媒体项更可能被定位在第二用户界面618的一侧，而具有较低流行度评级的媒体项更可能接近被定位在第二用户界面618的相对侧。

如图5C中继框532之后的不同流(例如，D、E、F和G)所示的，可在框532之后执行图5D的框538、图5E的框542、图5F的框550或图5I的框570中的一者。可在框536处显示第二用户界面时执行框538、框542、框550或框570。在一些示例中，过程500可另选地包括框536之后的确定步骤，以确定要执行的适当的流(例如，D、E、F或G)。具体地，可在框536之后检测用户输入，并且可确定检测到的用户输入是否对应于第二用户输入(例如，框538)、第三用户输入(例如，框542)、第四用户输入(例如，框550)或第六用户输入(例如，框570)。例如，根据确定用户输入对应于框542的第三用户输入，可执行框544至框546中的一个或多个框。在框546之后，还可包括类似的确定步骤。

在过程500的框538处并且参考图5D，可检测到第二用户输入。如上所述，在第二用户界面显示在显示单元上时可检测第二用户输入。可在媒体设备的遥控器上检测到第二用户输入。例如，第二用户输入可包括遥控器的触敏表面上的第一预先确定的动作模式。在一个示例中，第一预先确定的动作模式可包括从触敏表面上的第一接触点到第二接触点的第一方向上的连续接触动作。当以预期的方式握持遥控器时，第一方向可以是向下的方向或是朝向用户的方向。应当认识到，对于第二用户输入可预期其他形式的输入。响应于检测到第二用户输入，可执行框540。

在过程500的框540处，可消除第二用户界面，使得该第二用户界面不再显示。例如，参考图6G，响应于检测到第二用户输入，第二用户界面618可停止显示。在该示例中，在消除第二用户界面618时，可在显示单元上全屏显示媒体内容602。例如，在停止显示第二用户界面618时，可如图6A所示来显示媒体内容602。

在过程500的框542处并且参考图5E，可检测到第三用户输入。可在显示单元上显示第二用户界面时检测到第三用户输入。可在媒体设备的遥控器上检测到第三用户输入。例如，第三用户输入可包括遥控器的触敏表面上的第二预先确定的动作模式。第二预先确定的动作模式可包括从触敏表面上的第三接触点到第四接触点的第二方向上的连续接触动作。第二方向可与第一方向相反。具体地，当以预期的方式握持遥控器时，第二方向可以是向上的方向或是远离用户的方向。响应于检测到第三用户输入，可执行框544至框546中的一个或多个框。在一些示例中，如图6G所示，第二用户界面618可包括图形指示符621(例如，箭头)，以向用户指示可通过提供第三用户输入来扩展第二用户界面618。此外，图形指示符621可向用户指示与用于第三用户输入的触敏表面上的第二预先确定的动作模式相关联的第二方向。

在过程500的框544处，可获取第二结果。所得第二结果可类似于但不同于在框534处获取的结果。在一些示例中，所得的第二结果可至少部分地满足用户请求。例如，所得的第二结果可共享在框534处获取的结果的一个或多个特性、参数或属性。在图6F至图6G所示的示例中，框544可包括执行与在框534处执行的媒体搜索查询相关的一个或多个附加媒体搜索查询。例如，一个或多个附加媒体搜索查询可包括搜索分类为浪漫喜剧的媒体项或搜索由Reese Witherspoon主演的媒体项。因此，所得的第二结果可包括作为浪漫喜剧的媒体项(例如，媒体项634)和/或由Reese Witherspoon主演的媒体项(例如，媒体项636)。

在一些示例中，所得的第二结果可基于在框504处检测用户输入之前所接收的先前用户请求。具体地，所得的第二结果可包括先前用户请求的一个或多个特性或参数。例如，先前的用户请求可以是“为我显示在过去5年中发行的电影。”。在该示例中，所得的第二结果可包括在过去5年中发行的由Reese Witherspoon主演的作为浪漫喜剧片的媒体项。

此外，在一些示例中，框544可包括在检测到第三用户输入时获取与第二用户界面所聚焦的项目上下文相关的第二结果。例如，参考图6G，在检测到第三用户输入时，光标624可被定位在第二用户界面618中的媒体项623处。媒体项623可以是例如电影“LegallyBlonde”。在该示例中，所得的第二结果可共享与媒体项“Legally Blonde”相关联的一个或多个特性、属性或参数。具体地，所得的第二结果可包括像“Legally Blonde”的媒体项，其涉及就读法学院或涉及担任领导角色的职业女性。

在过程500的框546处，可在显示单元上显示第三用户界面。具体地，可利用对框546处的第三用户界面的显示来替换对框536处的第二用户界面的显示。在一些示例中，响应于检测到第三用户输入，可将第二用户界面扩展为第三用户界面。第三用户界面可至少占据显示单元的大部分显示区域。第三用户界面可包括框534的所得结果的一部分。此外，第三用户界面可包括框544的所获取的第二结果的一部分。

在一个示例中，如图6H所示，第三用户界面626可基本占据显示单元的整个显示区域。在该示例中，可利用对第三用户界面626的显示来替换对媒体内容602和第二用户界面618的先前显示。响应于检测到第三用户输入，可在媒体设备上暂停播放媒体内容。这可防止用户在第三用户界面626中浏览媒体项时丢失媒体内容602的任何部分是可取的。

第三用户界面626可包括满足“为我查找由Reese Witherspoon主演的浪漫喜剧。”的用户请求的媒体项622。此外，第三用户界面626可包括至少部分地满足相同用户请求的媒体项632。媒体项632可包括各自对应于不同的特性、属性或参数的多个媒体项组。在该示例中，媒体项632可包括作为浪漫喜剧的媒体项634和由Reese Witherspoon主演的媒体项636。每个媒体项组可使用文本标头(例如，文本标头628,630)来标记。文本标头可描述与相应组的媒体项相关联的一个或多个属性或参数。此外，每个文本标头可以是示例性用户话语，当其由用户提供至数字助理时，可使得数字助理获取类似组的媒体项。例如，参考文本标头628，响应于从用户收到用户话语“浪漫喜剧”，数字助理可获取并显示作为浪漫喜剧的媒体项(例如，媒体项634)。

虽然在图6H所示的示例中，媒体项622基于初始用户请求“查找由ReeseWitherspoon主演的浪漫喜剧”，但是应当认识到，在其他示例中，媒体项632可基于其他因素，诸如媒体选择历史、媒体搜索历史、接收先前媒体搜索的顺序、媒体相关属性之间的关系、媒体项的流行度等。

在用户请求是媒体搜索请求的示例中，所得的第二结果可基于框534的所得结果中的媒体项的数量。具体地，响应于检测到第三用户输入，可确定所得结果中的媒体项的数量是否小于或等于预先确定的数量。根据确定所得结果中的媒体项的数量小于或等于预先确定的数量，所得的第二结果可包括与第二用户界面中的媒体项不同的媒体项。所得的第二结果可至少部分地满足在框534处执行的媒体搜索请求。同时，所得的第二结果的范围可比先前所得结果的范围更宽，并且可与在框534处执行的媒体搜索请求中定义的参数中的部分参数相关联。这样可向用户提供范围更广的一组结果以及更多选项可供选择是可取的。

在一些示例中，根据确定框534的所得结果中的媒体项的数量小于或等于预先确定的数量，可确定媒体搜索请求是否包括多于一个搜索属性或参数。根据确定媒体搜索请求包括多于一个搜索属性或参数，所得的第二结果可包括与多于一个搜索属性或参数相关联的媒体项。此外，可根据多于一个搜索属性或参数来在第三用户界面中组织所获取的第二结果中的媒体项。

在图6F至图6H所示的示例中，媒体搜索请求“查找由Reese Witherspoon主演的浪漫喜剧”可被确定为包括多于一个搜索属性或参数(例如，“浪漫喜剧”和“ReeseWitherspoon”)。根据确定媒体搜索请求包括多于一个搜索属性或参数，所得的第二结果可包括与搜索参数“浪漫喜剧”相关联的媒体项634，以及与搜索参数“Reese Witherspoon出演的电影”相关联的媒体项636。如图6H所示，可将媒体项634按“浪漫喜剧”类别进行组织，并且可将媒体项636按“Reese Witherspoon”类别进行组织。

在一些示例中，根据确定框534的所得结果中的媒体项的数量大于预先确定的数量，第三用户界面可包括所得结果的第一部分和第二部分。所获取的结果的第一部分可包括预先确定数量的媒体项(例如，具有最高相关性得分)。所得结果的第二部分可不同于所得结果的第一部分，并且可包括比所得结果的第一部分更多的媒体项。此外，可确定所得结果中的媒体项是否包括多于一种媒体类型(例如，电影、电视节目、音乐、应用程序、游戏等)。响应于确定所得结果中的媒体项包括多于一种媒体类型，可根据媒体类型来组织所得结果的第二部分中的媒体项。

在图6I所示的示例中，在框534处获取的结果可包括由Reese Witherspoon主演的作为浪漫喜剧的媒体项。根据确定所得结果中的媒体项的数量大于预先确定的数量，可在第三用户界面626中显示所得结果的第一部分(媒体项622)和所得结果的第二部分(媒体项638)。响应于确定所得结果包括多于一种媒体类型(例如，电影和电视节目)，可根据媒体类型来组织媒体项638。具体地，可将媒体项640按“电影”类别进行组织，并且可将媒体项642按“电视节目”类别进行组织。此外，在一些示例中，与相应媒体类型(例如，电影、电视节目)对应的每个媒体项组(例如，媒体项640、媒体项642)可根据相应媒体项组内的最流行的分类、演员/导演或发行日期来排序。应当认识到，在其他示例中，响应于确定所得结果中的媒体项与多于一个媒体属性或参数相关联，可根据媒体属性或参数(而不是媒体类型)来组织所得结果的第二部分中的媒体项。

在一些示例中，可检测表示滚动命令的用户输入(例如，下面在框550处描述的第四用户输入)。响应于接收到表示滚动命令的用户输入，可使得经扩展的用户界面(或者更具体地，经扩展的用户界面中的项目)滚动。在滚动时，可确定经扩展的用户界面是否经滚动超出经扩展的用户界面中的预先确定的位置。响应于确定经扩展的用户界面已滚动超出经扩展的用户界面中的预先确定的位置，可在经扩展的用户界面上显示所得结果的第三部分中的媒体项。第三部分中的媒体项可根据与第三部分中的媒体项相关联的一个或多个媒体内容提供方(例如，iTunes、Netflix、HuluPlus、HBO等)来组织。应当认识到，在其他示例中，响应于确定经扩展的用户界面已滚动超出经扩展的用户界面中的预先确定的位置，可获取其他媒体项。例如，可获取流行媒体项或与所得结果相关的媒体项。

如从图5E中的框546开始的不同流(例如，B、F、G和H)所示的，可在框532之后执行图5F的框550、图5G的框558、图5H的框566或图5I的570。具体地，在一些示例中，可在框546处显示第三用户界面时执行框550、框560、框564或框570。

在过程500的框550处并且参考图5F，可检测到第四用户输入。可在显示单元上显示第二用户界面(例如，第二用户界面618)或第三用户界面(例如，第三用户界面626)时检测第四用户输入。在一些示例中，可在媒体设备的遥控器上检测第四用户输入。第四用户输入可指示显示单元上的方向(例如，向上、向下、向左、向右)。例如，第四用户输入可以是从遥控器触敏表面上的第一位置到触敏表面上的第一位置右侧的第二位置的接触动作。因此该接触动作可对应于显示单元上的向右的方向。响应于检测到第四用户输入，可执行框552。

在过程500的框552处，第二用户界面或第三用户界面的焦点可在第二用户界面或第三用户界面上从第一项目切换至第二项目。第二项目可被定位在相对于第一项目的方向(例如，与第四用户输入对应的相同方向)上。例如，在图6G中，第二用户界面618的焦点可在媒体项623上，其中光标624被定位在媒体项623处。响应于检测到与显示单元上的向右方向对应的第四用户输入，可将第二用户界面618的焦点从图6G中的媒体项623切换至图6J中的被定位在媒体项623右侧的媒体项625。具体地，光标624的位置可从媒体项623改变至媒体项625。在另一个示例中，参考图6H，第三用户界面626的焦点可位于媒体项623上。响应于检测到与显示单元上的向下方向对应的第四用户输入，可将第三用户界面626的焦点从图6H中的媒体项623切换至图6K中的相对于媒体项623被定位在其下方的媒体项627。具体地，光标624的位置可从媒体项623改变至媒体项627。

在过程500的框554处，可经由第二用户界面或第三用户界面来接收对一个或多个媒体项中的媒体项的选择。例如，参考图6J，可通过在光标624被定位在媒体项625处时检测与用户选择对应的用户输入经由第二用户界面618来接收对媒体项625的选择。类似地，参考图6K，可通过在光标624被定位在媒体项627处时检测与用户选择对应的用户输入经由第三用户界面626来接收对媒体项627的选择。响应于接收到对一个或多个媒体项中的媒体项的选择，可执行框556。

在过程500的框556处，可在显示单元上显示与所选择的媒体项相关联的媒体内容。在一些示例中，媒体内容可以是正在媒体设备上播放或流式传输的电影、视频、电视节目、动画等。在一些示例中，媒体内容可以是视频游戏、电子书、应用程序或在媒体设备上运行的程序。此外，在一些示例中，媒体内容可以是与媒体项相关的信息。该信息可以是描述所选择的媒体项的各种特性(例如，剧情简介、演员、导演、作者、发行日期、评级、持续时间等)的产品信息。

在过程500的框558处并且参考图5G，可检测第五用户输入。在一些示例中，可在显示第三用户界面(例如，第三用户界面626)时检测第五用户输入。在这些示例中，在第三用户界面的焦点在第三用户界面顶行中的媒体项上时(例如，图6H的第三用户界面626中的媒体项622中的一个媒体项)，可检测第五用户输入。在其他示例中，可在显示第一用户界面时检测第五用户输入。在这些示例中，可在执行框508至框514中的任一个框时检测第五用户输入。在一些示例中，可在媒体设备的遥控器上检测第五用户输入。第五用户输入可与第三用户输入相似或相同。例如，第五用户输入可包括触敏表面上的第二方向上的连续接触动作(例如，向上滑动接触动作)。在其他示例中，第五用户输入可以是对示能表示的激活。该示能表示可与虚拟键盘界面或键入搜索界面相关联。响应于检测到第五用户输入，可执行框560至框564中的一个或多个框。

在过程500的框560处，可显示被配置为接收键入搜索输入的搜索字段。例如，如图6L所示，搜索字段644可被显示在所显示的单元上。在一些示例中，搜索字段可被配置为接收键入搜索查询。键入搜索查询可以是媒体相关的搜索查询，诸如搜索媒体项。在一些示例中，搜索字段可被配置为基于经由搜索字段644输入的文本和与媒体项相关联的所存储文本之间的文本串匹配来执行媒体相关搜索。此外，在一些示例中，数字助理可不被配置为经由搜索字段644来接收输入。这样可鼓励用户经由语音界面而不是打字界面与数字助理进行交互，以促进媒体设备和用户之间的更加人性化的界面。应当认识到，在一些示例中，搜索字段可能已被显示在第二用户界面(例如，第二用户界面618)或第三用户界面(例如，第三用户界面626)中。在这些示例中，可不必执行框566。

在过程500的框562处，可在显示单元上显示虚拟键盘界面。例如，如图6L所示，可显示虚拟键盘界面646。虚拟键盘界面646可被配置为使得经由虚拟键盘界面646所接收的用户输入导致搜索字段中的文本输入。在一些示例中，虚拟键盘界面不可用于与数字助理进行交互。

在过程500的框564处，可将用户界面的焦点切换至搜索字段。例如，参考图6L，可在框568处突出显示搜索字段644。此外，文本输入光标可被定位在搜索字段644。在一些示例中，可在搜索字段中显示用于提示用户输入键入搜索的文本。如图6L所示，文本648包括提示“输入搜索”。

在过程500的框566处并且参考图5H，可检测第七用户输入。在一些示例中，可在显示第三用户界面(例如，第三用户界面626)时检测第七用户输入。在一些示例中，第七用户输入可包括按压电子设备的遥控器的按钮。该按钮可以是例如用于导航至电子设备的主菜单用户界面的菜单按钮。应当认识到，在其他示例中，第七用户输入可包括其他形式的用户输入。响应于检测到第七用户输入，可执行框568。

在过程500的框568处，可在显示单元上显示第三用户界面。具体地，第七用户输入可使得第三用户界面被消除。在一些示例中，第七用户输入可使得主菜单用户界面菜单将被显示，从而代替第三用户界面。作为另外一种选择，在显示第三用户界面(例如，第三用户界面626)之前显示媒体内容(例如，媒体内容602)并且在显示第三用户界面时暂停播放电子设备上的媒体内容(例如，响应于检测到第三用户输入而暂停)的示例中，可响应于检测到第七用户输入而恢复播放电子设备上的媒体内容。因此，可响应于检测到第七用户输入来显示媒体内容。

在过程500的框570处并且参考图5I，可检测到第六用户输入。如图6M所示，可在显示第三用户界面626时检测第六用户输入。然而，在其他示例中，可在显示第二用户界面(例如，第二用户界面618)时另选地检测第六用户输入。在检测到第六用户输入时，第二用户界面或第三用户界面可包括至少部分地满足用户请求的结果的一部分。第六用户输入可包括用于调用电子设备的数字助理的输入。具体地，第六用户输入可与上面参考框516描述的第二输入类型的用户输入相似或相同。例如，第六用户输入可包括按压媒体设备的遥控器上的特定按钮并按住按钮超过预先确定的持续时间(例如，长按)。响应于检测到第六用户输入，可执行框572至框592中的一个或多个框。

在过程500的框572处，可对第二音频数据进行采样。框572可与上述框518相似或相同。具体地，经采样的第二音频数据可包括来自第二用户的用户话语。第二用户话语可表示针对数字助理的第二用户请求。在一些示例中，第二用户请求可以是用于执行第二任务的请求。例如，参考图6M，经采样的第二音频数据可包括第二用户话语“仅需要Luke Wilson出演的那些电影。”。在该示例中，第二用户话语可表示第二用户请求以细化先前的媒体搜索，从而仅包括具有演员Luke Wilson的媒体项。在该示例中，第二用户话语是自然语言形式。此外，在第二用户话语没有明确指定定义用户请求所需的所有信息的情况下，可部分指定第二用户请求。例如，第二用户话语没有明确指定“那些”指的是什么。在其他示例中，第二用户请求可以是播放媒体项或提供特定信息(例如，天气、股市、体育等)的请求。

应当认识到，在一些示例中，可相对于第六用户输入类似地执行上述框520至框526。具体地，如图6M所示，当检测到第六用户输入时，可在显示单元上显示活动的视觉指示符614。可(例如，使用STT处理模块430)确定第二用户话语的第二文本表示650并将其显示在显示单元上。可基于第二文本表示(例如，使用自然语言处理模块432)来确定与第二用户话语对应的第二用户意图。在一些示例中，如图6M所示，响应于检测到第六用户输入，在检测到第六用户输入时被显示在显示单元上的内容可被淡化或降低亮度。这可用于突出显示活动的视觉指示符614和第二文本表示650。

在过程500的框574处，可确定经采样的第二音频数据是否包含第二用户请求。框574可与上述框528相似或相同。具体地，可基于从第二用户话语的第二文本表示确定的第二用户意图来作出框574处的确定。根据确定第二音频数据不包含用户请求，可执行框576。作为另外一种选择，根据确定第二音频数据包含第二用户请求，可执行框578至框592中的一个或多个框。

在过程500的框576处，可在显示单元上显示用于澄清用户意图的请求。框576可与上述框530相似或相同。

在过程500的框578处，可确定第二用户请求是否是用于细化用户请求的结果的请求。在一些示例中，可根据与第二用户话语对应的第二用户意图来作出确定。具体地，第二用户请求可被确定为是用于基于在第二用户话语中识别的所表达的指示来细化用户请求的结果的请求，以细化用户请求的结果。例如，参考图6M，可在自然语言处理期间解析第二文本表示650，以确定第二用户话语是否包括与细化媒体搜索结果的明确意图对应的预先确定的字词或短语。与细化媒体搜索结果的明确意图对应的字词或短语的示例可包括“仅”、“只”、“通过……筛选”等。因此，可基于第二文本表示650中的字“仅”来确定第二用户请求是用于细化与用户请求“查找由Reese Witherspoon主演的浪漫喜剧”相关联的媒体搜索结果的请求。应当认识到，可实现其他技术来确定第二用户请求是否为用于细化用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求，可执行框580至框582中的一个或多个框。

在过程500的框580处，可获取至少部分地满足用户请求的结果的子组。在一些示例中，可通过根据第二用户请求中定义的附加参数筛选现有结果来获取结果的子组。例如，可筛选框534处的所获取的结果(例如，包括媒体项622)，使得识别具有演员Luke Wilson的媒体项。在其他示例中，可执行组合用户请求和第二用户请求的要求的新的媒体搜索查询。例如，新的媒体搜索查询可以是针对分类为浪漫喜剧并且具有演员Reese Witherspoon和Luke Wilson的媒体项的搜索查询。在该示例中，新的媒体搜索查询可得出媒体项，诸如“Legally Blonde”和“Legally Blonde 2”。

在显示第三用户界面时检测第六用户输入的示例中，可获取与用户请求和/或第二用户请求相关的附加结果。该附加结果可包括具有在用户请求和/或第二用户请求中描述的一个或多个属性或参数的媒体项。此外，附加结果可能不包括在用户请求和第二用户请求中描述的所有属性或参数。例如，参考图6H和图6M中描述的示例，附加结果可包括具有以下属性或参数中的至少一者(但不是全部)的媒体项：浪漫喜剧、Reese Witherspoon和Luke Wilson。附加结果可向用户提供范围更广的一组结果以及更多选项可供选择是可取的。此外，附加结果可以是很可能使用户感兴趣的相关结果。

在框582处，可在显示单元上显示结果的子组。例如，如图6N所示，结果的子组可包括媒体项652，该媒体项可包括电影，诸如“Legally Blonde”和“Legally Blonde 2”。在该示例中，媒体项652在第三用户界面626的顶行中显示。文本标头656可描述与所显示的媒体项652相关联的属性或参数。具体地，文本标头656可包括与第二用户话语相关联的用户意图的改述。在显示第二用户界面(例如，图6G中所示的第二用户界面618)时检测第六用户输入的示例中，媒体项652可替代地被显示在第二用户界面中。在这些示例中，媒体项652可跨第二用户界面而被显示为单行。应当认识到，媒体项652在第二用户界面或第三用户界面中被显示的方式可变化。

在显示第三用户界面时检测第六用户输入的示例中，可在第三用户界面中显示与所述用户请求和/或第二用户请求相关的附加结果。例如，参考图6N，附加结果可包括具有在用户请求和/或第二用户请求中描述的一个或多个参数的媒体项654。具体地，媒体项654可包括由Luke Wilson主演的作为浪漫喜剧的媒体项658，以及由Luke Wilson主演且在过去10年中发行的媒体项660。每个媒体项组(例如，媒体项658、媒体项660)可使用文本标头(例如，文本标头662、文本标头664)来标记。该文本标头可描述与相应组的媒体项相关联的一个或多个参数。文本标头可以是自然语言形式。此外，每个文本标头可以是示例性用户话语，当其由用户提供至数字助理时，可使得数字助理获取类似组的媒体项。例如，参考文本标头662，响应于收到来自用户的用户话语“由Luke Wilson主演的浪漫喜剧”，数字助理可获取并显示作为由Luke Wilson主演的浪漫喜剧的媒体项(例如，媒体项658)。

再次参考框578，可确定第二用户请求不是用于细化所述用户请求的结果的请求。可基于第二用户话语中没有任何明确指示要细化用户请求的结果来作出这样的确定。例如，在自然语言处理期间解析第二用户话语的第二文本表示时，可能识别不出与用于细化媒体搜索结果的明确意图对应的预先确定的字词或短语。这可能是因为第二用户请求是与先前用户请求无关的请求(例如，新请求)。例如，第二用户请求可以是“查找恐怖电影”，该第二用户请求是与先前的用户请求“查找由Reese Witherspoon主演的浪漫喜剧”无关的请求。作为另外一种选择，第二用户请求可包括可被解译为用于细化先前用户请求的结果的请求或与先前用户请求无关的新请求的模糊语言。例如，参考图6P，第二用户话语可以是“Luke Wilson”，其可被解译为是用于细化先前用户请求的结果的请求(例如，细化以仅包括具有演员Luke Wilson的媒体项)，或者可被解译为是与先前的用户请求无关的新请求(例如，对于具有演员Luke Wilson的媒体项的新媒体搜索)。在这些示例中，第二用户请求可被确定为不是用于细化所述用户请求的结果的请求。根据确定第二用户请求是用于细化用户请求的结果的请求，可执行框584至框592中的一个或多个框。

在过程500的框584处，可执行至少部分地满足第二用户请求的第二任务。框584可类似于上述框532，不同之处在于框584的第二任务可不同于框532的任务。框584可包括框586至框588中的一个或多个框。

在过程500的框586处，可获取至少部分地满足第二用户请求的第三结果。框586可类似于上述框534。参考图6P所示的示例，第二用户话语“Luke Wilson”可被解译为是执行新的媒体搜索查询以识别具有演员Luke Wilson的媒体项的请求。因此，在该示例中，框586可包括执行所请求的媒体搜索，以获取具有演员Luke Wilson的媒体项。应当认识到，在其他示例中，用户请求可包括对其他类型的信息(例如，天气、体育、股市等)的请求，并且可在框586处获取相应类型的信息。

在过程500的框588处，可在显示单元上显示第三结果的一部分。例如，参考图6Q，可在第三用户界面626中显示包括具有演员Luke Wilson的媒体项670(例如，电影诸如“Playing It Cool”、“The Skeleton Twins”和“You Kill Me”的第三结果。在该示例中，媒体项670可在第三用户界面626的顶行中显示。文本标头678可描述与所显示的媒体项670相关联的属性。具体地，文本标头678可包括与第二用户话语相关联的所确定的用户意图的改述。在显示第二用户界面(例如，图6G中所示的第二用户界面618)时检测第六用户输入的示例中，媒体项670可被显示在第二用户界面中。在这些示例中，媒体项670可跨第二用户界面以单行而被显示。应当认识到，在其他示例中，第二用户界面或第三用户界面中的媒体项670的组织或配置可变化。

在过程500的框590处，可获取至少部分地满足用户请求和/或第二用户请求的第四结果。具体地，第四结果可包括具有在用户请求和/或第二用户请求中定义的一个或多个属性或参数的媒体项。参考图6P和图6Q中所示的示例，第四结果可包括具有以下属性或参数中的一个或多个的媒体项：浪漫喜剧、Reese Witherspoon和Luke Wilson。例如，第四结果可包括分类为浪漫喜剧并且由Luke Wilson主演的媒体项676。所得的第四结果可向用户提供范围更广的一组结果并且因此提供更多选项可供选择是可取的。此外，第四结果可与源于第二用户请求和一个或多个先前用户请求的另选预测用户意图相关联，以便提高满足用户实际意图的可能性。这可用于提高返回给用户的结果的准确性和相关性，从而改善用户体验。

在一些示例中，第四结果的至少一部分可包括具有在用户请求和第二用户请求中定义的所有参数的媒体项。例如，第四结果可包括分类为浪漫喜剧并且由ReeseWitherspoon和Luke Wilson主演的媒体项674。媒体项674可与使用第二用户请求来细化先前用户请求的结果的另选意图相关联。在用户实际上希望第二请求是细化所得结果的请求的情况下获取媒体项674可提高满足用户实际意图的可能性是可取的。

在一些示例中，第四结果的一部分可基于检测到第六用户输入时的用户界面的焦点。具体地，当检测到第六用户输入时，用户界面的焦点可位于第三用户界面的一个或多个项目上。在该示例中，第四结果的一部分可与用户界面所聚焦的一个或多个项目上下文相关。例如，参考图6K，光标624可被定位在媒体项627上，并且因此第三用户界面626的焦点可位于媒体项627上。在该示例中，可利用与媒体项627相关联的属性或参数来获取第四结果的一部分。例如，与媒体项627相关联的“Reese Witherspoon出演的电影”的类别可用于获取第四结果的一部分，其中所得部分可包括由Reese Witherspoon和Luke Wilson主演的媒体项。在另一示例中，媒体项627可以是冒险电影，并且因此第四结果的一部分可包括作为由Luke Wilson主演的冒险电影的媒体项。

在过程500的框592处，可显示第四结果的一部分。在显示第三用户界面时检测第六用户输入的示例中，第四结果的一部分可被显示在第三用户界面中。例如，如图6Q所示，第四结果的一部分可包括在媒体项670之后的行中显示的媒体项672。媒体项672可与在第二用户请求和/或所述用户请求中定义的一个或多个属性或参数(例如，浪漫喜剧、ReeseWitherspoon和Luke Wilson)相关联。例如，媒体项672可包括作为由Luke Wilson主演的浪漫喜剧的媒体项676，以及作为由Reese Witherspoon和Luke Wilson主演的浪漫喜剧的媒体项674。每个媒体项组(例如，媒体项674、媒体项676)可使用文本标头(例如，文本标头680、文本标头682)来标记。文本标头可描述与相应组的媒体项相关联的一个或多个属性或参数。文本标头可以是自然语言形式。此外，每个文本标头可以是示例性用户话语，当其由用户提供至数字助理时，可使得数字助理获取具有类似属性的类似组的媒体项。

如上所述，第二用户话语“Luke Wilson”可与两个可能的用户意图相关联：执行新的媒体搜索的第一用户意图或细化先前用户请求的结果的第二用户意图。所显示的媒体项670可满足第一用户意图，并且所显示的媒体项674可满足第二用户意图。在该示例中，媒体项670和媒体项674被显示在前两行中。这样，可在第三用户界面626中突出显示(例如，前两行)与第二用户请求(例如，新搜索或对先前搜索的细化)相关联的两个最可能的用户意图的结果。这样可尽量减少用户在找到所需媒体项进行消费之前在第三用户界面中的滚动或浏览。应当认识到，在第三用户界面626中突出显示媒体项670和媒体项674以尽量减少滚动和浏览的方式可变化。

图7A至图7C示出了根据各种示例的用于操作媒体系统的数字助理的过程700。可使用实现数字助理的一个或多个电子设备来执行过程700。例如，可使用上述的系统100、媒体系统128、媒体设备104、用户设备122\或数字助理系统400中的一者或多者来执行过程700。图8A至图8W示出了根据各种示例的在过程700的各个阶段由媒体设备在显示单元上显示的屏幕截图。下面同时参考图7A至图7C和图8A至图8W对过程700进行描述。应当理解，过程700中的一些操作可组合，一些操作的顺序可改变，而一些操作可省略。

在过程700的框702处，可在显示单元(例如，显示单元126)上显示内容。框702可与上述框502相似或相同。参考图8A，所显示的内容可包括在媒体设备(例如，媒体设备104)上播放的媒体内容802(例如，电影、视频、电视节目、视频游戏等)。在其他示例中，所显示的内容可包括其他内容，诸如与媒体设备上运行的应用程序相关联的内容，或用于与媒体设备的数字助理进行交互的用户界面。具体地，所显示的内容可包括主菜单用户界面或包含用户先前请求的对象或结果的用户界面。

在过程700的框704处，可检测用户输入。框704可与上述框504相似或相同。用户输入可用于调用媒体设备的数字助理。在一些示例中，可在显示框702的内容时检测用户输入。可在媒体设备的遥控器(例如，遥控器124)上检测用户输入。例如，用户输入可对应于在过程500的框516中描述的第二输入类型。具体地，框704处的用户输入可包括按压媒体设备的遥控器上的特定按钮并按住按钮超过预先确定的持续时间(例如，长按)。响应于检测到用户输入，可执行框706至框746中的一个或多个框。

在过程700的框706处，可对音频数据进行采样。框706可与上述框518相似或相同。经采样的音频数据可包括用户话语。用户话语可表示针对媒体设备的数字助理的用户请求。例如，参考图8A中所示的示例，经采样的音频数据可包括用户话语“Paris现在是几点？”。用户话语可以是非结构化自然语言形式。在一些示例中，由用户话语表示的请求可以是部分指定的，其中执行请求所需的信息在用户话语中是缺失的或未被明确定义(例如，“播放这个”)。在其他示例中，用户话语可能不是显式请求，而是从其推断请求的间接问题或语句(例如，“他说了什么？”)。此外，如下面在框712中更详细的描述，用户话语可包括一个或多个模糊术语。

在过程700的框708处，可确定经采样的音频数据中的用户话语的文本表示。框708可与上述框522相似或相同。具体地，可通过对经采样的音频数据中的用户话语执行STT处理来确定该文本表示。例如，参考图8A，可从经采样的音频数据中的用户话语确定文本表示804“Paris现在是几点？”，并将其显示在显示单元上。如图所示，文本表示804可覆盖在媒体内容802上，而媒体内容802继续在媒体设备上播放。

在一些示例中，用于确定文本表示的STT处理可偏向于媒体相关的文本结果。除此之外或作为另外一种选择，文本表示可基于在对音频数据采样之前由媒体设备所接收的先前用户话语。此外，在一些示例中，文本表示可基于在对音频数据采样之前接收到先前用户话语的时间。在从独立设备(例如，DA服务器106)获取文本表示的示例中，媒体设备可向独立设备指示经采样的音频数据与媒体应用程序相关联，并且该指示可使独立设备上的STT处理偏向与媒体相关的文本结果。

在过程700的框710处，可确定对与用户话语对应的用户意图。框710可类似于上述框526。具体地，可使用自然语言处理(例如，利用自然语言处理模块432)来处理框708的文本表示以得到用户意图。例如，参考图8A，可从文本表示804“Paris现在是几点？”确定用户意图是在请求名为“Paris”的位置的时间。用于确定用户意图的自然语言处理可偏向于媒体相关的用户意图。在从独立设备(例如，DA服务器106)获取用户意图的示例中，媒体设备可向独立设备指示经采样的音频数据与媒体应用程序相关联，并且该指示可使独立设备上的自然语言处理偏向于媒体相关的用户意图。

在一些示例中，可基于源于经采样的音频数据中的用户话语的韵律信息来确定用户意图。具体地，可从用户话语得出韵律信息(例如，音调、节奏、音量、压力、语调、速度等)，从而确定用户的态度、心情、情感或情绪。然后可根据用户的态度、心情、情感或情绪来确定用户意图。例如，经采样的音频数据可包括用户话语“他说了什么？”。在该示例中，可基于在用户话语中检测到的高音量和压力来确定用户的不耐烦或沮丧。基于用户话语和所确定的用户情绪，可确定用户意图包括用于增加与正在媒体设备上播放的媒体内容相关联的音频的音量的请求。

如图7A所示，框710可包括框712至框718中的一个或多个框。具体地，当发现两个或更多个用户意图非常可能并且自然语言处理模块不能缩窄两个或更多个用户意图的范围使其成为单个用户意图时，可执行框712至框718中的一个或多个框。例如，当用户话语包含不可基于可用的上下文信息而消歧的模糊术语时，可能出现这种情况。

在过程700的框712处，可确定用户话语(或用户话语的文本表示)是否包括模糊术语。可在自然语言处理(例如，使用自然语言处理模块432)期间作出确定以确定用户意图。模糊术语可以是具有多于一个可能的解译的字词或短语。例如，参考图8A，用户话语“Paris现在是几点？”中的术语“Paris”可被解译为法国的“Paris”或是美国得克萨斯州的“Paris”。因此，用户话语中的术语“Paris”可被确定为是模糊术语。

在一些示例中，可(例如，由数字助理)检索上下文信息来对模糊术语潜在地消歧。如果成功消除歧义，则可确定用户话语不包括模糊术语。例如，可确定媒体内容802是将法国的“Paris”作为设置的电影(例如，“Ratatouille”)，因此用户更可能指的是法国的“Paris”，而不是得克萨斯州的“Paris”。在该示例中，术语“Paris”可被成功地消歧以指示法国的“Paris”，并且因此可确定用户话语不包括模糊术语。

在另一个示例中，用户话语可以是“播放这个。”。在该示例中，用户话语没有明确定义要播放的特定媒体项，因此单独解译的术语“这个”可以是能够指代媒体设备可访问的任何媒体项的模糊术语。可使用由媒体设备在显示单元上显示的上下文信息来消除该术语的歧义。例如，数字助理可确定所显示的用户界面的焦点是否位于一个媒体项上。根据确定用户界面的焦点位于媒体项上，数字助理可对术语“这个”消歧，并确定该术语指的是所显示的用户界面所聚焦的媒体项。基于该确定，可在框712处确定用户话语不包括模糊术语。因此，可将用户意图确定为用于播放所显示的用户界面所聚焦的媒体项的请求。

在不能消除术语歧义的示例中，可在框712处确定用户话语包含模糊术语。响应于确定用户话语包括模糊术语，可执行框714至框718中的一个或多个框。在过程700的框714处，可基于模糊术语来获取两个或更多个候选用户意图。该两个或更多个候选用户意图可以是从不能消歧的用户话语确定的最可能的候选用户意图。参考图8A所示的示例，两个或更多个候选用户意图可包括请求法国“Paris”的时间的第一候选用户意图，以及请求得克萨斯州“Paris”的时间的第二候选用户意图。

在过程700的框716处，可在显示单元上显示两个或更多个候选用户意图以供用户选择。例如，参考图8B，可显示第一候选用户意图810和第二候选用户意图808。此外，可提供文本提示806以通过在第一候选用户意图810和第二候选用户意图808之间进行选择，从而提示用户指示与用户话语对应的实际用户意图。文本提示806、第一候选用户意图810和第二候选用户意图808覆盖在媒体内容802上。

在过程700的框716处，可接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择。在一些示例中，可通过选择与候选用户意图中的一个候选用户意图对应的示能表示来接收用户选择。具体地，如图8B所示，两个或更多个候选用户意图810,808中的每个候选用户意图可在显示单元上被显示为可选择示能表示。媒体设备可(例如，经由媒体设备的遥控器)从用户接收输入，以将显示器的焦点改变至示能表示中的一个示能表示。然后可(例如，经由媒体设备的遥控器)接收对与该示能表示对应的候选用户意图的用户选择。例如，如图8B所示，媒体设备可接收用户输入，以在与第一候选用户意图810(例如，法国的“Paris”)对应的示能表示上方移动光标812。然后可接收对第一候选用户意图810的用户选择。

在其他示例中，可经由与数字助理的语音交互来接收用户选择。例如，在显示两个或更多个候选用户意图时，可检测第二用户输入。第二用户输入可与框704的用户输入相似或相同。具体地，第二用户输入可以是调用数字助理的输入(例如，按压媒体设备的遥控器上的特定按钮，并按住按钮超过预先确定的持续时间)。响应于检测到第二用户输入，可对第二音频数据进行采样。第二音频数据可包括表示对两个或更多个解译中的一个解译的用户选择的第二用户话语。例如，参考图8C，第二音频数据可包括第二用户话语“法国的‘Paris’”。如图所示，第二用户话语“法国的‘Paris’”的文本表示814可被显示在显示单元上。在该示例中，第二用户话语“法国的‘Paris’”可表示对第一候选用户意图810(例如，法国的“Paris”)的用户选择。基于第二用户话语“法国的‘Paris’”，可确定第一候选用户意图810是与用户话语“Paris现在是几点？”对应的实际用户意图。因此，可在框710处确定用户意图是在请求法国的“Paris”的时间。在基于所接收的用户选择来确定用户意图时，可执行框720至框746中的一个或多个框。

在一些示例中，可在不输出来自媒体设备的语音的情况下执行框710至框718。具体地，在不输出与两个或更多个候选用户意图808,810相关联的语音的情况下，可显示文本提示806和候选用户意图808,810。因此，可通过语音的形式从用户接收输入，但是可在显示单元上向用户可视地(而不是以音频的形式)呈现来自数字助理的输出。这样可保持与消费媒体内容相关联的公共体验从而可改善媒体设备的用户体验是可取的。

再次参考框712，响应于确定用户话语不包括模糊术语，可执行框720至框746中的一个或多个框。在过程700的框720处，可确定用户意图是否对应于与媒体设备相关联的多个核心竞争力中的一个预先确定的核心竞争力。例如，媒体设备可与若干个预先确定的核心竞争力相关联，诸如例如搜索媒体项、播放媒体项，以及提供与媒体项、天气、股市和体育相关的信息。如果用户意图涉及执行与若干个预先确定的核心竞争力中的一个预先确定的核心竞争力相关的任务，则可确定用户意图对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。例如，如果用户意图是对由Reese Witherspoon主演的媒体项的请求，则可确定用户意图对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。响应于确定用户意图对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力，可执行框724至框746中的一个或多个框。

相反，如果用户意图涉及执行若干个预先确定的核心竞争力之外的任务，则可确定用户意图不对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。例如，如果用户意图是对地图方向的请求，则可确定用户意图不对应于若干个预先确定的核心竞争力中的一个预先确定的核心竞争力。响应于确定用户意图不对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力，可执行框722。

在过程700的框722处，可使得第二电子设备(例如，设备122)至少部分地满足用户意图。具体地，可使得第二电子设备执行促成满足用户意图的任务。在一个示例中，可确定媒体设备未被配置为满足请求地图方向的用户意图，并且因此用户意图可被传输至第二电子设备以满足该用户意图。在该示例中，第二用户设备可执行用于显示所请求的地图方向的任务。在其他示例中，用户意图之外的信息可被传输至第二电子设备，以使得第二电子设备执行用于促成满足用户意图的任务。例如，媒体设备的数字助理可确定(例如，使用自然语言处理模块432或任务流处理模块436)满足用户意图的任务流或结构化查询，并且可将该任务流或结构化查询传输至第二电子设备。然后，第二电子设备可执行任务流或结构化查询，以促成满足用户意图。

如在下面提供的描述中将变得显而易见的，与满足用户意图相关联的干扰水平可基于用户意图的性质。在某些情况下，可执行与满足用户意图相关联的任务，而不在显示器上显示任何附加响应或输出(例如，框726)。在其他情况下，仅提供文本响应(例如，没有对应的视觉或音频输出)来满足用户意图(例如，框732)。在其他情况下，可显示包含相关结果的用户界面来满足用户意图(例如，框738,742或746)。用户界面可占据显示单元的大部分面积或一小部分面积。因此，过程700可根据用户意图的性质来智能地调整输出的干扰水平。这使得能够方便地访问数字助理的服务，同时减少消费媒体内容期间的不期望的干扰，从而改善整体用户体验。

在过程700的框724处，可确定用户意图是否包括用于调整媒体设备上的应用程序的状态或设置的请求。响应于确定用户意图包括用于调整媒体设备上的应用程序的状态或设置的请求，可执行框726。在过程700的框726处，可调整应用程序的状态或设置来满足用户意图。

在一些示例中，状态或设置可与正在媒体设备上播放的所显示的媒体内容相关联。例如，用于调整应用程序的状态或设置的请求可包括用于控制媒体设备播放媒体内容的请求。具体地，其可包括用于使对媒体设备上的所显示的媒体内容的播放进行暂停、恢复、重新启动、停止、快退或快进的请求。其还可包括用于在媒体内容中向前或向后(例如，以指定的持续时间)跳过以便播放媒体内容的所需部分的请求。此外，用于调整应用程序的状态或设置的请求可包括用于打开/关闭与所显示的媒体内容相关联的(例如，指定语言的)字幕或隐藏式字幕的请求、用于增加/减少与所显示的媒体内容相关联的音频的音量的请求、用于使得与所显示的媒体内容相关联的音频静音/取消静音的请求，或者用于加快/减慢所显示的媒体内容播放的速率的请求。

图8E至图8F示出了包括用于控制媒体设备播放媒体内容的请求的用户意图的示例性示例。在该示例中，可在播放媒体内容802时调用数字助理(例如，在框704处)。可在最初不显示字幕的情况下显示媒体内容。经采样的音频数据(例如，在框706处)可包含用户话语“打开英文字幕。”。如图8E所示，可在显示单元上显示用户话语的文本表示816。基于该用户话语，可在框710处确定用户意图包括用于打开媒体内容802的英文字幕的显示的请求。此外，在框724处，可确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求。响应于该确定，可打开媒体内容802的英文字幕。如图8F中的标签817所示，可发起对与媒体内容802相关联的英文字幕的显示，以满足用户意图。

在图8G至图8H中示出的另一示例性示例中，经采样的音频数据中的用户话语可以是自然语言表达，从而指示用户未听到与媒体内容相关联的音频的一部分。具体地，如图8G中的文本表示820所示，该用户话语可以是“他说了什么？”。在该示例中，可(例如，在框710处)确定用户意图包括用于重放与用户未听到的音频的一部分对应的媒体内容的一部分的请求。还可确定用户意图包括用于打开隐藏式字幕以对难以听到与媒体内容相关联的音频起辅助作用的请求。此外，基于用户话语中的韵律信息，可确定用户是沮丧的或不耐烦的，并且因此可基于用户情绪来确定用户意图包括用于增加与媒体内容相关联的音频的音量的请求。在框724处，可确定这些用户意图是用于调整电子设备的应用程序的状态或设置的请求。响应于该确定，可使媒体内容快退预先确定的持续时间(例如，15秒)到达媒体内容的先前部分，并且可从该先前部分(例如，图8H中的标签822所示)重新开始回放媒体内容。此外，在从先前部分重新开始回放媒体内容之前，可打开隐藏式字幕(例如，图8H中的标签824所示)。此外，在从先前部分重新开始回放媒体内容之前，可增加与媒体内容相关联的音频的音量。

应当理解，可从服务提供方(例如，有线提供方或媒体订阅服务)获取与媒体内容相关联的隐藏式字幕或字幕。然而，在无法从服务提供方获取隐藏式字幕或字幕的示例中，媒体设备可生成隐藏式字幕或字幕，以对难以听到与媒体内容相关联的音频起到辅助作用。例如，在接收经采样的音频数据中的用户话语之前以及在播放媒体内容时，可将与媒体内容相关联的音频中的语音(例如，使用STT处理模块730)连续地转换成文本并且与媒体内容相关联地存储。响应于用于重放用户未听到的媒体内容的先前部分的用户请求，可在重放媒体内容的先前部分时，检索并显示与正在重放的先前部分对应的文本。

在一些示例中，可调整与所显示的媒体内容相关联的状态或设置而不显示用于执行调整的附加用户界面，或者不提供用于表示确认正在调整状态或设置的任何文本或图形。例如，在图8E至图8H所示出的示例中，字幕(或隐藏式字幕)可简单地打开而不明确显示文本诸如“已打开字幕”，或不显示用于控制字幕显示的用户界面。此外，可调整状态或设置，而不输出与满足用户意图相关联的任何音频。例如，在图8E至图8H中，字幕(或隐藏式字幕)可打开，而无需输出用于确认字幕已打开的音频(例如，语音信号或非言语音频信号)。因此，可简单地执行所请求的动作，而不对媒体内容造成附加音频或视觉干扰。这样，过程700可使对用户对媒体内容的消费的干扰最小化，同时提供对数字助理服务的便捷访问，从而改善用户体验。

在其他示例中，用于调整媒体设备上的应用程序的状态或设置的请求可包括用于在媒体设备的用户界面(例如，第二用户界面818、第三用户界面826或主菜单用户界面)中进行导航的请求。在一个示例中，在用户界面中进行导航的请求可包括用于将用户界面的焦点从第一对象(例如，第一媒体项)切换至用户界面中的第二对象(例如，第二媒体项)的请求。图8I至图8K示出了此类请求的示例性示例。如图8I所示，所显示的内容可包括第三用户界面826，其具有按各种类别进行组织(例如，“浪漫喜剧”、“由Reese Witherspoon主演的浪漫喜剧”和“Luke Wilson出演的电影”)的多个媒体项。如光标828的位置所示，第三用户界面826的焦点可位于被归类为“浪漫喜剧”的第一媒体项830上。第二媒体项832的标题可为“Legally Blonde”，并且可被定位在“由Reese Witherspoon主演的浪漫喜剧”的类别中。如图8J中的文本表示834所示，经采样的音频数据中的用户话语(例如，在框706处)可以是“转到Legally Blonde。”。基于该用户话语，可(例如，在框710处)确定用户意图是用于将第三用户界面826的焦点从第一媒体项830切换至标题为“Legally Blonde”的第二媒体项832的请求。响应于(例如，在框724处)确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求，可将第三用户界面826的焦点从第一媒体项830切换至第二媒体项832。例如，如图8K所示，光标828的位置可从第一媒体项830改变至第二媒体项832。

在另一示例中，用于在用户界面中导航的请求可包括用于将用户界面的焦点改变为在用户界面中显示的特定类别的结果的请求。例如，图8I包括与“浪漫喜剧”、“由ReeseWitherspoon主演的浪漫喜剧”和“Luke Wilson出演的电影”等类别相关联的媒体项。取代“转到Legally Blonde”，经采样的音频数据中的用户话语可以是“跳转到由ReeseWitherspoon主演的浪漫喜剧。”。基于该用户话语，可(例如，在框710处)确定“由ReeseWitherspoon主演的浪漫喜剧”定义了在第三用户界面826中显示的媒体项的类别，并且因此可确定用户意图是用于将用户界面的焦点改变为与该类别相关联的一个或多个媒体项的请求。响应于(例如，在框724处)确定该用户意图是用于调整电子设备的应用程序的状态或设置的请求，可将第三用户界面826的焦点转移至与类别相关联的一个或多个媒体项。例如，如图8K所示，光标828的位置可转移至与“由Reese Witherspoon主演的浪漫喜剧”相关联的第二媒体项832。

在其他示例中，用于在媒体设备的用户界面中进行导航的请求可包括用于在用户界面中选择对象的请求。对对象的选择可导致与将要执行的对象相关联的动作。例如，如图8K所示，光标828的位置位于标题为“Legally Blonde”的第二媒体项832上。如图8L所示，可(例如，在框704处)调用数字助理，并且经采样的音频数据中的用户话语(例如，在框706处)可以是“播放这个”(例如，显示为文本表示836)。基于该用户话语，可(例如，在框710处)确定用户意图是用于播放特定媒体项的请求。在该示例中，用户话语没有明确定义或识别要播放的特定媒体项。具体地，词语“这个”是模糊的。然而，数字助理可获取上下文信息以对用户意图消歧。例如，可确定在对音频数据进行采样时第三用户界面826的焦点位于第二媒体项832上。基于该确定，可识别第二媒体项832是要播放的媒体项。响应于(例如，在框724处)确定播放第二媒体项832的用户意图是用于调整电子设备的应用程序的状态或设置的请求，可执行用于促成播放第二媒体项832的动作。例如，关于第二媒体项832的预览信息可被显示在显示单元上。预览信息可包括例如简要的剧情摘要、演员列表、发行日期、用户评级等。除此之外或作为另外一种选择，第二媒体项832可在媒体设备上播放，并且与第二媒体项832相关联的媒体内容可被显示在显示单元上(例如，图8M中的文本838“正在播放Legally Blonde”所示)。应当认识到，在其他示例中，可明确识别要选择的媒体项。例如，除了“播放这个”之外，用户话语可具体声明“播放Legally Blonde”，并且可执行用于促成播放第二媒体项832的类似的动作。

在其他示例中，用于在媒体设备的用户界面中进行导航的请求可包括用于观看媒体设备的特定用户界面或应用程序的请求。例如，经采样的音频数据中的用户话语可以是“转到演员页面”，其中用户意图包括y'y根据特定演员来显示与浏览媒体项相关联的用户界面的请求。在另一示例中，经采样的音频数据中的用户话语可以是“返回主页”，其中用户意图包括用于显示媒体设备的主菜单用户界面的请求。在又一个示例中，用于在媒体设备的用户界面中进行导航的请求可包括用于在电子设备上启动应用程序的请求。例如，经采样的音频数据中的用户话语可以是“转到iTunes Store”，其中用户意图包括用于启动iTunes Store应用程序的请求。应当认识到，可预期用于调整媒体设备上的应用程序的状态或设置的其他请求。

再次参考框724，可确定用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求。例如，用户意图可替代为用于呈现与一个或多个媒体项相关的信息的请求。响应于此类确定，可执行框728至框746中的一个或多个框。在过程700的框728处，可确定用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型。在一些示例中，多个预先确定的请求类型可以是与纯文本响应相关联的请求。更具体地，多个预先确定的请求类型可以是对被预先确定以要求纯文本响应的信息的请求。这与用于被预先确定以要求包括媒体对象(例如，图像、动画对象、视频等)的响应的请求形成对比。在一些示例中，多个预先确定的请求类型可包括对特定位置当前时间的请求(例如，“Paris现在是几点？”)、呈现笑话的请求(例如，“给我讲个有趣的笑话。”)，或对关于当前在电子设备上播放的媒体内容的信息的请求(例如，“这部电影是什么时候发行的？”)。响应于确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型，可执行框730至框732中的一个或多个框。

在过程700的框730处，可获取至少部分地满足用户意图的结果。例如，可通过执行任务流来从外部服务(例如，外部服务120)获取结果。在过程700的框732处，在框730处获取的结果可以文本形式而被显示在显示单元上。此外，可通过文本形式来显示结果，而不显示与结果对应的任何对应的图形或媒体相关的项目。

图8M至图8P示出了框728至框732的示例性示例。如图8M所示，电影“LegallyBlonde”最初可在媒体设备上播放并被显示在显示单元上。在播放“Legally Blonde”时，可(例如，在框704处)调用数字助理，并且经采样的音频数据中的用户话语可以是“女主演是谁？”。例如，如图8N所示，可在显示单元上显示用户话语的文本表示840。基于该用户话语，可(例如，在框710处)确定用户意图包括用于识别特定媒体项的女主演的请求。由于用户话语未指定任何特定媒体项，因此用户意图可能是模糊的。然而，基于在对音频数据进行采样时显示的电影“Legally Blonde”，可确定与用户意图相关联的媒体项是“LegallyBlonde”。在该示例中，可(例如，在框728处)确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型。具体地，可确定可提供纯文本响应来满足识别Legally Blonde中的女主演的用户意图。响应于确定用户意图是多个预先确定的请求类型中的一个预先确定的请求类型，可(例如，在框730处)在媒体相关数据库中执行搜索，以获取电影“LegallyBlonde”中的女主演是“Reese Witherspoon”的结果。如图8P所示，纯文本结果842“ReeseWitherspoon”可被显示在显示单元上，以满足用户意图。纯文本结果842可覆盖在所显示的“Legally Blonde”的媒体内容上。此外，在显示纯文本结果842时，“Legally Blonde”的媒体内容可继续播放。通过显示纯文本结果842(例如，不显示图形结果或附加的用户界面来满足用户意图)，可通过不惹眼的方式来满足用户意图，并且尽量减少干扰用户对媒体内容的消费。同时，向用户提供对数字助理服务的访问。这对于改善用户体验是可取的。

再次参考框728，可确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型。具体地，用户意图可以是被预先确定为要求多于文本结果来进行满足的请求类型。例如，用户意图可以是用于执行媒体搜索查询并显示与媒体搜索查询对应的媒体项的请求。在其他示例中，用户意图可以是对除媒体项之外的信息的请求。例如，用户意图可以是对与以下各项相关联的信息的请求，包括：运动队(例如，“L.A.Lakers在他们的最后一场比赛中表现如何？”)、运动员(例如，“LeBron James有多高？”)、股市(例如，“昨天的道琼斯指数收盘价是多少？”)，或天气(例如，“法国‘Paris’下周的天气预报如何？”)。响应于确定用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型，可执行框734至框746中的一个或多个框。

在过程700的框734处，可获取至少部分地满足用户意图的第二结果。框734可与上述框534相似或相同。在一个示例中，用户意图可包括用于执行媒体搜索查询的请求。在该示例中，可在框734处执行媒体搜索查询以获取第二结果。具体地，第二结果可包括与媒体搜索查询对应的媒体项。

在一些示例中，用户意图可以不是媒体搜索查询。例如，用户意图可以是用于提供法国“Paris”的天气预报的请求(例如，法国“Paris”的天气预报如何？)。在该示例中，在框734处获取的第二结果可包括法国“Paris”未来7天的天气预报。第二结果可包括至少部分地满足用户意图的非媒体数据。具体地，法国“Paris”未来7天的天气预报可包括文本数据(例如，日期、温度和天气状况的简要描述)和图形图像(例如，晴天、多云、有风或有雨的图像)。此外，在一些示例中，可在框710处扩展用户意图的范围，以包括对至少部分地满足用户意图的媒体项的请求。在这些示例中，在框734处获取的第二结果可还包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。例如，在框734处可在相关时间段针对法国“Paris”的天气预报执行媒体搜索查询，并且可获取与法国“Paris”的天气预报相关的一个或多个媒体项。一个或多个媒体项可包括例如来自呈现法国“Paris”的天气预报的天气频道的视频剪辑。在这些示例中，非媒体数据和/或一个或多个媒体项可(例如，在下面描述的框738、框742或框746处)在所显示单元上的用户界面中显示。

在过程700的框736处，可确定所显示的内容是否包括在电子设备上播放的媒体内容。在一些示例中，可确定所显示的内容不包括在电子设备上播放的媒体内容。例如，所显示的内容可替代地包括用户界面，诸如主菜单用户界面或第三用户界面(例如，第三用户界面826)。第三用户界面可至少占据显示单元的大部分显示区域。此外，第三用户界面可包括与在框704处检测用户输入之前所接收的先前用户请求相关的先前结果。根据确定所显示的内容不包括媒体内容，可执行框738。

在过程700的框738处，可在显示单元上的第三用户界面中显示第二结果的一部分。在接收到框704处的用户输入时所显示的内容已包括第三用户界面的示例中，可利用对第三用户界面中的第二结果的一部分的显示来替换对与先前的用户请求相关的先前结果的显示。在接收到框704处的用户输入时所显示的内容不包括第三用户界面(例如，所显示的内容包括主菜单用户界面)的示例中，可显示第三用户界面并且第二结果可被包括在所显示的第三用户界面中。

在一些示例中，可确定第二结果是否包括预先确定类型的结果。预先确定类型的结果可与显示单元的一小部分显示区域相关联。预先确定类型的结果可包括例如与股市或天气相关的结果。应当认识到，在其他示例中，预先确定类型的结果可变化。响应于确定第二结果包括预先确定类型的结果，可在显示单元上的第二用户界面中显示第二结果的一部分。第二用户界面可占据显示单元的一小部分显示区域。在这些示例中，虽然在框736处确定所显示的内容不包括媒体内容，但在第二用户界面中可显示第二结果的一部分。

图8Q至图8S示出了框734至框738的示例性示例。在该示例中，如图8Q所示，所显示的内容最初可包括第三用户界面826。第三用户界面826可包括来自先前用户请求的先前结果。具体地，第三用户界面826包括来自先前请求的媒体搜索查询的媒体项844。如图8R所示，在显示第三用户界面826时，可(例如，在框704处)调用数字助理。经采样的音频数据中的用户话语可包括“为我显示由Luke Wilson主演的电影。”。用户话语的文本表示846可在显示单元上显示。在该示例中，可(例如，在框710处)确定用户意图是对Luke Wilson主演的电影执行媒体搜索查询的请求。可(例如，在框734处)执行媒体搜索查询来获取第二结果。具体地，第二结果可包括与由Luke Wilson主演的电影对应的媒体项848。此外，可获取与用户意图或先前的用户意图有关的附加结果(例如，媒体项850)。可通过与框544中描述的获取第二结果的方式类似的方式来获取这些附加结果。

在图8Q至图8S的本示例中，所显示的内容仅包括第三用户界面826，因此可(例如，在框736处)确定所显示的内容不包括在电子设备上播放的媒体内容。响应于该确定，第二结果可在第三用户界面826中显示。具体地，如图8S所示，可利用对第三用户界面826中的媒体项848的显示来替换对第三用户界面826中的媒体项844的显示。此外，媒体项850可在第三用户界面826中显示。

如该示例中所示，只有在确定媒体内容未在显示单元上显示之后，才可在第三用户界面中呈现第二结果。这允许在较大区域中显示范围较宽的结果，从而增加满足用户实际意图的概率。同时，通过确保在第三用户界面中呈现第二结果之前在显示单元上没有正在显示的媒体内容来避免干扰用户对媒体内容的消费。

再次参考框736，所显示的内容可包括正在媒体设备上播放的媒体内容。在这些示例中，可确定所显示的内容包括在媒体设备上播放的媒体内容。根据该确定，可执行框740至框746中的一个或多个框。

在过程700的框740处，可确定正在播放的媒体内容是否可被暂停。可被暂停的媒体内容的示例可包括点播的媒体项，诸如点播的电影和电视节目。不能被暂停的媒体内容的示例可包括广播或流服务的媒体节目和直播的媒体节目(例如，体育赛事、音乐会等)。因此，点播的媒体项可不包括广播或直播的节目。根据在框740处确定正在播放的媒体内容不能被暂停，可执行框742。在过程700的框742处，可在显示单元上显示具有第二结果的一部分的第二用户界面。框742可类似于上述框536。可在显示媒体内容时显示第二用户界面。第二用户界面在显示单元上占据的显示区域可小于媒体内容在显示单元上占据的显示区域。根据确定正在播放的媒体内容可被暂停，可执行框744至框746中的一个或多个框。在过程700的框744处，可在媒体设备上暂停正在播放的媒体内容。在过程700的框746处，可显示具有第二结果的一部分的第三用户界面。可在媒体内容暂停时显示第三用户界面。

图8T至图8W示出了框740至框746的示例性示例。如图8T所示，可在显示单元上显示在媒体设备上播放的媒体内容802。在显示媒体内容802时，可(例如，在框704处)激活数字助理。经采样的音频数据中的用户话语可以是“为我显示由Luke Wilson主演的电影。”。用户话语的文本c表示846可在显示单元上显示。如上所述，可(例如，在框710处)确定用户意图是用于获取由Luke Wilson主演的电影的媒体项的请求。可(例如，在框734处)执行对应媒体搜索查询来获取第二结果。第二结果可包括作为由Luke Wilson主演的电影的媒体项848。在(例如，在框744处)确定媒体内容802不能被暂停的示例中，可在第二用户界面818中显示媒体项848，同时在显示单元上继续显示媒体内容802(例如，图8U)。在第二用户界面818中显示媒体项848是可取的，使得在显示媒体项848时媒体内容802能够持续用于用户消费，从而满足用户意图。这防止用户错过不能被暂停或重放的媒体内容802的任何部分。作为另外一种选择，在(例如，在框744处)确定媒体内容802可被暂停的示例中，可暂停播放媒体设备上的媒体内容802，并且可在显示单元上的第三用户界面826中显示媒体项848(例如，图8S)。显示第三用户界面826是可取的，使得与各种另选用户意图(例如，媒体项850)相关联的范围更广的媒体项能够与所请求的媒体项(例如，媒体项848)一起显示，从而增加满足用户实际意图的可能性。同时，媒体内容802被暂停，使得用户不会错过媒体内容802的任何部分。通过基于媒体内容802是否可被暂停来改变用于显示媒体项848的用户界面可完全实现与用户话语相关联的用户意图，同时减少干扰用户对媒体内容802的消费。这样可改善整体用户体验。

在一些示例中，如图8V所示，除了在媒体设备上播放的媒体内容802之外，所显示的内容还可包括第二用户界面818。在这些示例中，第二用户界面818可包括与先前的用户请求(例如，对由Reese Witherspoon主演的浪漫喜剧的请求)相关的媒体项852。在显示媒体内容802和第二用户界面818时，可(例如，在框704处)调用数字助理。如图8W所示，经采样的音频数据可包括用户话语“为我显示由Luke Wilson主演的电影。”。用户话语的文本表示846可在显示单元上显示。基于该用户话语，可(例如，在框710处)确定用户意图是用于获取作为由Luke Wilson主演的电影的媒体项的请求。可(例如，在框734处)执行对应媒体搜索查询来获取第二结果(例如，媒体项848)。在这些示例中，第二用户界面818中的媒体项852的显示可被替换成媒体项848的显示(例如，图8U)。

图9示出了根据各种示例的用于与媒体系统的数字助理进行交互的过程900。可使用实现数字助理的一个或多个电子设备来执行过程900。例如，可使用上述系统100、媒体系统128、媒体设备104、用户设备122、或数字助理系统400中的一者或多者来执行过程900。应当理解，过程900中的一些操作可被组合、一些操作的顺序可被改变，并且一些操作可被省略。

在过程900的框902处，可在显示单元上显示内容。框902可与上述框502相似或相同。在一些示例中，所显示的内容可包括媒体内容(例如，电影、视频、电视节目、视频游戏等)。除此之外或作为另外一种选择，所显示的内容可包括用户界面。例如，所显示的内容可包括具有一个或多个示例性自然语言请求(例如，如图6D至图6E所示)的第一用户界面。在其他示例中，所显示的内容可包括具有来自先前用户请求的结果(例如，先前请求的媒体项)的第三用户界面(例如，第三用户界面626)。第三用户界面可至少占据显示单元的大部分显示区域。

在过程900的框904处，在显示框902的内容时可检测用户输入。该用户输入可与框558处描述的第五用户输入类似或相同。具体地，可在媒体设备的遥控器上检测用户输入。例如，用户输入可包括遥控设备的触敏表面上的预先确定的动作模式。在一些示例中，可经由不同于媒体设备的第二电子设备(例如，设备122)来检测用户输入。该第二电子设备可被配置为以无线方式来控制媒体设备。响应于检测到用户输入，可执行框906至框914中的一个或多个框。

在过程900的框906处，可在显示单元上显示虚拟键盘界面(例如，虚拟键盘界面646)。框906可与上述框562相似或相同。虚拟键盘界面可覆盖在第一用户界面或第三用户界面的至少一部分上。此外，可在显示单元上显示搜索字段(例如，搜索字段644)。虚拟键盘界面可被配置为使得经由虚拟键盘界面接收的用户输入导致搜索字段中的文本输入。

在过程900的框908处，可使可选择示能表示是被显示在第二电子设备上(例如，被显示在设备122的触摸屏346上)。第二电子设备可以是与媒体设备的遥控器不同的设备。对示能表示的选择可使得能够由媒体设备经由第二电子设备的键盘来接收文本输入。例如，对示能表示的选择可使得虚拟键盘界面(例如，类似于虚拟键盘界面646)在第二电子设备上显示。向第二电子设备的虚拟键盘界面的输入可使得在搜索字段(例如，搜索字段644)中输入对应文本。

在过程900的框910处，可经由第二电子设备的键盘(例如，虚拟键盘界面)来接收文本输入。具体地，用户可经由第二电子设备的键盘来输入文本，并且文本输入可被传输到媒体设备并由媒体设备接收。该文本输入可表示用户请求。例如，文本输入可以是可表示对与搜索字符串“Jurassic Park”相关联的媒体项执行搜索的请求的“Jurassic Park”。

在过程900的框912处，可获取至少部分地满足用户请求的结果。例如，可使用文本输入来执行媒体搜索，并且可获取对应媒体项。在文本输入是“Jurassic Park”的特定示例中，可获取标题为“Jurassic Park”或具有与电影“Jurassic Park”相同的演员或导演的媒体项。在文本输入是“Reese Witherspoon”的另一示例中，可获取其中具有女演员ReeseWitherspoon的媒体项。

在过程900的框914处，可在显示单元上显示用户界面。用户界面可包括结果的至少一部分。例如，用户界面可包括作为框912处执行的媒体搜索的结果而获取的媒体项。

虽然上面将过程500、过程700和过程900的某些框描述为由设备或系统(例如，媒体设备104、用户设备122或数字助理系统400)执行，但是应当认识到，在一些示例中，可将多于一个设备用于执行框。例如，在作出确定的框中，第一设备(例如，媒体设备104)可从第二设备(例如，服务器系统108)获取确定。类似地，在显示内容、对象、文本或用户界面的框中，第一设备(例如，媒体设备104)可使得内容、对象、文本或用户界面显示在第二设备上(例如，显示单元126)。

5.电子设备

根据一些示例，图10示出了电子设备1000的功能框图，该电子设备根据所描述的各种示例的原理进行配置，以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图10中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。

如图10所示，电子设备1000可包括：被配置为接收用户输入诸如触觉输入、手势输入的输入单元1003(例如，遥控器124等)；被配置为接收音频数据的音频输入单元1004(例如，麦克风272等)；被配置为输出音频的扬声器单元106(例如，扬声器268等)；以及被配置为经由网络来从外部设备发送和接收信息的通信单元1007(例如，通信子系统224等)。在一些示例中，电子设备1000可以可选地包括被配置为显示媒体、界面和其他内容的显示单元1002(例如，显示单元126等)。电子设备1000还可包括耦接至输入单元1003、音频输入单元1004、扬声器单元1006、通信单元1007、以及可选的显示单元1002的处理单元1008。在一些示例中，该处理单元1008可包括显示启用单元1010、检测单元1012、确定单元1014、采样单元1016、输出单元1018、执行单元1020、获取单元1022、和切换单元1024。

根据一些实施方案，该处理单元1008被配置为在显示单元(例如，显示单元1002或独立显示单元)上显示内容(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为检测用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为确定用户输入是否对应于第一输入类型(例如，利用确定单元1014)。该处理单元1008被进一步配置为根据确定用户输入对应于第一输入类型而在显示单元上显示多个示例性自然语言请求(例如，显示启用单元1010)。多个示例性自然语言请求与所显示的内容上下文相关，其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。

在一些示例中，在电子设备的遥控器上检测用户输入。在一些示例中，第一输入类型包括按压遥控器的按钮，并在预先确定的持续时间内释放按钮。在一些示例中，多个示例性自然语言请求经由第一用户界面而被显示在显示单元上，并且第一用户界面覆盖在所显示的内容上。在一些示例中，所显示的内容包括媒体内容，并且在显示多个示例性自然语言请求时媒体内容继续播放。

在一些示例中，该处理单元1008被进一步配置为根据确定用户输入对应于第一输入类型，在显示单元上显示视觉指示符(例如，利用显示启用单元1010)，从而指示数字助理并未正在处理音频输入。

在一些示例中，在确定用户输入对应于第一输入类型时，在预先确定量的时间之后在显示单元上显示多个示例性自然语言请求。在一些示例中，多个示例性自然语言请求中的每个示例性自然语言请求以预先确定的顺序在不同的时间单独显示。

在一些示例中，该处理单元1008被进一步配置为显示示例性自然语言请求的多个列(例如，利用显示启用单元1010)表，其中每个列表在不同的时间轮番显示。

在一些示例中，该处理单元1008被进一步配置为根据确定用户输入不对应于第一输入类型，确定用户输入是否对应于第二输入类型(例如，利用确定单元1014)。该处理单元1008被进一步配置为根据确定用户输入对应于第二输入类型，对音频数据进行采样(例如，利用采样单元1016和音频输入单元1004)。该处理单元1008被进一步配置为确定音频数据是否包含用户请求(例如，利用确定单元1014)。该处理单元1008被进一步配置为根据确定音频数据包含用户请求而执行至少部分地满足用户请求的任务(例如，利用执行单元1020)。

在一些示例中，第二输入类型包括按压电子设备遥控器的按钮并按住按钮超过预先确定的持续时间。

在一些示例中，该处理单元1008被进一步配置为根据确定音频数据不包含用户请求而在显示单元上显示用于澄清用户意图的请求(例如，利用显示启用单元1010)。

在一些示例中，所显示的内容包括媒体内容，并且在对音频数据进行采样以及在执行任务时该媒体内容在电子设备上继续播放。

在一些示例中，该处理单元1008被进一步配置为输出(例如，利用输出单元1018)与媒体内容相关联的音频(例如，使用扬声器单元1006)。该处理单元1008被进一步配置为根据确定用户输入对应于第二输入类型而减小音频振幅(例如，利用输出单元1018)。

在一些示例中，执行任务而不从电子设备输出与任务相关的语音。在一些示例中，在检测用户输入时对音频数据进行采样。在一些示例中，在检测到用户输入之后，在预先确定的持续时间内对音频数据进行采样。

在一些示例中，经由电子设备遥控器上的第一麦克风来对音频数据进行采样(例如，音频输入单元1004)。该处理单元1008被进一步配置为在对音频数据进行采样时经由遥控器上的第二麦克风(例如，电子设备1000的第二音频输入单元)来对背景音频数据进行采样(例如，利用采样单元1016和音频输入单元1004)。该处理单元1008被进一步配置为使用背景音频数据来消除音频数据中的背景噪声(例如，利用输出单元1018)。

在一些示例中，与所显示的内容相关联的音频经由来自电子设备的音频信号而被输出。该处理单元1008被进一步配置为使用音频信号来消除音频数据中的背景噪声(例如，利用输出单元1018)。

在一些示例中，该处理单元1008被进一步配置为响应于检测到用户输入而在显示单元上显示用于提示用户提供口头请求的视觉提示(例如，利用显示启用单元1010)。

在一些示例中，该处理单元1008被进一步配置为(例如，利用获取单元1022)获取至少部分地满足用户请求的结果。该处理单元1008被进一步配置为在显示单元上显示第二用户界面(例如，利用显示启用单元1010)。该第二用户界面包括结果的一部分，其中在显示第二用户界面时继续显示内容的至少一部分，并且其中显示单元上的第二用户界面的显示区域小于显示单元上的内容的至少一部分的显示区域。在一些示例中，第二用户界面覆盖在所显示的内容上。

在一些示例中，该结果的该一部分包括一个或多个媒体项。该处理单元1008被进一步配置为经由第二用户界面来接收对一个或多个媒体项中的媒体项的选择(例如，利用检测单元1012)。该处理单元1008被进一步配置为在显示单元上显示与所选择的媒体项相关联的媒体内容(例如，利用显示启用单元1010)。

在一些示例中，该处理单元1008被进一步配置为在显示第二用户界面时检测第二用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而停止显示第二用户界面(例如，利用显示启用单元1010)。

在一些示例中，在电子设备的遥控器上检测第二用户输入。该第二用户输入包括遥控器触敏表面上的第一预先确定的动作模式。

在一些示例中，该处理单元1008被进一步配置为在显示第二用户界面时检测第三用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第三用户输入而利用对第三用户界面的显示来替换对显示单元上的第二用户界面的显示(例如，利用显示启用单元1010)。第三用户界面包括结果的至少一部分，并且第三用户界面占据显示单元的至少大部分显示区域。

在一些示例中，在电子设备的遥控器上检测第三用户输入，并且第三用户输入包括遥控器触敏表面上的第二预先确定的动作模式。

在一些示例中，该处理单元1008被进一步配置为响应于检测到第三用户输入而获取与该结果不同的第二结果(例如，利用获取单元1022)。该第二结果至少部分地满足用户请求，并且第三用户界面包括第二结果的至少一部分。

在一些示例中，第二结果基于在检测用户输入之前所接收的用户请求。在一些示例中，在检测到第三用户输入时，第二用户界面的焦点在结果的一部分的项目上，并且第二结果与该项目上下文相关。

在一些示例中，所显示的内容包括媒体内容。该处理单元1008被进一步配置为响应于检测到第三用户输入而暂停播放电子设备上的媒体内容(例如，利用执行单元1020)。

在一些示例中，结果的至少一部分包括一个或多个媒体项。该处理单元1008被进一步配置为经由第三用户界面来接收对一个或多个媒体项中的媒体项的选择(例如，利用检测单元1012)。该处理单元1008被进一步配置为在显示单元上显示与媒体项相关联的媒体内容(例如，利用显示启用单元1010)。

在一些示例中，该处理单元1008被进一步配置为在显示第三用户界面时检测与显示单元上的方向相关联的第四用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第四用户输入而将第三用户界面的焦点从第一项目切换至第三用户界面上的第二项目(例如，利用切换单元1024)。该第二项目可被定位在相对于第一项目的方向上。

在一些示例中，该处理单元1008被进一步配置为在显示第三用户界面时检测第五用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第五用户输入而显示搜索字段(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为在显示单元显示虚拟键盘界面上(例如，利用显示启用单元1010)，其中经由虚拟键盘界面接收的输入导致搜索字段中的文本输入。

在一些示例中，该处理单元1008被进一步配置为在显示第三用户界面时检测第六用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第六用户输入而对第二音频数据进行采样(例如，利用采样单元1016和音频输入单元1004)。该第二音频数据包含第二用户请求。该处理单元1008被进一步配置为确定第二用户请求是否是有用于细化用户请求的结果的请求(例如，利用确定单元1014)。该处理单元1008被进一步配置为根据确定第二用户请求是用于细化用户请求的结果的请求，经由第三用户界面来显示结果的子组(例如，利用显示启用单元1010)。

在一些示例中，结果的子组被显示在第三用户界面的顶行处。该处理单元1008被进一步配置为根据确定第二用户请求不是用于细化用户请求的结果的请求，取至少部分地满足第二用户请求的第三结果(例如，利用获取单元1018)获。该处理单元1008被进一步配置为经由第三用户界面来显示第三结果的一部分(例如，利用显示启用单元101)。在一些示例中，该第三结果的一部分被显示在第三用户界面的顶行处。

在一些示例中，该处理单元1008被进一步配置为获取至少部分地满足用户请求或第二用户请求的第四结果(例如，利用获取单元1022)。该处理单元1008被进一步配置为经由第三用户界面来显示第四结果的一部分(例如，利用显示启用单元1010)。

在一些示例中，该第四结果的一部分被显示在第三用户界面顶行之后的行处。

在一些示例中，在检测到第六用户输入时，该第三用户界面的焦点位于第三用户界面的一个或多个项目上，并且第四结果与一个或多个项目上下文相关。

在一些示例中，该处理单元1008被进一步配置为在显示第三用户界面时检测第七用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第七用户输入而停止显示第三用户界面(例如，利用显示启用单元1010)。

在一些示例中，所显示的内容是媒体内容，并且响应于检测到第三用户输入而暂停播放电子设备上的媒体内容。该处理单元1008被进一步配置为响应于检测到第七用户输入而恢复播放电子设备上的媒体内容(例如，利用执行单元1020)。在一些示例中，该第七用户输入包括按压电子设备的遥控器的菜单按钮。

根据一些实施方案，该处理单元1008被进一步配置为在显示单元上显示内容(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为在显示内容时检测用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到用户输入而在显示单元上显示用户界面(例如，利用显示启用单元1010)。该用户界面包括与所显示的内容上下文相关的多个示例性自然语言请求，其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。

在一些示例中，所显示的内容包括媒体内容。在一些示例中，多个示例性自然语言请求包括用于修改与媒体内容相关联的一个或多个设置的自然语言请求。在一些示例中，在显示用户界面时媒体内容继续播放。

在一些示例中，该处理单元1008被进一步配置为输出与媒体内容相关联的音频。响应于检测到用户输入(例如，利用输出单元1018)，不减小音频的振幅。在一些示例中，所显示的内容包括主菜单用户界面。

在一些示例中，多个示例性自然语言请求包括与数字助理的多个核心竞争力中的每个核心竞争力相关的示例性自然语言请求。在一些示例中，所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。在一些示例中，多个示例性自然语言请求包括用于细化结果的自然语言请求。在一些示例中，该用户界面包括用于调用数字助理并与其进行交互的文本指令。在一些示例中，该用户界面包括指示数字助理未在接收音频输入的视觉指示符。在一些示例中，该用户界面覆盖在所显示的内容上。

在一些示例中，该处理单元1008被进一步配置为响应于检测到用户输入而降低所显示的内容的亮度以突出显示用户界面(例如，利用显示启用单元1010)。

在一些示例中，在电子设备的遥控器上检测用户输入。在一些示例中，用户输入包括按压遥控设备的按钮并在按压按钮之后的预先确定的持续时间内释放按钮。在一些示例中，该按钮被配置为调用数字助理。在一些示例中，该用户界面包括用于显示虚拟键盘界面的文本指令。

在一些示例中，该处理单元1008被进一步配置为在显示用户界面之后检测第二用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而在显示单元上显示虚拟键盘界面(例如，利用显示单元1012)。

在一些示例中，该处理单元1008被进一步配置为将用户界面的焦点改变至用户界面上的搜索字段(例如，利用显示启用单元1010)。在一些示例中，该搜索字段被配置为经由虚拟键盘界面来接收文本搜索查询。在一些示例中，该虚拟键盘界面不可用于与数字助理进行交互。在一些示例中，该第二用户输入包括电子设备的遥控设备触敏表面上的预先确定的动作模式。

在一些示例中，多个示例性自然语言请求在检测到用户输入之后的预先确定量的时间被显示。在一些示例中，该处理单元1008被进一步配置为以预先确定的顺序一次一个地显示多个示例性自然语言请求中的每个示例性自然语言请求(例如，利用显示启用单元1010)。在一些示例中，该处理单元1008被进一步配置为利用多个示例性自然语言请求中的随后的示例性自然语言请求来替换对多个示例性自然语言请求中的先前显示的示例性自然语言请求的显示(例如，利用显示启用单元1010)。

在一些示例中，内容包括具有一个或多个项目的第二用户界面。当检测到用户输入时，该第二用户界面的焦点位于一个或多个项目中的项目上。多个示例性自然语言请求与一个或多个项目中的所述项目上下文相关。

根据一些实施方案，该处理单元1008被进一步配置为在显示单元上显示内容(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为检测用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到用户输入而显示自然语言话语的一个或多个所建议的示例(例如，利用显示启用单元1010)。该一个或多个所建议的示例与所显示的内容上下文相关，并且当由用户说出时，使得数字助理执行对应动作。

在一些示例中，该处理单元1008被进一步配置为检测第二用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第二用户输入而对音频数据进行采样(例如，利用采样单元1016)。该处理单元1008被进一步配置为(例如，利用确定单元1014)来确定经采样的音频数据是否包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例。该处理单元1008被进一步配置为根据确定经采样的音频数据包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例而执行针对话语的对应动作(例如，利用执行单元1020)。

根据一些实施方案，该处理单元1008被进一步配置为在显示单元上显示内容(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为在显示内容时检测用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到用户输入而对音频数据进行采样(例如，利用采样单元1016)。该音频数据包括表示媒体搜索请求的用户话语。该处理单元1008被进一步配置为获取满足媒体搜索请求的多个媒体项(例如，利用获取单元1022)。该处理单元1008被进一步配置为经由用户界面在显示单元上来显示多个媒体项的至少一部分(例如，利用显示启用单元1010)。

在一些示例中，在显示多个媒体项的至少一部分时，内容继续显示在显示单元上。用户界面所占据的显示区域小于内容所占据的显示区域。

在一些示例中，该处理单元1008被进一步配置为确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量(例如，利用确定单元1014)。根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量，多个媒体项的至少一部分包括多个媒体项。

在一些示例中，根据确定多个媒体项中的媒体项的数量大于预先确定的数量，多个媒体项的至少一部分中的媒体项的数量等于预先确定的数量。

在一些示例中，多个媒体项中的每个媒体项与相对于媒体搜索请求的相关性得分相关联，并且多个媒体项的至少一部分的相关性得分在多个媒体项中是最高的。

在一些示例中，多个媒体项的至少一部分中的每个媒体项与流行度评级相关联，并且多个媒体项的至少一部分基于流行度评级而被布置在用户界面中。

在一些示例中，该处理单元1008被进一步配置为在显示多个媒体项的至少一部分时检测第二用户输入(例如，利用检测单元1012)。处理单元1008被进一步配置为响应于检测到第二用户输入而扩展用户界面(例如，利用显示启用单元1010)，从而至少占据显示单元的大部分显示区域。

在一些示例中，该处理单元1008被进一步配置为响应于检测到第二用户输入而确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量(例如，利用确定单元1014)。该处理单元1008被进一步配置为根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量而获取至少部分地满足媒体搜索请求的第二多个媒体项，该第二多个媒体项不同于媒体项的至少一部分。该处理单元1008被进一步配置为经由经扩展的用户界面来在显示单元上显示第二多个媒体项(例如，利用显示启用单元101)。

在一些示例中，该处理单元1008被进一步配置为确定媒体搜索请求是否包括多于一个搜索参数(例如，利用确定单元1014)。根据确定媒体搜索请求包括多于一个搜索参数，在经扩展的用户界面中根据媒体搜索请求的多于一个搜索参数来组织第二多个媒体项。

在一些示例中，该处理单元1008被进一步配置为根据确定多个媒体项中的媒体项的数量大于预先确定的数量，经由经扩展的用户界面来显示多个媒体项的至少第二部分(例如，利用显示启用单元1010)。多个媒体项的至少第二部分不同于多个媒体项的至少一部分。

在一些示例中，多个媒体项的至少第二部分包括两个或更多个媒体类型，并且多个媒体项的至少第二部分根据两个或更多个媒体类型中的每个媒体类型而在经扩展的用户界面中进行组织。

在一些示例中，该处理单元1008被进一步配置为检测第三用户输入(例如，利用检测单元1012)。该处理单元1008被进一步配置为响应于检测到第三用户输入而使得经扩展的用户界面滚动(例如，利用显示启用单元1010)。该处理单元1008被进一步配置为确定经扩展的用户界面是否已滚动超过扩展的用户界面上的预先确定的位置(例如，利用确定单元1014)。该处理单元1008被进一步配置为响应于确定经扩展的用户界面已滚动超过扩展的用户界面上的预先确定的位置而在经扩展的用户界面上显示多个媒体项的至少第三部分(例如，利用显示启用单元1010)。根据与第三多个媒体项相关联的一个或多个媒体内容提供方来将多个媒体项的至少第三部分组织在经扩展的用户界面上。

以上参考图5A至图5I所述的操作任选地由图1至图3和图4A至图4B中所示的部件来实现。例如，显示操作502,508-514,520,524,530,536,546,556,560,562,576,582,588,592、检测操作504,538,542,550,558,566,570、确定操作506,516,522,526,528,574,578、采样操作518,572、执行操作532,584、获取操作534,544,580,586,590、暂停操作540,568、接收操作554，以及切换操作552,564可由操作系统252、GUI模块256、应用程序模块262、数字助理模块426和一个或多个处理器204,404中的一者或多者来实现。本领域的技术人员会清楚地知道可如何基于图1至图3和图4A至图4B中所示的部件来实现其他过程。

根据一些示例，图11示出了电子设备1100的功能框图，该电子设备根据所描述的各种示例的原理进行配置，以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图11中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述的功能块的任何可能的组合或分离或进一步限定。

如图11所示，电子设备1100可包括：被配置为接收用户输入诸如触觉输入、手势输入的输入单元1103(例如，遥控器124等)；被配置为接收音频数据的音频输入单元1104(例如，麦克风272等)；被配置为输出音频的扬声器单元116(例如，扬声器268等)；以及被配置为经由网络从外部设备发送和接收信息的通信单元1107(例如，通信子系统224等)。在一些示例中，电子设备1100可以可选地包括被配置为显示媒体、界面和其他内容的显示单元1102(例如，显示单元126等)。电子设备1100还可包括耦接至输入单元1103、音频输入单元1104、扬声器单元1106、通信单元1107、以及可选的显示单元1102的处理单元1108。在一些示例中，处理单元1108可包括显示启用单元1110、检测单元1112、确定单元1114、采样单元1116、输出单元1118、执行单元1120、获取单元1122、识别单元1124、和传输单元1126。

根据一些实施方案，该处理单元1108被配置为在显示单元(例如，显示单元1102或独立显示单元)上显示内容(例如，利用显示启用单元1110)。该处理单元1108被进一步配置为在显示内容时检测用户输入(例如，利用检测单元1112)。该处理单元1108被进一步配置为响应于检测到用户输入而对音频数据进行采样(例如，利用采样单元1016和音频输入单元1104)。该音频数据包括用户话语。该处理单元1108被进一步配置为获取对与用户话语对应的用户意图的确定(例如，利用获取单元1122)。该处理单元1108被进一步配置为获取对用户意图是否包括调整电子设备上的应用程序的状态或设置的请求的确定(例如，利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户意图包括调整电子设备上的应用程序的状态或设置的请求的确定，调整应用程序的状态或设置以满足用户意图(例如，利用任务执行单元1120)。

在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于播放特定媒体项的请求。调整应用程序的状态或设置以满足用户意图包括播放特定媒体项。

在一些示例中，所显示的内容包括具有媒体项的用户界面，并且用户话语没有明确定义要播放的特定媒体项。该处理单元1108被进一步配置为确定用户界面的焦点是否位于媒体项上(例如，利用确定单元1114)。该处理单元1108被进一步配置为根据确定用户界面的焦点位于媒体项上，将该媒体项识别为是要播放的特定媒体项(例如，利用识别单元1124)。

在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于启动电子设备上的应用程序的请求。在一些示例中，所显示的内容包括在电子设备上播放的媒体内容，并且状态或设置与在电子设备上播放的媒体内容有关。在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于使电子设备上播放的媒体内容快进或快退的请求。在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于在媒体内容中向前或向后跳转以播放媒体内容的特定部分的请求。在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于使电子设备上播放的媒体内容暂停的请求。在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于打开或关闭媒体内容的字幕的请求。

在一些示例中，所显示的内容包括具有第一媒体项和第二媒体项的用户界面。

在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求包括用于将用户界面的焦点从第一媒体项切换至第二媒体项的请求。调整应用程序的状态或设置以满足用户意图包括将用户界面的焦点从第一媒体项切换至第二媒体项。

在一些示例中，所显示的内容包括正在媒体设备上播放的媒体内容。用户话语是指示用户未听到与媒体内容相关联的音频的一部分的自然语言表达。用于调整电子设备上的应用程序的状态或设置的请求包括用于重新播放媒体内容的一部分的请求，该媒体内容的一部分对应于用户未听到的音频的一部分。该处理单元1108被进一步配置为使媒体内容向媒体内容的先前部分快退预先确定的量(例如，利用任务执行单元1120)；以及从先前部分重新开始播放媒体内容(例如，利用任务执行单元1120)。

在一些示例中，该处理单元1108被进一步配置为在从先前部分重新开始播放媒体内容之前打开隐藏式字幕(例如，利用任务执行单元1120)。

在一些示例中，用于调整电子设备上的应用程序的状态或设置的请求还包括用于增大与媒体内容相关联的音频的音量的请求。调整应用程序的状态或设置还包括在从先前部分重新开始播放媒体内容之前增加与媒体内容相关联的音频的音量。

在一些示例中，将与媒体内容相关联的音频中的语音转换成文本。调整应用程序的状态或设置还包括在从先前部分重新开始播放媒体内容时显示文本的一部分。

在一些示例中，该处理单元1108被进一步配置为获取对与用户话语相关联的用户情绪的确定(例如，利用获取单元1122)。基于所确定的用户情绪来确定用户意图。

在一些示例中，该处理单元1108被进一步配置为响应于获取用户意图不包括调整电子设备上的应用程序的状态或设置的请求的确定而获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定(例如，利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定而获取至少部分地满足用户意图的结果(例如，利用获取单元1122)，并且将结果以文本形式显示在显示单元上(例如，利用显示启用单元1110)。

在一些示例中，多个预先确定的请求类型包括对特定位置处的当前时间的请求。在一些示例中，多个预先确定的请求类型包括用于呈现笑话的请求。在一些示例中，多个预先确定的请求类型包括对关于在电子设备上播放的媒体内容的信息的请求。在一些示例中，文本形式的结果覆盖在所显示的内容上。在一些示例中，所显示的内容包括在电子设备上播放的媒体内容，并且在显示文本形式的结果时媒体内容继续播放。

在一些示例中，该处理单元1108被进一步配置为响应于获取用户意图不是多个预先确定的请求类型中的一个预先确定的请求类型的确定，获取至少部分地满足用户意图的媒体内容(例如，利用获取单元1122)，并且确定所显示的内容是否包括在电子设备上播放的媒体内容(例如，利用确定单元1114)。该处理单元1108被进一步配置为根据确定所显示的内容包括媒体内容而确定媒体内容是否可被暂停(例如，确定单元1114)。该处理单元1108被进一步配置为根据确定媒体内容不可被暂停而在显示单元上显示包含第二结果的一部分的第二用户界面(例如，显示启用单元1110)。第二用户界面在显示单元上占据的显示区域小于媒体内容在显示单元上占据的显示区域。

在一些示例中，该用户意图包括对特定位置的天气预报的请求。该用户意图包括对与运动队或运动员相关联的信息的请求。在一些示例中，该用户意图不是媒体搜索查询，并且其中第二结果包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。在一些示例中，该第二结果还包括至少部分地满足用户意图的非媒体数据。在一些示例中，该用户意图是媒体搜索查询，并且第二结果包括与媒体搜索查询对应的多个媒体项。

在一些示例中，该处理单元1108被进一步配置为根据确定所显示的内容不包括在电子设备上播放的媒体内容而在显示单元上显示包含第二结果的一部分的第三用户界面(例如，利用显示启用单元1110)，其中第三用户界面占据显示单元的大部分显示区域。

在一些示例中，该显示内容包括主菜单用户界面。

在一些示例中，所显示的内容包括具有先前结果的第三用户界面，该先前结果与在检测用户输入之前所接收的先前用户请求相关。根据确定所显示的内容不包括在电子设备上播放的媒体内容，利用对第二结果的显示来替换对第三用户界面中的先前结果的显示。

在一些示例中，该处理单元1108被进一步配置为根据确定所显示的内容包括在电子设备上播放的媒体内容而确定所显示的内容是否包括具有来自先前用户请求的先前结果的第二用户界面(例如，利用确定单元1114)。根据确定所显示的内容包括具有来自先前用户请求的先前结果的第二用户界面，利用第二结果来替换先前结果。

在一些示例中，该处理单元1108被进一步配置为根据确定媒体内容可被暂停，暂停播放电子设备上的媒体内容(例如，利用任务执行单元1120)，并且在显示单元上显示包含第二结果的一部分的第三用户界面(例如，利用显示启用单元1110)，其中第三用户界面占据显示单元的大部分显示区域。

在一些示例中，该处理单元1108被进一步配置为将音频数据传输至服务器以执行自然语言处理(例如，利用传输单元1126并使用通信单元1107)，并且向服务器指示音频数据与媒体应用程序相关联(例如，利用传输单元1126)。该指示使自然语言处理偏向与媒体相关的用户意图。

在一些示例中，该处理单元1108被进一步配置为将音频数据传输至服务器以执行语音转文本处理(例如，传输单元1126)。

在一些示例中，该处理单元1108被进一步配置为向服务器指示音频数据与媒体应用程序相关联(例如，利用传输单元1126)。该指示将语音转文本处理偏向于与媒体相关的文本结果。

在一些示例中，该处理单元1108被进一步配置为获取用户话语的文本表示(例如，利用获取单元1122)，其中该文本表示基于在对音频数据进行采样之前所接收的先前用户话语。

在一些示例中，文本表示基于在对音频数据进行采样之前接收到先前用户话语的时间。

在一些示例中，该处理单元1108被进一步配置为(例如，利用获取单元1122)获取用户意图不对应于与电子设备相关联的多个核心竞争力中一个核心竞争力的确定。该处理单元1108被进一步配置为使得第二电子设备执行促成满足用户意图的任务(例如，利用任务执行单元1120)。

在一些示例中，该处理单元1108被进一步配置为获取用户话语是否包括模糊术语的确定(例如，利用获取单元1122)。该处理单元1108被进一步配置为响应于获取用户话语包括模糊术语的确定而基于模糊术语获取两个或更多个候选用户意图(例如，利用获取单元1122)来；以及在显示单元上显示两个或更多个候选用户意图(例如，利用显示启用单元1110)。

在一些示例中，该处理单元1108被进一步配置为在显示两个或更多个候选用户意图时，接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择(例如，利用检测单元1112)。基于用户选择来确定用户意图。

在一些示例中，该处理单元1108被进一步配置为检测第二用户输入(例如，利用检测单元)。该处理单元1108被进一步配置为响应于检测到第二用户输入而对第二音频数据进行采样(例如，利用采样单元1116)。该第二音频数据包括表示用户选择的第二用户话语。

在一些示例中，显示两个或更多个解译，而无需输出与两个或更多个候选用户意图相关联的语音。

根据一些实施方案，该处理单元1108被进一步配置为在显示单元(例如，显示单元1102或独立显示单元)上显示内容(例如，利用显示启用单元1110)。该处理单元1108被进一步配置为在显示内容时检测用户输入(例如，利用检测单元1112)。该处理单元1108被进一步配置为响应于检测到用户输入而在显示单元上显示虚拟键盘界面(例如，利用显示启用单元1110)。该处理单元1108被进一步配置为使得可选择示能表示出现在第二电子设备的显示器上(例如，利用任务执行单元1120)。对示能表示的选择使得电子设备经由第二电子设备的键盘来接收文本输入(例如，使用通信单元1107)。

在一些示例中，该处理单元1108被进一步配置为经由第二电子设备的键盘来接收文本输入(例如，利用检测单元1112)，其中该文本输入表示用户请求。该处理单元1108被进一步配置为获取至少部分地满足用户请求的结果(例如，利用获取单元1122)，并在显示单元上显示用户界面且(例如，利用显示启用单元1110)，其中该用户界面包括该结果的至少一部分。

在一些示例中，所显示的内容包括具有多个示例性自然语言请求的第二用户界面。在一些示例中，所显示的内容包括媒体内容。在一些示例中，所显示的内容包括具有来自先前用户请求的结果的第三用户界面，其中第三用户界面占据显示单元的至少大部分显示区域。在一些示例中，该虚拟键盘界面覆盖在第三用户界面的至少一部分上。在一些示例中，经由电子设备的遥控器来检测用户输入，并且遥控器和第二电子设备是不同的设备。在一些示例中，该用户输入包括遥控设备的触敏表面上的预先确定的动作模式。在一些示例中，经由第二电子设备来检测用户输入。

以上参考图7A至图7C和图9所述的操作任选地由图1至图3和图4A中所示的部件来实现。以上参考图7A至图7C和图9所述的操作任选地由图1至图3和图4A至图4B所示的部件来实现。例如，显示操作702,716,732,736,738,742,746,902,906,914、检测操作704,718,904,910、确定操作708,710,712,714,720,724,728,736,740、采样操作706、执行操作722,726,744,908、获取操作730,734,912，以及切换操作552,564可由操作系统252,352、GUI模块256,356、应用程序模块262,362、数字助理模块426和一个或多个处理器204,304,404中的一者或多者来实现。本领域的技术人员将清楚地知道可如何基于图1至图3和图4A至图4B中所示的部件来实现其他过程。

根据一些具体实施，提供了一种计算机可读存储介质(例如，非暂态计算机可读存储介质)，该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行本文所述的任何方法的指令。

根据一些具体实施，提供了一种包括用于执行本文所述的任何方法的装置的电子设备(例如，便携式电子设备)。

根据一些具体实施，提供了一种包括被配置为执行本文所述的任何方法的处理单元的电子设备(例如，便携式电子设备)。

根据一些具体实施，提供了一种电子设备(例如，便携式电子设备)，该电子设备包括一个或多个处理器和存储有供一个或多个处理器执行的一个或多个程序的存储器，该一个或多个程序包括用于执行本文所述的任何方法的指令。

在以下项目中陈述了示例性方法、非暂态计算机可读存储介质、系统和电子设备：

1.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

检测用户输入；

确定用户输入是否对应于第一输入类型；以及根据确定用户输入对应于第一输入类型：

在显示单元上显示多个示例性自然语言请求，多个示例性自然语言请求与所显示的内容上下文相关，其中接收与多个示例性自然语言请求中的一个示例性自然语言请求对应的用户话语使得数字助理执行相应动作。

2.根据项目1所述的方法，其中在电子设备的遥控器上检测用户输入。

3.根据项目2所述的方法，其中第一输入类型包括按压遥控器的按钮并在预先确定的持续时间内释放按钮。

4.根据项目1至项目3中任一项所述的方法，其中多个示例性自然语言请求经由第一用户界面而被显示在显示单元上，并且其中第一用户界面覆盖在所显示的内容上。

5.根据项目1至项目4中任一项所述的方法，其中所显示的内容包括媒体内容，并且其中在显示多个示例性自然语言请求时，媒体内容继续播放。

6.根据项目1至项目5中任一项所述的方法，还包括：

根据确定用户输入对应于第一输入类型，在显示单元上显示用于指示数字助理并未正在处理音频输入的视觉指示符。

7.根据项目1至项目6中任一项所述的方法，其中在确定用户输入对应于第一输入类型之后，在预先确定量的时间之后在显示单元上显示多个示例性自然语言请求。

8.根据项目1至项目7中任一项所述的方法，其中多个示例性自然语言请求中的每个示例性自然语言请求以预先确定的顺序并且在不同的时间单独显示。

9.根据项目1至项目8中任一项所述的方法，其中显示多个示例性自然语言请求包括：

显示示例性自然语言请求的多个列表，其中每个列表在不同的时间并且轮番被显示。

10.根据项目1至项目9中任一项所述的方法，还包括：

根据确定用户输入不对应于第一输入类型：

确定用户输入是否对应于第二输入类型；以及

根据确定用户输入对应于第二输入类型：

对音频数据进行采样；

确定音频数据是否包含用户请求；以及根据确定音频数据包含用户请求，执行至少部分地满足用户请求的任务。

11.根据项目10所述的方法，其中第二输入类型包括按压电子设备的遥控器的按钮并按住按钮超过预先确定的持续时间。

12.根据项目10至项目11中任一项所述的方法，还包括：

根据确定音频数据不包含用户请求，在显示单元上显示用于澄清用户意图的请求。

13.根据项目10至项目12中任一项所述的方法，其中所显示的内容包括媒体内容，并且其中在对音频数据进行采样时以及在执行任务时，媒体内容在电子设备上继续播放。

14.根据项目13所述的方法，还包括：

输出与媒体内容相关联的音频；以及

根据确定用户输入对应于第二输入类型，减小音频的振幅。

15.根据项目10至项目14中任一项所述的方法，其中任务被执行，而无需从电子设备输出与任务相关的语音。

16.根据项目10至项目15中任一项所述的方法，其中在检测到用户输入时对音频数据进行采样。

17.根据项目10至项目15中任一项所述的方法，其中在检测到用户输入之后，在预先确定的持续时间内对音频数据进行采样。

18.根据项目10至项目17中任一项所述的方法，其中经由电子设备的遥控器上的第一麦克风来对音频数据进行采样，并且还包括：

在对音频数据进行采样时，经由遥控器上的第二麦克风来对背景音频数据进行采样；以及

使用背景音频数据来消除音频数据中的背景噪声。

19.根据项目10至项目18中任一项所述的方法，其中与所显示的内容相关联的音频经由来自电子设备的音频信号而被输出，并且还包括：

使用音频信号来消除音频数据中的背景噪声。

20.根据项目10至项目19中任一项所述的方法，还包括：

响应于检测到用户输入，在显示单元上显示用于提示用户提供口头请求的视觉提示。

21.根据项目10至项目20中任一项所述的方法，其中所执行的任务包括：

获取至少部分地满足用户请求的结果；以及

在显示单元上显示第二用户界面，第二用户界面包括结果的一部分，其中在显示第二用户界面时继续显示内容的至少一部分，并且其中显示单元上的第二用户界面的显示区域小于显示单元上的内容的至少一部分的显示区域。

22.根据项目21所述的方法，其中第二用户界面覆盖在所显示的内容上。

23.根据项目21至项目22中任一项所述的方法，其中结果的一部分包括一个或多个媒体项，并且还包括：

经由第二用户界面来接收对一个或多个媒体项中的媒体项的选择；以及

在显示单元上显示与所选择的媒体项相关联的媒体内容。

24.根据项目21至项目22中任一项所述的方法，还包括：

在显示第二用户界面时，检测第二用户输入；以及

响应于检测到第二用户输入，停止显示第二用户界面。

25.根据项目24所述的方法，其中在电子设备的遥控器上检测第二用户输入，并且其中第二用户输入包括遥控器的触敏表面上的第一预先确定的动作模式。

26.根据项目21至项目22中任一项所述的方法，还包括：

在显示第二用户界面时，检测第三用户输入；以及

响应于检测到第三用户输入，利用对显示单元上的第三用户界面的显示来替换对第二用户界面的显示，第三用户界面包括结果的至少一部分，其中第三用户界面占据显示单元的至少大部分显示区域。

27.根据项目26所述的方法，其中在电子设备的遥控器上检测第三用户输入，并且其中第三用户输入包括遥控器的触敏表面上的第二预先确定的动作模式。

28.根据项目26至项目27中任一项所述的方法，还包括：

响应于检测到第三用户输入：

获取与结果不同的第二结果，其中第二结果至少部分地满足用户请求，并且其中第三用户界面包括第二结果的至少一部分。

29.根据项目28所述的方法，其中第二结果基于在检测到用户输入之前所接收的用户请求。

30.根据项目28至项目29中任一项所述的方法，其中在检测到第三用户输入时，第二用户界面的焦点位于结果的一部分的项目上，并且其中第二结果与项目上下文相关。

31.根据项目26至项目30中任一项所述的方法，其中所显示的内容包括媒体内容，并且其中响应于检测到第三用户输入，暂停播放电子设备上的媒体内容。

32.根据项目26至项目31中任一项所述的方法，其中结果的至少一部分包括一个或多个媒体项，并且还包括：

经由第三用户界面来接收对一个或多个媒体项中的媒体项的选择；以及

在显示单元上显示与媒体项相关联的媒体内容。

33.根据项目26至项目32中任一项所述的方法，还包括：

在显示第三用户界面时，检测与显示单元上的方向相关联的第四用户输入；

响应于检测到第四用户输入：

在第三用户界面上将第三用户界面的焦点从第一项目切换至第二项目，第二项目被定位在相对于第一项目的方向上。

34.根据项目26至项目33中任一项所述的方法，还包括：

在显示第三用户界面时，检测第五用户输入；以及

响应于检测到第五用户输入：

显示搜索字段；以及

在显示单元上显示虚拟键盘界面，其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。

35.根据项目26至项目34中任一项所述的方法，还包括：

在显示第三用户界面时，检测第六用户输入；以及

响应于检测到第六用户输入：

对第二音频数据进行采样，第二音频数据包含第二用户请求；

确定第二用户请求是否是用于细化用户请求的结果的请求；以及

根据确定第二用户请求是用于细化用户请求的结果的请求：

经由第三用户界面来显示结果的子组。

36.根据项目35所述的方法，其中结果的所述子组被显示在第三用户界面的顶行处。

37.根据项目35至项目36中任一项所述的方法，还包括：

根据确定第二用户请求不是用于细化用户请求的结果的请求：

获取至少部分地满足第二用户请求的第三结果；以及

经由第三用户界面来显示第三结果的一部分。

38.根据项目37所述的方法，其中第三结果的一部分被显示在第三用户界面的顶行处。

39.根据项目35至项目38中任一项所述的方法，还包括：

获取至少部分地满足用户请求或第二用户请求的第四结果；以及

经由第三用户界面来显示第四结果的一部分。

40.根据项目39所述的方法，其中第四结果的一部分被显示在第三用户界面的顶行之后的行处。

41.根据项目39至项目40中任一项所述的方法，其中在检测到第六用户输入时，第三用户界面的焦点位于第三用户界面的一个或多个项目上，并且其中第四结果与一个或多个项目上下文相关。

42.根据项目26至项目41中任一项所述的方法，还包括：

在显示第三用户界面时，检测第七用户输入；

响应于检测到第七用户输入，停止显示第三用户界面。

43.根据项目42所述的方法，其中所显示的内容是媒体内容，其中响应于检测到第三用户输入而暂停播放电子设备上的媒体内容，并且其中响应于检测到第七用户输入而恢复播放电子设备上的媒体内容。

44.根据项目42至项目43中任一项所述的方法，其中第七用户输入包括按压电子设备的遥控器的菜单按钮。

45.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示内容时，检测用户输入；

响应于检测到所述用户输入：

在显示单元上显示用户界面，用户界面包括与所显示的内容上下文相关的多个示例性自然语言请求，其中接收与多个示例性自然语言请求中的一个例性自然语言请求对应的用户话语使得数字助理执行相应动作。

46.根据项目45所述的方法，其中所显示的内容包括媒体内容。

47.根据项目46所述的方法，其中多个示例性自然语言请求包括用于修改与媒体内容相关联的一个或多个设置的自然语言请求。

48.根据项目46至项目47中任一项所述的方法，其中在显示用户界面时，媒体内容继续播放。

49.根据项目46至项目41中任一项所述的方法，还包括：

输出与媒体内容相关联的音频，其中音频的振幅不响应于检测到用户输入而减小。

50.根据项目45所述的方法，其中所显示的内容包括主菜单用户界面。

51.根据项目50所述的方法，其中多个示例性自然语言请求包括与数字助理的多个核心竞争力中的每个核心竞争力相关的示例性自然语言请求。

52.根据项目45所述的方法，其中所显示的内容包括具有与先前用户请求相关联的结果的第二用户界面。

53.根据项目52所述的方法，其中多个示例性自然语言请求包括用于细化结果的自然语言请求。

54.根据项目45至项目53中任一项所述的方法，其中用户界面包括用于调用数字助理并与其进行交互的文本指令。

55.根据项目45至项目54中任一项所述的方法，其中用户界面包括指示数字助理并未正在接收音频输入的视觉指示符。

56.根据项目45至项目55中任一项所述的方法，其中用户界面覆盖在所显示的内容上。

57.根据项目45至项目56中任一项所述的方法，还包括：

响应于检测到用户输入，减小所显示的内容的亮度以突出显示用户界面。

58.根据项目45至项目57中任一项所述的方法，其中在电子设备的遥控器上检测用户输入。

59.根据项目58所述的方法，其中用户输入包括按压遥控设备的按钮并且在按压按钮之后的预先确定的持续时间内释放按钮。

60.根据项目59所述的方法，其中按钮被配置为调用数字助理。

61.根据项目45至项目60中任一项所述的方法，其中用户界面包括用于显示虚拟键盘界面的文本指令。

62.根据项目45至项目61中任一项所述的方法，还包括：

在显示用户界面之后，检测第二用户输入；以及

响应于检测到第二用户输入，在显示单元上显示虚拟键盘界面。

63.根据项目62所述的方法，还包括：

将用户界面的焦点改变到用户界面上的搜索字段。

64.根据项目63所述的方法，其中搜索字段被配置为经由虚拟键盘界面来接收文本搜索查询。

65.根据项目45至项目64中任一项所述的方法，其述虚拟键盘界面不可用于与数字助理进行交互。

66.根据项目45至项目65中任一项所述的方法，其中第二用户输入包括电子设备的遥控设备的触敏表面上的预先确定的动作模式。

67.根据项目45至项目66中任一项所述的方法，其中多个示例性自然语言请求在检测到用户输入之后的预先确定量的时间被显示。

68.根据项目45至项目67中任一项所述的方法，其中显示多个示例性自然语言请求进一步包括：

以预先确定的顺序一次一个地显示多个示例性自然语言请求中的每个示例性自然语言请求。

69.根据项目68所述的方法，其中按顺序显示进一步包括：

利用多个示例性自然语言请求中的后续示例性自然语言请求来替换对多个示例性自然语言请求中的先前所显示的示例性自然语言请求的显示。

70.根据项目45至项目69中任一项所述的方法，其中内容包括具有一个或多个项目的第二用户界面，其中在检测到用户输入时，第二用户界面的焦点位于一个或多个项目中的项目上，并且其中多个示例性自然语言请求与一个或多个项目中的项目上下文相关。

71.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

检测用户输入；以及

响应于检测到用户输入：

显示自然语言话语的一个或多个所建议的示例，一个或多个所建议的示例与所显示的内容上下文相关并且当由用户说出时使得数字助理执行对应动作。

72.根据项目71所述的方法，还包括：

检测第二用户输入；

响应于检测到第二用户输入：

对音频数据进行采样；

确定经采样的音频数据是否包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例；以及

根据确定经采样的音频数据包含自然语言话语的一个或多个所建议的示例中的一个所建议的示例，对话语执行对应动作。

73.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示内容时，检测用户输入；

响应于检测到用户输入，对音频数据进行采样，其中音频数据包括用户话语；

获取对与用户话语对应的用户意图的确定；

获取对用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定；以及

响应于获取用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定，调整应用程序的状态或设置以满足用户意图。

74.根据项目73所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于播放特定媒体项的请求，并且其中调整应用程序的状态或设置以满足用户意图包括播放特定媒体项。

75.根据项目74所述的方法，其中所显示的内容包括具有媒体项的用户界面，其中用户话语未明确定义要播放的特定媒体项，并且还包括：

确定用户界面的焦点是否位于媒体项上；以及

根据确定用户界面的焦点位于媒体项上，将媒体项识别为要播放的特定媒体项。

76.根据项目73所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于启动电子设备上的应用程序的请求。

77.根据项目73所述的方法，其中所显示的内容包括正在电子设备上播放的媒体内容，并且其中状态或设置与正在电子设备上播放的媒体内容相关。

78.根据项目77所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于使正在电子设备上播放的媒体内容快进或快退的请求。

79.根据项目77所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于在媒体内容中向前或向后跳转以播放媒体内容的特定部分的请求。

80.根据项目77所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于暂停播放电子设备上的媒体内容的请求。

81.根据项目77所述的方法，其中用于调整电子设备上的应用程序的状态或设置的请求包括用于打开或关闭媒体内容的字幕的请求。

82.根据项目73所述的方法，其中：

所显示的内容包括具有第一媒体项和第二媒体项的用户界面；

用于调整电子设备上的应用程序的状态或设置的请求包括用于将用户界面的焦点从第一媒体项切换至第二媒体项的请求；并且

调整应用程序的状态或设置以满足用户意图包括将用户界面的焦点从第一媒体项切换至第二媒体项。

83.根据项目73所述的方法，其中：

所显示的内容包括正在媒体设备上播放的媒体内容；

用户话语是指示用户未听到与＝媒体内容相关联的音频的一部分的自然语言表达；

用于调整电子设备上的应用程序的状态或设置的请求包括用于重放与用户未听到的音频的所述一部分对应的媒体内容的一部分的请求；并且

调整应用程序的状态或设置包括：

使媒体内容向媒体内容的先前部分快退预先确定的量；

以及

从先前部分重新开始播放媒体内容。

84.根据项目83所述的方法，其中调整应用程序的状态或设置进一步包括：

在从先前部分重新开始播放媒体内容之前打开隐藏式字幕。

85.根据项目83至项目84中任一项所述的方法，其中：

用于调整电子设备上的应用程序的状态或设置的请求进一步包括用于增大与媒体内容相关联的音频的音量的请求；并且

调整应用程序的状态或设置进一步包括在从先前部分重新开始播放媒体内容之前，增大与媒体内容相关联的音频的音量。

86.根据项目83至项目84中任一项所述的方法，其中：

与媒体内容相关联的音频中的语音被转换成文本；并且

调整应用程序的状态或设置进一步包括在从先前部分重新开始播放媒体内容时，显示文本的一部分。

87.根据项目73至项目85中任一项所述的方法，其中获取对与用户话语对应的用户意图的确定进一步包括：

获取对与用户话语相关联的用户情绪的确定，其中基于所确定的用户情绪来确定用户意图。

88.根据项目73至项目87中任一项所述的方法，还包括：

响应于获取用户意图不包括调整电子设备上的应用程序的状态或设置的请求的确定，获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定；以及

响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定：

获取至少部分地满足用户意图的结果；以及

在显示单元上以文本形式显示结果。

89.根据项目88所述的方法，其中多个预先确定的请求类型包括对特定位置处的当前时间的请求。

90.根据项目88所述的方法，其中多个预先确定的请求类型包括用于呈现笑话的请求。

91.根据项目88所述的方法，其中所述多个预先确定的请求类型包括对关于正在电子设备上播放的媒体内容的信息的请求。

92.根据项目88至项目91中任一项所述的方法，其中文本形式的结果覆盖在所显示的内容上。

93.根据项目88至项目92中任一项所述的方法，其中所显示的内容包括正在电子设备上播放的媒体内容，并且其中在显示文本形式的结果时，媒体内容继续播放。

94.根据项目88至项目93中任一项所述的方法，还包括：

响应于获取用户意图不是多个预先确定的请求类型中的一种的确定：

获取至少部分地满足用户意图的第二结果；

确定所显示的内容是否包括正在电子设备上播放的媒体内容；以及

根据确定所显示的内容包括媒体内容：

确定媒体内容是否可被暂停；以及

根据确定媒体内容不可被暂停，在显示单元上显示具有第二结果的一部分的第二用户界面，其中第二用户界面在显示单元上占据的显示区域小于媒体内容在显示单元上占据的显示区域。

95.根据项目94所述的方法，其中用户意图包括对特定位置处的天气预报的请求。

96.根据项目94所述的方法，其中用户意图包括对与运动队或运动员相关联的信息的请求。

97.根据项目94至项目96中任一项所述的方法，其中用户意图不是媒体搜索查询，并且其中第二结果包括具有至少部分地满足用户意图的媒体内容的一个或多个媒体项。

98.根据项目97中的任一项所述的方法，其中第二结果进一步包括至少部分地满足用户意图的非媒体数据。

99.根据项目94所述的方法，其中用户意图是媒体搜索查询，并且第二结果包括与媒体搜索查询对应的多个媒体项。

100.根据项目94至项目99中任一项所述的方法，还包括：

根据确定所显示的内容不包括正在电子设备上播放的媒体内容，在显示单元上显示具有第二结果的一部分的第三用户界面，其中第三用户界面占据显示单元的大部分显示区域。

101.根据项目100所述的方法，其中显示内容包括主菜单用户界面。

102.根据项目100所述的方法，其中：

所显示的内容包括具有先前结果的所述第三用户界面，先前结果与在检测到用户输入之前所接收的先前用户请求相关；并且

根据确定所显示的内容不包括正在电子设备上播放的媒体内容，利用对第二结果的显示来替换对第三用户界面中的先前结果的显示。

103.根据项目94至项目102中任一项所述的方法，还包括：

根据确定所显示的内容包括正在电子设备上播放的媒体内容：

确定所显示的内容是否包括具有来自先前用户请求的先前结果的第二用户界面，其中根据确定所显示的内容包括具有来自先前用户请求的先前结果的第二用户界面，利用第二结果来替换先前结果。

104.根据项目94至项目103中任一项所述的方法，还包括：

根据确定媒体内容可被暂停：

暂停播放电子设备上的媒体内容；

在显示单元上显示具有第二结果的一部分的第三用户界面，其中第三用户界面占据显示单元的大部分显示区域。

105.根据项目73至项目104中任一项所述的方法，还包括：

将音频数据传输至服务器，以执行自然语言处理；以及

向服务器指示音频数据与媒体应用程序相关联，其中指示使自然语言处理偏向于媒体相关的用户意图。

106.根据项目73至项目105中任一项所述的方法，还包括：

将音频数据传输至服务器，以执行语音转文本处理。

107.根据项目106所述的方法，还包括：

向服务器指示所述音频数据与媒体应用程序相关联，其中指示使语音转文本处理偏向于媒体相关的文本结果。

108.根据项目106至项目107中任一项所述的方法，还包括：

获取用户话语的文本表示，文本表示基于在对音频数据进行采样之前所接收的先前用户话语。

109.根据项目108所述的方法，其中文本表示基于在对音频数据进行采样之前接收先前用户话语的时间。

110.根据项目73至项目109中任一项所述的方法，还包括：

获取用户意图不对应于与电子设备相关联的多个核心竞争力中的一个核心竞争力的确定；以及

使得第二电子设备执行促成满足用户意图的任务。

111.根据项目73至项目110中任一项所述的方法，其中获取对用户意图的确定进一步包括：

获取对用户话语是否包括模糊术语的确定；

响应于获取用户话语包括模糊术语的确定：

基于模糊术语来获取两个或更多个候选用户意图；以及

在显示单元上显示两个或更多个候选用户意图。

112.根据项目111所述的方法，还包括：

在显示两个或更多个候选用户意图时，接收对两个或更多个候选用户意图中的一个候选用户意图的用户选择，并且其中基于所用户选择来确定用户意图。

113.根据项目112所述的方法，其中接收用户选择还包括：

检测第二用户输入；以及

响应于检测到第二用户输入，对第二音频数据进行采样，其中第二音频数据包括表示用户选择的第二用户话语。

114.根据项目111至项目113中任一项所述的方法，其中两个或更多个解译被显示，而无需输出与两个或更多个候选用户意图相关联的语音。

115.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示内容时，检测用户输入；

响应于检测到用户输入，对音频数据进行采样，其中音频数据包括表示媒体搜索请求的用户话语；

获取满足媒体搜索请求的多个媒体项；以及

经由用户界面来在所述显示单元上显示所述多个媒体项的至少一部分。

116.根据项目115所述的方法，其中在显示多个媒体项的至少一部分时，内容继续被显示在显示单元上，并且其中用户界面所占据的显示区域小于内容所占据的显示区域。

117.根据项目115至项目116中任一项所述的方法，还包括：

确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量，其中根据确定多个媒体项中的媒体项的数量小于或等于预先确定的数量，多个媒体项的至少一部分包括多个媒体项。

118.根据项目117所述的方法，其中根据确定多个媒体项中的媒体项的数量大于预先确定的数量，多个媒体项的至少一部分中的媒体项的数量等于预先确定的数量。

119.根据项目115至项目118中任一项所述的方法，其中多个媒体项中的每个媒体项与相对于媒体搜索请求的相关性得分相关联，并且其中多个媒体项的至少一部分的相关性得分在多个媒体项中是最高的。

120.根据项目115至项目119中任一项所述的方法，其中多个媒体项的至少一部分中的每个媒体项与流行度评级相关联，并且其中多个媒体项的至少一部分基于流行度评级而被布置在用户界面中。

121.根据项目115至项目120中任一项所述的方法，还包括：

在显示多个媒体项的至少一部分时，检测第二用户输入；以及

响应于检测到第二用户输入，扩展用户界面以占据显示单元的至少大部分显示区域。

122.根据项目121所述的方法，还包括：

响应于检测到第二用户输入：

确定多个媒体项中的媒体项的数量是否小于或等于预先确定的数量；以及

根据确定多个媒体项中的媒体项的数量小于或等于预先确定数量：

获取至少部分地满足媒体搜索请求的第二多个媒体项，第二多个媒体项不同于媒体项的至少一部分；以及

经由经扩展的用户界面来在显示单元上显示第二多个媒体项。

123.根据项目122所述的方法，还包括：

确定媒体搜索请求是否包括多于一个搜索参数，其中根据确定媒体搜索请求包括多于一个搜索参数，第二多个媒体项在经扩展的用户界面中根据媒体搜索请求的多于一个搜索参数而被组织。

124.根据项目122至项目123中任一项所述的方法，还包括：

根据确定多个媒体项中的媒体项的数量大于预先确定的数量：

经由经扩展的用户界面来显示多个媒体项的至少第二部分，其中多个媒体项的至少第二部分不同于多个媒体项的至少一部分。

125.根据项目124所述的方法，其中多个媒体项的至少第二部分包括两个或更多个媒体类型，并且其中多个媒体项的至少第二部分在经扩展的用户界面中根据两个或更多个媒体类型中的每个媒体类型而被组织。

126.根据项目122至项目125中任一项所述的方法，还包括：

检测第三用户输入；

响应于检测到第三用户输入，使得经扩展的用户界面滚动；

确定经扩展的用户界面是否已滚动超过经扩展的用户界面上的预先确定的位置；以及

响应于确定经扩展的用户界面已滚动超过经扩展的用户界面上的预先确定的位置，在经扩展的用户界面上显示多个媒体项的至少第三部分，其中多个媒体项的至少第三部分在经扩展的用户界面上根据与第三多个媒体项相关联的一个或多个媒体内容提供方而被组织。

127.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在具有存储器和一个或多个处理器的电子设备处：

在显示单元上显示内容；

在显示内容时，检测用户输入；以及

响应于检测到用户输入：

在显示单元上显示虚拟键盘界面；以及

使得可选择示能表示出现在第二电子设备的显示器上，其中对示能表示的选择使得文本输入将由电子设备经由第二电子设备的键盘接收。

128.根据项目127所述的方法，还包括：

经由所述第二电子设备的键盘来接收文本输入，文本输入表示用户请求；

获取至少部分地满足用户请求的结果；以及

在显示单元上显示用户界面，用户界面包括结果的至少一部分。

129.根据项目127至项目128中任一项所述的方法，其中所显示的内容包括具有多个示例性自然语言请求的第二用户界面。

130.根据项目129所述的方法，其中所显示的内容包括媒体内容。

131.根据项目127至项目128中任一项所述的方法，其中所显示的内容包括具有来自先前用户请求的结果的第三用户界面，第三用户界面占据显示单元的至少大部分显示区域。

132.根据项目131所述的方法，其中虚拟键盘界面覆盖在第三用户界面的至少一部分上。

133.根据项目127至项目132中任一项所述的方法，其中经由电子设备的遥控器来检测用户输入，并且其中遥控器和第二电子设备是不同的设备。

134.根据项目133所述的方法，其中用户输入包括遥控设备的触敏表面上的预先确定的动作模式。

135.根据项目127至项目132中任一项所述的方法，其中经由第二电子设备来检测用户输入。

136.一种非暂态计算机可读存储介质，非暂态计算机可读存储介质包含用于执行根据项目1至项目135中任一项所述的方法的计算机可执行指令。

137.一种系统，包括：

根据项目136所述的非暂态计算机可读存储介质；以及

被配置为执行计算机可执行指令的处理器。

138.一种装置，装置包括用于执行根据项目1至项目135中任一项所述的方法的部件。

139.一种电子设备，包括：

被配置为接收用户输入的输入单元；

耦接至输入单元的处理单元，其中处理单元被配置为：

在显示单元上显示内容；

经由输入单元来检测用户输入；

确定用户输入是否对应于第一输入类型；以及

根据确定用户输入对应于第一输入类型：

140.根据项目139所述的电子设备，还包括耦接至处理单元的音频输入单元，其中处理单元被进一步配置为：

根据确定用户输入不对应于第一输入类型：

确定用户输入是否对应于第二输入类型；以及

根据确定用户输入对应于第二输入类型：

使用音频输入单元来对音频数据进行采样；

确定音频数据是否包含用户请求；

根据确定音频数据包含用户请求，执行至少部分地满足用户请求的任务。

141.根据项目139至项目140中任一项所述的电子设备，其中处理单元被进一步配置为：

获取至少部分地满足用户请求的结果；以及

142.根据项目141所述的电子设备，其中处理单元被进一步配置为：

在显示第二用户界面时，经由输入单元来检测第二用户输入；以及

响应于检测到第二用户输入，停止显示第二用户界面。

143.根据项目141至项目142中任一项所述的电子设备，其中处理单元被进一步配置为：

在显示第二用户界面时，经由输入单元来检测第三用户输入；以及

144.根据项目143所述的电子设备，其中处理单元被进一步配置为：

在显示第三用户界面时，经由输入单元来检测与显示单元上的方向相关联的第四用户输入；以及

响应于检测到第四用户输入：

在第三用户界面上将第三用户界面的焦点从第一项目切换至第二项目，第二项目被定位在相对于第一项目的方向上。

145.根据项目143至项目144中任一项所述的电子设备，其中处理单元被进一步配置为：

在显示第三用户界面时，经由输入单元来检测第五用户输入；以及

响应于检测到第五用户输入：

显示搜索字段；以及

在显示单元上显示虚拟键盘界面，其中经由虚拟键盘界面所接收的输入导致搜索字段中的文本输入。

146.根据项目143至项目145中任一项所述的电子设备，其中处理单元被进一步配置为：

在显示第三用户界面时，经由输入单元来检测第六用户输入；以及

响应于检测到第六用户输入：

对第二音频数据进行采样，该第二音频数据包含第二用户请求；

确定第二用户请求是否是用于细化用户请求的结果的请求；以及

根据确定第二用户请求是用于细化所述用户请求的结果的请求：

经由第三用户界面来显示结果的子组。

147.一种电子设备，包括：

被配置为接收用户输入的输入单元；

被配置为接收音频数据的音频输入单元；

耦接至输入单元和音频输入单元的处理单元，其中处理单元被配置为：

在显示单元上显示内容；

在显示内容时，经由输入单元来检测用户输入；

响应于检测到用户输入，使用音频输入单元来对音频数据进行采样，其中经采样的音频数据包括用户话语；

获取对与用户话语对应的用户意图的确定；

获取对用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定；以及

响应于获取用户意图是否包括用于调整电子设备上的应用程序的状态或设置的请求的确定，调整应用程序的状态或设置以满足用户意图。

148.根据项目147所述的电子设备，其中处理单元被进一步配置为：

响应于获取用户意图不包括用于调整电子设备上的应用程序的状态或设置的请求的确定，获取对用户意图是否是多个预先确定的请求类型中的一个预先确定的请求类型的确定；以及

响应于获取用户意图是多个预先确定的请求类型中的一个预先确定的请求类型的确定：

获取至少部分地满足用户意图的结果；以及

在显示单元上以文本形式显示结果。

149.根据项目148所述的电子设备，其中处理单元被进一步配置为：

响应于获取用户意图不是多个预先确定的请求类型中的一种的确定：

获取至少部分地满足用户意图的第二结果；

确定所显示的内容是否包括正在电子设备上播放的媒体内容；以及

根据确定所显示的内容包括媒体内容：

确定媒体内容是否可被暂停；以及

150.根据项目149所述的电子设备，其中处理单元被进一步配置为：

151.根据项目149所述的电子设备，其中处理单元被进一步配置为：

根据确定媒体内容可被暂停：

暂停播放电子设备上的媒体内容；

在显示单元上显示具有第二结果的一部分的第三用户界面，其中第三用户界面占据显示单元的大部分显示区域。

152.一种电子设备，包括：

被配置为接收用户输入的输入单元；

耦接至输入单元的处理单元，其中处理单元被配置为：

在显示单元上显示内容；

在显示内容时，经由输入单元来检测用户输入；以及

响应于检测到用户输入：

在显示单元上显示虚拟键盘界面；以及

使得可选择示能表示出现在第二电子设备的显示器上，其中对示能表示的选择使得文本输入将由电子设备经由第二电子设备的键盘接收。

153.根据项目152所述的电子设备，其中处理单元被进一步配置为：

经由第二电子设备的键盘来接收文本输入，文本输入表示用户请求；

获取至少部分地满足用户请求的结果；以及

在显示单元上显示用户界面，用户界面包括结果的至少一部分。

虽然以上描述使用“第一”、“第二”等术语来描述了各种元件，但是这些元件不应受到这些术语的限制。这些术语只是用于将一个元件与另一元件区分开。例如，在不脱离各种所描述的实施方案的范围的情况下，第一用户输入可被命名为第二用户输入，并且类似地第二用户输入可被命名为第一用户输入。第一用户输入和第二用户输入都是用户输入，但它们不是相同的触摸。

在本文中对各种所描述的实施方案的描述中所使用的术语只是为了描述特定实施方案的目的，而并非旨在进行限制。如在对各种所述实施方案中的描述和所附权利要求书中所使用的那样，单数形式“一个”(“a”、“an”)和“该”旨在也包括复数形式，除非上下文另外明确地指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联的所列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”(“includes”、“including”、“comprises”和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。

根据上下文，术语“如果”可被解释为意指“当...时”(“when”或“upon”)或“响应于确定”或“响应于检测到”。类似地，根据上下文，短语“如果确定...”或“如果检测到[所陈述的条件或事件]”可被解释为意指“在确定...时”或“响应于确定...”或“在检测到[所陈述的条件或事件]时”或“响应于检测到[所陈述的条件或事件]”。

此外，出于解释的目的，前面的描述是参考具体的实施方案来描述的。然而，上面的示例性讨论并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容，很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。

虽然参照附图对本公开以及示例进行了全面的描述，但应当注意，各种变化和修改对于本领域内的技术人员而言将变得显而易见。应当理解，此类变化和修改被认为被包括在由权利要求书所限定的本公开和示例的范围内。

此外，在本文所讨论的各种示例中的任何一个示例中，各个方面可针对特定用户可被个性化定制。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令，并促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、年龄段数据等以各种其他方式来修改本文所讨论的各种过程。此外，此类偏好和设置可基于用户交互(例如，频繁发出的命令、频繁选择的应用程序等)而随时间更新。可利用收集和使用可从各种源获取的用户数据来改进向用户递送邀请内容或者他们感兴趣的任何其他内容。本公开预期，在一些示例中，这些所收集的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址、或任何其他识别信息。

本公开认识到在本发明技术中使用此类个人信息数据可用于使用户受益。例如，该个人信息数据可用于递送用户较感兴趣的目标内容。因此，使用此类个人信息数据使得能够对所递送的内容进行有计划的控制。此外，本公开还预期个人信息数据有益于用户的其他用途。

本公开还预期负责此类个人信息数据的收集、分析、公开、发送、存储或其他用途的实体将遵守已确立的隐私政策和/或隐私实践。具体地，此类实体应当实行并坚持使用被公认为满足或超出对维护个人信息数据的隐私性和安全性的行业或政府要求的隐私政策和实践。例如，来自用户的个人信息应当被收集用于实体的合法且合理的用途，并且不在这些合法使用之外共享或出售。另外，此类收集应当仅在用户知情同意之后进行。另外，此类实体应采取任何所需的步骤，以保障和保护对此类个人信息数据的访问，并且确保能够访问个人信息数据的其他人遵守他们的隐私政策和程序。另外，这种实体可使其本身经受第三方评估以证明其遵守广泛接受的隐私政策和实践。

不管前述情况如何，本公开还预期用户选择性地阻止使用或访问个人信息数据的示例。即本公开预期可提供硬件元件和/或软件元件，以防止或阻止对此类个人信息数据的访问。例如，就广告递送服务而言，本发明的技术可被配置为在注册服务期间允许用户选择“加入”或“退出”参与对个人信息数据的收集。在另一个示例中，用户可选择不为目标内容递送服务提供位置信息。再如，用户可选择不提供精确的位置信息，但准许传输位置区域信息。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例，但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即，本发明技术的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常呈现。例如，可通过基于非个人信息数据或绝对最低限度的个人信息(例如，由与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息、或公开可用信息)来推断偏好，从而选择内容并递送给用户。

本发明公开了一种用于在媒体环境中操作数字助理的系统和过程。在一个示例性过程中，可显示初级媒体项组。可接收包含媒体相关的请求的音频输入。可确定与媒体相关的请求对应的初级用户意图。根据确定该初级用户意图包括缩窄初级媒体搜索查询的用户意图，可生成与初级用户意图对应的第二初级媒体搜索查询。该第二初级媒体搜索查询可基于媒体相关的请求和初级媒体搜索查询。可执行第二初级媒体搜索查询，以获取第二初级媒体项组。可利用对第二初级媒体项组的显示来替换对初级媒体项组的显示。

1.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储用于操作媒体系统的数字助理的指令，所述指令当由一个或多个处理器执行时使得所述一个或多个处理器：

在显示器上显示初级媒体项组；

响应于检测到用户输入，接收包含自然语言语音形式的媒体相关的请求的音频输入；

确定与所述媒体相关的请求对应的初级用户意图；

确定所述初级用户意图是否包括缩窄与所述初级媒体项组的初级媒体搜索查询的用户意图；以及

根据确定所述初级用户意图包括缩窄所述初级媒体搜索查询的用户意图：

基于所述媒体相关的请求和所述初级媒体搜索查询来生成与所述初级用户意图对应的第二初级媒体搜索查询；

执行所述第二初级媒体搜索查询，以获取第二初级媒体项组；以及

利用对所述第二初级媒体项组的显示来替换对所述初级媒体项组的显示。

2.根据项目1所述的非暂态计算机可读介质，其中确定所述初级用户意图是否包括缩窄所述初级媒体搜索查询的用户意图包括：

确定所述媒体相关的请求是否包括与缩窄所述初级媒体搜索查询的用户意图对应的字词或短语。

3.根据项目1所述的非暂态计算机可读介质，其中所述第二初级媒体搜索查询包括在所述媒体相关的请求中定义的一个或多个参数值、以及所述初级媒体搜索查询的一个或多个参数值。

4.根据项目1所述的非暂态计算机可读介质，其中所述第二初级媒体搜索查询包括参数值组，并且其中所述指令进一步使得所述一个或多个处理器：

从所述参数值组识别核心参数值组，所述核心参数值组具有比所述参数值组更少的参数值；

基于所述核心参数值组来生成一个或多个附加媒体搜索查询；

执行所述一个或多个附加媒体搜索查询，以获取一个或多个附加媒体项组；以及

在所述显示器上显示所述一个或多个附加媒体项组。

5.根据项目1所述的非暂态计算机可读介质，其中所述指令进一步使得所述一个或多个处理器：

根据确定所述初级用户意图不包括缩窄所述初级媒体搜索查询的用户意图：

确定所述初级用户意图是否包括执行新的媒体搜索查询的用户意图；以及

根据确定所述初级用户意图包括执行新的媒体搜索查询的用户意图：

基于所述媒体相关的请求来生成与所述初级用户意图对应的第三初级媒体搜索查询；

确定是否可获取与所述第三初级媒体搜索查询对应的至少一个媒体项；以及

根据确定可获取与所述第三初级媒体搜索查询对应的至少一个媒体项：

执行所述第三初级媒体搜索查询，以获取第三初级媒体项组；以及

利用对所述第三初级媒体项组的显示来替换对所述初级媒体项组的显示。

6.根据项目5所述的非暂态计算机可读介质，其中确定所述初级用户意图是否包括执行新的媒体搜索查询的用户意图进一步包括：

确定所述媒体相关的请求是否包括与一个或多个媒体项的参数值对应的字词或短语。

7.根据项目5所述的非暂态计算机可读介质，其中执行所述第三初级媒体搜索查询包括识别与参数值相关联的候选媒体项，所述参数值被包括在所识别的候选媒体项的一个或多个媒体评论家评论中。

8.根据项目5所述的非暂态计算机可读介质，其中所述指令进一步使得所述一个或多个处理器：

根据确定没有媒体项对应于所述第三初级媒体搜索查询：

识别所述第三初级媒体搜索查询的最不相关的参数值；

基于所识别的最不相关的参数值来确定一个或多个另选参数值；

使用所述一个或多个另选参数值来执行一个或多个另选初级媒体搜索查询，以获取第四初级媒体项组；以及

利用对所述第四初级媒体项组的显示来替换对所述初级媒体项组的显示。

9.根据项目5所述的非暂态计算机可读介质，其中所述指令进一步使得所述一个或多个处理器：

根据确定所述初级用户意图不包括缩窄所述初级媒体搜索查询的用户意图：

基于所述初级用户意图和一个或多个先前用户意图来确定一个或多个次级用户意图，所述一个或多个先前用户意图对应于在所述媒体相关的请求之前所接收的一个或多个先前媒体相关的请求；

生成与所述一个或多个次级用户意图对应的一个或多个次级媒体搜索查询；

执行所述一个或多个次级媒体搜索查询，以获取一个或多个次级媒体项组；以及

在所述显示器上显示所述一个或多个次级媒体项组。

10.根据项目9所述的非暂态计算机可读介质，其中所述指令进一步使得所述一个或多个处理器：

确定所述初级用户意图和所述一个或多个先前用户意图的一个或多个组合，其中所述一个或多个组合中的每个组合与至少一个媒体项相关联，并且其中所述一个或多个次级意图包括所述一个或多个组合。

11.根据项目9所述的非暂态计算机可读介质，其中所述指令进一步使得所述一个或多个处理器：

从第二电子设备接收媒体搜索历史，其中基于从所述第二电子设备所接收的所述媒体搜索历史来生成所述一个或多个次级用户意图。

12.根据项目9所述的非暂态计算机可读介质，其中：

在接收到所述音频输入时，多个文本被显示在所述显示器上；

在接收到所述音频输入时，所述多个文本与被显示在所述显示器上的多个媒体项相关联；并且

基于所显示的多个文本来生成所述一个或多个次级用户意图。

13.根据项目9所述的非暂态计算机可读介质，其中所述指令进一步使得所述一个或多个处理器：

确定所述一个或多个次级用户意图中的每个次级用户意图的排名得分，其中根据所述一个或多个次级用户意图中的每个次级用户意图的所述排名得分来显示所述一个或多个次级媒体项组。

14.根据项目13所述的非暂态计算机可读介质，其中所述一个或多个次级用户意图中的每个次级用户意图的所述排名得分基于所述媒体相关的请求中的每个媒体相关的请求以及所述一个或多个先前媒体相关的请求被接收的时间。

15.根据项目5所述的非暂态计算机可读介质，其中所述指令进一步使得所述一个或多个处理器：

根据确定所述初级用户意图不包括执行新的媒体搜索查询的用户意图：

确定所述初级用户意图是否包括校正所述初级媒体搜索查询的一部分的用户意图；以及

根据确定所述初级用户意图包括校正所述初级媒体搜索查询的一部分的用户意图：

基于所述媒体相关的请求和所述初级媒体搜索查询请求来生成与所述初级用户意图对应的第五初级媒体搜索查询；

执行所述第五初级媒体搜索查询，以获取第五初级媒体项组；以及

利用对所述第五初级媒体项组的显示来替换对所述初级媒体项组的显示。

16.根据项目15所述的非暂态计算机可读介质，其中确定所述初级用户意图是否包括校正所述初级媒体搜索查询的一部分的用户意图包括：

确定表示所述媒体相关的请求的一部分的音素序列是否基本上类似于表示先前媒体相关的请求的一部分的音素序列，所述先前媒体相关的请求对应于所述初级媒体搜索查询。

17.根据项目15所述的非暂态计算机可读介质，其中生成所述第五初级媒体搜索查询包括：

识别与所述初级媒体搜索查询的将不被校正的一部分相关联的媒体项组，其中基于与所述初级媒体搜索查询的将不被校正的所述一部分相关联的所述媒体项组的一个或多个参数值来生成所述第五初级媒体搜索查询。

18.根据项目15所述的非暂态计算机可读介质，其中所述指令进一步使得所述一个或多个处理器：

根据确定所述初级用户意图包括校正所述初级媒体搜索查询的一部分的用户意图：

在确定与所述媒体相关的请求对应的次级用户意图时，从考虑中排除所述初级媒体搜索查询。

19.根据项目15所述的非暂态计算机可读介质，其中所述指令进一步使得所述一个或多个处理器：

根据确定所述初级用户意图不包括校正所述初级媒体搜索查询的一部分的用户意图：

确定所述初级用户意图是否包括改变被显示在所述显示器上的用户界面的焦点的用户意图，其中所述用户界面包括多个媒体项；以及

根据确定所述初级用户意图包括改变被显示在所述显示器上的用户界面的焦点的用户意图，将所述用户界面的焦点从所述多个媒体项中的第一媒体项改变到所述多个媒体项中的第二媒体项。

20.根据项目19所述的非暂态计算机可读介质，其中确定所述初级用户意图是否包括改变被显示在所述显示器上的用户界面的焦点的用户意图包括：

确定所述媒体相关的请求是否包括与改变被显示在所述显示器上的用户界面的焦点的用户意图对应的字词或短语。

21.根据项目19所述的非暂态计算机可读介质，其中所述用户界面包括与所述用户界面中的所述多个媒体项对应的多个文本，并且其中确定所述初级用户意图是否包括改变被显示在所述显示器上的用户界面的焦点的用户意图基于所述多个文本。

22.根据项目1所述的非暂态计算机可读介质，其中所述指令进一步使得所述一个或多个处理器：

在接收到所述音频输入时：

基于所述音频输入的所接收的一部分来确定初步用户意图；

识别满足所述初步用户意图所需的数据；

确定在确定所述初步用户意图时所述数据是否被存储在所述媒体系统上；以及

根据确定在确定所述初步用户意图时所述数据未被存储在所述媒体系统上，获取所述数据。

23.一种用于操作媒体系统的数字助理的方法，所述方法包括：

在包括存储器和一个或多个处理器的一个或多个电子设备处：

在显示器上显示初级媒体项组；

响应于检测到用户输入，接收包含自然语言语音形式的媒体相关的请求的音频输入；

确定与所述媒体相关的请求对应的初级用户意图；

确定所述初级用户意图是否包括缩窄与所述初级媒体项组的初级媒体搜索查询的用户意图；以及

根据确定所述初级用户意图包括缩窄所述初级媒体搜索查询的用户意图：

基于所述媒体相关的请求和所述初级媒体搜索查询，生成对应于所述初级用户意图的第二初级媒体搜索查询；

执行所述第二初级媒体搜索查询，以获取第二初级媒体项组；以及

利用对所述第二初级媒体项组的显示来替换对所述初级媒体项组的显示。

24.根据项目23所述的方法，还包括：

根据确定所述初级用户意图不包括缩窄所述初级媒体搜索查询的用户意图：

确定所述初级用户意图是否包括执行新的媒体搜索查询的用户意图；

根据确定所述初级用户意图包括执行新的媒体搜索查询的用户意图：

基于所述媒体相关的请求来生成与所述初级用户意图对应的第三初级媒体搜索查询；

确定是否可获取与所述第三初级媒体搜索查询对应的至少一个媒体项；以及

根据确定可获取与所述第三初级媒体搜索查询对应的至少一个媒体项：

执行所述第三初级媒体搜索查询，以获取第三初级媒体项组；以及

利用对所述第三初级媒体项组的显示来替换对所述初级媒体项组的显示。

25.根据项目24所述的方法，还包括：

根据确定所述初级用户意图不包括缩窄所述初级媒体搜索查询的用户意图：

生成与所述一个或多个次级用户意图对应的一个或多个次级媒体搜索查询；

执行所述一个或多个次级媒体搜索查询，以获取一个或多个次级媒体项组；以及

在所述显示器上显示所述一个或多个次级媒体项组。

26.根据项目25所述的方法，还包括：

27.根据项目24所述的方法，还包括：

根据确定所述初级用户意图不包括执行新的媒体搜索查询的用户意图：

确定所述初级用户意图是否包括校正所述初级媒体搜索查询的一部分的用户意图；

根据确定所述初级用户意图包括校正所述初级媒体搜索查询的一部分的用户意图：

基于所述媒体相关的请求和所述初级媒体搜索查询请求来生成与所述初级用户意图对应的第五初级媒体搜索查询；

执行所述第五初级媒体搜索查询，以获取第五初级媒体项组；以及

利用对所述第五初级媒体项组的显示来替换对所述初级媒体项组的显示。

28.根据项目27所述的方法，还包括：

根据确定所述初级用户意图不包括校正所述初级媒体搜索查询的一部分的用户意图：

确定所述初级用户意图是否包括改变被显示在所述显示器上的用户界面的焦点的用户意图，其中所述用户界面包括多个媒体项；以及

29.一种用于操作媒体系统的数字助理的电子设备，所述设备包括：

一个或多个处理器；

存储指令的存储器，所述指令当由所述一个或多个处理器执行时使得所述一个或多个处理器：

在显示器上显示初级媒体项组；

响应于检测到用户输入，接收包含自然语言语音形式的媒体相关的请求的音频输入；

确定与所述媒体相关的请求对应的初级用户意图；

确定所述初级用户意图是否包括缩窄与所述初级媒体项组的初级媒体搜索查询的用户意图；

根据确定所述初级用户意图包括缩窄所述初级媒体搜索查询的用户意图：

基于所述媒体相关的请求和所述初级媒体搜索查询来生成与所述初级用户意图对应的第二初级媒体搜索查询；

执行所述第二初级媒体搜索查询，以获取第二初级媒体项组；以及

利用对所述第二初级媒体项组的显示来替换对所述初级媒体项组的显示。

用于媒体搜索和回放的智能自动化助理。

本专利申请要求2015年9月8日提交的名称为“Intelligent AutomatedAssistant for Media Search and Playback”的美国临时序列号62/215,575的优先权，该专利申请据此全文以引用方式并入本文以用于所有目的。

本专利申请与以下共同未决的专利申请相关：于2015年12月8日提交的美国非临时专利申请序列号________，“Intelligent Automated Assistant in a MediaEnvironment”(代理人案卷号106842130800(P25817US1))；于2014年9月26日提交的美国非临时专利申请序列号14/498,503，“Intelligent Automated Assistant for TV UserInteractions”(代理人案卷号106842065100(P18133US1))；以及于2014年9月26日提交的美国非临时专利申请序列号14/498,391，“Real-time Digital Assistant KnowledgeUpdates”(代理人案卷号106842097900(P22498US1))，这三个专利申请据此全文以引用方式并入本文以用于所有目的。

本发明整体涉及智能自动化助理，并且更具体地涉及用于媒体搜索和回放的智能自动化助理。

智能自动化助理(或数字助理)可在用户与电子设备之间提供直观的界面。这些助理可允许用户使用自然语言以口头形式和/或文本形式与设备或系统进行交互。例如，用户可通过将口头用户输入以自然语言形式提供至与电子设备相关联的虚拟助理来访问电子设备的服务。该虚拟助理可对口头用户输入执行自然语言处理，以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务，并且在一些示例中，可将相关的输出以自然语言形式返回给用户。

可能期望在媒体环境(例如，电视机、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)中对数字助理进行集成，以帮助用户执行与媒体消费相关的任务。例如，可利用数字助理来协助搜索所需的媒体内容以进行消费。然而，用户通常不清楚他们想要消费的特定媒体项，并且可能花费相当多的时间浏览媒体项以发现新的有趣的内容。此外，现有的搜索界面可能是复杂的并且不是用户友好的，这可进一步增加用户在最终选择所需的项目来消费之前在浏览媒体项上所花费的时间。

本发明公开了一种用于在媒体环境中操作数字助理的系统和方法。在一个示例性过程中，初级媒体项组可被显示在显示单元上。响应于检测到用户输入，可接收音频输入。该音频输入可包含自然语言语音形式的媒体相关的请求。可确定与媒体相关的请求对应的初级用户意图。该过程可确定初级用户意图是否包括缩窄与初级媒体项组对应的初级媒体搜索查询的用户意图。根据确定初级用户意图包括缩窄初级媒体搜索查询的用户意图，可生成与初级用户意图对应的第二初级媒体搜索查询。该第二初级媒体搜索查询可基于媒体相关的请求和初级媒体搜索查询。可执行第二初级媒体搜索查询以获取第二初级媒体项组。可利用对第二初级媒体项组的显示来替换对显示单元上的初级媒体项组的显示。

本公开涉及一种用于在媒体环境中操作数字助理的系统和过程。在一个示例性过程中，可接收自然语言话语形式的媒体搜索请求。可确定与媒体搜索请求对应的初级用户意图。可根据初级用户意图来获取初级媒体项组。该过程可确定是否存在一个或多个先前用户意图，其中该一个或多个先前用户意图对应于在媒体搜索请求之前所接收的一个或多个先前媒体搜索请求。响应于确定存在一个或多个先前用户意图，可基于初级用户意图和一个或多个先前用户意图来确定一个或多个次级用户意图。一个或多个次级用户意图可基于各种其他因素，诸如媒体浏览历史、相关搜索属性\和多个用户中的受欢迎的媒体属性。可获取多个次级媒体项组，其中每个次级媒体项组对应于一个或多个次级用户意图中相应次级用户意图。可经由用户界面来在显示单元上显示所获取的初级媒体项组和多个次级媒体项组，以供用户选择。可智能地确定初级用户意图和次级用户意图，从而提高预测用户实际意图的概率。通过基于初级用户意图和次级用户意图提供各种媒体项，用户可更有可能遇到引起用户兴趣的媒体项。这对于通过减少浏览媒体项所花费的时间量并且随后增加享受媒体内容所花费的时间量来改善用户体验而言是可取的。

1.系统和环境

图12示出了根据各种示例的用于操作数字助理的示例性系统100-1。术语“数字助理”、“虚拟助理”、“智能自动化助理”或“自动数字助理”可指用于解译口头形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如，为了根据推断出的用户意图采取行动，系统可执行以下内容中的一者或多者：利用被设计以实现所推断出的用户意图的步骤和参数来识别任务流；将来自推断出的用户意图的具体要求输入到任务流中；通过调用程序、方法、服务、应用编程接口(API)等来执行任务流；以及生成对用户的听觉(例如，语音)和/或视觉形式的输出响应。

如图12中所示，在一些示例中，数字助理可根据客户端-服务器模型来实现。数字助理可包括在媒体设备104-1上执行的客户端侧部分102-1(后文称作“DA客户端102-1”)，以及在服务器系统108-1上执行的服务器侧部分106-1(后文称作“DA服务器106-1”)。此外，在一些示例中，客户端侧部分还可在用户设备122-1上执行。DA客户端102-1可通过一个或多个网络110-1来DA服务器106-1进行通信。DA客户端102-1可提供客户端侧功能，诸如面向用户的输入和输出处理，以及与DA服务器106-1的通信。DA服务器106-1可为各自驻留在相应设备(例如，媒体设备104-1和用户设备122-1)上的任意数量的DA客户端102-1提供服务器侧功能。

媒体设备104-1可以是被配置为管理和控制媒体内容的任何合适的电子设备。例如，媒体设备104-1可包括电视机顶盒，诸如电缆盒设备、卫星盒设备、视频播放器设备、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray Disc^TM播放器、此类设备的组合等。如图12所示，媒体设备104-1可以是媒体系统128-1的一部分。除了媒体设备104-1之外，媒体系统128-1可包括遥控器124-1和显示单元126-1。媒体设备104-1可在显示单元126-1上显示媒体内容。显示单元126-1可以是任何类型的显示器，诸如电视显示器、监视器、投影仪等。在一些示例中，媒体设备104-1可连接到可与显示单元126-1集成或分开的音频系统(例如，音频接收器)和扬声器(未示出)。在其他示例中，显示单元126-1和媒体设备104-1可一起并入单个设备中，诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中，媒体设备104-1的功能可作为组合设备上的应用程序来执行。

在一些示例中，媒体设备104-1可用作针对媒体内容的多种类型和来源的媒体控制中心。例如，媒体设备104-1可便于用户访问电视直播(例如，无线电视、卫星电视或有线电视)。因此，媒体设备104-1可包括电缆调谐器或卫星调谐器等。在一些示例中，媒体设备104-1还可记录电视节目以供稍后时移观看。在其他示例中，媒体设备104-1可提供对一个或多个流媒体服务的访问，诸如访问有线递送的点播电视节目、视频和音乐，以及互联网递送的电视节目、视频和音乐(例如，来自各种免费、付费和订阅式流服务)。在其他示例中，媒体设备104-1可方便回放或显示来自任何其他来源的媒体内容，诸如显示来自移动用户设备的照片，播放来自耦接的存储设备的视频，播放来自耦接的音乐播放器的音乐等。媒体设备104-1还可根据需要包括本文所讨论的媒体控制特征部的各种其他组合。下文参考图13详细描述了媒体设备104-1。

用户设备122-1可以是任何个人电子设备，诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如，数字眼镜、腕带、手表、胸针、臂带等)，等等。下文参考图14详细描述了用户设备122-1。

在一些示例中，用户可通过用户设备122-1、遥控器124-1或与媒体设备104-1集成的接口元件(例如，按钮、麦克风、相机、操纵杆等)来与媒体设备104-1进行交互。例如，可在用户设备122-1和/或遥控器124-1处接收包括用于数字助理的媒体相关查询或命令的语音输入，并且该语音输入可用于使得媒体相关的任务将在媒体设备104-1上执行。同样，可在用户设备122-1和/或遥控器124(以及未示出的其他设备)处接收用于控制媒体设备104-1上的媒体的触觉命令。因此，可采用各种方式来控制媒体设备104-1的各种功能，从而给予用户控制来自多个设备的媒体内容的多种选择。

一个或多个通信网络110-1的示例可包括局域网(LAN)和广域网(WAN)，例如互联网。一个或多个通信网络110-1可使用任何已知的网络协议来实现，包括各种有线或无线协议，诸如例如以太网、通用串行总线(USB)、火线、全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、Wi-Fi、互联网语音协议(VoIP)、Wi-MAX、或任何其他合适的通信协议。

DA服务器106-1可包括面向客户端的输入/输出I/O接口112-1、一个或多个处理模块114-1、数据与模型116-1、以及至外部服务的I/O接口118-1。面向客户端的I/O接口112-1可有利于DA服务器106-1的面向客户端的输入和输出处理。一个或多个处理模块114-1可利用数据与模型116-1来处理语音输入，并基于自然语言输入来确定用户意图。此外，一个或多个处理模块114-1可基于推断出的用户意图来执行任务。在一些示例中，DA服务器106-1可通过一个或多个网络110-1来与外部服务120-1(诸如，电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务、媒体搜索服务等)进行通信，以完成任务或获取信息。至外部服务的I/O接口118-1可促进此类通信。

服务器系统108-1可在计算机的一个或多个独立式数据处理装置或分布式网络上实现。在一些示例中，服务器系统108-1还可采用第三方服务提供方(例如，第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统108-1的潜在计算资源和/或基础结构资源。

虽然图12中所示的数字助理可包括客户端侧部分(例如，DA客户端102-1)和服务器侧部分(例如，DA服务器106-1)两者，但在一些示例中，数字助理的功能可被实现为被安装在用户设备或媒体设备上的独立式应用程序。此外，数字助理的客户端部分与服务器部分之间的功能划分在不同的具体实施中可变化。例如，在一些示例中，在用户设备122-1或媒体设备104-1上执行的DA客户端可以是仅提供面向用户的输入和输出处理功能并且将数字助理的所有其他功能委派给后端服务器的瘦客户端。

2.媒体系统

图13示出了根据各种示例的媒体系统128-1的框图。媒体系统128-1可包括通信地耦接至显示单元126-1、遥控器124-1和扬声器268-1的媒体设备104-1。媒体设备104-1可经由遥控器124来接收用户输入。来自媒体设备104-1的媒体内容可被显示在显示单元126-1上。

在本示例中，如图13所示，媒体设备104-1可包括存储器接口202-1、一个或多个处理器204-1、和外围设备接口206-1。媒体设备104-1中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。媒体设备104-1还可包括耦接至外围设备接口206-1的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进媒体设备104-1的各种功能。

例如，媒体设备104-1可包括通信子系统224-1。可通过一个或多个有线和/或无线通信子系统224-1来促进通信功能，这些通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如，红外)接收器和发射器。

在一些示例中，媒体设备104-1还可包括耦接至外围设备接口206-1的I/O子系统240-1。I/O子系统240-1可包括音频/视频输出控制器270-1。音频/视频输出控制器270-1可耦接至显示单元126-1和扬声器268-1，或者能够以其他方式提供音频和视频输出(例如，经由音频/视频端口、无线传输等)。I/O子系统240-1还可包括远程控制器242-1。远程控制器242-1可通信地耦接至遥控器124-1(例如，经由有线连接、蓝牙、Wi-Fi等)。

遥控器124-1可包括用于捕获音频数据(例如，来自用户的语音输入)的麦克风272-1、用于捕获触觉输入的按钮274-1，以及用于促进经由远程控制器242-1与媒体设备104-1的通信的收发器276-1。此外，遥控器124-1可包括基于触觉和/或触感接触来接受来自用户的输入的触敏表面278-1、传感器或传感器组。触敏表面278-1和远程控制器242-1可检测触敏表面278-1上的接触(以及接触的任何移动或中断)，并将检测到的接触(例如，手势、接触动作等)转换成与被显示在显示单元126-1上的用户界面对象(例如，一个或多个软键、图标、网页或图像)的交互。在一些示例中，遥控器124-1还可包括其他输入机构，诸如键盘、操纵杆等。在一些示例中，遥控器124-1还可包括输出机构，诸如灯、显示器、扬声器等。在遥控器124-1处所接收的输入(例如，用户语音、按钮按压、接触动作等)可经由遥控器124-1而被传送到媒体设备104-1。I/O子系统240-1还可包括一个或多个其他输入控制器244-1。可将一个或多个其他输入控制器244-1耦接至其他输入/控制设备248-1，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中，媒体设备104-1还可包括耦接至存储器250-1的存储器接口202-1。存储器250-1可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器诸如紧凑型闪存卡、安全数字卡、USB存储设备、记忆棒等。在一些示例中，存储器250-1的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108-1的非暂态计算机可读存储介质上，或者可在存储器250-1的非暂态计算机可读存储介质与服务器系统108-1的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器250-1可存储操作系统252-1、通信模块254-1、图形用户界面(GUI)模块256-1、设备内置媒体模块258-1、设备外置媒体模块260-1、和应用程序模块262-1。操作系统252-1可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块254-1可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256-1可促进图形用户界面处理。设备内置媒体模块258-1可促进在媒体设备104-1上本地存储的媒体内容的存储和回放。设备外置媒体模块260-1可促进从外部源(例如，在远程服务器上、在用户设备122-1上等)获取的媒体内容的流式回放或下载。此外，设备外置媒体模块260-1可促进接收广播和有线内容(例如，频道调谐)。应用程序模块262-1可促进媒体相关应用程序的各种功能，诸如网页浏览、媒体处理、游戏和/或其他过程和功能。

如本文所述，存储器250-1还可存储客户端侧数字助理指令(例如，在数字助理客户端模块264-1中)和各种用户数据266-1(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的媒体搜索历史、媒体观看列表、最近观看的列表、喜爱的媒体项等)，从而例如提供数字助理的客户端侧功能。用户数据266-1还可用于执行语音识别来支持数字助理或用于任何其他应用程序。

在各种示例中，数字助理客户端模块264-1可能够通过媒体设备104-1的各种用户界面(例如，I/O子系统240-1等)来接受声音输入(例如，语音输入)、文本输入、触摸输入和/或手势输入。数字助理客户端模块264-1还能够提供音频(例如，语音输出)、视觉和/或触觉形式的输出。例如，可将输出作提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，数字助理客户端模块264-1可使用通信子系统224-1来与数字助理服务器(例如，DA服务器106-1)进行通信。

在一些示例中，数字助理客户端模块264-1可利用各种子系统和外围设备来从媒体设备104-1的周围环境收集与媒体设备104-1相关的附加信息，以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息，诸如来自用户设备122-1的信息。在一些示例中，数字助理客户端模块264-1可将上下文信息或其子组与用户输入一起提供至数字助理服务器，以帮助推断用户的意图。数字助理还可使用上下文信息来确定如何准备输出并将该输出递送至用户。上下文信息还可由媒体设备104-1或服务器系统108-1用于支持准确的语音识别。

在一些示例中，伴随用户输入的上下文信息可包括传感器信息，诸如照明、环境噪声、环境温度、至另一个对象的距离等。上下文信息还可包括与媒体设备104-1的物理状态(例如，设备位置、设备温度、功率电平等)或媒体设备104-1的软件状态(例如，运行过程、已安装应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括从用户接收的信息(例如，语音输入)、用户请求的信息、和呈现给用户的信息(例如，当前或先前由媒体设备显示的信息)。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如，在用户设备122-1上显示的内容、用户设备122-1上的可播放内容等)。这些类型的上下文信息中的任何一种上下文信息可作为与用户输入相关的上下文信息而被提供至DA服务器106-1(或用于媒体设备104-1本身)。

在一些示例中，数字助理客户端模块264-1可响应于来自DA服务器106-1的请求而选择性地提供被存储在媒体设备104-1上的信息(例如，用户数据266-1)。除此之外或作为另外一种选择，该信息可在媒体设备104-1本身上用于执行语音识别和/或数字助理功能。数字助理客户端模块264-1还可在由DA服务器106-1进行请求时经由自然语言对话或其他用户界面引出来自用户的附加输入。数字助理客户端模块264-1可将附加输入传送至DA服务器106-1，以帮助DA服务器106-1进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中，存储器250-1可包括附加指令或更少的指令。。此外，可在硬件和/或固件中(包括在一个或多个信号处理电路和/或专用集成电路中)实现媒体设备104-1的各种功能。

3.用户设备

图14示出了根据各种示例的示例性用户设备122-1的框图。如图所示，用户设备122-1可包括存储器接口302-1、一个或多个处理器304-1、以及外围设备接口306-1。用户设备122-1中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备122-1还可包括耦接至外围设备接口306-1的各种传感器、子系统、以及外围设备。传感器、子系统以及外围设备可采集信息和/促进用户设备122-1的各种功能。

例如，用户设备122-1可包括运动传感器310-1、光传感器312-1以及接近传感器314-1，这些传感器耦接至外围设备接口306-1，以促进取向、照明和接近感测功能。一个或多个其他传感器316-1(诸如定位系统(例如，GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等)也可连接至外围设备接口306-1以促进相关功能。

在一些示例中，相机子系统320-1和光学传感器322-1可用于促进相机功能，诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统324-1来促进通信功能，该无线通信子系统可包括各种通信端口、射频接收器和发射器、和/或光学(例如，红外)接收器和发射器。可将音频子系统326-1耦接至扬声器328-1和麦克风330-1，以促进支持语音的功能，诸如语音识别、语音复制、数字记录和电话功能。

在一些示例中，用户设备122-1还可包括耦接至外围设备接口306-1的I/O子系统340-1。I/O子系统340-1可包括触摸屏控制器342-1和/或一个或多个其他输入控制器344-1。触摸屏控制器342-1可耦接至触摸屏346-1。触摸屏346-1和触摸屏控制器342-1例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将一个或多个其他输入控制器344-1耦接至其他输入/控制设备348-1，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中，用户设备122-1还可包括耦接至存储器350-1的存储器接口302-1。存储器350-1可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器，诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中，存储器350-1的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统108-1的非暂态计算机可读存储介质上，或者可在存储器350-1的非暂态计算机可读存储介质与服务器系统108-1的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器350-1可存储操作系统352-1、通信模块354-1、图形用户界面(GUI)模块356-1、传感器处理模块358-1、电话模块360-1和应用程序模块362-1。操作系统352-1可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354-1可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356-1可促进图形用户界面处理。传感器处理模块358-1可促进与传感器相关的处理和功能。电话模块360-1可促进与电话相关的过程和功能。应用程序模块362-1可促进用户应用程序的各种功能，诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。

如本文所述，存储器350-1还可存储客户端侧数字助理指令(例如，存储在数字助理客户端模块364-1中)以及各种用户数据366-1(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等)，从而例如提供数字助理的客户端侧功能。用户数据366-1还可用于执行语音识别来支持数字助理或用于任何其他应用程序。数字助理客户端模块364-1和用户数据366-1可分别与数字助理客户端模块264-1和用户数据266-1类似或相同，如上面参考图13所述。

在各种示例中，存储器350-1可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备122-1的各种功能。

在一些示例中，用户设备122-1可被配置为控制媒体设备104-1的各个方面。例如，用户设备122-1可用作遥控器(例如，遥控器124-1)。经由用户设备122-1接收的用户输入可(例如，使用通信子系统)被传输到媒体设备104-1，以使得媒体设备104-1执行对应的动作。此外，用户设备122-1可被配置为从媒体设备104-1接收指令。例如，媒体设备104-1可将任务移交给用户设备122-1，以执行并使得对象(例如，可选择示能表示)被显示在用户设备122-1上。

应当理解，系统100-1和媒体系统128-1不限于图12和图13所示的部件和配置，并且用户设备122-1、媒体设备104-1和遥控器124-1同样不限于图13和图14中所示的部件和配置。在根据各种示例的多种配置中，系统100-1、媒体系统128-1、用户设备122-1、媒体设备104-1和遥控器124-1可全部包括更少的部件，或包括其他部件。

4.数字助理系统

图15A示出根据各种示例的数字助理系统400-1的框图。在一些示例中，数字助理系统400-1可在独立式计算机系统上实现。在一些示例中，数字助理系统400-1可跨多个计算机分布。在一些示例中，数字助理的一些模块和功能可被划分成服务器部分和客户端部分，其中客户端部分位于一个或多个用户设备(例如，设备104-1或设备122-1)上并通过一个或多个网络与服务器部分(例如，服务器系统108-1)进行通信，例如如图12中所示。在一些示例中，数字助理系统400-1可以是图12中所示的服务器系统108-1(和/或DA服务器106-1)的具体实施。应当指出，数字助理系统400-1仅为数字助理系统的一个示例，并且该数字助理系统400-1可具有比所示更多或更少的部件、可组合两个或更多个部件，或者可具有部件的不同配置或布局。图15A中所示的各种部件可在硬件、用于由一个或多个处理器执行的软件指令、固件(包括一个或多个信号处理集成电路和/或专用集成电路)或者它们的组合中实现。

数字助理系统400-1可包括存储器402-1、一个或多个处理器404-1、I/O接口406-1、以及网络通信接口408-1。这些部件可通过一条或多条通信总线或者信号线410-1而彼此通信。

在一些示例中，存储器402-1可包括非暂态计算机可读介质，诸如高速随机存取存储器和/或非易失性计算机可读存储介质(例如，一个或多个磁盘存储设备、闪存存储器设备或其他非易失性固态存储器设备)。

在一些示例中，I/O接口406-1可将数字助理系统400-1的I/O设备416-1诸如显示器、键盘、触摸屏和麦克风耦接至用户界面模块422-1。与用户界面模块422-1结合的I/O接口406-1可接收用户输入(例如，声音输入、键盘输入、触摸输入等)并相应地对这些输入进行处理。在一些示例中，例如当数字助理在独立式用户设备上实现时，数字助理系统400-1可包括相对于图13或图14中各自的设备104-1或设备122-1所描述的部件和I/O通信接口中的任一者。在一些示例中，数字助理系统400-1可代表数字助理具体实施的服务器部分，并且可通过位于客户端设备(例如，设备104-1或设备122-1)上的客户端侧部分与用户进行交互。

在一些示例中，网络通信接口408-1可包括一个或多个有线通信端口412-1、和/或无线传输和接收电路414-1。一个或多个有线通信端口可经由一个或多个有线接口例如以太网、通用串行总线(USB)、火线等来接收和发送通信信号。无线电路414-1可从通信网络及其他通信设备接收RF信号和/或光学信号，并且将该RF信号和/或光学信号发送至通信网络和其他通信设备。无线通信可使用多种通信标准、协议和技术中的任一者，诸如GSM、EDGE、CDMA、TDMA、蓝牙、Wi-Fi、VoIP、Wi-MAX、或任何其他合适的通信协议。网络通信接口408-1可使数字助理系统400-1通过网络诸如互联网、内联网以及/或者无线网络诸如蜂窝电话网络、无线局域网(LAN)和/或城域网(MAN)来与其他设备之间的通信成为可能。

在一些示例中，存储器402-1或存储器402-1的计算机可读存储介质可存储程序、模块、指令和数据结构，其包括以下内容中的全部或其子组：操作系统418-1、通信模块420-1、用户界面模块422-1、一个或多个应用程序424-1和数字助理模块426-1。具体地，存储器402-1或存储器402-1的计算机可读存储介质可存储用于执行下文描述的过程800-1的指令。一个或多个处理器404-1可执行这些程序、模块和指令，并且可从数据结构读取数据或将数据写到数据结构。

操作系统418-1(例如，Darwin、RTXC、LINUX、UNIX、iOS、OS X、WINDOWS或者嵌入式操作系统诸如VxWorks)可包括用于控制和管理一般系统任务(例如，存储器管理、存储设备控制、功率管理等)的各种软件组件和/或驱动器，并且促进各种硬件、固件与软件组件之间的通信。

通信模块420-1可促进数字助理系统400-1与其他设备之间通过网络通信接口408-1进行的通信。例如，通信模块420-1可与电子设备(例如，104-1,122-1)的通信子系统(例如，224-1,324-1)进行通信。通信模块420-1还可包括用于处理由无线电路414-1和/或有线通信端口412-1所接收的数据的各种部件。

用户界面模块422-1可经由I/O接口406-1来从用户(例如，来自键盘、触摸屏、指向设备、控制器和/或麦克风)接收命令和/或输入，并在显示器上生成用户界面对象。用户界面模块422-1还可准备输出(例如，语音、声音、动画、文本、图标、振动、触觉反馈、光照等)，并经由I/O接口406-1(例如，通过显示器、音频通道、扬声器和触摸板等)将其递送至用户。

应用程序424-1可包括被配置为由一个或多个处理器404-1执行的程序和/或模块。例如，如果数字助理系统400-1在独立式用户设备上实现，则应用程序424-1可包括用户应用程序，诸如游戏、日历应用程序、导航应用程序、或电子邮件应用程序。如果数字助理系统400-1在服务器上实现，则应用程序424-1可包括例如资源管理应用程序、诊断应用程序、或调度应用程序。

存储器402-1还可存储数字助理模块426-1(或数字助理的服务器部分)。在一些示例中，数字助理模块426-1可包括以下子模块，或包括它们的子集或超集：I/O处理模块428-1、语音转文本(STT)处理模块430-1、自然语言处理模块432-1、对话流处理模块434-1、任务流处理模块436-1、服务处理模块438-1、以及语音合成模块440-1。这些模块中的每个模块可具有对以下数字助理模块426-1的系统或数据与模型中的一者或多者或者其子集或超集的访问权限：知识本体460-1、词汇索引444-1、用户数据448-1、任务流模型454-1、服务模型456-1、和自动语音识别(ASR)系统431-1。

在一些示例中，使用在数字助理模块426-1中实现的处理模块、数据和模型，该数字助理可执行以下操作中的至少一些操作：将语音输入转换成文本；识别从用户接收的在自然语言输入中表达的用户意图；主动引出并获取充分推断用户意图所需的信息(例如，通过对字词、游戏、意向等消歧)；确定用于满足推断出的意图的任务流；以及执行任务流以满足推断出的意图。

在一些示例中，如图15B中所示，I/O处理模块428-1可通过图15A中的I/O设备416-1与用户进行交互或通过图15A中的网络通信接口408-1与电子设备(例如，设备104-1或设备122-1)进行交互，以获取用户输入(例如，语音输入)并提供对用户输入的响应(例如，作为语音输出)。I/O处理模块428-1在接收到用户输入时或在接收到用户输入之后不久可以可选地获取与来自电子设备的用户输入相关联的上下文信息。该上下文信息可包括特定于用户的数据、词汇和/或与用户输入相关的偏好。在一些示例中，该上下文信息还包括在接收到用户请求时的电子设备的软件和硬件状态，和/或与在接收到用户请求时的用户的周围环境相关的信息。在一些示例中，I/O处理模块428-1还可向用户发送与用户请求有关的跟进问题，并从用户接收回答。在用户请求被I/O处理模块428-1接收并且用户请求可包括语音输入时，I/O处理模块428-1可将语音输入转发至STT处理模块430-1(或语音识别器)，以进行语音文本转换。

STT处理模块430-1可包括一个或多个ASR系统(例如，ASR系统431-1)。一个或多个ASR系统可处理通过I/O处理模块428-1所接收的语音输入，以产生识别结果。每个ASR系统可包括前端语音预处理器。前端语音预处理器可从语音输入中提取代表性特征。例如，前端语音预处理器可对语音输入执行傅里叶变换，以提取表征语音输入的光谱特征作为代表性多维向量的序列。此外，每个ASR系统可包括一个或多个语音识别模型(例如，声音模型和/或语言模型)，并且可实现一个或多个语音识别引擎。语音识别模型的示例可包括隐马尔可夫模型、高斯混合模型、深层神经网络模型、n元语言模型以及其他统计模型。语音识别引擎的示例可包括基于动态时间规整的引擎和基于加权有限状态变换器(WFST)的引擎。一个或多个语音识别模型和一个或多个语音识别引擎可用于处理前端语音预处理器的所提取的代表性特征，以产生中间识别结果(例如，音素、音素串和子字词)，并且最终产生文本识别结果(例如，字词、字词串或符号的序列)。在一些示例中，语音输入可至少部分地由第三方服务处理或在电子设备(例如，设备104-1设备122-1)上处理以产生识别结果。一旦STT处理模块430-1产生包含文本串(例如，字词、字词的序列或符号的序列)的识别结果，该识别结果便可被传送至自然语言处理模块432-1以供意图推断。

在一些示例中，STT处理模块430-1可包括可识别字词的词汇和/或可经由语音字母转换模块431-1访问该词汇。每个词汇字词可与以语音识别语音字母表示的字词的一个或多个候选发音相关联。具体地，可识别字词的词汇可包括与多个候选发音相关联的字词。例如，该词汇可包括与和的候选发音相关联的字词“tomato”。此外，词汇字词可与基于来自用户的先前语音输入的自定义候选发音相关联。此类自定义候选发音可被存储在STT处理模块430-1中并且可经由设备上的用户配置文件而与特定用户相关联。在一些示例中，可基于字词的拼写以及一个或多个语言学和/或语音学规则来确定字词的候选发音。在一些示例中，候选发音可手动生成，例如，基于已知的标准发音而手动生成。

在接收到语音输入时，STT处理模块430-1可用于(例如，使用声音模型)确定与该语音输入对应的音素，并且然后可尝试(例如，使用语言模型)确定与该音素匹配的字词。例如，如果STT处理模块430-1可首先识别与该语音输入的一部分对应的音素序列则其随后可基于词汇索引444-1来确定该序列对应于字词“tomato”。

在一些示例中，STT处理模块430-1可使用模糊匹配技术来确定话语中的字词。因此，例如，STT处理模块430-1可确定音素序列对应于字词“tomato”，即使该特定音素序列不是该字词的候选音素序列。

数字助理的自然语言处理模块432-1(“自然语言处理器”)可采用由STT处理模块430-1生成的字词或符号的序列(“符号序列”)，并尝试使该符号序列与由数字助理所识别的一个或多个“可执行意图”相关联。“可执行意图”可表示可由数字助理执行并且可具有在任务流模型454-1中实现的相关联的任务流的任务。相关联的任务流可以是数字助理为了执行任务而采取的一系列经编程的动作和步骤。数字助理的能力范围可取决于已在任务流模型454-1中实现并存储的任务流的数量和种类，或换言之，取决于数字助理所识别的“可执行意图”的数量和种类。然而，数字助理的有效性还可取决于助理从以自然语言表达的用户请求中推断出正确的“一个或多个可执行意图”的能力。

在一些示例中，除从STT处理模块430-1获取的字词或符号的序列之外，自然语言处理器432-1还可(例如，从I/O处理模块428-1)接收与用户请求相关联的上下文信息。自然语言处理模块432-1可以可选地使用上下文信息来明确、补充和/或进一步限定被包含在从STT处理模块430-1接收的符号序列中的信息。上下文信息可包括例如：用户偏好；用户设备的硬件和/或软件状态；在用户请求之前、期间或之后不久收集的传感器信息；数字助理与用户之间的先前交互(例如，对话)等。如本文所述，上下文信息可以是动态的，并且可随对话的时间、位置、内容以及其他因素而变化。

在一些示例中，自然语言处理可基于例如知识本体460-1。知识本体460-1可以是包含许多节点的分级结构，每个节点表示“可执行意图”或者与“可执行意图”或其他“属性”中的一者或多者相关的“属性”。如上所述，“可执行意图”可表示数字助理能够执行的任务，即该任务为“可执行的”或可被进行的。“属性”可表示与可执行意图或另一属性的子方面相关联的参数。知识本体460-1中的可执行意图节点与属性节点之间的连接可定义由属性节点表示的参数如何与由可执行意图节点表示的任务相关。

在一些示例中，知识本体460-1可由可执行意图节点和属性节点组成。在知识本体460-1内，每个可执行意图节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个属性节点。类似地，每个属性节点可直接连接至或通过一个或多个中间属性节点连接至一个或多个可执行意图节点。例如，如图15C所示，知识本体460-1可包括“媒体”节点(即，可执行意图节点)。属性节点“一个或多个演员”、“媒体分类”和“媒体标题”可各自直接连接到可执行意图节点(即，“媒体搜索”节点)。另外，属性节点“名称”、“年龄”、“Ulmerscale排名”和“国籍”可以是属性节点“演员”的子节点。

在另一个示例中，如图15C所示，知识本体460-1还可包括“天气”节点(即，另一可执行意图节点)。属性节点“日期/时间”和“位置”可各自连接到“天气搜索”节点。应当认识到，在一些示例中，一个或多个属性节点可与两个或更多个可执行意图相关。在这些示例中，该一个或多个属性节点可连接到与知识本体460-1中的两个或更多个可执行意图对应的相应节点。

可执行意图节点连同其连接的概念节点一起可被描述为“域”。在本讨论中，每个域可与相应可执行意图相关联，并且可涉及与特定可执行意图相关联的一组节点(以及彼此间的关系)。例如，图15C中所示的知识本体460-1可包括知识本体460-1内的媒体域462-1的示例和天气域464-1的示例。媒体域462-1可包括可执行意图节点“媒体搜索”和属性节点“一个或多个演员”、“媒体分类”和“媒体标题”。天气域464-1可包括可执行意图节点“天气搜索”，以及属性节点“位置”和“日期/时间”。在一些示例中，知识本体460-1可由多个域组成。每个域可与一个或多个其他域共享一个或多个属性节点。

虽然图15C示出了知识本体460-1内的两个示例性域，但其他域可包括例如“运动员”、“股市”、“方向”、“媒体设置”、“运动队”、“时间”、以及“讲笑话”等。域“运动员”可与可执行意图节点“搜索运动员信息”相关联，并且可还包括属性节点诸如“运动员名称”、“运动员所属队”和“运动员统计信息”。

在一些示例中，知识本体460-1可包括数字助理能够理解并对其起作用的所有域(以及因此可执行的意图)。在一些示例中，知识本体460-1可诸如通过添加或移除整个域或节点或者通过修改知识本体460-1内的节点之间的关系而被修改。

在一些示例中，知识本体460-1中的每个节点可与和由节点表示的属性或可执行意图有关的一组字词和/或短语相关联。与每个节点相关联的相应组的字词和/或短语可以是与节点相关联的所谓的“词汇”。与每个节点相关联的相应组的字词和/或短语可被存储在与由节点所代表的属性或可执行意图相关联的词汇索引444-1中。例如，返回图15C，与“演员”的属性的节点相关联的词汇可包括字词诸如“A列表”、“Reese Witherspoon”、“Arnold Schwarzenegger”、“Brad Pitt”等。在另一个示例中，与“天气搜索”的可执行意图的节点相关联的词汇可包括字词和短语诸如“天气”、“天气如何”、“预报”等。词汇索引444-1可以可选地包括不同语言的字词和短语。

自然语言处理模块432-1可从STT处理模块430-1接收符号序列(例如，文本串)，并确定符号序列中的字词牵涉哪些节点。在一些示例中，如果发现符号序列中的字词或短语(经由词汇索引444-1)与知识本体460-1中的一个或多个节点相关联，则该字词或短语可“触发”或“激活”这些节点。基于已激活节点的数量和/或相对重要性，自然语言处理模块432-1可选择可执行意图中的一个可执行意图作为用户意图使数字助理执行的任务。在一些示例中，可选择具有最多“已触发”节点的域。在一些示例中，可(例如，基于其各个已触发节点的相对重要性)选择具有最高置信度的域。在一些示例中，可基于已触发节点的数量和重要性的组合来选择域。在一些示例中，在选择节点的过程中还要考虑附加因素，诸如数字助理先前是否已正确解译来自用户的类似请求。

用户数据448-1可包括用户特定的信息，诸如用户特定的词汇、用户偏好、用户地址、用户的默认语言和第二语言、用户的联系人列表、以及每位用户的其他短期或长期信息。在一些示例中，自然语言处理模块432-1可使用用户特定的信息来补充被包含在用户输入中的信息，以进一步限定用户意图。例如，对于用户请求“本周天气如何”，自然语言处理模块432-1可访问用户数据448-1来确定用户位于何处，而不是要求用户在其请求中明确地提供此类信息。

在一些示例中，一旦自然语言处理模块432-1基于用户请求识别出可执行意图(或域)，自然语言处理模块432-1便可生成结构化查询来表示所识别的可执行意图。在一些示例中，结构化查询可包括域内针对可执行意图的一个或多个节点的参数，并且该参数中的至少一些参数填充有在用户请求中指定的特定信息和要求。例如，用户可以说“找出这个电视连续剧的其他几个季”。在这种情况下，自然语言处理模块432-1可基于用户输入来将可执行意图正确地识别为“媒体搜索”。根据知识本体，用于“媒体”域的结构化查询可包括参数，诸如{媒体演员}、{媒体分类}、{媒体标题}等。在一些示例中，基于语音输入和使用STT处理模块430-1从语音输入得出的文本，自然语言处理模块432-1可针对餐厅预订域来生成部分结构化查询，其中该部分结构化查询包括参数{媒体分类＝“电视连续剧”}。然而，在该示例中，用户话语包含不足以完成与域相关联的结构化查询的信息。因此，基于当前可用信息，在结构化查询中可能未指定其他必要参数，诸如{媒体标题}。在一些示例中，自然语言处理模块432-1可使用所接收的上下文信息来填充结构化查询的一些参数。例如，当前在媒体设备上正在播放电视连续剧“Mad Men”。基于该上下文信息，自然语言处理模块432-1可使用“Mad Men”来填充结构化查询中的{媒体标题}参数。

在一些示例中，自然语言处理模块432-1可将结构化查询(包括任何已完成的参数)传送至任务流处理模块436-1(“任务流处理器”)。任务流处理模块436-1可被配置为从自然语言处理模块432-1接收结构化查询，并且在必要时完成结构化查询，并且执行“完成”用户最终请求所需的动作。在一些示例中，可在任务流模型454-1中提供完成这些任务所必需的各种过程。在一些示例中，任务流模型454-1可包括用于获取来自用户的附加信息的过程，以及用于执行与可执行意图相关联的动作的任务流。

如上所述，为了完成结构化查询，任务流处理模块436-1可能需要发起与用户的附加对话，以便获取附加信息和/或对可能有歧义的话语进行消歧。当有必要进行此类交互时，任务流处理模块436-1可调用对话流处理模块434-1来参与和用户的对话。在一些示例中，对话流处理模块434-1可确定如何(和/或何时)向用户请求附加信息，并且可接收和处理用户响应。通过I/O处理模块428-1可将问题提供至用户并可从用户接收回答。在一些示例中，对话流处理模块434-1可经由音频和/或视频输出来向用户呈现对话输出，并且可接收经由口头或物理(例如，点击)响应的来自用户的输入。例如，用户可以问“Paris的天气如何？”当任务流处理模块436-1调用对话流处理模块434-1来确定与域“天气搜索”相关联的结构化查询的“位置”信息时，对话流处理模块434-1可生成诸如“哪个Paris？”等问题传送给用户。此外，对话流处理模块434-1可使得与“得克萨斯州的Paris”和“法国的Paris”相关联的示能表示将被呈现，以供用户选择。一旦接收到来自用户的响应，对话流处理模块434-1便可利用缺失信息来填充结构化查询，或将信息传送给任务流处理模块436-1以来自完成结构化查询的缺失信息。

一旦任务流处理模块436-1已针对可执行意图完成结构化查询，任务流处理模块436-1便可开始执行与可执行意图相关联的最终任务。因此，任务流处理模块436-1可根据结构化查询中包含的特定参数来执行任务流模型454-1中的步骤和指令。例如，“媒体搜索”的可执行意图的任务流模型可包括用于执行媒体搜索查询以获取相关媒体项的步骤和指令。例如，通过使用结构化查询诸如：{媒体搜索，媒体分类＝电视连续剧，媒体标题＝MadMen}，任务流处理模块436-1可执行以下步骤：(1)使用媒体数据库来执行媒体搜索查询以获取相关媒体项；(2)根据相关性和/或流行度来对所获取的媒体项进行排名，以及(3)根据相关性和/或流行度来显示经分类的媒体项。

在一些示例中，任务流处理模块436-1可在服务处理模块438-1(“服务处理模块”)的帮助下完成在用户输入中所请求的任务或提供在用户输入中所请求的信息性回答。例如，服务处理模块438-1可代表任务流处理模块436-1来执行媒体搜索、检索天气信息、调用被安装在其他用户设备上的应用程序或与其进行交互，并且调用第三方服务(例如，社交网站、媒体评论网站、媒体订阅服务等)或与所述第三方服务进行交互。在一些示例中，可通过服务模型456-1中的相应服务模型来指定每项服务所需的协议和API。服务处理模块438-1可针对服务来访问适当的服务模型，并依服务模型根据该服务所需的协议和API来生成针对该服务的请求。

例如，第三方媒体搜索服务可提交用于指定用于执行媒体搜索的必要参数的服务模型，以及用于将必要参数的值传送到媒体搜索服务的API。当任务流处理模块436-1发出请求时，服务处理模块438-1可建立与媒体搜索服务的网络连接，并且以根据媒体搜索服务的API的格式来向在线预订界面发送媒体搜索的必要参数(例如，媒体演员、媒体类型、媒体标题)。

在一些示例中，自然语言处理模块432-1、对话流处理模块434-1以及任务流处理模块436-1可被共同并且反复地使用，以推断并限定用户的意图、获取信息以进一步明确并细化用户意图，并且最终生成响应(即，输出至用户或完成任务)以满足用户的意图。所生成的响应可以是至少部分地满足用户的意图的对语音输入的对话响应。此外，在一些示例中，所生成的响应可被输出为语音输出。在这些示例中，所生成的响应可被发送至语音合成模块440-1(例如，语音合成器)，其中该响应可被处理，以将该对话响应合成为语音形式。在其他示例中，所生成的响应可以是与满足语音输入中的用户请求相关的数据内容。

语音合成模块440-1可被配置为合成语音输出，以供呈现给用户。语音合成模块440-1基于数字助理提供的文本来合成语音输出。例如，所生成的对话响应可以是文本串的形式。语音合成模块440-1可将文本串转换成可听语音输出。语音合成模块440-1可使用任何适当的语音合成技术，以便从文本生成语音输出，所述技术包括但不限于：拼接合成、单位选择合成、双音子合成、域特定合成、格式合成、发音合成、基于隐马尔可夫模型(HMM)的合成，以及正弦波合成。在一些示例中，语音合成模块440-1可被配置为基于与字词对应的音素串来合成各个字词。例如，音素串可与所生成的对话响应中的字词相关联。该音素串可被存储在与字词相关联的元数据中。语音合成模块440-1可被配置为直接处理元数据中的音素串，以合成语音形式的字词。

在一些示例中，替代使用语音合成模块440-1(或除此之外)，语音合成可在远程设备(例如，服务器系统108-1)上执行，并且合成的语音可发送至用户设备，以供输出给用户。例如，这可发生在一些具体实施中，其中在服务器系统处生成数字助理的输出。并且由于服务器系统通常比用户设备具有更强的处理能力或更多的资源，其有可能获取比客户端侧合成将实现的质量更高的语音输出。

4.用于在媒体环境中操作数字助理的过程

图16A至图16E示出了根据各种示例的用于操作媒体系统的数字助理的过程500-1。可使用实现数字助理的一个或多个电子设备来执行过程500-1。例如，可使用上述系统100-1、媒体系统128-1、媒体设备104-1、用户设备122-1或数字助理系统400-1中的一者或多者来执行过程500-1。图17A至图17K描绘了根据各种示例的在过程50的0各个阶段由媒体设备在显示单元上显示的屏幕截图。下面同时参考图16A至图16E和图17A至图17K来对过程500-1进行描述。应当理解，过程500-1中的一些操作可组合，一些操作的顺序可改变，而一些操作可省略。

在过程500-1的框502-1处并且参考图17A，初级媒体项组604-1可被显示在显示单元上。每个媒体项可对应于特定的媒体内容(例如，电影、视频、电视节目/连续剧、视频游戏等)。可响应于先前接收的媒体搜索请求来显示初级媒体项组604-1。在一些示例中，先前接收的媒体搜索请求可以是与数字助理的口头交互。在其他示例中，先前接收的媒体搜索请求可以是经由媒体设备的键盘界面所接收的与数字助理的文本交互。

可通过根据先前接收的媒体搜索请求来执行初级媒体搜索查询以获取初级媒体项组604-1。在一些示例中，初级媒体搜索查询可以是基于一个或多个参数值的结构化搜索，该一个或多个参数值是在先前接收的媒体搜索请求中定义的。在这些示例中，初级媒体项组604-1中的每个媒体项可包括一个或多个参数值，该一个或多个参数值与先前接收的媒体搜索请求中定义的一个或多个参数值匹配。在其他示例中，初级媒体搜索查询可以是以先前接收的媒体搜索请求的文本输入字符串为基础的字符串搜索。在这些示例中，初级媒体项组604-1中的每个媒体项可与文本相关联，该文本与先前接收的媒体搜索请求的文本输入字符串匹配。

媒体项604-1可共享与先前接收的媒体搜索请求对应的公共属性或参数值。在图17A所示的本示例中，先前接收的媒体搜索请求可以是对最近10年的动作电影的请求。可获取初级媒体项组604-1，以满足先前接收的媒体搜索请求。在该示例中，初级媒体项组604-1可包括在最近10年中发行的动作电影，诸如“The Amazing Spider Man 2”、“Furious 7”和“Iron Man 3”。用于描述与先前接收的媒体搜索请求对应的属性或参数值的文本612-1可与初级媒体项组612-1相关联地显示。

如图17A所示，可经由用户界面602-1O来显示初级媒体项组604-1。用户界面602-1可被配置为使得用户能够在用户界面602-1中的媒体项中进行导航并选择特定媒体项以供消费。在一些示例中，一个或多个次级媒体项组606-1可与用户界面602-1中的初级媒体项组604-1一起显示。应当认识到，次级媒体项组可不始终显示。在一些示例中，用户界面602-1可至少占据显示单元的大部分显示区域。在其他示例中，显示单元可在显示用户界面602-1时显示正在媒体设备上播放的媒体内容(未示出)。在这些示例中，用户界面602-1在显示单元上占据的显示区域可小于显示单元上的媒体内容占据的显示区域。此外，在这些示例中，用户界面602-1可不包括次级媒体项组606-1。具体地，经由用户界面602-1而显示的仅有的媒体项可以是初级媒体项组604-1。

初级媒体项组604-1和次级媒体项组606-1中的所显示的每个媒体项可与参数的参数值相关联，该参数为例如媒体类型、媒体标题、演员、媒体人物、导演、媒体发行日期、媒体持续时间、媒体质量评级、媒体流行度评级等。在一些示例中，每个媒体项的一个或多个参数值可经由用户界面602-1而被显示为相应媒体项上或邻近相应媒体项的文本。

在本示例中，一个或多个次级媒体项组606-1可基于初级媒体项组604-1。具体地，一个或多个次级媒体项组606-1可与初级媒体项组604-1共享公共属性或参数值。如图17A所示，次级媒体项组608-1可以是动作电影，并且次级媒体项组610-1可以是外国动作电影。因此，在该示例中，初级媒体项组604-1和次级媒体项组606-1都可与动作电影媒体分类相关。应当认识到，在其他示例中，次级媒体项组606-1可基于源于其他信息的参数值，诸如先前的媒体搜索请求或者流行趋向的媒体项和类别。

在过程500-1的框504-1处，可检测用户输入。在框502-1处，可在显示初级媒体项组604-1时检测用户输入。在一些示例中，可在媒体设备的遥控器(例如，遥控器124-1)上检测用户输入。具体地，用户输入可以是用户与遥控器的交互，诸如按压按钮(例如，按钮274-1)或接触遥控器的触敏表面(例如，触敏表面278-1)。在一些示例中，可经由被配置为与媒体设备进行交互的第二电子设备(例如，设备122-1)来检测用户输入。用户输入可与调用媒体设备的数字助理相关联。响应于检测到用户输入，可执行框506-1至框510-1中的一个或多个框。

在过程500-1的框506-1处，可接收音频输入。音频输入可包含媒体相关的请求。例如，响应于在框504-1处检测到用户输入，可经由媒体设备的麦克风(例如，麦克风272-1)来对音频输入进行采样。经采样的音频输入可包括呈用户话语形式的媒体相关的请求。在一些示例中，可接收包含媒体相关的请求的音频输入，同时显示初级媒体项组604-1的至少一部分。媒体相关的请求可以是自然语言形式。在一些示例中，可部分指定媒体相关的请求，其中并非满足请求所需的所有信息均作了明确定义。例如，媒体相关的请求可以是：“JackRyan”。在该示例中，请求没有明确指定其为对具有人物Jack Ryan的电影的新媒体搜索请求还是对基于人物Jack Ryan筛选当前显示的媒体项的请求。

在一些示例中，媒体相关的请求可包括一个或多个模糊术语。例如，媒体相关的请求可以是：“哪一些比较好？”在该示例中，媒体相关的请求包括旨在指代正在显示的媒体项(例如，初级媒体项组604-1和/或次级媒体项组606-1)的模糊术语“一些”。此外，在该示例中，媒体相关的请求使用模糊术语(例如，“好”)来定义媒体项的参数值(例如，用户评级或评论等级)。

媒体相关的请求可定义与媒体项相关联的一个或多个参数值。可在媒体相关的请求中定义的参数值的示例包括媒体类型、媒体标题、演员、媒体人物、媒体导演、媒体发行日期、媒体持续时间、媒体质量评级、媒体流行度评级等。

在一些示例中，媒体相关的请求可以是媒体搜索请求。在一些示例中，媒体相关的请求可以是用于校正初级媒体搜索查询的请求。在其他示例中，媒体相关的请求可以是用于导航通过在用户界面602-1上显示的媒体项的请求。在其他示例中，媒体相关的请求可以是用于调整媒体设备的应用程序的状态或设置的请求。

虽然在本示例中，媒体相关的请求是在音频输入中接收的，但是应当理解，在其他示例中，媒体相关的请求可作为文本输入被接收。具体地，可在框506-1处经由键盘界面接收包含媒体相关的请求的文本输入来取代音频输入。应当认识到，在其中媒体相关的请求作为文本输入被接收的示例中不需要执行框508-1。相反，可在框510-1处直接从文本输入确定初级用户意图。

在过程500-1的框508-1处，可确定媒体相关的请求的文本表示。例如，可通过对框506-1处接收的音频输入执行语音转文本(STT)处理来确定文本表示。具体地，可使用STT处理模块(例如，STT处理模块430-1)来处理音频输入，以将音频输入中的媒体相关的请求转换成文本表示。文本表示可以是表示对应文本字符串的令牌字符串。在一些示例中，文本表示可被显示在显示单元上。具体地，文本表示可在框506-1处接收音频输入时被实时显示。

在STT处理期间可使用一个或多个语言模型来确定文本表示。在一些示例中，STT处理可偏向于媒体相关的文本结果。具体地，用于确定文本表示的一个或多个语言模型可偏向于媒体相关的文本结果。例如，可使用媒体相关的文本的语料库来训练一个或多个语言模型。除此之外或作为另外一种选择，可通过对与媒体相关的候选文本结果进行更重的加权来实现偏置。这样，与媒体相关的候选文本结果在利用偏置时可比没有偏置时排名更高。对于增加对媒体相关的请求中的媒体相关字词或短语(例如，电影名称、电影演员等)的STT处理的准确性，偏置可能是可取的。例如，在不偏向媒体相关de文本结果的情况下，在典型的文本语料库中可能很少找到某些媒体相关的字词或短语，例如“Jurassic Park”、“Arnold Schwarzenegger”和“Shrek”，并因此可能无法在STT处理期间成功识别这些字词或短语。

如上所述，与框502-1处显示的媒体项(例如，初级媒体项组604-1和次级媒体项组606-1)相关联的文本可经由用户界面602-1而被显示。文本可描述用户界面602-1中的每个媒体项的一个或多个属性或参数值。例如，初级媒体项组604-1可包括与电影“Iron Man 3”对应的媒体项。在该示例中，所显示的文本可包括标题“Iron Man 3”、演员“Robert DowneyJr”和“Gwyneth Paltrow”、以及导演“Shane Black”。在一些示例中，可使用与所显示的媒体项相关联的所显示的文本来生成自定义语言模型。然后可使用自定义语言模型来执行STT处理以确定文本表示。具体地，当确定文本表示时，相对于来自其他语言模型的候选文本结果，可给予来自自定义语言模型的候选文本结果更大的权重。应当认识到，在一些示例中，并非与初级媒体项组604-1和次级媒体项组606-1相关联的所有属性或参数值均可作为文本而被显示在显示单元上。在这些示例中，未被显示在显示单元上的初级媒体项组604-1和次级媒体项组606-1的属性或参数值的文本也可用于生成自定义语言模型。

在一些示例中，可使用文本表示来确定预测文本。例如，语言模型可用于基于文本表示中的字词序列来预测一个或多个后续字词。可在接收到音频输入时确定预测文本。此外，预测文本可与显示单元上的文本表示一起被显示。具体地，预测文本可在框506-1处接收音频输入时被实时显示。

预测文本可基于检测到音频输入的终点而被用户接受。在一些示例中，一旦不再检测到框504-1的用户输入，便可检测到终点。在其他示例中，可在音频输入的一个或多个音频特征不再满足预先确定标准之后的预先确定的持续时间内检测到终点。可确定是否在显示预测文本之后检测到音频输入的终点。根据确定在显示预测文本之后检测到音频输入的终点，可确定预测文本将被用户接受。具体地，在框510-1处，文本表示和所接受的预测文本可用于确定初级用户意图。

在一些示例中，用于确定文本表示的一个或多个语言模型可被配置为以多种语言识别媒体相关术语。具体地，媒体相关术语(例如，媒体标题、演员名称等)在不同语种中可具有唯一翻译。例如，演员“Arnold Schwarzenegger”对应于中文“阿诺德施瓦辛格”和印地语可使用各种语言的媒体相关文本的语料库来训练用于确定文本表示的一个或多个语言模型。因此，一个或多个语言模型可被配置为识别媒体相关的术语在各种语言中的对应翻译。

在过程500-1的框510-1处，可确定与媒体相关的请求对应的初级用户意图。可通过对文本表示执行自然语言处理来确定初级用户意图。具体地，可使用自然语言处理模块(例如，自然语言处理模块432-1)来解析和处理文本表示，以确定与媒体相关的请求对应的多个候选用户意图。可根据概率来对候选用户意图进行排名，并且可将概率最高的候选用户意图确定为初级用户意图。

确定初级用户意图可包括确定与文本表示相关联的相关域或可执行意图。在一些示例中，可在框510-1处确定与媒体相关的请求相关联的媒体类型，并且可基于与媒体相关的请求相关联的所确定的媒体类型来确定相关域或可执行意图。例如，基于媒体相关的请求“James Bond”，媒体类型可被确定为“电影/电视节目”，并且对应的可执行意图或域可被确定为“查找电影/电视节目”。在该示例中，可通过根据媒体类型“电影/电视节目”执行针对“James Bond”的媒体搜索来实现媒体相关的请求。具体地，可针对媒体人物“JamesBond”搜索电影和电视节目数据库来实现媒体相关的请求。在另一个示例中，基于媒体相关的请求“Taylor Swift”，媒体类型可被确定为“音乐”，并且对应的可执行意图或域可被确定为“查找音乐”。在该示例中，可通过针对歌手“Taylor Swift”搜索音乐数据库(例如，在iTunes音乐服务上执行搜索)来实现媒体相关的请求。

在一些示例中，用于确定初级用户意图的自然语言处理可偏向于媒体相关的用户意图。具体地，可训练自然语言处理模块来识别用于触发知识本体中的媒体相关的节点的媒体相关的字词和短语(例如，媒体标题、媒体分类、演员、MPAA电影评级标签等)。例如，自然语言处理模块可将文本表示中的短语“Jurassic Park”识别为电影标题，并由此触发与搜索媒体项的可执行意图相关联的知识本体中的“媒体搜索”节点。在一些示例中，可通过将知识本体中的节点限制于预先确定组的媒体相关的节点来实现偏置。例如，该组媒体相关的节点可以是与媒体设备的应用程序相关联的节点。此外，在一些示例中，相比于与媒体不相关的候选用户意图，可对与媒体相关的候选用户意图进行更重的加权来实现偏置。

在一些示例中，可从独立设备(例如，DA服务器106-1)获取初级用户意图。具体地，音频数据可被传输到独立设备以执行自然语言处理。在这些示例中，媒体设备可(例如，经由被传输到具有经采样的音频数据的独立设备的数据)向独立设备指示经采样的音频数据与媒体应用程序相关联。该指示可使自然语言处理偏向媒体相关的用户意图。

可进一步训练自然语言处理模块以识别各种语言和区域中的媒体相关的术语的语义。例如，自然语言处理模块可识别出“Arnold Schwarzenegger”、“阿诺德施瓦辛格”和均指同一演员。此外，电影标题可因不同的语言和地区而异。例如，美国电影“Live Free or Die Hard”在英国被命名为“Die Hard 4.0”。在另一个示例中，美国电影“Top Gun”在以色列被命名为“Love in the Skies”。因此，自然语言处理模块可被配置为识别英语中的“Top Gun”和希伯来语中的“Love in the Skies”均指同一电影。

在一些示例中，自然语言处理模块可被配置为基于媒体相关的请求中的模糊术语来识别预期参数值。具体地，自然语言处理模块可确定模糊术语与一个或多个参数值之间的联系强度(例如，相关性、突出性、语义相似性等)。可将与模糊术语联系度最强的参数值确定为预期参数值。例如，媒体相关的请求可以是：“为我显示一些好的电影。”术语“好”可以是模糊的，因为其没有明确定义特定的参数值。在该示例中，基于与术语“好”的联系强度，自然语言处理模块可确定“好”是指大于预先确定值的平均用户评级参数值。

在一些示例中，可在确定初级用户意图之前确定初步用户意图。初步用户意图可包括使用在框506-1处接收的音频输入的一部分(但不是整个音频输入)来确定可执行意图或域。确定初步用户意图的过程可不太稳健，并且因此比确定初级用户意图更快。这可允许在仍在接收音频输入时确定初步用户意图。确定初步用户意图可允许预取到满足媒体相关的请求所需的数据，从而减少数字助理的响应时间。例如，媒体相关的请求可以是：“下午7点有什么在播放？”基于该请求的第一部分“……有什么在播放”可确定初步用户意图为“搜索频道节目”。基于该初步用户意图，可识别满足该初步用户意图所需的数据。具体地，可确定的是将需要用户的订阅信息来确定对于用户可用的频道。然后可确定与那些频道对应的节目。数字助理可初始确定所需数据是否已被存储在媒体系统或数字助理服务器上。根据确定在确定初步用户意图时数据被存储在媒体系统或数字助理服务器上，可在确定初级用户意图时检索数据。根据确定在确定初步用户意图时数据未被存储在媒体系统或数字助理上，可在确定初级用户意图时获取所需数据。例如，数字助理可在没有用户干预的情况下自动地与用户的订阅服务提供方进行通信并检索对于用户可用的频道。

如图16A所示，过程500-1的框510-1可包括框512-1至框518-1中的一个或多个框。在过程500-1的框512-1处，可确定初级用户意图是否包括用于缩窄与初级媒体项组604-1对应的初级媒体搜索查询的用户意图。换句话讲，可在框510-1处确定框506-1的媒体相关的请求是否是用于将先前接收的媒体搜索请求缩窄的请求。在一些示例中，确定初级用户意图是否包括缩窄初级媒体搜索查询的用户意图可包括确定媒体相关的请求是否包括与缩窄初级媒体搜索查询的用户意图对应的预先确定的字词或短语。预先确定的字词或短语可包括多个细化术语中的一个细化术语。例如，预先确定的字词或短语可指示用于缩窄在媒体搜索请求之前所接收的先前媒体搜索请求的显式请求。此外，在一些示例中，可基于媒体相关的请求中的预先确定的字词或短语的位置(例如，在媒体相关的请求的起始、中间或结束时)而进行确定。

在图17B至图17C所示的示例中，媒体相关的请求可以是：“仅需要Jack Ryan出演的那些电影。”可在自然语言处理期间解析与该媒体相关的请求对应的文本表示612-1，以确定媒体相关的请求是否包括与缩窄初级媒体搜索查询的用户意图对应的预先确定的字词或短语。与缩窄初级媒体搜索查询的用户意图对应的预先确定的字词或短语的示例可包括“仅”、“只”、“用……筛选”，“哪些”等。在该示例中，基于位于媒体相关的请求的开始处的预先确定的字词“仅”可确定初级用户意图包括缩窄与初级媒体项组604-1对应的初级媒体搜索查询的用户意图。具体地，可确定初级用户意图是缩窄对最近10年中发行的动作电影的搜索范围以便仅包括具有人物Jack Ryan的媒体项。应当认识到，可实施其他技术来确定初级用户意图是否包括缩窄与初级媒体项组604-1对应的初级媒体搜索查询的用户意图。此外，应当认识到，初级用户意图可基于一个或多个先前用户意图，该一个或多个先前用户意图对应于在框506-1的媒体搜索请求之前所接收的一个或多个先前媒体搜索请求。

根据确定初级用户意图包括缩窄与初级媒体项组604-1对应的初级媒体搜索查询的用户意图，可执行框520-1至框534-1中的一个或多个框。

在过程500-1的框520-1处，可获取第二初级媒体项组612-1以满足初级用户意图。框520-1可包括生成与初级用户意图对应的第二初级媒体搜索查询。该第二初级媒体搜索查询可基于媒体相关的请求(例如，“仅需要Jack Ryan出演的那些电影”)和初级媒体搜索查询(例如，“最近10年的动作电影”)。具体地，第二初级媒体搜索查询可包括参数值组。该参数值组可包括在媒体相关的请求中定义的一个或多个参数值以及初级媒体搜索查询的一个或多个参数值。例如，第二初级媒体搜索查询可以是用于搜索媒体类型为“电影”、媒体分类为“动作”、发行日期为“最近10年”并且具有媒体人物“Jack Ryan”的媒体项的查询。作为另外一种选择，第二初级媒体搜索查询可以是用于筛选初级媒体项组604-1的查询，并且仅识别媒体项组604-1的具有媒体人物“Jack Ryan”的媒体项。第二初级媒体搜索查询可由自然语言处理模块(例如，自然语言处理模块432-1)基于初级用户意图生成。

框520-1还可包括执行第二初级媒体搜索查询，以获取第二初级媒体项组612-1。可通过在一个或多个媒体数据库中搜索满足第二初级媒体搜索查询的参数值要求的媒体项来执行第二初级媒体搜索查询。该第二初级媒体项组中的每个媒体项可与参数值组相关联。该参数值组可包括初级媒体搜索查询中的一个或多个参数值以及在框506-1的媒体相关的请求中定义的一个或多个参数值。此外，第二初级媒体项组612-1中的每个媒体项可与相关性得分相关联。相关性得分可指示媒体项满足初级用户意图的可能性。例如，较高的相关性得分可指示媒体项满足初级用户意图的可能性较高。第二初级媒体搜索查询可由任务流处理模块(例如，任务流处理模块436-1)执行。

在通过基于(例如，经由键盘界面接收的)先前接收的媒体搜索请求执行字符串搜索来获取初级媒体项组604-1的示例中，可通过搜索初级媒体项组604-1来执行第二初级媒体搜索查询，以用于满足媒体相关的请求(例如，“Jack Ryan”)中所定义的参数值要求的媒体项。具体地，可首先获取与初级媒体项组604-1相关联的参数值。然后，可通过使用所得的参数值并基于媒体相关的请求中所定义的参数值执行结构化搜索来获取第二初级媒体项组612-1。

在过程500-1的框522-1处，可经由用户界面602-1来在显示单元上显示第二初级媒体项组612-1。具体地，如图17C所示，可利用对第二初级媒体项组612-1的显示来替换对显示单元上的初级媒体项组604-1的显示。可根据与每个媒体项相关联的相关性得分来显示第二初级媒体项组612-1。例如，参考图17C，第二初级媒体项组612-1可在用户界面602-1上从左到右按相关性得分降序排列。

在过程500-1的框524-1处，可获取附加媒体项组。可获取附加媒体项组来向用户提供可能与初级用户意图有关的另选选项。如图16B所示，框524-1可包括框526-1至框532-1。

在过程500-1的框526-1处，可识别与第二初级媒体项组612-1相关联的核心参数值组。可从第二初级媒体搜索查询中的参数值组识别核心参数值组。具体地，可识别和忽略参数值组中的非突出参数值。忽略非突出参数值之后，参数值组中的剩余参数值可被识别为核心参数值组。非突出参数值可以是预先确定的参数值，诸如例如媒体发行日期范围、媒体类型、媒体提供方、媒体质量评级、免费或付费媒体、直播或点播媒体等。核心参数值组的参数值可比参数值组的参数值少。

在图17C的示例中，第二初级媒体搜索查询中的参数值组包括参数值“动作电影”、“最近10年”和“Jack Ryan”。在该示例中，参数值“最近10年”可被识别为非突出参数值(例如，媒体发行日期范围)并被移除。因此，剩余的参数值“动作电影”和“Jack Ryan”可被识别为核心参数值组。

在过程500-1的框528-1处，可识别一个或多个附加参数值。可基于可能反映用户媒体消费兴趣的信息来识别一个或多个附加参数值。例如，可基于用户的媒体选择历史、用户的媒体搜索历史、或用户观看列表中的媒体项来识别一个或多个附加参数值。除此之外或作为另外一种选择，可基于多个用户的媒体选择历史来识别一个或多个附加参数值，这可指示当前在媒体设备的用户中最流行的媒体项的参数值。在一些示例中，识别一个或多个附加参数值的方法可类似于在框560-1处描述的确定其他相关的参数值的方法。

返回到图17C的示例，可确定由Ben Affleck主演的动作电影受媒体设备的用户欢迎。此外，可确定用户最近搜索或选择过由Ben Affleck主演的电影。因此，在该示例中，“Ben Affleck”可被识别为一个或多个附加参数值中的参数值。

在过程500-1的框530-1处，可生成一个或多个附加媒体搜索查询。该附加媒体搜索查询可基于框526-1处所识别的核心参数值组。此外，附加媒体搜索查询可基于在框528-1处识别的一个或多个附加参数值。例如，在图17C中，一个或多个附加媒体搜索查询可包括对Jack Ryan(核心参数值组)出演的动作电影的搜索和对由Ben Affleck(在框528-1处识别的附加参数值)主演的动作电影的搜索。

框526-1至框530-1可由自然语言处理模块(例如，自然语言处理模块432-1)执行。具体地，自然语言处理模块可识别核心参数值组(在框526-1处)和一个或多个附加媒体搜索查询(在框528-1处)，以确定一个或多个附加用户意图。然后，自然语言处理模块可基于一个或多个附加用户意图来生成一个或多个附加媒体搜索查询(例如，上面参考图15B描述的结构化查询)。

在过程500-1的框532-1处，可执行框530-1的一个或多个附加媒体搜索查询。例如，可通过在一个或多个媒体数据库中搜索满足附加媒体搜索查询的媒体项来执行一个或多个附加媒体搜索查询。所使用的媒体数据库可基于正在搜索的媒体类型。例如，音乐数据库可用于涉及音乐的媒体搜索查询，并且电影/电视节目数据库可用于涉及音乐/电视节目的媒体搜索查询。因此，可通过执行框530-1的一个或多个附加媒体搜索查询来获取一个或多个附加媒体项组614-1。具体地，在图17C中，可通过搜索Jack Ryan出演的动作电影来获取附加媒体项组616-1(例如，电影“Patriot Games”、“Clear and Present Danger”等)，并且可通过搜索由youBen Affleck主演的动作电影来获取附加媒体项组618-1(例如，电影“The Sum of All Fears”、“Daredevil”等)。框532-1可由任务流处理模块(例如，任务流处理模块436-1)执行。

应当认识到，上述框524-1的某些方面可类似地应用于框546-1或框562-1。

在过程500-1的框534-1处，可在显示单元上显示一个或多个附加媒体项组。例如，如图17C所示，可经由用户界面602-1来显示附加媒体项组616-1和618-1。附加媒体项组616-1和618-1可用于向用户提供可能使用户感兴趣的附加选项。增加用户找到和选择媒体项以用于消费而不必请求其他搜索的可能性可能是期望的，这可减少浏览时间并改善用户体验。

显示媒体项组的方式可反映相应用户意图对应于用户实际意图的可能性。例如，如图17C所示，第二初级媒体项组与初级用户意图(最可能反映实际用户意图的用户意图)相关联，并且被显示在用户界面602-1的顶行中。一个或多个附加媒体项组616-1和618-1与附加用户意图(不太可能反映实际用户意图的用户意图)相关联，并且被显示在用户界面602-1中的顶行下方的一个或多个后续行中。此外，相比于与附加媒体项组618-1相关联的附加用户意图，与附加媒体项组616-1相关联的附加用户意图可更可能反映实际的用户意图。因此，在该示例中，可将附加媒体项组618-1显示在附加媒体项组616-1下面的行中。虽然在本示例中，媒体项组以行显示，但应当认识到，在其他示例中，还可实现其他显示布局。

再次参考框512-1，根据确定初级用户意图不包括缩窄初级媒体搜索查询的用户意图，可执行框514-1至框518-1或框536-1至框548-1中的一个或多个框。

在过程500-1的框514-1处，可确定初级用户意图是否包括执行新的媒体搜索查询的用户意图。在一些示例中，可基于媒体相关的请求中的显式字词或短语来进行确定。具体地，可确定媒体相关的请求是否包括与执行新的媒体搜索查询的用户意图对应的字词或短语。该字词或短语可以是预先确定的自此，例如“为我显示”、“查找”、“搜索”、“……出演的其他电影”等。此外，在一些示例中，可基于媒体相关的请求中的字词或短语的位置(例如，媒体相关的请求的起始、中间或结束时)来进行确定。在特定示例中，媒体相关的请求可以是：“为我显示一些Jack Ryan的电影。”基于在该媒体相关的请求开始处的字词“为我显示”，可确定初级用户意图是对Jack Ryan出演的电影执行新的媒体搜索查询。

在不存在指示用户意图的显式字词或短语(例如，“为我显示”、“查找”、“搜索”等)的情况下，框514-1处的确定可基于与一个或多个媒体项的参数值对应的字词或短语。例如，如图17D所示，媒体相关的请求可以是：“Jack Ryan”。在该示例中，媒体相关的请求不包括用户意图是否缩窄初级媒体搜索查询或执行新搜索的任何明确指示。然而，数字助理可识别出“Jack Ryan”对应于一个或多个媒体项的参数值。具体地，可确定“Jack Ryan”是与多个电子书和电影相关联的媒体人物。基于这些参数值，初级用户意图可被确定为对具有人物Jack Ryan的电子书和电影执行新的媒体搜索查询。与一个或多个媒体项的参数值对应的字词或短语的其他示例可包括“Tom Cruise”、“Jurassic Park”、“Spy movies”、“SeanConnery”、“卡通”、“Frozen”等。

根据确定初级用户意图包括执行新的媒体搜索查询的用户意图，可执行框536-1至框548-1中的一个或多个框。在过程500-1的框536-1处，可根据初级用户意图来获取第三初级媒体项组。框536-1可类似于框520-1。具体地，框536-1可包括基于媒体相关的请求来生成第三初级媒体搜索查询。该第三初级媒体搜索查询可对应于执行新的媒体搜索查询的初级用户意图。具体地，第二初级媒体搜索查询可包括在媒体相关的请求中定义的一个或多个参数值。例如，参考图17D，所生成的第三初级媒体搜索查询可以是用于搜索具有媒体人物“Jack Ryan”的媒体项的查询。

框536-1还可包括执行第三初级媒体搜索查询，以获取第三初级媒体项组620-1。可通过在一个或多个媒体数据库中搜索满足第三初级媒体搜索查询的参数值要求的媒体项来执行第三初级媒体搜索查询。第三初级媒体项组620-1中的每个媒体项可包括在媒体相关的请求中定义的一个或多个参数值。具体地，在本示例中，第三初级媒体项组620-1中的每个媒体项可包括作为媒体人物的“Jack Ryan”。

在一些示例中，可根据与媒体相关的请求相关联的媒体类型来执行第三初级媒体搜索查询。如上所述，可在框510-1处确定与媒体相关的请求相关联的媒体类型，同时确定初级用户意图。用于执行第三初级媒体搜索查询的应用程序或数据库可特定于所确定的媒体类型。在一个示例中，如果确定媒体类型为音乐，则可使用音乐搜索应用程序和/或音乐数据库(例如，iTunes商店应用程序)来执行第三初级媒体搜索查询，而不是例如电影数据库。

在一些示例中，媒体相关的请求可与多于一种媒体类型相关联。例如，媒体相关的请求“Frozen”可与若干个媒体类型诸如电影/电视节目、音乐(例如，原声带)和电子书相关联。当执行第三初级媒体搜索查询时，可从一个或多个媒体数据库获取与各种媒体类型相关联的多个媒体项。每个媒体项可与相关性得分相关联。相关性得分可指示相应媒体项相对于第三初级媒体搜索查询的相关程度。此外，相关性得分可特定于从中获取候选媒体项的媒体数据库。在一些示例中，为了基于同一标准比较来自不同数据库的媒体项，可对多个候选媒体项执行归一化排名。具体地，可在一个或多个媒体数据库中对相关性得分进行归一化，并且归一化的相关性得分可用于对候选媒体项执行归一化排名。例如，通用媒体搜索应用程序或数据库(例如，Apple OS X或iOS的Spotlight)可用于执行第三初级媒体搜索查询。通用媒体搜索应用程序或数据库可以是数字助理外部的服务。使用通用媒体搜索应用程序或数据库，可从各种源或数据库(例如，iTunes商店、应用商店、iBook、存储在用户设备上的媒体项等)获取相关媒体项，并且可基于归一化的相关性得分来对相关媒体项进行排名。然后，可在框540-1处根据归一化排名对媒体项进行排序和显示，以供用户选择。

用于获取第三初级媒体项组的一个或多个数据库可包括从各种源导出的信息。在一些示例中，一个或多个数据库可包括来自一个或多个媒体评论家评论的信息。媒体评论家评论可由例如专业媒体评论家、记者、博主、社交媒体服务用户等创作。在示例性示例中，一个或多个媒体评论家评论可包括某个短语诸如“飞车追逐”来描述电影诸如“Bullitt”、“The Bourne Identity”或“Fast Five”。可从一个或多个媒体评论家评论中提取短语“飞车追逐”作为参数值，并且该参数值可与媒体数据库中这些电影中的一个或多个电影相关联。因此，对于媒体相关的请求“为我显示具有精彩的飞车追逐的电影”，所生成的对应第三初级媒体搜索查询可以是搜索具有参数值“飞车追逐”的电影。如此，在搜索一个或多个数据库时，可获取候选媒体项诸如“Bullitt”、“The Bourne Identity”或“Fast Five”。

在其他示例中，一个或多个数据库可包括从各种电影、视频或电视节目的隐藏式字幕中导出的信息。具体地，可基于隐藏式字幕来提取一个或多个参数值。例如，电影诸如“Bullitt”，“The Bourne Identity”或“Fast Five”的隐藏式字幕可包括字幕“[Tirescreeching(轮胎吱嘎尖啸)]”)的若干个示例，以指示与飞车追逐相关联的声音。基于该字幕，这些电影中的一个或多个电影可与媒体数据库中的参数值“飞车追逐”相关联。因此，当执行第三初级媒体搜索查询时，可识别与该参数值相关联的候选媒体项(例如，“Bullitt”、“The Bourne Identity”、“Fast Five”等)。

在一些示例中，媒体相关的请求可以是以用户界面602-1所聚焦的媒体项为基础的媒体搜索请求。例如，在框506-1处接收到媒体相关的请求时，用户界面602-1的光标609-1可位于媒体项611-1上。可确定媒体相关的请求是否是请求获取类似于媒体项611-1的一组另选媒体项。在一个示例中，媒体相关的请求可以是：“与这个更加类似”。在该示例中，可基于光标609-1的位置上下文来确定“这个”是指媒体项611-1。因此，可确定媒体相关的请求是请求获取类似于媒体项611-1的一组另选媒体项。响应于确定媒体相关的请求是请求获取类似于媒体项611-1的一组另选媒体项，可在框536-1处获取第三初级媒体项组，其中第三初级媒体项组中的每个媒体项包括媒体项611-1的一个或多个参数值。例如，在一个示例中，媒体项611-1可以是动作电影“卧虎藏龙”。在该示例中，所得第三初级媒体项组可包括共享该电影的一个或多个参数值的媒体项。具体地，所得的第三初级媒体项组可例如包括由Ang Lee导演的电影，包括武术场景，或者明星Chow Yun-Fat、Michelle Yeoh或ZhangZiyi。

应当认识到，框536-1的某些方面可类似地应用于框520-1、框524-1、框546-1、框562-1或框566-1。

在过程500-1的框538-1处，可确定是否可获取与第三初级媒体搜索查询对应的至少一个媒体项。在框536-1处执行第三初级媒体搜索查询时，可确定通过搜索查询获取(或可获取)的媒体项的数量。如果获取的媒体项的数量是一个或多个，则可确定可获取与第三初级媒体搜索查询对应的至少一个媒体项。例如，针对媒体相关的请求“Jack Ryan”的第三初级媒体搜索查询可返回至少电影“Patriot Games”和“Clear and Present Danger”。因此，在该示例中，可确定可获取与第三初级媒体搜索查询对应的至少一个媒体项。根据确定可获取与第三初级媒体搜索查询对应的至少一个媒体项，可执行框540-1。如在下面的描述中将变得显而易见的，框538-1处的确定可能是期望的，以确保在框536-1处执行的第三初级媒体搜索查询获取至少一个媒体项。这样可防止出现针对媒体搜索请求没有媒体项显示的情况，并且可使用户省去必须提供另一媒体搜索请求的麻烦，这改善了用户体验。

在过程500-1的框540-1处，可经由用户界面602-1来在显示单元上显示第三初级媒体项组620-1。具体地，如图17E所示，可利用对第三初级媒体项组620-1的显示来替换对显示单元上的初级媒体项组604-1的显示。框540-1可类似于框522-1。可根据与每个媒体项相关联的相关性得分来显示第三初级媒体项组620-1。例如，参考图17E，第三初级媒体项组612-1可在用户界面602-1上从左到右按相关性得分降序排列。

再次参考框538-1，在一些示例中，可确定不能获取与第三初级媒体搜索查询对应的至少一个媒体项。例如，来自STT处理的媒体相关的请求或对应文本表示可定义不正确的参数值或与用户实际想要的那些参数值不同的参数值。在一个此类示例中，如图17F所示，媒体相关的请求可以是“Jackie Chan和Chris Rucker”。在该示例中，通过执行与该媒体相关的请求对应的第三初级媒体搜索查询无法获取媒体项，因此可确定不能获取与第三初级媒体搜索查询对应的至少一个媒体项。在其他示例中，媒体相关的请求可定义不兼容的参数，诸如“Jackie Chan”和“Spiderman”或“暴力画面”和“适合幼儿”。根据确定不能获取与第三初级媒体搜索查询对应的至少一个媒体项，可执行框542-1至框548-1以向用户呈现可能满足用户实际意图的另选结果。

在过程500-1的框542-1处，可识别第三初级媒体搜索查询的最不相关的参数值。具体地，可基于诸如具有参数值的媒体项的流行度、参数值在先前媒体搜索请求中的出现频率或参数值在媒体项总体中的出现频率等因素来确定第三初级媒体搜索查询中的每个参数值的突出性得分。最不相关的参数值可被识别为突出性得分最低的参数值。例如，在参数值“Jackie Chan”和“Chris Rucker”之间，参数值“Chris Rucker”可具有较低的突出性得分，因为Chris Rucker是足球运动员，而Jackie Chan是受欢迎的演员。因此，与ChrisRucker相比，Jackie Chan与更多媒体项和先前媒体搜索查询相关联。因此，在该示例中，可将参数值“Chris Rucker”确定为最不相关的参数值。

在过程500-1的框544-1处，可确定一个或多个另选参数值。可基于所识别的最不相关的参数值来确定一个或多个另选参数值。例如，可在所识别的最不相关的参数值与数据结构中的多个媒体相关的参数值之间执行模糊字符串匹配。具体地，数据结构中的在预先确定的阈值内具有最短编辑距离的参数值可被确定为另选参数值。例如，基于参数值“Chris Rucker”的模糊字符串匹配，可确定参数值“Chris Tucker”在数据结构中的多个媒体相关的参数值中具有最短编辑距离。因此，在该示例中，可将“Chris Tucker”确定为另选参数值。

除此之外或作为另外一种选择，可基于第三初级媒体搜索查询中的其他参数值(例如，除最不相关的参数值之外的参数值)来确定一个或多个另选参数值。具体地，可确定与第三初级媒体搜索查询中的其他参数值密切相关的参数值。例如，基于存在由“JackieChan”主演并且具有参数值“动作电影”和“武术”的多个媒体项，可确定参数值诸如“动作电影”和“武术”与参数值“Jackie Chan”密切相关。

在过程500-1的框546-1处，可获取第四初级媒体项组以满足初级用户意图。框546-1可类似于框520-1。具体地，可生成一个或多个另选初级媒体搜索查询。可使用在框544-1处确定的一个或多个另选参数值来生成一个或多个另选初级搜索查询。例如，在图17F至图17G中，其中媒体相关的请求是“Jackie Chan和Chris Rucker”，并且另选参数值被确定为“Chris Tucker”，另选初级搜索查询可以是搜索具有参数值“Jackie Chan”和“Chris Tucker”的媒体项。因此，在该示例中，最不相关的参数值可被更可能反映用户实际意图的另选参数值替换。然后，可执行一个或多个另选初级媒体搜索查询，以获取第四初级媒体项组628-1。在搜索具有参数值“Jackie Chan”和“Chris Tucker”的媒体项的本示例中，第四初级媒体项组628-1可包括电影，诸如“Rush Hour”、“Rush Hour 2”或“RushHour3”。

在过程500-1的框548-1处，可经由用户界面602-1在显示单元上显示第四初级媒体项组628-1。框548-1可类似于框522-1。具体地，如图17G所示，可利用对第四初级媒体项组628-1的显示来替换对显示单元上的初级媒体项组604-1的显示。

在过程500-1的框550-1处，可确定一个或多个先前用户意图是否存在。一个或多个先前用户意图可对应于在框506-1的媒体相关的请求之前所接收的一个或多个先前媒体相关的请求。先前媒体相关的请求的示例可包括与初级媒体搜索查询和框502-1的初级媒体项组604-1对应的先前接收的媒体相关的请求。可基于分析被存储在媒体设备(例如，媒体设备104-1)或服务器(例如，DA服务器106-1)上的先前用户意图的历史记录来作出确定。在一些示例中，当确定是否存在一个或多个先前用户意图时，仅考虑相关时间范围内的先前用户意图。相关时间范围可指代在接收到框506-1的媒体相关的请求之前的预先确定的时间范围。在其他示例中，相关时间范围可基于与数字助理的交互式会话。具体地，框506-1的媒体相关的请求可以是与数字助理的交互式会话的包括媒体相关的请求序列的一部分。在这些示例中，相关时间范围可以是从交互式会话发起的时间到交互式会话终止的时间。可确定交互式会话是否包含在框506-1的媒体相关的请求之前所接收的一个或多个先前媒体相关的请求。如果交互式会话包含一个或多个先前媒体相关的请求，则可确定存在一个或多个先前用户意图。因此，一个或多个先前用户意图和初级用户意图可与与数字助理的相同交互式会话相关联。相反，如果交互式会话不包含一个或多个先前媒体相关的请求，则可确定一个或多个先前用户意图不存在。响应于确定存在一个或多个先前用户意图，可执行框552-1。作为另外一种选择，响应于确定不存在一个或多个先前用户意图，可执行框560-1。

在过程500-1的框552-1处，可确定一个或多个次级用户意图。可基于框510-1的初级用户意图和在框550-1处确定存在的一个或多个先前用户意图来确定一个或多个次级用户意图。具体地，该一个或多个次级用户意图可包括初级用户意图和一个或多个先前用户意图的组合。在一些示例中，可基于用户在媒体设备上的媒体相关的请求历史来确定一个或多个先前用户意图。

返回到图17D至图17E的示例，初级用户意图可以是搜索具有人物“Jack Ryan”的媒体项的意图。在一个示例中，第一先前用户意图可以是搜索过去10年的动作电影的意图。此外，第二先前用户意图可以是搜索由Ben Affleck主演的媒体项的意图。因此，次级用户意图可以是这些用户意图中的两个或更多个用户意图的组合。具体地，一种次级用户意图可以是初级用户意图和第一先前用户意图的组合(例如，搜索过去10年中Jack Ryan出演的动作电影的用户意图)。另一次级用户意图可以是第一先前用户意图和第二先前用户意图的组合(例如，搜索最近10年中Ben Affleck主演的动作电影的用户意图)。可使用媒体设备的自然语言处理模块(自然语言处理模块432-1)来执行框552-1。如图16D所示，框552-1可包括框554-1至框560-1。

在过程500-1的框554-1处，可识别一个或多个先前用户意图中的不正确的用户意图。具体地，可分析一个或多个先前用户意图，以确定是否包括任何不正确的用户意图。如果先前用户意图被后续的先前用户意图显式地或隐式地指示为不正确，则可将先前用户意图确定为不正确。例如，一个或多个先前用户意图可包括与先前媒体相关的请求的以下序列对应的用户意图：

[A]“为我显示一些James Bond的电影。”

[B]“仅需要Daniel Smith出演的那些电影。”

[C]“不，我的意思是Daniel Craig。”

在该示例中，基于显式短语“不，我的意思是……”，可确定与请求[C]相关联的先前用户意图为校正与请求[B]相关联的先前用户意图的意图。因此，在该示例中，可确定与请求[C]之前的请求[B]相关联的先前用户意图不正确。应当理解，在其他示例中，请求[C]可隐式地指示请求[B]不正确。例如，请求[C]可仅为“Daniel Craig”。基于字符串“DanielCraig”到“Daniel Smith”的相似性以及与“Daniel Smith”相对的与参数值“DanielCraig”相关联的改进的相关性，可确定与请求[C]相关联的先前用户意图是校正与请求[B]相关联的先前用户意图的意图。

在其他示例中，可基于与先前用户意图不一致的媒体项的用户选择来确定先前用户意图是不正确的。例如，先前的请求可以是：“为我显示Russell Simmons制作的视频。”响应于此先前请求，包括由Russell Simmons制作的视频的初级媒体项组可能已被显示出来，以供用户选择。此外，与先前请求相关的附加媒体项组可与初级媒体项组一起显示。在该示例中，可确定用户选择了由“Richard Simmons”而不是“Russell Simmons”制作的附加媒体项组中的媒体项。基于对媒体项的用户选择与搜索由Russell Simmons制作的视频的先前用户意图不一致，可确定先前用户意图不正确。换句话讲，可确定正确的用户意图应当是搜索由“Richard Simmons”而不是“Russell Simmons”制作的视频。

根据确定一个或多个先前用户意图包括不正确的先前用户意图，不正确的先前用户意图不可用于确定一个或多个次级用户意图。具体地，可排除不正确的先前用户意图，因此不正确的先前用户意图不会用于在框556-1处生成用户意图的组合，以用于确定一个或多个次级用户意图。然而，在一些示例中，经校正的用户意图可用于生成用户意图的组合并确定一个或多个次级用户意图。例如，在上述各个示例中，与“Daniel Craig”相关联的经校正的先前用户意图(例如，搜索Daniel Craig出演的James Bond电影)以及与“RichardSimmons”相关联的校正后先前用户意图(例如，搜索由Richard Simmons制作的视频)可用于确定一个或多个次级用户意图。

在过程500-1的框556-1处，可基于初级用户意图和一个或多个先前用户意图来生成多个用户意图组合。在示例性示例中，媒体设备可能已接收到以下媒体相关的请求序列，其中初级用户意图与请求[G]相关联，并且一个或多个先前用户意图与请求[D]至[F]相关联。

[D]“电影主演Keanu Reeves。”

[E]“包含暴力画面的节目。”

[F]“适合幼儿的电影”

[G]“卡通。”

在该示例中，多个用户意图组合可包括初级用户意图和与请求[D]到[G]相关联的一个或多个先前用户意图的任何组合。一个示例性用户意图组合可以是搜索Keanu Reeves主演的有暴力画面的电影(例如，基于请求[D]和[E]的组合)。另一示例性用户意图组合可以是搜索适合幼儿的卡通电影(例如，基于请求[F]和[G]的组合)。

在过程500-1的框558-1处，可排除不兼容的用户意图组合。具体地，可识别不兼容的用户意图组合，并且基于所识别的不兼容的用户意图组合不可确定一个或多个次级用户意图。在一些示例中，不兼容的用户意图组合可以是不与任何媒体项对应的用户意图组合。具体地，对于每个用户意图组合，可执行相应媒体搜索。如果特定媒体搜索没有获取媒体项，则可将相应用户意图组合确定为不兼容的用户意图组合。例如，用户意图组合可基于上述请求[E]和[F]。在该示例中，可对包含暴力画面的适合儿童的电影执行相应媒体搜索。然而，此类媒体搜索可能不会得出任何媒体项。因此，在该示例中，基于请求[E]和[F]的用户意图组合可被确定为不兼容的用户意图组合。应当理解，在其他示例中，可建立不同的预先确定的阈值，以用于确定不兼容的用户意图组合。例如，无法与大于预先确定数量的媒体项对应的用户意图组合可被确定为不兼容。

在其他示例中，可基于与用户意图组合相关联的参数值来确定不兼容的用户意图组合。具体地，某些参数值可被预先确定为不兼容。例如，参数值“暴力画面”可被预先确定为与参数值“适合幼儿”不兼容。因此，包含被预先确定为不兼容的两个或更多个参数值的用户意图组合可被确定为不兼容的用户意图组合。此外，还可预先确定某些参数需要单一值。例如，“媒体标题”、“媒体类型”和“美国电影协会电影评级”的参数在用户意图组合中可各自与不多于一个参数值相关联。具体地，用于搜索电影的第一用户意图和用于搜索歌曲的第二用户意图的组合将是不兼容的组合。因此，如果用户意图组合对于被预先确定为需要单一值的参数包含多于一个参数值，则可确定该用户意图组合是不兼容的。可排除不兼容的用户意图组合，使得这些组合不会在框552-1处用于确定一个或多个次级用户意图。具体地，一个或多个次级用户意图不会包括任何不兼容的用户意图组合。从考虑范围中去除不兼容的用户意图组合可能是期望的，以增加针对用户选择显示的媒体项的相关性。

可基于未被确定为不兼容的剩余用户意图组合来确定一个或多个次级用户意图。具体地，可合并每个剩余用户意图组合中的用户意图，以生成一个或多个次级用户意图。此外，剩余用户意图组合中的每个用户意图可与至少一个媒体项(或至少预先确定数量的媒体项)相关联。在一些示例中，一个或多个次级意图可包括一个或多个剩余用户意图组合。

返回到上述具有请求[D]至[G]的示例，一个或多个次级用户意图中的次级用户意图可包括初级用户意图(例如，与请求[G]相关联的初级用户意图)和一个或多个先前用户意图中的先前用户意图(例如，与请求[F]相关联的先前用户意图)的组合。例如，次级用户意图可以是针对适合幼儿的卡通电影的媒体搜索。另外，一个或多个次级用户意图中的次级用户意图可包括一个或多个先前用户意图中的两个或更多个先前用户意图(例如，与请求[D]和[E]相关联的先前用户意图)的组合。例如，次级用户意图可以是对Keanu Reeves主演的具有暴力画面的电影的媒体搜索。

在过程500-1的框560-1处，可基于其他相关的参数值来生成一个或多个次级用户意图。在框560-1处确定的一个或多个次级用户意图可以是在框552-1处确定的一个或多个次级意图的补充或替代。其他相关的参数值可基于除用户在媒体设备上的媒体搜索历史之外的信息。具体地，用于确定其他相关的参数值的信息可反映用户的媒体兴趣和习惯，由此可合理地预测用户的实际意图。

在一些示例中，其他相关的参数值可基于用户在媒体设备上的媒体选择历史。具体地，其他相关的参数值可包括与先前由用户选择以用于消费的(例如，在框506-1处接收媒体相关的请求之前选择的)媒体项相关联的参数值。在一些示例中，其他相关的参数值可基于用户在媒体设备上的媒体观看列表。媒体观看列表可以是媒体项的用户定义的列表，该媒体项是用户感兴趣的或希望在不久的将来消费的。因此，与用户选择历史或用户媒体观看列表相关联的参数值可反映用户的媒体兴趣或习惯。在一些示例中，其他相关参数可基于用户在媒体设备外部的设备上的媒体搜索历史。具体地，可从外部媒体设备获取在外部媒体设备(例如，用户设备122-1)上执行的媒体相关搜索的历史记录。这些媒体相关搜索可以是网页搜索、iTunes商店搜索、在设备上的本地媒体文件搜索等。因此，其他相关的参数值可包括从外部媒体设备的媒体相关搜索历史导出的参数值。

在一些示例中，其他相关的参数值可基于用户界面所聚焦的媒体项。例如，参考图17A，在框506-1处接收到媒体相关的请求时，光标609-1可位于媒体项611-1上。因此，可确定在框506-1处接收到媒体相关的请求时，用户界面602-1的焦点位于媒体项611-1上。在该示例中，其他相关的参数值可与媒体项611-1上下文相关。具体地，其他相关的参数值可包括媒体项611-1的一个或多个参数值。在一些示例中，在框506-1处接收到媒体相关的请求时，其他相关的参数值可基于与被显示在显示单元上的媒体项相关联的文本。例如，在图17A中，在框506-1处接收到媒体相关的请求时，可在显示单元上显示与初级媒体项组604-1和次级媒体项组606-1相关联的多个文本。该多个文本可描述相关联的媒体项的参数值。因此，其他相关的参数值可包括由该多个文本描述的一个或多个参数值。

应当认识到，媒体设备内部或外部的其他信息可用于确定其他相关的参数值。例如，在一些示例中，可与在框528-1处识别的附加参数值类似的方式来确定其他相关的参数值。

可针对框552-1和框560-1的一个或多个次级用户意图中的每个次级用户意图来确定排名得分。排名得分可表示次级用户意图对应于用户的实际用户意图的可能性。在一些示例中，较高的排名得分可表示相应次级用户意图对应于实际用户意图的较高可能性。如下所述，可基于用于导出一个或多个次级用户意图的类似信息来确定排名得分。

在一些示例中，可基于用户或多个用户的媒体相关的请求历史(例如，媒体搜索历史)来确定一个或多个次级用户意图中的每个次级用户意图的排名得分。具体地，可基于媒体相关的请求中的每个媒体相关的请求和一个或多个先前媒体相关的请求被接收的时间和顺序来确定排名得分。相比于基于更早接收的媒体相关的请求的次级用户意图，基于更近期接收的媒体搜索请求的次级用户意图可更有可能具有更高的排名得分。例如，在上述请求[D]至[G]的示例中，请求[G]可以是最近接收的媒体相关的请求，而请求[D]可以是最早接收的媒体相关的请求。在该示例中，相比于基于请求[D]的次级用户意图，基于请求[G]的次级用户意图可更有可能具有更高的排名得分。

此外，排名得分可基于用户或多个用户的媒体相关的请求历史中的参数值的出现频率。例如，如果在用户的媒体相关的请求历史或多个用户的媒体相关的请求历史中，参数值“Keanu Reeves”比参数值“暴力画面”出现更频繁，则相比于包含参数值“暴力画面”的次级用户意图，包含参数值“Keanu Reeves”的次级用户意图可更可能具有更高的排名得分。

在一些示例中，可基于用户或多个用户的选择历史来确定一个或多个次级用户意图中的每个次级用户意图的排名得分。用户选择历史可包括先前由用户或多个用户选择用于消费的媒体项的列表。相比于不包括任何先前选择的媒体项的参数值的次级用户意图，包括一个或多个先前选择的媒体项的参数值的次级用户意图可更有可能具有更高的排名得分。另外，相比于包括更早选择的媒体项的参数值的次级用户意图，包括更近期选择的媒体项的参数值的次级用户意图可更有可能具有更高的排名得分。此外，相比于参数值在先前选择的媒体项中出现频率较低的次级用户意图，参数值在先前选择的媒体项中出现频率较高的次级用户意图可更有可能具有更高的排名得分。

在一些示例中，可基于用户或多个用户的媒体观看列表来确定一个或多个次级用户意图中的每个次级用户意图的排名得分。例如，相比于不包括媒体观看列表上的任何媒体项的参数值的次级用户意图，包括媒体观看列表上的一个或多个媒体项的参数值的次级用户意图可更有可能具有更高的排名得分。

在过程500-1的框562-1处，可获取一个或多个次级媒体项组。框562-1可类似于框520-1。具体地，可生成与框552-1和/或框560-1的一个或多个次级用户意图对应的一个或多个次级媒体搜索查询。可执行一个或多个次级媒体搜索查询，以获取一个或多个次级媒体项组。例如，再次参考图17E，可针对最近10年中Jack Ryan出演的动作电影生成并执行第一次级媒体搜索查询来获取次级媒体项组624-1。另外，可针对最近10年中由Ben Affleck主演的动作电影生成并执行第二次级媒体搜索查询来获取次级媒体项组626-1。

在过程500-1的框564-1处，可在显示单元上显示一个或多个次级媒体项组。框564-1可类似于框534-1。如图17E所示，第三初级媒体项组620-1可被显示在用户界面602-1的顶行处。次级媒体项组624-1和626-1可被显示在用户界面602-1中的顶行下方的后续行中。后续行中的每一行可对应于框552-1和/或框560-1的一个或多个次级用户意图中的次级用户意图。

可根据对应的一个或多个次级用户意图的排名得分来显示一个或多个次级媒体项组。具体地，相比于与具有较低排名得分的次级用户意图对应的次级媒体项组，与具有较高排名得分的次级用户意图对应的次级媒体项组可更突出地显示(例如，在更靠近顶行的较高行中)。

再次参考框510-1，根据确定初级用户意图不包括执行新的媒体搜索查询的用户意图，可执行框516-1至框518-1中的一个或多个框。在过程500-1的框516-1处，可确定初级用户意图是否包括校正初级媒体搜索查询的一部分的用户意图。可基于指示校正初级媒体搜索查询的一部分的用户意图的显式字词或短语来进行确定。具体地，可确定媒体相关的请求是否包括指示修正初级媒体搜索查询的一部分的用户意图的预先确定的字词或短语。例如，参考图17H至图17I，媒体相关的请求可以是：“不，我的意思是冒险电影。”在该示例中，基于在媒体相关的请求开始处出现的显式短语“不，我的意思是……”可确定初级用户意图包括校正初级媒体搜索查询的一部分的用户意图。具体地，可确定初级用户意图为将初级媒体搜索查询从搜索最近10年的动作电影校正成搜索最近10年的冒险电影的用户意图。指示校正初级媒体搜索查询的一部分的用户意图的预先确定的字词或短语的其他示例可包括“不”、“不是”、“我的意思是”、“错误”等。

在其他示例中，可基于媒体相关的请求中的参数值和初级媒体搜索查询中的参数值之间的相似性来作出框516-1处的确定。例如，在一个示例中，与初级媒体搜索查询相关联的先前接收的媒体相关的请求可以是：“Jackie Chan和Chris Rucker”，媒体相关的请求可以是：“Chris Tucker”。基于所确定的参数值“Chris Rucker”和“Chris Tucker”之间的编辑距离小于预先确定的值，可确定初级用户意图包括将初级媒体搜索查询中的参数值“Chris Rucker”校正为“Chris Tucker”的用户意图。除此之外或作为另外一种选择，可比较表示“Chris Rucker”和“Chris Tucker”的音素序列。基于表示“Chris Rucker”的音素序列基本上类似于表示“Chris Tucker”的音素序列，可确定初级用户意图包括将初级媒体搜索查询中的“Chris Rucker”校正为“Chris Tucker”的用户意图。

此外，可比较参数值“Chris Rucker”与参数值“Chris Tucker”相对于参数值“Jackie Chan”的突出性。具体地，可使用参数值“Jackie Chan”来执行媒体搜索，以识别与Jackie Chan相关的媒体项组。“Chris Rucker”和“Chris Tucker”相对于“Jackie Chan”的突出性可基于与Jackie Chan相关的媒体项组中的与这两个参数值中的每个参数值相关联的媒体项的数量。例如，可确定相比于“Chris Rucker”，“Chris Tucker”在与Jackie Chan相关的媒体项组中与显著更多的媒体项相关联。因此，可确定相对于“Jackie Chan”，“Chris Tucker”的突出性显著大于“Chris Rucker”的突出性。基于该比较突出性，可确定初级用户意图包括在初级媒体搜索查询中校正“Chris Rucker”的用户意图。

根据确定初级用户意图包括校正初级媒体搜索查询的一部分的用户意图，当确定与媒体相关的请求相关联的一个或多个次级用户意图时(例如，框552-1)，可将与初级媒体搜索查询相关联的先前用户意图从考虑范围中去除。例如，当确定一个或多个次级用户意图时，可从考虑范围中去除与先前接收的媒体相关的请求“Jackie Chan和Chris Rucker”相关联的先前用户意图。相反，当确定一个或多个次级用户意图时，可考虑与经校正的媒体相关的请求“Jackie Chan和Chris Tucker”相关联的用户意图。

另外，根据确定初级用户意图包括校正初级媒体搜索查询的一部分的用户意图，可执行框566-1至框568-1中的一个或多个框。在过程500-1的框566-1处，可获取第五初级媒体项组。框566-1可类似于框520-1。具体地，可生成与初级用户意图对应的第五初级媒体搜索查询。第五初级媒体搜索查询可基于媒体相关的请求和初级媒体搜索查询。具体地，可根据媒体相关的请求来校正初级媒体搜索查询的一部分，以生成第五初级媒体搜索查询。返回到初级媒体搜索查询为搜索由“Jackie Chan”和“Chris Rucker”主演的媒体项并且媒体相关的请求是“Chris Tucker”的示例，可校正初级媒体搜索查询以生成搜索由“JackieChan”和“Chris Tucker”主演的媒体项的第五初级媒体搜索查询。然后可执行第五初级媒体搜索查询，以获取第五初级媒体项组。

在过程500-1的框568-1处，可经由用户界面(例如，用户界面602-1)来在显示单元上显示第五初级媒体项组。具体地，可利用对第五初级媒体项组的显示来替换对初级媒体项组(例如，初级媒体项组604-1)的显示。框540-1可类似于框522-1。此外，在一些示例中，可执行框550-1至框564-1，以与第五初级媒体项组一起获取并显示一个或多个次级媒体项组，从而向用户提供附加选项。

再次参考510-1，根据确定初级用户意图不包括校正初级媒体搜索查询的一部分的用户意图，可执行框518-1。在过程500-1的框518-1处，可确定初级用户意图是否包括改变被显示在显示单元上的用户界面(例如，用户界面602-1)的焦点的用户意图。用户界面可包括多个媒体项。在一些示例中，可基于媒体相关的请求中的与改变用户界面焦点的用户意图对应的显式字词或短语来进行框518-1处的确定。在一个示例中，媒体相关的请求可以是：“转到The Dark Knight。”在该示例中，可确定短语“转到……”是与改变用户界面焦点的用户意图对应的预先确定的短语。与改变用户界面焦点的用户意图对应的预先确定的字词或短语的其他示例可包括“选择”、“移动到”、“跳转到”、“播放”、“购买”等。基于预先确定的字词或短语，可确定初级用户意图包括改变用户界面焦点的用户意图。

在其他示例中，可基于与用户界面中显示的媒体项对应的文本来隐式地作出框518-1处的确定。例如，参考图17A，媒体项604-1和606-1可与描述媒体项604-1和606-1的一个或多个参数值的文本相关联。具体地，文本可描述媒体项604-1和606-1的参数值，诸如媒体标题、演员、发行日期等。如上所述，该文本的至少一部分可结合相应媒体项而被显示在用户界面602-1上。可基于描述媒体项604-1和606-1的一个或多个参数值的文本来进行框518-1处的确定。在本示例中，媒体项613-1可以是电影“The Dark Knight”，并且文本可包括与媒体项613-1相关联的媒体标题“The Dark Knight”。基于确定媒体相关的请求中定义的参数值“The Dark Knight”匹配与媒体项613-1相关联的文本的媒体标题“The DarkKnight”，可确定初级用户意图包括将用户界面602-1的焦点从媒体项611-1改变到媒体项613-1的用户意图。应当认识到，在一些示例中，所显示的文本可不包括经由用户界面602-1而显示的媒体项的所有参数值。在这些示例中，框518-1处的确定还可基于未在所显示文本中描述的所显示媒体项的参数值。

根据确定初级用户意图包括改变用户界面的焦点的用户意图，可执行框570-1。在过程500-1的框570-1处，用户界面的焦点可从第一媒体项改变到第二媒体项。例如，参考图17K，用户界面602-1的光标609-1的位置可从媒体项611-1改变到媒体项613-1。在一些示例中，改变用户界面602-1的焦点可包括选择媒体项。例如，可在框570-1处选择媒体项613-1。选择媒体项613-1可使得与媒体项613-1相关联的信息将被显示(例如，电影预览信息)。除此之外或作为另外一种选择，选择媒体项613-1可使得与媒体项613-1相关联的媒体内容将在媒体设备上播放并将被显示在显示单元上。

虽然上面将过程500-1的某些框描述为由设备或系统(例如，媒体设备104-1、用户设备122-1或数字助理系统400-1)执行，但是应当认识到，在一些示例中，可将多于一个设备用于执行框。例如，在作出确定的框中，第一设备(例如，媒体设备104-1)可从第二设备(例如，服务器系统108-1)获取确定。因此，在一些示例中，进行确定可指获取确定。类似地，在显示内容、对象、文本或用户界面的框中，第一设备(例如，媒体设备104-1)可使得内容、对象、文本或用户界面显示在第二设备上(例如，显示单元126-1)。因此，在一些示例中，进行显示可指使得显示。

此外，应当认识到，在一些示例中，在用户界面中显示的项目(例如，媒体项、文本、对象、图形等)还可指被包括在用户界面中但不是直接对用户可见的项目。例如，可通过滚动到用户界面的适当区域，使用户界面中的所显示的项目变得对用户可见。

5.电子设备

根据一些示例，图18示出了电子设备700-1的功能框图，该电子设备根据所描述的各种示例的原理进行配置，以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图18中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图18所示，电子设备700-1可包括：被配置为接收用户输入诸如触觉输入、手势输入和文本输入的输入单元703-1(例如，遥控器124-1等)；被配置为接收音频数据的音频接收单元704-1(例如，麦克风272-1等)；被配置为输出音频的扬声器单元706-1(例如，扬声器268-1等)；以及被配置为经由网络从外部设备发送和接收信息的通信单元707-1(例如，通信子系统224-1等)。在一些示例中，电子设备700-1可以可选地包括被配置为显示媒体、用户界面和其他内容的显示单元702-1(例如，显示单元126-1等)。在一些示例中，显示单元702-1可位于电子设备700-1的外部。电子设备700-1还可包括耦接至输入单元703-1、音频接收单元704-1、扬声器单元706-1、通信单元707-1、以及可选的显示单元702-1的处理单元708-1。在一些示例中，处理单元708-1可包括显示启用单元710-1、检测单元712-1、确定单元714-1、音频接收启用单元716-1、获取单元718-1、识别单元720-1、接收单元722-1、排除单元724-1和生成单元726-1。

根据一些实施方案，处理单元708-1被配置为(例如，利用显示启用单元710-1)在显示单元上(例如，利用显示单元702-1或独立显示单元)显示初级媒体项组。处理单元708-1被进一步配置为检测用户输入(例如，利用检测单元712-1)。处理单元708-1被进一步配置为响应于检测到用户输入而在音频接收单元704-1处接收音频输入(例如，利用音频接收启用单元716-1)。该音频输入包含自然语言语音形式的媒体相关的请求。处理单元708-1被进一步配置为确定与媒体相关的请求对应的初级用户意图(例如，利用确定单元714-1)。处理单元708-1被进一步配置为确定初级用户意图是否包括缩窄与初级媒体项组对应的初级媒体搜索查询的用户意图(例如，利用确定单元714-1)。处理单元708-1被进一步配置为根据确定初级用户意图包括缩窄初级媒体搜索查询的用户意图，基于媒体相关的请求和初级媒体搜索查询来生成与初级用户意图对应的第二初级媒体搜索查询(例如，利用获取单元718-1)，执行第二初级媒体搜索查询以获取第二初级媒体项组(例如，利用识别单元720-1)。处理单元708-1被进一步配置为利用对第二初级媒体项组的显示来替换对显示单元上的初级媒体项组的显示(例如，利用显示启用单元710-1)。

在一些示例中，确定初级用户意图是否包括缩窄初级媒体搜索查询的用户意图包括确定媒体相关的请求是否包括与缩窄初级媒体搜索查询的用户意图对应的字词或短语。

在一些示例中，第二初级媒体搜索查询包括在媒体相关的请求中定义的一个或多个参数值以及初级媒体搜索查询的一个或多个参数值。在一些示例中，基于初级媒体项组来获取第二初级媒体项组。

在一些示例中，第二初级媒体搜索查询包括参数值组。处理单元708-1被进一步配置为从该参数值组识别核心参数值组(例如，利用识别单元720-1)，该核心参数值组的参数值比参数值组的参数值少。处理单元708-1被进一步配置为基于该核心参数值组来生成一个或多个附加媒体搜索查询(例如，利用获取单元718-1)。处理单元708-1被进一步配置为执行一个或多个附加媒体搜索查询以获取一个或多个附加媒体项组(例如，利用获取单元718-1)。处理单元708-1被进一步配置为在显示单元上显示一个或多个附加媒体项组(例如，利用显示启用单元710-1)。

在一些示例中，处理单元708-1被进一步配置为基于多个用户的媒体选择历史来来识别一个或多个附加参数值(例如，利用识别单元720-1)。使用一个或多个附加参数值来生成一个或多个附加媒体搜索查询。

在一些示例中，第二初级媒体项组被显示在显示单元上用户界面的顶行处，并且一个或多个附加媒体项组被显示在显示单元上的用户界面的一个或多个后续行处。

在一些示例中，处理单元708-1被进一步配置为根据确定初级用户意图不包括缩窄初级媒体搜索查询的用户意图，确定初级用户意图是否包括执行新的媒体搜索查询的用户意图(例如，利用确定单元714-1)。处理单元708-1被进一步配置为根据确定初级用户意图包括执行新的媒体搜索查询的用户意图，基于媒体相关的请求来生成与初级用户意图对应的第三初级媒体搜索查询(例如，利用获取单元718-1)，确定是否可获取与第三初级媒体搜索查询对应的至少一个媒体项(例如，利用确定单元714-1)。处理单元708-1被进一步配置为根据确定可获取与第三初级媒体搜索查询对应的至少一个媒体项，执行第三初级媒体搜索查询以获取第三初级媒体项组(例如，利用获取单元718-1)，并利用对第三初级媒体项组的显示来替换对显示单元上的初级媒体项组的显示(例如，利用显示启用单元710-1)。

在一些示例中，确定初级用户意图是否包括执行新的媒体搜索查询的用户意图还包括确定媒体相关的请求是否包括与执行新的媒体搜索查询的用户意图对应的字词或短语。在一些示例中，确定初级用户意图是否包括执行新的媒体搜索查询的用户意图还包括确定媒体相关的请求是否包括与一个或多个媒体项的参数值对应的字词或短语。

在一些示例中，处理单元708-1被进一步配置为执行第三初级媒体搜索查询(例如，利用获取单元718-1)，其包括对多个候选媒体项执行归一化排名，其中该多个候选媒体项包括多个媒体类型。

在一些示例中，确定初级用户意图包括确定与媒体相关的请求相关联的媒体类型，其中根据所确定的媒体类型来执行第三初级媒体搜索查询。

在一些示例中，执行第三初级媒体搜索查询包括识别与参数值相关联的候选媒体项，该参数值被包括在所识别的候选媒体项的一个或多个媒体评论家评论中。

在一些示例中，执行第三初级媒体搜索查询包括识别与参数值相关联的候选媒体项，该参数值源于所识别的候选媒体项的隐藏式字幕信息。

在一些示例中，处理单元708-1被进一步配置为根据确定没有与第三初级媒体搜索查询对应的媒体项而识别第三初级媒体搜索查询的最不相关的参数值(例如，利用识别单元720-1)。处理单元708-1被进一步配置为基于所识别的最不相关的参数值来确定一个或多个另选参数值(例如，利用确定单元714-1)。处理单元708-1被进一步配置为使用一个或多个另选参数值来执行一个或多个另选初级媒体搜索查询以获取第四初级媒体项组(例如，利用获取单元718-1)。处理单元708-1被进一步配置为利用对第四初级媒体项组的显示来替换对显示单元上的初级媒体项组的显示(例如，利用显示启用单元710-1)。

在一些示例中，处理单元708-1被进一步配置为根据确定初级用户意图不包括缩窄初级媒体搜索查询的用户意图，基于初级用户意图和一个或多个先前用户意图来确定一个或多个次级用户意图(例如，利用确定单元714-1)，该一个或多个先前用户意图对应于在媒体相关的请求之前接收的一个或多个先前媒体相关的请求。处理单元708-1被进一步配置为生成与一个或多个次级用户意图对应的一个或多个次级媒体搜索查询(例如，利用获取单元718-1)。处理单元708-1被进一步配置为执行一个或多个次级媒体搜索查询以获取一个或多个次级媒体项组(例如，利用获取单元718-1)。处理单元708-1被进一步配置为在显示单元上显示一个或多个次级媒体项组(例如，利用显示启用单元710-1)。

在一些示例中，一个或多个先前媒体相关的请求包括与初级媒体项组对应的先前媒体相关的请求。

在一些示例中，处理单元708-1被进一步配置为确定初级用户意图和一个或多个先前用户意图的一个或多个组合(例如，利用确定单元714-1)，其中该一个或多个组合中的每个组合与至少一个媒体项相关联，并且其中该一个或多个次级意图包括该一个或多个组合。

在一些示例中，一个或多个先前用户意图和初级用户意图与和数字助理的同一交互式会话相关联。在一些示例中，基于用户在一个或多个电子设备上的媒体搜索历史来生成一个或多个次级用户意图。在一些示例中，基于用户在一个或多个电子设备上的媒体选择历史(媒体选择历史)来生成一个或多个次级用户意图。

在一些示例中，处理单元708-1被进一步配置为(例如，经由通信单元)从第二电子设备接收媒体搜索历史(例如，利用接收单元722-1)。基于从第二电子设备接收的媒体搜索历史来生成一个或多个次级用户意图。

在一些示例中，基于用户在一个或多个电子设备上的媒体观看列表来生成一个或多个次级用户意图。在一些示例中，在接收到音频输入时在显示单元上显示多个文本，该多个文本在接收音频输入时与被显示在显示单元上的多个媒体项相关联，并且基于所显示的多个文本来生成一个或多个次级用户意图。

在一些示例中，处理单元708-1被进一步配置为确定一个或多个次级用户意图中的每个次级用户意图的排名得分(例如，利用确定单元714-1)，其中根据一个或多个次级用户意图中的每个次级用户意图的排名得分来显示一个或多个次级媒体项组。

在一些示例中，一个或多个次级用户意图中的每个次级用户意图的排名得分基于媒体相关的请求中的每个媒体相关的请求以及一个或多个先前媒体相关的请求被接收的时间。在一些示例中，一个或多个次级用户意图中的每个次级用户意图的排名得分基于用户在一个或多个电子设备上的媒体搜索历史。在一些示例中，一个或多个次级用户意图中的每个次级用户意图的排名得分基于用户在一个或多个电子设备上的媒体选择历史。在一些示例中，一个或多个次级用户意图中的每个次级用户意图的排名得分基于用户在一个或多个电子设备上的媒体观看列表。

在一些示例中，处理单元708-1被进一步配置为根据确定初级用户意图不包括执行新的媒体搜索查询的用户意图，确定初级用户意图是否包括校正初级媒体搜索查询的一部分的用户意图(例如，利用确定单元714-1)。处理单元708-1被进一步配置为根据确定初级用户意图包括校正初级媒体搜索查询的一部分的用户意图，基于媒体相关的请求和初级媒体搜索查询请求来生成与初级用户意图对应的第五初级媒体搜索查询(例如，利用获取单元718-1)。处理单元708-1被进一步配置为执行第五初级媒体搜索查询以获取第五初级媒体项组(例如，利用获取单元718-1)。处理单元708-1被进一步配置为利用对第五初级媒体项组的显示来替换对显示单元上的初级媒体项组的显示(例如，利用显示启用单元710-1)。

在一些示例中，确定初级用户意图是否包括校正初级媒体搜索查询的一部分的用户意图包括确定媒体相关的请求是否包括与校正初级媒体搜索查询的一部分的用户意图对应的字词或短语。在一些示例中，确定初级用户意图是否包括校正初级媒体搜索查询的一部分的用户意图包括确定表示媒体相关的请求的一部分的音素序列是否基本上类似于表示先前媒体相关的请求的一部分的音素序列，该先前媒体相关的请求对应于初级媒体搜索查询。

在一些示例中，生成第五初级媒体搜索查询包括识别与初级媒体搜索查询中的将不被校正的一部分相关联的媒体项组，其中基于与初级媒体搜索查询的将不被校正的一部分相关联的该媒体项组的一个或多个参数值来生成第五初级媒体搜索查询。

在一些示例中，处理单元708-1被进一步配置为根据确定初级用户意图包括校正初级媒体搜索查询的一部分的用户意图而在确定与媒体相关的请求对应的次级用户意图时从考虑中排除初级媒体搜索查询(例如，利用排除单元724-1)。

在一些示例中，处理单元708-1被进一步配置为根据确定初级用户意图不包括校正初级媒体搜索查询的一部分的用户意图而(例如，利用确定单元714-1)确定初级用户意图是否包括改变被显示在显示单元上的用户界面的焦点的用户意图，其中该用户界面包括多个媒体项。处理单元708-1被进一步配置为根据确定初级用户意图包括改变被显示在显示单元上的用户界面的焦点的用户意图而将用户界面的焦点从多个媒体项中的第一媒体项改变到多个媒体项中的第二媒体项(例如，利用显示启用单元710-1)。

在一些示例中，确定初级用户意图是否包括改变被显示在显示单元上的用户界面的焦点的用户意图包括确定媒体相关的请求是否包括与改变被显示在显示单元上的用户界面的焦点的用户意图对应的字词或短语。

在一些示例中，用户界面包括与用户界面中的多个媒体项对应的多个文本，并且其中确定初级用户意图是否包括改变被显示在显示单元上的用户界面的焦点的用户意图是基于该多个文本。

在一些示例中，处理单元708-1被进一步配置为确定媒体相关的请求的文本表示(例如，利用确定单元714-1)，并在显示单元上显示文本表示(例如，利用显示启用单元710-1)。在一些示例中，文本表示是使用一个或多个语言模型来确定的。在一些示例中，一个或多个语言模型偏向于媒体相关的文本结果。在一些示例中，一个或多个语言模型被配置为识别多种语言的媒体相关的文本。

在一些示例中，多个媒体项和与多个媒体项相关联的文本被显示在显示单元上。处理单元708-1被进一步配置为使用与多个媒体项相关联的文本来生成第二语言模型(例如，利用生成单元726-1)，其中文本表示是使用第二语言模型来确定的。

在一些示例中，处理单元708-1被进一步配置为使用文本表示来确定预测文本(例如，利用确定单元714-1)，并在显示单元上显示具有文本表示的预测文本(例如，利用显示启用单元710-1)。

在一些示例中，在接收到音频输入时，基于被显示在显示单元上的文本来确定预测文本。

在一些示例中，处理单元708-1被进一步配置为确定在显示预测文本之后是否检测到音频输入的终点(例如，利用确定单元714-1)，其中根据确定在显示预测文本之后检测到音频输入的终点，文本表示和预测文本被用于确定初级用户意图。

在一些示例中，处理单元708-1被进一步配置为在接收音频输入时基于所接收的音频输入部分来确定初步用户意图(例如，利用确定单元714-1)，识别满足初步用户意图所需的数据(例如，利用识别单元720-1)，在确定初步用户意图时确定数据是否被存储在一个或多个电子设备上(例如，利用确定单元714-1)，并且根据确定在确定初步用户意图时数据未被存储在一个或多个电子设备上，获取数据(例如，利用获取单元718-1)。

根据一些实施方案，处理单元708-1被配置为(例如，在输入单元703-1或音频接收单元704-1处，并且使用接收单元722-1或音频接收启用单元716-1)从用户接收自然语言语音形式的媒体搜索请求。处理单元708-1被进一步配置为确定与媒体搜索请求对应的初级用户意图(例如，利用确定单元714-1)，根据该初级用户意图来获取初级媒体项组。处理单元708-1被进一步配置为确定一个或多个先前用户意图是否存在(例如，利用确定单元714-1)，其中一个或多个先前用户意图对应于在媒体搜索请求之前接收的一个或多个先前媒体搜索请求。处理单元708-1被进一步配置为响应于确定存在一个或多个先前用户意图，基于初级用户意图和一个或多个先前用户意图(例如，利用确定单元714-1)确定一个或多个次级用户意图。处理单元708-1被进一步配置为获取多个次级媒体项组(例如，利用获取单元718-1)，其中每个次级媒体项组对应于一个或多个次级用户意图的相应次级用户意图。处理单元708-1被进一步配置为显示初级媒体项组和多个次级媒体项组(例如，利用显示启用单元710-1)。

在一些示例中，确定初级用户意图还包括确定媒体搜索请求是否包含缩窄在媒体搜索请求之前接收的先前媒体搜索请求的显式请求，其中根据确定媒体搜索请求包含缩窄先前媒体搜索请求的显式请求。从媒体搜索请求以及一个或多个先前用户意图中的至少一个先前用户意图来确定初级用户意图。

在一些示例中，响应于确定媒体搜索请求不包含缩窄先前媒体搜索请求的显式请求，从媒体搜索请求确定初级用户意图。

在一些示例中，媒体搜索请求是与数字助理的交互式会话的一部分。确定一个或多个先前用户意图是否存在还包括确定交互式会话是否包括在媒体搜索请求之前接收的一个或多个先前媒体搜索请求，其中该一个或多个先前媒体搜索请求对应于一个或多个先前用户意图。根据确定交互式会话包含在媒体搜索请求之前接收的一个或多个先前媒体搜索请求，确定一个或多个先前用户意图。根据确定交互式会话不包含在媒体搜索请求之前接收的一个或多个先前媒体搜索请求，确定不存在一个或多个先前用户意图。

在一些示例中，处理单元708-1被进一步配置为响应于确定不存在一个或多个先前媒体用户意图，显示初级媒体项组(例如，利用显示启用单元710-1)。

在一些示例中，一个或多个次级用户意图中的次级用户意图包括初级用户意图和一个或多个先前用户意图中的先前用户意图的组合。

在一些示例中，一个或多个次级用户意图中的次级用户意图包括一个或多个先前用户意图中的第一先前用户意图和一个或多个先前用户意图中的第二先前用户意图的组合。

在一些示例中，确定一个或多个次级用户意图还包括生成初级用户意图和一个或多个先前用户意图的多个组合。

在一些示例中，确定一个或多个次级用户意图还包括确定多个组合是否包括不能被合并的组合。根据确定多个组合包括不能被合并的用户意图组合，一个或多个次级用户意图不包括不能被合并的组合。

在一些示例中，不能被合并的组合包括需要单一值的参数的多于一个值。

在一些示例中，确定一个或多个次级用户意图还包括确定一个或多个先前用户意图是否包括不正确的用户意图。根据确定一个或多个先前用户意图包括不正确的用户意图。一个或多个次级用户意图不基于不正确的用户意图。

在一些示例中，确定一个或多个先前用户意图是否包括不正确的用户意图包括确定一个或多个先前用户意图是否包括校正一个或多个先前用户意图中第四用户意图的第三用户意图。根据确定一个或多个先前用户意图包括校正一个或多个先前用户意图中第四用户意图的第三用户意图，确定一个或多个先前用户意图包括不正确的用户意图。第四用户意图被确定为不正确的用户意图。

在一些示例中，确定一个或多个先前用户意图是否包括不正确的用户意图包括确定一个或多个先前用户意图是否包括第五用户意图，该第五用户意图与对媒体项的用户选择相关联，该媒体项与第五用户意图不一致。根据确定一个或多个先前用户意图包括校正不正确的用户意图的第三用户意图，确定一个或多个先前用户意图包括不正确的用户意图，其中第五用户意图被确定为不正确的用户意图。

在一些示例中，处理单元708-1被进一步配置为确定多个组合是否包括与小于预先确定数量的媒体项相关联的组合(例如，利用确定单元714-1)。根据确定多个组合包括与小于预先确定数量的媒体项相关联的组合，一个或多个次级用户意图不包括与小于预先确定数量的媒体项相关联的组合。

在一些示例中，处理单元708-1被进一步配置为确定一个或多个次级用户意图中的每个次级用户意图的排名得分(例如，利用确定单元714-1)，其中根据所述一个或多个次级用户意图中的每个次级用户意图的排名得分来显示多个次级媒体项组。

在一些示例中，基于媒体搜索请求和一个或多个先前媒体搜索请求的接收顺序来确定一个或多个次级用户意图中的每个次级用户意图的排名得分。在一些示例中，基于用户的选择历史确定一个或多个次级用户意图中的每个次级用户意图的排名得分，该选择历史包括由用户先前选择的媒体项。在一些示例中，基于用户的媒体搜索历史来确定一个或多个次级用户意图中的每个次级用户意图的排名得分。

在一些示例中，初级媒体项组被显示在用户界面的顶行处，多个次级媒体项组被显示在用户界面的后续行中，该后续行在顶行下方，并且后续行中的每个行对应于一个或多个次级用户意图的相应次级用户意图。

在一些示例中，根据一个或多个次级用户意图中的每个次级用户意图的排名得分来对后续行进行排序。

根据一些实施方案，处理单元708-1被配置为(例如，在输入单元703-1或音频接收单元704-1处，并且利用接收单元722-1或音频接收启用单元716-1)接收第一媒体搜索请求。处理单元708-1被进一步配置为获取满足媒体搜索请求的第一媒体项组(例如，利用获取单元718-1)。处理单元708-1被进一步配置为经由用户界面来在显示单元上显示第一媒体项组(例如，利用显示启用单元)。在显示第一媒体项组的至少一部分时，处理单元708-1被进一步配置为(例如，在输入单元703-1或音频接收单元704-1处，并且利用接收单元722-1或音频接收启用单元716-1)接收第二媒体搜索请求，并获取对第二媒体搜索请求是否是缩窄第一媒体搜索请求的请求的确定(例如，利用获取单元718-1)。处理单元708-1被进一步配置为响应于获取对第二媒体搜索请求是缩窄第一媒体搜索请求的请求的确定，获取满足第二媒体搜索请求的第二媒体项组(例如，利用获取单元718-1)，该第二媒体项组是多个媒体项的子组，并且经由用户界面利用对第二媒体项组的至少一部分的显示来替换对显示单元上的第一媒体项组的至少一部分的显示(例如，利用显示启用单元710-1)。

在一些示例中，第二媒体项组中的每个媒体项与第一媒体搜索请求的一个或多个参数值和第二媒体搜索请求的一个或多个参数值相关联。

在一些示例中，处理单元708-1被进一步配置为在显示第一媒体项组时以及在显示第二媒体项组的至少一部分时在显示单元上显示媒体内容(例如，利用显示器启用单元710-1)。

在一些示例中，用户界面至少占据显示单元的大部分显示区域。处理单元708-1被进一步配置为获取至少部分地满足第二媒体搜索请求的第三媒体项组(例如，利用获取单元718-1)，其中第二媒体项组和第三媒体项组是不同的。处理单元708-1被进一步配置为经由用户界面来在显示单元上显示第三媒体项组的至少一部分(例如，利用显示启用单元710-1)。

在一些示例中，第三媒体项组中的每个媒体项与第一媒体搜索请求或第二媒体搜索请求中所定义的至少一个参数值相关联。在一些示例中，第二媒体项组的至少一部分被显示在用户界面的顶行处，并且其中第三媒体项组的至少一部分被显示在用户界面上的一个或多个后续行处。

在一些示例中，当接收到第二媒体搜索请求时，用户界面的焦点位于第一媒体项组的媒体项上，并且第三媒体项组与第一媒体项组的该媒体项上下文相关。

在一些示例中，获取对第二媒体搜索请求是否是缩窄媒体搜索请求的请求的确定包括获取对第二媒体搜索请求是否包含多个细化术语中的一个细化术语的确定。

在一些示例中，第二媒体搜索请求是自然语言形式。在一些示例中，第二媒体搜索请求使用模糊术语定义参数值。

在一些示例中，处理单元708-1被进一步配置为使用自然语言处理来识别基于模糊术语和参数值之间的联系强度的参数值(例如，利用识别单元720-1)。

在一些示例中，第一媒体项组中的每个媒体项与质量评级相关联，并且第二媒体搜索请求定义与质量评级相关联的参数值。在一些示例中，第一媒体项组中的每个媒体项与持续时间相关联，并且其中第二媒体搜索请求定义与持续时间相关联的参数值。

在一些示例中，第一媒体项组中的每个媒体项与流行度评级相关联，并且第二媒体搜索请求定义与流行度评级相关联的参数值。

在一些示例中，第一媒体项组中的每个媒体项与发行日期相关联，并且第二媒体搜索请求定义与发行日期相关联的参数值。

在一些示例中，处理单元708-1被进一步配置为响应于获取对第二媒体搜索请求不是缩窄第一媒体搜索请求的请求的确定，获取满足第二媒体搜索请求的第四媒体项组(例如，利用获取单元718-1)，该第四媒体项组不同于第一媒体项组，并且经由用户界面利用对第四媒体项组的至少一部分的显示来替换对显示单元上的第一媒体项组的至少一部分的显示(例如，利用显示启用单元710-1)。

在一些示例中，第四媒体项组中的每个媒体项与在第二媒体搜索请求中定义的一个或多个参数相关联。

在一些示例中，处理单元708-1被进一步配置为在显示第一媒体项组时以及在显示第四媒体项组的至少一部分时，在显示单元上显示媒体内容(例如，利用显示器启用单元710-1)。

在一些示例中，用户界面至少占据显示单元的大部分显示区域。处理单元708-1被进一步配置为获取第五媒体项组(例如，利用获取单元718-1)，其中第五媒体项组中的每个媒体项与在第一媒体搜索请求中定义的一个或多个参数以及在第二媒体搜索请求中定义的一个或多个参数相关联。处理单元708-1被进一步配置为经由用户界面来在显示单元上显示第五媒体项组(例如，利用显示启用单元710-1)。

在一些示例中，当接收到第二媒体搜索请求时，用户界面的焦点位于第一媒体项组的第二媒体项上，并且第五多个媒体项中的一个或多个媒体项包括与第一媒体项组的第二媒体项相关联的参数值。

在一些示例中，当检测到第二媒体搜索请求时，用户界面的焦点位于第一媒体项组的第三媒体项上。处理单元708-1被进一步配置为响应于获取对第二媒体搜索请求不是缩窄第一媒体搜索请求的请求的确定，获取对第二媒体搜索请求是否是获取类似于第一媒体项组中的第三媒体项的一组另选媒体项的请求的确定(例如，利用获取单元718-1)。处理单元708-1被进一步配置为响应于获取对第二媒体搜索请求是获取类似于第一媒体项组中的第三媒体项的一组另选媒体项的请求的确定，获取第六媒体项组(例如，利用获取单元718-1)，其中第六媒体项组中的每个媒体项与第三媒体项的一个或多个参数值相关联，并且经由用户界面来在显示单元上显示第六媒体项组(例如，利用显示启用单元710-1)。

在一些示例中，通过基于第一媒体搜索请求执行字符串搜索来获取第一媒体项组，并且通过基于在第二媒体搜索请求中所定义的一个或多个参数值来执行结构化搜索以获取第二媒体项组。

在一些示例中，经由键盘界面来接收第一媒体搜索请求，并且以自然语言语音形式来接收第二媒体搜索请求。在一些示例中，使用第一媒体项组来执行结构化搜索。

以上参考图16A至图16E所述的操作可选地由图12至图14和图15A至图15B所示的部件实现。例如，显示操作502-1,522-1,534-1,540-1,548-1,564-1,568-1、检测操作504-1、确定操作508-1,510-1,538-1,544-1,550-1,552-1,560-1、获取操作520-1,524-1,536-1,546-1,562-1,566-1、识别操作526-1,528-1,542-1,554-1、排除操作558-1以及生成操作530-1,556-1可由操作系统252-1、GUI模块256-1、应用程序模块262-1、I/O处理模块428-1、STT处理模块430-1、自然语言处理模块432-1、任务流处理模块436-1、服务处理模块438-1或者一个或多个处理器204-1,404-1中的一者或多者来实现。本领域的技术人员会清楚地知道可如何基于图12至图14和图15A至图15B中所示的部件来实现其他过程。

根据一些具体实施，提供了一种计算机可读存储介质(例如，非暂态计算机可读存储介质)，该计算机可读存储介质存储供电子设备的一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行本文所描述的任何方法的指令。

根据一些具体实施，提供了一种包括用于执行本文所述的任何方法的装置的电子设备(例如，便携式电子设备)。

根据一些具体实施，提供了一种包括被配置为执行本文所述的任何方法的处理单元的电子设备(例如，便携式电子设备)。

根据一些具体实施，提供了一种包括一个或多个处理器和存储有供一个或多个处理器执行的一个或多个程序的存储器的电子设备(例如，便携式电子设备)，该一个或多个程序包括用于执行本文所述的任何方法的指令。

虽然以上描述使用“第一”、“第二”等术语来描述了各种元件，但是这些元件不应受到这些术语的限制。这些术语仅用于将一个元件与另一个元件区分开。例如，在不脱离各种所描述的实施方案的范围的情况下，第一用户输入可被命名为第二用户输入，并且类似地，第二用户输入可被命名为第一用户输入。

在本文中对各种所描述的实施方案的描述中所使用的术语只是为了描述特定实施方案的目的，而并非旨在进行限制。如在对各种所述实施方案中的描述和所附权利要求书中所使用的那样，单数形式“一个”(“a”，“an”)和“该”旨在也包括复数形式，除非上下文另外明确地指示。还将理解的是，本文中所使用的术语“和/或”是指并且涵盖相关联地列出的项目中的一个或多个项目的任何和全部可能的组合。还将理解的是，术语“包括”(“includes”、“including”、“comprises"和/或“comprising”)在本说明书中使用时是指定存在所陈述的特征、整数、步骤、操作、元件和/或部件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、部件和/或其分组。

此外，出于解释的目的，前面的描述是参考具体的实施方案来描述的。然而，上面的示例性论述并非旨在是穷尽的或将本发明限制为所公开的精确形式。根据以上教导内容，很多修改形式和变型形式都是可能的。选择并描述这些实施方案是为了最好地解释这些技术的原理及其实际应用。本领域的其他技术人员由此能够最好地利用这些技术以及具有适合于所预期的特定用途的各种修改的各种实施方案。

虽然参照附图对本公开以及示例进行了全面的描述，但应当注意，各种变化和修改对于本领域内的技术人员而言将变得显而易见。此类变化和修改应被理解为被包括在由权利要求书所限定的本公开和示例的范围内。

此外，在本文所讨论的各种示例中的任何一个示例中，可为特定用户而个性化定制各个方面。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令，并促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、年龄段数据等，以各种其他方式修改本文所讨论的各种过程。此外，基于用户交互(例如，频繁说出的命令、频繁选择的应用程序等)，此类偏好和设置可随时间更新。对可得自各种来源的用户数据的收集和使用可用于改善将邀请内容或用户可能感兴趣的任何其他内容传送到用户。本公开预期在一些示例中，这些经采样的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址、或任何其他识别信息。

本发明公开了一种用于使用虚拟助理来控制电视用户交互的系统和过程。虚拟助理可与电视机顶盒进行交互，以控制在电视上示出的内容。可从具有麦克风的设备接收用于虚拟助理的语音输入。可从语音输入确定用户意图，并且该虚拟助理可根据用户的意图来执行任务，包括使得在所述电视上回放媒体。虚拟助理交互可在电视上在界面中示出，该界面展开或收缩以在传达所需信息时占据最小量的空间。与多个显示器相关联的多个设备可用于从语音输入确定用户意图以及向用户传达信息。在一些示例中，可基于在显示器上所示出的媒体内容来向用户提供虚拟助理查询建议。

1.一种用于使用虚拟助理来控制电视交互的方法，所述方法包括：

在电子设备处：

从用户接收语音输入；

基于所述语音输入来确定媒体内容；

显示具有第一尺寸的第一用户界面，其中所述第一用户界面包括至所述媒体内容的一个或多个可选链接；

接收对所述一个或多个可选链接中的一个可选链接的选择；以及

响应于所述选择，显示具有大于所述第一尺寸的第二尺寸的第二用户界面，其中所述第二用户界面包括与所述选择相关联的所述媒体内容。

2.根据项目1所述的方法，其中所述第一用户界面响应于所述选择而扩展成所述第二用户界面。

3.根据项目1所述的方法，其中所述第一用户界面覆盖在正在播放的媒体内容上。

4.根据项目1所述的方法，其中所述第二用户界面覆盖在正在播放的媒体内容上。

5.根据项目1所述的方法，其中所述语音输入包括查询，并且所述媒体内容包括所述查询的结果。

6.根据项目5所述的方法，其中所述第一用户界面包括至所述查询的结果的链接，所述链接在至所述媒体内容的所述一个或多个可选链接之外。

7.根据项目1所述的方法，还包括：

响应于所述选择，播放与所述选择相关联的所述媒体内容。

8.根据项目1所述的方法，其中所述媒体内容包括体育赛事。

9.根据项目1所述的方法，其中所述第二用户界面包括对与所述选择相关联的所述媒体内容的描述。

10.根据项目1所述的方法，其中所述第一用户界面包括购买媒体内容的链接。

11.根据项目1所述的方法，还包括：

从所述用户接收附加语音输入，其中所述附加语音输入包括与所显示的内容相关联的查询；

基于与所显示的内容相关联的元数据来确定对与所显示的内容相关联的所述查询的响应；以及

响应于接收到所述附加语音输入，显示第三用户界面，其中所述第三用户界面包括对与所显示的内容相关联的所述查询的所确定的响应。

12.根据项目1所述的方法，还包括：

接收用于发起对语音输入的接收的指示；以及

响应于接收到所述指示，显示准备就绪确认。

13.根据项目1所述的方法，还包括：

响应于接收到所述语音输入，显示正在监听确认。

14.根据项目1所述的方法，还包括：

显示所述语音输入的转录。

15.根据项目1所述的方法，其中所述电子设备包括电视。

16.根据项目1所述的方法，其中所述电子设备包括电视机顶盒。

17.根据项目1所述的方法，其中所述电子设备包括遥控器。

18.根据项目1所述的方法，其中所述电子设备包括移动电话。

19.根据项目1所述的方法，其中所述第一用户界面中的所述一个或多个可选链接包括与所述媒体内容相关联的移动图像。

20.根据项目19所述的方法，其中与所述媒体内容相关联的所述移动图像包括所述媒体内容的实况馈送。

21.根据项目1所述的方法，还包括：

确定当前所显示的内容是否包括移动图像或控制菜单；

响应于确定当前所显示的内容包括移动图像，选择小尺寸作为所述第一用户界面的所述第一尺寸；以及

响应于确定当前所显示的内容包括控制菜单，选择大于所述小尺寸的大尺寸作为所述第一用户界面的所述第一尺寸。

22.根据项目1所述的方法，还包括：

基于用户偏好、节目流行度、和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容；以及

显示包括所确定的另选媒体内容的通知。

23.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括用于以下操作的计算机可执行指令：

从用户接收语音输入；

基于所述语音输入来确定媒体内容；

显示具有第一尺寸的第一用户界面，其中所述第一用户界面包括至所述媒体内容的一个或多个可选链接；

接收对所述一个或多个可选链接中的一个可选链接的选择；以及

响应于所述选择，显示具有大于所述第一尺寸的第二尺寸的第二用户界面，其中所述第二用户界面包括与所述选择相关联的所述媒体内容。

24.根据项目23所述的非暂态计算机可读存储介质，其中所述第一用户界面响应于所述选择而扩展成所述第二用户界面。

25.根据项目23所述的非暂态计算机可读存储介质，其中所述第一用户界面覆盖在正在播放的媒体内容上。

26.根据项目23所述的非暂态计算机可读存储介质，其中所述第二用户界面覆盖在正在播放的媒体内容上。

27.根据项目23所述的非暂态计算机可读存储介质，其中所述语音输入包括查询，并且所述媒体内容包括所述查询的结果。

28.根据项目27所述的非暂态计算机可读存储介质，其中所述第一用户界面包括至所述查询的结果的链接，所述链接在至所述媒体内容的所述一个或多个可选链接之外。

29.一种用于使用虚拟助理来控制电视交互的系统，所述系统包括：

一个或多个处理器；

存储器；和

一个或多个程序，其中所述一个或多个程序被存储在所述存储器中并被配置为由所述一个或多个处理器执行，所述一个或多个程序包括用于以下操作的指令：

从用户接收语音输入；

基于所述语音输入来确定媒体内容；

显示具有第一尺寸的第一用户界面，其中所述第一用户界面包括至所述媒体内容的一个或多个可选链接；

接收对所述一个或多个可选链接中的一个可选链接的选择；以及

响应于所述选择，显示具有大于所述第一尺寸的第二尺寸的第二用户界面，其中所述第二用户界面包括与所述选择相关联的所述媒体内容。

30.根据项目29所述的系统，其中所述第一用户界面响应于所述选择而扩展成所述第二用户界面。

31.根据项目29所述的系统，其中所述第一用户界面覆盖在正在播放的媒体内容上。

32.根据项目29所述的系统，其中所述第二用户界面覆盖在正在播放的媒体内容上。

33.根据项目29所述的系统，其中所述语音输入包括查询，并且所述媒体内容包括所述查询的结果。

34.根据项目33所述的系统，其中所述第一用户界面包括至所述查询的结果的链接，所述链接在至所述媒体内容的所述一个或多个可选链接之外。

用于电视用户交互的智能自动化助理。

本专利申请要求于2014年6月30日提交的名称为“INTELLIGENT AUTOMATEDASSISTANT FOR TV USER INTERACTIONS”的美国临时序列号62/019,312的优先权，该专利申请据此全文以引用方式并入本文以用于所有目的。

本专利申请还与以下共同未决的临时专利申请相关：于2014年6月30日提交的美国专利申请序列号62/019,292，“Real-time Digital Assistant Knowledge Updates”(代理人案卷号106843097900(P22498USP1))，该专利申请据此全文以引用方式并入本文。

本发明整体涉及控制电视用户交互，并且更具体地涉及处理用于虚拟助理的语音以控制电视用户交互。

智能自动化助理(或虚拟助理)提供用户与电子设备之间的直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如，用户可通过将自然语言形式的口头用户输入提供至与电子设备相关联的虚拟助理来访问电子设备的服务。该虚拟助理可对口头用户输入执行自然语言处理，以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务，并且在一些示例中，可将相关的输出以自然语言形式返回给用户。

尽管移动电话(例如，智能电话)、平板电脑等已从虚拟助理控制中获取益处，然而许多其他用户设备仍缺乏这种便利的控制机制。例如，用户与媒体控制设备(例如，电视、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)的交互可能是复杂且难懂的。此外，随着可由这些设备(例如，无线电视、电视订阅服务、流视频服务、有线视频点播服务、基于网络的视频服务等)提供的媒体源的不断增加，对一些用户来说，找到想要的媒体内容来消费可能会很繁琐，甚至面对海量内容无从下手。因此，许多媒体控制设备能够提供的用户体验较差，可能会令许多用户感到失望。

本发明公开了一种用于使用虚拟助理来控制电视交互的系统和过程。在一个示例中，可从用户接收语音输入。可基于语音输入来确定媒体内容。可显示具有第一尺寸的第一用户界面，并且第一用户界面可包括至媒体内容的可选链接。可接收对可选链接中的一个可选链接的选择。响应于该选择，可显示第二用户界面，该第二用户界面具有大于第一尺寸的第二尺寸，并且该第二用户界面可包括与该选择相关联的媒体内容。

在另一示例中，可在具有第一显示器的第一设备处从用户接收语音输入。可基于在第一显示器上显示的内容来确定语音输入的用户意图。可基于用户意图来确定媒体内容。该媒体内容可在与第二显示器相关联的第二设备上播放。

在另一示例中，可从用户接收语音输入，并且语音输入可包括与电视显示器上所示的内容相关联的查询。可基于电视显示器上所示的内容和/或媒体内容的观看历史来确定查询的用户意图。可基于所确定的用户意图来显示查询的结果。

在另一示例中，可在显示器上显示媒体内容。可从用户接收输入。可基于媒体内容和/或媒体内容的观看历史来确定虚拟助理查询。虚拟助理查询可被显示在显示器上。

本发明涉及一种使用虚拟助理来控制电视用户交互的系统和过程。在一个示例中，虚拟助理可用于与媒体控制设备(诸如，控制电视显示器上所示的内容的电视机顶盒)进行交互。可使用移动用户设备或带有麦克风的遥控器接收用于虚拟助理的语音输入。可从该语音输入确定用户意图，并且虚拟助理可根据用户意图来执行任务，包括使得媒体在连接的电视上回放以及控制电视机顶盒或类似设备的任何其他功能(例如，管理视频记录、搜索媒体内容、对菜单进行导航等)。

虚拟助理交互可在连接的电视或其他显示器上示出。在一个示例中，可基于从用户处接收的语音输入来确定媒体内容。可显示具有第一小尺寸的第一用户界面，该第一用户界面该包括至所确定的媒体内容的可选链接。在接收到对媒体链接的选择之后，可显示具有第二较大尺寸的第二用户界面，该第二用户界面包括与选择相关联的媒体内容。在其他示例中，用于传达虚拟助理交互的界面可展开或收缩，以在传达所需信息时占据最小量的空间。

在一些示例中，与多个显示器相关联的多个设备可用于从语音输入确定用户意图，并且以不同的方式来向用户传达信息。例如，可在具有第一显示器的第一设备处从用户接收语音输入。可基于第一显示器上所显示的内容来从语音输入确定用户意图。可基于用户意图来确定媒体内容，并且可在与第二显示器相关联的第二设备上播放媒体内容。

电视显示内容还可用作用于从语音输入确定用户意图的上下文输入。例如，可从用户接收语音输入，该语音输入包括与电视显示器上所示的内容相关联的查询。可基于在电视显示器上所示的内容以及电视显示器上的媒体内容观看历史来确定查询的用户意图(例如，基于正在播放的电视节目中的人物来对查询消歧)。然后，可基于所确定的用户意图来显示查询的结果。

在一些示例中，可向用户提供虚拟助理查询建议(例如，以使用户熟悉可用命令、建议有趣的内容等)。例如，媒体内容可被显示在显示器上，并且可从请求虚拟助理查询建议的用户接收输入。可基于显示器上所示媒体内容和显示器上所示媒体内容的观看历史来确定虚拟助理查询建议(例如，建议与正在播放的电视节目有关的查询)。然后，所建议的虚拟助理查询可被显示在显示器上。

根据本文所讨论的各种示例使用虚拟助理来控制电视用户交互可提供有效且令人愉快的用户体验。通过使用能够接收自然语言查询或命令的虚拟助理，用户可简单直观地与媒体控制设备进行交互。可根据需要来向用户建议可用的功能(包括基于播放内容的有意义的查询建议)，这可帮助用户了解控制能力。此外，可使用直观的口头命令来轻易地访问可用媒体。然而，应当理解，根据本文所讨论的各种示例，还可实现许多其他优点。

图19示出了用于使用虚拟助理来控制电视用户交互的示例性系统100-2。应当理解，如本文所讨论的控制电视用户交互仅仅是采用某种类型的显示技术来控制媒体的一个示例并且仅用于参考，本文所讨论的概念通常可用于控制任何媒体内容交互，包括控制各种设备和相关联显示器(例如，监视器、膝上型显示器、台式计算机显示器、移动用户设备显示器、投影仪显示器等)中的任一者上的媒体内容交互。因此，术语“电视”可指与各种设备中的任一种设备相关联的任何类型的显示器。此外，术语“虚拟助理”、“数字助理”、“智能自动化助理”或“自动数字助理”可指可解译语音形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如，为了根据推断出的用户意图采取行动，系统可执行以下内容中的一者或多者：通过设计以实现所推断出的用户意图的步骤和参数来识别任务流；将来自推断出的用户意图的具体要求输入到任务流中；通过调用程序、方法、服务、API等来执行任务流；以及生成对用户的听觉(例如，语音)和/或视觉形式的输出响应。

虚拟助理可能够接受至少部分地为自然语言命令、请求、声明、讲述和/或询问的形式的用户请求。通常，用户请求要么寻求虚拟助理作出信息性回答，要么寻求虚拟助理执行任务(例如，使得显示特定媒体)。对用户请求的令人满意的响应可包括提供所请求的信息性回答、执行所请求的任务、或这两者的组合。例如，用户可向虚拟助理提出问题，诸如：“我现在在哪里？”基于用户的当前位置，虚拟助理可回答：“你在中央公园。”用户还可请求执行任务，例如：“请在今天下午4点提醒我给妈妈打电话。”作为响应，虚拟助理可确认该请求，并且然后在用户的电子日程表中创建适当的提醒项目。在执行所请求的任务期间，虚拟助理有时可在很长时间段内在涉及多次信息交换的持续对话中与用户进行交互。存在与虚拟助理进行交互以请求信息或执行各种任务的许多其他方法。除提供言语响应并采取经编程的动作之外，虚拟助理还可提供其他视觉形式或音频形式(例如，作为文本、警报、音乐、视频、动画等)的响应。此外，如本文所述，示例性虚拟助理可控制媒体内容(例如，电视上正在播放的视频)的回放，并使信息被显示在显示器上。

虚拟助理的示例在于2011年1月10日提交的名称为“Intelligent AutomatedAssistant”的申请人的美国实用新型专利申请序列号12/987,982中有所描述，该专利申请的全部公开内容以引用方式并入本文。

如图19中所示，在一些示例中，虚拟助理可根据客户端-服务器模型来实现。虚拟助理可包括在用户设备102-2上执行的客户端侧部分和在服务器系统110-2上执行的服务器侧部分。可与遥控器106-2结合的客户端侧部分还在电视机顶盒104-2上被执行。用户设备102-2可包括任何电子设备，诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如，数字眼镜、腕带、手表、胸针、臂带等)，等等。电视机顶盒104-2可包括任何媒体控制设备，诸如电缆盒、卫星盒、视频播放器、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray Disc^TM播放器、此类设备的组合等。电视机顶盒104-2可经由有线连接或无线连接而被连接至显示器112-2和扬声器111-2。显示器112-2(具有或不具有扬声器111-2)可以是任何类型的显示器，诸如电视显示器、监视器、投影仪等。在一些示例中，电视机顶盒104-2可连接到音频系统(例如，音频接收器)，并且扬声器111-2可与显示器112-2分开。在其他示例中，显示器112-2、扬声器111-2和电视机顶盒104-2可一起并入单个设备中，诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中，电视机顶盒104-2的功能可作为组合设备上的应用程序来执行。

在一些示例中，电视机顶盒104-2可用作针对多种类型和来源的媒体内容的媒体控制中心。例如，电视机顶盒104-2可使用户便于访问电视直播(例如，无线电视、卫星电视或有线电视)。因此，电视机顶盒104-2可包括电缆调谐器或卫星调谐器等。在一些示例中，电视机顶盒104-2还可录下电视节目以供稍后时移观看。在其他示例中，电视机顶盒104-2可提供对一个或多个流媒体服务的访问，诸如访问有线递送的点播电视节目、视频和音乐，以及互联网递送的电视节目、视频和音乐(例如，来自各种免费、付费和订阅式流服务)。在其他示例中，电视机顶盒104-2可方便回放或显示来自任何其他源的媒体内容，诸如显示来自移动用户设备的照片，播放来自耦接的存储设备的视频，播放来自耦接的音乐播放器的音乐等。电视机顶盒104-2还可根据需要包括本文所讨论的媒体控制特征的各种其他组合。

用户设备102-2和电视机顶盒104-2可通过一个或多个网络108-2与服务器系统110-2进行通信，该网络可包括互联网、内联网或任何其他有线或无线的公共网络或专用网络。另外，用户设备102-2可通过网络108-2或直接通过任何其他有线或无线通信机构(例如，蓝牙、Wi-Fi、射频、红外传输等)来与电视机顶盒104-2进行通信。如图所示，遥控器106-2可使用任何类型的通信方式诸如有线连接或任何类型的无线通信(例如，蓝牙、Wi-Fi、射频、红外传输等)(包括经由网络108-2)来与电视机顶盒104-2进行通信。在一些示例中，用户可通过用户设备102-2、遥控器106-2或集成在电视机顶盒104-2内的接口元件(例如，按钮、麦克风、相机、操纵杆等)来与电视机顶盒104-2进行交互。例如，可在用户设备102-2和/或遥控器106-2处接收语音输入，该语音输入包括用于虚拟助理的媒体相关的查询或命令，并且该语音输入可用于使得媒体相关的任务在电视机顶盒104-2上执行。同样，可在用户设备102-2和/或遥控器106-2(以及未示出的其他设备)处接收用于控制电视机顶盒104-2上的媒体的触觉命令。因此，可采用各种方式来控制电视机顶盒104-2的各种功能，从而为用户提供从多个设备控制媒体内容的多种选项。

在用户设备102-2和/或具有遥控器106-2的电视机顶盒104-2上执行的示例性虚拟助理的客户端侧部分可提供客户端侧功能，诸如面向用户的输入和输出处理以及与服务器系统110-2的通信。服务器系统110-2可为驻留在相应用户设备102-2或相应电视机顶盒104-2上的任何数量的客户端提供服务器侧功能。

服务器系统110-2可包括一个或多个虚拟助理服务器114-2，该一个或多个虚拟助理服务器可包括面向客户端的I/O接口122-2、一个或多个处理模块118-2、数据与模型存储器120-2、以及至外部服务的I/O接口116-2。面向客户端的I/O接口122-2可有利于虚拟助理服务器114-2的面向客户端的输入和输出处理。一个或多个处理模块118-2可利用数据与模型储存器120-2基于自然语言输入来确定用户的意图，并可基于推断出的用户意图来进行任务执行。在一些示例中，虚拟助理服务器114-2可通过一个或多个网络108-2来与外部服务124-2(诸如，电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务等)进行通信，以用于完成任务或获取信息。至外部服务的I/O接口116-2可促成此类通信。

服务器系统110-2可在计算机的一个或多个独立式数据处理设备或分布式网络上实现。在一些示例中，服务器系统110-2可采用第三方服务提供方(例如，第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统110-2的潜在计算资源和/或基础结构资源。

虽然图19中所示的虚拟助理的功能包括客户端侧部分和服务器侧部分两者，但在一些示例中，助理的功能(或者一般来讲，语音识别和媒体控制)可被实现为被安装在用户设备、电视机顶盒、智能电视等上的独立式应用程序。此外，虚拟助理的客户端部分与服务器部分之间的功能划分在不同的示例中可以是不同的。例如，在一些示例中，在用户设备102-2或电视机顶盒104-2上执行的客户端可以是仅提供面向用户的输入和输出处理功能并且将虚拟助理的所有其他功能委派给后端服务器的瘦客户端。

图20示出了根据各种示例的示例性用户设备102-2的框图。如图所示，用户设备102-2可包括存储器接口202-2、一个或多个处理器204-2、以及外围设备接口206-2。用户设备102-2中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备102-2可还包括耦接至外围设备接口206-2的各种传感器、子系统和外围设备。传感器、子系统以及外围设备可采集信息和/或促进用户设备102-2的各种功能。

例如，用户设备102-2-2可包括耦接至外围设备接口206-2以方便取向、照明和接近感测功能的运动传感器210-2-2、光传感器212-2-2、以及接近传感器214-2-2。一个或多个其他传感器216-2-2，诸如定位系统(例如，GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等也可连接至外围设备接口206-2，以促进相关功能。

在一些示例中，相机子系统220-2和光学传感器222-2可用于促进相机功能，诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统224-2来促进通信功能，该无线通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学(例如，红外)接收器与发射器。可将音频子系统226-2耦接至扬声器228-2和麦克风230-2以方便支持语音的功能，诸如语音识别、语音复制、数字记录和电话功能。

在一些示例中，用户设备102-2还可包括耦接至外围设备接口206-2的I/O子系统240-2。I/O子系统240-2可包括触摸屏控制器242-2和/或一个或多个其他输入控制器244-2。触摸屏控制器242-2可耦接至触摸屏246-2。触摸屏246-2和触摸屏控制器242-2例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将其他输入控制器244-2耦接至其他输入/控制设备248-2，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口、和/或指针设备(诸如触笔)。

在一些示例中，用户设备102-2还可包括耦接至存储器250-2的存储器接口202-2。存储器250-2可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器，诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中，存储器250-2的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备，诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与它们结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统110-2的非暂态计算机可读存储介质上，或者可在存储器250-2的非暂态计算机可读存储介质与服务器系统110-2的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器250-2可存储操作系统252-2、通信模块254-2、图形用户界面模块256-2、传感器处理模块258-2、电话模块260-2和应用程序262-2。操作系统252-2可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块254-2可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256-2可促进图形用户界面处理。传感器处理模块258-2可促进与传感器相关的处理和功能。电话模块260-2可促进与电话相关的过程和功能。应用程序模块262-2可促进用户应用程序的各种功能，诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。

如本文所述，存储器250-2还可存储客户端侧虚拟助理指令(例如，存储在虚拟助理客户端模块264-2中)以及各种用户数据266-2(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等)，从而例如提供虚拟助理的客户端侧功能。用户数据266-2还可用于执行支持虚拟助理或用于任何其他应用程序的语音识别。

在各种示例中，虚拟助理客户端模块264-2可能够通过用户设备102-2的各种用户界面(例如，I/O子系统240-2、音频子系统226-2等)来接受声音输入(例如，语音输入)、文本输入、触摸输入、和/或手势输入。虚拟助理客户端模块264-2还能够提供音频(例如，语音输出)、视觉和/或触觉形式的输出。例如，可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，虚拟助理客户端模块264-2可使用通信子系统224-2来与虚拟助理服务器进行通信。

在一些示例中，虚拟助理客户端模块264-2可利用各种传感器、子系统和外围设备lai从用户设备102-2的周围环境采集附加信息，以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息，诸如来自电视机顶盒104-2的信息。在一些示例中，虚拟助理客户端模块264-2可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器，以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其递送给用户。上下文信息还可被用户设备102-2或服务器系统110-2用于支持准确的语音识别。

在一些示例中，伴随用户输入的上下文信息可包括传感器信息，诸如照明、环境噪声、环境温度、周围环境的图像或视频、到另一个对象的距离等。该上下文信息还可包括与用户设备102-2的物理状态(例如，设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强度等)或者用户设备102-2的软件状态(例如，运行过程、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如，由电视机顶盒104-2显示的媒体内容、电视机顶盒104-2可用的媒体内容等)。这些类型的上下文信息中的任一种上下文信息可作为与用户输入相关联的上下文信息而被提供至虚拟助理服务器114-2(或用于用户设备102-2本身)。

在一些示例中，虚拟助理客户端模块264-2可响应于来自虚拟助理服务器114-2的请求而选择性地提供被存储在用户设备102-2上的信息(例如，用户数据266-2)(或者该虚拟助理客户端模块可在用户设备102-2本身上用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块264-2还可在虚拟助理服务器114-2请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块264-2可将附加输入传送至虚拟助理服务器114-2，以帮助虚拟助理服务器114-2进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中，存储器250-2可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备102-2的各种功能。

图21示出了用于控制电视用户交互的系统300-2中的示例性电视机顶盒104-2的框图。系统300-2可包括系统100-2的元件的子集。在一些示例中，系统300-2可单独执行某些功能，并且也可与系统100-2的其他元件一起运行来执行其他功能。例如，系统300-2的元件可在不与服务器系统110-2进行交互的情况下处理某些媒体控制功能(例如，回放本地存储的媒体、记录功能、频道调谐等)，并且系统300-2可结合服务器系统110-2和系统100-2的其他元件来处理其他媒体控制功能(例如，回放远程存储的媒体、下载媒体内容、进行某些虚拟助理查询等)。在其他示例中，系统300-2的元件可执行较大系统100-2的功能，包括通过网络来访问外部服务124-2。应当理解，可通过各种其他方式来在本地设备和远程服务器设备之间划分功能。

如图21所示，在一个示例中，电视机顶盒104-2可包括存储器接口302-2、一个或多个处理器304-2、和外围设备接口306-2。电视机顶盒104-2中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。电视机顶盒104-2还可包括耦接至外围设备接口306-2的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进电视机顶盒104-2的各种功能。

例如，电视机顶盒104-2可包括通信子系统324-2。可通过一个或多个有线和/或无线通信子系统324-2来促进通信功能，这些通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学(例如，红外)接收器与发射器。

在一些示例中，电视机顶盒104-2还可包括耦接至外围设备接口306-2的I/O子系统340-2。I/O子系统340-2可包括音频/视频输出控制器370-2。音频/视频输出控制器370-2可耦接至显示器112-2和扬声器111-2，或者能够以其他方式提供音频和视频输出(例如，经由音频/视频端口、无线传输等)。I/O子系统340-2还可包括远程控制器342-2。远程控制器342-2可(例如，经由有线连接、蓝牙、Wi-Fi等)通信地耦接至遥控器106-2。遥控器106-2可包括用于捕获音频输入(例如，来自用户的语音输入)的麦克风372-2、用于捕获触觉输入的一个或多个按钮374-2、以及用于促进经由远程控制器342-2与电视机顶盒104-2进行通信的收发器376-2。遥控器106-2还可包括其他输入机构，诸如键盘、操纵杆、触摸板等。遥控器106-2还可包括输出机构，诸如灯、显示器、扬声器等。在遥控器106-2处接收的输入(例如，用户语音、按钮按压等)可经由远程控制器342-2而被传送到电视机顶盒104-2。I/O子系统340-2还可包括一个或多个其他输入控制器344-2。可将一个或多个其他输入控制器344-2耦接至其他输入/控制设备348-2，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中，电视机顶盒104-2还可包括耦接至存储器350-2的存储器接口302-2。存储器350-2可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器，诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中，存储器350-2的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统110-2的非暂态计算机可读存储介质上，或者可在存储器350-2的非暂态计算机可读存储介质与服务器系统110-2的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器350-2可存储操作系统352-2、通信模块354-2、图形用户界面模块356-2、设备内置媒体模块358-2、设备外置媒体模块360-2和应用程序362-2。操作系统352-2可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354-2可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356-2可促进图形用户界面处理。设备内置的媒体模块358-2可促进在电视机顶盒104-2上本地存储的媒体内容以及本地可用的其他媒体内容(例如，有线频道调谐)的存储和回放。设备外置媒体模块360-2可促进远程存储(例如，在远程服务器上、在用户设备102-2上等)的媒体内容的流回放或下载。应用程序模块362-2可促进用户应用程序的各种功能，诸如电子消息传送、网页浏览、媒体处理、游戏和/或其他过程和功能。

如本文所述，存储器350-2还可存储客户端侧虚拟助理指令(例如，存储在虚拟助理客户端模块364-2中)以及各种用户数据366-2(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等)，从而例如提供虚拟助理的客户端侧功能。用户数据366-2还可用于执行语音识别来支持虚拟助理或用于任何其他应用程序。

在各种示例中，虚拟助理客户端模块364-2能够通过电视机顶盒104-2的各种用户界面(例如，I/O子系统340-2等)来接受声音输入(例如，语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块364-2还能够提供音频(例如，语音输出)、视觉和/或触觉形式的输出。例如，可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，虚拟助理客户端模块364-2可使用通信子系统324-2来与虚拟助理服务器进行通信。

在一些示例中，虚拟助理客户端模块364-2可利用各种子系统和外围设备来从电视机顶盒104-2的周围环境采集附加信息，以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息，诸如来自用户设备102-2的信息。在一些示例中，虚拟助理客户端模块364-2可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器，以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其递送给用户。上下文信息还可被电视机顶盒104-2或服务器系统110-2用于支持准确的语音识别。

在一些示例中，伴随用户输入的上下文信息可包括传感器信息，诸如照明、环境噪声、环境温度、到另一个对象的距离等。上下文信息还可包括与电视机顶盒104-2的物理状态(例如，设备位置、设备温度、功率电平等)或电视机顶盒104-2的软件状态(例如，运行过程、已安装的应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息可还包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如，在用户设备102-2上显示的内容、用户设备102-2上的可播放内容等)。这些类型的上下文信息中的任一种上下文信息可作为与用户输入相关联的上下文信息而被提供至虚拟助理服务器114-2(或用于电视机顶盒104-2本身)。

在一些示例中，虚拟助理客户端模块364-2可响应于来自虚拟助理服务器114-2的请求，选择性地提供被存储在电视机顶盒104-2上的信息(例如，用户数据366-2)(或者该虚拟助理客户端模块可在电视机顶盒104-2本身上，以用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块364-2还可在虚拟助理服务器114-2请求时引出来自用户的经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块364-2可将附加输入传送至虚拟助理服务器114-2，以帮助虚拟助理服务器114-2进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中，存储器350-2可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行电视机顶盒104-2的各种功能。

应当理解，系统100-2和系统300-2不限于图19和图21中所示的部件和配置，并且用户设备102-2、电视机顶盒104-2和遥控器106-2同样不限于图20和图21中所示的部件和配置。在根据各种示例的多种配置中，系统100-2、系统300-2、用户设备102-2、电视机顶盒104-2和遥控器106-2全部可包括更少部件，或包括其他部件。

通览本公开内容，对“系统”进行引用，该系统可包括系统100-2、系统300-2、或系统100-2或系统300-2的一个或多个元件。例如，本文中提到的典型系统可至少包括从遥控器106-2和/或用户设备102-2接收用户输入的电视机顶盒104-2。

图22A至图22E示出了可在显示器(例如，显示器112-2)上示出以向用户传达语音输入信息的示例性语音输入界面484-2。在一个示例中，语音输入界面484-2可在视频480-2上示出，该视频可包括任何移动图像或暂停视频。例如，视频480-2可包括电视直播、正在播放的视频、流电影、录制节目的回放等。语音输入界面484-2可被配置为占据最小量的空间，以免显著干扰用户观看视频480-2。

在一个示例中，可触发虚拟助理监听包含命令或查询的语音输入(或开始记录语音输入以用于后续处理，或开始实时处理语音输入)。可以各种方式来触发监听，包括指示，诸如：用户按压遥控器106-2上的物理按钮，用户按压用户设备102-2上的物理按钮，用户按压用户设备102-2上的虚拟按钮，用户说出可被始终监听的设备识别的触发短语(例如，说出“嘿，助理”以开始监听命令)，用户执行可被传感器检测的手势(例如，在相机前面做动作)等。在另一示例中，用户可按压并保持遥控器106-2或用户设备102-2上的物理按钮以发起监听。在其他示例中，用户可在说出查询或命令时按压并保持遥控器106-2或用户设备102-2上的物理按钮，并且可在完成时释放该按钮。同样可接收各种其他指示，以发起从用户接收语音输入。

响应于接收到监听语音输入的指示，可显示语音输入界面484-2。图22A示出了从显示器112-2的底部部分向上展开的通知区域482-2。在接收到监听语音输入的指示时，可在通知区域482-2中显示语音输入界面484-2，并且如图所示，界面可以动画方式从显示器112-2的观看区域的底部边缘向上滑动。图22B示出了在向上滑入视图之后的语音输入界面484-2。语音输入界面484-2可被配置为在显示器112-2的底部占据最小量的空间，以避免显著干扰视频480-2。响应于接收到监听语音输入的指示，可显示准备就绪确认486-2。准备就绪确认486-2可包括如图所示的麦克风符号，或者可包括任何其他图像、图标、动画或符号，以传达系统(例如，系统100-2的一个或多个元件)准备好捕获来自用户的语音输入。

当用户开始讲话时，可显示图22C所示的正在监听确认487-2，以确认系统正在捕获语音输入。在一些示例中，可响应于接收到语音输入(例如，捕获语音)来显示正在监听确认487-2。在其他示例中，准备就绪确认486-2可显示预先确定量的时间(例如，500-2毫秒、1秒、3秒等)，在其之后可显示正在监听确认487-2。听力确认487-2可包括如图所示的波形符号，或者可包括响应于用户语音而移动(例如，改变频率)的活动波形动画。在其他示例中，正在监听确认487-2可包括任何其他图像、图标、动画或符号，以传达系统正在捕获来自用户的语音输入。

在(例如，基于暂停、指示查询结束的语音解译或任何其他端点检测方法)检测到用户已完成讲话时，可显示图22D所示的正在处理确认488-2，以确认系统已完成捕获语音输入并且正在处理语音输入(例如，解译语音输入、确定用户意图、和/或执行相关联的任务)。正在处理确认488-2可包括如图所示的沙漏符号，或者可包括任何其他图像、图标、动画或符号，以传达系统正在处理所捕获的语音输入。在另一示例中，正在处理确认488-2可包括旋转圆圈或彩色/发光点围绕圆圈移动的动画。

在所捕获的语音输入被解译成文本之后(或响应于将语音输入成功地转换成文本)，可显示图22E中所示的命令接收确认490-2和/或转录492-2，以确认系统已接收并解译语音输入。转录492-2可包括所接收的语音输入的转录(例如，“现在正在进行的体育赛事有哪些？”)。在一些示例中，转录492-2可以动画形式从显示器112-2的底部向上滑动，可在图22E所示的位置暂时显示(例如，几秒)，并且然后可在从视图中消失之前向上滑动到语音输入界面484-2的顶部(例如，如同文本向上滚动并最终离开视图)。在其他示例中，可不显示转录，并且可处理用户的命令或查询并可在不显示经转录的情况下执行相关联的任务(例如，可立即执行简单的频道改变而不显示用户语音的转录)。

在其他示例中，可在用户讲话时实时地执行语音转录。转录出字词时，可将其显示在语音输入界面484-2中。例如，字词可被显示在正在监听确认487-2旁边。在用户完成讲话之后，可在执行与用户命令相关联的任务之前简要地显示命令接收确认490-2。

此外，在其他示例中，命令接收确认490-2可传达关于所接收和理解的命令的信息。例如，对于改变到另一个频道的简单请求，当频道改变时，与频道相关联的标志或数字可短暂地被显示为命令接收确认490-2(例如，几秒钟)。在另一个示例中，对于暂停视频(例如，视频480-2)的请求，可显示暂停符号(例如，两个垂直平行条)作为命令接收确认490-2。暂停符号可保持在显示器上，直到例如用户执行另一动作(例如，发出播放命令以恢复回放)。对于任何其他命令，同样可显示符号、标志、动画等(例如，用于快退、快进、停止、播放等的符号)。因此，命令接收确认490-2可用于传送命令特定信息。

在一些示例中，语音输入界面484-2可在接收到用户查询或命令之后隐藏。例如，语音输入界面484-2可被动画表示为向下滑动，直到其从显示器112-2的底部离开视图。在不需要向用户显示进一步的信息的情况下，可隐藏语音输入界面484-2。例如，对于通用或直接的命令(例如，换成频道十、换成体育频道、播放、暂停、快进、快退等)，语音输入界面484-2可在确认命令接收之后立即隐藏，并且可立即执行相关联的一个或多个任务。尽管本文的各种示例示出和描述了显示器的底部或顶部边缘处的界面，但是应当理解，各种界面中的任何界面可位于显示器周围的其他位置。例如，语音输入界面484-2可出现自显示器112-2的侧边缘、在显示器112-2的中心、在显示器112-2的角落里等。类似地，本文描述的各种其他界面示例可在显示器上的多种不同位置中以多种不同的取向进行布置。此外，虽然本文所述的各种界面被示为不透明的，但是各种界面中的任何界面可以是透明的，或者允许透过界面来观看图像(模糊或全部)(例如，将界面内容覆盖在媒体内容上，而无需完全遮蔽下面的媒体内容)。

在其他示例中，查询的结果可被显示在语音输入界面484-2内或不同的界面中。图23示出了具有图22E的经转录的查询的示例性结果的视频480-2上的示例性媒体内容界面510-2。在一些示例中，虚拟助理查询的结果可包括代替文本内容或除文本内容之外的媒体内容。例如，虚拟助理查询的结果可包括电视节目、视频、音乐等。一些结果可包括立即可用于回放的媒体，而其他结果可包括可用于购买的媒体等。

如图所示，媒体内容界面510-2的尺寸可比语音输入界面484-2的尺寸大。在一个示例中，语音输入界面484-2可具有较小的第一尺寸以适应语音输入信息，而媒体内容界面510-2可具有较大的第二尺寸以适应查询结果，其可包括文本、静止图像和移动图像。这样，用于传达虚拟助理信息的界面可根据要传达的内容来缩放尺寸，从而限制所占用的屏幕实际使用空间(例如，最低限度地阻挡其他内容，诸如视频480-2)。

如图所示，媒体内容界面510-2可包括(作为虚拟助理查询的结果)可选视频链接512-2、可选文本链接514-2和附加内容链接513-2。在一些示例中，可通过将焦点、光标等导航到特定元素并使用遥控器(例如，遥控器106-2)进行选择来选择链接。在其他示例中，可使用对虚拟助理的语音命令来选择链接(例如，观看足球比赛，显示关于篮球比赛的详情等)。可选视频链接512-2可包括静止或移动图像，并且可以可选择以使得回放相关联的视频。在一个示例中，可选视频链接512-2可包括相关联的视频内容的正在播放的视频。在另一示例中，可选视频链接512-2可包括电视频道的实况馈送。例如，作为关于当前在电视上进行的体育赛事的虚拟助理查询的结果，可选视频链接512-2可包括体育频道上的足球比赛的实况馈送。可选视频链接512-2还可包括任何其他视频、动画、图像等(例如，三角形播放符号)。此外，链接512-2可链接到任何类型的媒体内容，诸如电影、电视节目、体育赛事、音乐等。

可选文本链接514-2可包括与可选视频链接512-2相关联的文本内容，或者可包括虚拟助理查询的结果的文本表示。在一个示例中，可选文本链接514-2可包括对得自虚拟助理查询的媒体的描述。例如，可选文本链接514-2可包括电视节目的名称、电影的标题、体育赛事的描述、电视频道名称或号码等。在一个示例中，对文本链接514-2的选择可使得回放相关联的媒体内容。在另一示例中，对文本链接514-2的选择可提供关于媒体内容或其他虚拟助理查询结果的附加详细信息。附加内容链接513-2可链接到虚拟助理查询的附加结果并使其被显示。

虽然在图23中示出了某些媒体内容示例，但应当理解，可包括任何类型的媒体内容作为对媒体内容的虚拟助理查询的结果。例如，可作为虚拟助理的结果返回的媒体内容可包括视频、电视节目、音乐、电视频道等。另外，在一些示例中，可在本文所述的界面中的任一种界面中提供类别筛选器，以允许用户筛选搜索或查询结果或者所显示的媒体选项。例如，可提供可选筛选器以按类型(例如，电影、音乐专辑、书籍、电视节目等)来筛选结果。在其他示例中，可选筛选器可包括分类描述符或内容描述符(例如喜剧、访谈、特定节目等)。在其他示例中，可选筛选器可包括时间(例如，本周、上周、去年等)。应当理解，可在本文所述的各种界面中的任一种界面中提供筛选器，以允许用户基于与所显示的内容相关的类别来筛选结果(例如，在媒体结果具有不同类型的情况下按类型进行筛选，在媒体结果具有不同分类的情况下按分类进行筛选，在媒体结果具有不同的时间的情况下按时间进行筛选，等等)。

在其他示例中，除媒体内容结果之外，媒体内容界面510-2还可包括查询的改述。例如，可在媒体内容结果上方(可选视频链接512-2和可选文本链接514-2上方)显示用户查询的改述。在图23的示例中，用户查询的此类改述可包括以下内容：“这是一些现在正进行的体育赛事。”同样可显示介绍媒体内容结果的其他文本。

在一些示例中，在显示任何界面(包括界面510-2)之后，用户可使用新的查询(与先前的查询可相关或可不相关)来发起对附加语音输入的捕获。用户查询可包括作用于界面元素的命令，诸如选择视频链接512-2的命令。在另一示例中，用户语音可包括与所显示的内容相关联的查询，诸如所显示的菜单信息、正在播放的视频(例如，视频480-2)等。可基于所示信息(例如，所显示的文本)和/或与所显示的内容相关联的元数据(例如，与正在播放的视频相关联的元数据)来确定对此类查询的响应。例如，用户可询问界面(例如，界面510-2)中所示的媒体结果，并且可搜索与该媒体相关联的元数据以提供回答或结果。然后，可在另一界面中或在同一界面内(例如，在本文所讨论的界面中的任一界面中)提供此类回答或结果。

如上所述，在一个示例中，可响应于对文本链接514-2的选择来显示关于媒体内容的附加详细信息。图24A和图24B示出了选择文本链接514-2之后的视频480-2上的示例性媒体详情界面618-2。在一个示例中，在提供附加详细信息时，媒体内容界面510-2可扩展成媒体详情界面618-2，如图24A的界面扩展过渡616-2所示的。具体地，如图24A所示，可扩展所选择的内容的大小并且可通过在显示器112-2上向上展开界面以占据更多的屏幕实际使用空间来提供附加文本信息。界面可被展开以适应用户所需的附加详细信息。这样，界面的尺寸可与用户所需的内容量成比例，从而在仍然传达所需内容时使所占用的屏幕实际使用空间最小化。

图24B示出了完全展开之后的详情界面618-2。如图所示，详情界面618-2可具有比媒体内容界面510-2或语音输入界面484-2更大的尺寸，以适应所需的详细信息。详情界面618-2可包括详细媒体信息622-2，该详细媒体信息622-2可包括与媒体内容或虚拟助理查询的另一结果相关联的各种详细信息。详细媒体信息622-2可包括节目标题、节目描述、节目开播时间、频道、剧集概要、电影描述、演员名称、人物名称、体育赛事参与者、制作人名称、导演名称、或与虚拟助理查询结果相关联的任何其他详细信息。

在一个示例中，详情界面618-2可包括可选视频链接620-2(或用于播放媒体内容的另一链接)该可选视频链接620-2可包括相应可选视频链接512-2的较大版本。因此，可选视频链接620-2可包括静止或移动图像，并且可以可选择以使得回放相关联的视频。可选视频链接620-2可包括相关联的视频内容的正在播放的视频、电视频道的实况馈送(例如，体育频道上的足球比赛的实况馈送)等。可选视频链接620-2还可包括任何其他视频、动画、图像等(例如，三角形播放符号)。

如上所述，可响应于对视频链接(诸如视频链接620-2或视频链接512-2)的选择来播放视频。图25A和图25B示出了可响应于对视频链接的选择(或其他播放视频内容的命令)而显示的示例性媒体过渡界面。如图所示，可将视频480-2替换为视频726-2。在一个示例中，可展开视频726-2来代替或覆盖视频480-2，如图25A中的界面扩展过渡724-2所示的。过渡的结果可包括图25B的扩展媒体界面728-2。与其他界面一样，扩展媒体界面728-2的尺寸可足以向用户提供所需的信息；在此，可包括扩展到填满显示器112-2。因此，扩展媒体界面728-2可大于任何其他界面，因为所需信息可包括跨整个显示器的正在播放的媒体内容。尽管未示出，但在一些示例中，描述性信息可简略地(例如，沿屏幕的底部)覆盖在视频726-2上。此类描述性信息可包括相关联的节目、视频、频道等的名称。然后可(例如，在几秒钟之后)从视图中隐藏描述性信息。

图26A和图26B示出了可在显示器112-2上示出以向用户传达语音输入信息的示例性语音输入界面836-2。在一个示例中，语音输入界面836-2可被显示在菜单830-2上。菜单830-2可包括各种媒体选项832-2，并且语音输入界面836-2可类似地被显示在任何其他类型的菜单(例如，内容菜单、类别菜单、控制菜单、设置菜单、程序菜单等)上。在一个示例中，语音输入界面836-2可被配置为占据显示器112-2的相对较大量的屏幕实际使用空间。例如，语音输入界面836-2可大于上文所讨论的语音输入界面484-2。在一个示例中，可基于背景内容来确定要使用的语音输入界面的尺寸(例如，较小界面484-2或较大界面836-2)。当背景内容包括移动图像时，例如，可显示小尺寸的语音输入界面(例如，界面484-2)。另一方面，当背景内容包括静止图像(例如，暂停的视频)或菜单时，例如可显示大尺寸的语音输入界面(例如，界面836-2)。这样，如果用户正在观看视频内容，则可显示较小语音输入界面，其仅最低限度地占用屏幕实际使用空间；而如果用户正在导航菜单或者观看暂停的视频或其他静止图像，则可显示较大语音输入界面，其可通过占据附加实际使用空间来传达更多信息或起到更深远的影响。同样可基于背景内容以不同方式来确定本文中讨论的其他界面的尺寸。

如上所述，可触发虚拟助理监听包含命令或查询的语音输入(或开始记录语音输入以用于后续处理，或开始实时处理语音输入)。可以各种方式来触发监听，包括指示，诸如：用户按压遥控器106-2上的物理按钮，用户按压用户设备102-2上的物理按钮，用户按压用户设备102-2上的虚拟按钮，用户说出可被始终监听的设备识别的触发短语(例如，说出“嘿，助理”以开始监听命令)，用户执行可被传感器检测的手势(例如，在相机前面做动作)等。在另一示例中，用户可按压并保持遥控器106-2或用户设备102-2上的物理按钮以发起监听。在其他示例中，用户可在说出查询或命令时按压并保持遥控器106-2或用户设备102-2上的物理按钮，并且可在完成时释放该按钮。同样可接收各种其他指示，以发起从用户接收语音输入。

响应于接收到监听语音输入的指示，可在菜单830-2上显示语音输入界面836-2。图26A示出了从显示器112-2的底部部分向上展开的大的通知区域834-2。在接收到监听语音输入的指示时，可在大的通知区域834-2中显示语音输入界面836-2，并且如图所示，界面可以动画方式从显示器112-2的观看区域的底部边缘向上滑动。在一些示例中，当(例如，响应于接收到监听语音输入的指示)显示重叠界面时，背景菜单、暂停的视频、静止图像或其他背景内容可在z方向上收缩和/或向后移动(好像进一步进入显示器112-2中)。背景界面收缩过渡831-2和相关联的向内指向的箭头示出背景内容(例如，菜单830-2)可如何收缩(缩窄所显示的菜单、图像、文本等)。这可提供看起来像背景内容远离用户移动的视觉效果，使新的前景界面(例如，界面836-2)显露出来。图26B示出了包括收缩(缩窄)版本的菜单830-2的收缩的背景界面833-2。如图所示，收缩的背景界面833-2(其可包括边框)可在将焦点转移到前景界面836-2时显得进一步远离用户。当显示重叠界面时，本文所讨论的其他示例中的任一个示例中的背景内容(包括背景视频内容)可类似地在z方向上收缩和/或向后移动。

图26B示出了在向上滑入视图之后的语音输入界面836-2。如上所述，可在接收语音输入时显示各种确认。尽管在此未示出，但语音输入界面836-2可以与上面参考图22B、图22C和图22D所讨论的语音输入界面484-2相似的方式，类似地显示准备就绪确认486-2、正在监听确认487-2、和/或正在处理确认488-2的较大版本。

如图26B所示，可示出命令接收确认838-2(如上面讨论的较小尺寸的命令接收确认490-2)，以确认系统接收和解译的语音输入。还可示出转录840-2，并且该转录可包括所接收的语音输入的转录(例如，“New York的天气如何？”)。在一些示例中，转录840-2可以动画形式从显示器112-2的底部向上滑动，可在图26B所示的位置暂时显示(例如，几秒)，并且然后可在从视图中消失之前向上滑动到语音输入界面836-2的顶部(例如，如同文本向上滚动并最终离开视图)。在其他示例中，可不显示转录，并且可处理用户的命令或查询并可在不显示经转录的情况下执行相关联的任务。

在其他示例中，可在用户讲话时实时地执行语音转录。转录出字词时，可将其显示在语音输入界面836-2中。例如，字词可被显示在上述较大版本的正在监听确认487-2旁边。在用户完成讲话之后，可在执行与用户命令相关联的任务之前简要地显示命令接收确认838-2。

此外，在其他示例中，命令接收确认838-2可传达关于所接收和理解的命令的信息。例如，对于调谐到特定频道的简单请求，当对频道进行调谐时，与频道相关联的标志或数字可短暂地被显示为命令接收确认838-2(例如，几秒钟)。在另一个示例中，对于选择所显示菜单项(例如，媒体选项832-2中的一个)的请求，与所选择的菜单项相关联的图像可被显示为命令接收确认838-2。因此，命令接收确认838-2可用于传送命令特定信息。

在一些示例中，语音输入界面836-2可在接收到用户查询或命令之后隐藏。例如，语音输入界面836-2可被动画表示为向下滑动，直到其从显示器112-2的底部离开视图。在不需要向用户显示进一步信息的情况下，可隐藏语音输入界面836-2。例如，对于通用或直接的命令(例如，换成频道十、换成体育频道、播放该电影等)，语音输入界面836-2可在确认命令接收之后立即隐藏，并且可立即执行相关联的一个或多个任务。

在其他示例中，查询的结果可被显示在语音输入界面836-2内或不同的界面中。图27示出了菜单830-2上(具体地，收缩的背景界面833-2上)的具有图26B中经转录的查询的示例性结果的示例性虚拟助理结果界面942-2。在一些示例中，虚拟助理查询结果可包括文本回答，诸如文本回答944-2。虚拟助理查询的结果还可包括解决用户查询的媒体内容，诸如与可选视频链接946-2和购买链接948-2相关联的内容。具体地，在该示例中，用户可请求New York指定位置的天气信息。虚拟助理可提供直接回答用户查询的文本回答944-2(例如，表示天气看起来很好并提供温度信息)。作为文本回答944-2的替代或补充，虚拟助理可将可选视频链接946-2连同购买链接948-2和相关联的文本一起提供。与链接946-2和948-2相关联的媒体还可提供对用户查询的响应。在此，与链接946-2和948-2相关联的媒体可包括指定位置处天气信息的十分钟剪辑(具体地，来自被称为天气预报频道的电视频道的NewYork的未来五天的天气预报)。

在一个示例中，解决用户查询的剪辑可包括先前所播内容(其可从记录或从流服务获取)的时间提示部分。在一个示例中，虚拟助理可基于与语音输入相关联的用户意图并通过搜索关于可用媒体内容的详细信息(例如，包括录制节目的元数据、以及详细定时信息、或关于流内容的详细信息)来识别此类内容。在一些示例中，用户对某些内容可不具有访问权限或者可没有订阅。在这种情况下，可例如经由购买链接948-2来提供内容以供购买。在选择购买链接948-2或视频链接946-2时，内容的费用可从用户帐户中自动扣除或者记入用户帐户的账目。

图28示出了使用虚拟助理来控制电视交互并使用不同界面来显示相关联的信息的示例性过程1000-2。在框1002-2处，可从用户接收语音输入。例如，可在系统100-2的用户设备102-2或遥控器106-2处接收语音输入。在一些示例中，语音输入(或者语音输入中的一些或全部的数据表示)可被传输到服务器系统110-2和/或电视机顶盒104-2并且由该服务器系统和/或电视机顶盒接收。响应于用户发起对语音输入的接收，可在显示器(诸如显示器112-2)上显示各种通知。例如，可如上文参考图22A至图22E所讨论的那样，显示准备就绪确认、正在监听确认、正在处理确认、和/或命令接收确认。此外，可转录所接收的用户语音输入并且可显示转录。

再次参考图28的过程1000-2，在框1004-2处，可基于语音输入来确定媒体内容。例如，可(例如，通过搜索可用媒体内容等)确定用于解决在虚拟助理处引导的用户查询的媒体内容。例如，可确定与图22E的转录492-2相关的媒体内容(“现在正进行的体育赛事有哪些？”)。此类媒体内容可包括在可供用户观看的一个或多个电视频道上显示的直播体育赛事。

在框1006-2处，可显示具有可选媒体链接的第一尺寸的第一用户界面。例如，具有可选视频链接512-2和可选文本链接514-2的媒体内容界面510-2可被显示在显示器112-2上，如图23所示。如上所述，媒体内容界面510-2可具有较小尺寸，以避免干扰背景视频内容。

在框1008-2处，可接收对链接中的一个链接的选择。例如，可接收对链接512-2和/或链接514-2中的一个链接的选择。在框1010-2处，可显示具有与选择相关联的媒体内容的较大第二尺寸的第二用户界面。例如，可显示具有可选视频链接620-2和详细媒体信息622-2的详情界面618-2，如图24B所示。如上所述，详情界面618-2可具有较大尺寸，以传达所需的附加详细媒体信息。类似地，在选择视频链接620-2时，扩展媒体界面728-2可与视频726-2一起显示，如图25B所示。如上所述，扩展媒体界面728-2可具有较大尺寸，以向用户提供所需的媒体内容。这样，本文所讨论的各种界面可调节尺寸以适应所需的内容(包括扩展成较大尺寸的界面或收缩成较小尺寸的界面)，而另一方面占据有限的屏幕实际使用空间。因此，过程1000-2可用于使用虚拟助理控制电视交互，并使用不同界面显示相关联的信息。

在另一个示例中，可在控制菜单上显示尺寸比背景视频内容上的界面的尺寸更大的界面。例如，如图26B所示，语音输入界面836-2可被显示在菜单830-2上方，并且如图27所示，助理结果界面942-2可被显示在菜单830-2上方，而如图23所示，较小媒体内容界面510-2可被显示在视频480-2上方。这样，可至少部分地通过背景内容的类型来确定界面的尺寸(例如，由界面占据的屏幕实际使用空间量)。

图29示出了用户设备102-2上的示例性电视媒体内容，该用户设备102-2可包括具有触摸屏246-2(或另一显示器)的移动电话、平板电脑、遥控器等。图29示出了包括具有多个电视节目1152-2的电视列表的界面1150-2。界面1150-2可例如对应于用户设备102-2上的特定应用程序，诸如电视控制应用程序、电视内容列表应用程序、互联网应用程序等。在一些示例中，在用户设备102-2上(例如，触摸屏246-2上)所示的内容可用于从与该内容相关的语音输入确定用户意图，并且用户意图可用于使内容在另一设备和显示器上(例如，在电视机顶盒104-2和显示器112-2和/或扬声器111-2上)播放或显示。例如，在用户设备102-2上的界面1150-2中所示的内容可用于对用户请求进行消歧，并且从语音输入确定用户意图，并且然后可使用所确定的用户意图经由电视机顶盒104-2来播放或显示媒体。

图30示出了使用虚拟助理的示例性电视控制。图30示出了可包括被格式化为助理和用户之间的会话式对话的虚拟助理界面的界面1254-2。例如，界面1254-2可包括提示用户作出请求的助理问候1256-2。然后，可转录随后接收的用户语音诸如经转录的用户语音1258-2，从而显示来回会话。在一些示例中，响应于触发发起对语音输入(触发例如按钮按压、关键短语等)的接收，界面1254-2可出现在用户设备102-2上。

在一个示例中，用于经由电视机顶盒104-2(例如，在显示器112-2和扬声器111-2上)播放内容的用户请求可包括对用户设备102-2上所示的某些内容的模糊引用。例如，经转录的用户语音1258-2包括对“那个”足球比赛的引用(“播放那个足球比赛。”)。单从语音输入来看，所期望的特定足球比赛可能并不清楚。然而，在一些示例中，在用户设备102-2上所示的内容可用于对用户请求进行消歧并确定用户意图。在一个示例中，在用户发出请求之前(例如，在界面1254-2出现在触摸屏246-2上之前)，在用户设备102-2上所示的内容可用于确定用户意图(如可以是在界面1254-2内出现的内容，诸如先前的查询和结果)。在例示的示例中，在图29的界面1150-2中所示的内容可用于从播放“那个”足球比赛的命令确定用户意图。电视节目1152-2的电视列表包括各种不同的节目，其中的一个节目标题为出现在第5频道上的“足球”。足球列表的出现可用于根据说出“那个”足球比赛来确定用户的意图。具体地，用户对“那个”足球比赛的引用可被解析为出现在界面1150-2的电视列表中的足球节目。因此，虚拟助理可(例如，通过使电视机顶盒104-2调谐到适当的频道并显示比赛)使得回放用户所期望的特定足球比赛。

在其他示例中，用户可以各种其他方式引用在界面1150-2中所示的电视节目(例如，频道八上的节目、新闻、戏剧节目、广告、第一节目等)，并且可类似地基于所显示的内容来确定用户意图。应当理解，与所显示的内容相关联的元数据(例如，电视节目描述)、模糊匹配技术、同义词匹配等还可与所显示的内容结合用于确定用户意图。例如，可(例如，使用同义词和/或模糊匹配技术)将术语“广告”与描述“付费节目”匹配，以从显示“广告”的请求来确定用户意图。同样，可在确定用户意图时分析对特定电视节目的描述。例如，可在法庭剧的详细描述中识别术语“法律”，并且可基于与界面1150-2中所示的内容相关联的详细描述来从观看“法律”节目的用户请求确定用户意图。因此，所显示的内容和与其相关联的数据可用于对用户请求消歧并确定用户意图。

图31示出了用户设备102-2上的示例性图片和视频内容，该用户设备可包括具有触摸屏246-2(或另一显示器)的移动电话、平板电脑、遥控器等。图31示出了包括照片和视频列表的界面1360-2。界面1360-2可例如对应于用户设备102-2上的特定应用程序，诸如媒体内容应用程序、文件导航应用程序、存储应用程序、远程存储管理应用程序、相机应用程序等。如图所示，界面1360-2可包括视频1362-2、相册1364-2(例如，一组多张照片)和照片1366-2。如上面参考图29和图30所讨论的，在用户设备102-2上所示的内容可用于从与该内容相关的语音输入确定用户意图。然后，可将用户意用于使内容在另一设备和显示器上(例如，在电视机顶盒104-2和显示器112-2和/或扬声器111-2上)回放或显示。例如，在用户设备102-2上的界面1360-2中所示的内容可用于对用户请求消歧，并且用于从语音输入确定用户意图，并且然后可使用所确定的用户意图经由电视机顶盒104-2来播放或显示媒体。

图32示出了使用虚拟助理的示例性媒体显示控制。图32示出了可包括被格式化为助理和用户之间的会话式对话的虚拟助理界面的界面1254-2。如图所示，界面1254-2可包括提示用户作出请求的助理问候1256-2。然后，可在对话内转录用户语音，如图32的示例所示的。在一些示例中，响应于触发发起对语音输入(触发例如按钮按压、关键短语等)的接收，界面1254-2可出现在用户设备102-2上。

在一个示例中，用于经由电视机顶盒104-2(例如，在显示器112-2和扬声器111-2上)播放媒体内容或显示媒体的用户请求可包括对用户设备102-2上所示的某些内容的模糊引用。例如，经转录的用户语音1468-2包括对“那个”视频的引用(“显示那个视频。”)。单从语音输入来看，所引用的具体视频可能并不清楚。然而，在一些示例中，在用户设备102-2上所示的内容可用于对用户请求进行消歧并确定用户意图。在一个示例中，在用户发出请求之前(例如，在界面1254-2出现在触摸屏246-2上之前)，在用户设备120-2上所示的内容可用于确定用户意图(如可以是在界面1254-2内出现的内容，诸如先前的查询和结果)。在用户语音1468-2的示例中，在图31的界面1360-2中所示的内容可用于从显示“那个”视频的命令确定用户意图。界面1360-2中的照片和视频列表包括多种不同的照片和视频，包括视频1362-2、相册1354-2和照片1366-2。当界面1360-2中仅出现一个视频(例如，视频1362-2)时，界面1360-2中视频1362-2的出现可用于根据说出“那个”视频来确定用户的意图。具体地，用户对“那个”视频的引用可被解析为出现在界面1360-2中的视频1362-2(标题为“毕业视频”)。因此，虚拟助理可(例如，通过使视频1362-2从用户设备102-2或远程存储器传输到电视机顶盒104-2并且使重放开始)使视频1362-2重放。

在另一个示例中，经转录的用户语音1470-2包括对“那个”相册的引用(“播放那个相册的幻灯片。”)。单从语音输入来看，所引用的具体相册可能并不清楚。在用户设备102-2上所示的内容可再次用于对用户请求进行消歧。具体地，在图31的界面1360-2中所示的内容可用于从播放“那个”相册的幻灯片的命令确定用户意图。界面1360-2中的照片和视频列表包括相册1354-2。界面1360-2中相册1364-2的出现可用于根据说出“那个”相册来确定用户的意图。具体地，用户对“那个”相册的引用可被解析为出现在界面1360-2中的相册1364-2(标题为“毕业相册”)。因此，响应于用户语音1470-2，虚拟助理可(例如，通过使相册1364-2的照片从用户设备102-2或远程存储器传输到电视机顶盒104-2并使照片的幻灯片放映开始)使包括来自相册1364-2的照片的幻灯片将被显示。

在又一示例中，经转录的用户语音1472-2包括对“最后”一张照片的引用(“在厨房电视上显示最后一张照片”)。单从语音输入来看，所引用的具体照片可能并不清楚。在用户设备102-2上所示的内容可再次用于对用户请求进行消歧。具体地，在图31的界面1360-2中所示的内容可用于从显示“最后”一张照片的命令确定用户意图。界面1360-2中的照片和视频列表包括两张单独的照片1366-2。界面1360-2中的照片1366-2的出现(特别是界面内的照片1366-2的出现的顺序)可用于根据说出“最后”一张照片来确定用户的意图。具体地，用户对“最后”一张照片的引用可被解析为出现在界面1360-2底部的照片1366-2(日期为2014年6月21日)。因此，响应于用户语音1472-2，虚拟助理可(例如，通过使最后一张照片1366-2从用户设备102-2或远程存储器传输到电视机顶盒104-2并使照片将被显示)使在界面1360-2中所示的最后一张照片1366-2将被显示。

在其他示例中，用户可以各种其他方式来引用在界面1360-2中所示的媒体内容(例如，最后一对照片、所有视频、所有照片、毕业专辑、毕业视频、从6月21日起的照片等)，并且可类似地基于所显示的内容来确定用户意图。应当理解，与所显示的内容相关联的元数据(例如，时间戳、位置信息、标题、描述等)、模糊匹配技术、同义词匹配等还可与所显示的内容结合，以确定用户意图。因此，所显示的内容和与其相关联的数据可用于对用户请求消歧并确定用户意图。

应当理解，任何应用程序的任何应用界面中的任何类型的是所显示的内容可用于确定用户意图。例如，可在语音输入中引用在互联网浏览器应用程序中的网页上显示的图像，并且可分析所显示的网页内容以识别所需的图像。类似地，可按标题、流派、艺术家、乐队名等在语音输入中引用音乐应用程序中的音乐列表中的音乐曲目，并且可将音乐应用中的所显示的内容(并且在一些示例中，相关联的元数据)用于从语音输入确定用户意图。如上所述，然后可经由另一设备(例如，经由电视机顶盒104-2来)将所确定的用户意图用于使得显示或回放媒体。

在一些示例中，可采用用户识别、用户认证和/或设备认证来确定是否可允许媒体控制、确定可用于显示的媒体内容、确定访问许可等。例如，可确定特定用户设备(例如，用户设备102-2)是否被授权控制例如电视机顶盒104-2上的媒体。可基于注册、配对、信任确定、密码、安全问题、系统设置等来对用户设备进行授权。响应于确定特定用户设备已被授权，可允许尝试控制电视机顶盒104-2(例如，可响应于确定请求设备被授权控制媒体而播放媒体内容)。相反，可忽略来自未授权设备的媒体控制命令或请求，和/或可提示这些设备的用户注册其设备以用于控制特定电视机顶盒104-2。

在另一个示例中，可识别特定用户，并且可使用与该用户相关联的个人数据来确定请求的用户意图。例如，可基于语音输入来识别用户，诸如通过使用用户声纹的语音识别来识别用户。在一些示例中，用户可说出被分析用于语音识别的特定短语。在其他示例中，可使用语音识别来分析针对虚拟助理的语音输入请求，以识别讲话者。还可基于语音输入样本的源(例如，在用户的个人设备102-2上)来识别用户。还可基于口令、密码、菜单选择等来识别用户。然后，可基于所识别的用户的个人数据来解译从用户处接收的语音输入。例如，可基于来自用户的先前请求、用户拥有的媒体内容、被存储在用户设备上的媒体内容、用户偏好、用户设置、用户人口统计学特征(例如，所用语言等)、用户个人资料信息、用户支付方法或者与特定识别用户相关联的各种其他个人信息来确定语音输入的用户意图。例如，可基于个人数据来对引用收藏列表等的语音输入进行消歧，并且可识别用户的个人收藏列表。同样可基于用户识别来对引用“我的”照片、“我的”视频、“我的”节目等语音输入进行消歧，以正确地识别与所识别的用户相关联的照片、视频和演出(例如，被存储在个人用户设备上的照片等)。类似地，可对请求购买内容的语音输入进行消歧，以确定所识别的用户的支付方法(而不是另一用户的支付方法)应当为购买付费。

在一些示例中，用户认证可用于确定是否允许用户访问媒体内容、购买媒体内容等。例如，语音识别可用于(例如，使用用户的声纹)验证特定用户的身份，以允许用户使用用户的支付方法来进行购买。类似地，口令等可用于验证用户以允许购买。在另一个示例中，语音识别可用于验证特定用户的身份，以确定是否允许用户观看特定节目(例如，具有特定家长指导评级的节目、具有特定年龄适合性评级的电影等)。例如，可基于指示请求者不是能够查看此类内容的授权用户(例如，父母)的语音识别来拒绝孩子对特定节目的请求。在其他示例中，语音识别可用于确定用户是否能够访问特定订阅内容(例如，基于语音识别限制对优质频道内容的访问)。在一些示例中，用户可说出被分析用于语音识别的特定短语。在其他示例中，可使用语音识别来分析针对虚拟助理的语音输入请求，以识别讲话者。因此，可响应于首先确定用户以多种方式中的任一种方式被授权来播放某些媒体内容。

图33示出了示例性虚拟助理交互，其中结果在移动用户设备和媒体显示设备上。在一些示例中，虚拟助理可在多于一个设备上提供信息和控制，诸如在用户设备102-2上以及在电视机顶盒104-2上提供信息和控制。此外，在一些示例中，用于用户设备102-2上的控制和信息的虚拟助理界面同样可用于发出控制电视机顶盒104-2上的媒体的请求。因此，虚拟助理系统可确定是在用户设备102-2上还是在电视机顶盒104-2上显示结果或执行任务。在一些示例中，当采用用户设备102-2来控制电视机顶盒104-2时，可通过在用户设备102-2(例如，在触摸屏246-2上)上显示信息来使虚拟助理界面在与电视机顶盒104-2相关联的显示器(例如，显示器112-2)上占用的空间最小化。在其他示例中，虚拟助理信息可单独被显示在显示器112-2上，或者虚拟助理信息可被显示在用户设备102-2和显示器112-2两者上。

在一些示例中，可确定虚拟助理查询的结果是应当直接被显示在用户设备102-2上还是被显示在与电视机顶盒104-2相关联的显示器112-2上。在一个示例中，响应于确定查询的用户意图包括对信息的请求，可在用户设备102-2上显示信息性响应。在另一示例中，响应于确定查询的用户意图包括用于播放媒体内容的请求，可经由电视机顶盒104-2来播放响应于查询的媒体内容。

图33示出了包含虚拟助理和用户之间的会话式对话示例的虚拟助理界面1254-2。助理问候1256-2可提示用户作出请求。在第一查询中，经转录的用户语音1574-2(其也可被键入或以其他方式输入)包括对与所显示媒体内容相关联的信息性回答的请求。具体地，经转录的用户语音1574-2询问正在进行足球比赛的是谁，该足球比赛例如可能被显示在用户设备102-2上的界面上(例如，在图29的界面1150-2中列出)或被显示在在显示器112-2上(例如，在图23的界面510-2中列出，或作为图25B中显示器112-2上的视频726-2播放)。可基于所显示的媒体内容来确定经转录的用户语音1574-2的用户意图。例如，可基于用户设备102-2上或显示器112-2上所示的内容来识别所讨论的特定足球比赛。经转录的用户语音1574-2的用户意图可包括获取详细说明正在进行足球比赛的球队的信息性回答，该正在进行足球比赛的球队基于所显示的内容而被识别。响应于确定用户意图包括对信息性回答的请求，系统可确定在图33中的界面1254-2内(而不是在显示器112-2上)显示响应。在一些示例中，可基于与所显示的内容相关联的元数据(例如，基于电视列表中足球比赛的描述)来确定对查询的响应。如图所示，助理响应1576-2因此可在界面1254-2中在用户设备102-2的触摸屏246-2上被显示，从而将Alpha队和Zeta队识别为正在进行比赛的球队。因此，在一些示例中，可基于确定查询包括信息性请求而在用户设备102-2上的界面1254-2内显示信息性响应。

然而，界面1254-2中的第二查询包括媒体请求。具体地，经转录的用户语音1578-2请求将显示的媒体内容改为“比赛”。可基于所显示的内容来确定经转录的用户语音1578-2的用户意图(例如，以识别用户期望的是哪个比赛)，诸如在图23的界面510-2中列出的比赛、在图29的界面1150-2中列出的比赛、在先前查询中(例如，在经转录的用户语音1574-2中)引用的比赛等。因此，经转录的用户语音1578-2的用户意图可包括将所显示的内容改为特定比赛(在此是有Alpha队和Zeta队参加的足球比赛)。在一个示例中，比赛可被显示在用户设备102-2上。然而，在其他示例中，基于包括请求播放媒体内容的查询，比赛可经由电视机顶盒104-2而被示出。具体地，响应于确定用户意图包括播放媒体内容的请求，系统可确定经由电视机顶盒104-2来在显示器112-2上(而不是在图33中的界面1254-2内)显示媒体内容结果。在一些示例中，确认虚拟助理的预期动作的响应或改述可在界面1254-2中或在显示器112-2上示出(例如，“改为足球比赛。”)。

图34示出了示例性虚拟助理交互，其中媒体结果在媒体显示设备和移动用户设备上。在一些示例中，虚拟助理可提供对用户设备102-2和电视机顶盒104-2两者上的媒体的访问。此外，在一些示例中，用于用户设备102-2上的媒体的虚拟助理界面同样可用于发出对电视机顶盒104-2上的媒体的请求。因此，虚拟助理系统可确定是在用户设备102-2上还是经由电视机顶盒104-2在显示器112-2上显示媒体结果。

在一些示例中，可基于媒体结果格式、用户偏好、默认设置、请求本身中的表达命令等来确定是在设备102-2上还是在显示器112-2上显示媒体。例如，查询的媒体结果的格式可用于(例如，在没有具体指令的情况下)确定默认在哪个设备上显示媒体结果。电视节目可更适合于在电视上显示，大格式视频可更适合于在电视上显示，缩略图照片可更适合于在用户设备上显示，小格式网络视频可更适合于在用户设备上显示，而各种其他媒体格式可更适合于在相对较大的电视屏幕或相对较小的用户设备显示器上显示。因此，响应于(例如，基于媒体格式)确定媒体内容应当被显示在特定显示器上，可默认在该特定显示器上显示媒体内容。

图34示出了虚拟助理界面1254-2，其中查询的示例与正在播放或正在显示的媒体内容相关。助理问候1256-2可提示用户作出请求。在第一查询中，经转录的用户语音1680-2包括用于显示足球比赛的请求。如在上文所讨论的示例中，可基于所显示的内容来确定经转录的用户语音1680-2的用户意图(例如，以识别用户期望的是哪个比赛)，诸如在图23的界面510-2中列出的比赛、在图29的界面1150-2中列出的比赛、先前查询中引用的比赛等。因此，经转录的用户语音1680-2的用户意图可包括显示可例如在电视上播出的特定足球比赛。响应于确定用户意图包括用于显示被格式化以适于电视的媒体(例如，电视播放的足球比赛)的请求，系统可自动确定经由电视机顶盒104-2在显示器112-2上(而不是在用户设备102-2本身上)显示期望的媒体。然后，虚拟助理系统可(例如，通过执行必要的任务和/或发送适当的命令)使电视机顶盒104-2调谐到足球比赛并在显示器112-2上显示该足球比赛。

然而，在第二查询中，经转录的用户语音1682-2包括显示球队队员图片的请求(例如，“Alpha队”的图片)。如在上文所讨论的示例中，可确定经转录的用户语音1682-2的用户意图。经转录的用户语音1682-2的用户意图可包括对与“Alpha队”相关联的图片执行搜索(例如，网络搜索)以及显示所得到的图片。响应于确定用户意图包括用于显示可以缩略图格式呈现的媒体或者与网络搜索相关联的媒体或者不具有特定格式的其他非特定媒体的请求，系统可自动确定在界面1254-2中在用户设备102-2的触摸屏246-2上显示期望的媒体结果(而不是经由电视机顶盒104-2在显示器112-2上显示所得到的图片)。例如，如图所示，可响应于用户查询而在用户设备102-2上的界面1254-2内显示缩略图照片1684-2。因此，虚拟助理系统可使得特定格式的媒体或者可以特定格式(例如，在一组缩略图中)呈现的媒体被默认显示在用户设备102-2上。

应当理解，在一些示例中，在用户语音1680-2中所引用的足球比赛可被显示在用户设备102-2上，并且照片1684-2可经由电视机顶盒104-2而被显示在显示器112-2上。然而，可基于媒体格式来自动确定用于进行显示的默认设备，从而简化用户的媒体命令。在其他示例中，可基于用户偏好、默认设置、最近用于显示内容的设备、识别用户和与该用户相关联的设备的语音识别等，来确定用于显示所请求的媒体内容的默认设备。例如，用户可设置偏好或者可设置默认配置，以经由电视机顶盒104-2来在显示器112-2上显示某些类型的内容(例如，视频、幻灯片、电视节目等)并在用户设备102-2的触摸屏246-2上显示其他类型的内容(例如，缩略图、照片、网络视频等)。类似地，可设置偏好或默认配置，以通过在一个设备或另一设备上显示内容来对某些查询进行响应。在另一个示例中，所有内容可被显示在用户设备102-2上，除非用户另有指示。

在其他示例中，用户查询可包括在特定显示器上显示内容的命令。例如，图32的用户语音1472-2包括在厨房电视上显示照片的命令。因此，系统可使照片在与用户厨房相关联的电视显示器上显示，而不是在用户设备102-2上显示照片。在其他示例中，用户可以多种其他方式来指示使用哪个显示设备(例如，在电视上、在大屏幕上、在客厅中、在卧室中、在我的平板电脑上、在我的电话上等)。因此，可以多种不同方式来确定用于显示虚拟助理查询的媒体内容结果的显示设备。

图35示出了基于接近度的示例性媒体设备控制。在一些示例中，用户在同一家庭内或在同一网络上可具有多个电视和电视机顶盒。例如，家庭可将电视和机顶盒设置在客厅中，另一个设置在卧室中，并且又一个设置在厨房中。在其他示例中，多个机顶盒可连接到同一网络，诸如公寓或办公楼中的公共网络。尽管用户可针对特定机顶盒对遥控器106-2和用户设备102-2进行配对、连接或以其他方式授权以避免未经授权的访问，但在其他示例中，遥控器和/或用户设备可用于控制多于一个机顶盒。用户可例如使用单个用户设备102-2来控制卧室、客厅和厨房中的机顶盒。用户还可例如使用单个用户设备102-2来控制其自己公寓中的自己的机顶盒，并且控制邻居公寓中的邻居的机顶盒(例如，与邻居共享来自用户设备102-2的内容，诸如在邻居的电视上显示被存储在用户设备102-2上的照片的幻灯片)。因为用户可使用单个用户设备102-2来控制多个不同的机顶盒，因此系统可确定向多个机顶盒中的哪个机顶盒发送命令。同样，因为家庭可具有可操作多个机顶盒的多个遥控器106-2，所以系统可类似地确定向多个机顶盒中的哪个机顶盒发送命令。

在一个示例中，设备的接近度可用于确定向多个机顶盒中的哪个机顶盒发送命令(或在哪个显示器上显示所请求的媒体内容)。可在用户设备102-2或遥控器106-2与多个机顶盒中的每个机顶盒之间确定接近度。然后，可将发出的命令发送到最近的机顶盒(或者可在最近的显示器上显示所请求的媒体内容)。可以多种方式中的任一种方式来确定(或至少估计)接近度，该方式诸如飞行时间测量(例如，使用射频)、蓝牙LE、电子脉冲信号、接近传感器、声路测量等。然后，可比较测量的或估计的距离，并且可向距离最短的设备(例如，最近的机顶盒)发出命令。

图35示出了包括具有第一显示器1786-2的第一机顶盒1792-2和具有第二显示器1788-2的第二机顶盒1794-2的多设备系统1790-2。在一个示例中，用户可从用户设备102-2发出显示媒体内容的命令(例如，而不必指定在哪儿或在哪个设备上进行显示)。然后，可确定(或估计)到第一机顶盒1792-2的距离1795-2和到第二机顶盒1794-2的距离1796-2。如图所示，距离1796-2可大于距离1795-2。基于接近度，来自用户设备102-2的命令可被发至第一机顶盒1792-2，该第一机顶盒为最近的设备并且最有可能匹配用户的意图。在一些示例中，单个遥控器106-2还可用于控制多于一个机顶盒。可基于接近度来确定用于在给定时间进行控制的所需设备。可确定(或估计)到第二机顶盒1794-2的距离1797-2和到第一机顶盒1792-2的距离1798-2。如图所示，距离1798-2可大于距离1797-2。基于接近度，来自遥控器106-2的命令可被发至第二机顶盒1794-2，该第二机顶盒为最近的设备并且最有可能匹配用户的意图。可定期地或用每个命令刷新距离测量结果，以适应例如用户移动到不同的房间以及期望控制不同的设备。

应当理解，用户可针对命令指定不同的设备，在一些情况下覆写接近度。例如，可在用户设备102-2上显示可用显示设备的列表(例如，通过设置名称、指定房间等列出第一显示器1786-2和第二显示器1788-2，或通过设置名称、指定房间等列出第一机顶盒1792-2和第二机顶盒1794-2)。用户可从列表中选择设备中的一个设备，并且然后可将命令发送到所选择的设备。然后，可通过在所选择的设备上显示期望的媒体来处理在用户设备102-2处发出的对媒体内容的请求。在其他示例中，用户可讲出期望的设备作为口头命令的一部分(例如，在厨房电视上显示比赛，变化到客厅中的卡通频道等)。

在其他示例中，可基于与特定设备相关联的状态信息来确定用于显示所请求的媒体内容的默认设备。例如，可确定耳机(或头戴式耳机)是否附接到用户设备102-2。响应于确定当接收到显示媒体内容的请求时耳机附接到用户设备102-2，可默认(例如，假设用户正在用户设备102-2上而不是在电视上消费内容)在用户设备102-2上显示所请求的内容。响应于确定当接收到显示媒体内容的请求时耳机未附接到用户设备102-2，可根据本文所讨论的各种确定方法中的任一种方法来在用户设备102-2上或在电视机上显示所请求的内容。可类似地使用其他设备状态信息来确定所请求的媒体内容是应该在用户设备102-2上还是机顶盒104-2上显示，该其他设备状态信息诸如用户设备102-2或机顶盒104-2周围的环境照明、其他设备到用户设备102-2或机顶盒104-2的接近度、用户设备102-2的取向(例如，横向取向更可能指示期望在用户设备102-2上观看)、机顶盒104-2的显示状态(例如，处于休眠模式)、自特定设备上最后一次交互以来的时间、或者用于用户设备102-2和/或机顶盒104-2的各种其他状态指示符中的任一状态指示符。

图36示出了使用虚拟助理和多个用户设备来控制电视交互的示例性过程1800-2。在框1802-2处，可在具有第一显示器的第一设备处从用户接收语音输入。例如，可在系统100-2的用户设备102-2或遥控器106-2处从用户接收语音输入。在一些示例中，第一显示器可包括用户设备102-2的触摸屏246-2或与遥控器106-2相关联的显示器。

在框1804-2处，可基于第一显示器上所显示的内容来从语音输入确定用户意图。例如，可对内容(诸如图29的界面1150-2中的电视节目1152-2或者图31的界面1360-2中的照片和视频)进行分析，并将其用于确定用于语音输入的用户意图。在一些示例中，用户可以模糊的方式引用在第一显示器上所示的内容，并且可通过分析在第一显示器上所示的内容来对引用进行消歧，以解析引用(例如，确定“那个”视频、“那个”相册、“那个”比赛等的用户意图)，如上面参考图30和图32所讨论的。

再次参考图36的过程1800-2，在框1806-2处，可基于用户意图来确定媒体内容。例如，可基于用户意图来识别特定视频、照片、相册、电视节目、体育赛事、音乐曲目等。在上文所讨论的图29和图30的示例中，例如可基于用户意图是指图29的界面1150-2中所示的“那个”足球比赛来识别在频道五上所示的特定足球比赛。在上文所讨论的图31和图32的示例中，可基于从图32的语音输入示例确定的用户意图来识别标题为“毕业视频”的特定视频1362-2、标题为“毕业相册”的特定相册1364-2或特定照片1366-2。

再次参考图36的过程1800-2，在框1808-2处，可在与第二显示器相关联的第二设备上播放媒体内容。例如，可经由电视机顶盒104-2在具有扬声器111-2的显示器112-2上播放所确定的媒体内容。播放媒体内容可包括在电视机顶盒104-2或另一装置上调谐到特定电视频道、播放特定视频、显示照片幻灯片、显示特定照片、播放特定音轨等。

在一些示例中，可确定对针对虚拟助理的语音输入的响应是应当被显示在与第一设备(例如，用户设备102-2)相关联的第一显示器上还是应当被显示在与第二设备(例如，电视机顶盒104-2)相关联的第二显示器上。例如，如上面参考图33和图34所讨论的，适于在较小屏幕上显示的信息性回答或媒体内容可被显示在用户设备102-2上，而适于在较大屏幕上显示的媒体响应或媒体内容可被显示在与机顶盒104-2相关联的显示器上。如上面参考图35所讨论的，在一些示例中，用户设备102-2和多个机顶盒之间的距离可用于确定在哪个机顶盒上播放媒体内容或者向哪个机顶盒发出命令。类似地，可作出各种其他确定，以提供可多个设备交互的方便且用户友好的体验。

在一些示例中，由于在用户设备102-2上所示的内容可如上所述用于告知对语音输入的解译，因此在显示器112-2上所示的内容同样可用于告知对语音输入的解译。具体地，在与电视机顶盒104-2相关联的显示器上所示的内容可连同与该内容相关联的元数据一起用于从语音输入确定用户意图、对用户查询进行消歧、对内容相关的查询进行响应等。

图37示出了具有关于在背景中所示的视频480-2的虚拟助理查询的示例性语音输入界面484-2(如上所述)。在一些示例中，用户查询可包括关于在显示器112-2上所示的媒体内容的问题。例如，转录1916-2包括请求识别女演员的查询(“那些女演员是谁？”)。在显示器112-2上所示的内容(连同关于内容的元数据或其他描述性信息)可用于从与该内容相关的语音输入确定用户意图，还可用于确定对查询的响应(响应包括信息性响应以及向用户提供媒体选择的媒体响应)。例如，可使用视频480-2、对视频480-2的描述、视频480-2的人物和演员列表、视频480-2的评级信息、视频480-2的分类信息、以及与视频480-2相关联的多种其他描述性信息来对用户请求进行消歧并确定对用户查询的响应。相关联的元数据可包括例如人物1910-2、人物1912-2和人物1914-2的识别信息(例如，人物名称以及扮演人物的女演员的名称)。任何其他内容的元数据可类似地包括与显示器上所示内容相关联的标题、描述、人物列表、演员列表、队员列表、分类、制作人名称、导演名称或显示时间表，或者显示器上的媒体内容的观看历史(例如，最近显示的媒体)。

在一个示例中，针对虚拟助理的用户查询可包括对在显示器112-2上所示的某些内容的模糊引用。例如，转录1916-2包括对“那些”女演员的引用(“那些女演员是谁？”)。单从语音输入来看，用户正在询问的具体女演员可能并不清楚。然而，在一些示例中，在显示器112-2上所示的内容和相关联的元数据可用于对用户请求进行消歧并确定用户意图。在例示的示例中，在显示器112-2上所示的内容可用于从对“那些”女演员的引用来确定用户意图。在一个示例中，电视机顶盒104-2可识别正在播放的内容以及与内容相关联的详情。在这种情况下，电视机顶盒104-2可识别视频480-2的标题以及多种描述性内容。在其他示例中，可示出可与相关联的元数据结合以用于确定用户意图的电视节目、体育赛事或其他内容。另外，在本文所讨论的各种示例中的任一个示例中，相比于另选项，语音识别结果和意图确定可给予与所显示的内容相关联的项更高的权重。例如，屏幕人物的演员名称在那些演员出现在屏幕上时(或者在有他们出现的节目正在播放时)可被加以更高的权重，这可提供以用于对与所显示的内容相关联的可能的用户请求进行准确的语音识别和意图确定。

在一个示例中，与视频480-2相关联的人物和/或演员列表可用于识别视频480-2中出现的所有或最突出的女演员，其可包括女演员1910-2,1912-2和1914-2。可返回所识别的女演员作为可能的结果(如果元数据分辨率粗糙，则包括较少或更多的女演员)。然而，在另一示例中，与视频480-2相关联的元数据可包括对在给定时间在屏幕上出现哪些演员和女演员的识别，并且可从该元数据确定在查询的时间出现的女演员(例如，具体识别的女演员1910-2,1912-2和1914-2)。在又一示例中，可将面部识别应用程序用于从显示器112-2上所示的图像识别女演员1910-2,1912-2和1914-2。在其他示例中，可将与视频480-2和各种其他识别方法相关联的各种其他元数据用于识别用户引用“那些”女演员的可能意图。

在一些示例中，在显示器112-2上所示的内容可在提交查询和确定响应的过程中改变。如此，可将媒体内容的观看历史用于确定用户意图并确定对查询的响应。例如，如果视频480-2在生成对查询的响应之前移动到(例如，具有其他人物的)另一视图，则可基于用户在说出查询时的视图来确定查询的结果(例如，用户发起查询时屏幕上显示的人物)。在某些情况下，用户可暂停播放媒体以发出查询，并且在暂停时示出的内容可与相关联的元数据一起用于确定用户意图和对查询的响应。

给定所确定的用户意图之后，则可向用户提供查询的结果。图38示出了包括助理响应2020-2的示例性助理响应界面2018-2，该助理响应可包括从图37的转录1916-2的查询确定的响应。如图所示，助理响应2020-2可包括视频480-2中的每个女演员的名称及其相关人物的列表(“女演员Jennifer Jones扮演人物Blanche；女演员Elizabeth Arnold扮演人物Julia；并且女演员Whitney Davidson扮演人物Melissa。”)。在响应2020-2中所列出的女演员和人物可对应于出现在显示器112-2上的人物1910-2,1912-2和1914-2。如上所述，在一些示例中，在显示器112-2上所示的内容可在提交查询和确定响应的过程中改变。因此，响应2020-2可包括关于可能不会再出现在显示器112-2上的内容或人物的信息。

如被显示在显示器112-2上的其他界面一样，助理响应界面2018-2可占据最小量的屏幕实际使用空间，同时提供足够的空间来传达所需信息。在一些示例中，如在显示器112-2上的界面中显示的其他文本一样，助理响应2020-2可从显示器112-2的底部向上滚动到图38所示的位置，显示一定量的时间(例如，基于响应长度的延迟)，并且向上滚动到视图外。在其他示例中，界面2018-2可在延迟之后向下滑动到视图之外。

图39和图40示出了基于在显示器112-2上所显示的内容来确定用户意图和响应查询的另一示例。图39示出了包含针对与视频480-2相关联的媒体内容的虚拟助理查询的示例性语音输入界面484-2。在一些示例中，用户查询可包括对与在显示器112-2上所示的媒体相关联的媒体内容的请求。例如，用户可基于例如人物、演员、分类等来请求与特定媒体相关联的其他电影、电视节目、体育赛事等。例如，转录2122-2包括请求与视频480-2中的女演员相关联的其他媒体的查询，其中通过该女演员在视频480-2中的人物名称来对其进行引用(“Blanche还出演过什么？”)。在显示器112-2上所示的内容(连同关于内容的元数据或其他描述性信息)可再次用于从与该内容相关的语音输入确定用户意图，还可用于确定对查询的响应(信息性响应或导致媒体选择的响应)。

在一些示例中，针对虚拟助理的用户查询可包括使用人物名称、演员名称、节目名称、队员名称等进行的模糊引用。在没有在显示器112-2上所示的内容及其相关联元数据的上下文，此类引用可难以精确解析。例如，转录2122-2包括对来自视频480-2的名为“Blanche”的人物的引用。单从语音输入来看，用户正在询问的具体女演员或其他个体可能并不清楚。然而，在一些示例中，在显示器112-2上所示的内容和相关联的元数据可用于对用户请求进行消歧并确定用户意图。在例示的示例中，在显示器112-2上所示的内容和相关联的元数据可用于从人物名称“Blanche”确定用户意图。在这种情况下，与视频480-2相关联的人物列表可用于确定“Blanche”可能指代视频480-2中的人物“Blanche”。在另一示例中，可将详细的元数据和/或面部识别用于确定具有名称“Blanche”的人物出现在屏幕上(或者在用户查询发起时在屏幕上出现过)，使得与那个人物相关联的女演员为最可能的用户查询意图。例如，可确定人物1910-2,1912-2和1914-2出现在显示器112-2上(或者在用户查询发起时在显示器112-2上出现过)，并且然后可引用其相关联的人物名称来确定引用人物Blanche的查询的用户意图。然后，可使用演员列表来识别扮演Blanche的女演员，并且可进行搜索以识别有所识别的女演员出现的其他媒体。

给定所确定的用户意图(例如，对人物引用“Blanche”的解析)和查询结果确定(例如，与扮演“Blanche”的女演员相关联的其他媒体)之后，可向用户提供响应。图40示出了包括助理文本响应2226-2和可选视频链接2228-2的示例性助理响应界面2224-2，其可响应于对图39的转录2122-2的查询。如图所示，助理文本响应2226-2可包括对引入可选视频链接2228-2的用户请求的改述。助理文本响应2226-2还可包括对用户查询进行消歧的指示(具体地，将女演员Jennifer Jones识别为扮演视频480-2中的人物Blanche)。此类改述可向用户确认虚拟助理正确地解译了用户查询并且正在提供期望的结果。

助理响应界面2224-2还可包括可选视频链接2228-2。在一些示例中，可将各种类型的媒体内容提供为虚拟助理查询的结果，其包括电影(例如，界面2224-2的电影A和电影B)。作为查询的结果而显示的媒体内容可包括可供用户消费(免费、购买或作为订阅的一部分)的媒体。用户可选择所显示的媒体来观看或消费所得到的内容。例如，用户可(例如，使用遥控器、语音命令等)选择可选视频链接2228-2中的一个可选视频链接以观看有演员Jennifer Jones在其中出现的其他电影中的一个电影。响应于对可选视频链接2228-2中的一个可选视频链接的选择，可播放与该选择相关联的视频，从而替换显示器112-2上的视频480-2。因此，所显示的媒体内容和相关联的元数据可用于从语音输入确定用户意图，并且在一些示例中，可提供可播放媒体作为结果。

应当理解，用户可在形成查询时引用演员、队员、人物、位置、团队、体育赛事详情、电影主题、或者与所显示的内容相关联的各种其他信息，并且虚拟助理系统可类似地对此类请求进行消歧并基于所显示的内容和相关联元数据来确定用户意图。同样地，应当理解，在一些示例中，结果可包括与查询相关联的媒体建议，诸如与作为查询的主题的人相关联的电影、电视节目、或体育赛事(无论用户是否特别地请求此类媒体内容)。

此外，在一些示例中，用户查询可包括对与媒体内容本身相关联的信息的请求，诸如关于人物、剧集、电影剧情、先前场景等的查询。与上面所讨论的示例一样，所显示的内容和相关联的元数据可用于从此类查询确定用户意图并确定响应。例如，用户可请求对人物的描述(例如，“Blanche在这部电影中是做什么的？”)。然后，虚拟助理系统可从与所显示的内容相关联的元数据识别关于人物的所请求的信息，诸如人物描述或角色(例如，“Blanche是一群律师中的一个律师并且被称为Hartford的麻烦制造者。”)。类似地，用户可请求剧集概要(例如，“在上一集中发生了什么？”)，而虚拟助理系统可搜索并提供对情节的描述。

在一些示例中，被显示在显示器112-2上的内容可包括菜单内容，并且此类菜单内容可类似地用于确定语音输入的用户意图和对用户查询的响应。图41A至图41B示出了节目菜单830-2的示例性页面。图41A示出了媒体选项832-2的第一页面，并且图41B示出了媒体选项832-2的第二页面(其可包括延伸超出单个页面的内容列表中的连续的下一页)。

在一个示例中，用于播放内容的用户请求可包括对在菜单830-2中显示器112-2上所示的某些内容的模糊引用。例如，用于查看菜单830-2的用户可请求观看“那个”足球比赛、“那个”篮球比赛、真空吸尘器广告、法律节目等。单从语音输入来看，所期望的特定节目可能并不清楚。然而，在一些示例中，在显示器112-2上所示的内容可用于对用户请求进行消歧并确定用户意图。在例示的示例中，菜单830-2中的媒体选项(在一些示例中，以及与媒体选项相关联的元数据)可用于从包括模糊引用的命令确定用户意图。例如，“那个”足球比赛可被解析为体育频道上的足球比赛。“那个”篮球比赛可被解析为大学体育频道上的篮球比赛。真空吸尘器广告可(例如，基于与描述真空吸尘器的节目相关联的元数据)被解析为付费播出的节目。法律节目可基于与节目相关联的元数据和/或同义词匹配、模糊匹配或其他匹配技术而被解析为法庭剧。因此，显示器112-2上的菜单830-2中的各种媒体选项832-2的出现可用于对用户请求进行消歧。

在一些示例中，所显示的菜单可利用光标、操纵杆、箭头、按钮、手势等来进行导航。在此类情况下，可在所选择的项目上显示焦点。例如，可通过以粗体、带下划线、以边界勾勒、以大于其他菜单项的尺寸、带阴影、带倒影、发光和/或带任何其他特征显示所选择的项目来强调被选中并具有焦点的菜单项。例如，图41A中的所选择的媒体选项2330-2作为当前选择的媒体选项可具有焦点，并且利用大号、带下划线的字体以及边框来显示。

在一些示例中，用于播放内容或选择菜单项的请求可包括对具有焦点的菜单项的模糊引用。例如，观看图41A所示菜单830-2的用户可请求播放“那个”节目(例如，“播放那个节目。”)。类似地，用户可请求与具有焦点的菜单项相关联的各种其他命令，诸如播放、删除、隐藏、提醒我观看、记录等。单从语音输入来看，所期望的特定菜单项或节目可能并不清楚。然而，在显示器112-2上所示的内容可用于对用户请求进行消歧并确定用户意图。具体地，所选择的媒体选项2330-2在菜单830-2中具有焦点的事实可用于识别以下命令中的任一种命令所期望的媒体主题：引用“那个”项目的命令、没有主题的命令(例如，播放、删除、隐藏等)、或者引用具有焦点的媒体内容的任何其他模糊命令。因此，具有焦点的菜单项可用于从语音输入确定用户意图。

如可用于对用户请求进行消歧的媒体内容的观看历史(例如，在用户发起请求时显示但是后来已经过去的内容)一样，先前显示的菜单或搜索结果内容可类似地用于在继续移动(例如，移动至稍后的菜单或搜索结果内容)之后可用于对稍后用户请求进行消歧。例如，图41B示出了具有附加媒体选项832-2的菜单830-2的第二页面。用户可前进到图41B所示的第二页面，但回头引用在图41A所示的第一页面中所示出的内容(例如，图41A中所示媒体选项832-2)。例如，尽管已移动到菜单830-2的第二页面，但用户可请求观看“那个”足球比赛、“那个”篮球比赛或法律节目，所有这些都是最近显示在菜单830-2的前一页面上的媒体选项832-2。这种引用可以是模糊的，但是可使用来自菜单830-2第一页面的最近显示的菜单内容来确定用户意图。具体地，可分析图41A的最近显示的媒体选项832-2，以识别在模糊示例请求中引用的特定足球比赛、篮球比赛或法庭剧。在一些示例中，可基于内容是多久显示的来偏置结果(例如，对最近查看的结果页面的加权超过较早查看的结果)。这样，最近在显示器112-2上所示的内容的观看历史可用于确定用户意图。应当理解，可使用任何最近显示的内容，诸如先前显示的搜索结果、先前显示的节目、先前显示的菜单等。这可允许用户返回到他们之前看到的某些内容而不必找到并导航到他们看到该内容的特定视图。

在其他示例中，显示器112-2上的菜单或结果列表中所示的各种显示提示可用于对用户请求进行消歧并确定用户意图。图42示出了被划分为多个类别的示例性媒体菜单，其中一个类别的示例性媒体菜单具有焦点(电影)。图42示出了可包括经归类的媒体选项的旋转台式界面的类别界面2440-2，该经归类的媒体选项包括电视选项2442-2、电影选项2444-2和音乐选项2446-2。如图所示，音乐类别仅被部分地显示，并且可偏移旋转台界面以向右显示附加内容(例如，如箭头所示)，就像在旋转台中旋转媒体一样。在例示的示例中，电影类别具有由带下划线的标题和边框所指示的焦点，但是可以多种其他方式中的任一种方式来指示焦点(例如，使得该类别比其他类别更大，以显得接近用户、发光等)。

在一些示例中，用于播放内容或选择菜单项的请求可包括对一组项目(例如类别)中的菜单项的模糊引用。例如，查看类别界面2440-2的用户可请求播放足球节目(“播放足球节目。”)。单从语音输入来看，所期望的特定菜单项或节目可能并不清楚。此外，查询可解析为在显示器112-2上显示的多于一个节目。例如，对足球节目的请求可指在电视节目类别中所列出的足球比赛或在电影类别中所列出的足球电影。在显示器112-2上所示的内容(包括显示提示)可用于对用户请求进行消歧并确定用户意图。具体地，电影类别在类别界面2440-2中具有焦点的事实可用于识别所期望的特定足球节目，如果焦点在电影类别上，则所期望的特定足球节目很可能是足球电影。因此，具有如在显示器112-2上所示焦点的媒体类别(或任何其他媒体分组)可用于从语音输入确定用户意图。还应当理解，用户可作出与类别相关联的各种其他请求，诸如请求显示某些类别内容(例如，为我显示喜剧电影，为我显示恐怖电影，等等)。

在其他示例中，用户可以各种其他方式来引用在显示器112-2上所示的菜单或媒体项，并且可类似地基于所显示的内容来确定用户意图。应当理解，与显示内容相关联的元数据(例如，电视节目描述、电影描述等)、模糊匹配技术、同义词匹配等还可与所显示的内容结合以从语音输入确定用户意图。因此，可适应各种形式的用户请求(包括自然语言请求)，并且可根据本文所讨论的各种示例来确定用户意图。

应当理解，在确定用户意图时，在显示器112-2上所显示的内容可单独使用，或者与在用户设备102-2上或在与遥控器106-2相关联的显示器上所显示的内容结合使用。同样地，应当理解，可在通信地耦接至电视机顶盒104-2的各种设备中的任一设备处接收虚拟助理查询，并且不管是哪个设备接收查询，均可使用被显示在显示器112-2上的内容来确定用户意图。查询结果同样可被显示在显示器112-2上或另一显示器上(例如，在用户设备102-2上)。

另外，在本文所讨论的各种示例中的任一个示例中，虚拟助理系统可在不需要用户特别地打开菜单并导航到菜单项的情况下对菜单进行导航并选择菜单选项。例如，选项菜单可在选择媒体内容或菜单按钮(诸如选择图42中的电影选项2444-2)之后出现。菜单选项可包括播放媒体以及简单地播放媒体的另选形式，诸如设置提醒稍后观看媒体、建立媒体记录、将媒体添加到收藏列表、从另外的视图隐藏媒体等。用户在查看具有子菜单选项的菜单或内容上的内容时，可发出虚拟助理命令，否则将需要导航到菜单或子菜单以进行选择。例如，查看图42的类别界面2440-2的用户可发出与电影选项2444-2相关联的任何菜单命令，而无需手动打开相关联的菜单。例如，用户可请求将足球电影添加到收藏列表、记录夜间新闻以及设置提醒以观看电影B，而无需导航到与那些媒体选项相关联的菜单或子菜单(此类命令在其中可能可用)。因此，虚拟助理系统可导航菜单和子菜单，以便代表用户来执行命令，而无论这些菜单选项是否出现在显示器112-2上。这可简化用户请求并减少用户必须进行以实现所需菜单功能的点击或选择的数量。

图43示出了使用显在示器上所示的媒体内容和媒体内容观看历史来控制电视交互的示例性过程2500-2。在框2502-2处，可接收从用户接收语音输入，该语音输入包括与在电视显示器上所示的内容相关联的查询。例如，语音输入可包括关于出现在系统100-2的显示器112-2(由电视机顶盒104-2示出)上的人物、演员、电影、电视节目、体育赛事、队员等的查询。图37的转录1916-2例如包括与在显示器112-2上的视频480-2中所示的女演员相关联的查询。类似地，图39的转录2122-2包括与在显示器112-2上所示的视频480-2中的人物相关联的查询。语音输入还可包括与出现在显示器112-2上的菜单或搜索内容相关联的查询，诸如用于选择特定菜单项或获取关于特定搜索结果的信息的查询。例如，所显示的菜单内容可包括图41A和图41B中的菜单830-2的媒体选项832-2。所显示的菜单内容同样可包括出现在图42的类别界面2440-2中的电视选项2442-2、电影选项2444-2和/或音乐选项2446-2。

再次参考图43的过程2500-2，在框2504-2处，可基于所示的内容和媒体内容的观看历史来确定查询的用户意图。例如，可基于电视节目、体育赛事、电影等所显示或最近显示的场景来确定用户意图。还可基于所显示或最近显示的菜单或搜索内容来确定用户意图。还可将所显示的内容连同与该内容相关联的元数据一起进行分析，以确定用户意图。例如，参考图37、图39、图41A、图41B和图42所示和所述的内容可单独使用，或者结合与所显示的内容相关联的元数据一起使用，以确定用户意图。

在框2506-2处，可基于所确定的用户意图来显示查询的结果。例如，与图38所示的助理响应界面2018-2中的助理响应2020-2相似的结果可被显示在显示器112-2上。在另一个示例中，可提供文本和可选媒体作为结果，诸如图40所示的助理响应界面2224-2中的助理文本响应2226-2和可选视频链接2228-2。再如，显示查询结果可包括显示或播放所选择的媒体内容(例如，经由电视机顶盒104-2在显示器112-2上播放所选择的视频)。因此，可使用所显示的内容和相关联的元数据作为上下文以各种方式从语音输入确定用户意图。

在一些示例中，可向用户提供虚拟助理查询建议，以例如告知用户可用的查询、建议用户可能喜欢的内容、教导用户如何使用系统、鼓励用户查找附加媒体消费的内容，等等。在一些示例中，查询建议可包括可能命令的通用建议(例如，查找喜剧，为我显示电视指南，搜索动作电影，打开隐藏式字幕，等等)。在其他示例中，查询建议可包括与所显示的内容相关的目标建议(例如，将该节目添加到观看列表，通过社交媒体分享该节目，为我显示该电影的原声带，为我显示该嘉宾正在出售的书，为我显示那个嘉宾正在推荐的电影的预告片等)、用户偏好(例如，隐藏式字幕使用等)、用户拥有的内容、被存储在用户设备上的内容、通知、警报、媒体内容的观看历史(例如，最近显示的菜单项、最近显示的演出场景、演员最近的出场等)等。可在任何设备上显示建议，包括经由电视机顶盒104-2来在显示器112-2上、在用户设备102-2上、或在与遥控器106-2相关联的显示器上显示建议。另外，可基于在特定时间哪些设备在附近并/或与电视机顶盒104-2进行通信来确定建议(例如，从在特定时间在房间中观看电视的用户的设备建议内容)。在其他示例中，可基于各种其他上下文信息来确定建议，该其他上下文信息包括一天中的时间、源自群众的信息(例如，在给定时间观看的流行节目)、直播的节目(例如，直播体育赛事)、媒体内容的观看历史(例如，观看的最后几个节目、最近观看的搜索结果组、最近观看的媒体选项组等)、或多种其他上下文信息中的任一种其他上下文信息。

图44示出了包括基于内容的虚拟助理查询建议2652-2的示例性建议界面2650-2。在一个示例中，可在界面(诸如界面2650-2)中响应于从请求建议的用户处接收的输入来提供查询建议。可例如从用户设备102-2或遥控器106-2接收用于请求查询建议的输入。在一些示例中，输入可包括在用户设备102-2或遥控器106-2处接收的按钮按压、按钮双击、菜单选择、语音命令(例如，为我显示一些建议，你能为我做什么，有些什么选项等)等。例如，用户可双击遥控器106-2上的物理按钮来请求查询建议，或者可在查看与电视机顶盒104-2相关联的界面时双击用户设备102-2上的物理或虚拟按钮来请求查询建议。

建议界面2650-2可被显示在移动图像诸如视频480-2上方，或可被显示在任何其他背景内容(例如，菜单、静止图像、暂停的视频等)上方。如本文所讨论的其他界面一样，建议界面2650-2可以动画形式从显示器112-2的底部向上滑动，并且可在充分传达所需信息时占据最小量的空间，以便限制对背景中的视频480-2的干扰。在其他示例中，当背景内容静止时(例如，暂停的视频、菜单、图像等)，可提供更大的建议界面。

在一些示例中，可基于所显示的媒体内容或媒体内容的观看历史(例如，电影、电视节目、体育赛事、最近观看的节目、最近查看的菜单、最近观看的电影场景、正在播放的电视剧的最近场景等)来确定虚拟助理查询建议。例如，图44示出了可基于在背景中示出的所显示视频480-2来确定的基于内容的建议2652-2，其中人物1910-2,1912-2和1914-2出现在显示器112-2上。与所显示的内容相关联的元数据(例如，媒体内容的描述性详情)也可用于确定查询建议。元数据可包括与所显示的内容相关联的各种信息，其包括节目标题、人物列表、演员列表、剧集描述、团队名单、团队排名、节目概要、电影详情、剧情描述、导演名称、制作人名称、演员出场时间、体育比赛、体育比分、分类、季集列表、相关媒体内容、或各种其他相关联的信息。例如，与视频480-2相关联的元数据可包括人物1910-2,1912-2和1914-2的人物名称以及扮演这些人物的女演员。元数据还可包对视频480-2的剧情描述、对前一集或下一集的描述(其中视频480-2是电视连续剧中的一集)等。

图44示出了可基于视频480-2和与视频480-2相关联的元数据在建议界面2650-2中示出的各种基于内容的建议2652-2。例如，视频480-2的人物1910-2可被命名为“Blanche”，并且人物名称可用于制定关于人物Blanche或扮演该人物的女演员的信息的查询建议(例如，“扮演Blanche的女演员是谁？”)。可根据与视频480-2相关联的元数据(例如，人物列表、演员列表、与演员出场相关联的时间等)来识别人物1910-2。在其他示例中，面部识别可用于识别在给定时间出现在显示器112-2上的女演员和/或人物。可提供与媒体本身中的人物相关联的各种其他查询建议，诸如与人物角色、个人资料信息、与其他人物的关系等相关的查询。

在另一示例中，可(例如，基于元数据和/或面部识别)识别出现在显示器112-2上的演员或女演员，并且可提供与该演员或女演员相关联的查询建议。此类查询建议可包括所扮演的一个或多个角色、表演奖项、年龄、有其出现的其他媒体、历史、家庭成员、人际关系或者关于演员、或女演员的各种其他详情中的任一个其他详情。例如，人物1914-2可由名为Whitney Davidson的女演员扮演，并且女演员的名称Whitney Davidson可用于制定查询建议以识别有女演员Whitney Davidson出现的其他电影、电视节目或其他媒体(例如，“Whitney Davidson还出演过什么？”)。

在其他示例中，关于节目的详情可用于制定查询建议。可使用剧集概要、剧情简介、剧集列表、剧集标题、系列标题等制定查询建议。例如，可提供建议以描述在电视节目的上一集中发生的事件(例如，“上一集中发生了什么？”)，虚拟助理系统可向其提供前一集的剧集概要作为响应，该前一集是基于当前显示器112-2上显示的剧集(及其相关联的元数据)识别的。在另一个示例中，可提供建议以设置记录下一集，这可通过系统基于在显示器112-2上所示的当前播放剧集识别下一集来实现。再如，可提供建议以获取关于出现在显示器112-2上的当前剧集或节目的信息，并且可使用从元数据获取的节目的标题来制定查询建议(例如，“这集‘Their Show’的内容是什么？”或“‘Their Show’的内容是什么？”)。

在另一示例中，可使用与所显示的内容相关联的类别、分类、评级、奖项、描述等来制定查询建议。例如，视频480-2可对应于被描述为具有女性主角的喜剧的电视节目。可根据该信息来制定查询建议，以识别具有类似特征的其他节目(例如，“为我查找有女主角的其他喜剧。”)。在其他示例中，可基于用户订阅、可用于回放的内容(例如，电视机顶盒104-2上的内容、用户设备102-2上的内容、可用于流传输的内容等)等来确定建议。例如，可基于信息性或媒体结果是否可用来筛选可能的查询建议。可排除可能不会得到可播放媒体内容或信息性回答的查询建议，和/或可提供具有易得信息性回答或可播放媒体内容的查询建议(或在确定要提供哪些建议时更重地加权)。因此，可以多种方式使用所显示的内容和相关联的元数据来确定查询建议。

图45示出了用于确认对所建议查询的选择的示例性选择界面2754-2。在一些示例中，用户可通过说出查询、利用按钮选择查询、利用光标导航到查询等来选择所显示的查询建议。响应于选择，可在确认界面(诸如选择界面2754-2)中简要地显示所选择的建议。在一个示例中，所选择的建议2756-2可以动画形式从其在建议界面2650-2中出现的任何位置移动到图45所示的命令接收确认490-2旁边的位置(例如，如箭头所示)，并且可从显示器中隐藏其他未选择的建议。

图46A至图46B示出了基于所选择的查询的示例性虚拟助理回答界面2862-2。在一些示例中，对所选择的查询的信息性回答可被显示在回答界面诸如回答界面2862-2中。在从建议界面2650-2或选择界面2754-2切换时，可示出如图46A所示的过渡界面2858-2。具体地，当下一内容从显示器112-2的底部向上滚动时，界面内的先前所显示的内容可向上滚动离开界面。例如，所选择的建议2756-2可向上滑动或向上滚动，直到其在虚拟助理界面的顶部边缘消失，并且助理结果2860-2可从显示器112-2的底部向上滑动或滚动，直到其到达如图46B所示的位置。

回答界面2862-2可包括响应于所选择的查询建议(或响应于任何其他查询)的信息性回答和/或媒体结果。例如，响应于所选择的查询建议2756-2，可确定和提供助理结果2860-2。具体地，响应于对先前剧集概要的请求，可基于所显示的内容来识别先前剧集，并且可识别相关联的描述或概要并将其提供至用户。在例示的示例中，助理结果2860-2可描述与显示器112-2上的视频480-2对应的节目的上一集(例如，“在第203-2集‘Their Show’中，Blanche受邀作为嘉宾到大学心理学课程上演讲，Julia和Melissa突然露面，引起骚动。”)。信息性回答和媒体结果(例如，可选视频链接)也可以本文所讨论的任何其他方式呈现，或者结果可以各种其他方式呈现(例如，大声朗读回答、立即播放内容、显示动画、显示图像等)。

在另一示例中，可使用通知或警报来确定虚拟助理查询建议。图47示出了媒体内容通知2964-2(但在确定建议时可考虑任何通知)和建议界面2650-2，该建议界面具有基于通知的建议2966-2和基于内容的建议2652-2两者(其可包括与上面参考图44所讨论的相同的一些概念)。在一些示例中，可分析通知的内容以识别相关媒体的相关名称、标题、主题、动作等。在例示的示例中，通知2964-2包括通知用户关于可用于显示的另选媒体内容的警报——具体地，体育赛事是直播的，并且比赛的内容可能是用户感兴趣的(例如，“比赛还剩五分钟，Zeta队和Alpha队打成平局。”)。在一些示例中，可在显示器112-2的顶部暂时显示通知。通知可从显示器112-2的顶部向下滑动(如箭头所示)到图47所示的位置，显示一段时间，并且滑回到显示器112-2的顶部再次消失。

通知或警报可向用户通知各种信息，诸如可用的另选媒体内容(例如，当前可在显示器112-2上示出的替代物)、可用的直播电视节目、新下载的媒体内容、最近添加的订阅内容、从朋友处接收的建议、从另一设备发送的对媒体的接收等。还可基于家庭或所识别的用户观看媒体(例如，基于使用帐户选择的用户认证、语音识别、口令等来识别)来使通知个性化。在一个示例中，系统可中断显示并基于可能期望的内容来显示通知，诸如基于用户个人资料信息、喜爱的一个或多个团队、偏好的一种或多种体育运动、观看历史等为可能期望通知内容的用户显示通知2964-2。例如，可从体育数据馈送、新闻发布、社交媒体讨论等获取体育赛事得分、比赛状态、剩余时间等，并且可用于识别可能的另选媒体内容以通知用户。

在其他示例中，可经由警报或通知来提供(例如，在多名用户中)流行的媒体内容，以建议当前所观看内容的替代物(例如，通知用户流行的节目或用户喜欢的分类中刚刚开始的节目或以其他方式可用于观看的节目)。在例示的示例中，用户可追踪Zeta队和Alpha队中的一者或两者(或者可追踪足球或特定的运动、联盟等)。系统可确定可用的直播内容匹配用户的偏好(例如，另一频道上的比赛匹配用户的偏好，比赛几乎没有剩余时间，并且比分接近)。然后，系统可确定经由通知2964-2警告用户可能期望的内容。在一些示例中，用户可(例如，使用遥控按钮、光标、语音请求等)选择通知2964-2(或通知2964-2内的链接)来切换到建议的内容。

可通过分析通知内容来基于通知确定虚拟助理查询建议，以识别相关媒体的相关术语、名称、标题、主题、动作等。然后，可使用所识别的信息制定适当的虚拟助理查询建议，诸如基于通知2964-2的基于通知的建议2966-2。例如，可显示关于令人兴奋的直播体育赛事结尾的通知。然后，如果用户请求查询建议，则可显示建议界面2650-2，包括观看体育赛事、查询团队统计数据或者查找与通知相关的内容(例如，换到Zeta/Alpha比赛，Zeta队的统计数据如何，另外还有哪些足球比赛在进行，等等)的查询建议。基于在通知中识别的感兴趣的特定术语，同样可确定各种其他查询建议并将其提供至用户。

还可从用户设备上的内容确定与媒体内容相关的虚拟助理查询建议(例如，用于经由电视机顶盒104-2消费)，并且还可在用户设备上提供建议。在一些示例中，可在连接到电视机顶盒104-2或与该电视机顶盒通信的用户设备上识别可播放设备内容。图48示出了界面1360-2中具有示例性图片和视频内容的用户设备102-2。可确定什么内容可用于在用户设备上回放，或者可能期望回放什么内容。例如，可基于活动应用程序(例如，照片和视频应用程序)来识别可播放媒体3068-2，或者可基于存储的内容来识别该可播放媒体是否显示在界面1360-2上(例如，在一些示例中可根据活动应用程序识别内容，或者在其他示例中在给定时间不显示)。可播放媒体3068-2可包括例如视频1362-2、相册1364-2和照片1366-2，其中每一者可包括可被传输到电视机顶盒104-2以用于显示或回放的个人用户内容。在其他示例中，存储或显示在用户设备102-2上的任何照片、视频、音乐、游戏界面、应用界面或其他媒体内容可被识别并用于确定查询建议。

在识别出可播放媒体3068-2的情况下，可确定虚拟助理查询建议并将其提供至用户。图49示出了用户设备102-2上的示例性电视助理界面3170-2，其包含基于可播放用户设备内容并且基于独立显示器(例如，与电视机顶盒104-2相关联的显示器112-2)上所示视频内容的虚拟助理查询建议。电视助理界面3170-2可包括专门用于与媒体内容和/或电视机顶盒104-2交互的虚拟助理界面。用户可通过例如在查看界面3170-2时双击物理按钮来请求用户设备102-2上的查询建议。其他输入可类似地用于指示对查询建议的请求。如图所示，助理问候3172-2可介绍所提供的查询建议(例如，“这是一些对于控制您电视体验的建议。”)。

用户设备102-2上所提供的虚拟助理查询建议可包括基于各种源设备的建议以及一般建议。例如，基于设备的建议3174-2可包括基于用户设备102-2上所存储内容(包括用户设备102-2上所显示的内容)的查询建议。基于内容的建议2652-2可基于与电视机顶盒104-2相关联的显示器112-2上所显示的内容。一般建议3176-2可包括可不与特定媒体内容或带有媒体内容的特定设备相关联的一般建议。

基于设备的建议3174-2可例如基于用户设备102-2上所识别的可播放内容(例如，视频、音乐、照片、游戏界面、应用界面等)来确定。在例示的示例中，可基于图48所示的可播放媒体3068-2来确定基于设备的建议3174-2。例如，假定相册1364-2被识别为可播放媒体3068-2，则可使用相册1364-2的详情制定查询。系统可将内容识别为可在幻灯片中显示的多张照片的相册，并且然后可(在一些情况下)使用相册的标题来制定查询建议，以示出特定相册的幻灯片，(例如，“通过幻灯片放映显示您照片中的‘毕业相册’”。)。在一些示例中，建议可包括内容来源的指示(例如，“您照片中的”，“Jennifer电话中的”，“Daniel平板电脑中的”等)。该建议还可使用其他详情来引用特定内容，例如查看特定日期以后的照片的建议(例如，显示您从6月21日起的照片)。在另一示例中，视频1362-2可被识别为可播放媒体3068-2，并且视频的标题(或其他识别信息)可用于制定播放视频的查询建议(例如，显示您视频中的“毕业视频”。)。

在其他示例中，可识别在其他连接的设备上可用的内容并将其用于制定虚拟助理查询建议。例如，可识别来自连接到公共电视机顶盒104-2的两个用户设备102-2中的每个用户设备的内容并将其用于制定虚拟助理查询建议。在一些示例中，用户可选择使哪些内容对于系统可见以供共享，并且可从系统中隐藏其他内容，以便不将其包括在查询建议中或以其他方式使其可用于回放。

在图49的界面3170-2中所示的基于内容的建议2652-2可例如基于在与电视机顶盒104-2相关联的显示器112-2上所显示的内容来确定。在一些示例中，基于内容的建议2652-2可以与上面参考图44所描述的相同的方式来确定。在例示的示例中，图49中所示的基于内容的建议2652-2可基于显示器112-2上所示的视频480-2(例如，如图44所示)。这样，可基于在任何数量的连接的设备上显示或可用的内容来导出虚拟助理查询建议。除了目标建议之外，可预先确定和提供一般建议3176-2(例如，为我显示指南，在进行的体育比赛有哪些，频道三在演什么，等等)。

图50示出了示例性建议界面2650-2，其包含在与电视机顶盒104-2相关联的显示器112-2上示出的基于所连接设备的建议3275-2以及基于内容的建议2652-2。在一些示例中，基于内容的建议2652-2可以与上面参考图44所描述的相同的方式来确定。如上所述，可基于任何数量的所连接设备上的内容来制定虚拟助理查询建议，并且可在任何数量的所连接设备上提供建议。图50示出了可从用户设备102-2上的内容导出的基于所连接设备的建议3275-2。例如，可在用户设备102-2上识别可播放内容，诸如图48中在界面1360-2中显示为可播放媒体3068-2的照片和视频内容。然后，可使用用户设备102-2上的所识别的可播放内容制定可在与电视机顶盒104-2相关联的显示器112-2上显示的建议。在一些示例中，基于所连接设备的建议3275-2可以与上面参考图49所描述的基于设备的建议3174-2相同的方式来确定。此外，如上所述，在一些示例中，识别源信息可包括在建议中，诸如在基于所连接设备的建议3275-2中所示的“Jake电话中的”。因此，可基于来自另一设备的内容(例如，所显示的内容、所存储的内容等)导出在一个设备上提供的虚拟助理查询建议。应当理解，所连接设备可包括电视机顶盒104-2和/或用户设备102-2能够访问的远程存储设备(例如，访问存储在云中的媒体内容以制定建议)。

应当理解，响应于对建议的请求，可提供来自各种源的虚拟助理查询建议的任何组合。例如，可随机组合来自各种源的建议，或者可基于流行度、用户偏好、选择历史等来呈现。此外，可以各种其他方式确定查询并且基于各种其他因素(诸如查询历史、用户偏好、查询流行度等)来呈现查询。另外，在一些示例中，可通过在延迟之后将显示的建议替换为新的另选建议来自动地循环查询建议。还应当理解，用户可通过例如轻击触摸屏、说出查询、使用导航键选择查询、使用按钮选择查询、使用光标选择查询等来选择任何界面上显示的建议，并且然后可提供相关联的响应(例如，信息和/或媒体响应)。

在各种示例中的任一个示例中，还可基于可用内容来筛选虚拟助理查询建议。例如，将得到不可用媒体内容(例如，没有有线电视订阅)或可不具有相关联的信息性回答的可能查询建议可被取消作为建议的资格并阻止显示。另一方面，将得到用户有权访问的可立即播放的媒体内容的可能查询建议可相对于其他可能建议被更重地加权或以其他方式被偏置以用于显示。这样，用于用户观看的媒体内容的可用性还可用于确定用于显示的虚拟助理查询建议。

另外，在各种示例中的任一个示例中，可替代建议或者除建议之外(例如，在建议界面2650-2中)提供预加载的查询回答。可基于个人使用和/或当前上下文来选择和提供这种预加载的查询回答。例如，观看特定节目的用户可轻击按钮、双击按钮、长按按钮等以接收建议。作为查询建议的替代或补充，可自动提供基于上下文的信息，诸如识别正在播放的歌曲或原声带(例如，“这首歌是Performance Piece”)、识别当前播放的剧集的演员成员(例如，“女演员Janet Quinn扮演Genevieve”)、识别类似媒体(例如，“节目Q与这个相似”)或提供本文所讨论的其他查询中的任何查询的结果。

此外，可在各种界面中的任一个界面中为用户提供对媒体内容进行评级的示能表示(例如，可选评级量表)，以向虚拟助理告知用户偏好。在其他示例中，用户可将评级信息作为自然语言命令讲出(例如，“我爱这个”、“我讨厌这个”、“我不喜欢这个节目”等)。在其他示例中，在本文所示和所述的各种界面中的任一者中，可提供各种其他功能性和信息性元素。例如，界面还可包括至重要功能和位置的链接，诸如搜索链接、购买链接、媒体链接等。在另一个示例中，界面还可包括基于当前播放内容(例如，选择类似内容)的对下一个要观看的其他内容的推荐。再如，界面还可包括基于个性化品味和/或近期活动(例如，基于用户评级、用户输入的偏好、最近观看的节目等选择内容)的对下一个要观看的其他内容的推荐。再如，界面还可包括用于用户交互的指令(例如，“按压并保持可与虚拟助理通话”、“轻击一次可获取建议”等)。在一些示例中，提供预加载的回答、建议等可提供愉快的用户体验，同时使得内容对于各种各样的用户(例如，不论语言或其他控制障碍，对于各种技能水平的用户)来说都是易得的。

图51示出了建议用于控制媒体内容的虚拟助理交互(例如，虚拟助理查询)的示例性过程3300-2。在框3302-2处，可在显示器上显示媒体内容。例如，如图44所示，可经由电视机顶盒104-2在显示器112-2上显示视频480-2，或者可如图48所示在用户设备102-2的触摸屏246-2上显示界面1360-2。在框3304-2处，可从用户接收输入。输入可包括对虚拟助理查询建议的请求。输入可包括按钮按压、按钮双击、菜单选择、对于建议的口头查询等。

在框3306-2处，可基于媒体内容和/或媒体内容的观看历史来确定虚拟助理查询。例如，可基于所显示的节目、菜单、应用程序、媒体内容列表、通知等来确定虚拟助理查询。在一个示例中，基于内容的建议2652-2可基于视频480-2和相关联的元数据来确定，如参考图44所述。在另一示例中，基于通知的建议2966-2可基于通知2964-2来确定，如参考图47所述。在又一示例中，基于设备的建议3174-2可基于用户设备102-2上的可播放媒体3068-2来确定，如参考图48和图49所述。在其他示例中，基于所连接设备的建议3275-2可基于用户设备102-2上的可播放媒体3068-2来确定，如参考图50所述。

再次参考图51的过程3300-2，在框3308-2处，可在显示器上显示虚拟助理查询。例如，可显示所确定的查询建议，如参考图44、图45、图47、图49和图50所示和所述。如上所述，可基于各种其他信息来确定和显示查询建议。此外，可基于来自具有另一显示器的另一设备的内容来导出在一个显示器上提供的虚拟助理查询建议。因此，可向用户提供定向的虚拟助理查询建议，从而帮助用户了解可能的查询以及提供所需内容建议，还有其他益处。

此外，在本文所讨论的各种示例中的任何一个示例中，可以为特定用户而个性化定制各个方面。包括联系人、偏好、位置、喜爱的媒体等的用户数据可用于解译语音命令，并促进用户与本文所讨论的各种设备的交互。还可根据用户偏好、联系人、文本、使用历史、简介数据、年龄段数据等，以各种其他方式修改本文所讨论的各种过程。此外，基于用户交互(例如，频繁说出的命令、频繁选择的应用程序等)，此类偏好和设置可以随时间更新。可得自各种来源的用户数据的收集和使用可用于改善将邀请内容或用户可能感兴趣的任何其他内容传送到用户。本公开预期，在一些示例中，这些经采样的数据可包括唯一地识别或可用于联系或定位特定人员的个人信息数据。此类个人信息数据可包括人口数据、基于位置的数据、电话号码、电子邮件地址、家庭地址或任何其他识别信息。

因此，虽然本公开广泛地覆盖了使用个人信息数据来实现一个或多个各种所公开的示例，但本公开还预期各种示例也可在无需访问此类个人信息数据的情况下被实现。即，本发明技术的各种示例不会由于缺少此类个人信息数据的全部或一部分而无法正常进行。例如，可通过基于非个人信息数据或绝对最低限度的个人信息(例如，与用户相关联的设备所请求的内容、对内容递送服务可用的其他非个人信息或公开可用信息)来推断偏好，从而选择内容并递送给用户。

根据一些示例，图52示出了电子设备3400-2的功能框图，所述电子设备根据各种所述示例的原理配置，以便例如使用虚拟助理控制电视交互并使用不同的界面显示相关联的信息。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图52中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图52所示，电子设备3400-2可包括被配置为显示媒体、界面和其他内容的显示单元3402-2(例如，显示器112-2、触摸屏246-2等)。电子设备3400-2还可包括输入单元3404-2，该输入单元被配置为接收信息，诸如语音输入、触觉输入、手势输入等(例如，麦克风、接收器、触摸屏、按钮等)。电子设备3400-2还可包括耦接至显示单元3402-2和输入单元3404-2的处理单元3406-2。在一些示例中，处理单元3406-2可包括语音输入接收单元3408-2、媒体内容确定单元3410-2、第一用户界面显示单元3412-2、选择接收单元3414-2和第二用户界面显示单元3416-2。

处理单元3406-2可被配置为(例如，经由输入单元3404-2)从用户接收语音输入。处理单元3406-2可被进一步配置为(例如，使用媒体内容确定单元3410-2)基于语音输入来确定媒体内容。处理单元3406-2可被进一步配置为使用具有第一尺寸的第一用户界面(例如，使用第一用户界面显示单元3412-2在显示单元3402-2上)显示，其中第一用户界面包括至媒体内容的一个或多个可选链接。处理单元3406-2可被进一步配置为(例如，使用选择接收单元3414-2从输入单元3404-2)接收对一个或多个可选链接中的一个可选链接的选择。处理单元3406-2可被进一步配置为响应于该选择，(例如，使用第二用户界面显示单元3416-2在显示单元3402-2上)显示具有第二尺寸的第二用户界面，该第二尺寸大于第一尺寸，其中第二用户界面包括与所述选择相关联的媒体内容。

在一些示例中，响应于(例如，选择接收单元3414-2的)选择，(例如，第一用户界面显示单元3412-2的)第一用户界面扩展成(例如，第二用户界面显示单元3416-2的)第二用户界面。在其他示例中，第一用户界面覆盖在正在显示的内容上。在一个示例中，第二用户界面覆盖在正在显示的内容上。在另一示例中，(例如，来自输入单元3404-2的语音输入接收单元3408-2的)语音输入包括查询，并且(例如，媒体内容确定单元3410-2的)媒体内容包括查询的结果。在又一个示例中，第一用户界面包括到查询结果的链接，该链接在至媒体内容的一个或多个可选链接之外。在其他示例中，查询包括关于天气的查询，并且第一用户界面包括到与关于天气的查询相关联的媒体内容的链接。在另一示例中，查询包括位置，并且到与关于天气的查询相关联的媒体内容的链接包括到与该位置处的天气相关联的媒体内容的一部分的链接。

在一些示例中，响应于选择，处理单元3406-2可被配置为播放与该选择相关联的媒体内容。在一个示例中，媒体内容包括电影。在另一示例中，媒体内容包括电视节目。在另一示例中，媒体内容包括体育赛事。在一些示例中，(例如，第二用户界面显示单元3416-2的)第二用户界面包括与选择相关联的媒体内容的描述。在其他示例中，第一用户界面包括购买媒体内容的链接。

处理单元3406-2可被进一步配置为(例如，经由输入单元3404-2)从用户接收附加语音输入，其中附加语音输入包括与所显示的内容相关联的查询。处理单元3406-2可被进一步配置为基于与所显示的内容相关联的元数据来确定对与所显示的内容相关联的查询的响应。处理单元3406-2可被进一步配置为响应于接收到附加语音输入，(例如，在显示单元3402-2上)显示第三用户界面，其中第三用户界面包括对与所显示的内容相关联的查询的所确定的响应。

处理单元3406-2可被进一步配置为接收用于发起(例如，经由输入单元3404-2)对语音输入的接收的指示。处理单元3406-2可被进一步配置为响应于接收到指示，(例如，在显示单元3402-2上)显示准备就绪确认。处理单元3406-2可被进一步配置为响应于接收到语音输入，显示正在监听确认。处理单元3406-2可被进一步配置为检测语音输入的结束，并且响应于检测到语音输入的结束，显示正在处理确认。在一些示例中，处理单元3406-2可被进一步配置为显示语音输入的转录。

在一些示例中，电子设备3400-2包括电视。在其他示例中，电子设备3400-2包括电视机顶盒。在其他示例中，电子设备3400-2包括遥控器。在其他示例中，电子设备3400-2包括移动电话。

在一个示例中，(例如，第一用户界面显示单元3412-2的)第一用户界面中的一个或多个可选链接包括与媒体内容相关联的移动图像。在一些示例中，与媒体内容相关联的移动图像包括媒体内容的实况馈送。在其他示例中，第一用户界面中的一个或多个可选链接包括与媒体内容相关联的静止图像。

在一些示例中，处理单元3406-2可被进一步配置为确定当前显示的内容是包括移动图像还是控制菜单；响应于确定当前显示的内容包括移动图像，选择小尺寸作为(例如，第一用户界面显示单元3412-2的)第一用户界面的第一尺寸；而响应于确定当前显示的内容包括控制菜单，选择大于小尺寸的大尺寸作为(例如，第一用户界面显示单元3412-2的)第一用户界面的第一尺寸。在其他示例中，处理单元3406-2可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容，并且显示包括所确定的另选媒体内容的通知。

根据一些示例，图53示出了电子设备3500-2的功能框图，所述电子设备根据各种所述示例的原理配置，以便例如使用虚拟助理和多个用户设备控制电视交互。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图53中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图53所示，电子设备3500-2可包括被配置为显示媒体、界面和其他内容的显示单元3502-2(例如，显示器112-2、触摸屏246-2等)。电子设备3500-2还可包括输入单元3504-2，该输入单元被配置为接收信息，诸如语音输入、触觉输入、手势输入等(例如，麦克风、接收器、触摸屏、按钮等)。电子设备3500-2还可包括耦接至显示单元3502-2和输入单元3504-2的处理单元3506-2。在一些示例中，处理单元3506-2可包括语音输入接收单元3508-2、用户意图确定单元3510-2、媒体内容确定单元3512-2和媒体内容播放单元3514-2。

处理单元3506-2可被配置为在具有第一显示器(例如，在一些示例中，显示单元3502-2)的第一设备(例如，设备3500-2)处(例如，利用语音输入接收单元3508-2从输入单元3504-2)从用户接收语音输入。处理单元3506-2可被进一步配置为基于第一显示器上所显示的内容(例如，使用用户意图确定单元3510-2)来确定语音输入的用户意图。处理单元3506-2可被进一步配置为(例如，使用媒体内容确定单元3512-2)基于用户意图来确定媒体内容。处理单元3506-2可被进一步配置为在与第二显示器(例如，在一些示例中，显示单元3502-2)相关联的第二装置上(例如，使用媒体内容播放单元3514-2)播放媒体内容。

在一个示例中，第一设备包括遥控器。在另一示例中，第一设备包括移动电话。在另一示例中，第一设备包括平板电脑。在一些示例中，第二设备包括电视机顶盒。在其他示例中，第二显示器包括电视。

在一些示例中，显示在第一显示器上的内容包括应用界面。在一个示例中，(例如，来自输入单元3504-2的语音输入接收单元3508-2的)语音输入包括显示与应用界面相关联的媒体的请求。在一个示例中，媒体内容包括与应用界面相关联的媒体。在另一示例中，应用界面包括相册，并且媒体包括相册中的一张或多张照片。在又一示例中，应用界面包括一个或多个视频的列表，并且媒体包括一个或多个视频中的一个。在其他示例中，应用界面包括电视节目列表，并且媒体包括电视节目列表中的电视节目。

在一些示例中，处理单元3506-2可被进一步配置为确定第一设备是否被授权；其中响应于确定第一设备被授权，在第二设备上播放媒体内容。处理单元3506-2可被进一步配置为基于语音输入来识别用户，并且基于与所识别用户相关联的数据(例如，使用用户意图确定单元3510-2)来确定语音输入的用户意图。处理单元3506-2可被进一步配置为基于语音输入来确定用户是否被授权；其中响应于确定用户是授权用户，在第二设备上播放媒体内容。在一个示例中，确定用户是否被授权包括使用语音识别来分析语音输入。

在其他示例中，处理单元3506-2可被进一步配置为响应于确定用户意图包括对信息的请求，在第一设备的第一显示器上显示与媒体内容相关联的信息。处理单元3506-2可被进一步配置为响应于确定用户意图包括播放媒体内容的请求，在第二设备上播放媒体内容。

在一些示例中，语音输入包括在第二设备上播放内容的请求，并且响应于在第二设备上播放内容的请求，在第二设备上播放媒体内容。处理单元3506-2可被进一步配置为基于媒体格式、用户偏好或默认设置来确定所确定的媒体内容是应当显示在第一显示器还是第二显示器上。在一些示例中，响应于确定所确定的媒体内容应当显示在第二显示器上，在第二显示器上显示媒体内容。在其他示例中，响应于确定所确定的媒体内容应当显示在第一显示器上，在第一显示器上显示媒体内容。

在其他示例中，处理单元3506-2可被进一步配置为确定两个或更多个装置(包括第二装置和第三装置)中的每个装置的接近度。在一些示例中，基于相对于第三设备接近度的第二设备接近度，在与第二显示器相关联的第二设备上播放媒体内容。在一些示例中，确定两个或更多个设备中的每个设备的接近度包括基于蓝牙LE确定接近度。

在一些示例中，处理单元3506-2可被进一步配置为显示包括与第二显示器相关联的第二设备的显示设备列表，并且接收对显示设备列表中的第二设备的选择。在一个示例中，响应于接收到对第二设备的选择，在第二显示器上显示媒体内容。处理单元3506-2可被进一步配置为确定耳机是否附接到第一设备。处理单元3506-2可被进一步配置为响应于耳机附接到第一设备的确定，在第一显示器上显示媒体内容。处理单元3506-2可被进一步配置为响应于耳机未附接到第一设备的确定，在第二显示器上显示媒体内容。在其他示例中，处理单元3506-2可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容，并且显示包括所确定的另选媒体内容的通知。

根据一些示例，图54示出了电子设备3600-2的功能框图，所述电子设备根据各种所述示例的原理配置，以便例如使用显示器上所显示的媒体内容和媒体内容的观看历史来控制电视交互。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图54中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图54所示，电子设备3600-2可包括被配置为显示媒体、界面和其他内容的显示单元3602-2(例如，显示器112-2、触摸屏246-2等)。电子设备3600-2还可包括输入单元3604-2，该输入单元被配置为接收信息，诸如语音输入、触觉输入、手势输入等(例如，麦克风、接收器、触摸屏、按钮等)。电子设备3600-2还可包括耦接至显示单元3602-2和输入单元3604-2的处理单元3606-2。在一些示例中，处理单元3606-2可包括语音输入接收单元3608-2、用户意图确定单元3610-2和查询结果显示单元3612-2。

处理单元3606-2可被配置为(例如，利用语音输入接收单元3608-2从输入单元3604-2)从用户接收语音输入，其中语音输入包括与电视显示器(例如，在一些示例中，显示单元3602-2)上所显示的内容相关联的查询。处理单元3606-2可被进一步配置为基于电视显示器上所示的内容和媒体内容观看历史中的一者或多者(例如，使用用户意图确定单元3610-2)来确定查询的用户意图。处理单元3606-2可被进一步配置为基于所确定的用户意图(例如，使用查询结果显示单元3612-2)显示查询的结果。

在一个示例中，在遥控器处接收语音输入。在另一示例中，在移动电话处接收语音输入。在一些示例中，在电视显示器上显示查询的结果。在另一示例中，在电视显示器上示出的内容包括电影。在又一示例中，在电视显示器上示出的内容包括电视节目。在又一示例中，在电视显示器上示出的内容包括体育赛事。

在一些示例中，查询包括对关于与电视显示器上所示内容相关联的人的信息的请求，并且查询的(例如，查询结果显示单元3612-2的)结果包括关于人的信息。在一个示例中，查询的结果包括与人相关联的媒体内容。在另一示例中，媒体内容包括与人相关联的电影、电视节目或体育赛事中的一者或多者。在一些示例中，查询包括对关于电视显示器上所示内容中人物的信息的请求，并且查询的结果包括关于人物的信息或关于扮演人物的演员的信息。在一个示例中，查询的结果包括与扮演人物的演员相关联的媒体内容。在另一示例中，媒体内容包括与扮演人物的演员相关联的电影、电视节目或体育赛事中的一者或多者。

在一些示例中，处理单元3606-2可被进一步配置为基于与电视显示器上所示内容或媒体内容观看历史相关联的元数据来确定查询的结果。在一个示例中，元数据包括与电视显示器上所示内容或媒体内容观看历史相关联的标题、描述、人物列表、演员列表、队员列表、分类或显示时间表中的一者或多者。在另一示例中，电视显示器上所示出的内容包括媒体内容的列表，并且查询包括显示列表中的项目中的一个项目的请求。在又一示例中，电视显示器上所示出的内容还包括具有焦点的媒体内容列表中的项目，并且(例如，使用用户意图确定单元3610-2)确定查询的用户意图包括识别具有焦点的项目。在一些示例中，处理单元3606-2可被进一步配置为基于最近在电视显示器上显示的菜单或搜索内容(例如，使用用户意图确定单元3610-2)来确定查询的用户意图。在一个示例中，电视显示器上所示出的内容包括所列媒体的页面，并且最近显示的菜单或搜索内容包括所列媒体的前一页面。在另一示例中，在电视显示器上示出的内容包括一个或多个类别的媒体，并且一个或多个类别的媒体中的一个具有焦点。在一个示例中，处理单元3606-2可被进一步配置为基于一个或多个媒体类别中具有焦点的一个(例如，使用用户意图确定单元3610-2)来确定查询的用户意图。在另一示例中，媒体的类别包括电影、电视节目和音乐。在其他示例中，处理单元3606-2可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容，并且显示包括所确定的另选媒体内容的通知。

根据一些示例，图55示出了电子设备3700-2的功能框图，所述电子设备根据各种所述示例的原理配置，以便例如建议用于控制媒体内容的虚拟助理交互。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图55中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图55所示，电子设备3700-2可包括被配置为显示媒体、界面和其他内容的显示单元3702-2(例如，显示器112-2、触摸屏246-2等)。电子设备3700-2还可包括输入单元3704-2，该输入单元被配置为接收信息，诸如语音输入、触觉输入、手势输入等(例如，麦克风、接收器、触摸屏、按钮等)。电子设备3700-2还可包括耦接至显示单元3702-2和输入单元3704-2的处理单元3706-2。在一些示例中，处理单元3706-2可包括媒体内容显示单元3708-2、输入接收单元3710-2、查询确定单元3712-2和查询显示单元3714-2。

处理单元3706-2可被配置为在显示器(例如，显示单元3702-2)上(例如，使用媒体内容显示单元3708-2)显示媒体内容。处理单元3706-2可被进一步配置为(例如，使用输入接收单元3710-2从输入单元3704-2)从用户接收输入。处理单元3706-2可被进一步配置为基于媒体内容和媒体内容观看历史中的一个或多个(例如，使用查询确定单元3712-2)来确定一个或多个虚拟助理查询。处理单元3706-2可被进一步配置为在显示器上(例如，使用查询显示单元3714-2)显示一个或多个虚拟助理查询。

在一个示例中，在遥控器上从用户接收输入。在一个示例中，在移动电话上从用户接收输入。在一些示例中，一个或多个虚拟助理查询覆盖在移动图像上。在另一示例中，输入包括双击按钮。在一个示例中，媒体内容包括电影。在另一示例中，媒体内容包括电视节目。在又一示例中，媒体内容包括体育赛事。

在一些示例中，一个或多个虚拟助理查询包括关于出现在媒体内容中的人的查询。在其他示例中，一个或多个虚拟助理查询包括关于出现在媒体内容中的人物的查询。在另一示例中，一个或多个虚拟助理查询包括对与出现在媒体内容中的人相关联的媒体内容的查询。在一些示例中，媒体内容或媒体内容观看历史包括一集电视节目，并且一个或多个虚拟助理查询包括关于另一集电视节目的查询。在一些示例中，媒体内容或媒体内容观看历史包括一集电视节目，并且一个或多个虚拟助理查询包括设置提醒观看或记录媒体内容后续剧集的请求。在又一示例中，一个或多个虚拟助理查询包括对媒体内容的描述性详情的查询。在一个示例中，描述性详情包括节目标题、人物列表、演员列表、剧集描述、团队名册、团队排名或者节目概要中的一者或多者。

在一些示例中，处理单元3706-2可被进一步配置为接收对一个或多个虚拟助理查询中的一个虚拟助理查询的选择。处理单元3706-2可被进一步配置为显示在一个或多个虚拟助理查询中所选择的一个虚拟助理查询的结果。在一个示例中，确定一个或多个虚拟助理查询包括基于查询历史、用户偏好或查询流行度中的一者或多者来确定一个或多个虚拟助理查询。在另一示例中，确定一个或多个虚拟助理查询包括基于可供用户观看的媒体内容来确定一个或多个虚拟助理查询。在又一示例中，确定一个或多个虚拟助理查询包括基于所接收的通知确定一个或多个虚拟助理查询。在又一示例中，确定一个或多个虚拟助理查询包括基于活动应用程序确定一个或多个虚拟助理查询。在其他示例中，处理单元3706-2可被进一步配置为基于用户偏好、节目流行度和直播体育赛事的状态中的一者或多者来确定用于显示的另选媒体内容，并且显示包括所确定的另选媒体内容的通知。

虽然已参考附图完整地描述了示例，但是需注意，对于本领域技术人员来说，各种变化和修改将是显而易见的(例如，根据本文所描述的与本文所讨论的任何其他系统或过程有关的概念，修改本文所讨论的任一系统或过程)。应当理解，此类变化和修改被认为包括在由所附权利要求所限定的各种示例的范围内。

本发明公开了一种用于实时更新虚拟助理媒体知识的系统和过程。可利用与正在播放的媒体(例如，体育赛事、电视节目等)相关联的适时信息来更新虚拟助理知识。可被接收到的数据馈送包括使事件与媒体流中的特定时间相关的数据。可基于语音输入来接收用户请求，并且该用户请求可与媒体流或节目中的事件相关联。响应于接收到该请求，可提示媒体流在媒体流中的与在请求中所引用的事件相关联的时间开始回放。在另一个示例中，可基于与事件相关的数据来生成对用户请求的响应。然后，可将该响应递送至用户(例如，大声朗读、显示等)。

1.一种用于媒体回放的语音控制的方法，所述方法包括：

在电子设备处：

接收数据馈送，其中所述数据馈送包括与事件相关的数据，所述事件与媒体流中的时间相关联；

基于语音输入来接收用户请求，其中所述用户请求与所述事件相关联；以及

响应于接收到所述用户请求，使得所述媒体流在所述媒体流中的与所述事件相关联的所述时间开始回放。

2.根据项目1所述的方法，还包括：

基于当前播放媒体来解译所述用户请求。

3.根据项目1所述的方法，还包括：

基于当前播放媒体的当前回放位置来解译所述用户请求。

4.根据项目1所述的方法，还包括：

基于以下各项中的一者或多者来解译所述用户请求：屏幕上的演员、屏幕上的队员、参赛者的列表、节目中的演员的列表、节目中的人物的列表、或团队名单。

5.根据项目1所述的方法，其中所述媒体流包括体育赛事，并且其中与所述事件相关的所述数据包括以下各项中的一者或多者：队员的特征、得分、判罚、统计信息、或赛段指示符。

6.根据项目1所述的方法，其中所述媒体流包括颁奖典礼，并且其中与所述事件相关的所述数据包括以下各项中的一者或多者：参与者的特征、表演描述、或颁奖仪式指示符。

7.根据项目1所述的方法，其中所述媒体流包括电视节目，并且其中与所述事件相关的所述数据包括以下各项中的一者或多者：表演描述或节目段指示符。

8.根据项目1所述的方法，其中所述用户请求包括对所述媒体流中的精彩镜头的请求。

9.根据项目1所述的方法，还包括：

响应于接收到所述用户请求，使得连续回放所述媒体流的多个段。

10.根据项目1所述的方法，其中使得回放所述媒体流包括在除所述电子设备之外的回放设备上使得媒体被回放。

11.根据项目10所述的方法，还包括：

基于由所述电子设备显示的信息来解译所述用户请求。

12.根据项目10所述的方法，还包括：

基于由所述回放设备显示的信息来解译所述用户请求。

13.根据项目1所述的方法，其中与所述事件相关的所述数据包括隐藏式字幕文本。

14.根据项目13所述的方法，还包括：

基于所述隐藏式字幕文本来确定所述媒体流中的与所述事件相关联的所述时间。

15.根据项目1所述的方法，其中与所述事件相关的所述数据包括以下各项中的一者或多者：次级屏幕体验数据、次级相机视图数据、或社交网络馈送数据。

16.根据项目1所述的方法，还包括：

从所述用户接收书签指示，其中所述书签对应于所述媒体流中的特定回放位置。

17.根据项目16所述的方法，还包括：

接收用于共享所述书签的用户请求；以及

响应于接收到用于共享所述书签的所述用户请求，使得与所述特定回放位置相关联的提示信息将被传输到服务器。

18.根据项目1所述的方法，还包括：

基于以下各项中的一者或多者来解译所述用户请求：用户喜爱的团队、用户喜爱的运动、用户喜爱的队员、用户喜爱的演员、用户喜爱的电视节目、用户的地理位置、用户人口统计学信息、用户的观看历史、或用户的订阅数据。

19.一种非暂态计算机可读存储介质，所述非暂态计算机可读存储介质包括用于以下操作的计算机可执行指令：

接收数据馈送，其中所述数据馈送包括与事件相关的数据，所述事件与媒体流中的时间相关联；

基于语音输入来接收用户请求，其中所述用户请求与所述事件相关联；以及

响应于接收到所述用户请求，使得所述媒体流在所述媒体流中的与所述事件相关联的所述时间开始回放。

20.一种用于媒体回放的语音控制的系统，所述系统包括：

一个或多个处理器；

存储器；和

接收数据馈送，其中所述数据馈送包括与事件相关的数据，所述事件与媒体流中的时间相关联；

基于语音输入来接收用户请求，其中所述用户请求与所述事件相关联；以及

响应于接收到所述用户请求，使得所述媒体流在所述媒体流中的与所述事件相关联的所述时间开始回放。

21.一种用于将信息整合到数字助理知识中的方法，所述方法包括：

在电子设备处：

接收数据馈送，其中所述数据馈送包括与事件相关的数据，所述事件与媒体流中的时间相关联；

基于来自用户的语音输入来接收用户请求，其中所述用户请求与所述事件相关联；

基于与所述事件相关的所述数据来生成对所述用户请求的响应；以及

使得所述响应将被递送。

22.根据项目21所述的方法，其中生成所述响应进一步包括基于当前播放媒体来生成所述响应。

23.根据项目21所述的方法，其中生成所述响应进一步包括基于当前播放媒体的当前回放位置来生成所述响应。

24.根据项目21所述的方法，其中生成所述响应进一步包括基于由所述用户先前消费的媒体内容来生成所述响应。

25.根据项目21所述的方法，其中生成所述响应进一步包括基于以下各项中的一者或多者来生成所述响应：屏幕上的演员、屏幕上的队员、参赛者的列表、节目中的演员的列表、或团队名单。

26.根据项目21所述的方法，还包括：

响应于所述用户请求包括对与当前播放媒体的当前回放位置同步的信息的请求，基于与所述当前回放位置同步的数据来生成所述响应，其中与所述当前回放位置同步的所述数据不包括与所述当前回放位置之后的时间相关联的数据；并且

响应于所述用户请求包括对实况信息的请求，基于实况数据来生成所述响应。

27.根据项目21所述的方法，其中使得所述响应将被递送包括使得所述响应在除所述电子设备之外的回放设备上将被显示或播放。

28.根据项目21所述的方法，其中使得所述响应将被递送包括使得所述响应将被递送到除所述电子设备之外的回放设备。

实时数字助理知识更新。

本专利申请要求于2014年6月30日提交的名称为“REAL-TIME DIGITAL ASSISTANTKNOWLEDGE UPDATES”的美国临时序列号62/019,292的优先权，该申请的全文据此出于所有目的以引用方式并入本文中。

本专利申请还与以下共同未决的临时申请相关：2014年6月30日提交的美国专利申请序列号62/019,312，“Intelligent Automated Assistant for TV UserInteractions”(代理人案卷号106843065100(P18133USP1))，其全文据此以引用方式并入本文中。

本发明整体涉及电视用户交互的语音控制，更具体地，涉及虚拟助理媒体知识的实时更新。

智能自动化助理(或虚拟助理)提供用户与电子设备之间的直观界面。这些助理可允许用户使用自然语言以语音形式和/或文本形式与设备或系统进行交互。例如，用户可通过将口头用户输入以自然语言形式提供至与电子设备相关联的虚拟助理来访问电子设备的服务。虚拟助理可对口头用户输入执行自然语言处理，以推断用户意图并且将用户意图实施到任务中。然后可通过执行电子设备的一种或多种功能来执行任务，并且在一些示例中，可将相关的输出以自然语言形式返回给用户。

尽管移动电话(例如，智能电话)、平板电脑等已从虚拟助理控制中获取益处，然而许多其他用户设备仍缺乏这种便利的控制机制。例如，用户与媒体控制设备(例如，电视、电视机顶盒、电缆盒、游戏设备、流媒体设备、数字视频录像机等)的交互可能是复杂且难懂的。此外，随着可由这些设备(例如，无线电视、电视订阅服务、流视频服务、有线视频点播服务、基于网络的视频服务等)提供的媒体源的不断增加，对一些用户来说，找到想要的媒体内容来消费可能会很繁琐，甚至面对海量内容无从下手。此外，粗略的时移和提示控制可使用户很难获取所需内容，诸如电视节目中的特定时刻。获取与直播媒体内容相关联的适时信息也会具有一定难度。因此，许多媒体控制设备能够提供的用户体验较差，可能会令许多用户感到失望。

本发明公开了用于实时更新虚拟助理媒体知识的系统和过程。在一个示例中，可利用与正在播放媒体相关联的适时信息来更新虚拟助理知识。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。可基于语音输入接收用户请求，并且所述用户请求可与媒体流或节目中的事件相关联。响应于接收到请求，可提示媒体流从媒体流中与请求中所引用的事件相关联的时间开始回放。

在另一示例中，可将适时信息整合到数字助理知识中，从而为涉及当前事件的查询提供回答。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。可基于来自用户的语音输入接收用户请求，并且该用户请求可与事件中的一个相关联。可基于与该事件相关联的数据来生成对用户请求的响应。然后可以各种方式(例如，大声朗读、在电视上显示、在移动用户设备上显示等)向用户递送该响应。

本发明涉及用于实时更新虚拟助理媒体知识的系统和方法。实时虚拟助理知识更新可例如实现对电视用户交互的精确语音控制，并适时地为媒体相关查询提供准确的虚拟助理响应。在一个示例中，虚拟助理可用于与媒体控制设备(诸如，控制电视显示器上所示内容的电视机顶盒)进行交互。可使用移动用户设备或带有麦克风的遥控器接收用于虚拟助理的语音输入。可从该语音输入确定用户意图，并且虚拟助理可根据用户意图执行任务，包括使得媒体在连接的电视上回放以及控制电视机顶盒或类似设备的任何其他功能(例如，使得直播媒体内容回放、使得录制媒体内容回放、管理视频记录、搜索媒体内容、菜单导航等)。

在一个示例中，可利用与正在播放的媒体(例如，体育赛事、电视节目等)相关联的适时信息甚至实时信息来更新虚拟助理知识。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。例如，该数据馈送可指示在电视播放的足球比赛中的某一时刻进球了。在另一个示例中，该数据馈送可指示节目主持人在电视节目的某个时间进行了独白。可基于语音输入接收用户请求，并且所述用户请求可与媒体流或节目中的事件相关联。响应于接收到请求，可提示媒体流从媒体流中与请求中所引用的事件相关联的时间开始回放。

在另一个示例中，可将适时或实时信息整合到数字助理知识中，从而为涉及当前事件的查询提供回答。可接收到的数据馈送包括将事件与媒体流中的特定时间关联的数据。可基于来自用户的语音输入接收用户请求，并且该用户请求可与事件中的一个相关联。可基于与该事件相关联的数据来生成对用户请求的响应。然后可以各种方式(例如，大声朗读、在电视上显示、在移动用户设备上显示等)向用户递送该响应。

根据本文所讨论的各种示例，利用适时的媒体信息更新虚拟助理知识可提供有效且令人愉快的用户体验。通过使用能够接收与媒体内容相关联的自然语言查询或命令的虚拟助理，用户可简单直观地与媒体控制设备进行交互。实时虚拟助理知识更新可例如实现对电视用户交互的精确语音控制，并适时地为媒体相关查询提供准确的虚拟助理响应。另外，可使用与所显示的媒体相关的直观口头命令，从而轻松访问媒体的所需部分或场景。然而，应当理解，根据本文所讨论的各种示例，还可以实现许多其他优点。

图56示出了用于提供对媒体回放的语音控制和虚拟助理知识的实时更新的示例性系统100-3。应当理解，如本文所讨论在电视上对媒体回放进行语音控制仅仅是采用某种类型的显示技术来控制媒体的一个示例，并且仅用于参考，本文所讨论的概念通常可用于控制任何媒体内容交互，包括控制各种设备和相关联显示器(例如，监视器、膝上型电脑显示器、台式计算机显示器、移动用户设备显示器、投影仪显示器等)中的任一者上的媒体内容交互。因此，术语“电视”可指与各种设备中的任一种设备相关联的任何类型的显示器。此外，术语“虚拟助理”、“数字助理”、“智能自动化助理”或“自动数字助理”可指可解译语音形式和/或文本形式的自然语言输入以推断用户意图并基于推断出的用户意图来执行动作的任何信息处理系统。例如，为了根据推断出的用户意图采取行动，系统可执行以下内容中的一者或多者：通过设计以实现所推断出的用户意图的步骤和参数来识别任务流；将来自推断出的用户意图的具体要求输入到任务流中；通过调用程序、方法、服务、API等来执行任务流；以及生成对用户的听觉(例如，语音)和/或视觉形式的输出响应。

如图56中所示，在一些示例中，虚拟助理可根据客户端-服务器模型来实现。虚拟助理可包括在用户设备102-3上执行的客户端侧部分和在服务器系统110-3上执行的服务器侧部分。可与遥控器106-3结合的客户端侧部分还在电视机顶盒104-3上被执行。用户设备102-3可包括任何电子设备，诸如移动电话(例如智能电话)、平板电脑、便携式媒体播放器、台式计算机、膝上型计算机、PDA、可穿戴电子设备(例如，数字眼镜、腕带、手表、胸针、臂带等)，等等。电视机顶盒104-3可包括任何媒体控制设备，诸如电缆盒、卫星盒、视频播放器、视频流设备、数字视频录像机、游戏系统、DVD播放器、Blu-ray Disc^TM播放器、此类设备的组合等。电视机顶盒104-3可经由有线连接或无线连接而被连接至显示器112-3和扬声器111-3。显示器112-3(具有或不具有扬声器111-3)可以是任何类型的显示器，诸如电视显示器、监视器、投影仪等。在一些示例中，电视机顶盒104-3可连接到音频系统(例如，音频接收器)，并且扬声器111-3可与显示器112-3分开。在其他示例中，显示器112-3、扬声器111-3和电视机顶盒104-3可一起并入单个设备中，诸如具有高级处理能力和网络连接能力的智能电视。在此类示例中，电视机顶盒104-3的功能可作为组合设备上的应用程序来执行。

在一些示例中，电视机顶盒104-3可用作针对多种类型和来源的媒体内容的媒体控制中心。例如，电视机顶盒104-3可使用户便于访问电视直播(例如，无线电视、卫星电视或有线电视)。因此，电视机顶盒104-3可包括电缆调谐器或卫星调谐器等。在一些示例中，电视机顶盒104-3还可录下电视节目以供稍后时移观看。在其他示例中，电视机顶盒104-3可提供对一个或多个流媒体服务的访问，诸如访问有线递送的点播电视节目、视频和音乐，以及互联网递送的电视节目、视频和音乐(例如，来自各种免费、付费和订阅式流服务)。在其他示例中，电视机顶盒104-3可方便回放或显示来自任何其他源的媒体内容，诸如显示来自移动用户设备的照片，播放来自耦接的存储设备的视频，播放来自耦接的音乐播放器的音乐等。电视机顶盒104-3还可根据需要包括本文所讨论的媒体控制特征的各种其他组合。

用户设备102-3和电视机顶盒104-3可通过一个或多个网络108-3与服务器系统110-3进行通信，该网络可包括互联网、内联网或任何其他有线或无线的公共网络或专用网络。另外，用户设备102-3可通过网络108-3或直接通过任何其他有线或无线通信机构(例如，蓝牙、Wi-Fi、射频、红外传输等)来与电视机顶盒104-3进行通信。如图所示，遥控器106-3可使用任何类型的通信方式诸如有线连接或任何类型的无线通信(例如，蓝牙、Wi-Fi、射频、红外传输等)(包括经由网络108-3)来与电视机顶盒104-3进行通信。在一些示例中，用户可通过用户设备102-3、遥控器106-3或集成在电视机顶盒104-3内的接口元件(例如，按钮、麦克风、相机、操纵杆等)与电视机顶盒104-3进行交互。例如，可在用户设备102-3和/或遥控器106-3处接收语音输入，该语音输入包括用于虚拟助理的媒体相关的查询或命令，并且该语音输入可用于使得媒体相关的任务在电视机顶盒104-3上执行。同样，可在用户设备102-3和/或遥控器106-3(以及未示出的其他设备)处接收用于控制电视机顶盒104-3上的媒体的触觉命令。因此，可采用各种方式来控制电视机顶盒104-3的各种功能，从而为用户提供从多个设备控制媒体内容的多种选项。

在用户设备102-3和/或具有遥控器106-3的电视机顶盒104-3上执行的示例性虚拟助理的客户端侧部分可提供客户端侧功能，诸如面向用户的输入和输出处理以及与服务器系统110-3的通信。服务器系统110-3可为驻留在相应用户设备102-3或相应电视机顶盒104-3上的任何数量的客户端提供服务器侧功能。

服务器系统110-3可包括一个或多个虚拟助理服务器114-3，该一个或多个虚拟助理服务器可包括面向客户端的I/O接口122-3、一个或多个处理模块118-3、数据与模型存储器120-3、以及至外部服务的I/O接口116-3。面向客户端的I/O接口122-3可有利于虚拟助理服务器114-3的面向客户端的输入和输出处理。一个或多个处理模块118-3可利用数据与模型储存器120-3基于自然语言输入来确定用户的意图，并可基于推断出的用户意图来进行任务执行。在一些示例中，虚拟助理服务器114-3可通过一个或多个网络108-3来与外部服务124-3(诸如，电话服务、日历服务、信息服务、消息服务、导航服务、电视节目播放服务、流媒体服务等)进行通信，以用于完成任务或获取信息。至外部服务的I/O接口116-3可促成此类通信。

服务器系统110-3可在计算机的一个或多个独立式数据处理设备或分布式网络上实现。在一些示例中，服务器系统110-3可采用第三方服务提供方(例如，第三方云服务提供方)的各种虚拟设备和/或服务来提供服务器系统110-3的潜在计算资源和/或基础结构资源。

虽然图56中所示的虚拟助理的功能包括客户端侧部分和服务器侧部分两者，但在一些示例中，助理的功能(或者一般来讲，语音识别和媒体控制)可被实现为被安装在用户设备、电视机顶盒、智能电视等上的独立式应用程序。此外，虚拟助理的客户端部分与服务器部分之间的功能划分在不同的示例中可以是不同的。例如，在一些示例中，在用户设备102-3或电视机顶盒104-3上执行的客户端可以是仅提供面向用户的输入和输出处理功能并且将虚拟助理的所有其他功能委派给后端服务器的瘦客户端。

图57示出了根据各种示例的示例性用户设备102-3的框图。如图所示，用户设备102-3可包括存储器接口202-3、一个或多个处理器204-3、以及外围设备接口206-3。用户设备102-3中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。用户设备102-3可还包括耦接至外围设备接口206-3的各种传感器、子系统和外围设备。传感器、子系统以及外围设备可采集信息和/或促进用户设备102-3的各种功能。

例如，用户设备102-3可包括耦接至外围设备接口206-3以方便取向、照明和接近感测功能的运动传感器210-3、光传感器212-3、以及接近传感器214-3。一个或多个其他传感器216-3，诸如定位系统(例如，GPS接收器)、温度传感器、生物识别传感器、陀螺仪、罗盘、加速度计等也可连接至外围设备接口206-3，以促进相关功能。

在一些示例中，相机子系统220-3和光学传感器222-3可用于促进相机功能，诸如拍摄照片和记录视频剪辑。可通过一个或多个有线和/或无线通信子系统224-3来促进通信功能，该无线通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学(例如，红外)接收器与发射器。可将音频子系统226-3耦接至扬声器228-3和麦克风230-3以方便支持语音的功能，诸如语音识别、语音复制、数字记录和电话功能。

在一些示例中，用户设备102-3还可包括耦接至外围设备接口206-3的I/O子系统240-3。I/O子系统240-3可包括触摸屏控制器242-3和/或一个或多个其他输入控制器244-3。触摸屏控制器242-3可耦接至触摸屏246-3。触摸屏246-3和触摸屏控制器242-3例如可使用多种触摸灵敏度技术(诸如电容技术、电阻技术、红外技术、表面声波技术、接近传感器阵列等)中的任一种触摸灵敏度技术来检测接触和移动或其中断。可将其他输入控制器244-3耦接至其他输入/控制设备248-3，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口、和/或指针设备(诸如触笔)。

在一些示例中，用户设备102-3还可包括耦接至存储器250-3的存储器接口202-3。存储器250-3可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器，诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中，存储器250-3的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备，诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与它们结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统110-3的非暂态计算机可读存储介质上，或者可在存储器250-3的非暂态计算机可读存储介质与服务器系统110-3的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器250-3可存储操作系统252-3、通信模块254-3、图形用户界面模块256-3、传感器处理模块258-3、电话模块260-3和应用程序262-3。操作系统252-3可包括用于处理基础系统服务以及用于执行硬件相关任务的指令。通信模块254-3可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块256-3可促进图形用户界面处理。传感器处理模块258-3可促进与传感器相关的处理和功能。电话模块260-3可促进与电话相关的过程和功能。应用程序模块262-3可促进用户应用程序的各种功能，诸如电子消息传送、网页浏览、媒体处理、导航、成像和/或其他过程和功能。

如本文所述，存储器250-3还可存储客户端侧虚拟助理指令(例如，存储在虚拟助理客户端模块264-3中)以及各种用户数据266-3(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等)，从而例如提供虚拟助理的客户端侧功能。用户数据266-3还可用于执行支持虚拟助理或用于任何其他应用程序的语音识别。

在各种示例中，虚拟助理客户端模块264-3可能够通过用户设备102-3的各种用户界面(例如，I/O子系统240-3、音频子系统226-3等)来接受声音输入(例如，语音输入)、文本输入、触摸输入、和/或手势输入。虚拟助理客户端模块264-3还能够提供音频(例如，语音输出)、视觉和/或触觉形式的输出。例如，可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，虚拟助理客户端模块264-3可使用通信子系统224-3来与虚拟助理服务器进行通信。

在一些示例中，虚拟助理客户端模块264-3可利用各种传感器、子系统和外围设备lai从用户设备102-3的周围环境采集附加信息，以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息，诸如来自电视机顶盒104-3的信息。在一些示例中，虚拟助理客户端模块264-3可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器，以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其递送给用户。上下文信息还可被用户设备102-3或服务器系统110-3用于支持准确的语音识别。

在一些示例中，伴随用户输入的上下文信息可包括传感器信息，诸如照明、环境噪声、环境温度、周围环境的图像或视频、到另一个对象的距离等。该上下文信息还可包括与用户设备102-3的物理状态(例如，设备取向、设备位置、设备温度、功率电平、速度、加速度、运动模式、蜂窝信号强度等)或者用户设备102-3的软件状态(例如，运行过程、已安装程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息还可包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如，由电视机顶盒104-3显示的媒体内容、电视机顶盒104-3可用的媒体内容等)。这些类型的上下文信息中的任一种上下文信息可作为与用户输入相关联的上下文信息而被提供至虚拟助理服务器114-3(或用于用户设备102-3本身)。

在一些示例中，虚拟助理客户端模块264-3可响应于来自虚拟助理服务器114-3的请求而选择性地提供被存储在用户设备102-3上的信息(例如，用户数据266-3)(或者该虚拟助理客户端模块可在用户设备102-3本身上用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块264-3还可在虚拟助理服务器114-3请求时引出来自用户经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块264-3可将附加输入传送至虚拟助理服务器114-3，以帮助虚拟助理服务器114-3进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中，存储器250-3可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行用户设备102-3的各种功能。

图58示出了用于提供媒体回放的语音控制的系统300-3中的示例性电视机顶盒104-3的框图。系统300-3可包括系统100-3的元件的子集。在一些示例中，系统300-3可单独执行某些功能，并且也可与系统100-3的其他元件一起运行来执行其他功能。例如，系统300-3的元件可在不与服务器系统110-3进行交互的情况下处理某些媒体控制功能(例如，回放本地存储的媒体、记录功能、频道调谐等)，并且系统300-3可结合服务器系统110-3和系统100-3的其他元件来处理其他媒体控制功能(例如，回放远程存储的媒体、下载媒体内容、进行某些虚拟助理查询等)。在其他示例中，系统300-3的元件可执行较大系统100-3的功能，包括通过网络来访问外部服务124-3。应当理解，可通过各种其他方式来在本地设备和远程服务器设备之间划分功能。

如图58所示，在一个示例中，电视机顶盒104-3可包括存储器接口302-3、一个或多个处理器304-3、和外围设备接口306-3。电视机顶盒104-3中的各种部件可通过一条或多条通信总线或信号线而被耦接在一起。电视机顶盒104-3还可包括耦接至外围设备接口306-3的各种子系统以及外围设备。子系统和外围设备可采集信息和/或促进电视机顶盒104-3的各种功能。

例如，电视机顶盒104-3可包括通信子系统324-3。可通过一个或多个有线和/或无线通信子系统324-3来促进通信功能，这些通信子系统可包括各种通信端口、射频接收器与发射器、和/或光学(例如，红外)接收器与发射器。

在一些示例中，电视机顶盒104-3还可包括耦接至外围设备接口306-3的I/O子系统340-3。I/O子系统340-3可包括音频/视频输出控制器370-3。音频/视频输出控制器370-3可耦接至显示器112-3和扬声器111-3，或者能够以其他方式提供音频和视频输出(例如，经由音频/视频端口、无线传输等)。I/O子系统340-3还可包括远程控制器342-3。远程控制器342-3可(例如，经由有线连接、蓝牙、Wi-Fi等)通信地耦接至遥控器106-3。遥控器106-3可包括用于捕获音频输入(例如，来自用户的语音输入)的麦克风372-3、用于捕获触觉输入的一个或多个按钮374-3、以及用于促进经由远程控制器342-3与电视机顶盒104-3进行通信的收发器376-3。遥控器106-3还可包括其他输入机构，诸如键盘、操纵杆、触摸板等。遥控器106-3还可包括输出机构，诸如灯、显示器、扬声器等。在遥控器106-3处接收的输入(例如，用户语音、按钮按压等)可经由远程控制器342-3而被传送到电视机顶盒104-3。I/O子系统340-3还可包括一个或多个其他输入控制器344-3。可将一个或多个其他输入控制器344-3耦接至其他输入/控制设备348-3，诸如一个或多个按钮、摇臂开关、拇指滚轮、红外端口、USB端口和/或指针设备(诸如触笔)。

在一些示例中，电视机顶盒104-3还可包括耦接至存储器350-3的存储器接口302-3。存储器350-3可包括任何电子、磁性、光学、电磁、红外或半导体系统、装置或设备；便携式计算机磁盘(磁性)；随机存取存储器(RAM)(磁性)；只读存储器(ROM)(磁性)；可擦除可编程只读存储器(EPROM)(磁性)；便携式光盘诸如CD、CD-R、CD-RW、DVD、DVD-R或DVD-RW；或闪存存储器，诸如紧凑型闪存卡、安全数字卡、USB存储器设备、记忆棒等。在一些示例中，存储器350-3的非暂态计算机可读存储介质可用于存储指令(例如，用于执行本文所述的各种过程的部分或全部)，以供指令执行系统、装置或设备诸如基于计算机的系统、包含处理器的系统或可从指令执行系统、装置或设备提取指令并且可执行该指令的其他系统使用或与其结合使用。在其他示例中，指令(例如，用于执行本文所描述的各种过程的部分或全部)可被存储在服务器系统110-3的非暂态计算机可读存储介质上，或者可在存储器350-3的非暂态计算机可读存储介质与服务器系统110-3的非暂态计算机可读存储介质之间被划分。在本文的上下文中，“非暂态计算机可读存储介质”可以是可包含或存储程序以供指令执行系统、装置和设备使用或与其结合的任何介质。

在一些示例中，存储器350-3可存储操作系统352-3、通信模块354-3、图形用户界面模块356-3、设备内置媒体模块358-3、设备外置媒体模块360-3和应用程序362-3。操作系统352-3可包括用于处理基础系统服务并且用于执行硬件相关任务的指令。通信模块354-3可促进与一个或多个附加设备、一个或多个计算机和/或一个或多个服务器的通信。图形用户界面模块356-3可促进图形用户界面处理。设备内置的媒体模块358-3可促进在电视机顶盒104-3上本地存储的媒体内容以及本地可用的其他媒体内容(例如，有线频道调谐)的存储和回放。设备外置媒体模块360-3可促进远程存储(例如，在远程服务器上、在用户设备102-3上等)的媒体内容的流回放或下载。应用程序模块362-3可促进用户应用程序的各种功能，诸如电子消息传送、网页浏览、媒体处理、游戏和/或其他过程和功能。

如本文所述，存储器350-3还可存储客户端侧虚拟助理指令(例如，存储在虚拟助理客户端模块364-3中)以及各种用户数据366-3(例如，特定于用户的词汇数据、偏好数据，和/或其他数据诸如用户的电子通讯录、待办事项列表、购物清单、电视节目收藏等)，从而例如提供虚拟助理的客户端侧功能。用户数据366-3还可用于执行语音识别来支持虚拟助理或用于任何其他应用程序。

在各种示例中，虚拟助理客户端模块364-3能够通过电视机顶盒104-3的各种用户界面(例如，I/O子系统340-3等)来接受声音输入(例如，语音输入)、文本输入、触摸输入和/或手势输入。虚拟助理客户端模块364-3还能够提供音频(例如，语音输出)、视觉和/或触觉形式的输出。例如，可将输出提供为语音、声音、警报、文本消息、菜单、图形、视频、动画、振动、和/或以上两者或更多者的组合。在操作期间，虚拟助理客户端模块364-3可使用通信子系统324-3来与虚拟助理服务器通信。

在一些示例中，虚拟助理客户端模块364-3可利用各种子系统和外围设备来从电视机顶盒104-3的周围环境采集附加信息，以建立与用户、当前用户交互和/或当前用户输入相关联的上下文。此类上下文还可包括来自其他设备的信息，诸如来自用户设备102-3的信息。在一些示例中，虚拟助理客户端模块364-3可将上下文信息或其子集与用户输入一起提供至虚拟助理服务器，以帮助推断用户的意图。虚拟助理还可使用上下文信息来确定如何准备输出并将其递送给用户。上下文信息还可被电视机顶盒104-3或服务器系统110-3用于支持准确的语音识别。

在一些示例中，伴随用户输入的上下文信息可包括传感器信息，诸如照明、环境噪声、环境温度、到另一个对象的距离等。上下文信息还可包括与电视机顶盒104-3的物理状态(例如，设备位置、设备温度、功率电平等)或电视机顶盒104-3的软件状态(例如，运行过程、已安装的应用程序、过去和当前的网络活动、后台服务、错误日志、资源使用等)相关联的信息。上下文信息可还包括与所连接的设备或与用户相关联的其他设备的状态相关联的信息(例如，在用户设备102-3上显示的内容、用户设备102-3上的可播放内容等)。这些类型的上下文信息中的任一种上下文信息可作为与用户输入相关联的上下文信息而被提供至虚拟助理服务器114-3(或用于电视机顶盒104-3本身)。

在一些示例中，虚拟助理客户端模块364-3可响应于来自虚拟助理服务器114-3的请求，选择性地提供被存储在电视机顶盒104-3上的信息(例如，用户数据366-3)(或者该虚拟助理客户端模块可在电视机顶盒104-3本身上，以用于执行语音识别和/或虚拟助理功能)。虚拟助理客户端模块364-3还可在虚拟助理服务器114-3请求时引出来自用户的经由自然语言对话或其他用户界面的附加输入。虚拟助理客户端模块364-3可将附加输入传送至虚拟助理服务器114-3，以帮助虚拟助理服务器114-3进行意图推断和/或满足在用户请求中表达的用户意图。

在各种示例中，存储器350-3可包括附加指令或更少的指令。此外，可在硬件和/或固件中(包括在一个或多个信号处理和/或专用集成电路中)执行电视机顶盒104-3的各种功能。

应当理解，系统100-3和系统300-3不限于图56和图58中所示的部件和配置，并且用户设备102-3、电视机顶盒104-3和遥控器106-3同样不限于图57和图58中所示的部件和配置。在根据各种示例的多种配置中，系统100-3、系统300-3、用户设备102-3、电视机顶盒104-3和遥控器106-3全部可包括更少部件，或包括其他部件。

通览本公开内容，对“系统”进行引用，该系统可包括系统100-3、系统300-3、或系统100-3或系统300-3的一个或多个元件。例如，本文中提到的典型系统可包括从遥控器106-3和/或用户设备102-3接收用户输入的电视机顶盒104-3。

在一些示例中，虚拟助理查询可包括对于被提示跳转到特定时间的特定媒体的请求。例如，用户可能想看到比赛中的特定进程、演出期间的特定表演、电影中的特定场景等。为了处理这种查询，虚拟助理系统可确定与查询相关联的用户意图，识别响应于该查询的相关媒体，并根据用户请求(例如，提示在某人将要进球得分前开始回放比赛)在适当时间提示媒体进行回放。详细媒体信息可被并入虚拟助理知识库以支持各种媒体相关的查询。例如，可将详细媒体信息并入系统100-3的虚拟助理服务器114-3的数据和模型120-3中，以支持特定媒体查询。在一些示例中，也可从系统100-3的外部服务124-3获取详细媒体信息。

然而，能够处理相关用户请求的响应系统可包括将实时或近实时的媒体数据并入虚拟助理知识中。例如，直播体育赛事可包括用户可能希望看到的各种兴趣点。另外，用户当前正在观看的视频可包括用户可在查询中引用的许多兴趣点。相似地，电视节目可包括用户可能想要提示回放或标识为与朋友共享的流行场景、特别嘉宾出场、广泛讨论的时刻等。各种其他媒体内容同样可包括用户的相关兴趣点(例如，音乐、基于网络的视频剪辑等)。因此，根据本文的各种示例，详细且适时的媒体数据可被并入虚拟助理知识中，以支持与媒体相关联的各种用户请求，甚至包括对内容和媒体相关信息的近实时请求。

图59示出了根据各种示例的用于媒体回放的语音控制的示例性过程400-3，包括并入详细且/或适时的媒体数据。在框402-3处，可接收包括与媒体流中的时间相关联的事件的数据馈送。可以多种不同形式中的任一种，从各种不同的源接收数据馈送。例如，数据馈送可包括使特定媒体中的事件与时间关联的表、时间与事件在其中相关的数据库、使特定媒体中的事件与时间相关联的文本文件、响应于事件请求提供时间的信息服务器等。数据馈送可来自各种不同的源，诸如，系统100-3的外部服务124-3。在一些示例中，数据馈送可由与特定媒体相关联的组织提供，诸如提供详细体育赛事信息的体育联盟、提供详细视频和场景信息的视频提供方、从多个体育数据源提取的体育数据整合器等。在其他示例中，可通过分析媒体内容(诸如，分析演员外表、隐藏式字幕文本、场景变化等)来获取数据馈送。在其他示例中，可从社交媒体获取数据馈送，诸如节目中被普遍讨论的时刻、比赛中被频繁引用的事件等。因此，本文所使用的术语数据馈送可指各种形式的各种数据，包括可从媒体本身挖掘的数据。

图60示出了将媒体流512-3中的事件与该媒体流中的特定时间514-3关联起来的示例性数据馈送510-3。应当理解，提供图60是出于说明目的，并且数据馈送510-3可采用各种其他形式(例如，文本文件、表文件、信息服务器数据、数据库、消息、信息性馈送等)。媒体流512-3可包括任何类型的可播放媒体，诸如体育赛事、视频、电视节目、音乐等。在图60的示例中，媒体流512-3可包括电视播放的冰球比赛。无论概述信息或特定媒体的其他描述性详情是否与特定时间相关联，它们都可包括在数据馈送510-3中(例如，可包括在标头等中)。在例示的示例中，在5:01(UTC)时在第一框中提供描述性概述信息，包括媒体标题(例如，“冰球比赛”)、媒体描述(“A队与B队在Ice Arena对战”)和媒体源(例如，电视“第7频道”上播送)。可相似地提供各种其他描述性信息，并且可在特定字段中提供信息以供参考(例如，标题字段可包括标题、源字段可包括电视频道或互联网地址等)。除图60中所示的信息外，还可获取各种其他媒体信息，诸如比赛队伍中的队员名单、出现在剧集中的演员列表、制作人、导演、艺术家等。各种概要和描述性信息都可并入虚拟助理知识中并用于支持相关查询。

如图所示，数据馈送510-3可包括与媒体流时间514-3相关的媒体流事件516-3。可以各种不同的方式指定媒体流时间514-3，包括使用协调世界时间(缩写为“UTC”)、用户的本地时间、虚拟助理服务器处的时间、媒体服务器处的时间、媒体源处的时间(例如，体育场地)或各种其他时区。在其他示例中，可提供媒体流时间514-3作为自媒体内容开始(例如，自电影、剧集、体育赛事、音轨等开始)的进度。在其他示例中，媒体流时间514-3可被提供为比赛时钟时间等。在各种示例中的任一个示例中，应当理解，媒体流时间514-3可包括精确的时间指定，诸如秒、毫秒甚至更精细的分级。为了易于参考，本文中媒体流时间514-3的示例提供有UTC小时和分钟指定，虽然通常可使用秒，但也可使用毫秒或更精细的分级。

媒体流事件516-3可包括媒体流512-3中的各种事件或兴趣点。在体育赛事中，例如媒体流事件516-3可包括比赛、罚分、进球、赛段分段(例如，一周期、四分之一、一半等)、比赛阵容(击球手、冰上队员、四分卫、场上踢球手等)等。在电视节目(例如，情景喜剧、谈话节目等)中，媒体流事件516-3可包括片头、人物出场、演员出场(例如，屏幕上的时间指定)、节目情节内的事件(例如，特定场景)、嘉宾出场、嘉宾表演、独白、广告插播等。在颁奖典礼(例如，电影奖、戏剧奖等)中，媒体流事件516-3可包括独白、颁奖仪式、获奖者演讲、艺术家表演、广告插播等。在广播节目中，媒体流事件516-3可包括开场白、嘉宾演讲者、讨论主题等。因此应当理解，可在多种媒体类型中的任一种当中识别各种事件或兴趣点，并且那些事件可与媒体中的特定时间相关联。

在其他示例中，可基于社交媒体、流行视点、投票等来识别兴趣点或事件。例如，可使用与特定媒体(例如，直播体育赛事)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致出现时间(例如，在对主题进行首次评论之前不久)。在另一个示例中，观众可通过(例如，使用遥控器上的按钮、口头请求、虚拟按钮等)在媒体中标记时间来指示兴趣点。再如，可从与其他人共享媒体(诸如，共享从媒体流某个部分起的视频剪辑)的用户处识别兴趣点。因此，可从媒体提供方、用户、社交网络讨论和各种其他源识别数据馈送510-3中的媒体流事件516-3。

在图60的示例中，数据馈送510-3可包括与冰球比赛中的事件相关联的媒体流事件516-3。例如，第一局比赛开始时的掷球可发生在5:07(UTC)，并且数据馈送510-3可在该事件的特定媒体流时间514-3处包括相关联的媒体流事件516-3。在5:18(UTC)时，可能判了队员X用杆击打队员Z犯规，罚其停赛两分钟。判罚详情(例如，判罚类型、涉及的队员、判罚时间等)可被包括在与特定媒体流时间514-3时的判罚相关联的媒体流事件516-3中。在5:19(UTC)时，A队可能已经开始以多打少，并且可包括媒体流事件516-3，该媒体流事件可使以多打少的开始与特定媒体流时间514-3关联起来。如图所示，各种其他媒体流事件516-3同样可被包括并与特定媒体流时间514-3关联起来。不同事件的详情可各异，并且部分或全部信息可被并入虚拟助理知识中。例如，进球的详情可包括进球队员和助攻队员。集中攻势结束的详情可包括识别失去以多打少状态的球队以及全力回击的球队的信息。屏幕上的队员的详情可包括队员在屏幕上的坐标位置。另外，媒体流事件516-3可包括比赛的时间段指定，诸如在5:31(UTC)时第一局结束。

在其他示例中，具有附加详细信息的各种其他媒体流事件516-3可被包括在数据馈送510-3中，和/或从媒体流512-3本身确定。例如，冰上队员可与媒体流时间514-3相关联，比分变化可与媒体流时间514-3相关联，比赛中止可与媒体流时间514-3相关联，冰上斗殴以及参与斗殴者可与媒体流时间514-3相关联，等等。另外，各种其他详情可包括在特定事件中，或者可与媒体流相关联，诸如各种统计信息、队员信息、参与者信息(例如，裁判、教练等)、赛段指示符等。这样，数据馈送510-3便可包括在各个时间514-3时在媒体流512-3中发生的各种事件516-3的详细文本描述。

应当理解，要将媒体流事件516-3和媒体流时间514-3的知识并入到虚拟助理知识库中，无需接收媒体流512-3。在一些示例中，在没有媒体流512-3的情况下，数据馈送510-3的信息可由虚拟助理服务器114-3接收，以将信息并入虚拟助理知识(例如，并入数据和模型120-3中)。另一个方面，媒体流512-3可被直接提供至用户设备102-3、电视机顶盒104-3或另一用户设备。如下所述，在一些示例中，媒体事件516-3的虚拟助理知识可用于提示媒体流512-3在用户设备上(例如，用户设备102-3、电视机顶盒104-3等上)的回放，以及响应于其他虚拟助理查询。在其他示例中，媒体流512-3、媒体流512-3的部分和/或与媒体流512-3相关联的元数据，可由虚拟助理服务器114-3接收并被并入虚拟助理的知识库中。

再次参考图59中的过程400-3，在框404-3处，可接收与媒体流中的事件相关联的口头用户请求。如上所述，可通过各种方式(诸如，经由用户设备102-3、遥控器106-3或系统100-3中的另一用户设备)从用户接收语音输入。针对虚拟助理的语音输入可包括各种用户请求，包括与特定媒体内的媒体和/或事件相关联的请求。例如，用户请求可包括对本文所讨论的媒体流事件516-3中的任一个媒体流事件的引用，诸如与图60中所示冰球比赛事件相关联的查询。在一些示例中，用户请求可包括向特定兴趣点提示媒体的请求。例如，用户可请求观看冰球比赛中的斗殴(例如，“为我显示队员Y和队员Q之间的斗殴”)、跳到一局的开始(例如，“跳到第一局的掷球”)、观看进球(例如，“为我显示队员M的进球”)、观看特定判罚导致的结果(例如，“为我显示对队员X用杆打人的判罚”)等。

再次参考图59的过程400-3，在框406-3处，可从媒体流中与用户请求中的事件相关联的时间开始回放媒体流。例如，来自数据馈送510-3的并入到虚拟助理知识库中的知识可用于确定与用户对特定内容的请求相关联的媒体流中的特定时间。图61示出了基于媒体流中响应于查询的事件来提示视频回放的示例性虚拟助理查询响应。在例示的示例中，用户可正在观看具有由电视机顶盒104-3控制的内容的显示器112-3。用户可正在观看视频620-3，该视频可包括与上述数据馈送510-3相关联的冰球比赛。如参考过程400-3的框404-3所讨论的，接着用户可请求观看与事件相关联的特定媒体内容。例如，用户可请求观看进球(例如，“再次为我显示那个进球”、“为我显示队员M的进球”、“为我显示A队的进球”、“为我显示第一局中的进球”、“为我显示A/B冰球比赛中的第一个进球”、“重放最近一次进球”等)。

响应于用户请求，可确定响应于用户的请求的媒体流中(例如，视频620-3中)的特定时间。在该示例中，使用来自图60中数据馈送510-3的被并入虚拟助理知识库中的知识，该系统可识别如图60所示的在5:21(UTC)时A队队员M在队员Q助攻下的进球。然后，系统可使视频620-3的时间进度移到正确的时间来显示所需内容。在该示例中，系统可移动视频620-3的时间进度，在回放指示符622-3上指示的提示时间624-3开始回放。如图所示，提示时间624-3可不同于实况转播时间626-3(例如，与电视直播或以其他方式实况播出的内容流相关联的时间)。在一些示例中，提示时间624-3可对应于与对应的媒体流事件516-3相关联的媒体流时间514-3。在其他示例中，根据媒体流事件516-3与媒体流时间514-3的关联方式，可将提示时间624-3移动至早于或晚于媒体流时间514-3。例如，提示时间624-3可比相应媒体流时间514-3早三十秒、一分钟、两分钟或另一个量，以使用户在即将进球得分之前看到比赛。在一些示例中，数据馈送510-3可包括对于何时开始回放特定事件的精确时间指定(例如，指定冰球队员何时开始为最后一球猛攻、指定何时首次看到犯规行为等)。因此，可响应于用户虚拟助理请求，从提示时间624-3开始为用户播放视频620-3。

在一些示例中，视频620-3可替换显示器112-3上所示的另一视频，或者可响应于用户请求而被检索以用于回放。例如，观看其他内容的用户可发出请求以观看另一频道上冰球比赛中得分的最近一个进球(例如，“为我显示在频道七上冰球比赛中得分的最近一个进球”、“为我显示A/B冰球比赛的最近一个进球”、“为我显示Ice Arena比赛中的第一个进球”等)。如上所述，如果用户请求不能被解析到特定媒体，虚拟助理便可根据需要提示更多信息或确认(例如，“您是指第7频道正在播出的A队与B队在Ice Arena的冰球比赛吗？”)随着请求被解析到特定内容，电视机顶盒104-3可检索视频620-3以用于回放，并提示它转到提示时间624-3。应当理解，视频620-3可在用户设备102-3或任何其他设备上播放，并且虚拟助理可类似地(例如，基于特定的用户命令、基于用户正在观看视频620-3的设备、基于用户请求的来源等)提示用户设备102-3或另一设备上的视频620-3转到提示时间624-3。

在一些示例中，针对虚拟助理的用户请求可包括对由电视机顶盒104-3在显示器112-3上示出或者在用户设备102-3的触摸屏246-3上示出的某些内容的模糊引用。例如，与图61中的显示器112-3上所示出的视频620-3相关的请求可包括对屏幕上的队员628-3或屏幕上的队员630-3的模糊引用。单从语音输入上看，用户正在询问或引用的具体队员可能并不清楚。在另一示例中，单从语音输入上看较为模糊的用户请求可包括其他引用。例如，在不知道用户正在观看的特定球队参加的特定比赛的情况下，查看团队名单的请求可能是模糊的；在不知道用户正在观看的特定比赛的情况下，观看下一个进球的请求可能是模糊的；等等。因此，显示器112-3上所示的内容和(例如，来自数据馈送510-3或其他的)相关联的元数据可用于消除用户请求的歧义并确定用户意图。例如，屏幕上的演员、屏幕上的队员、参赛者列表、节目中的演员列表、团队名单等可用以解译用户请求。

在例示的示例中，在显示器112-3上所示的内容和相关联的元数据可用于从对“守门员”、“那个队员”、“八号”、“他”、“M”、昵称的引用或与特定比赛和/或屏幕上的特定队员相关的任何其他引用来确定用户意图。例如，如上所述，数据馈送510-3可包括对哪些队员在特定时间出现在屏幕上、哪些队员参与特定事件、哪些队员在特定时间在冰场上等的指示。在与图61相关联的时间处，例如，从数据馈送510-3并入虚拟助理知识库中的知识可指示队员M(例如，屏幕上的队员628-3)和守门员(例如，屏幕上的队员630-3)在该特定时间在屏幕上、在那段时间在冰场上、在进行那场比赛或者至少可能在屏幕上或与该特定时间相关。然后，可基于该信息消除引用“守门员”、“那个队员”、“八号”、“他”、“M”或昵称等的请求的歧义。

例如，对于观看“守门员的”最近防守的请求(例如，“为我显示守门员的最近防守”)可被解析为该特定守门员对应于屏幕上的队员630-3(而不是替补队员或另一个队的守门员)，并且他的名字或其他识别信息可被用来识别响应于用户查询的内容(例如，当前比赛中该特定守门员的最近防守，先前比赛中该特定守门员的最近防守，等等)。在另一示例中，基于数据馈送510-3和相关联的元数据，观看“八号的”下一个进球的请求(例如，“为我显示八号的下一个进球”)可被解析为带有数字八或昵称为八的特定队员(例如，屏幕上的队员628-3)。然后，可基于对应于“八”的队员的识别信息来识别响应于查询的内容(例如，队员M在该比赛中的下一个进球、队员M在后续比赛中的下一个进球等)。在其他示例中，可分析在显示器112-3上或在用户设备102-3上示出的内容，以便以其他方式解译用户请求。例如，可使用面部识别、图像识别(识别球衣号码)等来识别屏幕上的队员628-3和630-3，以解译相关联的用户请求。应当理解，对用户请求的响应可包括信息性响应和/或媒体内容响应，并且响应可显示在任何设备(例如，显示器112-3、触摸屏246-3等)上。

虽然本文已提供了各种示例，但应当理解，用户可通过各种不同方式来指示队员(以及演员、人物等)，所有这些方式都可根据本文所讨论的示例来消除歧义。例如，用户可引用名称(例如，名字、姓氏、全名、昵称等)、号码、位置、团队、场上位置(例如，“替补四分卫”)、比赛特定的标识符(例如，先发投手、替补队员、中继投手、救援投手等)、参赛经验(例如，新队员、第一年队员、第二年队员等)、队中头衔(例如，队长、副队长等)、比赛风格(例如，彪悍、快速等)、前团队、大学(例如，“来自Q大学的四分卫”)、统计信息(例如，“上演帽子戏法的队员的作战”、“球队最高得分手的罚球”等)、传记信息(例如，“名人堂成员O的儿子”、“在来自西弗吉尼亚的那个投球手之后下一个击球的队员”等)、外貌(例如，高、矮、肤色、着装等)、赞助商(例如，“五金店汽车的冲撞”)，等等。

在其他示例中，针对虚拟助理的用户请求可包括模糊引用，该模糊引用基于由电视机顶盒104-3在显示器112-3上示出或者在用户设备102-3的触摸屏246-3上示出的某些内容的当前回放位置。例如，用户可引用“下一个”进球、“前一个”判罚、“下一个”广告、“最近一个”表演、“下一个”演员出场等。单从语音输入上看，用户意图(例如，特定的所需内容)可能并不清楚。然而，在一些示例中，媒体流中的当前回放位置可用于消除用户请求的歧义并确定用户意图。例如，指示当前回放位置的媒体流时间可被发送到虚拟助理系统，并由虚拟助理系统用于解译用户请求。

图62示出了媒体流512-3，其中示例性媒体流事件516-3出现在当前回放位置732-3之前和之后，该媒体流可用于解译用户查询(例如，以消除用户请求的歧义并确定用户意图)。如图所示，实况转播时间626-3可晚于当前回放位置732-3，并且在一些示例中，媒体流512-3可包括不再为实况的内容的记录。给定如图所示的当前回放位置732-3的情况下，可解译对媒体流事件516-3的各种引用，诸如“下一个”和“前一个”事件。例如，单基于语音输入而言，观看前一个或最近一个进球(例如，“为我显示最近一个进球”)的用户请求可能是模糊的，但是可使用当前回放位置732-3解译用户请求(例如，解析引用“最近一个”)，并将前一个进球734-3识别为所需的媒体流事件516-3。在另一个示例中，单基于语音输入而言，观看下一个判罚(例如，“为我显示下一个判罚”)的用户请求可能是模糊的，但是可使用当前回放位置732-3解译用户请求(例如，解析引用“下一个”)，并将下一个判罚738-3识别为所需的媒体流事件516-3。当前回放位置732-3不但可用于以类似方式解译对前一个判罚736-3和下一个进球740-3的请求，还可用于解译各种其他位置引用(例如，接下来两个、最近三个等)。

图63示出了将媒体流812-3中的事件与该媒体流中的特定时间514-3关联起来的示例性数据馈送810-3。数据馈送810-3可包括与如上所述的数据馈送510-3相似的特征，并且数据馈送810-3可类似地在框402-3处被接收，并用于在上面所讨论的过程400-3的框406-3处使媒体回放。在图63的示例中，媒体流812-3可包括电视播放的颁奖典礼。在其他示例中，类似的媒体流可包括基于互联网的颁奖典礼、广播节目表演、综艺节目等。无论概述信息或特定媒体的其他描述性详情是否与特定时间相关联，它们都可包括在数据馈送810-3中(例如，可包括在标头等中)。在例示的示例中，在10:59(UTC)时在第一框中提供描述性概述信息，包括媒体标题(例如，“电影颁奖典礼”)、媒体描述(“由喜剧演员WhitneyDavidson主持的年度电影颁奖典礼”)和媒体源(例如，在电视“第31频道”上播送)。可相似地提供各种其他描述性信息，并且可在特定字段中提供信息以供参考(例如，标题字段可包括标题、源字段可包括电视频道或互联网地址等)。除了图63中所示的信息之外，还可获取各种其他媒体信息，诸如参与者名称、表演描述、所获奖项等。各种概述和描述性信息可全部并入虚拟助理知识并用于支持相关查询。

如图所示，数据馈送810-3可包括与媒体流时间514-3相关的媒体流事件516-3，这可类似于上文参考图60所讨论的事件516-3和时间514-3。数据馈送810-3中的媒体流事件516-3可包括媒体流812-3中的各种事件或兴趣点。例如，在颁奖典礼(例如，电影奖、戏剧奖等)如媒体流812-3中，媒体流事件516-3可包括独白、颁奖仪式、获奖者演讲、参与者出场、表演描述、广告插播等。

在其他示例中，可基于社交媒体、流行视点、投票等来识别兴趣点或事件。例如，可使用与特定媒体(例如，颁奖典礼直播)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致出现时间(例如，在对主题进行首次评论之前不久)。在另一个示例中，观众可通过(例如，使用遥控器上的按钮、口头请求、虚拟按钮等)在媒体中标记时间来指示兴趣点。再如，可从与其他人共享媒体(诸如，共享从媒体流某个部分起的视频剪辑)的用户处识别兴趣点。因此，可从媒体提供方、用户、社交网络讨论和各种其他源识别数据馈送810-3中的媒体流事件516-3。

在图63的示例中，数据馈送810-3可包括与颁奖典礼中的事件相关联的媒体流事件516-3。例如，名为Whitney Davidson的喜剧演员的开场独白可发生在11:00(UTC)时，并且数据馈送810-3可在该事件的特定媒体流时间514-3处包括相关联的媒体流事件516-3。在11:08(UTC)时，名为Jane Doe和John Richards的演员可向一位名为Jennifer Lane的获奖设计师颁发了最佳服装设计奖。颁奖仪式详情(例如，奖项名称、颁奖嘉宾、获奖者等)可被包括在与该特定媒体流时间514-3的颁奖仪式相关联的媒体流事件516-3中。在11:10(UTC)时，最佳服装设计奖获得者可发表了演讲，并且在该时间处可包括带有相关联详情(例如，奖项类型、获奖者、演讲者等)的媒体流事件516-3。在11:12(UTC)时，名为DavidHolmes的歌手献上了题为“Unforgettable”的音乐表演，并且在对应时间514-3处可包括带有相关联详情的媒体流事件516-3。如图所示，各种其他媒体流事件516-3同样可被包括并与特定媒体流时间514-3关联起来。不同事件的详情可各异，并且部分或全部信息可被并入虚拟助理知识中。

在其他示例中，具有附加详细信息的各种其他媒体流事件516-3可被包括在数据馈送810-3中，和/或从媒体流812-3本身确定。例如，可将正出现在屏幕上的演员或参与者与媒体流时间514-3关联起来。此类信息可源于所提供的数据或可通过(例如，使用面部识别等)分析媒体流812-3得出。另外，各种其他详情可包括在特定事件中，或者可与媒体流相关联，诸如各种统计信息、参与者信息(例如，观众、制片人、导演等)等。这样，数据馈送810-3便可包括在各个时间514-3时在媒体流812-3中发生的各种事件516-3的详细文本描述。如上所述，该信息可被并入虚拟助理的知识库，并用于响应用户请求，诸如根据上面参考过程400-3的框406-3所讨论的用户请求来提示视频。

图64示出了将媒体流912-3中的事件与该媒体流中的特定时间514-3关联起来的示例性数据馈送910-3。数据馈送910-3可包括与如上所述的数据馈送510-3和数据馈送810-3相似的特征，并且数据馈送910-3可类似地在框402-3处被接收，并用于在上面所讨论的过程400-3的框406-3处使媒体回放。在图64的示例中，媒体流912-3可包括电视节目，诸如情景喜剧。在其他示例中，类似的媒体流可包括游戏节目、新闻节目、谈话节目、综艺节目、知识竞赛节目、虚拟现实节目、戏剧、肥皂剧等。无论概述信息或特定媒体的其他描述性详情是否与特定时间相关联，它们都可包括在数据馈送910-3中(例如，可包括在标头等中)。在例示的示例中，在14:00(UTC)时在第一框中提供了描述性概述信息，包括媒体标题(例如，“电视节目”)、媒体描述(有演员Jane Holmes(人物A)和David Doe(人物B)出演的情景喜剧)和媒体源(例如，流传输自网络源)。可相似地提供各种其他描述性信息，并且可在特定字段中提供信息以供参考(例如，标题字段可包括标题、源字段可包括电视频道或互联网地址等)。除了图64中所示的信息之外，还可获取各种其他媒体信息，诸如制片人、导演、主持人、参与者名称、参与者特征、演员、剧情描述、嘉宾等。各种概述和描述性信息可全部并入虚拟助理知识并用于支持相关查询。

如图所示，数据馈送910-3可包括与媒体流时间514-3相关的媒体流事件516-3，这可类似于上文参考图60所讨论的事件516-3和时间514-3。数据馈送910-3中的媒体流事件516-3可包括媒体流912-3中的各种事件或兴趣点。例如，在电视节目(例如，电视剧、新闻节目、谈话节目等)如媒体流912-3中，媒体流事件516-3可包括表演描述(例如，场景描述、表演者出场等)、节目段指示符(例如，独白、欢送、片头、嘉宾出场、颁奖环节)、广告插播等。

在其他示例中，可基于社交媒体、流行视点、投票等来识别兴趣点或事件。例如，可使用与特定媒体(例如，流行情景喜剧的新一集、夜间谈话节目等)相关联的社交媒体网络上的流行评论来识别可能的兴趣点和大致出现时间(例如，在对主题进行首次评论之前不久)。在另一个示例中，观众可通过(例如，使用遥控器上的按钮、口头请求、虚拟按钮等)在媒体中标记时间来指示兴趣点。再如，可从与其他人共享媒体(诸如，共享从媒体流某个部分起的视频剪辑)的用户处识别兴趣点。因此，可从媒体提供方、用户、社交网络讨论和各种其他源识别数据馈送910-3中的媒体流事件516-3。

在图64的示例中，数据馈送810-3可包括与情景喜剧电视节目中的事件相关联的媒体流事件516-3。例如，片头部分可出现在14:01(UTC)时，并且数据馈送910-3可在该事件的特定媒体流时间514-3处包括相关联的媒体流事件516-3。在14:03(UTC)时，在节目的剧情中，两个人物可能为争夺停车位而打了一架。情节中场景或时刻的详情(例如，屏幕上的人物、屏幕上的演员、所发生的事情描述等)可包括在与特定媒体流时间514-3的颁奖仪式相关联的媒体流事件516-3中。在14:06(UTC)时，嘉宾可出现在节目中并演唱了歌曲，并且在对应时间514-3处可包括带有相关联详情的媒体流事件516-3。如图所示，各种其他媒体流事件516-3同样可被包括并与特定媒体流时间514-3关联起来。不同事件的详情可各异，并且部分或全部信息可被并入虚拟助理知识中。

在其他示例中，具有附加详细信息的各种其他媒体流事件516-3可被包括在数据馈送910-3中，和/或从媒体流912-3本身确定。例如，可将正出现在屏幕上的演员或参与者与媒体流时间514-3关联起来。此类信息可源于所提供的数据或可通过(例如，使用面部识别等)分析媒体流912-3得出。另外，各种其他详情可包括在特定事件中，或者可与媒体流相关联，诸如各种统计信息、参与者信息(例如，观众、制片人、导演等)等。这样，数据馈送910-3便可包括在各个时间514-3时在媒体流912-3中发生的各种事件516-3的详细文本描述。如上所述，该信息可被并入虚拟助理的知识库，并用于响应用户请求，诸如根据上面参考过程400-3的框406-3所讨论的用户请求来提示视频。

在本文所讨论的各种示例中的任一示例中，附加虚拟助理知识可源于与特定媒体内容相关联的隐藏式字幕文本。例如，本文所讨论的任何数据馈送的信息可由隐藏式字幕文本补充或源于隐藏式字幕文本。可基于与媒体回放中的特定时间相关联的隐藏式字幕文本在媒体流时间514-3处添加附加媒体流事件516-3(例如，识别何时说出特定短语、识别特定人物何时讲话等)。另外，根据本文所讨论的各种示例(例如，基于说出的名字)，可使用隐藏式字幕文本来消除用户请求的歧义并确定用户意图。

图65示出了与视频1050-3中的特定时间相关联的示例性隐藏式字幕文本1054-3，其可用于响应虚拟助理查询。在例示的示例中，隐藏式字幕界面1052-3可包括在显示器112-3上所示视频1050-3的当前回放位置1056-3处的隐藏式字幕文本1054-3。在当前回放位置1056-3处，屏幕上可出现人物1060-3、1062-3和1064-3，并且他们当中有些人可在说以隐藏式字幕文本1054-3示出的文本。在得出用于虚拟助理知识的信息时，可将隐藏式字幕文本1054-3与当前回放位置1056-3关联。在一些示例中，时间偏移1058-3可被用作参考(例如，隐藏式字幕文本1054-3的文本可在视频1050-3中出现两分钟，或者类似地，相当的语音可在视频1050-3中讲两分钟)。

可从隐藏式字幕文本1054-3得出各种信息，并且其中一些信息可作为特定媒体流事件516-3与时间偏移1058-3相关联。例如，说出的名称可用于推断特定时间屏幕上的人物出场。说出的字词“Blanche”可例如用于推断名为“Blanche”的人物可能在视频1050-3中的时间偏移1058-3处或附近出现在屏幕上。然后，得出的信息可用于响应与人物名称“Blanche”或从元数据识别的对应女演员相关联的用户请求(例如，“为我显示Blanche出场的一幕”)。在另一个示例中，可识别说出的短语并将其与说出这些短语的特定时间相关联。说出的短语“背景显赫”可例如被识别为在视频1050-3中的时间偏移1058-3处或附近说出。然后，得出的信息可用于响应与说出的短语“背景显赫”相关联的用户请求(例如，“为我显示Blanche说了背景显赫的一幕”)。因此，可分析隐藏式字幕文本并将其与特定时间相关联，并且该组合可被并入虚拟助理知识以响应相关用户请求。

应当理解，无论是否在界面(诸如，界面1052-3)中示出了隐藏式字幕文本1054-3，都可从该隐藏式字幕文本中得出信息。例如，可在不实际播放对应视频的情况下分析隐藏式字幕文本，并且可从与隐藏式字幕相关联的元数据得出时间。此外，虽然在图65中的显示器112-3上示出了隐藏式字幕，但应当理解，在实际播放或不实际播放相关联视频的情况下，可对隐藏式字幕进行分析，从而在服务器或另一设备处得出虚拟助理知识。

如上所述，从用户处接收的语音输入可能是模糊的。除了可用于解译用户请求的上述信息(例如，屏幕上的队员、屏幕上的演员、回放位置等)之外，各种其他上下文信息也可用于解译用户请求。例如，关于用户的个人信息可用于解译用户请求。可基于语音识别、登录设备、输入口令、使用特定帐户、选择个人资料信息(例如，年龄和性别)等来识别用户。然后可使用所识别的用户(或特定家庭)的用户特定数据来解译用户请求。此类用户特定数据可包括用户喜爱的团队、用户喜爱的运动、用户喜爱的队员、用户喜爱的演员、用户喜爱的电视节目、用户的地理位置、用户人口统计学特征、用户的观看历史、用户的订阅数据等。另外，用户特定数据(或家庭特定数据)可包括媒体内容观看历史，其反映了通常观看的节目、通常观看的体育比赛、偏好的分类等。此外，在一些示例中，可从用户语音(例如，基于音高、用词等)推断出通用的年龄和性别数据，然后可使用该数据根据个人资料信息来偏置结果(例如，基于年龄和性别资料的可能偏好来偏置字词、表演、名称、查询结果等)。

在一些示例中，用户请求可特别地引用用户特定数据。例如，用户可引用“我的团队”(例如，“我的团队表现如何？”)。然后可使用用户特定数据将引用“我的团队”解析为被指定为用户喜爱的团队的特定运动队。在其他示例中，用户特定数据可用于偏置语音识别和用户意图确定(例如，基于最近观看的电影推断特定用户可能询问特定演员，其中所述电影中出现了该演员)。例如，可在用户特定数据中识别用户喜欢的、观看的或以其他方式相关联的演员或队员的名称，并在语音识别和意图确定过程中使用这些名称，从而使结果偏向有利于那些演员或队员名称。这可有助于准确地识别唯一名称、听起来像其他字词或其他名称的名称等。

除了本文所讨论的用于准确识别语音输入和解译用户请求的各种其他上下文源之外，来自与用户相关联的多个设备的信息可被用作准确语音识别和确定用户意图的上下文。例如，(例如，在显示器112-3上)观看电视的用户也可在另一设备上(例如，在用户设备102-3上)消费内容。然后可使用来自两个设备的内容来解译用户请求。

图66A示出了显示有视频1150-3的电视显示器112-3。图66B示出了带有触摸屏246-3的用户设备102-3，该设备示出了显示的图像1170-3和显示的文本1172-3。可(例如，经由遥控器106-3或用户设备102-3)接收引用来自任一设备的内容的用户请求。例如，用户可请求示出“Jennifer的”最近一个进球。仅来自语音输入的对“Jennifer”的引用可能是模糊的。然而，显示的文本1172-3可用于消除请求的歧义，并将Jennifer识别为出现在用户设备102-3上所示内容中的队员。然后可基于特定队员来识别响应于请求的视频内容，并且可为用户播放该内容。显示器112-3或用户设备102-3上可(例如，基于特定命令、用户偏好等)提供响应内容。

在另一个示例中，可在语音识别过程中使用与图66A中视频1150-3相关联的名称以及与图66B中所显示的图像1170-3和所显示的文本1172-3相关联的名称，以使结果偏向可能的名称候选项或识别可能难以识别的名称。例如，用户请求可包括可能模糊的名称，但可使用与任一设备上所显示的内容相关联的名称来准确识别用户意图。在其他示例中，可类似地使用与任一设备上所显示的内容相关联的演员、颁奖嘉宾、表演者、制片人、导演、参与者、处罚、体育术语等的列表，来提高语音识别准确度并确定用户意图。

在一些示例中，图66B中所显示的图像1170-3可包括移动图像或视频。例如，图66B中所示内容可包括次级屏幕体验数据(例如，旨在伴随另一节目的数据和视频)、次级相机视图数据(例如，针对特定节目的视频，该视频相比于主要显示的视频具有可选视图或有利位置)等。此类信息可用于提高语音识别准确度，并以与上文所述类似的方式确定用户意图。此外，无论是否在独立用户设备上示出，次级屏幕体验数据、次级相机视图数据等都可被接收并作为数据馈送的一部分用来识别媒体流中的相关兴趣点和相关联时间。例如，次级屏幕体验可包括对比赛精彩镜头的说明。那些说明可作为带有相关联媒体流时间的相关媒体流事件包括在虚拟助理知识中，并可用于响应用户请求。类似地，次级相机视图数据可作为识别特定媒体流时间的相关媒体流事件包括在虚拟助理知识中，在该特定媒体流时间内另选相机内容是可用的(这可例如用于响应某些用户请求)。

如上所述，响应于某些用户请求，可从特定提示时间开始回放媒体。在一些示例中，可响应于一些用户请求而连续回放一个或多个媒体流中的多个段。例如，用户可请求观看比赛精彩镜头、比赛中所有的进球、比赛中所有的斗殴、节目中特定演员的所有出场、节目中特定人物的所有场景、多个谈话节目中的每个谈话节目的开场独白、多个比赛节目中的每个比赛节目的颁奖环节、一个节目的最佳时刻或一个或多个节目的多种其他媒体片段。通过采用与上述相同的方式，可在一个或多个节目中识别出与所需事件相关联的特定时间，并且可开始回放，其中第一段后面连续跟着其他所识别的段。在一些示例中，可基于书签流行度、社交媒体讨论、重放计数等来确定精彩镜头、最佳时刻等。可通过各种方式来识别每段的结束，诸如通过广告插播、相关媒体流中的另一媒体事件、默认播放时间、媒体事件详情中的特定端点条目等。这样，用户可请求例如他们想看的特定内容的精彩镜头集锦，并且系统可自动识别所需精彩镜头并连续回放(或以任何其他顺序等提供这些精彩镜头以用于可选的播放)。

在一些示例中，用户可能想要与朋友、家人等共享媒体流中特定段。在一个示例中，用户可指示媒体流中与媒体流中特定回放位置对应的书签位置。然后，该定制书签位置可被传送到服务器，并通过社交网络、消息、其他电视机顶盒104-3、其他用户设备102-3等与朋友共享。用户可使用物理按钮、虚拟按钮、语音输入或使用遥控器106-3和/或用户设备102-3的任何其他条目来指示书签。例如，用户可将请求导向到虚拟助理系统以对某个媒体片段添加书签，并将其发送给用户通讯录中的联系人(例如，对其添加书签并发送给Corey)。然后，系统可识别特定媒体片段(例如，媒体标识符以及UTC参考、偏移等)，并将其传输给所需联系人。在一些示例中，用户既可识别所需段的起始位置，也能识别所需段的结束位置。在其他示例中，用户可引用并共享特定媒体流事件(例如，与Jordan共享此进球、向Susan发送此表演等)。在其他示例中，书签和媒体流事件可通过社交网络等来共享。

如上所述，响应于媒体相关的虚拟助理查询，系统可提示视频回放和/或用信息性回答进行响应(例如，通过在显示器112-3或用户设备102-3上显示文本响应、大声朗读响应等)。在一些示例中，可通过类似的方式使用如本文所讨论的用于提示视频回放的各种数据馈送和其他信息，以确定对用户请求的信息性响应。图67示出了用于将信息整合到数字助理知识中，并响应用户请求的示例性过程1200-3。在框1202-3处，可接收包括与媒体流中的时间相关联的事件的数据馈送。数据馈送可包括本文所讨论的具有对应媒体流事件516-3中的任一个对应媒体流事件的数据馈送中的任一个数据馈送，诸如参考图60讨论的数据馈送510-3、参考图63讨论的数据馈送810-3以及参考图64讨论的数据馈送910-3。

再次参考图67中的过程1200-3，在框1204-3处，可接收到与数据馈送中的事件相关联的口头用户请求。用户可请求关于任何媒体流事件、当前播放媒体、屏幕上的队员、屏幕上的演员等的信息。例如，用户可请求识别得分的队员(例如，“谁进球得了那分？”)、识别鸣哨判罚(例如，“为什么要判罚？”)、识别屏幕上的表演者(“那是谁？”)、识别歌名(例如，“她在唱什么？”)、识别屏幕上节目中的人物(例如，“这些人物叫什么名字？”)、识别节目中的人物(例如，“这个节目中都有谁？”)、剧情描述(例如，“这集的内容是什么？”)、系列描述(例如，“这个系列的内容是什么？”)或与媒体内容相关联的各种其他查询。

在框1206-3处，可基于与事件相关的数据(例如，来自本文所讨论的数据馈送中的任一个数据馈送的数据)生成对用户请求的响应。可例如搜索本文所讨论的媒体流事件516-3中的任一个来获取对各种查询(例如，诸如上文参考框1204-3所提到的各种查询示例)的信息性响应。在一些示例中，可基于当前播放媒体(例如，正在播放的节目、暂停的节目、屏幕上所示出的节目等)生成响应。例如，单基于语音输入而言，引用当前播放媒体的用户请求可能是模糊的。当前播放媒体可用于消除用户请求的歧义，并通过解析关于当前内容的引用来确定用户意图。例如，用户可请求“这个”节目的演员列表(例如，“这个节目中都有谁？”)，但由于从语音输入来看所提及的节目并不明显，因此该请求可能并不清楚。然而，可使用当前播放的节目解析对“这个”的引用并识别用户意图。例如，如果正在播放图64的电视节目示例，则可使用在14:00(UTC)时列出的概述信息通过识别演员Jane Holmes和David Doe来响应用户查询。

在其他示例中，可基于当前播放媒体的当前回放位置和/或先前由用户消费的媒体内容来生成响应。例如，用户可请求识别刚被示出为进球的队员，并且可在请求中引用“那个”进球(例如，“谁进了那个球？”)。可使用当前播放媒体的当前回放位置来确定用户意图，并且不论稍后是否有其他进球出现在媒体流中，都会通过将“那个”进球解析为显示给用户的最近进球来生成响应。在图62的示例中，当前回放位置732-3可用于将“那个”进球解析为前一个进球734-3，并且对应媒体流事件的内容可用于回答查询。具体地，队员M可被识别为获取了用户看到的最近的进球得分。如上文参考图62所讨论的，当前回放位置还可用于从各种其他模糊引用(例如，下一个、前一个等)确定用户意图，并且所识别的媒体流事件信息可用于制定对查询的响应。

另外，在一些示例中，用户可能想要改变他们的观看体验并延迟了解直播或更新的信息。例如，用户可在体育赛事已经开始之后甚至在其已经结束之后开始观看。然而，用户可能想要像现场直播那样体验整个比赛。在这种情况下，可过滤可用的虚拟助理知识，以引用与当前回放位置同时可用的信息，并避免引用来自当前回放位置之后的点的信息。例如，再次参考图62的示例，假设用户正在当前回放位置732-3处观看，则系统可避免在响应中包括下一个进球740-3。用户可请求例如当前回放位置732-3处的进球(例如，“到目前为止比分为多少？”)。作为响应，系统可基于先前观看的事件(例如，前一个进球734-3)提供比分，同时排除当前回放位置732-3之后的事件(例如，下一个进球740-3)。

在一些示例中，用户请求可(例如，通过说“到目前为止”、“直到现在”、“此刻比赛中”、“迄今为止”等)规定响应信息应当与当前回放位置同步，或者(例如，通过说“直播的”、“更新的”、“当前”等)规定响应信息应当是可用的最新更新的信息。在其他示例中，设置、用户偏好等可确定响应是包括最新更新的信息还是替代地仅包括与回放位置同步的信息。此外，在一些示例中，可(例如，基于术语、名称等)与特定比赛相关联的警报、通知、消息、社交媒体馈送条目等可根据需要被阻止发送给用户，并且仅在用户到达对应于各种消息的相关联内容中的回放位置之后递送。例如，来自朋友的评论直播体育赛事的消息(例如，用于在用户设备102-3或任何其他设备上递送)可被有意延迟，直到用户在延迟观看体育赛事时到达与发送消息的时间对应的点，消息可在该点被递送给用户。这样，观看体育赛事(或消费任何其他媒体)的整个体验可根据需要进行时移(例如，以避免破坏结果)。

在其他示例中，可基于由电视机顶盒104-3在显示器112-3上示出的内容、在用户设备102-3的触摸屏246-3上示出的内容和/或与所显示的内容中的任何内容相关联的元数据来生成响应。例如，可基于屏幕上的演员、屏幕上的队员、参赛者列表、节目中的演员列表、团队名单等来生成响应。如上文参考图61、图66A和图66B所讨论的那样，可从所显示的内容和相关联的元数据得出各种信息，并且该信息可用于消除用户请求的歧义，确定用户意图，并生成对用户请求的响应。例如，可基于当前回放位置附近的媒体流事件、面部识别、隐藏式字幕文本等来生成用于识别屏幕上的队员的用户请求(例如，“那位是谁？”)的响应。在图61的示例中，例如，可使用提示时间624-3附近的媒体流事件(例如，附近的A队进球)将屏幕上的队员628-3识别为队员M。在另一示例中，可使用图像处理来识别屏幕上队员628-3的球衣号码，以将其从名单识别为队员M。

再次参考图67中的过程1200-3，在框1208-3处，可使得在框1206-3处确定的响应被递送。在一些示例中，递送该响应可包括使得响应经由电视机顶盒104-3在显示器112-3上、在用户设备102-3上或在另一设备上显示或播放。例如，文本响应和/或媒体响应可在设备上的虚拟助理界面中显示或播放。在另一示例中，递送响应可包括(例如，从服务器)向电视机顶盒104-3、用户设备102-3或另一设备传输响应信息。在其他示例中，用户可请求识别图像或视频内的信息(例如，“哪一个是Jennifer？”)，并且响应可包括基于例如在相关联的媒体流事件中所识别的坐标，显示重叠在图像或视频上的指示符(例如，箭头、点、轮廓等)。因此，过程1200-3可用于通过采用并入虚拟助理知识库中的适时数据，以多种方式响应各种用户查询。

根据一些示例，图68示出了电子设备1300-3的功能框图，所述电子设备根据所描述的各种示例的原理进行配置，以便例如对媒体回放进行语音控制并实时更新虚拟助理的知识。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图68中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图68所示，电子设备1300-3可包括被配置为显示媒体、界面和其他内容的显示单元1302-3(例如，显示器112-3、触摸屏246-3等)。电子设备1300-3还可包括输入单元1304-3，该输入单元被配置为接收信息，诸如语音输入、触觉输入、手势输入、媒体信息、数据馈送、媒体等(例如，麦克风、接收器、触摸屏、按钮、服务器等)。电子设备1300-3还可包括耦接至显示单元1302-3和输入单元1304-3的处理单元1306-3。在一些示例中，处理单元1306-3可包括数据馈送接收单元1308-3、用户请求接收单元1310-3以及媒体回放单元1312-3。

处理单元1306-3可被配置为(例如，使用数据馈送接收单元1308-3从输入单元1304-3)接收数据馈送，其中数据馈送包括与事件相关的数据，该事件与媒体流中的时间相关联。处理单元1306-3可被进一步配置为基于语音输入(例如，使用用户请求接收单元1310-3从输入单元1304-3)接收用户请求，其中所述用户请求与事件相关联。处理单元1306-3可被进一步配置为响应于接收到用户请求，(例如，使用媒体回放单元1312-3)使得媒体流在媒体流中与事件相关联的时间处(例如，在显示单元1302-3上)开始回放。

在一些示例中，处理单元1306-3可被进一步配置为基于当前播放媒体来解译用户请求。在其他示例中，处理单元1306-3可被进一步配置为基于当前播放媒体的当前回放位置来解译用户请求。在其他示例中，处理单元1306-3可被进一步配置为基于屏幕上的演员、屏幕上的队员、参赛者列表、节目中的演员列表、节目中的人物列表或团队名单中的一者或多者来解译用户请求。在一些示例中，媒体流包括体育赛事，并且与该事件相关的数据包括队员特征(例如，名称、昵称、号码、位置、团队、场上位置、经验、风格、传记信息等)、得分、判罚、统计信息或赛段指示符(例如，四分之一、一局、一半、一圈、警告标志、停车进站、落后、比赛等)中的一者或多者。在其他示例中，媒体流包括颁奖典礼，并且与该事件相关的数据包括参与者特征(例如，名称、昵称、人物名称、传记信息等)、表演描述或颁奖仪式指示符中的一者或多者。在其他示例中，媒体流包括电视节目，并且与该事件相关的数据包括表演描述或节目段指示符中的一者或多者。

在一个示例中，(例如，用户请求接收单元1310-3的)用户请求包括对媒体流中精彩镜头的请求。在一些示例中，处理单元1306-3可被进一步配置为响应于接收到请求，使媒体流的多个段连续回放。在其他示例中，使媒体流回放包括在除电子设备之外的回放设备上使媒体回放。在一些示例中，电子设备包括服务器、机顶盒、遥控器、智能电话或平板电脑。在其他示例中，回放设备包括机顶盒、智能电话、平板电脑或电视。处理单元1306-3可被进一步配置为基于由电子设备显示的信息来解译用户请求。处理单元1306-3可被进一步配置为基于由回放设备显示的信息来解译用户请求。

在一些示例中，与事件相关的数据包括隐藏式字幕文本。处理单元1306-3可被进一步配置为基于隐藏式字幕文本来确定媒体流中与事件相关联的时间。在一个示例中，与事件相关的数据包括次级屏幕体验数据、次级相机视图数据或社交网络馈送数据中的一者或多者。处理单元1306-3可被进一步配置为从用户接收书签指示，其中该书签对应于媒体流中的特定回放位置。处理单元1306-3可被进一步配置为接收用于共享书签的用户请求，并且响应于接收到用于共享书签的用户请求，使得与特定回放位置相关联的提示信息传输到服务器。处理单元1306-3可被进一步配置为基于用户喜爱的团队、用户喜爱的运动、用户喜爱的队员、用户喜爱的演员、用户喜爱的电视节目、用户的地理位置、用户人口统计学特征、用户的观看历史或用户的订阅数据中的一者或多者来解译用户请求。

根据一些示例，图69示出了电子设备1300-3的功能框图，所述电子设备根据各种所述示例的原理配置，以便例如使信息整合到数字助理知识中并响应用户请求。设备的功能块可由执行各种所述示例的原理的硬件、软件、或硬件和软件的组合来实现。本领域的技术人员应当理解，图69中所述的功能块可被组合或被分离为子块，以便实现各种所述示例的原理。因此，本文的描述任选地支持本文所述功能块的任何可能的组合或分离或进一步限定。

如图69所示，电子设备1400-3可包括被配置为显示媒体、界面和其他内容的显示单元1402-3(例如，显示器112-3、触摸屏246-3等)。电子设备1400-3还可包括输入单元1404-3，该输入单元被配置为接收信息，诸如语音输入、触觉输入、手势输入、媒体信息、数据馈送、媒体等(例如，麦克风、接收器、触摸屏、按钮、服务器等)。电子设备1400-3还可包括耦接至显示单元1402-3和输入单元1404-3的处理单元1406-3。在一些示例中，处理单元1306-3可包括数据馈送接收单元1408-3、用户请求接收单元1410-3、响应生成单元1412-3以及响应递送单元1414-3。

处理单元1406-3可被配置为(例如，使用数据馈送接收单元1408-3从输入单元1404-3)接收数据馈送，其中数据馈送包括与事件相关的数据，该事件与媒体流中的时间相关联。处理单元1406-3可被进一步配置为基于来自用户的语音输入(例如，使用用户请求接收单元1410-3从输入单元1404-3)接收用户请求，其中所述用户请求与事件相关联。处理单元1406-3可被进一步配置为基于与赛事相关的数据(例如，使用响应生成单元1412-3)生成对用户请求的响应。处理单元1408-3可被进一步配置为(例如，使用响应递送单元1414-3)使得响应被递送。

在一些示例中，(例如，使用响应生成单元1412-3)生成响应还包括基于当前播放媒体生成响应。在其他示例中，(例如，使用响应生成单元1412-3)生成响应还包括基于当前播放媒体的当前回放位置生成响应。在其他示例中，(例如，使用响应生成单元1412-3)生成响应还包括基于用户先前消费的媒体内容生成响应。在一些示例中，(例如，使用响应生成单元1412-3)生成响应还包括基于屏幕上的演员、屏幕上的队员、参赛者列表、节目中的演员列表或团队名单中的一者或多者来生成响应。

在一些示例中，处理单元1406-3可被进一步配置为响应于用户请求包括对与当前播放媒体的当前回放位置同步的信息的请求，基于与当前回放位置同步的数据来生成响应，其中与当前回放位置同步的数据不包括与当前回放位置之后的时间相关联的数据；并且，响应于用户请求包括对实况信息的请求，基于实况数据生成响应。在一些示例中，(例如，使用响应递送单元1414-3)使得响应被递送包括使得响应在除电子设备之外的回放设备上显示或播放。在其他示例中，(例如，使用响应递送单元1414-3)使得响应被递送包括使得响应被递送到除电子设备之外的回放设备。在一些示例中，电子设备包括服务器、机顶盒、遥控器、智能电话或平板电脑。在其他示例中，回放设备包括机顶盒、智能电话、平板电脑或电视。在一些示例中，处理单元1406-3可被进一步配置为基于由电子设备显示的信息来解译用户请求。在其他示例中，处理单元1406-3可被进一步配置为基于由回放设备显示的信息来解译用户请求。

304页详细技术资料下载

媒体环境中的智能自动化助理

相关技术

网友询问留言