信息处理装置、信息处理方法和程序

文档序号:1909635 发布日期:2021-11-30 浏览:21次 >En<

阅读说明:本技术 信息处理装置、信息处理方法和程序 (Information processing apparatus, information processing method, and program ) 是由 仓沢裕美 于 2020-03-26 设计创作,主要内容包括:本发明允许用户关于语音代理执行良好的用户话语操作。信息处理装置接受用户话语数据和用户共享信息。信息处理装置通过考虑用户共享信息来分析用户话语数据,并获取包括话语意图的分析结果。信息处理装置输出分析结果。例如,用户共享信息是文本信息和用于识别由文本信息指示的信息类型的标签信息的组合。例如,用户共享信息还是指示预定数量的状态类型中的状态的信息。在关于对语音代理进行的话语操作中,信息处理装置允许用户像在人与人对话的情况下适当省略地交谈,从而可以执行良好的话语操作。(The present invention allows a user to perform good user utterance operations with respect to a voice agent. The information processing apparatus accepts user utterance data and user sharing information. The information processing apparatus analyzes user utterance data by considering user sharing information, and acquires an analysis result including an utterance intention. The information processing apparatus outputs the analysis result. For example, the user shared information is a combination of text information and tag information for identifying the type of information indicated by the text information. For example, the user sharing information is also information indicating a state in a predetermined number of state types. In regard to the speech operation performed on the voice agent, the information processing apparatus allows the user to talk as if it were left out appropriately in the case of person-to-person conversation, so that a good speech operation can be performed.)

信息处理装置、信息处理方法和程序

技术领域

本技术涉及信息处理装置、信息处理方法和程序,并且更具体地,涉及适当地应用于代理系统等的信息处理装置等。

背景技术

近年来,随着诸如家庭代理的装置的出现,交互系统在家庭中被引入。因此,在未来,可以预期语音代理将被用作各种装置的接口。

在人与人对话的情况下,通常基于该共享的假设来确定哪些信息是相互能识别的,并且在与伙伴交谈时进行对话。例如,在一个人面前看到的东西可以用指示词“那个(that)”来表示,或者可以从部分短语“那些红色的东西”来理解特征,并且在某些情况下,当人们在同一位置时,有时可以通过部分地引用其中一些省略来理解情况。

类似地,当人们与机器交谈时,人们还可能估计“由机器识别的信息”,并关于“装置显示或装置响应的信息”或“由机器本身控制的信息进行交谈”。

例如,专利文献1公开了一种技术,用于建议通过语音识别将对应的输入信息与关于在屏幕上显示的信息的其他显示信息区分开来的显示方法。为了处理不是所有由装置显示的信息能够根据语音输入来输入的情况,通过执行显示来防止关于用户的期望的不匹配,从而可以理解根据语音输入可以输入什么信息。

[引用列表]

[专利文献]

[专利文献1]

JP 2014-202857 A

发明内容

[技术问题]

在专利文献1中描述的技术是用于主动地向用户呈现可以被应用侧接受为语音输入的表达的技术。然而,根据该技术,用户可能不能执行具有自由语音表达的各种操作,并且只能执行有限的操作。

为了使应用向用户呈现某些信息并响应于该信息灵活地理解用户的话语输入,理解话语的模块有必要主动地理解应用向用户呈现的内容并与用户共享信息。

然而,通常,普通代理系统具有这样的配置,其中控制应用本身的控制单元和解释话语含义的单元是不同的模块。在一些情况下,可以存在这样的格式,其中用户在客户端侧具有他或她手中的应用,并且解释话语含义的单元在服务器侧,接收话语作为输入,并且简单地将解释结果返回到客户端。

在这种情况下,当已经被控制的控制结果或已经呈现给用户的信息没有被主动地发送到解释话语含义的单元时,解释话语含义的单元仅解释话语。如果已经由应用控制的控制结果等被发送到解释话语含义的单元,但信息不具有可理解的格式,则解释话语含义的单元不能接受该信息。

本技术的目的是允许能够令人满意地执行关于语音代理的用户话语操作。

[问题的解决方案]

根据本技术的一个方面,一种信息处理装置包括:话语输入单元,被配置为接受用户话语数据和用户的共享信息;话语分析单元,被配置为考虑用户的共享信息来分析用户话语数据,并获取包括话语意图的分析结果;以及分析结果输出单元,被配置为输出分析结果。

在本技术的方面中,话语输入单元接受用户话语数据和用户的共享信息。话语分析单元考虑用户的共享信息分析用户话语数据,并获取包括话语意图的分析结果。这里,用户的共享信息是例如可以理解为用户和系统之间共享的信息的信息,例如除了由应用本身呈现给用户作为图像或人声的信息之外,由应用控制单元在信息的呈现中控制的信息。分析结果输出单元输出分析结果。

例如,用户的共享信息可以是文本信息和用于识别由文本信息指示的信息类型的标签信息的组合。在这种情况下,例如,可以将同义词添加到文本信息中。因此,可以处理用户的话语的变化。在这种情况下,例如,用户的共享信息可以包括呈现给用户以在视觉上或听觉上能识别的信息。因此,呈现给用户以便用户可以在视觉上或听觉上识别该信息的信息可以被处理为与用户共享的信息。

例如,用户的共享信息可以是指示预定数量的状态类型中的状态的信息。在这种情况下,例如,用户的共享信息可以是指示状态类型的标签信息和指示每个状态类型的状态的状态信息的组合。因此,话语分析单元能够适当地识别每个状态类型的状态。

在这种情况下,例如,用户的共享信息可以是从应用处理的信息中获取的具有预定格式的信息,并且话语分析单元可以基于机器学习使用具有预定格式的信息来分析用户话语数据。在这种情况下,例如,话语分析单元可以考虑预定数量的先前用户话语数据进一步分析用户话语数据。

这样,在本技术中,考虑到用户的共享信息,对用户话语数据进行分析,获取包括话语意图的分析结果。因此,在用户使用语音代理进行的语音操作中,用户可以像在人与人对话的情况下适当省略地交谈,从而可以令人满意地执行话语操作。

附图说明

图1是示出语音代理系统的配置的示例的框图。

图2是示出应用装置和交互装置的配置的示例的框图。

图3是示出交互装置的处理过程的示例的流程图。

图4是示出应用装置和交互装置的操作的示例的图。

图5是示出应用装置和交互装置的操作的示例的图。

图6是示出应用装置和交互装置的操作的另一示例的图。

图7是示出各种状态类型的示例的图。

图8是示出计算机的硬件配置的示例的框图。

具体实施方式

[实施例的描述]

以下,将描述用于执行本发明的模式(以下称为实施例)。将按以下顺序进行描述。

1.实施例

2.修改示例

<1.实施例>

[语音代理系统的配置示例]

图1示出了语音代理系统10的配置的示例。语音代理系统10被配置为使得系统主体100和云服务器200经由诸如因特网的网络300连接。在系统主体100中有应用装置110,在云服务器200中有交互装置210。

图2示出了应用装置110和交互装置210的配置的示例。应用装置110包括输入单元111、应用控制单元112和输出单元113。输入单元111检测用户的话语,并将对应于该话语的语音数据发送到应用控制单元112。输入单元111由例如麦克风配置。

应用控制单元112将用户话语数据和用户的共享信息发送到交互装置210,从交互装置210接收包括话语意图的分析结果,执行与分析结果相对应的应用控制,并根据需要将提议数据发送到输出单元113。输出单元113基于呈现的信息显示图像和/或输出人声。输出单元113由显示器或扬声器配置。这里,作为输出单元113,存在各种示例。系统主体100的应用装置110本身可以包括输出单元113,并且输出单元113还可以由在系统主体100外部的电视接收器、投影仪等配置。

这里,从应用控制单元112发送到交互装置210的用户话语数据是与通过对语音数据的语音识别处理获取的用户话语或文本数据相对应的语音数据。

当应用控制单元112不具有语音处理功能时,应用控制单元112可以使用语音识别服务器将语音数据转换为文本数据。当应用控制单元112不具有语音处理功能时,应用控制单元112可以将语音数据发送到交互装置210。在这种情况下,交互装置210将语音数据转换为文本数据并使用文本数据。

这里,用户的共享信息包括可以理解为在用户和系统之间共享的信息的信息,例如,除了由应用装置110本身呈现为图像或人声的信息之外,由应用控制单元112在信息的呈现中控制的信息(由用户在视觉或听觉上呈现并能够识别的信息)。

例如,可以假设对用户的话语“明天东京天气如何?”呈现的响应将是“天气晴朗”。在这种情况下,用户估计回复是“明天东京天气晴朗”。在这种情况下,“明天”或“东京”不是呈现的信息,而是用于获取呈现的“天气晴朗”的信息和由应用控制单元112控制的信息。

交互装置210包括话语输入单元211、话语分析单元212和分析结果输出单元213。话语输入单元211接受从应用控制单元112发送的一对用户话语数据和用户的共享信息作为输入。

话语分析单元212考虑用户的共享信息来分析用户话语数据,以获取包括话语意图的分析结果。分析结果输出单元213将话语分析单元212获取的分析结果返回到应用控制单元112。在这种情况下,尽管可以使用一般格式,但这里假设返回指示话语意图的标记和一个或多个参数。假设参数是一对参数项名称和词汇项。

尽管上面没有描述,但是可以设想系统主体100内部的应用装置110的应用控制单元112在云服务器200的一侧。尽管上面没有描述,但也可以设想交互装置210与在应用装置110中一样在系统主体100的一侧。

图3的流程图示出了交互装置210的处理过程的示例。在步骤ST1中,交互装置210的话语输入单元211接受从应用控制单元112发送的一对用户话语数据和用户的共享信息作为输入。

随后,在步骤ST2中,交互装置210的话语分析单元212考虑用户的共享信息来分析用户话语数据,以获取包括话语意图的分析结果。在步骤ST3中,交互装置210的分析结果输出单元213将分析结果返回到应用控制单元112。

[示例1]

接下来,将描述应用装置110和交互装置210之间的操作的示例。该示例是其中用户的共享信息是文本信息和用于识别由文本信息指示的信息类型的标签信息的组合的示例。

将考虑其中在被配置为应用装置110的输出单元113的显示器上显示要再现的乐曲的播放列表的情况,如图4(a)所示。播放列表包括“鸡蛋”、“苹果”和“香蕉”的乐曲。

例如,当用户说“删除鸡蛋”时,如图4(b)的示例1-1所示,标签信息“音乐标题”和文本信息“鸡蛋”、“苹果”和“香蕉”与话语一起从应用控制单元112发送到交互装置210。

在这种情况下,交互装置210的话语分析单元212将“鸡蛋”分析为乐曲,获取指示从乐曲的播放列表中删除乐曲“鸡蛋”的操作的分析结果,并将分析结果返回到应用控制单元112。返回到应用控制单元112的分析结果由作为指示话语意图的标签的“播放列表_删除项”和作为参数的‘项:“鸡蛋”’形成。在参数中,“项”是参数项名称,并且“鸡蛋”是词汇项。

因此,返回分析结果的应用控制单元112执行控制,使得乐曲的播放列表中的乐曲“鸡蛋”被删除。

例如,当用户说“播放鸡蛋”时,如图4(b)的示例1-2所示,标签信息“音乐标题”和文本信息“鸡蛋”、“苹果”和“香蕉”与话语一起从应用控制单元112发送到交互装置210。

在这种情况下,交互装置210的话语分析单元212将“鸡蛋”分析为乐曲,获取指示再现乐曲“鸡蛋”的操作的分析结果,并将分析结果返回到应用控制单元112。返回到应用控制单元112的分析结果由作为指示话语意图的标签的“播放_音乐”和作为参数的‘项:“鸡蛋”’形成。

因此,返回分析结果的应用控制单元112执行控制,使得再现乐曲的播放列表中的乐曲“鸡蛋”。

例如,当用户说“播放纳豆”时,如图4(b)的示例1-3所示,标签信息“音乐标题”和文本信息“鸡蛋”、“苹果”和“香蕉”与话语一起从应用控制单元112发送到交互装置210。

在这种情况下,交互装置210的话语分析单元212分析“纳豆”是普通名词,因为乐曲“纳豆”不包括在乐曲的播放列表中并且没有与用户共享,并将指示不清楚的含义的“未知()”作为分析结果返回到应用控制单元112。基于此,应用控制单元112执行控制,使得例如回复“无法完成”。

接下来,将考虑在其中被配置为应用装置110的输出单元113的显示器上显示购物车列表的情况,如图5(a)所示,购物车列表包括“鸡蛋”、“苹果”和“香蕉”等食物。

例如,当用户说“删除鸡蛋”时,如图5(b)的示例2-1所示,标签信息“食物项”和文本信息“鸡蛋”、“苹果”和“香蕉”与话语一起从应用控制单元112发送到交互装置210。

在这种情况下,交互装置210的话语分析单元212将“鸡蛋”分析为食物,获取指示从购物车列表中删除食物“鸡蛋”的操作的分析结果,并将分析结果返回到应用控制单元112。返回到应用控制单元112的分析结果由作为指示话语意图的标签的“购物车_删除项”和作为参数的‘项:“鸡蛋”’形成。

因此,返回分析结果的应用控制单元112执行控制,使得购物车列表中的食物“鸡蛋”被删除。

例如,当用户说“播放鸡蛋”时,如图5(b)的示例2-2所示,标签信息“食物项”和文本信息“鸡蛋”、“苹果”和“香蕉”与话语一起从应用控制单元112发送到交互装置210。

在这种情况下,交互装置210的话语分析单元212将“鸡蛋”作为食物的主题进行分析,并将指示不清楚的含义的“未知()”作为分析结果返回到应用控制单元112。基于此,应用控制单元112执行控制,使得例如回复“无法完成”。即,在这种情况下,即使有乐曲“鸡蛋”时,该乐曲也不被再现。

在上面的描述中,用户的共享信息具有将文本信息附加到标签信息的格式。例如,存在{“音乐标题”:(“鸡蛋”、“苹果”、“香蕉”)}。然而,用户的共享信息可以具有这样的格式,其中,标签信息针对每条文本信息被附加。例如,可以使用{“鸡蛋”:“音乐标题”,“苹果”:“音乐标题”,“香蕉”:“音乐标题”}。

尽管上面没有描述,但同义词可以附加到文本信息。这里,同义词是指用户可以说的表达,而不是由文本信息指示的表达。例如,当图4(a)所示的播放列表在显示器上显示时,用户也有可能说“播放1号”等而不是“播放鸡蛋”。在这种情况下,“1号”、“鸡蛋”等可以是同义词“鸡蛋”。通过以这种方式将同义词添加到文本信息中,可以令人满意地处理用户的话语表达中的变化。

[示例2]

接下来,将描述应用装置110和交互装置210之间的操作的另一示例。该示例是用户的共享信息由指示预定数量的状态类型中的状态的信息形成的示例。在这里,状态类型是状态的一种类型。在这种情况下,用户的共享信息例如是指示状态类型的标签信息和指示每个状态类型的状态的状态信息(状态标志)的组合。

这里,三种状态(例如,屏幕状态、音量状态和性能状态)被处理为状态类型。在屏幕状态中,状态信息指示在被配置为应用装置110的输出单元113的显示器上实现哪个显示。状态信息指示音量状态是否达到音量调整状态。状态信息指示性能状态是否达到乐曲再现状态。

在图6(a)中,在显示器上显示要再现的乐曲的播放列表。在这种情况下,状态信息指示播放列表显示状态。所示出的播放列表包括“爱”、“兴奋”和“不和谐”的乐曲。

这里,屏幕状态、音量状态和性能状态可以通过用户的操作来改变,并且是用户的共享信息。图6(b)示出了用户的屏幕状态、音量状态、性能状态和话语定时的改变的示例。改变状态的话语极有可能由用户产生。这里,将省略话语的描述。例如,假设在预设时间由应用控制单元112自动执行对乐曲的再现状态的改变。然而,改变通常是基于用户的话语来执行的。

对于屏幕状态,箭头的周期指示播放列表显示或每周天气显示中的每一个的状态。对于性能状态,箭头的周期指示乐曲的再现状态。

对于音量状态,箭头的开始定时是音量状态达到音量调整状态的定时,箭头的周期指示例如用户不会因为显示器上的音量显示而忘记调整音量的给定周期。给定周期是任意设置的,并且是用户有可能用缩短的表达说出关于音量调整的周期。

在话语定时T1处,屏幕状态是音乐应用的乐曲的播放列表显示状态,音量状态是音量调整状态,性能状态是乐曲的再现状态。在这种情况下,假设用户提及所有状态的概率,并且即使当紧接在前的话语是用于音量调整请求的话语时,该话语可以是用于乐曲的再现停止请求,或者可以是用于再现显示在屏幕上且不处于再现状态的另一乐曲的请求。

在话语定时T2处,屏幕状态是音乐应用的乐曲的播放列表显示状态,音量状态是音量非调整状态,性能状态是乐曲的再现状态。在话语定时T3处,屏幕状态是音乐应用的乐曲的播放列表显示状态,音量状态是音量非调整状态,性能状态是乐曲的再现停止状态。

在话语定时T4处,屏幕状态是每周天气显示状态,音量状态是音量非调整状态,性能状态是乐曲的再现状态。在话语定时T5处,屏幕状态是每周天气显示状态,音量状态是音量调整状态,性能状态是乐曲的再现状态。

在这种情况下,在话语定时T1处,指示屏幕状态、音量状态和性能状态中的每一个的信息与用户的话语一起从应用控制单元112发送到交互装置210。此时,指示屏幕状态的信息由一对用作指示状态类型的标签信息的“显示状态”和用作指示播放列表显示状态的状态信息的“音乐播放列表”组成。

指示音量状态的信息由一对用作指示状态类型的标签信息的“音量状态”和用作指示音量调整状态的状态信息的“当前已更改”组成。指示性能状态的信息由一对用作指示状态类型的标签信息的“播放状态”和用作指示再现状态的状态信息的“播放音乐”组成。

在话语定时T2处,指示屏幕状态、音量状态和性能状态中的每一个的信息也与用户的话语一起从应用控制单元112发送到交互装置210。此时,指示屏幕状态的信息由一对用作指示状态类型的标签信息的“显示状态”和用作指示播放列表显示状态的状态信息的“音乐播放列表”组成。

指示音量状态的信息由一对用作指示状态类型的标记信息的“音量状态”和用作指示音量非调整状态的状态信息的“当前已更改”组成。指示性能状态的信息由一对用作指示状态类型的标签信息的“播放状态”和用作指示再现状态的状态信息的“播放音乐”组成。

在话语定时T3处,指示屏幕状态、音量状态和性能状态中的每一个的信息也与用户的话语一起从应用控制单元112发送到交互装置210。此时,指示屏幕状态的信息由一对用作指示状态类型的标签信息的“显示状态”和用作指示播放列表显示状态的状态信息的“音乐播放列表”组成。

指示音量状态的信息由一对用作指示状态类型的标记信息的“音量状态”和用作指示音量非调整状态的状态信息的“当前未更改”组成。指示性能状态的信息由一对用作指示状态类型的标记信息的“播放状态”和用作指示非再现状态的状态信息的“停止音乐”组成。

在话语定时T4处,指示屏幕状态、音量状态和性能状态中的每一个的信息也与用户的话语一起从应用控制单元112发送到交互装置210。此时,指示屏幕状态的信息由一对用作指示状态类型的标签信息的“显示状态”和用作指示每周天气显示状态的状态信息的“每周天气”组成。

指示音量状态的信息由一对用作指示状态类型的标记信息的“音量状态”和用作指示音量非调整状态的状态信息的“当前未更改”组成。指示性能状态的信息由一对用作指示状态类型的标签信息的“播放状态”和用作指示再现状态的状态信息的“播放音乐”组成。

在话语定时T5处,指示屏幕状态、音量状态和性能状态中的每一个的信息与用户的话语一起从应用控制单元112发送到交互装置210。此时,指示屏幕状态的信息由一对用作指示状态类型的标签信息的“显示状态”和用作指示每周天气显示状态的状态信息的“每周天气”组成。

指示音量状态的信息由一对用作指示状态类型的标签信息的“音量状态”和用作指示音量调整状态的状态信息的“当前已更改”组成。指示性能状态的信息由一对用作指示状态类型的标签信息的“播放状态”和用作指示再现状态的状态信息的“播放音乐”组成。

交互装置210的话语分析单元212考虑用户的共享信息(指示屏幕状态、音量状态、性能状态中的每一个的信息)来分析用户话语数据,获取包括话语意图的分析结果,并将分析结果返回到应用控制单元112。

例如,当用户的话语为“设置为2”时,话语分析单元212将用户话语数据解释为用于请求将音量改变为“2”的操作的含义,获取指示执行将音量改变为“2”的操作的指令的分析结果,并且由于音量调整状态,在话语定时T1和T5处将分析结果返回到应用控制单元112。因此,返回分析结果的应用控制单元112执行控制,使得音量改变为“2”。

在这种情况下,在话语定时T2和T3处,由于音量非调整状态和播放列表的显示状态,话语分析单元212将用户话语数据分析为用于再现播放列表中的2号乐曲的含义,获取指示执行再现播放列表的2号乐曲的操作的指令的分析结果,并将分析结果返回到应用控制单元112。因此,返回分析结果的应用控制单元112执行控制,使得再现播放列表的2号乐曲。

在这种情况下,在话语定时T4处,由于音量非调整状态和每周天气的显示状态,话语分析单元212将用户话语数据分析为不清楚的含义,并将不清楚的含义的分析结果返回到应用控制单元112。基于此,应用控制单元112执行控制,使得例如回复“无法完成”。

例如,当用户的话语是“东京”时,话语分析单元212分析音乐主题被优选、音乐名称是“东京”,并且发出显示乐曲“东京”的请求,获取指示执行显示乐曲“东京”的操作的指示的分析结果,并且由于在话语定时T1、T2和T3处的播放列表显示状态,将分析结果返回到应用控制单元112。因此,返回分析结果的应用控制单元112执行控制,使得乐曲“东京”被显示。

在这种情况下,在话语定时T4和T5处,由于每周天气显示状态,话语分析单元212分析即使在乐曲的再现状态下也优选屏幕状态而不是性能状态,并且发出检查“东京”天气的请求,获取指示执行检查“东京”天气的操作的指令的分析结果,并将分析结果返回到应用控制单元112。因此,返回分析结果的应用控制单元112执行控制,使得检查“东京”天气。

还可以设想,话语分析单元212可以将指示执行显示乐曲“东京”的操作的指令的分析结果和指示执行在不优选屏幕状态的情况下检查“东京”天气的操作的指令的分析结果返回到应用控制单元112,并且应用装置110的一侧可以选择分析结果中的一个。

例如,当用户的话语是“停止”时,话语分析单元212分析发出了停止乐曲再现的请求,获取指示停止乐曲再现的指令的分析结果,获取指示执行停止乐曲再现的操作的指令的分析结果,并且由于乐曲的播放列表显示状态和再现状态,在话语定时T1和T2处将分析结果返回到应用控制单元112。因此,返回分析结果的应用控制单元112执行控制,使得停止乐曲的再现。

在这种情况下,在话语定时T3处,由于播放列表显示状态和乐曲的非再现状态,话语分析单元212将用户话语数据分析为不清楚的含义,并将不清楚的含义的分析结果返回到应用控制单元112。基于此,应用控制单元112执行控制,使得例如回复“无法完成”。

在这种情况下,在话语定时T4和T5处,由于每周天气显示状态和乐曲的再现状态,话语分析单元212分析乐曲再现状态是优选的,并发出停止乐曲再现的请求,获取指示执行停止乐曲再现的操作的指令的分析结果,并将分析结果返回到应用控制单元112。因此,返回分析结果的应用控制单元112执行控制,使得停止乐曲的再现。

上面描述了交互装置210的话语分析单元212考虑结合用户的话语数据发送的用户的共享信息(预定数量的状态类型中的状态信息)在任何话语定时处分析用户话语数据的示例。

还可以设想,话语分析单元212考虑预定数量的过去用户话语数据执行分析。例如,在上述示例中,音量状态是在达到应用控制单元112侧的音量调整状态之后的给定周期(用箭头的长度指示的周期)的音量调整状态“当前已更改”,但最好授权话语分析单元212侧在由于用户的话语而将音量状态进入音量调整状态之后在一定周期内保持音量调整状态。

上面已经描述了三种状态(屏幕状态、音量状态和性能状态)作为状态类型被处理的示例。但是,状态类型并不限于此。例如,如图7所示,除了屏幕状态、音量状态和性能状态之外,还可以设想其他状态类型,例如显示内容名称、显示内容属性值、显示内容属性名称、显示的次数、显示数字、头像。

上面已经描述了用户的共享信息是指示状态类型的标签信息和指示每个状态类型的状态的状态信息(状态标志)的组合的示例。然而,也可以设想,用户的共享信息被设置为具有从应用处理的信息中获取的预定格式(例如,向量表达)的信息。

在这种情况下,作为不同状态类型的原始的信号信息被设置为例如具有基于使用系统的每个状态所学习的结果而获取的预定格式(例如,向量表达)的信息,而不是直接具有在其中解释话语的含义的部分中理解的信息格式。在这种情况下,还可以设想话语分析单元212基于例如机器学习使用具有预定格式的信息来分析用户话语数据。

如上所述,在图1和图2所示的语音代理系统10中,交互装置210的话语分析单元212考虑用户的共享信息分析用户话语数据,并获取包括话语意图的分析结果。因此,在用户与语音代理的语音操作中,用户可以像在人与人对话的情况下适当省略地交谈,从而可以令人满意地执行话语操作。

<2.修改示例>

图8是示出计算机的硬件配置的示例的框图,程序使计算机执行上述一系列处理。例如,图2所示的应用装置110或交互装置210可以被配置为计算机。

在计算机中,中央处理单元(CPU)501、只读存储器(ROM)502和随机存取存储器(RAM)503通过总线504相互连接。输入/输出接口505进一步连接到总线504。输入单元506、输出单元507、存储单元508、通信单元509和驱动器510连接到输入/输出接口505。

输入单元506是键盘、鼠标、麦克风等。输出单元507是显示器、扬声器等。存储单元508是硬盘、非易失性存储器等。通信单元509是网络接口等。驱动器510驱动诸如磁盘、光盘、磁光盘或半导体存储器的可移除介质511。

在具有上述配置的计算机中,例如,CPU 501通过经由输入/输出接口505和总线504将存储在存储单元508中的程序加载到RAM 503并执行该程序来执行上述一系列处理。

由计算机(CPU 501)执行的程序可以记录在例如,用作用于供应的封装介质的可移除介质511上。该程序可以经由有线或无线传输介质供应,例如局域网、因特网或数字卫星广播。

在计算机中,通过将可移除介质511安装在驱动器510上,可以经由输入/输出接口505将程序安装在存储单元508中。该程序可以由通信单元509经由安装在存储单元508中的有线或无线传输介质接收。另外,程序可以预先安装在ROM 502或存储单元508中。

由计算机执行的程序可以是在本说明书中描述的过程中按时间顺序执行处理的程序,或者可以是在必要的定时例如并行或在被调用时执行处理的程序。

已经参考附图详细描述了本公开的优选实施例,但是本公开的技术范围不限于该示例。对于本公开技术领域的本领域技术人员应当清楚的是,可以在权利要求中描述的技术精神的范围内进行各种改变示例或校正示例,并且当然,这些改变示例或校正示例被解释为属于本公开的技术范围。

本技术可以如下配置。

(1)

一种信息处理装置,包括:

话语输入单元,被配置为接受用户话语数据和用户的共享信息;

话语分析单元,被配置为考虑用户的共享信息来分析用户话语数据,并获取包括话语意图的分析结果;以及

分析结果输出单元,被配置为输出分析结果。

(2)

根据(1)所述的信息处理装置,其中,用户的共享信息是文本信息和用于识别由文本信息指示的信息类型的标签信息的组合。

(3)

根据(2)所述的信息处理装置,其中,将同义词添加到文本信息中。

(4)

根据(2)或(3)所述的信息处理装置,其中,用户的共享信息包括呈现给用户的在视觉或听觉上能识别的信息。

(5)

根据(1)所述的信息处理装置,其中,用户的共享信息是指示预定数量的状态类型中的状态的信息。

(6)

根据(5)所述的信息处理装置,其中,用户的共享信息是指示状态类型的标签信息和指示每个状态类型的状态的状态信息的组合。

(7)

根据(5)或(6)所述的信息处理装置,其中,状态类型包括屏幕状态、音量状态、性能状态中的至少一个。

(8)

根据(7)所述的信息处理装置,其中,当状态类型是屏幕状态时,状态信息指示音乐播放列表或天气预报的显示状态。

(9)

根据(5)所述的信息处理装置,

其中,用户的共享信息是从由应用处理的信息中获取的具有预定格式的信息,并且

其中,话语分析单元基于机器学习使用具有预定格式的信息分析用户话语数据。

(10)

根据(5)至(9)中任一项所述的信息处理装置,其中,话语分析单元考虑预定数量的先前用户话语数据,进一步分析用户话语数据。

(11)

一种信息处理方法,包括:

接受用户话语数据和用户的共享信息的过程;

通过考虑用户的共享信息分析用户话语数据来获取包括话语意图的分析结果的过程;以及

输出分析结果的过程。

(12)

一种使计算机起以下作用的程序:

话语输入装置,用于接受用户话语数据和用户的共享信息;

话语分析装置,用于通过考虑用户的共享信息分析用户话语数据来获取包括话语意图的分析结果;以及

分析结果输出装置,用于输出分析结果。

[参考标志列表]

10 语音代理系统

100 系统主体

110 应用装置

111 输入单元

112 应用控制单元

113 输出单元

200 云服务器

210 交互装置

211 话语输入单元

212 话语分析单元

213 分析结果输出单元

300 网络

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:利用旋转的插值和量化进行空间化音频编解码

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!