改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质

文档序号：1382594 发布日期：2020-08-14 浏览：3次 >En<

阅读说明：本技术 改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质 (Method, computer device and computer readable storage medium for changing responses to provide rich-representation natural language dialog ) 是由张世荣卨再濩尹都尚于 2018-05-25 设计创作，主要内容包括：提供一种通过对话式代理系统来实现的提供自然语言对话的方法。根据本发明的提供自然语言对话的方法,其包括：接收自然语言输入的步骤；处理输入的自然语言并基于输入的自然语言以确定用户意图的步骤；以及基于输入的自然语言及被确定的用户意图中的至少一个来提供对应于输入的自然语言的自然语言应答。本发明的提供自然语言应答的步骤,其包括根据所述用户说话的特点改变所述自然语言的应答并将其提供的步骤。(A method for providing natural language dialogs implemented by a conversational agent system is provided. A method of providing natural language dialog according to the present invention includes: a step of receiving a natural language input; a step of processing the input natural language and determining a user intention based on the input natural language; and providing a natural language response corresponding to the input natural language based on at least one of the input natural language and the determined user intent. The step of providing a natural language response of the present invention includes the step of altering and providing the response in natural language according to the characteristics of the user's speech.)

技术领域

本发明涉及一种对话式代理系统，更具体地，涉及一种能够提供更加类似于人与人之间的对话形式的带情感和自然地交互的对话式代理系统。

背景技术

最近，随着人工智能领域尤其是对自然语言理解这一领域的技术发展，对话式代理系统的开发和应用逐渐增加，其从基于传统的以机器为中心的命令式输入/输出方式的机器操作中摆脱出来，使得用户通过更亲和的方式，例如以语音及/或者文本形式的自然语言为媒介的对话方式来操作机器，且能够通过机器获得所希望的服务。由此，包括在线咨询中心或在线购物中心等在内的(但不局限于此，更多)各种领域，用户通过语音及/或者文本形式的自然语言对话，向对话式代理系统提出所需的服务，且由此得以获得所希望的结果。

随着对话式代理系统逐渐在更多的领域中得到应用，现在，已不再局限于简单地解释用户的意图并提供符合其意图的结果的程度，而是对能够提供更类似于人与人之间的对话形式的带情感和自然地交互的对话式代理系统的需求逐渐增加。另外，随着物联网时代的出现以及由此带来的人机之间对话式交互必要性的增加，使得对能够提供带情感和自然地对话的对话式代理系统的需求进一步增加。

发明内容

[解决的技术问题]

对话式代理系统，其在与用户进行自然语言的过程中，当接收用户输入的一个句子时，通常即时对其提供实质性的回答。然而，即便用户输入了一个句子，但由于尚未包含足够的信息，因此如果在此时提供回答时，反而破坏自然地对话的情况居多。另外，通过人与人之间进行的实际对话不难发现，通常在对话的过程中，一方与其固守如对话式代理系统的针对一次输入的句子进行一次实质性回答的形式，宁可判断是否在对话中到了可以实质性回答的合适时间，因此在到达该合适的时间之前，一直一言不发，保持等待，以便让对方继续说出一句或者更多的话，或者仅仅说出简单的应答性语言，以表示正在倾听对方的话。

因此，当接收用户输入的一个句子时，就即时对此提供实质性回答的现有的对话式代理系统的应答方式，其相比于人与人之间的实际对话，存在不够自然的一面。

另外，观察人与人之间的实际对话不难发现，人，也就是同一个说话者可根据情况使用不同的语气、词汇和表达方式等。这里的情况可以是对话的对象、对话进行的时间和场所，并且可根据对话的主题，其语气或表情也会有所不同。

[技术方案]

根据本发明的一个特征，提供通过对话式代理系统来实现的提供自然语言对话的方法。根据本发明的提供自然语言对话的方法，其包括：接收自然语言输入的步骤；处理输入的所述自然语言并基于输入的所述自然语言以确定用户意图的步骤；以及基于输入的所述自然语言及确定的所述用户意图中的至少一个来提供对应于输入的自然语言的自然语言应答的步骤。本发明的所述提供自然语言应答的步骤，为根据所述用户说话的特点改变所述自然语言的应答并将应答提供的步骤。

根据本发明的一个实施例，所述根据用户说话的特点改变所述自然语言的应答并将应答提供的步骤，可以包括，分析所述自然语言应答，且基于与所述自然语言应答相关联的预设的修改应答数据库来改变所述自然语言应答的步骤。

根据本发明的一个实施例，所述修改应答数据库，可以包括用户数据库和词汇数据库中的至少一个，其中：按用户存储用户特征数据的用户数据库，各所述用户特征数据，包括以下各项中的至少一项：该用户之前的对话记录、发音特征、用词喜好度、所在地、设置语言、设置对话模式、应答性语言的使用频率、喜欢使用的应答性语言以及喜欢使用的常用句；以及词汇数据库，所述词汇数据库，可以包括以下各项中的至少一项：在根据说话人的性别、年龄段、出生地以及性格中的任意一个标准来预先设定的使用词汇、缩写、流行语、词与词之间的空白数量以及非标准语。

根据本发明的一个实施例，根据所述用户说话的特点改变所述自然语言的应答并将应答提供的步骤，还可以包括：判断用户说话的特点的步骤，判断用户说话的特点的步骤，还可以包括：基于所述用户的信息或选择用户预设的对话模式的步骤，所述对话模式包括下列各项中的一个模式：秘书模式、同性朋友模式、异性朋友模式、下属模式和普通模式。

根据本发明的一个实施例，判断用户说话的特点的步骤，还可以包括：通过接收所述用户的信息或分析所述用户之前输入的自然语言来确定用户的信息的步骤。

根据本发明的一个实施例，判断用户说话的特点的步骤，包括：根据自然语言输入发生的时间和地点来判定所述用户的感情信息的步骤，根据自然语言输入发生的时间和地点来判定所述用户的感情信息的步骤，当输入所述自然语言的时间发生在白天或输入所述自然语言的发生场所为公司时，将所述用户的情感信息判定为理性，当输入所述自然语言的时间发生在夜晚或输入所述自然语言的发生场所为家时，将所述用户的情感信息判定为感性。

根据本发明的一个实施例，根据所述用户说话的特点改变所述自然语言的应答并将应答提供的步骤，可以包括：基于所述修改应答数据库，至少变更组成所述自然语言应答的一个词语；或者增加下列各项中的至少一项：与组成所述自然语言应答的一个词语相关联的词汇、应答性语言和表示；或者从整体上改变所述自然语言的应答的步骤。

根据本发明的另一个特征，提供一种计算机可读存储介质，所述计算机可读存储介质包括一个以上的指令，所述一个以上的指令通过计算机执行时，使得所述计算机执行前述的方法中的任何一项方法。

根据本发明的另一个特征，提供一种计算机装置，其作为提供自然语言对话的计算机装置，包括：接收用户输入模块，用于接收自然语言的输入；分析输入模块，处理输入的所述自然语言，并基于输入的所述自然语言以确定用户意图；以及提供应答模块，基于输入的所述自然语言及确定的所述用户意图中的至少一个来提供对应于输入的所述自然语言的自然语言应答。本发明的提供应答模块，根据所述用户说话的特点改变所述自然语言的应答并将应答提供。

根据本发明的一个实施例，计算机装置可以包括用户终端或与所述用户终端连接的用于通信的服务器。

[发明的效果]

能够提供更加类似于人与人之间的对话形式的带情感和自然地交互的对话式代理系统。

附图说明

图1是根据本发明一个实施例的能够实现对话式代理系统的系统环境示意图；

图2是根据本发明一个实施例的简略示出图1的用户终端102的功能结构的功能框图；

图3是根据本发明一个实施例的简略示出图1的对话式代理服务器106的功能结构的功能框图；

图4是根据本发明一个实施例的简略示出对话式代理系统的功能结构的功能框图；

图5是根据本发明一个实施例示出通过对话式代理系统执行的示例性动作流程的流程图；

图6是根据本发明一个实施例示出用户与对话式代理系统之间对话示例的图；

图7是根据本发明另一个实施例示出用户与对话式代理系统之间对话示例的图。

具体实施方式

下面，参照附图，对本发明的实施例进行详细说明。在下面的说明中，当判断对已公开的功能以及结构的具体说明混淆本发明的主旨时，则省略其详细说明。另外，在下面说明的内容，其仅仅是与本发明的一个实施例有关的内容，因此理应理解为本公开不限于此。

在本公开中使用的术语只是为了说明特定的实施例，而并非用来限定本发明。例如，以单数来表述的组件，如果在上下文中没有明确表示其指单数，就应当理解为包括复数的含义。在本公开中使用的“及/或者”这一术语，应当理解为包括被列举的项目中的任意一个以上的所有组合。在本公开中使用的“包括”或者“具有”等术语，对其理应理解为只是想指定在本公开中所记载的特征、数字、步骤、动作、组件和零部件或者指定由这些来组合的存在物，而并不是通过这种术语的使用来排除一个或其以上的其它特征、数字、步骤、动作、组件和零部件或者由这些来组合的存在物或者其它可能性。

在本发明的实施例中，“模块”或“单元”是指，执行至少一个功能或动作的功能单元，其可以由硬件或软件来实现，或者以硬件和软件的组合来实现。另外，多个“模块”或“单元”，其除了需要用特定的硬件来实现的“模块”或“单元”以外，可以以至少一个软件模块来集成且由至少一个处理器实现。

在本发明的实施例中，“对话式代理系统”可以是指任意信息处理系统，也就是说，其与用户之间通过以语音及/或者文本形式的自然语言为媒介的对话式交互来接收来自于用户输入的自然语言(例如，以自然语言呈现的来自于用户的命令、陈述、请求和提问等)输入并进行分析，以掌握用户的意图(intent)并基于已掌握的用户意图执行适当的必要动作，但并不限于特定形式。在本发明的实施例中，通过“对话式代理系统”执行的动作，例如，可以包括提供对话应答。在本发明的实施例中，通过“对话式代理系统”执行的动作，例如，还可以包括任务的执行。在本发明的实施例中，通过“对话式代理系统”提供的对话应答，对此理应理解为，其可以以视觉、听觉及/或者触觉形式(例如，其可以包括，语音、声音、文本、视频、图像、符号、表情符号、超级链接、动画、各种通知、动作、触觉反馈等，但不限于此)等各种形式提供。在本发明的实施例中，通过“对话式代理系统”执行的任务，例如，其可以包括检索信息、购买物品、撰写信息、撰写电子邮件、拨打电话、播放音乐、拍摄照片、搜索用户位置以及地图/导航服务等在内的各种类型的任务(但这些仅是示例，并不仅限于此)。

在本发明的实施例中，通过“对话式代理系统”提供的对话应答可以是“实质性回答”。在本发明的实施例中，通过“对话式代理系统”提供的“实质性回答”可以是告知已完成符合用户意图的任务的执行(例如，“已完成您请求的作业了”等)，或提供基于用户意图来获取的新内容，以便告知已经理解了用户的意图，或至少包含符合用户意图的有意义信息(例如，实质性的数据内容等)中的部分的实质性内容的回答。在本发明的实施例中，通过“对话式代理系统”提供的对话应答可以是“补充信息的请求”。在本发明的实施例中，通过“对话式代理系统”提供的对话应答可以是简单的“应答性语言”，而不是包含上述的有意义信息的“实质性回答”或“补充信息的请求”。在本发明的实施例中，通过“对话式代理系统”提供的“应答性语言”可以包括，为持续更自然和流畅的对话的简单响应/应答表达(例如，“是(yε)”、“是(nε)”、“嗯”、“好吧”等，其不包含意义的信息，仅表示正在倾听对方讲话的意思)以及感叹词、各种声音、图像、符号和表情符号等其他。

在本发明的实施例中，“对话式代理系统”，其可以包括，基于聊天软件(messenger)平台的聊天机器人(chatbot)系统，即，例如在聊天软件上与用户交流信息，以提供用户所需的各种信息或者执行任务的聊天机器人系统，但理应理解为，本发明不仅仅局限于此。

此外，除非另有定义，在本公开中使用的包括技术术语或科学术语在内的所有术语，其具有与本公开所属领域的技术人员通常理解的等同的含义。在词典中已定义的常用的术语，对此理应解释为，其具有与相关技术的上下文中的含义等同的意思，因此，在本公开中除非对此单独作出定义，不应被过度限制或过度放大来解释。

下面，参照附图，对本发明的实施例进行详细说明。

图1是根据本发明一个实施例的能够实现对话式代理系统的系统环境100示意图。根据图示，系统环境100包括：多个用户终端102a-102n、通信网络104、对话式代理服务器106以及外部服务服务器108。

根据本发明的一个实施例，多个用户终端102a-102n可以分别为具有有线或无线通信功能的用户任意的电子装置。各用户终端102a-102n可以分别为包括智能手机、平板电脑、音乐播放器、智能扬声器、台式电脑、笔记本电脑，掌上电脑PDA、主机游戏、数字TV、机顶盒等在内的各种有线或无线通信终端，但对此理应理解为它不限于特定形式。根据本发明一个实施例，各用户终端102a-102n可以分别通过通信网络104与对话式代理服务器106进行通信，即发送和接收必要的信息。根据本发明一个实施例，各用户终端102a-102n可以分别通过通信网络104与外部服务服务器108进行通信，即发送和接收必要的信息。根据本发明的一个实施例，各用户终端102a-102n分别可以从外部接收语音及/或者文本形式的用户输入，并将通过通信网络104的对话式代理服务器106及/或者通过与外部服务服务器108的通信(及/或者用户终端102a-102n内的处理)获取的、与上述的用户输入对应的动作结果(例如，提供特定的对话应答及/或者执行特定的任务等)提供给用户。

在本发明的实施例中，任务执行，即与用户输入相对应的动作，其可以包括：检索信息、购买物品、撰写信息、撰写电子邮件、拨打电话、播放音乐、拍摄照片、搜索用户位置以及地图/导航服务等在内的各种类型的任务(但不仅限于此)。根据本发明的一个实施例，对话应答，即通过用户终端102a-102n提供的与用户输入相对应的动作结果，例如，其可以是告知已完成符合用户意图的作业(例如，“已完成您请求的作业了”等)，或提供基于用户意图来获取的新内容，以便告知已经理解了用户的意图，或包含符合用户意图的有意义的信息(例如，实质性的数据内容等)的实质性回答。根据本发明的一个实施例，通过用户终端102a-102n提供的与用户输入相对应的对话应答，例如，其可以是为了明确把握前述的用户意图的后续提问或者补充信息的请求。根据本发明的一个实施例，通过用户终端102a-102n提供的与用户输入相对应的对话应答，对此理应理解为，例如，其可以不是前述的实质性回答或补充信息的请求，而可以是为持续更加自然和流畅的对话的简单响应/应答表达(例如，“是(yε)”、“是(nε)”、“嗯”、“好吧”等，其不包含意义的信息，仅表示正在倾听对方讲话的意思)、感叹词、各种声音或图像、符号和表情符号等其他简单的应答性语言。根据本发明的一个实施例，各用户终端102a-102n可以分别将对话应答，即与用户输入相对应的动作结果，通过视觉、听觉及/或者触觉形式(例如，可以包括，语音、声音、文本、视频、图像、符号、表情符号、超级链接、动画、各种通知、动作、触觉反馈等，但不限于此)等各种形式提供给用户。

根据本发明的一个实施例，通信网络104，可以包括：有线或无线的任意通信网络，例如，TCP/IP通信网络。根据本发明的一个实施例，通信网络104，可以包括：例如，Wi-fi网络、LAN网络、WAN网络以及互联网网络等，本发明不限于此。根据本发明的一个实施例，通信网络104，可以使用例如以太网、GSM、增强数据GSM环境(Enhanced Data GSMEnvironment)、CDMA、TDMA、OFDM、蓝牙、VoIP、Wi-MAX、Wibro其他任意的各种有线或无线通信协议来实现。

根据本发明的一个实施例，对话式代理服务器106，可以通过通信网络104与用户终端102a-102n通信。根据本发明的一个实施例，对话式代理服务器106通过通信网络104与用户终端102a-102n发送/接收必要的信息，并据此可做出动作，向用户提供与由用户终端102a-102n接收到的用户输入相对应的动作结果，即提供符合用户意图的动作结果。根据本发明的一个实施例，对话式代理服务器106，例如，其可以通过通信网络104从用户终端102a-102n接收以语音及/或者文本形式的用户的自然语言输入，并且基于预先准备的模型处理该接收到的自然语言输入，以此确定用户的意图(intent)。根据本发明的一个实施例，对话式代理服务器106，可以基于上述所确定的用户意图来执行与之对应的动作。根据本发明的一个实施例，对话式代理服务器106，例如，其可以生成特定的控制信号，并传送至该用户终端102a-102n，以执行符合用户意图的特定的任务。根据本发明的一个实施例，对话式代理服务器106，例如，其为了使用户终端102a-102n执行符合用户意图的特定的任务，可以通过通信网络104访问外部服务服务器108。

根据本发明的一个实施例，对话式代理服务器106，例如，其可以生成符合用户意图的特定的对话应答，并将其传送至用户终端102a-102n。根据本发明的一个实施例，对话式代理服务器106，其可以基于上述以被确定的用户意图，将与之对应的对话应答以语音及/或者文本形式生成，并且将生成的应答通过通信网络104传送至用户终端102a-102n。根据本发明的一个实施例，通过对话式代理服务器106生成的对话应答，可以包括前述的语音及/或者文本形式的自然语言应答，同时可以包括图像、视频、符号、表情符号等其他视觉要素，或者声音等其他听觉要素，或者其他别的触觉要素等。根据本发明的一个实施例，由对话式代理服务器106传送至用户终端102a-102n的基于用户意图的对话应答，例如，其可以是包括，告知已完成符合用户意图的任务的执行(例如，“已完成您请求的作业了”等)，或提供基于用户意图来获取的新内容，以便告知已经理解了用户的意图，或包含符合用户意图的有意义的信息(例如，实质性的数据内容等)的实质性回答。根据本发明的一个实施例，由对话式代理服务器106传送至用户终端102a-102n的基于用户意图的对话应答，例如，其可以是为了明确掌握前述的用户意图的后续提问或者补充信息的请求。根据本发明的一个实施例，由对话式代理服务器106传送至用户终端102a-102n的基于用户意图的对话应答，例如，其可以不是前述的实质性回答或补充信息的请求，而可以是为持续更加自然和流畅的对话的简单响应/应答表达(例如，“是(yε)”、“是(nε)”、“嗯”、“好吧”等，其不包含意义的信息，仅表示正在倾听对方讲话的意思)、感叹词、各种声音或图像、符号和表情符号等其他简单的应答性语言。根据本发明的一个实施例，由对话式代理服务器106传送至用户终端102a-102n的基于用户意图的对话应答，可以是根据用户说话的特点对前述的实质性回答或补充信息的请求或应答性语言进行改变的结果。

根据本发明的一个实施例，可根据由用户终端102a-102n接收的用户输入的形式(例如，是语音输入还是文本输入)，可以在对话式代理服务器106上生成相同形式的应答(例如，如果提供语音输入，就生成语音应答，而如果提供文本输入，则生成文本应答)，但本发明不限于此。根据本发明的另一个实施例，理应理解为，其可以生成并提供语音及/或者文本形式的应答，而与用户输入的形式无关。

根据本发明的一个实施例，对话式代理服务器106，如上所述，其可以通过通信网络104与外部服务服务器108通信。外部服务服务器108，例如，其可以是消息服务服务器、在线咨询中心服务器、在线购物中心服务器、信息检索服务器、地图服务服务器、导航服务服务器等，本公开不限于此。根据本发明的一个实施例，由对话式代理服务器106传送至用户终端102a-102n的基于用户意图的对话应答，对此理应理解为，其可以包括如由外部服务服务器108检索以及由此获取的数据内容。

在本图中虽然示出，对话式代理服务器106，其为通过通信网络104可与外部服务服务器108通信的单独的物理服务器，但本公开并不局限于此。根据本发明的另外一个实施例，对话式代理服务器106，对此理应理解为，例如，其可以作为在线咨询中心服务器或在线购物中心服务器等各种服务服务器的一部分来构成。

图2是根据本发明一个实施例的简略示出图1的用户终端102的功能结构的功能框图。根据图示，用户终端102，其包括：接收用户输入模块202、传感器模块204、程序存储模块206、处理模块208、通信模块210以及应答输出模块212。

根据本发明的一个实施例，接收用户输入模块202，其可以接收来自用户的各种形式的输入，例如，语音输入及/或者文本输入等的自然语言输入(以及附加的触摸输入等其他形式的输入)。根据本发明的一个实施例，接收用户输入模块202，例如，其可以包括麦克风以及音频电路，并且通过麦克风获取用户语音输入信号，并将获取的信号转换为音频数据。根据本发明的一个实施例，接收用户输入模块202，其可以包括，如鼠标、操纵杆、轨迹球等各种定点装置和键盘、触摸板、触摸屏和触笔等各种形式的输入装置，并且通过这些输入装置，可以获取由用户输入的文本输入及/或者触摸输入信号。根据本发明的一个实施例，由接收用户输入模块202接收的用户输入，其可以与执行预设任务相关联，例如，执行预设的应用程序或检索预设的信息等，但是本发明不限于此。根据本发明的另一个实施例，由接收用户输入模块202接收的用户输入，其可以是仅需要简单的对话应答，而与预设的应用程序执行或信息检索等无关。根据本发明的另一个实施例，由接收用户输入模块202接收的用户输入，其可以是用于单方面传达意思的简单陈述。

根据本发明的一个实施例，传感器模块204，其包括一个以上的彼此不同类型的传感器，并且通过这些传感器可以获取用户终端102的状态信息，例如，相关的用户终端102的物理状态、软件及/或者硬件状态、或与用户终端102周围环境状态相关的信息等。根据本发明的一个实施例，传感器模块204，例如，其可以包括光传感器，并且通过光传感器检测相关用户终端102周围的光状态。根据本发明的一个实施例，传感器模块204，例如，其可以包括移动传感器，并且通过移动传感器检测相关用户终端102是否移动的状态。根据本发明的一个实施例，传感器模块204，例如，其可以包括速度传感器和GPS传感器，并且通过这些传感器检测相关用户终端102的位置及/或者背向状态。根据本发明的另一个实施例，传感器模块204，对此理应理解为，其可以包括温度传感器、图像传感器、压力传感器和触摸传感器等在内的各种形式的其他传感器。

根据本发明的一个实施例，程序存储模块206，其可以是存储能够在用户终端102上执行的各种程序，例如，各种应用程序以及相关数据等的任意存储介质。根据本发明的一个实施例，程序存储模块206，其可以存储，例如拨号应用程序、电子邮件应用程序、即时消息应用程序、照相机应用程序、音乐播放应用程序、视频播放应用程序、图像管理应用程序、地图应用程序和浏览器应用程序等在内的各种应用程序和与这些程序的执行有关的数据。根据本发明的一个实施例，程序存储模块206，其可以被配置为包括DRAM、SRAM、DDRRAM、ROM、磁盘、光盘和快闪存储器等各种类型的易失性或非易失性存储器。

根据本发明的一个实施例，处理模块208，其与用户终端102的各组件模块通信，并且可以在用户终端102上执行各种运算。根据本发明的一个实施例，处理模块208，其可以驱动并执行程序存储模块206上的各种应用程序。根据本发明的一个实施例，处理模块208，其在必要时，可以接收由接收用户输入模块202和传感器模块204获取的信号，并且对这些信号执行适当的处理。根据本发明的一个实施例，处理模块208，其在必要时，可以对通过通信模块210由外部接收到的信号进行适当的处理。

根据本发明的一个实施例，通信模块210，其使得用户终端102能够通过图1的通信网络104与对话式代理服务器106及/或者外部服务服务器108通信。根据本发明的一个实施例，通信模块210，例如，其可以根据预设协议通过通信网络104将由接收用户输入模块202及传感器模块204中获取的信号传送至对话式代理服务器106及/或者外部服务服务器108。根据本发明的一个实施例，通信模块210，例如，其可以通过通信网络104接收由对话式代理服务器106及/或者外部服务服务器108接收的各种信号，例如，接收包括语音及/或者文本形式的自然语言应答在内的应答信号或者各种控制信号，并且根据预设协议执行适当的处理。

根据本发明的一个实施例，应答输出模块212，其可以将与用户输入相对应的应答以视觉、听觉及/或者触觉等各种形式输出。根据本发明的一个实施例，应答输出模块212，其可以包括基于LCD、LED、OLED和QLED等技术的触摸屏等的各种显示装置，并通过这些显示装置向用户呈现与用户输入对应的视觉应答，例如文本、符号、视频、图像、超级链接、动画和各种通知等。根据本发明的一个实施例，应答输出模块212，可以包括，如扬声器或耳麦，并且通过扬声器或耳麦向用户提供与用户输入相对应的听觉应答，例如语音及/或者声音应答。根据本发明的一个实施例，应答输出模块212，其可以包括动作/触觉反馈生成单元，并且通过其向用户提供触觉应答，例如动作/触觉反馈。根据本发明的一个实施例，应答输出模块212，对此理应理解为，可以同时提供在与用户输入相对应的文本应答、语音应答以及动作/触觉反馈中的任意两个以上的组合。

图3是根据本发明一个实施例的简略示出图1的对话式代理服务器106的功能结构的功能框图。根据图示，对话式代理服务器106，其包括：通信模块302、语音转文本(Speech-To-Text；STT)模块304、自然语言理解(Natural Language Understanding；NLU)模块306、用户数据库308、动作管理模块310、任务处理模块312、对话管理模块314、词汇集316以及语音合成(Text-To-Speech；TTS)模块318。

根据本发明的一个实施例，通信模块302，其根据预设的有线或无线通信协议通过通信网络104使得对话式代理服务器106与用户终端102及/或者外部服务服务器108通信。根据本发明的一个实施例，通信模块302，其可以通过通信网络104接收由用户终端102传送的来自用户的语音输入及/或者文本输入等。根据本发明的一个实施例，通信模块302，其可以通过通信网络104在接收由用户终端102传送的来自用户的语音输入及/或者文本输入的同时，或者与之单独地通过通信网络104接收由用户终端102传送的用户终端102的状态信息。根据本发明的一个实施例，状态信息，例如，其可以是用户在输入语音输入及/或者文本输入当时的与该用户终端102相关的各种状态信息(例如，用户终端102的物理状态、用户终端102的软件及/或者硬件状态、用户终端102周围的环境状态的信息等)。根据本发明的一个实施例，通信模块302，还可以为通过通信网络104向用户终端102传送由对话式代理服务器106生成的、以对应于上述接收的用户输入的对话应答(例如，语音及/或者文本形式的自然语言对话应答等)及/或者控制信号，采取所需的适当措施。

根据本发明的一个实施例，STT模块304，其可以接收由通信模块302接收的用户输入中的语音输入，并且基于模式匹配等将接收到的语音输入转换为文本数据。根据本发明的一个实施例，STT模块304，其可以通过从用户的语音输入中提取其特征来生成特征列向量。根据本发明的一个实施例，STT模块304，其基于DTW(Dynamic Time Warping)方式或HMM模型(Hidden Markov Model)、GMM模型(Gaussian-Mixture Mode)、深层神经网络模型、n-gram模型等的各种统计模型，可以生成文本识别结果，如词语序列。根据本发明的一个实施例，STT模块304，其基于模式匹配将接收到的语音输入转换为文本数据时，可以参照后述的用户数据库308中的每个用户的特征性数据。

根据本发明的一个实施例，NLU模块306，其可以接收由通信模块302或STT模块304的文本输入。根据本发明的一个实施例，由NLU模块306接收的文本输入，其可以是，例如，在通信模块302中通过通信网络104由用户终端102接收到的用户的文本输入，或者是STT模块304对由通信模块302接收的用户语音输入所生成的如词语序列等文本识别结果。根据本发明的一个实施例，NLU模块306，其可以接收文本输入的同时，抑或是在其之后接收与该用户相关联的状态信息，例如该用户输入当时的用户终端102的状态信息等。如前所述，状态信息，例如，其可以是在用户终端102用户语音输入及/或者文本输入当时的与该用户终端102相关的各种状态信息(例如，用户终端102的物理状态、软件及/或者硬件状态、用户终端102周围的环境状态的信息等)。

根据本发明的一个实施例，NLU模块306，其可以将接收到的文本输入对应于一个以上的用户意图(intent)上。在这里，用户意图，其与根据该用户意图通过对话式代理服务器106获得理解和执行的一系列动作(复数)相关联。根据本发明的一个实施例，NLU模块306，其将接收到的文本输入对应于一个以上的用户意图上时，可以参照前述的状态信息。根据本发明的一个实施例，NLU模块306，其将接收到的文本输入对应于一个以上的用户意图上时，可以参照后述的用户数据库308的每个用户的特征数据。

根据本发明的一个实施例，NLU模块306，例如，其可以基于预先定义的本体模型来动作。根据本发明的一个实施例，本体模型，例如，其可以由节点之间的分层结构来呈现，各节点可以是与用户的意图对应的“意图”节点或者链接到“意图”节点的子“属性”节点(直接链接到“意图”节点或间接链接到“意图”节点”的“属性”节点的子“属性”节点)中的之一。根据本发明的一个实施例，“意图”节点和直接或间接链接到其“意图”节点的“属性”节点可以构成一个域名，而本体可以是这些域名的集成。根据本发明的一个实施例，用于NLU模块306中的本体模型，例如，其可以包括分别对应于被对话式代理系统理解且执行相应动作的所有意图的域名来构成。根据本发明的一个实施例，理应对本体模型理解为，其可以通过添加或删除节点，或者通过修改节点之间的关系等来动态地进行变更。

根据本发明的一个实施例，本体模型中的每个域名的意图节点及属性节点，其可以分别与对应于每个域名的用户意图或相关的词及/或者句子相关联。根据本发明的一个实施例，NLU模块306，可以将本体模型以由分层结构节点和按各节点相关联的词及/或者句子的集成如词典形式(未具体示出)呈现，并且NLU模块306，其可以基于以这种词典形式呈现的本体模型来确定用户的意图。例如，根据本发明的一个实施例，NLU模块306，当接收文本输入或词语序列时，可以确定该序列内的每个词语与本体模型中的哪个域名的哪个节点相关联，并且基于这一确定来判断对应的域名即用户的意图。根据本发明的一个实施例，NLU模块306，当其确定用户的意图时，可以生成提问，以便根据所确定的用户的意图实施动作。

根据本发明的一个实施例，用户数据库308，其可以是用于存储及管理每个用户的特征数据的数据库。根据本发明的一个实施例，用户数据库308，例如，其可以包括：针对每个用户的相关用户之前的对话记录、用户发音特征信息、用户的用词喜好度、用户出生地、设置语言、设置对话模式、喜欢使用的常用句、年龄、性别、职业、联系方式/朋友目录以及用户的其他各种特征性信息。根据本发明的一个实施例，用户数据库308，例如，其可以包括针对每个用户的相关用户之前的对话记录中获取的用户特征性信息，包括：该用户的应答性语言的使用频率、常用的应答性语言的种类、根据对话气氛或感情状态使用的词汇或者其他常用句的种类等。

根据本发明的一个实施例，如上所述，STT模块304，其将语音输入转换为文本数据时，由于参照用户数据库308的每个用户的特征数据，如每个用户的发音特征，从而可以获取更准确的文本数据。根据本发明的一个实施例，NLU模块306，其在确定用户的意图时，由于参照用户数据库308的每个用户的特征数据，例如每个用户的特征或语境，从而可以确定更准确的用户意图。根据本发明的一个实施例，如后述的一样，对话管理模块314，其在生成对话应答时，例如生成实质性回答、选择应答性语言以及请求补充信息的提问的选择等，可以参照用户数据库308的用户特征数据。

在本附图中示出，用于存储及管理每个用户的特征数据的用户数据库308，其配置在对话式代理服务器106上，但是本发明不限于此。根据本发明的另一个实施例，用于存储及管理每个用户的特征数据的用户数据库，对此理应理解为，例如，其可以配置在用户终端102上，也可以将其分散配置在用户终端102以及对话式代理服务器106上。

根据本发明的一个实施例，动作管理模块310，其可以接收由NLU模块306生成的提问，并且根据预设的动作管理模型(未示出)，生成基于上述接收到的提问的一系列动作流程。根据本发明的一个实施例，动作管理模块310，例如，其可以对由NLU模块306接收的提问是否为明确表达用户意图具有足够的信息(例如，是否都包括了构成句子所需的基本词类，是否有足够的信息而无需补充信息来即可执行对应于用户意图的任务或者提供对话应答等)进行判定。根据本发明的一个实施例，当判定由NLU模块306接收到的提问具有足够的信息来明确表达用户的意图时，动作管理模块310，其可以生成为执行符合该提问的任务及/或者提供对话应答等的具体的动作流程。根据本发明的一个实施例，当判定由NLU模块306接收到的提问尚未具有足够的信息来明确表达用户的意图时，动作管理模块310，其可以等待预设时间，以等待用户的补充输入，或者生成用于请求补充信息/补充提问程序的具体动作流程，以获取不足的信息。根据本发明的一个实施例，动作管理模块310，其可以与任务处理模块312及/或者对话管理模块314实现相互作用，以实施所生成的动作流程。

根据本发明的一个实施例，如上所述，任务处理模块312，其可以与动作管理模块310相互作用，以获取关于动作流程的通知，从而执行符合提问的预设的任务。根据本发明的一个实施例，任务处理模块312，其可以处理接收到的动作流程，从而完成符合用户意图的任务。根据本发明的一个实施例，任务处理模块312，其可以通过通信模块302和通信网络104与用户终端102及/或者外部服务服务器108通信，以处理接收到的动作流程。根据本发明的一个实施例，任务处理模块312，例如，其可以生成用于用户终端102的预设的控制信号，并且通过通信模块302和通信网络104传送至用户终端102。根据本发明的一个实施例，任务处理模块312，例如，其可以访问外部服务服务器108并从中请求及接收必要的服务。

根据本发明的一个实施例，如上所述，对话管理模块314，其与动作管理模块310相互作用，以获取关于动作流程的通知，从而向用户提供对话应答等。根据本发明的一个实施例，对话管理模块314，例如，其可以由动作管理模块310获取关于动作流程的通知，以提供符合用户意图的实质性回答及/或者应答性语言等，并据此执行必要的程序。根据本发明的一个实施例，对话管理模块314，例如，其可以对是否需要符合用户意图的实质性回答，如果需要，则执行以下程序，生成适当的回答，并通过通信模块302和通信网络104，将所生成的实质性回答提供给用户终端102。

根据本发明的一个实施例，当判定不需要实质性回答时，对话管理模块314，例如，其可以判定是否需要应答性语言，如果需要，则执行以下程序，选择适当的应答性语言，并将该被选择的应答性语言通过通信模块302和通信网络104提供至用户终端102。根据本发明的一个实施例，对话管理模块314，例如，其由动作管理模块310接收关于动作流程的通知，以请求补充信息或补充提问，并据此执行所需的程序。根据本发明的一个实施例，对话管理模块314，例如，其可以执行以下程序，选择为获取必要信息的必要的补充提问，并且将上述被选择的补充提问通过通信模块302和通信网络104提供至用户终端102，且接收对应于补充提问的用户补充性应答。

根据本发明的一个实施例，对话管理模块314，其生成对话应答时，例如，在生成实质性回答、选择应答性语言及选择补充提问等时，可以参照前述的用户数据库308的用户特征数据(例如，用户之前的对话记录、用户发音特征信息、用户的用词喜好度、用户所在地、设置语言、联系方式/朋友目录，针对每个用户的相关用户之前的对话记录中获取的应答性语言的使用频率、常用的应答性语言的种类、根据对话气氛或感情状态使用的应答性语言或者其他常用句的种类等)。根据本发明的一个实施例，对话管理模块314，其生成对话应答时，例如生成实质性回答、选择应答性语言及选择补充提问等时，可以参照词汇集316。根据本发明的一个实施例，词汇集316，其可以是对话式代理系统的各用户模型(persona)，例如根据性别、年龄段、出生地和设置的性格，予以配置的包括词汇、缩写词、流行词、非标准词等的预设的词汇数据库。根据本发明的一个实施例，可以持续地对词汇集316进行更新，以反映当时的流行或话题等。

根据本发明的一个实施例，前述的一系列动作，例如，接收用户输入、确定用户意图、生成符合于被确定的用户意图的提问以及生成和处理符合于提问的动作流程，对此理应理解为，为了达到用户的最终目的，可以重复/连续数次实施。

根据本发明的一个实施例，TTS模块318，其可以接收被选择的对话应答，以便通过对话管理模块314传送至用户终端102。由TTS模块318接收的对话应答，可以是具有文本形式的自然语言或词语序列。根据本发明的一个实施例，TTS模块318，其可以根据各种形式的算法将上述接收到的文本形式的输入转换成语音形式。

参考图1至图3，在前述的本发明的实施例中，虽然将对话式代理系统表述为用户终端102和对话式代理服务器106之间的客户端-服务器模型，特别是，其客户端，仅提供用户输入/输出功能，而除此之外的对话式代理系统的其他所有功能则分配给了服务器，即基于所谓的“瘦客户端-服务器模型”来体现，但是本发明并不局限于此。根据本发明的另一个实施例，对话式代理系统，对此理应理解为，该功能可以在用户终端和服务器之间分配来体现，或者与之不同，可以通过安装在用户终端上的独立应用程序来体现。另外，根据本发明的一个实施例，对话式代理系统，将其功能通过在用户终端和服务器之间分配来体现时，对对话式代理系统的各功能在客户端和服务器之间的分配，理应理解为，可以在每个实施例中以不同的分配来体现。另外，在前述的参考图1至图3记载的本发明的实施例中，为了便于说明，将特定模块记载为其执行预设的动作，但是本发明不限于此。根据本发明的另一个实施例，对上述的说明中记载的通过某个特定模块来执行的动作，对这些动作理应理解为，其可以分别通过与该模块不同的其它模块来执行。

图4是根据本发明一个实施例的简略示出对话式代理系统400的功能结构的功能框图。如上所述，对话式代理服务器，其可以在客户端和服务器之间，例如图1的用户终端102和对话式代理服务器106之间将其功能分配来体现，因此对本附图理应理解为，其从功能的观点简略示出了对话式代理系统的结构，而与各功能体现于客户端和服务器中的哪一个上无关。如图所示，对话式代理系统400，其包括：接收用户输入模块402、传感器模块404、输入/输出接口406、语音识别/输入分析模块408、用户数据库410、词汇集412、任务执行/应答提供模块414以及应答输出模块416。

根据本发明的另一个实施例，接收用户输入模块402，其可以接收来自于用户的各种形式的输入，例如语音输入及/或者文本输入等的自然语言输入(及附加的触摸输入等的其他形式的输入)。根据本发明的一个实施例，由接收用户输入模块402接收的用户输入，其可以与执行预设任务相关联，例如，执行预设的应用程序或检索信息等，但是本发明不限于此。根据本发明的另一个实施例，由接收用户输入模块402接收的用户输入，其可以是仅需要简单对话应答的输入，而与预设的应用程序执行或信息检索等无关。根据本发明的另一个实施例，由接收用户输入模块402接收的用户输入，其可以是用于单方面传达意思的简单陈述。

根据本发明的一个实施例，传感器模块404，其可以获取用户终端的状态信息，例如，相关用户终端的物理状态、软件及/或者硬件状态或与用户终端周围环境状态相关的信息等。根据本发明的一个实施例，传感器模块404，其包括一个以上的不同类型的传感器，并且通过这些传感器可以检测用户终端的状态信息。

根据本发明的一个实施例，输入/输出接口406，其可以对由接收用户输入模块402接收到的用户输入和由传感器模块404获取到的装置状态信息进行控制，使得其在对话式代理系统400中的其他模块中得到使用。根据本发明的一个实施例，输入/输出接口406，其可以对后述的应答输出模块416进行控制，使得向应答输出模块提供通过对话式代理系统400中的其他模块中生成的对话应答等。

根据本发明的一个实施例，语音识别/输入分析模块408，其根据预设模型，例如，当从外部接收到语音输入时，可以处理及识别该语音输入，并且对该输入进行分析。根据本发明的一个实施例，语音识别/输入分析模块408，另外，当从外部接收到文本输入时，根据预设的模型，可以对输入的该文本进行分析。根据本发明的一个实施例，通过语音识别/输入分析模块408对用户输入进行的分析结果，例如，其可以包括确定用户意图或生成与预设的对话应答及/或者特定任务执行有关的提问。

根据本发明的一个实施例，用户数据库410，其可以是存储及管理每个用户的特征数据的数据库。根据本发明的一个实施例，用户数据库410，例如，其可以包括：针对每个用户的相关用户之前的对话记录、用户发音特征信息、用户的用词喜好度、用户所在地、用户出生地、设置语言、设置对话模式、喜欢使用的常用句、年龄、性别、职业、联系方式/朋友目录以及用户的其他各种特征性信息。根据本发明的一个实施例，用户数据库410，例如，其可以包括：针对每个用户的相关用户之前的对话记录中获取的应答性语言的使用频率、常用的应答性语言的种类、根据对话气氛或感情状态使用的词汇或者其他常用句的种类等的用户特征性信息。根据本发明的一个实施例，语音识别/输入分析模块408，其可以参照用户数据库410，执行为语音识别或用户输入分析所需的动作。

根据本发明的一个实施例，词汇集412，其可以是对话式代理系统的各用户模型(persona)，例如根据性别、年龄段、出生地和设置的性格，予以配置的包括词汇、缩写词、流行词、非标准词等的预设的词汇数据库。根据本发明的一个实施例，可以持续地对词汇集412进行更新，以反映当时的流行或话题等。

根据本发明的一个实施例，任务执行/应答提供模块414，其可以基于来自于语音识别/输入分析模块408的用户意图及/或者提问等，执行与用户输入对应的特定任务执行及/或者对话应答提供程序。根据本发明的一个实施例，任务执行/应答提供模块414，例如，其可以对是否获取足够的信息而无需补充信息也能够基于上述提问执行对应于用户意图的任务或提供对话应答进行判定，当判定已获取充分的信息时，其可以执行相关提问，也就是符合用户输入的任务执行及应答提供程序。根据本发明的一个实施例，任务执行/应答提供模块414，其提供符合用户输入的对话应答，例如，基于预设的标准来判定是否需要提供实质性回答，当判定为需要提供实质性回答时，就可以通过参照用户数据库410及词汇集412来生成适当的实质性回答。

根据本发明的一个实施例，任务执行/应答提供模块414，其提供符合用户输入的对话应答时，可以将生成的回答通过参照用户数据库410及词汇集412并且根据用户说话的特点进行转换来再生成。根据本发明的一个实施例，任务执行/应答提供模块414，其提供符合用户输入的对话应答，例如，当判定为无需提供实质性回答时，就基于预设的标准，判定是否需要提供应答性语言，当判定为需要提供应答性语言时，就可以通过参照用户数据库410及词汇集412来选择适当的应答性语言。

根据本发明的一个实施例，当判定通过提问尚未获取足够的信息来执行对应于用户输入的任务或者提供对话应答时，任务执行/应答提供模块414，其可以等待预设时间，以等待用户的补充输入，或者执行补充提问的程序，已获取不足的信息。根据本发明的一个实施例，任务执行/应答提供模块414，其生成对话应答时，例如生成实质性回答、选择应答性语言及选择补充提问等时，可以参照用户数据库410及词汇集412。

根据本发明的一个实施例，应答输出模块416，其可以将与用户输入相对应的应答以视觉、听觉及/或者触觉等各种形式输出。根据本发明的一个实施例，应答输出模块416，例如，其可以包括各种显示装置，并通过这些显示装置向用户呈现与用户输入对应的视觉应答，例如文本、符号、视频、图像、超级链接、动画和各种通知等。根据本发明的一个实施例，应答输出模块416，例如，其可以包括扬声器或耳麦，并且通过扬声器或耳麦向用户提供与用户输入相对应的听觉应答，例如语音及/或者声音应答。根据本发明的一个实施例，应答输出模块416，其可以包括动作/触觉反馈生成部，并且通过其向用户提供触觉应答，例如动作/触觉反馈。根据本发明的一个实施例，应答输出模块416，对此理应理解为，其可以同时提供在与用户输入相对应的文本应答、语音应答以及动作/触觉反馈中的任意两个以上的组合。

图5是根据本发明一个实施例示出通过对话式代理系统执行的示例性动作流程的流程图。

在步骤502中，对话式代理系统，其可以接收用户的输入，包括由一个以上的词语组成的自然语言输入。根据本发明的一个实施例，自然语言输入，例如，其可以是通过麦克风接收的语音输入。根据本发明的另一个实施例，自然语言输入，其可以是通过键盘或触摸板等接收的文本输入。

在步骤504中，可以将在步骤502中接收的用户输入中包括的语音输入转换为文本。如果在步骤502中接收到的用户输入仅是文本输入，而不是语音输入，那么就可以跳过步骤504。接着，在步骤506中，可以对用户输入的文本或对用户输入的语音输入通过转换而获取的文本执行对自然语言的理解处理，从而确定与其相符的用户意图。关于对语音输入的文本转换、对自然语言的理解处理以及据此确定用户意图等，在上面已进行说明，因此在此将省略详细说明。

在步骤508中，其可以对是否获取足够的信息而无需补充信息也能够执行对应于用户意图的任务或提供对话应答进行判定。根据本发明的一个实施例，例如，其生成的提问，可以是与预订外卖订单有关的提问(例如，提出预订两只炸鸡的需求)，在步骤508中，当判定已经从用户输入中获取了对该需求足够的信息(例如，预订外卖订单所需的产品名称、地址、数量等各种信息)时，程序将进行步骤510，从而对该提问其为要求执行特定任务进行判定。在步骤510中，当判定其需要执行特定任务(例如，受理外卖订单申请)时，程序将进行步骤512，从而可以完成该特定任务的执行。在步骤512中完成对特定任务的执行之后，或者在步骤510中判定无需执行特定任务时，程序将进行步骤514。

在步骤514中，可以根据预设标准来判定是否需要向用户提供实质性回答。根据本发明的一个实施例，实质性回答可以是通知已完成符合用户意图的任务的执行(例如，“已完成您请求的作业了”等)，或提供基于用户意图来获取的新内容，以便通知已经理解了用户的意图，或包含符合用户意图的有意义的信息(例如，实质性的数据内容等)的实质性内容的回答。

根据本发明的一个实施例，例如，可以根据与输入的提问有关的句子类别来判定是否需要提供实质性回答。例如，对于如“你叫什么名字”之类的疑问句或者如“告诉我今天的天气”之类的命令句时，通常应提供实质性回答(例如，“我的名字叫000”，或“今天天气晴朗，风多、湿度低”等)。例如，当执行预订炸鸡订单任务时，应当提供实质性回答(例如，“完成炸鸡订单了”等)，以通知该任务的完成。还有，当与输入提问有关的句子其基于以前对话的内容时，例如“昨天吃的夜宵真好吃”，那么对话式代理系统可能有必要参照对应于以前的对话内容提供响应用户输入的实质性回答，例如，可以提供“薄皮披萨那么好吃吗？”这样的新的内容(并未在用户输入中直接包含的新内容)来告知已经理解用户的意图。根据本发明的一个实施例，当与输入提问有关的句子其包含特定的常用句时(例如，包含需要适当地响应表达的如“好天气”、“真冷”等常用句，或者包含有必要确认对话结束的特定的常用句，例如“要睡觉了”、“稍后见”、“今天真谢谢你”时)，有必要提供与之对应的常用句式的回答(例如，“天气真的很好”、“真的很冷”等或“晚安”、“下次见”、“再叫我”等)。另外，当与输入提问有关的句子，例如，“我有想吃的东西”或“我的名字叫”等简单的陈述，或“啊，真好”等简单的感叹句时，通常不必要立即提供实质性回答。在这里，理应理解为，前面记载的用于确定是否需要向用户提供实质性回答的条件，其仅仅是示例，因此可以对此考虑各种标准。在步骤514中，当判定需要提供实质性回答时，对话式代理系统，其可以在步骤516中生成适当的实质性回答并执行步骤528。

在步骤514中，当判定无需提供实质性回答时，程序将进行步骤518，对话式代理系统，则根据预设的标准，判定是否需要提供应答性语言。根据本发明的一个实施例，应答性语言可以包括，为持续更加自然和流畅的对话的简单响应/应答表达、感叹词、各种声音或图像、符号和表情符号等。根据本发明的一个实施例，是否需要提供应答性语言，可以基于用户特征数据，如从用户的以前对话记录中导出的信息(例如，相关用户的应答性语言的使用频率)来进行确定。根据本发明的一个实施例，是否需要提供应答性语言，例如，其可以基于在通过对话式代理系统未提供对话应答(例如，实质性回答、应答性语言或者请求补充信息等)的情况下，持续输入的用户输入句子的数量、输入的词汇数量、文本输入中的标点符号数量等是否达到了预设标准以上，或者基于在通过对话式代理系统未提供对话应答的情况下，自用户输入后是否经过了预设的时间以此来进行确定。在这里，理应理解为，前面记载的用于确定是否需要向用户提供应答性语言的条件仅仅是示例，对此可以考虑各种标准。

在步骤518中，当判定根据预设的标准需要提供应答性语言时，程序将进行步骤520，并且可以决定选择适当的应答性语言并将其提供。在步骤518中，当判定无需提供应答性语言时，程序可以进行步骤522。根据本发明的一个实施例，对话式代理系统，其可以在步骤522中在预设时间内等待补充信息的输入。

返回步骤508，当判定为与用户意图对应的提问而所需的信息并没有全部获取时，程序进行步骤522，对话式代理系统可以等待预设时间，以等待补充信息的输入。根据本发明的一个实施例，例如，所生成的提问为与预订外卖订单有关，当与提问有关的输入句子以“我要点炸鸡”来简单结束，而没有包含必要的信息，例如产品名称、地址、数量等的预订外卖订单所必要的各个信息时，则可以判定它没有包含充分的信息。在步骤524，其判定是否有由用户输入的补充信息，当有补充信息的输入时，程序可以返回到步骤508。而与其不同，在步骤524中，当判定尚未有由用户输入的补充信息时，则程序进行步骤526，并且对话式代理系统可以选择为获取补充信息的提问或为请求信息的适当的句子。根据本发明的一个实施例，如上所述，当输入简单的“我要点炸鸡”后，经过预设时间还没有输入补充信息时，对话式代理系统，其可以生成如“您要点什么产品？”等补充提问。而与其不同，当输入“我要点炸鸡”后，在经过预设时间这一过程中，如“把乔村的两只纯肉炸鸡送到我们家”等输入补充信息时，程序进行步骤508，并将进行后续程序。

在步骤528中，可以根据用户说话的特点改变已生成的回答、被选择的应答性语言或者生成的补充提问等自然语言应答并将其提供给用户终端102。根据本发明的一个实施例，对回答、应答性语言、提问的改变，可以是在分析所述自然语言应答并且基于与所述自然语言应答相关联的预设的修改应答数据库来改变所述自然语言应答。在一个实施例中，修改应答数据库，其可以包括：按用户存储其特征数据的用户数据库，所述各用户特征数据，包括该用户之前的对话记录、发音特征、用词喜好度、所在地、设置语言、设置对话模式、应答性语言的使用频率、喜欢使用的应答性语言以及喜欢使用的常用句中至少包括其中的一个信息；以及词汇数据库，所述词汇数据库，其可以包括在根据说话人的性别、年龄段、出生地以及性格中的任意一个标准来预先设定的使用词汇、缩写、流行语、词与词之间的空白数量以及非标准语中至少其中的一个信息，所述修改应答数据库包括用户数据库和词汇数据库中的至少一个。在一个实施例中，根据用户说话的特点改变自然语言的应答并将其提供，其可以是基于修改应答数据库，至少变更组成自然语言应答一个词语，或者在与组成自然语言应答的一个词语相关联的词汇、应答性语言和表示中至少增加其中的一个，或者从整体上改变自然语言的应答。

在一个实施例中，根据用户说话的特点改变所述自然语言的应答并将其提供，其为判断用户说话的特点，判断用户说话的特点，还可以包括：基于所述用户的信息或选择用户预设的对话模式的步骤，所述对话模式是在秘书模式、同性朋友模式、异性朋友模式、下属模式和普通模式中的一个模式。

在一个实施例中，例如，判断用户说话的特点，其包括：根据自然语言输入发生的时间和地点来判定所述用户的感情信息的步骤，当输入所述自然语言的时间发生在白天或输入所述自然语言的发生场所为公司时，将所述用户的情感信息判定为理性，当输入所述自然语言的时间发生在夜晚或输入所述自然语言的发生场所为家时，将所述用户的情感信息判定为感性。

图6是根据本发明一个实施例示出用户与对话式代理系统之间对话示例的图。所示出的对话，对此理应理解为，其仅仅是为了说明本发明的一个实施例而所包括的内容，因此本发明并不局限于这些示例。

根据本发明的一个是实施例，对话式代理系统可以设定为10多岁年龄段的朋友模式。如图6所示，可以看到，对话式代理系统接收到由用户的“帮我确认一下这周周末有没有预约？”这一提问。对话式代理系统对此认知为需要提供实质性回答的状况后，并可以生成实质性回答。如果对所述请求生成的实质性回答为“没有预约安排”，对话式代理系统可以按所设定的模式将所述实质性回答进行改变后予以提供。也就是说，分析所述实质性回答，且基于与所述实质性回答相关联的预设的修改应答数据库来改变所述实质性回答。例如，可以用存储在修改应答数据库中的“啊，不是总那样么，也没什么安排啊，嘿嘿”这一句子来整体置换后进行回答。

在一个实施例中，对话式代理系统可以将生成的实质性回答“没有预约安排”改变为“也没什么安排啊”后，可以生成补充10岁年龄段的朋友模式中经常使用的应答性语言、词汇、缩写语、流行语即“啊，不是总那样么”及/或者“嘿嘿”来存储的“啊，不是总那样么，也没什么安排啊，嘿嘿”这样的句子。

图7是根据本发明另一个实施例示出用户与对话式代理系统之间对话示例的图。

如图7所示，可以看到，对用户的“这周的周五是结婚纪念日吗？”这一提问，对话式代理系统对此认知为需要提供实质性回答的状况，从而可以生成实质性回答。如果对所述请求生成的实质性回答为“是”，对话式代理系统可以根据所述用户的说话的特点进行改变后予以提供。也就是说，分析所述实质性回答，且基于与所述实质性回答相关联的预设的修改应答数据库来可以改变所述实质性回答。通过分析所述用户的以前输入的自然语言，以此判定用户的信息，并且基于分析用户常用的习惯、应答性语言、词汇和表达等以此掌握“当然了”、“！”、“句中的逗号、句中的符号”等并将其存储的修改应答数据库来可以改变所述实质性回答。例如，在示出的实施例中，对话式代理系统根据用户说话的特点进行改变后的应答是“当！然！了！”。

本领域技术人员应该知道，本发明并不局限于本说明书中所记载的示例，在不脱离本发明范畴的范围内，可以对本发明进行各种变更、重新组成以及替换。本说明书中所记载的各种技术，对此理应理解为，其可以通过硬件或软件或者硬件和软件的组合来实现。

根据本发明的一个实施例的计算机程序，其通过计算机处理器等以可读存储介质，例如，包括EPROM、EEPROM、快闪存储器等非易失性存储器、内置硬盘和可拆卸磁盘等磁盘、磁光盘以及CDROM磁盘等的各种类型的存储介质存储的形式来体现。另外，程序代码(复数)可以以汇编程序语言或机器语言来体现。属于本发明的真正的思想及其范畴的所有变形和变更，通过下面的权利要求范围来将其均纳入其中。

26页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：用于挖掘文本文档以识别开创性问题和开创性案件的系统、方法和计算机程序产品

改变应答以提供表现丰富的自然语言对话的方法、计算机装置及计算机可读存储介质

相关技术

网友询问留言