一种多人场景的人机交互系统及方法

文档序号：1710320 发布日期：2019-12-13 浏览：8次 >En<

阅读说明：本技术 一种多人场景的人机交互系统及方法 (Man-machine interaction system and method for multi-person scene ) 是由贺伟于 2019-07-15 设计创作，主要内容包括：本发明提供了一种多人场景的人机交互系统及方法,所述多人场景的人机交互系统包括：语音输入模块,用于输入用户的说话内容；身份识别模块,用于对用户身份进行识别,获得身份识别特征；云端服务器,用于存储用户的身份识别特征,并按照时间顺序记录用户的对话内容；语义标注和分析模块,用于对存储的身份识别特征进行标注,并对记录的对话内容进行语义分析；和对话反馈模块,用于在有若干个发言人和人机交互系统交互时,对发言人身份进行识别,并根据记录的对话内容分析历史语音数据,在上下文快速检索,以找到匹配的答案。根据本发明的多人场景的人机交互系统,基于云端大数据进行实时交互,提高了交互内容的准确性。(The invention provides a human-computer interaction system and a human-computer interaction method for a multi-person scene, wherein the human-computer interaction system for the multi-person scene comprises the following steps: the voice input module is used for inputting the speaking content of a user; the identity recognition module is used for recognizing the identity of the user to obtain identity recognition characteristics; the cloud server is used for storing the identity recognition characteristics of the user and recording the conversation content of the user according to the time sequence; the semantic annotation and analysis module is used for annotating the stored identity recognition features and performing semantic analysis on the recorded conversation contents; and the dialogue feedback module is used for identifying the identity of the speakers when a plurality of speakers interact with the man-machine interaction system, analyzing historical voice data according to recorded dialogue contents, and quickly searching in the context to find a matched answer. According to the man-machine interaction system of the multi-person scene, real-time interaction is carried out based on the cloud big data, and the accuracy of the interaction content is improved.)

一种多人场景的人机交互系统及方法

技术领域

本发明涉及人机交互技术领域，特别涉及一种多人场景的人机交互系统及方法。

背景技术

随着人工智能技术的不断进步，人机交互也取得了长足的发展，各种人机交互机器人大肆兴起，随之人们对自然、拟人的人机交互方式的追求也愈发强烈。

现有的人机交互系统大多还只能处理较为简单的一对一交互，其大致工作流程为：接收用户的交互指令，对所述交互指令进行分析，得到用户的交互意图，根据用户的交互意图做出相应的响应。即使有一些支持多人参与交互的设备，也只注明了会对多人对话场景进行响应交互，没有明确说明交互方式，交互过程存在滞后性，不能实现实时交互，交互内容的准确性不高，而且在采集语音的过程中会出现大概率的误识别，扰***互过程，降低用户体验。

发明内容

本发明提供一种多人场景的人机交互系统及方法，用以基于云端大数据进行实时交互，提高了交互内容的准确性。

本发明提供了一种多人场景的人机交互系统，包括：

语音输入模块，用于输入若干个用户的说话内容；

身份识别模块，用于在每个用户首次说话时，对所述用户进行身份识别，获得身份识别特征；

云端服务器，用于存储所述用户的身份识别特征，并按照时间顺序记录若干个所述用户的对话内容；

语义标注和分析模块，用于对所述云端服务器存储的所述身份识别特征进行标注，并对所述云端服务器记录的所述对话内容进行语义分析；和

对话反馈模块，用于在多人对话的中途有若干个发言人和所述人机交互系统进行交互时，对所述发言人进行身份识别，并根据所述云端服务器记录的所述对话内容分析所述发言人的历史语音数据，在上下文快速检索，以找到匹配的答案。

进一步地，所述多人场景的人机交互系统还包括语音合成模块，用于将所述匹配的答案转换成语音。

进一步地，所述语音输入模块包括多麦克风阵列语音输入模块。

进一步地，所述身份识别模块包括声纹识别模块，用于对所述用户进行声纹识别，获得声纹识别特征。

进一步地，所述多人场景的人机交互系统还包括连接每个用户的用户终端，用于在多人场景的人机交互过程中，向所述云端服务器发送所述用户的身份识别特征和若干个所述用户的对话内容，在多人场景的人机交互结束后，所述云端服务器将记录的所述对话内容传送到所述用户终端。

进一步地，所述多人场景的人机交互系统还包括通信模块，通过所述通信模块向所述云端服务器实时地发送所述用户的身份识别特征和若干个所述用户的对话内容。

进一步地，所述多人场景的人机交互系统还包括播放模块，用于播放所述语音合成模块转换成的语音。

本发明实施例提供的一种多人场景的人机交互系统，具有以下有益效果：基于云端大数据进行实时交互，提高了交互内容的准确性，利用身份识别模块对用户进行身份识别，降低了误识别率。

本发明还提供一种多人场景的人机交互方法，所述方法执行以下步骤：

步骤1：获取若干个用户的说话内容；

步骤2：在每个用户首次说话时，对所述用户进行身份识别，获得身份识别特征，并将每个用户的所述身份识别特征上传到云端进行存储和标注；

步骤3：将多人场景的所有用户的对话实时上传到云端，按照时间顺序进行记录并对所有用户的对话内容进行语义分析；

步骤4：在多人对话的中途有若干个发言人和所述人机交互系统进行交互时，对所述发言人进行身份识别，并分析所述发言人的历史语音数据，在上下文快速检索，以找到匹配的答案。

进一步地，采用多麦克风阵列语音输入技术获得若干个所述用户的说话内容。

进一步地，在所述步骤2中，对每个用户的首次说话内容进行身份识别，获得身份识别特征的步骤包括：对每个用户的首次说话内容进行声纹识别，获得声纹特征。

本发明实施例提供的一种多人场景的人机交互方法，具有以下有益效果：基于云端大数据进行实时交互，提高了交互内容的准确性，同时对用户进行身份识别，降低了误识别率。

本发明的其它特征和优点将在随后的说明书中阐述，并且，部分地从说明书中变得显而易见，或者通过实施本发明而了解。本发明的目的和其他优点可通过在所写的说明书、权利要求书、以及附图中所特别指出的结构来实现和获得。

下面通过附图和实施例，对本发明的技术方案做进一步的详细描述。

附图说明

附图用来提供对本发明的进一步理解，并且构成说明书的一部分，与本发明的实施例一起用于解释本发明，并不构成对本发明的限制。在附图中：

图1为本发明实施例中一种多人场景的人机交互系统的框图；

图2为本发明实施例中一种多人场景的人机交互方法的方法流程示意图。

具体实施方式

以下结合附图对本发明的优选实施例进行说明，应当理解，此处所描述的优选实施例仅用于说明和解释本发明，并不用于限定本发明。

本发明实施例提供了一种多人场景的人机交互系统，如图1所示，包括：

语音输入模块101，用于输入若干个用户的说话内容；

身份识别模块102，用于在每个用户首次说话时，对所述用户进行身份识别，获得身份识别特征；

云端服务器103，用于存储所述用户的身份识别特征，并按照时间顺序记录若干个所述用户的对话内容；

语义标注和分析模块104，用于对所述云端服务器103存储的所述身份识别特征进行标注，并对所述云端服务器103记录的所述对话内容进行语义分析；和

对话反馈模块105，用于在多人对话的中途有若干个发言人和所述人机交互系统进行交互时，对所述发言人进行身份识别，并根据所述云端服务器记录的所述对话内容分析所述发言人的历史语音数据，在上下文快速检索，以找到匹配的答案。

其中，所述语义标注和分析模块104包括语义标注模块1041和语义分析模块1042，所述语义标注模块1041用于对所述云端服务器103存储的所述身份识别特征进行标注，所述语义分析模块1042用于对所述云端服务器103记录的所述对话内容进行语义分析。

上述技术方案的工作原理为：身份识别模块102对用户进行身份识别；云端服务器103存储用户的身份识别特征，并按照时间顺序记录用户的对话内容；语义标注和分析模块104对存储的身份识别特征进行标注，并对记录的对话内容语义分析；对话反馈模块105在有若干个发言人和人机交互系统进行交互时，对发言人进行身份识别，并根据记录的对话内容分析发言人的历史语音数据，在上下文快速检索，以找到匹配的答案。

上述技术方案的有益效果为：基于云端大数据进行实时交互，提高了交互内容的准确性，利用身份识别模块对用户进行身份识别，降低了误识别率。

在一个实施例中，所述多人场景的人机交互系统还包括语音合成模块106，用于将所述匹配的答案转换成语音。

而且用户可以对转换成语音进行自定义选择，例如可以选择自己喜欢的音色。

上述技术方案的工作原理为：语音合成模块106将对话反馈模块105找到的匹配答案转换成语音。

上述技术方案的有益效果为：用户可以直观地得到交互信息，提高了交互的便捷性。

在一个实施例中，所述语音输入模块101包括多麦克风阵列语音输入模块。

上述技术方案的工作原理为：采用多麦克风阵列语音输入模块，可以对多人场景的人机交互系统中的每个用户的语音分别进行输入。

上述技术方案的有益效果为：可以降低对用户语音的误识别率，提高用户的满意度。

在一个实施例中，所述身份识别模块102包括声纹识别模块，用于对所述用户进行声纹识别，获得声纹识别特征。

需要说明的是，所述身份识别模块102还可以对用户的其它生物信息(比如人脸图像、虹膜图像等)进行识别，根据所述生物信息确定当前交互指令对应的用户信息。

上述技术方案的工作原理为：声纹识别模块基于用户的声纹特征对用户进行识别。

上述技术方案的有益效果为：可以进一步降低对用户的误识别率，提高用户的满意度。

在一个实施例中，所述多人场景的人机交互系统还包括连接每个用户的用户终端107，在多人场景的人机交互过程中，向所述云端服务器103发送所述用户的身份识别特征和若干个所述用户的对话内容，在多人场景的人机交互结束后，所述云端服务器103将记录的所述对话内容传送到所述用户终端107。

具体地，所述用户终端107和所述云端服务器103之间通过网络进行数据交互。所述用户终端107包括但不限于用户手机、笔记本、平板电脑。

所述云端服务器103采用HTTP或FTP协议通过联网方式与所述用户终端107进行信息的通讯，所述联网方式包括但不限于2G、3G、4G、5G以及Wifi、NB-IoT。

上述技术方案的工作原理为：用户终端107作为用户的载体，连接了用户和云端服务器103。

上述技术方案的有益效果为：用户终端便于用户和云端服务器之间进行进行信息交互。

在一个实施例中，所述多人场景的人机交互系统还包括通信模块108，通过所述通信模块108向所述云端服务器103实时地发送所述用户的身份识别特征和若干个所述用户的对话内容。

上述技术方案的工作原理为：通过通信模块108进行数据传送。

上述技术方案的有益效果为：通信模块实现了用户终端和云端服务器之间的数据传送。

在一个实施例中，所述多人场景的人机交互系统还包括播放模块109，用于播放所述语音合成模块106转换成的语音。

进一步地，所述播放模块109包括扩音器。

上述技术方案的工作原理为：播放模块109将所述语音合成模块106转换成的语音进行播放。

上述技术方案的有益效果为：通过播放模块将语音进行播放，用户可以听到语音信息，因而可以更直观地得到交互信息，进一步提高了交互的便捷性。

本发明实施例还提供了一种多人场景的人机交互方法，如图2所示，所述方法执行以下步骤：

步骤1：获取若干个用户的说话内容；

步骤2：在每个用户首次说话时，对所述用户进行身份识别，获得身份识别特征，并将每个用户的所述身份识别特征上传到云端进行存储和标注；

步骤3：将多人场景的所有用户的对话实时上传到云端，按照时间顺序进行记录并对所有用户的对话内容进行语义分析；

上述技术方案的工作原理为：在每个用户首次说话时，对用户进行身份识别，获得身份识别特征，并上传到云端进行存储和标注；将所有用户的对话实时上传到云端，按照时间顺序进行记录并对所有用户的对话内容进行语义分析；在中途有若干个发言人和人机交互系统进行交互时，对发言人进行身份识别，并分析发言人的历史语音数据，在上下文快速检索，以找到匹配的答案。

上述技术方案的有益效果为：基于云端大数据进行实时交互，提高了交互内容的准确性，同时对用户进行身份识别，降低了误识别率。

在一个实施例中，在所述步骤4之后，所述方法还包括步骤5：将所述匹配的答案转换成语音。

上述技术方案的工作原理为：可将找到的匹配答案转换成语音。

上述技术方案的有益效果为：用户可以直观地得到交互信息，提高了交互的便捷性。

在一个实施例中，在所述步骤1中，采用多麦克风阵列语音输入技术获得若干个所述用户的说话内容。

上述技术方案的工作原理为：采用多麦克风阵列语音技术可以对多人场景的人机交互系统中的每个用户的语音分别进行输入。

上述技术方案的有益效果为：可以降低对用户语音的误识别率，提高用户的满意度。

在一个实施例中，在所述步骤2中，对每个用户的首次说话内容进行身份识别，获得身份识别特征的步骤包括：对每个用户的首次说话内容进行声纹识别，获得声纹特征。

需要说明的是，还可以对用户的其它生物信息(比如人脸图像、虹膜图像等)进行识别，根据所述生物信息确定当前交互指令对应的用户信息。

上述技术方案的工作原理为：基于用户的声纹特征对用户进行识别。

上述技术方案的有益效果为：可以进一步降低对用户的误识别率，提高用户的满意度。

在一个实施例中，在所述步骤5之后，所述方法还包括步骤6：将完成语音转换成的所述答案进行播放。

上述技术方案的工作原理为：转换成的语音进行播放，用户可以听到语音信息，。

上述技术方案的有益效果为：通过将语音进行播放，用户可以更直观地得到交互信息，进一步提高了交互的便捷性。

显然，本领域的技术人员可以对本发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包含这些改动和变型在内。

9页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种录播一体机的语音控制系统

一种多人场景的人机交互系统及方法

相关技术

网友询问留言