基于多模态对话状态表示的人机交互的方法和装置

文档序号：1963830 发布日期：2021-12-14 浏览：24次 >En<

阅读说明：本技术 基于多模态对话状态表示的人机交互的方法和装置 (Method and device for man-machine interaction based on multi-modal dialog state representation ) 是由赵楠张孟馨吴友政周伯文于 2021-09-10 设计创作，主要内容包括：本公开提供一种基于多模态对话状态表示的人机交互的方法和装置,其中,方法包括：获取原始多模态输入信息；对所述原始多模态输入信息进行处理,获取多模态对话状态表示结果；根据所述多模态对话状态表示结果确定多模态对话策略；根据所述多模态对话策略完成多模态信息输出。本公开通过定义适应于真实场景对话的对话状态表示方法,能够完整表达交流中的对话交互,能够支持多模态对话系统的实现,进行实现精确的对话表达。(The present disclosure provides a method and a device for man-machine interaction based on multi-modal dialog state representation, wherein the method comprises the following steps: acquiring original multi-modal input information; processing the original multi-modal input information to obtain a multi-modal dialog state representation result; determining a multi-modal dialog strategy according to the multi-modal dialog state representation result; and finishing multi-modal information output according to the multi-modal dialog strategy. The method can completely express the dialogue interaction in the communication, support the realization of a multi-modal dialogue system and realize accurate dialogue expression by defining the dialogue state expression method suitable for the real scene dialogue.)

技术领域

本公开涉及计算机技术领域，尤其涉及一种基于多模态对话状态表示的人机交互的方法和装置。

背景技术

随着技术的发展和社会需求的进步，人机交互开始迈向拟人化人机交互的新阶段。真实场景下的人机交互系统需要具有一定的沟通技巧与策略规划能力。此外，多模态交互的机器人，不仅能够使用文字或者语音进行交互，还需要在交流过程中适时展示图表或者图片帮助用户更好地理解。真实场景的对话交流中，存在主被动角色转换，话题轮换，上下文的长期依赖等多种语言现象，仅仅依靠于意图、槽值来进行对话状态的表示已经不能满足真实场景下的需求。意图与槽都需要提前定义，难以应对多样性问题。意图与槽值的定义方法并不具有通用性，相关知识领域间共享非常困难。缺少对真实场景下对话交流的行为进行细致描述。缺少对多模态对话状态的考虑。

发明内容

本公开提供一种基于多模态对话状态表示的人机交互的方法和装置，用以解决现有技术中不具有通用性和难以精确进行对话的缺陷，实现精确对话和跨领域通用。

第一方面，本公开提供一种基于多模态对话状态表示的人机交互的方法，包括：

获取原始多模态输入信息；

对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果；

根据所述多模态对话状态表示结果确定多模态对话策略；

根据所述多模态对话策略完成多模态信息输出。

根据本公开提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果，具体包括：

对所述原始多模态输入信息进行单模态分析，获取单模态表示结果；

根据所述原始多模态输入信息获取对话场景相关信息；

对所述单模态表示结果和所述对话场景相关信息进行多模态理解和篇章语义分析，得到多模态对话状态表示结果。

根据本公开提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对所述原始多模态输入信息进行单模态分析，获取单模态表示结果，具体包括：

对所述原始多模态输入信息进行语音识别，得到语音识别结果，对所述语音识别结果进行语义分析，得到语义分析结果；

对所述原始多模态输入信息进行情感分析和行为手势分析，得到相应的情感分析结果和行为手势分析结果；

由所述语义分析结果、所述情感分析结果和所述行为手势分析结果组成单模态表示结果。

根据本公开提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述多模态对话状态表示结果包括对话行为、对话要素和对话场景；

其中，对话行为用于指导对话策略生成；

对话要素用来确定对话者的意图；

对话场景用于确定对应的媒体交互类型。

根据本公开提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对话行为用于指导对话策略生成，具体包括：

获取人机交互情景；

根据所述情景进行对话行为维度分析，得到对话行为维度分析结果；

根据所述对话行为维度分析结果确定对话策略生成。

根据本公开提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对话要素用来确定对话者的意图，具体包括：

获取所述对话者的语句；

对所述语句进行多因子对话要素表示，得到多因子对话要素表示结果；

根据所述多因子对话要素表示结果确定所述对话者的意图。

根据本公开提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对话场景用于确定对应的媒体交互类型，具体包括：

对所述对话者进行用户画像分析、媒体类型分析、风格情绪分析和设备类型分析，分别得到所述对话者的用户画像结果、媒体类型结果、风格情绪结果和设备类型结果；

根据所述对话者的用户画像结果、媒体类型结果、风格情绪结果和设备类型结果确定与所述对话者进行交互的媒体交互类型。

根据本公开提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对所述语句进行多因子对话要素表示，得到多因子对话要素表示结果，具体包括：

对所述语句从语义角度进行因子分解，得到所述语句的动作、对象、条件和问句类型四个维度因子；

根据所述四个维度因子确定多因子对话要素表示结果；

其中，所述动作是指句子中的谓语部分，由句子中的动词或形容词承担；

所述对象是指动作的影响者，或者名词性短语句子的中心词；

所述条件是指动作的状态、条件，对象的修饰、属性；

问句类型是指按照常识知识设置的交互过程中的不同查询请求类别。

第二方面，本公开提供一种基于多模态对话状态表示的人机交互的装置，包括：

第一处理模块，用于获取原始多模态输入信息；

第二处理模块，用于对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果；

第三处理模块，用于根据所述多模态对话状态表示结果确定多模态对话策略；

第四处理模块，用于根据所述多模态对话策略完成多模态信息输出。

本公开还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述基于多模态对话状态表示的人机交互的方法的步骤。

本公开还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述基于多模态对话状态表示的人机交互的方法的步骤。

本公开提供的基于多模态对话状态表示的人机交互的方法和装置，通过获取原始多模态输入信息；并对原始多模态输入信息进行处理，获取多模态对话状态表示结果；其中，多模态对话状态表示结果能够从多维度对对话特征进行表示，更具拟人化的效果。根据所述多模态对话状态表示结果确定多模态对话策略；在获取多模态对话策略之后，根据所述多模态对话策略完成多模态信息输出。由于多模态对话表示具有更准确的表示效果，因此在依据多模态表示结果构建的多模态输出更准确，更能够展现多样和人性化的交互方式。

附图说明

为了更清楚地说明本公开或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本公开提供的基于多模态对话状态表示的人机交互的方法的流程示意图；

图2是本公开提供的多模态你人交互系统架构示意图；

图3是本公开提供的深层次多模态对话状态表示方法示意图；

图4是本公开提供的基于多模态对话状态表示的人机交互的装置的结构示意图；

图5是本公开提供的电子设备的结构示意图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开实施例一部分实施例，而不是全部的实施例。基于本公开实施例中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开实施例保护的范围。

下面结合图1-图2描述本公开实施例的一种基于多模态对话状态表示的人机交互的方法，包括：

步骤100：获取原始多模态输入信息；

具体地，随着大数据、深度学习和算力的快速发展，计算机已发展成可以对语音、视觉、文本等多模态信息进行表示和识别，并融合知识以实现理解和推理的智能系统。为解决大众用户在多样化场景下完成复杂任务时的人机“交流障碍”问题，人机交互开始迈向拟人化人机交互(Intelligent User Interface，IUI)的新阶段。其典型应用是面向电话、在线文本客服和面对面咨询、销售及服务等场景的智能客服。在多轮对话研究和人机交互开放平台方面，现有的人机交互系统在执行特定领域、特定模态的特定任务方面取得了较好效果，但多模态、复杂场景、少资源、冷启动等情况下的多轮对话能力还亟待提高。例如，现有对话管理技术多局限于单一领域任务型对话，缺乏融合任务型对话、智能问答、知识图谱问答、聊天等多种应答模块的全局对话管理、不具有在高噪声复杂场景下有情感地进行应答生成的能力。

由于本公开中针对的是多种情形下，实现多种任务比如机器人对话交流过程中，需要完成自我介绍、商品推荐、邀请评价、情感安抚等等多种多样的对话行为，并且只有采用这样的拟人化的风格化的策略回复才能够提供更好的用户体验。

每一种信息的来源或者形式，都可以称为一种模态。例如，人有触觉，听觉，视觉，嗅觉；信息的媒介，有语音、视频、文字等；多种多样的传感器，如雷达、红外、加速度计等。以上的每一种都可以称为一种模态。同时，模态也可以有非常广泛的定义，比如可以把两种不同的语言当做是两种模态，甚至在两种不同情况下采集到的数据集，亦可认为是两种模态。因此，本公开通过获取原始多模态输入信息，可以是文本形式，可是图像形式，也可以使视频形式。获取多模态输入数据，调用数字人能力接口解析所述多模态输入数据

步骤200：对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果；

具体地，在本公开中通过对原始多模态信息进行处理，对输入的原始多模态信息从多个维度进行处理，比如语义角度，动作角度等等，获取多模态的对话状态表示结果。

步骤300：根据所述多模态对话状态表示结果确定多模态对话策略；

具体地，本公开中在确定多模态的对话状态表示结果之后，可以通过多模态状态表示的结果确定人机交互中机器的应答方式，比如选择的对话情感状态是安抚还是感激，是平静还是喜悦等等，确定对话的方式是视觉的形式还是语音的形式，是图片、视频的方式还是文本的形式等等。

步骤400：根据所述多模态对话策略完成多模态信息输出。

具体地，在确定多模态对话策略之后，机器人执行多模态输出的过程其实就是调用机器人系统所拥有的多模态资源数据，并以不同方式将它们输出的过程。举例而言，如果想使机器人输出面部表情，则对于设置有显示屏幕的机器人，通过在显示屏幕上播放视频或显示图像来输出面部表情。机器人系统涉及的多模态资源数据一般包括音频数据、视频数据、图像数据、或其他多媒体数据以及用于控制驱动机器人动作的电机的程序指令等。

本公开提供的基于多模态对话状态表示的人机交互的方法，通过获取原始多模态输入信息；并对原始多模态输入信息进行处理，获取多模态对话状态表示结果；其中，多模态对话状态表示结果能够从多维度对对话特征进行表示，更具拟人化的效果。根据所述多模态对话状态表示结果确定多模态对话策略；在获取多模态对话策略之后，根据所述多模态对话策略完成多模态信息输出。由于多模态对话表示具有更准确的表示效果，因此在依据多模态表示结果构建的多模态输出更准确，更能够展现多样和人性化的交互方式。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果，具体包括：

对所述原始多模态输入信息进行单模态分析，获取单模态表示结果；

根据所述原始多模态输入信息获取对话场景相关信息；

对所述单模态表示结果和所述对话场景相关信息进行多模态理解和篇章语义分析，得到多模态对话状态表示结果。

具体地，基于多模态数据特征表示模型提取多模态数据语义特征，构建基于预训练模型的文本、图像、音视频的数据特征提取模型，基于特征提取模型分别完成单模态数据语义特征提取、文本数据语义特征提取、图像特征提取、视频特征提取、图像数据的文本化描述信息提取和文本化描述、视频的文本化描述信息提取；此外，还包括行为手势分析以及情感分析等过程得到单模态表示结果。

另外，对原始多模态输入信息进行对话场景信息分析，其中场景信息表示对话发生场景的环境信息，与拟人化的视听感知密切相关，可以从用户画像(Persona)、媒体类型(Media)、风格情绪(Style)、设备类型(Device)4个角度具体描述响应的类型。

其中，多模态理解，旨在通过机器学习的方法实现处理和理解多源模态信息的能力。目前比较热门的研究方向是图像、视频、音频、语义之间的多模态学习。

多模态的深度语义理解，可以同时多模态的实现对文本与视觉图像的语义理解。举例来说，如果传统时代做AI识别，一个小狗在小树荫下面去识别的时候，发现识别分类两个目标，一个目标是小狗，另外一个目标是一棵树，基于视觉语义理解，一个小狗在树荫下乘凉，而更加深度的理解文本背后的含义是一个小狗在树荫下乘凉，外面是炎炎夏日。这便是的多模态深度语义理解。

进而，对于上文中的所述单模态表示结果和所述对话场景相关信息进行多模态理解和篇章语义分析，得到多模态对话状态表示结果。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对所述原始多模态输入信息进行单模态分析，获取单模态表示结果，具体包括：

对所述原始多模态输入信息进行语音识别，得到语音识别结果，对所述语音识别结果进行语义分析，得到语义分析结果；

对所述原始多模态输入信息进行情感分析和行为手势分析，得到相应的情感分析结果和行为手势分析结果；

由所述语义分析结果、所述情感分析结果和所述行为手势分析结果组成单模态表示结果。

具体地，通过调用语音识别、情感分析以及手势行为分析接口对原始多模态输入信息进行相应的处理，得到对应的单模态表示的结果。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述多模态对话状态表示结果包括对话行为、对话要素和对话场景；

其中，对话行为用于指导对话策略生成；

对话要素用来确定对话者的意图；

对话场景用于确定对应的媒体交互类型。

具体地，参考图3，本公开从对话行为即多维度对话行为分析、多因子对话要素、对话场景及多类型对话场景描述3个方面全面描述人机交互中对话决策与对话生成所需要的信息，更细致的刻画出了交流中的对话行为、对话语义要素、用于支持拟人化、多模态交互的对话场景信息，满足复杂场景下人机交互的需要。并且该方法不与领域知识知识绑定，具有通用性，能够适应于电商、旅游、医疗等各个领域的人机对话系统中。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对话行为用于指导对话策略生成，具体包括：

获取人机交互情景；

根据所述情景进行对话行为维度分析，得到对话行为维度分析结果；

根据所述对话行为维度分析结果确定对话策略生成。

具体地，对话行为(Dialogue-Act，DA)，在口语理解系统中起着至关重要的作用，用于标记说话者意图(如陈述、疑问、承诺、指示等意图)，不受特定对话系统的约束，因而具有一定的通用性。对话行为，又称言语行为或交际行为，是对意图进行形式化和泛化的尝试。说话者(sender)，受话者(addressee)，对话是围绕两种角色间的交互而进行的。其中，说话者是当前交互的说话人，即产生了当前对话行为。受话者，对话交互的参与者，当前说话者的交互对象。

本公开结合人工电话与在线客服等人机交互情景的特点，如售前类客服人员在服务中的商品推荐情景，售后类客服人员对顾客进行的情绪安抚情景等特殊场景，并基于国外通用类对话行为方案，提出能够充分表征人机交互口语化交流特点的对话行为分类方案，定义出5种不同对话行为分析维度(Task维度,Time Management维度,Feedback维度,Own and Partner Communication Management维度,Social Obligations Management维度)一起组合表示真实场景下复杂口语化对话行为状态。其中各个维度的定义表示如下表1：

表1

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对话要素用来确定对话者的意图，具体包括：

获取所述对话者的语句；

对所述语句进行多因子对话要素表示，得到多因子对话要素表示结果；

根据所述多因子对话要素表示结果确定所述对话者的意图。

具体地，本发明提出了一个简单而新颖的语义表示框架，称为多因子对话要素表示框架，用于替代经典的意图与槽值相结合的语义表示方式。在这个框架下，通过四种关键因素来区分不同的意图，即动作、对象、条件和问句类型。采用四个关键概念来区分意图，而不是完整表达句子的所有的复杂的语法与语义意思。多因子语义框架是受到这样一个事实的启发，即可能的句子的数量是无限的，因此要完全表示所有句子的意义是不可行的，同时过于笼统的语义表示也难以满足真实场景的需要。然而，在特定的领域或场景中，可能的语义空间是有限的，因此，可以用有限的关键概念来区分所有的意图，而不需要直接用完整的表示来表示每个意图，并且在表示粒度上也能够满足场景需要。

这种方法主要解决用户意图细粒度的描述难题，通过因子的区别来区分不同的语义意图，通过因子的共享来关联语义的知识点，求同存异。在该框架中设置四维因子，即动作、对象、条件(修饰/属性/状态/条件)、问句类型。条件(修饰/属性/状态/条件)这一维度是混合型的，包含修饰/属性/状态/条件等多个更细粒度的因子，由于这些因子通常不会在同一个问句中共现，将之合并为一个维度，以下将之简称为条件。通过对一个问句进行多维因子语义分析所得到的多个因子，然后连接起来之后形成一个因子表达式对语义进行表示。例如，“酒店发票怎么补”这个问句的因子表达式为“补开(动作)+发票(对象)+酒店(条件)+how-question(问句类型)”，括号类为因子类型；一般情况下，按照固定的顺序来排列四维因子，因此因子类型可以省略，此时因子表达式为“补开+发票+酒店+how-question”。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对话场景用于确定对应的媒体交互类型，具体包括：

根据所述对话者的用户画像结果、媒体类型结果、风格情绪结果和设备类型结果确定与所述对话者进行交互的媒体交互类型。

具体地，场景信息表示对话发生场景的环境信息，与拟人化的视听感知密切相关，可以从用户画像(Persona)、媒体类型(Media)、风格情绪(Style)、设备类型(Device)4个角度具体描述响应的类型。用户画像，描述了会话者的用户画像信息(例如，年龄与职业，兴趣爱好等)。媒体类型，表示首选的呈现媒体类型，用什么形式展示输入输出完成交互(例如，文本、口头与图表、图片等)。风格情绪，表述当前话语时所持有的情感态度(例如，愤怒、着急等)。设备类型，将在演示中使用哪些设备，设备最终为交互提供实体硬件方面的支持(如网页、电话或PDA等)。

在一个多模态的对话系统中，对话决策(Policy)单元在进行对话策略的决策过程中，会充分考虑这些对话场景信息，选择最合适的媒体交互类型。在对话生成(NLG)单元产生应答文本时，也可以利用到诸如用户画像与风格信息，生成丰富风格化特色的应答回复，从而能够提供更好的用户体验，带来更多的用户参与度，提高对话任务的完成率。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的方法，其中，所述对所述语句进行多因子对话要素表示，得到多因子对话要素表示结果，具体包括：

对所述语句从语义角度进行因子分解，得到所述语句的动作、对象、条件和问句类型四个维度因子；

根据所述四个维度因子确定多因子对话要素表示结果；

其中，所述动作是指句子中的谓语部分，由句子中的动词或形容词承担；

所述对象是指动作的影响者，或者名词性短语句子的中心词；

所述条件是指动作的状态、条件，对象的修饰、属性；

问句类型是指按照常识知识设置的交互过程中的不同查询请求类别。

具体地，因子的拆分不依赖于具体的领域知识，按照一般的中文句法分析对句子的主谓宾成份进行分析，并从语义角度理解句子的中心思想即可进行因子分解。拆分时，可以把握以下几点规则：

动作，即句子中的谓语部分，通常由句子中的动词或形容词承担。

对象，即动作的影响者，或者名词性短语句子的中心词。

条件，即动作的状态、条件，对象的修饰、属性，由于通常不会在一个句子中同时出现，故采用一个维度进行表示。

问句类型，即按照常识知识设置的交互过程中的不同查询请求类别：yesno-quesiton，肯定否定问句；choice-question，选择问句；where-question，位置问句；when-question，时间问句；why-question，原因问句；whynot-question，否定原因问句；what-question，实体问句；who-question，人名问句；how-question，动作/状态问句；howoften-question，频率问句；howmany-question，数量问句；statement-positive，肯定句；statement-negative，否定句。

结合图4所示，本公开提供一种基于多模态对话状态表示的人机交互的装置，包括：

第一处理模块41，用于获取原始多模态输入信息；

第二处理模块42，用于对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果；

第三处理模块43，用于根据所述多模态对话状态表示结果确定多模态对话策略；

第四处理模块44，用于根据所述多模态对话策略完成多模态信息输出。

由于本发明实施例提供的装置，可以用于执行上述实施例所述的方法，其工作原理和有益效果类似，故此处不再详述，具体内容可参见上述实施例的介绍。

本公开提供的基于多模态对话状态表示的人机交互的装置，通过获取原始多模态输入信息；并对原始多模态输入信息进行处理，获取多模态对话状态表示结果；其中，多模态对话状态表示结果能够从多维度对对话特征进行表示，更具拟人化的效果。根据所述多模态对话状态表示结果确定多模态对话策略；在获取多模态对话策略之后，根据所述多模态对话策略完成多模态信息输出。由于多模态对话表示具有更准确的表示效果，因此在依据多模态表示结果构建的多模态输出更准确，更能够展现多样和人性化的交互方式。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的装置，其中，所述第二处理模块42，具体用于：

对所述原始多模态输入信息进行单模态分析，获取单模态表示结果；

根据所述原始多模态输入信息获取对话场景相关信息；

对所述单模态表示结果和所述对话场景相关信息进行多模态理解和篇章语义分析，得到多模态对话状态表示结果。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的装置，其中，所述第二处理模块42，还具体用于：

对所述原始多模态输入信息进行语音识别，得到语音识别结果，对所述语音识别结果进行语义分析，得到语义分析结果；

对所述原始多模态输入信息进行情感分析和行为手势分析，得到相应的情感分析结果和行为手势分析结果；

由所述语义分析结果、所述情感分析结果和所述行为手势分析结果组成单模态表示结果。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的装置，其中，所述第二处理模块42中，所述多模态对话状态表示结果包括对话行为、对话要素和对话场景；

其中，对话行为用于指导对话策略生成；

对话要素用来确定对话者的意图；

对话场景用于确定对应的媒体交互类型。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的装置，其中，所述第二处理模块42，还具体用于：

获取人机交互情景；

根据所述情景进行对话行为维度分析，得到对话行为维度分析结果；

根据所述对话行为维度分析结果确定对话策略生成。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的装置，其中，所述第二处理模块42，还具体用于：

获取所述对话者的语句；

对所述语句进行多因子对话要素表示，得到多因子对话要素表示结果；

根据所述多因子对话要素表示结果确定所述对话者的意图。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的装置，其中，所述第二处理模块42，还具体用于：

根据所述对话者的用户画像结果、媒体类型结果、风格情绪结果和设备类型结果确定与所述对话者进行交互的媒体交互类型。

根据本公开实施例提供的一种基于多模态对话状态表示的人机交互的装置，其中，所述第二处理模块42，还具体用于：

对所述语句从语义角度进行因子分解，得到所述语句的动作、对象、条件和问句类型四个维度因子；

根据所述四个维度因子确定多因子对话要素表示结果；

其中，所述动作是指句子中的谓语部分，由句子中的动词或形容词承担；

所述对象是指动作的影响者，或者名词性短语句子的中心词；

所述条件是指动作的状态、条件，对象的修饰、属性；

问句类型是指按照常识知识设置的交互过程中的不同查询请求类别。

图5示例了一种电子设备的实体结构示意图，如图5所示，该电子设备可以包括：处理器(processor)510、通信接口(Communications Interface)520、存储器(memory)530和通信总线540，其中，处理器510，通信接口520，存储器530通过通信总线540完成相互间的通信。处理器510可以调用存储器530中的逻辑指令，以执行本公开提供一种基于多模态对话状态表示的人机交互的方法，该方法包括：获取原始多模态输入信息；对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果；根据所述多模态对话状态表示结果确定多模态对话策略；根据所述多模态对话策略完成多模态信息输出。

此外，上述的存储器530中的逻辑指令可以通过软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本公开实施例的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本公开各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

另一方面，本公开还提供一种计算机程序产品，所述计算机程序产品包括存储在非暂态计算机可读存储介质上的计算机程序，所述计算机程序包括程序指令，当所述程序指令被计算机执行时，计算机能够执行上述各方法所提供的本公开提供一种基于多模态对话状态表示的人机交互的方法，该方法包括：获取原始多模态输入信息；对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果；根据所述多模态对话状态表示结果确定多模态对话策略；根据所述多模态对话策略完成多模态信息输出。

又一方面，本公开还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现以执行上述各提供的本公开提供一种基于多模态对话状态表示的人机交互的方法，该方法包括：获取原始多模态输入信息；对所述原始多模态输入信息进行处理，获取多模态对话状态表示结果；根据所述多模态对话状态表示结果确定多模态对话策略；根据所述多模态对话策略完成多模态信息输出。

以上所描述的装置实施例仅仅是示意性的，其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。本领域普通技术人员在不付出创造性的劳动的情况下，即可以理解并实施。

通过以上的实施方式的描述，本领域的技术人员可以清楚地了解到各实施方式可借助软件加必需的通用硬件平台的方式来实现，当然也可以通过硬件。基于这样的理解，上述技术方案本质上或者说对现有技术做出贡献的部分可以以软件产品的形式体现出来，该计算机软件产品可以存储在计算机可读存储介质中，如ROM/RAM、磁碟、光盘等，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行各个实施例或者实施例的某些部分所述的方法。

最后应说明的是：以上实施例仅用以说明本公开的技术方案，而非对其限制；尽管参照前述实施例对本公开进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本公开各实施例技术方案的精神和范围。

17页详细技术资料下载

基于多模态对话状态表示的人机交互的方法和装置

相关技术

网友询问留言