语音对话方法、装置、电子设备及存储介质

文档序号：170827 发布日期：2021-10-29 浏览：35次 >En<

阅读说明：本技术 语音对话方法、装置、电子设备及存储介质 (Voice conversation method, device, electronic equipment and storage medium ) 是由姬光飞于 2021-07-14 设计创作，主要内容包括：本公开提出一种语音对话方法、装置、电子设备及存储介质,属于电子设备技术领域。其中,该语音对话方法应用于电子设备包括：响应于检测到语音对话激活事件,通过目标通道获取用户语音信息；向服务器发送用户语音信息；接收服务器反馈的用户语音信息对应的应答结果；若应答结果中包括通道切换指令,则根据通道切换指令将目标通道切换为自适应波束形成对应的语音通道；以及将应答结果中的应答文本转换为应答语音,并通过扬声器播放。由此,能够在连续对话场景中实现单通道语音输入,从而提高连续对话的成功率和稳定性,进而提高用户体验。(The disclosure provides a voice conversation method, a voice conversation device, electronic equipment and a storage medium, and belongs to the technical field of electronic equipment. The voice conversation method is applied to the electronic equipment and comprises the following steps: in response to detecting a voice conversation activation event, acquiring user voice information through a target channel; sending user voice information to a server; receiving a response result corresponding to the user voice information fed back by the server; if the response result comprises a channel switching instruction, switching the target channel into a voice channel corresponding to the adaptive beam forming according to the channel switching instruction; and converting the response text in the response result into response voice, and playing the response voice through a loudspeaker. Therefore, single-channel voice input can be achieved in a continuous dialogue scene, the success rate and stability of continuous dialogue are improved, and user experience is improved.)

语音对话方法、装置、电子设备及存储介质

技术领域

本公开涉及电子设备技术领域，尤其涉及一种语音对话方法、装置、电子设备及存储介质。

背景技术

随着社会的发展和进步，具有语音交互功能的终端设备随处可见，人们不仅能通过语音交互控制终端设备，例如，语音设置手机闹铃、语音控制车载导航、语音控制智能音箱播放音乐以及语音控制电视播放视频等，还能通过语音交互获取各类信息，包括新闻、天气等，并且，还能够与具有语音交互功能的终端设备进行聊天，以获取更多的乐趣。

相关技术中，语音设备(例如，智能音响)通常是采用盲源分离算法对mic(Microphone，麦克风)采集的语音信息进行处理，以获取用户的语音信息。

发明内容

本公开实施例提供一种语音对话方法、装置、电子设备及存储介质，能够在连续对话场景中实现单通道语音输入，从而提高连续对话的成功率和稳定性，进而提高用户体验。

本公开第一方面实施例提出了一种语音对话方法，应用于电子设备，包括：响应于检测到语音对话激活事件，通过目标通道获取用户语音信息；向服务器发送所述用户语音信息；接收所述服务器反馈的所述用户语音信息对应的应答结果；若所述应答结果中包括通道切换指令，则根据所述通道切换指令将所述目标通道切换为自适应波束形成MVDR(Minimum Variance Distortionless Response，自适应波束形成)对应的语音通道；以及将所述应答结果中的应答文本转换为应答语音，并通过扬声器播放。

在本公开的一个实施例中，所述将所述应答结果中的应答文本转换为应答语音，并通过扬声器播放，包括：获取语音转换模型；将所述应答文本输入至所述语音转换模型；通过所述语音转换模型对所述应答文本进行语音转换，以生成所述应答语音，并通过所述扬声器播放所述应答语音。

在本公开的一个实施例中，上述语音对话方法还包括：接收多个麦克风所采集的语音信息；通过盲源分离对所述语音信息进行处理，以生成两路单通道语音数据，其中，所述两路单通道语音数据分别为第一语音数据和第二语音数据；若所述第一语音数据满足激活条件，或者所述第二语音数据满足所述激活条件，则确定检测到所述语音对话激活事件，其中，所述激活条件包括激活关键词。

在本公开的一个实施例中，上述语音对话方法还包括：若所述第一语音数据满足所述激活条件，则将所述第一语音数据对应的单通道作为所述目标通道；若所述第二语音数据满足所述激活条件，则将所述第二语音数据对应的单通道作为所述目标通道。

在本公开的一个实施例中，上述语音对话方法还包括：若预设时间内通过所述语音通道未获取到语音信息，则将所述语音通道切换为所述目标通道。

在本公开的一个实施例中，上述语音对话方法还包括：若所述应答结果中包括退出指令，则根据所述退出指令将所述语音通道切换为所述目标通道。

本公开第二方面实施例提出了一种语音对话方法，应用于服务器，包括：接收电子设备发送的用户语音信息；根据所述用户语音信息生成应答文本；若所述用户语音信息满足连续对话条件，则生成通道切换指令，并根据所述应答文本和所述通道切换指令生成应答结果；以及将所述应答结果发送至所述电子设备。

在本公开的一个实施例中，上述语音对话方法还包括：将所述用户语音信息转换为用户文本信息；若所述用户文本信息中包括连续对话关键词，则确定所述用户语音信息满足所述连续对话条件；若所述用户文本信息中不包括连续对话关键词，则对所述用户文本信息进行语义分析，以生成分析结果；若根据所述分析结果确定用户有连续对话意图，则确定所述用户语音信息满足所述连续对话条件；若根据所述分析结果确定用户未有连续对话意图，则确定所述用户语音信息不满足所述连续对话条件。

在本公开的一个实施例中，上述语音对话方法还包括：若所述用户语音信息满足退出连续对话条件，则生成退出指令，并根据所述应答文本和所述退出指令生成所述应答结果。

在本公开的一个实施例中，上述语音对话方法还包括：将所述用户语音信息转换为用户文本信息；若所述用户文本信息中包括退出连续对话关键词，则确定所述用户语音信息满足所述退出连续对话条件；若所述用户文本信息中不包括退出连续对话关键词，则对所述用户文本信息进行语义分析，以生成分析结果；若根据所述分析结果确定用户有退出连续对话意图，则确定所述用户语音信息满足所述退出连续对话条件；若根据所述分析结果确定用户未有退出连续对话意图，则确定所述用户语音信息不满足所述退出连续对话条件。

本公开第三方面实施例提出了一种语音对话装置，包括：获取模块，用于响应于检测到语音对话激活事件，通过目标通道获取用户语音信息；发送模块，用于向服务器发送所述用户语音信息；接收模块，用于接收所述服务器反馈的所述用户语音信息对应的应答结果；第一切换模块，用于若所述应答结果中包括通道切换指令，则根据所述通道切换指令将所述目标通道切换为自适应波束形成自适应波束形成对应的语音通道；以及播放模块，用于将所述应答结果中的应答文本转换为应答语音，并通过扬声器播放。

在本公开的一个实施例中，所述播放模块，具体用于：获取语音转换模型；将所述应答文本输入至所述语音转换模型；通过所述语音转换模型对所述应答文本进行语音转换，以生成所述应答语音，并通过所述扬声器播放所述应答语音。

在本公开的一个实施例中，所述获取模块，用于：接收多个麦克风所采集的语音信息；通过盲源分离对所述语音信息进行处理，以生成两路单通道语音数据，其中，所述两路单通道语音数据分别为第一语音数据和第二语音数据；若所述第一语音数据满足激活条件，或者所述第二语音数据满足所述激活条件，则确定检测到所述语音对话激活事件，其中，所述激活条件包括激活关键词。

在本公开的一个实施例中，所述获取模块，还用于：若所述第一语音数据满足所述激活条件，则将所述第一语音数据对应的单通道作为所述目标通道；若所述第二语音数据满足所述激活条件，则将所述第二语音数据对应的单通道作为所述目标通道。

在本公开的一个实施例中，上述语音对话装置还包括：第二切换模块，用于若预设时间内通过所述语音通道未获取到语音信息，则将所述语音通道切换为所述目标通道。

在本公开的一个实施例中，上述语音对话装置还包括：第三切换模块，用于若所述应答结果中包括退出指令，则根据所述退出指令将所述语音通道切换为所述目标通道。

本公开第四方面实施例提出了一种语音对话装置，包括：接收模块，用于接收电子设备发送的用户语音信息；第一生成模块，用于根据所述用户语音信息生成应答文本；第二生成模块，用于若所述用户语音信息满足连续对话条件，则生成通道切换指令，并根据所述应答文本和所述通道切换指令生成应答结果；以及发送模块，用于将所述应答结果发送至所述电子设备。

在本公开的一个实施例中，所述第二生成模块，用于：将所述用户语音信息转换为用户文本信息；若所述用户文本信息中包括连续对话关键词，则确定所述用户语音信息满足所述连续对话条件；若所述用户文本信息中不包括连续对话关键词，则对所述用户文本信息进行语义分析，以生成分析结果；若根据所述分析结果确定用户有连续对话意图，则确定所述用户语音信息满足所述连续对话条件；若根据所述分析结果确定用户未有连续对话意图，则确定所述用户语音信息不满足所述连续对话条件。

在本公开的一个实施例中，上述语音对话装置还包括:第三生成模块，用于若所述用户语音信息满足退出连续对话条件，则生成退出指令，并根据所述应答文本和所述退出指令生成所述应答结果。

在本公开的一个实施例中，所述第三生成模块，用于：将所述用户语音信息转换为用户文本信息；若所述用户文本信息中包括退出连续对话关键词，则确定所述用户语音信息满足所述退出连续对话条件；若所述用户文本信息中不包括退出连续对话关键词，则对所述用户文本信息进行语义分析，以生成分析结果；若根据所述分析结果确定用户有退出连续对话意图，则确定所述用户语音信息满足所述退出连续对话条件；若根据所述分析结果确定用户未有退出连续对话意图，则确定所述用户语音信息不满足所述退出连续对话条件。

本公开第五方面实施例提出了一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现本公开第一方面实施例提出的语音对话方法。

本公开第六方面实施例提出了一种非临时性计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行本公开第一方面实施例提出的语音对话方法。

本公开第七方面实施例提出了一种计算机程序产品，包括计算机程序，所述计算机程序在被通信设备中的处理器执行时实现本公开第一方面实施例提出的语音对话方法。

本公开实施例提供的语音对话方法、装置、电子设备及存储介质，通过电子设备响应于检测到语音对话激活事件，通过目标通道获取用户语音信息，并向服务器发送用户语音信息，以及接收服务器反馈的用户语音信息对应的应答结果，若应答结果中包括通道切换指令，则根据通道切换指令将目标通道切换为自适应波束形成对应的语音通道，以及将应答结果中的应答文本转换为应答语音，并通过扬声器播放。由此，能够在连续对话场景中实现单通道语音输入，从而提高连续对话的成功率和稳定性，进而提高用户体验。

本公开附加的方面和优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本公开的实践了解到。

附图说明

本公开上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解，其中：

图1为本公开实施例所提供的一种语音对话方法的流程示意图；

图2为本公开实施例所提供的另一种语音对话方法的流程示意图；

图3为本公开实施例所提供的另一种语音对话方法的流程示意图；

图4为本公开实施例所提供的另一种语音对话方法的流程示意图；

图5为本公开实施例所提供的一种语音对话装置的结构示意图；

图6为本公开实施例所提供的另一种语音对话装置的结构示意图；以及

图7为根据本公开一个实施例的电子设备的结构示意图。

具体实施方式

这里将详细地对示例性实施例进行说明，其示例表示在附图中。下面的描述涉及附图时，除非另有表示，不同附图中的相同数字表示相同或相似的要素。以下示例性实施例中所描述的实施方式并不代表与本公开实施例相一致的所有实施方式。相反，它们仅是与如所附权利要求书中所详述的、本公开实施例的一些方面相一致的装置和方法的例子。

在本公开实施例使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本公开实施例。在本公开实施例和所附权利要求书中所使用的单数形式的“一种”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本公开实施例可能采用术语第一、第二、第三等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本公开实施例范围的情况下，第一信息也可以被称为第二信息，类似地，第二信息也可以被称为第一信息。取决于语境，如在此所使用的词语“如果”及“若”可以被解释成为“在……时”或“当……时”或“响应于确定”。

下面详细描述本公开的实施例，所述实施例的示例在附图中示出，其中自始至终相同或类似的标号表示相同或类似的要素。下面通过参考附图描述的实施例是示例性的，旨在用于解释本公开，而不能理解为对本公开的限制。

下面参照附图描述本公开实施例的语音对话方法、装置、电子设备及存储介质。

本公开实施例提供的语音对话方法，可以由电子设备来执行，该电子设备可为智能音箱、智能电视、手机、平板电脑、掌上电脑或服务器等，此处不做任何限定。

在本公开实施例中，电子设备中可以设置有处理组件、存储组件和驱动组件。可选的，该驱动组件和处理组件可以集成设置，该存储组件可以存储操作系统、应用程序或其他程序模块，该处理组件通过执行存储组件中存储的应用程序来实现本公开实施例提供的语音对话方法。

图1为本公开实施例所提供的一种语音对话方法的流程示意图。

本公开实施例的语音对话方法，还可由本公开实施例提供的语音对话装置执行，该装置可配置于电子设备中，以实现响应于检测到语音对话激活事件，通过目标通道获取用户语音信息，并向服务器发送用户语音信息，以及接收服务器反馈的用户语音信息对应的应答结果，若应答结果中包括通道切换指令，则根据通道切换指令将目标通道切换为自适应波束形成MVDR对应的语音通道，然后将应答结果中的应答文本转换为应答语音，并通过扬声器播放，从而提高连续对话的成功率和稳定性，进而提高用户体验。

作为一种可能的情况，本公开实施例的语音对话方法还可以在语音设备执行，该语音设备可为智能音箱，可以在智能音箱执行该语音对话方法。

如图1所示，该语音对话方法，可包括：

步骤101，响应于检测到语音对话激活事件，通过目标通道获取用户语音信息。

在本公开实施例中，电子设备可通过相关的API(Application ProgrammingInterface，应用程序接口)实时检测语音对话激活事件，以使电子设备在检测到语音对话激活事件时，能够及时响应于该语音对话激活事件进行相关的操作。

具体地，电子设备可通过相关的API实时检测语音对话激活事件，并在确定检测到该语音对话激活事件时，响应于检测到该语音对话激活事件，通过目标通道获取用户语音信息。

需要说明的是，若电子设备检测到该实施例中所描述的语音对话激活事件，则说明此时用户想要和电子设备进行对话，此时，可激活(唤醒)该电子设备(即，电子设备的语音对话功能被激活)，并通过上述的目标通道获取用户语音信息，若电子设备没有检测到该实施例中所描述的语音对话激活事件，则说用此时用户没有和电子设备进行对话的需求，此时，可控制该电子设备继续保持休眠状态。其中，电子设备在通电后可默认处于休眠状态。

为了清楚说明上一实施例，在本公开的一个实施例中，如图2所示，该语音对话方法还包括：

步骤201，接收多个麦克风所采集的语音信息。

在本公开实施例中，电子设备可通过内置的多个麦克风采集语音信息，其中，采集的语音信息中可包括环境噪音。应说明的是，该实施例中所描述的语音信息可为多个。

步骤202，通过盲源分离对语音信息进行处理，以生成两路单通道语音数据，其中，两路单通道语音数据分别为第一语音数据和第二语音数据。

需要说明的是，该实施例中所描述的通过盲源分离对语音信息进行处理，可为通过盲源分离算法对语音信息进行处理，其中，该盲源分离算法可根据实际情况进行标定，且该盲源分离算法可预设在电子设备的存储空间中，以便于调取使用。其中，该存储空间不局限于基于实体的存储空间，例如，硬盘，该存储空间还可以是连接电子设备的网络硬盘的存储空间(云存储空间)。

具体地，电子设备在接收到上述的语音信息后，可根据从自身的存储空间中调出盲源分离算法，并根据该盲源分离算法对语音信息进行处理，以将该语音信息中的人声和环境噪音进行分离，从而输出两路单通道语音数据(即，人声数据和环境噪音数据)。

作为一种可能的情况，上述实施例中所描述的通过盲源分离对语音信息进行处理，可为通过盲源分离模型对语音信息进行处理。应说明的是，该实施例中描述的盲源分离模型可以是提前训练好的，并将其预存在电子设备的存储空间中，以方便调取应用。

其中，该盲源分离模型的训练与生成均可由相关的训练服务器执行，该训练服务器可以是云端服务器，也可以是一台电脑的主机，该训练服务器与可执行本公开实施例提供的语音对话方法的电子设备之间，建立有通信连接，该通信连接可以是无线网络连接和有线网络连接的至少一种。该训练服务器可将训练完成的盲源分离模型发送给该电子设备，以便该电子设备在需要时调用，从而大大减少该电子设备的计算压力。

具体地，电子设备在接收到语音信息之后，可从自身的存储空间中调出盲源分离模型，并将该语音信息输入至该盲源分离模型，从而通过该盲源分离模型处理该语音信息，以得到该盲源分离模型输出的两路单通道语音数据。

作为另一种可能的情况，电子设备还可使用盲源分离工具(例如，插件)，对语音信息进行处理，以生成两路单通道语音数据。

步骤203，若第一语音数据满足激活条件，或者第二语音数据满足激活条件，则确定检测到语音对话激活事件，其中，激活条件包括激活关键词。

在本公开实施例中，电子设备可实时检测上述两路单通道语音数据，即，第一语音数据和第二语音数据，以判断两路单通道语音数据是否满足激活条件，若第一语音数据满足激活条件，或者第二语音数据满足激活条件，则确定检测到语音对话激活事件，电子设备被激活(即，电子设备的语音对话功能被激活)；若第一语音数据和第二语音均不满足激活条件，则确定未检测到语音对话激活事件，电子设备保持休眠。

具体地，电子设备在得到第一语音数据和第二语音数据之后，可通过ASR(Automatic Speech Recognition,自动语音识别技术)分别将该第一语音数据和第二语音数据转换为第一文本数据和第二文本数据。然后电子设备可分别对该第一文本数据和第二文本数据进行检测，以判断该第一文本数据和第二文本数据中是否包含激活关键词，若检测到该第一文本数据或第二文本数据中包含激活关键词，则说明第一语音数据满足激活条件，或者第二语音数据满足激活条件，此时可确定检测到语音对话激活事件。

需要说明的是，该实施例中所描述的激活关键词可预设在电子设备的储存空间中，以便于与上述文本数据进行对比时调出使用，判断文本数据中是否存在该激活关键词。

举例而言，假设电子设备为智能音响，激活关键词为“XX同学”，则在该智能音响上电后，当接收到的语音数据(例如，“你好，XX同学”、“开启，XX同学”、“XX同学”等)中包含该激活关键词时，该智能音响可确定检测到了语音对话激活事件，进行后续的激活(唤醒)操作。

需要说明的是，上述实施例中所描述的激活关键词可由智能音响的生产厂商在出厂时设置的，另外，该智能音响还可提供激活关键词设置功能，用户根据该激活关键词设置功能进行激活关键词的设定，此处不做任何限定。

进一步地，在本公开的一个实施例中，该语音对话方法还可包括若第一语音数据满足激活条件，则将第一语音数据对应的单通道作为目标通道；若第二语音数据满足激活条件，则将第二语音数据对应的单通道作为目标通道。

在本公开实施例中，若判断第一语音数据满足激活条件，则可说明第一语音数据为人声数据，第二语音数据为环境噪音数据，则电子设备可将第一语音数据对应的单通道作为目标通道，同时关闭第二语音数据对应的单通道，以完成本次的激活(唤醒)操作。若判断第二语音数据满足激活条件，则可说明第二语音数据为人声数据，第二语音数据为环境噪音数据，则电子设备可将第二语音对应的单通道作为目标通道，同时关闭第一语音数据对应单通道，以完成本次的激活(唤醒)操作。

步骤102，向服务器发送用户语音信息。其中，该服务器可为云端服务器。

具体地，在电子设备被激活(唤醒)之后，可通过上述的目标通道实时获取用户语音信息，并将该用户语音信息发送至相关的服务器。

作为一种可能的情况，电子设备在通过上述的目标通道实时获取用户语音信息之后，可先将该用户语音信息转换为用户文本信息，并将该用户文本信息发送至相关的服务器。

在本公开实施例中，服务器可接收电子设备发送的用户语音信息，并根据用户语音信息生成应答文本，若用户语音信息满足连续对话条件，则生成通道切换指令，并根据应答文本和通道切换指令生成应答结果，以及将应答结果发送至电子设备。其中，连续对话条件可根据实际情况进行标定。

其中，服务器可将用户语音信息转换为用户文本信息，若用户文本信息中包括连续对话关键词，则确定用户语音信息满足连续对话条件；若用户文本信息中不包括连续对话关键词，则对用户文本信息进行语义分析，以生成分析结果；若根据分析结果确定用户有连续对话意图，则确定用户语音信息满足连续对话条件；若根据分析结果确定用户未有连续对话意图，则确定用户语音信息不满足连续对话条件。其中，连续对话关键词可根据实际情况进行标定，例如，该连续对话关键词可为“聊天”、“唠嗑”等。

具体地，服务器可在接收到电子设备发送的用户语音信息之后，可先通过ASR将该用户语音信息转换为用户文本信息，并对该用户文本信息进行解析，以及根据解析的结果进行相关的搜索，以获取与该用户文本信息对应的应答文本。例如，用户文本信息为：“今日天气如何”，则对应的应答文本可为：“今日多云，气温在25-35℃之间，南风3-4级”。

进一步地，服务器可在生成上述的应答文本之后，判断该用户语音信息是否满足连续对话条件，即判断上述的用户文本信息是否满足该连续对话条件。其中，服务器可先检测上述的用户文本信息中是否包含(存在)连续对话关键词，若是，则说明用户想要进行连续对话，此时可确定用户语音信息满足连续对话条件；若否，则说明该用户文本信息中未包含该连续对话关键词，此时可对该用户文本信息进行语义分析，以生成分析结果，并进一步根据该分析结果判断用户是否有连续对话意图，若是，则说明用户想要进行连续对话，此时可确定用户语音信息满足连续对话条件；若否，则说明用户没有想要进入连续对话的意图，此时可确定用户语音信息不满足连续对话条件。

更进一步地，服务器在确定用户语音信息满足连续对话条件之后，可生成相应的通道切换指令，并根据上述的应答文本和该通道切换指令生成应答结果，以及将该应答结果发送至电子设备。

需要说明的是，该实施例中所描述的连续对话关键词可预存在服务器的储存空间中，以便于与上述用户文本信息进行比对时，调出使用。另外，服务器可通过语义分析模型对用户文本信息进行语义分析，以生成分析结果，其中，该语义分析模型可以是提前训练好的，并将其预存在服务器的存储空间中，以方便调取应用，且该语义分析模型可以是基于NLP(Natural Language Processing，自然语言处理)模型训练的。

举例而言，当上述的用户文本信息中存在，例如“聊天”、“唠嗑”等连续对话关键词，或者存在例如“想和你说会话”、“我很无聊”等可表达用户想要进行连续对话的语义文本时，服务器可确定用户语音信息满足连续对话条件，并生成通道切换指令，以指示电子设备进入多轮对话模式(即，连续对话模型)。

需要说明的是，该实施例中所描述的多轮对话模式是一种能够进行连续对话，且每次对话无需唤醒电子设备的模式。

步骤103，接收服务器反馈的用户语音信息对应的应答结果。

步骤104，若应答结果中包括通道切换指令，则根据通道切换指令将目标通道切换为自适应波束形成MVDR对应的语音通道。

具体地，电子设备在接收到上述的应答结果后，可先对该应答结果进行解析，以判断该应答结果中是否包括通道切换指令，若应答结果中包括该通道切换指令，则从该应答结果中的提取该通道切换指令，并根据通道切换指令将目标通道切换为自适应波束形成MVDR对应的语音通道，从而使电子设备进入多轮对话模式。若应答结果中不包括任何指令，则语音通道不进行切换。

需要说明的是，该实施例中所描述的自适应波束形成MVDR只有一路语音通道，即输出只有一路增强的信号，可避免在多轮对话模式下的由于单一的盲源分离算法导致的通道选择问题，用户与语音设备交互成功率更高，用户体验更好。在将上述的目标通道切换为自适应波束形成MVDR对应的语音通道之后，服务器可通过自适应波束形成MVDR算法滤除语音信息中的噪音干扰，保留人声。其中，该自适应波束形成MVDR算法可预设在电子设备的存储空间中，以便于调取使用。

步骤105，将应答结果中的应答文本转换为应答语音，并通过扬声器播放。

在本公开实施例中，电子设备在对应答结果进行解析时，可获取到该应答结果中的应答文本。

为了清楚说明上一实施例，在本公开的一个实施例中，如图3所示，将应答结果中的应答文本转换为应答语音，并通过扬声器播放，可包括：

步骤301，获取语音转换模型。

需要说明的是，该实施例中所描述的语音转换模型可以是提前训练好的，并将其预存在电子设备的存储空间中，以方便调取应用。

步骤302，将应答文本输入至语音转换模型。

步骤303，通过语音转换模型对应答文本进行语音转换，以生成应答语音，并通过扬声器播放应答语音。

具体地，电子设备在获取到上述应答结果中的应答文本之后，可从自身的存储空间中调出语音转换模型，并将该应答文本输入至该语音转换模型，从而通过该语音转换模型对该应答文本进行语音转换，以得到该语音转换模型输出的应答语音，并通过内置于电子设备中的扬声器播放该应答语音，从而完成本轮对话。

作为一种可能的情况，电子设备还可通过预设的语音转换算法将应答文本转换成应答语音，并通过内置于电子设备中的扬声器播放应答语音。其中，预设的语音转换算法可根据实际情况进行标定。

由此，本公开实施例提供的语音对话方法可至少带来以下有益效果：

①、能够在多轮对话场景中实现单通道语音输入，避免语音通道的选择，从而提高多轮对话的稳定性。

②、在对电子设备进行唤醒时，能够实现将语音中的噪声和人声分离，并准确识别人声，唤醒电子设备，提高唤醒的准确性。

③、能够在进行多轮对话时，消除噪音干扰，提高语音的识别率。

④、能够让人机对话更加稳定、准确、顺畅，使得具有语音功能的电子设备拥有更好的体验。

进一步地，在本公开的一个实施例中，该语音对话方法还包括：若预设时间内通过语音通道未获取到语音信息，则将语音通道切换为目标通道。

在本公开实施例中，在目标通道切换为自适应波束形成MVDR对应的语音通道后，即，进入多轮对话模式后，若电子设备在预设时间内通过语音通道未获取到语音信息，则将语音通道切换为目标通道，即，退出多轮对话模式。应说明的是，该实施例中所描述的预设时间可根据实际情况和需求进行标定。

具体地，电子设备在将目标通道切换为自适应波束形成MVDR对应的语音通道之后(即，进入多轮对话模式之后)，可通过自适应波束形成MVDR对应的语音通道接收(获取)语音信息，以进行电子设备的对话操作，但若预设时间内通过语音通道未接收到语音信息，则可表明用户离开或用户不想继续对话，此时电子设备可退出多轮对话模式，并将语音通道切换为目标通道。

作为一种可能的情况，电子设备在将语音通道切换为目标通道之后，可直接控制电子设备进入休眠模式。

作为另一种可能的情况，电子设备在将语音通道切换为目标通道之后，若一定时间后电子设备也未通过目标通道接收(获取)到语音信息，则可控制电子设备进入休眠模式。

在本公开的另一个实施例中，该语音对话方法还可包括若应答结果中包括退出指令，则根据退出指令将语音通道切换为目标通道。

具体地，电子设备在接收到上述的应答结果后，可先对该应答结果进行解析，以判断该应答结果中是否包括退出指令或通道切换指令，若应答结果中包括该退出指令，则从该应答结果中的提取该退出指令，并根据该退出指令将语音通道切换为目标通道，从而使电子设备退出多轮对话模式。若应答结果中不包括任何指令，则语音通道不进行切换。应说明的是，该实施例中所描述的应答结果中不会出现同时包括退出指令和通道切换指令的情况。

作为一种可能的情况，当上述的应答结果中包括退出指令时，若判断电子设备当前是通过目标通道获取用户语音信息，可不做任何操作。

为了清楚说明上一实施例，在本公开实施例中，服务器可接收电子设备发送的用户语音信息，并根据用户语音信息生成应答文本，若用户语音信息满足退出连续对话条件，则生成退出指令，并根据应答文本和退出指令生成应答结果。

其中，服务器可将用户语音信息转换为用户文本信息，若用户文本信息中包括退出连续对话关键词，则确定用户语音信息满足退出连续对话条件；若用户文本信息中不包括退出连续对话关键词，则对用户文本信息进行语义分析，以生成分析结果；若根据分析结果确定用户有退出连续对话意图，则确定用户语音信息满足退出连续对话条件；若根据分析结果确定用户未有退出连续对话意图，则确定用户语音信息不满足退出连续对话条件。其中，退出连续对话关键词可根据实际情况进行标定，例如，该连续对话关键词可为“退出”、“聊到这里了”等。

进一步地，服务器可在生成上述的应答文本之后，判断该用户语音信息是否满足退出连续对话条件，即判断上述的用户文本信息是否满足该退出连续对话条件。其中，服务器可先检测上述的用户文本信息中是否包含(存在)退出连续对话关键词，若是，则说明用户想要退出连续对话，此时可确定用户语音信息满足退出连续对话条件；若否，则说明该用户文本信息中未包含该退出连续对话关键词，此时可对该用户文本信息进行语义分析，以生成分析结果，并进一步根据该分析结果判断用户是否有退出连续对话意图，若是，则说明用户想要退出连续对话，此时可确定用户语音信息满足退出连续对话条件；若否，则说明用户没有想要退出连续对话的意图，此时可确定用户语音信息不满足退出连续对话条件。

更进一步地，服务器在确定用户语音信息满足退出连续对话条件之后，可生成相应的退出指令，并根据上述的应答文本和该退出指令生成应答结果，以及将该应答结果发送至电子设备。

需要说明的是，该实施例中所描述的退出连续对话关键词可预存在服务器的储存空间中，以便于与上述用户文本信息进行比对时，调出使用。

举例而言，当上述文本信息中存在，例如“退出”、“再见”、“不聊了”等退出连续对话的关键词，或者存在例如“我要休息了”、“明天再聊”等可表达用户想要退出连续对话的语义文本时，服务器可确定用户语音信息满足退出连续对话条件，并生成退出指令，以指示电子设备退出多轮对话模式(即，连续对话模型)。

根据本公开实施例的语音对话方法，首先响应于检测到语音对话激活事件，通过目标通道获取用户语音信息，并向服务器发送用户语音信息，以及接收服务器反馈的用户语音信息对应的应答结果，若应答结果中包括通道切换指令，则根据通道切换指令将目标通道切换为自适应波束形成MVDR对应的语音通道，而后将应答结果中的应答文本转换为应答语音，并通过扬声器播放。由此，能够在连续对话场景中实现单通道语音输入，从而提高连续对话的成功率和稳定性，进而提高用户体验。

综上，为使本领域技术人员更清晰地理解本公开实施例的语音对话方法，提供以下两种实例场景。

本公开实施例的语音对话方法的场景实例一如下：

用户：xxx。(激活关键词)

电子设备：我在。(被激活(唤醒)并应答)

用户：现在几点？

电子设备：上午五点。(不进入多轮对话模式，应答后若长时间未接收到语音信息，进入休眠状态)

用户：你好，xxx。(包括激活关键词)

电子设备：在的。(再次被激活并应答，若长时间未接收到语音信息，进入休眠状态)

……

本公开实施例的语音对话方法的场景实例二如下：

用户：xxx(激活关键词)

电子设备：在呢。(被激活(唤醒)并应答)

用户：陪我聊聊天。(用户有连续对话意图)

电子设备：好的，我们开始聊天吧。(应答，并进入多轮对话模式)

用户：xxxxx

电子设备：xxxxx

……

用户：退出。(退出关键词)

电子设备：好的，已退出。(应答，并退出多轮对话模式)

……

图4为本公开实施例所提供的另一种语音对话方法的流程是示意图。

本公开实施例的语音对话方法，还可由本公开实施例提供的语音对话装置执行，该装置可配置于服务器中，以实现接收电子设备发送的用户语音信息，并根据用户语音信息生成应答文本，若用户语音信息满足连续对话条件，则生成通道切换指令，并根据应答文本和通道切换指令生成应答结果，以及将应答结果发送至电子设备，从而提高连续对话的成功率和稳定性，进而提高用户体验。

作为一种可能的情况，本公开实施例的语音对话方法还可以在服务器执行，该服务器可以为云端服务器，可以在云端服务器执行该语音对话方法。

如图4所示，该语音对话方法，可包括：

步骤401，接收电子设备发送的用户语音信息。

步骤402，根据用户语音信息生成应答文本。

步骤403，若用户语音信息满足连续对话条件，则生成通道切换指令，并根据应答文本和通道切换指令生成应答结果。

步骤404，将应答结果发送至电子设备。

在本公开的一个实施例中，该语音对话方法还包括：将用户语音信息转换为用户文本信息；若用户文本信息中包括连续对话关键词，则确定用户语音信息满足连续对话条件；若用户文本信息中不包括连续对话关键词，则对用户文本信息进行语义分析，以生成分析结果；若根据分析结果确定用户有连续对话意图，则确定用户语音信息满足连续对话条件；若根据分析结果确定用户未有连续对话意图，则确定用户语音信息不满足连续对话条件。

在本公开的一个实施例中，该语音对话方法还包括：若用户语音信息满足退出连续对话条件，则生成退出指令，并根据应答文本和退出指令生成应答结果。

在本公开的一个实施例中，该语音对话方法还包括：将用户语音信息转换为用户文本信息；若用户文本信息中包括退出连续对话关键词，则确定用户语音信息满足退出连续对话条件；若用户文本信息中不包括退出连续对话关键词，则对用户文本信息进行语义分析，以生成分析结果；若根据分析结果确定用户有退出连续对话意图，则确定用户语音信息满足退出连续对话条件；若根据分析结果确定用户未有退出连续对话意图，则确定用户语音信息不满足退出连续对话条件。

需要说明的是，前述图1至图3对语音对话方法实施例的解释说明也适用于该实施例的语音对话方法，此处不再赘述。

根据本公开实施例提供的语音对话方法，首先接收电子设备发送的用户语音信息，并根据用户语音信息生成应答文本，若用户语音信息满足连续对话条件，则生成通道切换指令，并根据应答文本和通道切换指令生成应答结果，以及将应答结果发送至电子设备，由此，能够在连续对话场景中实现单通道语音输入，从而提高连续对话的成功率和稳定性，进而提高用户体验。

图5为本公开实施例所提供的一种语音对话装置的结构示意图。

本公开实施例的语音对话装置，可配置于电子设备中，以实现可响应于检测到语音对话激活事件，通过目标通道获取用户语音信息，并向服务器发送用户语音信息，以及接收服务器反馈的用户语音信息对应的应答结果，若应答结果中包括通道切换指令，则根据通道切换指令将目标通道切换为自适应波束形成MVDR对应的语音通道，然后将应答结果中的应答文本转换为应答语音，并通过扬声器播放，从而提高连续对话的成功率和稳定性，进而提高用户体验。

如图5所示，该语音对话装置500，可包括：获取模块510、发送模块520、接收模块530、第一切换模块540和播放模块550。

其中，获取模块510用于响应于检测到语音对话激活事件，通过目标通道获取用户语音信息。

发送模块520，用于向服务器发送用户语音信息。

接收模块530，用于接收服务器反馈的用户语音信息对应的应答结果。

第一切换模块540，用于若应答结果中包括通道切换指令，则根据通道切换指令将目标通道切换为自适应波束形成MVDR对应的语音通道。

播放模块550，用于将应答结果中的应答文本转换为应答语音，并通过扬声器播放。

在本公开的一个实施例中，播放模块550，具体用于：获取语音转换模型；将应答文本输入至语音转换模型；通过语音转换模型对应答文本进行语音转换，以生成应答语音，并通过扬声器播放应答语音。

在本公开的一个实施例中，获取模块510，用于：接收多个麦克风所采集的语音信息；通过盲源分离对语音信息进行处理，以生成两路单通道语音数据，其中，两路单通道语音数据分别为第一语音数据和第二语音数据；若第一语音数据满足激活条件，或者第二语音数据满足激活条件，则确定检测到语音对话激活事件，其中，激活条件包括激活关键词。

在本公开的一个实施例中，获取模块520，还用于：若第一语音数据满足激活条件，则将第一语音数据对应的单通道作为目标通道；若第二语音数据满足激活条件，则将第二语音数据对应的单通道作为目标通道。

在本公开的一个实施例中，该语音对话装置还包括：第二切换模块，用于若预设时间内通过语音通道未获取到语音信息，则将语音通道切换为目标通道。

在本公开的一个实施例中，该语音对话装置还包括：第三切换模块，用于若应答结果中包括退出指令，则根据退出指令将语音通道切换为目标通道。

需要说明的是，前述图1至图3对语音对话方法实施例的解释说明也适用于该实施例的语音对话装置，此处不再赘述。

本公开实施例提供的语音对话装置，首先通过模块响应于检测到语音对话激活事件，通过目标通道获取用户语音信息，并通过发送模块向服务器发送用户语音信息，而后通过接收模块接收服务器反馈的用户语音信息对应的应答结果，若应答结果中包括通道切换指令，则通过第一切换模块根据通道切换指令将目标通道切换为自适应波束形成MVDR对应的语音通道，最后通过播放模块将应答结果中的应答文本转换为应答语音，并通过扬声器播放。由此，能够在连续对话场景中实现单通道语音输入，从而提高连续对话的成功率和稳定性，进而提高用户体验。

图6为本公开实施例所提供的另一种语音对话装置的结构示意图。

本公开实施例的语音对话装置，可配置于电子设备中，以实现接收电子设备发送的用户语音信息，并根据用户语音信息生成应答文本，若用户语音信息满足连续对话条件，则生成通道切换指令，并根据应答文本和通道切换指令生成应答结果，以及将应答结果发送至电子设备，从而提高连续对话的成功率和稳定性，进而提高用户体验。

如图6所示，该语音对话装置600，可包括：接收模块610、第一生成模块620、第二生成模块630和发送模块640。

其中，接收模块610，用于接收电子设备发送的用户语音信息。

第一生成模块620，用于根据用户语音信息生成应答文本。

第二生成模块630，用于若用户语音信息满足连续对话条件，则生成通道切换指令，并根据应答文本和通道切换指令生成应答结果。

发送模块640，用于将应答结果发送至电子设备。

在本公开的一个实施例中，第二生成模块630，用于：将用户语音信息转换为用户文本信息；若用户文本信息中包括连续对话关键词，则确定用户语音信息满足连续对话条件；若用户文本信息中不包括连续对话关键词，则对用户文本信息进行语义分析，以生成分析结果；若根据分析结果确定用户有连续对话意图，则确定用户语音信息满足连续对话条件；若根据分析结果确定用户未有连续对话意图，则确定用户语音信息不满足连续对话条件。

在本公开的一个实施例中，该语音对话装置，还包括：第三生成模块，用于若用户语音信息满足退出连续对话条件，则生成退出指令，并根据应答文本和退出指令生成应答结果。

在本公开的一个实施例中，第三生成模块，用于：将用户语音信息转换为用户文本信息；若用户文本信息中包括退出连续对话关键词，则确定用户语音信息满足退出连续对话条件；若用户文本信息中不包括退出连续对话关键词，则对用户文本信息进行语义分析，以生成分析结果；若根据分析结果确定用户有退出连续对话意图，则确定用户语音信息满足退出连续对话条件；若根据分析结果确定用户未有退出连续对话意图，则确定用户语音信息不满足退出连续对话条件。

需要说明的是，前述图1至图3对语音对话方法实施例的解释说明也适用于该实施例的语音对话装置，此处不再赘述。

本公开实施例的语音对话装置，首先通过接收模块接收电子设备发送的用户语音信息，并通过第一生成模块根据用户语音信息生成应答文本，若用户语音信息满足连续对话条件，则通过第二生成模块生成通道切换指令，并根据应答文本和通道切换指令生成应答结果，而后通过发送模块将应答结果发送至电子设备。由此，能够在连续对话场景中实现单通道语音输入，从而提高连续对话的成功率和稳定性，进而提高用户体验。

根据本公开实施例的第五方面，还提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器，其中，所述处理器被配置为执行所述指令，以实现如上所述的语音对话方法。

为了实现上述实施例，本公开还提出了一种存储介质。

其中，当存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如上所述的语音对话方法。

为了实现上述实施例，本公开还提供一种计算机程序产品。

其中，该计算机程序产品由电子设备的处理器执行时，使得电子设备能够执行如上所述的方法。

图7根据一示例性实施例示出的一种电子设备框图。图7出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

如图7示，电子设备1000包括处理器111，其可以根据存储在只读存储器(ROM，ReadOnly Memory)112中的程序或者从存储器116加载到随机访问存储器(RAM，Random AccessMemory)113中的程序而执行各种适当的动作和处理。在RAM 113中，还存储有电子设备1000操作所需的各种程序和数据。处理器111、ROM 112以及RAM 113通过总线114彼此相连。输入/输出(I/O，Input/Output)接口115也连接至总线114。

以下部件连接至I/O接口115：包括硬盘等的存储器116；以及包括诸如LAN(局域网，Local Area Network)卡、调制解调器等的网络接口卡的通信部分117，通信部分117经由诸如因特网的网络执行通信处理；驱动器118也根据需要连接至I/O接口115。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分117从网络上被下载和安装。在该计算机程序被处理器111执行时，执行本公开的方法中限定的上述功能。

在示例性实施例中，还提供了一种包括指令的存储介质，例如包括指令的存储器，上述指令可由电子设备1000的处理器111执行以完成上述方法。可选地，存储介质可以是非临时性计算机可读存储介质，例如，所述非临时性计算机可读存储介质可以是ROM、随机存取存储器(RAM)、CD-ROM、磁带、软盘和光数据存储设备等。

在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

本公开的实施例提供的技术方案至少带来以下有益效果：

在本公开实施例之中，通过响应于检测到语音对话激活事件，通过目标通道获取用户语音信息，并向服务器发送用户语音信息，以及接收服务器反馈的用户语音信息对应的应答结果，若应答结果中包括通道切换指令，则根据通道切换指令将目标通道切换为自适应波束形成MVDR对应的语音通道，而后将应答结果中的应答文本转换为应答语音，并通过扬声器播放。由此，能够在连续对话场景中实现单通道语音输入，从而提高连续对话的成功率和稳定性，进而提高用户体验。

本领域技术人员在考虑说明书及实践这里公开的发明后，将容易想到本发明的其它实施方案。本公开旨在涵盖本发明的任何变型、用途或者适应性变化，这些变型、用途或者适应性变化遵循本发明的一般性原理并包括本公开未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的，本公开的真正范围和精神由下面的权利要求指出。

应当理解的是，本公开并不局限于上面已经描述并在附图中示出的精确结构，并且可以在不脱离其范围进行各种修改和改变。本公开的范围仅由所附的权利要求来限制。

24页详细技术资料下载

语音对话方法、装置、电子设备及存储介质

相关技术

网友询问留言