语音合成方法、装置、设备及可读存储介质

文档序号：193304 发布日期：2021-11-02 浏览：37次 >En<

阅读说明：本技术 语音合成方法、装置、设备及可读存储介质 (Speech synthesis method, device, equipment and readable storage medium ) 是由谢慧智于 2021-07-29 设计创作，主要内容包括：本申请公开了一种语音合成方法、装置、设备及可读存储介质,属于人工智能技术领域。方法包括：获取第一对象的会话数据；根据第一对象的会话数据确定第二对象的情绪信息；从文本数据库中查找与第一对象的会话数据相匹配的文本数据；根据文本数据和第二对象的情绪信息合成第二对象的语音数据,基于第二对象的语音数据对第一对象的会话数据进行回复。由于第二对象的语音数据中包含第二对象的情绪信息,增强了语音数据的表现力,提高了智能机器人的服务质量。(The application discloses a voice synthesis method, a voice synthesis device, voice synthesis equipment and a readable storage medium, and belongs to the technical field of artificial intelligence. The method comprises the following steps: acquiring session data of a first object; determining emotion information of a second object according to session data of the first object; searching text data matched with the conversation data of the first object from a text database; and synthesizing voice data of the second object according to the text data and the emotion information of the second object, and replying to the conversation data of the first object based on the voice data of the second object. Because the voice data of the second object contains the emotion information of the second object, the expressive force of the voice data is enhanced, and the service quality of the intelligent robot is improved.)

语音合成方法、装置、设备及可读存储介质

技术领域

本申请实施例涉及人工智能技术领域，特别涉及一种语音合成方法、装置、设备及可读存储介质。

背景技术

随着人工智能技术的快速发展，越来越多的行业通过智能机器人，为用户提供实时、自动、便捷的问答服务。

相关技术中，智能机器人在为用户提供问答服务时，先获取第一对象(用户)的对话数据，再从文本库中查询与第一对象的对话数据匹配的文本数据，将查询到的文本数据转换为语音数据，将该语音数据作为第一对象的对话数据的回复内容，即第二对象(智能机器人)的对话数据。由于仅是将文本数据转化为语音数据，使得第二对象的对话数据的表现力差，从而降低了智能机器人的服务质量。

发明内容

本申请实施例提供了一种语音合成方法、装置、设备及可读存储介质，可用于解决相关技术中的问题，所述技术方案包括如下内容。

一方面，本申请实施例提供了一种语音合成方法，所述方法包括：

获取第一对象的会话数据；

根据所述第一对象的会话数据确定第二对象的情绪信息；

从文本数据库中查找与所述第一对象的会话数据相匹配的文本数据；

根据所述文本数据和所述第二对象的情绪信息合成所述第二对象的语音数据，基于所述第二对象的语音数据对所述第一对象的会话数据进行回复。

在一种可能的实现方式中，所述根据所述第一对象的会话数据确定第二对象的情绪信息，包括：

根据所述第一对象的会话数据获取所述第一对象的情绪信息；

根据所述第一对象的情绪信息生成所述第二对象的情绪信息。

在一种可能的实现方式中，所述根据所述第一对象的会话数据获取所述第一对象的情绪信息，包括：

获取所述第一对象的会话数据的上下文数据；

根据所述第一对象的会话数据和所述上下文数据，获取所述第一对象的情绪信息。

在一种可能的实现方式中，所述根据所述第一对象的会话数据获取所述第一对象的情绪信息，包括：

将所述第一对象的会话数据输入至情绪分类模型，由所述情绪分类模型输出所述第一对象的情绪信息。

在一种可能的实现方式中，所述将所述第一对象的会话数据输入至情绪分类模型之前，还包括：

获取多个第一样本对象数据，所述第一样本对象数据包括带有情绪标签的第一会话数据，所述第一会话数据是第一样本对象的会话数据；

根据各个第一会话数据确定所述各个第一会话数据对应的情绪信息；

根据所述各个第一会话数据对应的情绪信息，确定所述各个第一会话数据对应的情绪分类结果；

根据所述各个第一会话数据对应的情绪分类结果和情绪标签，获取所述情绪分类模型。

在一种可能的实现方式中，所述根据所述第一对象的情绪信息生成所述第二对象的情绪信息，包括：

将所述第一对象的情绪信息输入至情绪生成模型，由所述情绪生成模型输出所述第二对象的情绪信息。

在一种可能的实现方式中，所述将所述第一对象的情绪信息输入至情绪生成模型之前，还包括：

获取多个第二会话数据对应的情绪标签，所述第二会话数据是所述第一会话数据对应的第二样本对象的会话数据；

根据所述各个第一会话数据对应的情绪信息，生成各个所述第二会话数据对应的情绪信息；

根据所述各个第二会话数据对应的情绪信息，确定所述各个第二会话数据对应的情绪分类结果；

根据所述各个第二会话数据对应的情绪分类结果和情绪标签，获取所述情绪生成模型。

在一种可能的实现方式中，所述根据所述文本数据和所述第二对象的情绪信息合成所述第二对象的语音数据，包括：

将所述文本数据与所述第二对象的情绪信息进行拼接，得到第一信息；

根据所述第一信息生成所述第二对象的第一频谱信息；

根据所述第二对象的第一频谱信息生成所述第二对象的语音数据。

在一种可能的实现方式中，所述根据所述文本数据和所述第二对象的情绪信息合成所述第二对象的语音数据，包括：

根据所述文本数据生成所述第二对象的第二频谱信息；

将所述第二对象的第二频谱信息与所述第二对象的情绪信息进行拼接，得到第二信息；

根据所述第二信息生成所述第二对象的语音数据。

在一种可能的实现方式中，所述根据所述文本数据和所述第二对象的情绪信息合成所述第二对象的语音数据，包括：

将所述文本数据与所述第二对象的情绪信息进行拼接，得到第一信息；

根据所述第一信息生成所述第二对象的第一频谱信息；

将所述第二对象的第一频谱信息与所述第二对象的情绪信息进行拼接，得到第三信息；

根据所述第三信息生成所述第二对象的语音数据。

另一方面，本申请实施例提供了一种语音合成装置，所述装置包括：

获取模块，用于获取第一对象的会话数据；

确定模块，用于根据所述第一对象的会话数据确定第二对象的情绪信息；

查找模块，用于从文本数据库中查找与所述第一对象的会话数据相匹配的文本数据；

合成模块，用于根据所述文本数据和所述第二对象的情绪信息合成所述第二对象的语音数据，基于所述第二对象的语音数据对所述第一对象的会话数据进行回复。

在一种可能的实现方式中，所述确定模块，用于根据所述第一对象的会话数据获取所述第一对象的情绪信息；根据所述第一对象的情绪信息生成所述第二对象的情绪信息。

在一种可能的实现方式中，所述确定模块，用于获取所述第一对象的会话数据的上下文数据；根据所述第一对象的会话数据和所述上下文数据，获取所述第一对象的情绪信息。

在一种可能的实现方式中，所述确定模块，用于将所述第一对象的会话数据输入至情绪分类模型，由所述情绪分类模型输出所述第一对象的情绪信息。

在一种可能的实现方式中，所述获取模块，还用于获取多个第一样本对象数据，所述第一样本对象数据包括带有情绪标签的第一会话数据，所述第一会话数据是第一样本对象的会话数据；

所述确定模块，还用于根据各个第一会话数据确定所述各个第一会话数据对应的情绪信息；

所述确定模块，还用于根据所述各个第一会话数据对应的情绪信息，确定所述各个第一会话数据对应的情绪分类结果；

所述获取模块，还用于根据所述各个第一会话数据对应的情绪分类结果和情绪标签，获取所述情绪分类模型。

在一种可能的实现方式中，所述确定模块，用于将所述第一对象的情绪信息输入至情绪生成模型，由所述情绪生成模型输出所述第二对象的情绪信息。

在一种可能的实现方式中，所述获取模块，还用于获取多个第二会话数据对应的情绪标签，所述第二会话数据是所述第一会话数据对应的第二样本对象的会话数据；

所述确定模块，还用于根据所述各个第一会话数据对应的情绪信息，生成各个所述第二会话数据对应的情绪信息；

所述确定模块，还用于根据所述各个第二会话数据对应的情绪信息，确定所述各个第二会话数据对应的情绪分类结果；

所述获取模块，还用于根据所述各个第二会话数据对应的情绪分类结果和情绪标签，获取所述情绪生成模型。

在一种可能的实现方式中，所述合成模块，用于将所述文本数据与所述第二对象的情绪信息进行拼接，得到第一信息；根据所述第一信息生成所述第二对象的第一频谱信息；根据所述第二对象的第一频谱信息生成所述第二对象的语音数据。

在一种可能的实现方式中，所述合成模块，用于根据所述文本数据生成所述第二对象的第二频谱信息；将所述第二对象的第二频谱信息与所述第二对象的情绪信息进行拼接，得到第二信息；根据所述第二信息生成所述第二对象的语音数据。

在一种可能的实现方式中，所述合成模块，用于将所述文本数据与所述第二对象的情绪信息进行拼接，得到第一信息；根据所述第一信息生成所述第二对象的第一频谱信息；将所述第二对象的第一频谱信息与所述第二对象的情绪信息进行拼接，得到第三信息；根据所述第三信息生成所述第二对象的语音数据。

另一方面，本申请实施例提供了一种电子设备，所述电子设备包括处理器和存储器，所述存储器中存储有至少一条程序代码，所述至少一条程序代码由所述处理器加载并执行，以使所述电子设备实现上述任一所述的语音合成方法。

另一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有至少一条程序代码，所述至少一条程序代码由处理器加载并执行，以使计算机实现上述任一所述的语音合成方法。

另一方面，还提供了一种计算机程序或计算机程序产品，所述计算机程序或计算机程序产品中存储有至少一条计算机指令，所述至少一条计算机指令由处理器加载并执行，以使计算机实现上述任一种语音合成方法。

本申请实施例提供的技术方案至少带来如下有益效果：

本申请实施例提供的技术方案是根据文本数据和第二对象的情绪信息合成第二对象的语音数据，基于第二对象的语音数据对第一对象的会话数据进行回复，由于第二对象的语音数据中包含第二对象的情绪信息，增强了语音数据的表现力，提高了智能机器人的服务质量。

附图说明

为了更清楚地说明本申请实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的一种语音合成方法的实施环境示意图；

图2是本申请实施例提供的一种语音合成方法的流程图；

图3是本申请实施例提供的一种训练数据的示意图；

图4是本申请实施例提供的一种情绪分类模型的示意图；

图5是本申请实施例提供的一种情绪生成模型的示意图；

图6是本申请实施例提供的一种语音合成模型的示意图；

图7是本申请实施例提供的一种语音合成装置的结构示意图；

图8是本申请实施例提供的一种终端设备的结构示意图；

图9是本申请实施例提供的一种服务器的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

图1是本申请实施例提供的一种语音合成方法的实施环境示意图，如图1所示该实施环境包括电子设备11，本申请实施例中的语音合成方法可以由电子设备11执行。示例性地，电子设备11可以包括终端设备或者服务器中的至少一项。

终端设备可以是智能手机、游戏主机、台式计算机、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机中的至少一种。

服务器可以为一台服务器，或者为多台服务器组成的服务器集群，或者为云计算平台和虚拟化中心中的任意一种，本申请实施例对此不加以限定。服务器可以与终端设备通过有线网络或无线网络进行通信连接。服务器可以具有数据处理、数据存储以及数据收发等功能，在本申请实施例中不加以限定。

基于上述实施环境，本申请实施例提供了一种语音合成方法，以图2所示的本申请实施例提供的一种语音合成方法的流程图为例，该方法可由图1中的电子设备11执行。如图2所示，该方法包括步骤S21至步骤S24。

步骤S21，获取第一对象的会话数据。

第一对象的会话数据包括但不限于文本数据、图片数据以及语音数据中的至少一项。在第一对象与第二对象进行会话的过程中，任何由第一对象发送的数据均可以作为第一对象的会话数据，通过接收第一对象发送的数据，获取到第一对象的会话数据。

第一对象的类型不做限定。示例性的，第一对象包括但不限于用户、智能机器人。

步骤S22，根据第一对象的会话数据确定第二对象的情绪信息。

第二对象的类型不做限定。示例性的，第二对象包括但不限于智能机器人。

在实际应用中，第一对象的会话数据可以为多条数据，先确定每一条数据对应的第二对象的情绪信息，再综合各条数据对应的第二对象的情绪信息，得到第一对象的会话数据所对应的第二对象的情绪信息。

例如，第一对象的会话数据包括数据A1、数据A2和数据A3，先确定数据A1对应的第二对象的情绪信息为情绪信息a，确定数据A2对应的第二对象的情绪信息为情绪信息a，确定数据A3对应的第二对象的情绪信息为情绪信息b，则综合情绪信息a、情绪信息a和情绪信息b，得到第一对象的会话数据所对应的第二对象的情绪信息为情绪信息a。

其中，根据第一对象的会话数据确定第二对象的情绪信息，包括：根据第一对象的会话数据获取第一对象的情绪信息；根据第一对象的情绪信息生成第二对象的情绪信息。

在根据第一对象的会话数据确定第二对象的情绪信息时，先确定第一对象的会话数据中的每一条数据对应的第一对象的情绪信息，再综合各条数据对应的第一对象的情绪信息，得到第一对象的会话数据所对应的第一对象的情绪信息，之后，根据第一对象的会话数据所对应的第一对象的情绪信息，确定第一对象的会话数据所对应的第二对象的情绪信息，或者，先确定第一对象的会话数据中的每一条数据对应的第一对象的情绪信息，再根据各条数据对应的第一对象的情绪信息，确定各条数据对应的第二对象的情绪信息，之后，综合各条数据对应的第二对象的情绪信息，得到第一对象的会话数据所对应的第二对象的情绪信息。

本申请实施例中，根据第一对象的会话数据获取第一对象的情绪信息，包括：获取第一对象的会话数据的上下文数据；根据第一对象的会话数据和上下文数据，获取第一对象的情绪信息。

会话数据的上下文数据是与该会话数据直接或者间接相邻的上文和/或下文，上下文数据包括但不限于文本数据、图片数据以及语音数据中的至少一项。

示例性的，针对会话“你怎么不接我电话，我给你打了那么多，一个都没有接”，会话数据“我给你打了那么多”的上下文数据为“你怎么不接我电话”、或者“一个都没有接”、或者“你怎么不接我电话”和“一个都没有接”。

在一种可能的实现方式中，将第一对象的会话数据和上下文数据进行拼接，将拼接后的数据输入至情绪分类模型中，由情绪分类模型基于拼接后的数据的数据特征转化得到第一对象的情绪特征，情绪特征即为情绪信息。其中，情绪分类模型基于数据的数据特征转化得到情绪特征的实现方式，详见下述有关图4的相关内容，在此不再赘述。

本申请实施例中，根据第一对象的会话数据获取第一对象的情绪信息，包括：将第一对象的会话数据输入至情绪分类模型，由情绪分类模型输出第一对象的情绪信息。

其中，将第一对象的会话数据输入至情绪分类模型之前，还包括：获取多个第一样本对象数据，第一样本对象数据包括带有情绪标签的第一会话数据，第一会话数据是第一样本对象的会话数据；根据各个第一会话数据确定各个第一会话数据对应的情绪信息；根据各个第一会话数据对应的情绪信息，确定各个第一会话数据对应的情绪分类结果；根据各个第一会话数据对应的情绪分类结果和情绪标签，获取情绪分类模型。

将第一对象的会话数据输入至情绪分类模型，由情绪分类模型基于第一对象的会话数据的数据特征转化得到第一对象的情绪特征，其中，情绪分类模型基于数据的数据特征转化得到情绪特征的实现方式，详见下述有关图4的相关内容，在此不再赘述。

通过获取大量的训练数据，利用训练数据获取情绪分类模型。如图3所示，图3是本申请实施例提供的一种训练数据的示意图。训练数据包括第一样本对象的会话数据和对应的情绪标签(即下文提及的第一会话数据的情绪标签)、第二样本对象的会话数据和对应的情绪标签(即下文提及的第二会话数据的情绪标签)。如图3中示出了训练数据1包括第一样本对象的会话数据a1和对应的情绪标签a1、第二样本对象的会话数据b1和对应的情绪标签b1；训练数据2包括第一样本对象的会话数据a2和对应的情绪标签a2、第二样本对象的会话数据b2和对应的情绪标签b2；训练数据n包括第一样本对象的会话数据an和对应的情绪标签an、第二样本对象的会话数据bn和对应的情绪标签bn，其中，n为正整数。第一样本对象的会话数据包括但不限于文本数据、图片数据以及语音数据中的至少一项，第二样本对象的会话数据包括但不限于文本数据、图片数据以及语音数据中的至少一项。

在实际应用时，利用训练数据中第一样本对象的会话数据和对应的情绪标签获取情绪分类模型，即利用多个第一样本对象数据对第一分类模型进行训练，得到情绪分类模型。对于每一个第一样本对象数据，将第一会话数据(即第一样本对象的会话数据)输入至第一分类模型中，由第一分类模型先根据第一会话数据的数据特征转化得到第一会话数据的情绪特征，再根据第一会话数据的情绪特征得到第一会话数据的情绪分类结果，第一会话数据的情绪分类结果为第一会话数据属于各个情绪的概率。之后，利用各个第一会话数据的情绪标签和第一分类模型输出的各个第一会话数据的情绪分类结果，计算第一分类模型的损失值，利用损失值优化第一分类模型的模型参数，得到优化后的模型。按照该方式，多次优化模型后，得到情绪分类模型。

其中，情绪分类模型的大小和结构不做限定，在一种可能的实现方式中，情绪分类模型为注意力模型，如图4所示，图4是本申请实施例提供的一种情绪分类模型的示意图，情绪分类模型包括编码部分和解码部分。具体的，会话数据(包括前文所提及的上下文数据、第一会话数据、第一对象的会话数据等)输入至情绪分类模型，编码部分将会话数据转化为数据特征，解码部分基于注意力原理，将数据特征转化为情绪特征，之后，基于情绪特征得到情绪分类结果。

本申请实施例中，会话数据包括多个数据段，编码部分将会话数据转化为数据特征时，先将各个数据段转化为各个数据段特征，对于每一个数据段，根据该数据段的数据段特征和权重、至少一个相邻数据段的数据段特征和权重，计算得到该数据段的融合特征，相邻数据段是与该数据段位置直接或者间接相邻的数据段。按照该方式，计算得到各个数据段的融合特征，各个数据段的融合特征即为本申请实施例中的数据特征。

其中，若会话数据为文本数据时，数据段为字符或者词语，数据段特征为字符串特征；若会话数据为图片数据时，数据段为像素点或者图片区域，数据段特征为三原色(Red-Green-Blue，RGB)特征；若会话数据为语音数据，数据段为语音段，数据特征为音频特征。

以文本数据为例，文本数据包括五个词语，第一个词语的相邻词语可以为第二个词语，也可以为第二个词语和第三个词语，还可以为第二个至第四个词语，甚至可以为第二个至第五个词语，在计算第一个词语的融合特征时，需要确定第一个词语的权重和各个相邻词语的权重，将第一个词语的字符串特征乘以第一个词语的权重，各个相邻词语的字符串特征乘以对应的权重，并计算各个乘积之和，得到第一个词语的融合特征，其他词语的计算方式与第一个词语的计算方式类似，在此不再赘述。

解码部分基于注意力原理，将数据特征转化为情绪特征时，根据第一个数据段的融合特征转化得到第一个数据段对应的情绪特征，对于除第一个数据段之外的其他数据段，根据该其他数据段的融合特征和该其他数据段之前的至少一个数据段对应的情绪特征，得到该其他数据段对应的情绪特征。最后，根据各个数据段对应的情绪特征得到最终的情绪特征。

以文本数据为例，文本数据包括五个词语，根据第一个词语的融合特征转化得到第一个词语对应的情绪特征，第一个词语对应的情绪特征记为y1，其中，y1＝f(c1)，f为转化函数，c1为第一个词语的融合特征；对于第二个词语，根据第二个词语的融合特征和第一个词语对应的情绪特征，得到第二个词语对应的情绪特征，第二个词语对应的情绪特征记为y2，其中，y2＝f(c2，y1)，c2为第二个词语的融合特征；对于第三个词语，根据第三个词语的融合特征和第二个词语对应的情绪特征，或者根据第三个词语的融合特征和第一、二个词语对应的情绪特征，得到第三个词语对应的情绪特征，第三个词语对应的情绪特征记为y3，其中，y3＝f(c3，y2)，或者y3＝f(c3，y1，y2)，c3为第三个词语的融合特征，以此类推。最后，根据各个词语对应的情绪特征得到最终的情绪特征，并根据最终的情绪特征得到会话数据对应的情绪分类结果。

需要说明的是，第一分类模型与情绪分类模型仅是模型参数不同，二者的大小和结构相同，因此，第一分类模型与情绪分类模型对特征的处理方式相同。图4所示的情绪分类模型为一种可能的实现模型，编码部分和解码部分的处理方式也是一种可能的实现方式，在实际应用时，可以基于注意力机制，对特征进行不同的处理，本申请实施例并不限定编码部分和解码部分的处理方式。

本申请实施例中，根据第一对象的情绪信息生成第二对象的情绪信息，包括：将第一对象的情绪信息输入至情绪生成模型，由情绪生成模型输出第二对象的情绪信息。

其中，将第一对象的情绪信息输入至情绪生成模型之前，还包括：获取多个第二会话数据对应的情绪标签，第二会话数据是第一会话数据对应的第二样本对象的会话数据；根据各个第一会话数据对应的情绪信息，生成各个第二会话数据对应的情绪信息；根据各个第二会话数据对应的情绪信息，确定各个第二会话数据对应的情绪分类结果；根据各个第二会话数据对应的情绪分类结果和情绪标签，获取情绪生成模型。

将前文所提及的情绪分类模型输出的第一对象的情绪信息(即情绪特征)输入至情绪生成模型，由情绪生成模型基于第一对象的情绪特征转化得到第二对象的情绪特征，其中，情绪生成模型基于第一对象的情绪特征转化得到第二对象的情绪特征的实现方式，详见下述有关图5的相关内容，在此不再赘述。

利用图3所示的训练数据获取情绪生成模型，在实际应用时，利用训练数据中第一样本对象的会话数据所对应的情绪标签、第二样本对象的会话数据所对应的情绪标签，获取情绪生成模型。对于每一个第一样本对象的会话数据所对应的情绪标签，先将第一样本对象的会话数据所对应的情绪标签转化为第一样本对象的会话数据所对应的情绪特征，再将第一样本对象的会话数据所对应的情绪特征(即第一对象的情绪信息)输入至第二分类模型中，由第二分类模型根据第一样本对象的会话数据所对应的情绪特征，生成第二样本对象的会话数据所对应的情绪特征，并根据第二样本对象的会话数据所对应的情绪特征得到第二样本对象的会话数据所对应的情绪分类结果，该情绪分类结果是第二样本对象的会话数据属于各个情绪的概率。之后，利用各个第二样本对象的会话数据所对应的的情绪标签和情绪分类结果，计算第二分类模型的损失值，利用损失值优化第二分类模型的模型参数，得到优化后的模型。按照该方式，多次优化模型后，得到情绪生成模型。

其中，情绪生成模型的大小和结构不做限定，在一种可能的实现方式中，情绪生成模型为注意力模型，如图5所示，图5是本申请实施例提供的一种情绪生成模型的示意图，情绪生成模型包括编码部分和解码部分。本申请实施例中，第一对象的情绪信息(即情绪特征)包括第一对象对应的多个数据段的数据段特征，第一对象的情绪特征输入至情绪生成模型，编码部分根据第一对象对应的各个数据段的数据段特征得到各个数据段的融合特征，解码部分基于注意力原理，基于各个数据段的融合特征得到第二对象对应的各个数据段的情绪特征，基于第二对象对应的各个数据段的情绪特征得到最终的情绪特征，即第二对象的情绪信息。编码部分和解码部分的处理方式见前述有关图4的相关说明，在此不再赘述。

可以理解的是，第二分类模型和情绪生成模型仅是模型参数不同，二者的大小和结构相同，因此，第二分类模型与情绪生成模型对特征的处理方式相同。图4所示的情绪生成模型为一种可能的实现模型，编码部分和解码部分的处理方式也是一种可能的实现方式，在实际应用时，可以基于注意力机制，对特征进行不同的处理，本申请实施例并不限定编码部分和解码部分的处理方式。

步骤S23，从文本数据库中查找与第一对象的会话数据相匹配的文本数据。

本申请实施例中，文本数据库中存储有多个文本数据，每一个文本数据中包括至少一个关键词，文本数据库中存储文本数据时，至少包括如下所示的存储方式1-3。

存储方式1，存储问题关键词和答案关键词之间的对应关系，存储答案关键词和答案文本数据之间的对应关系。

在存储方式1中，将第一对象的会话数据作为问题文本数据，先从问题文本数据中提取问题关键词，再根据存储的问题关键词和答案关键词之间的对应关系，查找提取出的问题关键词所对应的答案关键词，之后，根据存储的答案关键词和答案文本数据之间的对应关系，搜索出查找到的答案关键词所对应的答案文本数据，搜索到的答案文本数据即为与第一对象的会话数据相匹配的文本数据。

存储方式2，存储问题关键词和答案文本数据之间的对应关系。

在存储方式2中，将第一对象的会话数据作为问题文本数据，先从问题文本数据中提取问题关键词，再根据存储的问题关键词和答案文本数据之间的对应关系，查找提取出的问题关键词所对应的答案文本数据，查找到的答案文本数据即为与第一对象的会话数据相匹配的文本数据。

存储方式3，存储问题文本数据和答案文本数据之间的对应关系。

在存储方式3中，当存储的问题文本数据和答案文本数据之间的对应关系中，存在问题文本数据与第一对象的会话数据相同，则与第一对象的会话数据相同的问题文本数据所对应的答案文本数据，即为与第一对象的会话数据相匹配的文本数据；当存储的问题文本数据和答案文本数据之间的对应关系中，不存在问题文本数据与第一对象的会话数据相同，则计算各个问题文本数据与第一对象的会话数据之间的相似度，最大相似度的问题文本数据所对应的答案文本数据，即为与第一对象的会话数据相匹配的文本数据。其中，计算问题文本数据与第一对象的会话数据之间的相似度的方式不做限定。

步骤S24，根据文本数据和第二对象的情绪信息合成第二对象的语音数据，基于第二对象的语音数据对第一对象的会话数据进行回复。

本申请实施例中，可以将文本数据和第二对象的情绪信息输入至语音合成模型，由语音合成模型基于文本数据和第二对象的情绪信息，合成第二对象的语音数据，使得第二对象的语音数据带有情绪信息，提高语音数据的表现力和拟人度。其中，语音合成模型的结构和大小不作限定，示例性的，语音合成模型为文本到语音(Text To Speech，TTS)模型。其中，语音合成模型包括频谱发生器和声码器，频谱发生器是一种将文本数据转化为对应的频谱信息的模型，声码器是一种将频谱信息转化为语音数据的模型。

在一种可能的实现方式中，根据文本数据和第二对象的情绪信息合成第二对象的语音数据，包括：将文本数据与第二对象的情绪信息进行拼接，得到第一信息；根据第一信息生成第二对象的第一频谱信息；根据第二对象的第一频谱信息生成第二对象的语音数据。

在实际应用时，将文本数据转化为数据特征，将数据特征与第二对象的情绪特征进行拼接，拼接后的特征为第一信息，将第一信息输入至频谱发生器，由频谱发生器输出第二对象的第一频谱特征(即第一频谱信息)，将第一频谱特征输入至声码器，由声码器输出第二对象的语音数据，其中，声码器的结构和大小不作限定。

在一种可能的实现方式中，频谱发生器为注意力模型，包括编码部分和解码部分，第一信息包括多个数据段的数据段特征，编码部分根据各个数据段的数据段特征得到各个数据段的融合特征，解码部分基于注意力原理，基于各个数据段的融合特征得到各个数据段的频谱特征，基于各个数据段的频谱特征得到第一情绪特征，即第一频谱信息。编码部分和解码部分的处理方式见前述有关图4的相关说明，在此不再赘述。

在一种可能的实现方式中，根据文本数据和第二对象的情绪信息合成第二对象的语音数据，包括：根据文本数据生成第二对象的第二频谱信息；将第二对象的第二频谱信息与第二对象的情绪信息进行拼接，得到第二信息；根据第二信息生成第二对象的语音数据。

在实际应用时，将文本数据转化为数据特征，将数据特征输入至频谱发生器，由频谱发生器输出第二对象的第二频谱特征(即第二频谱信息)，将第二频谱特征与第二对象的情绪特征进行拼接，拼接后的特征为第二信息，将第二信息输入至声码器，由声码器输出第二对象的语音数据，其中，声码器的结构和大小不作限定。

在一种可能的实现方式中，频谱发生器为注意力模型，包括编码部分和解码部分，文本数据所对应的数据特征包括多个数据段的数据段特征，编码部分根据各个数据段的数据段特征得到各个数据段的融合特征，解码部分基于注意力原理，基于各个数据段的融合特征得到各个数据段的频谱特征，基于各个数据段的频谱特征得到第二情绪特征，即第二频谱信息。编码部分和解码部分的处理方式见前述有关图4的相关说明，在此不再赘述。

在一种可能的实现方式中，根据文本数据和第二对象的情绪信息合成第二对象的语音数据，包括：将文本数据与第二对象的情绪信息进行拼接，得到第一信息；根据第一信息生成第二对象的第一频谱信息；将第二对象的第一频谱信息与第二对象的情绪信息进行拼接，得到第三信息；根据第三信息生成第二对象的语音数据。

在实际应用时，如图6所示，图6是本申请实施例提供的一种语音合成模型的示意图，具体的，将文本数据转化为数据特征，将数据特征与第二对象的情绪特征(即第二对象的情绪信息)进行拼接，拼接后的特征为第一信息，将第一信息输入至频谱发生器，由频谱发生器输出第二对象的第一频谱特征(即第一频谱信息)，将第一频谱特征与第二对象的情绪特征进行拼接，拼接后的特征为第三信息，将第三信息输入至声码器，由声码器输出第二对象的语音数据，其中，声码器的结构和大小不作限定。

需要说明的是，在实际应用时，还可以在频谱发生器的解码部分输入第二对象的情绪特征。在一种可能的实现方式中，第二对象的情绪特征包括多个数据段的情绪特征，解码部分根据将第一个数据段的融合特征与第一个数据段的情绪特征进行拼接，根据拼接后的特征转化得到第一个数据段对应的频谱特征，对于除第一个数据段之外的其他数据段，将该其他数据段的融合特征与该其他数据段的情绪特征进行拼接，根据拼接后的特征和该其他数据段之前的至少一个数据段对应的频谱特征，得到该其他数据段对应的频谱特征。最后，根据各个数据段对应的频谱特征得到最终的频谱特征(包括前文提及的第一频谱特征、第二频谱特征等)。

在一种可能的实现方式中，本申请各实施例所涉及的第一对象、第一样本对象可以为用户，第二对象、第二样本对象可以为智能客服。

图7所示为本申请实施例提供的一种语音合成装置的结构示意图，如图7所示，该装置包括获取模块71、确定模块72、查找模块73以及合成模块74。

获取模块71，用于获取第一对象的会话数据。

确定模块72，用于根据第一对象的会话数据确定第二对象的情绪信息。

查找模块73，用于从文本数据库中查找与第一对象的会话数据相匹配的文本数据。

合成模块74，用于根据文本数据和第二对象的情绪信息合成第二对象的语音数据，基于第二对象的语音数据对第一对象的会话数据进行回复。

在一种可能的实现方式中，确定模块72，用于根据第一对象的会话数据获取第一对象的情绪信息；根据第一对象的情绪信息生成第二对象的情绪信息。

在一种可能的实现方式中，确定模块72，用于获取第一对象的会话数据的上下文数据；根据第一对象的会话数据和上下文数据，获取第一对象的情绪信息。

在一种可能的实现方式中，确定模块72，用于将第一对象的会话数据输入至情绪分类模型，由情绪分类模型输出第一对象的情绪信息。

在一种可能的实现方式中，获取模块，还用于获取多个第一样本对象数据，第一样本对象数据包括带有情绪标签的第一会话数据，第一会话数据是第一样本对象的会话数据。

确定模块，还用于根据各个第一会话数据确定各个第一会话数据对应的情绪信息。

确定模块，还用于根据各个第一会话数据对应的情绪信息，确定各个第一会话数据对应的情绪分类结果。

获取模块，还用于根据各个第一会话数据对应的情绪分类结果和情绪标签，获取情绪分类模型。

在一种可能的实现方式中，确定模块72，用于将第一对象的情绪信息输入至情绪生成模型，由情绪生成模型输出第二对象的情绪信息。

在一种可能的实现方式中，获取模块，还用于获取多个第二会话数据对应的情绪标签，第二会话数据是第一会话数据对应的第二样本对象的会话数据。

确定模块，还用于根据各个第一会话数据对应的情绪信息，生成各个第二会话数据对应的情绪信息。

确定模块，还用于根据各个第二会话数据对应的情绪信息，确定各个第二会话数据对应的情绪分类结果。

获取模块，还用于根据各个第二会话数据对应的情绪分类结果和情绪标签，获取情绪生成模型。

在一种可能的实现方式中，合成模块74，用于将文本数据与第二对象的情绪信息进行拼接，得到第一信息；根据第一信息生成第二对象的第一频谱信息；根据第二对象的第一频谱信息生成第二对象的语音数据。

在一种可能的实现方式中，合成模块74，用于根据文本数据生成第二对象的第二频谱信息；将第二对象的第二频谱信息与第二对象的情绪信息进行拼接，得到第二信息；根据第二信息生成第二对象的语音数据。

在一种可能的实现方式中，合成模块74，用于将文本数据与第二对象的情绪信息进行拼接，得到第一信息；根据第一信息生成第二对象的第一频谱信息；将第二对象的第一频谱信息与第二对象的情绪信息进行拼接，得到第三信息；根据第三信息生成第二对象的语音数据。

应理解的是，上述图7提供的装置在实现其功能时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将设备的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的装置与方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图8示出了本申请一个示例性实施例提供的终端设备800的结构框图。该终端设备800可以是便携式移动终端，比如：智能手机、平板电脑、MP3播放器(Moving PictureExperts Group Audio Layer III，动态影像专家压缩标准音频层面3)、MP4(MovingPicture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、笔记本电脑或台式电脑。终端设备800还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。

通常，终端设备800包括有：处理器801和存储器802。

处理器801可以包括一个或多个处理核心，比如4核心处理器、8核心处理器等。处理器801可以采用DSP(Digital Signal Processing，数字信号处理)、FPGA(Field－Programmable Gate Array，现场可编程门阵列)、PLA(Programmable Logic Array，可编程逻辑阵列)中的至少一种硬件形式来实现。处理器801也可以包括主处理器和协处理器，主处理器是用于对在唤醒状态下的数据进行处理的处理器，也称CPU(Central ProcessingUnit，中央处理器)；协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中，处理器801可以集成有GPU(Graphics Processing Unit，图像处理器)，GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中，处理器801还可以包括AI(Artificial Intelligence，人工智能)处理器，该AI处理器用于处理有关机器学习的计算操作。

存储器802可以包括一个或多个计算机可读存储介质，该计算机可读存储介质可以是非暂态的。存储器802还可包括高速随机存取存储器，以及非易失性存储器，比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中，存储器802中的非暂态的计算机可读存储介质用于存储至少一个指令，该至少一个指令用于被处理器801所执行以实现本申请中方法实施例提供的语音合成方法。

在一些实施例中，终端设备800还可选包括有：外围设备接口803和至少一个外围设备。处理器801、存储器802和外围设备接口803之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口803相连。具体地，外围设备包括：射频电路804、显示屏805、摄像头组件806、音频电路807、定位组件808和电源809中的至少一种。

外围设备接口803可被用于将I/O(Input/Output，输入/输出)相关的至少一个外围设备连接到处理器801和存储器802。在一些实施例中，处理器801、存储器802和外围设备接口803被集成在同一芯片或电路板上；在一些其他实施例中，处理器801、存储器802和外围设备接口803中的任意一个或两个可以在单独的芯片或电路板上实现，本实施例对此不加以限定。

射频电路804用于接收和发射RF(Radio Frequency，射频)信号，也称电磁信号。射频电路804通过电磁信号与通信网络以及其他通信设备进行通信。射频电路804将电信号转换为电磁信号进行发送，或者，将接收到的电磁信号转换为电信号。可选地，射频电路804包括：天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路804可以通过至少一种无线通信协议来与其它终端进行通信。该无线通信协议包括但不限于：万维网、城域网、内联网、各代移动通信网络(2G、3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity，无线保真)网络。在一些实施例中，射频电路804还可以包括NFC(Near Field Communication，近距离无线通信)有关的电路，本申请对此不加以限定。

显示屏805用于显示UI(User Interface，用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏805是触摸显示屏时，显示屏805还具有采集在显示屏805的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器801进行处理。此时，显示屏805还可以用于提供虚拟按钮和/或虚拟键盘，也称软按钮和/或软键盘。在一些实施例中，显示屏805可以为一个，设置在终端设备800的前面板；在另一些实施例中，显示屏805可以为至少两个，分别设置在终端设备800的不同表面或呈折叠设计；在另一些实施例中，显示屏805可以是柔性显示屏，设置在终端设备800的弯曲表面上或折叠面上。甚至，显示屏805还可以设置成非矩形的不规则图形，也即异形屏。显示屏805可以采用LCD(Liquid Crystal Display，液晶显示屏)、OLED(Organic Light-Emitting Diode，有机发光二极管)等材质制备。

摄像头组件806用于采集图像或视频。可选地，摄像头组件806包括前置摄像头和后置摄像头。通常，前置摄像头设置在终端的前面板，后置摄像头设置在终端的背面。在一些实施例中，后置摄像头为至少两个，分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种，以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality，虚拟现实)拍摄功能或者其它融合拍摄功能。在一些实施例中，摄像头组件806还可以包括闪光灯。闪光灯可以是单色温闪光灯，也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的组合，可以用于不同色温下的光线补偿。

音频电路807可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波，并将声波转换为电信号输入至处理器801进行处理，或者输入至射频电路804以实现语音通信。出于立体声采集或降噪的目的，麦克风可以为多个，分别设置在终端设备800的不同部位。麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器801或射频电路804的电信号转换为声波。扬声器可以是传统的薄膜扬声器，也可以是压电陶瓷扬声器。当扬声器是压电陶瓷扬声器时，不仅可以将电信号转换为人类可听见的声波，也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中，音频电路807还可以包括耳机插孔。

定位组件808用于定位终端设备800的当前地理位置，以实现导航或LBS(LocationBased Service，基于位置的服务)。定位组件808可以是基于美国的GPS(GlobalPositioning System，全球定位系统)、中国的北斗系统或俄罗斯的伽利略系统的定位组件。

电源809用于为终端设备800中的各个组件进行供电。电源809可以是交流电、直流电、一次性电池或可充电电池。当电源809包括可充电电池时，该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池，无线充电电池是通过无线线圈充电的电池。该可充电电池还可以用于支持快充技术。

在一些实施例中，终端设备800还包括有一个或多个传感器810。该一个或多个传感器810包括但不限于：加速度传感器811、陀螺仪传感器812、压力传感器813、指纹传感器814、光学传感器815以及接近传感器816。

加速度传感器811可以检测以终端设备800建立的坐标系的三个坐标轴上的加速度大小。比如，加速度传感器811可以用于检测重力加速度在三个坐标轴上的分量。处理器801可以根据加速度传感器811采集的重力加速度信号，控制显示屏805以横向视图或纵向视图进行用户界面的显示。加速度传感器811还可以用于游戏或者用户的运动数据的采集。

陀螺仪传感器812可以检测终端设备800的机体方向及转动角度，陀螺仪传感器812可以与加速度传感器811协同采集用户对终端设备800的3D动作。处理器801根据陀螺仪传感器812采集的数据，可以实现如下功能：动作感应(比如根据用户的倾斜操作来改变UI)、拍摄时的图像稳定、游戏控制以及惯性导航。

压力传感器813可以设置在终端设备800的侧边框和/或显示屏805的下层。当压力传感器813设置在终端设备800的侧边框时，可以检测用户对终端设备800的握持信号，由处理器801根据压力传感器813采集的握持信号进行左右手识别或快捷操作。当压力传感器813设置在显示屏805的下层时，由处理器801根据用户对显示屏805的压力操作，实现对UI界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。

指纹传感器814用于采集用户的指纹，由处理器801根据指纹传感器814采集到的指纹识别用户的身份，或者，由指纹传感器814根据采集到的指纹识别用户的身份。在识别出用户的身份为可信身份时，由处理器801授权该用户执行相关的敏感操作，该敏感操作包括解锁屏幕、查看加密信息、下载软件、支付及更改设置等。指纹传感器814可以被设置在终端设备800的正面、背面或侧面。当终端设备800上设置有物理按键或厂商Logo时，指纹传感器814可以与物理按键或厂商Logo集成在一起。

光学传感器815用于采集环境光强度。在一个实施例中，处理器801可以根据光学传感器815采集的环境光强度，控制显示屏805的显示亮度。具体地，当环境光强度较高时，调高显示屏805的显示亮度；当环境光强度较低时，调低显示屏805的显示亮度。在另一个实施例中，处理器801还可以根据光学传感器815采集的环境光强度，动态调整摄像头组件806的拍摄参数。

接近传感器816，也称距离传感器，通常设置在终端设备800的前面板。接近传感器816用于采集用户与终端设备800的正面之间的距离。在一个实施例中，当接近传感器816检测到用户与终端设备800的正面之间的距离逐渐变小时，由处理器801控制显示屏805从亮屏状态切换为息屏状态；当接近传感器816检测到用户与终端设备800的正面之间的距离逐渐变大时，由处理器801控制显示屏805从息屏状态切换为亮屏状态。

本领域技术人员可以理解，图8中示出的结构并不构成对终端设备800的限定，可以包括比图示更多或更少的组件，或者组合某些组件，或者采用不同的组件布置。

图9为本申请实施例提供的服务器的结构示意图，该服务器900可因配置或性能不同而产生比较大的差异，可以包括一个或多个处理器(Central Processing Units，CPU)901和一个或多个的存储器902，其中，该一个或多个存储器902中存储有至少一条程序代码，该至少一条程序代码由该一个或多个处理器901加载并执行以实现上述各个方法实施例提供的语音合成方法。当然，该服务器900还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该服务器900还可以包括其他用于实现设备功能的部件，在此不做赘述。

在示例性实施例中，还提供了一种计算机可读存储介质，该存储介质中存储有至少一条程序代码，该至少一条程序代码由处理器加载并执行，以实现上述任一种语音合成方法。

可选地，上述计算机可读存储介质可以是只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、只读光盘(Compact Disc Read-OnlyMemory，CD-ROM)、磁带、软盘和光数据存储设备等。

在示例性实施例中，还提供了一种计算机程序或计算机程序产品，该计算机程序或计算机程序产品中存储有至少一条计算机指令，该至少一条计算机指令由处理器加载并执行，以实现上述任一种语音合成方法。

应当理解的是，在本文中提及的“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。

上述本申请实施例序号仅仅为了描述，不代表实施例的优劣。

以上所述仅为本申请的示例性实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

23页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种语音数据标注方法和装置

语音合成方法、装置、设备及可读存储介质

相关技术

网友询问留言