语音编辑方法、电子设备及计算机可读存储介质

文档序号：361622 发布日期：2021-12-07 浏览：7次 >En<

阅读说明：本技术 语音编辑方法、电子设备及计算机可读存储介质 (Voice editing method, electronic device and computer readable storage medium ) 是由晏小辉左利鹏皮特于 2020-06-01 设计创作，主要内容包括：本申请涉及AI领域,提供了一种语音编辑方法、电子设备及计算机可读存储介质,语音编辑方法包括：获取输入的语音数据,将语音数据转换为文本数据,并将文本数据划分为t个句子,计算t个句子中第t个句子与第t个句子之前的c个句子的语义一致性置信度,其中,语义一致性置信度用于描述第t个句子与c个句子的语义关联程度；若语义一致性置信度小于预设值,说明第t个句子与c个句子的语义关联程度较低,进一步说明第t个句子相对于c个句子进行了话题转换,此时,对第t个句子进行识别,并将识别结果作为编辑指令对文本数据进行编辑,能够不需要用户进行额外的交互,也可实现对文本数据的编辑操作,操作简便,从而提高了用户体验。(The application relates to the field of AI (artificial intelligence), and provides a voice editing method, electronic equipment and a computer-readable storage medium, wherein the voice editing method comprises the following steps: acquiring input voice data, converting the voice data into text data, dividing the text data into t sentences, and calculating semantic consistency confidence degrees of the t sentence and c sentences before the t sentence in the t sentences, wherein the semantic consistency confidence degrees are used for describing semantic association degrees of the t sentence and the c sentences; if the semantic consistency confidence is smaller than the preset value, the semantic association degree of the t-th sentence and the c sentences is low, further, the t-th sentence is subject to topic conversion relative to the c sentences, at the moment, the t-th sentence is identified, and the text data is edited by taking the identification result as an editing instruction, so that additional interaction of a user is not needed, the text data can be edited, the operation is simple and convenient, and the user experience is improved.)

技术领域

本申请涉及人工智能(Artificial Intelligence，AI)领域，尤其涉及一种语音编辑方法、电子设备及计算机可读存储介质。

背景技术

人工智能技术的发展深刻改变了人与机器交互的方式：从以PC、智能手机为代表的通过键盘、鼠标、触摸屏的交互，发展到以智能对话系统(如手机语音助手、智能音箱、智能车载等)为代表的语音交互。语音对话的交互方式比传统的点击、触摸方式更具有便利性和灵活性，在越来越多的领域得到应用。

在语音对话过程中，电子设备识别用户输入的语音数据，将语音数据转换为文本，以执行对应的操作。当用户发现语音识别出错，或者用户想主动变换说法时，需要对输入的语音数据进行修改。现有的对输入的语音数据进行修改的方法，一般需要手动切换输入模式，例如，将语音输入切换为文本输入，以对由语音数据所转换的文本数据进行修改，或者在检测到用户输入对应的前缀词时，根据用户输入的修改指令对文本数据进行修改，因此，增加了交互成本，操作复杂，影响用户体验。

发明内容

本申请提供一种语音编辑方法、电子设备及计算机可读存储介质，在不增加额外的交互成本的情况下，实现对文本数据的编辑，操作简便，提高用户体验。

第一方面，提供一种语音编辑方法，包括：获取输入的语音数据；将所述语音数据转换为文本数据，并将所述文本数据划分为t个句子，所述t为大于1的整数；计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度，其中，所述语义一致性置信度用于描述所述第t个句子与所述c个句子的语义关联程度，所述c为大于0的整数；若所述语义一致性置信度小于预设值，对所述第t个句子进行识别，并将识别结果作为编辑指令对所述文本数据进行编辑。

上述实施例中，通过获取语音数据，将语音数据转换为文本数据，将文本数据划分为t个句子，计算t个句子中第t个句子与第t个句子之前的c个句子的语义一致性置信度，若语义一致性置信度小于预设值，说明第t个句子与c个句子的语义关联程度较低，即第t个句子与c个句子不是连贯的语句，进一步说明第t个句子相对于c个句子进行了话题转换，是不同于前面c个句子的指令，此时，对第t个句子进行识别，并将识别结果作为编辑指令对文本数据进行编辑，能够不需要用户进行额外的交互，也可实现对文本数据的编辑操作，操作简便，从而提高了用户体验。

在第一方面的一种可能的实现方式中，所述计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度，包括：将所述t个句子输入预设的语义一致性模型，得到所述语义一致性模型输出的所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度。由于预设的语义一致性模型是根据大量训练样本训练后得到的，通过预设的语义一致性模型计算语义一致性置信度，提高了计算结果的准确性和稳定性。

在第一方面的一种可能的实现方式中，所述预设的语义一致性模型用于：根据所述第t个句子和所述c个句子计算第t个句子的综合表示向量，其中，所述第t个句子的综合表示向量用于描述所述第t个句子与所述c个句子的语义关联，以及所述第t个句子与所述c个句子中每个句子的语义关联，因此综合表示向量可以表征第t个句子和c个句子之间更多的关联信息，再根据所述第t个句子的综合表示向量确定语义一致性置信度，提高了语义一致性置信度的准确性。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子和所述c个句子计算第t个句子的综合表示向量，包括：根据所述第t个句子和所述c个句子确定第t个句子各词语的上下文向量，以及确定c个句子各词语的上下文向量；根据所述第t个句子各词语的上下文向量，以及所述c个句子各词语的上下文向量计算第t个句子的综合表示向量。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子和所述c个句子确定第t个句子各词语的上下文向量，以及确定c个句子各词语的上下文向量，包括：对所述第t个句子和所述c个句子进行注意力运算，从而可以捕捉到第t个句子和c个句子之间更多的内部特征，得到第t个句子与上文的注意力；根据所述第t个句子与上文的注意力计算第t个句子各词语的上下文向量，以及c个句子各词语的上下文向量。

在第一方面的一种可能的实现方式中，所述对所述第t个句子和所述c个句子进行注意力运算，得到第t个句子与上文的注意力，包括：对所述第t个句子进行分词处理，根据分词处理后的第t个句子确定所述第t个句子的各词语对应的隐向量；对所述c个句子进行分词处理，根据分词处理后的所述c个句子确定所述c个句子的各词语对应的隐向量；对所述第t个句子的各词语对应的隐向量，以及所述c个句子的各词语对应的隐向量，进行注意力运算，得到第t个句子与上文的注意力。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子与上文的注意力计算第t个句子各词语的上下文向量，以及c个句子各词语的上下文向量，包括：根据所述第t个句子与上文的注意力，以及所述c个句子的各词语对应的隐向量，计算第t个句子各词语的上下文表示；对所述第t个句子各词语的上下文表示，以及所述第t个句子的各词语对应的隐向量，进行残差连接运算，得到第t个句子各词语的上下文向量；根据所述第t个句子与上文的注意力，以及所述第t个句子的各词语对应的隐向量，计算c个句子各词语的上下文表示；对所述c个句子各词语的上下文表示，以及所述c个句子的各词语对应的隐向量，进行残差连接运算，得到c个句子各词语的上下文向量，从而可以减少信号损失，提高了计算的准确度。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子各词语的上下文向量，以及所述c个句子各词语的上下文向量计算第t个句子的综合表示向量，包括：对所述第t个句子各词语的上下文向量，以及所述c个句子各词语的上下文向量进行注意力运算，得到第t个句子与c个句子对应的注意力；根据所述第t个句子与c个句子对应的注意力计算第t个句子的综合表示向量。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子与c个句子对应的注意力计算第t个句子的综合表示向量，包括：根据所述第t个句子与c个句子对应的注意力，以及c个句子各词语的上下文向量，计算第t个句子各词语与c个句子对应的上下文表示；对所述第t个句子各词语与c个句子对应的上下文表示，以及第t个句子各词语的上下文向量，进行残差连接运算，得到第t个句子的综合表示向量，从而可以减少信号损失，提高了计算的准确度。

在第一方面的一种可能的实现方式中，所述根据所述第t个句子的综合表示向量确定语义一致性置信度，包括：根据所述c个句子各词语的上下文向量，确定c个句子的综合表示向量；对所述第t个句子的综合表示向量以及所述c个句子的综合表示向量进行拼接，根据拼接后的向量确定语义一致性置信度。

在第一方面的一种可能的实现方式中，所述对所述第t个句子进行识别，包括：将所述第t个句子输入预设的意图识别模型，得到所述预设的意图识别模型输出的识别结果。

在第一方面的一种可能的实现方式中，在所述计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度之后，所述语音编辑方法还包括：若所述语义一致性置信度大于或者等于所述预设值，存储所述文本数据。

第二方面，提供一种语音编辑装置，包括：

获取模块，用于获取输入的语音数据；

分句模块，用于将所述语音数据转换为文本数据，并将所述文本数据划分为t个句子，所述t为大于1的整数；

计算模块，用于计算所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度，其中，所述语义一致性置信度用于描述所述第t个句子与所述c个句子的语义关联程度,所述c为大于0的整数；

识别模块，用于若所述语义一致性置信度小于预设值，对所述第t个句子进行识别，并将识别结果作为编辑指令对所述文本数据进行编辑。

在第二方面的一种可能的实现方式中，所述计算模块具体用于：

将所述t个句子输入预设的语义一致性模型，得到所述语义一致性模型输出的所述t个句子中第t个句子与所述第t个句子之前的c个句子的语义一致性置信度。

在第二方面的一种可能的实现方式中，所述计算模块包括：

第一计算单元，用于根据所述第t个句子和所述c个句子计算第t个句子的综合表示向量，其中，所述第t个句子的综合表示向量用于描述所述第t个句子与所述c个句子的语义关联，以及所述第t个句子与所述c个句子中每个句子的语义关联；

第二计算单元，用于根据所述第t个句子的综合表示向量确定语义一致性置信度。

在第二方面的一种可能的实现方式中，所述第一计算单元具体用于：

根据所述第t个句子和所述c个句子确定第t个句子各词语的上下文向量，以及确定c个句子各词语的上下文向量；

根据所述第t个句子各词语的上下文向量，以及所述c个句子各词语的上下文向量计算第t个句子的综合表示向量。