一种语音交互方法以及语音交互系统

文档序号：1743417 发布日期：2019-11-26 浏览：47次 >En<

阅读说明：本技术 一种语音交互方法以及语音交互系统 (A kind of voice interactive method and voice interactive system ) 是由孙珏徐曼于 2018-05-17 设计创作，主要内容包括：本发明涉及一种语音交互方法以及语音交互系统。该方法包括：预处理步骤,对输入的语音信息进行预处理并输出语音段；语义识别步骤,对所述预处理步骤输出的语音段进行语义识别并输出语义信息；性别分类步骤,对所述预处理步骤输出的语音段识别出用户性别并输出性别信息；以及融合处理步骤,融合所述性别信息和所述语义信息而获得对于所述语音信息的个性化回复信息。根据本发明的音交互方法以及语音交互系统,能够根据用户的性别进行区分回复,提高用户体验,提高语音交互的智能化。(The present invention relates to a kind of voice interactive method and voice interactive systems.This method comprises: pre-treatment step, pre-processes the voice messaging of input and exports voice segments；Semantics recognition step carries out semantics recognition to the voice segments of pre-treatment step output and exports semantic information；Gender Classification step identifies user's gender to the voice segments of pre-treatment step output and exports gender information；And fusion treatment step, it merges the gender information and institute's semantic information and obtains the personalized reply message for the voice messaging.Sound exchange method and voice interactive system according to the present invention can distinguish reply according to the gender of user, improve user experience, improve the intelligence of interactive voice.)

一种语音交互方法以及语音交互系统

技术领域

本发明涉及语音识别技术，尤其涉及一种能够识别用户性别的语音交互方法以及语音交互系统。

背景技术

在车载对话系统中，现有的语音识别技术能够一定程度地识别用户的语音，但是有部分话题涉及到用户的性别，目前的语音识别技术往往难以根据识别的文本给出符合用户性别的回答。

公开于本发明背景部分的信息仅仅旨在增加对本发明的总体背景的理解，而不应当被视为承认或以任何形式暗示该信息构成已为本领域一般技术人员所公知的现有技术。

发明内容

鉴于上述问题，本发明旨在提供一种能够识别用户性别的语音交互方法以及语音交互系统。

本发明的语音交互方法，其特征在于，包括：

预处理步骤，对输入的语音信息进行预处理并输出语音段；

语义识别步骤，对所述预处理步骤输出的语音段进行语义识别并输出语义信息；

性别分类步骤，对所述预处理步骤输出的语音段识别出用户性别并输出性别信息；以及

融合处理步骤，融合所述性别信息和所述语义信息而获得对于所述语音信息的个性化回复信息。

可选地，所述性别分析步骤包括：

模型训练子步骤,基于滤波器的输出声学特征以及预先标注的性别信息进行长短时记忆模型训练获得长短时记忆模型；以及

性别分类子步骤，将所述语音段输入到经过训练获得的长短时记忆模型并输出性别分类。

可选地，所述预处理步骤中，对于所述输入语音信息，使用端点检测算法进行语音段的检测。

可选地，所述预处理步骤中，对于所述输入语音信息，使用端点检测算法进行语音段的检测并输出提供给所述语义识别步骤的第一语音段以及提供给所述性别分类步骤的第二语音段，其中，所述第二语音段的端点检测边界比所述第一语音段的端点检测边界更加严格。

可选地，所述模型训练子步骤包括：

准备具有性别标注的训练集；

提取所述训练集的滤波器的输出声学特征；

构造滤波器的输出声学特征对应的标注文件；以及

将所述滤波器的输出声学特征以及所述标注文件输入到长短时记忆模型中进行模型训练直至模型收敛。

可选地，所述性别分类子步骤包括：

将所述语音段输入到经过训练获得的长短时记忆模型中；

进行向前计算获得不同分类性别的后验概率；以及

累计规定时间长的后验概率而获得性别分类结果。

本发明的语音交互系统，其特征在于，包括：

预处理模块，用于对输入的语音信息进行预处理并输出语音段；

语义识别模块，用于对所述预处理模块输出的语音段进行语义识别并输出语义信息；

性别分类模块，用于对所述预处理模块输出的语音段进行性别分类，识别出用户性别并输出性别信息；以及

融合处理模块，用于融合所述性别信息和所述语义信息获得对于所述语音信息的个性化回复信息。

可选地，所述性别分类模块包括：

模型训练子模块,用于基于滤波器的输出声学特征以及预先标注的性别信息进行长短时记忆模型训练获得长短时记忆模型；以及

性别分类子模块，用于将所述语音段输入到经过训练获得的长短时记忆模型并输出性别分类。

可选地，所述预处理模块中，对于所述输入语音信息，使用端点检测算法进行语音段的检测。

可选地，所述预处理模块对于所述输入语音信息使用端点检测算法进行语音段的检测并输出提供给所述语义识别模块的第一语音段以及提供给所述性别分类模块的第二语音段，

其中，所述第二语音段的端点检测边界比所述第一语音段的端点检测边界更加严格。

可选地，所述模型训练子模块基于具有性别标注的训练集，提取所述训练集的滤波器的输出声学特征，构造滤波器的输出声学特征对应的标注文件，将所述滤波器的输出声学特征以及所述标注文件输入长短时记忆模型中进行模型训练直至模型收敛。

可选地，所述性别分类子模块将所述语音段输入到经过训练获得的长短时记忆模型，经过向前计算获得不同分类性别的后验概率并且累计规定时间长的后验概率以获得性别分类结果。

本发明的上述语音交互方法应用于车辆，或本发明的上述语音交互系统应用于车辆。

本发明还提供一种语音交互设备，其能够执行上述语音交互方法，或其包括上述语音交互系统。

可选地，上述语音交互设备设置于车辆。

本发明提供一种控制器，其包括存储部件、处理部件以及存储在存储部件上并可被处理部件运行的指令，其特征在于，在所述指令被运行时，所述处理部件实现上述的语音交互方法。根据本发明的语音交互方法以及语音交互系统，结合语义分析以及性别分类，能够根据用户的性别进行区分回复，提高用户体验，提高语音交互的智能化。

通过纳入本文的附图以及随后与附图一起用于说明本发明的某些原理的

具体实施方式

，本发明的方法和装置所具有的其它特征和优点将更为具体地变得清楚或得以阐明。

附图说明

图1是表示本发明一实施方式的语音交互方法的流程图。

图2是性别分类步骤的具体流程示意图。

图3是表示本发明一实施方式的语音交互系统的构造框图。

具体实施方式

下面介绍的是本发明的多个实施例中的一些，旨在提供对本发明的基本了解。并不旨在确认本发明的关键或决定性的要素或限定所要保护的范围。

首先，对于后文中要出现的一些用语进行解释。

nlu：自然语言理解；

asr：自动语音识别；

长短时记忆模型（LSTM）：长短时记忆模型，一种深度学习模型，可以学习长期依赖信息；

feats：音频文件的filter bank特征参数；

cmvn：特征文件统计学信息；

gmm-hmm：一种传统声学模型-基于混合高斯模型的隐马尔可夫模型。

图1是根据本发明一实施方式的语音交互方法的流程图。

如图1，本发明一实施方式的语音交互方法包括下述步骤：

输入步骤S100：输入语音信息；

预处理步骤S200：对输入步骤S100输入的语音信息进行预处理并输出语音段；

语义识别步骤S300：对所述预处理步骤S200输出的语音段进行语义识别并输出语义信息；

性别分类步骤S400：对所述预处理步骤S200输出的语音段进行性别分类，识别出用户性别并输出性别信息；

融合处理步骤S500：融合所述性别信息和所述语义信息获得对于所述输入的语音信息的个性化回复信息；以及

输出步骤600：以输出所述个性化回复信息。例如，可以语音方式输出，也可以以文字方式输出。

接着，对于预处理步骤S200、性别分类步骤S400以及融合处理步骤S500进行示例性说明。其中，语义识别步骤S300中对语音段进行语义识别以及输出语义信息可采用与常规技术相同的技术手段，在此省略说明。

作为示例，在预处理步骤S200中，对于所述输入语音信息，使用端点检测算法（VAD）来检测语音信息从而获得语音段。举例来说，用户的语音信息被输入到VAD模型中，VAD模型通过端点检测、特征提取等方式获得语音段。所获得的语音段分别提供给后续的语义识别步骤S300以及性别分类步骤S400。其中，语音识别任务要求尽可能保留完整的文本信息，VAD的边界应更加宽容；而性别分类任务要求尽可能剔除所有的silence（无音），VAD的边界应更加严格。因此，在预处理步骤S200可选地是分别地提供两种不同的语音段给后续的语义识别步骤S300以及性别分类步骤S400。

接着，对于性别分类步骤S400进行说明。

图2是性别分类步骤S400的具体流程示意图。

如图2所示，性别分类步骤S400大致可以分为训练阶段和识别阶段。

首先，对于训练阶段进行说明。

需要准备一批拥有性别标注的训练集作为训练样本，包括wav.scp、utt2spk、text、以及每条语言（utterance）对应的性别信息，提取训练集的feats（即，音频文件的filter bank特征参数，在图2中的滤波器的输出声学特征（即，filter bank特征，滤波器的输出声学特征）和cmvn为训练长短时记忆模型做准备。此处的feats需要利用基于三音素(即，tri-phone）的gmm-hmm模型对其进行强制对齐（即，forced align），找到特征对应的无声（即，silence）边界，将feats的无声段进行裁减，只保留能够区分性别的语音段。

由于性别模型是一个分类模型，需要构造特征对应的标注文件（即图2中的FA），同样标注文件FA只针对feats的语音段，根据feats的帧数构造一批反映其性别的标注文件FA。

将以上准备的特征文件feats和标注文件FA，输入至长短时记忆模型中进行训练直至收敛。这里，LSTM（Long-Short Term Memory）是递归神经网络（RNN:RecurrentNeutral Network）的一种。RNNs也叫递归神经网络序列，它是一种根据时间序列或字符序列自我调用的特殊神经网络，将它按序列展开后，就成为常见的三层神经网络，常应用于语音识别。

这里，长短时记忆模型采用的基本参数为:

num-lstm-layers: 1；

cell-dim: 1024；

lstm-delay: -1。

其次，对于识别阶段进行说明。

首先，需要进行特征提取。当用户说话时，首先使用端点检测算法（VAD）对语音信息进行检测，对将VAD检测到的非无声（non-silence）语音帧进行特征提取。由于长短时记忆模型是一个依赖于过去时刻的模型，因此可以设置一个缓冲器进行特征累计。

接着，进行前向计算。将一定长度的特征矩阵送入长短时记忆模型中，经过前向计算，将获得不同分类性别的后验概率。其中，所谓后验概率是指在得到“结果”的信息后重新修正的概率，是“执果寻因”问题中的"果"。事情还没有发生，要求这件事情发生的可能性的大小，是先验概率；事情已经发生，要求这件事情发生的原因是由某个因素引起的可能性的大小，就是后验概率。

最后，进行后验处理。通过反复试验设置一个时间阈值T，累计T时长的后验概率概率值进行对比，将较大概率值的类别作为输入音频的性别分类结果。这里作为时间阈值T的取值例如可以取值0.5s、1s等。该时间阈值T不能够设置得太长，因为那会需要更多数据，识别的实时性就变得不高了，但是也不能够设置得太短，那样准确性可能又不够高。

这样，通过语义识别步骤S300对语音段进行语义识别并输出语义信息，另一方面，通过性别分类步骤S400对语音段进行性别分类并识别出用户性别并输出性别信息，然后在融合处理步骤S500中融合识别出的性别信息和语义信息，获得对于所述输入的语音信息的个性化回复信息。在本申请的一些示例中，步骤S500中提到的“融合”可理解为在进行语音交互信息时，会考虑步骤S400中获得的性别信息，以例如使得回复更有针对性或更为适当，如下文给出的几个例子。但是也并不排除其它应用步骤S400中性别信息的情况。

例如，当用户输入的语音为“早上好！”，当性别分类步骤S400中识别为男性时，则输出“先生，早上好！”，当性别分类步骤S400中识别为女性时，则输出“女士，早上好！”；当用户输入的语音为“你觉得我好看吗”，当性别分类步骤S400中识别为男性时，则输出“当然啦，您是大帅哥！”，当性别分类步骤S400中识别为女性时，则输出“当然啦，您是大美女！”；当用户输入的语音为“现在是几点了”，当性别分类步骤S400中识别为男性时，则输出“先生，现在是下午3点”，当性别分类步骤S400中识别为女性时，则输出“女士，现在是下午3点”。

以上对于本发明的语音交互方法的实施方式进行了说明。接着，对于本发明的语音交互系统，

图3是表示本发明一实施方式的语音交互系统的构造框图。

如图3所示，本发明的一实施方式的语音交互系统包括：

输入模块100，用于输入语音信息；

预处理模块200，用于接收语音信息并进行预处理，输出语音段；

性别分类模块300，用于对所述预处理模块输出的语音段进行性别分类，识别出用户性别并输出性别信息；

语义识别模块400，用于对所述预处理模块输出的语音段进行语义识别并输出语义信息；

融合处理模块500，用于融合所述性别信息和所述语义信息获得对于所述语音信息的个性化回复信息；以及

输出模块600，用于语音输出所述个性化回复信息。

预处理模块200中对于所述输入语音信息，使用端点检测算法（VAD）进行语音段的检测，而且，具体地，预处理模块200对于所述输入语音信息使用端点检测算法进行语音段的检测并输出提供给性别分类模块300的第一语音段以及提供给语义识别模块400的第二语音段，其中，由于性别分类模块要求尽可能剔除所有无声段，VAD的边界应该更加严格，而由于语义识别模块400要求尽可能保留完整的文本信息，所以VAD的边界应该更加宽容，因此，第一语音段的端点检测边界比所述第二语音段的端点检测边界更加严格。

其中，性别分类模块300包括：

模型训练子模块310,用于基于滤波器的输出声学特征以及预先标注的性别信息进行长短时记忆模型训练获得长短时记忆模型；以及

性别分类子模块320，用于将所述语音段输入到经过训练获得的长短时记忆模型并输出性别分类。

其中，模型训练子模块410基于具有性别标注的训练集，提取所述训练集的滤波器的输出声学特征，构造滤波器的输出声学特征对应的标注文件FA，将所述滤波器的输出声学特征以及所述标注文件输入到长短时记忆模型中进行模型训练直至模型收敛。性别分类子模块420将所述语音段输入到经过训练获得的长短时记忆模型，经过向前计算获得不同分类性别的后验概率并且累计规定时间长的后验概率以获得性别分类结果。

上述任一示例中所述的语音交互方法能够应用于车辆，或上述任一示例所述的语音交互系统能被应用于车辆。例如，作为车辆控制方法或者车辆控制系统的一部分呈现。

本发明还提供一种语音交互设备，其能够执行如上任一示例中所述的语音交互方法；或者，其包括上述任一示例中所述语音交互系统。该语音交互设备能够单独实现为一个部件，其能够设置于车辆，例如使得车内的人员可与其进行语音交互。在此，该语音交互设备可以是固定在车辆上的设备，也可以是能够从车辆上拿走/放回的设备。且进一步，在一些示例中，该语音交互设备能够与车辆内的电子控制系统进行通信。在一些情况下，也可将该语音交互设备实现在车辆的已有的电子部件中，比如车辆的信息娱乐系统等。

本发明还提供一种控制器，其包括存储部件、处理部件以及存储在存储部件上并可被处理部件运行的指令，其特征在于，在所述指令被运行时，所述处理部件实现上述的语音交互方法。

根据本发明各示例的语音交互方法以及语音交互系统，结合语义分析以及性别分类，能够根据用户的性别进行区分回复，提高用户体验，提高语音交互的智能化。

以上例子主要说明了本发明的语音交互方法以及语音交互系统。尽管只对其中一些本发明的具体实施方式进行了描述，但是本领域普通技术人员应当了解，本发明可以在不偏离其主旨与范围内以许多其他的形式实施。因此，所展示的例子与实施方式被视为示意性的而非限制性的，在不脱离如所附各权利要求所定义的本发明精神及范围的情况下，本发明可能涵盖各种的修改与替换。

11页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：语音唤醒模型的训练和使用方法及装置

一种语音交互方法以及语音交互系统

相关技术

网友询问留言