一种基于XLNet的智能语音对话意图识别方法

文档序号：1629498 发布日期：2020-01-14 浏览：12次 >En<

阅读说明：本技术 一种基于XLNet的智能语音对话意图识别方法 (XLNET-based intelligent voice conversation intention recognition method ) 是由王磊于 2019-10-11 设计创作，主要内容包括：本发明提出一种基于XLNet的智能语音对话意图识别方法,包括以下步骤：S1：将对话节点的标准问题和扩展的多个相似问题作为语料打标整理成文本样本；S2：将文本样本拆分成训练集合和验证集合；S3：将训练集合输入XLNet模型中,初始化原始相关权重,设置好迭代次数和步长,并在损失函数中加入Triplet loss损失,固定网络其他层；S4：通过离线准确率在验证集合上验证XLNet模型；S5：预加载XLNet模型,提供接口接收待识别的语音转化为文本输入,输出对话文本相关的分类类别；S6：在线上服务中添加对应的阀值计算和分类概率计算；S7：分类激活时通过配置文件得到相关分类的文本标题。本发明提出的意图识别方法,极大提升了意图识别率；重写demo脚本,提升了意图识别率。(The invention provides an intelligent voice conversation intention recognition method based on XLNET, which comprises the following steps: s1: marking and arranging the standard problem of the dialogue node and a plurality of expanded similar problems as corpus into a text sample; s2: splitting a text sample into a training set and a verification set; s3: inputting the training set into an XLNET model, initializing original related weights, setting iteration times and step length, adding triple loss into a loss function, and fixing other layers of the network; s4: verifying the XLNET model on a verification set through offline accuracy; s5: the XLNET model is preloaded, an interface is provided to receive the voice to be recognized and convert the voice into text input, and classification categories related to the dialog text are output; s6: adding corresponding threshold value calculation and classification probability calculation in online service; s7: when the classification is activated, the text titles of the relevant classification are obtained through the configuration file. The intention identification method provided by the invention greatly improves the intention identification rate; and the demo script is rewritten, so that the intention recognition rate is improved.)

技术领域

本发明涉及语音识别领域，尤其涉及一种基于XLNet的智能语音对话意图识别方法。

背景技术

随着大数据和机器计算力的飞速发展，深度学习技术在视觉和语音上取得了很多重大的突破。在语音识别领域，越来越多的智能语音机器人投入实用，语音机器人是否智能，取决于对话过程中的意图识别是否准确。XLNet模型的提出刷新了nlp技术在各项数据集合上的成绩，然而真正使用XLNet技术在语音识别领域的使用依然存在很多问题。

首先，基于XLNet模型完全复用demo中的脚本和模型参数，完全复用demo脚本和模型参数，在实际场景下没有根据本身的数据分布调整模型参数，导致效果不佳；其次，因为重新训练整个网络所需的语料和计算资源太过于庞大，导致个人或者公司选择重新训练整个网络时整个模型没有收敛或者过拟合。

发明内容

为解决上述问题，本发明提出一种基于XLNet的智能语音对话意图识别方法。

一种基于XLNet的智能语音对话意图识别方法，包括以下步骤：

S1：将对话节点的标准问题和扩展的多个相似问题作为语料打标整理成文本样本；

S2：将文本样本拆分成训练集合和验证集合；

S3：将训练集合输入模型中，初始化原始相关权重，设置好迭代次数和步长，并在损失函数中加入Triplet loss损失，固定网络其他层，仅仅再次训练XLNet模型最后两层网络，直到模型收敛；

S4：离线准确率等指标评测，在验证集合上验证模型可用

S5：线上预测时，预加载模型，提供接口接收待识别的语音转化为文本输入输出对话文本相关的分类类别

S6：在线上服务中添加对应的阀值计算和分类概率计算，阀值是通过训练时的所有样本取一个较大的分位数值用于判断是否激活输出相关的分类，概率值是通过归一化和softmax计算得到一个0到1之前的合理的，便于理解的概率；

S7：分类激活时通过配置文件得到相关分类的文本标题，否则返回默认分类(默认分类在对话中对应走相关兜底话术)；

优选的，所述将文本样本拆分成训练集合和验证集合之后还包括：通过多个实际通话录音完善语气词词库，通过语气词词库去除相关语气词。

优选的，所述按阀值判断分类是否激活包括：

概率值先用归一化方法转换成正值，如果多个节点分类的概率值都超过阀值输出最大和次大概率节点时，剔除其他超过阀值的节点分别计算具体的概率，剔除其他节点是为了每次都单一计算相关节点的分类，便于计算分类softmax时能够转换成一个0到1之间的概率；

优选的，所述将待识别的语音转化为文本输入XLNet模型之前还包括：采用多个进程代理的方式提高系统吞吐量，用缓存机制提前加载好训练的模型提高单条请求响应时间。

优选的，所述将待识别的语音转化为文本输入XLNet模型包括：

将对话语音转化为对话文本，将对话文本输入XLNet模型得到该文本的分类概率；

对各个节点的分类概率进行归一化，根据训练时得到的较大分位数数值确定相关的激活阀值，确定激活阀值输出以后对所有分类进行softmax概率计算，同时计算分类标题的相关性，如果标题相关，计算softmax概率时相互剔除相关标题后再进行概率计算，最后确定分类概率，分类概率大于80％为节点分类，分类概率小于80％为默认分类；

按分类概率得到分类的lable标签，通过lable标签和分类名称的对应关系获取分类节点名称拼接结果，确定相应的应答。

本发明具备以下有益效果：

1.本发明提出一种基于XLNet的智能语音对话实时意图识别方法，极大提升了意图识别率；

2.本发明采用对话过程中大量相似问题仅仅重新训练XLNet模型最后两层的网络参数重写demo脚本，在具体场景下调整了模型参数，同时流程更加符合相关场景，提升了意图识别率；

3.建立了一整套完整的概率计算机制，采取按阀值过滤加多个概率一同计算的方法，完善相关性度量，让对话的意图识别更加精准；

4.采用多个进程代理的方式，用缓存机制提前加载好训练的模型，可以做到毫秒级别实时意图识别。

附图说明

下面结合附图和

具体实施方式

对本发明作进一步详细的说明。

图1是本发明一实施例一种基于XLNet的智能语音对话意图识别方法的流程示意图；

图2是本发明一实施例一种基于XLNet的智能语音对话意图识别方法中步骤S6的流程示意图。

具体实施方式

以下结合附图，对本发明的技术方案作进一步的描述，但本发明并不限于这些实施例。

本发明实施例提出一种基于XLNet的智能语音对话意图识别方法，如图1所示，包括以下步骤：

S1：将对话节点的标准问题和扩展的多个相似问题作为语料打标整理成文本样本；

S2：将文本样本拆分成训练集合和验证集合；

S4：离线准确率等指标评测，在验证集合上验证模型可用

S5：线上预测时，预加载模型，提供接口接收待识别的语音转化为文本输入输出对话文本相关的分类类别

S7：分类激活时通过配置文件得到相关分类的文本标题，否则返回默认分类(默认分类在对话中对应走相关兜底话术)；

在本实施例中，将文本样本拆分成训练集合和验证集合之后还包括：通过多个实际通话录音完善语气词词库，通过语气词词库去除相关语气词，以提高识别的准确率。

在本实施例中，所述按阀值判断分类是否激活包括：

概率值先用归一化方法转换成正值，如果多个节点分类的概率值都超过阀值输出最大和次大概率节点时，剔除其他超过阀值的节点分别计算具体的概率，目的是为了在最后softmax单个分类都得到一个0到1之间到合理概率值；

在本实施例中，所述将待识别的语音转化为文本输入XLNet模型之前还包括：采用多个进程代理的方式，用缓存机制提前加载好训练的模型。

服务上采用python flask提前预加载模型的方式，同时启动多个端口号通过nginx代理分发做负载均衡策略的方式提高模型的tps，单条可以达到200ms左右返回。

在本实施例中，所述通过计算阀值判断是否激活输出相关的分类，通过归一化和softmax计算分类概率判断分类的合理程度包括：

S61：将对话语音转化为对话文本，将对话文本输入XLNet模型得到该文本的分类概率；

S62：对各个节点的分类概率进行归一化，根据训练时得到的中位数数值确定相关的激活阀值，确定激活阀值输出以后对所有分类进行softmax概率计算，同时计算分类标题的相关性，如果标题相关，计算softmax概率时相互剔除相关标题后再进行概率计算，最后确定分类概率，分类概率大于80％为节点分类，分类概率小于80％为默认分类；

S63：按分类概率得到分类的lable标签，通过lable标签和分类名称的对应关系获取分类节点名称拼接结果，确定相应的应答。

本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

6页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：端到端语音转写模型的训练方法、系统、装置

一种基于XLNet的智能语音对话意图识别方法

相关技术

网友询问留言