基于深度学习实现语种识别的方法

文档序号:1073214 发布日期:2020-10-16 浏览:21次 >En<

阅读说明:本技术 基于深度学习实现语种识别的方法 (Method for realizing language identification based on deep learning ) 是由 黄诗雅 罗睦军 邓从健 于 2020-06-03 设计创作,主要内容包括:本发明公开了一种基于深度学习实现语种识别的方法,包括:获取通话录音文件后,通过阿里云ASR及语种识别接口,生成语种文本数据集;对反馈的识别结果进行语种文本降噪处理;提取类别下的语种文本进行识别,对类别进行语种判定,完成训练语料的制作工序;对训练语料的词映射成索引表示,构建词汇-索引映射表,对语种标签构建标签-索引映射表,从预训练的词向量模型中读取出词向量,作为初始化值输入到模型中,通过映射表把语种文本与语种标签数值化为索引表示并填充为定长,提交给深度学习分类器训练;深度学习分类器对待测试语种文本进行分析预测,找出概率最高的语种类别。本发明能降低人工复听压力、节省人力、高效率、自动化、准确性高。(The invention discloses a method for realizing language identification based on deep learning, which comprises the following steps: after a call recording file is obtained, a language text data set is generated through an Ali cloud ASR and a language identification interface; performing language text noise reduction processing on the fed back recognition result; extracting language texts under the categories to identify, and judging the languages of the categories to finish the manufacturing process of the training corpus; mapping words of a training corpus into index representation, constructing a vocabulary-index mapping table, constructing a label-index mapping table for language labels, reading word vectors from a pre-trained word vector model, inputting the word vectors into the model as an initialization value, digitizing language texts and the language labels into index representation through the mapping table, filling the index representation into a fixed length, and submitting the index representation to a deep learning classifier for training; and the deep learning classifier analyzes and predicts the language text to be tested and finds out the language category with the highest probability. The invention can reduce the pressure of manual listening again, save manpower, and has high efficiency, automation and accuracy.)

基于深度学习实现语种识别的方法

技术领域

本发明涉及电信通讯领域,特别涉及一种基于深度学习实现语种识别的方法。

背景技术

目前缺少对客服热线的语种数据,而在通话内容中可以挖掘用户属性特征,比如使用语种类型、地址信息、业务需求内容等。后续业务分析中,需要从用户基本属性来挖掘各用户群体业务需求变动情况、完善各用户群体投诉监控体系,为后续精细化用户运营维护提供有利的数据支撑。在缺失基本用户属性指标(使用语种类型)下,需要人工去对录音数据进行标注。但是由于每天有2、3万用户拨打客户热线进行咨询业务情况,如果电信运营商需要对客服热线服务进行语种分类,就需要耗费大量的人力每天进行通话录音的复听及标注,这时候单靠人工进行复听、语种标注,将会耗费大量人力和时间。

发明内容

本发明要解决的技术问题在于,针对现有技术的上述缺陷,提供一种能降低人工复听压力、节省人力、高效率、自动化、准确性高的基于深度学习实现语种识别的方法。

本发明解决其技术问题所采用的技术方案是:构造一种基于深度学习实现语种识别的方法,包括如下步骤:

A)获取通话录音文件后,通过阿里云ASR及语种识别接口,生成语种文本数据集;

B)对反馈的识别结果进行语种文本降噪处理;

C)通过人工抽样方法,提取类别下的语种文本进行识别,对所述类别进行语种判定,完成训练语料的制作工序;

D)对所述训练语料的词映射成索引表示,构建词汇-索引映射表,对语种标签构建标签-索引映射表,然后从预训练的词向量模型中读取出词向量,作为初始化值输入到所述词向量模型中,最后通过所述词汇-索引映射表和标签-索引映射表把语种文本与语种标签数值化为索引表示并填充为定长后,提交给深度学习分类器训练;

E)所述深度学习分类器对待测试的语种文本进行分析预测,找出概率最高的语种类别。

在本发明所述的基于深度学习实现语种识别的方法中,所述步骤B)进一步包括:

B1)筛选语种识别精确度高于设定值的语种文本,通过条件判断除去非专业领域外识别有误的语种,只保留识别准确度高的语种文本;

B2)将所述语种文本进行分词处理,然后将单词与停用词表的词进行匹配,过滤掉停用词。

在本发明所述的基于深度学习实现语种识别的方法中,所述步骤D)进一步包括:

D1)将所述训练语料读入内存,对每个文档进行分词处理;

D2)通过计算每个单词在文档中出现的词频,过滤掉词频小于最低阈值及高于最高阈值的词,对剩余不重复的单词映射成索引表示,即构建词汇-索引映射表,对全部非重复语种标签也构建标签-索引映射表;

D3)采用Tencent AI开源的word2vec词向量模型读取出词汇-索引映射表相对应的词向量,作为所述word2vec词向量模型的初始值;

D4)通过所述词汇-索引映射表把每个文档单词数值化,对每个文档长度不一致情况进行定长处理,长度长于所述最高阈值进行截取,短于所述最低阈值采用<PAD>扩充,并把所述词汇-索引映射表及词向量保存到配置文件中。

在本发明所述的基于深度学习实现语种识别的方法中,所述深度学习分类器采用TEXTCNN文本分类器。

在本发明所述的基于深度学习实现语种识别的方法中,通过所述TEXTCNN文本分类器进行语种文本分类预测,把语种文本数据转化为定长的文本序列后,放入CNN网络结构中训练。

在本发明所述的基于深度学习实现语种识别的方法中,所述CNN网络结构由输入层、卷积层、池化层和全连接层构成。

在本发明所述的基于深度学习实现语种识别的方法中,在所述输入层输入定长n的文本序列c,n为整数且n≥1;每个词用词向量xi表示,每个词嵌入的维度k,句子表示为

Figure BDA0002522925370000031

其中,词向量xi采用预训练word2vec做所述输入层的输入,并在模型训练过程中不再微调。

在本发明所述的基于深度学习实现语种识别的方法中,所述卷积层使用m个不同尺寸的卷积核,m为整数且m≥1,所述卷积核的高度h即窗口值,所述高度h取值为2-8;所述卷积核的宽度为词向量的维度等宽k,卷积核ω∈Rhk,每次滑窗结果ci,卷积运算结果是ci=f(ω*xi:i+h-1)+b,其中,b∈R,f是非线性函数,对于滑动一次语种文本c,共需滑窗n-h+1次,所述语种文本c卷积汇总结果为c=[c1,c2,...,cn-h+1]。

在本发明所述的基于深度学习实现语种识别的方法中,采用最大池化层Max-pool,即使用卷积核个数为m,池化后的数据为

Figure BDA0002522925370000033

每一次池化可获取全局最大池化。

在本发明所述的基于深度学习实现语种识别的方法中,使用一层所述全连接层,y=ω*z+b,即提取的特征z输入到一个LR分类器中进行分类。

实施本发明的基于深度学习实现语种识别的方法,具有以下有益效果:由于首先获取电信运营商的用户通话录音文件后,通过阿里云语音识别接口对录音进行转写和语种类别进行标识,做降噪处理来保留识别准确度高的文本,从而完成训练语料的制作;接着通过深度学习对语料进行构建网络结构建模、训练,最后通过特征模型对运营商日常通话录音进行自动语种识别;本发明能降低人工复听压力、节省人力、高效率、自动化、准确性高。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。

图1为本发明基于深度学习实现语种识别的方法一个实施例中的流程图;

图2为所述实施例中深度学习实现语种识别的方法的流程框图;

图3为所述实施例中对反馈的识别结果进行语种文本降噪处理的具体流程图;

图4为所述实施例中词向量模型生成的具体流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

在本发明基于深度学习实现语种识别的方法实施例中,该基于深度学习实现语种识别的方法的流程图如图1所示。图2为本实施例中深度学习实现语种识别的方法的流程框图。图1中,该基于深度学习实现语种识别的方法包括如下步骤:

步骤S01获取通话录音文件后,通过阿里云ASR及语种识别接口,生成语种文本数据集:本步骤中,首先获取电信运营商的用户的通话录音文件后,获取的方式是语音语种识别系统通过FTP下载通话录音文件,通过阿里云语音识别接口即阿里云ASR及语种识别接口,生成语种文本数据集。

步骤S02对反馈的识别结果进行语种文本降噪处理:本步骤中,对反馈的识别结果进行语种文本降噪处理。具体而言,语音语种识别系统读取通话录音文件,首先通过阿里云ASR转写及语种识别API接口来获取转写后的语种文本内容及语种标签,再通过条件判断方法剔除非业务内的语种文本,最后对语种文本进行降噪处理来剔除噪音数据。

步骤S03通过人工抽样方法,提取类别下的语种文本进行识别,对类别进行语种判定,完成训练语料的制作工序:本步骤中,通过人工抽样方法,提取类别下的语种文本进行识别,对类别进行语种判定,从而完成训练语料的制作工序。具体而言,语音语种识别系统把判断准准确度高的语种文本文件保存到同一个文件下;语音语种识别系统的业务人员对每个语种文本进行抽样检查,根据语种文本真实语种属性重命名,从而完成训练语料的制作。

步骤S04对训练语料的词映射成索引表示,构建词汇-索引映射表,对语种标签构建标签-索引映射表,然后从预训练的词向量模型中读取出词向量,作为初始化值输入到词向量模型中,最后通过词汇-索引映射表和标签-索引映射表把语种文本与语种标签数值化为索引表示并填充为定长后,提交给深度学习分类器训练:本步骤中,文本语种识别系统加载训练语料,从训练语料中提取分类的结果后,保存到模型文件中。具体而言,对训练语料的词映射成索引表示,构建词汇-索引映射表,对语种标签构建标签-索引映射表,然后从预训练的词向量模型中读取出词向量,作为初始化值输入到词向量模型中,最后通过词汇-索引映射表和标签-索引映射表把语种文本与语种标签数值化为索引表示并填充为定长后,提交给深度学习分类器训练。该深度学习分类器采用基于TEXTCNN实现的文本分类器,即TEXTCNN文本分类器。

步骤S05深度学习分类器对待测试的语种文本进行分析预测,找出概率最高的语种类别:本步骤中,文本语种识别系统通过FTP下载需要预测分析的通话录音文本(语种文本),通过TEXTCNN文本分类器对待测试的语种文本进行识别预测或分析预测,最后找出概率最高的语种类别,即得到概率最高的识别结果。

通过阿里云语音识别接口对通话录音文件进行转写和语种类别进行标识,做降噪处理来保留识别准确度高的语种文本,从而完成训练语料的制作。接着通过深度学习对语料进行构建网络结构建模、训练,最后通过特征模型对运营商日常通话录音进行自动语种识别。利用该基于深度学习实现语种识别的方法解决了目前运营商需要对每天上百万通话录音进行人工标注,耗费大量人力的问题。本发明基于自然语言处理、深度学习,具有可靠性、模式化强、准确度高的特点,整个过程只需要很少的人工操作,且不依赖运营商提供训练语料,从而为运营商节省了大量的人力和时间成本。

通过TEXTCNN分类器进行文本分类预测。TEXTCNN方法把语种文本数据转化为定长的文本序列后,放入CNN网络结构中训练。CNN网络结构主要由四部分构成:输入层、卷积层、池化层和全连接层。具体预测步骤包括:

(1)输入层(词嵌入层):在输入层输入定长n的文本序列c,n为整数且n≥1;每个词用词向量xi表示,每个词嵌入的维度k,句子表示为

Figure BDA0002522925370000062

其中,词向量xi采用预训练word2vec做输入层的输入,并在模型训练过程中不再微调。

(2)卷积层:使用m个不同尺寸的卷积核,m为整数且m≥1,卷积核的高度h即窗口值,高度h取值为2-8;卷积核的宽度为词向量的维度等宽k,卷积核ω∈Rhk,每次滑窗结果ci,卷积运算结果是ci=f(ω*xi:i+h-1)+b,其中,b∈R,f是非线性函数,对于滑动一次语种文本c,共需滑窗n-h+1次,语种文本c卷积汇总结果为c=[c1,c2,...,cn-h+1]。

(3)采用最大池化层Max-pool,即使用卷积核个数为m,池化后的数据为

Figure BDA0002522925370000064

每一次池化可获取全局最大池化。

(4)全连接层:使用一层全连接层,y=ω*z+b,即提取的特征z输入到一个LR分类器中进行分类。

对于本实施例而言,上述步骤S02还可进一步细化,其细化后的流程图如图3所示。图3中,上述步骤S02进一步包括:

步骤S21筛选语种识别精确度高于设定值的语种文本,通过条件判断除去非专业领域外识别有误的语种,只保留识别准确度高的语种文本:本步骤中,筛选语种识别精确度高于设定值的语种文本,通过条件判断除去非专业领域外识别有误的语种,只保留识别准确度高的语种文本。

步骤S22将语种文本进行分词处理,然后将单词与停用词表的词进行匹配,过滤掉停用词:本步骤中,将语种文本进行分词处理,然后将单词与停用词表的词进行匹配,过滤掉停用词。

对于本实施例而言,上述步骤S04还可进一步细化,其细化后的流程图如图4所示。图4中,上述步骤S04进一步包括:

步骤S41将训练语料读入内存,对每个文档进行分词处理:本步骤中,将训练语料读入内存,对每个文档进行分词处理。

步骤S42通过计算每个单词在文档中出现的词频,过滤掉词频小于最低阈值及高于最高阈值的词,对剩余不重复的单词映射成索引表示,即构建词汇-索引映射表,对全部非重复语种标签也构建标签-索引映射表:本步骤中,通过计算每个单词在文档中出现的词频,过滤掉词频小于最低阈值及高于最高阈值的词,然后对剩余不重复的单词映射成索引表示,即构建词汇-索引映射表。此外,对全部非重复语种标签也构建标签-索引映射表。

步骤S43采用Tencent AI开源的word2vec词向量模型读取出词汇-索引映射表相对应的词向量,作为word2vec词向量模型的初始值:本步骤中,采用Tencent AI开源的word2vec词向量模型读取出词汇-索引映射表相对应的词向量,作为word2vec词向量模型的初始值。

步骤S44通过词汇-索引映射表把每个文档单词数值化,对每个文档长度不一致情况进行定长处理,长度长于最高阈值进行截取,短于最低阈值采用<PAD>扩充,并把词汇-索引映射表及词向量保存到配置文件中:本步骤中,通过词汇-索引映射表把每个文档单词数值化,此外对每个文档长度不一致情况进行定长处理,长度长于最高阈值进行截取,短于最低阈值采用<PAD>扩充,并把词汇-索引映射表及词向量保存到配置文件中。

总之,本发明涉及电信通讯领域、深度学习领域、自然语言领域,本发明的方法是一种基于深度学习对运营商文本语种识别的方法。深度学习的出现,可以在尽可能降低前期人员标注的前提下,通过现有API语种识别和文本降噪完成训练语料制作;通过深度学习对训练语料进行建模,最后对通话录音文本进行非结构化的文本分析、语种识别,以此降低人工复听压力、节省人力。

以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:实现工单分析的热词检测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!