一种基于BayesLSTM的语种识别方法

文档序号：1938125 发布日期：2021-12-07 浏览：6次 >En<

阅读说明：本技术 一种基于BayesLSTM的语种识别方法 (Bayesian LSTM-based language identification method ) 是由周少龙陈欣洁余智华冯凯李建广于 2021-03-17 设计创作，主要内容包括：本发明公开了一种基于BayesLSTM的语种识别方法,包括以下步骤：S1、构建词向量模型；S2、词向量作为输入,输入到LSTM中；S3、通过概率密度分布来对权重进行采样,优化分布参数；S4、通过Softmax分类器对经过贝叶斯优化的特征向量进行预测分类；S5、根据步骤S4的预测分类概率,最终得到文本的分类类别标签。有益效果：本发明的方法通过估计模型参数的不确定性来提高模型的鲁棒性和语种识别的准确率。(The invention discloses a Bayesian LSTM-based language identification method, which comprises the following steps: s1, constructing a word vector model; s2, inputting the word vector into the LSTM as input; s3, sampling the weight through probability density distribution, and optimizing distribution parameters; s4, carrying out prediction classification on the feature vectors subjected to Bayesian optimization through a Softmax classifier; and S5, finally obtaining the classification category label of the text according to the predicted classification probability in the step S4. Has the advantages that: the method improves the robustness of the model and the accuracy of language identification by estimating the uncertainty of the model parameters.)

技术领域

本发明涉及语种识别领域，具体来说，涉及一种基于BayesLSTM的语种识别方法。

背景技术

文本语种识别被当做是一种基于某种特殊特征的文本分类任务。目前主要采用基于N-gram模型的方法和基于深度学习的方法。现有全监督分类器 langid.py是基于多项式贝叶斯分类方法实现了一种对场景不敏感的语种识别模型，通过概率计算的方式判断一组候选语言中最有可能的语言概率值。可以识别97种语言场景，其特征抽取采用互信息的特征N-gram项，这种基于 N-gram模型的方法适用于长文本，测试文档越长，识别的准确率越高。该方法对短文本的识别比较局限，尤其是对关注中文简体、中文正体、中文繁体等，在识别中存在较大的困难。

针对相关技术中的问题，目前尚未提出有效的解决方案。

发明内容

本发明的目的在于提供一种基于BayesLSTM的语种识别方法，以解决上述背景技术中提出的问题。

为实现上述目的，本发明提供如下技术方案：

一种基于BayesLSTM的语种识别方法，包括以下步骤：

S1、构建词向量模型；

S2、词向量作为输入，输入到LSTM中；

S3、通过概率密度分布来对权重进行采样，优化分布参数；

S4、通过Softmax分类器对经过贝叶斯优化的特征向量进行预测分类；

S5、根据步骤S4的预测分类概率，最终得到文本的分类类别标签。

进一步的，所述步骤S1构建词向量模型包括以下步骤：

S11、对采集的语种的语料文件进行预处理形成语料库；

S12、对每个语种采用token生成器将每个句子表示为词向量和字向量；

S13、将输入的词转化为向量，然后将词中的每一个字符进行了拆解；

S14、用LSTM模型将词所包含的所有字符转化为向量，并对词和字符转化的向量进行拼接。

进一步的，所述步骤S2词向量作为输入，输入到LSTM中包括以下步骤：

S21、以第一步的词向量作为输入，很好地保留了句子中词与词之间的信息；

S22、LSTM网络信息的更新和保留是由输入门、遗忘门、输出门和一个单元来实现的。

进一步的，所述输入门决定了当前时刻网络的输入有多少保存到单元状态；

所述遗忘门决定了上一时刻的单元状态有多少保留到当前时刻；

所述输出门控制单元状态有多少输出到LSTM的当前输出值。

与现有技术相比，本发明具有以下有益效果：本发明根据网络爬虫数据构建语种语料库，通过对不同语言文本进行字符串处理后得到训练集数据；构建基于贝叶斯优化的LSTM模型的语种识别方法，利用长短记忆网络(LSTM)学习词语之间的依赖关系，并采用贝叶斯的概率密度分布对网络的权重参数进行优化；接着对训练数据进行时序迭代训练，更新模型参数；搭建语种识别系统进行预测。本发明的方法通过估计模型参数的不确定性来提高模型的鲁棒性和语种识别的准确率。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案，下面将对实施例中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本发明实施例的一种基于BayesLSTM的语种识别方法的流程图。

具体实施方式

下面，结合附图以及具体实施方式，对发明做出进一步的描述：

请参阅图1，根据本发明实施例的一种基于BayesLSTM的语种识别方法，包括以下步骤：

步骤S1：构建词向量模型

对采集的语种的语料文件进行预处理形成语料库，对每个语种采用 token生成器将每个句子表示为词向量和字向量。即将输入的词转化为向量，然后将词中的每一个字符进行了拆解，用LSTM模型将词所包含的所有字符转化为向量，并对词和字符转化的向量进行拼接。

步骤S2：词向量作为输入，输入到LSTM中。

以第一步的词向量作为输入，很好地保留了句子中词与词之间的信息。 LSTM网络信息的更新和保留是由输入门it、遗忘门ft、输出门ot和一个 cell单元ct来实现的。

输入门(inputgate)决定了当前时刻网络的输入xt有多少保存到单元状态ct，可以避免当前无关紧要的内容进入记忆。

i_t＝σ(WⁱX_t+Uⁱh_t-1+bⁱ)

遗忘门(forget gate)决定了上一时刻的单元状态ct-1有多少保留到当前时刻ct,可以保存很久很久之前的信息.表示为:

f_t＝σ(W^fX_t+U^fh_t-1+b^f)

输出门(output gate)控制单元状态ct有多少输出到LSTM的当前输出值ht,可以控制长期记忆对当前输出的影响.表示为:

o_t＝σ(W^oX_t+U^oh_t-1+b^o)

当前时刻更新后的信息由ct来表示：

c_t＝f_t×c_t-1+i_t×g_t

其中：g_t＝tanh(W^gX_t+U^gh_t-1+b^g)

最终输出的信息为：

c_t＝o_t×tanh(c_t)

其中W,U表示神经网络的权重系数，b表示偏置，xt表示输入的词向量，ht-1是LSTM层上一时刻的隐藏层的输出结果，ct-1表示上一时刻的历史信息，gt表示候选状态下当前单元的信息，σ和tanh表示为激活函数。

步骤S3：由于LSTM不能很好地学习不同词语相对于句子的重要程度，本文结合贝叶斯神经网络的核心思想，提出基于贝叶斯优化的LSTM方法。通过概率密度分布来对权重进行采样，优化分布参数，而不是设置一个固定的权重。在第i次，在模型第n层上对权重的采样表示为：

在第i次，在模型第n层上对偏置b的采样表示为：

其中p,u为可训练参数，表示不同的权重分布。N(0,1)表示标准正态分布。

步骤S4：本文采用计算简单，效果显著的Softmax分类器对经过贝叶斯优化的特征向量vt进行预测分类：

y＝Soft max(W_vv_t+b_v)

其中Wv,bV表示优化后的权重和偏置。

步骤S5：根据的预测分类概率，最终得到文本的分类类别标签。

通过本发明的上述方案，本发明根据网络爬虫数据构建语种语料库，通过对不同语言文本进行字符串处理后得到训练集数据；构建基于贝叶斯优化的 LSTM模型的语种识别方法，利用长短记忆网络(LSTM)学习词语之间的依赖关系，并采用贝叶斯的概率密度分布对网络的权重参数进行优化；接着对训练数据进行时序迭代训练，更新模型参数；搭建语种识别系统进行预测。本发明的方法通过估计模型参数的不确定性来提高模型的鲁棒性和语种识别的准确率。

为了方便理解本发明的上述技术方案，以下就本发明在实际过程中的工作原理或者操作方式进行详细说明。

在实际应用时，BayesLSTM方法是用于图片生成、语言建模中的一种快速有效的方法。其中贝叶斯神经网络通过概率密度分布对权重进行采样，然后优化分布参数。利用这一点，我们不仅能够衡量训练数据本身与预测结果的置信度与不确定性，而且能够增强词语相对于句子的权重依赖关系。而LSTM旨在解决使用标准的循环神经网络(RNN)处理长序列数据时发生的信息消失问题。由于文本所要处理的语料文件本身是一种序列化数据，而循环神经网络(RNN)能够较好地处理序列问题，但当训练文本长度过长时，容易出现梯度消失的问题。长短期记忆网络(Long Short-Term Memory, LSTM)作为一种特定形式的RNN，能够有效解决RNN无法处理的长距离依赖问题。

对于中文细分领域的语种识别任务，包括中文简体、中文正体、中文繁体等，需要识别中文不同形体，如“中国”与“中國”，提出了基于贝叶斯LSTM 的语种识别方法，结合BayesLSTM方法，将其应用于中文语言细分领域，以区别简体、繁体、及粤语的文本语言类型。

本发明根据网络爬虫数据构建语种语料库，通过对不同语言文本进行字符串处理后得到训练集数据；构建基于贝叶斯优化的LSTM模型的语种识别方法，利用长短记忆网络(LSTM)学习词语之间的依赖关系，并采用贝叶斯的概率密度分布对网络的权重参数进行优化；接着对训练数据进行时序迭代训练，更新模型参数；搭建语种识别系统进行预测。本发明的方法通过估计模型参数的不确定性来提高模型的鲁棒性和语种识别的准确率。

尽管已经示出和描述了本发明的实施例，对于本领域的普通技术人员而言，可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型，本发明的范围由所附权利要求及其等同物限定。

7页详细技术资料下载

一种基于BayesLSTM的语种识别方法

相关技术

网友询问留言