文本噪声数据识别方法、装置、计算机设备和存储介质

文档序号:830108 发布日期:2021-03-30 浏览:17次 >En<

阅读说明:本技术 文本噪声数据识别方法、装置、计算机设备和存储介质 (Text noise data identification method and device, computer equipment and storage medium ) 是由 韩旭红 于 2019-09-30 设计创作,主要内容包括:本申请涉及一种文本噪声数据识别方法、装置、计算机设备和存储介质,通过对文本数据进行分句处理,以切分后的句子为数据处理的基点,将复杂的文本数据处理的任务转换为简单的句子数据处理任务,并且不同以往采用dropout机制对神经元进行dropout处理,本方案是采用dropout机制对携带标签数据的训练数据进行dropout处理,防止模型训练出现过拟合的问题,且通过训练数据训练出的句子相关性分类模型,能够为输入的文本数据添加相应的标签数据,无需标注大量文本数据,节省了人力成本的同时,还提高了数据处理的速度,并且,基于由句子相关性向量以及位置向量拼接得到的拼接矩阵,进行噪声预测,能够提高噪声数据识别的准确率。(The application relates to a text noise data identification method, a device, a computer device and a storage medium, wherein text data is divided into sentences, the divided sentences are used as base points of data processing, a complex text data processing task is converted into a simple sentence data processing task, and a dropout mechanism is adopted to perform dropout processing on neurons in the past, the dropout mechanism is adopted to perform the dropout processing on training data carrying label data, the problem of overfitting of model training is prevented, a sentence relevance classification model trained through the training data can add corresponding label data to the input text data, a large amount of text data is not required to be marked, the labor cost is saved, the data processing speed is improved, and a splicing matrix spliced by sentence relevance vectors and position vectors is used as a basis, noise prediction can improve the accuracy of noise data identification.)

文本噪声数据识别方法、装置、计算机设备和存储介质

技术领域

本申请涉及自然语言处理技术领域,特别是涉及文本噪声数据识别方法、装置、计算机设备和存储介质。

背景技术

自然语言处理是计算机科学领域与人工智能领域中的一个重要方向,其研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法。而文本数据处理又可视为自然语言处理的基础,是其重要的一环。

在对文本数据进行分析时,一些噪声数据对数据分析工作产生了很大的不利影响,因此,出现了利用机器学习或深度学习算法识别文本数据中的噪声数据的方法,传统的文本噪声数据识别的方法多是对不同类型的文本数据如句子或短语数据进行标注,通过识别标注数据进而识别出噪声数据。

上述方法虽然可以一定程度上识别出噪声数据,但是需要做较多的标记工作,耗费人力,且计算机在识别时需要执行大量的识别操作,对计算机硬件消耗较大降低了数据识别的处理速度,同时大量的标注数据还会影响噪声数据识别的准确率,因此,传统的文本噪声数据识别方法存在识别效率较低的问题。

发明内容

基于此,有必要针对现有的文本噪声数据识别效率较低的问题,提供一种高效的文本噪声数据识别方法、装置、计算机设备和存储介质。

一种文本噪声数据识别方法,方法包括:

获取文本数据;

对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量;

将切分后的句子输入至已训练的句子相关性分类模型,为切分后的句子添加标签数据,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;

将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。

在其中一个实施例中,对文本数据进行分句处理包括:

采用预设的分句算法,将文本数据切分为多个句子;

根据预设的句子长度阈值,对切分后的句子进行分割或拼接,以保证切分后的句子的长度满足预设的句子长度阈值。

在其中一个实施例中,将切分后的句子输入至已训练的句子相关性分类模型之前,还包括:

采集历史文本数据,历史文本数据携带标注信息;

根据标注信息,对历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据;

为携带标签数据的训练数据设置对应的dropout概率;

基于dropout概率,对携带标签数据的训练数据进行dropout处理,更新训练数据;

采用更新后的训练数据训练初始句子相关性分类模型,得到已训练的句子相关性分类模型。

在其中一个实施例中,根据标注信息,对历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据包括:

将历史文本数据切分为多个句子;

识别历史文本数据的标注信息;

若历史文本数据的标注信息为噪声数据,则将从该历史文本数据切分出的句子的标签标记为不相关标签,得到携带相关标签的训练数据;

若历史文本数据的标注信息为非噪声数据,则将从该历史文本数据切分出的句子的标签标记为相关标签,得到携带不相关标签的训练数据。

在其中一个实施例中,为携带标签数据的训练数据设置对应的dropout概率包括:

将携带相关标签的训练数据和携带不相关标签的训练数据分别输入至初始句子相关性分类模型;

采用dropout机制为携带相关标签的训练数据设置第一dropout概率,采用dropout机制为携带不相关标签的训练数据设置第二dropout概率。

在其中一个实施例中,基于dropout概率,对携带标签数据的训练数据进行dropout处理,更新训练数据包括:

基于第一dropout概率,随机丢弃部分携带相关标签的训练数据,得到第一训练集;

基于第二dropout概率,随机丢弃部分携带不相关标签的训练数据,得到第二训练集;

将第一训练集以及第二训练集进行组合作为新的训练数据再次输入至初始句子相关性分类模型,返回基于第一dropout概率,随机丢弃部分携带相关标签的训练数据的步骤,直至返回次数达到预设次数阈值。

一种文本噪声数据识别装置,装置包括:

数据获取模块,用于获取文本数据;

分句处理模块,用于对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量;

句子相关性处理模块,用于将切分后的句子输入至已训练的句子相关性分类模型,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;

噪声预测模块,用于将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。

在其中一个实施例中,装置还包括:

模型训练模块,用于采集历史文本数据,历史文本数据携带标注信息,根据标注信息,对历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据,为携带标签数据的训练设置对应的dropout概率,基于dropout概率,对携带标签数据的训练数据进行dropout处理,更新训练数据,采用更新后的训练数据训练初始句子相关性分类模型,得到已训练的句子相关性分类模型。

一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

获取文本数据;

对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量;

将切分后的句子输入至已训练的句子相关性分类模型,为切分后的句子添加标签数据,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;

将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。

一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

获取文本数据;

对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量;

将切分后的句子输入至已训练的句子相关性分类模型,为切分后的句子添加标签数据,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到;

将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。

上述文本噪声数据识别方法、装置、计算机设备和存储介质,通过对文本数据进行分句处理,以切分后的句子为数据处理的基点,将复杂的文本数据处理的任务转换为简单的句子数据处理任务,并且不同以往采用dropout机制对神经元进行dropout处理,本方案是采用dropout机制对携带标签数据的训练数据进行dropout处理,防止模型训练出现过拟合的问题,且通过训练数据训练出的句子相关性分类模型,能够为输入的文本数据添加相应的标签数据,无需标注大量文本数据,节省了人力成本的同时,还提高了数据处理的速度,并且,基于由句子相关性向量以及位置向量拼接得到的拼接矩阵,进行噪声预测,能够提高噪声数据识别的准确率。

附图说明

图1为一个实施例中文本噪声数据识别方法的应用环境图;

图2为一个实施例中文本噪声数据识别方法的流程示意图;

图3为一个实施例中构建模型步骤的流程示意图;

图4为另一个实施例中构建模型步骤的流程示意图;

图5为一个实施例中文本噪声数据识别装置的结构框图;

图6为另一个实施例中文本噪声数据识别装置的结构框图;

图7为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。应当理解,此处描述的具体实施例仅仅用以解释本申请,并不用于限定本申请。

本申请提供的文本噪声数据识别方法,可以应用于如图1所示的应用环境中。其中,终端102通过网络与服务器104通过网络进行通信。具体的,可以是用户于终端102上传待处理的文本数据,然后通过终端102发送噪声数据识别请求(噪声数据识别请求携带文本数据)至服务器104,服务器104响应该噪声数据识别请求,获取文本数据,对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量,然后将切分后的句子输入至已训练的句子相关性分类模型(句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到),为切分后的句子添加标签数据,得到已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的句子相关性向量(可视为模型的中间结果),然后,将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。其中,终端102可以但不限于是各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备,服务器104可以用独立的服务器或者是多个服务器组成的服务器集群来实现。为便于更清楚地说明本申请提供的文本噪声数据识别方法,下面,文本数据以篇章数据为例进行解释说明。

在其中一个实施例中,如图2所示,提供了一种文本数据噪声识别方法,以该方法应用于图1中的服务器为例进行说明,包括以下步骤:

步骤S200,获取文本数据。

在自然语言处理任务中,文本数据包括词、短语、句子以及篇章数据。本实施例中,文本数据以篇章数据为例,在实际应用中,可以是当接收到终端发送的文本噪声数据识别请求时,便获取数据库中待识别的文本数据(篇章数据)。篇章数据是指是将实体、事件等信息按照一定的结构组织起来传达所要表达的语义,篇章数据包括句子、词或短语等,篇章分析在自然语言处理任务中也是重要的一环。

步骤S400,对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量。

切分后的句子的位置向量position是用于表征句子在原文本数据中的位置的向量,如表征句子在文本数据中的第几行或第几段等信息。在获取文本数据之后,需要对文本数据进行数据预处理,本实施例中,文本数据以篇章数据为例,预处理即包括采用分句算法,对篇章数据进行分句处理,得到切分后的句子,同时,为了提高噪声数据预测的准确率,需要提取出切分后的句子的位置向量,此位置向量即表征切分出的句子在原篇章数据中的具体行数。

在其中一个实施例中,对文本数据进行分句处理包括:采用预设的分句算法,将文本数据切分为多个句子,根据预设的句子长度阈值,对切分后的句子进行分割或拼接,以保证切分后的句子的长度满足预设的句子长度阈值。

由于分句处理后的句子可能会存在过于复杂(长)的句子,不适合实际的测试任务,因此,不同于以往的句子切分处理,本实施例中,采用句子长度控制策略。首先,采用预设的分句算法如jentenceend算法,如将篇章数据按照句子进行切分,然后,根据切分后的句子的长度,对句子进行二次处理,具体的,包括对于句子长度较长的句子按照逗号“,”进行再次切分,对于长度较短的句子,即将当前长度较短的句子与下一个句子进行拼接,原则上,保证切分后的句子的长度小于或等于预设的句子长度阈值内。本实施例中,采用句子长度控制策略,避免了句子过长或过短的情况,提高了句子在文本噪声数据预测的有效利用度。

步骤S600,将切分后的句子输入至已训练的句子相关性分类模型,为切分后的句子添加标签数据,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到。

句子相关性分类模型即用于为输入的句子数据完成是否相关噪声数据的分类的模型,本实施例中,句子相关性分类模型可以是采用LSTM(Long Short-Term Memory,长短时记忆网络)+Attention模型,可以理解的是,在其它实施例中,句子相关性分类模型还可以是其他分类模型。具体的,句子相关性分类模型是采用有监督学习方式,即从标签化的训练数据集中推断出函数的机器学习模式,训练后的句子相关性分类模型,能够为输入的句子自动确定是否相关噪声数据的类标签。此外,在机器学习的模型中,如果模型的参数太多,而训练样本又太少,训练出来的模型很容易产生过拟合的现象。因此,本申请的句子相关性分类模型训练过程中,对于携带标签的训练数据还采用dropout机制进行dropout处理,使得每次的输入数据都是不同的,有效地防止了模型过拟合。本实施例中,将切分后的句子输入至已训练的句子相关性分类模型中,模型对输入的句子进行预测,为句子添加是否相关噪声数据的标签,并由模型的隐藏层(中间层)输出的结果得到句子相关性向量,句子相关性向量是用于表征句子信息的特征向量。

步骤S800,将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。

如上述实施例,在得到中间层结果句子相关性向量后,将句子相关性向量与提取出的句子位置向量Position进行拼接,得到拼接矩阵,然后,基于拼接矩阵,进行噪声预测,得到噪声识别结果。例如,Position向量为[-6 -5 -4 -3 -2 -1 0 1 2 3 4 5 6],0表示当前句子的位置。本实施例中,可以是将拼接矩阵作为输入数据输入至训练好的噪声预测模型,噪声预测模型可以是一个双向的LSTM+Attention模型,输入的拼接矩阵经过dense全连接层输出得到向量logits,然后,可以是再基于向量logits,通过softmax将向量logits转换成一个概率分布,可以是采用sofmax_cross_entropy_with_logits计算交叉熵,该方法传入的参数可以是logits,取概率分布中概率值最大或前二的作为分类标签,得到噪声识别结果,识别结果可以是二值化的0或1,0即代表输入的篇章数据不是噪声数据,1即代表输入的篇章数据是噪声数据。可以理解的是,在其他实施例中,可以采用sigmiod对向量logits进行二分类,得到噪声识别结果。

上述文本数据噪声识别方法中,通过对文本数据进行分句处理,以切分后的句子为数据处理的基点,将复杂的文本数据处理的任务转换为简单的句子数据处理任务,并且不同以往采用dropout机制对神经元进行dropout处理,本方案是采用dropout机制对携带标签数据的训练数据进行dropout处理,防止模型训练出现过拟合的问题,且通过训练数据训练出的句子相关性分类模型,能够为输入的文本数据添加相应的标签数据,无需标注大量文本数据,节省了人力成本的同时,还提高了数据处理的速度,并且,基于由句子相关性向量以及位置向量拼接得到的拼接矩阵,进行噪声预测,能够提高噪声数据识别的准确率。

本发明的文本数据噪声识别方案在评论文本语义分析、情感分析、文本检索、文本聚类、文本推荐以及文本管理等领域都有很大的应用价值。识别文本中的噪声是这些领域中的上游任务。准确识别文本中的噪声,能够对下游的文本处理任务提供更加合理的数据支持让后续处理的准确率更高。例如,在分析一个文本的语义时,如果能够准确地识别文本中的噪声,那么就能够避免噪声数据对语义分析结果构成不良影响。

在其中一个实施例中,将切分后的句子输入至已训练的句子相关性分类模型之前,还包括:

步骤S500,采集历史文本数据,历史文本数据携带标注信息;

步骤S520,根据标注信息,对历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据;

步骤S540,为携带标签数据的训练数据设置对应的dropout概率;

步骤S560,基于dropout概率,对携带标签数据的训练数据进行dropout处理,更新训练数据;

步骤S580,采用更新后的训练数据训练初始句子相关性分类模型,得到已训练的句子相关性分类模型。

在实际应用中,采集携带标注信息的历史篇章数据作为样本数据,其中,标注信息是在已知篇章数据是否是噪声数据的前提下,为篇章数据添加的,若篇章是噪声数据,则将标注信息标记为噪声数据,若篇章是非噪声数据,则将标注信息标记为非噪声数据。采集标注信息的历史篇章数据后,先对篇章数据进行分句处理,根据标注信息,为切分后的句子进行打标签处理,得到携带标签数据的训练数据。由于标注信息为相关的篇章中可能包含很多无关的句子,而不相关的篇章中基本不会包含相关的句子这一特性,为了防止句子相关性分类模型出现过拟合的现象,引入深度学习dropout机制,不同的是,传统的深度学习的dropout机制是对词向量的神经元节点进行dropout处理,而本申请中,是对训练数据设置不同的dropout概率,对训练数据进行dropout处理即随机丢弃部分携带标签数据的训练数据,更新训练数据,并且,针对dropout概率,对模型的损失函数也做出调整,得到以更新后的训练数据训练初始句子相关性分类模型,直至损失函数越来越小,完成初始句子相关性分类模型的训练。本实施例中,采用dropout对训练数据进行dropout处理,能够有效地防止模型产生过拟合现象。

如图4所示,在其中一个实施例中,根据标注信息,对历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据包括:步骤S522,将历史文本数据切分为多个句子,识别历史文本数据的标注信息,若历史文本数据的标注信息为噪声数据,则将从该历史文本数据切分出的句子的标签标记为不相关标签,得到携带相关标签的训练数据,若历史文本数据的标注信息为非噪声数据,则将从该历史文本数据切分出的句子的标签标记为相关标签,得到携带不相关标签的训练数据。

同样的,采用预设的分句算法将历史文本数据切分为多个句子,依然采用句子长度控制策略,对较长的句子按照“,”再次切分,对较短的句子与后面的句子进行拼接,保证句子长度控制在预设长度阈值内,然后,识别历史文本数据的标注信息,若标注信息为噪声数据,则将从该历史文本数据切分出的句子的标签标记为不相关标签,得到携带相关标签的训练数据,若标注信息为非噪声数据,则将从该历史文本数据切分出的句子的标签标记为相关标签,得到携带不相关标签的训练数据。本实施例中,将篇章标注信息作为句子标签,无需添加大量的句子标注,提高数据处理效率。

如图4所示,在其中一个实施例中,为携带标签数据的训练数据设置对应的dropout概率包括:步骤S542,将携带相关标签的训练数据和携带不相关标签的训练数据分别输入至初始句子相关性分类模型,采用dropout机制为携带相关标签的训练数据设置第一dropout概率,采用dropout机制为携带不相关标签的训练数据设置第二dropout概率。

本实施例中,采用dropout机制对输入的携带标签数据的训练数据(句子)进行dropout处理,并且,针对不同的标签采用不同的dropout概率,具体的,包括若输入的训练数据携带相关标签,则将该训练数据的dropout概率设置为第一dropout概率,若输入的训练数据携带不相关标签,则将该训练数据的dropout概率设置为第二dropout概率,本实施例中,第一dropout概率设置为0.4,第二dropout概率设置为0.8,需要注意的是,由于不相关标签对应的是噪声数据,相关标签对应的是非噪声数据,此处,第一dropout概率需小于第二dropout概率。本实施例中,针对不同标签设置不同的dropout概率,能够有效降低句子标签错误对句子相关性分类模型造成的影响。

在其中一个实施例中,基于dropout概率,对携带标签数据的训练数据进行dropout处理,更新训练数据包括:基于第一dropout概率,随机丢弃部分携带相关标签的训练数据,得到第一训练集,基于第二dropout概率,随机丢弃部分携带不相关标签的训练数据,得到第二训练集,将第一训练集以及第二训练集进行组合作为新的训练数据再次输入至初始句子相关性分类模型,返回基于第一dropout概率,随机丢弃部分携带相关标签的训练数据的步骤,直至返回次数达到预设次数阈值。

与传统深度学习的dropout机制不同,本申请中不是让某个神经元的激活值以一定的概率p停止工作,或随机(临时)删掉神经网络中一半的隐藏神经元,而是当输入携带相关标签的训练数据时,基于第一dropout概率,随机丢弃部分携带相关标签的训练数据,保留丢弃(过滤)之后的剩余数据,得到第一训练集,当输入携带不相关标签的训练数据时,基于第二dropout概率,随机丢弃部分携带不相关标签的训练数据,保留丢弃之后的剩余数据,得到第二训练集,再将第一训练集和第二训练集进行组合作为新的训练数据再次输入至初始句子相关性分类模型中,按照上述方式循环进行dropout处理,直至迭代(返回)次数达到预设的次数阈值,结束循环,得到最终更新后的训练数据。本实施例中,结合dropout机制对训练数据进行处理,使得每次输入的训练数据都是不同的,综合提高模型训练效果。

应该理解的是,虽然图2-4的流程图中的各个步骤按照箭头的指示依次显示,但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明,这些步骤的执行并没有严格的顺序限制,这些步骤可以以其它的顺序执行。而且,图2-4中的至少一部分步骤可以包括多个子步骤或者多个阶段,这些子步骤或者阶段并不必然是在同一时刻执行完成,而是可以在不同的时刻执行,这些子步骤或者阶段的执行顺序也不必然是依次进行,而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在其中一个实施例中,如图5所示,提供了一种文本噪声数据识别装置,包括:数据获取模块510、分句处理模块520、句子相关性处理模块530和噪声预测模块540,其中:

数据获取模块510,用于获取文本数据。

分句处理模块520,用于对文本数据进行分句处理,得到切分后的句子、并提取切分后的句子的位置向量。

句子相关性处理模块530,用于将切分后的句子输入至已训练的句子相关性分类模型,得到句子相关性向量,句子相关性向量为已训练的句子相关性分类模型的隐藏层输出的用于表征句子信息的特征向量,句子相关性分类模型为采用dropout机制对携带标签数据的训练数据进行dropout处理训练得到。

噪声预测模块540,用于将句子相关性向量以及位置向量进行拼接,得到拼接矩阵、并基于拼接矩阵,对文本数据进行噪声预测,得到噪声识别结果。

如图6所示,在其中一个实施例中,装置还包括模型训练模块550,用于采集历史文本数据,历史文本数据携带标注信息,根据标注信息,对历史文本数据进行分句和打标签处理,得到携带标签数据的训练数据,为携带标签数据的训练设置对应的dropout概率,基于dropout概率,对携带标签数据的训练数据进行dropout处理,更新训练数据,采用更新后的训练数据训练初始句子相关性分类模型,得到已训练的句子相关性分类模型。

在其中一个实施例中,分句处理模块520还用于采用预设的分句算法,将文本数据切分为多个句子,根据预设的句子长度阈值,对切分后的句子进行分割或拼接,以保证切分后的句子的长度满足预设的句子长度阈值。

如图6所示,在其中一个实施例中,模型训练模块550还包括切句打标签单元552,用于将历史文本数据切分为多个句子,识别历史文本数据的标注信息,若历史文本数据的标注信息为噪声数据,则将从该历史文本数据切分出的句子的标签标记为不相关标签,得到携带相关标签的训练数据,若历史文本数据的标注信息为非噪声数据,则将从该历史文本数据切分出的句子的标签标记为相关标签,得到携带不相关标签的训练数据。

如图6所示,在其中一个实施例中,模型训练模块550还包括概率设置单元554,用于将携带相关标签的训练数据和携带不相关标签的训练数据分别输入至初始句子相关性分类模型,采用dropout机制为携带相关标签的训练数据设置第一dropout概率,采用dropout机制为携带不相关标签的训练数据设置第二dropout概率。

如图6所示,在其中一个实施例中,模型训练模块550还包括训练数据更新单元556,用于基于第一dropout概率,随机丢弃部分携带相关标签的训练数据,得到第一训练集,基于第二dropout概率,随机丢弃部分携带不相关标签的训练数据,得到第二训练集,将第一训练集以及第二训练集进行组合作为新的训练数据再次输入至初始句子相关性分类模型,返回基于第一dropout概率,随机丢弃部分携带相关标签的训练数据的步骤,直至返回次数达到预设次数阈值。

关于文本噪声数据识别装置的具体限定可以参见上文中对于文本噪声数据识别方法的限定,在此不再赘述。上述文本噪声数据识别装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中,也可以以软件形式存储于计算机设备中的存储器中,以便于处理器调用执行以上各个模块对应的操作。

在其中一个实施例中,提供了一种计算机设备,该计算机设备可以是服务器,其内部结构图可以如图7所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设备的处理器用于提供计算和控制能力,调用存储器的计算机程序。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储文本数据等。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种文本噪声数据识别方法。

本领域技术人员可以理解,图7中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

在其中一个实施例中,提供了一种计算机设备,包括至少一个处理器、至少一个存储器、以及总线;其中,处理器与存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,该处理器执行计算机程序时实现上述文本噪声数据识别方法中的步骤。

在其中一个实施例中,提供了一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现上述文本噪声数据识别方法中的步骤。本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一非易失性计算机可读取存储介质中,该计算机程序在执行时,可包括如上述各方法的实施例的流程。其中,本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用,均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(ROM)、可编程ROM(PROM)、电可编程ROM(EPROM)、电可擦除可编程ROM(EEPROM)或闪存。易失性存储器可包括随机存取存储器(RAM)或者外部高速缓冲存储器。作为说明而非局限,RAM以多种形式可得,诸如静态RAM(SRAM)、动态RAM(DRAM)、同步DRAM(SDRAM)、双数据率SDRAM(DDRSDRAM)、增强型SDRAM(ESDRAM)、同步链路(Synchlink)DRAM(SLDRAM)、存储器总线(Rambus)直接RAM(RDRAM)、直接存储器总线动态RAM(DRDRAM)、以及存储器总线动态RAM(RDRAM)等。

以上实施例的各技术特征可以进行任意的组合,为使描述简洁,未对上述实施例中的各个技术特征所有可能的组合都进行描述,然而,只要这些技术特征的组合不存在矛盾,都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本申请构思的前提下,还可以做出若干变形和改进,这些都属于本申请的保护范围。因此,本申请专利的保护范围应以所附权利要求为准。

17页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于中文触发词指导的越南语新闻事件检测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!