一种文本规整方法、装置、设备及存储介质

文档序号:1505353 发布日期:2020-02-07 浏览:10次 >En<

阅读说明:本技术 一种文本规整方法、装置、设备及存储介质 (Text normalization method, device, equipment and storage medium ) 是由 张强 于 2019-10-24 设计创作,主要内容包括:本申请提供了一种文本规整方法、装置、设备及存储介质,其中,文本规整方法包括:获取待规整文本;对待规整文本提取文本规整特征,其中,文本规整特征至少包括能够表征待规整文本语义的语义特征,以及能够表征待规整文本中重复部分的泛化特征;利用文本规整特征和预先建立的文本规整模型,确定待规整文本对应的规整文本。本申请提供的文本规整方法,可利用待规整文本的文本规整特征和预先建立的文本规整模型将待规整文本规整为句意清晰、可读性和逻辑性较强的文本。(The application provides a text normalization method, a text normalization device, equipment and a storage medium, wherein the text normalization method comprises the following steps: acquiring a text to be structured; extracting text normalization features from the text to be normalized, wherein the text normalization features at least comprise semantic features capable of representing the semantics of the text to be normalized and generalization features capable of representing repeated parts in the text to be normalized; and determining a regular text corresponding to the text to be structured by utilizing the text regular features and a pre-established text regular model. According to the text normalization method, the text to be normalized can be normalized into the text with clear sentence meaning and strong readability and logicality by utilizing the text normalization features of the text to be normalized and the pre-established text normalization model.)

一种文本规整方法、装置、设备及存储介质

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种文本规整方法、装置、设备及存储介质。

背景技术

在某些应用场景中,可能会获得文本,且获得的文本可能需要提供给目标用户阅读,然而,由于某些原因,获得的文本可能存在可读性差、意义不清等问题,这导致目标用户很难读懂文本。

以语音识别场景为例:语音输入是人机交互中最自然、最便捷的方式,在进行语音输入时,由于某些原因(比如,说话人附近的语音串入,说话人因自身紧张或思路不清发出一些无意义的语气词和重复词,说话人因为语言习惯会说一些普通人无法理解的网络词汇、个性化词汇等等),会出现语音识别系统对输入语音进行识别得到文本存在可读性差、意义不清等问题,读者根据这样的文本难以理解说话人想要表达的意思。

发明内容

有鉴于此,本申请提供了一种文本规整方法、装置、设备及存储介质,用以对存在可读性差、意义不清等问题的文本进行规整,以使读者能够读懂文本,其技术方案如下:

一种文本规整方法,包括:

获取待规整文本;

对所述待规整文本提取文本规整特征,其中,所述文本规整特征包括能够表征所述待规整文本语义的语义特征,以及能够表征所述待规整文本中重复部分的泛化特征;

利用所述文本规整特征和预先建立的文本规整模型,确定所述待规整文本对应的规整文本。

可选的,所述对所述待规整文本提取文本规整特征,包括:

针对所述待规整文本中的任一句子:

获取该句子的语义特征和泛化特征,并将该句子的语义特征和泛化特征拼接,拼接后的特征作为该句子的文本规整特征;

以得到所述待规整文本中每个句子的文本规整特征。

可选的,所述获取该句子的语义特征,包括:

针对该句子中的任一词,获取该词的词向量和词性向量,并将该词的词向量和词性向量拼接,拼接后的向量作为该词的特征向量,以得到该句子中每个词的特征向量,其中,一个词的词性向量为表征该词的词性的向量;

将该句子中各个词的特征向量拼接,拼接后的向量作为该句子的语义特征。

可选的,所述利用所述文本规整特征和预先建立的文本规整模型,确定所述待规整文本对应的规整文本,包括:

将所述待规整文本中各个句子的文本规整特征输入所述文本规整模型,获得所述待规整文本中各个句子分别对应的规整句子;

由所述待规整文本中各个句子分别对应的规整句子组成所述待规整文本对应的规整文本。

可选的,预先构建文本规整模型的过程包括:

从预先构建的训练文本集中获取训练文本,其中,所述训练数据集中包括多个训练文本,每个训练文本对应有一标注文本,一训练文本对应的标注文本为该训练文本对应的真实规整文本;

利用获取的所述训练文本和其对应的标注文本,训练文本规整模型。

可选的,所述利用获取的所述训练文本和其对应的标注文本,训练文本规整模型,包括:

对所述训练文本提取文本规整特征,作为训练文本规整特征;

确定所述训练文本对应的标注文本的掩膜向量,其中,所述掩膜向量能够表征所述训练文本对应的标注文本中需要替换的词和不需要替换的词;

利用所述训练文本规整特征、所述训练文本对应的标注文本和所述训练文本对应的标注文本的掩膜向量,训练文本规整模型。

可选的,所述确定所述训练文本对应的标注文本的掩膜向量,包括:

确定所述训练文本对应的标注文本的概率向量,其中,所述概率向量由所述训练文本对应的标注文本中每个词的前缀序列的概率组成,一个词的前缀序列为该词之前的所有词组成的词序列;

根据所述训练文本对应的标注文本的概率向量,确定所述训练文本对应的标注文本的掩膜向量。

可选的,所述根据所述训练文本对应的标注文本的概率向量,确定所述训练文本对应的标注文本的掩膜向量,包括:

对所述训练文本对应的标注文本的概率向量进行归一化,获得归一化后的概率向量;

对所述归一化后的概率向量进行一阶差分,获得一阶差分结果;

根据所述一阶差分结果,确定所述训练文本对应的标注文本的掩膜向量。

可选的,所述利用所述训练文本规整特征、所述训练文本对应的标注文本和所述训练文本对应的标注文本的掩膜向量,训练文本规整模型,包括:

利用所述训练文本规整特征、所述训练文本对应的标注文本的掩膜向量以及文本规整模型,预测所述训练文本对应的规整文本;

根据所述训练文本对应的标注文本、预测的规整文本和所述训练文本对应的标注文本的掩膜向量,确定文本规整模型的预测损失;

根据所述文本规整模型的预测损失更新文本规整模型的参数。

可选的,所述利用所述训练文本规整特征、所述训练文本对应的标注文本的掩膜向量以及文本规整模型,预测所述训练文本对应的规整文本,包括:

利用所述训练文本规整特征、所述标注文本的掩膜向量以及文本规整模型逐词预测:

在预测每个目标时刻的词时,若根据所述训练文本对应的标注文本的掩膜向量确定前一时刻的标注词是不需要替换的词,则根据前一时刻的标注词预测目标时刻的词,若根据所述训练文本对应的标注文本的掩膜向量确定前一时刻的标注词是需要替换的词,则根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词,其中,标注词为所述训练文本对应的标注文本中的词;

由预测得到的所有词组成所述训练文本对应的规整文本。

可选的,所述根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词,包括:

计算所述前一时刻的标注词与所述前一时刻的预测词之间的余弦距离;

计算前一时刻的预测词的融合门向量,其中,所述融合门向量用于控制前一时刻的标注词与所述前一时刻的预测词融合的程度;

根据所述余弦距离和所述融合门向量,确定所述前一时刻的标注词与所述前一时刻的预测词的融合向量;

根据所述融合向量确定所述目标时刻的预测词。

可选的,所述根据所述训练文本对应的标注文本、预测的规整文本和所述训练文本对应的标注文本的掩膜向量,确定文本规整模型的预测损失,包括:

根据所述训练文本对应的标注文本中不需要替换的词,以及所述标注文本中不需要替换的词对应的预测词,确定预测错误率;

确定所述训练文本对应的标注文本中需要替换的词对应的预测词的概率分布的熵;

根据所述预测错误率和所述标注文本中需要替换的词对应的预测词的概率分布的熵,确定所述文本规整模型的预测损失;

其中,所述标注文本中不需要替换的词和需要替换词根据所述训练文本对应的标注文本的掩膜向量确定。

一种文本规整装置,包括:文本获取模块、特征提取模块和文本规整模块;

所述文本获取模块,用于获取待规整文本;

所述特征提取模块,用于对所述待规整文本提取文本规整特征,其中,所述文本规整特征包括能够表征所述待规整文本语义的语义特征,以及能够表征所述待规整文本中重复部分的泛化特征;

所述文本规整模块,用于利用所述文本规整特征和预先建立的文本规整模型,确定所述待规整文本对应的规整文本。

可选的,所述特征提取模块,具体用于针对所述待规整文本中的任一句子获取该句子的语义特征和泛化特征,并将该句子的语义特征和泛化特征拼接,拼接后的特征作为该句子的文本规整特征;以得到所述待规整文本中每个句子的文本规整特征。

可选的,所述特征提取模块在获取该句子的语义特征时,具体用于针对该句子中的任一词,获取该词的词向量和词性向量,并将该词的词向量和词性向量拼接,拼接后的向量作为该词的特征向量,以得到该句子中每个词的特征向量,其中,一个词的词性向量为表征该词的词性的向量;将该句子中各个词的特征向量拼接,拼接后的向量作为该句子的语义特征。

可选的,所述文本规整模块,具体用于将所述待规整文本中各个句子的文本规整特征输入所述文本规整模型,获得所述待规整文本中各个句子分别对应的规整句子;由所述待规整文本中各个句子分别对应的规整句子组成所述待规整文本对应的规整文本。

所述的文本规整装置还包括:文本规整模型建立模块,所述文本规整模型建立模块包括训练文本获取模块和文本规整模型训练模块;

所述训练文本获取模块,用于从预先构建的训练文本集中获取训练文本,其中,所述训练数据集中包括多个训练文本,每个训练文本对应有一标注文本,一训练文本对应的标注文本为该训练文本对应的真实规整文本;

所述文本规整模型训练模块,用于利用获取的所述训练文本和其对应的标注文本,训练文本规整模型。

可选的,所述文本规整模型训练模块包括:特征提取子模块、掩膜向量确定子模块和模型训练子模块;

所述特征提取子模块,用于对所述训练文本提取文本规整特征,作为训练文本规整特征;

所述掩膜向量确定子模块,用于确定所述训练文本对应的标注文本的掩膜向量,其中,所述掩膜向量能够表征所述训练文本对应的标注文本中需要替换的词和不需要替换的词;

所述模型训练子模块,用于利用所述训练文本规整特征、所述训练文本对应的标注文本和所述训练文本对应的标注文本的掩膜向量,训练文本规整模型。

可选的,所述掩膜向量确定子模块,具体用于确定所述训练文本对应的标注文本的概率向量,根据所述训练文本对应的标注文本的概率向量,确定所述训练文本对应的标注文本的掩膜向量;其中,所述概率向量由所述训练文本对应的标注文本中每个词的前缀序列的概率组成,一个词的前缀序列为该词之前的所有词组成的词序列。

可选的,所述掩膜向量确定子模块在根据所述训练文本对应的标注文本的概率向量,确定所述训练文本对应的标注文本的掩膜向量时,具体用于对所述训练文本对应的标注文本的概率向量进行归一化,获得归一化后的概率向量,对所述归一化后的概率向量进行一阶差分,获得一阶差分结果,根据所述一阶差分结果,确定所述训练文本对应的标注文本的掩膜向量。

可选的,所述模型训练子模块包括文本预测子模块、预测损失确定子模块和参数更新子模块;

所述文本预测子模块,用于利用所述训练文本规整特征、所述训练文本对应的标注文本的掩膜向量以及文本规整模型,预测所述训练文本对应的规整文本;

所述预测损失确定子模块,用于根据所述训练文本对应的标注文本、预测的规整文本和所述训练文本对应的标注文本的掩膜向量,确定文本规整模型的预测损失;

所述参数更新子模块,用于根据所述文本规整模型的预测损失更新文本规整模型的参数。

可选的,所述文本预测子模块,具体用于利用所述训练文本规整特征、所述标注文本的掩膜向量以及文本规整模型逐词预测:在预测每个目标时刻的词时,若根据所述训练文本对应的标注文本的掩膜向量确定前一时刻的标注词是不需要替换的词,则根据前一时刻的标注词预测目标时刻的词,若根据所述训练文本对应的标注文本的掩膜向量确定前一时刻的标注词是需要替换的词,则根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词,其中,标注词为所述训练文本对应的标注文本中的词;由预测得到的所有词组成所述训练文本对应的规整文本。

可选的,所述文本预测子模块在根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词时,具体用于计算所述前一时刻的标注词与所述前一时刻的预测词之间的余弦距离,计算前一时刻的预测词的融合门向量,根据所述余弦距离和所述融合门向量,确定所述前一时刻的标注词与所述前一时刻的预测词的融合向量,根据所述融合向量确定所述目标时刻的预测词;其中,所述融合门向量用于控制前一时刻的标注词与所述前一时刻的预测词融合的程度。

可选的,所述预测损失确定子模块,具体用于根据所述训练文本对应的标注文本中不需要替换的词,以及所述标注文本中不需要替换的词对应的预测词,确定预测错误率,并确定所述训练文本对应的标注文本中需要替换的词对应的预测词的概率分布的熵,根据所述预测错误率和所述标注文本中需要替换的词对应的预测词的概率分布的熵,确定所述文本规整模型的预测损失;其中,所述标注文本中不需要替换的词和需要替换词根据所述训练文本对应的标注文本的掩膜向量确定。

一种文本规整设备,包括:存储器和处理器;

所述存储器,用于存储程序;

所述处理器,用于执行所述程序,实现上述任一项所述的文本规整方法的各个步骤。

一种可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现上述任一项所述的文本规整方法的各个步骤。

经由上述方案可知,本申请提供的文本规整方法、装置、设备及存储介质,首先获取待规整文本,然后对待规整文本提取文本规整特征,最后利用文本规整特征和预先构建的文本规整模型确定待规整文本对应的规整文本。本申请提供的文本规整方法,可利用能够表征待规整文本语义的语义特征和能够表征待规整文本中重复部分的泛化特征,以及预先建立的文本规整模型,将待规整文本规整为句意清晰、可读性和逻辑性较强的文本,这使得读者很容易读懂文本,用户体验较好。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1为本申请实施例提供的文本规整方法的流程示意图;

图2为本申请实施例提供的利用训练文本和训练文本对应的标注文本,训练文本规整模型的流程示意图;

图3为本申请实施例提供的确定训练文本对应的标注文本的掩膜向量的流程示意图;

图4为本申请实施例提供的利用训练文本规整特征、训练文本对应的标注文本和训练文本对应的标注文本的掩膜向量,训练文本规整模型的流程示意图;

图5为本申请实施例提供的根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词的流程示意图;

图6为本申请实施例提供的文本规整装置的结构示意图;

图7为本申请实施例提供的文本规整设备的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

为了实现文本规整,本案发明人进行了研究,起初的思路是:

将文本规整转换为二分类问题,即对待规整文本中的词进行“删除”或“保留”操作,其基本过程可以包括:首先,对待规整文本进行分词处理,得到词序列;接着,将词序列输入到预先建立的文本规整模型中进行二分类,得到待规整文本中每个词的分类结果,待规整文本中每个词的分类结果可通过“0”或“1”表征,若一个词的分类结果为“0”,则表明该词需要删除,若一个词的分类结果为“1”,则表明该词需要保留,在获得规整文本中每个词的分类结果后,根据分类结果将待规整文本中需要删除的词删除,将所有保留下来的词按顺序拼接,拼接后的文本即为规整后的文本。

然而,上述的文本规整方法目标单一,其只是删除待规整文本中需要剔除的词,即规整后的文本是原文本的子集,将需要删除的词删除后得到的文本只是初步具备可读性,即上述的文本规整方法的规整效果不佳。

发明人通过研究发现,为了获得可读性强、语意清晰的文本,除了需要考虑待规整文本中需要进行删除操作的词外,还需要考虑需要进行替换操作的词(比如普通人无法理解的网络词汇、个性词汇)、需要进行添加操作的词(比如衔接上下文的代词)、需要进行调序操作的词(比如句子中次序紊乱的词汇)等,这些词恰恰对语义准确性和连贯性起着关键作用。

为此,本案发明人进一步进行研究,最终提出了一种效果较好的文本规整方法,该文本规整方法用于将存在可读性差、意义不清等问题的文本规整为可读性强、语义清晰的文本,该文本规整方法可以作为语音识别的后处理,即对语音识别系统的识别文本进行文本规整,当然,本实施例并不限定于此,还可应用于其它需要进行文本规整的应用场景,该文本规整方法可应用于具有数据处理能力的终端,也可以应用于服务器。接下来通过下述实施例对本申请提供的文本规整方法进行介绍。

请参阅图1,示出了本申请实施例提供的文本规整方法的流程示意图,该方法可以包括:

步骤S101、获取待规整文本。

可选的,待规整文本可以但不限定为通过对口语化的语音数据进行语音识别得到文本,待规整文本可以包括一个句子,也可以包括多个句子。

步骤S102、对待规整文本提取文本规整特征。

其中,文本规整特征可以包括语义特征和泛化特征,其中,语义特征为能够表征待规整文本语义的特征,泛化特征为离散特征,其为能够表征待规整文本中重复部分的特征。

具体的,对待规整文本提取文本规整特征的过程包括:针对待规整文本中的任一句子,获取该句子的语义特征和泛化特征,并将该句子的语义特征和泛化特征拼接,拼接后的特征作为该句子的文本规整特征,以得到待规整文本中每个句子的文本规整特征。

其中,获取一个句子的语义特征的过程包括,包括:针对该句子中的任一词,获取该词的词向量和词性向量,并将该词的词向量和词性向量拼接,拼接后的向量作为该词的特征向量,以得到该句子中每个词的特征向量;将该句子中各个词的特征向量拼接,拼接后的向量作为该句子的语义特征。

需要说明的是,一个词的词向量为能够表征该词的向量,一个词的词性向量为能够表征该词的词性的向量。

具体的,获取一个句子中各个词的词向量和词性向量的过程包括:对该句子进行分词处理,以获得该句子中的各个词,在获得该句子中的各个词后,对每个词进行词性标注,然后确定每个词的词向量,并根据每个词的词性标注确定每个词的词性向量。可选的,可使用word2vec方法或其它方法确定每个词的词向量,可使用条件随机场或其它方法确定每个词的词性向量。

示例性的,待规整文本中的一个句子为“这嗯真是一个一个一刻赛艇的想法”,首先对该句子进行分词得到词序列“这嗯真是一个一个一刻赛艇的想法”,然后对词序列中的每个词进行词性标注得到:“这/代词嗯/助词真是/副词一个/量词一个/量词一刻赛艇/形容词的/助词想法/名词”,最后根据分词结果和词性标注结果确定待规整文本中每个词的词向量和每个词的词性向量。

步骤S103、利用文本规整特征和预先构建的文本规整模型,确定待规整文本对应的规整文本。

需要说明的是,待规整文本对应的规整文本即为对待规整文本进行规整后的文本。

经由步骤S102可获得待规整文本中每个句子的文本规整特征,在获得待规整文本中每个句子的文本规整特征后,可将规整文本中每个句子的文本规整特征输入预先建立的文本规整模型,获得待规整文本中每个句子对应的规整句子,将待规整文本中各个句子对应的规整句子组成待规整文本对应的规整文本。

需要说明的是,文本规整模型的输入为一个句子的文本规整特征,输出为词序列,该词序列组成的句子即为规整句子,即规整后的句子。

本申请实施例提供的文本规整方法,首先获取待规整文本,然后对待规整文本提取文本规整特征,最后利用文本规整特征和预先构建的文本规整模型确定待规整文本对应的规整文本。本申请实施例提供的文本规整方法,可利用待规整文本的文本规整特征和文本规整模型对待规整文本进行有效规整,从而能够获得可读性、准确性和逻辑性较佳的规整文本,这样的规整文本能够帮助读者准确理解待规整文本原本想要表达的意思,用户体验较好。

经由上述实施例可知,待规整文本对应的规整文本利用预先建立的文本规整模型确定。接下来对预先建立文本规整模型的过程进行介绍。

预先构建文本规整模型的过程可以包括:从预先构建的训练文本集中获取训练文本;利用训练文本和训练文本对应的标注文本,训练文本规整模型。

其中,训练文本集中包括多个训练文本,每个训练文本对应有一标注文本,一训练文本对应的标注文本为该训练文本对应的真实规整文本。示例性的,一训练文本为“这嗯真是一个一个一刻赛艇的想法”,则该训练文本对应的标注文本为“这真是一个一刻赛艇的想法”。

本实施例中的文本规整模型可以为端到端的神经网络模型,该模型可以包括编码器和解码器,其中,编码器可以为由CNN、LSTM等网络层构成的特征提取器,同样的,解码器也可由LSTM、CNN等网络层构成,解码器端可引入注意力机制,以对编码特征进行有效利用。

请参阅图2,示出了利用训练文本和训练文本对应的标注文本,训练文本规整模型的流程示意图,可以包括:

步骤S201、对训练文本提取文本规整特征,作为训练文本规整特征。

对训练文本提取文本规整特征的过程与上述实施例提供的“对待规整文本提取文本规整特征”的实现过程类似,本实施例在此不作赘述。

步骤S202、确定训练文本对应的标注文本的掩膜向量。

其中,训练文本对应的标注文本的掩膜向量由训练文本对应的标注文本中各个词分别对应的掩膜值组成,任一词对应的掩膜值能够表征该词是否为需要进行替换的词,即训练文本对应的标注文本的掩膜向量能够表征训练文本对应的标注文本中需要替换的词和不需要替换的词。

示例性的,一训练样本对应的标注文本为“这真是一个一刻赛艇的想法”,假设该标注文本中的词“一刻赛艇”为需要替换的词,其它词均为不需要替换的词,则词“这”、“真是”、“一个”、“一刻赛艇”、“的”、“想法”对应的掩膜值均为1,“一刻赛艇”对应的掩膜值为0,如此可获得标注文本“这真是一个一刻赛艇的想法”的掩膜向量[1 1 1 0 1 1]。

步骤S203、利用训练文本规整特征、训练文本对应的标注文本和训练文本对应的标注文本的掩膜向量,训练文本规整模型。

以下分别对上述的步骤S202和步骤S203的具体过程进行介绍。

请参阅图3,示出了上述的“步骤S202、确定训练文本对应的标注文本的掩膜向量”的实现过程的流程示意图,可以包括:

步骤S301、确定训练文本对应的标注文本的概率向量。

其中,训练文本对应的标注文本的概率向量由训练文本对应的标注文本中每个词的前缀序列的概率组成。

需要说明的是,一个词的前缀序列指的是该词之前的所有词组成的词序列。示例性的,一训练样本对应的标注文本为“这真是一个一刻赛艇的想法”,其中,词“一个”的前缀序列为“这真是”,词“想法”的前缀序列为“这真是一个一刻赛艇的”。

在一种可能的实现方式中,可利用RNN语言模型确定标注文本中每个词的前缀序列的概率。需要说明的是,RNN语言模型是一个通用的神经网络语言模型,该RNN语言模型的训练数据可以是文本规整模型的训练文本,也可以为其它文本,也就是说,RNN语言模型的训练数据可以是任意文本。

RNN语言模型的输入为标注文本中各个词组成的词序列,输出为一串概率值。示例性的,词序列为“这真是一个一刻赛艇的想法”,将其输入RNN语言模型后,可获得7个概率值,分别为p(这|<s>)、p(真是|<s>,这)、p(一个|<s>,这,真是)、p(一刻赛艇|<s>,这,真是,一个)、p(的|<s>,这,真是,一个,一刻赛艇)、p(想法|<s>,这,真是,一个,一刻赛艇,的)、p(</s>|<s>,这,真是,一个,一刻赛艇,的,想法),这7个概率值组成一个7维的概率向量。

步骤S302、根据训练文本对应的标注文本的概率向量,确定训练文本对应的标注文本的掩膜向量。

概率向量中的每个值都表示一个前缀序列的概率,可以理解的是,对于常见的前缀序列,其概率较大,对于不常见的前缀序列,其概率较小。示例性的,上述示例的概率中,p(这|<s>)、p(真是|<s>,这)、p(一个|<s>,这,真是)、p(一刻赛艇|<s>,这,真是,一个)较大,因为这四个概率分别对应的前缀序列“<s>”、“<s>这”、“<s>这真是”和“<s>,这,真是,一个”较为常见,“<s>这真是一个一刻赛艇”由于用词较为个性化,在训练语料中不常见,因此,其对应的概率p(的|<s>,这,真是,一个,一刻赛艇)较小,而前缀序列“<s>这真是一个一刻赛艇的”和前缀序列“这真是一个一刻赛艇的想法”由于包含“<s>这真是一个一刻赛艇”,因此,p(想法|<s>,这,真是,一个,一刻赛艇,的)和p(</s>|<s>,这,真是,一个,一刻赛艇,的,想法)也较小。

具体的,根据训练文本对应的标注文本的概率向量,确定训练文本对应的标注文本的掩膜向量的过程可以包括:

步骤S3021、对训练文本对应的标注文本的概率向量进行归一化,获得归一化后的概率向量。

可选的,对训练文本对应的标注文本的概率向量进行归一化的方式可以为:用概率向量中的每个概率除以概率向量中的最小概率。

步骤S3022、对归一化后的概率向量进行一阶差分,获得一阶差分结果。

示例性的,归一化后的概率向量为v=[50,34,45,2,3,1,4],则对该概率向量进行一阶差分可得到v′=[-16,11,-43,1,-2,3]。

步骤S3023、根据一阶差分结果,确定训练文本对应的标注文本的掩膜向量。

具体的,从一阶差分结果中确定出差分最小值,根据差分最小值确定训练文本对应的标注文本中需要替换的词,其余词即为不需要替换的词,根据训练文本对应的标注文本中需要替换的词和不需要替换的词生成训练文本对应的标注文本的掩膜向量。

示例性的,训练文本对应的标注文本为“这真是一个一刻赛艇的想法”,假设对该标注文本的概率向量进行归一化和一阶差分后得到v′=[-16,11,-43,1,-2,3],其中,-43为差分最小值,由于最小差分值根据概率45和概率2确定,而概率45对应的词为“一个”,概率“2”对应的词为“一刻赛艇”,这说明由“一个”到“一刻赛艇”的过程中出现了差分最小值,因此,将“一刻赛艇”确定为需要替换的词,其它词为不需要替换的词,需要替换的词标记为“0”,不需要替换的词标记为“1”,如此可获得训练文本对应的标注文本“这真是一个一刻赛艇的想法”的掩膜向量[1 1 1 0 1 1]。

接下来对上述的“步骤S203、利用训练文本规整特征、训练文本对应的标注文本和训练文本对应的标注文本的掩膜向量,训练文本规整模型”进行介绍。

需要说明的是,本申请对文本规整模型进行训练的原则是,对训练文本中的常见词不作替换处理,即通过保留词来保持原意,对训练文本中的特殊词汇替换为常见的近义词。基于此,请参阅图4,示出了利用训练文本规整特征、训练文本对应的标注文本和训练文本对应的标注文本的掩膜向量,训练文本规整模型的流程示意图,可以包括:

步骤S401、利用训练文本规整特征、训练文本对应的标注文本的掩膜向量以及文本规整模型,预测训练文本对应的规整文本。

具体的,利用训练文本规整特征、训练文本对应的标注文本的掩膜向量以及文本规整模型逐词预测:在预测每个目标时刻的词时,若根据训练文本对应的标注文本的掩膜向量确定前一时刻的标注词是不需要替换的词,则根据前一时刻的标注词预测目标时刻的词,若根据训练文本对应的标注文本的掩膜向量确定前一时刻的标注词是需要替换的词,则根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词;最后由预测得到的所有词组成训练文本对应的规整文本。其中,标注词为训练文本对应的标注文本中的词。

示例性的,训练文本对应的标注文本为“这真是一个一刻赛艇的想法”,该标注文本的掩膜向量为[1 1 1 0 1 1],掩膜向量的第2个位置处的值为1,说明该处的词在做规整时,不需要进行替换,因此,可以将标注文本中的第2个词作为第3时刻的预测输入,掩膜向量的第4个位置处的值为0,假设在第4时刻,文本规整模型预测的词为“令人激动”,那么,在预测第5个时刻的输出词时,对第4时刻的预测词和第4时刻的标注词作融合处理,并根据融合处理结果预测第5个时刻的输出词,即,将“令人激动”和“一刻赛艇”的词向量进行融合,进而根据融合结果预测第5个时刻的输出词。

上述实现过程中“根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词”具体过程可参见后续实施例的说明。

步骤S402、根据训练文本对应的标注文本、预测的规整文本和训练文本对应的标注文本的掩膜向量,确定文本规整模型的预测损失。

根据训练文本对应的标注文本、预测的规整文本和训练文本对应的标注文本的掩膜向量,确定文本规整模型的预测损失的过程可以包括:根据训练文本对应的标注文本不需要替换的词,以及训练文本对应的标注文本中不需要替换的词对应的预测词,确定预测错误率;确定训练文本对应的标注文本中需要替换的词对应的预测词的概率分布的熵;根据预测错误率和标注文本中需要替换的词对应的预测词的概率分布的熵,确定文本规整模型的预测损失。其中,训练文本对应的标注文本中不需要替换的词和需要替换词根据训练文本对应的标注文本的掩膜向量确定。

具体的,可利用如下损失函数确定文本规整模型的预测损失:

其中,mask为训练文本对应的标注文本的掩膜向量,

Figure BDA0002246099500000152

即为上述的预测错误率,H(Pfusion)即为训练文本对应的标注文本中需要替换的词对应的预测词的概率分布的熵。上述损失函数将迫使模型学习在mask为1的位置时的预测词最大程度和对应的标注词一致,同时,在mask为0的位置时的预测词存在多样性,即,使模型具备替换特殊词汇的能力。

步骤S403、根据文本规整模型的预测损失更新文本规整模型的参数。

以下对上述实施例中提及的“根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词”的实现过程进行介绍。

请参阅图5,示出了根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词的流程示意图,可以包括:

步骤S501、计算前一时刻的标注词与前一时刻的预测词之间的余弦距离。

具体的,前一时刻的标注词和前一时刻的预测词之间的余弦距离λ可通过下式计算:

Figure BDA0002246099500000153

其中,s1为前一时刻的预测词的词向量,s2为前一时刻的标注词的词向量。

步骤S502、计算前一时刻的预测词的融合门向量。

其中,融合门向量用于控制前一时刻的标注词与前一时刻的预测词融合的程度,融合程度大将增加近义词出现的可能性,融合程度小将避免非近义词误出现。

具体地,前一时刻的预测词的融合门向量gt可通过下式计算:

gt=σ(W·[s1;s2]+b) (3)

其中,W是一个矩阵,b是一个向量,σ是一个激活函数,可以为sigmoid或者tanh函数等,gt是一个向量,其维度和预测词的词向量维度相同。

步骤S503、根据前一时刻的标注词与前一时刻的预测词之间的余弦距离以及前一时刻的预测词的融合门向量,确定前一时刻的标注词与前一时刻的预测词的融合向量。

融合向量主要是用来表示预测词和标注词的融合结果,该融合结果中既包含标注词的信息又包含预测词的信息,模型在训练过程中使得二者相关性增加。

获得前一时刻的标注词与前一时刻的预测词之间的余弦距离λ以及前一时刻的预测词的融合门向量gt后,可通过下式计算前一时刻的标注词与前一时刻的预测词的融合向量:

Figure BDA0002246099500000161

其中,表示向量对应元素相乘,U是一个矩阵,用来对其针对的向量做变换,具体变换过程可以根据需要自行设定,

Figure BDA0002246099500000163

决定预测词融入到标注词的比例,可以自行设定,也可以根据经验值对其进行设定,φ是激活函数。

步骤S504、根据融合向量确定目标时刻的预测词。

经由上述训练过程训练完文本规整模型后,便可利用训练得到的文本规整模型对待规整文本进行规整,从而可获得可读性和逻辑性较强、语意较清晰的规整文本。

下面对本申请实施例提供的文本规整装置进行描述,下文描述的文本规整装置与上文描述的文本规整方法可相互对应参照。

请参照图6,图6为本申请实施例提供的一种文本规整装置的结构示意图。如图6所示,该装置可以包括:文本获取模块601、特征提取模块602和文本规整模块603。

文本获取模块601,用于获取待规整文本;

特征提取模块602,用于对所述待规整文本提取文本规整特征,其中,所述文本规整特征包括能够表征所述待规整文本语义的语义特征,以及能够表征所述待规整文本中重复部分的泛化特征;

文本规整模块603,用于利用所述文本规整特征和预先建立的文本规整模型,确定所述待规整文本对应的规整文本。

本申请实施例提供的文本规整装置,可利用待规整文本的文本规整特征和文本规整模型对待规整文本进行有效规整,从而能够获得可读性、准确性和逻辑性较佳的规整文本,这样的规整文本能够帮助读者准确理解待规整文本原本想要表达的意思,用户体验较好。

在一种可能的实现方式中,上述实施例提供的文本规整装置中的特征提取模块602,具体用于针对所述待规整文本中的任一句子获取该句子的语义特征和泛化特征,并将该句子的语义特征和泛化特征拼接,拼接后的特征作为该句子的文本规整特征;以得到所述待规整文本中每个句子的文本规整特征。

在一种可能的实现方式中,上述实施例提供的文本规整装置中的特征提取模块在获取该句子的语义特征时,具体用于针对该句子中的任一词,获取该词的词向量和词性向量,并将该词的词向量和词性向量拼接,拼接后的向量作为该词的特征向量,以得到该句子中每个词的特征向量,其中,一个词的词性向量为表征该词的词性的向量;将该句子中各个词的特征向量拼接,拼接后的向量作为该句子的语义特征。

在一种可能的实现方式中,上述实施例提供的文本规整装置中的文本规整模块,具体用于将所述待规整文本中各个句子的文本规整特征输入所述文本规整模型,获得所述待规整文本中各个句子分别对应的规整句子;由所述待规整文本中各个句子分别对应的规整句子组成所述待规整文本对应的规整文本。

上述实施例提供的文本规整装置还包括:文本规整模型建立模块,所述文本规整模型建立模块包括训练文本获取模块和文本规整模型训练模块。

所述训练文本获取模块,用于从预先构建的训练文本集中获取训练文本,其中,所述训练数据集中包括多个训练文本,每个训练文本对应有一标注文本,一训练文本对应的标注文本为该训练文本对应的真实规整文本;

所述文本规整模型训练模块,用于利用获取的所述训练文本和其对应的标注文本,训练文本规整模型。

在一种可能的实现方式中,上述的文本规整模型训练模块包括:特征提取子模块、掩膜向量确定子模块和模型训练子模块。

所述特征提取子模块,用于对所述训练文本提取文本规整特征,作为训练文本规整特征。

所述掩膜向量确定子模块,用于确定所述训练文本对应的标注文本的掩膜向量,其中,所述掩膜向量能够表征所述训练文本对应的标注文本中需要替换的词和不需要替换的词。

所述模型训练子模块,用于利用所述训练文本规整特征、所述训练文本对应的标注文本和所述训练文本对应的标注文本的掩膜向量,训练文本规整模型。

在一种可能的实现方式中,上述的掩膜向量确定子模块,具体用于确定所述训练文本对应的标注文本的概率向量,根据所述训练文本对应的标注文本的概率向量,确定所述训练文本对应的标注文本的掩膜向量;其中,所述概率向量由所述训练文本对应的标注文本中每个词的前缀序列的概率组成,一个词的前缀序列为该词之前的所有词组成的词序列。

在一种可能的实现方式中,上述的掩膜向量确定子模块在根据所述训练文本对应的标注文本的概率向量,确定所述训练文本对应的标注文本的掩膜向量时,具体用于对所述训练文本对应的标注文本的概率向量进行归一化,获得归一化后的概率向量,对所述归一化后的概率向量进行一阶差分,获得一阶差分结果,根据所述一阶差分结果,确定所述训练文本对应的标注文本的掩膜向量。

在一种可能的实现方式中,上述的模型训练子模块包括文本预测子模块、预测损失确定子模块和参数更新子模块。

所述文本预测子模块,用于利用所述训练文本规整特征、所述训练文本对应的标注文本的掩膜向量以及文本规整模型,预测所述训练文本对应的规整文本。

所述预测损失确定子模块,用于根据所述训练文本对应的标注文本、预测的规整文本和所述训练文本对应的标注文本的掩膜向量,确定文本规整模型的预测损失。

所述参数更新子模块,用于根据所述文本规整模型的预测损失更新文本规整模型的参数。

在一种可能的实现方式中,上述的文本预测子模块,具体用于利用所述训练文本规整特征、所述标注文本的掩膜向量以及文本规整模型逐词预测:在预测每个目标时刻的词时,若根据所述训练文本对应的标注文本的掩膜向量确定前一时刻的标注词是不需要替换的词,则根据前一时刻的标注词预测目标时刻的词,若根据所述训练文本对应的标注文本的掩膜向量确定前一时刻的标注词是需要替换的词,则根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词,其中,标注词为所述训练文本对应的标注文本中的词;由预测得到的所有词组成所述训练文本对应的规整文本。

在一种可能的实现方式中,上述的文本预测子模块在根据前一时刻的标注词和前一时刻的预测词,预测目标时刻的词时,具体用于计算所述前一时刻的标注词与所述前一时刻的预测词之间的余弦距离,计算前一时刻的预测词的融合门向量,根据所述余弦距离和所述融合门向量,确定所述前一时刻的标注词与所述前一时刻的预测词的融合向量,根据所述融合向量确定所述目标时刻的预测词;其中,所述融合门向量用于控制前一时刻的标注词与所述前一时刻的预测词融合的程度。

在一种可能的实现方式中,上述的预测损失确定子模块,具体用于根据所述训练文本对应的标注文本中不需要替换的词,以及所述标注文本中不需要替换的词对应的预测词,确定预测错误率,并确定所述训练文本对应的标注文本中需要替换的词对应的预测词的概率分布的熵,根据所述预测错误率和所述标注文本中需要替换的词对应的预测词的概率分布的熵,确定所述文本规整模型的预测损失;其中,所述标注文本中不需要替换的词和需要替换词根据所述训练文本对应的标注文本的掩膜向量确定。

本申请实施例还提供了一种文本规整设备,请参阅图7,示出了该文本规整设备的结构示意图,该文本规整设备可以包括:至少一个处理器701,至少一个通信接口702,至少一个存储器703和至少一个通信总线704;

在本申请实施例中,处理器701、通信接口702、存储器703、通信总线704的数量为至少一个,且处理器701、通信接口702、存储器703通过通信总线704完成相互间的通信;

处理器701可能是一个中央处理器CPU,或者是特定集成电路ASIC(ApplicationSpecific Integrated Circuit),或者是被配置成实施本发明实施例的一个或多个集成电路等;

存储器703可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory)等,例如至少一个磁盘存储器;

其中,存储器存储有程序,处理器可调用存储器存储的程序,所述程序用于:

获取待规整文本;

对所述待规整文本提取文本规整特征,其中,所述文本规整特征包括能够表征所述待规整文本语义的语义特征,以及能够表征所述待规整文本中重复部分的泛化特征;

利用所述文本规整特征和预先建立的文本规整模型,确定所述待规整文本对应的规整文本。

可选的,所述程序的细化功能和扩展功能可参照上文描述。

本申请实施例还提供一种可读存储介质,该可读存储介质可存储有适于处理器执行的程序,所述程序用于:

获取待规整文本;

对所述待规整文本提取文本规整特征,其中,所述文本规整特征包括能够表征所述待规整文本语义的语义特征,以及能够表征所述待规整文本中重复部分的泛化特征;

利用所述文本规整特征和预先建立的文本规整模型,确定所述待规整文本对应的规整文本。

最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

22页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于BS架构的电子病历编辑器

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!