一种针对海量高噪音口语化短文本的文本筛选方法

文档序号：1938140 发布日期：2021-12-07 浏览：10次 >En<

阅读说明：本技术 一种针对海量高噪音口语化短文本的文本筛选方法 (Text screening method for high-volume high-noise spoken short text ) 是由戚梦苑孙晓晨万辛李沁刘发强孙旭东倪善金吴广君梁睿琪于 2020-06-05 设计创作，主要内容包括：本发明提出一种针对海量高噪音口语化短文本的文本筛选方法,属于自然语言处理领域,通过对训练语料和待筛选的目标文本进行预处理；对预处理后的训练语料中的标注的正类语料进行句式信息提取,区分出业务强相关句式和弱相关句式；利用提取的句式信息对预处理后的目标文本进行句式匹配,将业务强相关句式的匹配结果归为正类文本,对业务弱相关句式的匹配结果进行以下步骤的处理；对目标文本和训练语料都进行文本处理,将处理后的文本转化为词向量表示；使用训练语料的词向量表示训练文本分类模型,将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类,实现对目标文本的文本筛选。(The invention provides a text screening method aiming at a high-sea high-noise spoken short text, which belongs to the field of natural language processing, and is characterized in that training corpora and a target text to be screened are preprocessed; carrying out sentence pattern information extraction on the labeled positive-class linguistic data in the preprocessed training linguistic data, and distinguishing a business strong relevant sentence pattern and a business weak relevant sentence pattern; carrying out sentence pattern matching on the preprocessed target text by utilizing the extracted sentence pattern information, classifying the matching result of the strong business related sentence pattern into a positive text, and carrying out the following steps of processing on the matching result of the weak business related sentence pattern; performing text processing on both the target text and the training corpus, and converting the processed text into word vector representation; and expressing the word vector of the training corpus to a training text classification model, and inputting the word vector expression of the target text into the trained text classification model to classify the text, so as to realize text screening of the target text.)

技术领域

本发明涉及一种针对海量高噪声口语化短文本的筛选方法，可对高错误率的文本进行降噪，并根据语义相似度和句式信息进行文本筛选，属于自然语言处理领域。

背景技术

随着通信技术的多样化和便捷化以及计算机网络的迅速发展，人们之间的远程交流变得更加低成本、高质量，互联网的发展也使人们可以更便捷的在线上发出自己的声音，这些交流和表达不同于书面文字，口语化短文本具有一些明显区别于常见书面语料的特征：

1.语法复杂且不规范：由于人们在说话时往往不如书面表达那样规范严谨，更多时候以便捷、符合习惯为主，口语化短文本中从句多、语序颠倒、指代不明确等情况十分常见；

2.用词口语化：语音交流尤其是非正式场合的日常交流，人们在用词方面可能习惯性带有许多口语化的词汇，比如方言特有词汇、常用英文词汇、缩略词汇以及流行词汇；

3.口音和方言：由于不同地方的人有不同的语言表达习惯，地域性差异极大，比如粤语的用词和语句句式，都和以北方方言为基础的普通话有相当大的差异，这些不同会造成口语化短文本在表达上的高差异性；

4.高噪声：由于部分口语化短文本可能来自于语音转译，语音信号传输依赖于通信环境，网络信号的不稳定以及环境噪声会极大地影响语音信号的质量，导致部分口语化短文本的错误和片段性遗漏。

5.语句长度较短：由于大多数情况下人们的口语表达不常用修饰繁复的复杂句式，偏向于使用简洁清晰的表达，并且其中包含许多仅表示应答的无意义词汇，如“嗯”“喂”，有效的语句长度普遍较短。

口语化短文本具有的高噪声、高错误率、规范性差、语句长度短等特点，给文本分类带来了极大的难度。

在自然语言处理任务中，文本分类是重要的一环。中文文本分类的步骤往往分为数据预处理、文本表示、使用分类模型分类三个。数据预处理包含数据清洗、中文分词、词性标注等工作。文本表示是将中文词汇数字化，以便于分类模型进行计算。文本分类模型主流的大致有基于统计学习的经典分类模型，如朴素贝叶斯分类器、支持向量机、Rocchio算法、KNN等，基于统计学习的方法计算量较小、复杂度低、且需要的训练预料较少，但这些算法的精度对文本质量的依赖很大，难以应对高复杂性和高差异性的文本，受文本噪音影响大，文本长度过短可能使分类准确度大大降低，不足以应对海量口语化短文本的分类。

近年来兴起的机器学习技术，尤其是利用高复杂度的神经网络实现的深度学习算法，在自然语言处理的多个任务分支中取得了极佳的效果，几乎成为了处理复杂的文本分类任务的不二选择。但这些深度学习算法在取得很好的成效的同时也有很大的成本和代价。(1)缺乏可解释性：高复杂度的神经网络的输入一般是将文本经过预处理得到的向量(词向量或者句向量)，将自然语言数字化，输出为预测结果或分类结果，中间过程模糊，不易理解和控制；(2)巨大的计算量：深层神经网络的训练往往需要巨大的计算量，训练时间动辄需要数天，参数往往也比较复杂，为了选择合适的参数需要很长的时间试错；(3)受限于训练语料：深度学习算法的最终效果与训练语料的质量和数量有很大关系，越是复杂的网络往往越是需要大量的训练数据，但口语化短文本使用人工标注的成本很高，且不能应对不同体裁不同领域的语料，想要解决某一领域的文本分类问题，只能花费大量时间构建该领域的语料库，如医学、新闻传媒等，再训练针对该领域语料的模型。

发明内容

本发明的目的就是实现一种针对海量高噪音口语化短文本的文本筛选方法，解决口语化短文本分类中噪声干扰大、训练语料需求量大、分类准确率低等问题，并可根据需要通过业务标注对模型进行提高和修正，进一步提高分类准确度。

为实现上述目的，本发明采用以下技术方案：

一种针对海量高噪音口语化短文本的文本筛选方法，包括以下步骤：

对训练语料和待筛选的目标文本进行预处理；

对预处理后的训练语料中的标注的正类语料进行句式信息提取，将含有所标注的关键词(亦即与业务相关)的句式作为业务强相关句式，将不含有所标注的关键词的句式作为业务弱相关句式；

利用提取的句式信息对预处理后的目标文本进行句式匹配，将业务强相关句式的匹配结果归为正类文本，对业务弱相关句式的匹配结果进行以下步骤的处理；

对目标文本和训练语料都进行文本处理，将处理后的文本转化为词向量表示；

使用训练语料的词向量表示训练文本分类模型，将目标文本的词向量表示输入到训练好的文本分类模型中对文本进行分类，实现对目标文本的文本筛选。

进一步地，文本分类模型包括TextCNN、FastText、TextRNN、HierarchicalAttention Network、seq2seq with attention等模型，优选TextCNN模型。

进一步地，对目标文本进行文本筛选后，检测筛选结果是否含有标注信息，若有，则根据标注信息更新训练语料库，并对文本分类模型(如TextCNN模型)进行重新训练。

进一步地，预处理包括分词、降噪和拼音替代。

进一步地，预处理的步骤包括：

首先，通过jieba中文分词器切词；

其次，利用滑动窗口对文本进行错误检测，通过n-gram模型计算极大似然估计构造语言模型，若计算出的概率低于合法阈值，则判断滑动窗口处的文本出错；

再次，对于字粒度的错误，使用近音词词典取得候选集，通过n-gram模型计算滑动窗口内的句子合法度，对所有候选集结果进行比较并排序，得到最优纠正字；对于词粒度的错误，直接采用拼音替代该词。

进一步地，句式匹配的步骤包括：对文本中的句子进行句式提取；比较句式之间的相似度，选择相似度最大的句式进行匹配。

进一步地，句式提取的步骤包括：对句子进行分词，对词性进行标注；对于句子中的主语、宾语、宾补成分表示动作对象的部分，剔除包括人名、地名、组织机构名在内的名词性成分，以其词性标签替代，保留代词；在状语中的时间地点用词性标签替代，定语中的修饰性成分替换为统一的字符表示；动词和连词部分形成备选词列表，句式以词汇和词性标签的列表表示。

进一步地，比较句式之间的相似度的步骤包括：将含有语义的词汇转化为词向量，基于编辑距离计算其词向量在向量空间中的欧式距离；将在同一个备选动词列表中的动词作为相同词汇，将不在备选词列表中的动词，选取与词汇列表中的最小距离的词汇，作为最大相似度的词汇，根据上述相同词汇或最大相似度的词汇进行句式匹配。

进一步地，文本处理是对文本进行长度限制，去口语词和合并重复词的操作。

进一步地，文本处理的步骤包括：

利用滑动窗口扫描文本，对滑动窗口内出现两次及以上的词只保留第一个；

建立口语词词库，对出现的无意义口语词汇进行剔除；

对于有效词汇少于5个文本予以剔除，计算训练文本的平均长度，对于长度是该平均长度1.5倍以上的文本进行截取，截取位置为平均长度最近处的句子末尾，以保留完整的语句。

进一步地，文本转化为词向量表示的步骤为：对处理后的文本使用word-to-vector模型训练词向量，将文本表示为词向量；对于采用拼音替代的词汇，基于编辑距离计算拼音相似度，并根据相似度大小找到发音与该拼音的相似度最高的词汇，用该词汇的词向量作为该拼音替代词的词向量，得到最终的词向量表示。

与深度学习的方法和经典的基于统计学习的自然语言处理算法相比，本发明方法首先利用计及拼音相似度的文本纠错算法对口语化短文本进行了降噪处理，融合了句式提取和匹配、规则过滤、语义相似度分析等技术，计算量相对较小，准确率高，所需训练语料较少，可根据业务标注信息反馈提高模型正确率。

该发明主要创新点是：(1)海量高噪音口语化短文本数据的预处理降噪方法，纠正字粒度错误，使用拼音替代难以纠正的词粒度错误；(2)提出一种轻量级的语义相关性筛选方法。传统的文本分类对语料库要求高，计算复杂度大，本方法提出了一种融合惯用句式提取及匹配、结合词汇和拼音相似度的词向量表示、基于文本分类模型(如TextCNN模型)的语义相关性分析的轻量级口语化短文本筛选方法。(3)基于业务标注信息的反馈式模型修正方法，可持续的提高模型分类准确度。

附图说明

图1是口语化短文本分类流程图。

图2是中文语句句式抽取与匹配结果示例图。

图3是文本化简示例图。

图4是TextCNN文本分类模型训练流程图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白，以下结合附图，对根据本发明对自然语言文本的惯用句式提取的方法和步骤进一步详细说明。

本发明的主要目的是提供一种针对海量高噪声口语化短文本的文本筛选方法，根据少量的训练语料，进行高准确率分类，并根据业务人员标注文本，对分类模型进行反馈式修正。

根据本发明的第一个方面，采用基于改良的拼音相似度模糊匹配的的中文文本纠错算法：根据口语化短文本的特征，大部分词汇错误是音近词和同音词错误(因为拼音输入或语音转译的问题)。中文文本纠错分为错误检测、错误纠正和拼音替换。错误检测部分从字粒度和词粒度两方面检测错误，得到疑似错误位置候选集；错误纠正部分，对于字粒度的错误，可使用n-gram语言模型进行纠正(使用候选词典得到替换错误位置的备选词，然后通过n-gram模型计算句子合法度，对所有候选集结果比较并排序，得到最优纠正字)；对于词粒度的错误，由于口语化短文本高噪音和高错漏率且语句较短的特点，难以通过句子其他部分使用算法推断出纠正词，此时使用拼音对该词进行替代。

根据本发明的第二个方面，根据已针对训练语料提取的惯用句式，进行文本模式相关性匹配。对于某些特定类型的文本，有惯用的表达句式，抽取训练语料中正类语料的常用的句式，对待分类语料进行句式匹配，可以剔出大部分的负类文本。句式抽取部分：首先对句子进行分词和依存句法分析，基于规则剔出表示具体动作对象的词汇，保留句子主干。句式匹配部分将句子主干中的词汇使用word-to-vector算法转化为词向量，根据词向量计算词汇相似度，根据编辑距离计算整体句式的相似度。

根据本发明的第三个方面，对语料进行针对口语化短文本特点的处理和词向量表示，使用文本分类模型(以下以TextCNN模型为例)对目标分类语料进行语义相关性分析。在句式匹配阶段，某些与业务关联性较弱的句式得出的匹配结果不能确定一定是业务关心的正类文本，且只对句子的句式进行约束，对于文本的具体谈论对象没有限制，所以需要进一步对文本在语义层面进行分类。根据口语化短文本的特征，本方法对口语化短文本进行了剔除口语词、重复词合并、长度约束等处理：

(1)剔除口语词：口语化短文本中语气助词、表达应答的无意义词汇、和口语常用连接词出现频率极高，这些词汇拉长了文本长度，而TextCNN输入向量长度一定且有限，剔除这些词汇可以使输入向量中包含的有效信息更多，从而提升准确率。

(2)重复词合并：由于人们在进行非正式交流时，为保证对方能够听清或出于习惯，同样的词汇或短语容易连续重复多次，对于这种情况，将重复的部分只保留一次，既不失其语义，又避免其无意义地占用有效长度。

(3)长度限制：由于口语化文本长度的差异性，训练正类文本和负类文本可能存在长度差异较大的情况，但长度并不能作为分类的依据，而TextCNN神经网络极易将输入向量非零部分的长度学习为一个特征，所以需要对过长的文本做截断，使其长度大致与语料库平均长度相似；对于过短的文本，由于其有效信息过少，需要予以剔除。

这些操作均是针对口语化短文本特点和TextCNN的神经网络学习特点而设计，可提高TextCNN分类精度，但不能合并在预处理步骤中，可能会影响句式匹配。对训练语料进行以上处理后，使用word-to-vector算法将中文文本训练成词向量，输入浅层TextCNN神经网络中，由于该网络复杂度较低，且能够较好地捕捉文本局部相关性，可以实现训练语料较少的情况下的准确文本分类。

根据本发明的第四个方面，根据业务标注数据对模型进行反馈式修正。在海量口语化短文本中，各种可能性都有可能出现，且由于训练语料及其有限，仍然可能将文本分类错误的情况，所以有必要使用业务人员对分类结果数据的标注信息对模型进行修正，持续提高模型准确率。可根据业务人员的标准信息对训练语料中的正类负类语料进行更新，更新正类常见句式，更新种子词汇，从而提升分类结果准确度。

图1给出了口语化短文本分类流程图。如图所示，首先对训练语料和待筛选的目标文本都进行预处理；第二，训练语料库包含文本及其标签，标签包括两种：正类(表示该文本与业务相关)、负类(表示该文本与业务不相关)，对训练语料中的标注的正类语料(即业务相关的文本)分别进行句式信息的抽取，并区分出业务强相关句式和弱相关句式；第三，对文本进行句式匹配，业务强相关的句式匹配结果可直接归为正类文本，对业务弱相关的句式匹配结果需进行下一步分析；第四，对目标文本和训练语料都进行长度限制、去口语词和合并重复词的操作。第四，使用word-to-vector算法训练词向量，将文本转化为词向量的表示形式，使用训练语料训练TextCNN神经网络，使用训练好的模型对目标文本进行分类，从中筛选出想要的结果。第五，若业务人员给出了对筛选结果的标注信息，则更新训练语料库，对模型进行重新训练。

预处理部分具体方法为：先通过jieba中文分词器切词，由于句子中含有错别字，所以切词结果往往会有切分错误的情况。n-gram模型，基于马尔科夫模型假设，一个词的出现概率仅依赖于该词的前1个词或前几个词，中文文本的错别字存在局部性，在错误检测部分，只需要选取合理长度的滑动窗口来检查是否存在错别字，由于口语化短文本特点，滑动窗口长度应较短，n-gram模型通过计算极大似然估计构造语言模型，若其概率低于合法阈值，则判断此处出现错误。错误纠正部分，对于字粒度的错误，使用近音词词典取得候选集，然后通过n-gram语言模型计算滑动窗内的句子合法度，对所有候选集结果比较并排序，得到最优纠正字。对于词粒度的错误，由于待分类文本的高噪声性，可能候选集过大，直接采用拼音作为替代。

句式匹配部分：图2给出了中文语句句式抽取与匹配结果示例。首先由完整的句子提取出句式。对句子进行分词，依存句法分析和词性标注，对于句子中的主语、宾语、宾补等表示动作对象的部分，剔除人名、地名、机构组织名等名词性成分，以其词性标签替代，保留代词，在状语中的时间地点也用词性标签替代，定语中的修饰性成分，统一替换为‘de’表示修饰成分。动词和连词部分形成备选词列表，如【‘问’、‘咨询’、‘询问’】，句式以词汇和词性标签的列表表示。其次，比较句式之间的相似度，选择相似度最大的句式进行匹配。句式匹配方法基于编辑距离(即Levenshtein距离)，根据自然语言的特征，某些助词等词汇并没有十分重要的语义作用，在计算距离时忽略。凡是在同一个备选动词列表中的动词，视为相同，若不在备选词列表中，则取与词汇列表中的词汇的最小距离。词汇在计算距离时，将其转化为词向量，计算其词向量在向量空间中的欧式距离，并使用sigmoid函数映射到[0,1]区间。

模型分类部分：对待分类文本和训练语料都进行文本处理，步骤如下：

(1)利用滑动窗口扫描文本，对滑动窗口内出现两次及以上的词只保留第一个；

(2)建立口语词词库，对出现的无意义口语词汇进行剔除；

(3)长度限制，经过前两个步骤的处理，对于有效词汇少于5个文本予以剔除，计算训练文本的平均长度，对于长度是该平均长度1.5倍以上的文本进行截取，截取位置为平均长度最近处的句子末尾，以保留完整的语句。

图3为文本化简示例图，显示了文本处理前后的区别。

对处理后的文本使用word-to-vector模型训练词向量，将文本表示为词向量；由于口语化短文本噪声而采用拼音替代的词汇，基于编辑距离计算拼音相似度，根据相似度大小找到发音与该拼音相似程度最高的词汇(若存在多个词汇发音相同，则取在语料库中出现频率最高的词)，用这个词的词向量作为该拼音替代词的词向量。然后使用训练文本训练TextCNN网络，得到分类模型后对待分类文本进行分类。图4为TextCNN模型训练流程图。

应该注意到并理解，在不脱离后附的权利要求所要求的本发明的精神和范围的情况下，能够对上述详细描述的本发明做出各种修改和改进。因此，要求保护的技术方案的范围不受所给出的任何特定示范教导的限制。

11页详细技术资料下载

一种针对海量高噪音口语化短文本的文本筛选方法

相关技术

网友询问留言