一种新闻文档去重的方法、装置及存储介质

文档序号：1490583 发布日期：2020-02-04 浏览：3次 >En<

阅读说明：本技术 一种新闻文档去重的方法、装置及存储介质 (Method, device and storage medium for removing duplicate of news document ) 是由冯博琳王秋森刘斌生吴中恒于 2018-07-02 设计创作，主要内容包括：本申请公开了一种新闻文档去重的方法、装置及存储介质,该方法包括：对文档进行分词；计算词项在文档中的权重；根据词项得到文档向量；根据文档向量计算文档之间的相似度；将相似度大于预设值的文档聚类成一个簇,并根据簇中的文档之间的相似度确定簇心；根据簇心标记出重复文档。本申请能够取得的有益效果在于,不需要人工标注训练样本,解决了人工标注训练样本费时费力问题；根据词项在文档中的权重计算相似度；提升命名实体和事件行为词项的权重,解决了受低频噪音词的影响较大问题；将相似度大于预设值的文档聚类成一个簇,每篇文档仅出现于单一簇中,使重复的文档具有唯一性；被标记的重复文档用于去重,避免多次处理重复的文档。(The application discloses a method, a device and a storage medium for removing duplicate news documents, wherein the method comprises the following steps: performing word segmentation on the document; calculating the weight of the terms in the document; obtaining a document vector according to the terms; calculating the similarity between the documents according to the document vectors; clustering the documents with the similarity larger than a preset value into a cluster, and determining a cluster center according to the similarity between the documents in the cluster; and marking out repeated documents according to the cluster centers. The method has the advantages that training samples do not need to be marked manually, and the problem that the training samples are marked manually, which wastes time and labor is solved; calculating similarity according to the weight of the terms in the document; the weights of the named entities and the event behavior terms are improved, and the problem that the named entities and the event behavior terms are greatly influenced by low-frequency noise words is solved; clustering the documents with the similarity larger than a preset value into a cluster, wherein each document only appears in a single cluster, so that the repeated documents have uniqueness; the marked repeated document is used for removing the duplicate, and repeated documents are prevented from being processed for multiple times.)

一种新闻文档去重的方法、装置及存储介质

技术领域

本申请涉及自然语言处理技术领域，尤其是涉及一种新闻文档去重的方法、装置及存储介质。

背景技术

随着互联网的发展，网络新闻信息量急剧增长。大量的重复新闻信息被处理多次，降低了信息处理效率。因此，如何对新闻信息去重成为亟待解决的问题。

现有技术采用监督学习和非监督学习提取新闻信息特征。监督学习从文本表述的事件中提取关键词，将其作为事件的表示，之后对这些关键词进行量化，计算不同文档之间的相似度作为聚类依据。以道路领域相关新闻为例，新闻中出现的具体地名是当前新闻区别于其他新闻的一项重要特征。命名实体识别用于解决道路名、地名实体的提取问题，较早主要通过条件随机场(Conditional Random Field，CRF)等模型实现。随着深度学习在自然语言处理(Natural Language Processing，NLP)领域的不断深入，循环神经网络(Recurrent Neural Network，RNN)系列的模型也被用于解决这一类问题，并与早期的CRF等模型进行结合。将文档是否重复转化为分类问题，判断给定文档对是否重复。这种方法需要大量标注样本用于训练模型，尤其是在事件标注和命名实体识别任务中，涉及到的词项和序列标注难以获取，人工标注费时费力。无监督学习往往通过词频-逆向文件频率(termfrequency–inverse document frequency，TFIDF)等一系列类似的改进算法提取事件中的关键词。通过计算词项在文档中的权重，设定相应阈值提取出权重在前K项的词作为事件关键词。从传统的向量空间模型(Vector Space Model，VSM)到基于语义的主题模型(LSA，PLSA，LDA及其变种等等)、基于词向量的表示方法可以用于直接获取文档的表示，之后可通过一系列相似度计算方法(欧式距离、余弦相似、KL距离等等)计算文档之间的相似度。这种方法中TFIDF权重算法倾向于为低频词赋予较高权重，受低频噪音词的影响较大；基于主题的模型适用于较宽泛的文档领域(或类别，比如政治、经济、教育等等)判断。对于文档去重任务来说，其涉及的特征粒度较细，使用主题模型的识别效果不好。监督学习中存在人工标注训练样本费时费力问题，无监督学习中存在受低频噪音词的影响较大问题。

发明内容

本申请实施例提供一种新闻文档去重的方法、装置及存储介质。解决了监督学习中人工标注训练样本费时费力问题，以及无监督学习中受低频噪音词的影响较大问题。

本申请提供了一种新闻文档去重的方法，该方法包括：

对新闻文档集中的每个道路新闻文档进行分词，得到每个道路新闻文档的词项；

计算所述每个道路新闻文档的词项在该道路新闻文档中的权重；

根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量；

根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度；

将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇，并根据所述簇中的道路新闻文档之间的第一相似度确定簇心；

根据所述簇的簇心标记出重复道路新闻文档，所述被标记的重复道路新闻文档用于去重。

本申请还提供了一种新闻文档去重的装置，该装置包括：分词模块、计算权重模块、得到道路新闻文档向量模块、计算相似度模块、聚类模块和标记模块；

所述分词模块，用于对新闻文档集中的每个道路新闻文档进行分词，得到每个道路新闻文档的词项；

所述计算权重模块，用于计算所述每个道路新闻文档的词项在该道路新闻文档中的权重；

所述得到道路新闻文档向量模块，用于根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量；

所述计算相似度模块，用于根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度；

所述聚类模块，用于将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇，并根据所述簇中的道路新闻文档之间的第一相似度确定簇心；

所述标记模块，用于根据所述簇的簇心标记出重复道路新闻文档，所述被标记的重复道路新闻文档用于去重。

本申请还提供了一种存储介质，其上存储有程序数据，上述程序数据用于被处理器执行时实现上述新闻文档去重的方法。

与现有技术相比，本申请能够取得的有益效果在于，不需要人工标注训练样本，解决了人工标注训练样本费时费力问题；根据词项在文档中的权重计算相似度；将相似度大于预设值的文档聚类成一个簇，每篇文档仅出现于单一簇中，使重复的文档具有唯一性；被标记的重复文档用于去重，避免多次处理重复的文档；此外，通过提升命名实体和事件行为词项的权重，还解决了受低频噪音词的影响较大的技术问题。

附图说明

此处所说明的附图用来提供对本申请的进一步理解，构成本申请的一部分，本申请的示意性实施例及其说明用于解释本申请，并不构成对本申请的不当限定。在附图中：

图1为本申请提供的一种新闻文档去重的方法实施例的流程示意图；

图2为本申请提供的一种新闻文档去重的方法实施例的另一流程示意图；

图3为本申请提供的新闻文档集示例；

图4为本申请提供的重复道路新闻文档示例；

图5为本申请提供的一种新闻文档去重的装置实施例的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合本申请具体实施例及相应的附图对本申请技术方案进行清楚、完整地描述。显然，所描述的实施例仅是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

图1为本申请提供的一种新闻文档去重的方法实施例的流程示意图，该流程示意图包括：

步骤105，对新闻文档集中的每个道路新闻文档进行分词，得到每个道路新闻文档的词项；

可选地，新闻文档集中存储的是所属行政区划内的道路新闻文档；根据行政区划将所述新闻文档集归类到所属的行政区划中；进一步地，针对属于同一行政区划内的新闻文档集中的每个道路新闻文档进行分词。如图2步骤210，划分输入的新闻文档集D所属的行政区划，对新闻文档集进行切分处理。行政区划划分到市级下标

表示不同城市。对于每个

考虑到输入的新闻文档集中可能存在与现有历史库中道路新闻文档存在重复的情况，将与当前行政区划相同的历史新闻文档集也加入到分析样本中，

其中，为城市c_i的历史新闻文档集，

新输入新闻文档集中属于城市c_i的新闻文档集。

对分析样本中的道路新闻文档进行分词，得到词项，如图2步骤215所示。上述词项包括命名实体(Named Entity，NE)和事件行为词项(Event Action，EA)，事件行为词项如下表1所示。使用哈工大的语言技术平台LTP进行分词和命名实体识别。

表1.事件行为词项表

步骤110，计算所述每个道路新闻文档的词项在该道路新闻文档中的权重；

在本实施例中，改进TFIDF权重算法，提高道路新闻文档中命名实体、事件行为词项的权重，增强道路新闻文档对不同事件的识别能力。

对分析样本

中的道路新闻文档进行分词后构建道路新闻文档词项矩阵，矩阵中每行为一篇道路新闻文档，每列为一个词项，每个元素为当前词项在道路新闻文档中所占的权重。可选地，根据公式

计算道路新闻文档

的第k个词项w_k在该道路新闻文档中的权重，其中，

为新闻文档集

中第j篇道路新闻文档，c_i表示不同城市，kw(w_k)为对提取到的第k个词项w_k的权重提升系数，TFIDF()为词频-逆向文件词频权重算法，i、j、k均为正整数。在本实施例中，若w_k为命名实体，则第一预设阈值为1.5；若w_k为事件行为，则第二预设阈值为1.2。

步骤115，根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量；

在本实施例中，将具有权重的每个道路新闻文档的词项输入到词袋模型，得到每个道路新闻文档向量。

步骤120，根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度；

可选地，对所述每个道路新闻文档向量进行标准化；根据标准化后的每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度；进一步地，使用L2标准化对每个道路新闻文档向量进行标准化处理，计算公式如下式

所示，其中，向量V，v_i为V中的分量(维度)，i为道路新闻文档中词项的序号，n为道路新闻文档中的词项总个数，n和i均为正整数，L₂(V)为每个分量的原始数值除以当前向量V的长度(分母，即每个分量的平方和开根号)。计算标准化处理后的每个道路新闻文档之间的第一相似度。

步骤125，将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇，并根据所述簇中的道路新闻文档之间的第一相似度确定簇心；

在本实施例中，由于聚类方法Canopy存在将一个样本分到多个簇中这种一对多的情况，为唯一确定与当前样本重复的文档，在Canopy的基础上调整Canopy聚类算法，使其更符合当前任务对重复道路新闻文档的唯一性要求(即每篇道路新闻文档至多只与一篇道路新闻文档重复)。调整过程如下：设定预设相似度阈值T，簇元素集CE＝{}，打乱的新闻文档集下标ind，新闻文档集中道路新闻文档对的余弦相似度S；遍历ind，若ind中当前下标所对应的道路新闻文档di不存在于CE，则将di作为簇心，并将S中与di的相似度大于等于T且不存在于CE中的新闻文档集作为当前簇的元素，得到一个新簇

将di和

中道路新闻文档加入CE中。

可为空，则此时di独自作为一个簇，当ind遍历结束或CE大小与整个新闻文档集大小相同时，循环结束。

在本实施例中，所述道路新闻文档包括：历史道路新闻文档和新增道路新闻文档。假设现有如图3所示的10篇道路新闻文档，其中前6篇为历史库中已有的历史道路新闻文档，后4篇为新增道路新闻文档，现需对4篇新增道路新闻文档进行聚类去重操作。假设武汉的城市编号c_i＝c，则其新闻文档集为

其中

为武汉历史新闻文档集，为新增新闻文档集；

k＝0，1…5为武汉历史新闻文档集中的第k篇道路新闻文档，

j＝0，1…3为武汉新增新闻文档集中的第j篇道路新闻文档。设定预设相似度阈值T＝0.5，假设10篇道路新闻文档中，道路新闻文档之间的相似度大于0.5的道路新闻文档对如下：第一篇历史道路新闻文档

(“古田四路硚口区法院北行公交站迁移”)与第二篇历史道路新闻文档(武汉古田四路硚口区法院北行多路公交站点迁移)；第六篇历史道路新闻文档

(“武汉墨水湖北路主体工程开工”)与第一篇新增道路新闻文档

(“武汉二环线成环在即墨水湖北路主体工程开工”)。

假设新闻文档集下标ind为按顺序遍历：遍历与其它道路新闻文档的相似度，

与相似度大于T，于是构成一个簇

将

与

加入簇元素CE中；遍历

与其它道路新闻文档的相似度，由于已经出现在CE中，于是遍历下一个元素；遍历

与其它道路新闻文档的相似度，由于均没有与之相似度大于T的道路新闻文档，则单独成簇

并都加入簇元素CE中；遍历

与其它道路新闻文档的相似度，

与新增道路新闻文档

构成一个簇并加入CE；遍历

与其它道路新闻文档的相似度,由于

已经出现在CE中，于是遍历下一个元素；遍历

与其它道路新闻文档的相似度，由于均没有与之相似度大于预设相似度阈值的道路新闻文档，则单独成簇

聚类结束，得到簇集

可选地，在所述簇中的道路新闻文档个数大于预设阈值的情况下，将所述簇中每个道路新闻文档与簇中其他道路新闻文档之间的第一相似度分别相加，得到每个道路新闻文档的第二相似度；将具有最大值的第二相似度对应的道路新闻文档作为簇心。

进一步地，在本实施例中，在簇中的道路新闻文档个数大于2的情况下，将簇中每个道路新闻文档与簇中其他道路新闻文档之间的第一相似度分别相加，得到每个道路新闻文档的第二相似度；将具有最大值的第二相似度对应的道路新闻文档作为簇心。再进一步地，簇中的道路新闻文档个数为4个，分别为1、2、3和4，计算1和2、3、4之间的第一相似度，并将第一相似度相加，得到道路新闻文档1的第二相似度为3.2；计算2和1、3、4之间的第一相似度，并将第一相似度相加，得到道路新闻文档2的第二相似度为3.4；计算3和1、2、4之间的第一相似度，并将第一相似度相加，得到道路新闻文档3的第二相似度为3.5，计算4和1、2、3之间的第一相似度，并将第一相似度相加，得到道路新闻文档4的第二相似度为3.8。道路新闻文档4的第二相似度最高，则将道路新闻文档4作为簇心。

步骤130，根据所述簇的簇心标记出重复道路新闻文档，所述被标记的重复道路新闻文档用于去重。

由于人工处理的信息若为重复信息则会花费大量时间且不能产生新情报，所以将重复道路新闻文档标记出来，使其不参与之后的处理流程，从而提高之后的人工处理信息和情报的效率。

聚类结束后查看得到的簇集。通过

这个集合中的元素(每一个簇)，可得知道路新闻文档之间的重复情况。可选地，若所述簇中的道路新闻文档均为新增道路新闻文档，则保留作为所述簇的簇心的新增道路新闻文档，并将除所述簇心之外的新增道路新闻文档标记为重复道路新闻文档；若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为历史道路新闻文档，则将新增道路新闻文档标记为重复道路新闻文档；若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为新增道路新闻文档，则将新增道路新闻文档标记为重复道路新闻文档。

在本实施例中，4篇新增道路新闻文档中，

被

标记为重复，其它新增道路新闻文档均未出现重复。

在本实施例中，如图4所示，会将处理结果写入数据库中，对于标记为重复的新增道路新闻文档，会更新数据库中的BIAOSHI和DUPLICATE_ID两个字段，分别表示与之重复的道路新闻文档标题和ID。标记为重复的新增道路新闻文档存储在数据库，未被标记重复的新增道路新闻文档用于之后的人工处理，为用户提供新情报。

与现有技术相比，本实施例能够取得的有益效果在于，不需要人工标注训练样本，解决了人工标注训练样本费时费力问题；根据词项在文档中的权重计算相似度；提升命名实体和事件行为词项的权重，解决了受低频噪音词的影响较大问题；将相似度大于预设值的文档聚类成一个簇，每篇文档仅出现于单一簇中，使重复的文档具有唯一性；被标记的重复文档用于去重，避免多次处理重复的文档。

图5为本申请提供的一种新闻文档去重的装置结构示意图，该结构示意图包括：分词模块505、计算权重模块510、得到道路新闻文档向量模块515、计算相似度模块520、聚类模块525和标记模块530；

所述分词模块505，用于对新闻文档集中的每个道路新闻文档进行分词，得到每个道路新闻文档的词项；

所述计算权重模块510，用于计算所述每个道路新闻文档的词项在该道路新闻文档中的权重；

所述得到道路新闻文档向量模块515，用于根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量；

所述计算相似度模块520，用于根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度；

所述聚类模块525，用于将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇，并根据所述簇中的道路新闻文档之间的第一相似度确定簇心；

所述标记模块530，用于根据所述簇的簇心标记出重复道路新闻文档，所述被标记的重复道路新闻文档用于去重。

可选地，新闻文档集中存储的是所属行政区划内的道路新闻文档；所述装置还包括归类模块，用于根据行政区划将所述新闻文档集归类到所属的行政区划中；进一步地，分词模块505针对属于同一行政区划内的新闻文档集中的每个道路新闻文档进行分词；

所述计算权重模块510，具体用于根据公式

计算道路新闻文档的第k个词项w_k在该道路新闻文档中的权重；其中，

为计算出的道路新闻文档的第k个词项w_k在该道路新闻文档中的权重，TFIDF()为词频-逆向文件词频权重算法，kw(w_k)为对提取到的第k个词项w_k的权重提升系数；其中，

新闻文档集

中第j篇道路新闻文档，c_i表示不同城市，i为城市序号，j为道路新闻文档集

中道路新闻文档序号，k为道路新闻文档中词项序号，i、j、k均为正整数。

可选地，所述聚类模块525包括确定簇心模块；所述确定簇心模块，具体用于在所述簇中的道路新闻文档个数大于预设阈值的情况下，将所述簇中每个道路新闻文档与簇中其他道路新闻文档之间的第一相似度分别相加，得到每个道路新闻文档的第二相似度；将具有最大值的第二相似度对应的道路新闻文档作为簇心。

可选地，所述道路新闻文档包括：历史道路新闻文档和新增道路新闻文档；所述标记模块530，具体用于若所述簇中的道路新闻文档均为新增道路新闻文档，则保留作为所述簇的簇心的新增道路新闻文档，并将除所述簇心之外的新增道路新闻文档标记为重复道路新闻文档；若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为历史道路新闻文档，则将新增道路新闻文档标记为重复道路新闻文档；若所述簇中的道路新闻文档包括历史道路新闻文档和新增道路新闻文档且簇心为新增道路新闻文档，则将新增道路新闻文档标记为重复道路新闻文档。

与现有技术相比，本实施例能够取得的有益效果在于，不需要人工标注训练样本，解决了人工标注训练样本费时费力问题；计算权重模块计算词项在文档中的权重，用于计算相似度；聚类模块将相似度大于预设阈值的文档聚类成一个簇，每篇文档仅出现于单一簇中，使重复的文档具有唯一性；被标记的重复文档用于去重，避免多次处理重复的文档。

本申请还提供了一种存储介质，其上存储有程序数据，所述程序数据用于被处理器执行时实现对新闻文档集中的每个道路新闻文档进行分词，得到每个道路新闻文档的词项；计算所述每个道路新闻文档的词项在该道路新闻文档中的权重；根据具有权重的所述每个道路新闻文档的词项得到每个道路新闻文档向量；根据所述每个道路新闻文档向量计算所述每个道路新闻文档之间的第一相似度；将所述第一相似度大于预设相似度阈值的道路新闻文档聚类成一个簇，并根据所述簇中的道路新闻文档之间的第一相似度确定簇心；根据所述簇的簇心标记出重复道路新闻文档，所述被标记的重复道路新闻文档用于去重。

还需要说明的是，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、商品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、商品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括要素的过程、方法、商品或者设备中还存在另外的相同要素。

以上仅为本申请的实施例而已，并不用于限制本申请。对于本领域技术人员来说，本申请可以有各种更改和变化。凡在本申请的精神和原理之内所作的任何修改、等同替换、改进等，均应包含在本申请的权利要求范围之内。

15页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种添加信息方法及相关装置

一种新闻文档去重的方法、装置及存储介质

相关技术

网友询问留言