CN110674635A

CN110674635A - 一种用于文本段落划分的方法和装置

Info

Publication number: CN110674635A
Application number: CN201910927810.4A
Authority: CN
Inventors: 李敏; 吴家鸣
Original assignee: Beijing Miaobi Intelligent Technology Co Ltd
Current assignee: Beijing Miaobi Intelligent Technology Co Ltd
Priority date: 2019-09-27
Filing date: 2019-09-27
Publication date: 2020-01-10
Anticipated expiration: 2039-09-27

Abstract

本申请公开了一种用于文本段落划分的方法和装置。该方法的一具体实施方式包括：计算各自然段之间的相似度数值，然后计算所述相似度数值的平均值，再基于门槛值进行大段落划分；对所述大段落分别进行词语特征值计算，并计算所述大段落中特征值最大的n个共同词的熵；基于所述相似度数值的平均值进行门槛值滑动，通过不同的门槛值分别计算所述共同词的熵，取所述熵最小的划分结果为最优划分。该实施方式有利于提高段落相似性的门槛值确定的准确性，从而提高文本段落划分的准确性。

Description

一种用于文本段落划分的方法和装置

技术领域

本申请涉及文本处理领域，具体涉及一种用于文本段落划分的方法和装置。

背景技术

随着信息时代的迅猛发展，来自各种渠道的信息正在以惊人的速度增长着。在处理大量信息时，人们通常需要在各自然段的基础上划分出更大的段落，然后再进行分类处理。

传统的大段落划分通常采用人工的方式进行归类，但在效率和成本上明显处于劣势。近年来，TexTiling算法开始被广泛用于计算自然段的相似性，再将相似性大的自然段聚在同一个大段落中。但是利用TexTiling算法进行大段落划分时，相似性的门槛值确定准确度不高，进而影响大段落划分的准确性。

因此在传统的文本段落划分中，依然存在着有待解决的问题。

发明内容

本申请的目的在于提出了一种改进的用于文本段落划分的方法和装置，来解决大段落划分准确性低、门槛值不易确定等技术问题。

第一方面，本申请提供了一种用于文本段落划分的方法，该方法包括：

S1，计算各自然段之间的相似度数值，然后计算相似度数值的平均值，再基于门槛值进行大段落划分；

S2，对大段落分别进行词语特征值计算，并计算大段落中特征值最大的n个共同词的熵；

S3，基于相似度数值的平均值进行门槛值滑动，通过不同的门槛值分别计算共同词的熵，取熵最小的划分结果为最优划分。

在一些实施例中，该方法的步骤S1之前还包括：S0，对待处理文本进行预处理，去除文本的html标签，再对文本进行分词处理和停用词去除，以减少噪声干扰。

在一些实施例中，步骤S1具体还包括：通过余弦相似性算法计算各自然段之间的相似度数值：

其中，s为相似度，∣A∣×∣B∣为自然段之间的向量内积，A·B为自然段的向量长度。

在一些实施例中，该方法的步骤S1具体还可以包括：通过simhash算法计算各自然段之间的相似度数值：通过hash算法将各自然段中的词语转为hash值，同时计算词语的tf-idf值，基于tf-idf值为权值计算词语的权重值，即当hash值为0时，该位为负权重值，当hash值为1时，该位为正权重值；合并各自然段中词语的hash值和权重值，之后各位转为0和1(即大于0为1，小于等于0为0)，再计算所述自然段之间的海明距离。

在一些实施例中，该方法的步骤S2的词语特征值计算，具体包括：

tfidf_i＝tfi_i·idf_i (3)

其中，n_i,j是第j段大段落中第i个词语的数量，∑_kn_k,j是第j段大段落的词语数量，|D|为划分的大段落中含有的自然段的数量，|{j:t_i∈d_j}|为含有第i个词语的自然段的数量。

在一些实施例中，该方法的步骤S3的计算共同词的熵，具体包括：

p_m＝∑_np_i (4)

E＝-p_m·logp_m (5)

其中，在公式(4)中，n为具有共同词的总数，p_i为其中一个具有共同词的概率，在公式(5)中，E是共同词的熵，p_m是具有共同语的概率。

第二方面，本申请提供了一种用于文本段落划分的装置，该装置包括：相似度计算模块，设置用于计算各自然段之间的相似度数值，然后计算相似度数值的平均值，再基于门槛值进行大段落划分；词语处理模块，设置用于对大段落分别进行词语特征值计算，并计算大段落中特征值最大的n个共同词的熵；最优选择模块，设置用于基于相似度数值的平均值进行门槛值滑动，通过不同的门槛值分别计算共同词的熵，取熵最小的划分结果为最优划分。

在一些实施例中，该装置还包括：预处理模块，设置用于对待处理文本进行预处理，去除文本的html标签，再对文本进行分词处理和停用词去除，以减少噪声干扰。

在一些实施例中，该装置还包括：余弦相似性算法模块，设置用于通过余弦相似性算法计算各自然段之间的相似度数值：

在一些实施例中，该装置还包括：simhash算法模块，设置用于通过simhash算法计算各自然段之间的相似度数值：通过hash算法将各自然段中的词语转为hash值，同时计算词语的tf-idf值，基于tf-idf值为权值计算词语的权重值，即当hash值为0时，该位为负权重值，当hash值为1时，该位为正权重值；合并各自然段中词语的hash值和权重值，之后各位转为0和1(即大于0为1，小于等于0为0)，再计算所述自然段之间的海明距离。

在一些实施例中，该装置的词语处理模块包括：特征值计算模块，设置用于对大段落分别进行词语特征值计算：

tfidf_i＝tf_i·idf_i (3)

在一些实施例中，该装置的词语处理模块包括：熵计算模块，设置用于计算大段落中特征值最大的n个共同词的熵：

E＝-p_m·logp_m (4)

p_m＝∑_np_i (5)

第三方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

本申请提供的用于文本段落划分的方法和装置，通过计算各自然段之间的相似度数值、相似度数值的平均值和门槛值进行大段落划分，再对大段落分别进行词语特征值和共同词的熵的计算，同时基于相似度数值的平均值进行门槛值滑动，通过不同的门槛值分别计算共同词的熵，取熵最小的划分结果为最优划分。该实施方式有利于提高段落相似性的门槛值确定的准确性，从而提高文本段落划分的准确性。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请可以应用于其中的示例性系统架构图；

图2是根据本申请的用于文本段落划分的方法的一个实施例的流程图；

图3是根据本申请的用于文本段落划分的方法的又一个实施例的流程图；

图4是根据本申请的用于文本段落划分的装置的一个实施例的结构示意图；

图5是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

图1示出了可以应用本申请实施例的用于文本段落划分的方法的示例性系统架构100。

如图1所示，系统架构100可以包括数据服务器101，网络102和主服务器103。网络102用以在数据服务器101和主服务器103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。

主服务器103可以是提供各种服务的服务器，例如对数据服务器101上传的信息进行处理的数据处理服务器。数据处理服务器可以对接收的事件信息进行处理，并将处理结果(例如要素信息集合、标签)关联存储到事件信息库中。

需要说明的是，本申请实施例所提供的用于文本段落划分的方法一般由主服务器103执行，相应地，用于文本段落划分的装置一般设置于主服务器103中。

需要说明的是，数据服务器和主服务器可以是硬件，也可以是软件。当为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务的软件或软件模块)，也可以实现成单个软件或软件模块。

应该理解，图1中的数据服务器、网络和主服务器的数目仅仅是示意性的。根据实现需要，可以具有任意数目的终端设备、网络和服务器。

继续参考图2，其示出了根据本申请的应用于文本段落划分的方法的一个实施例的流程200。该方法包括以下步骤：

步骤S1，计算各自然段之间的相似度数值，然后计算相似度数值的平均值，再基于门槛值进行大段落划分。门槛值为在平均值一定范围内进行移动的值，即：

t＝a±σ

其中，t为门槛值，a为平均值，σ为移动常数。

在本实施例的一些可选的实现方式中，通过余弦相似性算法计算各自然段之间的相似度数值：

在具体的实施例中，余弦相似性是指通过测量两个向量的夹角的余弦值来度量它们之间的相似性。0度角的余弦值是1，而其他任何角度的余弦值都不大于1；并且其最小值是-1。从而两个向量之间的角度的余弦值确定两个向量是否大致指向相同的方向。两个向量有相同的指向时，余弦相似度的值为1；两个向量夹角为90°时，余弦相似度的值为0；两个向量指向完全相反的方向时，余弦相似度的值为-1。这结果是与向量的长度无关的，仅仅与向量的指向方向相关。余弦相似度通常用于正空间，因此给出的值为0到1之间。需要注意的是，上下界对任何维度的向量空间中都适用，而且余弦相似性最常用于高维正空间。例如在信息检索中，每个词项被赋予不同的维度，而一个文档由一个向量表示，其各个维度上的值对应于该词项在文档中出现的频率。余弦相似度因此可以给出两篇文档或两个词语或两个段落在其主题方面的相似度。

在本实施例的一些可选的实现方式中，通过simhash算法计算各自然段之间的相似度数值：通过hash算法将各自然段中的词语转为hash值，同时计算词语的tf-idf值，基于tf-idf值为权值计算词语的权重值，即当hash值为0时，该位为负权重值，当hash值为1时，该位为正权重值；合并各自然段中词语的hash值和权重值，之后各位转为0和1(即大于0为1，小于等于0为0)，再计算所述自然段之间的海明距离。

在具体的实施例中，hash算法可以将任意长度的二进制值映射为较短的固定长度的二进制值，这个小的二进制值称为哈希值。哈希值是一段数据唯一且极其紧凑的数值表示形式，如果散列一段明文而且哪怕只更改该段落的一个字母，随后的哈希都将产生不同的值。要找到散列为同一个值的两个不同的输入，在计算上是不可能的，所以数据的哈希值可以检验数据的完整性，因此hash算法一般用于快速查找和加密算法。

步骤S2，对大段落分别进行词语特征值计算，并计算大段落中特征值最大的n个共同词的熵。

在本实施例中，词语特征值计算具体包括：

tfidf_i＝tf_i·idf_i (3)

在具体的实施例中，tf-idf是一种统计方法，用以评估字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加，但同时会随着它在语料库中出现的频率成反比下降。tf-idf加权的各种形式常被搜索引擎应用，作为文件与用户查询之间相关程度的度量或评级。tf-idf的主要思想是：如果某个词或短语在一篇文章中出现的频率if高，并且在其他文章中很少出现，则认为此词或者短语具有很好的类别区分能力，适合用来计算词语特征值。

在本实施例中，计算共同词的熵，具体包括：

p_m＝∑_np_i (4)

E＝-p_m·logp_m (5)

其中，在公式(4)中，n为具有共同词的总数，p_i为其中一个具有共同词的概率，在公式(5)中，E是共同词的熵，p_m是具有共同语的概率

步骤S3，基于相似度数值的平均值进行门槛值滑动，通过不同的门槛值分别计算共同词的熵，取熵最小的划分结果为最优划分。

在具体的实施例中，可以设置在门槛值的±20％之内以门槛值的3％为步长进行滑动，以每次滑动后的门槛值再次进行大段落划分。

本申请的上述实施例提供的方法，通过计算各自然段之间的相似度数值、相似度数值的平均值和门槛值进行大段落划分，再对大段落分别进行词语特征值和共同词的熵的计算，同时基于相似度数值的平均值进行门槛值滑动，通过不同的门槛值分别计算共同词的熵，取熵最小的划分结果为最优划分。该实施方式有利于提高段落相似性的门槛值确定的准确性，从而提高文本段落划分的准确性。

进一步参考图3，其示出了根据本申请的用于文本段落划分的方法的又一个实施例的流程300。该方法包括以下步骤：

步骤S0，对待处理文本进行预处理，去除文本的html标签，再对文本进行分词处理和停用词去除。

在本实施例中，若文本是从互联网上获取的，文本中会带有html标签，会影响文本摘要的提取，对文本进行去除html标签的预处理，便于后续的摘要算法获取文本摘要。

在本实施例中，对文本进行分词作为文本摘要的数据基础，可以基于词典分词算法或基于统计的机器学习算法或组合式的分词算法等进行文本分词，基于词典的分词算法是应用最广泛、分词速度最快的。很长一段时间内研究者都在对基于字符串匹配方法进行优化，比如最大长度设定、字符串存储和查找方式以及对于词表的组织结构，比如采用TRIE索引树、哈希索引等。基于统计的机器学习算法进行文本分词，目前常用的是算法是HMM、CRF、SVM、深度学习等算法，比如stanford、Hanlp分词工具是基于CRF算法。以CRF为例，基本思路是对汉字进行标注训练，不仅考虑了词语出现的频率，还考虑上下文语境，具备较好的学习能力，因此其对歧义词和未登录词的识别都具有良好的效果。常见的分词器都是使用机器学习算法和词典相结合，一方面能够提高分词准确率，另一方面能够改善领域适应性。

在本实施例中，停用词是指在信息检索中为节省存储空间和提高搜索效率，在处理文本(或自然语言数据)之前或之后会自动过滤掉的某些字或词。这些停用词都是人工输入、非自动化生成的，生成后的停用词会形成一个停用词表，但并没有一个明确的停用词表能够适用于所有的工具，甚至有一些工具是明确地避免使用停用词来支持短语搜索的。停用词的应用十分广泛，在Internet上随处可见，比如“Web”一词几乎在每个网站上均会出现，对这样的词搜索引擎无法保证能够给出真正相关的搜索结果，难以帮助缩小搜索范围，同时还会降低搜索的效率；同时，停用词还包括了语气助词、副词、介词、连接词等，通常自身并无明确的意义，只有将其放入一个完整的句子中才有一定作用，如常见的“的”、“在”之类。

步骤S1，计算各自然段之间的相似度数值，然后计算相似度数值的平均值，再基于门槛值进行大段落划分。

在本实施例中，步骤S1与图2对应实施例中的步骤S1基本一致，这里不再赘述。

在本实施例中，步骤S2与图2对应实施例中的步骤S2基本一致，这里不再赘述。

在本实施例中，步骤S3与图2对应实施例中的步骤S3基本一致，这里不再赘述。

从图3中可以看出，与图2对应的实施例相比，本实施例中的用于文本段落划分的方法的流程300突出了前期文本处理步骤。由此，本实施例描述的方案可以减少文本划分时出现的大量噪声，准确地提取出各关键词语，有助于提高段落划分的效率。

进一步参考图4，作为对上述各图所示方法的实现，本申请提供了一种用于文本段落划分的装置的一个实施例，该装置实施例与图2所示的方法实施例相对应，该装置具体可以应用于各种电子设备中。

如图4所示，本实施例的用于文本段落划分的装置400包括：相似度计算模块401，设置用于计算各自然段之间的相似度数值，然后计算相似度数值的平均值，再基于门槛值进行大段落划分；词语处理模块402，设置用于对大段落分别进行词语特征值计算，并计算大段落中特征值最大的n个共同词的熵；最优选择模块403，设置用于基于相似度数值的平均值进行门槛值滑动，通过不同的门槛值分别计算共同词的熵，取熵最小的划分结果为最优划分。

在本实施例的一些可选的实现方式中，该装置400还可以包括：预处理模块(图中未示出)，设置用于对待处理文本进行预处理，去除文本的html标签，再对文本进行分词处理和停用词去除。

在本实施例的一些可选的实现方式中，该装置400还可以包括：余弦相似性算法模块(图中未示出)，设置用于通过余弦相似性算法计算各自然段之间的相似度数值：

在本实施例的一些可选的实现方式中，该装置400还可以包括：simhash算法模块(图中未示出)，设置用于通过simhash算法计算各自然段之间的相似度数值：通过hash算法将各自然段中的词语转为hash值，同时计算词语的tf-idf值，基于tf-idf值为权值计算词语的权重值，即当hash值为0时，该位为负权重值，当hash值为1时，该位为正权重值；合并各自然段中词语的hash值和权重值，之后各位转为0和1(即大于0为1，小于等于0为0)，再计算所述自然段之间的海明距离。

在本实施例的一些可选的实现方式中，生成单元403可以包括：特征值计算模块(图中未示出)，设置用于对大段落分别进行词语特征值计算：

tfidf_i＝tf_i·idf_i (3)

在本实施例的一些可选的实现方式中，生成单元403可以包括：熵计算模块(图中未示出)，设置用于计算大段落中特征值最大的n个共同词的熵：

E＝-p_m·logp_m (4)

p_m＝∑_np_i (5)

本申请的上述实施例提供的装置，通过计算各自然段之间的相似度数值、相似度数值的平均值和门槛值进行大段落划分，再对大段落分别进行词语特征值和共同词的熵的计算，同时基于相似度数值的平均值进行门槛值滑动，通过不同的门槛值分别计算共同词的熵，取熵最小的划分结果为最优划分。该实施方式有利于提高段落相似性的门槛值确定的准确性，从而提高文本段落划分的准确性。

下面参考图5，其示出了适于用来实现本申请实施例的电子设备的计算机系统500的结构示意图。图5示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图5所示，计算机系统500包括中央处理单元(CPU)501，其可以根据存储在只读存储器(ROM)502中的程序或者从存储部分508加载到随机访问存储器(RAM)503中的程序而执行各种适当的动作和处理。在RAM 503中，还存储有系统500操作所需的各种程序和数据。CPU 501、ROM 502以及RAM 503通过总线504彼此相连。输入/输出(I/O)接口505也连接至总线504。

以下部件连接至I/O接口505：包括键盘、鼠标等的输入部分506；包括诸如液晶显示器(LCD)等以及扬声器等的输出部分507；包括硬盘等的存储部分508；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分509。通信部分509经由诸如因特网的网络执行通信处理。驱动器510也根据需要连接至I/O接口505。可拆卸介质511，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器510上，以便于从其上读出的计算机程序根据需要被安装入存储部分508。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分509从网络上被下载和安装，和/或从可拆卸介质511被安装。在该计算机程序被中央处理单元(CPU)501执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读存储介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读存储介质，该计算机可读存储介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读存储介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种计算机可读存储介质，该计算机可读存储介质可以是上述实施例中描述的电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。上述计算机可读存储介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：计算各自然段之间的相似度数值，然后计算所述相似度数值的平均值，再基于门槛值进行大段落划分；对所述大段落分别进行词语特征值计算，并计算所述大段落中特征值最大的n个共同词的熵；基于所述相似度数值的平均值进行门槛值滑动，通过不同的门槛值分别计算所述共同词的熵，取所述熵最小的划分结果为最优划分。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。