一种文档标题层级的分析方法、装置及服务器

文档序号:1628462 发布日期:2020-01-14 浏览:30次 >En<

阅读说明:本技术 一种文档标题层级的分析方法、装置及服务器 (Document title level analysis method and device and server ) 是由 任宁 晋耀红 李德彦 于 2019-10-14 设计创作,主要内容包括:本申请实施例提供了一种文档标题层级的分析方法、装置及服务器。该方法包括:为文档的每个标题分配标题ID,标题ID根据标题在文档中的顺序递增;根据标题的字符特征确定每个标题的类别,并确定每个标题在其所属类别中的排列号,排列号根据标题在所属类别中的顺序递增;根据标题的标题ID、类别和排列号,确定每个标题的上位标题ID,上位标题ID是标题的上位标题的标题ID;根据上位标题ID确定标题之间的领属关系;根据标题之间的领属关系确定每个标题的层级。由此,本申请实施例依据的是标题自身在文档中的位置和字符特征等特性分析确定标题的层级,不需要借助额外的规则,因此普适性好,准确性更高。(The embodiment of the application provides a method and a device for analyzing a document title level and a server. The method comprises the following steps: assigning a title ID to each title of the document, the title ID increasing according to the order of the titles in the document; determining the category of each title according to the character features of the titles, and determining the arrangement number of each title in the category to which the title belongs, wherein the arrangement number is increased progressively according to the sequence of the title in the category to which the title belongs; determining the upper title ID of each title according to the title ID, the category and the arrangement number of the title, wherein the upper title ID is the title ID of the upper title of the title; determining the leading relationship between the titles according to the upper title ID; the hierarchy of each title is determined according to the leading relationship between the titles. Therefore, the embodiment of the application is based on the fact that the hierarchy of the title is determined through characteristic analysis of the position of the title in the document, character features and the like, and no additional rule is needed, so that the universality is good, and the accuracy is higher.)

一种文档标题层级的分析方法、装置及服务器

技术领域

本申请涉及自然语言处理技术领域,尤其涉及一种文档标题层级的分析方法、装置及服务器。

背景技术

电子文档,例如PDF文档、word文档、RTF(Rich Text Format,富文本格式)文档和HTML(HyperText Markup Language,超文本标记语言)文档等是各类计算机系统中承载信息的主要媒体形式,被广泛使用。因此,从电子文档中提取有价值的信息成为了近年来自然语言处理技术领域的研究热点。

以从电子文档中提取文档标题并确定标题层级为例,目前常采用的是基于规则识别标题的方法。这种方法根据标题的文本样式与正文的文本样式的差别,为标题制定了一些提取规则,利用提取规则从电子文档中提取标题并确定标题层级。但是,这种基于规则的方法对规则的制定有较高的要求,并且规则之间容易出现冲突,导致标题的识别准确率难以提高。另外,基于规则的方法不具有普适性,当不同的电子文档的文本样式多种多样时,提取规则必须分别对应制定,开发成本较高。另外,一些电子文档的格式不规范(例如:通过扫描和影印形成的PDF文档,通过一些工具转换得到的word文档等),也会对目前这种基于规则的方法的准确性造成影响。

发明内容

本申请实施例提供了一种文档标题层级的分析方法、装置及服务器,以解决现有技术基于规则提取标题层级普适性差、准确性低的问题。

第一方面,本申请实施例提供了一种文档标题层级的分析方法,包括:为文档的每个标题分配标题ID,所述标题ID根据所述标题在文档中的顺序递增;根据所述标题的字符特征确定每个所述标题的类别,并确定每个所述标题在其所属类别中的排列号,所述排列号根据所述标题在所属类别中的顺序递增;根据所述标题的标题ID、类别和排列号,确定每个所述标题的上位标题ID,所述上位标题ID是所述标题的上位标题的标题ID;根据所述上位标题ID确定所述标题之间的领属关系;根据所述标题之间的领属关系确定每个所述标题的层级。

第二方面,本申请实施例提供了一种文档标题层级的分析装置,包括:标题ID生成模块,用于为文档的每个标题分配标题ID,所述标题ID根据所述标题在文档中的顺序递增;排列号生成模块,用于根据所述标题的字符特征确定每个所述标题的类别,并确定每个所述标题在其所属类别中的排列号,所述排列号根据所述标题在所属类别中的顺序递增;上位标题ID生成模块,用于根据所述标题的标题ID、类别和排列号,确定每个所述标题的上位标题ID,所述上位标题ID是所述标题的上位标题的标题ID;领属关系确定模块,用于根据所述上位标题ID确定所述标题之间的领属关系;文档标题生成模块,用于根据所述标题之间的领属关系确定每个所述标题的层级。

第三方面,本申请实施例提供了一种服务器,包括:存储器和处理器,所述存储器存储有程序指令,当所述程序指令被所述处理器执行时,以使所述服务器执行上述任一方面所述的方法。

由以上技术方案可知,本申请实施例提供的技术方案,能够为文档的每个标题分配标题ID,标题ID根据标题在文档中的顺序递增;根据标题的字符特征确定每个标题的类别,并确定每个标题在其所属类别中的排列号,排列号根据标题在所属类别中的顺序递增;根据标题的标题ID、类别和排列号,确定每个标题的上位标题ID,上位标题ID是标题的上位标题的标题ID;根据上位标题ID确定标题之间的领属关系;根据标题之间的领属关系确定每个标题的层级。由此,本申请实施例依据的是标题自身在文档中的位置和字符特征等特性分析确定标题的层级,不需要借助额外的规则,因此普适性好,准确性更高。

附图说明

为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1是本申请实施例提供的从文档中提取标题的流程图;

图2是本申请实施例提供的从文档中提取标题的步骤S103的流程图;

图3为本申请实施例提供的一种文档标题层级的分析方法的流程图;

图4是本申请实施例提供的确定每个标题的上位标题ID的第一阶段的流程图;

图5是本申请实施例提供的一种文档标题层级分析方法步骤S304的流程图;

图6是本申请实施例提供的一种文档标题层级的分析方法步骤S305的流程图;

图7是本申请实施例根据表4生成的标题拓扑结构;

图8是本申请实施例提供的一种文档标题层级的分析装置的结构示意图。

具体实施方式

为了使本技术领域的人员更好地理解本申请中的技术方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。

电子文档,例如PDF文档、word文档、RTF(Rich Text Format,富文本格式)文档和HTML(HyperText Markup Language,超文本标记语言)文档等是各类计算机系统中承载信息的主要媒体形式,被广泛使用。因此,从电子文档中提取有价值的信息成为了近年来自然语言处理技术领域的研究热点。

在一篇文档中,由于标题通常是对其之后的一个或多个段落内容主题的概括,因此,对标题的提取和分析是从文档中获取信息的一个主要方向。一般来说,对文档中标题的提取和分析可以包括两个阶段:第一阶段,从文档中识别并提取标题;第二阶段,对提取的标题进行进一步分析,以确定标题之间的领属关系和标题的层级。

本申请实施例分别依据上述列举的两个阶段,对本申请实施例的技术方案做出具体的阐述说明。

第一阶段,从文档中识别并提取标题。

图1是本申请实施例提供的从文档中提取标题的流程图。如图1所示,本申请实施例第一阶段从文档中提取标题包括以下步骤:

步骤S101,从已知的文档语料中提取标题特征集和正文特征集。

其中,已知的文档语料指的是已知哪些内容是标题,哪些内容是正文的文档语料,已知的文档语料可以在历史的文档标题提取任务中收集得到,也可以通过语料标注的方式对未知的文档语料进行标注后得到。标题特征集中包含已知语料的标题内容,正文特征集包含已知语料的正文内容,当从一篇文档语料中识别出标题和正文时,可以将识别出的标题加入到标题特征集,以及将识别出的正文加入到正文特征集。

示例地,对于下面标注的文档语料(以下简称:语料1):

(五)投资状况分析 /title/

1、对外股权投资总体分析 /title/

□适用 √不适用

(1)重大的股权投资 /title/

□适用 √不适用

(2)重大的非股权投资 /title/

□适用 √不适用

(3)以公允价值计量的金融资产 /title/

□适用 √不适用

(六)重大资产和股权出售 /title/

√适用 □不适用

2018年10月31日,公司与XXX投资(上海)有限公司(以下简称“XXX”)签署了关于XXX之合作框架协议:具体内容详见于2018年11月1日披露的《关于出售资产意向的公告》

在语料1中,以段落作为标注单位,属于标题的段落标注为“/title/”,被标注为“/title/”的段落内容会被加入到标题特征集中,其余段落的内容会被加入到正文特征集中。

步骤S102,使用所述标题特征集和所述正文特征集训练得到基于机器学习分类算法的解析模型。

解析模型例如可以是支持向量机(support vector machine,SVM)算法模型,该算法模型可以通过多个类别的语料训练实现对未知样本的分类能力。例如,当使用标题特征集和所述正文特征集训练该算法模型时,可以使该算法模型具备识别未知文档中的标题和正文的能力。具体地,作为算法模型训练输入的标题特征集和所述正文特征集可以包含其对应标题和正文的字体样式、字体大小、字体高度和宽度等特征,使得算法模型在训练过程中学习上述特征,并具备根据上述特征识别未知文档中的标题和正文的能力。

步骤S103,使用所述解析模型从文档中提取所述标题。

在使用解析模型从文档中提取标题时,需要对文档进行处理,以得到解析模型能够接受的格式,那么,步骤S103如图2所示,具体可以包括以下步骤:

步骤S201,获取文档中每个字符的坐标位置。

具体地,可以以字符为单位对整篇文档进行字符解析,以获取字符的位置(例如:字符在文档页面中的X轴坐标和Y轴坐标)、字符尺寸、字符样式等字符特征,其中,X轴坐标可以是沿文档页面宽度方向的坐标,Y轴坐标可以是沿文档页面高度方向的坐标。

为了获取上述特征,可以在文档页面建立二维坐标系,该二维坐标系包括沿页面宽度方向的X轴和沿页面高度方向的Y轴。二维坐标系一旦确定,文档中每个字符的X轴坐标、Y轴坐标、字符尺寸等也能够随之确定。另外,对于字体样式的识别,可以将文档中的字符与字体库进行匹配,例如:通过识别字符信息的字迹所覆盖的坐标信息,能够得到字符信息的字体特征数据,根据字体特征数据在字体库中进行字体样式匹配,能够得到字符信息的字体样式,本实施例中的字体样式包括:字体名称、加粗字体、倾斜字体和划线字体等。

步骤S202,根据所述坐标位置以行为单位提取文档内容。

根据步骤S201,如果二维坐标系包括沿页面宽度方向的X轴和沿页面高度方向的Y轴坐标,那么对于文档中的字符来说,同一行的字符的Y轴坐标是相同的。因此,在步骤S202中,可以认为Y轴坐标相同的字符是同一行字符,由此可以将文档内容以行为单位提取出来。

步骤S203,将提取的文档内容输入到解析模型以提取所述标题。

由于解析模型预先经过训练,学习了大量标题的特征,例如字体样式、字体尺寸等,因此,将步骤S202提取的内容以行为单位作为解析模型的输入,就能够通过解析模型的分类能力确定输入的文档内容是标题还是正文。

进一步地,参见语料1,文档中的标题可能存在多种字符特征,例如下面三个标题的序号格式不同:

(五)投资状况分析

1、对外股权投资总体分析

(1)重大的股权投资

产生上述不同的原因是文档中的标题之间是具有层级关系的。本申请实施例中层级关系可以包括标题之间的从属关系和并列关系等。其中,从属关系是指一个标题(上位标题)在文档的内容逻辑上概括了另一个标题(下位标题)对应的内容;并列关系是指两个标题概括的内容在文档的逻辑上是并列的。

那么,根据文档中的标题可能存在多种字符特征的特点,在标注语料时,可以对不同字符特征的标题进行不同的标注,使解析模型在提取标题时,能够识别出不同字符特征的标题。

利用上述步骤S101-S103、S201-S203的方法,能够从文档中提取出所有的标题,同时,还能够识别出标题的不同字符特征并进行分类,每个分类中标题具有相同的字符特征,本申请实施例将这个分类称为标题类别。

在提取标题的基础上,本申请实施例提供了一种文档标题层级的分析方法。

图3为本申请实施例提供的一种文档标题层级的分析方法的流程图。如图3所示,该方法可以包括以下步骤:

步骤S301,为文档的每个标题分配标题ID,所述标题ID根据所述标题在文档中的顺序递增。

具体地,根据标题在文档中的顺序,可以对提取到的所有标题进行排序,然后按照标题的排序结果,从头至尾依次为每个标题分配标题ID。标题ID可以是***数字,标题ID随着标题在文档中的位置升序递增。例如,可以为文档中的第一个标题分配标题ID为1,为第二个标题分配标题ID为2,依次递增。

步骤S302,根据所述标题的字符特征确定每个所述标题的类别,并确定每个所述标题在其所属类别中的排列号,所述排列号根据所述标题在所属类别中的顺序递增。

根据上文对标题类别的介绍,每个类别的标题具有相同的字符特征,不同类别的标题具有不同的字符特征,因此,根据字符特征可以将标题划分为多个类别,并分别为每个类别中的标题进行单独的排序,以确定标题在其所属类别中的排列号。例如,排列号也可以是***数字,并且根据标题在其所属类别中的顺序递增。

作为示例地,本申请实施例对标题执行步骤S301和步骤S302之后,能够得到下面的表格:

Figure BDA0002232557660000051

Figure BDA0002232557660000061

表1

在上述表1中,标题类别以小写的英文字母a、b、c、d等表示,即每个英文字母指代一个标题类别。例如,标题“一”“二”“三”“四”同属于类别a,排列号依次为1、2、3、4。

需要补充说明的是,如表1所示,标题“1.1”“1.2”“3.1”“3.2”同属于类别c,但是这些标题却包含了两组排列号,即:标题“1.1”“1.2”的排列号分别为1、2,标题“3.1”“3.2”的排列号分别也为1、2;这是由于:虽然一些标题的类别相同,但是通过标题的序号1.1、3.1可以看出,这些标题在一篇文档中应该属于不同的章节,其对应的内容是相对独立的,因此,本申请实施例对标题“1.1”“1.2”和“3.1”“3.2”采用了单独的分配排列号的方式。

步骤S303,根据所述标题的标题ID、类别和排列号,确定每个所述标题的上位标题ID,所述上位标题ID是所述标题的上位标题的标题ID。

如前文所述,本申请实施例中的层级关系可以包括标题之间的从属关系和并列关系等,其中,上位标题和下位标题的概念出现在两个或多个具有从属关系的标题中,具体来说,如果前一个标题在逻辑上概括了后一个标题,并且这两个标题之间没有其他的可以概括后一个标题的其他标题,那么前一个标题就是后一个标题的上位标题,后一个标题就是前一个标题的下位标题。

本申请实施例中,确定每个标题的上位标题ID总体上可以包括两个阶段。

图4是本申请实施例提供的确定每个标题的上位标题ID的第一阶段的流程图。如图4所示,第一阶段具体可以包括以下步骤:

步骤S401,根据所述排列号确定每个类别的首标题,所述首标题是每个类别中排列号最小的标题。

例如,表1中的标题“一”的排列号是最小值1,因此它是a类别的首标题;表1中的标题“(一)”的排列号是最小值1,因此它是b类别的首标题;表1中的标题“1.1”的排列号是最小值1,因此它是c类别的首标题;表1中的标题“3.1”的排列号是最小值1,因此它也是c类别的首标题(即:一个标题类别中可以包括多个首标题);表1中的标题“(1)”的排列号是最小值1,因此它是d类别的首标题。

步骤S402,根据所述标题在文档中的顺序确定每个所述首标题的上位标题ID,所述上位标题ID是所述首标题的前一个标题的标题ID。

在步骤S402中,如果根据所述标题在文档中的顺序确定所述首标题是文档中的第一个标题,则所述首标题的上位标题ID为预设起始值,例如:预设起始值为0。

例如,首标题“一”的标题ID是1,因此,它是文档中的第一个标题,那么,它的上位标题ID为预设起始值,即0;除此之外,首标题“(一)”的前一个标题是标题“一”,对应的标题ID是1,因此,首标题“(一)”的上位标题ID是1;首标题“1.1”的前一个标题是标题“(一)”,对应的标题ID是2,因此,首标题“1.1”的上位标题ID是2;首标题“3.1”的前一个标题是标题“三”,对应的标题ID是8,因此,首标题“3.1”的上位标题ID是8;首标题“(1)”的前一个标题是标题“3.2”,对应的标题ID是10,因此,首标题“(1)”的上位标题ID是10。

将上述首标题的上位标题ID更新至表1中,可以得到下面的表2:

Figure BDA0002232557660000071

表2

步骤S403,获取所述首标题的第一同位标题,并将所述首标题的上位标题ID作为对应的所述第一同位标题的上位标题ID,所述第一同位标题是与所述首标题位置相邻并且类别相同的标题。

例如,首标题“1.1”具有相邻并且类别相同的标题“1.2”,因此,标题“1.2”是首标题“1.1”的第一同位标题,因此,可以将首标题“1.1”的上位标题ID作为标题“1.2”的上位标题ID,即标题“1.2”的上位标题ID为2;首标题“3.1”具有相邻并且类别相同的标题“3.2”,因此,标题“3.2”是首标题“3.1”的第一同位标题,因此,可以将首标题“3.1”的上位标题ID作为标题“3.2”的上位标题ID,即标题“3.2”的上位标题ID为8;首标题“(1)”具有相邻并且类别相同的标题“(2)”,因此,标题“(2)”是首标题“(1)”的第一同位标题,因此,可以将首标题“(1)”的上位标题ID作为标题“(2)”的上位标题ID,即标题“(2)”的上位标题ID为10。

另外,本申请实施例中,与首标题的已经确定的第一同位标题相邻并且类别相同的其他标题,也可以被确定为首标题的第一同位标题。例如,首标题“(1)”已经存在一个确定的第一同类标题“(2)”,而第一同类标题“(2)”还存在一个相邻并且类别相同的标题“(3)”,因此,标题“(3)”也是首标题“(1)”的第一同位标题,因此,标题“(3)”的上位标题ID同样为10。

将上述第一同位标题的上位标题ID更新至表2中,可以得到下面的表3:

Figure BDA0002232557660000081

表3

本申请实施例提供的确定每个标题的上位标题ID的第二阶段,具体可以包括:对于每个类别中除了所述首标题以外的非首标题,按照排列号递增的顺序,分别获取每个所述非首标题的第二同位标题,并将所述第二同位标题的上位标题ID作为对应的所述非首标题的上位标题ID,所述第二同位标题是位于所述非首标题之前的与所述非首标题最邻近并且类别相同的标题。

例如,非首标题“(二)”之前的与其最邻近并且类别相同的标题为“(一)”,因此标题“(一)”是非首标题“(二)”的第二同位标题,对应的上位标题ID是1,因此,非首标题“(二)”上位标题ID为1;又例如,非首标题“(三)”之前的与其最邻近并且类别相同的标题为“(二)”,因此标题“(二)”是非首标题“(三)”的第二同位标题,对应的上位标题ID是1,因此,非首标题“(三)”上位标题ID为1;又例如,非首标题“二”之前的与其最邻近并且类别相同的标题为“一”,因此标题“一”是非首标题“二”的第二同位标题,对应的上位标题ID是0,因此,非首标题“二”上位标题ID为0;又例如,非首标题“三”之前的与其最邻近并且类别相同的标题为“二”,因此标题“二”是非首标题“三”的第二同位标题,对应的上位标题ID是0,因此,非首标题“三”上位标题ID为0;又例如,非首标题“四”之前的与其最邻近并且类别相同的标题为“三”,因此标题“三”是非首标题“四”的第二同位标题,对应的上位标题ID是0,因此,非首标题“四”上位标题ID为0。

将上述非首标题的上位标题ID更新至表3中,可以得到下面的表4:

Figure BDA0002232557660000082

Figure BDA0002232557660000091

表4

由此,本申请通过两个阶段的分析过程,确定了文档中所有标题的上位标题ID,为分析标题之间的领属关系提供了充分的依据。

步骤S304,根据所述上位标题ID确定所述标题之间的领属关系。

在一些实施例中,如表5所示,“第二部分”下第一个下位标题为“第六条”,而根据步骤S303确定的“第六条”的上位标题为“第一部分”,因此,容易将标题“第六条”和标题“第一部分”误认为具有领属关系,实际上,标题“第二部分”才是标题“第六条”的领属标题。那么,为了避免上述错误发生,步骤S304中进一步确定了每个标题的领属标题。

Figure BDA0002232557660000092

表5

图5是本申请实施例提供的一种文档标题层级分析方法步骤S304的流程图。如图5所示,步骤S304具体可以包括以下步骤:

步骤S501,根据所述上位标题ID判断每个所述标题与其上位标题之间是否存在其他同级上位标题,所述同级上位标题的上位标题ID与所述标题的上位标题的上位标题ID相同。

例如,表5中,标题“第一条”的上位标题为“第一部分”,“第一条”与“第一部分”之间没有其他与“第一部分”的上位标题ID相同的标题,因此,“第一条”与“第一部分”之间不存在其他同级上位标题;又例如,标题“第六条”的上位标题为“第一部分”,“第六条”与“第一部分”之间存在与“第一部分”的上位标题ID相同的标题“第二部分”,因此,标题“第二部分”是标题“第六条”的同级上位标题;又例如,标题“第九条”的上位标题为“第一部分”,“第九条”与“第一部分”之间存在与“第一部分”的上位标题ID相同的标题“第二部分”和“第三部分”,因此,标题“第二部分”和“第三部分”都是标题“第六条”的同级上位标题。

步骤S5021,如果存在同级上位标题,将距离所述标题最近的同级上位标题作为所述标题领属的上位标题。

例如,标题“第二部分”是标题“第六条”领属的上位标题;又例如,标题“第三部分”是距离标题“第九条”最近的同级上位标题,因此,标题“第三部分”是标题“第九条”领属的上位标题。

步骤S5022,如果不存在同级上位标题,将所述标题对应的上位标题作为所述标题领属的上位标题。

例如,标题“第一部分”是标题“第一条”领属的上位标题。

步骤S305,根据所述标题之间的领属关系确定每个所述标题的层级。

图6是本申请实施例提供的一种文档标题层级的分析方法步骤S305的流程图。如图6所示,步骤S305可以包括以下步骤:

步骤S601,根据所述标题及其领属的上位标题生成文档的标题拓扑结构。

图7是本申请实施例根据表4生成的标题拓扑结构,如图7所示,标题拓扑结构可以通过标题树的形式呈现。在标题树中,每个标题作为标题树中的一个节点,节点之间通过连线相连。

步骤S602,根据所述标题拓扑结构确定每个所述标题的层级。

其中,位于一条连线两端的节点互为从属关系,例如:标题“3.1”和标题“(3)”位于一条连线两端,因此,标题“3.1”和标题“(3)”为从属关系,标题“3.1”是标题“(3)”领属的上位标题。具有同一个领属的上位标题的标题为并列关系,例如,标题“(1)”、标题“(2)”、标题“(3)”具有相同的领属的上位标题“3.2”,因此,标题“(1)”、标题“(2)”、标题“(3)”为并列关系。

在确定了各个标题的层级之后,技术人员就可以准确地通过标题确定文档的内容结构。例如:根据标题“3.2”与标题“(1)”、标题“(2)”、标题“(3)”的从属关系,可以确定标题“3.2”是对标题“(1)”、标题“(2)”、标题“(3)”所对应的内容的概括,而标题“(1)”、标题“(2)”、标题“(3)”所对应的内容在逻辑上是并列的。

由以上技术方案可知,本申请实施例提供了一种文档标题层级的分析方法。该方法包括:为文档的每个标题分配标题ID,标题ID根据标题在文档中的顺序递增;根据标题的字符特征确定每个标题的类别,并确定每个标题在其所属类别中的排列号,排列号根据标题在所属类别中的顺序递增;根据标题的标题ID、类别和排列号,确定每个标题的上位标题ID,上位标题ID是标题的上位标题的标题ID;根据上位标题ID确定标题之间的领属关系;根据标题之间的领属关系确定每个标题的层级。由此,本申请实施例依据的是标题自身在文档中的位置和字符特征等特性分析确定标题的层级,不需要借助额外的规则,因此普适性好,准确性更高。

本申请还提供了一种文档标题层级的分析装置的实施例,该装置可以用于执行本申请的方法实施例,有关本申请的装置实施例未公开的技术细节,请参照本申请的方法实施例。

图8是本申请实施例提供的一种文档标题层级的分析装置的结构示意图。如图8所示,该装置包括:

标题ID生成模块701,用于为文档的每个标题分配标题ID,所述标题ID根据所述标题在文档中的顺序递增;

排列号生成模块702,用于根据所述标题的字符特征确定每个所述标题的类别,并确定每个所述标题在其所属类别中的排列号,所述排列号根据所述标题在所属类别中的顺序递增;

上位标题ID生成模块703,用于根据所述标题的标题ID、类别和排列号,确定每个所述标题的上位标题ID,所述上位标题ID是所述标题的上位标题的标题ID;

领属关系确定模块704,用于根据所述上位标题ID确定所述标题之间的领属关系;

文档标题生成模块705,用于根据所述标题之间的领属关系确定每个所述标题的层级。

由以上技术方案可知,本申请实施例提供了一种文档标题层级的分析装置。该装置用于:为文档的每个标题分配标题ID,标题ID根据标题在文档中的顺序递增;根据标题的字符特征确定每个标题的类别,并确定每个标题在其所属类别中的排列号,排列号根据标题在所属类别中的顺序递增;根据标题的标题ID、类别和排列号,确定每个标题的上位标题ID,上位标题ID是标题的上位标题的标题ID;根据上位标题ID确定标题之间的领属关系;根据标题之间的领属关系确定每个标题的层级。由此,本申请实施例依据的是标题自身在文档中的位置和字符特征等特性分析确定标题的层级,不需要借助额外的规则,因此普适性好,准确性更高。

本申请实施例还提供了一种服务器,该服务器包括存储器和处理器,存储器存储有程序指令,当程序指令被处理器执行时,使服务器上述各个实施例的方法。

本申请实施例还提供了一种计算机存储介质,该计算机存储介质包括计算机指令,当计算机指令在用户设备上运行时,使得用户设备执行上述各个实施例的方法。

本申请实施例还提供了一种计算机程序产品,当计算机程序产品在计算机上运行时,使得计算机执行上述各个实施例的方法。

本领域技术人员在考虑说明书及实践这里公开的申请后,将容易想到本申请的其它实施方案。本申请旨在涵盖本申请的任何变型、用途或者适应性变化,这些变型、用途或者适应性变化遵循本申请的一般性原理并包括本申请未公开的本技术领域中的公知常识或惯用技术手段。说明书和实施例仅被视为示例性的,本申请的真正范围和精神由下面的权利要求指出。

应当理解的是,本申请并不局限于上面已经描述并在附图中示出的精确结构,并且可以在不脱离其范围进行各种修改和改变。本申请的范围仅由所附的权利要求来限制。

19页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种区分文本信息的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!