保险内容标注方法、系统、计算机设备及存储介质

文档序号：169322 发布日期：2021-10-29 浏览：27次 >En<

阅读说明：本技术 保险内容标注方法、系统、计算机设备及存储介质 (Insurance content marking method and system, computer equipment and storage medium ) 是由汤海波于 2021-09-26 设计创作，主要内容包括：本方案涉及一种保险内容标注方法、系统、计算机设备及存储介质。所述方法包括：获取标注好的样本文件,并提取样本文件中标注内容；通过匹配算法解析样本文件,得到与标注内容对应的定位信息；根据定位信息提取与标注内容对应的各个样本字段,对各个样本字段进行去重处理,得到各个目标样本字段；获取BERT指针网络模型,获取待标注保险文件；根据各个目标样本字段以及BERT指针网络模型,预测待标注保险文件中的目标标注内容,并对目标标注内容进行标注和展示。通过使用匹配算法对标注内容进行定位,提高了内容识别匹配的效率和精度；通过BERT指针网络模型对文件中的内容进行标注预测且自动标注,提升了标注效率。(The scheme relates to a method and a system for marking insurance content, computer equipment and a storage medium. The method comprises the following steps: acquiring a marked sample file, and extracting marked content in the sample file; analyzing the sample file through a matching algorithm to obtain positioning information corresponding to the marked content; extracting each sample field corresponding to the marked content according to the positioning information, and performing duplicate removal processing on each sample field to obtain each target sample field; acquiring a BERT pointer network model, and acquiring an insurance file to be marked; and predicting target annotation content in the insurance file to be annotated according to each target sample field and the BERT pointer network model, and annotating and displaying the target annotation content. The marked content is positioned by using a matching algorithm, so that the efficiency and the precision of content identification and matching are improved; the content in the file is labeled and predicted and automatically labeled through the BERT pointer network model, and labeling efficiency is improved.)

技术领域

本发明涉及数据处理技术领域，特别是涉及一种保险内容标注方法、系统、计算机设备及存储介质。

背景技术

传统保险文件审查中，各条款的法律风险判断主要依靠的是专业人士，这是一个很费时费力的过程。不仅为相关法律人员带来巨大的工作量，对于经验较为欠缺的法律工作者可能难以识别其中的风险条款，还容易导致对合同条款的审查不准确，使得审查效率下降。为此，大部分文件通过先对关键条款进行标注，工作人员再进行条款阅读，可以节约合同条款的审查时间。随着近几年NLP技术的应用，市面上存在通过算法实现自动标注来构造知识库或知识图谱的工具，其主要利用NLP算法构建自动标注工具。市面上现存的通过算法实现自动标注来构造知识库或者知识图谱的工具，在对比较复杂的文本进行标注时比较困难，如对于同一个标注内容，全篇可能出现多次，但因为所在位置不同，对应的标签页相对来说并不相同。

因此，传统的标注方法存在标注困难，标注效率较低的问题。

发明内容

基于此，为了解决上述技术问题，提供一种保险内容标注方法、系统、计算机设备和存储介质，可以提高标注效率。

一种保险内容标注方法，所述方法包括：

获取标注好的样本文件，并提取所述样本文件中标注内容；

通过匹配算法解析所述样本文件，得到与所述标注内容对应的定位信息；

根据所述定位信息提取与所述标注内容对应的各个样本字段，对各个所述样本字段进行去重处理，得到各个目标样本字段；

获取BERT指针网络模型，获取待标注保险文件；

根据各个所述目标样本字段以及所述BERT指针网络模型，预测所述待标注保险文件中的目标标注内容，并对所述目标标注内容进行标注和展示。

在其中一个实施例中，所述方法还包括：

对所述样本文件进行解析，得到解析后的可识别文件；

确定所述可识别文件的排版样式，并根据所述排版样式提取所述可识别文件中的所述样本字段；

将所述样本字段存储至候选集中。

在其中一个实施例中，所述通过匹配算法解析所述样本文件，得到与所述标注内容对应的定位信息，包括：

提取所述样本文件中内容数据、标题数据，并将所述内容数据、所述标题数据存储至所述候选集中；

基于所述候选集中的所述标题数据，使用正则匹配算法对所述样本文件中的标题进行匹配，得到标题定位信息；

基于所述候选集中的所述内容数据，通过深度学习模型对所述样本文件中的内容进行匹配，得到内容定位信息。

在其中一个实施例中，所述通过深度学习模型对所述样本文件中的内容进行匹配，得到内容定位信息，包括：

通过编辑距离算法计算所述内容数据与所述样本文件中的内容之间的相似度；

根据所述相似度得到所述内容定位信息。

在其中一个实施例中，所述提取所述样本文件中内容数据、标题数据，并将所述内容数据、所述标题数据存储至所述候选集中，包括：

提取所述样本文件中内容数据、标题数据，将提取出的所述内容数据与所述候选集中的候选内容数据进行比较，并将提取出的所述标题数据与所述候选集中的候选标题数据进行比较；

当提取出的所述内容数据与所述候选内容数据不同时，将所述内容数据存储至所述候选集中；当提取出的所述标题数据与所述候选标题数据不同时，将所述标题数据存储至所述候选集中。

在其中一个实施例中，所述对各个所述样本字段进行去重处理，得到各个目标样本字段，包括：

比对各个所述样本字段，并删除重复的各个所述样本字段，得到所述目标样本字段。

在其中一个实施例中，所述BERT指针网络模型的训练过程包括：

获取初始BERT指针网络模型，将训练样本数据输入至所述初始BERT指针网络模型中，得到样本训练结果；

提取所述初始BERT指针网络模型中的模型参数，根据所述样本训练结果调整所述模型参数，得到目标模型参数；

根据所述目标模型参数调整所述初始BERT指针网络模型，生成所述BERT指针网络模型。

一种保险内容标注系统，所述系统包括：

内容提取模块，用于获取标注好的样本文件，并提取所述样本文件中标注内容；

定位模块，用于通过匹配算法解析所述样本文件，得到与所述标注内容对应的定位信息；

字段处理模块，用于根据所述定位信息提取与所述标注内容对应的各个样本字段，对各个所述样本字段进行去重处理，得到各个目标样本字段；

数据获取模块，用于获取BERT指针网络模型，获取待标注保险文件；

内容标注模块，用于根据各个所述目标样本字段以及所述BERT指针网络模型，预测所述待标注保险文件中的目标标注内容，并对所述目标标注内容进行标注和展示。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取标注好的样本文件，并提取所述样本文件中标注内容；

通过匹配算法解析所述样本文件，得到与所述标注内容对应的定位信息；

根据所述定位信息提取与所述标注内容对应的各个样本字段，对各个所述样本字段进行去重处理，得到各个目标样本字段；

获取BERT指针网络模型，获取待标注保险文件；

根据各个所述目标样本字段以及所述BERT指针网络模型，预测所述待标注保险文件中的目标标注内容，并对所述目标标注内容进行标注和展示。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取标注好的样本文件，并提取所述样本文件中标注内容；

通过匹配算法解析所述样本文件，得到与所述标注内容对应的定位信息；

根据所述定位信息提取与所述标注内容对应的各个样本字段，对各个所述样本字段进行去重处理，得到各个目标样本字段；

获取BERT指针网络模型，获取待标注保险文件；

根据各个所述目标样本字段以及所述BERT指针网络模型，预测所述待标注保险文件中的目标标注内容，并对所述目标标注内容进行标注和展示。

上述保险内容标注方法、系统、计算机设备和存储介质，通过获取标注好的样本文件，并提取所述样本文件中标注内容；通过匹配算法解析所述样本文件，得到与所述标注内容对应的定位信息；根据所述定位信息提取与所述标注内容对应的各个样本字段，对各个所述样本字段进行去重处理，得到各个目标样本字段；获取BERT指针网络模型，获取待标注保险文件；根据各个所述目标样本字段以及所述BERT指针网络模型，预测所述待标注保险文件中的目标标注内容，并对所述目标标注内容进行标注和展示。通过使用匹配算法对标注内容进行定位，提高了内容识别匹配的效率和精度；通过BERT指针网络模型对文件中的内容进行标注预测且自动标注，提升了标注效率。

附图说明

图1为一个实施例中保险内容标注方法的应用环境图；

图2为一个实施例中保险内容标注方法的流程示意图；

图3为一个实施例中BERT指针网络模型的示意图；

图4为一个实施例中保险内容标注系统的结构框图；

图5为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请实施例提供的保险内容标注方法，可以应用于如图1所示的应用环境中。如图1所示，该应用环境包括计算机设备110。计算机设备110可以获取标注好的样本文件，并提取样本文件中标注内容；计算机设备110可以通过匹配算法解析样本文件，得到与标注内容对应的定位信息；计算机设备110可以根据定位信息提取与标注内容对应的各个样本字段，对各个样本字段进行去重处理，得到各个目标样本字段；计算机设备110可以获取BERT指针网络模型，获取待标注保险文件；计算机设备110可以根据各个目标样本字段以及BERT指针网络模型，预测待标注保险文件中的目标标注内容，并对目标标注内容进行标注和展示。其中，计算机设备110可以但不限于是各种个人计算机、笔记本电脑、智能手机、机器人、平板电脑等设备。

在一个实施例中，如图2所示，提供了一种保险内容标注方法，包括以下步骤：

步骤202，获取标注好的样本文件，并提取样本文件中标注内容。

其中，标注好的样本文件可以是用户预先手动标注好，且经过人工筛选后的文件，文件可以是PDF格式。用户可以将标注好的样本文件导入至计算机设备中，即，计算机设备可以获取到标注好的样本文件。

由于样本文件是标注好的，计算机设备可以将样本文件中的标注内容进行提取操作，从而得到样本文件中的标注内容。

步骤204，通过匹配算法解析样本文件，得到与标注内容对应的定位信息。

计算机设备中可以存储有匹配算法，其中匹配算法可以包括模糊匹配算法和正则匹配算法。计算机设备可以通过匹配算法对获取到的样本文件进行解析，即对样本文件中的标注内容进行定位，从而得到与标注内容对应的定位信息。

步骤206，根据定位信息提取与标注内容对应的各个样本字段，对各个样本字段进行去重处理，得到各个目标样本字段。

计算机设备可以根据定位信息提取样本文件中的字段，具体的，计算机设备可以提取出与标注内容对应的各个样本字段。由于样本文件是用户人工标注的，会存在有相同的标注内容，因此，计算机设备提取出的与标注内容对应的各个样本字段也可能存在有相同的。对此，计算机设备可以对各个样本字段进行去重处理，去重处理后剩下的各个样本字段可以作为各个目标样本字段。计算机设备可以将得到各个目标样本字段存储在候选集中。

步骤208，获取BERT指针网络模型，获取待标注保险文件。

BERT指针网络模型可以是存储在计算机设备中预先训练好的模型，用于识别句子中的具体片段为标注内容。

待标注保险文件可以是用户导入计算机设备中需要进行标注的保险文件，例如保险合同等文件。计算机设备可以获取到BERT指针网络模型以及待标注保险文件。

步骤210，根据各个目标样本字段以及BERT指针网络模型，预测待标注保险文件中的目标标注内容，并对目标标注内容进行标注和展示。

计算机设备可以根据各个目标样本字段以及BERT指针网络模型，对导入的待标注保险文件进行标注内容预测，进而对预测到的标注内容进行标注和展示。

其中，标注是指将目标标注内容与目标样本字段匹配；展示是指将一处或多处目标标注内容在样本文件中以特定颜色高亮展示，并可在多处目标标注内容的高亮展示间进行跳转。

在本实施例中，计算机设备通过获取标注好的样本文件，并提取样本文件中标注内容；通过匹配算法解析样本文件，得到与标注内容对应的定位信息；根据定位信息提取与标注内容对应的各个样本字段，对各个样本字段进行去重处理，得到各个目标样本字段；获取BERT指针网络模型，获取待标注保险文件；根据各个目标样本字段以及BERT指针网络模型，预测待标注保险文件中的目标标注内容，并对目标标注内容进行标注和展示。通过使用匹配算法对标注内容进行定位，提高了内容识别匹配的效率和精度；通过BERT指针网络模型对文件中的内容进行标注预测且自动标注，提升了标注效率。

在一个实施例中，提供的一种保险内容标注方法还可以包括创建候选集的过程，具体过程包括：对样本文件进行解析，得到解析后的可识别文件；确定可识别文件的排版样式，并根据排版样式提取可识别文件中的样本字段；将样本字段存储至候选集中。

计算机设备可以对导入的样本文件进行解析，其中，导入的样本文件的格式可以是PDF格式。计算机设备解析后可以得到可识别文件。

计算机设备可以识别出可识别文件的排版样式。其中，排版样式可以用于表示文件中标题的排版样式，可以分为横排格式、竖排格式，计算机设备可以识别导入的样本文件是横排格式还是竖排格式。计算机设备可以根据排版样式提取可识别文件中的样本字段，具体的，计算机设备可以使用竖排或者横排的处理逻辑将可识别文件处理成“标题-内容”相对应的格式，进一步提取出样本字段，从而将样本字段存储在候选集中。

在本实施例中，计算机设备在将可识别文件处理成“标题-内容”相对应的格式后，由于解析PDF文件需要耗费的时间较长，故将解析完毕的PDF文件保存为csv格式的文件，便于之后需要之时再次解析，节省计算量。

在一个实施例中，提供的一种保险内容标注方法还可以包括得到定位信息的过程，具体过程包括：提取样本文件中内容数据、标题数据，并将内容数据、标题数据存储至候选集中；基于候选集中的标题数据，使用正则匹配算法对样本文件中的标题进行匹配，得到标题定位信息；基于候选集中的内容数据，通过深度学习模型对样本文件中的内容进行匹配，得到内容定位信息。

计算机设备可以提取样本文件中的内容数据、标题数据，并将内容数据、标题数据存储至候选集中。由于匹配算法可以包括正则匹配算法和模糊匹配算法，计算机设备可以基于正则匹配算法对文件中的小标题进行定位，具体的，计算机设备可以基于候选集中的标题数据，使用正则匹配算法对样本文件中的标题进行匹配，并对标题进行直接记忆定位，从而返回精细化的标题定位信息。其中，正则匹配算法可以适用于投保人年龄、续保期限等容易被精确识别的数据。

计算机设备可以基于模糊匹配算法对文件中的内容进行定位，具体的，计算机设备可以基于候选集中的内容数据，通过深度学习模型对样本文件中的内容进行匹配，得到内容定位信息。

在一个实施例中，提供的一种保险内容标注方法还可以包括得到内容定位信息的过程，具体过程包括：通过编辑距离算法计算内容数据与样本文件中的内容之间的相似度；根据相似度得到内容定位信息。

编辑距离算法可以是通过Levenshtein Distance计算两个字符串相似度的方法，即，使用现有的候选集中的内容与样本文件中的内容进行匹配，计算内容数据与样本文件中的内容之间的相似度，从而得到内容定位信息。其中，计算相似度的公式可以是：。其中，a、b均表示字符串，表示a字符串的长度，表示b字符串的长度，lev表示两个字符串的编辑距离，编辑距离越小，字符串越相似；tail表示尾部，lev(tail(a),b)表示a字符的尾部与b字符之间的距离。

在一个实施例中，提供的一种保险内容标注方法还可以包括将数据存储至候选集中的过程，具体过程包括：提取样本文件中内容数据、标题数据，将提取出的内容数据与候选集中的候选内容数据进行比较，并将提取出的标题数据与候选集中的候选标题数据进行比较；当提取出的内容数据与候选内容数据不同时，将内容数据存储至候选集中；当提取出的标题数据与候选标题数据不同时，将标题数据存储至候选集中。

在一个实施例中，提供的一种保险内容标注方法还可以包括对样本字段进行去重处理的过程，具体过程包括：比对各个样本字段，并删除重复的各个样本字段，得到目标样本字段。

计算机设备可以对候选集中的样本字段进行去重处理，即去掉重复的样本子弹。其中，候选集中的内容存放于sql数据库之中，sql中可以允许存放重复的数据。

在一个实施例中，提供的一种保险内容标注方法还可以包括BERT指针网络模型的训练过程，具体过程包括：获取初始BERT指针网络模型，将训练样本数据输入至初始BERT指针网络模型中，得到样本训练结果；提取初始BERT指针网络模型中的模型参数，根据样本训练结果调整模型参数，得到目标模型参数；根据目标模型参数调整初始BERT指针网络模型，生成BERT指针网络模型。

由于候选集中内容与文本内容允许存在一定偏差，例如，内容中有一到两个字不相同，但仍然可以匹配。在偏差范围之内即可定位并返回其所在的段落标题，需采用深度学习模型，并使用大量的数据进行训练以提高匹配精度和准确度。

其中，采用的深度学习模型可以是BERT指针网络模型，用于识别模糊匹配中句子的具体片段为标注内容。BERT指针网络模型需不断的使用数据对其进行训练，以不断的增加其准确率。

BERT指针网络模型如图3所示，其中start position 和end position表示标签内容，用于模糊匹配找到句子中的位置，两个标记中间片段为目标标记内容。由于候选集为精细化的标注内容，而句子匹配时两者长度不一致，因此通过截取待标注句子与候选集中相同的长度，然后使用Levenshtein Distance计算相似度，再使用BERT指针网络模型，对最相似的句子截取中间一个片段作为最终结果，可以提高自动标注的准确性。

应该理解的是，虽然上述流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，上述流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图4所示，提供了一种保险内容标注系统，包括：内容提取模块410、定位模块420、字段处理模块430、数据获取模块440和内容标注模块450，其中：

内容提取模块410，用于获取标注好的样本文件，并提取样本文件中标注内容；

定位模块420，用于通过匹配算法解析样本文件，得到与标注内容对应的定位信息；

字段处理模块430，用于根据定位信息提取与标注内容对应的各个样本字段，对各个样本字段进行去重处理，得到各个目标样本字段；

数据获取模块440，用于获取BERT指针网络模型，获取待标注保险文件；

内容标注模块450，用于根据各个目标样本字段以及BERT指针网络模型，预测待标注保险文件中的目标标注内容，并对目标标注内容进行标注和展示。

在一个实施例中，数据获取模块440还用于对样本文件进行解析，得到解析后的可识别文件；确定可识别文件的排版样式，并根据排版样式提取可识别文件中的样本字段；将样本字段存储至候选集中。

在一个实施例中，定位模块420还用于提取样本文件中内容数据、标题数据，并将内容数据、标题数据存储至候选集中；基于候选集中的标题数据，使用正则匹配算法对样本文件中的标题进行匹配，得到标题定位信息；基于候选集中的内容数据，通过深度学习模型对样本文件中的内容进行匹配，得到内容定位信息。

在一个实施例中，定位模块420还用于通过编辑距离算法计算内容数据与样本文件中的内容之间的相似度；根据相似度得到内容定位信息。

在一个实施例中，数据获取模块440还用于提取样本文件中内容数据、标题数据，将提取出的内容数据与候选集中的候选内容数据进行比较，并将提取出的标题数据与候选集中的候选标题数据进行比较；当提取出的内容数据与候选内容数据不同时，将内容数据存储至候选集中；当提取出的标题数据与候选标题数据不同时，将标题数据存储至候选集中。

在一个实施例中，字段处理模块430还用于比对各个样本字段，并删除重复的各个样本字段，得到目标样本字段。

在一个实施例中，提供的一种保险内容标注系统还可以包括模型训练模块，用于获取初始BERT指针网络模型，将训练样本数据输入至初始BERT指针网络模型中，得到样本训练结果；提取初始BERT指针网络模型中的模型参数，根据样本训练结果调整模型参数，得到目标模型参数；根据目标模型参数调整初始BERT指针网络模型，生成BERT指针网络模型。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图5所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种保险内容标注方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸层，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图5中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取标注好的样本文件，并提取样本文件中标注内容；

通过匹配算法解析样本文件，得到与标注内容对应的定位信息；

根据定位信息提取与标注内容对应的各个样本字段，对各个样本字段进行去重处理，得到各个目标样本字段；

获取BERT指针网络模型，获取待标注保险文件；

根据各个目标样本字段以及BERT指针网络模型，预测待标注保险文件中的目标标注内容，并对目标标注内容进行标注和展示。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：对样本文件进行解析，得到解析后的可识别文件；确定可识别文件的排版样式，并根据排版样式提取可识别文件中的样本字段；将样本字段存储至候选集中。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：提取样本文件中内容数据、标题数据，并将内容数据、标题数据存储至候选集中；基于候选集中的标题数据，使用正则匹配算法对样本文件中的标题进行匹配，得到标题定位信息；基于候选集中的内容数据，通过深度学习模型对样本文件中的内容进行匹配，得到内容定位信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：通过编辑距离算法计算内容数据与样本文件中的内容之间的相似度；根据相似度得到内容定位信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：提取样本文件中内容数据、标题数据，将提取出的内容数据与候选集中的候选内容数据进行比较，并将提取出的标题数据与候选集中的候选标题数据进行比较；当提取出的内容数据与候选内容数据不同时，将内容数据存储至候选集中；当提取出的标题数据与候选标题数据不同时，将标题数据存储至候选集中。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：比对各个样本字段，并删除重复的各个样本字段，得到目标样本字段。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：获取初始BERT指针网络模型，将训练样本数据输入至初始BERT指针网络模型中，得到样本训练结果；提取初始BERT指针网络模型中的模型参数，根据样本训练结果调整模型参数，得到目标模型参数；根据目标模型参数调整初始BERT指针网络模型，生成BERT指针网络模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取标注好的样本文件，并提取样本文件中标注内容；

通过匹配算法解析样本文件，得到与标注内容对应的定位信息；

根据定位信息提取与标注内容对应的各个样本字段，对各个样本字段进行去重处理，得到各个目标样本字段；

获取BERT指针网络模型，获取待标注保险文件；

根据各个目标样本字段以及BERT指针网络模型，预测待标注保险文件中的目标标注内容，并对目标标注内容进行标注和展示。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：对样本文件进行解析，得到解析后的可识别文件；确定可识别文件的排版样式，并根据排版样式提取可识别文件中的样本字段；将样本字段存储至候选集中。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：提取样本文件中内容数据、标题数据，并将内容数据、标题数据存储至候选集中；基于候选集中的标题数据，使用正则匹配算法对样本文件中的标题进行匹配，得到标题定位信息；基于候选集中的内容数据，通过深度学习模型对样本文件中的内容进行匹配，得到内容定位信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：通过编辑距离算法计算内容数据与样本文件中的内容之间的相似度；根据相似度得到内容定位信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：提取样本文件中内容数据、标题数据，将提取出的内容数据与候选集中的候选内容数据进行比较，并将提取出的标题数据与候选集中的候选标题数据进行比较；当提取出的内容数据与候选内容数据不同时，将内容数据存储至候选集中；当提取出的标题数据与候选标题数据不同时，将标题数据存储至候选集中。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：比对各个样本字段，并删除重复的各个样本字段，得到目标样本字段。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：获取初始BERT指针网络模型，将训练样本数据输入至初始BERT指针网络模型中，得到样本训练结果；提取初始BERT指针网络模型中的模型参数，根据样本训练结果调整模型参数，得到目标模型参数；根据目标模型参数调整初始BERT指针网络模型，生成BERT指针网络模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器（ROM）、可编程ROM（PROM）、电可编程ROM（EPROM）、电可擦除可编程ROM（EEPROM）或闪存。易失性存储器可包括随机存取存储器（RAM）或者外部高速缓冲存储器。作为说明而非局限，RAM以多种形式可得，诸如静态RAM（SRAM）、动态RAM（DRAM）、同步DRAM（SDRAM）、双数据率SDRAM（DDRSDRAM）、增强型SDRAM（ESDRAM）、同步链路（Synchlink） DRAM（SLDRAM）、存储器总线（Rambus）直接RAM（RDRAM）、直接存储器总线动态RAM（DRDRAM）、以及存储器总线动态RAM（RDRAM）等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

16页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种检测文档中乱码的方法及装置

保险内容标注方法、系统、计算机设备及存储介质

相关技术

网友询问留言