一种融合多模态的简历版面分析方法及装置

文档序号：1922109 发布日期：2021-12-03 浏览：17次 >En<

阅读说明：本技术 一种融合多模态的简历版面分析方法及装置 (Multi-mode-fused resume layout analysis method and device ) 是由于兴文于 2021-08-17 设计创作，主要内容包括：本发明公开了一种融合多模态的简历版面分析方法及装置,所述方法包括：以简历图片为数据源,对简历图片里的文本行区域进行抽取获得文本位置信息,对文本区域中文本内容进行识别获得文本自然语言信息,输入文本自然语言信息生成文本内容编码,输入文本位置信息生成文本的位置编码,通过注意力机制分别计算文本与文本间注意力矩阵以及文本与相对位置间注意力矩阵,根据注意力矩阵生成结果矩阵,获得结构化简历。本发明以相对位置注意力编码为核心设计融合自然语言信息与位置信息的深度学习模型,综合考虑自然语言信息与其对应的位置信息,具有简历全文的感受野,可以有效使用到上下文信息,算法精度得到有效保障。(The invention discloses a method and a device for analyzing a resume layout by fusing multiple modes, wherein the method comprises the following steps: the method comprises the steps of taking a resume picture as a data source, extracting a text line region in the resume picture to obtain text position information, identifying text contents in the text region to obtain text natural language information, inputting the text natural language information to generate text content codes, inputting the text position information to generate the text position codes, respectively calculating an attention moment matrix between texts and text and an attention matrix between the texts and relative positions through an attention mechanism, and generating a result matrix according to the attention moment matrix to obtain the structured resume. The invention designs a deep learning model fusing natural language information and position information by taking relative position attention coding as a core, comprehensively considers the natural language information and the corresponding position information, has the reception field of a resume full text, can effectively use context information, and effectively ensures the algorithm precision.)

一种融合多模态的简历版面分析方法及装置

技术领域

本发明涉及自然语言处理技术领域，尤其涉及一种融合多模态的简历版面分析方法及装置。

背景技术

简历的版面分析指通过一些手段对简历内容进行结构化，如常规的简历一般包含基本信息、求职意向、教育经历、工作经历、项目经历等多个版面内容，先需要将一张简历图片或pdf文档中文字内容自动化的“填入”对应版面，进而为人力资源的管理与匹配提供基础。

当前业界实现该技术主要存在两种方案，一种以自然语言数据为基础，设计大量复杂的文本解析规则，最终实现抽取对应版面信息的目的，这种方案需要根据不同的简历内容人工设计大量规则，较为费事费力。同时，简历形式多样，每个求职者都可能有自己的简历模板，也很难认为设计出覆盖全量简历的规则。另外一种方法是使用自然语言分析算法对简历内容进行解析，通常使用自然语言深度分类算法对简历中的自然语言信息进行分类。这种方法较之前述方法更为智能，无需人工设计大量规则，可以根据简历本身的结构自动训练建模。但其也存在一些缺陷。首先，该方法强依赖于自然语言信息的准确性，由于大多数简历以word、pdf文件形式存储，将其文本内容准确抽取需要依赖成熟的文本解析工具，否则抽取出的文本经常出现乱序、重复、缺少的情况，这无疑会增加项目开发成本。其次算法仅仅依赖与自然语言信息，但同样一段文本如“我在XX工作很认真”，可以将其归为自我评价，也可以将其归为工作经历或项目经历，要想更准确的将其细致划分，需要进一步引入该文本在简历中的位置信息与上下文信息。

发明内容

发明目的：本发明着重解决简历自然语言数据质量不高；算法模型数据形式单一，模型拟合难度高，准确度较难上升的问题。

技术方案：一种融合多模态的简历版面分析方法，包括以下步骤：

(1)以简历图片为数据源，使用craft算法对简历图片里的文本行区域进行抽取，生成文本框，获取简历图片的文本位置信息；

(2)以简历图片为数据源，使用crnn算法对简历图片中的文本内容进行识别，获得文本自然语言信息；

(3)将文本自然语言信息作为输入，使用albert语言模型对自然语言信息进行编码，获得文本内容编码；

(4)将文本位置信息作为输入，使用正弦位置编码生成文本的位置编码；

(5)使用注意力机制融合文本内容编码和文本位置编码，设定简历内容的类别，对每个文本框进行分类，判断文本框的行关系，将应该属于一行的零碎文本框归纳为一行，使用注意力机制对文本行关系结果与文本框类别进行解码，输出文本行所属的类别，获得结构化简历。

所述文本框为craft算法根据文字位置信息和文字间关联度信息，生成文字轮廓对应的正外接矩形。

所述步骤(4)具体为，使用正弦位置编码构建位置编码字典，将0至p，一共p个位置都转为i维的向量，生成文本框的绝对位置编码，再使用softsign函数计算文本框之间的相对位置，生成文本框之间的相对位置编码。

所述softsign函数为：

其中x为两个文本框的相差距离。

所述p为正整数，根据简历版面内容信息量大小预设，i＝312。

所述步骤(5)具体为：

(5.1)将文本内容编码与文本绝对位置信息融合，方法为：arr₁＝txt+abs，其中txt为文本内容编码矩阵，abs为文本绝对位置信息矩阵，arr₁为过程矩阵；

(5.2)进一步融合相对位置信息矩阵，方法为：arr₂＝arr₁*pos^T，其中pos为文本间相对位置信息矩阵，arr₂为注意力矩阵；

(5.3)注意力矩阵通过线性变换生成out₁和out₂，out₁用来判断当前文本框所属的类别，out₂用来判断文本框之间是否属于同一行；

(5.4)将一行中的文本框，从左至右排列，根据文本框所属类别的众数输出该行所属的类别，输出结构化简历。

所述简历内容的类别包括，基本信息、工作经历、教育经历、培训经历、项目经历等与简历相关的文本类别。

一种融合多模态的简历版面分析装置，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，其特征在于，所述计算机程序被加载至处理器时实现根据权利要求1-7任一项所述的融合多模态的简历版面分析方法。

有益效果：与现有技术相比，本发明具有如下显著优点：

算法模型上有优势。模型输入是文本框的内容与文本框的位置，输出是文本框间是否属于同一行以及每个文本框的类别。模型融合了多个输入，是一个多任务学习模型，其具有多模态融合的特性，提高了模型工作效率。

算法步骤上有优势。常见简历处理项目，将简历pdf，word进行txt提取，均仅针对自然语言进行处理，不解释简历文本的来源，而且通常容易出现文字乱序、乱码的情况，需要大量的工作处理文字异常。同时，在将简历pdf，word进行txt提取的过程中丢弃了文本在简历中的细节位置信息，这些信息本身也是有用的。本专利的采用ocr获取文本及其位置的处理流程，可以极大的节省项目开发成本，缩减其开发的复杂度。引入ocr中文本检测与文本识别技术作为获取高精度自然语言信息手段，构建融合自然语言信息与位置信息的深度网络模型，模型中蕴含albert自然语言编码、正弦相对位置编码、注意力机制，实现多模态信息的融合。

附图说明

图1为本发明的流程图。

具体实施方式

下面结合附图对本发明的技术方案作进一步说明。

实施例1：

如图1所示，一种融合多模态的简历版面分析方法，包括以下步骤：

(1)以简历图片为数据源，使用craft算法对简历图片里的文本行区域进行抽取，生成文本框，获取简历图片的文本位置信息；

(2)以简历图片为数据源，使用crnn算法对简历图片中的文本内容进行识别，获得文本自然语言信息；

(3)将文本自然语言信息作为输入，使用albert语言模型对自然语言信息进行编码，获得文本内容编码；

(4)将文本位置信息作为输入，使用正弦位置编码生成文本的位置编码；

所述文本框为craft算法根据文字位置信息和文字间关联度信息，生成文字轮廓对应的正外接矩形。

所述softsign函数为：

其中x为两个文本框的相差距离。

所述p为正整数，根据简历版面内容信息量大小预设，i＝312。

为方便理解，现对步骤(4)生成文本的位置编码过程举例说明：

假设第一个文本框A位置为1，第二个文本框B位置为3，p＝1000；

使用正弦位置编码构建位置编码字典，将0-1000这1000个位置都变成312维的向量，将1转化为一个312维的向量，将3也转化为一个312维向量，一共有1000个312维向量；

查询文本框的绝对位置，文本框A位置是1对应绝对位置编码字典的第1个向量，文本框B对应绝对位置编码字典的第3个向量；

查询文本框间相对位置，A与B相差距离为2，将相对距离进行softsign函数处理，由于softsigh函数极限是1000，所以任意距离都可以被压缩到1000之内，通过softsign函数对相对位置进行处理后，2变成2.02，向下取整又变成2，该数值查表获得文本框之间相对位置编码。

所述步骤(5)具体为：

(5.1)将文本内容编码与文本绝对位置信息融合，方法为：arr₁＝txt+abs，其中txt为文本内容编码矩阵，abs为文本绝对位置信息矩阵，arr₁为过程矩阵；

(5.2)进一步融合相对位置信息矩阵，方法为：arr₂＝arr₁*pos^T，其中pos为文本间相对位置信息矩阵，arr₂为注意力矩阵；

(5.3)注意力矩阵通过线性变换生成out₁和out₂，out₁用来判断当前文本框所属的类别，out₂用来判断文本框之间是否属于同一行；

(5.4)将一行中的文本框，从左至右排列，根据文本框所属类别的众数输出该行所属的类别，输出结构化简历。

所述简历内容的类别包括，基本信息、工作经历、教育经历、培训经历、项目经历等与简历相关的文本类别。

实施例2：

8页详细技术资料下载

一种融合多模态的简历版面分析方法及装置

相关技术

网友询问留言