一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统

文档序号:1952821 发布日期:2021-12-10 浏览:9次 >En<

阅读说明:本技术 一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统 (Domain map entity and relationship combined extraction method and system based on pre-training model ) 是由 朱静丹 姚俊杰 于 2021-08-12 设计创作,主要内容包括:本发明公开了一种基于预训练模型的领域图谱实体和关系联合抽取方法,包括以下步骤:步骤A:抓取保险公司相关网站上的保险领域文本信息,数据清洗标注,建立初始数据集U和候选关系集V;步骤B:基于预训练模型,构建关系判别和实体对抽取的联合学习框架,对模型进行训练和测试;步骤C:将测试过程中产生的新抽取数据经过筛选后扩增训练集;步骤D:用更新后的数据集重复迭代直至模型稳定;步骤E:三元组数据导出处理,构建领域知识图谱。本发明还提供了一种实现上述方法的系统。本发明涉及到的方法将目标关系与文本的每一个词相互作用,精确地产生所有可能的实体对,自然地避免了实体重叠问题,同时可以提取多关系和多实体对。(The invention discloses a domain map entity and relation combined extraction method based on a pre-training model, which comprises the following steps of: step A: capturing insurance field text information on a related website of an insurance company, cleaning and labeling data, and establishing an initial data set U and a candidate relationship set V; and B: constructing a relation discrimination and entity pair extraction combined learning framework based on a pre-training model, and training and testing the model; and C: screening new extracted data generated in the test process and amplifying a training set; step D: repeating iteration by using the updated data set until the model is stable; step E: and (5) triple data export processing, and constructing a domain knowledge graph. The invention also provides a system for realizing the method. The method of the present invention interacts the target relationship with each word of the text to accurately generate all possible entity pairs, naturally avoiding the entity overlap problem, while extracting multiple relationships and multiple entity pairs.)

一种基于预训练模型的领域图谱实体和关系联合抽取方法及 系统

技术领域

本发明属于大数据技术领域,涉及一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统,用于深度学习在获取领域图谱三元组数据有关的研究和分析。

背景技术

随着移动互联网的发展,万物互联成为了可能,这种互联所产生的数据也在爆发式地增长,而且这些数据恰好可以作为分析关系的有效原料。在移动互联网时代,个体之间的关系也必然成为我们需要深入分析的很重要一部分。只要有关系分析的需求,知识图谱就“有可能”派的上用场。从一开始的Google搜索,到现在的聊天机器人、大数据风控、证券投资、智能医疗、自适应教育、推荐系统,无一不跟知识图谱相关。知识图谱是一种特殊的图数据,它是语义的和可复用的:知识图谱数据一经获取即可被多领域应用重复使用,这也是知识图谱服务的构建动机。由于结构的特殊性使得它在

技术领域

的热度也在逐年上升。

因此,图谱数据的获取问题便显得十分重要。衡量一个知识图谱是否运营良好的标准,往往是看其数据多样性和数据规模。而数据从获取、清洗、抽取乃至匹配融合的过程则是构建此类知识图谱的重要部分,如何更好的完成数据抽取成了此中尤为关键的一步。

深度学习的发展为此类问题的分析提供了极大的帮助。由于图谱数据种类繁多,数据来源呈现多样性,且数据之间暗含关联,使用传统的方法不利于对多特征多源的场景进行建模,而深度学习凭借独特的多层网络结构,善于对多特征和多源数据进行建模和分析,从而获取到信息含量更大更有研究价值的图谱数据。

现有的研究更多关注的是实体识别和关系预测两个单独的子问题。他们将整个三元组数据的抽取过程划分为两个单独的子问题,分别训练模型。但其忽略了每一步之间联合的重要特征,也使得图谱构建过程变得冗杂,无法实现联合训练,在一个问题下完成抽取工作。

发明内容

为了解决现有技术存在的不足,本发明的目的是提出了一种基于预训练模型的领域图谱实体和关系联合抽取方法及系统。

本发明所述的数据联合抽取方法,基于领域知识文本,在获取原始数据后,先经过数据清洗保留高质量的文本段落和常见关系,通常情况下,不可避免的会需要一定的标注数据来监督模型,并在实际训练过程中扩增训练集。当然,这其中模型的选择和调整优化也极大影响着最终影响因素的确定。

本发明提出的基于预训练模型的领域图谱实体和关系联合抽取方法,包括以下步骤:

步骤A:获取原始数据,对数据进行标注后划分为训练集和测试集,建立初步小规模保险标注数据集U,和候选关系集V,具体包括以下步骤:

步骤A1:抓取保险公司相关网站上的保险领域文本信息,数据清洗标注并按7:3的比例划分为训练集和测试集,建立小规模保险标注数据集U;

步骤A2:从半结构化文本中按照规则保留常见关系,构成候选关系集V;

步骤B:基于预训练模型,构建关系判别和实体对抽取的联合学习框架,对模型进行训练和测试,具体包括以下步骤:

步骤B1:将句子作为预训练模型的输入获取整个序列的编码向量;

步骤B2:利用多卷积神经网络(CNN)构建的二分类器判断关系;

步骤B3:利用注意力机制(Attention)和长短期记忆网络(LSTM),根据二分类器得到的关系提取所有可能的实体对;

步骤B4:联合训练,计算损失并迭代模型;

步骤C:将测试过程中产生的新抽取数据经筛选后加入训练集,扩增并更新训练集;

步骤D:用更新后的数据集重复迭代直至模型稳定;

步骤E:三元组数据导出并清洗,构建领域知识图谱。

本发明步骤A1中,利用爬虫抓取特定保险的网站的产品介绍和对比分析对象等半结构化数据,最终统一保留成文本形式。所述产品介绍包括产品名、产品条款等;所述对比分析对象包括保障年限、赔付比例、免赔额等。

同时进行数据清洗标注,包括有效文本段落的筛选,以及句子三元组数据标注,构建小规模保险标注数据集U。

本发明步骤A2中,所述规则是指基于人工总结的模板结合同义词和re模块进行模板匹配抽取;所述常见关系包括险种、保障类型、投保渠道、缴费年限、保障责任、给付类型、保费预算、年交保费、投保年龄、等待期、犹豫期、缴费期限、身故/意外身故、豁免责任、职业等级、可保职业范围、最高保额、特别权益、健康告知、正常承保、保单年度、终末期疾病、保障年限、赔付比例、免赔额、保险公司;所述候选关系集V,为关系判别提供辅助,在后续步骤进行关系判别时提高置信度,避免识别的关系过多;

本发明方法中,模型自身的结构和应用是本发明的关键。

具体地,例如网页的数据带有一定的规律和结构,某保险产品的页面下特定每一块介绍一个关系,包括保障年限、赔付比例、免赔额等。只要按照规则抽取每个段落的特定部分就可以全部抽出来,不同数据格式也可以给出不同的规则。本发明步骤B1中,使用Transformer基础的网络,预训练模型编码模块可以有效捕获上下文语义信息,将句子S=[w1,…wn],n表示句子的长度,作为预训练模型的输入来获取句子序列的特征向量表示;为了获得句子wi的上下文表示xi,可以使用不同的Transformer基础的网络,在本发明中使用预训练模型BERT作为基本的编码器,BERT输出如下:

{x1,…,xn}=BERT({w1,…,wn})

此处和常见的一致,句子中每个单词的特征编码xi总和了相应的标记、段和位置信息。

本发明步骤B2中,利用多卷积神经网络(CNN)构建的二分类器判别关系,所述二分类器中的关系分类部分可以识别文本中包含的关系类型。利用卷积神经网络(CNN)构建二分类器,所述二分类器的输出是对应关系是否是可能关系的概率分布:

P=Softmax(MaxPool(Conv(X)))

其中P是输出的概率分布,Softmax(·)为激活函数,MaxPool(·)为最大池化操作,Conv(·)为卷积操作,X=[x1,…,xn]是句子的编码表示。

本发明步骤B3中,利用注意力机制(Attention)和长短期记忆网络(LSTM),根据判别器得到的关系提取所有可能的实体对。给定一个文本,以及由二分类器输出的目标关系类型,提取所有可能的实体对。像大多数识别方法一样,通过识别文本中单词的开始和结束位置索引来确定一个实体,具体公式如下:

其中为注意力机制获取到的该句子中当前字注意力权重,dt为LSTM解码器的隐藏状态,模型可以一次性探索所有可能的关系,预测给定关系的所有可能的实体对;

本发明步骤B4中,联合训练,计算损失并迭代模型。将整个模型构建为端到端分块模式,从文本输入到最后的关系及实体对输出,实现联合训练。

本发明步骤C中,将测试过程中产生的新抽取数据经过筛选后扩增训练集,所述筛选包括过滤错误数据,筛选添加具有代表性或首次出现的数据。

本发明步骤D中,利用更新后的数据集重新测试模型,当出现以下两种情形:1)联合损失L≤0.1或F1得分≥0.8;或2)更新训练数据后模型效果连续两次未得到提升;满足其中任意一条则停止训练,所述模型达到稳定并最终趋于最优,否则继续训练模型;

所述F1得分是分类问题的一个衡量指标,是精确率和召回率的调和平均数,最大为1,最小为0;

所述联合损失通过下式计算:

L=λ·Lrel+(1-λ)Lent

其中,λ是超参数,用于平衡关系判别和实体对识别;Lrel是关系判别的损失;Lent是实体对识别的损失,各部分都遵循交叉熵损失函数来计算。

本发明步骤E中,三元组数据导出,构建领域知识图谱,所述三元组数据表示为<头实体,关系,尾实体>;例如<达尔文3号,保险公司,信泰人寿>,<平安e生保,等待期,30天>等;

所述清洗操作是指由于抽取出的数据始终有部分数据错误,为了更好的展示效果和进行数据再利用,对数据进行纠错、去重、去噪并辅以人工处理;所述领域知识图谱可以用于在可视化的情况下直观感受图谱数据的抽取情况,便于进一步分析。

本发明在实施过程中,区别于现有相关技术将关系和实体的抽取划分为两个独立的任务,本发明则提出了一个新颖的轻量级框架,建立关系和实体的联合抽取模型,在领域知识的三元组抽取上效果显著。同时,现有方法或者没有考虑实体重叠问题,或者无法生成全部实体对。本发明涉及到的方法将目标关系与文本的每一个词相互作用,精确地产生所有可能的实体对,自然地避免了实体重叠问题,同时可以提取多关系和多实体对。

所述实体重叠是指一句话中一个实体可以匹配到多个关系。例如“粽子起源于中国,它的首都是北京”。这里面:粽子——起源——中国,中国——首都——北京。“中国”可以被重复提取。

本发明一开始使用BERT作为初始编码器,在不需要自行训练一个预训练模型的情况下得到含有丰富语义信息的上下文编码表示。CNN可以有效判别关系同时不给模型带来过大的参数负载。普通的模型所有部分的重要性程度都是一样的,而这里的attention-based对于不同的部分,重要的程度则不同,在识别实体对时有较高的自适应性。

基于以上方法,本发明还提出了一种基于预训练模型的领域图谱实体和关系联合抽取系统,所述系统包括:

数据获取模块,用于获取公开保险网站数据信息,筛选标注形成小规模保险标注数据集U,候选关系集V;

关系判别模块,用于判别每个输入的句子中存在的关系;

实体对识别模块,用于根据判别所得的关系识别句中所有的实体对;

数据扩增模块,用于持续添加训练数据,更新模型的训练集;

图谱构建模块,用于完成三元组数据导出和保险图谱构建。

所述系统还包括BERT编码模块:用于有效捕获上下文语义信息,将句子作为预训练模型的输入获取句子序列的特征向量表示。

本发明的有益效果在于:通过数据抓取、清洗,小规模数据集的构建,可以在获取开放域数据的同时避免初期过大的人工成本;模型选择以及联合训练的实现,利用了数据挖掘与深度学习的思想和方法,最终能够得到高质量的模型效果,并成功抽取出可用于构建图谱的三元组数据。相较于现有研究,本发明更加关注联合训练,充分利用了关系判别和实体识别间的相互作用,将一个问题不再拆分成两个单独的问题,减少复杂度。

相对于现有技术,本发明避免了需要专业知识,专家经验的特征工程任务,以更为科学合理的数据驱动的方法自动提取三元组数据,侧面的减少了人工成本,易于理解,另外通过实验证明了该实体关系抽取模型的预测效果具有较先进的水平。

本发明的创新点是将关系和实体的抽取实现联合学习,同时充分利用预训练模型的语义理解能力,从少量数据即可展开,在训练中更新训练集逐步提升模型的抽取能力。最后在实际知识图谱构建场景中进行了实验,验证了本发明的有效性。

本发明在实施过程中,区别于现有相关技术将关系和实体的抽取划分为两个独立的任务,本发明则提出了一个新颖的轻量级框架,建立关系和实体的联合抽取模型,在领域知识的三元组抽取上效果显著。同时,现有方法或者没有考虑实体重叠问题,或者无法生成全部实体对。本发明涉及到的方法将目标关系与文本的每一个词相互作用,精确地产生所有可能的实体对,自然地避免了实体重叠问题,同时可以提取多关系和多实体对。

附图说明

图1为本发明的流程图。

图2为本发明模型抽取示例图。

图3为本发明抽取关系种类占比图。

图4为本发明领域图谱展示示例图。

图5为本发明系统示意图。

具体实施方式

结合以下具体实施例和附图,对发明作进一步的详细说明。实施本发明的过程、条件、实验方法等,除以下专门提及的内容之外,均为本领域的普遍知识和公知常识,本发明没有特别限制内容。

在本发明的实施过程中,

1)评价指标:模型采用标准精度、召回率和F1评分对抽取结果进行评估。当关系类型和实体对都识别正确时,三元组的才被认为是识别正确的,识别正确这个评判的本质就是判断是否分类正确。

2)参数设置:单词嵌入使用BERT-base预训练模型。LSTM单元数和CNN分类器中使用的滤波器数为100,卷积窗口大小为3,其下的Dense层有一个100维的隐藏层,dropout概率值设为0.6。学习率设置为0.001。损失函数中的权衡参数λ设置为0.4。训练时使用Adam方法来优化参数,批处理大小(batch size)为32。

实施例1

参考图1,说明了本发明方法运行的流程。

本实施例所述基于预训练模型的知识图谱实体和关系抽取方法,包括以下步骤:

(1)获取原始数据,对数据进行标注后划分为训练集和测试集,建立初步小规模保险标注数据集U,和候选关系集V,具体包括以下步骤:

(1.1)抓取保险公司相关网站上的保险领域文本信息,利用爬虫抓取特定保险的网站的产品介绍和对比分析,最终统一保留成文本形式;

(1.2)数据清洗,将获取到的文本筛选出关键段落,去除头尾、图片等无用信息;小规模标注,从中挑选出部分具有代表性的句子段进行人工标注,并按7:3的比例划分为训练集和测试集,建立起小规模保险标注数据集U;

(1.3)从半结构化文本中按照规则保留常见关系,构成候选关系集V;

(2)基于预训练模型,构建联合学习框架,对模型进行训练和测试,具体包括以下步骤:

(2.1)将句子作为预训练模型的输入获取句子序列的编码向量,所采用的预训练模型为BERT中文。

(2.2)利用多卷积神经网络(CNN)构建的二分类器判断关系,该模块用于识别出句子中存在的关系,并为下一步实体对的识别提供依据。

(2.3)根据上一步得到的关系提取其所有可能的实体对,其中核心是注意力模块和长短期记忆网络(LSTM);

(2.4)联合训练,计算损失并迭代模型;

(3)将测试过程中产生的新抽取数据经过筛选后扩增更新训练集;

(4)用新的数据集重复迭代直至模型稳定;

(5)三元组数据导出并清洗,构建领域知识图谱。

实施例2

参考图2,是进行图谱关系和实体对抽取所使用的模型架构,其具体的可以分为三个模块:

(1)预训练模型编码模块:

预训练模型编码模块可以有效捕获上下文语义信息,将句子S=[w1,…wn],n表示句子的长度,作为预训练模型的输入来获取句子序列的特征向量表示,为了获得句子wi每个标记的上下文表示xi,可以使用不同的Transformer基础的网络,在本发明中使用预训练模型BERT(不限于BERT)作为基本的编码器,BERT输出如下:

{x1,…,xn}=BERTw1,…,wn})

此处和常见的一致,句子中每个单词的特征编码xi总和了相应的标记、段和位置信息。

(2)关系判别模块:

关系判别模块旨在识别文本中包含的关系类型。由于文本可能包含多重关系,受多标签分类思想的启发,利用卷积神经网络(CNN)构建的二分类器判断关系。给定了文本表示形式X∈Rnxd,利用CNN构建二分类器,所述二分类器的输出是对应关系是否是可能关系的概率分布:

P=Softmax(MaxPool(Conv(X)))

其中P是输出的概率分布,Softmax(·)为激活函数,MaxPool(·)为最大池化操作,Conv(·为卷积操作,X=[x1,…,xn]是句子的编码表示;

(3)实体识别模块:

根据得到的关系提取其所有可能的实体对,即实体对预测,给定一个文本,以及由二分类器输出的目标关系类型,该模块的预测器目标是提取其所有可能的实体对。像大多数识别方法一样,通过识别文本中单词的开始和结束位置索引来确定一个实体。

其中为注意力机制获取到的该句子中当前字注意力权重,dt为LSTM解码器的隐藏状态,模型可以一次性探索所有可能的关系,预测给定关系的所有可能的实体对;

给定一个文本和一个由关系分类器输出的目标关系类型,可变长度的实体识别模块旨在以一种序列的方式提取其所有可能的实体对。受指针网络找寻位置的方式的启发,模型通过识别文本中单词的开始和结束位置索引来确定一个实体。由于实体对由一系列索引生成。每两个索引可以标识一个实体,每两个实体按顺序形成一个实体对。在这种范式中,模型可以一次性探索所有可能的关系,不像之前的工作必须以多通道的方式预测目标关系。

模型首先预测所有可能的关系,然后对于每个目标关系,模型处理的原理就类似于指针网络,依次生成所有头和尾实体的边界(也就是实体开始和结束的位置),最后模型生成所有可能的实体对作为抽取结果。这样,对于每个判别出来的候选关系类型,只需要执行一次关系检测,就可以提取出所有可能的实体对,避免关系识别的重复过程。顺序地在文本中的任意位置生成实体边界。因此,它允许实体自由地参与不同的三元组。

概述来讲:

在LSTM迭代的过程中,上一层的隐状态h_(t-1)会作用于注意力网络计算出输入句子序列每个位置的注意力权重,根据该值最大的位置来作为实体的指针位置输出当前步t(step)的输出来依次找出实体对的边界。

在该模块,先将BERT编码块获取到的表示通过注意力层得到新的表示,在文本的每个位置,注意机制可获得一个加权值,它表示当前特征向量与目标关系类型之间匹配的程度。辅助判断是否为实体对中实体的开始或者结尾。

实施例3

参考图3,是最后抽取出来的三元组数据中每个关系所占的比例。

原始文本是基于保险领域相关产品的,具有比较强的针对性,对于一个保险产品的描述中,常见的关系种类有限,在实际抽取中模型可以达到较好的效果。最终呈现出图3的比例情况。

其中,最常见的关系种类一般为前十几种,往后的关系出现频率大幅减少,将剩下出现次数不高的所有关系一并归为“其它”后占比几乎与最高的一种关系持平;可见特定领域构建图谱时,很有可能会出现关系种类比较集中的情况,这有助于研究者利用该数据进行后续研究分析。

实施例4

在最开始构建原始数据集的时候,为了控制人力消耗,仅构建小规模的数据集。数据清洗工作可以根据抓取到的页面信息进行规则化的处理,保留有效段落。而在阶段性训练模型的过程中,需要让模型对数据集范围外的文本资料进行预测,抽取出三元组信息。为了提升模型的抽取能力,此时需要人为处理后筛选出部分具有代表性的数据,将其带上标注加入训练集中,扩增数据量的同时也可以增加数据属性的多样性,如此反复迭代,可以使模型学习到更好的表示能力。

最后,将本发明提出的方法,在自主构建的保险领域数据集上和Match-LSTM基准模型以及两个目前表现优异且可调整后使用的关系-实体抽取模型进行比较,可以从表1看到,本发明所提出的方法有明显的效果提升。

表1

实施例5

参考图4,为抽取出的保险领域三元组数据所构建的保险图谱示例图。

在实际判别的过程中,由于领域知识不像开放域那般毫无限制,在本次实验中,所抽取出的保险关系种类虽然繁多,但大部分比较集中,常见的大概有十几种,次常见的也有十几种,其余大都出现次数较少或者是噪音数据。

最终实验结果表明,在领域知识图谱构建时,使用本发明可以在消耗较少人力的同时,从完全没有经过处理的文本数据中,抽取出三元组数据(关系和实体对)。模型没有将命名实体识别和关系预测分开为两个单独的子任务,而是将其看做是一个完整的抽取的问题,构建联合模型实现联合训练。不光控制了人力消耗、简便了流程,同时还取得了较为显著的效果,结果更清晰、关系判别更为明确,更适用于领域数据。

实施例6

参考图5,为本发明系统示意图。

所述系统首先是数据获取模块,主要用于获取公开保险网站数据信息,经筛选标注形成小规模保险标注数据集;该数据集的数据经过预训练模型BERT编码后进入关系判别模块,该模块将输出每个输入的句子中存在的关系;随后进入实体对识别模块,根据上一模块判断所得的关系识别句中对应的所有的实体对;若此时达到预期效果,终止流程输出三元组数据构建知识图谱;若未终止,则将数据扩增模块筛选标注的新数据添加至训练数据中,再度训练模型并重复这个过程直至终止结束。整个系统实现了原始数据到图谱的全过程,不仅架构轻量,模型高效简洁,同时对半结构化的领域数据有着很好的处理效果。

本发明的保护内容不局限于以上实施例。在不背离发明构思的精神和范围下,本领域技术人员能够想到的变化和优点都被包括在本发明中,并且以所附的权利要求书为保护范围。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:广电干线光缆传输系统智能运维方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!