基于预训练模型的生成式信息抽取方法和装置

文档序号:1953470 发布日期:2021-12-10 浏览:11次 >En<

阅读说明:本技术 基于预训练模型的生成式信息抽取方法和装置 (Generative information extraction method and device based on pre-training model ) 是由 王路路 陈嘉琳 刘佳 张鹏 于 2021-08-31 设计创作,主要内容包括:本申请公开了一种基于预训练模型的生成式信息抽取方法和装置,该方法包括:获取结构化信息抽取任务的历史标注数据;根据每个目标字段之间的依赖关系,生成学者多轮问题模板,并将标注数据处理为多轮问答形式的数据集;将多轮问题模板序列化,并结合多轮问答形式的数据集微调生成式训练模型;将待抽取的文本输入至微调后的生成式训练模型中,通过微调后的生成式训练模型生成多轮问题模板中每轮问题对应的字段的答案;将每轮问题的答案形成结构化的数据,并评测模型。本发明充分考虑不同字段之间依赖关系,通过生成式模型减少对实体的依赖,可以准确、快速地抽取结构化信息。(The application discloses a generating type information extraction method and device based on a pre-training model, and the method comprises the following steps: acquiring historical marking data of a structured information extraction task; generating a student multi-round question template according to the dependency relationship among each target field, and processing the labeled data into a multi-round question-answer data set; serializing a multi-round question template, and finely adjusting a generative training model by combining a multi-round question-answer data set; inputting the text to be extracted into the finely tuned generative training model, and generating an answer of a field corresponding to each round of questions in the multi-round question template through the finely tuned generative training model; the answers to each round of questions are formed into structured data and the model is evaluated. The invention fully considers the dependency relationship among different fields, reduces the dependency on the entity through the generative model, and can accurately and quickly extract the structured information.)

基于预训练模型的生成式信息抽取方法和装置

技术领域

本申请涉及信息抽取技术领域,特别涉及一种基于预训练模型的生成式信息抽取方法和装置。

背景技术

目前,互联网上信息资源丰富,往往无结构且类型多样,难以精确检索到相关的记录信息,如将某类事件按照发生地点归类,而搜索引擎无法完成,因此迫切需要快速准确获取信息的技术手段,从而信息抽取技术应运而生。以学术圈为例,全球有数亿位专家学者,而这些专家学者数据大多以异构非结构化形式在互联网呈现,这些数据蕴含着大量的有价值数据,包括:基本信息(比如,邮箱、职称、工作单位等)、教育经历(比如,就读院校、学历等)、工作履历(比如,工作单位、职称等)。而由于数据来源不一,并且以非结构化存储,难以直接构建出一个学者的多精度人才语义画像,从而满足各种不同场景和数据维度下的智能人才分析需求。因此,如何从海量零散且非结构化的数据中,自动、准确、快速地将有价值的信息抽取出来并以表格状的格式存储,已然成为学术界和工业界关注的热点问题。

相关技术中,通常是采用基于规则/正则的文本匹配方法和基于序列标注的深度学习方法抽取文本信息时。然而,申请人发现,在实际场景中存在一个实体是多段记录的某个字段,例如一个人可以在不同的时间在不同的学校学习,也可以在不同的时间在同一个学校攻读不同学位,这种现象会导致多段记录会同一个句子出现,多段记录的字段共用同一个实体,此现象难于正常文本的抽取。而相关技术中的文本抽取方法不能考虑同一段经历中不同字段信息之间的依赖关系,并且很难捕捉句法和语义信息。此外,传统的抽取式问答严重依赖于每个实体提及的位置信息,在不考虑实体span的情况下效果较差。因此,目前亟需一种能够考虑句法和语义信息,可以将各字段之间的依赖关系进行整合表达的方法来实现结构化信息抽取。

发明内容

本申请旨在至少在一定程度上解决相关技术中的技术问题之一。

为此,本申请的第一个目的在于提出一种预训练模型的生成式信息抽取方法,该方法将信息抽取任务视为多轮生成式问答任务,通过考虑字段与字段之间依赖关系设计问题模块,通过多轮问答的形式可以捕获不同字段之间的依赖关系,然后利用给定的上下文文本和问题用生成式预训练模型提取对应字段信息,该方法可以适用于多个字段重叠或某个字段缺失的状况,通过生成式模型生成答案降低了对实体span的依赖,提高了抽取结构化信息的准确性和便捷性。

本申请的第二个目的在于提出一种基于预训练模型的生成式信息抽取方法和装置。

本申请的第三个目的在于提出一种非临时性计算机可读存储介质。

为达上述目的,本申请第一方面实施例提出了一种基于预训练模型的生成式信息抽取方法,包括:

获取结构化信息抽取任务的历史标注数据;

根据所述历史标注数据中每个目标字段之间的依赖关系,生成多轮问题模板,并将所述历史标注数据预处理为多轮问答形式的数据集;

将所述多轮问题模板序列化,并结合所述多轮问答形式的数据集微调预设的生成式训练模型;

将待抽取的文本数据输入至微调后的生成式训练模型中,通过微调后的生成式训练模型生成所述多轮问题模板中每轮问题对应的字段的答案;

将每轮问题的答案形成结构化的数据,并评测所述微调后的生成式训练模型。

可选地,在本申请的一个实施例中,所述根据所述历史标注数据中每个目标字段之间的依赖关系,生成多轮问题模板,包括:根据所述标注数据中每个目标字段之间的依赖关系和缺失情况,确定结构化信息的依赖关系;根据结构化信息的依赖关系,对每个所述目标字段设置对应的问题模板;按照所述依赖关系对每个所述问题模板进行组合,以生成所述多轮问题模板。

可选地,在本申请的一个实施例中,所述将所述多轮问题模板序列化,并结合所述多轮问答形式的数据集微调预设的生成式训练模型,包括:将所述多轮问题模板转化为包含上下文、问题和待生成的答案的第一序列;通过预设的语言模型获取所述第一序列的上下文表示向量;从所述多轮问答形式的数据集中抽取数据,并结合所述第一序列和所述上下文表示向量训练所述预设的生成式训练模型,以生成应答所述多轮问题模板的生成式训练模型。

可选地,在本申请的一个实施例中,所述通过微调后的生成式训练模型生成所述多轮问题模板中每轮问题对应的字段的答案,包括:加载所述微调后的生成式训练模型,并输入待抽取的文本数据;按照所述多轮问题模板中各轮问题的次序,将当前问题和上一轮问题对应的字段的答案相结合后输入至所述微调后的生成式训练模型中,生成所述当前问题对应的字段的答案;将所述当前问题对应的字段的答案与所述多轮问题模板中的下一轮问题相结合后输入至所述微调后的生成式训练模型中,生成所述下一轮问题对应的字段的答案。

可选地,在本申请的一个实施例中,在所述将当前问题和上一轮问题对应的字段的答案相结合后,还包括:获取所述当前问题的上下文;将所述当前问题和所述当前问题的上下文,转化为包含所述当前问题的上下文、所述当前问题和所述当前问题待生成的答案的第二序列。

可选地,在本申请的一个实施例中,所述获取学者的教育经历或工作经历的历史标注数据之后,还包括:按照预设的比例将所述历史标注数据划分为训练集、验证集、测试集。

可选地,在本申请的一个实施例中,所述评测所述微调后的生成式训练模型,包括:计算所述微调后的生成式训练模型生成的答案的精准率、召回率和综合评价值;根据所述精准率、所述召回率和所述综合评价值评测所述微调后的生成式训练模型。

可选地,在本申请的一个实施例中,通过以下公式计算所述精准率、所述召回率和所述综合评价值:

其中,

其中,P为精准率,R为召回率,F1为综合评价值,m为抽取的记录数,n为标注的记录数,k为标注数据中记录i的元素个数。

为达上述目的,本申请第二方面实施例提出本发明一种基于预训练模型的生成式信息抽取装置,包括以下模块:

数据获取模块,用于获取结构化信息抽取任务的历史标注数据;

第一生成模块,用于根据所述历史标注数据中每个目标字段之间的依赖关系,生成多轮问题模板,并将所述历史标注数据预处理为多轮问答形式的数据集;

训练模块,用于将所述多轮问题模板序列化,并结合所述多轮问答形式的数据集微调预设的生成式训练模型;

第二生成模块,用于将待抽取的文本数据输入至微调后的生成式训练模型中,通过微调后的生成式训练模型生成所述多轮问题模板中每轮问题对应的字段的答案;

评测模块,用于将每轮问题的答案形成结构化的数据,并评测所述微调后的生成式训练模型。

为达上述目的,本申请第三方面实施例提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现本申请第一方面实施例所述的基于预训练模型的生成式信息抽取方法。

本申请实施例的基于预训练模型的生成式信息抽取方法、装置和存储介质,将信息抽取任务视为多轮生成式问答任务,通过考虑字段与字段之间依赖关系设计问题模块,通过多轮问答的形式可以捕获不同字段之间的依赖关系,然后利用给定的上下文文本和问题用生成式预训练模型提取对应字段信息,可以适用于多个字段重叠或某个字段缺失的状况,通过生成式模型生成答案降低了对实体的依赖,提高了抽取结构化信息的准确性和便捷性。

本申请附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为根据本申请实施例的一种基于预训练模型的生成式信息抽取方法的流程示意图;

图2为根据本发明实施例的一种具体的生成多轮问题模板的方法的流程示意图;

图3为根据本发明实施例的一种具体的学者教育经历的抽取方法的流程示意图;

图4为根据本申请实施例的一种基于预训练模型的生成式信息抽取装置的结构示意图。

具体实施方式

下面详细描述本发明的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

下面参照附图描述根据本发明实施例提出的基于预训练模型的生成式信息抽取方法和装置。

图1为根据本申请实施例的基于预训练模型的生成式信息抽取方法的流程示意图。如图1所示,该方法包括:

步骤101,获取结构化信息抽取任务的历史标注数据。

其中,历史标注数据是对结构化信息抽取任务中的目标字段进行标注后的数据,结构化信息包括待抽取的教育经历、工作经历、发生的事件,以及其他可以通过结构化的方式表示的信息等。结构化信息抽取任务的历史标注数据即是结构化信息的历史标注数据,本申请的抽取方法可以在通过各种方式得到的大量信息中基于生成式的预训练模型生成结构化的信息。

具体的,在本申请实施例中,先收集大量信息,并抽取相关的数据,对其中的目标字段进行标注。其中,目标字段是待结构化的关键信息,举例而言,对于学者的教育经历,目标字段包括就读院校、学历和就读时间等,对于学者的工作经历,目标字段包括工作单位、职称和工作时间等,对于事件而言,目标字段包括事件类型、时间、地点、人物等。本申请通过不同的标注方式,比如,人工标注,对收集的学者的教育经历或工作经历的数据进行标注。

在本申请一个实施例中,在获取历史标注数据后,还可以按照预设的比例将历史标注数据划分为训练集、验证集、测试集,比如,通过交叉验证操作将历史标注数据按7:1.5:1.5的比例划分为训练集、验证集、测试集,便于后续训练模型和验证模型的抽取效果等。

步骤102,根据历史标注数据中每个目标字段之间的依赖关系,生成多轮问题模板,并将历史标注数据预处理为多轮问答形式的数据集。

其中,多轮问题模板是抽取结构化信息时进行多轮问答的模板。

可以理解,结构化信息中的各个目标字段之间存在着必然的依赖关系,比如,目标字段“某个专业”依赖于目标字段“在哪个学校攻读”,目标字段“工作职称”依赖于目标字段“工作单位”等,目标字段“待抽取事件论元”依赖于“事件的触发词”,因此,本申请可以根据每个目标字段之间的依赖关系和各字段的特点,生成多轮问题模板。

作为一种可能的实现方式,本申请实施例提出了一种具体的基于预训练模型的生成式信息抽取的方法,如图2所示,该方法包括:

步骤201,根据标注数据中每个目标字段之间的依赖关系和缺失情况,确定结构化信息中的依赖关系。

具体的,由于实际应用中某些目标字段可能不存在,比如,获取到的历史标注数据中缺少攻读学位的起始时间,因此,综合分析标注数据中各个目标字段之间的依赖关系和缺失情况,按照各级依赖关系对各个目标字段进行排序,制定学者其的教育经历或工作经历的依赖关系。举例而言,教育经历的依赖关系是:学者姓名-学校-学位-其他(专业/终止时间/起始时间),工作经历的依赖关系:学者姓名-单位-职务/职位-其他(起始时间/终止时间),事件抽取的依赖关系:事件类型-事件触发词-事件论元(人物/地点/时间等)。

步骤202,根据结构化信息中各字段之间的依赖关系,对每个目标字段设置对应的问题模板。

具体的,由于对结构化信息进行问答时,提问某个字段时句式相对比较固定,结合确定的结构化信息中各字段之间的依赖关系,对每个目标字段制定特定的问题模板。在本申请一个实施例中,对每个目标字段制定的问题模板中可以包含该目标字段所依赖的目标字段,比如,对于“某个专业”的目标字段制定的问题模板中可以包含“在哪个学校攻读”的目标字段,便于后续通过多轮问答更加精准的抽取学者的教育经历。

步骤203,按照依赖关系对每个问题模板进行组合,以生成多轮问题模板。

具体的,在生成每个目标字段对应的问题模板后,按各目标字段间的依赖关系对各个问题模板排序后组合在一起,生成各字段之间依赖关系对应的多轮问题模板。由此,实现了根据历史标注数据中每个目标字段之间的依赖关系,生成多轮问题模板。

进一步的,将历史标注数据预处理为多轮问答形式的数据集。作为一种示例,将历史标注数据整理为包含问题集合、上下文集合和答案集合的数据集,比如,多轮问答形式的数据集包含给定问题Q={q1,q2,…,qn},上下文C={c1,c2,…,cm},答案A=[{a11,a12,…,a1i},{a21,a22,…,a1j},…],其中,如果没有答案,则以unknown代替。

步骤103,将多轮问题模板序列化,并结合多轮问答形式的数据集微调预设的生成式训练模型。

在本申请一个实施例中,先将多轮问题模板序列化即将多轮问题模板转化为包含上下文、问题和待生成的答案的序列,序列可以为:sentence=[CLS]Context:C Question:Q answer:[MASK],其中,转换后的序列中待生成的答案未知,待生成的答案即预设的生成式训练模型针对每个问题生成的答案。

再通过预设的语言模型获取第一序列的上下文表示向量。本实施例中,预设的语音模型可以为Bidirectional Encoder Representations from Transformers(简称BERT)模型,通过BERT模型从标注数据中获取序列的上下文表示向量。

进一步的,从多轮问答形式的数据集中抽取数据,并结合第一序列和上下文表示向量训练预设的生成式训练模型,以生成应答多轮问题模板的生成式训练模型。具体的,本实施例中的生成式训练模型可以是通用语言模型(General Language Model,简称GLM),将第一序列和上下文表示向量输入至预设的GLM模型中,通过GLM模型生成序列化后的多轮问题模板中每个问题的答案,并根据从多轮问答形式的数据集中抽取的数据验证GLM模型生成的答案,对GLM模型进行微调。作为其中一种可能的实现方式,将GLM模型生成的答案与从多轮问答形式的数据集中抽取出的答案实际结果进行比较,计算二者的交叉熵损失,根据计算出的交叉熵损失对GLM模型的参数进行调节,通过重复执行多轮问答使GLM模型收敛。

步骤104,将待抽取的文本数据输入至微调后的生成式训练模型中,通过微调后的生成式训练模型生成多轮问题模板中每轮问题对应的字段的答案。

其中,待抽取的文本数据即实际需要从中抽取结构化的字段信息,在训练完成生成式训练模型后,通过多轮问题模板针对待抽取的文本数据生成问题,并通过微调后的生成式训练模型对各轮问题进行应答,从而从待抽取的文本数据中抽取结构化的信息。

具体实施时,在本申请一个实施例中,先加载微调后的生成式训练模型,并输入待抽取的文本数据,然后按照多轮问题模板中各轮问题的次序,将当前问题和上一轮问题对应的字段的答案相结合后输入至微调后的生成式训练模型中,生成当前问题对应的字段的答案,再将当前问题对应的字段的答案与多轮问题模板中的下一轮问题相结合后输入至微调后的生成式训练模型中,生成下一轮问题对应的字段的答案,并依次类推,生成每个问题的答案。

举例而言,将待抽取的文本和第一个问题输入到微调的模型,获取第一个目标字段的答案,再根据第一个字段的答案与多轮问题模板中第二个问题模板相结合,生成新的问题,再次输入到模型中,得到第二个目标字段答案,并依次类推。

需要说明的是,本申请在将当前问题和上一轮问题对应的字段的答案相结合后,在输入生成式训练模型之前,还可以获取当前问题的上下文,再将当前问题和当前问题的上下文,转化为包含当前问题的上下文、当前问题和当前问题待生成的答案的第二序列,将该序列输入至生成式训练模型,便于生成式训练模型准确的识别问题并结合上下文确定答案。

步骤105,将每轮问题的答案形成结构化的数据,并评测微调后的生成式训练模型。

可以理解,由于多轮问题模板中的每个问题存在依赖关系,则得到每个问题对应的答案后也存在对应的依赖关系,在本申请实施例中,根据依赖关系的顺序将各个问题对应的答案排列后组合在一起,通过预处理各轮的答案使得每段经历的各个目标字段按照依赖关系设置,形成结构化的数据。

进一步的,评测微调后的生成式训练模型抽取结构化信息的效果时,作为一种可能的实现方式,可以将划分后的验证集、测试集中的数据通过上述方式输入生成式训练模型中进行多轮问答,获取生成式训练模型得到的答案,再获取验证集、测试集中的标注数据,根据生成式训练模型得到的答案和对应的标注数据,计算微调后的生成式训练模型生成的答案的精准率、召回率和综合评价值,根据精准率、召回率和综合评价值评测微调后的生成式训练模型的效果,即该模型生成每轮问题的答案的准确性。

具体而言,通过以下公式计算精准率、召回率和综合评价值:

其中,

其中,P为精准率,R为召回率,F1为综合评价值,m为抽取的记录数,n为标注的记录数,k为标注数据中记录i的元素个数。在计算出精准率、召回率和综合评价值后,可将计算的数值与预设的评估阈值进行比较,其中,评估阈值可以是预设的模型的信息抽取效果符合要求时的最低阈值,通过比较判断计算出的上述数值是否大于评估阈值,以评估模型的效果是否符合要求。

综上所述,本申请实施例基于预训练模型的生成式信息抽取方法,先获取结构化信息抽取任务的历史标注数据,然后根据每个目标字段之间的依赖关系,生成多轮问题模板,并将标注数据处理为多轮问答形式的数据集,再将多轮问题模板序列化,并结合多轮问答形式的数据集微调生成式训练模型,并且将待抽取的文本输入至微调后的生成式训练模型中,通过微调后的生成式训练模型生成多轮问题模板中每轮问题对应的字段的答案,最后将每轮问题的答案形成结构化的数据,并评测模型。该方法将学者教育或工作经历抽取任务视为多轮生成式问答任务,通过考虑字段与字段之间依赖关系设计问题模块,通过多轮问答的形式可以捕获不同字段之间的依赖关系,然后利用给定的上下文文本和问题用生成式预训练模型提取对应字段信息,该方法可以适用于多个字段重叠或某个字段缺失的状况,通过生成式模型生成答案降低了对实体的依赖,提高了抽取结构化信息的准确性和便捷性。

为了更加清楚描述本申请实施例的基于预训练模型的生成式信息抽取方法,下面以一个待抽取的结构化信息为学者教育经历,从待抽取的文本中抽取学者教育经历的具体实施例进行描述。

如图3所示,在该实施例中,先加载微调后的生成式模型,再将待抽取的文本输入至该生成式模型,待抽取的文本中包括多个表示该学者教育经历的目标字段。

将根据目标字段的依赖关系设置多轮问题模板中的第一个问题,与第一个问题的上下文序列化为Context+Question+[MASK]后,再输入到微调的模型。获取关于目标字段“学校”的第一个问题的答案,即“University of Bradford”;

将该答案与多轮问题模板中的下一个问题的模板相结合,生成包含第一个问题的答案的第二个问题,比如,“该学者在University of Bradford中学习什么专业?”,将生成的新问题再次输入到模型中,得到关于目标字段“专业”的第二个问题的答案,即“computerscience”。

以此类推,将获得的答案返回向生成式训练模型输入问题之前的步骤,结合多轮问题模板中的问题模板生成新的问题,并输入生成式训练模型获取每个问题的答案,直至多轮问题模板中的问题全部输入至生成式训练模型

最后,将得到的每轮问题的答案格式化,形成该学者教育经历的结构化数据包,由此完成了从待抽取的文本中抽取该学者的教育经历的任务。

下面参照附图描述根据本发明实施例提出的基于预训练模型的生成式信息抽取装置。

图4为根据本申请实施例的基于预训练模型的生成式信息抽取装置的结构示意图。如图4所示,该装置包括:

数据获取模块100,用于获取结构化信息抽取任务的历史标注数据。

第一生成模块200,用于根据历史标注数据中每个目标字段之间的依赖关系,生成多轮问题模板,并将历史标注数据预处理为多轮问答形式的数据集。

训练模块300,用于将多轮问题模板序列化,并结合多轮问答形式的数据集微调预设的生成式训练模型。

第二生成模块400,用于将待抽取的文本数据输入至微调后的生成式训练模型中,通过微调后的生成式训练模型生成多轮问题模板中每轮问题对应的字段的答案。

评测模块500,用于将每轮问题的答案形成结构化的数据,并评测微调后的生成式训练模型。

进一步地,在本申请一个实施例中,数据获取模块100还用于:按照预设的比例将历史标注数据划分为训练集、验证集、测试集。

在本申请一个实施例中,第一生成模块200还用于:根据标注数据中每个目标字段之间的依赖关系和缺失情况,确定结构化信息中的依赖关系;根据结构化信息中的依赖关系,对每个目标字段设置对应的问题模板;按照依赖关系对每个问题模板进行组合,以生成多轮问题模板。

在本申请一个实施例中,训练模块300,还用于将多轮问题模板转化为包含上下文、问题和待生成的答案的第一序列,通过预设的语言模型获取所述第一序列的上下文表示向量,从多轮问答形式的数据集中抽取数据,并结合第一序列和上下文表示向量训练预设的生成式训练模型,以生成应答多轮问题模板的生成式训练模型。

在本申请一个实施例中,第二生成模块400还用于:加载微调后的生成式训练模型,并输入待抽取的文本数据;按照多轮问题模板中各轮问题的次序,将当前问题和上一轮问题对应的字段的答案相结合后输入至微调后的生成式训练模型中,生成当前问题对应的字段的答案;将当前问题对应的字段的答案与多轮问题模板中的下一轮问题相结合后输入至微调后的生成式训练模型中,生成下一轮问题对应的字段的答案。

在本申请一个实施例中,第二生成模块400还用于:获取当前问题的上下文;将当前问题和当前问题的上下文,转化为包含当前问题的上下文、当前问题和当前问题待生成的答案的第二序列。

在本申请一个实施例中,评测模块500还用于:计算微调后的生成式训练模型生成的答案的精准率、召回率和综合评价值,根据精准率、召回率和综合评价值评测微调后的生成式训练模型。

在本申请一个实施例中,评测模块500具体用于通过以下公式计算所述精准率、所述召回率和所述综合评价值:

其中,

其中,P为精准率,R为召回率,F1为综合评价值,m为抽取的记录数,n为标注的记录数,k为标注数据中记录i的元素个数。

需要说明的是,前述对于基于预训练模型的生成式信息抽取方法实施例的解释说明也适用于该实施例的装置,此处不再赘述。

综上所述,本申请实施例基于预训练模型的生成式信息抽取装置,先获取结构化信息抽取任务的历史标注数据,然后根据每个目标字段之间的依赖关系,生成多轮问题模板,并将标注数据处理为多轮问答形式的数据集,再将多轮问题模板序列化,并结合多轮问答形式的数据集微调生成式训练模型,并且将待抽取的文本输入至微调后的生成式训练模型中,通过微调后的生成式训练模型生成多轮问题模板中每轮问题对应的字段的答案,最后将每轮问题的答案形成结构化的数据,并评测模型。该装置将信息抽取任务视为多轮生成式问答任务,通过考虑字段与字段之间依赖关系设计问题模块,通过多轮问答的形式可以捕获不同字段之间的依赖关系,然后利用给定的上下文文本和问题用生成式预训练模型提取对应字段信息,该方法可以适用于多个字段重叠或某个字段缺失的状况,通过生成式模型生成答案降低了对实体的依赖,提高了抽取结构化信息的准确性和便捷性。

为达上述目的,本申请实施例中还提出了一种非临时性计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如上述实施例中任一所述的基于预训练模型的生成式信息抽取方法。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本申请的至少一个实施例或示例中。在本说明书中,若在多个实施例或示例中采用了对上述术语的示意性表述,不代表这些实施例或示例是相同的。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本申请的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

流程图中或在此以其他方式描述的任何过程或方法描述可以被理解为,表示包括一个或更多个用于实现定制逻辑功能或过程的步骤的可执行指令的代码的模块、片段或部分,并且本申请的优选实施方式的范围包括另外的实现,其中可以不按所示出或讨论的顺序,包括根据所涉及的功能按基本同时的方式或按相反的顺序,来执行功能,这应被本申请的实施例所属技术领域的技术人员所理解。

在流程图中表示或在此以其他方式描述的逻辑和/或步骤,例如,可以被认为是用于实现逻辑功能的可执行指令的定序列表,可以具体实现在任何计算机可读介质中,以供指令执行系统、装置或设备(如基于计算机的系统、包括处理器的系统或其他可以从指令执行系统、装置或设备取指令并执行指令的系统)使用,或结合这些指令执行系统、装置或设备而使用。就本说明书而言,"计算机可读介质"可以是任何可以包含、存储、通信、传播或传输程序以供指令执行系统、装置或设备或结合这些指令执行系统、装置或设备而使用的装置。计算机可读介质的更具体的示例(非穷尽性列表)包括以下:具有一个或多个布线的电连接部(电子装置),便携式计算机盘盒(磁装置),随机存取存储器(RAM),只读存储器(ROM),可擦除可编辑只读存储器(EPROM或闪速存储器),光纤装置,以及便携式光盘只读存储器(CDROM)。另外,计算机可读介质甚至可以是可在其上打印所述程序的纸或其他合适的介质,因为可以例如通过对纸或其他介质进行光学扫描,接着进行编辑、解译或必要时以其他合适方式进行处理来以电子方式获得所述程序,然后将其存储在计算机存储器中。

应当理解,本申请的各部分可以用硬件、软件、固件或它们的组合来实现。在上述实施方式中,多个步骤或方法可以用存储在存储器中且由合适的指令执行系统执行的软件或固件来实现。如,如果用硬件来实现和在另一实施方式中一样,可用本领域公知的下列技术中的任一项或他们的组合来实现:具有用于对数据信号实现逻辑功能的逻辑门电路的离散逻辑电路,具有合适的组合逻辑门电路的专用集成电路,可编程门阵列(PGA),现场可编程门阵列(FPGA)等。

本技术领域的普通技术人员可以理解实现上述实施例方法携带的全部或部分步骤是可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,该程序在执行时,包括方法实施例的步骤之一或其组合。

此外,在本申请各个实施例中的各功能单元可以集成在一个处理模块中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现,也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时,也可以存储在一个计算机可读取存储介质中。

上述提到的存储介质可以是只读存储器,磁盘或光盘等。尽管上面已经示出和描述了本申请的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本申请的限制,本领域的普通技术人员在本申请的范围内可以对上述实施例进行变化、修改、替换和变型。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于预训练语言模型的抑郁症访谈对话生成方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!