信息抽取方法、装置、计算机设备和存储介质

文档序号：1953433 发布日期：2021-12-10 浏览：17次 >En<

阅读说明：本技术 信息抽取方法、装置、计算机设备和存储介质 (Information extraction method and device, computer equipment and storage medium ) 是由张文泽文博刘云峰吴悦于 2021-08-11 设计创作，主要内容包括：本申请涉及一种信息抽取方法、装置、计算机设备和存储介质。所述方法包括：获取目标问题和目标内容；将所述目标问题和所述目标内容输入到预先训练的信息抽取模型中进行信息抽取,得到所述信息抽取模型输出的回答所述目标问题的目标信息；其中,所述信息抽取模型用于根据所述目标问题和所述目标内容确定从预设词表抽取信息的目标概率,并根据所述目标概率从所述预设词表或所述目标内容中抽取出所述目标信息。采用本方法能够降低信息抽取难度、提高信息抽取准确度。(The application relates to an information extraction method, an information extraction device, computer equipment and a storage medium. The method comprises the following steps: acquiring a target question and target content; inputting the target question and the target content into a pre-trained information extraction model for information extraction to obtain target information which is output by the information extraction model and used for answering the target question; the information extraction model is used for determining a target probability of extracting information from a preset word list according to the target question and the target content, and extracting the target information from the preset word list or the target content according to the target probability. By adopting the method, the difficulty of information extraction can be reduced, and the accuracy of information extraction can be improved.)

技术领域

本申请涉及信息抽取技术领域，特别是涉及一种信息抽取方法、装置、计算机设备和存储介质。

背景技术

用户信息的获取是保险、银行等行业开展业务必不可少的一步，快速准确地抽取这些重要信息，对企业发展、服务质量和业务指标的提升都非常重要。

相关技术中，通常是先根据训练样本和训练样本对应的人工标注进行模型训练，得到信息抽取模型。然后，将待抽取信息的文档输入到信息抽取模型中，由信息抽取模型从文档中抽取出信息。

然而，上述信息抽取方式存在以下问题：信息抽取模型难以从文档中抽取出信息，或者，信息抽取模型从文档中抽取出的信息不准确。

发明内容

基于此，有必要针对上述技术问题，提供一种能够降低信息抽取难度、提高信息抽取准确度的信息抽取方法、装置、计算机设备和存储介质。

一种信息抽取方法，该方法包括：

获取目标问题和目标内容；

将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取，得到信息抽取模型输出的回答目标问题的目标信息；

其中，信息抽取模型用于根据目标问题和目标内容确定从预设词表抽取信息的目标概率，并根据目标概率从预设词表或目标内容中抽取出目标信息。

在其中一个实施例中，信息抽取模型包括编码子模型和解码子模型，上述根据目标问题和目标内容确定从预设词表抽取信息的目标概率，并根据目标概率从预设词表或目标内容中抽取出目标信息，包括：

利用编码子模型对目标问题和目标内容进行编码处理，得到特征向量；

利用解码子模型对特征向量进行多轮解码处理，得到每轮解码对应的目标概率、预设词表所对应的第一概率分布和特征向量所对应的第二概率分布；其中，第一概率分布用于表征预设词表中各词汇分别对应的第一被抽取概率，第二概率分布用于表征目标内容中各词汇分别对应的第二被抽取概率；

根据每轮解码对应的目标概率、第一概率分布和第二概率分布确定每轮解码对应的第三概率分布；第三概率分布用于表征预设词表和目标内容中各词汇分别对应的第三被抽取概率；

根据每轮解码对应的第三概率分布进行信息抽取得到多个候选信息，并从候选信息中筛选出目标信息。

在其中一个实施例中，特征向量包括分类特征向量、问题特征向量和内容特征向量，解码子模型包括双向长短期记忆网络、第一全连接层和第二全连接层，上述利用解码子模型对特征向量进行多轮解码处理，得到每轮解码对应的目标概率、预设词表所对应的第一概率分布和特征向量所对应的第二概率分布，包括：

对于每轮解码，将分类特征向量与双向长短期记忆网络当前轮所对应的网络特征向量进行拼接处理得到拼接向量，并将拼接向量输入到第一全连接层中得到目标概率；

将分类特征向量输入到第二全连接层中得到第一概率分布；

对问题特征向量和内容特征向量进行正则化处理，并根据正则化结果得到第二概率分布。

在其中一个实施例中，上述根据每轮解码对应的目标概率、第一概率分布和第二概率分布确定每轮解码对应的第三概率分布，包括：

对于每轮解码，根据目标概率确定第一概率分布对应的第一权重和第二概率分布对应的第二权重；

根据第一权重和第二权重对第一概率分布和第二概率分布进行加权求和处理，得到第三概率分布。

在其中一个实施例中，上述根据每轮解码对应的第三概率分布进行信息抽取得到多个候选信息，包括：

对于每轮解码，根据第三概率分布确定预设词表和目标内容中第三被抽取概率最大的词汇，并将第三被抽取概率最大的词汇确定为候选信息。

在其中一个实施例中，上述利用编码子模型对目标问题和目标内容进行编码处理，得到特征向量，包括：

对目标问题和目标内容进行拼接处理，得到拼接信息；

对拼接信息进行分词处理，得到多个信息片段；其中，信息片段包括分类标识片段；

将多个信息片段输入到编码子模型中进行编码处理，得到编码子模型输出的各信息片段对应的特征向量；其中，分类标识片段对应分类特征向量。

在其中一个实施例中，在上述将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取之前，该方法还包括：

利用爬虫工具从互联网中获取通用语料；通用语料由问题、内容和答案组成；

对通用语料进行数据处理，得到训练问题、训练内容和训练标签；

根据训练问题、训练内容和训练标签进行模型训练，得到信息抽取模型。

一种信息抽取装置，该装置包括：

问题内容获取模块，用于获取目标问题和目标内容；

信息抽取模块，用于将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取，得到信息抽取模型输出的回答目标问题的目标信息；

其中，信息抽取模型用于根据目标问题和目标内容确定从预设词表抽取信息的目标概率，并根据目标概率从预设词表或目标内容中抽取出目标信息。

在其中一个实施例中，信息抽取模型包括编码子模型和解码子模型，上述信息抽取模块包括：

编码子模块，用于利用编码子模型对目标问题和目标内容进行编码处理，得到特征向量；

解码子模块，用于利用解码子模型对特征向量进行多轮解码处理，得到每轮解码对应的目标概率、预设词表所对应的第一概率分布和特征向量所对应的第二概率分布；其中，第一概率分布用于表征预设词表中各词汇分别对应的第一被抽取概率，第二概率分布用于表征目标内容中各词汇分别对应的第二被抽取概率；

概率确定子模块，用根据每轮解码对应的目标概率、第一概率分布和第二概率分布确定每轮解码对应的第三概率分布；第三概率分布用于表征预设词表和目标内容中各词汇分别对应的第三被抽取概率；

信息抽取子模块，用于根据每轮解码对应的第三概率分布进行信息抽取得到多个候选信息，并从候选信息中筛选出目标信息。

在其中一个实施例中，特征向量包括分类特征向量、问题特征向量和内容特征向量，解码子模型包括双向长短期记忆网络、第一全连接层和第二全连接层，上述解码子模块，具体用于对于每轮解码，将分类特征向量与双向长短期记忆网络当前轮所对应的网络特征向量进行拼接处理得到拼接向量，并将拼接向量输入到第一全连接层中得到目标概率；将分类特征向量输入到第二全连接层中得到第一概率分布；对问题特征向量和内容特征向量进行正则化处理，并根据正则化结果得到第二概率分布。

在其中一个实施例中，上述概率确定子模块，具体用于对于每轮解码，根据目标概率确定第一概率分布对应的第一权重和第二概率分布对应的第二权重；根据第一权重和第二权重对第一概率分布和第二概率分布进行加权求和处理，得到第三概率分布。

在其中一个实施例中，上述信息抽取子模块，具体用于对于每轮解码，根据第三概率分布确定预设词表和目标内容中第三被抽取概率最大的词汇，并将第三被抽取概率最大的词汇确定为候选信息。

在其中一个实施例中，上述编码子模块，具体用于对目标问题和目标内容进行拼接处理，得到拼接信息；对拼接信息进行分词处理，得到多个信息片段；其中，信息片段包括分类标识片段；将多个信息片段输入到编码子模型中进行编码处理，得到编码子模型输出的各信息片段对应的特征向量；其中，分类标识片段对应分类特征向量。

在其中一个实施例中，该装置还包括：

语料获取模块，用于利用爬虫工具从互联网中获取通用语料；通用语料由问题、内容和答案组成；

语料处理模块，用于对通用语料进行数据处理，得到训练问题、训练内容和训练标签；

训练模块，用于根据训练问题、训练内容和训练标签进行模型训练，得到信息抽取模型。

一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

获取目标问题和目标内容；

将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取，得到信息抽取模型输出的回答目标问题的目标信息；

其中，信息抽取模型用于根据目标问题和目标内容确定从预设词表抽取信息的目标概率，并根据目标概率从预设词表或目标内容中抽取出目标信息。

一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

获取目标问题和目标内容；

将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取，得到信息抽取模型输出的回答目标问题的目标信息；

其中，信息抽取模型用于根据目标问题和目标内容确定从预设词表抽取信息的目标概率，并根据目标概率从预设词表或目标内容中抽取出目标信息。

上述信息抽取方法、装置、计算机设备和存储介质，获取目标问题和目标内容；将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取，得到信息抽取模型输出的回答目标问题的目标信息。由于信息抽取模型先根据目标问题和目标内容确定从预设词表抽取信息的目标概率，再根据目标概率从预设词表或目标内容中抽取出目标信息，因此可以避免从目标内容中难以抽取出信息的问题，降低了信息抽取难度；并且，预设词表提供了目标内容之外的信息，因此还可以提高信息抽取准确度。

附图说明

图1为一个实施例中信息抽取方法的流程示意图；

图2为一个实施例中目标信息抽取步骤的流程示意图；

图3为一个实施例中编码处理步骤的流程示意图；

图4为一个实施例中解码处理步骤的流程示意图；

图5为一个实施例中确定第三概率分布步骤的流程示意图；

图6为一个实施例中模型训练步骤的流程示意图；

图7为一个实施例中信息抽取装置的结构框图；

图8为一个实施例中计算机设备的内部结构图。

具体实施方式

为了使本申请的目的、技术方案及优点更加清楚明白，以下结合附图及实施例，对本申请进行进一步详细说明。应当理解，此处描述的具体实施例仅仅用以解释本申请，并不用于限定本申请。

本申请提供了一种信息抽取方法，如图1所示，以该方法应用于终端进行举例说明，可以理解的是，该方法也可以应用于服务器，还可以应用于包括终端和服务器的系统，并通过终端和服务器的交互实现。其中，终端可以但不限于是各种个人计算机、笔记本电脑、智能手机和平板电脑，服务器可以用独立的服务器或者是多个服务器组成的服务器集群来实现。在本公开实施例中，可以包括以下步骤：

步骤101，获取目标问题和目标内容。

其中，目标问题用于指示信息抽取的目标，目标内容用于指示信息抽取的依据。例如，目标问题是“穿什么颜色的衣服显白”，目标内容包括“黑色是百搭的颜色……大红色能让人看上去白皙……”。

终端可以获取用户输入的目标问题和目标内容，也可以获取终端中预先存储的目标问题和目标内容；还可以获取用户输入的目标问题和预先存储的目标内容。本公开实施例对目标问题和目标内容的获取方式不做限定。

步骤102，将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取，得到信息抽取模型输出的回答目标问题的目标信息。

其中，信息抽取模型用于根据目标问题和目标内容确定从预设词表抽取信息的目标概率，并根据目标概率从预设词表或目标内容中抽取出目标信息。预设词表包括多个词汇，预设词表可以根据具体技术领域(如金融领域、保险领域)构建，也可以根据通用场景构建，本公开实施例对此不做限定。

终端中设置有预先训练的信息抽取模型和预设词表。在获取到目标问题和目标内容后，将目标问题和目标内容输入到信息抽取模型中，信息抽取模型根据目标问题和目标内容确定从预设词表抽取信息的目标概率。若目标概率大于预设概率阈值，则从预设词表中抽取出目标信息；若目标概率小于或等于预设概率阈值，则从目标内容中抽取出目标信息。

例如，预设概率阈值为70％，如果信息抽取模型根据目标问题和目标内容确定目标概率为80％，则确定目标概率大于预设概率阈值，从预设词表中抽取目标信息；如果信息抽取模型根据目标问题和目标内容确定目标概率为60％，则确定目标概率小于预设概率阈值，从目标内容中抽取目标信息。

上述信息抽取方法中，获取目标问题和目标内容；将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取，得到信息抽取模型输出的回答目标问题的目标信息。由于信息抽取模型先根据目标问题和目标内容确定从预设词表抽取信息的目标概率，再根据目标概率从预设词表或目标内容中抽取出目标信息，因此可以避免从目标内容中难以抽取出信息的问题，降低了信息抽取难度；并且，预设词表提供了目标内容之外的信息，因此还可以提高信息抽取准确度。

在一个实施例中，信息抽取模型包括编码子模型和解码子模型，如图2所示，上述根据目标问题和目标内容确定从预设词表抽取信息的目标概率，并根据目标概率从预设词表或目标内容中抽取出目标信息的步骤，可以包括：

步骤201，利用编码子模型对目标问题和目标内容进行编码处理，得到特征向量。

其中，特征向量包括问题特征向量和内容特征向量。

将目标问题和目标内容输入到信息抽取模型中的编码子模型中，编码子模型对目标问题和目标内容进行编码处理，得到目标问题对应的问题特征向量、目标内容对应的内容特征向量。

步骤202，利用解码子模型对特征向量进行多轮解码处理，得到每轮解码对应的目标概率、预设词表所对应的第一概率分布和特征向量所对应的第二概率分布。

其中，第一概率分布用于表征预设词表中各词汇分别对应的第一被抽取概率，第二概率分布用于表征目标内容中各词汇分别对应的第二被抽取概率；第一被抽取概率和第二被抽取概率均用于表征词汇被抽取到的概率值。

解码子模型对特征向量进行多轮解码处理可以采用多种方式，其中一种方式包括：解码子模型可以对特征向量进行N轮解码处理，N为用户预先设置的最大解码轮次，且N为正整数。在每一轮解码过程中，解码子模型都可以得到目标概率、预设词表对应的第一概率分布和特征向量对应的第二概率分布。

例如，在第一轮解码过程中，解码子模型得到目标概率为80％，预设词表中词汇1的第一被抽取概率为a1，词汇2的第一被抽取概率为a2……，目标内容中词汇1的第二被抽取概率为b1，词汇2的第二被抽取概率为b2……。

另一种方式包括：解码子模型对特征向量进行解码处理，若生成结束标识符，则结束解码处理。本公开实施例对解码处理的轮次不做限定。

步骤203，根据每轮解码对应的目标概率、第一概率分布和第二概率分布确定每轮解码对应的第三概率分布。

其中，第三概率分布用于表征预设词表和目标内容中各词汇分别对应的第三被抽取概率。第三被抽取概率用于表征词汇被抽取到的概率值。

在每轮解码过程中，根据目标概率分别对第一概率分布和第二概率分布进行归一化运算，得到预设词表中各词汇分别对应的第三被抽取概率和目标内容中各词汇分别对应的第三被抽取概率。

步骤204，根据每轮解码对应的第三概率分布进行信息抽取得到多个候选信息，并从候选信息中筛选出目标信息。

在每轮解码后，可以根据预设词表中各词汇分别对应的第三被抽取概率和目标内容中各词汇分别对应的第三被抽取概率进行信息抽取，得到至少一个候选信息。

在其中一个实施例中，对于每轮解码，根据第三概率分布确定预设词表和目标内容中第三被抽取概率最大的词汇，并将第三被抽取概率最大的词汇确定为候选信息。

例如，根据第三被抽取概率对预设词表中的词汇和目标内容中的词汇一起按照概率从大到小排序，然后将第三被抽取概率最大的词汇确定为候选信息。

在实际应用中，还可以将第三被抽取概率大于预设被抽取阈值的词汇确定为候选信息。本公开实施例对候选信息的抽取方式不做限定。

在每轮解码后，可以得到至少一个候选信息，在多轮解码后，则可以得到多个候选信息。之后，终端从多个候选信息中筛选出目标信息。具体地，可以将出现次数最多的候选信息确定为目标信息，也可以将第三被抽取概率最大的候选信息确定为目标信息。本公开实施例对筛选方式不做限定。

上述实施例中，终端利用编码子模型对目标问题和目标内容进行编码处理，得到特征向量；利用解码子模型对特征向量进行多轮解码处理，得到每轮解码对应的目标概率、预设词表所对应的第一概率分布和特征向量所对应的第二概率分布；根据每轮解码对应的目标概率、第一概率分布和第二概率分布确定每轮解码对应的第三概率分布；根据每轮解码对应的第三概率分布进行信息抽取得到多个候选信息，并从候选信息中筛选出目标信息。通过本公开实施例，由信息抽取模型的编码子模型和解码子模型进行编码处理、解码处理，从而确定是从预设词表还是目标内容中抽取信息。由于预设词表提供了目标内容之外的信息，因此，可以降低信息抽取难度，提高信息抽取准确度。

在一个实施例中，如图3所示，上述利用编码子模型对目标问题和目标内容进行编码处理，得到特征向量的步骤，可以包括：

步骤2011，对目标问题和目标内容进行拼接处理，得到拼接信息。

将目标问题和目标内容输入到信息抽取模型后，由信息抽取模型对目标问题和目标内容进行拼接处理。具体地，在目标问题前加分类标识[cls]，在目标问题和目标内容之间加分句标识[sep]。

例如，拼接信息包括：[cls]穿什么颜色的衣服显白[sep]黑色是百搭的颜色……大红色能让人看上去白皙……。

在实际应用中，还可以采用其他拼接方式，本公开实施例对此不做限定。

步骤2012，对拼接信息进行分词处理，得到多个信息片段。

由信息抽取模型按照预设规则对拼接信息进行分词处理，得到多个信息片段。例如，得到分类标识对应的分类标识片段、目标问题对应的问题信息片段和目标内容对应的内容信息片段。

其中，如果目标问题的文本较长，可以得到多个问题信息片段；如果目标内容的文本较长，也可以得到多个内容信息片段。

上述预设规则可以包括词汇长度、词汇之间的欧氏距离等，本公开实施例对预设规则不做限定。可以理解地，分词处理得到的信息片段的数量，是随着实际分词情况变化的，本公开实施例对此并不做限定。

步骤2013，将多个信息片段输入到编码子模型中进行编码处理，得到编码子模型输出的各信息片段对应的特征向量。

其中，编码子模型可以为BERT(Bidirectional Encoder Representation fromTransformers，双向转换编码)模型。

信息抽取模型分词得到多个信息片段后，将多个信息片段输入到编码子模型中，编码子模型对各信息片段进行编码处理，并输出各信息片段对应的特征向量。

例如，编码子模型输出分类标识片段对应分类特征向量H_cls、问题信息片段对应问题特征向量H_q和内容信息片段对应的内容特征向量H_p。

上述实施例中，终端对目标问题和目标内容进行拼接处理，得到拼接信息；对拼接信息进行分词处理，得到多个信息片段；将多个信息片段输入到编码子模型中进行编码处理，得到编码子模型输出的各信息片段对应的特征向量。通过本公开实施例，信息抽取模型对目标问题和目标内容进行拼接处理、分词处理以及编码处理，得到目标问题和目标内容分别对应的特征向量，以便后续可以确定从预设词表抽取信息的目标概率，进而确定目标信息。

在一个实施例中，特征向量包括分类特征向量、问题特征向量和内容特征向量；解码子模型包括双向长短期记忆网络(Bi Long Short-Term Memory，BiLSTM)、第一全连接层和第二全连接层，如图4所示，上述利用解码子模型对特征向量进行多轮解码处理，得到每轮解码对应的目标概率、预设词表所对应的第一概率分布和特征向量所对应的第二概率分布的步骤，可以包括：

步骤2021，对于每轮解码，将分类特征向量与双向长短期记忆网络当前轮所对应的网络特征向量进行拼接处理得到拼接向量，并将拼接向量输入到第一全连接层中得到目标概率。

在每一轮解码过程中，由解码子模型将分类特征向量与BiLSTM当前轮所对应的网络特征向量进行拼接处理得到拼接向量，并将拼接向量输入到第一全连接层中；之后，利用第一预设激活函数对第一全连接层的输出结果进行激活处理，得到目标概率。

例如，在第一轮解码过程中，解码子模型将分类特征向量H_cls1与BiLSTM第一轮所对应的网络特征向量Ht1进行拼接处理得到拼接向量H1’，将拼接向量H1’输入到第一全连接层中，并利用第一预设激活函数对第一全连接层的第一轮输出结果进行激活处理，得到目标概率Pt1。然后，将分类特征向量H_cls1输入到BiLSTM中得到BiLSTM输出的分类特征向量H_cls2，对BiLSTM进行更新得到BiLSTM第二轮对应的网络特征向量Ht2。接着，在第二轮解码过程中，解码子模型将分类特征向量H_cls2与BiLSTM第二轮对应的网络特征向量Ht2进行拼接得到拼接向量H2’，将拼接向量H2’输入到第一全连接层中，并利用第一预设激活函数对第一全连接层的第二轮输出结果进行激活处理，得到目标概率Pt2。以此类推，在达到用户设置的最大解码轮次，或者生成结束符时，结束解码处理。

上述第一预设激活函数可以为sigmoid函数，也可以为其他函数，本公开实施例对此不做限定。

步骤2022，将分类特征向量输入到第二全连接层中得到第一概率分布。

在每一轮解码过程中，将分类特征向量输入到第二全连接层中，并利用第二预设激活函数对第二全连接层的输出结果进行激活处理，得到预设词表对应的第一概率分布。

例如，在第一轮解码过程中，将分类特征向量H_cls1输入到第二全连接层中，利用第二预设激活函数对第二全连接层的第一轮输出结果进行激活处理，得到预设词表对应的第一概率分布Pwt1。然后，将分类特征向量H_cls2输入到第二全连接层中，利用第二预设激活函数对第二全连接层的第二轮输出结果进行激活处理，得到预设词表对应的第一概率分布Pwt2。以此类推，得到每一轮的第一概率分布。

上述第二预设激活函数可以为softMax函数，也可以为其他函数，本公开实施例对此不做限定。

可以理解地，第一预设激活函数可以与第二预设激活函数相同，也可以不同。

步骤2023，对问题特征向量和内容特征向量进行正则化处理，并根据正则化结果得到第二概率分布。

由解码子模型对问题特征向量和内容特征向量进行正则化处理，得到正则化结果，之后，根据正则化结果计算出第二概率分布。

例如，对问题特征向量H_q和内容特征向量H_p分布进行L2正则化处理，得到正则化结果Lq和Lp，之后，根据公式Put＝softMax(Lp^T*Lq)计算出第二概率分布Put。其中，Lp^T为Lp的转置矩阵。在实际应用中，也可以采用其他正则化处理方式，本公开实施例对此不做限定。

可以理解地，在目标问题和目标内容的文本较长的情况下，问题特征向量可以是由多个问题信息片段分别对应的特征向量所组成的向量矩阵，内容特征向量可以是由多个内容信息片段分别对应的特征向量所组成的向量矩阵。

上述实施例中，对于每轮解码，将分类特征向量与双向长短期记忆网络当前轮所对应的网络特征向量进行拼接处理得到拼接向量，并将拼接向量输入到第一全连接层中得到目标概率；将分类特征向量输入到第二全连接层中得到第一概率分布；对问题特征向量和内容特征向量进行正则化处理，并根据正则化结果得到第二概率分布。通过本公开实施例，可以确定每轮解码的目标概率、第一概率分布和第二概率分布，以便后续根据目标概率、第一概率分布和第二概率分布筛选出候选信息，进而确定目标信息。

在一个实施例中，如图5所示，上述根据每轮解码对应的目标概率、第一概率分布和第二概率分布确定每轮解码对应的第三概率分布的步骤，可以包括：

步骤2031，对于每轮解码，根据目标概率确定第一概率分布对应的第一权重和第二概率分布对应的第二权重。

在每一轮解码过程中，将目标概率确定为第一概率分布对应的第一权重，将1与目标概率的差值确定为第二概率分别对应的第二权重。

例如，将Pt确定为第一概率分布Pwt对应的第一权重，将1-Pt确定为第二概率Put分布对应的第二权重。

步骤2032，根据第一权重和第二权重对第一概率分布和第二概率分布进行加权求和处理，得到第三概率分布。

根据公式P＝Pt*Pwt+(1-Pt)*Put计算出第三概率分布P。

上述实施例中，对于每轮解码，根据目标概率确定第一概率分布对应的第一权重和第二概率分布对应的第二权重；根据第一权重和第二权重对第一概率分布和第二概率分布进行加权求和处理，得到第三概率分布。通过本公开实施例，可以根据目标概率对第一概率分布和第二概率分布进行加权处理，然后得到预测词表和目标内容中各词汇的被抽取概率，以便后续可以根据各词汇的被抽取概率进行信息抽取。

在一个实施例中，如图6所示，在上述实施例的基础上，还可以包括信息抽取模型的训练过程，如以下步骤：

步骤301，利用爬虫工具从互联网中获取通用语料。

其中，通用语料由问题、内容和答案组成。

互联网中存在大量的提问和回答的数据，利用爬虫工具从互联网中爬取这些数据，即可得到通用语料。

例如，从互联网中的某百科网站爬取到问题为“穿什么颜色的衣服显白”，回答为“黑色是百搭的颜色……大红色能让人看上去白皙……”的数据，得到问题为“穿什么颜色的衣服显白”，内容为“黑色是百搭的颜色……大红色能让人看上去白皙……”，答案为“黑色、大红色”的通用语料。

步骤302，对通用语料进行数据处理，得到训练问题、训练内容和训练标签。

终端在获取到通用语料后，对通用语料进行数据处理，得到训练信息抽取模型的训练问题、训练内容和训练标签。

例如，通用语料包括：问题为“穿什么颜色的衣服显白”，内容为“黑色是百搭的颜色……大红色能让人看上去白皙……”，答案为“黑色、大红色”的通用语料，根据上述通用语料可以得到训练问题为“穿什么颜色的衣服显白”，训练内容为“黑色是百搭的颜色……大红色能让人看上去白皙……”，训练标签为“黑色、大红色”。以此类推，可以得到大量的训练问题、训练内容和训练标签，从而组成训练集合。

步骤303，根据训练问题、训练内容和训练标签进行模型训练，得到信息抽取模型。

将训练问题和训练内容输入到初始模型中，得到初始模型输出的训练结果，根据训练标签和训练结果判断模型是否符合预设收敛条件。如果不符合预设收敛条件，则调整模型中的可调参数继续训练；如果符合预设收敛条件，则结束训练，并将结束训练时的模型确定为信息抽取模型。

上述实施例中，利用爬虫工具从互联网中获取通用语料；对通用语料进行数据处理，得到训练问题、训练内容和训练标签；根据训练问题、训练内容和训练标签进行模型训练，得到信息抽取模型。通过本公开实施例，终端根据通用语料得到模型训练所使用的训练问题、训练内容和训练标签，由于通用语料并不局限于某一领域，因此根据训练问题、训练内容和训练标签训练出的信息抽取模型具有较强的通用性和可迁移性。进一步地，由于无需人工标注即可得到训练标签，因此不仅可以降低人工成本、节省标签获取时间，提高标签获取效率，提高模型训练效率，而且还可以避免用户信息泄露风险，提高信息安全性。

应该理解的是，虽然图1至图6的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，图1至图6中的至少一部分步骤可以包括多个步骤或者多个阶段，这些步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤中的步骤或者阶段的至少一部分轮流或者交替地执行。

在一个实施例中，如图7所示，提供了一种信息抽取装置，包括：

问题内容获取模块401，用于获取目标问题和目标内容；

信息抽取模块402，用于将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取，得到信息抽取模型输出的回答目标问题的目标信息；

其中，信息抽取模型用于根据目标问题和目标内容确定从预设词表抽取信息的目标概率，并根据目标概率从预设词表或目标内容中抽取出目标信息。

在其中一个实施例中，信息抽取模型包括编码子模型和解码子模型，上述信息抽取模块402包括：

编码子模块，用于利用编码子模型对目标问题和目标内容进行编码处理，得到特征向量；

信息抽取子模块，用于根据每轮解码对应的第三概率分布进行信息抽取得到多个候选信息，并从候选信息中筛选出目标信息。

在其中一个实施例中，该装置还包括：

语料获取模块，用于利用爬虫工具从互联网中获取通用语料；通用语料由问题、内容和答案组成；

语料处理模块，用于对通用语料进行数据处理，得到训练问题、训练内容和训练标签；

训练模块，用于根据训练问题、训练内容和训练标签进行模型训练，得到信息抽取模型。

关于信息抽取装置的具体限定可以参见上文中对于信息抽取方法的限定，在此不再赘述。上述信息抽取装置中的各个模块可全部或部分通过软件、硬件及其组合来实现。上述各模块可以硬件形式内嵌于或独立于计算机设备中的处理器中，也可以以软件形式存储于计算机设备中的存储器中，以便于处理器调用执行以上各个模块对应的操作。

在一个实施例中，提供了一种计算机设备，该计算机设备可以是终端，其内部结构图可以如图8所示。该计算机设备包括通过系统总线连接的处理器、存储器、通信接口、显示屏和输入装置。其中，该计算机设备的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统和计算机程序。该内存储器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的通信接口用于与外部的终端进行有线或无线方式的通信，无线方式可通过WIFI、运营商网络、NFC(近场通信)或其他技术实现。该计算机程序被处理器执行时以实现一种信息抽取方法。该计算机设备的显示屏可以是液晶显示屏或者电子墨水显示屏，该计算机设备的输入装置可以是显示屏上覆盖的触摸子模型，也可以是计算机设备外壳上设置的按键、轨迹球或触控板，还可以是外接的键盘、触控板或鼠标等。

本领域技术人员可以理解，图8中示出的结构，仅仅是与本申请方案相关的部分结构的框图，并不构成对本申请方案所应用于其上的计算机设备的限定，具体的计算机设备可以包括比图中所示更多或更少的部件，或者组合某些部件，或者具有不同的部件布置。

在一个实施例中，提供了一种计算机设备，包括存储器和处理器，存储器中存储有计算机程序，该处理器执行计算机程序时实现以下步骤：

获取目标问题和目标内容；

将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取，得到信息抽取模型输出的回答目标问题的目标信息；

其中，信息抽取模型用于根据目标问题和目标内容确定从预设词表抽取信息的目标概率，并根据目标概率从预设词表或目标内容中抽取出目标信息。

在一个实施例中，信息抽取模型包括编码子模型和解码子模型，处理器执行计算机程序时还实现以下步骤：

利用编码子模型对目标问题和目标内容进行编码处理，得到特征向量；

根据每轮解码对应的第三概率分布进行信息抽取得到多个候选信息，并从候选信息中筛选出目标信息。

在一个实施例中，特征向量包括分类特征向量、问题特征向量和内容特征向量，解码子模型包括双向长短期记忆网络、第一全连接层和第二全连接层，处理器执行计算机程序时还实现以下步骤：

将分类特征向量输入到第二全连接层中得到第一概率分布；

对问题特征向量和内容特征向量进行正则化处理，并根据正则化结果得到第二概率分布。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对于每轮解码，根据目标概率确定第一概率分布对应的第一权重和第二概率分布对应的第二权重；

根据第一权重和第二权重对第一概率分布和第二概率分布进行加权求和处理，得到第三概率分布。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对于每轮解码，根据第三概率分布确定预设词表和目标内容中第三被抽取概率最大的词汇，并将第三被抽取概率最大的词汇确定为候选信息。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

对目标问题和目标内容进行拼接处理，得到拼接信息；

对拼接信息进行分词处理，得到多个信息片段；其中，信息片段包括分类标识片段；

将多个信息片段输入到编码子模型中进行编码处理，得到编码子模型输出的各信息片段对应的特征向量；其中，分类标识片段对应分类特征向量。

在一个实施例中，处理器执行计算机程序时还实现以下步骤：

利用爬虫工具从互联网中获取通用语料；通用语料由问题、内容和答案组成；

对通用语料进行数据处理，得到训练问题、训练内容和训练标签；

根据训练问题、训练内容和训练标签进行模型训练，得到信息抽取模型。

在一个实施例中，提供了一种计算机可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现以下步骤：

获取目标问题和目标内容；

将目标问题和目标内容输入到预先训练的信息抽取模型中进行信息抽取，得到信息抽取模型输出的回答目标问题的目标信息；

其中，信息抽取模型用于根据目标问题和目标内容确定从预设词表抽取信息的目标概率，并根据目标概率从预设词表或目标内容中抽取出目标信息。

在一个实施例中，信息抽取模型包括编码子模型和解码子模型，计算机程序被处理器执行时还实现以下步骤：

利用编码子模型对目标问题和目标内容进行编码处理，得到特征向量；

根据每轮解码对应的第三概率分布进行信息抽取得到多个候选信息，并从候选信息中筛选出目标信息。

在一个实施例中，特征向量包括分类特征向量、问题特征向量和内容特征向量，解码子模型包括双向长短期记忆网络、第一全连接层和第二全连接层，计算机程序被处理器执行时还实现以下步骤：

将分类特征向量输入到第二全连接层中得到第一概率分布；

对问题特征向量和内容特征向量进行正则化处理，并根据正则化结果得到第二概率分布。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对于每轮解码，根据目标概率确定第一概率分布对应的第一权重和第二概率分布对应的第二权重；

根据第一权重和第二权重对第一概率分布和第二概率分布进行加权求和处理，得到第三概率分布。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对于每轮解码，根据第三概率分布确定预设词表和目标内容中第三被抽取概率最大的词汇，并将第三被抽取概率最大的词汇确定为候选信息。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

对目标问题和目标内容进行拼接处理，得到拼接信息；

对拼接信息进行分词处理，得到多个信息片段；其中，信息片段包括分类标识片段；

将多个信息片段输入到编码子模型中进行编码处理，得到编码子模型输出的各信息片段对应的特征向量；其中，分类标识片段对应分类特征向量。

在一个实施例中，计算机程序被处理器执行时还实现以下步骤：

利用爬虫工具从互联网中获取通用语料；通用语料由问题、内容和答案组成；

对通用语料进行数据处理，得到训练问题、训练内容和训练标签；

根据训练问题、训练内容和训练标签进行模型训练，得到信息抽取模型。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本申请所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和易失性存储器中的至少一种。非易失性存储器可包括只读存储器(Read-Only Memory，ROM)、磁带、软盘、闪存或光存储器等。易失性存储器可包括随机存取存储器(Random Access Memory，RAM)或外部高速缓冲存储器。作为说明而非局限，RAM可以是多种形式，比如静态随机存取存储器(Static Random Access Memory，SRAM)或动态随机存取存储器(Dynamic Random Access Memory，DRAM)等。

以上实施例的各技术特征可以进行任意的组合，为使描述简洁，未对上述实施例中的各个技术特征所有可能的组合都进行描述，然而，只要这些技术特征的组合不存在矛盾，都应当认为是本说明书记载的范围。

以上所述实施例仅表达了本申请的几种实施方式，其描述较为具体和详细，但并不能因此而理解为对发明专利范围的限制。应当指出的是，对于本领域的普通技术人员来说，在不脱离本申请构思的前提下，还可以做出若干变形和改进，这些都属于本申请的保护范围。因此，本申请专利的保护范围应以所附权利要求为准。

21页详细技术资料下载

信息抽取方法、装置、计算机设备和存储介质

相关技术

网友询问留言