用于独立于领域的术语链接的系统和方法

文档序号：1132100 发布日期：2020-10-02 浏览：16次 >En<

阅读说明：本技术 用于独立于领域的术语链接的系统和方法 (System and method for domain independent term linking ) 是由丁海波贺一帆赵林徐魁冯哲于 2018-12-27 设计创作，主要内容包括：一种自动术语链接系统包括候选者生成器,所述候选者生成器被配置成针对要链接到知识库节点的每个术语来标识候选者节点。伪候选者生成器被配置成针对无候选者术语来标识伪候选者节点。候选者评分器被配置成：使用针对这些节点的出现统计信息和共现统计信息、通过集体推理来分别对候选者节点和伪候选者节点进行评分。伪候选者生成器被配置成：将与所述无候选者术语在语义上相关的知识库节点标识为针对所述无候选者术语的伪候选者节点。(An automatic term linking system includes a candidate generator configured to identify a candidate node for each term to be linked to a knowledge base node. The pseudo candidate generator is configured to identify a pseudo candidate node for a no candidate term. The candidate scorer is configured to: the candidate nodes and the pseudo candidate nodes are scored by collective inference using occurrence statistics and co-occurrence statistics for the nodes, respectively. The pseudo candidate generator is configured to: identifying a knowledge base node semantically related to the non-candidate term as a pseudo-candidate node for the non-candidate term.)

用于独立于领域的术语链接的系统和方法

相关申请的交叉引用

本申请要求Ding等人于2017年12月29日提交的题为“SYSTEM AND METHOD FORDOMAIN-INDEPENDENT TERMINOLOGY LINKING”的美国临时申请序列号62/611,575的优先权，该申请的公开内容通过引用在此整体地并入本文中。

技术领域

本发明涉及自然语言处理（NLP）、信息提取、术语处理和人机交互（HMI）的领域。

背景技术

知识库（KB）处于现代智能系统的最重要的支柱之中。KB既作为独立的产品或服务而提供，又使得能够实现下游应用，诸如问题回答和语义搜索：例如，为了由汽车专业人士来回答关于“直接注入”的问题，许多系统都依赖于关于汽车术语的预先构建的知识库。在这种系统中，重要的第一步是将自然语言短语“直接注入”链接到KB中的节点。这被称为实体链接（EL）。

关于EL的大多数现有工作聚焦于经命名的实体，即人员、组织和位置名称。但是对于例如工业环境中基于特定于领域的知识的应用而言，向DIY用户推荐动力工具（powertool）的系统或者支持汽车维修活动的系统需要特定于领域的术语也链接到KB节点。本发明公开提出了一种具有术语链接能力以支持各种工业用例的EL系统。

将短语准确地链接到KB节点是困难的任务。首先，该短语可能不直接对应于KB节点的名称。例如，关于维修汽车的文档中的短语“混合动力”应当很可能链接到“混合动力车辆”，但是这两个表面形式并不相同。另外，短语可能是不明确的：单词“疲劳”在医学文档中可能意指“疲劳（医学）”，或者在材料科学文档中可能意指“疲劳（金属）”。

从大型语料库中收集出现和共现（co-occurrence）统计信息，其中短语被手动链接到KB节点（实际上是***）以解决这些问题。出现统计信息用于测量一陈述链接到节点的可能性，即如果“混合动力”频繁地链接到语料库中某处的“混合动力车辆”，则当该系统在未见过的文本中遇到“混合动力”时，其将能够提出“混合动力车辆”。共现统计信息测量两个实体在同一文档中一起出现的可能性，以使得如果在该文档中基于“疲劳”与“铸铁”之间的关联而存在另一个实体“铸铁”，则该系统将能够确定“疲劳”很可能意指“疲劳（金属）”。

使术语链接特别困难的一个挑战是：技术文档中的许多术语是新兴的或高度特定的概念，而KB尚未涵盖这些概念。作为结果，针对这些术语，不存在共现统计信息。

具体实施方式

出于促进对本公开原理的理解的目的，现在将参考附图中所图示、并且在以下书面说明书中描述的实施例。要理解的是，由此不意图对本公开的范围进行限制。要进一步理解的是，本公开包括对所说明的实施例的任何更改和修改，并且包括本公开所属领域的普通技术人员将通常想到的对本公开原理的进一步应用。

本公开涉及一种用于将文本媒体（诸如，学术论文、技术报告和用户生成的内容）中的术语链接到知识库（KB）节点（例如，***页面）的计算系统和方法。相比之下，现有技术中的大多数系统仅聚焦于经命名的实体（人员、组织和位置名称）。

如本文中所使用的，术语“知识库”指代经人类注释的文本集合，该文本集合具有与实体（诸如，人员、地点或事物）和术语相关联的节点，这些术语指代与特定领域、实践区域或技术关联地使用的词典（lexicon）。知识库的节点可以包括至相关或参考节点的链接。如本文中所使用的，术语“经注释的”意指文本集合中的实体和术语已经链接到知识库中的节点。***是经注释的知识库的一个示例，从该经注释的知识库中，可以为该系统收集出现和共现统计信息。

如下所讨论，该系统首先对整个文本KB（即，其节点具有自然语言描述的KB）进行预处理，并且基于节点的描述文本来生成KB节点的出现和共现统计信息。针对要链接到该KB的新术语来生成候选者节点。基于出现统计信息来标识候选者节点。然后，使用这些节点当中的出现和共现统计信息两者、通过集体推理来对同一文档中的候选者节点进行评分。

对于没有与其相关联的候选者的术语，我们的系统自动构建与该术语在语义上相关的伪候选者节点的列表。这与现有技术有很大的不同。伪候选者节点是该术语的近义词。使用近义词的共现统计信息以便于联合推理。然后，将术语链接到针对该术语的最高得分的节点或伪节点。该系统在数字图书馆应用中对于其自己而言非常有用，并且可以用于便于进行KB构建和语义搜索。

对使用出现和共现统计信息的集体推理以及伪链接生成器进行组合，所提出的系统在术语链接方面实现了最高水平的性能。该系统可以用于创建数字图书馆应用，诸如汽车维修教程和技术文档浏览器，该数字图书馆应用提供了至KB的内联链接。它还可以用作针对其他基于知识的应用的预处理器。

参考图1，自动术语链接系统10包括四个主要组件。这些组件是KB统计信息计数器12、候选者生成器14，伪候选者生成器16和候选者评分器18，它们根据图1的工作流程图进行操作。统计信息计数器12是离线组件。候选者生成器14、伪候选者生成器16和候选者评分器18是在线组件，它们即时（on-the-fly）将术语链接到对应的KB节点。

KB统计信息计数器12基于经人类注释的文本集合20来计算两种类型的统计信息：出现统计信息和共现统计信息。通过被注释，文本集合20中的实体和术语已经在适当的情况下被链接。***是出于该系统的目的的经注释集合的示例。

出现统计信息测量陈述（m）链接到KB节点（e）的可能性。在形式上，它是条件概率p（e|m）的估计。共现统计信息测量两个KB实体或术语出现在同一文档中的可能性。在形式上，它是联合概率p（m₁，m₂）的估计。可以使用经注释的文本集合中的实体和术语陈述的出现的原始计数来计算出现和共现统计信息两者。KB统计信息计数器12可以将出现统计信息和共现统计信息存储在出现数据库22中。

候选者生成器14接受文档24以及文档24中的术语列表作为输入（图2）。术语“文档”可以包括任何类型的文档，包括电子文件、书籍、文章、网页、电子邮件、文件、以及在其上可以对其内容进行文本搜索的任何其他类型的项。

在一个实施例中，来自该文档的术语列表是由外部方或系统预先生成的。可替代地，可以生成术语列表作为该系统的功能的一部分。例如，该系统可以包括术语标识组件，该术语标识组件被配置成接收文档或其他形式的文本数据，并且解析该文本数据以在该文档中创建术语列表。可以使用任何合适的方法或算法来标识该文档内的术语。

候选者生成器14关于知识库中的KB节点来处理术语列表，以产生针对每个术语的候选者节点26的列表。候选者节点26是KB中的如下节点：该文档中的术语可能潜在地链接到该节点。该文档中的每个术语可能仅正确地链接到一个KB节点，但是在候选者生成阶段中，每个术语可以具有多于一个候选者。

在给定了术语（m）以及由KB统计信息计数器12生成的概率分布p（e|m）的情况下，候选者生成器14返回如下KB节点：这些KB节点的对应p（e|m）不为零。换句话说，候选者生成器14返回链接到经注释的文本集合20中的术语（m）至少一次的所有KB节点。

术语链接面临的主要挑战之一是：许多术语是新兴的或高度特定于领域的概念，这些概念在KB中没有对应节点。作为结果，候选者生成器14不能够产生针对这些术语的候选者，并且这些术语不具有统计信息以供评分器来利用。这些术语在本文中被称为NIL术语，这是因为候选者生成器在标识针对该术语的候选者节点时会返回NIL值，以及出于明显原因这些术语在本文中还被称为无候选者术语。

所提出的系统并入了伪候选者生成器16以捕获NIL术语后面的信息。伪候选者生成器16的输出是伪候选者节点28的列表。伪候选者节点28是如下KB节点：这些KB节点与NIL术语不相同，但是与NIL术语在语义上相关。

可以以多种方式来生成这些伪候选者，这至少部分地取决于应用的性质。例如，伪候选者生成器可以被配置成：将与NIL术语共享单词的知识库节点标识为针对NIL术语的伪候选者节点。作为另一示例，伪候选者生成器可以被配置成：将与NIL术语在分布上相似的知识库节点标识为针对无候选者术语的伪候选者。NIL术语与知识库节点之间的分布相似性可以根据模型（诸如，Word2vec表示模型）使用未链接的术语和知识库节点的向量表示来确定。

一旦已经标识出候选者26、伪候选者28及其对应的出现和共现统计信息22，候选者评分器18就对该文档执行集体推理，以使用评分算法（诸如，循环信念传播（LBP）算法）来对候选者和伪候选者进行评分。可以使用其他合适的算法。

在被评分之后，将每个非NIL术语链接到与针对该术语所标识的最高得分的候选者相对应的KB节点。类似地，可以将NIL术语与最高得分的伪候选者链接。可替代地，可以执行进一步的处理以在NIL术语被链接到伪候选者节点之前确定伪候选者得分是否足够高以值得与该术语相关联。

该系统可以包括输出生成系统，以用于基于至KB的术语链接来生成输出。例如，可以利用链接到KB中的相关联节点的术语来生成技术文档（图2）。可替代地，可以利用术语和相关联的KB链接来生成数据存储库，诸如数据库、电子表格以及甚至其他知识库。

该系统的组件可以由具有一个或多个处理器的一个或多个计算设备来实现，该处理器诸如中央处理单元（CPU）、专用集成电路（ASIC）、现场可编程门阵列（FPGA）设备或微控制器。处理器被配置成执行存储在存储器中的编程指令。存储器可以是任何合适类型的存储器，包括固态存储器、磁性存储器或光学存储器，仅举几个示例，并且存储器可以在单个设备中实现或者跨多个设备而分布。存储在存储器中的编程指令包括用于在该系统中实现各种功能的指令，该各种功能包括标识针对术语的候选者和候选者节点，以及基于出现和共现统计信息来使用集体推理以对候选者进行评分。（一个或多个）计算设备可以包括用于经由网络进行访问和通信的（一个或多个）网络接口设备。

虽然已经在附图和前述描述中详细图示和描述了本公开，但是应当认为本公开在性质上是说明性的而不是限制性的。要理解的是，仅呈现了优选实施例，并且期望保护落入本公开的精神内的所有改变、修改和进一步应用。

9页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：用于使用深度神经网络来进行独立于领域和语言的定义提取的系统和方法

用于独立于领域的术语链接的系统和方法

相关技术

网友询问留言