知识图中过指定和欠指定的自动解析

文档序号:1942820 发布日期:2021-12-07 浏览:17次 >En<

阅读说明:本技术 知识图中过指定和欠指定的自动解析 (Automatic resolution of over-and under-designations in knowledge graphs ) 是由 C·特里姆 M·鲁登 M·玛佐拉蒂 J·弗克斯 于 2020-05-15 设计创作,主要内容包括:公开了用于知识图中的过指定和欠指定的自动化解析的系统和方法。在实施例中,一种方法包括:由计算设备确定知识图的对象聚类的大小满足指示所述知识图的知识库的欠指定的阈值;由所述计算设备确定所述知识图的对象的子类;由所述计算设备基于所述子类重新初始化所述知识图以生成细化的知识图,其中所述对象聚类的大小在所述细化的知识图中被减小;以及由计算设备基于从细化的知识图确定的信息来生成输出。(Systems and methods for automated resolution of over-and under-designations in knowledge graphs are disclosed. In an embodiment, a method comprises: determining, by a computing device, that a size of an object cluster of a knowledge graph satisfies a threshold indicative of under-designation of a knowledge base of the knowledge graph; determining, by the computing device, a subclass of objects of the knowledge graph; reinitializing, by the computing device, the knowledge graph based on the sub-classes to generate a refined knowledge graph, wherein a size of the cluster of objects is reduced in the refined knowledge graph; and generating, by the computing device, an output based on the information determined from the refined knowledge graph.)

知识图中过指定和欠指定的自动解析

背景技术

本发明总体上涉及数据分析,并且更具体地涉及知识图中的过指定和欠指定的自动解析。

大数据是涉及分析、提取来自大数据集的信息或以其他方式处理大数据集的领域,所述大数据集对于传统数据处理应用软件而言太复杂。不同计算建模工具和技术可用于分析和提取来自数据集的信息。图模型和关系数据库通常用于从特定域(即,活动范围或知识)的数据集提取信息。分析者利用的一个工具是知识图。如本文中所使用的术语知识图指将信息集成到本体中且应用推理器来导出新知识的图。知识图包括与特定域或组织相关的实体的网络。

发明内容

在本发明的一个方面中,一种计算机实现的方法包括:由计算设备确定知识图的对象聚类的大小满足指示所述知识图的知识库的欠指定的阈值;由所述计算设备确定所述知识图的对象的子类;由所述计算设备基于所述子类重新初始化所述知识图以生成细化的知识图,其中所述对象聚类的大小在所述细化的知识图中被减小;以及由计算设备基于从细化的知识图确定的信息来生成输出。有利地,该方法使得能够自动识别欠指定,而不需要具有知识图域的专门知识的分析者。

在实施例中,确定知识图的子类包括确定知识库的潜在分层结构内的父-子关系。这样的方法有利地利用知识库中的潜在分层结构的标识来自动解决知识图域的欠指定。

在其他实施例中,确定知识图的子类包括基于对等节点确定知识图的子类。此类方法有利地利用知识库中的潜在对等关系的标识来自动解决知识图域的欠指定。

在本发明的另一个方面中,存在一种计算机程序产品,该计算机程序产品包括一种计算机可读存储介质,该计算机可读存储介质具有随其体现的程序指令。程序指令可由计算设备执行以使计算设备:从知识库生成知识图;确定所述知识图的对象聚类的大小满足指示所述知识库的欠指定的阈值;确定所述知识图的对象的子类;以及基于所述子类重新初始化所述知识图以生成细化的知识图,其中所述对象聚类的大小在所述细化的知识图中被减小。有利地,计算机程序产品使得能够自动识别欠指定,而不需要具有知识图域的专门知识的分析员。

在实施例中,确定知识图的子类包括确定知识库的潜在分层结构内的父-子关系。这样的计算机程序产品有利地利用知识库中的潜在分层结构的标识来自动解决知识图域的欠指定。

在其他实施例中,确定知识图的子类包括基于对等节点确定知识图的子类。这样的计算机程序产品有利地利用知识库中的潜在对等关系的标识来自动解决知识图域的欠指定。

在本发明的另一方面中,存在一种系统,其包括处理器、计算机可读存储器和与计算设备相关联的计算机可读存储介质。该系统还包括:用于从知识库生成知识图的程序指令;用于确定所述知识图的对象聚类的大小是否满足指示所述知识库的欠指定的阈值的程序指令;用于基于确定所述知识图的所述对象聚类的所述大小满足所述阈值来确定所述知识图的对象的子类的程序指令;用于基于所述子类重新初始化所述知识图以生成细化的知识图的程序指令,其中所述对象聚类的大小在所述细化的知识图中被减小;用于通过利用泰森多边形法(Voronoi)单元聚类初始化公式执行聚类分析来确定知识库的过指定是否存在的程序指令;以及用于基于所述确定所述过度指定来重新初始化所述知识图以生成更新的知识图的程序指令,其中所述细化的知识图的过度指定的对象聚类的实体被包含在所述更新的知识图的单个聚类中。程序指令存储在计算机可读存储介质上,供处理器经由计算机可读存储器执行。有利地,该系统使得能够自动识别过指定和欠指定,而不需要具有知识图域的专门知识的分析者。

在实施例中,确定知识图的子类包括确定知识库的潜在分层结构内的父-子关系。这样的系统有利地利用知识库中的潜在分层结构的标识来自动解决知识图域的欠指定。

在实施例中,确定知识图的子类包括基于对等节点确定知识图的子类。这样的系统有利地利用知识库中的潜在对等关系的标识来自动解决知识图域的欠指定。

在本发明的一个方面,一种计算机实现的方法包括:由计算设备访问为知识库生成的知识图;由所述计算设备基于所述知识图的具有小于阈值量的数据点的一个或多个对象聚类来确定所述知识库的过指定;以及由所述计算设备基于所述确定所述过指定来重新初始化所述知识图以生成更新的知识图,其中所述知识图的过指定的对象聚类的实体被包含在所述更新的知识图的单个对象聚类中。这样的方法使得能够确定知识图的过指定,而不需要分析者具有知识库的主题的任何专门知识。

在实施方式中,确定过指定包括使用泰森多边形法单元聚类初始化公式执行聚类分析。

在本发明的另一个方面中,存在一种计算机程序产品,该计算机程序产品包括一种计算机可读存储介质,该计算机可读存储介质具有随其体现的程序指令。程序指令可由计算设备执行以使计算设备:访问为知识库生成的知识图;基于所述知识图的具有小于阈值量的数据点的一个或多个对象聚类来确定所述知识库的过指定;以及基于确定所述过指定来重新初始化所述知识图以生成更新的知识图,其中所述知识图的过指定的对象聚类的实体被包含在所述更新的知识图的单个对象聚类中。

在实施方式中,确定过指定包括使用泰森多边形法单元聚类初始化公式执行聚类分析。

附图说明

在下面的详细描述中,通过本发明示例性实施例的非限制性示例,参考所提到的多个附图,对本发明进行了描述。

图1描绘了根据本发明的实施例的计算基础设施。

图2示出了根据本发明的方面的示例性环境。

图3示出了根据本发明的方面的示例性方法的步骤的流程图。

图4A示出了根据本发明的各方面的指示知识库的欠指定的域的注释图。

图4B示出了根据本发明的各方面的图4A的知识库的细化的图,其指示知识库的充分规范。

图5A示出了根据本发明的各方面的指示知识库的过指定的域的注释图。

图5B示出了根据本发明的各方面的图5A的知识库的细化的图,其指示知识库的充分规范。

具体实施方式

本发明总体上涉及数据分析,并且更具体地涉及知识图中的过指定和欠指定的自动解析。本发明的实施例提供了一种用于基于知识图中的对象节点聚类来自动检测知识库的过指定和欠指定的系统。

一般而言,使用图模型(图范例)可向用户(例如,数据分析员)指示感兴趣的域太大而不能完全理解,以及太动态而不能在关系数据库(关系范例)中建模,其中模式改变(对建立域的一组条件和实体的改变)可对依赖于图模型的软件应用具有严重影响。在利用图范例的情况下,用于构建图模式或g-模式的技术通常以自动化组件为特征。在许多情况下,知识图通过手工构建并通过自动化技术来补充。在更罕见的情况下,或者在噪声更容易容忍的情况下,可以通过自动化方法来开发整个g-模式。在任一方法中,指示实体(建模数据内的对象的类型或类别)在何处可能是过指定的(过一般化的)或欠指定的是有利的。本文所用的术语未指定和欠指定指不充分或不够准确的信息,或指定不完整的信息。相反,在其他情况下,实体可能被过度指定或分解(分解成实体的组成元素)并且应该更概括。如本文中所使用的,过指定、过度指定的和超指定的术语是指过度指定的数据。无论是否通过手动或自动手段开发模型,错误(欠指定或过指定)都是可能的,并且应该针对更有效的模型进行校正并且准确地反映领域的状态。

许多信息系统具有利用关系数据库和图来执行面向发现的数据搜索、工作流(对话树)遍历和单个正确答案查询的混合方法。能够为所有情况提供必要输入的单个知识图极其复杂并且通常不可用。当今的切割边缘信息系统需要具有复杂后端集成的各种数据存储和检索技术。本发明的实施例使得单个图模式能够充当真实信息的源,并帮助分配稀缺资源以供来自知识源(即,一个或多个数据源)的图的连续细化和扩增。因而,本发明的实施例针对图建模实现中的数据集的过度或欠指定的技术问题提供技术方案。

有利地,本发明的实施例以附加功能的形式向数据建模计算设备和计算机数据建模技术领域提供改进。更具体地,本发明的各方面利用非常规的步骤,包括使用对绘图的对象的聚类分析来自动确定过指定和/或欠指定以生成细化的图模型。

本发明可以是任何可能的集成技术细节水平的系统、方法和/或计算机程序产品。所述计算机程序产品可包含上面具有计算机可读程序指令的计算机可读存储介质(或媒体),所述计算机可读程序指令用于使得处理器执行本发明的方面。

计算机可读存储介质可以是可以保留和存储指令以供指令执行设备使用的有形设备。计算机可读存储介质可以是例如但不限于电子存储设备、磁存储设备、光存储设备、电磁存储设备、半导体存储设备或前述各项的任何合适的组合。计算机可读存储介质的更具体例子的非穷举列表包括以下:便携式计算机盘,硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或闪存),静态随机存取存储器(SRAM)、便携式致密盘只读存储器(CD-ROM),数字通用盘(DVD)、记忆棒、软盘、机械编码设备(诸如穿孔卡片)或具有记录在其上的指令的凹槽中的凸起结构),以及上述的任意合适的组合。如本文中所使用的计算机可读存储介质不应被解释为瞬态信号本身,诸如无线电波或其他自由传播的电磁波、通过波导或其他传输介质传播的电磁波(例如,通过光纤电缆的光脉冲)、或通过导线传输的电信号。

本文所述的计算机可读程序指令可从计算机可读存储介质下载到相应的计算/处理设备,或经由网络(例如,互联网、局域网、广域网和/或无线网络)下载到外部计算机或外部存储设备。网络可以包括铜传输电缆、光传输光纤、无线传输、路由器、防火墙、交换机、网关计算机和/或边缘服务器。每个计算/处理设备中的网络适配器卡或网络接口从网络接收计算机可读程序指令,并转发计算机可读程序指令以存储在相应计算/处理设备内的计算机可读存储介质中。

用于执行本发明的操作的计算机可读程序指令可以是汇编指令,指令集架构(ISA)指令、机器指令、机器相关指令、微代码、固件指令、状态设置数据,集成电路的配置数据,或以一种或多种编程语言的任何组合编写的源代码或目标代码,包括面向对象的Smalltalk、C++等编程语言,以及过程式编程语言,例如“C”编程语言或类似的编程语言。计算机可读程序指令可完全在用户的计算机上执行、部分在用户的计算机上执行、作为独立软件包执行、部分在用户的计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在后一种情形中,远程计算机可以通过任何类型的网络(包括局域网(LAN)或广域网(WAN))连接到用户的计算机,或者可以连接到外部计算机(例如,通过使用互联网服务提供商的互联网)。在一些实施例中,电子电路(包括例如可编程逻辑电路、现场可编程门阵列(FPGA)或可编程逻辑阵列(PLA))可以通过利用计算机可读程序指令的状态信息来执行计算机可读程序指令以使电子电路个性化,以便执行本发明的方面。

本文中参考根据本发明的实施例的方法、设备(系统)和计算机程序产品的流程图说明和/或框图描述本发明的方面。应当理解,流程图和/或框图的每个方框以及流程图和/或框图中各方框的组合,都可以由计算机可读程序指令来实现。

这些计算机可读程序指令可以被提供给通用计算机的处理器,专用计算机或其他可编程数据处理装置,以产生机器,其通过计算机或其他可编程数据处理装置的处理器执行,创建用于实现在流程图和/或方框图的一个或多个方框中指定的功能/动作的装置。这些计算机可读程序指令还可存储在可指导计算机的计算机可读存储介质中,可编程数据处理装置,和/或以特定方式起作用的其他设备,使得具有存储在其中的指令的计算机可读存储介质包括制品,该制品包括实现流程图和/或框图中的一个或多个方框中规定的功能/动作的各方面的指令。

计算机可读程序指令还可以被加载到计算机、其他可编程数据处理装置或其他设备上,以使得在计算机、其他可编程装置或其他设备上执行一系列操作步骤,以产生计算机实现的过程,使得在计算机、其他可编程装置或其他设备上执行的指令实现流程图和/或框图的一个或多个框中指定的功能/动作。

附图中的流程图和框图图示了根据本发明的不同实施例的系统、方法和计算机程序产品的可能实现的架构、功能和操作。对此,流程图或框图中的每个方框可以代表模块、段或指令的一部分,其包括用于实现规定的逻辑功能的一个或多个可执行指令。在一些替代实施例中,框中所标注的功能可以不以图中所标注的次序发生。例如,取决于所涉及的功能,连续示出的两个框实际上可以基本上同时执行,或者这些框有时可以以相反的顺序执行。还将注意的是,框图和/或流程图中的每个框、以及框图和/或流程图中的框的组合可以由基于专用硬件的系统来实现,所述基于专用硬件的系统执行指定的功能或动作或执行专用硬件与计算机指令的组合。

现在参见图1,示出了计算基础设施的示例的示意图。计算基础结构10仅是合适的计算基础结构的一个示例,并且不旨在对本文描述的本发明的实施例的使用范围或功能提出任何限制。无论如何,计算基础设施10能够被实现和/或执行上文阐述的功能中的任何功能。

在计算基础结构10中存在计算机系统(或服务器)12,其可与许多其他通用或专用计算系统环境或配置一起操作。可适合于与计算机系统12一起使用的众所周知的计算系统、环境和/或配置的示例包含,但不限于个人计算机系统、服务器计算机系统、瘦客户机、厚客户机,手持式或膝上型设备、多处理器系统、基于微处理器的系统、机顶盒、可编程消费电子产品,网络PC、小型计算机系统、大型计算机系统和包括任何上述系统或设备的分布式云计算环境,等等。

计算机系统12可在由计算机系统执行的计算机系统可执行指令(诸如程序模块)的一般上下文中描述。一般而言,程序模块可包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、逻辑、数据结构等。计算机系统12可在其中任务由通过通信网络链接的远程处理设备执行的分布式云计算环境中实践。在分布式云计算环境中,程序模块可位于包括存储器存储设备的本地和远程计算机系统存储介质两者中。

如图1所示,计算基础设施10中的计算机系统12以通用计算设备的形式示出。计算机系统12的组件可包含(但不限于)一个或一个以上处理器或处理单元(例如,CPU)16、系统存储器28和将包含系统存储器28的不同系统组件耦合到处理器16的总线18。

总线18表示若干类型的总线结构中的任一种总线结构中的一种或多种,包括存储器总线或存储器控制器、外围总线、加速图形端口、以及使用各种总线架构中的任一种的处理器或局部总线。作为示例而非限制,此类架构包括工业标准架构(ISA)总线、微通道架构(MCA)总线、增强型ISA(EISA)总线、视频电子标准协会(VESA)局部总线和外围组件互连(PCI)总线。

计算机系统12通常包括各种计算机系统可读介质。这样的介质可以是可由计算机系统12访问的任何可用介质,并且它包括易失性和非易失性介质、可移动和不可移动介质两者。

系统存储器28可包括易失性存储器形式的计算机系统可读媒质,诸如随机存取存储器(RAM)30和/或高速缓存存储器32。计算机系统12还可以包括其他可移动/不可移动、易失性/非易失性计算机系统存储介质。仅通过示例,存储系统34可以被提供用于从不可移动、非易失性磁介质(未示出,并且通常被称为“硬盘驱动器”)读取和向其写入。尽管未示出,可以提供用于读写可移动非易失性磁盘(例如,“软盘”)的磁盘驱动器以及用于读写诸如CD-ROM、DVD-ROM或其他光学介质之类的可移动非易失性光盘的光盘驱动器。在这样的实例中,每一个都可以通过一个或多个数据介质接口连接到总线18。如下面将进一步描绘和描述的,存储器28可以包括至少一个程序产品,该程序产品具有被配置为执行本发明的实施例的功能的程序模块的集合(例如,至少一个)。

具有一组(至少一个)程序模块42的程序/实用工具40以及操作系统、一个或多个应用程序、其他程序模块和程序数据可以通过示例而非限制的方式存储在存储器28中。操作系统、一个或多个应用程序、其他程序模块和程序数据中的每一者或其某一组合可包含联网环境的实施例。程序模块42通常执行本发明所描述的实施例的功能和/或方法。

计算机系统12还可以与诸如键盘、定点设备、显示器24等的一个或多个外部设备14通信;使得用户能够与计算机系统12交互的一个或多个设备;和/或使得计算机系统12能够与一个或多个其他计算设备通信的任何设备(例如,网卡、调制解调器等)。这样的通信可以经由输入/输出(I/O)接口22发生。此外,计算机系统12可经由网络适配器20与诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网)之类的一个或多个网络通信。如图所示,网络适配器20通过总线18与计算机系统12的其他部件通信。应当理解,虽然未示出,但是其他硬件和/或软件组件可以与计算机系统12结合使用。示例包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动器阵列、RAID系统、磁带驱动器和数据归档存储系统等。

图2示出了根据本发明的方面的示例性环境。该环境包括将服务器60连接到一个或多个数据源62和/或一个或多个客户端计算设备64的网络50。服务器60可以包括图1的计算机系统12并且可以经由图1的网络适配器20连接到网络50。服务器60可以被配置为作为数据管理和分析系统的一部分的专用计算设备。例如,服务器60可以被配置成用于从客户端的数据源62中的一个或多个数据源收集数据(例如,大数据)以用于管理和/或分析和报告。

网络50可以是任何合适的通信网络或网络的组合,诸如局域网(LAN)、通用广域网(WAN)和/或公共网络(例如,互联网)。数据源62可以是任何数据源,诸如客户端数据库或第三方数据源(例如,社交媒体服务器等)。服务器60可被配置来向在64处表示的一个或多个客户端计算设备提供数据管理和分析服务或输出。客户端计算设备可以包括图1的计算机系统12的组件,并且可以是台式计算机、膝上型计算机、平板计算机、智能电话或其他类型的计算设备。

仍参见图2,服务器60可包括一个或多个程序模块(例如,图1的程序模块42),这些程序模块由服务器60执行并被配置为执行本文描述的一个或多个功能。在实施例中,服务器60包括:建模模块70,其被配置为提供用于分析知识库的建模工具和功能;聚类模块72,配置成确定知识图中的欠指定或过指定(过概括)的实例;以及自然语言处理(NPL)模块74,被配置成标识知识库中具有相似关系的对象。如本文中所使用的术语知识库指的是数据集,该数据集可包括从多个源(例如,数据源62)收集的数据。如本文中所使用的术语知识图指将信息集成到本体中且应用推理器来导出新知识的图。知识图包括与特定域或组织相关的实体的网络。在各方面,本发明的知识图包括实体的大型网络、它们的语义类型、属性和实体之间的关系。术语语义是指以本体的形式与图中的数据并排编码的数据的含义。

在实施例中,服务器60包括图形用户界面(GUI)76和数据库78,用户可以通过该图形用户界面输入信息(例如,指令、数据等),该数据库用于存储由服务器60利用的数据集和/或服务器60的数据输出。在实施例中,服务器60被配置用于在大数据领域中使用(即,用于分析、系统地从数据集提取信息或以其他方式处理太大或太复杂而不能通过传统数据处理应用软件处理的数据集的方式)。

在实施例中,服务器60可以包括比图2中所示的那些部件更多或更少的部件。在实施例中,单独的组件可以集成到单个计算组件或模块中。附加地或可替代地,单个组件可被实现为多个计算组件或模块。

图3示出了根据本发明的方面的示例性方法的流程图。图3的方法的步骤可以在图2所示的环境中执行,并且参考图2所示的元件进行描述。

在步骤300,服务器60生成或获得知识图,其中该知识图基于知识库(一组或多组数据)。如上文所提及,如本文中所使用的术语知识图指将信息集成到本体中且应用推理器来导出新知识的图。更具体地,知识图包括与特定域或组织相关的实体的网络。例如,可以针对医学领域、油气领域或其他领域或工业中的应用生成知识图。在各方面,本发明的知识图包括实体的大型网络、它们的语义类型、属性和实体之间的关系。可以根据步骤300利用用于创建知识图的不同方法。例如,应用编程接口(API)工具包或人工智能(AI)数据包可以由数据分析器等利用,以利用现有技术和/或软件从数据生成知识图。在实施方式中,服务器60的建模模块70根据步骤300生成知识图。可替代地,用户可诸如从客户端计算设备64获得已经生成的知识图。知识图可基于从多个源(例如,数据源62)聚集的数据来生成。在各方面,知识图是使用建立域的模式从知识库(一个或多个数据集)中生成的,其中该图描绘了一个或多个对象聚类(即,在该图中被定位或紧密地一起出现的一组类似对象)。

在步骤301,服务器60确定步骤300的知识图的对象聚类的大小满足指示知识库的欠指定的阈值。如上所述,如本文所用的术语未指定或欠指定指不充分或不够准确的信息,或指定不完整的信息。在实现方式中,服务器60的聚类模块72根据步骤301确定欠指定。在数据的绘图中执行聚类步骤的情况下,如果给定实体看起来主要具有与图上的周围聚类不成比例的密集聚类,则这样的不成比例的密集聚类指示欠指定的可能情况。由此,本发明的实施例使用聚类来找到知识库的欠指定的可能原因,其中欠指定不是在绝对或启发式的基础上而是相对于位于给定语料库(数据的主体或集合)内或该域中的所有语料库内的组来测量的。

仍然参考图3的步骤301,在实施例中,argmax(极大值的自变量)函数被用于确定聚类内的域的临界点,在该临界点上,大小大于周围聚类组。在数学上,argmax是某些函数的域的点,在这些点处函数值被最大化。表示假设的欠指定的聚类大小的检测可以使用将为每个聚类的总百分比设置阈值的公式来求解,使得如果任何一个组或聚类比其他组合的聚类多n%的聚合数据,则服务器60检测到欠指定的指示。此确定的公式可以表示为:δ=x-η;其中,X是假设分割(即,聚类中的元素的期望假设平均数),其中,η是实际分割(即,聚类中的元素的实际数),并且其中,0≤δ≥a阈值指示欠指定的程度。在各方面,服务器60利用预定规则来确定是否高度欠指定(如由规则和阈值所定义的)需要根据步骤302来采取动作。

分解未指定的实体的能力在知识图中是潜在的。如本文所用的术语分解是指将对象或实体分解为对象或实体的组成元素,或进一步指定对象或实体。有利地,本发明的实施例使得服务器60的聚类模块72能够确定欠指定的可能实例,而不需要分析者具有关于知识图的域的任何特定知识或训练。例如,包括与医疗领域相关的对象的聚类的知识图可由聚类模块72在用户不具有该特定医疗领域中的知识的情况下分析欠指定的可能实例。即,用户不需要应用知识图的任何手动或精神分析来确定对象的聚类是否应当被进一步分解。当分析者在知识库的领域中不具有特定知识或技能时,这是特别有益的。知识图经常被用来生成子图以提供关于经聚类的对象的附加信息。因而,本发明的实施例使得能够从将不被创建而是在步骤301确定欠指定的聚类创建子图。

在步骤302,响应于步骤301的确定,服务器60确定知识库的潜在分层结构内的高频父-子关系(当存在分层结构时)。在各方面,服务器60的NLP模块74执行NLP模式匹配分析(例如,是模式提取)以基于预定规则和/或阈值来确定知识库内的高频父-子关系。例如,NLP模块74可以识别指示知识库中的数据的类别之间的父-子关系的关键字。

在步骤303,服务器60基于在步骤302确定的高频父/子关系来创建知识图的子类。在实施例中,服务器60的NLP模块74实现步骤304。在各方面,服务器60利用术语频率-逆文档频率(TD-IDF)匹配来基于在步骤302处确定的父/子关系来创建多个子类。一般来说,TD-IDF匹配发现不是罕见或频繁的,而是在中间的某个地方的单词或术语。由此,在各方面,基于在步骤302确定的可应用的高频父/子关系,在步骤301识别为未指定的聚类被分解成子类。

在步骤304处,响应于在步骤302处的确定并且当知识库内不存在分层结构时,服务器60使用NLP技术来识别知识库内的对等节点(同级)以识别具有类似关系(例如,计算节点相似性满足预定阈值)的对象。在实现中,服务器60的NLP模块74实现步骤304。在各方面,模式匹配复杂度可经由NLP技术来求解,NLP技术寻找具有相似关系(例如,基于预定规则)的对象并使用此来计算节点相似性。

在步骤305,服务器60基于在步骤304识别的对等节点来创建知识图的子类。在实现中,NLP模块74执行步骤305。在各方面,在步骤301被识别为欠指定的聚类基于步骤304的所标识的对等节点被分解成子类。在各方面,步骤305的输出是解决欠指定的建议。

在步骤306,服务器60基于在步骤303或305生成的子类来重新初始化或更新知识图,以生成细化的知识图。细化的知识图包括比原始知识图中存在的聚类更多的聚类,从而提供更多指定的知识图。在各方面,服务器60利用泰森多边形法单元聚类初始化公式σ∝(ω+1),其中,利用等效于:聚类初始化公式:σ∝(ω+1)的聚类质心重新初始化在步骤301被确定为未指定的聚类。

在步骤307,服务器60基于具有小于阈值量的数据点的知识图的对象聚类中的一个或多个来确定知识库的过指定。应当理解,可以对原始知识图或对在步骤306生成的经细化的知识图执行步骤307。在多个实现方式中,该服务器的聚类模块72实施步骤307。在实施中,服务器60识别包括知识库的过指定部分的知识图的聚类以及那些聚类的对象。

在步骤308,服务器60重新初始化知识图以将在步骤307识别的过指定的聚类的对象滚动到另一聚类以产生更新的知识图。换言之,对象被合并为单个聚类,该单个聚类曾经分组在多个聚类中以便解除指定对象并产生更新的知识图。步骤308可由服务器60自动实施或通过人工监督来实施。

在步骤309,服务器60基于步骤308的更新的知识图或步骤306的细化的知识图来生成输出。各种输出可以由服务器60生成,包括客户端报告,该客户端报告包括从本发明的知识图中提取的信息,或者基于从本发明的知识图中提取的信息实现计算机功能的指令。在各方面,服务器基于来自细化的知识图和/或经更新的知识图的知识来生成报告并经由网络50将该报告发送给客户端计算设备64。应理解,在步骤309的执行中,各种报告实现方式可以由分析师使用,或者由服务器60自动使用,并且本发明不旨在受特定输出实现方式的限制。

图4A示出了根据本发明的各方面的指示知识库的欠指定的域的注释知识图400A。更具体地,图4A描绘了示出基于模型以聚类(聚类1-3)组织的对象或对象节点的知识图400A。出于本公开的目的,无需描述在知识图400A的生成中使用的特定模型,并且该特定模型可以是用于生成由数据分析者确定的知识图400A的任何适当的模型。图4表示真实世界示例,其中文本挖掘已阐明给定实体存在(知识图表示经聚类的实体的组),但所提取的对象是欠指定的并且具有潜在分解能力。如图4所示,对象聚类1的第一聚类与对象聚类2的第二聚类和对象聚类3的第三聚类的比较表明,聚类3相对于相同域中的其他聚类(聚类1和2)具有更高的密度和不成比例的聚类大小。在这个实例中,聚类3贡献了跨三种总实体类型(由聚类1、2和3表示)的81.5%的数据。

图4B示出了根据本发明各方面的图4A的域的细化的知识图400B,其指示知识库的充分指定。聚类3A和3B表示从图4A的欠指定聚类3正确分解的指定子实体。聚类3C表示属于图4A的原始聚类3并且不能从图4A的原始聚类3进一步适当地分解的实体。

在一些情况下,知识图将基于模型生成具有附加空聚类,这可指示被用来生成知识图的模型被充分细化并且没有缺失的实体。然而,在大多数重要数据集上,将不可能完全细化所有实体(对象)。

在一些情况下,知识图将基于模型来生成,其中实体将被过指定。虽然这样的图的聚类共有的实体级别中的每一个可以是域内的共同指定,但是分析者的目标是维持合理的指定级别。没有目的分解超出知识图上的推理边界的实体。如本文中所使用的术语推理边界指针对将采取多远推理的定义的规则。知识图中的聚类可被用作约束推理的边界。本发明的实施例使得能够基于在知识图上执行的推断和推理的类型来调整过指定的级别。在一个示例中,知识图的小聚类表示分解到对知识图的推理能力而言非必要的级别。在此上下文中,非必要意味着实体将不可能填充有实例数据并且不具有与图中的其他节点的显著数量的关系(低内聚性)。

图5A示出指示知识库的过指定的经注释的知识图500A。图5A表示当在以上讨论的泰森多边形法单元聚类初始化公式:σ∝(ω+1)中使用聚类分析时,在知识图中过指定看起来像什么的示例。在图5A的示例中,聚类4的节点表示源数据(知识库)中的通用(未指定)实体。聚类3的节点代表类似于聚类4的节点的实体,但是具有单独的分解类型。聚类2的节点代表另一个类似的实体类型。聚类5的节点代表过指定的实体类型,其也具有相似的类型。根据图3的步骤307的过指定的检测不仅仅基于实体类型的任何数据点的缺失。例如,如果聚类是空的,这将表示不存在聚类的任何数据实例。根据本发明的实施例,建立阈值来表示过指定。阈值可以是预定的一般阈值或特定于域类型的预定阈值。在任何聚类具有n%的数据点(其中,n针对算法被参数化)的情况下,算法将利用泰森多边形法单元聚类初始化公式来恢复。

图5B描绘了聚类初始化之后图5A的注释的知识图的细化版本。在图5B的示例中,图5A的聚类4和5的实体已经被纳入图5B的通用实体聚类5中。空聚类4是在单元初始化中建立的n+1聚类,其证明在源数据(知识库)内没有缺失的实体类型。作为最后的步骤,从知识图中移除过指定的实体,并且将元数据的任何现有实例重新分配给订阅实体。在使用正式的万维网联盟(W3C)网络本体语言(OWL)图的情况下,图的owl:equivalentTo属性可用于表示出于推断的目的两个实体是等同的。W3COWL是被设计成表示关于事物、事物组以及事物之间的关系的丰富且复杂的知识的语义web语言。

在实施例中,服务提供商可以提供执行本文所描述的过程。在这种情况下,服务提供者可以为一个或多个客户创建、维护、部署、支持等执行本发明的处理步骤的计算机基础设施。这些客户可以是例如使用技术的任何业务。作为回报,服务提供商可以根据订阅和/或费用协议从消费者接收支付,和/或服务提供商可以从广告内容向一个或多个第三方的销售接收支付。

在又一实施例中,本发明提供了一种用于知识图的过指定或欠指定的自动解析的计算机实现的方法。在这种情况下,可提供诸如计算机系统12(图1)的计算机基础设施,并且可获得(例如,创建、购买、使用、修改等)用于执行本发明的过程的一个或多个系统并将其部署到计算机基础设施。就此而言,系统的部署可包括以下中的一个或多个:(1)将程序代码从计算机可读介质安装在诸如计算机系统12(如图1所示)的计算设备上;(2)将一个或多个计算设备添加到计算机基础设施;以及(3)结合和/或修改计算机基础设施的一个或多个现有系统以使得计算机基础设施能够执行本发明的过程。

在实施例中,本发明的计算机实现的方法包括使用机器智能检测知识库内的过度泛化和欠指定。在各方面,该方法进一步包括:响应于接收到知识图的聚类,通过从假设分割中减去聚类中的实际分割来确定值;以及响应于所述值大于或等于零且大于或等于阈值数,确定欠指定。在实现中,该方法还包括响应于确定欠指定,使用自然语言模式识别知识库中潜在的父/子关系以进行IS-A模式提取,以及为所识别的父-子关系创建多个子类。在各方面,该方法还包括响应于不能够识别知识库中的潜在分层结构,将该知识库分解成知识库的对等节点;以及使用自然语言技术来执行模式匹配以识别与计算机节点相似性具有类似关系的对象。在各方面,该方法包括在泰森多边形法单元聚类初始化公式中使用聚类分析。

已经出于说明的目的呈现了本发明的不同实施例的描述,但并不旨在是穷尽性的或局限于所披露的实施例。在不背离所描述的实施例的范围和精神的情况下,许多修改和变化对本领域的普通技术人员而言将是显而易见的。选择在此使用的术语以最佳地解释实施例的原理、实际应用或在市场上找到的技术上的技术改进,或使得本领域普通技术人员能够理解在此披露的实施例。

21页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:高效研磨解决方案

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!