关系确定方法、装置、系统和电子设备

文档序号:1252967 发布日期:2020-08-21 浏览:4次 >En<

阅读说明:本技术 关系确定方法、装置、系统和电子设备 (Relationship determination method, device and system and electronic equipment ) 是由 李瑾瑜 孙月梅 张志磊 张天颖 于 2020-05-15 设计创作,主要内容包括:本公开提供了一种关系确定方法、装置、系统和电子设备。该方法包括:确定第一关系图,第一关系图用于反映多个对象之间的第一关联关系;基于第一关系图确定多个对象之间的第二关联关系,第二关联关系表征多个对象之间潜在关联关系;以及基于第二关联关系补充第一关系图,以确定第二关系图。(The disclosure provides a relationship determination method, a relationship determination device, a relationship determination system and electronic equipment. The method comprises the following steps: determining a first relation graph, wherein the first relation graph is used for reflecting a first incidence relation among a plurality of objects; determining a second incidence relation among the plurality of objects based on the first relation graph, wherein the second incidence relation represents a potential incidence relation among the plurality of objects; and supplementing the first relationship graph based on the second incidence relationship to determine a second relationship graph.)

关系确定方法、装置、系统和电子设备

技术领域

本公开涉及人工智能技术领域,更具体地,涉及一种关系确定方法、装置、系统和电子设备。

背景技术

随着信息技术的不断发展,挖掘不同事物之间的关联关系,以提升业务处理效果等成为研究热点。例如,客户风险有一定的传播性,即当单个客户发生风险事件时,其风险将会逐步传播至与其存在关联关系的其他客户。客户与客户间的关联关系类型多种多样(如,资金、贸易、投资、担保、亲属、经营、社交等关系类型),挖掘客户之间的关联关系对风险防范有着重要意义。

在实现本公开构思的过程中,发明人发现相关技术至少存在如下问题:由于信息采集能力有限,通过采集公开的客户信息的方式,确定的客户与客户间的关联关系并不全面,导致无法满足风险防范需求。

发明内容

有鉴于此,本公开提供了一种可以有效挖掘对象间的关联关系的关系确定方法、装置、系统和电子设备。

本公开的一个方面提供了一种关系确定方法,该方法包括:首先,确定第一关系图,第一关系图用于反映多个对象之间的第一关联关系。然后,基于第一关系图确定多个对象之间的第二关联关系。接着,基于第二关联关系补充第一关系图,以确定第二关系图。

本公开实施例提供的关系确定方法,先确定用于反映多个对象之间的第一关联关系的第一关系图,该第一关联关系可以是基于采集的多个对象的公开信息确定的,然后,基于该第一关系图确定多个对象之间的潜在关联关系,这样就可以基于第一关联关系对第一关系图进行补充,得到第二关系图,使得该第二关系图能更加全面的表征对象之间的关联关系,有助于提升风险防控能力。

本公开的一个方面提供了一种关系确定装置,包括:第一确定模块、第二确定模块和第三确定模块。其中,第一确定模块用于确定第一关系图,第一关系图用于反映多个对象之间的第一关联关系。第二确定模块用于基于第一关系图确定多个对象之间的第二关联关系,第二关联关系表征多个对象之间潜在关联关系。第三确定模块用于基于第二关联关系补充第一关系图,以确定第二关系图。

本公开的一个方面提供了一种关系确定系统,包括:潜在关联关系探查模块和关联关系结构重构模块。其中,潜在关联关系探查模块用于基于第一关系图确定多个对象之间的潜在关联关系,第一关系图用于反映多个对象之间的第一关联关系。关联关系结构重构模块用于基于多个对象之间的潜在关联关系重构第一关系图。

本公开的另一方面提供了一种电子设备,包括一个或多个处理器以及存储装置,其中,存储装置用于存储可执行指令,可执行指令在被处理器执行时,实现如上所述的方法。

本公开的另一方面提供了一种计算机可读存储介质,存储有计算机可执行指令,指令在被执行时用于实现如上所述的方法。

本公开的另一方面提供了一种计算机程序,计算机程序包括计算机可执行指令,指令在被执行时用于实现如上所述的方法。

附图说明

通过以下参照附图对本公开实施例的描述,本公开的上述以及其他目的、特征和优点将更为清楚,在附图中:

图1示意性示出了根据本公开实施例的关系确定方法、装置、系统和电子设备的应用场景;

图2示意性示出了根据本公开实施例的可以应用关系确定方法、装置、系统和电子设备的示例性系统架构;

图3示意性示出了根据本公开实施例的关系确定方法的流程图;

图4示意性示出了根据本公开实施例的处理初始关联关系特征的取值的示意图;

图5示意性示出了根据本公开实施例的关联关系确定模型的结构示意图;

图6示意性示出了根据本公开实施例的第一关系图的示意图;

图7示意性示出了利用关联关系确定模型处理图6所示的第一关系图的过程示意图;

图8示意性示出了根据本公开实施例的待检测节点、节点对和待检测节点的关联节点的示意图;

图9示意性示出了根据本公开实施例的第一关联关系和第二关联关系的示意图;

图10示意性示出了根据本公开实施例的关系确定装置的结构示意图;

图11示意性示出了根据本公开实施例的关系确定系统的结构示意图;以及

图12示意性示出了根据本公开实施例的电子设备的方框图。

具体实施方式

以下,将参照附图来描述本公开的实施例。但是应该理解,这些描述只是示例性的,而并非要限制本公开的范围。一个或多个实施例在没有这些具体细节的情况下也可以被实施。在以下说明中,省略了对公知结构和技术的描述,以避免不必要地混淆本公开的概念。

在此使用的术语仅仅是为了描述具体实施例,而并非意在限制本公开。在此使用的术语“包括”、“包含”等表明了所述特征、步骤、操作和/或部件的存在,但是并不排除存在或添加一个或多个其他特征、步骤、操作或部件。

在此使用的所有术语(包括技术和科学术语)具有本领域技术人员通常所理解的含义,这里使用的术语应解释为具有与本说明书的上下文相一致的含义,而不应以理想化或过于刻板的方式来解释。

在使用类似于“A、B和C等中至少一个”这样的表述的情况下,一般来说应该按照本领域技术人员通常理解该表述的含义来予以解释(例如,“具有A、B和C中至少一个的系统”应包括但不限于单独具有A、单独具有B、单独具有C、具有A和B、具有A和C、具有B和C、和/或具有A、B、C的系统等)。术语“第一”、“第二”等仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个特征。

为了便于理解本公开的技术方案,首先对关系图和适用于关联关系确定模型的图神经网络进行说明。关系图是一种用实体(可以采用节点表示)和关系(可以采用节点之间的连接线表示,简称边)描述的数据结构。将客户作为点、客户与客户间的关联关系作为边,利用点和边构成关系图。这就可以利用神经网络(例如可以对图进行分析的深度学习模型)对客户及其关系开展分析。

客户潜在关联关系是客户与客户之间隐没在投资、经营决策、资金调度、生产经营等存在控制或影响的关联关系。这些关系实际存在,但却不被需求该关联关系信息的用户(如银行、公司、协会等企事业单位、行政机构以及个人等)所掌握。本公开的实施例通过对被公开的客户信息进行采集,基于被公开的客户信息确定关系图,然后对关系图进行分析,发现客户与客户间潜在的关联关系,进而展示更加全面的客户间的关系,对风险防范有着重要意义。

本公开的实施例提供了一种关系确定方法、装置、系统和电子设备。该关系确定方法包括潜在关联关系确定过程和关系重构构成。在关系确定过程中,首先,确定第一关系图,第一关系图用于反映多个对象之间的第一关联关系,然后,基于第一关系图确定多个对象之间的第二关联关系,第二关联关系表征多个对象之间潜在关联关系。在完成潜在关联关系确定过程之后,基于第二关联关系补充第一关系图,以确定第二关系图。本公开的实施例可以运用图神经网络,辅助用户探查出客户潜在关联关系,从而便于用户更全面地掌握客户关系结构,提高对客户间关系的洞察能力,为风险管理、风险防控等决策提供依据。

图1示意性示出了根据本公开实施例的关系确定方法、装置、系统和电子设备的应用场景。

如图1所示,在一个场景中,用户在确定和客户1进行合作之前,可能希望更加全面地了解与客户1进行合作的风险(如风险点、风险是否可控等)。根据了解到的已有信息,可以知道该客户1与客户3和客户4之间存在关联关系(如亲属关系、生意伙伴关系等)。根据该信息使得用户可以确定,如果客户3和/或客户4存在较大风险(如存在征信问题、债务异常等),则与客户1进行合作后,可能受到客户3和/或客户4的风险的波及,导致存在一定的风险,使得用户可以基于这些分析确定是否与客户1展开合作。此外,用户还可以查到客户3和客户4分别与客户2之间存在关联关系,但是并不知道客户1和客户2之间存在关联关系,导致用户在考虑与客户1进行合作的过程中,没有考虑到客户2的风险是否可能波及用户与客户1之间的合作时,使得顺利完成该合作的风险可控度无法满足用户需求。本公开实施例提供的关系确定方法、装置、系统和电子设备可以基于关系图挖掘出客户1与客户2之间的关联关系,进而便于用户基于更加全面的客户关系确定其与客户1的合作风险,以便实现风险管控。上述场景仅为示例性举例,不能理解为对本公开的限定,如本公开实施例的关系确定方法、装置、系统和电子设备还可以应用到其它需要探查对象间潜在关联关系的场景中。

图2示意性示出了根据本公开实施例的可以应用关系确定方法、装置、系统和电子设备的示例性系统架构。需要注意的是,图2所示仅为可以应用本公开实施例的系统架构的示例,以帮助本领域技术人员理解本公开的技术内容,但并不意味着本公开实施例不可以用于其他设备、系统、环境或场景。

如图2所示,根据该实施例的系统架构200可以包括终端设备201、202、203,网络204和服务器205、206。网络204可以包括多个网关、集线器、网线等,用以在终端设备201、202、203和服务器205、206之间提供通信链路的介质。网络204可以包括各种连接类型,例如有线、无线通信链路或者光纤电缆等等。

用户可以使用终端设备201、202、203通过网络204与其他终端设备和服务器205、206进行交互,以接收或发送信息等,如发送关联关系请求、发送信息请求、接收处理结果等。终端设备201、202、203可以安装有各种通讯客户端应用,例如网点终端上安装有风险管控类应用、银行类应用、运维类应用、网页浏览器应用、搜索类应用、办公类应用、即时通信工具、邮箱客户端、社交平台软件等应用(仅为示例)。

终端设备201、202、203包括但不限于自助终端、智能手机、虚拟现实设备、增强现实设备、平板电脑、膝上型便携计算机等等。

服务器205可以接收请求,例如潜在关联关系请求(如针对某个具体客户的、针对具有某种共性的客户群、针对某个时间段的客户群等),服务器205可以从服务器206(如信息平台、交易平台、云数据库等)或者自身获取所需的信息(如获取对象信息以生成第一关系图,或者直接读取已有的关系图等),进而基于这些获取的信息确定对象的潜在关联关系。例如,服务器205、206可以为后台管理服务器、服务器集群等。后台管理服务器可以对接收到的服务请求、信息请求、数据库更新指令等进行分析处理,并将处理结果(如请求的信息、处理的结果等)反馈给终端设备。

需要说明的是,本公开实施例所提供的关系确定方法一般可以由服务器205执行。本公开实施例所提供的关系确定方法也可以由不同于服务器205且能够与终端设备201、202、203和/或服务器205、206通信的服务器或服务器集群执行。应该理解,终端设备、网络和服务器的数目仅仅是示意性的。根据实现需要,可以具有任意数目的终端设备、网络和服务器。

图3示意性示出了根据本公开实施例的关系确定方法的流程图。

如图3所示,该关系确定方法包括操作S301~操作S305。

在操作S301,确定第一关系图,第一关系图用于反映多个对象之间的第一关联关系。

在本实施例中,对象包括但不限于:实体(如组织或个人等客户)、事件(如交互、交易、操作、项目等)。第一关系图可以是基于采集的对象信息生成的,还可以是直接读取的(如预先确定的关系图或初始关系图等),还可以是对已有关系图进行处理后得到的子关系图等。关系图可以以直观的节点图的形式进行存储,还可以是以特定的数据结构进行存储,在此不做限定。

在一个实施例中,确定第一关系图可以包括如下操作。首先,基于采集的多个对象的信息,确定多个对象之间的第一关联关系。然后,基于第一关联关系构建第一关系图。

例如,在初次构建关系图时,可以将客户和采集到的客户的不同关联关系,以图谱的方式存储整张全图。数学表达为:G=(V,E)。G表示全图,用来表示全部客户及其关联关系。V表示节点的集合,vi∈V表示每个节点。此处用来表示客户。E表示边的集合,ei,j=(vi,vj)∈E,用来表示关联关系的边。其中,i,j可以为整数。

此外,如果客户的数量很多,导致关系图中节点的数量很多,可能造成基于关系图分析潜在关联关系的计算量过大,计算用时过长等问题。为了解决该问题,可以将第一关系图拆分为多个第一子关系图分别进行分析,在基于各子关系图确定潜在关联关系后,再进行汇总。这样可以有效降低计算复杂度、分析用时和资源消耗度等。

具体地,上述方法还可以包括如下操作:在确定第一关系图之后,从第一关系图中提取多个第一子关系图。

例如,可以对全图(第一关系图)进行切分,抽取出全图中存在关系连通的子图(第一子关系图)。此外,还可以进一步规定每个子图中客户的数量上限。超过客户数量上限的子图,进一步拆分。例如,拆分的方法可采用louvain算法(又称为Fast-Unfolding算法)等社区发现算法,在此不做限定。

在操作S303,基于第一关系图确定多个对象之间的第二关联关系,第二关联关系表征多个对象之间潜在关联关系。

如果将第一关系图拆分为多个第一子关系,相应地,基于第一关系图确定多个对象之间的第二关联关系包括:对于每个第一子关系图,基于第一子关系图确定多个对象之间的第二子关联关系。

在一个实施例中,对于一个关系图(如第一关系图或第一子关系图),基于第一关系图确定多个对象之间的第二关联关系可以包括如下操作。

首先,提取第一关系图中多个对象各自的关联关系特征。

其中,关联关系特征可以包括以下至少一种:节点属性特征、关系交互属性特征、边属性特征、节点对特征等。

例如,节点属性特征包括以下至少一种:对象属性特征和点图特征。其中,对象属性特征可以是与第一关系图或第一子关系图中节点对应的对象的基本信息。以对象是客户为例进行说明,该对象属性特征包括但不限于以下至少一种:客户基本信息、财务、工商、资金、征信等。点图特征可以是第一关系图或第一子关系图中基于节点的图指标信息,包括但不限于以下至少一种:网页排名(page-rank,简称PR)、出入度、介中心性、密中心性等。

关系交互属性特征包括以下至少一种:对象交互行为特征和边图特征。以对象是客户为例进行说明,该对象交互行为特征为客户(表征为关系图中节点)间交互行为的特征,包括但不限于以下至少一种:资金往来、保证、抵押、投资、共同工作地址、共同持卡等信息。边图特征可以是第一关系图或第一子关系图中基于边的图指标信息,包括但不限于以下至少一种:共同邻居数、杰卡德(Jaccard)相似性指标、Adar指数等。

节点对特征包括节点对的边特征,该节点对的边特征用于表征节点对的边信息,包括但不限于以下至少一种:关联关系类型、关系的方向、关系的强弱重要性等。

然后,基于多个对象各自的关联关系特征之间的相似度确定多个对象各自的关联对象,关联对象在第一关系图中未与对应的对象直接相连。相似度可以基于余弦(cosine)距离、闵可夫斯基距离(Minkowski distance)等确定。

接着,基于多个对象以及各自的关联对象确定第二关联关系。参考图1所示,在第一关系图中客户1和客户2之间不存在关联关系,但是,客户1和客户2的关联关系特征之间的相似度较高,如超过设定相似度阈值,则可以在第一关联关系中添加客户1和客户2之间的关联关系。

在操作S305,基于第二关联关系补充第一关系图,以确定第二关系图。

如果将第一关系图拆分为多个第一子关系,相应地,基于第二关联关系补充第一关系图,以确定第二关系图包括:基于第二子关联关系补充第一子关系图,以得到第二子关系图,以便基于第二子关系图确定第二关系图。

本公开实施例提供的关系确定方法,基于关系图等探查出对象之间的潜在关联关系,从而使得用户可以更全面地掌握如客户关系结构,提高对客户间关系的洞察能力,有助于提升用户的风险管理、风险防控等能力。

以下对提取关联关系特征进行示例性说明。

在一个实施例中,提取第一关系图中多个对象各自的关联关系特征可以包括如下操作。

首先,确定多个对象的初始关联关系特征的取值。例如,在已有客户信息中进行匹配,并且/或者,计算关系图的图指标,以确定对象的初始关联关系特征的取值。对象的初始关联关系特征的取值可以为各初始关联关系特征的取值的拼接值。

关于关系图的图指标的确定过程,可以如下所示。首先,从第一关系图或第一子关系图中抽取其节点对{(vi,vj,ei,j)|vi,vj∈V,ei,j∈E}。节点对的要求是节点vi和节点vj是直接两两相连的,i,j为整数。然后,可以基于节点对计算关系图的图指标,包括基于边的图指标(边图特征)、基于节点的图指标(点图特征)。关于点图特征,客户在第一关系图或第一子关系图中对应的节点的图特征可以包括page-rank、出入度、介中心性、密中心性,节点的图特征可以表示为如[0.01,0.83,0.50,0.66](仅为示例)。关于边图特征,如客户在第一关系图或第一子关系图中对应的节点的图特征包括共同邻居数、Jaccard相似性指标、Adar指数,边图特征可以表示为[3,0.79](仅为示例)。

需要说明的是,当部分节点的相邻节点数量巨大,需要做一定剪枝。相邻节点的定义为:N(v)={u∈V|(v,u)∈E},N(v)表示节点v的相邻节点。具体地,对于每个节点:选定一类点指标,如page-rank指标,对其全部相邻节点,按照该指标排序。设定数量阈值T,取排在前T位的节点作为相邻节点。

为了便于理解,以下分别对对象属性特征、对象交互行为特征、节点对的边特征及各自的取值进行举例说明。

关于对象属性特征,客户的初始关联关系特征的取值包括:客户基本信息:如法人客户所属行业(如金融、互联网、汽车等)、贷款余额、个人客户教育程度(如初中、高中、本科、研究生等)等。又例如,客户的初始关联关系特征的取值包括:财务信息,如法人客户的财报指标、个人客户的年收入(如小于8万、8万~15万、15~30万、大于30万等)。又例如,客户的初始关联关系特征的取值包括:工商特征:工商信息变更次数。又例如,客户的初始关联关系特征的取值包括:资金信息:如资金月度流入流出金额。又例如,客户的初始关联关系特征的取值包括:征信信息:如征信记录的违约信息等。以个人客户为例,客户的初始关联关系特征可以包括:贷款余额、个人客户教育程度、年收入、违约信息,相应地,客户的初始关联关系特征的取值可以表示为[200万,本科,大于30万,无违约信息]。

关于对象交互行为特征。如对象交互行为特征包括资金往来、保证/抵押/投资、共同工作地址、共同持卡。相应地,对象交互行为特征的取值可以表示为[对象A转给对象B资金量,对象A和对象B之间的保证/抵押/投资和被保证/被抵押/被投资关系,对象A和对象B共同工作的地址,对象A和对象B的主卡卡号相同]。

关于节点对的边特征,如节点对的边特征包括关联关系类型、关系的方向、关系的强弱重要性。相应地,节点对的边特征的取值可以以如下方式表示。如节点对(A,B),[投资关系,节点A投资节点B,强关系]。

然后,处理初始关联关系特征的取值,得到初始关联关系特征向量。在本实施例中,由于上述初始关联关系特征的取值可以是各种形式的信息(如数字、字母、汉字等),不便于计算机处理,可以对初始关联关系特征的取值进行向量化。例如,可以采用文本特征提取方法,如One-Hot对初始关联关系特征的取值进行处理。

图4示意性示出了根据本公开实施例的处理初始关联关系特征的取值的示意图。

如图4所示,假设只有两个初始关联关系特征:教育程度和贷款余额。其中,教育程度是离散型特征,包括初中、高中、本科、研究生。客户C的教育程度的取值是高中,客户C对于所在节点对中客户A的教育程度One-Hot就是[0,1,0,0]。

又例如,贷款余额是连续型特征,包括贷款余额0-100万,分箱0-20,20-40,40-60,60-80,80-100。客户D的贷款余额的取值是法人贷款余额45万,客户D对于节点对中客户B的贷款余额的One-Hot就是[0,0,0,1,0,0]。

此外,可以通过补零等方法使得各初始关联关系特征的维度保持一致。经过补零处理后,对于客户C,针对教育程度的初始关联关系特征包括[0,1,0,0,0,0,0,0]。对于客户D,针对贷款余额的初始关联关系特征是[0,0,0,0,0,1,0,0]。

接着,利用关联关系确定模型处理初始关联关系特征向量,得到关联关系特征向量。这样就可以实现利用关联关系确定模型处理初始关联关系特征向量,得到关联关系特征向量。

需要说明的是,上述对对象的初始关联关系特征的取值进行向量化的过程,同样可以采用向量化模型来实现,该向量化模型可以集成在关联关系确定模型中,在此不做限定。此外,基于关联关系特征的相似度确定关联对象的过程同样可以采用模型来实现,并且可以集成在关联关系确定模型中。

以下对关联关系确定模型进行示例性说明。

在一个实施例中,关联关系确定模型包括第一卷积层和第二卷积层,第一卷积层的输出作为第二卷积层的至少部分输入。

在一个实施例中,关联关系确定模型的目标损失函数表征:节点对中各节点的关联关系特征向量之间的相似度,大于非节点对的各节点间的关联关系特征向量之间的相似度。具体地,可以参考反向传播算法来训练关联关系确定模型以确定模型参数。

图5示意性示出了根据本公开实施例的关联关系确定模型的结构示意图。

如图5所示,关联关系确定模型包括多个节点层,每个节点层包括多个节点。其中,节点层包括卷积层。

图5中第一卷积层的输入包括第一关系图中与目标节点相连的相邻节点各自的相邻节点的初始关联关系特征向量,第一卷积层的输出包括第一关系图中与目标节点相连的各相邻节点各自的中间关联关系特征向量。图5的初始关联关系特征向量中,与第一卷积层的一个节点(圆圈)对应的每一排方框,代表一个第一关系图中与目标节点相连的相邻节点各自的相邻节点的初始关联关系特征向量。其中,中间关联关系特征向量的维度可以与初始关联关系特征向量的维度相同。

又例如,第二卷积层的输入包括第一关系图中与目标节点相连的各相邻节点各自的中间关联关系特征向量,以及目标节点的初始关联关系特征向量,输出包括目标节点的关联关系特征向量,其中,目标节点的关联关系特征向量包括第一关系图中与目标节点相连的多个相邻节点的聚合关联关系特征向量,以及目标节点的初始关联关系特征向量。

在一个实施例中,关联关系确定模型通过如下方式进行训练:通过调整关联关系确定模型的模型参数使得关联关系确定模型的输出收敛。

具体地,关联关系确定模型的输出收敛包括以下至少一种。一方面,利用关联关系确定模型处理节点对的两个节点的初始关联关系特征向量后,得到的两个节点的关联关系特征向量之间的相似度大于或等于第一相似度阈值。另一方面,利用关联关系确定模型处理非节点对的两个节点的初始关联关系特征向量后,得到的非节点对的两个节点的关联关系特征向量之间的相似度小于或等于第二相似度阈值。

例如,可以选用有监督的方式训练神经网络。训练数据可以包括正负样本和负样本。正样本可以为从关系图中抽取出的节点对。负样本可以采用两种方式获得。例如,第一种方式是对保留正样本的中的一个节点,另一个节点随机抽取不在节点所在第一子关系图内的节点(如第一关系图中除第一子关系图之外的节点)。第二种是保留正样本的其中一个节点,选择关系图内另一个与该节点未直接相连的节点。

图6示意性示出了根据本公开实施例的第一关系图的示意图。

如图6所示,第一关系图包括:目标节点A、节点B~G,其中,目标节点A分别与节点D、节点B和节点E相连,目标节点A和节点B还分别与节点E相连,节点C分别与节点B、节点F和节点G相连,节点F和节点G还分别与节点E相连。针对目标节点A的关联关系特征向量的处理过程可以参考图7所示。

图7示意性示出了利用关联关系确定模型处理图6所示的第一关系图的过程示意图。

如图7所示,以图神经网络构建关联关系确定模型为例进行说明,第一卷积层的输入包括第一关系图中与目标节点相连的相邻节点各自的相邻节点的初始关联关系特征向量,输出为各节点对特征向量(Embedding Vector)。目标损失函数是要求节点对的节点间Embedding Vector尽可能接近,非节点对的节点间Embedding Vector尽可能远。

可以采用多种不同的神经网络模型输出节点的Embedding Vector。这里采用一种Attention Model的思路。其他神经网络模型的算法也可适用。

神经网络具有两层卷积层。第一卷积层计算得到目标节点v的各相邻节点的隐藏层输出(即中间关联关系特征向量,如图6中目标节点A的隐藏层输出可以表示为)。将各相邻节点的隐藏层输出与目标节点隐藏层输出合并,作为第二卷积层的输入,计算得到目标节点v的Embedding Vector

第一卷积层的输入是目标节点A的每个相邻节点(如图6所示,包括节点B、节点D和节点E,可以表示为B,D,E∈N(A))的各自相邻节点的特征变量。输出是三个相邻节点(节点B、节点D和节点E)的中间关联关系特征向量的

第二卷积层的输入是第一卷积层的输出用一个聚合函数γ(·)聚合后,和连接在一起形成的新输入。其输出是目标节点A的Embedding Vector即所要求解的结果。聚合后的特征向量的维度和的维度一致,图7中三个特征向量的维度相同。例如,假设节点B的特征向量是[1,1,1],节点D的特征向量是[0,1,0],节点E的特征向量是[0,0,1]。以聚合时采用平均值法为例进行说明,聚合后的特征向量为:[(1+0+0)/3,(1+1+0)/3,(1+0+1)/3],得到结果为[1/3,2/3,2/3]。以上平均值法仅为示例,也可以取最大值等等。

对第一关系图或第一子关系图内每个节点,都采用上述步骤计算得到各自的Embedding Vector。这样便于基于各节点的Embedding Vector的相似度确定第二关联关系。

以下对第二卷积层的算法进行示例性说明。

第二卷积层的输入包括目标节点v的已知的Embedding表达zv。目标节点v相邻节点的Embedding表达{zu|u∈N(v)}。相邻节点的权重α(为模型参数,通过训练确定)。聚合函数γ(·)。聚合函数的形式可以是均值函数、最大值函数等等。第二卷积层的输出包括目标节点v的新的Embedding(即关联关系特征向量)。

具体地,首先,计算得到各相邻节点各自的通过聚合函数γ,聚合得到nv。聚合函数γ可以如式(1)所示。式(1)表征目标节点v的所有相邻节点相对于该目标节点v的特征向量。

第二步:将zv,nv连接在一起,作为新的输入(如[zv,nv],其维度之和是中间层的维度),计算得到目标节点v的最终的Embedding Vector(即关联关系特征向量)。其中,计算公式可以如式(2)和式(3)所示。

式(1)中f(·)和式(2)中的g(·)为神经网络的激活函数,可以使用如线性整流(Rectified Linear Unit,简称ReLU)函数。其中,Q,q,W,w,α是模型的参数,需要通过模型训练来确定。

设定神经网络中间层的输出维度为m,最终节点v的Embedding Vector维度为d。例如,m是中间层的维度,d是最终输出的维度。中间层通过一个神经网络,输出的维度变成d。V的关联关系特征向量的维度可以与初始关联关系特征向量的维度相同。

进行模型训练时,采用的损失目标函数可以如式(4)所示。

其中(p,q)表示正样本节点对,Pneg表示负样本集合,Δ是损失函数的边际超参数。Znegk表示没关联的节点对。negk是相对节点Z的无关联的节点。式(4)表征无关联的两个节点间的距离要小于有关联的两个节点间的距离。

在训练好关联关系确定模型之后,可以将第一关系图中的每个节点(客户)的初始关联关系特征向量输入关联关系确定模型,计算得出全量客户各自的关联关系特征向量(Embedding Vector)。

以下对基于多个对象各自的关联关系特征之间的相似度确定多个对象各自的关联对象的过程进行示例性说明。

在一个实施例中,上述方法还可以包括如下操作。

首先,基于待检测对象从第一关系图中确定待检测节点。

然后,确定待检测节点的关联关系特征向量。

接着,确定关联节点,以便于基于关联节点确定风险对象,其中,关联节点的关联关系特征向量与待检测节点的关联关系特征向量相比满足预设关联条件。

在一个实施例中,确定关联节点可以包括如下操作。

首先,确定待检测节点与待检测节点所属的节点对中另一节点的关联关系特征向量之间的相似度区间。

然后,将至少部分第二关系图中与待检测节点的关联关系特征向量之间相似度位于相似度区间中的节点,作为关联节点。

例如,以待检测节点为待探查客户为例进行说明。根据业务场景、风险管理要求等,选择待探查客户范围。根据前述操作中计算出的Embedding Vector,找到每个待探查客户I的Embedding Vector I。目标是找到与待探查客户Embedding Vector I最接近的Embedding Vector II,从而找到与Embedding Vector II对应的客户II,客户I和客户II属于可能存在潜在关联关系的客户。

具体地,计算方法主要是Embedding Vector之间的相似度。例如,可以基于闵可夫斯基距离(Minkowski distance)和夹角余弦(cosine)来确定Embedding Vector之间的相似度。当然,还可以使用其他多种相似度算法。

基本计算思路如下:给定样本集合X,X是m维实数向量空间Rm中点集合,其中xi,xj∈X,xi=(x1i,x2i,…,xmi)T,xj=(x1j,x2j,…,xmj)T,i,j是整数,T表示转置。

对于采用闵可夫斯基距离的方法,样本xi与样本xj之间的闵可夫斯基距离dij可以表示为距离值越大相似度越低,距离值越小相似度越高。

对于采用夹角余弦的方法,样本xi与样本xj之间的夹角余弦Sij可以表示为夹角余弦值越接近于1相似度越高,值越接近于0相似度越低。

对每个待探查客户,计算待探查客户与其他客户的Embedding Vector的相似度值,按相似度从高到低排序。相似度越高,越可能存在关联关系。

图8示意性示出了根据本公开实施例的待检测节点、节点对和待检测节点的关联节点的示意图。

如图8所示,对于每个待检测节点(如待探查客户)。

首先,根据真实存在关联关系节点对的相似度值,计算当前待检测节点所属的节点对的相似度值区间[L,H]。例如,基于相似度取值的范围来确定。即与其存在节点对关系的节点,两者之间的相似度值的上限和下限。然后,设定上限的上浮比例l,和下限的下浮比例h,例如,取均值+/-三倍标准差范围内得到新的区间[L·(1-l),H(1+h)]。图8中浮动区域是基于相似度值区间、上浮比例和下浮比例确定的。

从第一关系图中与待探查客户不存在节点对关系的客户,筛选出与待探查客户的相似度取值落在[L·(1-l),H(1+h)]内的客户。

这样就可以将与待探查客户的相似度取值落在[L·(1-l),H(1+h)]内的客户列入待探查客户的潜在关联客户(即关联对象)清单。

在另一实施例中,上述方法还可以包括:比较第一关系图和第二关系图,以确定风险清单。

以下以从第一关系图中抽取出的第一子关系图为例进行说明。

具体地,首先,对列入潜在关联客户清单内的关联客户,比较关联客户与待探查客户及待探查客户所在关系图的位置。

例如,比较在第一子关系图内,关联客户与待探查客户间是否存在间接关联关系。若有,则在第一子关系图内添加该潜在关联关系。若无,则在第一子关系图内增加关联客户并添加该潜在关联关系。添加完成关联客户和潜在关联关系后。重新抽取节点对,比较新增加的节点对。该新增加的节点对为新定位得到的潜在关联节点对。

然后,将潜在关联关系放入全图关联关系中,重构全图关联关系。

接着,进行第一子关系图重构和重抽取,以确定第二子关系图。考虑到添加了潜在关联关系,会增加客户的关联网络,故将每个第二子关系图中允许的节点的数量上限做上浮,增加每个第二子关系图抽取的最多客户数量。因此,第二子关系图包含的对象个数大于或等于与第二子关系图对应的第一子关系图的对象个数。

图9示意性示出了根据本公开实施例的第一关联关系和第二关联关系的示意图。

如图9所示,第一关联关系包括由客户1和客户3构成的节点对,由客户3和客户2构成的节点对,由客户2和客户4构成的节点对。与第一关联关系相比,第二关联关系还包括由客户1和客户2构成的节点对。该客户2是客户1的潜在关联关系客户。

需要说明的是,重构后的第二子关系图,一般有两种场景。场景一是第二子关系图相比于第一子关系图基本不变,增加新的关联客户。重新抽取节点对,生成新增节点对列入节点对清单。场景二是相比于与第一子关系图,生成全新的第二子关系图。将新增子图列入第二子关系图清单。对第二子关系图重抽取节点对,生成的节点对都列入节点对清单。

接着,还可以生成风险清单。风险清单包括上述潜在关联关系清单、第二子关系图清单和节点对清单中新增节点。上述清单内的客户关系可视为存在潜在风险事件,作用于后续风险核查和风险管控。

在其它实施例中,上述方法还可以包括如下操作:关系图可视化展示。通过可视化工具,将潜在关联关系标注在第二关系图或第二子关系图上。以可视化方式查看关联关系变动情况、关联关系影响范围等,可以参考图9所示。

本公开实施例提供的关系确定方法,运用图神经网络的向量化技术,应用相似性原理,探查对象间的潜在关系,发掘潜在的客户风险。各操作之间采用低耦合高内聚的设计思想。通过向量化的方法,将客户的属性特征、客户在关系网络中的重要程度、客户与客户间的交互关系、客户与客户间关系在网络中的影响程度、不同关联关系的特性抽象出其潜在的共同影响因子。这些抽象的因子包含了点边关系的信息,统一了不同数据间的比较基准,并能够将较高的特征向量的维度降至较低的维度,从而以一个较低维度的向量表达出高维特征变量蕴含的信息。进而实现对潜在关系的探查,基于潜在关系得到风险清单,为风险防范提供数据支持。

本公开的另一方面提供了一种关系确定装置。

图10示意性示出了根据本公开实施例的关系确定装置的结构示意图。

如图10所示,该关系确定装置1000包括:第一确定模块1010、第二确定模块1020和第三确定模块1030。

第一确定模块1010用于确定第一关系图,第一关系图用于反映多个对象之间的第一关联关系。

第二确定模块1020用于基于第一关系图确定多个对象之间的第二关联关系,第二关联关系表征多个对象之间潜在关联关系。

第三确定模块1030用于基于第二关联关系补充第一关系图,以确定第二关系图。

本公开的另一方面提供了一种关系确定系统。

图11示意性示出了根据本公开实施例的关系确定系统的结构示意图。

如图11所示,该关系确定系统1100包括:潜在关联关系探查模块1110和关联关系结构重构模块1120。

潜在关联关系探查模块1110用于基于第一关系图确定多个对象之间的潜在关联关系,第一关系图用于反映多个对象之间的第一关联关系。

关联关系结构重构模块1120用于基于多个对象之间的潜在关联关系重构第一关系图。

在另一个实施例中,该关系确定系统1100还可以包括模型工程实现模块。

具体地,模型工程实现模块设计和构造图神经网络模型,生成可用于潜在关系探查的数据。潜在关联关系探查模块1110通过算法搜寻客户潜在的关联关系方。关联关系结构重构模块1120将客户间潜在的关系补充至客户关联关系图谱中,生成风险清单。

模型工程实现模块,主要是构建模型,抽取建模样本、设计模型特征变量、训练模型。

潜在关联关系探查模块1110,主要根据模型训练得到的数据,通过算法策略找到客户可能的潜在关联关系方。

关联关系结构重构模块1120,主要将通过模型算法得到的潜在关联关系方补充至原始的客户关系图谱中,以及通过比较第一关系图和第二关系图,得到风险清单。

需要说明的是,装置部分和系统部分实施例中各模块等的实施方式、解决的技术问题、实现的功能、以及达到的技术效果分别与方法部分实施例中各对应的步骤的实施方式、解决的技术问题、实现的功能、以及达到的技术效果相同或类似,在此不再一一赘述。

根据本公开的实施例的模块中的任意多个、或其中任意多个的至少部分功能可以在一个模块中实现。根据本公开实施例的模块中的任意一个或多个可以被拆分成多个模块来实现。根据本公开实施例的模块中的任意一个或多个可以至少被部分地实现为硬件电路,例如现场可编程门阵列(FPGA)、可编程逻辑阵列(PLA)、片上系统、基板上的系统、封装上的系统、专用集成电路(ASIC),或可以通过对电路进行集成或封装的任何其他的合理方式的硬件或固件来实现,或以软件、硬件以及固件三种实现方式中任意一种或以其中任意几种的适当组合来实现。或者,根据本公开实施例的模块中的一个或多个可以至少被部分地实现为计算机程序模块,当该计算机程序模块被运行时,可以执行相应的功能。例如,第一确定模块1010、第二确定模块1020和第三确定模块1030中的任意多个可以合并或单独实现、以硬件或软件的形式实现等。

本公开的另一方面提供了一种电子设备。

图12示意性示出了根据本公开实施例的电子设备的方框图。图12示出的电子设备仅仅是一个示例,不应对本公开实施例的功能和使用范围带来任何限制。

如图12所示,根据本公开实施例的电子设备1200包括处理器1201,其可以根据存储在只读存储器(ROM)1202中的程序或者从存储部分1208加载到随机访问存储器(RAM)1203中的程序而执行各种适当的动作和处理。处理器1201例如可以包括通用微处理器(例如CPU)、指令集处理器和/或相关芯片组和/或专用微处理器(例如,专用集成电路(ASIC)),等等。处理器1201还可以包括用于缓存用途的板载存储器。处理器1201可以包括用于执行根据本公开实施例的方法流程的不同动作的单一处理单元或者是多个处理单元。

在RAM 1203中,存储有电子设备1200操作所需的各种程序和数据。处理器1201、ROM 1202以及RAM 1203通过总线1204彼此通讯连接。处理器1201通过执行ROM 1202和/或RAM 1203中的程序来执行根据本公开实施例的方法流程的各种操作。需要注意,程序也可以存储在除ROM 1202和RAM 1203以外的一个或多个存储器中。处理器1201也可以通过执行存储在一个或多个存储器中的程序来执行根据本公开实施例的方法流程的各种操作。

根据本公开的实施例,电子设备1200还可以包括输入/输出(I/O)接口1205,输入/输出(I/O)接口1205也连接至总线1204。电子设备1200还可以包括连接至I/O接口1205的以下部件中的一项或多项:包括键盘、鼠标等的输入部分1206;包括诸如阴极射线管(CRT)、液晶显示器(LCD)等以及扬声器等的输出部分1207;包括硬盘等的存储部分1208;以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分1209。通信部分1209经由诸如因特网的网络执行通信处理。驱动器1210也根据需要连接至I/O接口1205。可拆卸介质1211,诸如磁盘、光盘、磁光盘、半导体存储器等等,根据需要安装在驱动器1210上,以便于从其上读出的计算机程序根据需要被安装入存储部分1208。

根据本公开的实施例,根据本公开实施例的方法流程可以被实现为计算机软件程序。例如,本公开的实施例包括一种计算机程序产品,其包括承载在计算机可读存储介质上的计算机程序,该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中,该计算机程序可以通过通信部分1209从网络上被下载和安装,和/或从可拆卸介质1211被安装。在该计算机程序被处理器1201执行时,执行本公开实施例的系统中限定的上述功能。根据本公开的实施例,上文描述的系统、设备、装置、模块、单元等可以通过计算机程序模块来实现。

本公开还提供了一种计算机可读存储介质,该计算机可读存储介质可以是上述实施例中描述的设备/装置/系统中所包含的;也可以是单独存在,而未装配入该设备/装置/系统中。上述计算机可读存储介质承载有一个或者多个程序,当上述一个或者多个程序被执行时,实现根据本公开实施例的方法。

根据本公开的实施例,计算机可读存储介质可以是非易失性的计算机可读存储介质,例如可以包括但不限于:便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。例如,根据本公开的实施例,计算机可读存储介质可以包括上文描述的ROM 1202和/或RAM 1203和/或ROM 1202和RAM1203以外的一个或多个存储器。

本领域技术人员可以理解,本公开的各个实施例和/或权利要求中记载的特征可以进行多种组合和/或结合,即使这样的组合或结合没有明确记载于本公开中。这些实施例仅仅是为了说明的目的,而并非为了限制本公开的范围。尽管在以上分别描述了各实施例,但是这并不意味着各个实施例中的措施不能有利地结合使用。本公开的范围由所附权利要求及其等同物限定。不脱离本公开的范围,本领域技术人员可以做出多种替代和修改,这些替代和修改都应落在本公开的范围之内。

24页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种移动多智能体协同目标搜索方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!