一种基于知识图谱的中药复方靶标预测方法

文档序号:363814 发布日期:2021-12-07 浏览:7次 >En<

阅读说明:本技术 一种基于知识图谱的中药复方靶标预测方法 (Knowledge graph-based traditional Chinese medicine compound target prediction method ) 是由 何洁月 龚倬 张乃心 于 2021-09-24 设计创作,主要内容包括:本发明公开了一种基于知识图谱的中药复方靶标预测方法。依次包括以下步骤:步骤1:根据输入的复方靶标关系作用图和中药复方知识图谱,使用知识图谱嵌入技术得到实体和关系的嵌入表示;步骤2:根据步骤1得到的嵌入表示,使用基于图神经网络体系结构的关系路径感知聚合层对嵌入表示进行基于知识图谱关系的邻域聚合;步骤3:根据步骤2得到的复方和靶标的嵌入表示,使用协同过滤算法输出复方靶标预测的匹配分数。通过联合优化知识图谱嵌入和协同过滤模块,模型可以得到一个有效预测复方靶标关联的预测函数,该函数能够表示指定复方与靶标间产生关联的概率。(The invention discloses a knowledge graph-based Chinese herbal compound target prediction method. The method sequentially comprises the following steps: step 1: obtaining an embedded representation of an entity and a relation by using a knowledge map embedding technology according to an input compound target relation action diagram and a Chinese medicine compound knowledge map; step 2: according to the embedded representation obtained in the step 1, a relation path perception aggregation layer based on a graph neural network system structure is used for carrying out neighborhood aggregation based on a knowledge graph relation on the embedded representation; and step 3: and (3) outputting the matching score of the compound target prediction by using a collaborative filtering algorithm according to the compound and target embedded representation obtained in the step (2). Through the combined optimization knowledge map embedding and collaborative filtering module, the model can obtain a prediction function for effectively predicting the association of the compound target, and the function can represent the probability of the association between the appointed compound and the target.)

一种基于知识图谱的中药复方靶标预测方法

技术领域

本发明涉及一种复方靶标预测方法,具体涉及一种基于知识图谱的中药复方靶标预测方 法。

背景技术

研究中药复方的作用靶标预测方法,挖掘与临床实践丰富且疗效确切的复方产生明确作 用关系的靶标和潜在的作用靶标,对于复方的临床应用及开发指导有着深远的意义和价值。 然而,现有的基于计算的药物靶标预测方法大多集中于西药单分子药物,研究对象的本质区 别导致其并不能直接应用于具有多成分、多靶点、多途径调控机理特点,且必须通过其组成 药材的活性成分来发挥药效的中药复方上。同时,目前基于计算的中药复方靶标预测方法只 是针对某一具体的复方-病症进行分析,尚未存在通用的中药复方靶标预测方法。

发明内容

发明目的:本发明的目的在于针对上述存在的问题,提出一种基于知识图谱的中药复方 靶标预测方法(Knowledge Graph with Relational Path Network for TargetPrediction of TCM Prescriptions,KGRN),将中药复方靶标预测问题转换为中药复方的靶标推荐问题。具体来说, 本发明的KGRN模型结合复方靶标作用关系和中药复方知识图谱,利用知识图谱嵌入和图神 经网络挖掘知识图谱中的语义关系和拓扑结构,用于潜在的复方-靶标关联预测。通过在邻域 信息聚合过程扩充知识图谱中关系对节点表示的贡献,KGRN模型能够保存路径所承载的关 系依赖和关系序列,并捕捉到关系之间的相互作用,以提高潜在的复方-靶标关联预测性能。。

技术方案:本发明所述的一种基于知识图谱的中药复方靶标预测方法,依次包括以下顺 序执行的步骤:

步骤1.根据输入的复方靶标关系作用图和中药复方知识图谱,使用知识图谱嵌入技术得 到实体和关系的嵌入表示;

步骤2.根据步骤1得到的嵌入表示,使用基于图神经网络体系结构的关系路径感知聚合 层对嵌入表示进行基于知识图谱关系的邻域聚合;

步骤3.根据步骤2得到的复方和靶标的嵌入表示,利用层聚集机制从所有传播层中聚合 复方和靶标的表示,使用协同过滤算法输出复方靶标预测的匹配分数。

进一步地,步骤1具体包括如下步骤:

步骤1.1.将复方靶标作用关系图和知识图谱 编码为统一的关系图其中,分别 表示一组复方和一组靶标,p和t分别表示复方和靶标,链接ypt=1表示靶标t和复方p之间的 附加关系Interact,当ypt=0时不一定意味着靶标t不是复方p的作用靶标,因为它可能是还 未被发现的潜在的作用靶标。ε和分别表示实体集和关系集,h,r,t分 别表示头实体、关系和尾实体。

步骤1.2.利用知识图谱嵌入技术TransR,在三元组粒度上将关系图中的每个实体和关系 参数化为一个向量:

将实体和关系分别映射到不同的语义空间中,分别为Entity Space(实体空间)和Relation Space(关系空间),对于关系图中存在三元组(h,r,t),TransR通过优化平移原理来学习嵌入每个实体和关系,这里,分别是h、t和r的嵌入;是eh和 et在关系r空间中的投影表示,对于给定的三元组(h,r,t),其合理性评分制定如公式(1):

其中g(h,r,t)是三元组(h,r,t)的合理性评分,Wr∈Rk×d是关系的变换矩阵,它将实体从 d维实体空间投影到k维关系空间,表示L2正则化项,较低的g(h,r,t)分数表明三元组更 有可能是真实的,反之则是虚假的,通过公式(2)的成对排序损失函数区分真实的三元组和 虚假的三元组:

其中表示成对排序损失函数,并且(h,r,t’)是 通过随机替换真实三元组中的一个实体而构造的虚假三元组,g(h,r,t’)是虚假三元组的合理 性评分,σ(·)是sigmoid函数。

进一步地,步骤2具体包括如下步骤:

步骤2.1.邻域聚合:将根据步骤1得到的有关实体和关系的嵌入表示,使用 表示头实体h的邻域网络,设计关系性消息传递模式聚合实体的邻域网络 表示将h邻域网络的线性组合表示定义如公式(3):

其中f(·)是从每个连接(h,r,t)中提取和集成信息的聚合函数;

步骤2.2.表示聚合:使用双相互作用聚合器将实体表示eh及其邻域网络表示聚合为实 体h的新的嵌入表示:

其中et是实体t在知识图谱中的嵌入表示,是考虑了关系r的嵌入表示的贡献而设 计的一种关系性消息传递模式。

最后是将实体表示eh及其邻域网络表示聚合为实体h的新的嵌入表示,即 其中fagg(·)表示聚合函数,表示通过一次聚合更新得到的实体表示;

步骤2.3.高阶嵌入传播:以递归的方式堆叠更多的聚合层以探索知识图谱中的高阶连通 性信息。

进一步地,步骤2.2所述聚合采用Sum聚合器实现,具体方法是:将实体表示和邻域表 示两种表示相加,并应用一个非线性变换,如公式(5)所示,其中fsum表示相加聚合过程:

其中激活函数设置为LeakyReLU;是用来提取有用信息传播的可训练的权重 矩阵,d是嵌入维度,d′是变换大小。

进一步地,步骤2.2所述聚合采用Concatenate聚合器实现,具体方法是:将实体表示和 邻域表示两种表示连接起来,并应用非线性变换,如公式(6)所示,其中fcon表示连接聚合 过程:

其中,||是连接操作。

进一步地,步骤2.2所述聚合采用双相互作用聚合器实现,具体方法是:以考虑eh之 间的两种基于特征的相互作用,如公式(7)所示,其中fbi表示双相互作用聚合过程:

其中是可训练的权重矩阵,⊙表示元素乘积。

进一步地,步骤2.3所述高阶嵌入传播具体是:

在传播的第l步中,我们递归地将实体的表示形式表示为公式(8)所示:

其中,经过l次聚合的实体表示经过l-1次聚合的实体表示第l-1层的邻域信息 聚合表示在第l层邻域网络中进行信息传播的实体h的定义如公式(9)所示,

是从以前的信息传播步骤中生成的实体t的表示,它从它的(l-1)跳邻居中保存信 息,同时是实体h的初始表示,在初始信息传播迭代中被设置为eh,这有助于实体h在层l上 的表示。因此,在嵌入传播过程中可以捕获例如的高阶连通性。其中, -r2表示关系r2的逆向,此外,来自p2的信息被显式编码在中。

进一步地,步骤3的具体方法是:

采用层聚集机制将每一步的表示连接到一个向量中,具体如公式(10)所示。

其中,||是连接操作,表示通过连接操作得到的实体p最终表示,是实体p的初始表示, 表示经过L次聚合的实体p的表示,表示通过连接操作得到的实体t的最终表示,是实 体t的初始表示,表示经过L次聚合的实体t的表示。这样做,我们不仅通过执行嵌入传播 操作将路径中的KG关系依赖编码在最终的表示形式中,而且还允许通过调整L来控制传播的 强度。

据此,我们在复方和靶标的表示上使用层聚集的最终结果来预测靶标被复方作用的可能 性,如公式(11),其中表示复方p和靶标t产生作用关系的预测分数:

其中,表示转置操作。

有益效果:本发明提供一种基于知识图谱的中药复方靶标预测算法,嵌入层使用知识图谱 嵌入方法TransR,它在三元组粒度上,类似于正则化器对知识图谱中的实体和关系进行建模, 将直接连接注入到表示中,从而提高了模型的表示能力。关系路径感知聚合层利用图神经网 络的体系结构学习实体的局部邻域信息,以获得复方和靶标间的内在关联。特别的,该层通 过在邻域信息聚合过程扩充知识图谱中关系对节点表示的贡献,KGRN模型能够保存路径所 承载的关系依赖和关系序列,并捕捉到关系之间的相互作用,以提高潜在的复方-靶标关联预 测性能。

附图说明

图1为本发明中KGRN算法的流程图;

图2为聚合层深度对性能影响示意图;

图3为邻域采样大小对性能影响示意图;

图4为嵌入维度对性能影响示意图;

图5为负采样范围对性能影响示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,下面结合具体实施例和说明附图 对本发明作进一步说明,应当理解,此处所描述的优先实施例仅用于说明和解释本发明,并 不用于限定本发明。

知识图谱嵌入是将实体和关系参数化为向量表示,同时保持图形结构的有效方法。基于 中药复方知识图谱模式图中对于实体和上下文关系的定义,本文在嵌入层使用了区分实体空 间与关系空间的TransR方法。该方法将实体和关系分别映射到不同的语义空间中,分别为 Entity Space(实体空间)和Relation Space(关系空间)。更具体地说,如果图中存在三元组 (h,r,t),它通过优化平移原理来学习嵌入每个实体和关系。这里,分别是h、t和r的嵌入;是eh和et在关系r空间中的投影表示。因此,对于给定 的三元组(h,r,t),其合理性评分(或能量评分)制定如公式(1):

其中g(h,r,t)是三元组(h,r,t)的合理性评分,Wr∈Rk×d是关系的变换矩阵,它将实体从d维 实体空间投影到k维关系空间,表示L2正则化项。较低的g(h,r,t)分数表明三元组更有 可能是真实的,反之则是虚假的。

TransR的训练考虑了真实的三元组和虚假的三元组之间的相对顺序,并通过公式(2) 的成对排序损失函数区分它们:

其中表示成对排序损失函数,并且(h,r,t’) 是通过随机替换真实三元组中的一个实体而构造的虚假三元组,g(h,r,t’)是虚假三元组的合 理性评分;σ(·)是sigmoid函数。

2.关系路径感知聚合层

在三元组粒度上对实体和关系建模之后,本论文利用图神经网络继续学习实体的局部邻 域信息,以获得复方和靶标间的内在关联。

一个实体可以参与多个三元组,它可以将其他与之连接的实体作为其属性,这使得该实 体起到了连接两个三元组和传播信息的桥梁作用,也反映了实体间的内容相似性。建立在这 种基础上,我们在一个实体及其邻居之间执行信息传播。假设这里有一个实体h,使用 来表示以h为头实体的三元组集合,并将其称为邻域网络,其中表 示构建的知识图谱。为了描绘实体h的一阶邻域信息,将h邻域网络的线性组合表示定义如公 式(3):

其中f(·)是从每个连接(h,r,t)中提取和集成信息的聚合函数,这里详细说明聚合器中的 关系上下文。直观地说,每个知识图谱中的实体在不同的关系上下文中具有不同的语义和意 义,然而,之前的研究只通过注意力机制将KG关系建模成衰变因子,以控制邻域间的信息 传播。相反,本文将聚合器中的关系上下文建模为如公式(4),这种建模方式在聚合过程中 扩充了KG关系对节点表示的贡献,同时捕获了知识图谱路径中关系之间的相互作用。通过 此种建模方式,实体在聚合邻域信息时能捕获具有药理逻辑特征的关系表示,进而在多层聚 合时捕获路径间的关系依赖。

其中et是实体t在知识图谱中的嵌入表示。对于每个三元组(h,r,t),本文通过考虑关系r的 嵌入表示的贡献,设计了这样的关系性消息传递模式。因此,关系性消息能够揭示三 元组所承载的不同含义,即使它们与相同的实体相连。

最后是将实体表示eh及其邻域网络表示聚合为实体h的新的嵌入表示,更正式地说, 其中表示通过一次聚合更新得到的实体表示,fagg(·)表示聚合函数。

本文可以有三种类型的聚合器来实现fagg(·)聚合过程:

·Sum聚合器:将实体表示和邻域表示两种表示相加,并应用一个非线性变换,如公式 (5)所示,其中fsum表示相加聚合过程:

其中激活函数设置为LeakyReLU;是用来提取有用信息传播的可训练的权重矩阵, d是嵌入维度,d′是变换大小。

·Concatenate聚合器,将实体表示和邻域表示两种表示连接起来,并应用非线性变换, 如公式(6)所示,其中fcon表示连接聚合过程:

其中,||是连接操作。

·双相互作用聚合器,以考虑eh之间的两种基于特征的相互作用,如公式(7)所示, 其中fbi表示双相互作用聚合过程:

其中是可训练的权重矩阵,⊙表示元素乘积。与一般的聚合方法不同的是,该 聚合方法编码了eh之间的特征交互,这个举措使得信息被传播时对eh之间的相似 度十分敏感,即类似的实体间会传递更多的信息。

总之,关系路径感知聚合层的优势在于显式地利用一阶连接信息来将复方、靶标和知识 图谱中实体表示联系起来,同时强调三元组中的关系对节点的贡献,以在表示中保存结构信 息。

进一步的,为了收集从高跳邻居传播的信息,知识图谱中的高阶连通性信息能够通过堆 叠更多的聚合层进行探索。更详细地说,在传播的第l步中,我们递归地将实体的表示形式表 示为公式(8)所示:

其中,经过l次聚合的实体表示经过l-1次聚合的实体表示第l-1层的邻域信息 聚合表示在第l层邻域网络中进行信息传播的实体h的定义如公式(9)所示,

是从以前的信息传播步骤中生成的实体t的表示,它从它的(l-1)跳邻居中保存信息, 同时是实体h的初始表示,在初始信息传播迭代中被设置为eh,这有助于实体h在层l上的 表示。因此,在嵌入传播过程中可以捕获例如的高阶连通性。其中, -r2表示关系r2的逆向,此外,来自p2的信息被显式编码在中。显然,高阶嵌入传播无缝 地将基于药理逻辑的协作信号和长路径之间的关系依赖注入到表示学习过程中。

总的来说,KGRN作为基于传播的方法,受益于知识图谱的语义嵌入和语义路径模式, 通过基于GNN的体系结构自然地适应嵌入传播的过程并从关系图中推理得到实体间的连接 模式。

3.预测层

在执行了L层的传播后,我们得到了复方节点p在每一次聚合过程的多个实体表示,即 类似的,对于靶标节点t,也有在每一次聚合过程的多个实体表示由于第l层的输出是以p(或t)为根的深度为l的树形结构的消息聚合,故而不同层的输出强调 不同顺序的连通性信息。因此,我们采用层聚集机制将每一步的表示连接到一个向量中,具 体如公式(10)所示。

其中,||是连接操作,表示通过连接操作得到的实体p最终表示,是实体p的初始表示,表示经过L次聚合的实体p的表示,表示通过连接操作得到的实体t的最终表示,是实 体t的初始表示,表示经过L次聚合的实体t的表示。这样做,我们不仅通过执行嵌入传播 操作将路径中的KG关系依赖编码在最终的表示形式中,而且还允许通过调整L来控制传播的 强度。

据此,我们在复方和靶标的表示上使用层聚集的最终结果来预测靶标被复方作用的可能 性,如公式(11),其中表示复方p和靶标t产生作用关系的预测分数:

其中,表示转置操作。

实验:

为了验证模型在复方靶标预测上的有效性,本文在构建的数据集TCMDataset上进行了性 能比较实验,除此之外,还进行了消融分析和参数学习进一步验证模型的有效性,本文使用 的数据集的如表1所示。

表1实验所用数据集

TCMDataset数据集由两部分数据组成,其中中药复方靶标作用关系数据的提取流程严格 按照基于网络药理学的中药复方作用靶标预测相关文献所执行;中药复方知识图谱的构建参 考中医药知识图谱构建相关文献。

表2展示了模型的性能比较结果,在与一些传统的推荐模型或基于知识图谱的推荐模型对 比下,本文提出的KGRN模型在复方靶标预测实验上取得了最优的表现。

表2性能比较实验结果

表3展示了消融实验结果,首先,禁用了KGRN模型中的TransR组件,构成第一个变体模 式KGRNw/oKGE;然后禁用了关系路径感知聚合层中的关系性消息传递模式,即将er设置为1, 构成第二个变体模式KGRNw/oKGR;最后,将训练模块的负采样策略换成随机采样,以构成第 三个变体模式KGRNw/oRandom,可以看出,知识图谱嵌入、KG关系和负采样策略都在一定程度 上提升了模型的性能表现。

表3知识图谱嵌入、KG关系及负采样策略对性能影响实验结果

表4展示了不同聚合器对模型性能的影响,KGRNsum、KGRNcon和KGRNbi分别表示使用Sum 聚合器、Concatenate聚合器和双相互作用聚合器的KGRN的变体。从实验结果可以看出,加 入额外的特征交互的双相互作用聚合器,可以提高节点的表示学习进而提高模型的预测能力。

表4聚合器对性能影响实验结果

图2展示了聚合层深度L对模型性能的影响,可以看出增加KGRN的深度可以大幅提高性 能,但更深层的叠加可能给模型带来噪声,进而影响模型的预测性能。

图3展示了邻域信息采样大小对模型性能的影响,可以看出当邻域信息采样大小k取值过 小时,模型没有能力来合并足够的邻域信息而使得一些有用的邻域信息被丢失;当邻域信息 采样大小k取值过大时,太大的k值使得模型合并了过多无用的信息而被噪声误导。

图4展示了嵌入维度对模型性能的影响,可以看出适当的提高嵌入维度d可以提高模型的 性能,因为高维度的嵌入可以有效编码知识图谱中足够的药物、靶标和实体信息,而维度过 大时可能会因为过拟合而造成模型的性能下降。

图5展示了负采样范围对模型性能的影响,可以看出较小的PathSim值虽然使得模型在 训练过程中采样到了极具真实性的负样本,但较低的相似性也同样意味着目前的模型对它们 的评分相对较低,因此将它们更新为负样本并不会显著地改变模型参数;而当PathSim得分 阙值设置为0.5时,进入该取值范围的靶标数量过大,使得该情况下的负采样策略与随机采 样并无二致。

15页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于量子隐形传态编译基因治疗药物的方法及应用

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!