基于多层网络与图编码的药物靶点相互作用预测方法

文档序号:170914 发布日期:2021-10-29 浏览:30次 >En<

阅读说明:本技术 基于多层网络与图编码的药物靶点相互作用预测方法 (Drug target interaction prediction method based on multilayer network and graph coding ) 是由 刘闯 王逸伟 詹秀秀 张子柯 于 2021-07-29 设计创作,主要内容包括:本发明公开了基于多层网络与图编码的药物靶点相互作用预测方法。本发明方法包括数据采集模块、数据预处理模块、特征学习模块、模型算法设计模块、结果评估模块。数据预处理模块构建药物及蛋白质网络,以及异质图的处理。特征学习模块包括对结构性图编码器的自监督学习和对图的向量编码,以及同构向量处理,将图的拓扑信息表示成向量的形式。模型算法设计模块包括构造交叉验证集、预测模型设计。结果评估模块是采用基于混淆矩阵的ROC曲线和基于准确率、召回率序列的PR曲线验证模型的预测效果。本发明方法从数据挖掘和图的角度研究药物和靶点,通过生成的图结构信息及后续的树模型来预测两者之间的相互作用。(The invention discloses a medicine target interaction prediction method based on multilayer network and graph coding. The method comprises a data acquisition module, a data preprocessing module, a feature learning module, a model algorithm design module and a result evaluation module. The data preprocessing module constructs a drug and protein network and processes heterogeneous images. The feature learning module comprises self-supervision learning on a structural graph encoder, vector encoding on a graph and isomorphic vector processing, and topology information of the graph is represented in a vector form. The model algorithm design module comprises the steps of constructing a cross validation set and designing a prediction model. And the result evaluation module verifies the prediction effect of the model by adopting an ROC curve based on a confusion matrix and a PR curve based on an accuracy and recall sequence. The method of the invention researches the medicine and the target from the aspects of data mining and graph, and predicts the interaction between the medicine and the target through the generated graph structure information and the subsequent tree model.)

基于多层网络与图编码的药物靶点相互作用预测方法

技术领域

本发明属于数据挖掘技术领域,具体涉及一种基于多层网络与图编码的药物靶点相 互作用预测方法。

背景技术

随着机器学习的迅猛发展及因第三代基因测序等生物学检测技术的完善、生物学数 据量剧增导致本领域大数据时代的到来,越来越多的研究人员和公司将目光投向了AI辅 助药物研发领域。通过计算机算法辅助筛选目标靶点,最直观的优势就是通过计算机筛选候选药物、缩小候选范围,从而大大缩短新药发现的周期并减少新药发现的研究耗材。实际应用数据表明,AI技术大体上可减少约35%的药物研发成本。通过分析国际顶尖药 企近年来的净收入趋势,可以发现大部分药企在引入AI辅助药物研发后,其净收入都有 不同程度的增长。AI技术还可以对药物进行多特异性靶向分析,预测药物的多个靶点, 从而揭示某些疾病复杂的作用机理。此外,AI技术还能提高药物的预测准确度和安全性, 探寻药物副作用机理等好处。因此,使用AI技术可以在整体上大大简化新药研发的流程 并节省研发经费,助力药企对新药的快速研发。

发明内容

本发明的目的是提供一种基于多层网络与图编码的药物靶点相互作用预测方法,消 减临床实验的随机性,缩小筛选范围,加快试验周期。

本发明构造九种药物相关网络(药物相互作用网络、药物疾病相关网络、药物副作用相关网络、药物的化学相似性网络、药物的治疗学相似性网络、药物的作用靶点序列 相似性网络、药物的生物学过程相似性网络、药物的分子功能相似性网络、药物的作用 细胞成分相似性网络)、六种靶点相关网络(靶点相互作用网络、靶点疾病相关网络、靶 点序列相似性网络、靶点生物学过程相似性网络、靶点所在细胞成分相似性网络、靶点 分子功能相似性网络)以及最后用作标签的药物靶点相互作用网络。分别利用这些网络 独自训练对应的结构性自编码器并利用训练好的自编码器将节点编码成向量,最后再将 节点在不同网络的编码向量拼接起来,形成最终的特征向量。将需要预测的药物靶点对 送入训练好的提升树模型(该模型由基于训练集构造得一系列决策树线性相加所得)中, 得到最后的评测分数。

本发明方法包括数据采集模块、数据预处理模块、特征学习模块、模型算法设计模块、结果评估模块。

(1)所述的数据采集模块,包括:

(1-1)对于药物,采集药物与药物相互作用关系数据、药物与疾病关系数据、药物与 副作用关系数据,以及六种不同类型的药物对相似性关系数据,包括:药物化学指纹数据、药物的治疗学数据、药物作用靶点的肽链数据、药物的生物学过程数据、药物的分 子功能数据、药物的作用细胞成分数据;

(1-2)对于靶点,即蛋白质,采集靶点与靶点相互作用关系数据、靶点与疾病关系数 据,以及四种不同类型的靶点对相似性关系数据,包括:靶点的肽链数据、靶点的生物学过程数据、靶点所在细胞成分数据、靶点分子功能数据;

(1-3)收集药物与靶点相互作用关系数据。

(2)所述的数据预处理模块,包括构建药物及靶点相关网络、生成多层网络;

(2-1)所述的构建药物及靶点相关网络,包括:

A.对于单类对象相互作用关系数据,构建同质相互作用网络,包括药物相互作用网 络G1D、靶点相互作用网络G1T

B.对于不同类的对象相互作用关系数据,构建异质相互作用网络,包括药物疾病相 关网络GD_DI、药物副作用相关网络GD_SE、靶点疾病相关网络GT_DI

C.收集不同维度的药物信息,构建药物相似性网络,包括药物的化学相似性网络G2D、 药物的治疗学相似性网络G3D、药物的作用靶点序列相似性网络G4D、药物的生物学过程相似性网络G5D、药物的分子功能相似性网络G6D、药物的作用细胞成分相似性网络G7D

D.收集不同维度的靶点信息,构建靶点相似性网络,包括靶点序列相似性网络G2T、靶点生物学过程相似性网络G3T、靶点所在细胞成分相似性网络G4T、靶点分子功能相似 性网络G5T

E.构建药物靶点相互作用网络GD_T

(2-2)所述的生成多层网络,包括生成药物多层网络和生成靶点多层网络,具体方法 是:

(2-2-1)首先将药物疾病相关网络GD_DI分解,转化为药物的疾病相似性网络 G8D=(V8D,E8D),其中V8D、E8D分别表示该网络中的药物节点集合、两药物之间疾病相 似性的边权集合;药物的疾病相似性的边权xD_M和yD_M表示两 药物在GD_DI的邻接矩阵中对应的行向量,||·||表示对向量取模;

将药物副作用相关网络GD_SE分解,转化为药物的副作用相似性网络G9D=(V9D,E9D), 其中V9D、E9D分别表示该网络中的药物节点集合、两药物之间副作用相似性的边权集合; 药物的副作用相似性的边权xD_SE和yD_SE表示两药物在GD_SE的邻接矩阵中对应的行向量;

将靶点疾病相关网络GT_DI分解,转化为靶点的疾病相似性网络G6T=(V6T,E6T),其中V6T、E6T分别表示该网络中的靶点节点集合、两靶点之间疾病相似性的边权集合;靶 点的疾病相似性的边权xT_DI和yT_DI表示两靶点在GT_DI的邻接矩 阵中对应的行向量;

(2-2-2)然后将药物相关网络组合成药物多层网络GD={GiD=(ViD,EiD)},i为药物网 络编号,i∈[1,9];将靶点相关网络组合成靶点多层网络GT={GjT=(VjT,EjT)},j为靶点网络编号,j∈[1,6]。

(3)所述的特征学习模块,包括训练结构性自编码器、编码输出、同类特征向量处理;

(3-1)训练结构性自编码器:药物多层网络GD与靶点多层网络GT的每一层对应训练一个结构性自编码器;

(3-2)编码输出:使用训练后的结构性自编码器的编码端分别对对应的网络层进行编 码,得到所有药物及靶点的多层向量;

(3-3)同类特征向量处理:将一个药物的多层向量拼接,得到该药物的最终特征向量 表示;将一个靶点的多层向量拼接,得到该靶点的最终特征向量表示。

(4)所述的模型算法设计模块,包括构造训练样本、训练和评估模型、预测药物靶点 相互作用;

(4-1)构造训练样本:采用PairWise模型构造训练样本,将数据随机划分成M份,并进行M折交叉验证,即每次选取其中一份作为验证集,其余为训练集,通过交叉验证 的整体表现调整模型参数,M为大于3的正整数;

(4-2)训练和评估模型:采用轻量级梯度提升决策树,以决策树作为弱学习器,构建 提升树,即采用迭代构建决策树T(x,θl)的过程,其中x和θl分别为输入特征向量及第l棵决策树的可学习参数;

(4-3)预测药物靶点相互作用:根据结果评估模块得到的最优预测模型,计算所有药 物靶点对存在相互作用的概率,筛选出可能性大的药物靶点对作为候选的、能发生相互作用的药物靶点对,作为预测结果。

(5)所述的结果评估模块,采用ROC曲线和PR曲线验证模型的预测效果;具体是:

(5-1)绘制ROC曲线:将假阳性率FPR定义为横轴,真阳性率TPR定义为纵轴,ROC 曲线所覆盖的面积AUROC值越大,表示模型的预测效果越好;

ROC曲线的真阳性率TPRα和假阳性率FPRα通过混淆矩阵计算如下:

药物靶点对存在相互作用为正样本,不存在相互作用为负样本;TPα表示将测试集中 的正样本预测为正样本的个数,FPα表示测试集中的负样本预测为正样本的个数,FNα表示将正样本预测为负样本的个数,TNα表示将测试集中的负样本预测为负样本的个数;α 表示预测置信度;

(5-2)绘制PR曲线:不同预测置信度α下的精确率precisionα与召回率recallα组成精 度-召回序列:

以横轴为召回率、纵轴为精确率绘制一条精度-召回曲线,即PR曲线,PR曲线下方面积AUPR就能在整体上反映分类器的分类效果,PR曲线下方面积AUPR值越大,表示模 型的预测效果越好;

(5-3)模型评估:根据(4-3)的预测结果,利用绘制的ROC曲线和PR曲线并计算AUROC 与AUPR,寻找最优预测结果下的模型参数。

本发明方法从数据挖掘和多层网络的角度研究药物靶点对的相互作用,通过构造网 络的方式使不同类型的数据被抽象为相同的数据结构,结合异质网络的分解、结构性自编码器对网络拓扑结构的自动学习、基于树的分类器等方法实现药物靶点预测。因此, 本发明方法能够有效分析药物靶点数据,并预测两者之间的相互作用,进而为新药研发 提供科学指导,提高新药研发的效率,在一定程度上促进了医疗自主创新的发展。

附图说明

图1是本发明方法流程示意图。

具体实施方式

下面结合技术方案和附图,详细说明本发明的具体实施。

现有的732个药物相关数据、1915个靶点(蛋白质)以及对应的12904个副作用和440个疾病相关数据,这些数据包括了药物对之间、药物疾病之间、药物副作用之间、靶 点与靶点之间、靶点与疾病之间的相互作用数据、药物化学式的MACCS指纹数据、药物 和靶点的GO注释、靶点的蛋白质序列数据、药物与靶点之间的半抑制浓度数据。

如图1所示,一种基于多层网络与图编码的药物靶点相互作用预测方法,包括数据采集模块、数据预处理模块、特征学习模块、模型算法设计模块、结果评估模块,具体 如下:

(1)数据采集模块,包括:

(1-1)对于药物,采集药物与药物相互作用关系数据、药物与疾病关系数据、药物与 副作用关系数据,以及六种不同类型的药物对相似性关系数据,包括:药物化学指纹数据、药物的治疗学数据、药物作用靶点的肽链数据、药物的生物学过程数据、药物的分 子功能数据、药物的作用细胞成分数据;

(1-2)对于靶点,即蛋白质,采集靶点与靶点相互作用关系数据、靶点与疾病关系数 据,以及四种不同类型的靶点对相似性关系数据,包括:靶点的肽链数据、靶点的生物学过程数据、靶点所在细胞成分数据、靶点分子功能数据;

(1-3)收集药物与靶点相互作用关系数据;

以上数据通过公开网站下载。

(2)数据预处理模块,包括构建药物及靶点相关网络、生成多层网络,为药物靶点预 测提供数据基础,具体是:

(2-1)构建药物及靶点相关网络,包括:

(Ⅰ)对于药物与药物相互作用关系数据,构建药物相互作用网络G1D=(V1D,E1D),V1D表示该网络中的药物节点集合,E1D表示该网络中两药物之间存在相互作用的边集合;

对于靶点与靶点相互作用关系数据,构建靶点相互作用网络G1T=(V1T,E1T),V1T表示 该网络中的靶点节点集合,E1T表示该网络中的两靶点之间存在相互作用的边集合;

(Ⅱ)对于药物与疾病关系数据,构建药物疾病相关网络其中ED_DI分别表示该网络中的药物节点集合、疾病节点集合、药物与疾病 关系的边集合;

对于药物与副作用关系数据,构建药物副作用相关网络其中ED_SE分别表示该网络中的药物节点集合、副作用节点集合、药物与副 作用关系的边集合;

对于靶点与疾病关系数据,构建靶点疾病相关网络其中 ET_DI分别表示该网络中的靶点节点集合、疾病节点集合、靶点与疾病关系的边集合;

(Ⅲ)对于药物化学指纹数据,构建药物的化学相似性网络G2D=(V2D,E2D),其中V2D、E2D分别表示该网络中的药物节点集合、两药物之间化学相似性的边权集合;化学相似性的边权其中a1和b1为两药物各自MACCS指纹的比特位数,c1为两药物相同 比特位的位数;

对于药物的治疗学数据,构建药物的治疗学相似性网络G3D=(V3D,E3D),其中V3D、E3D分别表示该网络中的药物节点集合、两药物之间治疗学相似性的边权集合;治疗学相似性 的边权其中a2和b2为两药物各自ATC编码,c2为两药物相同ATC编码的位数;

对于药物作用靶点的肽链数据,构建药物的作用靶点序列相似性网络G4D=(V4D,E4D), 其中V4D、E4D分别表示该网络中的药物节点集合、两药物之间作用靶点相似性的边权集合; 药物作用靶点相似性的边权其中a和b表示两药物各自的靶点, TT_T(a,b)表示两药物的各自靶点的序列相似性,mean(·)表示取平均值;

对于药物的生物学过程数据,构建药物的生物学过程相似性网络G5D=(V5D,E5D),其中 V5D、E5D分别表示该网络中的药物节点集合、两药物之间生物学过程相似性的边权集合; 药物生物学过程相似性的边权TT_P(a,b)表示两药物的各自靶 点的生物学过程相似性;

对于药物的分子功能数据,构建药物的分子功能相似性网络G6D=(V6D,E6D),其中V6D、 E6D分别表示该网络中的药物节点集合、两药物之间分子功能相似性的边权集合;药物分子 功能相似性的边权TT_M(a,b)表示两药物的各自靶点的分子功 能相似性;

对于药物的作用细胞成分数据,构建药物的作用细胞成分相似性网络G7D=(V7D,E7D), 其中V7D、E7D分别表示该网络中的药物节点集合、两药物之间作用细胞成分相似性的边权 集合;药物作用细胞成分相似性的边权TT_C(a,b)表示两药物 的各自靶点的作用细胞成分相似性;

(Ⅳ)对于靶点的肽链数据,构建靶点序列相似性网络G2T=(V2T,E2T),其中V2T、E2T分 别表示该网络中的靶点节点集合、两靶点之间序列相似性的边权集合;序列相似性边权其中a3和b3为两靶点各自的肽链序列位数,c3为两靶点相同肽链序列的位数;

对于靶点的生物学过程数据,构建靶点生物学过程相似性网络G3T=(V3T,E3T),其中 V3T、E3T分别表示该网络中的靶点节点集合、两靶点之间生物学过程相似性的边权集合;靶点生物学过程相似性的边权TT_P(a,b)通过两靶点的生物学过程的GO语义注释得到;

对于靶点所在细胞成分数据,构建靶点所在细胞成分相似性网络G4T=(V4T,E4T),其中 V4T、E4T分别表示该网络中的靶点节点集合、两靶点之间所在细胞成分相似性的边权集合; 靶点所在细胞成分相似性的边权TT_C(a,b)通过两靶点的所在细胞成分的GO语义注释得到;

对于靶点分子功能数据,构建靶点分子功能相似性网络G5T=(V5T,E5T),其中V5T、E5T分别表示该网络中的靶点节点集合、两靶点之间分子功能相似性的边权集合;靶点分子功 能相似性的边权TT_M(a,b)通过两靶点的分子功能的GO语义注释得到;

(Ⅴ)对于药物与靶点相互作用关系数据,构建药物靶点相互作用网络其中ED_T分别表示该网络中的药物节点集合、靶 点节点集合、药物与靶点关系的边集合。

(2-2)生成多层网络,包括生成药物多层网络和生成靶点多层网络:

(2-2-1)将药物疾病相关网络GD_DI分解,转化为药物的疾病相似性网络 G8D=(V8D,E8D),其中V8D、E8D分别表示该网络中的药物节点集合、两药物之间疾病相似 性的边权集合;药物的疾病相似性的边权xD_M和yD_M表示两药物 在GD_DI的邻接矩阵中对应的行向量,||·||表示对向量取模;

将药物副作用相关网络GD_SE分解,转化为药物的副作用相似性网络G9D=(V9D,E9D), 其中V9D、E9D分别表示该网络中的药物节点集合、两药物之间副作用相似性的边权集合; 药物的副作用相似性的边权xD_SE和yD_SE表示两药物在GD_SE的邻接矩阵中对应的行向量;

将靶点疾病相关网络GT_DI分解,转化为靶点的疾病相似性网络G6T=(V6T,E6T),其中 V6T、E6T分别表示该网络中的靶点节点集合、两靶点之间疾病相似性的边权集合;靶点的疾病相似性的边权xT_DI和yT_DI表示两靶点在GT_DI的邻接矩阵中对应的行向量;

(2-2-2)将药物相互作用网络、药物的疾病相似性网络、药物的副作用相似性网络、 药物的化学相似性网络、药物的治疗学相似性网络、药物的作用靶点序列相似性网络、药物的生物学过程相似性网络、药物的分子功能相似性网络、药物的作用细胞成分相似 性网络组合成药物多层网络GD={GiD=(ViD,EiD)},i为药物网络编号,i∈[1,9];

将靶点相互作用网络、靶点的疾病相似性网络、靶点序列相似性网络、靶点生物学过程相似性网络、靶点所在细胞成分相似性网络、靶点分子功能相似性网络组合成靶点 多层网络GT={GjT=(VjT,EjT)},j为靶点网络编号,j∈[1,6]。

(3)特征学习模块:

在机器学习相关问题的研究中,数据和特征决定了预测结果的上限,而模型和算法 只是逼近这个上限而已。本发明的特征编码模块就是解决前半句的特征选择问题,即为了模型算法更好的学习基因特征,达到最准确的预测结果。该模块是基于药物多层网络GD与靶点多层网络GT的特征工程,但不同于传统的手工提取网络特征,本发明采用结构性 自编码器对网络结构进行自动编码,保证了特征提取的完整性,其步骤包括结构性自编 码器的训练、编码输出以及同类特征向量的处理。

(3-1)训练结构性自编码器:药物多层网络GD与靶点多层网络GT的每一层对应训练一个结构性自编码器,训练过程为:

a.将单层网络对应的邻接矩阵作为编码器的输入;

b.编码后得到编码器的输出,并将其作为解码器的输入;

c.解码后得到解码器的输出,利用邻接矩阵、编码器输出、解码器输出计算损失函数;

d.利用损失函数计算编码器和解码器各参数的梯度,更新参数,更新步长为负梯度 的倍数;

e.重复步骤b到d,直到损失函数收敛。

所述的损失函数Lm计算包括两部分:

一阶相似性损失N为节点数量,zp和zg分别表示编码器对节点p和节点g的编码输出向量,Tpg表示连边的权重;若为相互作用网络,则Tpg只可能 取0和1,分别代表无边和有边的情况;若为相似性网络,则Tpg可取0和1之间任意值 (含)。定义该损失函数的目的是为了使相似程度高的药物或靶点对其编码的特征向量也 尽量相似。

二阶相似性损失bn分别表示节点n的编码器输入向量和解 码器输出向量。定义该损失函数的目的是使解码器能通过编码后的向量尽量重构原始的 输入向量,从而让编码后向量尽可能多的包含原始向量的信息。

总损失函数Lm=L2nd+λL1st,λ为惩罚项,0<λ<1。

(3-2)编码输出:使用训练后的结构性自编码器的编码端分别对对应的网络层进行编 码,得到所有药物及靶点的多层向量。

(3-3)处理同类特征向量:

将一个药物的多层向量拼接,得到该药物的最终特征向量表示;

将一个靶点的多层向量拼接,得到该靶点的最终特征向量表示。

(4)模型算法设计模块,包括:

(4-1)构造训练样本:药物靶点对包括已验证的药物靶点对及未验证的药物靶点对, 未验证的药物靶点对包含未被发现、但客观存在相互作用的药物靶点对。本发明就是从 未验证的药物靶点对中找到那些客观存在相互作用,但还未被发现的药物靶点对。所以, 可以假设未验证的药物靶点对存在相互作用的概率肯定不大于已验证相互作用的药物靶 点对概率。基于这个假设采用PairWise模型构造训练样本,即从已验证相互作用的药物 靶点对中抽取一个正样本的同时,也从未验证的药物靶点对中抽取一个负样本,通过对应的正、负样本构造训练样本,得到数量相同的成对正负训练样本集;将数据随机划分 成M份,并进行M折交叉验证,即每次选取其中一份作为验证集,其余为训练集,通过 交叉验证的整体表现调整模型参数,M为大于3的正整数。

(4-2)训练和评估模型:采用轻量级梯度提升决策树,以决策树作为弱学习器,构建 提升树,即采用迭代构建决策树T(x,θl)的过程,其中x和θl分别为输入特征向量及第l棵决策树的可学习参数,具体过程如下:

(4-2-1)在每轮构造决策树前,使用基于梯度的单边采样(GOSS)算法筛选掉小梯度 样本,即保留小部分大梯度样本并随机选取部分小梯度样本用来计算总体的方差增益,从而减少样本个数;

(4-2-2)在每轮构造决策树前,使用互斥特征捆绑(EFB)算法合并互斥特征,从而减少特征维度;

(4-2-3)基于筛选后的样本,当输入某样本的输入特征向量x及对应标签y时,对所生成的第l棵决策树构造拟合目标:若l=1,拟合目标就是样本的标签,其中正样本标签 为1,负样本标签为0;当l≥2,则拟合目标为其中第l-1轮迭代后得 到的提升树L为损失函数,在二分类任务下,单个样本(x,y)在 预测值为时损失函数定义为:

(4-2-4)基于筛选后的样本,拟合目标构建一棵二叉决策树,该二叉决策树的一个叶 节点,其分裂过程为:为每个筛选后的特征根据特征的取值范围构造一个直方图,利用该直方图计算各划分点的方差增益,选取有最大方差增益的特征及划分点作为当前节点的分裂特征和最优分割点,将该最优分割点对应的叶节点的数据分割成两批;不断递归,直到达到树的最大深度。特征f基于数据集D在划分点d的方差增益表示为:

其中xl、xl,f、gl分别表示第l个样本向量、第l个样本向量的第f个特征及其负梯度,

分别在数据集D中所有特征f小于划分点d及大于划分点d的样本个 数。

(4-2-5)进行K轮迭代,生成K个决策树;

(4-2-6)将K个决策树相加,生成最终的轻量级梯度提升决策树对于样本的输入特征向量x,决策树输出H(x)∈[0,1],可解释为 输入样本为正样本的概率;

(4-3)预测药物靶点相互作用:根据结果评估模块得到的最优预测模型,计算所有药 物靶点对存在相互作用的概率,筛选出可能性大的药物靶点对作为候选的、能发生相互作用的药物靶点对,作为预测结果。

(5)结果评估模块,采用ROC曲线和PR曲线验证模型的预测效果;具体是:

(5-1)绘制ROC曲线:描绘ROC曲线需要生成混淆矩阵,混淆矩阵也是评判模型结果的指标,属于模型评估的一部分,用方阵形式表示,把预测结果的精度显示在一个混淆 矩阵里面,每一列代表预测类别,每一列的总数表示预测为该类别的数据的数目,每一 行表示数据的真实归属类别,每一行的总数表示该类别的数据实例的数目。

所述的ROC曲线是从医疗分析领域引入的一种新的分类模型性能评价方法,适用于 二分类的研究问题,描绘ROC曲线时,将假阳性率FPR定义为横轴,真阳性率TPR定义 为纵轴,ROC曲线所覆盖的面积AUROC值越大,即越接近于1,表示模型的预测效果越好。

ROC曲线的真阳性率TPRα和假阳性率FPRα通过混淆矩阵计算如下:

在药物靶点预测的背景下,药物靶点对存在相互作用为正样本,不存在为负样本。TPα 表示将测试集中的正样本预测为正样本的个数,FPα表示测试集中的负样本预测为正样本的 个数,FNα表示将正样本预测为负样本的个数,TNα表示将测试集中的负样本预测为负样 本的个数;α表示预测置信度;

(5-2)绘制PR曲线:描绘PR曲线需要生成精度-召回序列,精度-召回序列由不同预测 置信度α下的精确率precisionα与召回率recallα所组成,计算公式如下:

精确率描述分类器H(x)在置信度α下对正样本进行正确分类的准确率,召回率描述 了用作分类器的提升决策树H(x)在置信度α下正确分类正样本占全体正样本的比例;两者随着α的变化呈现出相反的变化趋势。为此,利用不同的α所产生的精确率-召回率对 序列,以横轴为召回率,纵轴为精确率绘制一条精度-召回曲线,即PR曲线,PR曲线下 方面积AUPR就能在整体上反映分类器的分类效果,PR曲线下方面积AUPR值越大,即越 接近于1,表示模型的预测效果越好;

(5-3)模型评估:根据(4-3)的预测结果,利用绘制的ROC曲线和PR曲线并计算AUROC 与AUPR,寻找最优预测结果下的模型参数。

筛选候选药是AI辅助新药研发的主要手段,其中对药物和靶点的计算机建模(即采 用何种数据结构进行表示两者)及预测模型的选取是最关键的两步。本发明方法对药物和靶点在不同的阶段采取两种不同的计算机建模,即网络节点和特征向量。下面以药物 为例描述两种数据模型。

药物网络能够很好的反应药物-药物之间的关系,不同类型的药物网络所构成的多层 网络更能以不同的角度反应这种关系,为药物的筛选提供了新的思路。具体来说,药物 网络将单个药物表示为一个节点,药物与药物之间的相互作用定义为节点与节点之间的 连边。不同类型的药物网络其边的定义也不同,从而表达了不同视角下的药物对之间的关系。以药物化学相似网络为例,节点对之间的边权表示对应药物对之间的化学结构相 似性,没有边则代表相似性为0。在构造药物网络过程中,通常会将边权进行归一化处理, 使得权值的范围在0到1之间。

特征向量是一组实数所组成的数组,每一个实数代表了一个特征值,在应用中包含 了具体的信息。在本方法中,药物特征向量由结构性自编码器基于药物网络编码得到,其网络的拓扑信息包含在特征值中。自编码器是一种自监督表示学习方法,仅根据输入(这里是药物网络)就能将节点转化为特征向量,且特征向量的维度要远远小于节点的 个数。相对于传统的one-hot编码,大大降低了数据的复杂程度和稀疏程度。本方法所 采用的结构性自编码器考虑了网络的一阶和二阶邻接性,更加全面地包含了网络的整体 结构。

药物及靶点的网络表示、向量编码以及预测模型的训练是药物靶点预测算法中比较 核心的内容。算法模型避开了人工筛选的盲目性,极大地节约了时间成本及资金成本,并且通过整合药物及靶点不同方面的信息,将这些信息表示为统一的数据形式,加之相 对独立且清晰的几个模块,为以后的药物靶点预测提供了一种可行的范式,提高预测的 准确性,保证算法的高效灵活和可扩展性。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于多损失训练的蛋白质残基接触预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!