基于跨物种迁移学习预测合成致死基因

文档序号:1536700 发布日期:2020-02-14 浏览:46次 >En<

阅读说明:本技术 基于跨物种迁移学习预测合成致死基因 (Predicting synthetic lethal genes based on cross-species migratory learning ) 是由 卢新国 屈强 朱正浩 王新宇 陈浩文 于 2019-10-18 设计创作,主要内容包括:本发明属于生物信息学领域,具体涉及基于跨物种迁移学习预测合成致死基因方法。本发明的方法将酿酒酵母学习到的合成致死基因迁移到人类中,以预测人类的合成致死基因。该方法由两个基本步骤组成。首先,进行流形特征学习,学习两个物种的新特征表示。然后,采用动态分布对齐的方法,定量评价了边缘分布和条件分布的相对重要性,并自适应地最小化了两个物种之间的边缘分布和条件分布差异。最后,通过总结这两个步骤来学习域不变的合成致死基因分类器。本发明可用于预测人类的合成致死基因。(The invention belongs to the field of bioinformatics, and particularly relates to a method for predicting synthetic lethal gene based on cross-species transfer learning. The method of the present invention migrates the synthetic lethal gene learned by Saccharomyces cerevisiae into human to predict the synthetic lethal gene of human. The method consists of two basic steps. First, manifold feature learning is performed, learning new feature representations of the two species. Then, the relative importance of the edge distribution and the conditional distribution is quantitatively evaluated by adopting a dynamic distribution alignment method, and the difference of the edge distribution and the conditional distribution between the two species is adaptively minimized. Finally, a domain invariant synthetic lethal gene classifier is learned by summarizing these two steps. The invention can be used to predict synthetic lethal genes in humans.)

基于跨物种迁移学习预测合成致死基因

技术领域

本发明属于生物信息学领域,特别是涉及一种基于跨物种迁移学习预测合成致死基因方法。

背景技术

目前潜在合成致死(syntheticlethality,SL)基因对的筛选方法可以归纳为三类。

第一种是基于模型生物的方法。它们的基因组很小,很容易突变和匹配;因此,基因沉默技术更容易在模型生物中进行。然而,与所有模型生物的同源推断方法一样,模型生物SL基因对中的大部分基因在人类基因组中没有同源基因。尽管在人类基因组中可以找到同源基因,但它们的功能却发生了巨大的变化,不能直接转化为SL基因。

第二种筛选方法是哺乳动物的基因沉默方法,目前已发展出两种基因沉默方法。一种是基于先验知识的推测。潜在的SL基因对包含两种基因,即突变的癌症基因和SL伴侣基因。因此,SL伴侣基因应直接敲除并逐个检测。另一种是基于高通量实验技术对整个基因组进行无偏筛选。最终,siRNA和CRISPR筛选被证明是检测SL基因对s15最可靠的方法。然而,与模型遗传系统相比,人类细胞系统在全基因组siRNA或CRISPR筛选面临更大的挑战。而且,这些方法要昂贵得多,耗费大量劳动和时间,因此发现的许多基本基因要么局限于这些细胞系模型,要么常常在癌症中过度表达。

第三种是基于大数据和数据挖掘的计算方法。这种数据驱动的方法又包括生物网络拓扑的方法、数据挖掘方法和统计筛选的方法。与全基因组sirna或基于CRISPR的人细胞系筛选方法相比,计算方法是一种有吸引力的替代方法,它可以帮助识别并优先排序潜在SL基因,以便进行进一步的实验验证。这些方法包括从酵母SL基因中推断人的同源SL基因;利用肿瘤PPI网络的鲁棒性特征评价基因对的重要性;利用基因突变/转录表达数据的统计模型进行互斥性计算;结合体细胞拷贝数改变、siRNA筛选、细胞存活和基因共表达信息的SL(DAISY)数据驱动检测在数据驱动SL基因,并取得了良好的效果;以及基于学习的训练和预测管道,将突变覆盖、驱动突变概率和网络信息中心性这三个特征组合成流形排序模型,生成潜在SL对的排序列表。

综上所述,现有的方法预测人类合成致死基因成本较高,需要耗费大量劳动和时间。

发明内容

本发明针对现有的监督学习方法的效用受到限制,人类的合成致死基因数据量少的问题,我们提出了基于跨物种迁移学习预测合成致死基因。从酵母、小鼠等模型有机体获得丰富的、经过实验验证的合成致死性作用预测人类的合成致死基因。所叙述方法步骤包括:

1.数据收集阶段

我们从BioGrid蛋白质相互作用数据库收集的数据生成PPI网络,每个节点代表一种蛋白质,而每条边代表蛋白质之间的相互作用。然后从PPI网络中获取的源物种和目标物种基因使用训练分类器进行分类,具有合成致死性的基因对为阳性数据集,不具有合成致死性的基因对为阴性数据集。两个基因之间已知的合成致死性用二元矩阵Ys,Yt表示,用1表示具有合成致死性,0表示不具有合成致死性。

2.数据预处理阶段

对源物种和目标物种进行PPI网络拓扑相似性度量得到拓扑相似度矩阵Ns∈Rn×k,Nt∈Rm×k,其中k是基因对的网络参数。对源物种和目标物种进行GO语义相似性度量得到语义相似度矩阵Gs∈Rn×d,Gt∈Rm×d,其中d是计算GO相似性的方法数。然后基于PPI网络拓扑相似度矩阵和基于GO方法的语义相似度矩阵的线性组合得到了源物种和目标物种的特征矩阵Xs,Xt,如下:

Xs=[Ns Gs]

Xt=[Nt Gt]

跨物种迁移学习方法由两个基本步骤组成。首先,进行流形特征学习,学习两个物种的新特征表示。其次,采用动态分布对齐的方法,定量评价了边缘分布和条件分布的相对重要性,并自适应地最小化了两个物种之间的边缘分布和条件分布差异。最后,可以通过总结这两个步骤来学习域不变的合成致死分类器f。形式上,流形特征学习函数用g(·)表示,目标函数表述如下:

其中第一项表示数据样本的损失。是f的平方范数。Df(·,·)表示动态分布对齐。Rf(·,·)为拉普拉斯正则化,η,λ和ρ是相应的正则化参数。

3.流形特征学习阶段

流形特征学习的目的是确定一个新的特征空间,使源物种和目标物种表现出共同的特征。共同特征的新特征表示是域不变的,因此能够将分类器从源物种迁移到目标物种。我们将源数据集和目标数据集嵌入到Grassmann流形方法G(d)中,它可以看作是所有d维子空间{Φ(T):0≤t≤1}的集合。对于两个原始的基因对xi和xj的D维特征向量,我们计算了Φ(T)tx,它是一个特征向量x在这个子空间中的投影,对于从0到1的连续t,并将所有投影串联到无限维特征向量zi和zj中。将特征向量zi和zj内积产生了一个正半定测地线流核函数为:

Figure BDA0002238291060000032

因此,将源特征空间转化为z=g(X)=√gx的Grassmann流形特征空间,通过奇异值分解可有效地计算G,目标函数可表示为:

Figure BDA0002238291060000033

然后将Ds的结构最小化:

其中是Frobenius范数。K∈r(Nm)×(Nm)是核矩阵,Kij=k(zi,ZJ),A∈r(Nm)×(Nm)是一个对角矩阵,如果i∈Ds,则Aii=1,否则Aii=0。y=y1,y2,.,y(Nm)是酿酒酵母和目标物种种的标签矩阵。tr(·)为跟踪操作。

4.动态分布对齐阶段

动态分布对齐主要目的是分布自适应,以最小化域之间的分布差异。采用动态分布对齐的方法,定量地评价了两个物种之间的边缘分布(P)和条件分布分布(Q)的重要性。为此引入自适应因子μ,将动态分布对齐函数定义为:

Figure BDA0002238291060000041

(1)分布散度测量

边缘分布P和条件分布Q之间的最大平均偏差MMD定义如下:

Figure BDA0002238291060000042

因此动态分布对齐函数可表示为:

Figure BDA0002238291060000043

其中第一项表示物种之间的边缘分布偏差,第二项表示条件分布偏差。通过进一步利用具象定理和核技巧,可以将上式中的动态分布对齐函数转化为:

Figure BDA0002238291060000044

(2)自适应因子μ

A-distance作为一种基本的测量方法被用来获得自适应因子。将A-distance定义为建立线性分类器来区分两个域的误差。ε(H)表示线性分类器h判别两个区域Ds和Dt的误差。A-distance定义如下:

dA(Ds,Dt)=2(1-2ε(h))

然后μ可估计为:

Figure BDA0002238291060000045

其中dM表示第c类A-distance的边缘分布,dC表示A-distance的条件分布。

5.拉普拉斯正则化引入拉普拉斯正则化来进一步利用流形方法G中邻近点的相似几何性质,pair-wise affinity矩阵如下:

Figure BDA0002238291060000051

其中sim(·,·)是度量两点间距离的相似函数(如余弦距离)。Np(Zi)表示点Zi的最近邻集。P是一个自由参数,必须在该方法中设置。通过引入对角矩阵的拉普拉斯矩阵L=D-W,得到了方程的最终拉普拉斯正则化项。

Figure BDA0002238291060000052

最终目标函数表示为:

设置导数

Figure BDA0002238291060000054

得到解

β*=((A+λW+ρL)K+ηI)-1AYT

附图说明

图1:基因对的相似性度量

图2:流形特征矩阵转换

图3:动态分布对齐

图4:两个不同目标域

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实验,对本发明进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。

1.数据收集

我们从BioGrid数据库中获得了物种特异性的PPI网络,其中包括酿酒酵母中的740000多种蛋白质相互作用,裂殖酵母中的74000多种蛋白质相互作用,以及人类在的470000多种蛋白质相互作用。BioGrid数据库还提供了实验验证的基因之间的合成致死性,包括酿酒酵母中14000多个具有合成致死作用的基因,裂殖酵母中900多个具有合成致死作用的基因,人类中800多个具有合成致死作用的基因。GO有三种亚本体,即生物过程(BP)、分子功能(MF)和细胞成分(CC)。BP为29660项,MF为11120项,CC为4115项。在各种基于GO语义相似度的计算方法中,我们使用了Mazandu等人所提出的蛋白质语义相似度工具。合成致死预测算法如下:

Figure BDA0002238291060000061

2.裂殖酵母合成致死基因预测

我们将TLSL模型应用于酿酒酵母和酿酒酵母,以酿酒酵母(S.cerevisiae)为源物种,以裂殖酵母为目标物种。在酿酒酵母中,我们构建了PPI网络,其中包括9000种实验得到的合成致死性。PPI网络由904种合成致死性、50种剂量致死性、200种负遗传、200种综合生长缺陷和200种正遗传相互作用五种类型组成。在酿酒酵母中,我们考虑了8500对合成致死基因对作为阳性数据集,在一个连通分量图中生成了18000个随机对作为阴性数据集。在裂殖酵母中,906个SLs为阳性数据集,8237个NSLs为阴性数据集。其次,分别计算了基于拓扑结构的PPI相似度矩阵和基于GO的语义相似度矩阵。最后,去除功能相似性缺失的基因对,通过线性组合得到酿酒酵母和裂殖酵母的特征矩阵Xs∈R25039×35,Xt∈R8463×35。利用特征矩阵作为迁移学习模型的输入,得到了裂殖酵母的合成致死预测结果Yt。为了评估所提出的方法的性能,我们采用了一系列的性能评估程序来评估我们的模型来预测SLS,包括准确度(ACC)、灵敏度(Se)、特异性(Sp)、精密度(Pr)、F1-测量(F1)、G-均值(GM)、Matthews相关系数(MCC)。TLSL识别出裂殖酵母中缺少的SL,我们希望找到177个SL对,但只找到了65个。表1显示,本方法的灵敏度为95.9%~80.5%,特异性为91.6%~89.7%,准确度为88.6%~85.1%。

表1.裂殖酵母合成致死预测模型的性能比较

Figure BDA0002238291060000071

3.人类合成致死基因预测

我们将酿酒酵母为标记的源物种,人类为未标记的目标物种。我们使用了在裂殖酵母合成致死基因预测中的源数据集。利用BiorGrid数据库构建了人类PPI网络,包括6645个基因和17083个物理相互作用。随机选择803个SLs作为阳性数据集,6000个NSLs为阴性数据集。其次,分别计算了基于拓扑结构的PPI相似度矩阵和基于GO的语义相似度矩阵。最后,去除功能相似性缺失的基因对,通过线性组合得到人类的特征矩阵Xt∈R8463×35。利用特征矩阵作为迁移学习模型的输入,得到了人类的合成致死预测结果Yt。为了评价TLSL方法的预测性能,将其结果与SINaTRA方法进行了比较。结果(表1)表明,TLSL对人类SL基因对分类的所有指标表现最佳,每个指标都有明显的改善。

表2.人类合成致死预测模型的性能比较

Figure BDA0002238291060000072

4.实验及结果分析

实验结果表明,迁移学习模型在酿酒酵母的合成致死基因迁移到人类的合成致死基因这一跨物种学习任务中优于当代最先进的分类器。迁移学习模型的经验成功可以归因于以下优点。首先,迁移学习模型的流形特征学习能够学习对两个物种不变的共同特征的新特征表示。因此,浅层模型只关注观测变量的协方差,如随机森林和支持向量机,将很难捕捉到两个域之间的这种共同特征。其次,迁移学习模型中的动态分布对齐考虑了物种间的边缘分布和条件分布,并自适应地利用了每种分布的重要性。而传统的分类器,如随机森林,通常不能捕捉到域间的分布差异,从而限制了它们在跨物种任务上的性能,从而导致性能较差。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:激活区域识别方法及装置、存储介质及电子设备

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!