基于差异表达数据的药物重定位方法

文档序号:1075096 发布日期:2020-10-16 浏览:10次 >En<

阅读说明:本技术 基于差异表达数据的药物重定位方法 (Drug relocation method based on differential expression data ) 是由 鱼亮 何丹 于 2020-06-28 设计创作,主要内容包括:本发明提出一种基于差异表达数据的药物重定位方法,主要解决现有技术不筛选差异基因且预测药物准确度低的问题,其方案为:获取基因数据,计算基因表达变化值及其显著值,筛选出差异表达显著的基因集合;利用该基因集合和致病基因构建疾病的两种查询基因集合;分别获取这两种基因集合与药物的相关性值及其对应的药物预测准确度;对比这两种基因集合预测的药物准确度;计算筛选后的基因集合与标准正态分布的差异值,根据该差异值和计算的表达阈值构建疾病最优查询基因集合的预测模型;使用该模型预测其他疾病的基因集合并计算预测药物的准确度,筛选出具有潜在治疗效果的候选药物。本发预测准确度高,可用于预测对疾病具有潜在治疗效果的候选药物。(The invention provides a drug relocation method based on differential expression data, which mainly solves the problems that differential genes are not screened and the accuracy of drug prediction is low in the prior art, and the scheme is as follows: acquiring gene data, calculating a gene expression change value and a significant value thereof, and screening out a gene set with significant differential expression; constructing two inquiry gene sets of diseases by using the gene set and the pathogenic genes; respectively acquiring correlation values of the two gene sets and the medicines and corresponding medicine prediction accuracy; comparing the accuracy of the predicted drugs of the two gene sets; calculating a difference value between the screened gene set and the standard normal distribution, and constructing a prediction model of the optimal disease query gene set according to the difference value and the calculated expression threshold value; the model is used for predicting gene sets of other diseases, calculating the accuracy of the predicted drugs and screening out candidate drugs with potential treatment effects. The prediction accuracy is high, and the method can be used for predicting candidate drugs with potential treatment effects on diseases.)

基于差异表达数据的药物重定位方法

技术领域

本发明属于数据挖掘技术领域,特别涉及一种药物重定位方法,可用于预测对治疗效果好的候选药物。

背景技术

业界周知,药品的研制需要漫长的时间,通常从头到尾研制新药需要耗时11.4-13.5年,每种药物的成本在161-1800亿美元。尽管在药物研发上投入了大量时间和资金,但仍有90%以上的药物以失败而告终。例如,从1949年到2014年美国食品药品监督管理局FDA共批准了150种药物用于癌症治疗,由于癌症亚型和耐药性的存在,使得可用药物不足,因此探索新的药物开发策略显得格外重要。药物重定位作为一种旧药新用的策略,节省了药物研发所需的大量时间和成本。传统的药物开发通常包括五个阶段:药物发现与临床前实验、药物安全性审查、药物的临床研究、FDA审查批准和上市后FDA安全监测。而药物重定位只有四个步骤:化合物鉴定、化合物获取、药物开发和FDA售后安全监控。其将现有药物作为潜在的候选药物,评估其对疾病的治疗效果。这样做的优势是利用已经建立的包括功效、药代动力学、药效学和毒性等几个重要的药物特性,使推定药物的过程更快、成本更低。

目前药物重定位主流的方法可以分为:基于药物信息、基于基因组学和基于转录组学数据等方法。

一.基于药物信息的药物重定位方法。

基于药物信息的方法主要是通过使用药物的四类信息来探索化合物之间的共有特征,以预测药物的新适应症。第一类为使用药物的化学结构信息来重定位药物,这类方法是以化学结构与生物化学活性之间的已知定量关系为基础,使用药物分子的结构和化学性质来计算药物之间的相似性。由于分子结构的微小变化会导致它活性显著提高或丧失。因此,这类方法在应用中假阳性较高。第二类为使用药物的空间结构信息来重定位药物,这类方法主要利用了药物分子与蛋白质的空间结构建模来模拟它们的直接物理相互作用,这依赖于药物分子和蛋白质结构的解析,然而目前解析出的一些蛋白质结构存在错误且许多重要的蛋白质结构尚未完全分解,这使得化合物与蛋白质相互作用的建模不完整,因此,这类方法也会存在较高的假阳性。第三类为使用药物的副作用信息来重定位药物,药物的副作用信息反映了药物的生理后果和表型表达,这类方法大多是基于假设“与疾病相关的药物共享多种副作用时,副作用与疾病存在关联”进行的,其预测药物的准确与否取决于药物副作用的特征是否具有明确定义。业界周知,虽然对药物的副作用进行了严格的临床前评估,但需要经过多年的临床使用和售后监测,才可能完全识别出新批准药物的副作用。此外,数据冗余也是副作用领域要考虑的问题。第四类为使用药物的靶标信息来重定位药物,这类方法一般将药物靶标和疾病相关的基因作为药物与疾病的媒介来预测新的药物-疾病关系。然而由于目前药物的靶标数量较少,所以这类方法通常需要加入其他的信息,引入了新的噪声。综上所述,基于药物信息的药物重定位方法大多面临着信息不足而导致假阳性高的问题。

二.基于基因组学的药物重定位方法。

基因组学是对基因组的结构、功能和遗传进行研究,包括基因之间以及基因与人环境之间的相互作用。它的主要工作是确定组成生物体基因组脱氧核糖核苷酸DNA的分子序列。目前基于基因组学的药物重定位方法可分为数学统计和网络的方法。使用数学统计的方法主要通过对药物和疾病对应的基因集合做富集分析来判断药物与疾病之间的关系。这种方法简单、易于理解和实现,但依赖于疾病或药物相关的基因集,基因集的准确性会影响结果的准确度。使用网络的方法主要通过使用全基因组关联研究数据、基因相互作用数据、代谢数据和电子病历等多种数据来构建遗传相关网络或疾病网络。这种方法对原始数据依赖性较大,数据集的不完整会直接影响结果的可靠性,如现有的蛋白质网络是不完整的,并且疾病相关的单核苷酸突变大约有88%位于基因间和内含子区域,通过现有的基因相互作用数据将很难解释这部分的遗传效应。

三.基于转录组学的药物重定位方法。

转录组是连接基因组遗传信息与生物功能的蛋白质组的必然纽带,是研究基因表达的主要手段。基于转录组学的药物重定位方法主要是将疾病中差异表达的基因或非编码RNA与药物扰动下的差异表达基因建立连接关系来预测药物对疾病的影响。例如Chen等人用基因的上下调关系,将基因分为在疾病中上调且药物中下调UCDB和疾病中下调但药物中上调DCUB两部分分别进行药物重定位。该方法将人类功能连接网络FLN作为背景网络,把疾病中最高表达的k个基因和药物作用下最低表达的m个基因分别映射到网络中,将这k个基因作为种子基因,计算它们与邻居节点的预测分数并按照预测分数对基因降序排列,通过受试者特征曲线下面积AUC表征m个下调基因排名靠前的情况,将AUC值作为疾病预测药物的分数。同理,将m个下调基因作为种子基因可计算出药物预测疾病的分数。综合两个预测分数得到在参数k和m下这两组基因的相互预测分数并通过分数对药物降序排列,将FDA批准的药物与临床上使用的药物作为标准,计算AUC,得到UCDB的预测结果,更新参数并重复实验,将最终计算的AUC值最高的结果作为UCDB的最终结果。同理,可计算出DCUB的预测结果。这种方法的准确度很大程度上依赖于背景网络的准确性。此外,疾病在两种方式下对应的参数均不同,因此需要进行大量的实验,这无疑增加了算法使用的难度。

此外,连接图方法是由连接图CMap数据库最先提出的。该方法利用转录组数据对药物和疾病的表达模式进行反向匹配,即基因在疾病和药物中的表达模式相反,在疾病中高表达则需在药物作用下低表达,反之亦然。通过匹配分数的正负即可判定候选药物对疾病的作用是治疗还是加剧以达到筛选药物的目的。连接图方法的框架主要分为三部分:基因表达谱、疾病查询基因集合和匹配算法。目前,基于连接图方法框架的研究大多集中在基因表达谱和匹配算法,而疾病的查询基因集合的选取对预测结果的准确度有着至关重要的影响。且这些方法均选取差异表达显著的基因尤其是高差异表达的那些基因作为疾病的查询基因集合,完全没有考虑到与疾病联系非常密切的致病基因,以至于预测的结果准确度较低。

发明内容

本发明的目的在于这对上述基于转录组学的药物重定位方法的不足,提出一种基于差异表达数据的药物重定位方法,以提供预测疾病最优查询基因集合的模型,提高预测结果的准确度。

本发明的技术思路是:通过疾病的致病基因和差异表达基因为疾病找到最优的查询基因集合;通过多种疾病的实验结果来构建预测疾病最优查询基因集合的线性模型;通过该线性模型预测其他疾病的最优查询基因集合来计算疾病与药物的关联得分。

根据上述技术思路,本发明的实现方案包括如下:

(1)利用OMIM数据库下载致病基因数据,并搜索疾病的致病基因集合L;

(2)下载基因表达数据,计算各基因表达变化值logFC和对应的假阳性FDR并筛选基因;

(3)构建两种查询基因集合:

(3a)将筛选后的差异表达显著的基因集合中最顶部的m个基因与最底部的k个基因删除,得到疾病去噪的差异基因集合A,其中k≥0,m≥0;

(3b)将致病基因集合L按照各基因的logFC顺序从小到大排序,并将logFC<0的基因加入到疾病去噪的差异基因集合A的最顶部,将logFC>0的基因加入到疾病去噪的差异基因集合A的最底部,得到差异和致病基因的疾病基因集合B;

(4)分别计算疾病去噪的差异基因集合A与各药物的相关性值向量ASA及差异和致病基因的疾病基因集合B与各药物的相关性值向量ASB

(5)计算疾病去噪的差异基因集合A预测药物的准确度PA,并计算差异和致病基因的疾病基因集合B预测药物的准确度PB

(6)对比步骤(5)得到的准确度PA和PB

若PB高于PA,则增加参数k、m的取值,删除更多的噪声,重复步骤(3)-(5),直到PB≤PA;否则,执行步骤(7);

(7)将当前的疾病去噪的差异基因集合A记为疾病的最优查询基因集合A`,确定疾病最优查询基因集合A`两端的阈值Tup和Tdown

(8)设顶部阈值数目与底部阈值数目之和的总阈值数目的最少值为20,判断当前的顶部阈值数量与底部阈值数量之和是否低于最少值20:若是,则继续从TCGA数据库中下载其他的疾病数据,并采用步骤(3)-步骤(7)得到新下载疾病的两端阈值

Figure BDA0002556935170000042

直到总阈值数目sum不低于20个,再执行(9);否则,直接执行(9);

(9)构建疾病最优差异基因集合阈值的预测模型:

(9a)从标准正态分布中随机取100000个数值点作为背景值,记为向量E,使用Kolmogorov-Smirnov检验统计量J表征疾病基因的差异表达值与100000个背景点之间的分布差异,并将其作为模型的自变量X,用所有疾病的最优查询基因集合的两端阈值Tup和Tdown作为模型的因变量Y;

(9b)根据(9a)得到的参数,构建预测模型为|Y|=aX+b线性模型,其中a为模型的斜率,b为模型的截距;

(10)使用预测模型对其他疾病的最优查询基因集合进行预测,并通过(4)-(5)计算出药物排名前M个药物的准确率PM,再将该M个药物挑选出来,得到所有对疾病具有潜在治疗效果的候选药物,其中,M表示药物数目,M≥10。

本发明与现有技术相比,具有如下优点:

1.本发明由于在获取疾病查询基因集合过程中,加入了致病基因数据,通过结合差异基因和致病基因构建了两种疾病的查询基因集合,充分考虑了致病基因对疾病的影响,并通过对比两种疾病的查询基因集合,对疾病的差异基因进行去噪操作,与现有技术相比,获取了更可靠的疾病查询基因集合。

2.本发明由于使用不低于10种疾病进行了差异基因的去噪,并使用阈值表达基因集合,利用实验的多种疾病数据及其阈值构建最优差异基因集合的预测模型,对其他疾病使用该模型预测其最优的差异基因集合,与现有技术相比,得到了更准确的药物预测准确度。

附图说明

图1为本发明的实现流程图;

图2为用本发明对肉瘤药物重定位预测结果的准确率分布图。

具体实施方式

以下结合附图和具体实施例,对本发明的实施例及效果作进一步详细说明。

本实施例以癌症基因组TCGA数据库中乳腺癌为例,其中使用TCGA数据库中所有存在致病基因的疾病。

参照图1,基于差异表达数据的药物重定位方法,实现步骤如下:

步骤1,下载致病基因数据。

本实例利用OMIM数据库,搜索乳腺癌的致病基因集合,共22个基因,记为集合L。

步骤2,下载基因表达数据,计算各基因表达变化值logFC和对应的假阳性FDR并筛选基因。

2.1)下载乳腺癌数据并计算基因表达变化值logFC:

2.1.1)从TCGA数据库中下载乳腺癌数据的基因表达数据,根据TCGA提供的Barcode编码,对TCGA中基因表达数据的样本种类进行识别,得到癌症病人样本集合和正常人样本集合;

2.1.2)根据下载的乳腺癌数据计算乳腺癌中基因的表达变化值logFC:

Figure BDA0002556935170000051

其中,el表示基因在样本l中的表达值,l表示基因表达数据中的样本序号,当S+1≤l≤S+W时,表示样本l是癌症病人样本,当S+1≤l≤S+W时,表示样本l是正常人样本,S表示癌症病人样本数目,W表示正常人样本数目;

2.2)计算乳腺癌中基因对应的假阳性FDR:

2.2.1)通过乳腺癌中基因表达数据构造基因的表达值向量θ:

θ=(e1,e2,…,el,…,es,es+1,es+2,…,es+f,…,eS+W),

其中,el表示基因在癌症样本l中的表达值,且1≤l≤S,eS+f表示基因在正常人样本S+f中的表达值,且1≤S+f≤W,f表示基因表达数据中正常人的样本序号,S+W表示基因表达数据的总样本数目;

2.2.2)随机打乱乳腺癌中基因的表达值向量θ中样本的序号,得到打乱样本标签后的表达值向量其中,

Figure BDA0002556935170000062

表示打乱标签后基因在癌症样本l中的表达值,表示打乱标签后基因在正常人样本S+f中的表达值;

2.2.3)对向量θ*进行随机试验,计算第v次随机试验中θ*的统计结果值Hv

2.2.4)重复步骤(2.2.3)共1000次,计算各基因表达变化值的统计显著值F:

其中,C表示检验统计量值,P表示随机试验中θ*的统计结果值高于C的集合,|P{HV|HV>C,1≤v≤1000}|表示集合P中元素个数;

2.2.5)将F从小到大排序,计算基因的假阳性FDR:

其中,N表示基因的总数量,i表示基因的排序;

2.3)从基因表达变化值logFC和基因对应的假阳性FDR筛选基因:

2.3.1)分别设定基因表达变化值logFC差异变化的阈值为δ=1.5和假阳性FDR的阈值为α=0.05;

2.3.2)将基因表达变化值logFC和其假阳性FDR与其各自的阈值进行比较,筛选出|logFC|≥1.5,和FDR≤0.05的基因作为乳腺癌的差异表达显著的基因,本实例共选出3166个乳腺癌的差异表达显著基因。

步骤3.构建乳腺癌的两种查询基因集合。

3.1)将筛选后的差异表达显著的基因集合中最顶部的m个基因与最底部的k个基因删除,得到去噪的差异基因集合A,其中k≥0,m≥0,本实例中乳腺癌去噪的差异基因集合A选取的参数为k=0,m=0;

3.2)将乳腺癌的致病基因集合L按照各基因的logFC顺序从小到大排序,并将logFC<0的基因加入到乳腺癌去噪的差异基因集合A的最顶部,将logFC>0的基因加入到乳腺癌去噪的差异基因集合A的最底部,得到乳腺癌的差异和致病基因的疾病基因集合B;

步骤4.分别计算乳腺癌去噪的差异基因集合A与各药物的相关性值向量ASA及乳腺癌的差异和致病基因的疾病基因集合B与各药物的相关性值向量ASB

4.1)计算乳腺癌去噪的差异基因集合A与各药物的相关性值向量ASA

4.1.1)将乳腺癌去噪的差异基因集合A作为Kolmogorov-Smirnov方法的查询列表,将各药物作用下基因的有序列表作为Kolmogorov-Smirnov方法中的参考列表集合;

4.1.2)构造参考列表集合中各基因的位置向量V(1...n),其中,n表示参考列表中基因数目;

4.1.3)将查询列表中logFC>0的基因作为Kolmogorov-Smirnov的上调查询列表Qup,将查询列表中logFC<0的基因作为Kolmogorov-Smirnov的下调查询列表Qdown,对于每一个药物,分别计算上调查询基因集合Qup的富集得分ESup和下调查询基因集合Qdown的富集得分ESdown

Figure BDA0002556935170000071

其中,表示基因在查询列表和参考列表中排名均靠前的得分

表示基因在查询列表排名靠前而在参考列表排名靠后的得分,p表示基因的排名,Vup(p)表示上查询列表中排名为p的基因在参考列表中的位置,s1表示上查询列表中基因的数目;

Figure BDA0002556935170000081

表示基因在查询列表和参考列表中排名均靠后的得分;

表示基因在查询列表排名靠后而在参考列表排名靠前的得分,Vdown(p)表示下查询列表中排名为p的基因在参考列表中的位置,s2表示下查询列表中基因的数目;

4.1.4)根据(4.1.3)上调查询基因集合的富集得分ESup和下调查询基因集合的富集得分ESdown计算疾病去噪的差异基因集合A和各药物的相关性值asA

若ESup与ESdown符号相同,则asA=0,

否则,asA=ESup-ESdown

4.1.5)通过下式对差异基因集合A中所有药物的asA得分进行归一化:

其中,

Figure BDA0002556935170000084

表示乳腺癌去噪的差异基因集合A的第j个药物与疾病的相关性值,1≤j≤q,q表示药物的总个数,

Figure BDA0002556935170000085

表示差异基因集合A中所有药物得分asA的最大值,

Figure BDA0002556935170000086

表示差异基因集合A中所有药物得分asA的最小值,表示差异基因集合A中归一化后第j个药物与疾病的相关性值;

4.1.6)将各药物与其疾病的归一化值进行组合,得到乳腺癌去噪的差异基因集合A与所有药物的相关性值向量:

Figure BDA0002556935170000088

其中,

Figure BDA0002556935170000089

表示乳腺癌去噪的差异基因集合A的第j个药物与疾病的归一化相关性值,1≤j≤q,q表示药物的总个数;

4.2)计算乳腺癌差异和致病基因的疾病基因集合B与各药物的相关性值向量ASB:

4.2.1)将疾病基因集合B作为Kolmogorov-Smirnov方法的查询列表,将各药物作用下基因的有序列表作为Kolmogorov-Smirnov方法中的参考列表集合,采用与(4.1.1)-(4.1.5)相同的步骤计算乳腺癌的差异和致病基因的疾病基因集合B与药物j的归一化相关性值

4.2.2)将各药物与乳腺癌的归一化值进行组合,得到乳腺癌的差异和致病基因的疾病基因集合B与所有药物的相关性值向量:

其中,

Figure BDA0002556935170000093

表示乳腺癌的差异和致病基因的疾病基因集合B的第j个药物与疾病归一化后的相关性值。

步骤5.分别计算疾病去噪的差异基因集合A及差异和致病基因的疾病基因集合B这两个基因集合的预测药物准确度PA和PB

5.1)利用步骤4中乳腺癌去噪的差异基因集合A与所有药物的相关性值向量ASA,计算乳腺癌去噪的差异基因集合A的预测药物准确度PA

5.1.1)根据ASA从小到大的顺序对药物进行排序,得到乳腺癌去噪的差异基因集合A中的第一种有序药物序列RA

5.1.2)根据步骤4中乳腺癌去噪的差异基因集合A与所有药物的相关性值向量ASA计算相关性值向量ASA的绝对值:

Figure BDA0002556935170000094

其中,表示差异基因集合A中第j个药物与疾病的相关性得分的绝对值,1≤j≤q,q表示药物的总个数;

5.1.3)按照绝对值|ASA|由大到小的规则,对所有药物进行排序,得到乳腺癌去噪的差异基因集合A的第二种有序的药物序列ARA

5.1.4)从药物毒性数据库CTD中下载与乳腺癌相关的药物集合Ω,作为与乳腺癌有关的标准药物集合;

5.1.5)根据乳腺癌去噪的差异基因集合A中的两种药物排序RA和ARA和乳腺癌的标准药物集合Ω,计算乳腺癌的第一种药物排序RA的准确度PA1和乳腺癌的第二种药物排序ARA的准确度PA2

其中,MA1表示在药物排序RA中排名靠前的药物数量,UA1表示MA1个药物中在药物集合Ω中的数量,MA2表示在药物排序ARA中排名靠前的药物数量,UA2表示MA2个药物中在药物集合Ω中的数量;

5.1.6)比较PA1和PA2的大小,若PA1≥PA2,则乳腺癌去噪的差异基因集合A进行药物预测的准确度PA=PA1,否则,PA=PA2

5.2)根据步骤4中差异和致病基因的疾病基因集合B与所有药物的相关性值向量ASB计算预测药物的准确度PB

5.2.1)根据差异和致病基因的疾病基因集合B与所有药物的相关性值向量ASB,采用与(5.1.1)-(5.1.5)相同的步骤,得到乳腺癌的差异和致病基因的疾病基因集合B在两种排序下的准确度PB1和PB2

5.2.2)比较PB1和PB2的大小,若PB1≥PB2,则乳腺癌的差异和致病基因的疾病基因集合B进行药物预测的准确度PB=PB1,否则,PB=PB2

步骤6.对比乳腺癌的两种查询基因集合A、B预测药物的准确度PA和PB

将乳腺癌去噪的差异基因集合A预测药物的准确度PA与差异和致病基因的疾病基因集合B预测药物的准确度PB进行对比:

若PB高于PA,则增加参数k、m的取值,删除更多的噪声,再重复步骤3-步骤5,直到PB≤PA

否则,执行步骤7;

步骤7.将当前的乳腺癌去噪的差异基因集合A记为乳腺癌的最优查询基因集合A`,确定乳腺癌最优查询基因集合A`两端的阈值Tup和Tdown

7.1)为步骤2得到的基因集合构建两个正态分布:

7.1.1)为基因集合中logFC>0的基因构建关于logFC=1.5对称的正态分布:

(logFCg)down=-logFCg+3,logFCg>0,

其中,logFCg表示基因g的表达变化值,(logFCg)down表示通过已有的基因g构建的关于logFC=1.5对称的值;

7.1.2)为基因集合中logFC<0的基因构建关于logFC=-1.5对称的正态分布:

(logFCg)up=-logFCg-3,logFCg<0,

其中,(logFCg)up表示通过已有的基因g构建的关于logFC=-1.5对称的值;

7.2)计算(7.1.1)中关于logFC=1.5对称的正态分布的均值μdown和标准差σdown:

Figure BDA0002556935170000111

其中,G表示正态分布中的基因数目;

7.3)计算(7.1.2)中关于logFC=-1.5对称的正态分布的均值μup和标准差σup

Figure BDA0002556935170000113

7.4)将乳腺癌最优查询基因集合A′中logFC的最大值和最小值分别记为(logFC)max与(logFC)min,根据(7.2)-(7.3)的结果计算对应的阈值Tup和Tdown

本实例中,乳腺癌确定的最优差异基因集合A′的底部基因阈值Tup=2.03,最优差异基因集合A′的顶部基因阈值Tdown=-1.56;

步骤8.根据当前的顶部阈值数量与底部阈值数量之和确定是否下载其他的疾病数据。

8.1)将当前的顶部阈值数量与底部阈值数量相加,得到总阈值数目sum;

8.2)设定顶部阈值数目与底部阈值数目之和的总阈值数目的最少值为20;

8.3)将总阈值数目sum与设定的总阈值数目最少值20进行比较:

若sum<20,则继续从TCGA数据库中下载其他的疾病数据,并采用步骤3-步骤7得到新下载疾病的两端阈值直到总阈值数目sum不低于20个,再执行步骤9;

否则,直接执行步骤9。

步骤9.构建疾病最优差异基因集合阈值的预测模型。

9.1)确定预测模型的自变量X与因变量Y:

9.1.1)从标准正态分布中随机取100000个数值点作为背景值,记为向量E;

9.1.2)使用Kolmogorov-Smirnov检验统计量J表征疾病基因的差异表达值与向量E之间的分布差异,并将其作为模型的自变量X;

9.1.3)将所有疾病的最优查询基因集合的两端阈值Tup和Tdown作为模型的因变量Y;

9.2)根据(9.1)得到的参数,构建预测模型为|Y|=aX+b线性模型,其中a为模型的斜率,b为模型的截距,a和b的取值通过下式计算:

其中,

Figure BDA0002556935170000125

表示自变量X的均值

Figure BDA0002556935170000126

表示因变量Y的绝对值均值

Figure BDA0002556935170000128

D表示用于构建预测模型的自变量和因变量的数量,Xd表示自变量中第d个值,Yd表示因变量中第d个值。

本实例中,预测模型为:|Y|=14.889X+1.182。

步骤10.预测肉瘤的最优查询基因集合并进行药物预测。

10.1)使用步骤9构建的预测模型对肉瘤的最优查询基因集合进行预测,并将预测的肉瘤最优查询基因集合作为Kolmogorov-Smirnov的输入集合,再通过步骤4-步骤5计算出药物排名前M个药物的准确率PM

10.2)将(10.1)中药物排名的前M个药物挑选出来,得到所有对疾病具有潜在治疗效果的候选药物,其中,M表示药物数目,M≥10。

本实例中,将准确度为P20的所有药物排名前20个即M=20的药物挑选出来,得到对肉瘤具有潜在治疗效果的候选药物。

以下结合仿真实验,对本发明的技术效果进行描述。

1、仿真条件:

仿真实验的计算机硬件CPU为Intel Core(TM)i5、计算机硬件的内存为4G,计算机软件:WINDOWS 7V系统上RStudio集成开发软件。

2、仿真内容:

用本发明方法对大肠腺癌、乳腺癌、肺腺癌、肺鳞状细胞癌、肝细胞癌、***癌、胰腺导管腺癌、膀胱尿路上皮癌、胶质母细胞瘤和头颈部鳞状稀细胞癌的差异表达的基因进行筛选,得到最优差异基因集合的上、下调基因阈值,并构建模型;再使用该模型对疾病肉瘤的潜在治疗药物预测结果各排名段的准确率分布进行仿真实验,其结果如图2所示。图2中的纵轴表示肉瘤药物重定位预测结果各排名段的准确率,横轴表示药物的数目。

从图2可以看出,排名前10的药物的预测结果准确率达到90%,排名前20的药物的预测结果的准确率均达到了70%。从肉瘤药物预测结果的准确率可以看出,本发明有效地提高了药物重定位预测结果的准确率。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于多层网络表示学习的药物靶标相互作用预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!