构建骨髓增生异常综合征转白基因预测模型的方法

文档序号:1939956 发布日期:2021-12-07 浏览:13次 >En<

阅读说明:本技术 构建骨髓增生异常综合征转白基因预测模型的方法 (Method for constructing myelodysplastic syndrome whitening gene prediction model ) 是由 侯珺 杜欣 孙启慧 于 2021-08-31 设计创作,主要内容包括:本发明公开了一种构建骨髓增生异常综合征转白基因预测模型的方法,包括以下步骤:收集高危MDS患者的样本及其预后数据;提取样本DNA并测序,获得突变谱;利用oncodriveCLUST函数和dndscv函数,将突变谱与现有高危MDS患者DNA测序数据库比对,将两种方法都比对到的基因定义为高危MDS组驱动基因;以各训练样本的高危MDS组驱动基因突变标记作为输入,对SVM分类器模型进行训练,完成模型的构建。本发明的模型构建方法从分子层面对疾病转白风险进行预测,不局限于骨髓增生异常综合征亚型的不同,对于所有成人患者可得到较精确的预测。(The invention discloses a method for constructing a myelodysplastic syndrome whitening gene prediction model, which comprises the following steps: collecting samples of high-risk MDS patients and prognosis data thereof; extracting and sequencing sample DNA to obtain a mutation spectrum; comparing the mutation spectrum with the DNA sequencing database of the existing high-risk MDS patient by using an oncotrivecCLUST function and a dndscv function, and defining the genes compared by the two methods as the driving genes of the high-risk MDS group; and (3) training the SVM classifier model by taking the high-risk MDS group driving gene mutation mark of each training sample as input to complete the construction of the model. The model construction method of the invention predicts the risk of disease turning white from molecular layer surface, is not limited to the difference of myelodysplastic syndrome subtypes, and can obtain more accurate prediction for all adult patients.)

构建骨髓增生异常综合征转白基因预测模型的方法

技术领域

本发明属于生物医学领域,具体涉及一种构建骨髓增生异常综合征转白基因预测模型的方法。

背景技术

骨髓增生异常综合征(myelodysplastic syndromes,MDS)是一组起源于造血干细胞的临床常见血液系统恶性肿瘤,以难治性血细胞减少及无效造血以及高风险向急性髓细胞性白血病(acute myeloid leukemia,AML)进展为特征。患者有转化为白血病的可能。但由于个体异质性,不同患者白血病转化率及时间各异,故而临床上迫切需要有良好预测作用的指标。

与骨髓增生异常综合征白血病转化相关的因素主要包括性别、年龄等患者因素,以及疾病分型、血细胞数、基因突变、基因表达及表观遗传改变等疾病因素。目前临床常用的国际预后积分系统(IPSS)、WHO分型预后积分系统(WPSS)和修订的国际预后积分系统(R-IPSS)等系统从骨髓原始细胞比例、流式细胞学、细胞遗传学改变及血细胞减少程度等方面对患者进行预后评分并分组可对白血病转化进行预测。其中,细胞遗传学异常在分型分组中所占比重日益加重,如临床常见的del(5q)、del(20q)、-7、+8、-Y等已被应用于预后分期。

然而值得注意的是在临床实践中,患者的临床表现及治疗效果差异仍较大,即便在同一分型和同一预后组中亦然。这表明目前纳入分型分级标准的临床和细胞遗传特征对于揭示MDS的疾病本质尚且不足,新的分子层面的研究亟待开展以助于进一步深入了解疾病的致病机制,从而更精准预测MDS的白血病转化率。

发明内容

本发明的目的在于提供一种构建骨髓增生异常综合征转白基因预测模型的方法。

本发明的目的通过下述技术方案实现:

一种构建骨髓增生异常综合征转白基因预测模型的方法,包括以下步骤:

(1)收集高危MDS患者的样本及其预后数据;提取样本DNA并测序,获得突变谱;将高危MDS患者的样本作为训练样本;

所述的高危MDS患者是依据IPSS分型确定的;

所述的样本为骨髓穿刺样品、血液,或其他组织;

所述测序的方法包括sanger测序、ARMS-PCR(Amplification RefractoryMutation System PCR)、MASS-PCR(Mutation-Selected Amplification SpecificSystem)、全基因组测序、全外显子测序以及小队列靶向测序;

所述的突变包括错义突变、无义突变、框移插入、框移缺失、非框移插入,非框移缺失及剪切位点突变,排除内含子变异及同义突变;

(2)利用oncodriveCLUST函数和dndscv函数,将步骤(1)获得的突变谱与现有高危MDS患者DNA测序数据库比对,将两种方法都比对到的基因定义为高危MDS组驱动基因;

所述的高危MDS组驱动基因为CBL、EZH2、RUNX1、IDH1、ASXL1、TET2、TP53、SRSF2、IDH2和JAK2;

(3)将训练样本中的高危MDS组驱动基因选取出,并且进行突变标记,当存在突变时标记为A1,不存在突变时标记为A2;以各训练样本的高危MDS组驱动基因突变标记作为输入,对SVM分类器模型进行训练,完成模型的构建;

所述步骤(3)中,A1为1,A2为0,或者A1为1,A2为0;

SVM分类器模型可以选取0.5为阈值对样本进行预测,当样本预测值≥0.5,预测该样本为高风险转白;当样本预测值<0.5,预测该样本为低风险转白;

所述步骤(3)中,优选通过sample函数随机从入组高危MDS组样本中选取70%患者作为训练集,将其驱动基因的突变标记作为输入,对SVM分类器模型进行训练,再用剩余30%样本的预测值进行验证;

所述步骤(3)中,针对各训练样本,还提取出临床信息,包括原始细胞数、血细胞计数、细胞遗传学异常等指标,在训练时,将训练样本的高危MDS组驱动基因突变与临床信息融合后作为输入,对SVM分类器模型进行训练。

优选地,在步骤(2)获取高危MDS组驱动基因后,利用Lasso多重回归方法得到Bonferroni校正后与白血病转化显著相关的突变基因,建立改进的wGRS模型:

wGRS=β1S1+β2S2+,…,+βnSn+a;

a为常数;S1至Sn为与白血病转化显著相关的各突变基因,β1至βn为对应权重;

根据改进的wGRS模型进行转白风险预测,预测得分<0.5为高风险转白,预测得分>0.5为低风险转白;

优选地,与白血病转化显著相关的突变基因为:CBL、EZH2、IDH1和TP53;

所述改进的wGRS模型为:

wGRS=-0.3459*CBL-0.1989*EZH2-0.2663*IDH1+0.2174*TP53+0.5996。

本发明相对于现有技术具有如下的优点及效果:

相对于已有的针对骨髓增生异常综合征白血病转化的预测指标,本发明的模型构建方法从分子层面对疾病转白风险进行预测,不局限于骨髓增生异常综合征亚型的不同,对于所有成人患者可得到较精确的预测,对于高危患者进行早期干预,延缓疾病进展,且有助于后续治疗靶向药物的选择,有较高临床实用性。

附图说明

图1是实施例中lasso回归最小CP值的选择图,最小cp值为4。

图2是实施例中lasso回归中不同自变量选入顺序;不同的线代表不同自变量,竖线对应于lasso中迭代的次数,对应的系数值不为0的自变量即为选入的自变量。

图3是实施例中lasso回归模型的AUC曲线图。

具体实施方式

下面结合实施例及附图对本发明作进一步详细的描述,但本发明的实施方式不限于此。

实施例

骨髓增生异常综合征转白早期预测模型的建立

1)收集广东省人民医院血液科2018年1月至2019年12月的22例髓系肿瘤患者治疗前的骨髓穿刺样本,入组患者均根据IPSS分型被诊断为高危MDS患者,其中11例在随访期间进展为白血病,其余11例未进展为白血病。

2)收集20ng骨髓穿刺液提取基因组DNA,应用Ion ProtonTM Sequencer进行上机测序。对所得数据分别通过Samtools-1.8和Picard-2.19等软件进行排序、去除PCR重复和构建索引。接着,利用bcftools mpileup联合bcftools call进行变异检测(callvariation)。

3)变异识别软件bcftools找到的变异为以(VCF,Variant Call Format)格式储存,以QUAL<20and MQ<40为指标过滤低质量值数据。并用refGene、cytoBand、avsnp150、esp6500siv2_all、1000g2015aug_all、1000g2015aug_eas、dbnsfp30a、cosmic70、exac03、clinvar_20140929等数据库注释变异及氨基酸突变分析。

4)驱动基因:利用cbioportal数据库中MSKCC数据集153例高危MDS患者DNA测序数据,通过R包“maftools”中oncodriveCLUST函数及R包“dndscv”进行驱动基因的检测(结果如表1和表2所示)。将两种方法检测到的共有驱动基因定义为高危MDS组驱动基因,并应用于后续分析。

汇总表1和表2,高危MDS组驱动基因为CBL、EZH2、RUNX1、IDH1、ASXL1、TET2、TP53、SRSF2、IDH2和JAK2。

5)入组的22例高危MDS患者驱动基因的突变情况如下(如表3所示);

表3

AML CBL EZH2 RUNX1 IDH1 ASXL1 TET2 TP53 SRSF2 IDH2 JAK2
Y 1 0 0 0 0 0 0 0 0 0
Y 1 1 0 0 0 0 0 0 0 0
Y 0 1 0 0 0 0 0 0 0 0
Y 0 1 1 0 1 0 0 0 0 0
Y 0 0 0 0 1 0 0 0 0 0
Y 0 0 0 0 0 1 0 0 0 0
Y 0 1 0 0 0 0 0 0 0 0
Y 1 0 1 0 1 0 0 0 0 0
Y 1 1 1 0 0 0 0 0 0 0
Y 0 0 0 1 0 0 0 0 1 0
Y 0 0 1 0 0 0 0 1 0 0
N 0 0 0 0 0 1 0 0 0 0
N 0 0 0 0 1 0 0 0 0 1
N 0 1 0 0 0 0 0 0 0 0
N 0 0 0 0 1 1 1 0 0 0
N 0 0 0 0 0 1 1 0 0 1
N 0 0 1 0 0 0 0 1 0 0
N 0 0 1 0 0 0 1 0 0 0
N 0 0 1 0 0 0 0 0 0 0
N 0 0 1 0 0 0 0 0 0 0
N 0 0 0 0 0 0 0 0 1 0
N 0 0 0 0 0 1 0 0 0 0

注:Y指该患者在随访期内发生白血病进展,N指该患者在随访期内未发生白血病进展;“1”指该样本在该基因发生突变,“0”表示该样本在该基因未发生突变

6)利用R 3.6.1中sample函数随机选取其中14例MDS样本的10个基因突变有无作为训练集,利用R包“e1071”进行SVM分类器模型训练,根据训练集结果选取0.5为预测阈值,将样本分为疾病转白和疾病未转白两组(如表4所示)。

表4

样本 SVM预测值 预测结果 临床结果 一致性
S1 0.0516901 低风险进展 未转白 一致
S2 0.052018222 低风险进展 未转白 一致
S3 0.180939376 低风险进展 未转白 一致
S4 0.19531375 低风险进展 未转白 一致
S5 0.344135252 低风险进展 未转白 一致
S6 0.750653047 高风险进展 未转白 不一致
S7 0.750653047 高风险进展 转白 一致
S8 0.947917056 高风险进展 未转白 不一致
S9 0.947917056 高风险进展 转白 一致
S10 0.947917056 高风险进展 转白 一致
S11 0.948101223 高风险进展 转白 一致
S12 0.948182257 高风险进展 转白 一致
S13 0.948243325 高风险进展 转白 一致
S14 0.948380951 高风险进展 转白 一致

7)在剩余8例样本中验证此模型的分类效能(如表5所示)。

表5

样本 SVM预测值 预测结果 临床结果 一致性
S1 0.36484287 低风险进展 未转白 一致
S2 0.441575904 低风险进展 未转白 一致
S3 0.461959559 低风险进展 未转白 一致
S4 0.461959559 低风险进展 未转白 一致
S5 0.461959559 低风险进展 转白 不一致
S6 0.624852621 高风险进展 转白 一致
S7 0.654242169 高风险进展 转白 一致
S8 0.948182257 高风险进展 转白 一致

8)为了进一步确认MDS中与白血病转化相关性更强的基因,利用Lasso多重回归方法得到Bonferroni校正后与白血病转化显著相关的突变基因,为:CBL、EZH2、IDH1和TP53,建立改进的wGRS模型(如图1-图3所示);把每个纳入的突变基因都当作变量S,根据得到的每个基因的权重值β,于是改进的wGRS模型表示为各变量与自己的权重乘积之和;

wGRS=-0.3459*CBL-0.1989*EZH2-0.2663*IDH1+0.2174*TP53+0.5996。

上述步骤7)的实现代码可以如下:

library(lars)

SVM51$AML=as.numeric(SVM51$AML)

x=as.matrix(SVM51[,2:10])

y=as.matrix(SVM51[,1])

lar1<-lars(x,y,type="lasso")

plot(lar1)

summary(lar1)

lar1$Cp[which.min(lar1$Cp)]

lar1$beta

coef<-coef.lars(lar1,mode="step",s=5)

coef[coef!=0]

predict(lar1,data.frame(CBL=0,EZH2=0,TP53=0,IDH1=0,ASXL1=0,SRSF2=0,IDH2=0,RUNX1=0,TET2=0),s=5)

根据所改进模型进行转白风险预测,预测得分<0.5为高风险转白,预测得分≥0.5为低风险转白,如表6所示。

表6

AML CBL EZH2 IDH1 TP53 得分 预测值 一致性
Y 1 0 0 0 0.2537 Y 一致
Y 1 1 0 0 0.0548 Y 一致
Y 0 1 0 0 0.4007 Y 一致
Y 0 1 0 0 0.4007 Y 一致
Y 0 1 0 0 0.4007 Y 一致
Y 1 0 0 0 0.2537 Y 一致
Y 1 1 0 0 0.0548 Y 一致
Y 0 0 1 0 0.3333 Y 一致
N 0 1 0 0 0.4007 Y 不一致
N 0 0 0 1 0.817 N 一致
N 0 0 0 1 0.817 N 一致
N 0 0 0 1 0.817 N 一致

注:Y指该患者在随访期内发生白血病进展,N指该患者在随访期内未发生白血病进展;“1”指该样本在该基因发生突变,“0”表示该样本在该基因未发生突变

上述实施例为本发明较佳的实施方式,但本发明的实施方式并不受上述实施例的限制,其他的任何未背离本发明的精神实质与原理下所作的改变、修饰、替代、组合、简化,均应为等效的置换方式,都包含在本发明的保护范围之内。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种单体聚合酶定向进化识别不同启动子的模拟预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!