一种结肠腺癌基因组变异与肿瘤进化关系的研究方法

文档序号:1075099 发布日期:2020-10-16 浏览:9次 >En<

阅读说明:本技术 一种结肠腺癌基因组变异与肿瘤进化关系的研究方法 (Method for researching colon adenocarcinoma genomic variation and tumor evolution relation ) 是由 祝让飞 于 2019-12-30 设计创作,主要内容包括:本发明涉及基因组变异技术领域,且公开了一种结肠腺癌基因组变异与肿瘤进化关系的研究方法,包括以下步骤:S1、数据下载;S2、数据预处理:TCGA数据预处理:A、对TCGA的临床样本数据做以下预处理:a、去掉没有临床信息或者生存时间小于30天的样本;b、去掉正常组织样本数据;B、对突变数据做以下预处理:a、去掉silent和intron突变位点。该种结肠腺癌基因组变异与肿瘤进化关系的研究方法,收集来自TCGA的结肠腺癌(COAD)基因组的数据,并从其体细胞突变(SSNV)和拷贝数变异(SCNV)的组库中推断出每个肿瘤样本的克隆(亚克隆)组成,利用该肿瘤克隆系统发育数据,进一步评估肿瘤内异质性与基因组不稳定性关系,从而使这些特征可以作为潜在肿瘤复杂性的标志。(The invention relates to the technical field of genome variation, and discloses a method for researching the evolution relationship between colon adenocarcinoma genome variation and tumors, which comprises the following steps: s1, downloading data; s2, preprocessing data: pretreatment of TCGA data: A. clinical sample data of TCGA were pretreated as follows: a. removing samples without clinical information or with survival time less than 30 days; b. removing normal tissue sample data; B. mutation data were pre-processed as follows: a. the silent and intron mutation sites were removed. The method for researching the colon adenocarcinoma genomic variation and tumor evolution relation collects data of a colon adenocarcinoma (COAD) genome from TCGA, deduces the clone (subclone) composition of each tumor sample from a group library of somatic mutation (SSNV) and copy number variation (SCNV) of the colon adenocarcinoma, and further evaluates the relation between heterogeneity and genomic instability in tumors by using the phylogenetic data of the tumor clones, so that the characteristics can be used as a marker of potential tumor complexity.)

一种结肠腺癌基因组变异与肿瘤进化关系的研究方法

技术领域

本发明涉及基因组变异技术领域,具体为一种结肠腺癌基因组变异与肿瘤进化关系的研究方法。

背景技术

癌症的发展是由体细胞改变的逐步积累驱动的,并且在肿瘤进化的不同阶段获得的突变可能与不同的临床结果相关,癌细胞所表现出的大量此类改变,通常由DNA修复途径的缺陷或外部诱变剂(例如吸烟或紫外线辐射)驱动,高度改变的细胞被称为基因组不稳定,基因组不稳定性的主要后果是单个肿瘤通常由已经积累了不同改变的细胞(亚克隆)组成,这种多样性被称为肿瘤内异质性。

由于每个肿瘤都是多个克隆的复合体,这可能对肿瘤转移和治疗反应有很大影响,因此需要对基因组不稳定性于肿瘤内异质性之间的关系进行研究。

发明内容

(一)解决的技术问题

针对现有技术的不足,本发明提供了一种结肠腺癌基因组变异与肿瘤进化关系的研究方法,具备利用该肿瘤克隆系统发育数据,进一步评估肿瘤内异质性与基因组不稳定性关系等优点,解决了背景技术提出的问题。

(二)技术方案

为实现上述利用该肿瘤克隆系统发育数据,进一步评估肿瘤内异质性与基因组不稳定性关系的目的,本发明提供如下技术方案:一种结肠腺癌基因组变异与肿瘤进化关系的研究方法,包括以下步骤:

S1、数据下载;

S2、数据预处理:

TCGA数据预处理:

A、对TCGA的临床样本数据做以下预处理:

a、去掉没有临床信息或者生存时间小于30天的样本;

b、去掉正常组织样本数据;

B、对突变数据做以下预处理:

a、去掉silent和intron突变位点;

b、去掉超突变样本(hyper-mutated samples);

C、对CNV数据做以下预处理:

a、去掉CNV区间>1Mb的数据;

b、实用GRh38版本的gencode.v22将CNV区间匹配到对应的基因;最终得到319个满足条件的样本;

S3、COAD基因组编译特征:

a、评估样本的纯净度(purity)、染色体倍性(ploidy):

首先使用ABSOLUTE算法计算每个样本的purity、ploidy和absolute DNA copynumber;第二步整合所有可能的mutation multiplicities(m:1to local absolute copynumber)和p(AF)评估CCF的概率;

b、基因组突变signature分析;

使用NMF中的brunet算法来鉴定SNV signature,分别评估k=2-10时(即SNVsignature在2-10个)cophenetic和rss,根据这两个指标选择k=3 即3个SNV signatures为最优数量,根据三核苷酸突变模式,得到3个SNV signature,定义为Signature A-C,基于CCF将SSNV分成clonal events和 sub-clonal events,比较这两类SSNV在3个突变signature的贡献,计算 signature A-C在每个样本的贡献程度,计算3个signatures与COSMIC mutational signatures的相似性(使用相关系数表示);

S4、克隆与亚克隆变异分析:

利用gencode v22的坐标位置将CNV对应到特定的基因,整合SCNV和SSNV 的clonal/sub-clonal events数据,分析COAD样本的clonal和sub-clonal 结构,取SCNV和SSNV在所有样本中出现次数>5%的基因,分别得到47个发生频次最高的SCNV基因和76个发生SSNV的基因;

S5、突变与肿瘤进化的时间顺序关系分析:

首先根据CCF值对突变频次最高的47个SCNA和76个SSNV进行排序,利用来自于同一个样本的clonal events和sub-clonal events,构建肿瘤进化过程中突变可能出现的时序,当clonal events和sub-clonal events出现在同一个样本时,则在两者之间建立一个连线(edge),对所有样本均进行同样的分析,最终得到一个具有特定指向的基因网络,网络的节点(node) 代表基因,而边(edge)表示两个基因之间存在clonal与sub-clonal关系,根据每个节点(基因)的in-edges和out-edges数量进行富集分析,fisher exact test进行显著性检验,BH方法计算FDR,对于SSNV和SCNV将FDR<0.05 且out-edges>in-edges的节点(基因),定义为早期(Early)出现的基因;同样的将FDR<0.05且in-edges>out-edges的节点,定义为晚期(Late) 出现的基因;其他情况的基因定义为中期(Intermediate)出现的基因,这里分别对SCNA和SSNV的temporal order进行推断,去掉部分有冲突的 edges,最终得到115个SCNA pairs和2201个SSNV pairs;

S6、克隆或亚克隆事件与预后的关系:

使用kaplan-meier方法分析47个高频SCNA基因和76个高频SSNV基因的clonal状态与总生存的预后关系(突变数量>5%),取log rank test p <0.1,分别得到1个与总生存率有较显著关系的早期基因,12个中期基因和 1个晚期基因;

S7、克隆或亚克隆事件与临床特征的关系:

基于前文方法得到SCNA和SSNV的clonal events,结合TCGA提供的临床信息,分析clonal events与sub-clonal events与临床特征的关系,分析clonal/sub-clonal events在TNM、stage、age、gender和组织类型上的差异;

S8、克隆或亚克隆事件与肿瘤突变负荷(TMB)/新抗原(Neoantigens) 的关系;

分析clonal/sub-clonal events与TMB和neoantigen的关系,使用 spearman方法评估它们之间的相关性,进一步评估MMR基因发生突变的样本 (YES)与未发生突变的样本(NO)之间的clonal/sub-clonal差异;

S9、总结:

A、突变signature分析将TCGA COAD样本的突变分成3个显著差异的 signatures,通过与COSMIC中30个已知的signatures进行比较;

B、通过对SCNA和SSNV的clonal/sub-clonal events分析,鉴定COAD 突变clonal/sub-clonal状态;

C、取在5%以上的样本中发生突变的基因,分别得到47个SCNA和76 个SSNV高频突变基因;

D、利用clonal/sub-clonal events对突变与肿瘤进化的关系进行分析,得到一组在肿瘤进化的early、intermediate、late时期出现突变的基因;

E、使用单因素cox回归分析方法研究clonal/sub-clonal状态与预后的关系,分别得到1个与总生存率有较显著关系的早期基因,12个中期基因和1个晚期基因;

F、临床特征与clonal/sub-clonal events的关系比较复杂,N和Stage 分期在clonal events数量上存在显著差异,复发组与未复发组在clonal events数量上也存在显著差异;

G、clonal events与TMB/Neoantigens存在显著相关性。

优选的,所述S1中的数据来源为癌症基因图谱(TCGA)的转录组测序技术(RNA-Seq)数据、拷贝数变异数据和临床随访信息数据。

优选的,所述S2中超突变样本的定义是每Mb突变数量超过11.4个。

优选的,所述S3的步骤a中,针对每一个SCNV和SSNV,根据p(CCF 大于0.85)大于0.5将其归类为clonal events,反之则归为sub-clonal events,其中CCF为cancer cellfraction。

优选的,所述S4中使用ABSOLUTE算法,评估COAD的copy number variation情况,首先对ABSOLUTE得到的CNV进行筛选,保留满足以下条件的CNV区间:

1)modal CN<2(Loss)或modal CN>2(Gain);

2)CNV区间<1Mb。

(三)有益效果

与现有技术对比,本发明具备以下有益效果:

该种结肠腺癌基因组变异与肿瘤进化关系的研究方法,收集来自TCGA的结肠腺癌(COAD)基因组的数据,并从其体细胞突变(SSNV)和拷贝数变异 (SCNV)的组库中推断出每个肿瘤样本的克隆(亚克隆)组成,利用该肿瘤克隆系统发育数据,进一步评估肿瘤内异质性与基因组不稳定性关系,从而使这些特征可以作为潜在肿瘤复杂性的标志。

附图说明

图1为本发明研究方法流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

请参阅图1,一种结肠腺癌基因组变异与肿瘤进化关系的研究方法,包括以下步骤:

S1、数据下载;

进一步的,S1中的数据来源为癌症基因图谱(TCGA)的转录组测序技术 (RNA-Seq)数据、拷贝数变异数据和临床随访信息数据;

S2、数据预处理:

TCGA数据预处理:

D、对TCGA的临床样本数据做以下预处理:

a、去掉没有临床信息或者生存时间小于30天的样本;

b、去掉正常组织样本数据;

E、对突变数据做以下预处理:

a、去掉silent和intron突变位点;

b、去掉超突变样本(hyper-mutated samples);

F、对CNV数据做以下预处理:

a、去掉CNV区间>1Mb的数据;

b、实用GRh38版本的gencode.v22将CNV区间匹配到对应的基因;

最终得到319个满足条件的样本;

进一步的,S2中超突变样本的定义是每Mb突变数量超过11.4个;

S3、COAD基因组编译特征:

a、评估样本的纯净度(purity)、染色体倍性(ploidy):

首先使用ABSOLUTE算法计算每个样本的purity、ploidy和absolute DNA copynumber,对于每一个突变位点(包括CNV和SNV),可以使用突变reads 数量、未突变reads数量、tumor purity和局部CNV来评估CCF的概率分布密度,第一步首先计算tumor DNAproportion,然后根据二项概率密度分布计算allele fraction(AF)概率,这一步将normalcell component的影响去除,得到p(AF);第二步整合所有可能的mutationmultiplicities(m:1 to local absolute copy number)和p(AF)评估CCF的概率,对于SSNV,最终分别得到24486/6046个clonal/sub-clonal events(80.2%),对于SCNV 则为96836/3223clonal/sub-clonal events(96.8%),比较SSNV和SCNV 的clonal与sub-clonal数量分布,发现SCNV的sub-clonal数量显著偏少 (fisher test p<1e-5);

进一步的,S3的步骤a中,针对每一个SCNV和SSNV,根据p(CCF大于0.85)大于0.5将其归类为clonal events,反之则归为sub-clonal events,其中CCF为cancer cellfraction;

b、基因组突变signature分析;

突变signature可以反映先前暴露于不同致癌物的潜在影响,以及在 COAD肿瘤中与DNA损伤和修复过程相关的一些特征变化,使用NMF中的 brunet算法来鉴定SNVsignature,为了保证鉴定到最优数量的SNV signatures,分别评估k=2-10时(即SNVsignature在2-10个)cophenetic 和rss,根据这两个指标选择k=3即3个SNV signatures为最优数量,根据三核苷酸突变模式,得到3个SNV signature,定义为Signature A-C,从碱基突变模式来看,signature A的六种碱基突变模式构成比例差别较小,没有观察到显著突出的三核苷酸碱基突变模式,但相对于B和C,T>A、T>C和T>G 在signature A上占比要显著高,signature B和C主要则主要由C>T构成,但C>T的16个三核苷酸突变模式在signature B上构成比例普遍较高,而对于signature C只有C>T的部分三核苷酸突变模式占比显著突出,此外C>G 突变模式在signature C上几乎没有,基于CCF将SSNV分成clonal events 和sub-clonal events,比较这两类SSNV在3个突变signature的贡献,观察到了显著差异,比如signature A的sub-clonal events比例显著高于 clonal events,表明clonal events和sub clonal events在突变模式上存在偏好性,为了评估突变signature的异质性,计算signature A-C在每个样本的贡献程度(该值越大表明signature在该样本所占比例越高),发现 signature C在大部分样本中占比普遍很高,而signature A、C则只在特定样本中占比高,利用COSMIC提供的已知的30个突变signatures,计算3个 signatures与COSMICmutational signatures的相似性(使用相关系数表示),发现signature A与signature 3和signature 22相似性最好,signature B 与signature 2、signature 7和signature 11,signature C与signature 1 具有很高的相似性,signature 2已在22种癌症类型中都有发现,但最常见于***和膀胱癌,signature 2的出现与AID/APOBEC家族胞苷脱氨酶的活性有关,且通常与signature 13一起出现在相同的样本中,与观察一致, signature 2和13常见于某些存在局部超突变现象的癌症中,也观察到TCGA 的COAD cohort存在部分超突变样本(80个样本的突变>11.4/Mb),Signature 1在所有癌症类型和大多数癌症样本中都有发现,是5-甲基胞嘧啶的自发脱氨作用引发的内源性突变形成的,其突变的数量与癌症诊断的年龄相关;

S4、克隆与亚克隆变异分析:

为便于后续分析,再利用gencode v22的坐标位置将CNV对应到特定的基因,整合SCNV和SSNV的clonal/sub-clonal events数据,分析COAD样本的clonal和sub-clonal结构,取SCNV和SSNV在所有样本中出现次数>5%的基因,分别得到47个发生频次最高的SCNV基因和76个发生SSNV的基因,从结果看,TP53、TTN、APC、KRAS和PIK3CA等基因在样本间发生突变数量最高(>20%),并且主要为clonal events,预示着这些基因更可能作为早期突变事件而出现;而RBL1基因在样本间出现CNV(Gain)的数量最高(最高为 29%),也主要以clonal events为主;

进一步的,S4中使用ABSOLUTE算法,评估COAD的copy number variation情况,首先对ABSOLUTE得到的CNV进行筛选,保留满足以下条件的CNV区间:

1)modal CN<2(Loss)或modal CN>2(Gain);

2)CNV区间<1Mb;

S5、突变与肿瘤进化的时间顺序关系分析:

为了分析COAD发生、发展过程中涉及到的突变,首先根据CCF值对突变频次最高的47个SCNA和76个SSNV进行排序,整体上看SCNV的CCF显著高于SNV的CCF(rank test p<1e-5,mean ccf:0.9326/0.9154),并且 SCNV主要为Gain,Loss占比很少(Gain/Loss:1068/71),利用来自于同一个样本的clonal events和sub-clonal events,构建肿瘤进化过程中突变可能出现的时序,当clonal events和sub-clonal events出现在同一个样本时,则在两者之间建立一个连线(edge),对所有样本均进行同样的分析,最终得到一个具有特定指向的基因网络,网络的节点(node)代表基因,而边(edge)表示两个基因之间存在clonal与sub-clonal关系,根据每个节点(基因)的in-edges和out-edges数量进行富集分析,fisherexact test 进行显著性检验,BH方法计算FDR,对于SSNV和SCNV将FDR<0.05且 out-edges>in-edges的节点(基因),定义为早期(Early)出现的基因;同样的将FDR<0.05且in-edges>out-edges的节点,定义为晚期(Late) 出现的基因;其他情况的基因定义为中期(Intermediate)出现的基因,由于计算发生SCNA的基因是根据芯片数据的CNV区间和gff区间得到的,这可能会导致一些基因SCNA为假阳性,影响SSNV的结果,因此这里分别对SCNA和SSNV的temporal order进行推断,去掉部分有冲突的edges,最终得到 115个SCNA pairs和2201个SSNV pairs,在SSNV的temporal order结果中,我们发现TP53、KRAS、APC等在COAD中出现的时间最早,可能作为COAD 的driver events;而CSMD3、TTN、ERBB4等则在COAD中出现的最晚,推测可能与COAD的进展有关,在SCNA的temporal order结果中,没有得到被定义为早期的基因,这可能与SCNA的显著偏少的sub-clonal events有关(47 个SCNA clonal/sub-clonal:1038/101,显著少于SSNV的2219/383),SCNA 的中期出现基因有10个,晚期出现基因有3个,其中包括COAD中高突变率的RBL1基因;

S6、克隆或亚克隆事件与预后的关系:

为了研究clonal或sub-clonal events对患者生存的影响,使用kaplan -meier方法分析47个高频SCNA基因和76个高频SSNV基因的clonal状态与总生存的预后关系(突变数量>5%),取log rank test p<0.1,分别得到1个与总生存率有较显著关系的早期基因,12个中期基因和1个晚期基因,从总生存率KM曲线看,早期基因APC的clonal events对预后影响显著大于 sub-clonal events,而在中期基因clonal events和sub-clonal events都表现出对OS预后有显著影响,晚期基因ERBB4则是clonal/sub-clonal events对应OS预后均较差;

S7、克隆或亚克隆事件与临床特征的关系:

基于前文方法得到SCNA和SSNV的clonal events,结合TCGA提供的临床信息,分析clonal events与sub-clonal events与临床特征的关系,分析clonal/sub-clonal events在TNM、stage、age、gender和组织类型上的差异,从结果看,N、Stage分期在clonal events上数量存在显著差异,而复发与否在clonal events上也存在显著差异,似乎说明clonalevents出现对应高风险的COAD复发,TM分期、age和gender因素未观察到 clonal/sub-clonal events有显著差异;

S8、克隆或亚克隆事件与肿瘤突变负荷(TMB)/新抗原(Neoantigens) 的关系;

TMB和neoantigen作为免疫检查点治疗的重要biomarkers,而 clonal/sub-clonal events的出现对肿瘤的发生和进展也同样有重要影响,因此分析clonal/sub-clonal events与TMB和neoantigen的关系,由于TMB、neoantigen和clonal/sub-clonalevents的分布均不满足正态分布(shapiro test p<1e-5),使用spearman方法评估它们之间的相关性,显著性检验表明,clonal events与TMB和neoantigen存在极显著关系,但是sub-clonal events与neoantigen之间相关性较弱,似乎说明clonal events的出现对肿瘤突变负荷和新抗原产生有重要贡献,错配修复系统的关键基因(mismatch repair genes,MMR)突变对基因组的突变负荷有重要影响,进一步评估MMR 基因发生突变的样本(YES)与未发生突变的样本(NO)之间的 clonal/sub-clonal差异,发现NO组clonal events高于YES组,但是 sub-clonal events没有观察到显著性,NO组的TMB和neoantigens则极显著高于YES组,虽然二者在OS上却没有显著差异,但是可以看出YES组的预后要好于NO组,这与已有的研究中MMR缺陷患者具有较好的预后是一致的;

S9、总结:

突变signature分析将TCGA COAD样本的突变分成3个显著差异的 signatures,通过与COSMIC中30个已知的signatures进行比较,发现 signature A与signature 3和signature 22相似性最好,signature B与 signature 2、signature 7和signature 11,signature C与signature 1具有很高的相似性;

通过对SCNA和SSNV的clonal/sub-clonal events分析,鉴定COAD突变clonal/sub-clonal状态,3个signatures在clonal/sub-clonal状态上存在显著差异;

取在5%以上的样本中发生突变的基因,分别得到47个SCNA和76个SSNV 高频突变基因,TP53、KRAS和APC等基因在样本间发生突变数量最高(>20%),并且主要为clonalevents,RBL1基因在样本间出现CNV(Gain)的数量最高 (~29%),也主要以clonal events为主;

利用clonal/sub-clonal events对突变与肿瘤进化的关系进行分析,得到一组在肿瘤进化的early、intermediate、late时期出现突变的基因,这些基因突变出现的时间可能对肿瘤发生、进展有重要影响;

使用单因素cox回归分析方法研究clonal/sub-clonal状态与预后的关系,分别得到1个与总生存率有较显著关系的早期基因,12个中期基因和1 个晚期基因,这些基因的clonal/sub-clonal状态对预后的影响表现出不同的特征;

临床特征与clonal/sub-clonal events的关系比较复杂,N和Stage分期在clonalevents数量上存在显著差异,复发组与未复发组在clonal events 数量上也存在显著差异,说明这些因素与突变的出现有重要关系。TM、age和 gender因素未观察到clonal/sub-clonal events有显著差异;

clonal events与TMB/Neoantigens存在显著相关性,表明clonal events 的出现对TMB和neoantigens有重要贡献,与错配修复系统的缺陷相比,出现MMR缺陷样本在clonal/sub-clonal events、TMB和neoantigens上均显著小于MMR正常样本,这可能与MMR缺陷作为COAD有利预后因子有关。

尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种变化、修改、替换和变型,本发明的范围由所附权利要求及其等同物限定。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于遗传疾病致病基因的分析系统及其应用

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!