CN112750497A - 一种揭示乳腺癌免疫逃避调控机制的多源数据融合框架 - Google Patents
一种揭示乳腺癌免疫逃避调控机制的多源数据融合框架 Download PDFInfo
- Publication number
- CN112750497A CN112750497A CN202110033127.3A CN202110033127A CN112750497A CN 112750497 A CN112750497 A CN 112750497A CN 202110033127 A CN202110033127 A CN 202110033127A CN 112750497 A CN112750497 A CN 112750497A
- Authority
- CN
- China
- Prior art keywords
- breast cancer
- immune
- sample
- samples
- revealing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
- 206010006187 Breast cancer Diseases 0.000 title claims abstract description 40
- 230000004927 fusion Effects 0.000 title claims abstract description 14
- 230000017188 evasion or tolerance of host immune response Effects 0.000 title claims abstract description 10
- 230000014509 gene expression Effects 0.000 claims abstract description 29
- 238000004458 analytical method Methods 0.000 claims abstract description 24
- 230000001105 regulatory Effects 0.000 claims abstract description 19
- 206010028980 Neoplasm Diseases 0.000 claims abstract description 18
- 238000004422 calculation algorithm Methods 0.000 claims abstract description 6
- 102000003995 transcription factors Human genes 0.000 claims description 18
- 108090000464 transcription factors Proteins 0.000 claims description 18
- 230000027455 binding Effects 0.000 claims description 12
- 239000003446 ligand Substances 0.000 claims description 12
- 108020004999 Messenger RNA Proteins 0.000 claims description 10
- 229920002106 messenger RNA Polymers 0.000 claims description 10
- 210000001519 tissues Anatomy 0.000 claims description 7
- 239000011159 matrix material Substances 0.000 claims description 6
- 102000009661 Repressor Proteins Human genes 0.000 claims description 5
- 108010034634 Repressor Proteins Proteins 0.000 claims description 5
- 230000000694 effects Effects 0.000 claims description 5
- 210000000822 Killer Cells, Natural Anatomy 0.000 claims description 3
- 210000004693 NK cell Anatomy 0.000 claims description 3
- 210000004027 cells Anatomy 0.000 claims description 3
- 238000005457 optimization Methods 0.000 claims description 3
- 210000000481 Breast Anatomy 0.000 claims 3
- 230000001717 pathogenic Effects 0.000 claims 1
- 230000004083 survival Effects 0.000 abstract description 7
- 239000003814 drug Substances 0.000 abstract description 5
- 238000000034 method Methods 0.000 abstract description 4
- 238000007418 data mining Methods 0.000 abstract description 2
- 229940079593 drugs Drugs 0.000 abstract 1
- 102100000486 NECTIN2 Human genes 0.000 description 13
- 101710005673 NECTIN2 Proteins 0.000 description 13
- 102100004728 CDH1 Human genes 0.000 description 10
- 101700016900 CDH1 Proteins 0.000 description 10
- 101700011568 DIB1 Proteins 0.000 description 10
- 201000011510 cancer Diseases 0.000 description 5
- 230000000875 corresponding Effects 0.000 description 4
- 230000002601 intratumoral Effects 0.000 description 4
- 210000004881 tumor cells Anatomy 0.000 description 4
- 230000002596 correlated Effects 0.000 description 3
- 230000002401 inhibitory effect Effects 0.000 description 3
- 230000037361 pathway Effects 0.000 description 3
- 239000012190 activator Substances 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000001413 cellular Effects 0.000 description 2
- 238000010219 correlation analysis Methods 0.000 description 2
- 238000003379 elimination reaction Methods 0.000 description 2
- 210000002865 immune cell Anatomy 0.000 description 2
- 239000003112 inhibitor Substances 0.000 description 2
- 238000011002 quantification Methods 0.000 description 2
- 208000005623 Carcinogenesis Diseases 0.000 description 1
- 206010064571 Gene mutation Diseases 0.000 description 1
- 102100013278 IRF2 Human genes 0.000 description 1
- 101700001385 IRF2 Proteins 0.000 description 1
- 102100000559 NFATC2 Human genes 0.000 description 1
- 101710044739 NFATC2 Proteins 0.000 description 1
- 102100019801 XBP1 Human genes 0.000 description 1
- 101700014283 XBP1 Proteins 0.000 description 1
- 230000003213 activating Effects 0.000 description 1
- 230000015572 biosynthetic process Effects 0.000 description 1
- 230000036952 cancer formation Effects 0.000 description 1
- 231100000504 carcinogenesis Toxicity 0.000 description 1
- 238000010276 construction Methods 0.000 description 1
- 201000010099 disease Diseases 0.000 description 1
- 238000005755 formation reaction Methods 0.000 description 1
- 230000002068 genetic Effects 0.000 description 1
- 230000001506 immunosuppresive Effects 0.000 description 1
- 238000009169 immunotherapy Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 230000002147 killing Effects 0.000 description 1
- 230000000670 limiting Effects 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
- 238000006011 modification reaction Methods 0.000 description 1
- 230000035772 mutation Effects 0.000 description 1
- 230000002265 prevention Effects 0.000 description 1
- 230000000717 retained Effects 0.000 description 1
- 231100000486 side effect Toxicity 0.000 description 1
- 238000007619 statistical method Methods 0.000 description 1
Classifications
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B15/00—ICT specially adapted for analysing two-dimensional or three-dimensional molecular structures, e.g. structural or functional relations or structure alignment
- G16B15/30—Drug targeting using structural data; Docking or binding prediction
-
- G—PHYSICS
- G16—INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
- G16B—BIOINFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR GENETIC OR PROTEIN-RELATED DATA PROCESSING IN COMPUTATIONAL MOLECULAR BIOLOGY
- G16B20/00—ICT specially adapted for functional genomics or proteomics, e.g. genotype-phenotype associations
- G16B20/20—Allele or variant detection, e.g. single nucleotide polymorphism [SNP] detection
Abstract
本发明涉及生物信息学中的数据挖掘领域,具体涉及一种揭示乳腺癌免疫逃避调控机制的多源数据融合框架。其发明内容主要包括:(1)收集乳腺癌样本、正常样本相关数据;(2)利用NMF对乳腺癌样本进行聚类,得到样本亚群种类;(3)将乳腺癌样本与从GTEx中获得的正常样本进行比较,找出差异表达的相关基因;(4)设计了一个基于ATAC‑SEQ数据的调控分析算法来寻找免疫相关基因;(5)使用五种通用数据库对TF与免疫基因的关系进行验证;(6)分析根据框架得到的免疫基因是否对患者的生存造成影响。本发明提供了一种揭示乳腺癌免疫逃避调控机制的多源数据融合框架,对于研究药物重定位和实现精准医疗具有重要意义。可以有效提升研究过程和研究结果的生物学意义。更重要的是,本发明的单样本规律分析方法可以更深入地探索肿瘤的异质性,对精准医学实践具有重要意义。
Description
技术领域 本发明涉及生物信息学中的数据挖掘领域,具体是涉及一种揭示乳腺癌免疫逃避调控机 制的多源数据融合框架。 背景技术 精准医疗是一种新兴的癌症预防和治疗策略,它考虑到每个患者的遗传基础的个体变异 性。借助下一代高通量测序技术,研究人员对全基因组突变的细节越来越熟悉,不同组学数 据之间的整体关系也越来越系统化。对于精准医疗来说,了解肿瘤发生的免疫逃逸机制是非 常有必要的,特别是当肿瘤的异质性显著影响免疫治疗的效果时。根据免疫相关基因识别乳 腺癌的亚型,有助于了解不同亚型主导的免疫逃逸途径,从而针对不同亚型实施有效的治疗 措施。 肿瘤异质性是指单个肿瘤在不同肿瘤患者之间的分子和细胞差异(肿瘤间异质性),甚至单 个患者不同肿瘤形成部位之间的差异(肿瘤内异质性)。然而,研究人员只知道肿瘤异质性的冰 山一角,导致缺乏有针对性的精准医疗。乳腺癌在分子和细胞水平上也表现出异质性,这抑 制了常规临床实践中诊断、预后或预测策略的效果。尽管之前有研究对TCGA收集的乳腺癌 样本进行了聚类,但仍然不清楚肿瘤细胞的大部分机制如何调节免疫基因的表达以逃避免疫 细胞的杀伤.同时尽管TCGA也采集癌症患者的非恶性邻近正常组织样本,但这类正常样本面 临两个主要限制:匹配的正常样本数量太小,以及来自癌症患者的正常样本仍不能完全取代 来自非癌症个体的真实正常组织样本。 综上所述,现有的方法在研究肿瘤免疫逃逸机制上存在不足,同时各个数据库存在各自的 缺陷,极少有对于乳腺癌细胞在多源数据情况下对癌细胞免疫逃逸调控机制开展研究 发明内容 为了了解乳腺癌免疫逃逸的调控机制,我们提出了一种揭示乳腺癌免疫逃避调控机制的 多源数据融合框架。本发明试图通过比较TCGA和GTEx的mRNA数据,找出肿瘤组织中差 异表达的免疫相关基因。为了找出免疫基因表达变化的原因,我们进行了CNV与mRNA的相关性分析,并基于ATAC-seq数据分析了转录因子(TF)与免疫靶基因的关系。然后,利用通用数据库对TFs与免疫基因的关系进行了验证。 进一步,所述双层基因调控网络的构建方法包括以下步骤: 步骤一:使用NMF聚类算法对TCGA乳腺癌样本进行亚群识别。需要注意的是,免疫相 关基因被认为是聚类特征,因此不同的亚组可能有不同的免疫逃避途径。 步骤二:为了避免从癌症患者采集的正常组织的数据偏差,我们将GTEx正常数据与 TCGA乳腺癌样本的每一亚组进行比较,找出差异表达的免疫相关基因。 步骤三:我们设计了一个基于ATAC-SEQ数据的调控分析算法来寻找免疫相关基因表达 变化的调控因素。 步骤四:我们分析了免疫相关基因表达对患者的生存是否会造成影响。 进一步,所述步骤一具体包括: 1)比较肿瘤组织和正常组织中候选免疫相关基因的差异。除了TCGA的数据外,我们还 额外收集了2171个候选免疫相关基因; 2)解决基因表达定量、特定研究的偏倚和批量效应的消除等问题,为此我们下载了511个 乳腺癌样本和212个正常样本进行下游分析; 3)使用非负矩阵(NMF)因式分解对肿瘤样本进行分组。将2171个候选免疫相关基因对 511个乳腺癌样本进行了聚类。 进一步,所述步骤二我们使用了EdgeR和DESeq2技术进行比较。为了消除假阳性,我 们将候选致病基因作为Edger和DESeq2的共识结果。我们使用斯皮尔曼相关性来检验CNV 与候选致病基因的mRNA之间的相关性。 进一步,所述步骤三具体包括: 1)所有位于基因TSS位点20kb的峰都被认为是含有转录因子(TF)或阻遏蛋白(RP)的候选 调节区 2)目标基因有多个峰被映射,因此提出了一种多目标优化策略对所有峰进行排序。我们分 别用距离,分值和斯皮尔曼相关系数,从不同的角度审视每一个高峰。斯皮尔曼相关系数计 算公式如下:
3)利用通用数据库对TF与免疫基因的关系进行验证。 本发明提供了一个整合多源数据的分析框架,可以有效提升研究过程和研究结果的生物 学意义。更重要的是,本发明的单样本规律分析方法可以更深入地探索肿瘤的异质性,对精 准医疗实践具有重要意义。了解肿瘤的异质性(肿瘤间异质性或肿瘤内异质性)是精准医疗的 重要基础。这是因为不同的亚型可能使用完全不同的免疫逃逸途径。如果使用相同的治疗方 法,不仅可能没有效果,而且可能会产生副作用。 本发明收集免疫相关基因,结合TCGA病例样本和GTEx正常样本,识别与乳腺癌不同 亚群相关的特异性免疫基因。设计了评价靶基因附近峰重要性的多目标标准,提出了基于ATAC-SEQ数据定位调控免疫相关基因表达的TF或RP的调控分析算法。同时在单个样本水平上解释了靶基因表达的差异,表明本发明设计的框架可以为精准医疗服务。 附图说明 图1:多源数据融合框架主要流程图 图2:190个峰与PVRL2的相关性 图3:PVRL2的存活结果 图4:CDH1的存活结果 具体实施方式 为了使本发明的目的、技术方案及优点更加清楚明白,以下结合实验,对本发明进行进一 步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。 下面结合附图对本发明的应用原理作详细的描述。 如图1所示,本发明实施例提供的揭示乳腺癌免疫逃避调控机制的多源数据融合框架包 括以下步骤: 1)通过TCGA提供的乳腺癌样本数据和免疫基因数据进行非负矩阵分解(NMF)来进行聚 类从而获得乳腺癌数据中的亚群。 2)将得到的亚群数据与从GTEx中获得的正常样本数据进行分析,以获得两种样本之前 不同的基因表达数据。 3)将之前获得的不同基因表达数据与UCSC Xena以泛癌方式提供的TCGA峰信号通过基 于ATAC-SEQ的监管分析,通过分析数据来研究乳腺癌是通过何种方式达到免疫逃逸机制。 下面对本发明的每一步应用原理作进一步的描述。 1.使用NMF对乳腺癌样本进行聚类 为了了解这些肿瘤细胞如何逃避免疫细胞的损伤,本发明收集了2171个候选免疫相关基 因。同时下载已经完成统一比对、基因表达定量、研究特异性偏倚和批量效应消除的了511 个乳腺癌样本和212个正常样本,将这些数据进行下游分析。 为了研究肿瘤的异质性,本发明使用NMF根据候选免疫相关基因对乳腺癌样本进行了聚 类。NMF的数学公式如下: X≈WH 公式表示包含n个特征和p个样本的矩阵X的近似。其中X中的所有条目都是非负的。W 和H的近似解的估计可视为如下公式中的最优化问题:
其中第一分量用于测量近似的质量,即损失函数。为了避免过拟合,第二个分量使用正则 化函数来确保矩阵W和H的稀疏性或光滑性。γ是用于平衡这两个分量的参数。 2.亚型间分析差异表达基因 由于不同的肿瘤亚型可能有不同的免疫逃逸途径。本发明将各亚型的免疫相关基因表达 与GTEx采集的正常样本进行了比较。为了消除假阳性,我们将候选致病基因作为Edger和 DESeq2的共识结果。 为了避免NK细胞的损伤,肿瘤细胞有两种可能的免疫抑制策略:一种是降低NK 激活配体的表达,另一种是增加NK抑制配体的表达。分析得到的各亚型所有差异表 达的NK配体基因如表1所示: 表1:各亚型的差异表达基因
表1第一列列出了Edger和DESeq2的共识得出的4个亚型的所有差异表达的NK配体基 因。 第二列分别列出了每个簇中的所有NK激活剂配体。 第三列分别列出了每个簇中所有这些NK激活剂配体。 第四列分别列出了每个簇中的所有这些NK抑制剂配体,由于在这种情况下没有发现显著 低表达的基因,本发明使用‘-’符号来表示。 第五列列出了每个簇中的所有NK抑制剂配体。 可以从表中看到CDH1和PVRL2同时出现在所有簇中,这可能意味着它们在乳腺癌的免疫 逃逸中起着非常重要的作用。 3.CDH1和PVRL2上CNV与mRNA的相关性分析 使用斯皮尔曼相关系数来衡量配体基因本身CNV和mRNA之间的关联强度。如果它们之间 的相关性强,则可以解释mRNA的变化是由CNV自身引起的,否则就意味着mRNA的变化可能 有其他的调节因素。
斯皮尔曼相关性用于测量两个变量之间单调关系的强度。它的计算和显著性检验是基于 两个假设:两个变量的数据是区间或比率水平或序数,且它们是单调相关的。斯皮尔曼相关 系数的取值在[-1,+1],越接近+1,正相关越强;越接近-1,负相关越强。 CDH1的CNV与mRNA具有中等的斯皮尔曼相关系数(相关系数为0.54,调整后的P值为 3.12e-05),但对于PVRL2,相关性很弱,因此肯定有其他因素调节PVRL2的基因表达。 4.基于ATAC-SEQ的监管机制分析 本发明进一步探索了是什么因素调节了PVRL2的表达变化。如图2所示,可以发现PVRL2 周围大约有190个峰。使用我们的多目标峰选择标准,保留了三个候选峰(最正相关峰、最负 相关峰和最接近的基因得分最高峰)用于下游分析。 本发明匹配了5个常用的数据库,即Jaspar、ENCODE、CHEA、MotifMap和TRANSFAC。验 证结果如表2所示: 表2:TF和PVRL2之间的验证相关性
“√”表示对应的TF与PVRL2存在调控关系,“-”表示数据库不包含TF与PVRL2之间的对应调控关系。 对于CDH1,也应用了相同的监管分析,结果如表3所示: 表3:TF和CDH1之间的验证相关性
“√”表示对应的TF与CDH1存在调控关系,“-”表示数据库不包含TF与PVRL2之间的对应调控关系。 5.CDH1和PVRL2的存活分析 如果本发明得到的CDH1和PVRL2对于肿瘤细胞避免免疫逃避信息是正确的,那么它们的 表达应该会影响患者的生存。因此本发明同时描绘了CDH1和PVRL2的生存分析结果。如图 3,4所示。 在图4中,蓝线表示PVRL2的低表达,灰色线表示PVRL2的中度表达,红线表 示PVRL2的高表达。P值为0.009,说明PVRL2对乳腺癌患者的生存质量有显著影 响。 对于CdH1,在图4中,深蓝色线条表示低表达,浅蓝色线条表示中度 大量研究证实,肿瘤等复杂疾病的发生发展通常涉及环境、基因突变等多种因素的 相互作用。然而,单一水平的组学数据很难系统和完整地揭示多种因素是如何相互作用的。同时,单源数据集通常受到样本总体、样本量和数据类型等因素的限制,导致 统计能力不足,难以重复相关性研究。因此,本发明提供了一个整合多源数据的分析 框架,可以有效提升研究过程和研究结果的生物学意义。更重要的是,本发明的单样 本规律分析方法可以更深入地探索肿瘤的异质性,对精准医学实践具有重要意义。 本发明收集免疫相关基因,结合TCGA病例样本和GTEx正常样本,识别与乳腺 癌不同亚群相关的特异性免疫基因。设计了评价靶基因附近峰重要性的多目标准则, 提出了基于ATAC-SEQ数据定位调控免疫相关基因表达的TF或RP的调控分析算法。 在单个样本水平上解释了靶基因表达的差异,表明本发明设计的框架可以为精确医学 服务。本发明使用统计学方法来判断目标基因在单个样本中的表达量是否高于其在正 常样本中的表达量,然后以单样本的方式分析目标基因表达变化的具体原因。 以上所述仅为本发明的较佳实施例而已,并不用以限制本发明,凡在本发明的精神 和原则之内所作的任何修改、等同替换和改进等,均应包含在本发明的保护范围之内。
TF
JASPAR
ENCODE
CHEA
MotifMap
TRANSFAC
AR
-
-
√
-
-
GTF2L
-
-
-
-
-
IRF2
-
-
-
-
-
NF1
-
-
-
-
-
NFATC2
-
-
-
-
-
XBP1
-
-
-
-
-
YY1
-
√
-
-
-