一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用

文档序号:183958 发布日期:2021-11-02 浏览:24次 >En<

阅读说明:本技术 一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用 (Group of molecular markers for evaluating renal papillary cell carcinoma progression risk and screening method and application thereof ) 是由 杨敬平 王琪 张阳 张静 于 2021-08-30 设计创作,主要内容包括:本发明属于生物医药领域,具体涉及一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用。该方法首先鉴定肾乳头状细胞癌的细胞起源,其次差异分析具有不同细胞起源的肾乳头状细胞癌个体之间及其对应的起源细胞类型之间的基因开放染色质活性评分,得到肾乳头状细胞癌源自细胞起源的分子标记组。该分子标记组可用于对肾乳头状细胞癌进行精确的分型,有助于在早期对将呈现不同恶性程度的肾乳头状细胞癌进行精确的进展风险预测,从而提高对恶性肾乳头状细胞癌诊断的准确性。此外,本发明还根据筛选的分子标记组及LDHA的表达量,建立了一套随机森林模型,用于早期对恶性肾乳头状细胞癌患者的高效精准识别,有助于对进展型肿瘤的早期介入和密切监测。(The invention belongs to the field of biological medicines, and particularly relates to a group of molecular markers for evaluating progression risk of renal papillary cell carcinoma, and a screening method and application thereof. The method firstly identifies the cell origin of the renal papillary cell carcinoma, secondly differentially analyzes the gene open chromatin activity scores between individuals of the renal papillary cell carcinoma with different cell origins and between corresponding cell types of the renal papillary cell carcinoma, and obtains a molecular marker group of the renal papillary cell carcinoma derived from the cell origin. The molecular marker group can be used for accurately typing the renal papillary cell carcinoma, and is beneficial to accurately predicting the progression risk of the renal papillary cell carcinoma which presents different degrees of malignancy in the early stage, so that the accuracy of diagnosis of the malignant renal papillary cell carcinoma is improved. In addition, the invention also establishes a set of random forest models according to the screened molecular marker group and the expression quantity of LDHA, is used for efficiently and accurately identifying malignant renal papillary cell carcinoma patients in the early stage, and is favorable for early intervention and close monitoring of the progressive tumor.)

一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法 和应用

技术领域

本发明属于生物医药领域,尤其涉及一组评估肾乳头状细胞癌进展风险的分子标记及其筛选方法和应用。

背景技术

肾细胞癌是泌尿系统较常见的恶性肿瘤,其中肾乳头状细胞癌(papillary renalcell carcinoma)发病率仅次于肾透明细胞癌,可达到肾细胞癌总数的7.0%~14.0%。肾乳头状细胞癌在50~70岁人群多见,男性较女性发病率高,临床约有50%的患者因体检而发现。肾乳头状细胞癌具有很强的异质性,这种异质性一方面表现在临床诊断上,目前根据病理切片的临床诊断方法并不能令人满意,因为许多肾乳头状肾癌无法根据现有标准进行分类,从而给病理医生的早期诊断带来了很大的困难;另一方面,这种异质性还表现在患者术后的生存率上,一些患者经过肿瘤切除手术后,预后良好,但仍存在一部分进展型肾乳头状细胞癌患者术后出现了转移恶化,且一旦出现转移恶化目前仍无有效的药物治疗方案,因而给临床治疗带来了很大的困难。

随着分子生物学的不断发展,虽然已经观察到存活率较差的肾乳头状细胞癌患者表现出的一些分子特征,例如CpG岛甲基化表型(CIMP),但由于检测手段较为复杂,目前还未能在临床上应用,此外尚不清楚这种特征是肿瘤进展的原因还是肿瘤进展的结果。

对其他肿瘤的研究表明,肿瘤的异质性来源于肿瘤不同的细胞起源。细胞起源是第一个遭受致癌突变的正常细胞,该突变决定了肿瘤细胞的命运和病理。在乳腺癌和成胶质细胞瘤的研究中显示,不同细胞中的相同基因突变可导致不同的形态、表型和恶性程度。此外,还有研究表明造血干细胞来源的白血病显示出比粒细胞巨噬细胞祖细胞来源的白血病更高的甲基化水平,这也表明异源性肿瘤的分子特征可以由细胞起源所决定,即不断发展的肿瘤细胞中一直保留着的细胞起源的分子特征,是早期诊断有力的生物标志物,肾乳头状细胞癌的细胞起源可能是近端肾小管细胞或远端集合管主细胞。

针对肾乳头状细胞癌的异质性进行更精细、精确的分子分型,尤其是更精确地鉴定出具有高进展风险的患者,对于改善早期诊断及改善患者的预后是至关重要的。

发明内容

1.发明目的

本发明的目的在于提供一组可以评估肾乳头状细胞癌进展风险的分子标记的筛选方法,通过该方法筛选的分子标记组源自肾乳头状细胞癌的细胞起源,可以对肾乳头状细胞癌进行精确的分型,并评估其进展风险。本发明还根据筛选的分子标记组的表达量及LDHA的表达量,构建了一个通过随机森林算法训练好的模型,用于实现在早期对恶性肾乳头状细胞癌患者的高效精准识别。

2.技术方案

为实现上述目的,本发明的技术方案为:

一种评估肾乳头状细胞癌进展风险的分子标记的筛选方法,该方法包括如下步骤:

(1)鉴定肾乳头状细胞癌的细胞起源;

(2)基于基因开放染色质活性评分对肾乳头状细胞癌不同的起源细胞类型之间进行差异分析,得到不同起源细胞类型各自的分子特征;

(3)基于基因开放染色质活性评分对具有不同细胞起源的肾乳头状细胞癌亚型之间进行差异分析,得到具有不同细胞起源的肾乳头状细胞癌亚型各自的分子特征;

(4)将肾乳头状细胞癌亚型的分子特征与其对应的起源细胞类型的分子特征进行找交集的运算,即筛选肾乳头状细胞癌亚型的分子特征中与其对应的起源细胞类型的分子特征中相同的分子特征,得到肾乳头状细胞癌亚型源自细胞起源的分子特征,该分子特征为评估肾乳头状细胞癌进展风险的分子标记。

优选地,上述不同肾乳头状细胞癌亚型源自细胞起源的分子特征可以合并,合并的分子标记组可以作为评估肾乳头状细胞癌进展风险的分子标记。

优选地,上述起源细胞类型包括近端肾小管细胞和远端集合管主细胞。

优选地,上述肾乳头状细胞癌的细胞起源的鉴定是基于染色质可及性图谱利用相关性分析及岭回归相似性得分,确定肾乳头状细胞癌的细胞起源。

优选地,上述不同起源细胞类型之间的基因开放染色质活性评分的差异分析包括:利用单细胞分析软件Seurat R包的“FindAllMarkers”函数对近端肾小管细胞和远端集合管主细胞之间的基因开放染色质活性评分进行分析,并以‘pct.1>0.5,avg_logFC>0.5’为标准提取起源细胞类型各自的分子特征。

优选地,上述不同细胞起源的肾乳头状细胞癌亚型之间的基因开放染色质活性评分的差异分析包括:利用差异分析软件edgeR R包对肾乳头状细胞癌亚型进行基因开放染色质活性评分的差异分析,并以‘abs(logFC)>1,FDR<0.05,logCPM>5’为标准得到肾乳头状细胞癌亚型各自的分子特征。

优选地,上述基因开放染色质活性评分是利用细胞的基因调控网络为每个基因计算基因开放染色质活性评分。

优选地,上述起源细胞类型的基因调控网络是利用单细胞染色质可及性图谱的共可及性构建的基因调控网络。更进一步地,该调控网络的构建基于基因主体的开放染色质活性而非基于基因转录起始位点的开放染色质活性,通过该网络计算得到的基因开放染色质活性评分更接近实际的基因表达值。

优选地,上述基因调控网络利用计算基因调控网络的工具Cicero构建。

优选地,上述肾乳头状细胞癌亚型的基因调控网络参照Corces,M.已经构建好的基因调控网络(Corces,M.R.et al.The chromatin accessibility landscape ofprimary human cancers.Science(2018).)。

本发明还提供了一组评估肾乳头状细胞癌进展风险的分子标记组1,包括:ALPL,ANPEP,AQP1,CAPN3,CSDC2,DPEP1,ENPEP,FRMD1,GDA,GLYAT,GREB1,HNF4A,IGFBP4,IQSEC3,KBTBD11,MME,PCK1,SLC12A7,SLC47A1,SLC6A13,SLC6A19,TMEM200A及ZEB2,异源性肿瘤的分子特征可以由细胞起源所决定,即不断发展的肿瘤细胞中一直保留着的细胞起源的分子特征,该组分子标记源自起源细胞类型近端肾小管细胞,可以评估肾乳头状细胞癌进展风险。

本发明还提供了一组评估肾乳头状细胞癌进展风险的分子标记组2,包括:B4GALNT3,EHF,GATA3,GRHL2,HK1,MECOM及TFAP2A,异源性肿瘤的分子特征可以由细胞起源所决定,该组分子标记源自起源细胞类型远端集合管主细胞,可以评估肾乳头状细胞癌进展风险。

本发明还提供了一组评估肾乳头状细胞癌进展风险的分子标记组3,包括:ALPL,ANPEP,AQP1,CAPN3,CSDC2,DPEP1,ENPEP,FRMD1,GDA,GLYAT,GREB1,HNF4A,IGFBP4,IQSEC3,KBTBD11,MME,PCK1,SLC12A7,SLC47A1,SLC6A13,SLC6A19,TMEM200A,ZEB2,B4GALNT3,EHF,GATA3,GRHL2,HK1,MECOM及TFAP2A,分子标记组3通过将分子标记组1和分子标记组2取并集运算获得,即合并分子标记组1和分子标记组2。

本发明还提供了上述分子标记组在肾乳头状细胞癌进展风险评估中的应用,低进展风险及高进展风险可分别根据不同起源细胞类型的分子特征进行评估。

优选地,上述应用包括检测肾乳头状细胞癌分子标记组1或分子标记组2的表达,高表达分子标记组1或低表达分子标记组2的肾乳头状细胞癌具有较低的进展风险;高表达分子标记组2或低表达分子标记组1的肾乳头状细胞癌具有较高的进展风险。

优选地,上述应用包括检测肾乳头状细胞癌分子标记组3的表达,鉴定出肾乳头状细胞癌的表达模式,呈现出亚型一表达模式的肾乳头状细胞癌患者具有较低的进展风险;呈现出亚型二表达模式的的肾乳头状细胞癌患者具有较高的进展风险。

优选地,上述应用包括检测肾乳头状细胞癌分子标记组3的表达,高表达分子标记组1和低表达分子标记组2的肾乳头状细胞癌具有较低的进展风险;高表达分子标记组2和低表达分子标记组1的肾乳头状细胞癌具有较高的进展风险。

本发明还提供了上述分子标记组1-3在制备用于诊断、评估肾乳头状细胞癌的试剂、试剂盒、诊断模型或诊断设备中的应用。

本发明还提供了上述分子标记组3在构建预测恶性肾乳头状细胞癌CIMP类型模型中的应用。

优选地,上述预测模型的构建包括:将一定样本数量肾乳头状细胞癌患者的分子标记组3的表达量及LDHA的表达量作为输入,将患者是/否为恶性肾乳头状细胞癌CIMP类型作为预测目标,利用随机森林算法进行不断训练,直至在给定的训练数据上能得到完全正确的结果,则模型训练过程结束并完成对预测模型的构建。

本发明还提供了上述分子标记组3在识别恶性肾乳头状细胞癌中的应用。

优选地,上述应用包括检测肾乳头状细胞癌患者的分子标记组3的表达量及LDHA的表达量,并输入上述预测模型,得到预测结果为是/否为恶性肾乳头状细胞癌CIMP类型。

3.有益效果

本发明的有益效果是:

(1)本发明提供的分子标记组,与目前临床上针对异质性肾乳头状细胞癌的诊断主要通过对病理切片的观察相比,本发明提供的分子标记组源自肾乳头状细胞癌的细胞起源,根据起源细胞类型的分子特征解析肾乳头状细胞癌的异质性,可以评估肾乳头状细胞癌的进展风险,有助于在早期对具有潜在恶性转移的肾乳头状细胞癌进行精细、精确的进展风险评估,高表达近端肾小管细胞的分子特征(分子标记组1)具有较低进展风险,高表达远端集合管主细胞的分子特征(分子标记组2)具有较高进展风险,从而提高诊断的效率及准确性,为精准治疗提供了基础,为个性化治疗提供了方向。

(2)本发明提供的恶性肾乳头状细胞癌的预测模型,以现有的确定的病例为数据源,以肾乳头状细胞癌患者的分子标记组3的表达量及LDHA的表达量作为输入,将患者是/否为恶性肾乳头状细胞癌CIMP类型作为预测目标,利用随机森林算法进行不断训练直至完成,仅需提供患者在分子标记组3及LDHA上的表达量,就可以以极高的准确率识别出其中具有潜在恶性转移的肾乳头状细胞癌,从而有助于对进展型恶性肿瘤的早期介入和密切监测,并进一步改善患者的存活率和生存质量。

附图说明

图1为确定肾乳头状细胞癌的细胞起源及评估肾乳头状细胞癌进展风险的分子标记的筛选方法流程图,其中:A为利用34个肾乳头状细胞癌样本的染色质可及性图谱与正常肾脏近端肾小管各细胞类型(包括近端肾小管祖细胞在内的共计八个亚群)的单细胞染色质可及性图谱一对一地进行相关性分析的结果,一列为一个肾乳头状细胞癌样本,下方为样本代号,B为利用拟合广义线性岭回归模型为34个肾乳头状细胞癌样本的染色质可及性图谱与正常肾脏各细胞类型的单细胞染色质可及性图谱计算岭回归相似性得分的结果,一列为一个肾乳头状细胞癌样本,下方为样本代号,C为肾乳头状细胞癌源自细胞起源的分子标记的筛选方法流程图;

图2为利用分子标记组对255个肾乳头状细胞癌样本组成的独立数据集进行的分类情况,其中:上、中、下行分别利用的是分子标记组3、分子标记组1、分子标记组2;A列为利用Cluster 3工具对255个肾乳头状细胞癌样本在三组分子标记组上的表达情况进行聚类的热图;B列为肾乳头状细胞癌亚型之间的总体生存曲线,代表了分别用这三组分子标记组对肾乳头状细胞癌的进展风险进行初步评估的效果;C列为肾乳头状细胞癌亚型在肿瘤等级及转移率上的比较;

图3为用于在早期对具有潜在恶性转移的肾乳头状细胞癌患者进行识别的模型,并对模型的准确性进行评估,A为对具有较高进展风险的患者群体根据LDHA的表达量利用单因素生存分析Kaplan-Meier算法比较总体生存曲线的差异,B为利用本发明的分子标记组3的表达量及LDHA的表达量在33名患者上训练了一套随机森林模型并用于对255名患者组成的独立样本进行验证的接受者操作特征曲线下面积(AUROC)曲线。

具体实施方式

为了更好地说明本发明的目的和有益效果,下面将结合具体实施例和附图进一步介绍本发明的技术方案。

实施例1

本实施例提供评估肾乳头状细胞癌进展风险的分子标记的筛选方法。该方法基于染色质可及性图谱利用相关性分析及岭回归相似性得分确定肾乳头状细胞癌的细胞起源,基于基因开放染色质活性评分对具有不同细胞起源的肾乳头状细胞癌亚型之间进行差异分析,得到具有不同细胞起源的肾乳头状细胞癌亚型各自的分子特征;基于基因开放染色质活性评分对肾乳头状细胞癌不同的起源细胞类型之间进行差异分析,得到起源细胞类型各自的分子特征;将肾乳头状细胞癌亚型的分子特征与其对应起源细胞类型的分子特征进行找交集的运算,得到肾乳头状细胞癌亚型源自细胞起源的分子特征,该分子特征为评估肾乳头状细胞癌进展风险的分子标记,流程详见图1C,具体实验步骤如下:

S1:肾乳头状细胞癌细胞起源的确定,基于肾乳头状细胞癌样本的染色质可及性图谱,利用相关性分析及岭回归相似性得分获得其对应的细胞起源:

S11:基于从Corces,M.R.et al.文章中获得的34个肾乳头状细胞癌样本的染色质可及性图谱,利用R分析工具中的cor函数将其与正常肾脏近端肾小管各细胞类型(包括近端肾小管祖细胞在内的共计八个亚群)的单细胞染色质可及性图谱一对一地进行了相关性分析,结果如图1A所示,大部分肾乳头状细胞癌样本(30/34)显示出与近端肾小管各细胞类型的正相关,但仍存在一部分肾乳头状细胞癌样本(4/34,样本代号为:5C0BAEF0,DFEC4B50,8AF1A570,DB8EEE5B)显示出与近端肾小管各细胞类型的负相关,从而表明肾乳头状细胞癌的细胞起源具有异质性;

S12:针对与近端肾小管各细胞类型呈现负相关的4名肾乳头状细胞癌样本,基于从Corces,M.R.et al.文章中获得的34个肾乳头状细胞癌样本的染色质可及性图谱,利用拟合广义线性岭回归模型的glmnet R包对正常肾脏单细胞染色质可及性图谱的共计11个细胞类型一一训练了二项逻辑回归模型,并使用这些模型来为每一个肾乳头状细胞癌样本计算岭回归相似性得分(即每一个肾乳头状细胞癌样本与每一个正常肾脏细胞类型的相似性),结果如图1B所示:与近端肾小管各细胞类型呈现负相关的4名肾乳头状细胞癌样本显示出了与远端集合管主细胞极高的相似性(相似性打分的阈值为0~1,0为完全不相似,1为完全相似),从而表明肾乳头状细胞癌可以分为起源于近端肾小管和远端集合管的两种亚型;

S2:构建基因调控网络,利用计算基因调控网络的工具Cicero基于单细胞染色质可及性图谱分别构建了起源细胞类型近端肾小管细胞和远端集合管主细胞的基因调控网络,该调控网络的构建基于基因主体的开放染色质活性而非基于转录起始位点处的开放染色质活性;肾乳头状细胞癌亚型的基因调控网络参考Corces,M.R.et al.The chromatinaccessibility landscape of primary human cancers.Science(2018);

S3:计算基因开放染色质活性评分:基于S2中的基因调控网络,利用“build_gene_activity_matrix”函数为每个基因计算基因开放染色质活性评分;

S4:差异分析基因开放染色质活性评分,具体包括:

S41:起源细胞类型之间,利用单细胞分析软件Seurat R包的“FindAllMarkers”函数对近端肾小管细胞和远端集合管主细胞之间的基因开放染色质活性评分进行分析,并以‘pct.1>0.5,avg_logFC>0.5’为标准提取起源细胞类型各自的分子特征,近端肾小管细胞的分子特征为:SORCS1,PPP1R16B,DPEP1,SLC6A19,AQP1,ALDOB,ARHGAP26,HNF4A,AC004691.2,CDH2,GRB10,SLC22A8,ZEB2,ABLIM3,DDC,PEPD,PAH,SLC13A3,SLC7A7,GPX3,ENPEP,MME,AK4,ANPEP,TNIK,PDZK1IP1,PTPRD,AGXT2,ATP8B4,SLC25A48,KBTBD11,PCK1,MEIS1,HMCN2,TMEM200A,CDH6,AC018709.1,IGFBP4,PLXNA2,FERMT1,GRID1,SLC34A1,SLC16A12,MSRA,GDA,BIN1,SLC17A3,ZNF521,ANK2,PCDH15,SLC22A4,IQSEC3,CUBN,CHRNA4,SLC5A12,DGKB,SLIT3,PDE3A,TRPC7,CCDC88C,DPYS,SLC4A4,AC012651.1,CAPN3,LRP2,SLC27A2,VSIR,ACO1,SLC47A1,SUGCT,CLIC5,SLC12A7,GREB1,ATP11A,FRMD5,WIPF1,FRMD1,ARHGAP10,ESR1,NFASC,OSBPL10,SLC6A13,CDH23,UNC5D,BNIP3L,NKAIN3,NR3C1,SLCO2B1,SLC28A1,EPHA7,COTL1,KCNK10,ALPL,BNC2,TUB,CABLES1,CSDC2,SCN8A,GLYATL1,DPP4,LMTK2,WDFY4,CREB5,GGACT,PRICKLE1,PRR5,KHK,L3MBTL4,GLYAT,ISM1,ST7,MAPT,PTH2R及CSMD1;远端集合管主细胞的分子特征为:PRDM16,DEFB1,MECOM,SIM1,MYO10,FAM167A,SLC7A1,KCNJ1,GRHL2,AC068580.4,PLB1,COX19,MAL,GATA3,CASZ1,TFEB,ATF3,PROM2,ADAP1,LNX1,B4GALNT3,OSBPL3,BTG2,RMI2,PRKG1,HK1,HSPA1B,CSGALNACT1,MUC1,CTSD,AC099489.1,PRKCH,SORL1,MAFK,CLDN4,MYOF,SH3BP4,AQP2,ST6GAL1,GDF15,KCNC4,TFAP2A,GATA2,SMIM5,CCN4,IQCK,PAK6,EHF,TBC1D9,EPB41L4B,CD9,SCIN,KRT7,FAM171A1,ACTB,HOXB3,HSP90AA1,JUN,TTC7A,HSD11B2,MPIG6B,HSPA8,FOS,DUSP8及IFITM10;

S42:肾乳头状细胞癌亚型之间,利用差异分析软件edgeR R包对肾乳头状细胞癌亚型进行基因开放染色质活性评分的差异分析,并以‘abs(logFC)>1,FDR<0.05,logCPM>5’为标准得到肾乳头状细胞癌亚型各自的分子特征,细胞起源为近端肾小管细胞的肾乳头状细胞癌的分子特征为:DPEP1,SMIM24,ADM2,C1QTNF8,SLC16A9,LGALS2,DENND1C,ABCC6,CCDC200,CRISPLD2,ALPL,GPT,FAM135B,AQP1,AC012651.1,CAPN3,UGT2A3,TMIGD1,NECAB1,TTBK1,RADIL,SNTG2,KCNB1,PDLIM3,HNF4A,CRMP1,SMTNL2,TMEM132D,ADAMTS2,CDH4,SLC5A1,FUT6,CARD14,FOXQ1,CLPTM1L,AC004691.2,SHANK3,SLC6A13,MUC12,ST6GALNAC2,AC015802.6,ADAMTSL5,PLK5,AGMO,HPN,TMEM200A,NID1,MYOM3,CSDC2,GPER1,PRKAR1B,ARHGAP45,SLC6A19,ENPEP,SLC47A1,MYOCOS,CYP24A1,RBP5,QPRT,SYPL2,SLC26A9,SKIDA1,FMO1,NRTN,ENPP1,RARRES2,KANK3,KLF15,SUSD3,PALM,HOXA5,SPON2,SUPT6H,LIME1,COL23A1,IQSEC3,STX1B,FABP3,C1orf210,FAM166C,TMEM106A,DNAJC18,CDKN1C,TNFRSF14,AMN,IQCA1,TNFSF4,USP2,HOXA4,C16orf96,GLYAT,NXNL2,HMCN1,ACOT11,BHMT2,TNXB,KL,KBTBD11,IGFBP4,MSRB1,TTI1,RBFOX3,NKAIN4,GPR137B,EVC,TENM3,GEM,AL121845.3,PHYHIP,SLC47A2,ADGRF2,CTXND1,ADGRB2,KCNH6,PCK1,CACNA1G,GRAMD4,C1QTNF5,MFRP,STXBP6,ABAT,PKDCC,CEP41,KIAA1614,ANPEP,STK32B,C3,GGT1,PPARA,AKAP12,SCAMP2,AGT,INTS3,ACKR3,ZEB2,SYN3,MYL3,ARSA,GUCD1,CORO2B,SPHK1,SLC17A1,CC2D2A,PLD6,ALDH4A1,SLC13A2,PALM3,H4C5,SMAGP,C1QTNF1,TMEM52,H2BC3,TMEM132E,TRIM9,SLC22A11,CERS4,C11orf91,KHDC4,REXO1,FRMD1,DNAJB5,ADIRF,GDA,SETD3,NEK6,DOC2A,MMP11,ADCY9,CYP26B1,SGSM1,MME,MLXIPL,RGS9,AC113554.1,AC073111.4,SLC12A7,RFWD3,CHST13,JHY,RCAN2,IL32,GREB1及MPV17L;细胞起源为远端集合管主细胞的肾乳头状细胞癌的分子特征为:HOXD10,MECOM,GATA3,TFAP2A,KLHL3,MCTP1,DPYSL3,SPTBN2,EHF,GRHL2,STEAP3,EPHA6,ST8SIA1,PDE1A,ZNF385D,HOXD3,LONRF2,P2RY6,CCDC85A,MYO5C,RFTN1,EXPH5,HK1,B4GALNT3,DOCK10,NRP2,ST8SIA4,MAP2,TGFB1I1,HOXD9,MTHFD2,LYN,PRR5L,SLC1A2,TENM4,GCFC2,DGKE,IL15RA,TAF3及CBR3;

S5:找交集:将肾乳头状细胞癌亚型的分子特征与对应的起源细胞类型的分子特征进行找交集的运算,即筛选肾乳头状细胞癌亚型的分子特征中与起源细胞类型分子特征中相同的分子特征,从而得到肾乳头状细胞癌源自起源细胞类型的分子特征,该分子特征为评估肾乳头状细胞癌进展风险的分子标记,将细胞起源为近端肾小管细胞的肾乳头状细胞癌的分子特征与近端肾小管细胞的分子特征进行找交集运算,筛选得到细胞起源为近端肾小管细胞的肾乳头状细胞癌的分子标记组1,包括:ALPL,ANPEP,AQP1,CAPN3,CSDC2,DPEP1,ENPEP,FRMD1,GDA,GLYAT,GREB1,HNF4A,IGFBP4,IQSEC3,KBTBD11,MME,PCK1,SLC12A7,SLC47A1,SLC6A13,SLC6A19,TMEM200A及ZEB2;将细起源胞为远端集合管主细胞的肾乳头状细胞癌的分子特征与远端集合管主细胞的分子特征找交集运算,筛选得到细胞起源为远端集合管主细胞的肾乳头状细胞癌的分子标记组2,包括:B4GALNT3,EHF,GATA3,GRHL2,HK1,MECOM及TFAP2A。

上述分子标记组1和分子标记组2还可以合并,得到分子标记组3,包括:ALPL,ANPEP,AQP1,CAPN3,CSDC2,DPEP1,ENPEP,FRMD1,GDA,GLYAT,GREB1,HNF4A,IGFBP4,IQSEC3,KBTBD11,MME,PCK1,SLC12A7,SLC47A1,SLC6A13,SLC6A19,TMEM200A,ZEB2,B4GALNT3,EHF,GATA3,GRHL2,HK1,MECOM及TFAP2A。

实施例2

本实施例提供实施例1中分子标记组在肾乳头状细胞癌独立样本中进行进展风险评估的可行性分析。

基于实施例1中分子标记组,对癌症基因组图谱(TCGA)中的由255个肾乳头状细胞癌样本组成的独立数据集进行了分类,具体实验步骤如下:

S1:从癌症基因组图谱(TCGA)中获得了255个肾乳头状细胞癌样本组成的独立数据集的RNA-seq全转录组高通量测序数据;

S2:利用聚类工具Cluster 3对255个肾乳头状细胞癌样本在实施例1中分子标记组3的表达情况进行聚类分析。

结果分析:255个肾乳头状细胞癌样本在这一组分子标记的组合上展示出两种完全不同的表达模式,高表达近端肾小管细胞分子特征的肾乳头状细胞癌样本低表达或不表达远端集合管主细胞的分子特征,而高表达远端集合管主细胞分子特征的肾乳头状细胞癌样本则低表达或不表达近端肾小管细胞的分子特征,见图2A(上),从而将所有肾乳头状细胞癌样本分为了两个亚型,即亚型一(高表达源自近端肾小管细胞分子特征)和亚型二(高表达源自远端集合管主细胞分子特征)。

实施例3

本实施例同实施例2,其区别在于,S2中利用聚类工具Cluster 3对255个肾乳头状细胞癌样本在实施例1中分子标记组1和分子标记组2的表达情况进行聚类分析。

在分子标记组1的表达情况进行聚类分析如图2A(中)所示,在分子标记组2的表达情况进行聚类分析如图2A(下)所示,表明仅利用一组分子标记组也能将所有肾乳头状细胞癌样本分为两个亚型。

实施例4

本实施例提供实施例2中由分子标记组3所区分的肾乳头状细胞癌的亚型的进展风险的评估。

通过进一步对由分子标记组3所区分的肾乳头状细胞癌的亚型进行进展风险的评估,发现由分子标记组3所区分的肾乳头状细胞癌的亚型具有不同的进展风险,具体实验步骤如下:

利用单因素生存分析Kaplan-Meier算法生成了由实施例2中的聚类分析获得的两个肾乳头状细胞癌亚型之间的总体生存曲线,其中生存时间定义为从肾切除术开始到以任何原因死亡的时间,并使用对数秩检验评估生存差异,如图2B(上)所示,P=0.0019表明两个肾乳头状细胞癌亚型之间的总体生存率存在明显差异,相比于高表达源自近端肾小管细胞分子特征的亚型一,高表达源自远端集合管主细胞分子特征的亚型二具有显著更差的生存率。

利用患者的临床信息,对由聚类分析获得的两个肾乳头状细胞癌亚型进行了比较,由分子标记组3所区分的肾乳头状细胞癌的亚型具有明显不同的肿瘤等级分布及转移至淋巴结的比例,见图2C(上),相比于高表达源自近端肾小管细胞分子特征的亚型一,高表达源自远端集合管主细胞分子特征的亚型二具有显著更高比例的晚期肿瘤(III-IV期)以及显著更高比例的向淋巴结的转移,从而表明了亚型二确实是相对具有更高进展风险及恶性程度更高的肾乳头状细胞癌亚型。

实施例5

本实施例提供实施例3中由分子标记组1或分子标记组2所区分的肾乳头状细胞癌的亚型的进展风险的评估。

对仅使用分子标记组1(源自近端肾小管细胞的分子特征)以及仅使用分子标记组2(源自远端集合管主细胞的分子特征)的表达谱数据对255个肾乳头状细胞癌样本进行聚类分析的结果,利用单因素生存分析Kaplan-Meier算法生成了两个肾乳头状细胞癌亚型之间的总体生存曲线,见图2B(中)及、2B(下),它们的P值分别为0.0027和0.0004,同样都达到了显著性,利用患者的临床信息,对由聚类分析获得的两个肾乳头状细胞癌亚型进行了比较,由分子标记组1及分子标记组2所区分的肾乳头状细胞癌的亚型具有明显不同的肿瘤等级分布及转移至淋巴结的比例,见图2C(中)及2C(下),表明仅利用一组分子特征同样能够对肾乳头状细胞癌样本的不同进展风险进行评估。

实施例6

本实施例提供恶性肾乳头状细胞癌的预测模型并验证。

将上述分子标记组3与LDHA的表达量进行组合,通过使用随机森林算法训练模型进行精准识别具有潜在恶性转移的肾乳头状细胞癌患者。具体通过利用分子标记组3及LDHA的表达量在33名患者上使用随机森林算法训练模型并用于对255名患者组成的独立样本进行预测,训练好的模型可用于精准识别具有潜在恶性转移的肾乳头状细胞癌患者,实验步骤如下:

S1:通过对实施例4中被划分为具有较高进展风险的患者群体(亚型二),根据其LDHA的表达量利用单因素生存分析Kaplan-Meier算法计算总体生存曲线,并使用对数秩检验评估生存差异,结果显示P=0.018,表明由LDHA的表达量所区分的患者的生存率存在显著差异,相比于低表达LDHA的患者,高表达LDHA的患者具有显著更差的生存率,见图3A;

S2:选用33名患者组成小样本,将分子标记组3及LDHA的表达量作为输入,将判断各患者是/否为恶性肾乳头状细胞癌CIMP类型作为预测目标,利用随机森林算法训练预测模型。随机森林算法顾名思义,就是用随机的方式建立一个森林,森林里面有很多的决策树组成,每一棵决策树会根据输入的信息(即该患者在分子标记组3及LDHA共计31个分子特征上的表达情况)对该患者进行判断,即输出的结果为该患者是或者不是恶性肾乳头状细胞癌CIMP类型,根据真实的结果,如果决策树判断错误则会进行自我调整,直至在给定的训练数据上能得到完全正确的结果,至此模型训练过程结束,决策树也就确定好了;

S3:模型验证,模型训练结束后,对其准确性进行了验证,例如在TCGA数据库中编号为TCGA.BQ.5893.01A的患者,他在31个分子标记上的表达情况为:LDHA:254.36;CAPN3:0.08;GLYAT:0.26;PCK1:0.14;GDA:0.02;GREB1:0.13;AQP1:13.50;ANPEP:1.50;HNF4A:0.23;ZEB2:1.74;CSDC2:0.57;SLC12A7:7.89;TMEM200A:0.93;TFAP2A:20.39;B4GALNT3:3.06;DPEP1:0.83;EHF:0.62;GRHL2:0.06;ALPL:2.38;SLC6A13:0.51;ENPEP:0.84;FRMD1:0.00;HK1:17.02;KBTBD11:8.68;MECOM:4.89;SLC47A1:0.28;SLC6A19:0.03;IQSEC3:0.04;GATA3:19.08;IGFBP4:60.47;MME:0.04,该患者被预测为是恶性肾乳头状细胞癌CIMP类型,且该预测正确;以及另一名在TCGA数据库中编号为TCGA.2Z.A9J7.01A的患者,他在31个分子标记上的表达情况为:LDHA:121.39;CAPN3:0.84;GLYAT:44.56;PCK1:1.50;GDA:5.50;GREB1:0.81;AQP1:122.03;ANPEP:17.94;HNF4A:7.05;ZEB2:1.26;CSDC2:4.47;SLC12A7:19.53;TMEM200A:6.14;TFAP2A:0.16;B4GALNT3:0.78;DPEP1:13.78;EHF:0.09;GRHL2:0.00;ALPL:2.98;SLC6A13:13.56;ENPEP:2.15;FRMD1:0.22;HK1:22.64;KBTBD11:13.51;MECOM:0.74;SLC47A1:39.76;SLC6A19:0.43;IQSEC3:0.04;GATA3:0.01;IGFBP4:504.29;MME:0.06,该患者被预测为不是恶性肾乳头状细胞癌CIMP类型,该预测同样正确。

此外,发明人将该训练好的模型在由255名患者组成的独立样本上一一进行了验证,并为预测结果绘制了AUROC曲线(用于对模型的分类性能进行评估,曲线下面积AUC的值域为0~1,这个值越接近1代表模型的分类性能越强),见图3B,结果显示曲线下面积AUC值为0.98,非常接近1,从而表明提供了可用于识别恶性肾乳头状细胞癌患者的模型,使用该模型仅需提供患者在31个分子特征上的表达值,就可以以极高的准确率识别出其中具有潜在恶性转移的肾乳头状细胞癌患者。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种用于检测肺腺癌细胞中TP53通路相关基因突变的基因组合物以及预测模型和方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!