一种用于肝细胞癌预后评估的生物标志物组合及其筛选方法和应用

文档序号:16788 发布日期:2021-09-21 浏览:44次 >En<

阅读说明:本技术 一种用于肝细胞癌预后评估的生物标志物组合及其筛选方法和应用 (Biomarker combination for hepatocellular carcinoma prognosis evaluation and screening method and application thereof ) 是由 刘利平 张强弩 魏腾 严巧婷 余洁玲 鲍世韵 于 2021-08-09 设计创作,主要内容包括:本发明提供了一种用于肝细胞癌预后评估的生物标志物组合及其筛选方法和应用,所述生物标志物组合包括24个溶质转运蛋白超家族成员。本发明通过多个不同中心的大尺度队列整合了溶质转运蛋白超家族成员的mRNA在HCC中的表达数据,获取了一个具有一致性和稳健性的肝细胞癌相关的溶质转运蛋白超家族成员的mRNA表达谱。通过机器学习方法,基于所述生物标志物组合的mRNA表达水平构建了有效的患者预后评估模型,且该评估模型能有效评估HCC患者的预后,具有一定的特异性和敏感性。(The invention provides a biomarker combination for hepatocellular carcinoma prognosis evaluation, and a screening method and application thereof, wherein the biomarker combination comprises 24 solute transporter superfamily members. The invention integrates the expression data of the mRNA of the solute transport protein superfamily member in HCC through a plurality of large-scale queues at different centers, and obtains the mRNA expression profile of the hepatocellular carcinoma-related solute transport protein superfamily member with consistency and robustness. An effective patient prognosis evaluation model is constructed based on the mRNA expression level of the biomarker combination through a machine learning method, and the evaluation model can effectively evaluate the prognosis of HCC patients and has certain specificity and sensitivity.)

一种用于肝细胞癌预后评估的生物标志物组合及其筛选方法 和应用

技术领域

本发明属于医学诊断和预后评估领域,具体涉及肝细胞癌的预后评估,尤其涉及一种用于肝细胞癌预后评估的生物标志物组合及其筛选方法和应用。

背景技术

肝癌是全球发病率第六位的恶性肿瘤,同时也是为全球第四位的癌症致死病因。原发性肝癌的85%-95%是肝细胞癌(Hepatocellular carcinoma,HCC),由于起病隐匿加之早期诊断措施不够完善,80%的HCC患者确诊时已经处于中晚期,因而丧失了手术机会。HCC中晚期患者的死亡率高达80%,中位生存期不足1年,5年生存率不足20%。手术技术、放化疗技术、靶向治疗药物及免疫治疗技术近年来取得了进步,这些进展给中晚期HCC患者带来了新希望,但不可否认的是目前中晚期HCC的疗效仍然不尽如人意。

预后评估是HCC患者治疗的关键步骤。医学界提出了好几种分期系统,包括巴塞罗那临床肝癌(BCLC)系统;TNM分期系统;中国人大学预后指数;日本综合分期等。这些分期系统在临床使用上都有其局限性。为了更准确的预测肝癌患者预后(生存),除了考虑患者的肝功能、肿瘤分期和身体状况,必须同时考虑患者的分子生物学特征,基于分子生物学特征的新型预后评估系统将有助于HCC患者的个体化治疗和精准医疗。

溶质转运蛋白(solute carrier,SLC)超家族编码溶质转运蛋白,是人类基因组中第二大膜蛋白家族,是构成细胞膜、细胞器膜转运蛋白的一类膜蛋白。SLC家族的成员负责参与无机离子、氨基酸、脂肪酸、神经递质和糖类等各种基质的跨膜转运。该家族涉及的生理活动保留:代谢转化、能量稳态、组织发育、氧化应激、宿主防御和神经调节等。

目前已经明确SLC家族的成员可以通过控制代谢物质的转运等作用参与肿瘤的发生发展。一些研究已经证实癌组织和癌旁组织中存在一些SLC家族成员的表达差异,并且这种差异表达与患者的预后及临床特征相关。但是大部分既往研究多在体外水平关注单个RBPs在HCC细胞中的功能和机制。目前在HCC中尚缺乏关于SLC家族成员的系统性的研究以及临床应用的研究。一些研究虽然涉及了SLC家族成员和临床预后的关系,但是这些研究多基于单个或少数数据集,因此一些研究存在不一致性和矛盾。

因此,研发一种基于大尺度队列及多中心队列数据并结合SLC家族成员的预后评估方法,对于HCC研究领域具有重要的应用价值。

发明内容

针对现有技术存在的不足,本发明的目的在于提供一种用于肝细胞癌预后评估的生物标志物组合及其筛选方法和应用。所述生物标志物组合包括24个肝细胞癌相关的溶质转运蛋白超家族成员,且利用所述生物标志物构建得到的预后评估模型在评估肝细胞癌预后情况时,具有较好的敏感度和特异性。

为达此目的,本发明采用以下技术方案:

第一方面,本发明提供一种用于肝细胞癌预后评估的生物标志物组合,所述生物标志物组合包括24个溶质转运蛋白超家族成员,分别是:

SLC10A1、SLC16A2、SLC17A1、SLC17A2、SLC17A3、SLC19A3、SLC1A1、SLC1A3、SLC1A4、SLC22A1、SLC22A7、SLC25A15、SLC25A44、SLC27A2、SLC27A5、SLC29A1、SLC2A2、SLC38A4、SLC38A6、SLC39A1、SLC41A3、SLC46A3、SLC4A2和SLC4A4。

本发明中,通过现有数据库中的mRNA微芯片表达数据,整合得到SLC家族成员的mRNA在HCC中的表达数据,筛选出24个与肝细胞癌相关的SLC基因,获取了一个具有一致性的且稳健性的HCC相关的SLC家族成员的mRNA表达谱,并结合肿瘤基因组数据库(theCancer Genome Atlas,TCGA)和国际癌症基因组联盟(International Cancer GenomeConsortium)中的RNA测序数据进行了验证。

所述24个SLC家族成员的mRNA表达在9个HCC队列中具有一致性的表达模式,因此被鉴定为HCC相关SLC家族成员,能够用于肝细胞癌的预后评估,为肝细胞癌预后评估方法的开发和研究提供了新的方式。

通过机器学习技术,我们基于上述鉴定到的HCC相关的SLC家族成员的mRNA表达水平构建了有效的患者预后评估系统:SLC评分系统(SLC score system),该评分系统的临床应用价值在不同数据集中得到了验证,我们认为SLC评分系统能有效评估HCC患者的预后,具有一定的特异性和敏感性。

第二方面,本发明提供一种如第一方面所述的生物标志物组合的筛选方法,所述筛选方法包括:

(1)收集肝细胞癌的mRNA微芯片表达数据和RNA测序数据;

(2)使用RRA算法对所述mRNA微芯片表达数据进行整合,并将所得结果中foldchange>1.5或<-1.5且P<0.05的基因列入HCC RRA列表,所述HCC RRA列表中的基因为肝细胞癌相关基因;

(3)筛选出所述HCC RRA列表中的溶质转运蛋白超家族成员,得到第一方面所述的生物标志物组合;

(4)利用所述RNA测序数据进行验证,确认所述生物标志物组合在所述mRNA微芯片表达数据和RNA测序数据中的表达模式一致。

第三方面,本发明提供如第一方面所述的生物标志物组合在制备肝细胞癌预后评估模型或肝细胞癌预后评估试剂盒中的应用。

第四方面,本发明提供一种肝细胞癌预后评估模型,所述肝细胞癌预后评估模型中,以第一方面所述的生物标志物组合中各个基因的mRNA水平为输入变量,以SLC分数为输出变量,并根据所述SLC分数对肝细胞癌的预后进行评估。

本发明中,通过机器学习技术,我们基于上述鉴定到的HCC相关的SLC家族成员的mRNA表达水平构建了有效的患者预后评估模型,或者称之为,SLC评分系统,SLC scoresystem。

该评分系统的临床应用价值在不同数据集中得到了验证,因此,本发明提供的SLC评分系统能有效评估HCC患者的预后,具有一定的特异性和敏感性。

作为本发明优选的技术方案,所述肝细胞癌预后评估模型以如下公式进行表示:

SLC分数=∑(Gene express level×Integrated HR×Gene_Weight);

其中,所述Gene express level为所述mRNA水平,Integrated HR为整合风险系数,Gene_Weight为重要系数。

作为本发明优选的技术方案,所述生物标志物组合中各个基因与重要系数的对应关系如下:

SLC39A1的重要系数为8.642577153,SLC25A15的重要系数为8.175604617,SLC38A6的重要系数为7.338572876,SLC27A2的重要系数为7.106196298,SLC10A1的重要系数为6.936282115,SLC22A7的重要系数为6.902104255,SLC1A4的重要系数为6.661783026,SLC16A2的重要系数为6.587214953,SLC27A5的重要系数为6.477047113,SLC22A1的重要系数为6.417916962,SLC2A2的重要系数为6.412003716,SLC46A3的重要系数为6.217582151,SLC25A44的重要系数为5.941196497,SLC19A3的重要系数为5.869746765,SLC38A4的重要系数为5.783854975,SLC41A3的重要系数为5.667233734,SLC4A2的重要系数为5.663633788,SLC4A4的重要系数为5.652632038,SLC29A1的重要系数为5.444414126,SLC17A1的重要系数为5.280928053,SLC1A3的重要系数为5.117342375,SLC17A2的重要系数为4.98126824,SLC1A1的重要系数为4.883502187,SLC17A3的重要系数为4.64340045。

作为本发明优选的技术方案,所述生物标志物组合中SLC39A1、SLC38A6、SLC1A4、SLC41A3和SLC4A2为危险因素。

所述生物标志物组合中SLC25A15、SLC27A2、SLC10A1、SLC22A7、SLC16A2、SLC27A5、SLC22A1、SLC2A2、SLC46A3、SLC25A44、SLC19A3、SLC38A4、SLC4A4、SLC29A1、SLC17A1、SLC1A3、SLC17A2、SLC1A1和SLC17A3为保护性因素。

优选地,所述生物标志物组合中危险因素的整合风险系数为1,保护性因素的整合风险系数为-1。

第五方面,本发明提供一种肝细胞癌预后评估试剂盒,其特征在于,所述试剂盒中包含检测如第一方面所述的生物标志物组合中各个基因的mRNA水平或蛋白水平的试剂。

第六方面,本发明提供如第一方面所述的生物标志物组合、如第三方面所述的肝细胞癌预后评估模型或如第四方面所述的肝细胞癌预后评估试剂盒在肝细胞癌预后评估或肝细胞癌治疗药物的开发中的应用。

与现有技术相比,本发明的有益效果为:

(1)本发明提供一种用于肝细胞癌预后评估的生物标志物组合,其按照重要性排名依次为:SLC39A1、SLC25A15、SLC38A6、SLC27A2、SLC10A1、SLC22A7、SLC1A4、SLC16A2、SLC27A5、SLC22A1、SLC2A2、SLC46A3、SLC25A44、SLC19A3、SLC38A4、SLC41A3、SLC4A2、SLC4A4、SLC29A1、SLC17A1、SLC1A3、SLC17A2、SLC1A1和SLC17A3;其中,SLC39A1、SLC38A6、SLC1A4、SLC41A3和SLC4A2为危险因素,其余为保护性因素;所述生物标志物组合在肝细胞癌和正常组织中的表达量有明显区别,因此,可以用于肝细胞癌的预后评估;

(2)本发明还提供一种肝细胞癌预后评估模型,所述预后评估模型中,以所述的生物标志物组合中各个基因的mRNA水平为输入变量,以SLC分数为输出变量,并根据所述SLC分数对肝细胞癌的预后进行评估,SLC分数越高,则表示患者的预后情况越差;因此,所述肝细胞癌预后评估模型能够帮助医生提前预测患者的预后状况,起到辅助临床治疗的效果。

附图说明

图1为实施例1中筛选鉴定得到的24个HCC相关的SLC成员在9个HCC微芯片队列中的mRNA表达情况。

图2A为实施例1中筛选鉴定得到的24个HCC相关的SLC成员在TCGA-LIHC测序数据集中的mRNA表达情况示意图。

图2B为实施例1中筛选鉴定得到的24个HCC相关的SLC成员在ICGC-LIRI-JP测序数据集中的mRNA表达情况示意图。

图3A为实施例2中24个HCC相关的SLC成员在TCGA-LIHC测序数据集中的mRNA表达量在肝癌组织和癌周组织中的差异图。

图3B为实施例2中24个HCC相关的SLC成员在ICGC-LIRI-JP测序数据集中的mRNA表达量在肝癌组织和癌周组织中的差异图。

图4为实施例2中使用COX比例风险模型模拟得到的24个HCC相关的SLC基因的mRNA水平与患者总体生存情况的相关性示意图。

图5为实施例3中使用随机森林算法得到的24个HCC相关SLC基因评估HCC总体生存情况的重要性(基尼系数)排名图。

图6A为本发明中提及的SLC评分系统评估GSE14520队列中HCC患者的总体生存情况后得到的曲线图。

图6B为本发明中提及的SLC评分系统评估TCGA-LIHC队列中HCC患者的总体生存情况后得到的曲线图。

图6C为本发明中提及的SLC评分系统评估ICGC-LIRI-JP队列中HCC患者的总体生存情况后得到的曲线图。

图7A为本发明提及的SLC评分系统评估GSE14520队列中HCC患者的无病生存情况后得到的曲线图。

图7B为本发明提及的SLC评分系统评估TCGA-LIHC队列中HCC患者的无病生存情况后得到的曲线图。

图8A为本发明提及的SLC评分系统评估GSE14520队列中HCC患者后获得的ROC曲线图。

图8B为本发明提及的SLC评分系统评估TCGA-LIHC队列中HCC患者后获得的ROC曲线图。

具体实施方式

下面结合附图并通过具体实施方式来进一步说明本发明的技术方案,但下述的实例仅仅是本发明的简易例子,并不代表或限制本发明的权利保护范围,本发明的保护范围以权利要求书为准。

以下实施例中,若无特殊说明,所用试剂及耗材均购自本领域常规试剂厂商;若无特殊说明,所用实验方法和技术手段均为本领域常规的方法和手段。

实施例1

本实施例用于筛选和鉴定HCC相关SLC家族成员。

具体步骤如下:

(1)自Gene Expression Omnibus(https://www.ncbi.nlm.nih.gov/geo/)获取9个不同临床中心的HCC队列的微芯片(microarray mRNA)表达数据,包括GSE14520、GSE22058、GSE25097、GSE36376、GSE45436、GSE64041、GSE76427、GSE54236及GSE63898;

自肿瘤基因组数据库(the Cancer Genome Atlas,TCGA)和国际癌症基因组联盟(International Cancer Genome Consortium)两个中心分别获取HCC队列的RNA测序数据,即TCGA-LIHC和ICGC-LIRI-JP。

将所有数据集的基因识别ID都转换成最新的HUGO基因符号,且mRNA的表达数据进行log2标准化转化。

(2)为了鉴定到在多个HCC队列中具有一致性mRNA表达模式的SLC家族成员,本实施例中使用Robust rank aggregation(RRA)算法对来自9个临床中心的mRNA微芯片表达数据队列进行了整合,RRA算法使用R统计学软件(version3.6.1)以及RobustRankAggreg程序包执行;

定义结果中fold change>1.5或<-1.5且P<0.05的基因为HCC RRA列表(RRAlist),该RRA list包含1280个基因,且所述基因在9个HCC队列中呈现较为明显的上调或下调。

在该RRA list中共有24个SLC家族的成员,包括SLC10A1、SLC16A2、SLC17A1、SLC17A2、SLC17A3、SLC19A3、SLC1A1、SLC1A3、SLC1A4、SLC22A1、SLC22A7、SLC25A15、SLC25A44、SLC27A2、SLC27A5、SLC29A1、SLC2A2、SLC38A4、SLC38A6、SLC39A1、SLC41A3、SLC46A3、SLC4A2及SLC4A4。

该24个SLC家族成员的mRNA表达在9个HCC队列中具有一致性的表达模式,因此被鉴定为HCC相关SLC家族成员。

9个队列中,癌组织和癌周正常组织中这24个SLC成员的mRNA表达差异情况见图1。

(3)本实施例中还分析了这24个SLC成员在TCGA-LIHC和ICGC-LIRI-JP两个RNA测序数据集中的表达情况;

如图2A和图2B所示,这24个SLC基因在在TCGA-LIHC和ICGC-LIRI-JP两个RNA测序数据集中的表达模式与在9个微芯片队列中的表达模式完全一致。

上述实验结果证明,所述24个HCC相关SLC家族成员的表达与肝细胞癌密切相关。

实施例2

本实施例中分析了24个SLC基因与HCC患者TNM分期和总体生存期的关系。

(1)24个SLC基因与HCC患者TNM分期的关系

如图3A和图3B所示,在TCGA-LIHC和ICGC-LIRI-JP两个RNA测序数据集中,主成分分析法提示24个SLC基因的mRNA表达可以有效区分肝癌组织和癌周正常组织。

(2)24个SLC基因与HCC患者总体生存期的关系

本实施例中利用COX比例风险回归模型分析了24个SLC基因的mRNA水平与HCC患者总体生存期的关系;

如图4所示,24个SLC基因中部分成员为HCC患者预后较差的危险因素,部分为保护性因素;

其中,危险因素包括SLC39A1、SLC38A6、SLC1A4、SLC41A3和SLC4A2,保护性因素包括SLC25A15、SLC27A2、SLC10A1、SLC22A7、SLC16A2、SLC27A5、SLC22A1、SLC2A2、SLC46A3、SLC25A44、SLC19A3、SLC38A4、SLC4A4、SLC29A1、SLC17A1、SLC1A3、SLC17A2、SLC1A1和SLC17A3。

实施例3

本实施例中基于HCC相关SLC家族成员基因的mRNA水平构建新型的HCC预后评价模型。

(1)在鉴定到的24个HCC相关SLC家族成员的基础上,利用随机森林算法,对这24个HCC相关SLC家族成员评估HCC患者预后的重要性进行了评估;

其中,随机森林模型构建使用R统计软件(version3.6.1)和randomForest程序包进行,使用TCGA-LIHC数据作为训练集,GSE14520队列为验证集;

图5显示了24个SLC家族成员评估HCC患者预后的重要系数(基尼系数),具体如下表1所示:

表1

(2)构建基于SLC家族成员基因的HCC预后评估模型,该模型为一评分系统,命名为SLC评分系统(SLC score system)。

利用公式SLC分数(SLC-score)的计算公式为:

SLC-score=∑(Gene_score×Gene_Weight)。

其中,Gene_Weight为由随机森林算法计算得到的每个基因的重要系数;

单个基因的Gene_score的计算公式为:

Gene_score=Gene express level×Integrated HR。

其中,Gene express level为某个患者肝癌组织中该基因对应的mRNA水平;

(3)Integrated HR(整合风险系数)的确定

本实施例中在TCGA-LIHC、GSE14520及ICGC-LIRI-JP三个数据集中分别基于24个SLC基因构建COX比例模型,共得到3个模型;

对每个数据集中每个基因在3个模型中的风险系数进行整合,得到该基因的Integrated HR。Integrated HR最终取两个值,1或-1,分别表示该基因为危险因素或保护性因素。

所述24个SLC基因的Integrated HR值如下表2所示:

表2

由此,本实施例中提供了一种利用24个SLC基因的mRNA水平构建的HCC预后评价模型。

实施例4

本实施例中,利用实施例3中提供的HCC预后评价模型,对GSE14520、TCGA-LIHC及ICGC-LIRI-JP三个数据集中的患者进行SLC评分。

将各数据集中患者的SLC评分以上四分位数、中位数及下四分位数作为截点,分为Q1到Q4四个部分,其中Q1部分患者的SLC评分最小,Q4部分患者的SLC评分最高。

GSE14520(n=242),其生存分析结果(number at risk)如下表3和图6A所示;

表3

TCGA-LIHC(n=364),其生存分析结果(number at risk)如下表4和图6B所示;

表4

ICGC-LIRI-JP(n=212),其生存分析结果(number at risk)如下表5和图6C所示;

表5

利用Kaplan-Meier生存分析发现,在GSE14520、TCGA-LIHC及ICGC-LIRI-JP三个数据集中,SLC评分越大的肝癌患者,总体生存越差。

同时,GSE14520(n=242),其无病生存率结果如下表6和图7A所示;

表6

TCGA-LIHC(n=359),其无病生存率结果如下表7和图7B所示;

表7

因此,SLC评分越大的肝癌患者无病生存率也越低,提示SLC评分能够有效反映HCC患者的生存和复发情况。

本发明中,SLC评分系统用于评估患者总体生存的受试工作者曲线如图8A和图8B所示,具体数值如下表8所示:

表8

AUC(%) GSE14520 TCGA-LIHC
1年 70.26 67.76
3年 66.84 63.95
5年 65.83 62.08

综上所述,可见该评分系统在评价患者预后方面有良好的特异性和敏感性,效能良好(曲线下面积AUC值大于60%)。

申请人声明,以上所述仅为本发明的具体实施方式,但本发明的保护范围并不局限于此,所属技术领域的技术人员应该明了,任何属于本技术领域的技术人员在本发明揭露的技术范围内,可轻易想到的变化或替换,均落在本发明的保护范围和公开范围之内。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种检测斑马鱼Acsl1a基因突变的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!