癌症患者生存率的预测方法

文档序号:453223 发布日期:2021-12-28 浏览:2次 >En<

阅读说明:本技术 癌症患者生存率的预测方法 (Method for predicting survival rate of cancer patient ) 是由 R·C·斯旺顿 D·比斯瓦斯 N·麦格拉纳汉 N·J·比尔克巴克 于 2020-01-30 设计创作,主要内容包括:本发明提供了一种为肺癌受试者提供预后的方法,所述方法包括:(a)将来自受试者的生物样本与和一组生物标志物中的每个成员特异性结合的试剂接触,所述生物标志物包括ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1;(b)根据样本中生物标志物的核酸表达水平,确定受试者的风险分数;(c)根据受试者的风险分数,提供肺癌的预后。(The present invention provides a method of providing a prognosis for a subject with lung cancer, the method comprising: (a) contacting a biological sample from a subject with an agent that specifically binds to each member of a set of biomarkers comprising ANLN, ASPM, CDCA4, ERRFI1, FURIN, GOLGA8A, ITGA6, JAG1, LRP12, MAFF, MRPS17, PLK1, PNP, PPP1R13L, PRKCA, PTTG1, PYGB, RPP25, SCPEP1, SLC46A3, SNX7, TPBG, XBP 1; (b) determining a risk score for the subject based on the nucleic acid expression level of the biomarker in the sample; (c) providing a prognosis for lung cancer based on the risk score of the subject.)

癌症患者生存率的预测方法

技术领域

本发明涉及确定癌症患者预后和/或预测治疗反应以指导癌症患者治疗方案选择和/或预测癌症患者生存率和/或生存风险和/或临床结果的方法和/或确定一种治疗是否适合特定癌症患者的方法和/或确定癌症患者疗程的方法(例如治疗方案分层方法),特别是那些患有肺癌诸如非小细胞肺癌的患者。

背景技术

肺癌是全球癌症死亡的主要原因,非小细胞肺癌(NSCLC)占全球确诊病例的85-90%。如Detterbeck等人在CHEST 15,193-203,2017上发表的“Lung Cancer StageClassification”所述,肿瘤分期有助于指导临床决定是否进行辅助化疗。然而,如Vargas等人在Nat Rev Cancer(2016)上发表的“Biomarker development in the precisionmedicine era:lung cancer as a case study”中所述,TNM分期是不完善的生存风险预测因子,因为同一肿瘤分期的患者可能出现明显不同的临床结果。

有人建议,在当前的诊断标准中纳入分子生物标志物(例如基于基因表达的肿瘤侵袭性相关物),可以将癌症患者划分为更精确的疾病亚型。这方面的实例在Van’t Veer等人在Nature452,564–570(2008)发表的“Enabling personalized cancer medicinethrough analysis of gene-expression patterns”、Vargas等人在Nat.Rev.Cancer 16,525–537(2016)上发表的“Biomarker development in the precision medicine era;lung cancer as a case study”及Kumar-Sinha等人在Nat.Biotechnol.36,46-60(2018)发表的“Precision oncology in the age of integrative genomics”中进行了描述。准确识别术后非小细胞肺癌(NSCLC)复发高危患者可能具有相当高的临床价值,有助于指导决策,例如是否施用手术切除后的辅助化疗或患者随访的所需强度。

在过去的二十年中,人们进行了多次尝试,得出了肺腺癌(LUAD)患者的预后基因表达特征,肺腺癌是非小细胞肺癌(NSCLC)最常见的组织学亚型。这方面的实例在Beer等人在Nat Med 8,816-824(2002)发表的“Gene-expression profiles predict survival ofpatients with lung adenocarcinoma”中,Krystanek等人在Biomark Res 4,4(2016)发表的“A Robust prognostic gene expression signature for early stage lungadenocarcinoma”中及Wistuba等人在Clin Cancer Res(2013)发表的“Validation of aProliferation Based Expression Signature as Prognostic Marker in Early StageLung Adenocarcinoma”中进行了描述。然而,这些努力由于可重现性差,或独立于现有临床病理风险因素的预后能力有限而受到阻碍,例如如Subramanian等人在JNCL J NatlCancer Inst 102,464-474(2010)发表的“Gene Expression-Based PrognosticSignatures in Lung Cancer;Ready for Clinical Use?”中所述。

图1a至1d阐明了与已知特征相关的一些问题。图1a示出了包含肿瘤12的肺10。多个区域R1、R2、R3和R4可以进行肺活检。然而,如红色和蓝色的示意图所示,采用人们已知的预后生物标志物,区域R1、R2和R3的活检将得出高风险分类,而区域R4的活检将得出低风险分类。通常,在常规临床实践中,采用单次活检14进行诊断或开展预后评估。因此,图1a所示的假设预后特征将显示出不一致的肿瘤风险分类,因为区域R4的活检结果与不同区域所采集样本的结果不匹配。因此,特征的读出容易受到肿瘤采样偏差的影响。

图1b阐明了肿瘤采样偏差对患者群体的影响。图中示出了多个肺肿瘤20、22、24、26、28、30,每个肺肿瘤具有多个采样区域(例如R1至R5)。对其中一个区域活检应用预后生物标志物,根据估计的生存风险,将肺癌患者40、42、44、46、48、50分为更精确的疾病亚型,这可能有助于指导治疗决策。正确区分需要辅助化疗的高风险患者和仅通过手术即可治愈的低风险患者非常重要。

在肺肿瘤20、22的每个区域中,活检将正确地得出相关患者40、42为低风险分类,因此这些患者将被分类为适合仅通过手术切除进行治疗。类似地,在肺肿瘤28、30的每个区域中,活检将正确地得出相关患者48、50为高风险分类,因此这些患者将被分类为需要通过手术切除和辅助化疗进行治疗。然而,第三位患者44具有类似于图1a所示的肺肿瘤24。如图中所示,区域R4的活检得出该患者分类为低风险,这与肺肿瘤24中其他区域活检结果得出的分类不一致。这一点非常重要,因为根据该诊断,患者不可能接受辅助治疗,从而未接受充分的治疗。因此,该患者具有次优的治疗和随访。类似地,第四位患者46具有肺肿瘤26,根据活检取样位置将得出不同的结果。在说明中,活检得出高风险分类,这可能导致患者接受不必要的治疗,从而承受化疗的副作用。

图1c示出了Shukla等人在JNCL J Natl Cancer Inst 109(2017)发表的“Development of aRNA-seq Based Prognostic Signature in Lung Adenocarcinoma”中描述的LUAD已知特征的分析结果。所述特征采用世界上最大的多区域测序研究TRACERx肺试验提供的信息进行分析,从而能够对肿瘤进化进行详细探索。该项研究,例如在Jamal-Hanjani等人在PLos Biol 12(2014)公开的“Tracking genomic cancer evolution forprecision medicine;the lung TRACERx study”中进行了描述。在图1c中,对TRACERx研究中28名患者的89个肿瘤区域进行了分析,如图所示,每个患者按预测生存“风险分数”排序,风险最低的患者位于图中左侧。为了计算本实施例中的“风险分数”,通过对特征中四个基因表达值的计算风险分数进行回归,拟合无截距的线性模型,从原始出版物中提供的补充数据重新推导回归系数。图1c上的每个点代表单个肿瘤区域,垂直线表示每个患者的风险分数范围。不管活检的位置如何,11名患者被归类为低风险,5名患者被归类为高风险。然而,有12名患者的分类不一致,其风险分数取决于活检的位置。

图1d将图1c中的数据以条形图展示,其中示出了低风险、高风险和不一致患者的百分数。图1e是基于免疫相关基因对的不同特征的类似条形图,如Li等人在JAMA Oncol(2017)发表的“Development and Validation of an Individualized ImmunePrognostic Signature in Early-Stage Nonsquamous Non-Small Cell Lung Cancer”中所述。在这两种情况下,有很大比例的不一致患者-43%或29%-来自同一肿瘤的不同区域可能被归类为具有不同的分子风险特征。易受肿瘤取样偏差影响的患者比例很高,这可能限制了此类预后分析的临床应用。

迄今为止,LUAD中大多数基于基因表达的预后特征都是通过微阵列表达谱而不是RNA测序来确定的。图1f示出了下表详述的9个已公开的LUAD预后特征的一致性结果。指明了每篇论文中的患者数n。按照Gyanchandani等人在Clin Cancer Res 22,5362-5369(2016)发表的“Intratumour Heterogenity Affects Gene Expression Profile TestPrognostic Risk Stratification in Early Breast Cancer”中的描述,采用曼哈顿计量的Ward法对每个预后特征进行分层聚类(Hierarchical clustering)。对于给定数量的聚类(cluster),聚类一致性被量化为所有肿瘤区域为同一聚类的患者百分比。结果以肿瘤区域属于同一聚类的患者百分数对照聚类数绘图。垂直虚线标记聚类的范围(2、3、14和28):

在28个聚类中,聚类不一致率的中位数为50%(15.5/28个LUAD肿瘤),表明一半的肿瘤区域会因采样偏差而存在被错误分类的风险。该范围在18-82%之间,表明某些特征明显优于其它特征。综上所述,图1a至1f表明采样偏差会使分子生物标志物在几种癌症类型中的使用变得混乱。正如Jamal-Hanjani等人在N Engl J Med 376,2109-2121(2017)发表的“Tracking the evolution of non-small cell lung cancer”中所述,肿瘤内异质性(ITH)和染色体不稳定性(CIN)是NSCLC和其他类型癌症的共同特征。此外,如Burrell等人在Nature 501,338-345(2013)发表的“The Causes and Consequence of GeneticHeterogeneity in Cancer Evolution”中所述,遗传肿瘤内异质性(ITH)在各种类型癌症中普遍存在。

有关先前肺癌预后特征的背景信息参见国际专利公开WO201/063121(描述了使用16-基因预后特征将非小细胞肺癌(NSCLC)患者分类为各个风险组);美国专利公开US2010/184063(描述了使用15-基因的预后和预测特征将NSCLC患者分类为各个风险组);和国际专利公开WO2015/138769(描述了使用9-基因预后特征将NSCLC患者分类为各个风险组)。

本申请人已经认识到需要改进的基因特征来帮助临床医生改进预后准确性以帮助指导治疗决策,例如选择仅手术切除或手术切除后开展化疗或其他辅助治疗。

发明内容

根据本发明,提供了如所附权利要求中所述的装置和方法。本发明的其他特征将从从属权利要求和下面的描述中显而易见。

我们描述了为肺癌受试者提供预后的方法,所述方法包括:(a)将来自受试者的生物样本与试剂接触,所述试剂和一组生物标志物中的每个成员特异性结合,所述生物标志物包括ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1;(b)根据样本中生物标志物的核酸表达水平,确定受试者的风险分数;(c)根据受试者的风险分数,提供肺癌的预后。

确定受试者的风险分数可以包括:对于每个生物标志物,确定指示组织样本中核酸表达水平的分数;根据确定的分数,计算风险分数,其中风险分数通过将加权的生物标志物的分数相加计算得出,其中生物标志物的分数基于确定的分数,并且每个生物标志物的分数都具有相关的权重;及将风险分数与阈值进行比较。这样,每个受试者都可能例如被分到高风险组(例如风险分数高于阈值)或低风险组(例如风险分数等于或低于阈值)。例如,当考虑所有类型的肺癌时,高风险组的生存率可能较低,而低风险组的生存率可能较高。或者,在考虑早期癌症时,高风险组可能比低风险组更容易复发。GOLGA8A、SCPEP1、SLC46A3和XBP1中的每个生物标志物分数的相关权重可能是负值,表明它们是有利的基因。ANLN、ASPM、CDCA4、ERRFI1、FURIN、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SNX7和TPBG中的生物标志物分数的相关权重可能是正值。

风险分数的加权总和可以通过以下方式确定:

风险分数=b1x1i+b2x2i+…+bnxni

其中x1i、x2i、……、xni是每个受试者i的四个选定生物标志物的生物标志物分数,b1、b2、……、bn是每个生物标志物分数的一组相关权重。

所述方法可以进一步包括采用Cox比例风险模型确定加权总和的权重,该模型采用包括有关一组受试者多个生物标志物的信息的训练数据进行训练。所述方法可包括识别在Cox比例风险模型中使用的多个生物标志物,其中所述多个生物标志物选自ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。

阈值可以是训练数据的中值风险分数。

确定指示生物标志物水平的分数可以包括确定缩放(scaled)强度分数。生物标志物分数可以基于已通过减去调整因子而调整的缩放强度分数。确定指示生物标志物水平的分数可以包括当水平高于阈值时赋予第一值,当水平低于阈值时赋予第二值。确定指示生物标志物水平的分数可以包括当水平高于上阈值时赋予第一值,当水平低于上阈值但高于下阈值时赋予第二值,以及当水平低于下阈值时赋予第三值。

试剂可以是核酸。

此处所述术语“核酸”、“核酸序列”、“核苷酸”、“核酸分子”或“多核苷酸”旨在包括DNA分子(例如,cDNA或基因组DNA)、RNA分子(例如,mRNA、miRNA、lncRNA)、天然存在的、突变的、合成的DNA或RNA分子,以及使用核苷酸类似物生成的DNA或RNA类似物。核酸可以是单链或双链。所述核酸或多核苷酸包括但不限于结构基因的编码序列、反义序列及不编码mRNA或蛋白质产物的非编码调控序列。这些术语还包括基因。术语“基因”、“等位基因(allele)”或“基因序列”广泛用于指与生物学功能相关的DNA核酸。因此,基因可以包括基因组序列中的内含子和外显子,或者可以仅包括cDNA中的编码序列,和/或可以包括与调控序列组合的cDNA。因此,根据本发明的各个方面,可以使用基因组DNA、cDNA或编码DNA。在一个实施方案中,核酸是cDNA或编码DNA。因此,基因可以包括基因组序列中的内含子和外显子,或者可以仅包括cDNA中的编码序列,和/或可以包括与调控序列组合的cDNA。

核酸分析可采用合适的技术进行,例如用于测量基因表达的技术,包括但不限于数字PCR、qPCR、微阵列、RNA-Seq或分析。在此处所述的某些实施方案中,基因表达通过定量RNA来测定,包括RNA-Seq或分析。应当理解的是,基因表达可以使用不止一种技术进行测定。

RNA测序(RNA-Seq)是一种转录组分析技术,它利用基于下一代测序(NGS)的下一代测序平台。RNA-Seq转录本被逆转录成cDNA,且接头与cDNA的每一端连接。测序可以单向(单端测序)或双向(双端测序)进行,然后与参考基因组数据库比对或组装以获得重新的转录(de novo transcript),证明全基因组表达谱。RNA-seq可以定性和定量研究任何类型的RNA,包括信使RNA(mRNA)、微RNA、小干扰RNA和长链非编码RNA。

RNA可以采用NanoString nCounter基因表达分析法进行分析。NanoString是一种相对较新的分子表达谱技术,可以从少量固定的患者组织得到准确的基因组信息。NanoString平台采用数字、彩色编码的条形码或标记到序列特异性探针的代码集,可以对mRNA表达进行量化(Geiss等人Nat Biotechnol.2008Mar;26(3);317-25,Das等人NanoString expression profiling identifies candidate biomarkers of RAD001response in metastatic gastric cancer,ESMO Open2016,1-9)。NanoString系统将两个探针与每个目标转录物杂交:生物素标记的捕获探针和荧光条形码标记的报告探针。报告探针与样本中的特定RNA杂交,捕获探针通过亲和素将它们锁定在静态表面上。NanoStringnCounter分析系统使用其条形码对固定化RNA进行计数。

肺癌可以是非小细胞肺癌(NSCLC)。NSCLC可以选自浸润性腺癌(LUAD)、鳞状细胞癌(LUSC)、大细胞癌、腺鳞癌、癌肉瘤、大细胞神经内分泌癌、未分化非小细胞肺癌或细支气管肺泡癌。LUAD和LUSC占NSCLC病例的大部分,其他类型往往被归为一组。NSCLC可以是I期、II期、III期或IV期。

样本可以来自手术切除的肿瘤。样本可以来自肺组织或肺肿瘤活检。

预后可提供风险评估。

所述方法可以进一步包括确定治疗方案。因此,我们还描述了用于确定受试者治疗方案的方法,所述方法包括上述方法及进一步包括确定治疗方案的进一步步骤。所述治疗方案可以选自外科治疗、化疗、手术、放疗、免疫疗法或CAR-T疗法。所述治疗方案是本领域熟悉的。应当理解的是,存在多种类型的免疫疗法,例如免疫检查点抑制剂、溶瘤病毒疗法、T细胞疗法和癌症疫苗。可以选择合适的疗法。

我们还描述了包含一组试剂的组合物,所述试剂与一组生物标志物的每个成员特异性结合,所述生物标志物包括以下生物标志物或由以下生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG和XBP1。

我们还描述了包含试剂的试剂盒,所述试剂与一组生物标志物的每个成员特异性结合,所述生物标志物包括ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG和XBP1。

上述组合物或试剂盒中的所述试剂可以是核酸。我们还描述了组合物或试剂盒在为如上所述肺癌受试者提供预后的方法中的用途。我们还描述了组合物或试剂盒在为如上所述肺癌受试者提供治疗的方法中的用途。

我们还描述了ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG和XBP1在为如上所述肺癌受试者提供预后的方法中的用途。我们还描述了ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG和XBP1在为如上所述肺癌受试者提供治疗的方法中的用途。

我们还描述了治疗肺癌受试者的方法,包括预测肺癌受试者的死亡风险水平的步骤,所述方法包括(a)将来自受试者的生物样本与试剂接触,所述试剂与一组生物标志物中的每个成员特异性结合,所述生物标志物包括ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1;(b)根据样本中生物标志物的核酸表达水平,确定受试者的风险分数;(c)将风险分数与阈值进行比较,以预测受试者是否存在高死亡风险;(d)选择治疗方案;(e)实施所述治疗方案。

我们还描述了为癌症受试者生成生物标志物特征的方法,所述方法包括:从多个癌症受试者生成训练数据,所述训练数据包括多个受试者中每一个受试者多个基因的基因表达数据;根据基因表达数据,计算多个基因中每个基因的肿瘤内异质性度量和肿瘤间异质性度量;以及应用异质性过滤器,选择肿瘤内异质性低于肿瘤内异质性阈值且肿瘤间异质性高于肿瘤间异质性阈值的的基因;其中所述生物标志物特征包括所选基因中的至少一些基因。所述方法可适用于各种不同的癌症,特别是与ITH相关的癌症。

所述方法可以进一步包括:计算每个基因的一致性分数;并应用一致性过滤器选择一致性分数低于一致性阈值的基因。一致性过滤器可以被认为是一种去除混杂基因的异质性过滤器。所选基因的一致性分数可在应用异质性过滤器之后计算。或者,可以在计算肿瘤内异质性度量和肿瘤间异质性度量之前应用一致性过滤器。

每个基因的肿瘤内异质性度量可以通过以下方式计算:获得每个基因在同一肿瘤内多个位置的基因表达值,计算每个肿瘤指示每个基因所得基因表达值的度量,并获得作为每个肿瘤中每个基因指示性度量平均值的肿瘤内异质性度量。指示基因表达值的度量可以选自标准偏差、中值绝对偏差和变异系数。

肿瘤间异质性度量可以通过以下方式计算:获得每个受试者每个基因在肿瘤多个区域其中一个区域的基因表达值;并对所得值取标准偏差。所述方法可以进一步包括多次迭代获得和取值步骤,并且平均迭代的标准偏差,获得肿瘤间异质性度量。应当理解的是,也可以使用除标准偏差之外的其他度量,例如变异系数和中值绝对偏差。

生物标志物特征可以是预后的。所述方法可以进一步包括:为多个受试者中的每一个受试者产生包括相关生存数据的训练数据;根据生存数据计算多个基因中每个基因的预后度量;并且应用预后过滤器选择预后度量高于预后阈值的基因。预后度量可采用Cox单变量回归分析计算。

生物标志物特征可以预测受试者对特定治疗(例如免疫疗法)的反应。所述方法可以进一步包括:为多个受试者中的每一个受试者产生包括相关反应数据(例如,特定治疗的结果)的训练数据;根据反应数据计算多个基因中每个基因的预测度量;并且应用预测过滤器选择预测度量高于预测阈值的基因。预测度量可以采用回归分析,将基因表达与治疗反应相关联或治疗反应的代理度量来计算。所述方法可用于建立治疗反应的预测特征,帮助对患者进行分类,获得最合适的治疗方案。因此,如上所述产生的生物标志物特征有可能区分各种癌症亚型,并根据癌症亚型确定治疗策略。应当理解的是,上述提供预后的方法、确定受试者治疗方案的方法、组合物、试剂盒、治疗方法和用途可以适用于如上所述产生的任何特征。

我们还描述了为癌症受试者提供预后的方法,所述方法包括:将来自受试者的生物样本与试剂接触,所述试剂与如上所述产生的特征中的一组生物标志物的每个成员特异性结合;根据样本中生物标志物的核酸表达水平,确定受试者的风险分数;及根据受试者的风险分数提供癌症的预后。我们还描述了用于确定受试者治疗方案的方法,所述方法包括提供预后的方法及进一步包括确定治疗方案的进一步步骤。我们还描述了包含一组试剂的组合物,所述试剂与如上所述产生的特征中的一组生物标志物的每个成员特异性结合。我们还描述了包含试剂的试剂盒,所述试剂与如上所述产生的特征中的一组生物标志物的每个成员特异性结合。

我们还描述了如上所述产生的特征中的生物标志物在为癌症受试者提供预后的方法中的用途。我们还描述了如上所述产生的特征中的生物标志物在为癌症受试者提供治疗方案的方法中的用途。我们还描述了治疗癌症受试者的方法,包括预测癌症受试者的死亡风险水平的步骤,所述方法包括将来自受试者的生物样本与试剂接触,所述试剂与如上所述产生的特征中的一组生物标志物的每个成员特异性结合;根据样本中生物标志物的核酸表达水平,确定受试者的风险分数;将风险分数与阈值进行比较,以预测受试者是否存在高死亡风险;选择治疗方案;实施所述治疗方案。

还可能提供计算机装置,包括至少一个处理器;以及指令,当所述指令由至少一个处理器执行时,使所述计算机装置执行上述方法的确定、计算和比较步骤中的任一个步骤。还可能提供其上记录指令的有形非瞬态计算机可读存储介质,当所述指令由计算机装置执行时,使计算机装置按上述方式布置和/或使计算机装置执行如上所述方法相关步骤的任一个步骤。还可能提供试剂盒,包括计算机装置和组织样本的微阵列和/或一种或多种确定生物标志物存在的试剂。

到目前为止,我们已经描述了采用包括或由23个特定生物标志物组成的一组生物标志物。我们现在描述使用一组生物标志物的实施方案,所述一组生物标志物包括选自23个特定生物标志物的两个或更多个生物标志物。

我们还描述了为肺癌受试者提供预后的方法,所述方法包括:(a)将来自受试者的生物样本与和一组生物标志物中的每个成员特异性结合的试剂接触,所述一组生物标志物包括至少两个选自ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1的生物标志物;(b)根据样本中生物标志物的核酸表达水平,确定受试者的风险分数;及(c)根据受试者的风险分数,提供肺癌的预后。

确定受试者的风险分数可以包括:对于每个选择的生物标志物,确定指示组织样本中核酸表达水平的分数;根据确定的分数,计算风险分数,其中风险分数通过将加权的生物标志物的分数相加计算得出,其中生物标志物的分数基于确定的分数,并且每个生物标志物的分数都具有相关的权重;及将风险分数与阈值进行比较。这样,每个受试者都可能例如被分到高风险组(例如风险分数高于阈值)或低风险组(例如风险分数等于或低于阈值)。例如,当考虑所有类型的肺癌时,高风险组的生存率可能较低,而低风险组的生存率可能较高。或者,在考虑早期癌症时,高风险组可能比低风险组更容易复发。GOLGA8A、SCPEP1、SLC46A3和XBP1中的每个生物标志物分数的相关权重可能是负值,表明它们是有利的基因。ANLN、ASPM、CDCA4、ERRFI1、FURIN、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SNX7和TPBG中的生物标志物分数的相关权重可能是正值。

风险分数的加权总和可以通过以下方式确定:

风险分数=b1x1i+b2x2i+…+bnxni

其中x1i、x2i、……、xni是每个受试者i的四个选定生物标志物的生物标志物分数,b1、b2、……、bn是每个生物标志物分数的一组相关权重。

所述方法还可以包括采用Cox比例风险模型确定加权总和的权重,该模型采用包括有关一组受试者多个生物标志物的信息的训练数据进行训练。所述方法可包括识别在Cox比例风险模型中使用的多个生物标志物,其中所述多个生物标志物选自ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。

阈值可以是训练数据的中值风险分数。

确定指示生物标志物水平的分数可以包括确定缩放强度分数。生物标志物分数可以基于已通过减去调整因子而调整的缩放强度分数。确定指示生物标志物水平的分数可以包括当水平高于阈值时赋予第一值,当水平低于阈值时赋予第二值。确定指示生物标志物水平的分数可以包括当水平高于上阈值时赋予第一值,当水平低于上阈值但高于下阈值时赋予第二值,以及当水平低于下阈值时赋予第三值。

试剂可以是核酸。

肺癌可以是非小细胞肺癌(NSCLC)。NSCLC可以选自浸润性腺癌(LUAD)、鳞状细胞癌(LUSC)、大细胞癌、腺鳞癌、癌肉瘤、大细胞神经内分泌癌、未分化非小细胞肺癌或细支气管肺泡癌。LUAD和LUSC占NSCLC病例的大部分,其他类型往往被归为一组。NSCLC可以是I期、II期、III期或IV期。

样本可以来自手术切除的肿瘤。样本可以来自肺组织或肺肿瘤活检。

预后可提供风险评估。

所述方法还可以包括确定治疗方案。因此,我们还描述了用于确定受试者治疗方案的方法,所述方法包括上述方法及进一步包括确定治疗方案的进一步步骤。所述治疗方案可以选自外科治疗、化疗、手术、放疗、免疫疗法或CAR-T疗法。所述治疗方案是本领域熟悉的。应当理解的是,存在多种类型的免疫疗法,例如免疫检查点抑制剂、溶瘤病毒疗法、T细胞疗法和癌症疫苗。可以选择合适的治疗。

我们还描述了包含一组试剂的组合物,所述试剂与一组生物标志物的每个成员特异性结合,所述一组生物标志物包括选自以下生物标志物的至少两个生物标志物或由选自以下生物标志物的两个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG和XBP1。

我们还描述了包含试剂的试剂盒,所述试剂与一组生物标志物的每个成员特异性结合,所述一组生物标志物包括选自以下生物标志物的至少两个生物标志物:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG和XBP1。上述组合物或试剂盒中的所述试剂可以是核酸。我们还描述了组合物或试剂盒在为如上所述肺癌受试者提供预后的方法中的用途。我们还描述了组合物或试剂盒在为如上所述肺癌受试者提供治疗方案的方法中的用途。

我们还描述了选自ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG和XBP1的至少两个生物标志物在为肺癌受试者提供预后的方法中的用途。我们还描述了选自ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG和XBP1的至少两个生物标志物在为如上所述肺癌受试者提供治疗方案的方法中的用途。

我们还描述了治疗肺癌受试者的方法,包括预测肺癌受试者的死亡风险水平的步骤,所述方法包括:(a)将来自受试者的生物样本与和一组生物标志物中的每个成员特异性结合的试剂接触,所述一组生物标志物包括选自ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1的至少两个生物标志物;(b)根据样本中生物标志物的核酸表达水平,确定受试者的风险分数;(c)将风险分数与阈值进行比较,以预测受试者是否存在高死亡风险;(d)选择治疗方案;(e)实施所述治疗方案。

在本发明的每个实施方案中,一组生物标志物包括生物标志物的选择,本领域技术人员将理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少3个生物标志物或由选自以下生物标志物的至少3个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少4个生物标志物或由选自以下生物标志物的至少4个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少5个生物标志物或由选自以下生物标志物的至少5个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少6个生物标志物或由选自以下生物标志物的至少6个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少7个生物标志物或由选自以下生物标志物的至少7个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少8个生物标志物或由选自以下生物标志物的至少8个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少9个生物标志物或由选自以下生物标志物的至少9个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少10个生物标志物或由选自以下生物标志物的至少10个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少11个生物标志物或由选自以下生物标志物的至少11个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少12个生物标志物或由选自以下生物标志物的至少12个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少13个生物标志物或由选自以下生物标志物的至少13个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少14个生物标志物或由选自以下生物标志物的至少14个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少15个生物标志物或由选自以下生物标志物的至少15个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少16个生物标志物或由选自以下生物标志物的至少16个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少17个生物标志物或由选自以下生物标志物的至少17个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少18个生物标志物或由选自以下生物标志物的至少18个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少19个生物标志物或由选自以下生物标志物的至少19个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少20个生物标志物或由选自以下生物标志物的至少20个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少21个生物标志物或由选自以下生物标志物的至少21个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括选自以下生物标志物的至少22个生物标志物或由选自以下生物标志物的至少22个生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。

在本发明的每个实施方案中,一组生物标志物包括生物标志物的选择,本领域技术人员将理解的是,所述一组生物标志物可以包括ANLN以及以下生物标志物的至少一个或由ANLN以及以下生物标志物的至少一个组成:ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括ASPM以及以下生物标志物的至少一个或由ASPM以及以下生物标志物的至少一个组成:ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括CDCA4以及以下生物标志物的至少一个或由CDCA4以及以下生物标志物的至少一个组成:ASPM、ANLN、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括ERRFI1以及以下生物标志物的至少一个或由ERRFI1以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括FURIN以及以下生物标志物的至少一个或由FURIN以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括GOLGA8A以及以下生物标志物的至少一个或由GOLGA8A以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括ITGA6以及以下生物标志物的至少一个或由ITGA6以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括JAG1以及以下生物标志物的至少一个或由JAG1以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括LRP12以及以下生物标志物的至少一个或由LRP12以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括MAFF以及以下生物标志物的至少一个或由MAFF以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括MRPS17以及以下生物标志物的至少一个或由MRPS17以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括PLK1以及以下生物标志物的至少一个或由PLK1以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括PNP以及以下生物标志物的至少一个或由PNP以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括PPP1R13L以及以下生物标志物的至少一个或由PPP1R13L以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括PRKCA以及以下生物标志物的至少一个或由PRKCA以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括PTTG1以及以下生物标志物的至少一个或由PTTG1以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括PYGB以及以下生物标志物的至少一个或由PYGB以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括RPP25以及以下生物标志物的至少一个或由RPP25以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括SCPEP1以及以下生物标志物的至少一个或由SCPEP1以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SLC46A3、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括SLC46A3以及以下生物标志物的至少一个或由SLC46A3以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SNX7、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括SNX7以及以下生物标志物的至少一个或由SNX7以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、TPBG、XBP1。还应当理解的是,所述一组生物标志物可以包括TPBG以及以下生物标志物的至少一个或由TPBG以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、XBP1。还应当理解的是,所述一组生物标志物可以包括XBP1以及以下生物标志物的至少一个或由XBP1以及以下生物标志物的至少一个组成:ASPM、ANLN、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG。

本领域技术人员将理解的是,ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1中的两个或更多个生物标志物的任何组合足以提供肺癌受试者的预后或确定治疗方案。

尽管已经示出和描述了本发明的一些优选实施方案,但是本领域技术人员将理解的是,可以进行各种改变和修改,却并不背离所附权利要求定义的本发明的范围。

附图说明

为了更好地理解本发明,并且说明如何实施本发明的实施例,现在将仅以示例的方式参考附图,其中:

图1a是肺肿瘤的示意图,示出了说明肿瘤采样偏差问题的采样点;

图1b是预测方法的步骤和图1a肿瘤采样偏差问题的临床意义的示意图;

图1c是采用特定的已知特征绘制的风险分数-患者图;

图1d和1e是条形图,显示了采用两个已知特征的低、高和不一致风险患者的比例;

图1f是9个已知特征各肿瘤区域属于同一聚类的患者百分数相对聚类数量的图形。

图2a是开发和验证预后特征的方法的步骤流程图;

图2b是预后方法步骤的流程图;

图2c是实施图2b所述方法的系统组件的示意性框图;

图2d和2e分别是对两个基因CKMT2和HOXC11来说,所有样本都属于同一聚类的患者比例相对聚类数量的图形;

图2f是层次聚类一致性相对每个基因的图形;

图3a说明了计算多个基因的RNA肿瘤内异质性的步骤;

图3b是每个基因的中值绝对偏差(MAD)相对标准偏差分数的图形;

图3c是每个基因的变异系数(CV)相对标准偏差分数的图形;

图3d说明了计算RNA肿瘤间异质性度量的随机抽样过程;

图3e是多个基因的RNA肿瘤内异质性数值(y-轴)相对RNA肿瘤间异质性数值(x-轴)的图形;

图4a示出了验证队列三个特征中每个特征的预后值;

图4b示出了预测值相对已知风险因素的森林图;

图4c、4d和4e示出了亚分期标准的预后值、当前的化疗临床指南和I期患者的输出特征,其中改进的风险预测可能影响临床决策;

图4f示出了多个患者输出特征的风险分数;

图4g示出了采用RNA-Seq数据集和四个微阵列数据集的预后值评估图;

图4h示出的图表明ORACLE特征的任何子集都可能具有预后值;

图5a示出了不同癌症类型的RNA异质性象限的预后关联性;

图5b比较了多种癌症类型每个象限内基因的表现,以确定这些象限是否富集或缺乏预后基因;

图6a是基因表达ITH相对拷贝数ITH的图形;

图6b示出了亚克隆染色体拷贝数变化(分别为减少和增加)的表达差异;

图6c示出了RNA异质性象限的克隆拷贝数增加;及

图6d示出了RNA异质性象限Q4中富集的反应组通路(reactome pathways)。

具体实施方式

如上所述,图1a至1f表明采样偏差会使分子生物标志物在几种癌症类型中的使用变得混乱。这是因为作为肿瘤进化的底物,肿瘤内异质性(即单个肿瘤内遗传和转录组特征的空间变异性)会影响分子生物标志物应用的结果,因为结果可能取决于被检测肿瘤样本的位置。针对肿瘤采样偏差问题,人们已经提出了多种解决方案,包括利用多区域测序来(i)汇集多个活检,以获得单个肿瘤的整体分子风险估计(如Blackhall等人在Neoplasia(2004)发表的“Stability and Heterogeneity of Expression Profiles in LungCancer Specimens Harvested Following Surgical Resection”中所述;或(ii)鉴定具有最大免疫逃避性的“致命”亚克隆(例如,如Mlecnik等人在JNCL J Natl Cancer Inst 110,97-108(2018)上发表的“Comprehensive Intrametastatic Immune Quantification andMajor Impact of Immunoscore on Survival”中所述)或转移潜能(例如,如Yachida等人在Nature 467,1114-1117(2010)上发表的“Distant metastasis occurs late duringthe genetic evolution of pancreatic cancer”中所述)。然而,在临床上,多区域测序目前是不切实际的。

图2a是开发一组生物标志物(或基因表达特征)的步骤流程图,所述生物标志物产生可靠的预后结果,适用于临床实践中常规采集的单区域肿瘤样本。正如下文更详细解释的那样,所述一组生物标志物包括具有低肿瘤内异质性但高肿瘤间异质性的基因,最大限度地降低采样偏差的混乱影响,但最大限度地提高了患者之间的区分能力。

第一步S100是收集训练数据,例如来自癌症基因组图谱(TCGA)的959名I至III期NSCLC患者(469名LUAD患者和490名LUSC患者)的基因表达和生存数据。该数据形成一个训练数据集,用于导出如下所述的特征。因此可以按照RNA-seq预处理管道中的标准方法处理下载的数据以形成训练数据。例如,可以与人类基因组进行比对,例如采用67中描述的MapSplice包。然后,可以对基因表达进行定量,例如,采用Bioconductor的GenomicFeatures和Genomic Ranges包。然后,可以应用表达过滤器,保留至少2个肿瘤样本中至少0.5CPM的基因,如步骤S101所示。然后,采用Love等人在Genome Biol 15,550(2014)上发表的“Moderated estimation of fold change and dispersion for RNA-seq datawith DESeq2”中所述来自DESeq2包的方差稳定转换,获得过滤基因的归一化计数值。应当理解的是,当开发不同疾病的预后特征时,还可以收集不同患者的数据。

下一步S102是计算每个基因的预后度量,识别显著的预后基因。然后应用第一过滤步骤S104根据基因的预后效应去除基因(即选择预后度量高于阈值的基因)。这些基因中的每一个基因都对每位患者的总体生存率具有未知的影响。预后度量可采用任何合适的方法计算。

例如,可以采用Cox单变量回归分析。Cox模型由h(t)表示的风险函数表示。风险函数可以解释为在时间t死亡的风险。其可以估计如下:

h(t)=h0(t)×exp(b1x1+b2x2+…+bpxn)

其中t表示生存时间,h(t)是由一组n个协变量(x1,x2,……,xn)确定的风险函数-在这种情况下是基因,组(b1,b2,……,bn)是每个协变量的权重(或系数),术语h0称为基线风险,与所有xi都等于0(数量exp(0)等于1)的风险值相对应。h(t)中的“t”提醒我们风险可能会随时间变化。但是,可以消除时间方差,从而可以通过对患者i与参考组的风险比取对数而以线性形式重写该模型,该模型可以写为:

这个线性方程被称为Cox比例风险模型,其中包含每个患者i的一组n个协变量(即基因)(x1i,x2i,……,xni),和针对所有患者优化模型的一组权重(b1,b2,……,bn)。单变量分析指的是逐个考虑每个变量。通常,对于每个变量,计算系数及系数附近95%置信区间的下限和上限(分别为CI95L和CI95U)。P值是变量统计显著性的度量,采用Wald检验或时序检验(log-rank)计算。Q值是采用Benjamini&Hochberg方法调整后的P值。

如步骤S104所示,可以应用一个以上预后过滤器。例如,第一过滤器可以包括根据预后显著性阈值过滤所有基因,例如,在此实施例中P<0.05可以将基因数量从19026个减少到4240个。可以采用第二过滤器,根据中值阈值过滤基因,例如,可以去除预后度量低于预后阈值的所有基因。在这个实施例中,这可以将基因数量从19026个减少到9512个。这两个阈值可以合在一起作为一个预后阈值考虑,因此总的来说,第一个过滤步骤可以将基因的数量从19026个减少到2023个。

然后可以采用第二过滤步骤S106。该过滤器可称为克隆表达过滤器或异质性过滤器。正如下文更详细地解释的那样,克隆表达过滤器可以去除既不具有低肿瘤内异质性又不具有高肿瘤间异质性的基因(即选择既具有低肿瘤内异质性又具有高肿瘤间异质性的基因)。在这个实施例中,这可能将基因数量从2023个减少到176个。

然后可以采用第三过滤步骤S108。这个可以被称为一致性过滤器的过滤器可以根据基因聚类一致性分数筛选出剩余的基因。聚类一致性分数可采用任何合适的方法计算。例如,一致性可以通过对癌症表达数据的层次聚类分析来确定,其中从每个肿瘤获得多个样本,例如,采用曼哈顿度量Ward法,如Gyanchandani等在Clin.Cancer Res.22,5362–5369(2016)上发表的“Intratumor Heterogeneity Affects Gene Expression Profile TestPrognostic Risk Stratification in Early Breast Cancer”中所述。一致性在每个基因水平上确定为所有样本归为同一聚类的肿瘤百分数。聚类分析可以从2到患者总数(例如,此TRACERx LUAD队列中的28个)迭代分析。对于每个基因,可以将所有区域都属于同一聚类的患者数量对照聚类数作图得到一条曲线。例如,如图2d和2e所示,对两个基因CKMT2和HOXC11来说,所有样本都属于同一聚类的患者比例对照聚类数作图。然后将每个基因的聚类一致性分数总结为曲线下的面积。每个基因的一致性分数可以如图2f所示作图,图中示出了每个基因的层次聚类一致性。一旦计算出每个基因的一致性分数,就可以去除一致性分数低于一致性阈值的所有基因。一致性阈值(即截止值)可以采用十倍交叉验证来确定。在这个实施例中,这可能将基因数量从176个减少到90个。

对于实用的预后试剂盒来说,此基因数量可能仍然太多,因此可以采用标准方法,如套索回归(Lasso regression)(S110)任选进一步减少基因的数量。可以采用glmnet包在Rsoftware环境中应用套索回归,该glmnet包在Friedman等人发表在J Stat Softw 33,1-22(2010)上的“Regularised Paths for Generalized Linear Models via CoordinateDescent”中进行了描述,用于采用套索惩罚(α=1)的Cox比例风险模型(例如,如Simon等人在J Stat Softw 39,1-13(2011)上发表的“Regularisation Paths for Cox’sProportional Hazards Model via Coordinate Descent”中所述)。在这个实施例中,这可能将基因数量从90个减少到23个。然后,输出得到的23个基因组(即特征)(S112)。得到的特征可称为ORACLE特征(结果风险相关的克隆肺表达)。输出特征的预后准确性可以采用验证数据评估(S114)。

应当理解的是,图2a中的每个过滤步骤可以以任何顺序应用。所示顺序仅仅是示例性的而非限制性的。

预后生物标志物特征包括以下基因:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1。有五个基因与细胞增殖有关:ANLN、ASPM、CDCA4、PLK1、PRKCA以及6个基因(ERRFI、FURIN、ITGA6、JAG1、PPP1R13L、PTTG1)与致癌信号通路有关。这些基因中只有7个基因以前被用于LUAD预后特征,即ASPM、FURIN、PLK1、PNP、PRKCA、PTTG1和TTBG。预后生物标志物预测独立于治疗的生存风险。

为肺癌受试者提供预后或预测风险水平的方法,所述方法包括:

a)将来自受试者的生物样本与和一组生物标志物中的每个成员特异性结合的试剂接触,所述一组生物标志物包括以下生物标志物或由以下生物标志物组成:ANLN、ASPM、CDCA4、ERRFI1、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PTTG1、PYGB、RPP25、SCPEP1、SLC46A3、SNX7、TPBG、XBP1;

(b)根据样本中生物标志物的核酸表达水平,确定受试者的风险分数;及

(c)根据受试者的风险分数提供肺癌的预后。

所述方法还可包括从患者采集样本。样本可以是肿瘤样本。此处提供的方法、试剂盒和组合物中使用的试剂可以是核酸,例如寡核苷酸或引物。

此处所述预后涉及临床结果,例如总体生存率、中期或长期死亡率(例如1、2、3、4或5年)或无病生存率。

应当理解的是,图2a示出了一种用于生成预后特征的方法,但是,所述方法可以通过用预测性度量代替预后度量而容易地适用于预测。

图2b提供了预后的方法实施例。图中示出了使用输出特征的预后方法中可以执行的步骤。第一步是接触生物样本(步骤S200)。生物样本可以是采用任何合适的方法获得的肿瘤样本,例如活检获得的供体样本。然后,采用标准技术确定肿瘤样本中23个基因中每个基因的数值(步骤S202)。

下一步(S204)是根据23个基因中每个基因数值的加权总和来确定风险分数。因此,风险分数可以通过以下方式计算:

风险分数=b1x1i+b2x2i+…+bnxni

式中x1i、x2i、……、xni是每个患者i的23个选择基因的数值,b1、b2、……、bn是每个基因的一组相关权重。权重可以采用如上所述的套索回归确定。

例如,下面示出了特征中每个基因的合适权重。具有正β系数的基因与风险比>1相关(即是“不利基因”,预测较差的生存率),具有负系数的基因(“有利基因”)则与之相反。应当理解的是,这些权重指示合适的数值而不是限制性的。

回到图2b,一旦确定了风险分数,就将其与风险分数阈值进行比较(步骤S206)。如果风险分数等于或高于阈值,则认为患者无法存活的风险较高,因此将患者归类为高风险患者(步骤S210)。相反,如果风险分数低于阈值,则认为患者无法存活的风险较低,因此将患者归类为低风险患者(步骤S212)。阈值可以例如是用于导出特征的数据的中值风险分数和/或最显著分割的中值风险分数(时序检验P<0.01)。换句话说,阈值可以是最显著地将训练队列分成复发和非复发(即治愈)患者的风险分数。

作为步骤S208的替代,可以将风险分数与上阈值和下阈值进行比较。如果风险分数等于或高于上阈值,则患者归类为高风险患者。如果风险分数低于下阈值,则患者归类为低风险患者。如果风险分数位于这两个阈值之间,则患者归类为中风险患者。正如下文所解释的那样,上阈值和下阈值可被确定为训练队列确定的风险分数的三分位数。

一旦确定了风险分数,这可以任选用于决定最合适的治疗。例如,对于高风险患者,建议采用辅助化疗以补充手术。与单纯化疗相比,这种治疗可提高总体生存率。这对于I期患者尤其重要,因为在I期患者中,缺乏识别高风险患者的临床指标。目前,I期患者倾向于不接受化疗,导致约25%的I期患者在5年内复发。相比之下,对于低风险患者,治疗可以从单独手术或以上指定的联合手术方法中选择。在这种情况下,两种选择都同样有效。

用于执行该方法的相关系统的示意图如图2c所示。所述系统包括计算装置210,所述计算装置210可以是手持便携式装置,临床医生可以将其携带用于不同的患者,并且可以在所述装置上安装计算风险分数的应用程序。计算装置210包括标准组件(例如处理单元或处理器220)、用于允许用户输入信息(例如确定分数)的用户界面单元222,以及用于存储执行计算的代码和/或用于比较计算风险分数的阈值的存储器224。用户界面可以显示信息或者替代地,可以有显示器224用于向用户显示信息,例如计算的风险分数和/或如上所述的治疗建议,以及用于与其他设备通信和/或访问云端240的通信模块228,例如,用于处理风险分数。还示意性地示出了组织样本230。

所述示意系统可以部分或全部采用专用硬件构建。此处使用的例如“模块”或“单元”等术语可包括但不限于执行某些任务或提供相关功能的硬件设备,例如分立或集成组件形式的电路、现场可编程门阵列(FPGA)或专用集成电路(ASIC)。在一些实施例中,所描述的元件可以被配置为驻留在有形的、持久的、可寻址的存储介质上,并且可以被配置为在一个或多个处理器上执行。在一些实施例中,这些功能元件可以包括,例如,组件(例如软件组件、面向对象的软件组件、类组件和任务组件)、过程、功能、属性、程序、子程序、程序代码段、驱动程序、固件、微代码、电路、数据、数据库、数据结构、表格、数组和变量。尽管已经参考此处讨论的组件描述了示例实施例,但是,这些功能元件可以组合成更少的元件或分开成其它的元件:

图3a至3e说明了如何创建克隆表达过滤器。对于每个基因,计算RNA肿瘤内异质性值和RNA肿瘤间异质性值。这些每基因指标可以通过同一肿瘤内各区之间的标准偏差来量化变异性,以生成肿瘤内异质性值,并通过不同肿瘤相同肿瘤区域之间的标准偏差来量化变异性,以生成肿瘤间异质性值。它们可以采用多区域RNAseq数据(归一化计数值)计算。

图3a至3e绘制了来自伦敦大学学院赞助的TRACERx肺癌研究中100名NSCLC患者数据集的肿瘤样本数据。进行多区域取样以从同一组织中依次获得DNA和RNA。对DNA样本进行全外显子组测序。在100个肿瘤的队列中,从68个肿瘤的174个区域获得了足够质量的RNA样本。其中,至少有两个样本来自48个肿瘤。

可以根据需要进行进一步处理。例如,进行比对,例如,采用Dobin等人在Bioinformatics29,15to 21(2013)发表的“STAR;ultrafast Universal RNA-seqaligner”中描述的STAR包,将读长映射到人类基因组。例如,采用Li等人在BMCBioinformatics 12,323(2011)上发表的“RSEM;accurate transcript quantificationfrom RNA-Seq data with or without a reference genome”描述的RSEM包对转录表达进行量化,以生成计数和每百万表达值的转录本数(TPM)。采用表达过滤器,保留至少20%(30/156)肿瘤样本中至少1TPM的基因。最后,采用上述DESeq2包将方差稳定转换应用于来自过滤基因的计数(假设计数值呈负二项式分布)。输出同方差和文库大小归一化计数值按如下所述使用。在此实施例中,可能有19206个基因需要考虑。

如图3a所示,对于每个患者(例如CRUK0003),确定了每个基因在多个位置(例如R1至R8)的基因表达。例如,图3a左侧的图示出了EDC4、CALM2和PROM1在多个位置的基因表达。对于给定的肿瘤,可以计算特定基因在各肿瘤区域的表达值的标准偏差,产生基因特异性、患者特异性的RNA肿瘤内异质性度量(σg,p)。对于示例患者,这些都显示在图3a中心的表格中,三个基因分别是0.075、0.552和2.248。因此,EDC4在整个肿瘤中几乎没有变化,但PROM1变化显著。然后,可以对所有基因重复此操作,然后对所有肿瘤重复此操作,生成σg,p值的矩阵,在此实施例中,该矩阵以列中为患者(p)和行中为基因(g)的表格显示。

逐基因RNA肿瘤内异质性值可以概括为队列中所有肿瘤每个基因的平均值(中值)(σg)。这些值可以例如通过绘制诸如图3a右侧所示的图来确定。对于三个示例基因,σg值分别为0.096、0.246和1.380。或者,逐患者RNA肿瘤内异质性值可以概括为队列中所有表达基因每个肿瘤的平均值(中值)(σp)。

图3b是每个基因的中值绝对偏差(MAD)相对标准偏差分数作图。类似地,图3c是每个基因的变异系数(CV)相对标准偏差分数作图。图3b和3c显示MAD和CV是用于量化基因RNA-ITH的替代指标,它们与标准偏差分数显示出良好的一致性。

如图3d所示,可以通过对每个患者随机采集一个区域(例如患者CRUK001采集R1区样本,患者CRUK002采集R2区样本等)的样本,推导出每个基因的肿瘤间异质性度量。然后,可以得出所得单活检队列的标准偏差。随机采样和标准偏差的计算可以重复多次(例如10次),以获取迭代的平均分数。作为检查,同样的方法也可以应用于TCGA NSCLC数据集,这是一个真正的单活检队列。这种检查发现与TRACERx队列中计算的分数非常一致(PMCC=0.94,P<0.001),表明肿瘤间异质性分数的计算是可重现的。

图3e绘制了每个基因的RNA肿瘤内异质性值(也称为分数,这些术语可以互换使用)(y-轴)与RNA肿瘤间异质性值(x-轴)。图3b中的图通过平均肿瘤内异质性值(水平虚线)和平均肿瘤间异质性值(垂直虚线)分成多个象限。这些象限编为Q1、Q2、Q3和Q4,并标明每个象限的基因数量。Q1代表低肿瘤间异质性值和高肿瘤内异质性值基因,包含798个基因。Q2代表低肿瘤间异质性值和低肿瘤内异质性值基因,包含9642个基因。Q3代表高肿瘤间异质性值和高肿瘤内异质性值基因,包含4766个基因。Q4代表高肿瘤间异质性值和低肿瘤内异质性值基因,包含1080个基因。Q2和Q4中的基因在肿瘤内表现出同质表达(即低肿瘤间异质性),这可能会限制采样偏差。然而,在Q2中,基因还具有较低的肿瘤间异质性,这意味着它们在不同肿瘤之间表现出同质表达,因此,无法为患者分为高/低风险组提供信息。因此,Q4中的基因组更有用,因此克隆表达过滤器可以过滤掉Q4象限之外的所有基因,即肿瘤间异质性值高于肿瘤间阈值(例如中值)且肿瘤内异质性值低于肿瘤内阈值(例如中值)的基因。

图4a至4e示出了图2a所述方法最后一个任选步骤的示例结果,该步骤采用验证数据来评估输出(ORACLE)特征的预后准确性。在此实施例中,验证数据取自“Uppsala II”数据集,该数据集是早期LUAD患者(UII,n=103,I至III期)的独立队列。验证数据包括预处理的Uppsala RNAseq和从高通量基因表达数据库(Gene Expression Omnibus)下载的Uppsala NSCLC II队列中170名NSCLC患者(103名LUAD+67名LUSC)的临床数据。所述队列在Djureinovic等人在JCL Insight 1(2016)上发表的“Profiling cancer testis antigensin non-small-cell lung cancer”中进行了描述。

基因信息使用已知步骤从所述数据集中提取。例如,开展与人类基因组的比对,例如,采用Kim等人在Genome Biol 14,R36(2013)中发表的“TopHat2:accurate alignmentof transcriptomes in the presence of insertions,deletions and gene fusions”中描述的TopHat包。然后计算原始读长,例如采用Liao等人在Nucleic Acids Res 41,e108(2013)发表的“The Subread aligner:fast,accurate and scalable read mapping byseed-and-vote”中描述的Subread包。采用Durinck等人在Nat Protoc 4,1184-1191(2009)发表的“Mapping Identifiers for the Integration of Genomic Datasets with theR/Bioconductor package biomaRt”中描述的biomaRt包将基因ID转换为HGNC ID。然后选择最大值用于多映射探针。将上述训练数据集中识别出的低表达基因从验证数据集中过滤掉,并采用上述DESeq2包应用方差稳定转换,以输出归一化计数值。还获得了额外的临床信息(例如治疗状态和肿瘤大小)。

图4a比较了输出23个基因特征的性表现与基于已知论文的类似特征的表现。特征A基于Shukla等在JNCL J Natl Cancer Inst 109(2017)发表的“Development of a RNA-seq Based Prognostic Signature in Lung Adenocarcinoma”中描述的特征构建管道。所述特征源自Shukla论文中确定的基因,并采用标准技术选择所述特征的几个基因。例如,采用来自TCGA数据库的训练数据集,特别是LUAD患者,执行单变量Cox回归分析,并应用一级预后过滤器(单变量Cox分析P<0.00025),以将Shukla论文中鉴定的基因数量减少到108个。另一个预后过滤器,这次是单变量Cox分析FDR<0.02,将108个基因减少到15个。最后,应用正向条件逐步回归以产生6-基因特征。因此遵循了Shukla论文中概述的步骤,但不同的训练数据产生了6-基因特征,而不是Shukla第4页上包含4个基因的预后模型。

特征B基于Kratz等人在Lancet 379,823-832(2012)上发表的“A practicalmolecular assay to predict survival in resected non-squamous,non-small lungcancer;development and international validation studies”中描述的特征构建管道。在特征B的开发过程中,首先将背景部分表格所列论文中确定的所有基因整理到一个列表中。例如,采用来自TCGA数据库的训练数据集,特别是LUAD患者,执行单变量Cox回归分析,并应用一级预后过滤器(单变量Cox分析P<0.00025),将鉴定基因数量减少到249个。采用二级预后过滤器,通过仅列出与癌症相关的基因,将基因数量从249个减少到56个。最后,应用套索回归,得到24个基因预后特征。与特征A一样,此特征B是采用Kratz论文中描述的方法推导出来的,但由于训练队列而导致不同的基因选择。这两个特征都与上述24个基因特征相当。

图4a示出了三个特征中每个特征的预后值。采用来自Uppsala数据集的验证数据对这三个特征的预后准确性进行测试。如图所示,图2a所示过程产生的特征预测了显著的生存风险(时序检验P=0.006),并优于特征A和B。换句话说,图4a表明,与采用特征A和B的风险分数相比,采用图2a过程推导的特征计算风险分数,验证队列中的患者可能更成功地分成生存时间明显不同的亚组。

图4b是森林图,显示了该新特征与其他已知风险因素结合时的预测值。在图4b中,执行多变量(而不是之前的单变量)分析,以证明计算的风险分数(作为连续变量的输入)即使在整合临床信息以预测生存率时也保持显著性。死亡的相对风险(风险分数)以实心块显示,是肿瘤分期(例如I至III期)、治疗状态(不采用或采用一些辅助治疗)和使用输出(ORACLE)特征计算的风险分数的综合函数。95%的置信水平也由条形图指示。风险比越高,死亡风险就越大,不出所料,III期患者的值最高。图4b显示,当采用肿瘤分期和治疗状态的多变量分析时,输出特征是显著的(Cox MVA P=0.0247),因为该特征提供了额外的预后信息。

图4c至4e显示了I期患者的临床可操作信息。验证数据集中大约有60名这样的患者。图4c显示了I期患者分为两组:根据亚分期标准(时序检验P=0.52)分为IA(n=42)和IB(n=18)。以这种方式对患者进行分类并不能有效地将患者分为总生存率高和总生存率低的患者。类似地,图4f示出了根据肿瘤大小将I期患者分为高风险患者和低风险患者。目前的临床指南认为对I期LUAD患者来说,IB期肿瘤大于4cm的患者是高风险患者,而其他患者(即IA期肿瘤或尺寸小于4cm的IB期肿瘤)是低风险患者。在60名患者中,只有5名患者属于高风险患者。如图4d所示,这些患者未能很好地分为总生存率高和总生存率低的患者。

图4e显示了采用输出(ORACLE)特征将I期患者分为两组:高风险组(红色)和低风险组(蓝色)。如图所示,这种划分在预测患者的生存率方面有效很多。

图4f说明了肿瘤采样偏差对输出(ORACLE)特征的影响。采用计算的风险分数将肿瘤区域分类为“高风险”或“低风险”。然后,对单个患者的不一致分类进行评估,由此来自同一肿瘤的不同区域可能被分类为具有不同的分子风险特征。如图中所示,只有3/28名患者(即11%)不一致,这比图1c和1d中显示的不一致率低很多。

图4g示出了采用RNA-Seq数据集和四个微阵列数据集的预后值评估图。为了研究多个队列的一致性,将输出(ORACLE)特征应用于四个微阵列数据集。具体而言,在LUAD患者的五个验证队列(n=904名I-III期LUAD患者)的荟萃分析中对输出(ORACLE)特征的预后值进行了评估。在一个RNA-Seq数据集和四个微阵列数据集中开展单变量Cox分析。在微阵列队列中,23个基因中有19个基因可用于分析(ASPM、CDCA4、FURIN、GOLGA8A、ITGA6、JAG1、LRP12、MAFF、MRPS17、PLK1、PNP、PPP1R13L、PRKCA、PYGB、SCPEP1、SLC46A3、SNX7、TPBG、XBP1)。显示了每个队列具有95%置信区间的风险比,并以自然对数标度绘制。预计输出特征的表现会更差,因为23个基因中只有19个基因与微阵列探针集匹配,并且使用了在RNA-Seq数据上训练的特征权重。但是,在四个微阵列数据集中的三个数据集中,ORACLE与生存率显著相关。荟萃分析考虑了所有验证队列—菱形表示五个验证队列荟萃分析的风险比—这表明ORACLE与结果显著相关,总体风险比为3.57。这些数据表明,通过在生物标志物设计中控制RNA-ITH,可以获得不因表达谱技术差异而受到影响的生存关联。有关这种分析的更多信息,请参见D.Biswas等人在Nature Medicine 25,1540-1548(2019)上发表的“Aclonal expression biomarker associates with lung cancer mortality”。

图4h绘制了从ORACLE特征中选择的1至23个基因组合的预后值。考虑了从完整的ORACLE特征中选择基因组合的两种程序,作为对23个基因的每个组合进行详尽搜索的计算高效替代方案。反向构建子集从包含所有23个基因的完整模型开始,评估所有22个基因组合,然后选择具有最高预后意义的最佳组合。该程序反复进行,一次去除一个基因,直到留下一个基因。正向构建子集从不包含任何基因的模型开始,然后加入对模型产生最高预后意义的基因,一次加入一个基因,直到包括所有23个基因。重要的是,每个基因的权重都没有重新训练,因此每个组合都作为上面定义的完整ORACLE特征的一个子集进行评估。这些数据表明,ORACLE特征的23个基因中的两个或多个基因的任何组合都可能具有预后值。这两个程序的数据见附录A。

图5a和5b说明了上述图2a中描述的方法可能对其他癌症类型具有预后相关性。图3a至3f中描述的克隆表达过滤器是通过利用来自TRACERx肺队列的完整多区域RNAseq数据集生成的,所述数据集包含来自多区域LUSC肿瘤和其他NSCLC组织学的数据。然后,采用上述相同的逐基因指标,将该数据用于计算每个基因的肿瘤内异质性分数和肿瘤间异质性分数。如上所述,这些基因被分为四个象限。

然后,对于每个象限中给出泛癌显著性预后值的每个基因的比例进行评估,并显示在图5a中。例如,可以从Gentles等人在Nat Med 21,938-945(2015)发表的“Theprognostic landscape of genes and infiltrating immune cells across humancancers”中描述的PRECOG资源下载泛癌逐基因预后值。PRECOG资源是一个荟萃数据集,汇总了166个微阵列数据集,涵盖39种不同的恶性组织学。该数据集包括之前采用Cox单变量回归分析计算的Z分数。选择|z|分数>1.96(相当于双侧P<0.05)的基因。与图3a至3f中的分析一致,与所有其他象限相比,Q4象限中的基因(即高肿瘤间异质性值和低肿瘤内异质性值的基因)表现出明显更高的泛癌Z分数(反映显著的预后能力)。

图5b还比较了每个象限内基因的表现,以确定这些基因是否富集或缺乏预后基因。图5b中的每个点对应于来自PRECOG数据库的33种癌症类型中的一种。每种癌症类型每个NSCLC RN异质性象限中预后显著的基因数量(|z|分数>1.96)以不显著(灰色)、显著富集(红色)或显著缺乏(蓝色)表示。如图5b所示,Q4中的基因在49%(19/39)的癌症类型中显著富集预后基因,仅在3/%(1/39)的头颈癌中显著缺乏。相反的是,Q1中的基因(低肿瘤间异质性值和高肿瘤内异质性值的基因)在任何癌症类型中都没有显著富集,且在56%(22/39)的癌症中缺乏。Q2中的基因(低肿瘤间异质性值和低肿瘤内异质性值的基因和Q3中的基因(高肿瘤间异质性值和高肿瘤内异质性值的基因)显示出相似数量的缺乏和富集癌症类型。

图6a至6c探索了支持RNA-ITH的基因组机制。首先考虑了如上所述采用多区域RNAseq数据计算的RNA-ITH分数与采用多区域WES数据量化的拷贝数异质性之间的关系,这些数据在Jamal-Hanjani等人在N Engl J Med 376,2109-2121(2017)上发表的“Trackingthe Evolution of Non-Small Cell Lung Cancer”中进行了描述。图6a是基因表达ITH与拷贝数ITH的关系图。从TRACERx LUAD队列中,将逐个患者的RNA-ITH分数对照逐个患者的SCNA-ITH分数作图。图6a显示每个患者的中值RNA-ITH分数与每个患者的亚克隆SCNA事件百分数之间存在显著相关性(Rs=0.48,P=0.0162)。这表明SCNA-ITH可能导致转录组异质性。

图6b显示亚克隆拷贝数增加与表达增加之间以及亚克隆拷贝数缺失与表达减少之间存在高度显著相关性(P<0.001)。该数据表明亚克隆水平的染色体拷贝数增加和缺失与基因转录之间存在关联,并且RNA-ITH反映了正在进行的CIN和异质DNA拷贝数事件的可能选择。

图6c显示了每个象限的克隆拷贝数增加优势比。图6c对TRACERx队列中最常显示克隆拷贝数增加(上四分位数)与很少显示克隆拷贝数增加(下四分位数)的每个象限内基因的相对富集进行了评估。图6c显示,在TRACERx中出现克隆拷贝数增加事件的Q4基因高度显著富集(P=1.18e-05,费希尔(Fisher)精确检验),而Q3基因富集程度更低(P=0.000109,费希尔精确检验)。相比之下,Q2基因缺乏(P=6.86e-08,费希尔精确检验)。该数据表明,肿瘤中的均质表达可能源于肿瘤进化早期选择的克隆DNA拷贝数的改变。

图6d显示了Q4中富集的反应组通路,这些通路与细胞增殖有关,包括有丝分裂、核小体组装和表观遗传调控。相比之下,对其他象限中基因通路的相同分析表明,Q1基因没有显著富集,Q2基因显示参与RNA剪接过程,Q3基因显示参与GPCR配体结合和细胞外基质组织。这种分析表明Q4基因可能与肿瘤侵袭性的特定生物学特征有关,这可能解释了它们的预后差别通路。

此处已经描述了任选特征的各种组合,并且应当理解的是,所描述的这些特征可以以任何合适的组合进行组合。特别是,任何一个示例实施例的特征可以视情况与任何其他实施例的特征组合,除非这种组合是相互排斥的。在本说明书中,术语“包括”是指包括指定的一个或多个组件,但不排除其他组件的存在。

应注意与此说明书同时提交、或在本说明书之前提交的与本申请有关的、可供公众查阅的所有论文和文件,通过引用,所有这些论文和文件的内容都纳入本发明中。

本说明书(包括任何所附权利要求、摘要和附图)中公开的所有特征和/或如此公开的任何方法或过程的所有步骤可以在任何组合中组合,除非组合中至少一些这样的特征和/或步骤是相互排斥的。

除非另外明确说明,本说明书(包括任何所附权利要求书、摘要和附图)中公开的每个特征可以被具有相同、相当或类似用途的替代特征所代替。因此,除非另外明确说明,公开的每个特征仅仅是相当或类似特征通用系列的一个实施例。

本发明不限于前述实施例的细节。本发明扩展到本说明书(包括任何所附权利要求书、摘要和附图)中公开特征的任何新颖的一个或任何新颖的组合,或此处公开的任何方法或过程的步骤的任何新颖的一个或任何新颖的组合。

附录A–具有预后值的生物标志物的特定组合数据,如采用图4h的正向和反向构建子集程序获得的数据。

正向分析

反向分析

88页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:经冷轧和涂覆的钢板及其制造方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!