用于识别手术后处于高复发风险的早期nsclc患者的预测性测试

文档序号:1895158 发布日期:2021-11-26 浏览:19次 >En<

阅读说明:本技术 用于识别手术后处于高复发风险的早期nsclc患者的预测性测试 (Predictive test for identifying early-stage NSCLC patients at high risk of relapse after surgery ) 是由 H·罗德 J·罗德 L·内特 L·马圭尔 于 2020-01-29 设计创作,主要内容包括:本发明公开了一种用于预测早期(IA,IB)非小细胞肺癌(NSCLC)患者是否在手术后处于高的癌症复发风险的方法,所述方法涉及利用实现分类器的计算机使来自所述患者的基于血液的样本(在所述手术之前、所述手术时或所述手术之后获得)经受质谱分析和分类。如果所述患者的血液样本被分类为“高风险”、“最高风险”或等同物,则所述患者能够被引导至手术后更积极的治疗。所述分类器或分类器的组合能够以分级方式布置以进行中等分类,诸如中等/高或中等/低,以及“低风险”或“最低风险”分类。此类附加分类也能够引导临床决策。(The present invention discloses a method for predicting whether an early-stage (IA, IB) non-small cell lung cancer (NSCLC) patient is at high risk of cancer recurrence post-operatively, said method involving subjecting a blood-based sample (obtained before, at or after the operation) from the patient to mass spectrometry and classification using a computer implementing a classifier. If the patient&#39;s blood sample is classified as &#34;high risk&#34;, &#34;highest risk&#34; or equivalent, the patient can be directed to more aggressive post-operative treatment. The classifiers, or combinations of classifiers, can be arranged in a hierarchical manner to make medium classifications, such as medium/high or medium/low, and &#34;low risk&#34; or &#34;lowest risk&#34; classifications. Such additional classification can also guide clinical decisions.)

用于识别手术后处于高复发风险的早期NSCLC患者的预测性 测试

优先权

本申请要求2019年2月15日提交的美国临时申请序列号62/806,254的优先权权益,该美国临时申请的内容以引用方式并入本文。

技术领域

本文件描述了一种用于确定早期非小细胞肺癌(NSCLC)患者在手术去除癌症后是否可能具有高的癌症复发风险的实际的基于血液的测试。测试可在手术时、手术之前和/或手术之后执行。当测试确定患者处于高的癌症复发风险时,其指示患者应考虑进行更积极的治疗,诸如除手术之外的辅助化学疗法或放射。

背景技术

在美国,大多数癌症死亡都是由于肺癌造成的。据估计,2018年新诊断病例超过200,000例,肺癌死亡人数超过150,000例。参见https://seer.cancer.gov/statfacts/html/lungb.html。大约80%-85%的肺癌是非小细胞肺癌(NSCLC)。参见https://www.cancer.org/cancer/non-small-cell-lung-cancer/about/what-is-non-small-cell-lung-cancer.html。目前,约16%的肺癌被诊断为局限性疾病。然而,随着肺癌筛查程序得到更广泛的采用,该比例将来可能会增加。

患有I期疾病的患者通常用手术切除治疗,但建议对于不能手术或拒绝手术的患者进行放射疗法。National Comprehensive Cancer Network(NCCN)Clinical PracticeGuidelines in Oncology(NCCN Guidelines)Non-Small Cell Lung Cancer,第3版,2019年-2019年1月18日。目前,NCCN指南中不推荐对IA期疾病进行辅助疗法。建议在得自手术的阳性切缘之后进行再切除(优选)或进行放射疗法。观察被指示为对具有阴性切缘的IA期的随访。NCCN推荐对观察到具有得自手术的阴性切缘的IB期(和IIA期)疾病进行随访,或对高风险患者进行化学疗法。指示高风险的因素包括低分化肿瘤、血管侵入、楔形切除、肿瘤大小>4cm、内脏胸膜受累和未知淋巴结状态。IB期和IIA期疾病的手术中的阳性切缘需要再切除(优选)或放射疗法,伴有或不伴有辅助化学疗法。建议如果对具有阳性切缘的IIA期疾病给予放射疗法,则应伴随辅助化学疗法。

从5年存活率来看,I期患者的预后从IA1期的92%和IA2期的83%变为IA3期的77%。参见https://www.cancer.org/cancer/non-small-cell-lung-cancer/detection-diagnosis-staging/survival-rates.html。IB期疾病患者的五年存活率为约68%。同上

因此,尽管许多患者可通过手术干预治愈,但相当大比例的患者复发。如果可以识别出处于最高复发风险的早期NSCLC患者,则可能对其存活有利的是对其进行更积极的治疗。然而,值得注意的是,肺辅助顺铂评价荟萃分析通过指示伴有辅助化学疗法的结果可能比不伴有辅助化学疗法更糟糕而禁止了一般IA期群体的辅助化学疗法。J-P.Pignon等人,"Lung Adjuvant Cisplatin Evaluation:A Pooled Analysis by the LACECollaborative Group,"J ClinOncol,第3552-3559页,2008年。因此,在提倡更积极的疗法之前,必须准确识别处于最高复发风险的患者。

目前,不存在能够从手术时收集的组织或从基于血液的样本可靠地识别处于最高肺癌复发风险的患者的验证测试。此处,我们描述了基于对在手术时或手术之前从患者收集的血清进行的质谱分析的测试能够通过复发风险来对患者进行分级。

发明内容

在一个方面,描述了用于在早期非小细胞肺癌患者中执行癌症复发的风险评估的方法。该方法包括对从患者获得的基于血液的样本执行质谱分析并获得质谱分析数据的步骤。该方法还包括在计算机器中对质谱分析数据执行分级分类程序的步骤。特别地,计算机器实现分级分类器模式,该分级分类器模式包括产生高风险或低风险或等同物形式的类别标签的第一分类器(以下描述中的分类器A)。“高风险”的类别标签指示提供样本的患者在手术后处于高的癌症复发风险,而“低风险”类别标签指示提供样本的患者处于相对低的复发风险。在一个可能的实施方案中,如果分类器A产生高风险标签,则样本由第二分类器(以下描述中的分类器B)分类,从而生成最高风险或高/中等风险或等同物的分类标签。如果分类器B产生最高风险或等同物的标签,则同样预测患者在手术后具有高的癌症复发风险。

在一个配置中,计算机器实现包括第三分类器(下文讨论中的分类器C)的分级分类器模式,其中如果分类器A产生“低风险”分类标签,则样本被第三分类器C分类,并且其中分类器C产生最低风险或低/中等风险或等同物的类别标签。

在一个配置中,计算机器存储从基于血液的样本获得的质谱分析数据的参考集,该基于血液的样本从分类器开发中使用的大量早期非小细胞肺癌患者获得。质谱分析数据包括附录A中列出的特征的特征值。

在另一个方面,描述了编程计算机,该编程计算机被配置用于在早期非小细胞肺癌患者中进行癌症复发风险的预测。编程计算机包括处理单元以及存储代码和分类器参数的存储器,使得计算机被配置为如同图3或图14的分级分类器。存储器进一步存储来自大量早期非小细胞肺癌患者的质谱数据的参考集,包括附录A中列出的特征的特征值。

在一个方面,公开了用于在早期非小细胞肺癌患者中检测类别标签的方法。该方法包括以下步骤:(a)对从患者获得的基于血液的样本进行质谱分析,并获得大量预先确定的质谱特征的质谱数据中的积分强度值;以及(b)利用实现分类器的编程计算机对质谱数据进行操作,其中编程计算机对所述质谱分析数据执行分级分类程序,包括产生高风险或低风险或等同物的形式的类别标签的第一分类器(分类器A),并且如果分类器A产生高风险标签,则样本由第二分类器(分类器B)分类,从而生成最高风险或高/中等风险或等同物的分类标签。在操作步骤中,分类器用分类算法将步骤(a)中获得的积分强度值与从大量其他早期非小细胞肺癌患者获得的基于血液的样本中所获得的类别标记的质谱数据的参考集的特征值进行比较,并根据分级分类模式检测样本的类别标签。

在另一个方面,描述了用于在进行手术以治疗癌症的早期非小细胞肺癌患者中执行癌症复发的风险评估的方法。该方法包括以下步骤:(1)从患者获得手术前基于血液的样本,对样本执行质谱分析并获得附录A中列出的特征的积分强度值,然后用由从其他早期NSCLC患者获得的基于血液的样本集开发的基于计算机的分类器来对样本的质谱进行分类,该分类器产生高或最高复发风险或等同物以及低或最低复发风险或等同物的标签;(2)如果样本未根据步骤(1)中产生的分类被分类为高或最高复发风险,则在手术之后从患者获得另外的基于血液的样本并对基于血液的样本进行质谱分析,包括获得附录A中列出的特征的积分强度值;以及(3)根据在手术后从其他早期NSCLC患者获得的基于血液的样本集开发的基于计算机的分类器,对在(2)中获得的样本的质谱进行分类,其中该段落(3)的分类器生成G1或等同物或者G2或等同物中任一者的类别标签,其中G2类别标签与预测相关联,即与跟类别标签G1相关联的复发风险相比,患者将具有较低的复发风险。

附图说明

图1A是分类器开发队列的至复发时间(TTR)的曲线图,并且图1B是其总生存期(OS)的曲线图。

图2是示出我们用来开发下文详述的分类器A、B和C的深度学习分类器开发程序的流程图。

图3是示出分类器A、B和C的组合的分级模式,该组合用以生成来自早期NSCLC患者的基于血液的样本的类别标签,该类别标签是对手术后癌症复发的风险的预测。图3在将分类器A、B和C应用于NSCLC患者的基于血液的样本的质谱数据的计算机的程序代码中实现,例如在测试实验室中。

图4A和图4B是由开发集上的分类器A产生的二元测试分类的事件发生时间结果的曲线图。图4A示出TTR,并且图4B示出OS。

图5A和图5B是由分类器B产生的分层为最高和高/中等风险的高风险组的事件发生时间结果的曲线图。图5A示出TTR,并且图5B示出OS。

图6是由分类器C产生的从ST100光谱分层到最低和低/中等风险的低风险组的事件发生时间结果的曲线图。

图7是由分类器C产生的从ST1光谱分层到最低和低/中等风险的低风险组的事件发生时间结果的曲线图。

图8A和图8B是按照图3由分类器A、B和C的组合产生的4向测试分类(最低、低/中等、高/中等和最高)的事件发生时间结果的曲线图。图8A示出OS,并且图8B示出TTR。两个曲线图均示出四条曲线;在图8A中,在低/中等风险组或最低风险组中的任一者中均不存在事件,因此两条曲线均是位于彼此顶部的水平线。

图9A是

具体实施方式

的第7节中描述的分类器再开发队列的RFS(无复发生存期)的曲线图,并且图9B是其OS(总生存期)的曲线图。

图10A和图10B是由分类器A在第7节的再开发练习中产生的二元测试分类的事件发生时间结果的曲线图;图10A是RFS的曲线图,并且图10B是OS的曲线图。

图11A和图11B是由分类器B在第7节的再开发练习中产生的二元测试分类的事件发生时间结果的曲线图;图11A是RFS的曲线图,并且图11B是OS的曲线图。

图12A和图12B是由分类器C在第7节的再开发练习中产生的二元测试分类的事件发生时间结果的曲线图;图12A是RFS的曲线图,并且图12B是OS的曲线图。

图13A和图13B是在第7节的再开发练习中使用图3的四向分级测试分类模式的事件发生时间结果的曲线图;图13A是RFS的曲线图,并且图13B是OS的曲线图。

图14是示出分类器A、B和C的组合的分级模式,作为图3的模式的替代方案,该组合用以生成来自早期NSCLC患者的基于血液的样本的类别标签。类别标签是手术后癌症复发风险的预测。图14在将分类器A、B和C应用于NSCLC患者的基于血液的样本的质谱数据的计算机的程序代码中实现,例如在测试实验室中。

图15A和图15B是在第7节的再开发练习中按照图14由分类器A、B和C的组合产生的3向测试分类(最低、中等和最高)的事件发生时间结果的曲线图。图15A示出RFS,并且图15B示出OS。

图16A和图16B是除来自第7节的分类器的最高复发风险患者的事件发生时间数据之外,由第8节的手术后分类器产生的事件发生时间结果的曲线图。图16A示出RFS,并且图16B示出OS。

图17A和图17B是在未被第7节的手术前分类器分类为最高风险的样本的手术前分类(由第7节的手术前分类器产生的中等/最低标签)以及手术后分类(由第8节的手术后分类器产生的G1/G2)两者上划分的事件发生时间结果的曲线图。图17A示出RFS,并且图17B示出OS。

具体实施方式

概述

本文件将描述基于血液的测试和相关的机器实现的分类器的开发,该分类器预测早期NSCLC患者的血液样本是否指示患者处于高的癌症复发风险。分类器由从来自大量早期NSCLC患者的血清样本获得的质谱数据开发。如本文件中所解释,一旦开发了分类器,则其用于为早期NSCLC患者的血液样本的质谱数据生成类别标签,该类别标签指示,即预测提供该血液样本的患者在手术后是否处于高的癌症复发风险。可以在手术之前、手术时或手术之后获得血液样本以去除癌症。

第1节提供了对从早期(IA或IB)NSCLC患者获得的血清样本集的描述,这组血清样本用于开发本公开的测试。

第2节解释了我们从血清样本获得质谱数据的方法。第2节的方法利用质谱数据采集和处理步骤,这些步骤在受让人Biodesix,Inc.的先前专利申请和公布专利中广泛描述。对此类专利和申请进行参考以了解更多细节。

第3节描述了我们用来从分类器开发集中的质谱数据生成分类器的深度学习分类器开发方法,该方法被称为受让人的“Diagnostic Cortex”方法,并且在先前专利文献中进行了描述。对如第2节中所解释而获得的质谱数据执行该方法,并且该方法利用附录A中描述的数据中的质谱特征定义(m/z范围)。

第4节描述了用于将基于血液的样本分类为癌症复发的高风险、中等风险或低风险的分类器的分级组合。开发了第一分类器(以下讨论中的“分类器A”),其是将开发样本集划分为高风险或低风险的二元分类器。实际测试可仅使用分类器A来实现。第二分类器(“分类器B”)将由第一分类器定义的高风险组分层为具有最高(“最高”)和中等(“高/中等”)复发风险的两组。在实际测试环境中,在一种可能的实施方式中,血液样本经受质谱分析,并且如果分类器A返回高风险分类标签,则其经受分类器B的分类,并且如果分类器B返回最高风险标签(或等同物),则预测患者具有高复发风险并将其引导向更积极的治疗。如果样本被分类器A按低风险分类,或被分类器B分类为“高/中等”风险,则患者不会被引导向更积极的治疗。然而,中等或低风险分类标签仍可用于引导对癌症的治疗或计划对癌症的手术。

描述了任选的第三分类器(“分类器C”),其将由第一分类器定义的低风险组分层为具有最低(“最低”)和中等(“低/中等”)复发风险的两组。

在一个可能的实施方案中,实际测试采用根据图3或图14使用程序逻辑的所有三个分类器的分级组合。或者,可使用仅分类器A和B,或仅分类器A,或分类器A、B和C来实现用于识别高复发风险患者的测试。

在第4节中,我们还表明,由分类器A、B和C产生的分层在多变量分析中仍然显著,包括组织学、肿瘤大小、性别和年龄。这指示分层提供了追加和补充这些临床病理学因素的信息。

第5节描述了我们使用称为蛋白质集富集分析(PSEA)的方法将测试分类与生物学过程相关联的工作。使用多变量技术,我们根据循环蛋白质组的手术前测量定义了与复发风险相关联的宿主生物学相关表型的特定状态。研究了作为这些疾病状态的基础的生物学。最高风险分类组中的患者具有显著升高的急性期反应、急性炎症反应、伤口愈合和补体水平。数据指出,与可从手术前样本测量的循环蛋白质组相关的全身宿主效应在评估早期NSCLC复发风险中可发挥重要作用,而不受复发类型(包括新的原位复发)的影响。相关联的生物学过程先前已被表明与转移性黑素瘤和肺癌中的免疫检查点抗性有关,并且可与宿主的免疫系统的特定状态有关。

第6节描述了可实践本公开的方法的实际实验室测试环境。

第7节描述了第1-6节中描述的测试的再开发,但使用来自我们可获得的验证集的附加样本。在本节中描述的我们的工作设想到三元或三向分类模式(参见图14),通过该模式,早期NSCLC患者可被分类为具有癌症复发的高风险、中等风险或低风险。这种三元分类模式还使用分类器A、B和C,如先前节中所述,但是由于用于本节中分类器的再开发的较大样本集,其性能特征(由Kaplan-Meier曲线图证明)略有不同。

第8节描述了由从手术后NSCLC患者获得的样本开发的分类器。该分类器将患者分层为具有复发的较高风险或较低风险的组。第8节的分类器可与第4或7节中描述的分类器(或分类器的组合)结合使用。

进一步考虑,第9节描述了关于在实践中如何实现根据本公开的实际测试的附加细节。

第1节:分类器开发样本集

手术时或手术前获取的血清样本可从124例IA或IB期NSCLC患者中获得。没有患者在手术后接受辅助疗法。这些患者的中位随访为5.1年(存活患者的中位数(范围):4.9年(0.5年-10.1年)。患者特征汇总于表1中。图1A和图1B示出队列的至复发时间(TTR)和总生存期(OS)。在27例患者(22%)中识别了复发。观察到17例患者(14%)死亡;然而,在这些患者中,有3名患者的死亡日期是未知的,因此,在最后随访日期删失其存活。

表1:开发队列的患者特征

*以以前或当前为主(基于包-年)

在27例复发患者中,有十一例在随访期间死亡:10例死于肺癌,而其余1例死于不明原因。

在27例复发中,6例(22%)为远处复发,11例(41%)为局部区域复发,并且10例(37%)为新原位复发。在手术后1年内观察到四例复发(2例新原位复发、2例局部区域复发),在手术后1年和2年之间观察到另外的13例复发(3例远处复发、6例局部区域复发和4例新原位复发)。

第2节:质谱数据采集和处理

使第1节中解释的血清样本经受质谱分析,如本节中所解释的。一旦分类器被开发并完全定义,附录A中列出的特征的特征值然后就作为参考集保存在计算机存储器中,以用于例如在用于对给定早期NSCLC患者进行预测时对新的(先前未看到的)样本进行分类程序。

样本制备

解冻样本,并将每个测试样本和质量控制血清的3μl等分试样(从十三名健康患者的血清中获得的合并样本,购自Conversant Bio,“SerumP4”)点样到VeriStrat血清卡(Therapak)上。使卡在环境温度下干燥1小时,此后用6mm皮肤活检打孔器(Acuderm)打出全血清斑点。将每个打孔器置于具有0.45μm尼龙膜(VWR)的离心过滤器中。将一百μl的HPLC级水(JT Baker)添加到包含打孔器的离心过滤器。将打孔器轻轻涡旋10分钟,然后以14,000rcf向下自旋两分钟。移除溢流物并将其转移回到打孔器上以进行第二轮提取。对于第二轮提取,将打孔器轻轻涡旋三分钟,然后以14,000rcf向下自旋两分钟。然后将来自每个样本的二十微升滤液转移到0.5ml微量离心管以用于MALDI分析。

所有后续样本制备步骤在定制设计的湿度和温度控制室(Coy Laboratory)中进行。将温度设定为30℃,并且将相对湿度设定为10%。

将相等体积的新鲜制备基质(每1ml 50%乙腈25mg芥子酸:50%水加0.1%TFA)添加到每个20μl血清提取物中,并将混合物涡旋30秒。将样本:基质混合物的前三个等分试样(3×2μl)倒进管盖中。然后将2μl样本:基质混合物的八个等分试样点样到不锈钢MALDI靶板(SimulTOF)上。在置于MALDI质谱仪中之前,使MALDI靶在室中干燥。

将QC样本(SerumP4)添加到每个批次运行的开始(两次制备)和结束(两次制备)中。

光谱采集

使用MALDI-TOF质谱仪(SimulTOF 100,s/n:LinearBipolar 11.1024.01或SimulTOF One,s/n:ClinicalAnalyzer 15.1032.01,得自SimulTOF Systems,Marlborough,MA,USA)来获得MALDI光谱。仪器以正离子模式操作,其中离子使用以0.5kHz(SimulTOF100)或1kHz(SimulTOF One)的激光重复率击发的349nm、二极管泵浦、三倍频的Nd:YLF激光器来生成。使用QC血清光谱中的以下峰执行外部校准:m/z=3320、4158.7338、6636.7971、9429.302、13890.4398、15877.5801和28093.951。

收集来自每个MALDI斑点的光谱作为800个发射光谱,当工作台正在以0.25mm/s(SimulTOF 100)或0.5mm/s(SimulTOF One)的速度移动时,这些光谱被“硬件平均”,因为激光连续击发穿过斑点。对于SimulTOF 100和SimulTOF One,分别使用0.01V或0.003V的最小强度阈值来丢弃任何“平整线”光谱。在没有任何进一步处理的情况下,采集强度高于该阈值的所有800个发射光谱。

光谱采集利用了Biodesix美国专利号9,279,798中描述的技术,即在本文件中被称为“深度MALDI”的技术。

光谱处理

通过对准工作流程处理800次发射中的每个光栅光谱,以将突出峰对准到43个对准点的集合(参见表2)。应用基本上平滑噪声的过滤器,并且减去光谱的背景以用于峰识别。一旦已识别出峰,就对准经过滤的光谱(没有背景减除)。需要光栅光谱具有至少20个峰并使用至少5个对准点的附加过滤参数以包括在用于集合平均光谱的光栅池中。

表2:用于对准光栅光谱的对准点

m/z
3168.00
4153.48
4183.00
4792.00
5773.00
5802.00
6432.79
6631.06
7202.00
7563.00
7614.00
7934.00
8034.00
8206.35
8684.25
8812.00
8919.00
8994.00
9133.25
9310.00
9427.00
10739.00
10938.00
11527.06
12173.00
12572.38
12864.24
13555.00
13762.87
13881.55
14039.60
14405.00
15127.49
15263.00
15869.06
17253.06
18629.76
21065.65
23024.00
28090.00
28298.00

从对准和经过滤的光栅光谱的池产生平均值。对500个光栅光谱的随机选择进行平均,以为400,000次发射的每个样本产生最终分析光谱。

尽管从3-75Kda收集m/z范围,但光谱处理的范围限于3-30Kda,包括特征生成,因为高于30Kda的特征具有较差的分辨率,并且在特征值水平下未发现可再现。

我们执行了背景估计和减除,以及光谱归一化,包括部分离子电流归一化,其细节不是特别重要。我们还执行了平均光谱对准,以通过定义用于对准光谱平均值的校准点(m/z位置)的集合来解决光谱中峰位置的微小差异。我们对282个特征(参见附录A)的集合进行了定义,这些特征已从我们先前的与癌症患者中基于血液的样本相关的深度MALDI光谱分析工作发现并充分确立。

我们进一步利用与我们先前的美国专利9,279,798中描述的方法类似的质量控制参考样本光谱来执行批次校正步骤,其细节不是特别重要。在批次校正之后,将通过特征归一化步骤的最终部分离子电流应用于特征表以说明与m/z依赖性校正相关的变化,类似于美国专利10,007,766中描述的方法,其细节不是特别重要。未发现用于部分离子电流归一化的归一化标量与至复发时间组相关联。

在最后步骤中,对附录A的特征列表进行了削减或删除。特别地,在预处理中包括了附录A的八个特征,在这种情况下,这些特征不适合包括在新分类器开发中,因为它们与溶血相关。已经观察到,这些较大峰对于稳定的批次校正是有用的,因为一旦在血清中,它们随着时间推移看起来稳定并且抗修改。然而,这些峰与血液收集程序期间的血细胞剪切量有关,并且不应该用于除预处理中的特征表校正之外的测试开发。从最终特征表中移除附录A中列出的用星号(*)标记的特征,从而产生用于分类器开发的总共274个特征。

第3节:分类器开发方法(Diagnostic Cortex)

使用图2中所示的“Diagnostic Cortex”程序进行新的分类器开发过程。在通用计算机系统中实现的该程序在专利文献中详细地描述,参见美国专利9,477,906。另外参见图8A-图8B以及美国专利10,007,766的对应讨论。将描述过程的概述,然后描述所开发的三个分类器的细节和结果,并且稍后将描述分类结果。

本文件描述了三个不同的分类器,即分类器A、分类器B和分类器C,它们以分级方式用于生成类别标签以指示患者血液样本的复发风险。关于分类器的分级结构的配置,参见图3和图14。将图2的程序重复三次以生成三个分类器(A、B和C),并且在图2的程序的每次迭代中,关于图2的程序的参数的某些细节不同,因此产生三个不同的分类器,如下文将解释的。

由于分类器A、B和C的生成各自使用图2的方法,因此将以高水平提供该方法的一些解释。关于程序如何工作的其他示例和另外的解释,感兴趣的读者参考美国专利9,477,906和美国专利10,007,766。

与当大型训练数据集可用时集中于开发分类器的机器学习的标准应用相比,在生物生命科学中,大数据挑战的问题设定是不同的。此处我们的问题在于,典型地由临床研究产生的可用样本的数量(n)常常受到限制,并且每个样本的属性(测量)的数量(p)通常超过样本的数量。在这些深度数据问题中,试图从各个实例的深度描述中获得信息,而不是从许多实例中获得信息。图2的本方法利用了这种认识,并且如此处一样,在其中p>>n的问题中特别有用。

该方法包括从大量样本获得用于分类的测量数据(即,反映样本的一些物理特性或特征的测量数据)的第一步骤。样本中的每一者的数据包括大量特征值和类别标签。在该示例中,数据采取呈特征值形式的质谱数据形式(在大量m/z范围或峰处的积分峰强度值,参见附录A)。这在图2中由“开发集”100指示。该步骤在上文第2节中详细地解释,并且针对用于生成分类器的患者的基于血液的样本集获得,参见第1节。

在步骤102处,分配与样本的一些属性相关联的标签(例如,患者高复发风险或低复发风险、“组1”、“组2”等,标签的精确名字并不重要)。在该示例中,在调查与样本相关联的临床数据之后,由人类操作者将类别标签分配给样本中的每一者。在该示例中,基于与样本相关的临床数据将样本集划分成两组,“组1”(104)是分配给处于相对较高的复发风险的患者的标签,并且“组2”(106)是分配给具有相对较低的复发风险的患者的标签。这导致108处所示的类别标记的开发集。

然后,在步骤110处,将类别标记的开发样本集108划分成训练集112和测试集114。在以下步骤116、118和120中使用训练集。

在训练步骤中,过程继续步骤116,即,使用来自样本的高达预先选择的特征集大小s(s=整数1...p)的特征值集来构造大量单独的小型分类器。例如,可以使用单个特征(s=1)、或成对特征(s=2)、或特征中的三个特征(s=3)、或甚至包含多于3个特征的更高阶组合来构造多个单独的小型(或“原子”)分类器。s值的选择通常足够小以允许实现方法的代码在合理时间量内运行,但在一些情况下或在可接受较长代码运行时间的情况下可能较大。s值的选择还可由数据集中的测量变量(p)的数量决定,并且其中p以数百、数千或甚至数万计,s将通常为1或2或可能3,这取决于可用的计算资源。在本工作中,s取1、2或3的值,如下文所解释的。步骤116的小型分类器执行监督学习分类算法,例如k最近邻(kNN),其中将样本实例的特征、特征对或三元组的值与训练集中的相同一个或多个特征的值进行比较,并且识别s维特征空间中的最近邻(例如,k=9),并且通过多数票决将类别标签分配给每个小型分类器的样本实例。在实践中,根据用于分类的特征的数量,可存在数千个此类小型分类器。

该方法继续过滤步骤118,即测试单独小型分类器中的每一者的性能,例如准确性,以正确地分类样本;或者通过一些其他度量(例如,在由用于训练集样本的单独的小型分类器的分类所定义的组之间获得的风险比(HR))来测量单独的小型分类器性能;并且仅保留其分类准确性、预测能力或其他性能度量超过预定义阈值的那些小型分类器,以得到经过滤的(经删除的)小型分类器集合。如果用于小型分类器过滤的所选性能度量是分类准确性,则由分类操作产生的类别标签可与用于预先已知的样本的类别标签进行比较。然而,可以使用由分类操作产生的类别标签来使用和评估其他性能度量。在过滤步骤118中仅维持在用于分类的所选性能度量下表现相当好的那些小型分类器。可以使用替代监督分类算法,诸如线性判别式、决策树、概率分类方法、基于裕度的分类器如支持向量机,以及从标记的训练数据集训练分类器的任何其他分类方法。

为了克服一些单变量特征选择方法根据子集偏倚而偏倚的问题,我们将所有可能的特征中的大部分作为小型分类器的候选。然后,我们使用高达预先选择的大小(参数s)的特征集来构造所有可能的kNN分类器。这为我们给出许多“小型分类器”:例如,如果我们从每个样本的100个特征(p=100)开始,则我们将从成对的这些特征(s=2)的所有不同的可能组合获得4950个“小型分类器”,使用三个特征(s=3)的所有可能组合获得161,700个小型分类器,等等。探索可能的小型分类器的空间和定义其的特征的其他方法当然是可能的,并且可代替该分级方法使用。当然,这些“小型分类器”中的许多将具有较差的性能,并且因此在过滤步骤c)中我们仅使用通过预定义标准的那些“小型分类器”。根据特定问题选择这些过滤标准:如果存在两类分类问题,则将仅选择其分类准确性超过预定义阈值(即,在某种合理程度上具有预测性)的那些小型分类器。即使利用对“小型分类器”的这种过滤,我们最终也得到成千上万的“小型分类器”候选,其性能跨越从勉强合格到得体到极好性能的整个范围。

该方法继续步骤120,即通过使用正则化组合方法组合经过滤的小型分类器来生成主分类器(MC)。在一个实施方案中,这种正则化的组合方法采取以下形式:重复地对样本的类别标签进行经过滤的小型分类器集合的逻辑训练。这是通过从经过滤的小型分类器集合中随机选择一小部分经过滤的小型分类器作为执行极值随机失活(在本文中称为极值正则化的技术)的结果,并且对此类选择的小型分类器进行逻辑训练来完成的。虽然在精神上类似于标准分类器组合方法(参见例如S.Tulyakov等人,Review of ClassifierCombination Methods,Studies in Computational Intelligence,第90卷,2008年,第361-386页),但我们有特定问题,即一些“小型分类器”可能只是通过随机机会而人为地完善,并且因此将在组合中占主导地位。为了避免对特定主导“小型分类器”的过拟合,我们通过对于这些逻辑训练步骤中的每一者随机选择仅一小部分“小型分类器”来生成许多逻辑训练步骤。这是本着如深度学习理论中使用的随机失活的精神对问题的正则化。在该情况下,在我们具有许多小型分类器和小训练集的情况下,我们使用极值随机失活,其中在每次迭代中超过99%的经过滤的小型分类器随机失活。

更详细地,每个小型分类器的结果是两个值中的一者,在该示例中为“组1”或“组2”。然后,我们可通过定义经由标准逻辑回归获得“组1”标签的概率来组合小型分类器的结果(参见例如http://en.wikipedia.org/wiki/Logistic_regression)

等式(1)

其中如果应用于样本的特征值的小型分类器mc返回“组2”,则I(mc(特征值))=1;而如果小型分类器返回“组1”,则I(mc(特征值))=0。小型分类器的权重wmc是未知的,并且需要针对训练集中的所有样本根据以上公式的回归拟合来确定,对于公式的左边,分别对于训练集中的组2标记的样本使用+1,并且对于组1标记的样本使用0。因为我们有比样本更多的小型分类器,以及因此更多的权重,通常为数千个小型分类器和仅数十个样本,所以这样的拟合将总是导致几乎完美的分类,并且可易于被小型分类器主导,该小型分类器可能通过随机机会来非常好地拟合特定问题。我们不希望我们的最终测试由仅对该特定集表现良好并且无法很好地推广的单个专用小型分类器来主导。因此,我们设计了使此类行为正则化的方法:代替同时将所有小型分类器的所有权重拟合到训练数据的一个整体回归,我们仅使用几个小型分类器来进行回归,但是在生成主分类器时重复该过程多次。例如,我们随机拾取小型分类器中的三个,对其三个权重执行回归,拾取三个小型分类器的另一个集合,并确定其权重,并且重复该过程多次,从而生成许多随机拾取,即实现三个小型分类器。定义主分类器的最终权重则是所有此类实现的权重的平均值。实现的数量应足够大,以至于每个小型分类器在整个过程期间很可能被拾取至少一次。该方法在精神上类似于“随机失活”正则化,即,在深度学习社区用于向神经网络训练添加噪声以避免陷入目标函数的局部极小值的方法。

在用于本分类器生成练习中的上述方法的变型形式中,我们保存了每次随机失活迭代的所有权重wmc,并且在所有随机失活迭代中对来自针对样本计算的等式1的P求平均值(而不是在随机失活迭代中对mC的权重求平均值,并且仅保存那些权重,然后从平均权重中算出新样本的结果)。我们在2018年3月29日提交的美国临时专利申请序列号62/649,762中对这种差异进行了一些描述,其中分类器中的一些分类器使用原始权重平均方法,而其他分类器使用新的概率平均方法。感兴趣的读者被引导到该描述,该描述以引用方式并入本文。当回归不收敛(对于随机失活迭代的“可分离”情况)或缓慢收敛时,概率平均技术具有一些技术优点,因为即使权重不收敛(或缓慢收敛),概率也可收敛(或者可更快收敛)。

可以使用的用于执行步骤120中的正则化组合方法的其他方法包括:

·具有罚函数的逻辑回归如脊回归(基于Tikhonov正则化,Tikhonov,AndreyNikolayevich(1943年),"Обустойчивостиобратныхзадач"[On the stability ofinverse problems].Doklady Akademii Nauk SSSR,第39卷,第5期,第195-198页。)

·Lasso方法(Tibshirani,R.(1996年),Regression shrinkage and selectionvia the lasso.J.Royal.Statist.Soc B.,第58卷,第1期,第267-288页)。

·通过随机失活而正则化的神经网络(Nitish Shrivastava,“Improving NeuralNetworks with Dropout”,Master’s Thesis,Graduate Department of ComputerScience,University of Toronto),可从University of Toronto Computer Science部门的网站获得。

·一般正则化的神经网络(Girosi F.等人,Neural Computation,第7卷,第219页(1995年))。

上文引用的出版物以引用方式并入本文。我们使用随机失活正则化的方法已在避免过拟合和增加生成可推广测试(即,可在独立样本集中验证的测试)的可能性方面显示出前景。

“正则化”是机器学习和统计领域中已知的术语,其通常是指将补充信息或约束添加到欠定系统,以允许选择欠定系统的多种可能解中的一者作为扩展系统的唯一解。根据应用于“正则化”问题的附加信息或约束的性质(即,指定应采取未正则化问题的许多可能解中的哪一者或子集),此类方法可用于选择具有特定期望特性的解(例如,使用最少输入参数或特征的那些解),或者在来自开发样本集的分类器训练的当前上下文中,帮助避免过拟合和相关联的泛化不足(即,选择对问题的特定解,该特定解对训练数据表现得很好但仅对其他数据集表现得非常差或并不全部表现)。参见例如https://en.wikipedia.org/wiki/Regularization_(mathematics)。一个示例是用逻辑回归训练对分类组标签重复地进行经过滤的小型分类器的极值随机失活。然而,如上所述,其他正则化方法被视为等效的。实际上,已在分析上显示,逻辑回归训练的随机失活正则化可以至少近似地转换为具有复杂的、样本集依赖性正则化强度参数λ的L2(Tikhonov)正则化。(S Wager,S Wang和PLiang,Dropout Training as Adaptive Regularization,Advances in NeuralInformation Processing Systems 25,第351-359页,2013年;以及D Helmbold和P Long,On the Inductive Bias of Dropout,JMLR,第16卷,第3403–3454页,2015年)。在术语“正则化组合方法”中,“组合”仅指在通过过滤的小型分类器的组合上执行正则化的事实。因此,术语“正则化组合方法”用于意指应用于经过滤的小型分类器集合的组合以便避免被特定小型分类器过拟合和主导的正则化技术。

仍参见图2,在步骤122处,在步骤120处生成的主分类器的性能然后通过其对形成测试集的样本子集进行分类的良好程度来评估。

如循环124所指示,在编程计算机中重复步骤110、116、118、120和122以用于将样本集分离成测试集和训练集的不同实现(在步骤110处),从而生成多个主分类器,每个主分类器用于将样本集分离成训练集和测试集或通过循环124的迭代的每个实现。

在步骤126中,针对将样本的开发集分离成训练集和测试集的所有实现,评估主分类器的性能。如果存在一些在测试集中时持续错误分类的样本,如框128所指示,则过程任选地如循环127处所指示而循环回来,并且步骤102、110、116、118和120用对于此类错误分类的样本的翻转的类别标签来重复。

所述方法继续从多个主分类器中的一者或多于一者的组合定义最终分类器的步骤130。在本示例中,最终分类器被定义为从样本集到训练集和测试集的每次分离所得到的所有主分类器的多数票决或总体均值;或者通过平均概率截止,选择具有典型性能的一个主分类器,或一些其他程序。在步骤132处,由图2的程序开发并且在步骤130处定义的分类器(或测试)在独立样本集上进行验证。

第4节:分类器的分级组合

如先前所解释的,执行图2的方法若干次以开发不同的分类器,并且具体地讲为第一分类器(分类器A),第二分类器(分类器B)和第三分类器(分类器C)。在一种可能的实施方式中,这三个分类器以分级方式组合,以使用对三个分类器的输出的逻辑运算来开发指示复发风险的患者样本的标签,参见图3或图14中所示的分级模式。在本节中,我们将不同分类器所产生的开发集中的划分或分离解释为分类器开发中的练习。作为对先前未看到的新样本的测试,该样本经受如图3或图14的模式中所解释的分类器。

A.分类器A–样本集的第一次划分。

使用根据图2和以上详细描述开发的分类器(称为分类器A)实现样本集的第一次划分。该分类器将开发集划分为“高”复发风险(组1标签)和“低”复发风险(组2标签)组。下文将详细讨论分类器A的性能数据。

用以下参数和设计来开发分类器A(参考图2):

·使用“标签翻转”方法(循环127),其中训练类别标签(在步骤102处)和主分类器(从步骤120得到)被同时迭代地细化。

·用于开始迭代细化的训练类别标签从先前的分类器获得,该分类器使用了特征取消选择,并且已经在无标签翻转的情况下针对复发的患者与无复发的患者进行了训练。

·原子分类器(步骤116)为k=9k最近邻分类器

·原子分类器使用1、2或3个质谱特征(参数s)

·使用特征取消选择,其中在迭代细化过程的每个步骤处丢弃大约170个特征(使用了100个)。特征取消选择方法在先前的专利文献中有所解释,参见例如美国专利申请公布2016/0321561,其内容以引用方式并入本文。

·按至复发时间(TTR)风险比来进行小型分类器过滤(步骤118),其中对于翻转0,限值为2.8-10;对于翻转1,限值为2.5-10;并且对于翻转2,限值为2.4-10。(翻转0、1和2表示通过图2中的循环127的三次迭代)。

·在步骤120中使用500,000次随机失活迭代,每次迭代保留10个原子或小型分类器。

·在步骤130处对由625次测试/训练划分(步骤110)所产生的主分类器进行总体平均以生成最终测试。

B.分类器B:从第一次划分(分类器A)对高风险结果组的第二次划分

来自分类器A的样本集的第一次划分导致有56例患者的高风险或“不良”结果组,其中有20例复发者。为了按结果进一步分层,用根据图2开发的第二分类器,即“分类器B”来划分该高风险或“不良”结果组中的样本。使用以下参数和设计来开发该分类器B(再次参考图2):

·使用“标签翻转”方法,其中训练类别标签和分类器被同时迭代地细化。

·用于开始迭代细化的训练类别标签被定义为使得具有最低TTR时间的患者(无论事件或无事件)在一组中,并且具有最高TTR时间的患者在另一组中。

·原子分类器为k=9k最近邻分类器

·原子分类器使用1或2个质谱特征。

·不使用特征取消选择。在原子分类器过滤步骤中考虑所有274个特征及其对。

·按TTR风险比来进行过滤,其中限值为2.5-10。

·使用150,000次随机失活迭代,每次迭代保留10个原子分类器。

·在步骤130处对由625次测试/训练划分所产生的主分类器进行总体平均以得到最终分类器定义。

C.分类器C:从第一次划分(分类器A)对低风险结果组的第二次划分

由分类器A执行的样本集的第一次划分导致有68例患者的“良好”或低结果组,其中有7例复发者。为了按结果进一步分层,使用根据图2开发的第三分类器(分类器C)用以下参数和设计来划分该低风险结果组:

·使用“标签翻转”方法,其中训练类别标签和分类器被同时迭代地细化。

·用于开始迭代细化的训练类别标签被定义为使得具有最低TTR时间的患者(无论事件或无事件)在一组中,并且具有最高TTR时间的患者在另一组中。

·原子分类器为k=9k最近邻分类器

·原子分类器使用1或2个质谱特征

·不使用特征取消选择。在原子分类器过滤步骤中考虑所有274个特征及其对。

·按TTR风险比来进行过滤,其中限值为2.5-10。

·使用150,000次随机失活迭代,每次迭代保留10个原子分类器。

·在每个细化步骤处创建625次测试/训练划分实现。对于几个实现,太少的原子分类器对于每次随机失活迭代通过过滤10次,并且不能创建主分类器。对所有生成的主分类器进行总体平均。特别地,迭代细化的最后步骤产生了对609个主分类器进行总体平均的分类器。

·在同时迭代细化过程的每个步骤处,将每个测试/训练划分实现随机化以使用来自在两个不同的质谱仪仪器(在本文件中称为“ST1”和“ST100”)上收集的光谱的数据。这样做是为了试图提高在两个平台之间传输任何所得测试的容易性,并帮助隔离多个数据源共有的有用信息。

结果

1.样本集的第一次划分,分类器A(二元分类)

该分类器(“分类器A”)将开发集分层为具有较高和较低复发风险(或较差和较好结果)的两组。五十六例患者(45%)被分类为高风险组,而其余68例患者(55%)被分类为低风险组。高风险组中的二十例患者复发(该组中复发率为35%,这包括复发者中的74%)。高风险组中的十四例患者死亡(该组的25%和所有死亡事件的100%)。至复发时间和总生存期按测试分类示于图4A和图4B中。曲线图中在高风险组与低风险组之间的分离表明高风险组中的那些患者具有显著更差的至复发时间和总生存期统计,这与手术后癌症的复发相关联。

表3:按测试结果的事件发生时间比较

HR(95%CI) CPH p值 对数秩p
TTR 0.21(0.09-0.50) p<0.001 p<0.001
OS *0.07(0.02-0.20) ---- p<0.001

*Mantel-Haenszel

表4:事件发生时间标志

患者特征按测试分类在表5中示出。

表5:按二元测试分类的患者特征

表6示出了当针对其他患者特征调整时测试预测结果的能力。

表6:针对其他患者特征调整的TTR的多变量分析

表7:按测试分类的复发类型:高和低

远处(转移) 5 1
局部区域 8 3
新的原位 7 3

再现性

通过将在开发期间通过袋外估计获得的测试分类与从ST100和ST1机器上的开发样本集的两次重新运行获得的结果进行比较来评估再现性。数据显示,重新运行的一致性介于94%和97%之间。

2.样本集的第二次划分,分类器B(来自第一分层的高风险组的划分)

该分类器(“分类器B”)将由第一分类器(A)定义的高风险组分层为具有最高(“最高”)和中等(“高/中等”)复发风险的两组。二十一例患者(高风险组中的37.5%)被分类为最高风险组,而其余35例患者(62.5%)被分类为高/中等风险组。最高风险组中的十例患者复发(48%复发率);高/中等组中的十例患者复发(29%复发率)。最高风险组中的八例患者发生了OS事件(该组的38%);高/中等组中的六例患者发生了OS事件(17%)。在图5A和图5B中,按第二次划分测试分类示出了通过第一次划分而分类为高风险的患者的至复发时间和总生存期。

表8:最高亚组和中等亚组的事件发生时间比较

HR(95%CI) CPH p值 对数秩p
TTR 0.51(0.21-1.22) 0.129 0.122
OS 0.40(0.14-1.15) 0.090 0.079

表9:事件发生时间标志

表10:事件发生时间中位数

患者特征按测试分类在表11中示出。

表11:按第二次划分测试分类的高风险组的患者特征

表12示出了当针对其他患者特征调整时测试预测结果的能力。

表12:针对其他患者特征调整的最高与高/中等分类的TTR和OS的多变量分析

表13:按测试分类的复发类型:最高和高/中等

最高 高/中等
远处(转移) 5 0
局部区域 3 5
新的原位 2 5

再现性

通过将在开发期间通过袋外估计获得的测试分类与从ST100和ST1机器上的开发样本集的两次重新运行获得的结果进行比较来评估再现性。一致性被证明介于91%和95%之间。

3.样本集的第二次划分,分类器C(来自第一分层的低风险组的划分)

该分类器(“分类器C”)将由第一分类器(分类器A)定义的低风险组(N=68,其中有7例复发)分层为具有最低(“最低”)和中等(“低/中等”)复发风险的两组。使用在ST1和ST100机器上采集的光谱来构造该分类器。因此,我们可查看使用ST100光谱或ST1光谱对开发集进行分类的袋外估计器。

对于ST100袋外分析,40例患者(低风险组中的59%)被分类为最低风险组,而其余28例患者(41%)被分类为低/中等风险组。最低风险组中的两例患者复发(5%复发率);低/中等组中的五例患者复发(18%复发率)。图6中按第二次划分测试分类从ST100光谱示出了通过第一次划分而分类为低风险的患者的至复发时间。

表14:最低亚组和低/中等亚组的TTR比较(ST100光谱)

HR(95%CI) CPH p值 对数秩p
TTR 0.19(0.04-1.02) 0.052 0.032

表15:事件发生时间标志(ST100光谱)

对于ST1袋外分析,33例患者(低风险组中的49%)被分类为最低风险组,而其余35例患者(51%)被分类为低/中等风险组。最低风险组中的两例患者复发(6%复发率);低/中等组中的五例患者复发(14%复发率)。图7中按第二次划分测试分类从ST1光谱示出了通过第一次划分而分类为低风险的患者的至复发时间。

表16:最低亚组和低/中等亚组的TTR比较(ST1光谱)

HR(95%CI) CPH p值 对数秩p
TTR 0.33(0.06-1.70) 0.183 0.162

表17:事件发生时间标志(ST1光谱)

表18:按第二次划分测试分类的低风险组的患者特征(ST100分类)

表19:按测试分类的复发类型:最低和低/中等

低/中等 最低
远处(转移) 1 0
局部区域 2 1
新的原位 2 1

再现性

通过将在开发期间通过袋外估计对于ST100光谱获得的测试分类与从ST100上的开发样本集的两次重新运行和ST1机器上的开发样本集的重新运行获得的结果进行比较来评估再现性。为了比较ST1原始运行(也用于开发)和ST100原始运行的结果,将袋外估计用于两个分类。数据显示,一致性介于87%和91%之间。

队列的四向划分

图3中示出了用于以分级方式组合三个分类器以给出患者的四向分类的程序。图3的程序在执行分类器A、B和C的分类程序的实验室计算机中以软件实现。光谱首先由“第一次划分”分类器(分类器A)分类以生成高风险或低风险分类。然后使用高风险组的第二次划分分类器(分类器B)对具有分类为高风险的光谱的患者进行分类,以产生最高或高/中等的分类。然后使用低风险组的第二次划分分类器(分类器C)对具有分类为低风险的光谱的患者进行分类,以产生最低或低/中等的分类。这在图3中示意性地示出。

表20:按最低、低/中等、高/中等和最高测试分类的患者特征

图8A和图8B中示出了按四向测试分类分层的整个开发队列的至复发时间和总生存期。在图8A中,低/中等和最低曲线叠加,因为在任一组中都不存在事件。

表21:事件发生时间标志总结

无复发 1年 2年 3年 5年
最高 90% 65% 53% 47%
高/中等 97% 77% 73% 69%
低/中等 96% 93% 88% 88%
最低 100% 100% 98% 94%
存活 1年 2年 3年 5年
最高 100% 82% 75% 55%
高/中等 100% 94% 94% 84%
低/中等 100% 100% 100% 100%
最低 100% 100% 100% 100%

表22:按测试分类的复发类型:最低、低/中等、高/中等和最高

最高 高/中等 低/中等 最低
远处(转移) 5 0 1 0
局部区域 3 5 2 1
新的原位 2 5 2 1

再现性

对于所有三个分类器,相对于用袋外估计获得的ST100分类,评估图3的4向分类的再现性。使用对于分类器A和B的多数票决和对于分类器C的袋外估计来生成ST1分类。对于所有三个分类器使用多数票决分类。获得介于85%和90%之间的一致性。

就实际测试而言,在一个实施方案中,以如图3所示的分级方式执行分类。除了预测低复发风险之外,低风险组在该环境(1A/B期患者)中的划分在临床环境中可能具有价值,例如通过可能将患者排除在积极治疗之外。相对于由分类器B划分高风险组,具有某种风险水平是有用的,并且其可以按治疗类型来区分。虽然在理论上可以包括影响分类结果的临床因素(例如,通过在分类器生成期间将它们包括在特征空间中),但还可以使用中等分类结果来影响治疗的选择。例如,在手术前了解预后可能影响手术计划,并且可能包括新辅助疗法。另外,还可以使用手术后样本来可能地细化测试,例如,通过按照图3的模式重复分类并使用新的测试结果来进一步指导治疗。

作为另一种替代方案,可能仅使用图3的模式中的分类器A,或分类器A和B的组合来执行测试。将执行该实施方案,例如以寻求仅识别患者是否处于最高复发风险(并且仅将此类患者引导至更积极的治疗)。如果患者通过分类器A测试“低风险”,则不使用分类器C执行进一步的分层。如果分类器A将患者分类为“高风险”,则样本经受分类器B的分类,并且如果该分类器产生样本的“最高风险”分类标签,则患者被引导向针对癌症的更积极治疗。

第5节:使用蛋白质集富集分析(PSEA)将测试分类与生物学过程相关联

当使用图3的程序构建测试时,能够识别哪些蛋白质对应于MALDI TOF光谱中的哪些质谱特征或理解与这些特征相关的蛋白质的功能并不是必需的。过程是否产生有用的分类器完全取决于对于开发集的分类器性能以及分类器在对新样本集进行分类时的表现如何。然而,一旦已开发出分类器,可能感兴趣的就是研究蛋白质或蛋白质的功能,这些蛋白质或蛋白质的功能直接促成分类器中使用的质谱特征或与其相关。另外,探索通过与测试分类组相关的其他平台测量的蛋白质表达或蛋白质功能可能是提供信息的。

我们使用应用于蛋白质表达数据的称为基因集富集分析(GSEA)的方法,其被称为蛋白质集富集分析(PSEA)。关于该方法的背景信息在以下文献中阐述:Mootha等人,PGC-1α-responsive genes involved in oxidative phosphorylation are coordinatelydownregulated in human diabetes.Nat Genet.,2003年,第34卷,第3期,第267-273页;以及Subramanian等人,Gene set enrichment analysis:A knowledge-based approach forinterpreting genome-wide expression profiles.Proc Natl Acad Sci USA,2005年,第102卷,第43期,第15545-15550页,其内容以引用方式并入本文。进一步细节在专利文献中详细解释,参见美国专利10,007,766,因此为了简洁起见省略了详细讨论。

高风险与低风险(分类器A)

将分类器A应用于具有匹配的质谱和蛋白质组数据(参见上文引用的文献中的讨论)的两个样本集,并且将所得测试分类用作集富集分析的表型。然后将这些结果合并以产生与26个生物学过程集合相关的总p值。这些结果与通过Benjamini-Hochberg方法计算的错误发现率(FDR)一起在下表中列出。

表23:高风险与低风险表型的PSEA p值和FDR

最高与高/中等(分类器B)

将分类器A和B应用于具有匹配质谱和蛋白质组数据的两个样本集。识别了分类为最高风险和高/中等风险的样本,并且这些分类用作集富集分析的表型。进行PSEA,并且然后将结果合并以产生与26个生物学过程集合相关的总p值。这些结果与通过Benjamini-Hochberg方法计算的错误发现率(FDR)一起在下表中列出。

表24:最高风险与高/中等风险表型的PSEA p值和FDR

最高与最低风险

将分类器A、B和C应用于样本集。识别了分类为最高风险和最低风险的样本,并且这些分类用作集富集分析的表型。进行PSEA,并且然后将结果合并以产生与26个生物学过程集合相关的总p值。这些结果与通过Benjamini-Hochberg方法计算的错误发现率(FDR)一起在下表中列出。

表25:最高风险与最低风险表型的PSEA p值和FDR

低/中等风险与最低风险

将分类器A和C应用于样本集。识别了分类为最低风险和低/中等风险的样本,并且这些分类用作集富集分析的表型。进行PSEA,并且然后将结果合并以产生与26个生物学过程集合相关的总p值。这些结果与通过Benjamini-Hochberg方法计算的错误发现率(FDR)一起在下表中列出。

表26:低/中等风险与最低风险表型的PSEA p值和FDR

第6节:实验室测试环境

我们进一步设想到实验室测试中心,用于对基于血液的样本进行测试,以评估早期NSCLC患者癌症复发的风险。实验室测试中心按照先前美国专利10,007,766的实施例5和图15配置,并且该描述以引用方式并入本文。实验室测试中心或系统包括质谱仪(例如,MALDI飞行时间)和通用计算机系统,该通用计算机系统具有CPU和存储器,该CPU实现分类器A或者编码为机器可读指令、程序代码的分类器的分级布置(参见图3),该机器可读指令实现使用图2的程序开发的最终分类器(A,任选B和C),包括分类权重、通过过滤的小型分类器定义等,该程序代码实现按照图3或图14的分级分类程序;该存储器存储参考质谱数据集,该参考质谱数据集包括来自NSCLC患者的用于按图2开放分类器的类别标记的质谱数据的特征表,包括附录A中列出的特征的特征值。形成特征表的该参考质谱数据集将被理解为用于在分类器开发期间生成分类器的光谱集合的质谱数据(预定义特征的积分强度值,附录A)。

结论

我们能够创建一套三个分类器,从而按复发风险对早期肺癌患者进行分层。开发集中百分之十七的患者被分配到最高风险组,23%被分配到高/中等风险组,28%被分配到低/中等风险组,并且32%被分配到最低风险组。两年时无复发患者的百分比从最高风险组中的65%变为最低风险组中的100%;五年时存活患者的百分比在最高风险组中为55%,而在最低风险组中为100%。尽管样本大小太小,但考虑到少数事件,对于统计学显著性,除了队列第一次划分为低风险和高风险组之外,多变量分析表明所有三个分类器的风险比在对于其他患者特征的调整上是稳定的。值得注意的是,测试能够对所有三种复发进行分层:远处、局部区域和新的原位。

蛋白质集富集分析表明测试分类与急性期反应、补体活化、急性炎症反应和伤口愈合相关联。免疫耐受和糖酵解过程也可以是潜在相关的。这些观察连同我们的经验一起表明,在用免疫疗法治疗的转移性癌症中,补体、伤口愈合、急性期反应和急性炎症反应的相关性,以及分类器能够对新的原发病灶的风险进行分层的事实,可以指示测试正在访问关于宿主对癌症的免疫反应的信息。

测试分类的再现性非常好,并且测试在质谱仪仪器之间良好地转移。四向分类的再现性的初步评估为85%或更好。

第7节:使用来自验证集的附加样本对测试的再开发

我们决定再开发上述测试。作为样本开发集,我们将上文第1节中描述的样本的原始开发集与我们从相同来源获得的一些初始验证样本进行组合。由于该指示中存在相对较少的复发者,因此我们需要增加数据集以提高测试的可靠性,超出数据集的第一次划分,即分类器B和C对样本集的第二次和第三次划分。本节将描述此再开发工作,包括分类器A、B和C的新三元或三向分级组合,参见图14。

样本集描述

手术前获取的血清样本可从314例IA或IB期NSCLC患者中获得。没有患者在手术后接受辅助疗法。这些患者的中位随访为4.92年。患者特征汇总于表27中。图9A和图9B分别示出队列的无复发生存期(RFS)和总生存期(OS)。在80例患者(25%)中识别了复发。在这些复发中,27例(34%)新原位复发,32例(40%)为局部区域复发,并且21例(26%)为远处复发。另外5名患者死亡,没有记录复发,并且这些死亡被视为RFS终点的事件。观察到44例患者(14%)死亡;然而,在这些患者中,有3名患者(ID 745、1147、1513)的死亡日期是未知的,因此,在最后随访日期删失其存活。

表27:开发队列的患者特征

在手术后1年内观察到十五例复发(4例新原位复发、5例局部区域复发、6例全身复发),在手术后1年和2年之间观察到另外的24例复发(5例远处复发、13例局部区域复发和6例新原位复发)。

表28:整个队列的事件发生时间标志

1年 2年 3年 4年 5年 10年
无复发 95% 86% 80% 74% 71% 64%
存活 99% 95% 93% 89% 86% 79%

样本制备和光谱采集与先前描述相同。

光谱处理与先前描述相同。

分类器A、B和C的分类器开发使用先前详细描述的图2的“Diagnostic Cortex”程序。

样本集成为高风险和低风险组的第一次划分(分类器A)。

使用Diagnostic Cortex分类器(分类器A)用以下参数和设计来实现314例样本集的第一次划分:

·使用“标签翻转”方法,其中训练类别标签和分类器被同时迭代地细化。

·用于开始迭代细化的训练类别标签被定义为使得具有最低RFS时间的患者(无论事件或无事件)在一组中,并且具有最高RFS时间的患者在另一组中。

·原子分类器为k=9k最近邻分类器

·原子分类器同时使用1或2个质谱特征。

·不使用特征取消选择。在原子分类器过滤步骤中考虑所有274个特征及其对。

·按RFS风险比来进行过滤,其中限值为2.5-10。

·使用100,000次随机失活迭代,每次迭代保留10个原子分类器。

·对375次测试/训练划分进行总体平均。

下文将在结果章节结合图10A和图10B描述该分类器A的性能。

分类器B:由分类器A所产生的第一次划分导致的不良结果组(“高风险”)的划分

由分类器A产生的样本集的第一次划分导致有137例患者的不良结果组(即,具有高复发风险的那些患者),其中有47例复发者(34%)。

为了按结果进一步分层,使用Diagnostic Cortex分类器(分类器B)用以下参数和设计来进一步划分该不良结果组:

·使用“标签翻转”方法,其中训练类别标签和分类器被同时迭代地细化。

·用于开始迭代细化的训练类别标签被定义为使得具有最低RFS时间的患者(无论事件或无事件)在一组中,并且具有最高RFS时间的患者在另一组中。

·原子分类器为k=9k最近邻分类器

·原子分类器同时使用1或2个质谱特征。

·不使用特征取消选择。在原子分类器过滤步骤中考虑所有274个特征及其对。

·按RFS风险比来进行过滤,其中限值为2.2-10。

·使用100,000次随机失活迭代,每次迭代保留10个原子分类器。

·对375次测试/训练划分进行总体平均。

该分类器B的性能在下文的结果章节中有所描述。

分类器C:从分类器A所产生的第一次划分对良好结果组的划分。

由分类器A产生的样本集的第一次划分导致有177例患者的良好结果组(即,具有低复发风险的患者组),其中有33例复发者(19%)。

为了按结果进一步分层,使用Diagnostic Cortex分类器(分类器C)用以下参数和设计来划分该良好结果组:

·使用“标签翻转”方法,其中训练类别标签和分类器被同时迭代地细化。

·用于开始迭代细化的训练类别标签被定义为使得具有最低RFS时间的患者(无论事件或无事件)在一组中,并且具有最高RFS时间的患者在另一组中。

·原子分类器为k=9k最近邻分类器。

·原子分类器同时使用1或2个质谱特征。

·不使用特征取消选择。在原子分类器过滤步骤中考虑所有274个特征及其对。

·按RFS风险比来进行过滤,其中限值为2.2-10。

·使用100,000次随机失活迭代,每次迭代保留10个原子分类器。

·在每个细化步骤处创建375次测试/训练划分实现。

再开发结果

1.样本集的第一次划分(二元分类),分类器A

该分类器(“分类器A”)将开发集分层成具有较高复发风险和较低复发风险(或等同地,较差/不良以及更好/良好结果)的两组。137例患者(44%)被分类为高风险组,而其余177例患者(56%)被分类为低风险组。高风险组中的四十七例患者复发(该组中复发率为34%,这包括复发者中的59%)。高风险组中的三十一例患者死亡(该组的23%和所有死亡事件的76%)。无复发生存期和总生存期按测试分类示于图10A和图10B中。

表29:按二元测试分类的事件发生时间比较

HR(95%CI) CPH p值 对数秩p
RFS 0.42(0.27-0.65) p<0.001 p<0.001
OS 0.21(0.10-0.43) p<0.001 p<0.001

表30:事件发生时间标志

患者特征按测试分类在表31中示出。

表31:按二元测试分类的患者特征

表32和33示出了当针对其他患者特征调整时测试预测RFS和OS的能力。

表32:针对其他患者特征调整的RFS的多变量分析

表33:针对其他患者特征调整的OS的多变量分析

表34:按测试分类的复发类型:高和低

高(N=137) 低(N=177)
远处(转移) 14 7
局部区域 19 13
新的原位 14 13

通过将在开发期间通过袋外估计获得的测试分类与从来自ST100上的开发样本集的124个样本的两次重新运行获得的结果进行比较来评估再现性。结果显示,测试分类的一致性为94%和89%。

2.样本集的第二次划分(来自第一分层的高风险组的划分),分类器B

该分类器(“分类器B”)将由第一分类器定义的高风险组(N=137)分层为具有最高(“最高”)和中等(“高/中等”)复发风险的两组。五十六例患者(高风险组中的41%)被分类为最高风险组,而其余81例患者(59%)被分类为高/中等风险组。最高风险组中的二十六例患者具有记录的复发(46%复发率);高/中等组中的二十一例患者有记录的复发(26%复发率)。最高风险组中的十四例患者发生了OS事件(该组的25%);高/中等组中的十七例患者发生了OS事件(21%)。在图11A和图11B中,分别按第二次划分测试分类示出了通过第一次划分而分类为高风险的患者的无复发生存期和总生存期。

表35:最高亚组和高/中等亚组的事件发生时间比较

HR(95%CI) CPH p值 对数秩p
RFS 0.47(0.27-0.82) 0.008 0.006
OS 0.69(0.34-1.40) 0.300 0.297

表36:事件发生时间标志

表37:事件发生时间中位数

患者特征按测试分类在表38中示出。

表38:按第二次划分测试分类的高风险组的患者特征

表39和40示出了当针对其他患者特征调整时测试(最高与高/中等)预测结果的能力。

表39:针对其他患者特征调整的RFS的多变量分析

表40:针对其他患者特征调整的OS的多变量分析

表41:按测试分类的复发类型:最高和高/中等

通过将在开发期间通过(对在开发运行中被分类器A分类为高风险的62个样本的)袋外估计获得的测试分类与从在ST100上相同样本的两次重新运行获得的结果进行比较来评估再现性。测试分类的一致性为85%和89%。

3.样本集的第二次划分(来自第一分层的低风险组的划分),分类器C

该分类器(“分类器C”)将由第一分类器定义的低风险组(N=177,其中有33例复发)分层为具有最低(“最低”)和中等(“低/中等”)复发风险的两组。

八十八例患者(低风险组中的50%)被分类为低/中等风险组,而其余89例患者(50%)被分类为最低风险组。最低风险组中的十四例患者复发(16%复发率);低/中等组中的十九例患者复发(21%复发率)。在图12A和图12B中,分别按第二次划分测试分类(最低与低/中等)示出了通过第一分层(分类器A)而分类为低风险的患者的RFS和OS。

表42:最低亚组和低/中等亚组的事件发生时间比较

HR(95%CI) CPH p值 对数秩p
RFS 0.61(0.31-1.21) 0.159 0.155
OS 0.62(0.17-2.19) 0.454 0.449

表43:事件发生时间标志

表44:按第二次划分测试分类的低风险组的患者特征

表45:按测试分类的复发类型:最低和低/中等

通过将在开发期间对于被分类器A分类为低风险的样本(N=62)通过袋外估计获得的测试分类与从在ST100上这些样本的两次附加运行获得的结果进行比较来评估再现性。测试分类的一致性为85%和89%。

分类器A、B和C在测试方案中的分级组合。

如先前所解释的,并且参考图3,将如上所述的三个分类器A、B和C组合,可以实现患者的四向分类。光谱首先由“第一次划分”分类器分类,以生成高风险或低风险分类。然后使用高风险组的第二次划分分类器对具有分类为高风险的光谱的患者进行分类,以产生最高或高/中等的分类。然后使用低风险组的第二次划分分类器对具有分类为低风险的光谱的患者进行分类,以产生最低或低/中等的分类。这在图3中示意性地示出。

对于该第7节中的开发样本集(参见上文),患者特征按分类标签在表46中示出。

表46:按最低、低/中等、高/中等和最高测试分类的患者特征

图13A和图13B中分别示出了按四向测试分类分层的整个开发队列的无复发生存期和总生存期。

表47:事件发生时间标志总结

表48:按测试分类的复发类型:最低、低/中等、高/中等和最高

通过将ST100上开发样本中的124个的重新运行与相同样本的开发运行的袋外估计进行比较,评估了4向分类的再现性。分类标签的一致性为80%和81%。

分类器A、B和C的替代分级组合:队列的三元划分(图14)

图13A的检查表明RFS对于高/中等和低/中等组是相似的。因此,可以通过将这两组组合成一个中等组来实现患者的三元分类。光谱首先由“第一次划分”分类器(分类器A)分类,以生成高风险或低风险分类。然后使用高风险组的第二次划分分类器(分类器B)对具有分类为高风险的光谱的患者进行分类,以产生最高或中等的分类。然后使用低风险组的第二次划分分类器(分类器C)对具有分类为低风险的光谱的患者进行分类,以产生最低或中等的分类。由分类器B和C产生的中等分类被分组在一起,并且具有相同的分类标签,即“中等”或等同物。分类器的这种分级组合在图14中示意性地示出。

表4:按最低、中等和最高测试分类的患者特征

图15A和图15B是按由图14的模式产生的三元测试分类的事件发生时间结果的Kaplan-Meier曲线图,即最低、中等和最高风险。

表50:三元亚组的事件发生时间比较

HR(95%CI) CPH p值 对数秩p
RFS 最高与中等 0.40(0.25-0.65) <0.001 <0.001
RFS 最高与最低 0.21(0.11-0.41) <0.001 <0.001
RFS 中等与最低 0.53(0.29-0.97) 0.041 0.038
RFS 最高与其他 0.33(0.21-0.52) <0.001 <0.001
RFS 其他与最低 0.41(0.23-0.73) 0.003 0.002
OS 最高与中等 0.43(0.22-0.84) 0.013 0.011
OS 最高与最低 0.13(0.04-0.41) <0.001 <0.001
OS 中等与最低 0.29(0.10-0.85) 0.023 0.016
OS 最高与其他 0.32(0.17-0.61) 0.001 <0.001
OS 其他与最低 0.23(0.08-0.65) 0.006 0.003

表51:事件发生时间标志总结

表52:按测试分类的复发类型:最低、中等和最高风险

表53:针对其他患者特征调整的RFS的多变量分析(三元分类)

表54:针对其他患者特征调整的OS的多变量分析(三元分类)

表55:针对其他患者特征调整的RFS的多变量分析(最高与其他)

表56:针对其他患者特征调整的OS的多变量分析(最高与其他)

表57:针对其他患者特征调整的RFS的多变量分析(最低与其他)

表58:针对其他患者特征调整的OS的多变量分析(最低与其他)

通过将ST100上开发样本中的124个的重新运行与相同样本的开发运行的袋外估计进行比较,评估了三元分类的再现性。观察到84%和86%的一致性。

使用PSEA将测试分类与生物学过程的关联

我们执行蛋白质集富集分析,以发现图14的方案中的测试分类与生物学过程之间的关联。对于更多细节,参见以上描述和引用的文献。结果如下。

1.高风险与低风险(分类器A)

表59:高风险与低风险表型的PSEA p值和FDR

生物学过程 p值 FDR
急性炎症反应 <0.000001 <0.001
急性期反应 <0.000001 <0.001
补体活化(狭义定义) <0.000001 <0.001
补体活化(广义定义) 0.000039 <0.001
伤口愈合(狭义定义) 0.008582 <0.05
伤口愈合(广义定义) 0.034037 <0.15
先天性免疫反应 0.037454 <0.15
免疫耐受 0.063985 <0.25
糖酵解 0.070078 <0.25
形态发生的细胞组分 0.128625 <0.35
慢性炎症反应 0.137225 <0.35
1型免疫反应 0.154531 <0.35
上皮间质转化 0.172933 <0.35
2型免疫反应 0.198499 <0.40
缺氧 0.214417 <0.40
免疫耐受和抑制 0.230057 <0.40
T细胞介导免疫 0.276113 <0.45
干扰素1型 0.439324 <0.65
NK细胞介导免疫 0.467127 <0.65
免疫反应中所涉及的细胞因子产生 0.477872 <0.65
血管生成 0.519193 <0.65
行为 0.671154 <0.80
17型免疫反应 0.682384 <0.80
B细胞介导免疫 0.782806 <0.85
细胞外基质组织 0.785794 <0.85
干扰素γ 0.801015 <0.85

2.最高风险与其他

表60:最高风险与其他表型的PSEA p值和FDR

3.最低风险与其他

表61:最低风险与其他表型的PSEA p值和FDR

4.最高风险与最低风险

表62:低/中等风险与最低风险表型的PSEA p值和FDR

生物学过程 p值 FDR
急性期反应 0.000020 <0.001
补体活化(狭义定义) 0.000356 <0.005
急性炎症反应 0.002683 <0.05
补体活化(广义定义) 0.003986 <0.05
伤口愈合(狭义定义) 0.048576 <0.30
免疫耐受 0.086054 <0.35
血管生成 0.091256 <0.35
先天性免疫反应 0.182520 <0.60
形态发生的细胞组分 0.209831 <0.60
伤口愈合(广义定义) 0.222516 <0.60
慢性炎症反应 0.254650 <0.65
免疫反应中所涉及的细胞因子产生 0.304471 <0.70
糖酵解 0.422005 <0.75
干扰素γ 0.494367 <0.75
免疫耐受和抑制 0.503638 <0.75
17型免疫反应 0.521282 <0.75
行为 0.540987 <0.75
NK细胞介导免疫 0.542131 <0.75
1型免疫反应 0.543990 <0.75
细胞外基质组织 0.639250 <0.80
B细胞介导免疫 0.662902 <0.80
缺氧 0.684290 <0.80
干扰素1型 0.684530 <0.80
上皮间质转化 0.831538 <0.95
2型免疫反应 0.983664 <1.00
T细胞介导免疫 0.984818 <1.00

复发风险测试的再开发的结论(第7节)

我们能够创建一套三个分类器(A、B和C),从而按复发风险对早期肺癌患者进行分层。百分之十八的患者被分配到最高风险组,54%被分配到中等风险组(26%被分配到高/中等风险组,28%被分配到低/中等风险组),并且28%被分配到最低风险组。两年时无复发患者的百分比从最高风险组中的67%变为最低风险组中的95%;五年时存活患者的百分比在最高风险组中为69%,而在最低风险组中为93%。RFS和OS在最高风险、中等风险和最低风险分类之间显著不同,并且它们在多变量分析中仍然对RFS和OS具有预测性(OS的中等风险与最高风险的趋势),从而针对其他预后因素进行调整。值得注意的是,测试能够对所有三种复发进行分层:远处、局部区域和新的原位,但对于远处和局部区域复发表现最好。

集富集分析表明测试分类与急性期反应、补体活化、急性炎症反应和伤口愈合相关联。免疫耐受也可以是潜在相关的。这些观察连同我们的经验一起表明,在用免疫疗法治疗的转移性癌症中,补体、伤口愈合、急性期反应和急性炎症反应的相关性,以及分类器能够对新的原发病灶的风险进行分层的事实,可以指示测试正在访问关于宿主对癌症的免疫反应的信息。

测试分类的再现性良好,对于最高、中等和最低风险的三元分类,再现性为约85%。

虽然三元测试似乎对血浆作用良好(即,在血清测试本身的固有再现性内产生血清与血浆之间的一致分类),但数据集的第一次划分(二元分类)却没有作用。如果对血浆样本运行三元测试,则应进行进一步调查,以评估从4向分类移动到三元分类时对一致性的明显校正是否可靠。

在患有腺癌的患者的较大亚组中对测试性能的分析证实了与整个队列中的性能相似的性能。

第8节:从手术后获得的样本开发的分类器的开发和使用

除了来自114例患者的手术前样本之外,我们还在手术后30至120天之间收集了手术后样本。我们发现,将上述对300+例患者(在第7节中描述)开发的再开发复发风险测试应用于这些手术后样本并不是非常有用的。然而,我们确实发现,如果我们排除了我们已从其手术前样本中识别为处于最高复发风险的患者,则我们可使用手术后样本进行测试,该手术后样本允许将这些患者更好地分层为中等和最低风险组。

实际上,除了在手术前从基于血液的样本执行测试之外,还可以在手术后实现本节所述的测试(或分类器)。特别地,将使用第7节的测试(例如,如本节中所述的三元分类例程)来在手术前测试患者。如果手术前样本被分类为最高风险,则该测试结果可通知并引导其治疗。例如,如果这样的治疗在将来被批准,则可能导致辅助化学疗法,或者可能导致免疫疗法,或者对患者进行更密集的随访。如果手术前患者被分类为最低或中等风险,则我们可获得手术后血清样本,并且使用如本节中所述开发的分类器基于该样本生成改进的分层。

由于本节中开发的分类器仅在手术后30-120天收集了样本,因此我们目前不知道这是否是收集第二样本的最佳时间段。在一个可能的策略中,可以通过收集一系列手术后样本(例如,在手术后6个月、9个月、1年时)并且对此类样本中的每一者进行本节中描述的测试来改进分层。

我们得出的观察结果是,血清蛋白质组从手术前到手术后改变,并且手术后蛋白质组包含允许我们改进复发风险分层的信息。我们已经对PSEA分数进行了分析,这支持了手术前取样和手术后取样之间存在显著变化的实现。

如前所述,通过对使用仪器“ST100”从第一光谱采集得出的手术后特征值进行训练,开发了手术后分类器。排除了其手术前样本被手术前分类器分类为最高风险的患者,留下95个手术后样本用于分类器开发。所得分类器将患者分层成具有较高复发风险(类别标签“G1”)和较低风险(类别标签“G2”)的组。在本节中,出于比较的目的,在具有类别标签G1和G2的患者的曲线旁边示出了最高风险手术前患者,尽管事实上来自此类患者的样本没有用于手术后分类器开发。

分类器开发的细节

使用图2所示的程序开发分类器,如先前详细描述的。最初基于RFS为开发样本分配训练类别标签。将RFS小于中位数值的样本分配到G1,并且将RFS大于中位数值的样本分配到G2,无论结果如何。使用迭代标签翻转方法生成与分类器产生的标签一致的训练类别标签。原子分类器是k=9的k最近邻分类器。创建对应于所有特征和特征对的原子分类器,然后过滤,使得仅使用导致分类之间的RFS风险比至少为2.5的原子分类器。使用随机失活逻辑回归组合生成主分类器,其中对于100,000次随机失活迭代中的每一次,保留10个原子分类器。

结果

在分类器开发之后,使用手术后分类器,使用袋外分类对匹配样本进行分类,其中排除基于其手术前ST100分类指定为最高风险的那些患者。在114个匹配样本中,24个(21%)被手术前分类器分类为最高风险,49个(43%)被分类为G1,并且41个(36%)被分类为G2(表63)。在匹配样本队列中的22例复发中,其中八个例属于最高风险组(该组为33%复发率),12例分配到G1(24%复发率),并且两例分配到G2(5%复发率)。

表63:手术后样本的手术后分类

N(%)
手术前最高风险 24(21)
G1(较高风险) 49(43)
G2(较低风险) 41(36)

对于未从其手术前样本分类为处于最高复发风险的患者,手术后分类器(使用手术后样本)与原始手术前ROR分类器(使用手术前样本)之间的一致性在表64中示出。其手术前样本被分类为低风险的患者中的十三例被分类为手术后G1(较高风险),其中两例患者复发。十二例患者被分类为手术前中等风险和手术后G2(较低风险),其中没有患者复发。

表64:手术后分类和原始手术前ROR分类的一致性

无复发生存期按测试分类示于图16A和图16B中。对于未被手术前分类器分类为最高风险的样本,在手术前分类(中等/低)和手术后分类(G1/G2)上划分的RFS曲线图在图17A和图17B中示出。在图17B中,顶部处的水平线是中等/G2和最低/G1(线重叠)。

比较G1与G2的Cox比例风险比和p值在表65中示出。

表65:用于比较G1和G2之间的事件发生时间结果的风险比和p值

HR(95%CI) p值
RFS 0.08(0.01-0.60) 0.014
OS 0.19(0.02-1.61) 0.127

一些关键事件发生时间标志汇总于表中。

表66:按手术后测试分类的事件发生时间标志

1年 2年 3年 5年
RFS(%)
最高 96 71 66 66
组1 98 85 77 74
组2 100 98 98 98
OS(%)
最高 100 81 75 63
组1 100 96 96 92
组2 100 98 98 98

表67示出按测试分类的患者特征。

表67:按手术后测试分类的患者特征

表68示出了当针对其他患者特征调整时测试预测无复发生存期的能力。在复发中,G1和G2两者均包含大致相等比例的局部区域复发和新的原位,尽管G2中的总复发数非常小,这使得比较困难。表69示出按测试分类的复发类型。

表68:针对其他患者特征调整的RFS和OS的多变量分析

HR(95%CI) p值
RFS
测试(G1与G2) 0.08(0.01-0.64) 0.017
性别(男性与女性) 0.20(0.05-0.76) 0.018
TNM T期(1与2+) 4.59(1.45-14.48) 0.009
年龄(<70与70+) 0.42(0.12-1.47) 0.175
组织学(腺与其他) 0.86(0.21-3.66) 0.858
OS
测试(G1与G2) 0.22(0.02-1.95) 0.172
性别(男性与女性) 0.06(0.01-0.66) 0.022
TNM T期(1与2+) 3.51(0.49-25.27) 0.213
年龄(<70与70+) 0.43(0.07-2.57) 0.357
组织学(腺与其他) 0.60(0.05-7.86) 0.704

表69:按测试分类的复发类型:手术前最高,G1和G2

通过将在开发期间通过袋外估计获得的测试分类与从ST100上相同样本的重新运行获得的结果进行比较来评估再现性。90份样本中的八十九份(99%)接受了对于两次运行的相同分类。

结论

使用基于手术前样本从未分类为处于最高复发风险的患者收集的手术后样本开发的测试能够有效地将这些患者分层为分别具有较差和较好RFS和OS的两组(G1和G2)。这些患者的这种分层似乎比从手术前样本和第7节中描述的复发风险测试获得的分层更好。由于手术后测试仅能有效地应用于基于手术前样本未分类为处于最高风险的患者,因此有必要测试患者的术前样本以提供手术后复发的可能性的改善预测,

该结果表明,在手术前和手术后收集的样本之间,血清蛋白质组中存在结果相关差异。通过比较手术前和手术后的PSEA分数来证实这种观察结果,为了简洁起见省略了其细节。

因此,我们设想了如下的测试方法:

1.从NSCLC患者获得手术前基于血液的样本,对该样本执行质谱分析并获得附录A中列出的特征的积分强度值,然后根据第4节或第7节的测试程序对该样本的质谱进行分类(并且使用这些章节中描述的一个或多个分类器的这样的测试可以被配置为如这些章节中描述的二元分类器、三元分类器或四向分类器)。

2.如果根据步骤(1)中产生的分类,样本未被分类为具有高或最高复发风险,则从手术后的患者获得另外的基于血液的样本,并对该基于血液的样本进行质谱分析,包括获得附录A中列出的特征的积分强度值。

3.根据本节的测试程序,对第2节中获取的样本的质谱进行分类。类别标签将被报告为G1或等同物和G2或等同物,其中预测G2标记的患者在RFS和OS方面与具有类别标签G1的患者相比表现更好,如图16和图17的曲线图所示。

4.步骤2和3可以随时间推移重复,以便获得样本的纵向分类。如果和当样本的类别标签从G2变为G1时,则可以将患者引导至更积极的治疗,例如辅助化学疗法、免疫疗法、放射疗法或更密切的随访。

第9节,进一步考虑

本文件的测试的实际实施方式可采取多种形式。

在一个实施方案中,用于在早期非小细胞肺癌患者中执行癌症复发的风险评估的方法包括以下步骤:

(a)对从患者获得的基于血液的样本执行质谱分析并获得质谱分析数据,以及

(b)在计算机器中对质谱分析数据执行分级分类程序,其中计算机器实现分级分类器模式,该分级分类器模式包括产生高风险或低风险或等同物形式的类别标签的第一分类器(分类器A)(参见图3、图14),并且如果分类器A产生高风险标签,则样本由第二分类器(分类器B)分类,从而生成最高风险或高/中等风险或等同物的分类标签,其中如果分类器B产生最高风险或等同物的标签,则预测患者在手术后具有高的癌症复发风险。例如,在这种情况下,患者可被引导至针对癌症的更积极治疗,诸如通过建议或开处方进行辅助化学疗法或放射治疗。

或者,可以根据如下方法执行测试:其中计算机器实现包括第三分类器(分类器C)的分级分类器模式,参见图3和图14,其中如果分类器A产生“低风险”(或非“高风险”或等同物)分类标签,则样本被第三分类器C分类,并且其中分类器C产生最低风险或低/中等风险或等同物的类别标签。在这种情况下,最低风险类别标签指示提供样本的患者在手术后具有相对低的癌症复发风险。

如结合图3和图14所述,上述测试也可以以四向或三向(三元)分级分类方法来实现,此类分类器B和C产生既不是最高风险也不是最低风险的中等标签。这些中等标签可以组合成一般的“中等”分类标签或等同物,如图14所示。

作为替代方案,测试可以在二元分类程序中仅使用分类器A进行,以产生高风险或低风险分类标签(或等同物)。在这方面,用于在早期非小细胞肺癌患者中执行癌症复发的风险评估的方法包括以下步骤:在手术治疗癌症之前对从患者获得的基于血液的样本执行质谱分析并获得质谱分析数据;以及在计算机器中对质谱分析数据执行二元分类程序,其中计算机器实现产生高风险或低风险或等同物形式的类别标签的第一分类器(分类器A),其中如果类别标签是高风险或等同物,则预测患者在手术后具有高的癌症复发风险。

在上述方法中,在一个实施方案中,计算机器存储从基于血液的样本获得的质谱分析数据的参考集,该基于血液的样本从大量早期非小细胞肺癌患者获得,以用于样本的质谱的分类,并且其中质谱分析数据包括附录A中列出的特征的特征值。

作为如何实践本公开的另一个示例,为编程计算机提供机器可读代码和存储器,该存储器存储至少分类器A,以及任选分类器B和分类器C的参数(和用于实现图3或图14中示出的相关联分级分类模式的代码),用于预测早期非小细胞肺癌患者中的癌症复发风险。编程计算机包括处理单元以及存储代码和分类器参数的存储器,使得计算机被配置为分级分类器,其预测患者是否处于高复发风险(从分类器A或通过组合分类器A和B),并且其中存储器进一步存储来自大量早期非小细胞肺癌患者的质谱数据的参考集,包括附录A中列出的特征的特征值。在一种可能的配置中,编程计算机包括定义分类器A、B和C的参数以及如图3或图14所示和如上所述的分级组合模式。

在一种可能的实施方式中,分类器A、B和C是通过对样本的开发集执行图2的方法而生成的,并且采取大量主分类器的组合的形式,每个主分类器由开发样本集到训练集和测试集的不同分离开发。

应当理解,分配给类别标签的术语,诸如“高风险”或“最高”是描述性的并且通过举例而非限制的方式提供,并且当然可以选择其他标签,诸如“良好”、“坏”、“1”、“2”、“G1”或组1、“G2”等。实践中使用的特定命名法并不是特别重要。

如上所述,在一种可能的配置中,仅分类器A用于将患者分层成高风险和低风险组。可能仅将分类器A用于高/低风险并且不偏好定义“最高”风险组(使用分类器B)的情况是:

1.最高风险识别(由分类器B产生)未被很好地验证的场景。通常,我们的测试验证良好,但是在这种复发风险环境中,我们正在处理相对小数量的复发者,并且这增加了不能良好推广的风险。这可能是由于一些过拟合、对小开发集的性能判断错误、或没有群体代表性集来训练。

2.该选项将更好地扩展到其他适应症。由于数据集的这种“第一次划分”看起来较不深入到训练集的蛋白质组和细节中,因此就向II期NSCLC、其他肺癌或可能的其他早期癌症的转移而言,它可能更便于用于其他适应症。

所附权利要求书作为所公开的发明的进一步描述而提供。

附录A.特征定义列表

标有星号(*)的特征从最终特征表中移除,并且仅用于批次校正。

73页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于高级疗法医药产品的事件跟踪

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!