侦测癌症、癌症来源组织及/或癌症细胞类型

文档序号:327894 发布日期:2021-11-30 浏览:52次 >En<

阅读说明:本技术 侦测癌症、癌症来源组织及/或癌症细胞类型 (Detecting cancer, cancer-derived tissue and/or cancer cell types ) 是由 奥利弗·克劳德·维恩 亚历山大·P·菲尔兹 萨缪尔·S·格罗斯 刘勤文 简·施伦伯格 約格 于 2020-01-24 设计创作,主要内容包括:本描述提供了一种癌症化验检测组合,用于靶向癌症特异性甲基化模式的侦测。本文进一步提供的方法包括设计、制作及使用癌症化验检测组合来检测癌症及特定类型的癌症。(The present description provides a cancer assay detection combination for the detection of a targeted cancer specific methylation pattern. Further provided herein are methods comprising designing, making, and using cancer assay detection combinations to detect cancer and specific types of cancer.)

侦测癌症、癌症来源组织及/或癌症细胞类型

交叉引用

本申请自申请日为2019年1月25日提交的美国临时专利申请第62/797,176号、申请日为2019年1月25日提交的美国临时专利申请第62/797,174号及申请日为2019年1月25日提交的美国临时专利申请第62/797,170号请求优先权,上述申请通过引用整体的方式并入本文中。

序列表

本申请包括通过CD-R提交的“冗长”序列清单,以代替印刷纸质副本,并通过引用整体的方式并入本申请。所述CD-R记录于2020年1月23日,分别标记为“CRF”、“复本1”、“复本2”及“复本3”,每个CD-R仅包含一个相同的243821056字节文件(50251-849_601_SL.txt)。所述CD-R及相同复本在此通过引用整体的方式并入本文中。

背景技术

DNA甲基化在调节基因表达中起着重要作用。异常的DNA甲基化与许多疾病过程有关,包括癌症。使用甲基化定序的DNA甲基化图谱(例如,全基因组亚硫酸氢盐定序(wholegenome bisulfite sequencing,WGBS))越来越被认为是侦测、诊断及/或监测癌症的有价值的诊断工具。例如,差异甲基化区域的特定模式可以用作各种疾病的分子标记。

然而,WGBS并不理想地适用于产品检测组合。原因是绝大多数基因组在癌症中没有被差异地甲基化,或者局部CpG密度太低,因此无法提供可靠的信号。只有百分之几的基因组可能在分类中是有用的。

此外,在确定各种疾病中的差异甲基化区域方面存在各种挑战。首先,判定一个疾病组中的差异甲基化区域仅与一组对照对象相比具有重要意义,因此,如果对照组的数量较少,则该判定会失去对小对照组的信心。此外,在一组对照对象中,甲基化状态可能会有所不同,这在判定疾病组中差异甲基化的区域时很难解释。另一方面,CpG位点的胞嘧啶的甲基化与后续的CpG位点的甲基化密切相关。简述这种依赖性本身就是一个挑战。

因此,尚不能获得一种具成本效益的,通过侦测被不同地甲基化的数个区域而准确地侦测一疾病的方法。

发明内容

在本文中提供数个组合物,所述数个组合物包括:数个不同的诱饵寡核苷酸,其中所述数个不同的诱饵寡核苷酸是配置以集体地杂合至衍生自至少200个目标基因组区域的数个DNA分子,其中在至少一个癌症类型中,相较于在另一个癌症类型或一非癌症类型,所述至少200个目标基因组区域中的每个基因组区域是被差异地甲基化,以及其中对于从包括至少10个癌症类型的一组中选择的所有可能的数个癌症类型对的至少80%,所述至少200个目标基因组区域包括至少一个目标基因组区域,所述至少一个目标基因组区域在所述数个癌症类型对之间被差异地甲基化。

在一些实施例中,所述至少10个癌症类型包括至少2、3、4、5、10、12、14、16、18或20个癌症类型。在一些实施例中,所述数个癌症类型是选自子宫癌、上消化道鳞状癌、所有其他上消化道癌、甲状腺癌、肉瘤、尿路上皮肾癌、所有其他肾癌、前列腺癌、胰腺癌、卵巢癌、神经内分泌癌、多发性骨髓瘤、黑色素瘤、淋巴瘤、小细胞肺癌、肺腺癌、所有其他肺癌、白血病、肝胆癌、肝胆管癌、头颈癌、结肠直肠癌、子宫颈癌、乳癌、膀胱癌和肛门直肠癌。在一些实施例中,所述数个癌症类型是选自肛门癌、膀胱癌、结肠直肠癌、食道癌、头颈癌、肝/胆管癌、肺癌、淋巴瘤、卵巢癌、胰腺癌、浆细胞肿瘤和胃癌。在一些实施例中,所述数个癌症类型是选自甲状腺癌、黑色素瘤、肉瘤、骨髓性肿瘤、肾癌、前列腺癌、乳癌、子宫癌、卵巢癌、膀胱癌、尿路上皮癌、子宫颈癌、肛门直肠癌、头颈癌、结肠直肠癌、肝癌、胆管癌、胰腺癌、胆囊癌、上消化道癌、多发性骨髓瘤、淋巴瘤和肺癌。在一些实施例中,所述至少200个目标基因组区域是选自列表1至16中的任一者。在一些实施例中,所述至少200个目标基因组区域包括在列表1至16中任一者的所述数个目标基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,所述至少200个目标基因组区域包括在列表1至16中任一者的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个或50000个目标基因组区域。在一些实施例中,所述至少200个目标基因组区域是选自列表1至3中的任一者。在一些实施例中,所述至少200个目标基因组区域包括在列表1至3中任一者的所述数个目标基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,所述至少200个目标基因组区域包括在列表1至3中任一者的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个或50000个目标基因组区域。在一些实施例中,所述至少200个目标基因组区域是选自列表13至16中的任一者。在一些实施例中,所述至少200个目标基因组区域包括在列表13至16中任一者的所述数个目标基因组区域的至少10%、20%、25%、30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,所述至少200个目标基因组区域包括在列表13至16中任一者的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个或50000个目标基因组区域。在一些实施例中,所述至少200个目标基因组区域是选自列表12。在一些实施例中,所述至少200个目标基因组区域包括在列表12中的所述数个目标基因组区域的至少10%、20%、25%、30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,所述至少200个目标基因组区域包括列表12中的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个或50000个目标基因组区域。在一些实施例中,所述至少200个目标基因组区域是选自列表8至11中的任一者。在一些实施例中,所述至少200个目标基因组区域包括在列表8至11中任一者的所述数个目标基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,所述至少200个目标基因组区域包括在列表8至11中任一者的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个或50000个目标基因组区域。在一些实施例中,所述至少200个目标基因组区域包括在列表4中的所述数个目标基因组区域的至少40%、50%、60%或70%。在一些实施例中,对于从包括至少10个癌症类型的一组中选择的所有可能的数个癌症类型对的至少90%或100%,所述至少200个目标基因组区域包括至少一个目标基因组区域,所述至少一个目标基因组区域在所述数个癌症类型对之间被差异地甲基化。在一些实施例中,所述数个诱饵寡核苷酸杂合至衍生自所述至少200个目标基因组区域的所述数个DNA分子的至少15个核苷酸或至少30个核苷酸。在一些实施例中,衍生自所述至少200个目标基因组区域的所述数个DNA分子是经转换的cfDNA片段。在一些实施例中,所述cfDNA片段是通过一程序被转换,所述程序包括:以亚硫酸氢盐处理。在一些实施例中,所述cfDNA片段是通过一酶转化反应被转换。在一些实施例中,所述cfDNA片段是通过一胞嘧啶脱氨酶被转换。在一些实施例中,每个诱饵寡核苷酸是接合至一亲和部分。在一些实施例中,所述亲和部分是生物素。在一些实施例中,每个诱饵寡核苷酸的长度介于50及300个碱基之间、长度介于60及200个碱基之间、长度介于100及150个碱基之间、长度介于110及130个碱基之间,及/或长度为120个碱基。

本文还提供数种组合物,所述组合物包括:数个不同的诱饵寡核苷酸,配置以杂合至数个DNA分子,所述数个DNA分子衍生自选自列表1至16中任一者的至少100个目标基因组区域。

在一些实施例中,所述至少100个目标基因组区域包括至少200个目标基因组区域。在一些实施例中,所述至少100个目标基因组区域是选自列表1至16中的任一者。在一些实施例中,所述至少100个目标基因组区域包括在列表1至16中任一者的所述数个目标基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,所述至少100个目标基因组区域包括在列表1至16中任一者的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个或50000个目标基因组区域。在一些实施例中,所述至少100个目标基因组区域是选自列表1至3中的任一者。在一些实施例中,所述至少100个目标基因组区域包括在列表1至3中任一者的所述数个目标基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,所述至少100个目标基因组区域包括在列表1至3中任一者的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个或50000个目标基因组区域。在一些实施例中,所述至少100个目标基因组区域是选自列表12。在一些实施例中,所述至少100个目标基因组区域包括在列表12中的所述数个目标基因组区域的至少10%、20%、25%、30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,所述至少100个目标基因组区域包括在列表12中的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个或50000个目标基因组区域。在一些实施例中,所述至少100个目标基因组区域是选自列表8。在一些实施例中,所述至少100个目标基因组区域包括在列表8中的所述数个目标基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,所述至少100个目标基因组区域包括在列表8中的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个或50000个目标基因组区域。在一些实施例中,所述至少100个目标基因组区域包括列出在列表4中的所述数个目标基因组区域的至少40%、50%、60%或70%。在一些实施例中,衍生自所述至少100个目标基因组区域的所述数个DNA分子是经转换的数个cfDNA片段。在一些实施例中,所述数个cfDNA片段是通过一程序被转换,所述程序包括:以亚硫酸氢盐处理。在一些实施例中,所述组合物进一步包括来自一检测对象的数个cfDNA片段。在一些实施例中,来自所述检测对象的所述数个cfDNA片段是经转换的数个cfDNA分子。在一些实施例中,来自所述检测对象的所述数个cfDNA片段是通过一程序被转换,所述程序包括:以亚硫酸氢盐处理。在一些实施例中,每个目标基因组区域包括至少5个CpG二核苷酸。在一些实施例中,每个诱饵寡核苷酸的长度介于60及200个碱基之间、长度介于100及150个碱基之间、长度介于110及130个碱基之间,及/或长度为120个碱基。在一些实施例中,所述不同的数个诱饵寡核苷酸包括:两个或更多个诱饵寡核苷酸的数个组,其中在数个诱饵寡核苷酸的一个组中的每个诱饵寡核苷酸配置用以结合至来自相同的目标基因组区域的所述经转换的DNA分子。在一些实施例中,配置为杂合至过甲基化目标区域的数个诱饵寡核苷酸与配置为杂合至低甲基化目标区域的数个诱饵寡核苷酸的比率在0.5及1.0之间。在一些实施例中,每组的诱饵寡核苷酸包括一对或多对的一第一诱饵寡核苷酸及一第二诱饵寡核苷酸,每个诱饵寡核苷酸包括一个5’端及一个3’端,位于所述第一诱饵寡核苷酸的所述3’端的至少X个核苷酸碱基的一序列,与位于所述第二诱饵寡核苷酸的所述5’端的X个核苷酸碱基的一序列相同,且其中X是至少20、至少25或至少30。在一些实施例中,X是30。

本文还提供多种用于富集一cfDNA样本的方法,所述方法包括:将一经转换或未经转换的cfDNA样本与上述的一诱饵组接触;以及通过杂合捕捉,富集对应于一第一组基因组区域的cfDNA样本。在一些实施例中,所述cfDNA的样本是一经转换的cfDNA样本。

本文还提供多种用于获得序列信息的方法,所述序列信息可提供癌症的存在或不存在或一个类型的癌症的信息,所述方法包括:定序经由一方法而制备的富集的经转换的cfDNA,所述方法包括将一经转换或未经转换的cfDNA样本与上述的一诱饵组接触;以及通过杂合捕捉,富集对应于一第一组基因组区域的cfDNA样本。在一些实施例中,所述cfDNA的样本是一经转换的cfDNA样本。

本文还提供多种用于判定一对象中的癌症的存在或不存在的方法,所述方法包括步骤:以上述的组合物捕捉来自所述对象的数个cfDNA片段,定序所述经捕捉的数个cfDNA片段,以及将一经训练的分类器应用到所述数个cfDNA序列,以判定癌症的存在或不存在。在一些实施例中,癌症的存在或不存在的一伪阳性判定的可能性小于1%,以及癌症的存在或不存在的一准确判定的可能性为至少40%。在一些实施例中,所述癌症是一第一期癌症,癌症的存在或不存在的一伪阳性判定的可能性小于1%,以及癌症的存在或不存在的一准确判定的可能性为至少10%。在一些实施例中,所述数个cfDNA片段是数个经转换的cfDNA片段。

本文还提供多种用于侦测一癌症类型的方法,所述方法包括步骤:以一组合物捕捉来自一对象的数个cfDNA片段,所述组合物包括数个不同的寡核苷酸诱饵,定序所述经捕捉的数个cfDNA片段,以及将一经训练的分类器应用到所述数个cfDNA序列,以判定一癌症类型;其中所述数个寡核苷酸诱饵配置用以杂合至衍生自数个目标基因组区域的数个cfDNA片段,其中相较于在一不同的癌症类型或一非癌症类型中,所述数个目标基因组区域在一个或多个癌症类型中是被差异地甲基化,其中癌症的一伪阳性判定的可能性低于1%,以及其中一癌症类型的一准确指派的可能性为至少75%、至少80%、至少85%、至少89%、或至少90%。一些实施例还包括:将所述经训练的分类器应用到所述数个cfDNA序列,以在判定所述癌症类型之前判定癌症的存在或不存在。

在一些实施例中,所述癌症类型是一第一期癌症,以及一准确指派的可能性为至少75%。在一些实施例中,所述癌症类型是一第二期癌症,以及一准确指派的可能性为至少85%。在一些实施例中,所述癌症类型是前列腺癌,以及前列腺癌的一准确指派的可能性为至少85%或至少95%。在一些实施例中,所述癌症类型是乳癌,以及乳癌的一准确指派的可能性为至少90%或至少95%。在一些实施例中,所述癌症类型是子宫癌,以及子宫癌的一准确指派的可能性为至少90%或至少95%。所述癌症类型是卵巢癌,以及卵巢癌的一准确指派的可能性为至少85%或至少90%。在一些实施例中,所述癌症类型是膀胱癌及尿路上皮癌,以及膀胱癌及尿路上皮癌的一准确指派的可能性为至少90%或至少95%。所述癌症类型是结肠直肠癌,以及结肠直肠癌的一准确指派的可能性为至少65%或至少70%。在一些实施例中,所述癌症类型是肝癌及胆管癌,以及肝癌及胆管癌的一准确指派的可能性为至少90%或至少95%。在一些实施例中,所述癌症类型是胰腺癌及胆囊癌,以及胰腺癌及胆囊癌的一准确指派的可能性为至少85%或至少90%。所述数个cfDNA片段是经转换的cfDNA片段。在一些实施例中,所述癌症类型是选自子宫癌、上消化道鳞状癌、所有其他上消化道癌、甲状腺癌、肉瘤、尿路上皮肾癌、所有其他肾癌、前列腺癌、胰腺癌、卵巢癌、神经内分泌癌、多发性骨髓瘤、黑色素瘤、淋巴瘤、小细胞肺癌、肺腺癌、所有其他肺癌、白血病、肝胆癌、肝胆管癌、头颈癌、结肠直肠癌、子宫颈癌、乳癌、膀胱癌和肛门直肠癌。在一些实施例中,所述癌症类型是选自肛门癌、膀胱癌、结肠直肠癌、食道癌、头颈癌、肝/胆管癌、肺癌、淋巴瘤、卵巢癌、胰腺癌、浆细胞肿瘤和胃癌。在一些实施例中,所述癌症类型是选自甲状腺癌、黑色素瘤、肉瘤、骨髓性肿瘤、肾癌、前列腺癌、乳癌、子宫癌、卵巢癌、膀胱癌、尿路上皮癌、子宫颈癌、肛门直肠癌、头颈癌、结肠直肠癌、肝癌、胆管癌、胰腺癌、胆囊癌、上消化道癌、多发性骨髓瘤、淋巴瘤和肺癌。在一些实施例中,侦测肉瘤的可能性是至少35%或至少40%。在一些实施例中,侦测第三期或第四期肾癌的可能性是至少50%或至少70%。在一些实施例中,侦测第三期或第四期乳癌的可能性是至少70%或至少85%。在一些实施例中,侦测第三期或第四期子宫癌的可能性是至少50%。在一些实施例中,侦测卵巢癌的可能性是至少60%或至少80%。在一些实施例中,侦测膀胱癌的可能性是至少35%或至少40%。在一些实施例中,侦测肛门直肠癌的可能性是至少60%或70%。在一些实施例中,侦测头颈癌的可能性是至少75%或至少80%。在一些实施例中,侦测第一期头颈癌的可能性是至少80%。在一些实施例中,侦测结肠直肠癌的可能性是至少50%或至少59%。在一些实施例中,侦测肝癌的可能性是至少75%或少80%。在一些实施例中,侦测胰腺癌及胆囊癌的可能性是至少64%或至少70%。在一些实施例中,侦测上消化道癌的可能性是至少60%或至少68%。在一些实施例中,侦测多发性骨髓瘤的可能性是至少65%或至少75%。在一些实施例中,侦测第一期多发性骨髓瘤的可能性是至少60%。在一些实施例中,侦测淋巴瘤的可能性是至少65%或至少69%。在一些实施例中,侦测肺癌的可能性是至少50%或至少58%。在一些实施例中,包括数个寡核苷酸诱饵的所述组合物是上述提供的组合物。在一些实施例中,所述数个基因组区域包括:不超过95000个基因组区域、不超过60000个基因组区域、不超过40000个基因组区域、不超过35000个基因组区域、不超过20000个基因组区域、不超过15000个基因组区域、不超过8000个基因组区域、不超过4000个基因组区域、不超过2000个基因组区域或不超过1400个基因组区域。在一些实施例中,所述数个基因组区域的总尺寸是少于4MB、少于2MB、少于1MB、少于0.7MB或少于0.4MB。在一些实施例中,所述对象具有一种或多种癌症类型的一高风险。在一些实施例中,所述对象表现出与一种或多种癌症类型相关的症状。在一些实施例中,所述对象未被诊断出具有癌症。在一些实施例中,所述分类器是在数个经转换的DNA序列之上被训练,所述数个经转换的DNA序列衍生自具有一第一癌症类型的至少100个对象、具有一第二类型癌症的至少100个对象以及未具有癌症的至少100个对象。在一些实施例中,所述第一癌症类型是卵巢癌。在一些实施例中,所述第一癌症类型是肝癌。在一些实施例中,所述第一癌症类型是选自甲状腺癌、黑色素瘤、肉瘤、骨髓性肿瘤、肾癌、前列腺癌、乳癌、子宫癌、卵巢癌、膀胱癌、尿路上皮癌、子宫颈癌、肛门直肠癌、头颈癌、结肠直肠癌、肝癌、胰腺癌、胆囊癌、食道癌、胃癌、多发性骨髓瘤、淋巴瘤、肺癌和白血病。在一些实施例中,所述分类器是在数个经转换的DNA序列之上被训练,所述数个经转换的DNA序列衍生自选自列表1至16中任一者的至少1000个、至少2000个或至少4000个目标基因组区域。

在一些实施例中,所述分类器是在数个经转换的DNA序列之上被训练,所述数个经转换的DNA序列衍生自选自列表1至16中任一者的至少1000个、至少2000个或至少4000个目标基因组区域。在一些实施例中,所述经训练的分类器通过下述判定癌症的存在或不存在或一癌症类型:(a)为样本产生一组特征,其中在所述一组特征中的每个特征包括一数字数值;(b)将所述一组特征输入至所述分类器中,其中所述分类器包括一多项式分类器;(c)基于所述一组特征,于所述分类器判定一组机率分数,其中所述一组机率分数包括每个癌症类型类别及每个非癌症类型类别的一个机率分数;以及(d)基于在所述分类器的训练时被决定的一个或多个数值,以阀值衡量所述一组机率分数,以决定所述样本的一最终癌症分类。在一些实施例中,所述一组特征包括一组二元化的特征。在一些实施例中,所述数字数值包括一个单一的二元数值。在一些实施例中,所述多项式分类器包括一个多项式逻辑回归集成,被训练以为所述癌症预测一来源组织。在一些实施例中,相对一最小值,基于一最高两个机率分数差异,所述分类器判定所述最终癌症分类,其中所述最小值对应于训练癌症样本的一预先界定的比例,所述训练癌症样本的预先界定的比例在所述分类器的训练时被指派正确的癌症类型作为最高分数。在一些实施例中,所述分类器依据判定所述最高两个机率分数差异超过所述最小值,指派一癌症标签作为所述最终癌症分类,所述癌症标签对应于由所述分类器判定的最高机率分数;以及依据判定所述最高两个机率分数差异并未超过所述最小值,指派一不确定癌症标签作为所述最终癌症分类。

本文还提供多种治疗有需要的一对象的一癌症类型的方法,所述方法包括步骤:通过上述的方法,侦测所述癌症类型;以及向所述对象施加一抗癌治疗剂。在一些实施例中,所述抗癌治疗剂是一化学治疗剂,所述化学治疗剂选自由烷化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质激素、激酶抑制剂、核苷酸类似物以及铂类制剂所组成的群组。

本文还提供多种癌症化验检测组合,所述癌症化验检测组合包括:至少500对探针,其中所述至少500对探针中的每对包括:两个探针,配置以通过一重叠序列与彼此重叠,其中所述重叠序列包括一30个核苷酸的序列,以及其中所述30个核苷酸的序列是配置以杂合至一经转换的cfDNA分子,所述经转换的cfDNA分子对应于,或衍生自一个或多个基因组区域,其中所述数个基因组区域中的各者包括至少五个甲基化位点,且其中所述至少五个甲基化位点在数个癌症样本中具有一异常甲基化模式。

在一些实施例中,所述至少500对探针中的各者是接合至一非核苷酸亲和部分。在一些实施例中,所述非核苷酸亲和部分是一生物素部分。在一些实施例中,所述数个癌症样本是来自数个对象,所述数个对象具有选自由乳癌、子宫癌、子宫颈癌、卵巢癌、膀胱癌、肾盂的尿路上皮癌、尿路上皮以外的肾癌、前列腺癌、肛门直肠癌、结肠直肠癌、肝细胞引起的肝胆癌、肝细胞以外的细胞引起的肝胆癌、胰腺癌、上消化道鳞状细胞癌、鳞状细胞癌以外的上消化道癌、头颈癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌及腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病所组成的群组的一癌症。在一些实施例中,所述异常甲基化模式在所述数个癌症样本中具有至少一阀值的p值稀有度。在一些实施例中,所述数个探针中的各者被设计成具有少于20个脱靶基因组区域。在一些实施例中,所述少于20个脱靶基因组区域是使用一k聚体播种策略(k-merseeding strategy)被辨识。在一些实施例中,所述少于20个脱靶基因组区域是使用k聚体播种策略结合到位于数个种子位点处的局部对齐而被辨识。在一些实施例中,所述癌症化验检测组合包括:至少10000个、50000个、100000个、200000个300000、400000个、500000个、600000个、700000个或800000个探针。在一些实施例中,所述至少500对探针共包括至少2百万个、3百万个、4百万个、5百万个、6百万个、8百万个、1千万个、1千2百万个、1千4百万个或1千5百万个核苷酸。在一些实施例中,所述数个探针中的各者包括至少50、75、100或120个核苷酸。在一些实施例中,所述数个探针中的各者包括少于300、250、200或150个核苷酸。在一些实施例中,所述数个探针中的各者包括100至150个核苷酸。在一些实施例中,所述数个探针中的各者包括少于20、15、10、8或6个甲基化位点。在一些实施例中,所述至少五个甲基化位点中的至少80、85、90、92、95或98%在所述数个癌症样本中是经甲基化的或者是未甲基化的。在一些实施例中,所述数个探针中的至少3%、5%、10%、15%或20%不包括鸟嘌呤G。在一些实施例中,所述数个探针中的各者包括对所述经转换的cfDNA分子的所述数个甲基化位点的多个结合位点,其中所述多个结合位点的至少80、85、90、92、95或98%仅包括CpG或CpA。在一些实施例中,所述数个探针中的各者配置成具有少于15个、10个或8个脱靶基因组区域。在一些实施例中,所述数个基因组区域的至少30%是在外显子或内含子中。在一些实施例中,所述数个基因组区域的至少15%是在外显子中。在一些实施例中,所述数个基因组区域的至少20%是在外显子中。在一些实施例中,所述数个基因组区域的少于10%是在基因间区域中。在一些实施例中,所述数个基因组区域是选自列表1至3或列表4至16中的任一者。在一些实施例中,所述数个基因组区域包括在列表1至3或列表4至16中的任一者的所述数个基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%、95%或100%。在一些实施例中,所述数个基因组区域包括在列表1至3或列表4至16中的任一者的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个、50000个、60000个或70000个基因组区域。

本文还提供多种癌症化验检测组合,包括多个探针,其中所述数个探针中的各者是配置以杂合至一经转换的cfDNA分子,所述经转换的cfDNA分子对应于列表1至3或4至16中任一者的所述数个基因组区域中的一个或多个。

在一些实施例中,所述数个探针一起配置用以杂合至数个经转换的cfDNA分子,所述数个经转换的cfDNA分子对应于列表1至3或列表4至16中的任一者的所述数个基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%、95%或100%。

在一些实施例中,所述数个探针一起配置用以杂合至数个经转换的cfDNA分子,所述数个经转换的cfDNA分子对应于列表1至3或列表4至16中的任一者的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个或50000个基因组区域。在一些实施例中,所述数个探针中的至少3%、5%、10%、15%或20%不包括鸟嘌呤G。在一些实施例中,所述数个探针中的各者包括对所述经转换的cfDNA分子的数个甲基化位点的多个结合位点,其中所述多个结合位点的至少80、85、90、92、95或98%仅包括CpG或CpA。在一些实施例中,所述数个探针中的各者是接合至一非核苷酸亲和部分。在一些实施例中,所述非核苷酸亲和部分是一生物素部分。

本文还提供多种判定一癌症的一来源组织(TOO)的方法,所述方法包括步骤:接收一样本,所述样本包括数个cfDNA分子;处理所述数个cfDNA分子,以将未甲基化的胞嘧啶C转换为脲嘧啶U,从而获得数个经转换的cfDNA分子;将上述提供的一癌症化验检测组合应用到所述数个经转换的cfDNA分子,从而富集所述数个经转换的cfDNA分子的一子集;以及定序所述经转换的cfDNA分子的所述富集的子集,从而提供一组序列读数。

一些实施例还提供步骤:通过评估所述一组序列读数判定一健康状况,其中所述健康状况是癌症的存在或不存在;一来源组织(TOO)的癌症的存在或不存在;一癌症细胞类型的存在或不存在;至少5种、10种、15种或20种不同类型的癌症的存在或不存在。在一些实施例中,所述样本包括获得自一人类对象的数个cfDNA分子。

本文还提供多种侦测一癌症的方法,所述方法包括步骤:通过定序来自一对象的一组核酸片段来获得一组序列读数,其中所述数个核酸片段对应于或是衍生自选自列表1至3或列表4至16中任一者的数个基因组区域;对于所述数个核酸片段中的各者,判定于数个CpG位点处的甲基化状态;以及通过评估所述数个序列读数的甲基化状态而侦测所述对象的一健康状态,其中所述健康状态是:(i)一癌症的存在或不存在;(ii)一来源组织的癌症的存在或不存在;(iii)一癌症细胞类型的存在或不存在;或(iv)至少5种、10种、15种或20种不同类型的癌症的存在或不存在。

在一些实施例中,所述数个基因组区域包括在列表1至3或列表4至16中任一者的所述数个基因组区域的至少20%、30%、40%、50%、60%、70%、80%、90%、95%或100%。在一些实施例中,所述数个基因组区域包括在列表1至3或列表4至16中任一者的所述数个基因组区域的至少500个、1000个、5000个、10000个、15000个、20000个、30000个、40000个、50000个、60000个、70000个或80000个基因组区域。

本文还提供多种设计用于诊断一来源组织(TOO)的癌症的一癌症化验检测组合的方法,所述方法包括步骤:辨识数个基因组区域,其中所述数个基因组区域中的各者(i)包括至少30个核苷酸,且(ii)包括至少五个甲基化位点;选择所述数个基因组区域的一子集,其中当数个cfDNA分子具有一异常的甲基化模式时,进行所述选择,所述数个cfDNA分子对应于或衍生自数个癌症样本中的所述数个基因组区域中的各者,其中所述异常甲基化模式包括至少五个低甲基化或过甲基化的甲基化位点,以及设计包括数个探针的一癌症化验检测组合,其中所述数个探针中的各者配置用于杂合至一经转换的cfDNA分子,所述转换的cfDNA分子对应于或衍生自所述数个基因组区域的一个或多个所述子集。

本文还提供多种用于杂合捕捉的诱饵组,一诱饵组包括数个不同的含寡核苷酸探针,其中所述数个含寡核苷酸探针中的各者包括长度为至少30个碱基的一序列,所述序列与以下任一者互补:(1)一基因组区域的一序列;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处;以及其中所述数个不同的含寡核苷酸探针与对应于一CpG位点的一序列互补,相较于来自一第二癌症类型或一非癌症类型的数个对象的数个样本,在来自一第一癌症类型的数个对象的数个样本中的所述CpG位点是被差异地甲基化。

在一些实施例中,所述第一癌症类型及所述第二癌症类型是选自子宫癌、上消化道鳞状癌、所有其他上消化道癌、甲状腺癌、肉瘤、尿路上皮肾癌、所有其他肾癌、前列腺癌、胰腺癌、卵巢癌、神经内分泌癌、多发性骨髓瘤、黑色素瘤、淋巴瘤、小细胞肺癌、肺腺癌、所有其他肺癌、白血病、肝胆癌、肝胆管癌、头颈癌、结肠直肠癌、子宫颈癌、乳癌、膀胱癌和肛门直肠癌。

权利要求140至141中任一项所述的诱饵组,其中所述诱饵组包括至少500个、1000个、2000个、2500个、5000个、6000个、7500个、10000个、15000个、20000个、25000个、50000个、100000个、200000个、300000个、500000个或800000个不同的含寡核苷酸探针。在一些实施例中,对于所述数个不同的含寡核苷酸探针中的各者,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表1至16中任一者的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表1至3中任一者的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表5或7中任一者的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表4、8或8至12中任一者的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表13至16中任一者的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表13至16中任一者的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表4或6中任一者的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表4中的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表8中的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表9中的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表10中的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表11中的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,长度为至少30个碱基的所述序列与以下任一者互补:(1)一基因组区域内的一序列,所述基因组区域选自列表12中的所述数个基因组区域组;或(2)一序列,仅通过一个或多个过度而与(1)的所述序列不同,其中所述一个或多个过度的每个各别过度发生在所述基因组区域的一胞嘧啶处。在一些实施例中,所述数个不同的含寡核苷酸探针中的各者是接合至一亲和部分。在一些实施例中,所述亲和部分是生物素。在一些实施例中,所述诱饵组中的所述数个含寡核苷酸探针的至少80%、90%或95%不包括:所述基因组中具有20个或更多个脱靶区域的一至少30个、至少40个或至少45个碱基的序列。在一些实施例中,所述诱饵组中的所述数个含寡核苷酸探针不包括:所述基因组中具有20个或更多个脱靶区域的一至少30个、至少40个或至少45个碱基的序列。在一些实施例中,所述数个探针中的各者的至少30个碱基的所述序列的长度为至少40个、至少45个、至少50个、至少60个、至少75个或至少100个碱基。在一些实施例中,所述数个含寡核苷酸探针中的各者具有长度为至少45个、40个、75个、100个或120个碱基的一核酸序列。在一些实施例中,所述数个含寡核苷酸探针中的各者具有长度不超过300个、250个、200个或150个碱基的一核酸序列。在一些实施例中,所述数个不同的含寡核苷酸探针中的各者的长度介于60及200个碱基之间、长度介于100及150个碱基之间、长度介于110及130个碱基之间,及/或长度为120个碱基。在一些实施例中,所述数个不同的含寡核苷酸探针包括至少500个、至少1000个、至少2000个、至少2500个、至少5000个、至少6000个、至少7500个、以及至少10000个、至少15000个、至少20000个或至少25000个不同的探针对,其中每个探针对包括一第一探针及第二探针,其中所述第二探针不同于所述第一探针并且与所述第一探针通过一重叠序列重叠,所述重叠序列的长度为至少30个、至少40个、至少50个或至少60个核苷酸。在一些实施例中,所述诱饵组包括数个含寡核苷酸探针,所述数个含寡核苷酸探针配置用以靶向在列表1至16中任一者的经辨识的所述数个基因组区域的至少20%、至少25%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或100%。在一些实施例中,所述诱饵组包括数个含寡核苷酸探针,所述数个含寡核苷酸探针配置用以靶向在列表1至3中任一者的经辨识的所述数个基因组区域的至少20%、至少25%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或100%。在一些实施例中,所述诱饵组包括数个含寡核苷酸探针,所述数个含寡核苷酸探针配置用以靶向在列表4至12中任一者的经辨识的所述数个基因组区域的至少20%、至少25%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或100%。在一些实施例中,所述诱饵组包括数个含寡核苷酸探针,所述数个含寡核苷酸探针配置用以靶向在列表4、6或8至12中任一者的经辨识的所述数个基因组区域的至少20%、至少25%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或100%。在一些实施例中,所述诱饵组包括数个含寡核苷酸探针,所述数个含寡核苷酸探针配置用以靶向在列表8中的经辨识的所述数个基因组区域的至少20%、至少25%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%、至少95%或100%。在一些实施例中,在所述诱饵组中的数个寡核苷酸探针的一整体配置用以杂合至从数个cfDNA分子获得的数个片段,所述数个片段对应于选自列表1至16中任一者的一列表中的所述数个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,在所述诱饵组中的数个寡核苷酸探针的所述整体配置用以杂合至从数个cfDNA分子获得的数个片段,所述数个片段对应于选自列表1至3中任一者的一列表中的所述数个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,在所述诱饵组中的数个寡核苷酸探针的所述整体配置用以杂合至从数个cfDNA分子获得的数个片段,所述数个片段对应于选自列表4至12中任一者的一列表中的所述数个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,在所述诱饵组中的数个寡核苷酸探针的所述整体配置用以杂合至从数个cfDNA分子获得的数个片段,所述数个片段对应于选自列表4、6、或8至12中任一者的一列表中的所述数个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,在所述诱饵组中的数个寡核苷酸探针的所述整体配置用以杂合至从数个cfDNA分子获得的数个片段,所述数个片段对应于选自列表8的一列表中的所述数个基因组区域的至少30%、40%、50%、60%、70%、80%、90%或95%。在一些实施例中,在所述诱饵组中的数个含寡核苷酸探针的一整体配置用以杂合至从数个cfDNA分子获得的数个片段,所述数个片段对应于列表1至16中任一者的至少500个、1000个、5000个、10000个、15000个、20000个、至少25000个、至少30000个、至少50000个或至少80000个基因组区域。在一些实施例中,在所述诱饵组中的数个含寡核苷酸探针的所述整体配置用以杂合至从数个cfDNA分子获得的数个片段,所述数个片段对应于列表1至3中任一者的至少500个、1000个、5000个、10000个、15000个、20000个、至少25000个、至少30000个、至少50000个或至少80000个基因组区域。在一些实施例中,在所述诱饵组中的数个含寡核苷酸探针的所述整体配置用以杂合至从数个cfDNA分子获得的数个片段,所述数个片段对应于列表4至12中任一者的至少500个、1000个、5000个、10000个、15000个、20000个、至少25000个、至少30000个、至少50000个或至少80000个基因组区域。在一些实施例中,在所述诱饵组中的数个含寡核苷酸探针的所述整体配置用以杂合至从数个cfDNA分子获得的数个片段,所述数个片段对应于列表4、6、或8至12中任一者的至少500个、1000个、5000个、10000个、15000个、20000个、至少25000个、至少30000个、至少50000个或至少80000个基因组区域。在一些实施例中,在所述诱饵组中的数个含寡核苷酸探针的所述整体配置用以杂合至从数个cfDNA分子获得的数个片段,所述数个片段对应于列表8中的至少500个、1000个、5000个、10000个、15000个、20000个、至少25000个、至少30000个、至少50000个或至少80000个基因组区域。在一些实施例中,所述数个含寡核苷酸探针包括至少500个、1000个、5000个或10000个不同的数个探针子集,其中每个探针子集包括数个探针,所述数个探针集合地延伸横跨一基因组区域,所述基因组区域以2×铺排方式(2×tiled fashion)选自列表1至16中任一者的所述数个基因组区域。在一些实施例中,所述数个含寡核苷酸探针包括至少500个、1000个、5000个或10000个不同的数个探针子集,其中每个探针子集包括数个探针,所述数个探针集合地延伸横跨一基因组区域,所述基因组区域以2×铺排方式选自列表1至4、6、或8至12中任一者的所述数个基因组区域。在一些实施例中,以2×铺排方式集合地延伸横跨所述基因组区域的所述数个探针包括:至少一对探针,所述至少一对探针与长度为至少30个碱基、至少40个碱基、至少50个碱基或至少60个碱基的一序列重叠。在一些实施例中,所述数个探针集合地延伸横跨所述基因组的数个部分,所述数个部分的一组合尺寸(combined size)是少于4MB、少于2MB、少于1MB、少于0.7MB或少于0.4MB。在一些实施例中,所述数个探针集合地延伸横跨所述基因组的数个部分,所述数个部分的一组合尺寸是介于0.2及30MB之间、介于0.5MB及30MB之间、介于1MB及30MB之间、介于3MB及25MB之间、介于3MB及15MB之间、介于5MB及20MB之间,或介于7MB及12MB之间。在一些实施例中,所述数个不同的含寡核苷酸探针中的各者包括少于20个、15个、10个、8个或6个CpG侦测位点。在一些实施例中,所述数个含寡核苷酸探针的至少80%、85%、90%、92%、95%、或98%在所有CpG侦测位点上仅具有CpG或CpA。

本文还提供数种混合物,所述混合物包括:经转换的cfDNA;以及上述提供的一诱饵组。在一些实施例中,所述经转换的cfDNA包括亚硫酸氢盐转换的cfDNA。

权利要求187的所述混合物,其中所述经转换的cfDNA包括经由一胞嘧啶脱氨酶转换的cfDNA。

本文还提供数种用于富集一经转换的cfDNA样本的方法,所述方法包括:将所述经转换的cfDNA样本与上述提供的一诱饵组接触;以及通过杂合捕捉,富集一第一组基因组区域的所述样本。

本文还提供数种用于提供序列信息的方法,所述序列信息可提供一癌症的存在或不存在或一个类型的癌症的信息,所述方法包括步骤:利用一脱氨剂处理来自一生物样本的cfDNA,以产生包括数个脱氨核苷酸的一游离DNA样本;富集用于指示数个游离DNA分子的所述cfDNA样本;以及定序所述富集的数个cfDNA分子,从而获得用于指示一癌症的存在或不存在或一个类型的癌症的一组序列读数。

在一些实施例中,富集所述cfDNA包括:使用数个引物,通过PCR扩增所述数个游离DNA片段的数个部分,其中所述数个引物配置用以杂合至选自列表1至16中任一者的数个基因组区域。在一些实施例中,富集所述cfDNA包括:将所述游离DNA与数个探针接触,所述数个探针配置用以杂合至从所述数个cfDNA分子获得的数个经转换的片段,所述数个经转换的片段对应于或衍生自列表1至16中任一者的所述数个基因组区域。在一些实施例中,富集所述cfDNA包括:将所述游离DNA与数个探针接触,所述数个探针配置用以杂合至从所述数个cfDNA分子获得的数个经转换的片段,所述数个经转换的片段对应于或衍生自列表1至16中任一者的所述数个基因组区域的至少30%、40%、50%、60%、70%、80%、90%、95%。在一些实施例中,所述数个基因组区域选自列表1至3中的任一者。在一些实施例中,所述数个基因组区域选自列表4至12中的任一者。在一些实施例中,所述数个基因组区域选自列表4、6、或8至12中的任一者。在一些实施例中,所述数个基因组区域选自列表8。在一些实施例中,通过上述提供的方法富集所述cfDNA样本。在一些实施例中,所述方法进一步包括:通过评估所述一组序列读数来判定一癌症分类,其中所述癌症分类是癌症的存在或不存在;一类型的癌症的存在或不存在。在一些实施例中,确定一癌症分类的所述步骤包括步骤:基于所述一组序列读数产生一检测特征向量;以及将所述检测特征向量应用到一分类器。在一些实施例中,所述分类器包括通过一训练过程训练的一模型,所述训练过程具有来自具有一第一癌症类型的一个或多个训练对象的一第一组癌症片段及来自具有一第二癌症类型的一个或多个训练对象的一第二组癌症片段,其中所述第一组癌症片段及所述第二组癌症片段包括数个训练片段。在一些实施例中,所述癌症分类是癌症的存在或不存在。在一些实施例中,所述分类器在一接收者操作特征曲线下的一面积为至少0.8。在一些实施例中,所述癌症分类是一类型的癌症。在一些实施例中,所述类型的癌症选自至少12、14、16、18或20个癌症类型。在一些实施例中,所述数个癌症类型选自子宫癌、上消化道鳞状癌、所有其他上消化道癌、甲状腺癌、肉瘤、尿路上皮肾癌、所有其他肾癌、前列腺癌、胰腺癌、卵巢癌、神经内分泌癌、多发性骨髓瘤、黑色素瘤、淋巴瘤、小细胞肺癌、肺腺癌、所有其他肺癌、白血病、肝胆癌、肝胆管癌、头颈癌、结肠直肠癌、子宫颈癌、乳癌、膀胱癌和肛门直肠癌。在一些实施例中,所述数个癌症类型是选自肛门癌、膀胱癌、结肠直肠癌、食道癌、头颈癌、肝/胆管癌、肺癌、淋巴瘤、卵巢癌、胰腺癌、浆细胞肿瘤和胃癌。在一些实施例中,所述数个癌症类型是选自甲状腺癌、黑色素瘤、肉瘤、骨髓性肿瘤、肾癌、前列腺癌、乳癌、子宫癌、卵巢癌、膀胱癌、尿路上皮癌、子宫颈癌、肛门直肠癌、头颈癌、结肠直肠癌、肝癌、胆管癌、胰腺癌、胆囊癌、上消化道癌、多发性骨髓瘤、淋巴瘤和肺癌。在一些实施例中,其中在99%的特异度下,所述方法对头颈癌的敏感度是至少79%或至少84%;其中在99%的特异度下,所述方法对肝癌的敏感度是至少82%或至少85%;其中在99%的特异度下,所述方法对上消化道癌的敏感度是至少62%或至少68%;其中在99%的特异度下,所述方法对胰腺癌或胆囊癌的敏感度是至少62%或至少68%;其中在99%的特异度下,所述方法对结肠直肠癌的敏感度是至少60%或至少65%;其中在99%的特异度下,所述方法对卵巢癌的敏感度是至少75%或至少80%;其中在99%的特异度下,所述方法对肝癌的敏感度是至少60%或至少65%;其中在99%的特异度下,所述方法对多发性骨髓瘤的敏感度是至少68%或至少75%;其中在99%的特异度下,所述方法对淋巴瘤的敏感度是至少65%或至少70%;其中在99%的特异度下,所述方法对肛门直肠癌的敏感度是至少60%或至少65%;以及其中在99%的特异度下,所述方法对膀胱癌的敏感度是至少40%或至少44%。在一些实施例中,所述癌症分类是一类型的癌症的存在或不存在。在一些实施例中,确定一癌症分类的步骤包括步骤:基于所述一组序列读数产生一检测特征向量;以及将所述检测特征向量应用到一分类器。在一些实施例中,所述分类器包括通过一训练过程训练的一模型,所述训练过程具有一第一癌症类型组的经转换的DNA序列,来自具有一第一癌症类型的一个或多个训练对象,及具有一第二癌症类型组的经转换的DNA序列,来自具有一第二癌症类型的一个或多个训练对象,其中所述第一癌症类型组的经转换的DNA序列及所述第二癌症类型组的经转换的DNA序列包括数个训练的经转换的DNA序列。在一些实施例中,所述癌症类型是选自由头颈癌、肝/胆管癌、上消化道癌、胰腺/胆囊癌、结肠直肠癌、卵巢癌、肺癌、多发性骨髓瘤、淋巴瘤、黑色素瘤、肉瘤、乳癌和子宫癌所组成的群组。在一些实施例中,所述类型的癌症是头颈癌,并且在99%的特异度下,所述方法具有至少79%或至少84%的一敏感度。在一些实施例中,所述类型的癌症是肝癌,并且在99%的特异度下,所述方法具有至少82%或至少85%的一敏感度。在一些实施例中,所述类型的癌症是上消化道癌,并且在99%的特异度下,所述方法具有至少62%或至少68%的一敏感度。在一些实施例中,所述类型的癌症是胰腺癌或胆囊癌,并且在99%的特异度下,所述方法具有至少62%或至少68%的一敏感度。在一些实施例中,所述类型的癌症是结肠直肠癌,并且在99%的特异度下,所述方法具有至少60%或至少65%的一敏感度。在一些实施例中,所述类型的癌症是卵巢癌,并且在99%的特异度下,所述方法具有至少75%或至少80%的一敏感度。在一些实施例中,所述类型的癌症是肺癌,并且在99%的特异度下,所述方法具有至少60%或至少65%的一敏感度。在一些实施例中,所述类型的癌症是多发性骨髓瘤,并且在99%的特异度下,所述方法具有至少68%或至少75%的一敏感度。在一些实施例中,所述类型的癌症是淋巴瘤,并且在99%的特异度下,所述方法具有至少65%或至少70%的一敏感度。在一些实施例中,所述类型的癌症是肛门直肠癌,并且在99%的特异度下,所述方法具有至少60%或至少65%的一敏感度。在一些实施例中,所述类型的癌症是膀胱癌,并且在99%的特异度下,所述方法具有至少40%或至少44%的一敏感度。在一些实施例中,所述数个目标基因组区域的总尺寸是少于4MB、少于2MB、少于1MB、少于0.7MB或少于0.4MB。在一些实施例中,确定一癌症分类的步骤包括步骤:

基于所述一组序列读数产生一检测特征向量;以及将所述检测特征向量应用到通过一训练过程而获得的一模型,所述训练过程具有来自具有癌症的一个或多个训练对象的一组癌症片段及来自未具有癌症的一个或多个训练对象的一组非癌症片段,其中所述所述一组癌症片段及所述一组非癌症片段包括数个训练的片段。在一些实施例中,所述训练过程包括步骤:从数个训练对象的数个训练片段获得序列信息;对每个训练片段,确定所述训练片段是否低甲基化或过甲基化,其中所述低甲基化的训练片段及过甲基化的训练片段中的各者包括:至少一阈值数量的CpG位点,其中CpG位点的至少一阈值百分比分别为未甲基化或甲基化;对于每个训练对象,基于所述低甲基化的训练片段及过甲基化的训练片段,产生一训练特征向量;以及使用来自所述一个或多个未具有癌症的训练对象的所述训练特征向量及来自所述一个或多个具有癌症的训练对象的训练特征向量来训练所述模型。在一些实施例中,所述训练过程包括步骤:从数个训练对象的数个训练片段获得序列信息;对每个训练片段,确定所述训练片段是否低甲基化或过甲基化,其中所述低甲基化的训练片段及低甲基化的训练片段中的各者包括:至少一阈值数量的CpG位点,其中CpG位点的至少一阈值百分比分别为未甲基化或甲基化;对于一参考基因组中的数个CpG位点中的各者:量化与所述CpG位点重叠的低甲基化训练片段的一计数以及与所述CpG位点重叠的过甲基化训练片段的一计数;以及基于所述低甲基化训练片段及所述高甲基化训练片段的所述计数生成一低甲基化分数及一过甲基化分数;对于每个训练片段,基于所述训练片段中所述数个CpG位点的所述低甲基化分数生成一个总计低甲基化分数,并基于所述训练片段中所述数个CpG位点的所述高甲基化分数生成一个总计过甲基化分数;对于每个训练对象:基于所述总计低甲基化分数排名所述数个训练片段,基于所述总计过甲基化分数排名所述数个训练片段;以及基于所述数个训练片段的排名,生成一特征向量;获得未具有癌症的一个或多个训练对象的数个训练特征向量以及具有癌症的一个或多个训练对象的数个训练特征向量;以及使用未具有癌症的一个或多个训练对象的数个特征向量以及具有癌症的一个或多个训练对象的数个特征向量来训练所述模型。在一些实施例中,所述模型包括一核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络以及一自动编码器模型中的一者。在一些实施例中,所述方法进一步包括步骤:基于所述模型,获得所述检测样本的一癌症机率;以及将所述癌症机率与一阈值机率比较,以判定所述检测样本是否来自具有癌症或未具有癌症的一对象。在一些实施例中,所述方法进一步包括步骤:基于所述模型,获得所述检测样本的一癌症类型机率;以及将所述癌症类型机率与一阈值机率比较,以判定所述检测样本是否来自具有癌症类型或其他癌症类型或未具有癌症的一对象。在一些实施例中,所述方法进一步包括:向所述对象施加一抗癌剂。

本文还提供一种用于治疗一癌症患者的方法,所述方法包括:

通过上述提供的一方法,向被辨识为一癌症患者的一对象施加一抗癌剂。在一些实施例中,所述抗癌剂是一化学治疗剂,所述化学治疗剂选自由烷化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(taxans)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质激素、激酶抑制剂、核苷酸类似物以及铂类制剂所组成的群组。

本文还提供多种用于治疗一癌症患者的方法,所述方法包括:通过上述提供的一方法,向被辨识为一癌症患者的一对象施加一抗癌剂。在一些实施例中,所述抗癌剂是一化学治疗剂,所述化学治疗剂选自由烷化剂(alkylating agents)、抗代谢物(antimetabolites)、蒽环类(anthracyclines)、抗肿瘤抗生素、细胞骨架破坏剂(taxans)、拓扑异构酶抑制剂(topoisomerase inhibitors)、有丝分裂抑制剂、皮质激素、激酶抑制剂、核苷酸类似物以及铂类制剂所组成的群组。

本文还提供多种用于评估一对象是否具有一癌症的方法,所述方法包括:获得来自所述对象的cfDNA;通过杂合捕捉,分离来自所述对象的所述cfDNA的一部分;获得衍生自所述被捕捉的cfDNA的数个序列读数以判定数个cfDNA片段的数个甲基化状态;将一分类器应用到所述数个序列读数;以及基于所述分类器的应用,判定所述对象是否具有癌症;其中所述分类器在所述接收器操作者特征曲线下的一面积为至少0.80。在一些实施例中,所述方法进一步包括:判定一癌症类型,其中所述方法对头颈癌的敏感度是至少79%或至少84%;其中所述方法对肝癌的敏感度是至少82%或至少85%;其中所述方法对上消化道癌的敏感度是至少62%或至少68%;其中所述方法对胰腺癌或胆囊癌的敏感度是至少62%或至少68%;其中所述方法对结肠直肠癌的敏感度是至少60%或至少65%;其中所述方法对卵巢癌的敏感度是至少75%或至少80%;其中所述方法对肺癌的敏感度是至少60%或至少65%;其中所述方法对多发性骨髓瘤的敏感度是至少68%或至少75%;其中所述方法对淋巴瘤的敏感度是至少65%或至少70%;其中所述方法对肛门直肠癌的敏感度是至少60%或至少65%;以及其中所述方法对膀胱癌的敏感度是至少40%或至少44%。在一些实施例中,所述数个目标基因组区域的总尺寸是少于4MB、少于2MB、少于1MB、少于0.7MB或少于0.4MB。在一些实施例中,所述方法进一步包括:在通过杂合捕捉从所述对象分离的所述cfDNA的所述部分之前,将所述cfDNA中的未甲基化胞嘧啶转化为尿嘧啶。在一些实施例中,所述方法进一步包括:在通过杂合捕捉从所述对象分离的所述cfDNA的所述部分之前,将所述cfDNA中的未甲基化胞嘧啶转化为尿嘧啶。在些实施例中,所述分类器是一二元分类器。在一些实施例中,所述分类器是一混合模型分类器。在一些实施例中,通过杂合捕捉从所述对象分离的所述cfDNA的一部分包括:将所述游离DNA与一诱饵组接触,所述诱饵组包括数个不同的含寡核苷酸探针。在一些实施例中,所述诱饵组是本文提供的一诱饵组。

本文还提供多种方法,所述多种方法包括步骤:获得一组经修改的检测片段的序列读数,其中所述经修改的数个检测片段是或已经通过处理一组来自一测试对象的核酸片段而获得的,其中所述数个核酸片段中的各者对应于或衍生自选自列表1至16中任一者的数个基因组区域;以及将所述一组序列读数或基于所述一组序列读数获得的一检测特征应用到通过一训练过程而获得的一模型,所述训练过程具有来自具有一第一癌症类型的多个训练对象的一第一组片段及来自具有一第二癌症类型的多个训练对象的一第二组片段,其中所述第一组片段及所述第二组片段包括数个训练的片段。

在一些实施例中,所述模型包括一核逻辑回归分类器、一随机森林分类器、一混合模型、一卷积神经网络以及一自动编码器模型中的一者。在一些实施例中,通过使用本文提供的一化验检测组合获得所述一组序列读数。

通过引用被并入

在本说明书中提及的所有出版物、专利及专利申请通过引用被并入本文中,其程度如同每个个别的出版物、专利或专利申请被特定地且个别地指示通过引用被并入本文中。

附图说明

本揭示的新颖特征在随附的权利要求中包括细节地被提出。对这些特征及本揭示的优点的更好的理解将通过参考提出数个例示性实施例的,以下的详细描述而获得,在所述数个实施例中应用了本揭示的原理,并随附所述数个实施例的附图:

图1A绘示根据一实施例的一个2×铺排的探针设计,有三个探针针对一小目标区域,而在一目标区域(被框在虚线矩形中)中的每个碱基由至少两个探针覆盖。

图1B绘示根据一实施例的一个2×铺排的探针设计,有多于三个探针针对一较大的目标区域,而在一目标区域(被框在虚线矩形中)中的每个碱基由至少两个探针覆盖。

图1C绘示根据一实施例的,针对在数个基因组区域中的数个低甲基化及/或过甲基化片段的探针设计。

图2绘示根据一实施例的,产生一癌症化验检测组合的一程序。

图3A是一流程图,描述根据一实施例的,为一控制组创造一数据结构的一程序。

图3B是一流程图,描述根据一实施例的,为图3A的所述控制组验证所述数据结构的一额外步骤。

图4是一流程图,描述根据一实施例的,用于选择数个基因组区域的一程序,所述数个基因组区域用于设计用于一癌症化验检测组合的数个探针。

图5是根据一实施例的,一示例性p值分数计算的一绘示。

图6A是一流程图,描述根据一实施例的,基于指示一癌症的数个低甲基化及过甲基化片段训练一分类器的一程序。

图6B是一流程图,描述根据一实施例的,通过机率模型判定指示癌症的数个片段的一程序。

图7A是一流程图,描述根据一实施例的,定序细胞游离(cf)DNA的一片段的一程序。

图7B是根据一实施例的,定序细胞游离(cf)DNA的一片段以获得一甲基化状态向量的,7A的程序的一绘示。

图8绘示亚硫酸氢盐转化的程度(上图)及癌症不同阶段的平均覆盖/定序深度(下图)。

图9绘示癌症不同阶段的每个样本的cfDNA的浓度。

图10是根据数个DNA片段及数个探针之间重叠的大小结合到数个探针的数个DNA片段数量的一图表。

图11A概述列表1(黑色)及随机选择的基因组区域(灰色)的数个目标基因组区域的基因组注释的频率。图11B概述列表2(黑色)及随机选择的数个基因组区域(灰色)的数个目标基因组区域的基因组注释的频率。图11C概述列表3(黑色)及随机选择的数个基因组区域(灰色)的数个目标基因组区域的基因组注释的频率。

图12A绘示根据一个实施例的用于核酸样本定序的装置的一流程图。图12B绘示根据一个实施例的分析cfDNA甲基化状态的一分析系统。

图13是一阴影矩阵(shaded matrix),该阴影矩阵表示选择用于从一对比TOO(y轴)区分每个目标TOO(x轴)的数个基因组区域的数量。

图14使用cfDNA及WBC gDNA验证所选基因组区域的数据。提供正确分类每个TOO(x轴)的部分(y轴)。

图15A描绘一接收者操作者曲线(ROC),该曲线显示使用列表4的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图15B是一个混淆矩阵(confusion matrix),该矩阵描述了使用列表4的目标基因组区域的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图16A描绘一接收者操作者曲线(ROC),该曲线显示使用列表5的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图16B绘示使用列表5的数个基因组区域生成的一分类器的实际癌症类型与预测的癌症类型。

图17A描绘一接收者操作者曲线(ROC),该曲线显示使用列表6的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图17B绘示使用列表6的数个基因组区域生成的一分类器的实际癌症类型与预测的癌症类型。

图18A描绘一接收者操作者曲线(ROC),该曲线显示使用列表7的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图18B是一个混淆矩阵,该矩阵描述了使用列表7的甲基化数据判定数个对象的癌症类型分类的准确性。

图19A描绘一接收者操作者曲线(ROC),该曲线显示使用列表8的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图19B是一个混淆矩阵,该矩阵描述了使用列表8的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图20A描绘一接收者操作者曲线(ROC),该曲线显示使用列表9的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图20B是一个混淆矩阵,该矩阵描述了使用列表9的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图21A描绘一接收者操作者曲线(ROC),该曲线显示使用列表10的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图21B是一个混淆矩阵,该矩阵描述了使用列表10的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图22A描绘一接收者操作者曲线(ROC),该曲线显示使用列表11的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图22B是一个混淆矩阵,该矩阵描述了使用列表11的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图23A描绘一接收者操作者曲线(ROC),该曲线显示使用列表12的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图23B是一个混淆矩阵,该矩阵描述了使用列表12的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图24A描绘一接收者操作者曲线(ROC),该曲线显示使用列表13的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图24B是一个混淆矩阵,该矩阵描述了使用列表13的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图25A描绘一接收者操作者曲线(ROC),该曲线显示使用列表14的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图25B是一个混淆矩阵,该矩阵描述了使用列表14的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图26A描绘一接收者操作者曲线(ROC),该曲线显示使用列表15的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图26B是一个混淆矩阵,该矩阵描述了使用列表15的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图27A描绘一接收者操作者曲线(ROC),该曲线显示使用列表16的目标基因组区域的甲基化数据侦测癌症的敏感度及特异度。图27B是一个混淆矩阵,该矩阵描述了使用列表16的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图28A描绘一接收者操作者曲线(ROC),该曲线显示使用列表12的目标基因组区域的10%的一随机选择的子集的甲基化数据侦测癌症的敏感度及特异度。图28B是一个混淆矩阵,该矩阵描述了使用列表12的目标基因组区域的10%的一随机选择的子集的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图29A描绘一接收者操作者曲线(ROC),该曲线显示使用列表12的目标基因组区域的25%的一随机选择的子集的甲基化数据侦测癌症的敏感度及特异度。图29B是一个混淆矩阵,该矩阵描述了使用列表12的目标基因组区域的25%的一随机选择的子集的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

图30A描绘一接收者操作者曲线(ROC),该曲线显示使用选自列表4的目标基因组区域的50%的一随机选择的子集的甲基化数据侦测癌症的敏感度及特异度。图30B是一个混淆矩阵,该矩阵描述了使用选自列表4的目标基因组区域的50%的一随机选择的子集的甲基化数据判定具有癌症的数个对象的癌症类型分类的准确性。

具体实施方式

定义:

除非另外界定,在本文中使用的所有技术及科学术语,具有本描述所属的技艺的技术人员所通常了解的意义。如本文中所使用的,下列的词汇具有在下文中归于它们的意义。

如本文中所使用的,对“一个实施例”或“一实施例”的任何指称意指与所述实施例相关联地被描述的一个特定的实施例、特征、结构、或者特性,是被包括在至少一个实施例中。“在一实施例中”一词在说明书中各处的出现并不必然皆指称相同的实施例,从而提供一个框架,供数个被描述的实施例的各种可能性共同运作。

如本文中所使用地,“包括(comprises)”、“包括(comprising)”、“包括(includes)”、“包括(including)”、“具有(has)”、“具有(having)”或其任何其它变化,是意在涵盖一非排除性的含括。举例而言,包括一系列的元素的一个程序、方法、物品或设备不必然仅限于这些元素,而是可以包括不被明确地列出或固有于这样的程序、方法、物品或设备的其它元素。进一步地,除非明确地做出相反的宣言,“或”意指一涵括性的或(inclusiveor)而非一排除性的或(exclusive or)。举例而言,一情况A或B由下列的任一者所满足:A为真(或存在)且B为假(或不存在)、A为假(或不存在)且B为真(或存在)、以及A与B两者皆为真(或存在)。

此外,“一(a)”或“一(an)”的使用是被应用以描述本文中的数个实施例的元素及组件。这仅是为了便利且为了给出本描述的一般意义。此描述应被阅读为包括一个或至少一个,且单数也包括多数,除非明显另有涵义。

如本文中所使用的,范围及用量可以被表示为“约”为一特定数值或范围。约也包括该精确用量。因此“约5微克”意指“约5微克”及也意指“5微克”。一般地,“约”一词包括被预期在实验误差之内的一用量。在一些实施例中,“约”意指被标示的数字或数值,所述数字或数值“+”或“-”20%、10%或5%。此外,在本文中被引用的范围是被理解为在所述范围内的所有数值的速记,含括被引用的端点。举例而言,1至50的一范围被理解为包括来自由1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49及50组成的群组的任何数字、数个数字的组合或子范围。

“甲基化”一词,如本文中使用地,意指一甲基被添加到一DNA分子的过程。举例而言,在一胞嘧啶碱基的嘧啶环上的氢原子可以转化为甲基,形成5-甲基胞嘧啶。该术语还指将羟甲基添加到一DNA分子的过程,例如通过胞嘧啶碱基的嘧啶环上的甲基的氧化。甲基化和羟甲基化倾向于发生在本文中称为“CpG位点”的胞嘧啶和鸟嘌呤的二核苷酸处。

“甲基化”一词也可以意指一CpG位点的甲基化状态。具有一5-甲基胞嘧啶的一CpG位点是甲基化的。在胞嘧啶碱基的嘧啶环上具有一氢原子的一CpG位点是未甲基化的。

还应涵盖一位点的甲基化状态,即甲基的存在或不存在。其中甲基的存在是一甲基化位点/甲基的缺失是一未甲基化位点或非甲基化位点。

在这样的数个实施例中,如在本领域中为人熟知的,用以侦测甲基化的湿式实验室化验可能与本文中所描述者不同。

“甲基化位点”一词,如本文中使用的,意指一DNA分子的一区域,一甲基可以被添加到所述区域。“CpG”位点是最常见的甲基化位点,但甲基化位点不限于CpG位点。举例而言,DNA甲基化可以发生在CHG及CHH中的胞嘧啶,其中H是腺嘌呤、胞嘧啶或胸腺嘧啶。使用本文中揭示的方法及程序,5-羟基甲基胞嘧啶形式的胞嘧啶甲基化及其特征也可以被评估(参见,例如,通过引用被并入本文中的WO 2010/037001及WO 2011/127136)。

“CpG位点”一词在本文中用以意指一DNA分子的一区域,在所述区域中,在数个碱基的线状序列中沿着所述序列的5’到3’方向,一胞嘧啶核苷酸后跟着一鸟嘌呤。“CpG”是5’-C-磷酸-G-3’的速记,5’-C-磷酸-G-3’是仅由一个磷酸基团分隔的胞嘧啶及鸟嘌呤。在CpG二核苷酸中的胞嘧啶可以被甲基化以形成5-甲基胞嘧啶。

“CpG侦测位点”一词如本文中使用的,意指在一探针中的一区域,所述区域配置以杂合到一目标DNA分子的一CpG位点。在所述目标DNA分子上的所述CpG位点可以包括由一个磷酸基分隔的胞嘧啶及鸟嘌呤,其中胞嘧啶是甲基化的或未甲基化的。在所述目标DNA分子上的所述CpG位点可以包括由一个磷酸基分隔的脲嘧啶及鸟嘌呤,其中所述脲嘧啶是通过未甲基化的胞嘧啶的转化而被产生。

“UpG”一词是5’-U-磷酸-G-3′的速记,5’-U-磷酸-G-3’是仅由一个磷酸基团分隔的脲嘧啶及鸟嘌呤。UpG可以由一DNA的一亚硫酸氢盐处理产生,所述亚硫酸氢盐处理将未甲基化的胞嘧啶转换为脲嘧啶。胞嘧啶可以由本领域中已知的其它方法被转换为脲嘧啶,比如化学修饰、合成或酵素转换。

“低甲基化”或“过甲基化”等词汇,如本文中所使用的,意指含有多个(例如,多于3、4、5、6、7、8、9、10个等)CpG位点的一DNA分子的一甲基化状态,其中高比例(例如,多于80%、85%、90%或95%或在50%至100%的范围内的任何其它百分率)的CpG位点分别是未甲基化的或甲基化的。

“甲基化状态向量(methylation state vector)”或“甲基化状态向量(methylation states vector)”等词汇如本文中使用地,意指包括多个元素的一向量,其中每个元素,以甲基化位点在一DNA分子中自5’至3’出现的顺序,指示在包括多个甲基化位点的一DNA分子中的一个甲基化位点的甲基化状态。举例而言,<Mx,Mx+1,Mx+2>、<Mx,Mx+1,Ux+2>、...、<Ux,Ux+1,Ux+2>可以是包括三个甲基化位点的DNA分子的数个甲基化向量,其中M代表一经甲基化的甲基化位点,且U代表一未经甲基化的甲基化位点。

“异常甲基化模式”或“异常的甲基化模式”等词汇如本文中使用地,意指一DNA分子的甲基化模式或一甲基化状态向量,所述甲基化模式或甲基化状态向量被预期比在一非癌症或健康样本中的一阀值更不频繁地在一样本中被找到。在本文中提供的一个实施例中,在包括数个健康个体的一健康控制组中找到一特定甲基化状态向量的预期性(expectedness)是由p值代表。一低p值分数一般对应于在来自健康个体的样本中,相较于其它甲基化状态向量而言较不被预期的一甲基化状态向量。一高p值分数一般对应于在来自健康控制组中的健康个体的样本中,比起其它甲基化状态向量而言较被预期的一甲基化状态向量。具有低于一阀值(例如,0.1、0.01、0.001、0.0001等)的一甲基化状态向量可以被界定为一异常(abnormal)/异常(anomalous)的甲基化模式。各种本领域中已知的方法可以被用于计算一甲基化模式或一甲基化状态向量的一p值或预期性。本文中提供的示例性方法涉及使用一马可夫链机率,所述机率假定CpG位点的甲基化状态依赖邻近的CpG位点的甲基化状态。本文中提供的替代的方法,通过应用包括多个混合成分的一个混合模型,计算在健康个体中观察到一特定甲基化状态向量的预期值,每个成分是一独立位点模型,在其中每个CpG位点处的甲基化被假定为独立于在其它CpG位点处的甲基化状态。

“癌症样本(cancerous sample)”一词如本文中使用地,意指一样本,所述样本包括来自被诊断具有一癌症的一个体的基因组DNA。所述基因组DNA可以是,但不限于,来自具有一癌症的一对象的cfDNA片段或染色体DNA。所述基因组DNA可以被定序且其甲基化状态可以通过本领域中已知的方法,亚硫酸氢盐定序,被评估。当基因组序列是获得自公共数据库(例如,癌症基因组图谱(TCGA))或是通过定序被诊断有一癌症的个体的一基因组而被实验性地获得,癌症样本可以意指具有所述基因组序列的基因组DNA或cfDNA片段。“数个癌症样本”一词作为一复数,如本文中使用地,意指数个样本,包括来自多个个体的基因组DNA,每个个体被诊断为具有一癌症症。在各种实施例中,使用了来自多于100、300、500、1000、2000、5000、10000、20000、40000、50000或更多被诊断为有癌症的个体的数个癌症样本。

“非癌症样本”一词如本文中使用地,意指一样本,所述样本包括来自不被诊断为具有一癌症的一个体的基因组DNA。所述基因组DNA可以是,但不限于,来自没有一癌症的一对象的cfDNA片段或染色体DNA。所述基因组DNA可以被定序且其甲基化状态可以通过本领域中已知的方法,比如亚硫酸氢盐定序,被评估。当基因组序列是获得自公共数据库(例如,癌症基因组图谱(TCGA))或是通过定序没有一癌症的个体的一基因组而被实验性地获得,非癌症样本可以意指具有所述基因组序列的基因组DNA或cfDNA片段。“数个非癌症样本”一词作为一复数,意指数个样本,包括来自多个个体的基因组DNA,每个个体被诊断为不具有癌症。在各种实施例中,使用了来自多于100、300、500、1000、2000、5000、10000、20000、40000、50000或更多被诊断为没有癌症的个体的健康样本。

“训练样本”一词,如本文中使用地,意指一样本,所述样本用于训练在本文中描述的一分类器及/或选择一个或多个基因组区域供癌症检测或检测一来源癌症组织或癌症细胞类型。所述训练样本可以包括来自一个或多个健康对象或来自一个或多个具有一疾病状况(例如:癌症、一特定类型的癌症、一特定阶段的癌症等)的对象的基因组DNA或其修改。所述基因组DNA可以是,但不限于数个cfDNA片段或染色体DNA。所述基因组DNA可以被定序且其甲基化状态可以通过本领域中已知的方法,比如亚硫酸氢盐定序,被评估。当基因组序列是获得自公共数据库(例如,癌症基因组图谱(The Cancer Genome Atlas,TCGA))或是通过定序一个体的一基因组而被实验性地获得,一训练样本可以意指具有所述基因组序列的基因组DNA或cfDNA片段。

“检测样本”一词,如本文中使用地,意指来自一对象的一样本,所述对象的健康状况已经或者将使用本文中描述的一分类器及/或一化验检测组合被检测。所述检测样本可以包括基因组DNA或其修改。所述基因组DNA可以是,但不限于数个cfDNA片段或染色体DNA。

“目标基因组区域”一词,如本文中所使用地,意指在检测样本中被选择供分析的,在一基因组中的一区域。一化验检测组合是被产生为具有数个探针,所述数个探针被设计以杂合至(且可选地拉下)衍生自所述目标基因组区域或所述目标基因组区域的一片段的数个核酸片段。衍生自所述目标基因组区域的一核酸片段意指通过来自所述目标基因组区域的DNA的降解、切割、亚硫酸氢盐转换或其它处理产生的一核酸片段。

各种目标基因组区域根据它们在与本文一同提交的序列表中的染色体位置被描述。染色体DNA是双股的,因此一目标基因组区域包括两个DNA股:一股具有在所述列表中被提供的序列,及一第二股,所述第二股是列表中的所述序列的一相反互补股。探针可以被设计以杂合至一个或两个序列。可选地,探针杂合至经转换的序列,所述经转换的序列是来自举例而言,以亚硫酸氢钠处理。

“脱靶基因组区域”一词如本文中所使用地,意指一基因组中的一区域,所述区域在检测样本中未被选择用于分析,但与一目标基因组区域具有足够的同源性,而潜在地被设计以针对所述目标基因组区域的一探针连结并拉下。在一实施例中,一个脱靶基因组区域是一基因组区域,所述基因组区域与一探针沿着至少45碱基对齐,具有至少90%的符合率。

“经转换的cfDNA分子”、“经转换的cfDNA分子”及“获得自所述cfDNA分子的处理的经修改片段”意指为分辨DNA或cfDNA分子中的甲基化核苷酸及未甲基化核苷酸,而通过处理一样本中的DNA或cfDNA分子获得的DNA分子。举例而言,在一实施例中,所述样本可如本领域中为人熟知地,被以亚硫酸氢盐离子(例如,使用亚硫酸氢钠)处理,以将未甲基化的胞嘧啶(“C”)转换为脲嘧啶(“U”)。在另一实施例中,未甲基化的胞嘧啶至脲嘧啶的转换是使用一酵素转换反应而被完成,举例而言,使用一胞苷脱氨酶(cytidine deaminase,比如APOBEC)。在处理后,被转换的DNA分子或cfDNA分子包括在原始cfDNA样本中不存在的额外脲嘧啶。包括一脲嘧啶的一DNA链通过DNA聚合酶的复制,导致腺嘌呤添加到新的互补股,而非正常作为胞嘧啶或甲基胞嘧啶的互补的鸟嘌呤。

“细胞游离核酸”、“细胞游离DNA”或“cfDNA”等词汇意指在一个体的身体(例如,血流)内循环且源自一个或多个健康细胞及/或源自一个或多个癌症细胞的核酸片段。此外,cfDNA可以来自其他来源比如病毒、胎儿等。

“循环肿瘤DNA”或“ctDNA”等词汇意指源自肿瘤细胞的核酸片段,所述核酸片段可能作为生物过程,比如濒死细胞的细胞凋亡或坏死的结果,或由存活的肿瘤细胞主动地,被释放到个体的血流中。

“片段”一词如本文中使用地,可以意指一核酸分子的一片段。举例而言,在一实施例中,一片段可以意指在一血液或血浆样本中的一cfDNA分子,或被自一血液或血浆样本提取的一cfDNA分子。一cfDNA分子的一放大产物也可以被称为一“片段”。在另一实施例中,“片段”一词如本文中描述的,意指一序列读数,或一组序列读数,已为(例如,在基于机器学习的分类中)后续分析而被处理。举例而言,如本领域中为人所熟知的,原始序列读数可以被对齐到一参考基因组且经吻合配对的末端序列读数被组装为一更长的片段,供后续分析。

“个体”一词意指一人类个体。“健康个体”一词意指被假定不具有一癌症或疾病的一个体。

“对象”一词意指一个体,所述个体的DNA被分析。一对象可以是一检测对象,所述检测对象的DNA使用如本文中所描述的一靶向检测组合被评估,以评估该人员是否具有一癌症或其它疾病。一对象也可以是一控制组的一员,已知不具有一癌症或其它疾病。一对象也可以是一癌症或其它疾病组的一员,已知有一癌症或其它疾病。控制组及癌症/疾病组可以被使用以辅助设计或验证所述靶向检测组合。

“序列读数”一词如本文中所使用地,意指来自一样本的核苷酸序列读数。序列读数可以经由本文中提供的或本领域中已知的各种方法被获得。

“定序深度”一词如本文中所使用的,意指在一样本中的一给定目标核酸被定序的次数的计数(例如,在一给定目标区域处的序列读数的计数)。增加定序深度可以减少评估一疾病状态(例如,癌症或癌症来源组织的状态)所需的核酸的用量。

“来源组织”或“TOO”等词汇,如本文中所使用的,意指一癌症自其出现或发源的器官、器官组、身体区域或细胞类型。一来源组织或癌症细胞类型的辨识典型地允许辨识在癌症的持续照护(care continuum)中的最适当的下一步,以进一步诊断、分期及决定治疗。

“过渡”一般地意指碱基组成自一嘌呤改变至另一嘌呤,或自一嘧啶改变至另一嘧啶。举例而言,下列的改变是过渡:C→U、U→C、G→A、A→G、C→T及T→C。

一检测组合或诱饵组的“探针的一整体”或一检测组合或诱饵组的“含有聚核苷酸的(polynucleotide-containing)探针的一整体”一般地意指随一特定检测组合或诱饵组被递送的所有探针。例如,在一些实施例中,一检测组合或诱饵组可以包括(1)具有本文中指定的特征的数个探针(例如,用于连结到细胞游离DNA片段的数个探针,所述细胞游离DNA片段对应于或衍生自于本文中在一个或多个列表中被提出的基因组区域)及(2)并不含有这样的(数个)特征的额外探针。一检测组合的所述探针整体一般地意指随所述检测组合或诱饵组被递送的所有探针,包括并未含有(数个)指定的特征的探针。

癌症化验检测组合:

在一第一面向中,本描述提供一癌症化验检测组合,所述癌症化验检测组合包括数个探针或数个探针对。在本文中被描述的所述数个化验检测组合可以替代地被称为数个诱饵组,或被称为包括数个诱饵寡核苷酸的数个组合物。所述数个探针可以是数个含有聚核苷酸的探针,被特定地设计以针对一个或多个基因组区域,一个或多个基因组区域在癌症样本及非癌症样本之间、在不同的癌症来源组织(TOO)类型之间、在不同的癌症细胞类型之间、在癌症的不同阶段的样本之间被差异地甲基化,如通过本文提供的方法所辨识。在一些实施例中,受制于尺寸预算(size budget)(由定序预算及希望的定序深度决定),所述数个目标基因组区域(或衍生自所述数个目标基因组区域的核酸)被选择以最大化分类准确度。

为了设计癌症化验检测组合,分析系统可以收集与考虑中的各种结果相对应的样本,例如,已知具有癌症的样本、被认为健康的样本、来自已知来源组织的样本等。用于选择目标基因组区域的cfDNA及/或ctDNA的来源可能因分析目的而异。例如,对于旨在侦测一般癌症、特定类型癌症、癌症阶段或来源组织的分析,可能需要不同的来源。这些样本可通过全基因组亚硫酸氢盐定序(WGBS)或从公共数据库(如TCGA)获得。分析系统可以是具有一计算机处理器的任何通用计算系统及一计算机可读存储介质,该计算机可读存储介质具有用于执行计算机处理器以执行本申请中描述的任何或所有操作指令。

然后,分析系统可以基于核酸片段的甲基化模式选择目标基因组区域。一种方法考虑了区域(或更具体地是区域内的CpG位点)数对结果之间的成对可可分辨度。另一种方法是在考虑每个结果与剩余结果时,考虑区域(或更具体地是区域内的CpG位点)的可分辨度。从具有高区分能力的选定目标基因组区域,分析系统可设计数个探针以针对来自选定基因组区域的目标片段。分析系统可以生成不同大小的癌症化验检测组合,例如,小尺寸的癌症化验检测组合包括靶向信息量最大的基因组区域的探针,中型癌症化验检测组合包括来自小型癌症化验检测组合的探针及靶向第二层信息基因组区域的附加探针,大型癌症化验检测组合包括来自小型和中型癌症化验检测组合的探针,以及更多靶向第三层信息基因组区域的探针。利用从此类癌症化验检测组合获得的数据(例如,来自癌症化验检测组合的核酸的甲基化状态),分析系统可使用各种分类技术训练分类器,以预测一样本具有特定结果或状态的可能性,例如:癌症、特定癌症类型、其他症状,其他疾病等。

图2中通常描述了用于设计癌症化验检测组合的示例性方法。例如,为了设计一癌症化验检测组合,一分析系统可以收集数个核酸片段的数个CpG位点的甲基化状态的信息,所述数个核酸片段来自对应于考虑中的各种结果的数个样本,例如,已知具有癌症的样本、被认为健康的样本、来自已知来源组织的样本等。这些样本可以被处理(例如,以全基因组亚硫酸氢盐定序(WGBS)处理)以判定数个CpG位点的甲基化状态,或者所述信息可以获得自TCGA。所述分析系统可以是具有一计算机处理器及一计算机可读存储介质的任何通用计算系统,所述计算机可读存储介质具有数个指令,用于执行所述计算机处理器以执行在本揭示中描述的任何或所有操作。

所述分析系统可以接着基于数个核酸片段的甲基化模式选择目标基因组区域。一种方式考虑数个区域(或更特定地,数个CpG位点)的数对结果之间的成对可分辨度。另一种方法是在考虑每个结果与剩余结果时,考虑区域(或更具体地,数个CpG位点)的可分辨度。从具有高可分辨度的选定目标基因组区域,分析系统可设计数个探针以靶向来自选定基因组区域的片段。分析系统可以生成不同大小的癌症化验检测组合,例如,一个小尺寸的癌症化验检测组合包括靶向信息量最大的基因组区域的探针,一个中型癌症化验检测组合包括来自小型癌症化验检测组合的探针及靶向第二层信息基因组区域的附加探针,大型癌症化验检测组合包括来自小型和中型癌症化验检测组合的探针,以及更多靶向第三层信息基因组区域的探针。利用从此类癌症化验检测组合获得的数据,分析系统可使用各种分类技术训练分类器,以预测一样本具有特定结果或状态的可能性,例如:癌症、特定癌症类型、其他症状,其他疾病等。

在一些实施例中,所述癌症化验检测组合包括至少500对探针,其中所述至少500对中的每一对包括两个探针,所述两个探针配置以通过一重叠序列彼此重叠,其中所述重叠序列包括至少30个核苷酸,及其中每个探针是配置以杂合至一(可选地经转换的)DNA分子(例如,一cffDNA分子)的相同链,所述DNA分子对应于一个或多个基因组区域。在一些实施例中,所述数个基因组区域中的各者包括至少五个甲基化位点,及其中所述至少五个甲基化位点在癌症样本中具有一异常的甲基化模式,或在不同的TOO的样本之间具有不同的甲基化状态。举例而言,在一实施例中,所述至少五个甲基化位点在癌症及非癌症样本之间、或在来自不同的来源组织的癌症的一对或数对样本之间,是被差异地甲基化的。在一些实施例中,每对探针包括一第一探针及一第二探针,其中所述第二探针不同于所述第一探针。所述第二探针可以与所述第二探针通过一重叠序列重叠,所述重叠序列的长度为至少30个、至少40个、至少50个或至少60个核苷酸。

所述数个目标基因组区域可以被选自于列表1至16(表1)中的任一者。在一些实施例中,所述癌症化验检测组合包括数个探针,其中所述数个探针中的各者是配置以杂合至一经转换的cfDNA分子,所述经转换的cfDNA分子对应于列表1至16的任一者中的一个或多个基因组区域。在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至16中任一者的数个目标基因组区域中的至少20%。在一些实施例中,所述数个不同的诱饵寡核苷酸是配置以杂合至数个DNA分子,所述数个DNA分子是衍生自列表1至16中的任一者的所述数个目标基因组区域中的至少30%、40%、50%、60%、70%或80%。

所述数个目标基因组区域可以选自列表1。所述数个目标基因组区域可以选自列表2。所述数个目标基因组区域可以选自列表3。所述数个目标基因组区域可以选自列表4。所述数个目标基因组区域可以选自列表5。所述数个目标基因组区域可以选自列表6。所述数个目标基因组区域可以选自列表7。所述数个目标基因组区域可以选自列表8。所述数个目标基因组区域可以选自列表9。所述数个目标基因组区域可以选自列表10。所述数个目标基因组区域可以选自列表11。所述数个目标基因组区域可以选自列表22。所述数个目标基因组区域可以选自列表13。所述数个目标基因组区域可以选自列表14。所述数个目标基因组区域可以选自列表15。所述数个目标基因组区域可以选自列表16。

因为所述数个探针是配置以杂合至对应于或衍生自一个或多个基因组区域的,一经转换的DNA或cfDNA分子,所述数个探针可以具有不同于所述目标基因组区域的一序列。举例而言,含有一未甲基化的CpG位点的一DNA将被转换为包括UpG而非CpG,因为未甲基化的胞嘧啶通过一转换反应(例如,亚硫酸氢盐处理)被转换为脲嘧啶。因此,一探针被配置以杂合至包括UpG,而非正常存在的未甲基化CpG的一序列。因此,在所述探针中对所述未甲基化位点的一互补位点可以包括CpA而非CpG,且针对其中所有甲基化位点皆未甲基化的一低甲基化位点的一些探针可以不具有鸟嘌呤(G)碱基。在一些实施例中,至少3%、5%、10%、15%或20%的探针不具有CpG序列。

所述癌症化验检测组合可以被用于侦测癌症整体的存在或不存在及/或提供一癌症分类,比如一癌症类型、癌症的阶段,例如:第一期、第二期、第三期或第四期,或提供被认为是癌症起源处的TOO。所述检测组合可以包括数个探针,所述数个探针靶向数个基因组区域,所述数个基因组区域在普通癌(泛癌)样本及非癌症样本之间被差异地甲基化,或仅在具有一特定癌症类型(例如:肺癌特异性靶点)的癌症样本中被差异地甲基化。举例而言,在一些实施例中,一癌症化验检测组合设计用于包括基于从癌症及非癌症个体的cfDNA生成的经转换(例如:亚硫酸氢盐)定序数据的差异甲基化基因组区域。

每个探针(或探针对)可以被设计以靶向一个或数个目标基因组区域。所述数个目标基因组区域是基于数个标准(criteria)被选择,所述数个标准是设计以增加能提供信息的核酸片段的选择性富集、同时减少噪声及非特异性结合。

在一实施例中,一检测组合可以包括数个探针,所述数个探针可以选择性地结合到且富集在癌症样本中被差异地甲基化的数个cfDNA片段。在此案例中,数个经富集片段的定序可以提供与癌症的侦测相关的信息。进一步地,在一些实施例中,所述数个探针(或其部分)是设计以靶向在癌症样本中,或在来自一特定癌症类型、组织类型或细胞类型中,被判定具有一异常甲基化模式的数个目标基因组区域。在一实施例中,数个探针是设计以靶向在特定癌症或癌症类型中,被判定为过甲基化或低甲基化的数个基因组区域,以提供侦测的额外的选择性及特异性。在一些实施例中,一检测组合包括靶向数个低甲基化片段的数个探针。在一些实施例中,一检测组合包括靶向数个过甲基化片段的数个探针。在一些实施例中,一检测组合包括针对数个过甲基化片段的第一组的数个探针,以及针对数个低甲基化片段的第二组的数个探针。在一些实施例中,一癌症化验检测组合不仅包括设计用于靶向具有一第一甲基化状态(例如,低甲基化)的区域的探针,还包括设计用于与具有相反甲基化状态(例如,过甲基化)的相同目标区域杂合的数个探针。将数个探针靶向同一区域的低甲基化及过甲基化片段可称为“二元”靶向(参见序列表中的信息)(图1C)。在一些实施例中,所述靶向数个过甲基化片段的第一组的数个探针及所述靶向数个低甲基化片段的第二组的数个探针之间的比率(过甲基化:低甲基化比率)在0.4及2之间、在0.5及1.8之间、在0.5及1.6之间、在0.5及1.0之间、在1.4及1.6之间、在1.2及1.4之间、在1及1.2之间、在0.8及1之间、在0.6及0.8之间或在0.4及0.6之间。在癌症及非癌症样本之间、在不同的癌症来源组织(TOO)类型之间、在不同的癌症细胞类型之间、或在不同阶段的癌症的样本之间辨识数个基因组区域(亦即,产生被差异地甲基化的DNA分子(或异常地甲基化的DNA分子)的基因组区域)的方法在本文中被详细提供,以及辨识被识别为指示癌症的数个异常地甲基化的DNA分子或片段的方法在本中也被详细地提供。

在一第二示例中,当所述数个基因组区域在癌症样本或具有已知的癌症来源组织(TOO)类型的样本中产生异常地甲基化的DNA分子时,可以选择数个基因组区域。举例而言,如本文中所描述的,在一组非癌症样本上训练的一马可夫模型可以被用于辨识产生异常甲基化的DNA分子(亦即,具有低于一p值阀值的一甲基化模式的DNA分子)的数个基因组区域。

所述数个探针中的各者可以靶向一基因组区域,所述基因组区域包括至少30bp(碱基对)、35bp、40bp、45bp、50bp、60bp、70bp、80bp、90bp、100bp或更多。在一些实施例中,所述数个基因组区域可以被选择以具有少于30个、25个、20个、15个、12个、10个、8个或6个甲基化位点。

在一些例子中,当在所述区域中的所述至少五个甲基化(例如,CpG)位点的至少80、85、90、92、95或98%是在非癌症或癌症样本中或来自一癌症来源组织(TOO)的癌症样本)中被甲基化或未甲基化时,可选择所述数个基因组区域。

数个基因组区域可以基于它们的甲基化模式被进一步过滤,以便仅选择可能提供信息的数个基因组区域,举例而言,基于在癌症与非癌症样本之间被差异地甲基化(例如,在癌症中相对于非癌症被异常地甲基化或未甲基化)、在一TOO的癌症样本与不同TOO的癌症样本之间、仅在一TOO的癌症样本中被差异地甲基化的CpG位点。为了所述选择,计算可以对于每个CpG或数个CpG位点被执行。举例而言,一第一计数被决定是包括与该CpG重叠的一片段的含癌症样本的数量(癌症_计数),且一第二计数被决定是包括与该CpG位点重叠的片段的含总样本数(总和)。数个基因组区域可以基于标准被选择,所述标准与包括与该CpG位点重叠的指示癌症的一片段的含癌症样本的计数(癌症_计数)正相关,且与包括与该CpG位点重叠的指示癌症的一片段的总样本数(总数)负相关。在一实施例中,具有与一CpG位点重叠的一片段的非癌症样本的数量(n非癌症)及癌症样本的数量(n癌症)被计算。接着一样本是癌症的机率被估计,举例而言,作为(n癌症+1)/(n癌症+n非癌症+2)。这种原则同样适用于其他结果。

由此度量标准(metric)被评分的数个CpG位点被排名且被贪婪地(greedily)添加到一检测组合直到检测组合尺寸预算耗尽。选择指示癌症的数个基因组区域的程序在本文中被进一步详述。在一些实施例中,不同的数个目标区域可以依照所述化验是旨在为一个多癌症化验(pan-cancer assay)或一个单癌症化验(single-cancer assay),或者取决于在选择哪些CpG位点为该检测组合做出贡献时所需的灵活性,而被选择。用于侦测一特定癌症类型的一检测组合可以使用类似的一程序被设计。在此实施例中,对于每个癌症类型,及对于每个CpG位点,信息增益被计算以决定是否要包括针对该CpG位点的一探针。所述信息增益可以对于具有一TOO的一给定的癌症的数个样本,相较于所有其它样本而被计算。举例而言,考虑两个随机的变数“AF”及“CT”。“AF”是一个二元变数,指示在一特定样本中是否有与一特定CpG位点重叠的一异常片段(是或否)。“CT”是一个二元随机变数,指示癌症是否是一特定类型(例如,肺癌或除了肺以外的癌症)。在给定“AF”的情况下,可以计算关于“CT”的互信息(mutual information)。亦即,若知道是否有一异常片段与一特定CpG位点重叠,将获得多少位元关于所述癌症类型(例如,肺癌或除了肺以外的癌症)的信息。这可以被用于排名数个CpG,基于所述数个CpG有多么肺特定(lung-specific)。此程序对于数个癌症类型被重复。若一特定区域仅在肺癌(且不是其他癌症类型或非癌症)中被不同地甲基化,在该区域中的数个CpG将倾向于对肺癌有高信息增益。对于每个癌症类型,数个CpG位点通过此信息增益度量标准被排名,接着被贪婪地添加到一检测组合直到用于该癌症类型的尺寸预算用尽。

进一步的过滤可以被执行,以选择数个探针,所述数个探针对衍生自数个目标基因组区域的核酸的富集具有高特异度(亦即,高结合效率)。数个探针可以被过滤以减少对衍生自非目标基因组区域的核酸的非特异性结合(或脱靶结合)。举例而言,数个探针可以被过滤以仅选择那些具有少于一设定的阀值的脱靶结合事件的探针。在一实施例中,数个探针可以被对齐到一参考基因组(例如,一人类参考基因组)以选择数个探针,所述数个探针横跨所述基因组对齐到少于一设定阀值的区域。举例而言,数个探针可以被选择以横跨所述参考基因组对齐到少于25个、24个、23个、22个、21个、20个、19个、18个、17个、16个、15个、14个、13个、12个、11个、10个、9个或8个脱靶区域。在其它案例中,当所述数个目标基因组区域的序列在一基因组中出现超过5次、10次、15次、20次、21次、22次、23次、24次、25次、26次、27次、28次、29次、30次、31次、32次、33次、34次或35次时,过滤被执行以移除所述数个基因组区域。当与数个目标基因组区域90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同源的一探针序列或一组探针序列,在一参考基因组中出现少于25次、24次、23次、22次、21次、20次、19次、18次、17次、16次、15次、14次、13次、12次、11次、9次或8次时,进一步的过滤可以被执行以选择数个目标基因组区域,或当被设计以富集目标基因组区域的所述探针序列或一组探针序列与所述数个目标基因组区域90%、91%、92%、93%、94%、95%、96%、97%、98%或99%同源,在一参考基因组中出现多于5次、10次、15次、20次、21次、22次、23次、24次、25次、26次、27次、28次、29次、30次、31次、32次、33次、34次或35次时,被执行以移除所述数个目标基因组区域。这是为了排除可能拉下数个脱靶片段的重复探针,所述数个脱靶片段是不希望的且可能冲击化验效率。

在一些实施例中,至少45bp的一片段-探针重叠(fragment-probe overlap)被示范对于达成如在示例1中被提供的一不可忽略的拉下量是有效的(虽然本领域的一般技术人员会理解此数字是可变的)。在一些实施例中,所述探针及数个片段序列之间在重叠区域中多于10%的错配(mismatch)足以大幅破坏连结,且因此破坏拉下效率。因此,可以至少90%的配对率沿着至少45bp对齐到所述探针的数个序列,可以是脱靶拉下的候选者。因此,在一实施例中,这样的数个区域的数量被评分。最佳的探针具有分数1,意指它们仅配对于一处(在有意的目标区域)。具有中间的一分数(即是说,少于5或10)的数个探针可能在一些案例中是可接受的,及在一些案例中,高于一特定分数的任何探针被废弃。其它截止数值可以被用于特定的数个样本。

一旦所述数个探针杂合并捕捉对应于或衍生自一目标基因组区域的数个DNA片段,所述被杂合的探针-DNA片段中间物(probe-DNA fragment intermediates)被拉下(或分离)且所述目标DNA被放大且被定序。所述序列读数提供与癌症的侦测相关联的信息。为此目的,一检测组合是被设计以包括数个探针,所述数个探针可以捕捉可共同提供与癌症的侦测相关的信息的数个片段。在一些实施例中,一检测组合包括至少500对、1000对、2000对、2500对、5000对、6000对、7500对、10000对、15000对、20000对、25000对、30000对、35000对、40000对、50000对、60000对、70000对、或80000对探针。在其它实施例中,一检测组合包括至少1000个、2000个、5000个、10000个、12000个、15000个、20000个、30000个、40000个、50000个、100000个、200000个、250000个、300000个、400000个、500000个、550000个、600000个、700000个或800000个探针。所述数个探针总共可以包括至少0.2百万个、0.4百万个、0.6百万个、0.8百万个、1百万个、2百万个、3百万个、4百万个、5百万个、6百万个、7百万个、8百万个、9百万个、1千万个、1千2百万个、1千4百万个、1千5百万个、2千万个、或2千5百万个核苷酸。

所述数个被选择的基因组区域可以位于一基因组中的各种不同位置,包括但不限于外显子、内含子、基因间区域及其它部分。图11。在一些实施例中,针对非人类基因组区域的数个探针,比如针对病毒基因组区域的数个探针,可以被添加。

在一些情况下,引子(primers)可以被用于(例如,通过PCR)特定地放大感兴趣的数个目标/生物标记,从而(可选地没有杂合捕捉地)富集所述样本的被希望的数个目标/生物标记。举例而言,正向(forward)与反向(reverse)的引子可以对每个感兴趣的基因组区域被制备,且用以放大对应于或衍生自所希望的基因组区域的数个片段。因此,虽然本揭示对于癌症化验检测组合及用于杂合捕捉的诱饵组投注特别的关注,本揭示足够宽广以含括用于细胞游离DNA的富集的其它方法。因此,一熟练的技术人员,得益于本揭示,将认识到与在本文中连结于杂合捕捉而被描述的那些方法类似的数个方法,可以替代地通过以其它富集策略取代杂合捕捉而被完成,比如对应于感兴趣的数个基因组区域的细胞游离DNA片段的PCR放大。在一些实施例中,亚硫酸氢盐扣锁探针捕捉(bisulfite padlock probecapture)被用于富集感兴趣的数个区域,如在Zhang等人的专利(US2016/0340740)中被描述的。在一些实施例中,额外的或替代的方法被用于富集(例如,非靶向富集),比如简化表示亚硫酸氢盐定序(reduced representation bisulfite sequencing)、甲基化限制酶定序、甲基化DNA免疫沉淀定序、甲基CpG结合域蛋白质定序、甲基DNA捕捉定序或微滴PCR。

探针:

本文中提供的癌症化验检测组合(或者称为“诱饵组”)是包括一组杂合探针(在本文中也被称为“探针”)的一检测组合,所述一组杂合探针是设计以在富集时针对且拉下感兴趣的数个核酸片段,用于所述化验。在一些实施例中,所述数个探针是被设计以杂合并富集来自数个癌症样本的,被处理以将未甲基化的胞嘧啶(C)转换为脲嘧啶(U)的DNA或cfDNA分子。在其它实施例中,所述数个探针是配置以杂合并富集来自一TOO(或数个TOO)的数个癌症样本的DNA或cfDNA分子,所述数个癌症样本被处理以将未甲基化的胞嘧啶(C)转换为脲嘧啶(U)。所述数个探针可以设计以黏合(anneal)(或杂合)至DNA或RNA的一目标(互补)股。所述目标股可以是“正”股(例如,被转录为mRNA且随后被转译为蛋白质的股)或互补的“负”股。在一特定的实施例中,一癌症化验检测组合可以包括数组的两个探针,一个探针针对所述正股且另一个探针针对一目标基因组区域的所述负股。

对于每个目标基因组区域,可以设计四个可能的探针序列。每个目标区域的DNA分子是双股的,因此,一探针或探针组可以针对一“正(positive)”或正向(forward)股,或者是其反向的互补(所述“负”股)。此外,在一些实施例中,所述数个探针或数个探针组是设计以富集已被处理以将未甲基化的胞嘧啶(C)转换为脲嘧啶(U)的数个DNA分子或数个片段。因为所述数个探针或探针组是设计以富集转换后的,对应于或衍生自所述数个目标区域的DNA分子,所述数个探针的序列可以(通过在对应于或衍生自所述目标区域的数个DNA分子或数个片段中是未甲基化的胞嘧啶的位置,于G’的位置应用A’)被设计以富集数个片段的数个DNA分子,其中未甲基化的C’已被转换为U’。在一实施例中,数个探针被设计以结合到或杂合到来自已知含有癌症特异性的甲基化模式的数个基因组区域的数个DNA分子或数个片段(例如,过甲基化或低甲基化DNA分子),从而富集癌症特异性DNA分子或片段。针对数个基因组区域,或者数个癌症特异性的甲基化模式,可以有利地允许特异性地富集被识别为对癌症或癌症TOO能提供信息的DNA分子或片段,并且因此,降低定序需求及定序成本。在其它实施例中,对每个目标基因组区域可以设计两个探针序列(每个DNA股一个探针)。在又另一案例中,数个探针被设计以富集所有对应于或衍生自一目标区域的DNA分子或片段(亦即,无论股别或甲基化状态)。这可能是因为所述癌症甲基化状态并不是高度甲基化或未甲基化,或是因为所述数个探针是设计以针对数个小突变或其它变异,而非甲基化改变,这些其它变异类似地指示一癌症的存在或不存在,或一种或多种TOO的一癌症的存在或不存在。在该案例中,所有四个可能的探针序列可以对每一个目标基因组区域被包括。

所述数个探针可以在长度上是自10、100、200或300个碱基对。所述数个探针可以包括至少50、75、100或120个核苷酸。所述数个探针可以包括少于300、250、200或150个核苷酸。在一实施例中,所述数个探针包括100至150个核苷酸。在一特定实施例中,所述数个探针包括120个核苷酸。

在一些实施例中,所述数个探针是以“2x铺排(2x tiled)”的方式被设计,以覆盖一目标区域的数个重叠部分。每个探针可选地在覆盖范围上与文库(library)中的另一探针至少部分地重叠。在这样的数个实施例中,所述检测组合含有多对探针,一对当中的每个探针与另一者重叠至少25、30、35、40、45、50、60、70、75或100个核苷酸。在一些实施例中,所述重叠序列可以被设计以与一目标基因组区域(或衍生自所述目标基因组区域的cfDNA)互补,或与和一目标区域或cfDNA具有同源性的一序列互补。因此,在一些实施例中,至少两个探针是与在一目标基因组区域中的相同的序列互补,且对应于或衍生自所述目标基因组区域的一核苷酸片段可以被所述数个探针中的至少一者连结并拉下。其它的铺排水平是可能的,比如3x铺排、4x铺排等,其中在一目标区域中的每个核苷酸可以结合到多于两个探针。

在一实施例中,在一目标基因组区域中的每个碱基是由正好两个探针重叠,如绘示于图1B中。在两个方向上延伸超过一目标基因组区域的探针可用于拉下包含一部分目标基因组区域及与目标基因组区域相邻的DNA序列的cfDNA片段。在一些情况下,甚至相对较小的数个目标区域也可被三个探针所针对(参见图1A)。包括三个或更多个探针的一探针组可选地被用于捕捉一较大的基因组区域(参见图1B)。在一些实施例中,数个探针的数个次组合将集合地延伸横跨一整个基因组区域(例如,可以与来自所述基因组区域的未经转换的或经转换的数个片段互补)。一个铺排的探针组可选地包括数个探针,所述数个探针集合地包括与所述基因组区域中的每个核苷酸重叠的至少两个探针。这样做是为了确保在一端包括一目标基因组区域的一小部分的数个cfDNA,会与至少一个探针有延伸进入相邻的非目标基因组区域的一个大致的重叠,以提供有效的捕捉。

举例而言,包括30个核苷酸(nt)目标基因组区域的一个100bp的cfDNA片段可以被确保有至少65bp与数个重叠探针的至少一者相重叠。其它铺排的水平是可能的。举例而言,为了增加目标尺寸及在一检测组合中添加更多探针,数个探针可以被设计以将一30bp的目标区域扩张至少70bp、65bp、60bp、55bp或50bp。为了捕捉与所述目标区域有丝毫重叠(即便仅重叠1bp)的任何片段,所述数个探针可以被设计以在两侧延伸超过所述目标区域的所述数个末端。

所述数个探针是设计以分析(例如,人类或其它有机体的)数个目标基因组区域的甲基化状态,所述数个目标基因组区域被怀疑与下述相关联:癌症总体的存在或不存在、特定类型的癌症的存在或不存在、癌症阶段、或其它类型的疾病的存在或不存在。

进一步地,所述数个探针是设计以有效地结合并拉下含有一目标基因组区域的数个cfDNA片段。在一些实施例中,所述数个探针是设计以覆盖一目标区域的数个重叠的部分,从而每个探针在覆盖上是“铺排”的,而使每个探针与在所述文库中的另一探针至少部分地在覆盖范围上重叠。在这样的数个实施例中,所述检测组合包括多对探针,而每对探针包括通过一重叠序列互相重叠的至少两个探针,所述重叠序列是至少25、30、35、40、45、50、60、70、75或100个核苷酸。在一些实施例中,所述重叠序列可以被设计与一目标基因组区域(或一目标基因组区域的一经转换版本)互补,因此衍生自或包含所述目标基因组区域的一核苷酸片段可以由所述数个探针中的至少一者结合且拉下。此外,数个探针可设计用以覆盖一双股cfDNA序列的双股。

在一实施例中,最小的目标基因组区域是30bp或31bp。当一个新的目标区域(基于如上文所描述的贪婪选择)被添加到所述检测组合,30bp的所述新的目标区域可以在一个特定的感兴趣的CpG位点上被置中。接着所述新的目标区域被检查,看此新的目标的每个边缘是否离其它数个目标足够近,而使它们可以被融合。这是基于一个“融合距离”参数,所述融合距离参数可以默认为是200bp,但可以被调整。这允许接近但分别的数个目标区域以数个重叠的探针被富集。视离所述新的目标的左侧或右侧够接近的目标是否存在,所述新的目标可以不与任何东西融合(使检测组合目标的数量增加一)、仅与一个目标融合,或者融合到左侧或者融合到右侧(不改变检测组合目标的数量)、或与左侧及右侧的现存目标融合(使检测组合目标的数量减少一)。

选择数个目标基因组区域的方法:

在另一面向中,提供了用于检测癌症及/或一TOO的数个目标基因组区域的数个方法。所述目标基因组区域可以被用于设计及制造用于一癌症化验检测组合的数个探针。对应于或衍生自所述数个目标基因组区域的DNA或cfDNA分子的甲基化状态,可以使用所述癌症化验检测组合被筛检。替代的方法,比如通过WGBS或其它本领域中已知的方法,可以亦被应用以侦测对应于或衍生自所述数个目标基因组区域的数个DNA分子或片段的甲基化状态。

样本处理:

图7A是根据一个实施例,用于处理一核酸样本并为数个DNA片段产生数个甲基化状态向量的一程序100的一流程图。所述方法包括但不限于下述步骤。举例而言,所述方法的任何步骤可以包括用于质量管控的一量化的次步骤(quantitation sub-step),或者本领域的一般技术人员所知的其它实验室化验程序。

在步骤105中,一核酸样本(DNA或RNA)自一对象被提取。在当前的揭示中,除非另有指示,DNA及RNA可以被可互换地使用。亦即,在本文中被描述的数个实施例可以适用于DNA及RNA类型的核酸序列。然而,本文中描述的数个示例为了简洁性及解释的目的而聚焦于DNA。所述样本可以是人类基因组的任何次组合,包括全基因组。所述样本可以包括血液、血浆、血清、尿液、粪便、唾液、其它类型的体液,或其任何组合。在一些实施例中,用于抽取一血液样本的方法(例如,注射器或手指刺(finger prick))可以比用于获得一组织活体切片的程序较不具侵入性,所述用于获得一组织活体切片的程序可能需要手术。所述被提取的样本可以包括cfDNA及/或ctDNA。对于健康的个体,人体可以自然清除cfDNA及其它细胞碎屑。若一对象具有一癌症或疾病,在被提取的一样本中的cfDNA及/或ctDNA可能以足够侦测到所述癌症或疾病的一可侦测水平存在。

在步骤110中,所述数个cfDNA片段被处理以将未甲基化的胞嘧啶转换为脲嘧啶。在一些实施例中,所述方法使用DNA的一亚硫酸氢盐处理,所述亚硫酸氢盐处理将未甲基化的胞嘧啶转换为脲嘧啶而不转换经甲基化的胞嘧啶。举例而言,一商业套组(kit)比如EZDNA甲基化TM-黄金(EZ DNA MethylationTM-Gold)套组、EZ DNA甲基化TM-导向(EZ DNAMethylationTM-Direct)套组或一EZ DNA甲基化TM-闪电套组(EZ DNA MethylationTM-Lightning kit)(可获得自Zymo Research Corp(加利福尼亚州尔湾市))被用于所述亚硫酸氢盐转换。在另一实施例中,未甲基化的胞嘧啶至脲嘧啶的转换是使用一酶反应被达成。举例而言,所述转换可以使用一商业上可获得的,用于将未甲基化胞嘧啶至脲嘧啶的转换的套组,比如APOBEC-Seq(NEBiolabs,马萨诸塞州伊普斯威奇)进行。

在步骤115中,一定序文库被制备。在一个第一步骤中,一ssDNA转接子(adapter)使用一ssDNA连接反应被添加到一个经亚硫酸氢盐转换的ssDNA分子的3’-OH端。在一些实施例中,所述ssDNA连接反应使用CircLigase II(Epicentre)以将所述ssDNA转接子连接到一个经亚硫酸氢盐转换的ssDNA分子的3’-OH端,其中所述转接子的5’端被磷酸化且所述经亚硫酸氢盐转换的ssDNA被去磷酸化(亦即,所述3’端具有一羟基)。在另一实施例中,所述ssDNA连接反应使用热稳定5’AppDNA/RNA连接酶(可获得自新英格兰生物实验室(马萨诸塞州伊普斯威奇))以将所述ssDNA转接子连接至所述经亚硫酸氢盐转换的ssDNA分子的3’-OH端。在此示例中,所述第一个UMI转接子在5’被腺苷酸化并在3’被阻断。在另一实施例中,所述ssDNA连接反应使用T4RNA连接酶(可获得自新英格兰生物实验室)以将所述ssDNA转接子连接至所述经亚硫酸氢盐转换的ssDNA分子的3’-OH端。在一第二步骤中,一第二股DNA在一延伸反应中被合成。举例而言,杂合至被包括在所述ssDNA转接子中的一引子序列的一延伸引子,在一引子延伸反应中被使用以形成一双股的经亚硫酸氢盐转换的DNA分子。可选地,在一实施例中,所述延伸反应使用一酶,所述酶能够通读在所述经亚硫酸氢盐转换的模板股中的数个脲嘧啶残基。可选地,在一第三步骤中,一dsDNA转接子被添加到所述双股的经亚硫酸氢盐转换的DNA分子。最后,所述双股的经亚硫酸氢盐转换的DNA被放大以添加数个序列转接子。举例而言,使用包括一P5序列的一正向引子与包括一P7序列的一反向引子的PCR放大被使用,以将P5及P7序列添加到所述经亚硫酸氢盐转换的DNA。可选地,在文库制备时,独特分子识别物(UMI)可以经由转接子连接被添加到所述数个核酸分子(例如,DNA分子)。所述数个UMI是在转接子连接时被添加到数个DNA片段的数个末端的短核酸序列(例如,4至10个碱基对)。在一些实施例中,UMI是数个简并的(degenerate)碱基对,作为一独特标签,所述标签可以被用于辨识源自一特定DNA片段的数个序列读数。在转接子连接之后的PCR放大中,所述数个UMI连同连结的DNA片段被复制,提供了在下游分析中辨识来自相同的原始片段的数个序列读数的一个方法。

在步骤120中,数个目标DNA序列可以自所述文库被富集。这是举例而言,当一目标检测组合化验在数个样本上被执行时被使用。在富集时,数个杂合探针(在本文中也被称为“探针”)被用于针对并拉下对下述可提供信息的数个核酸片段:癌症(或疾病)的存在或不存在、癌症状态或一癌症分类(例如,癌症类型或来源组织)。对于一给定的工作流程,所述数个探针可以被设计以黏合(或杂合)至-目标(互补)股的DNA或RNA。所述目标股可以是“正”股(例如,被转录为mRNA,及接着转译为一蛋白质的股)或互补的“负”股。所述数个探针的长度可以在10s、100s或1000s个碱基对的范围内。此外,所述数个探针可以覆盖一目标区域的数个重叠部分。

在步骤120的一杂合之后,所述经杂合的数个核酸片段被捕捉,及可以亦使用PCR被放大(富集125)。举例而言,所述数个目标序列可以被富集,以获得数个经富集的序列,所述数个经富集的序列可以接着被定序。一般地,任何本领域中已知的方法可以被用于分离及富集经探针杂合的目标核酸。举例而言,如本领域中广为人知的,一生物素部分可以使用链霉亲和素披覆的(streptavidin-coated)一表面(例如,链霉亲和素披覆的数个小珠)被添加到所述数个探针的所述5’端(亦即,生物素化)以促进杂合至数个探针的数个目标核酸的分离。

在步骤130中,数个序列读数从所述数个经富集的DNA序列产生,例如,数个经富集的序列。定序数据可以通过本领域中已知的方法,自所述数个经富集的DNA序列被获得。举例而言,所述方法可以包括次世代定序(NGS)技术,包括合成科技(Illumina)、焦磷酸定序(pyrosequencing)(454生命科学)、离子半导体科技(Ion Torrent定序)、单分子实时定序(Pacific Biosciences)、通过连接的定序(SOLiD定序)、纳米孔定序(Oxford NanoporeTechnologies)或配对端定序(paired-end sequencing)。在一些实施例中,大规模平行定序使用具有可逆染料终止子的合成定序被执行。

在步骤140中,数个甲基化状态向量自所述数个序列读数被产生。为了这么作,一序列读数被对齐到一参考基因组。所述参考基因组协助提供所述片段cfDNA源自一人类基因组的何种位置的一情境。在一简化的示例中,所述序列读数是被对齐而使三个CpG位点关联到CpG位点23、24及25。(为了描述的便利而被使用的随意参考辨识物)。在对齐后,有下述两者的信息:所述cfDNA片段上的所有CpG位点的甲基化状态,与所述数个CpG位点映射到所述人类基因组中的哪个位置。有了所述甲基化状态及位置,一甲基化状态向量可以为所述片段cfDNA被产生。

数据结构的产生:

图3A是一流程图,描述根据一实施例中,为一健康控制组产生一数据结构的一程序300。为了创造一健康控制组数据结构,所述分析系统获得关于在数个序列读数上的数个CpG位点的甲基化状态的信息,所述数个序列读数是衍生自来自数个健康对象的数个DNA分子或数个片段。在本文中被提供以创造一健康控制组数据结构的方法,可以类似地对具有癌症的数个对象、具有一TOO的癌症的数个对象、具有一已知癌症类型的数个对向、或具有另一已知疾病状态的数个对象执行。一甲基化状态向量是为每个DNA分子或片段产生,举例而言,经由所述程序100产生。

所述分析系统将每个cfDNA片段的所述甲基化状态向量细分310为数个CpG位点的数个串(strings)。在一实施例中,所述分析系统细分310所述甲基化状态向量,而使作为结果的数个串皆小于一给定的长度。举例而言,长度11的一甲基化状态向量可以被细分为数个串,小于或等于3的长度将造成9个长度3的串、10个长度2的串及11个长度1的串。在另一示例中,长度7的一甲基化状态向量被细分为长度小于或等于4的串将导致4个长度4的串、5个长度3的串、6个长度2的串及7个长度1的串。若由一DNA片段产生的所述甲基化状态向量短于所述特定串长度或与所述特定串长度长度相同,则所述甲基化状态向量可以被转换为含有所述向量的所有CpG位点的一单一串。

所述分析系统通过数算对于在所述向量中的每个可能的CpG位点及甲基化状态的可能而言,存在所述控制组中,具有所述特定CpG位点作为串中的第一CpG位点及具有甲基化状态的该可能的串的数量,而纪录(tallies)320所述数个串。举例而言,在一给定的CpG位点的长度为3的一串,有2^3或8个可能的串配置。对于每个CpG位点,所述分析系统纪录320出现在所述控制组中,每个可能的甲基化状态向量发生多少次。这可能涉及对在所述参考基因组中的每个起始CpG位点,纪录下述量值:<Mx,Mx+1,Mx+2>、<Mx,Mx+1,Ux+2>、...、<Ux,Ux+1,Ux+2>。所述分析系统创造330一数据结构,所述数据结构存储每个起始CpG位点及在每个起始CpG处的串可能性的所述经纪录计数。

设定串长度的一上限有数个益处。首先,视一个串的最大长度而定,由所述分析系统创造的所述数据结构的尺寸可能大幅增加。例如,4的一最大串长度表示每个CpG最多有2^4个数字需要记录。将最大串长度增加到5将使要记录的甲基化状态的可能数量加倍。减少串尺寸有助于减少数据结构的计算及数据存储负担。在一些实施例中,所述串尺寸为3。在一些实施例中,所述串尺寸为4。限制最大串尺寸的第二个原因是避免过度拟合下游模型。如果长CpG串对结果不具有强烈的生物学效果(例如,预测癌症存在的异常性预测),则基于CpG位点的长串计算概率可能会有问题,因为它需要大量可能不可用的数据,因此,对于一个模型要适当运行而言将是太过稀疏(sparse)的。举例而言,计算以先前100个CpG位点为条件的异常/癌症的一可能性将需要长度100的数据结构的数个串的计数,理想地,有一些确切符合先前100个甲基化状态。若仅可获得长度100的数个串的稀疏的计数,要判断在一检测样本中的长度100的一个给定串是否异常,数据将是不足够的。

数据结构的验证:

一旦所述数据结构已被创造,所述分析系统可以寻求验证340所述数据结构及/或使用所述数据结构的任何下游模型。

一个第一类型的验证可确保从健康控制组中移除潜在的癌症样本,从而不影响控制组的纯度。这种类型的验证检查所述控制组数据结构内的一致性。例如,健康控制组可包含来自一未诊断癌症的个体的一样本,该样本包含多个异常甲基化片段。所述分析系统可以执行各种计算,以判定是否排除明显未诊断癌症的一对象的数据。

一个第二类型的验证以来自所述数据结构自身(亦即,来自所述健康控制组)的数个计数,检查用于计算p值的所述机率模型。用于p值计算的一程序在下文中连同图5而被描述。一旦所述分析系统为验证组中的数个甲基化状态向量产生一p值,所述分析系统以所述数个p值建构一个累积密度函数(CDF)。以所述CDF,所述分析系统可以在所述CDF上执行各种计算,以验证所述控制组的数据结构。一个测试利用所述CDF应理想地位于或低于一恒等函数,而使得CDF(x)≤x的事实。相反地,在所述恒等函数以上,揭露用于所述控制组的数据结构的所述机率模型中的一些缺陷。举例而言,若1/100的片段具有1/1000的一p值分数,意谓着CDF(1/1000)=1/100>1/1000,则所述第二类型的验证失败,指示所述机率模型的一问题。参见例如,美国专利申请第16/325,602号,其公开为美国公开第2019/0287652号,通过引用整体的方式并入本文中。

一个第三类型的验证使用数个验证样本的一个健康的组别,所述数个验证样本是分离自用于建构所述数据结构的数个验证样本。所述第三类型的验证测试是否所述数据结构被恰当地建构且所述模型可运作。用于执行此类型的验证的一个示例性程序在下文中连同图3B被描述。所述第三类型的验证可以量化所述健康控制组多么良好地概括数个健康样本的分布。若所述第三类型的验证失败,则所述健康控制组并不良好地概括到所述健康的分布。

一种第四类型的验证以来自一非健康验证组的数个样本进行测试。所述分析系统为所述非健康验证组计算数个p值并建构所述CDF。对一非健康验证组,所述分析系统预期看到对于至少一些样本,CDF(x)>x。或者换句话说,与在所述第二类型的验证与所述第三类型的验证中,对健康控制组及健康验证组所预期的相反。若所述第四类型的验证失败,则指示所述模型并不适当地辨识所述模型被设计辨识的异常。

图3B是一流程图,描述根据一实施例的,为图3A的所述控制组验证所述数据结构的一额外步骤340。在验证所述数据结构的所述步骤340的此实施例中,所述分析系统执行如上文所描述的所述第四类型的验证测试,所述第四类型的验证测试应用一验证组,所述验证组具有假定与所述控制组相似的对象、样本及/或片段的组成。举例而言,若所述分析系统选择数个没有癌症的健康对象作为控制组,则所述分析系统也在所述验证组中使用数个没有癌症的健康对象。

所述分析系统取所述验证组,并如在图3A中所述的产生100个一组的甲基化状态向量。所述分析系统对于来自所述验证组的每个甲基化状态向量执行一p值计算。所述p值计算程序将连同图4至图5而被进一步描述。对于每个可能的甲基化状态向量,所述分析系统自所述控制组的数据结构计算一机率。一旦所述数个机率对所述数个甲基化状态向量的所述数个可能性被计算,所述分析系统基于所述数个被计算的机率为该甲基化状态向量计算350一个p值分数。所述p值分数代表在所述控制组中找到该特定甲基化状态向量及具有甚至更低的机率的其它可能的甲基化状态向量的一预期性。从而,一低p值分数一般地对应于相对于在所述控制组中的其它甲基化状态向量较不被预期的一甲基化状态向量,而一高p值分数一般地对应于相对于在所述控制组中找到的其它甲基化状态向量更被预期的一甲基化状态向量。一旦所述分析系统对于在所述验证组中的数个甲基化状态向量产生一p值分数,所述分析系统以来自所述验证组的所述数个p值分数建构360一个累积密度函数(CDF)。所述分析系统如上文所描述地在所述第四类型的验证测试中验证370所述CDF的一致性。

异常甲基化片段:

根据在图4中被概述的一实施例,在癌症患者样本、具有一TOO的癌症的对象、具有一未知癌症的对象、或具有另一已知疾病状态的对象中的具有异常甲基化模式的数个异常甲基化片段,被选为目标基因组区域。选择异常甲基化片段的示例性程序440被视觉性地例示在图5中,且在图4的描述下被进一步描述。在程序400中,所述分析系统自所述样本的数个cfDNA片段产生100数个甲基化状态向量。所述分析系统如下地处理每个甲基化状态向量。

对于一个给定的甲基化状态向量,所述分析系统列举410在所述甲基化状态向量中具有相同起始CpG位点及相同长度(亦即,CpG位点的集合)的甲基化状态向量的所有可能。因此每个甲基化状态可能是甲基化或未甲基化,在每个CpG位点仅有两个可能状态,及因此甲基化状态向量的独特的可能的计数依赖于2的次方,而使长度n的一甲基化状态向量将与甲基化状态向量的2n个可能相关联。

所述分析系统通过评估一健康控制组数据结构,计算420对所述辨认的起始CpG位点/甲基化状态向量长度而言,观察到甲基化状态向量的每个可能的机率。在一实施例中,计算观察到一给定的可能的所述机率使用一马克夫链机率(Markov chain probability),以建模所述联合机率计算,所述联合机率计算将在下文中参考图5而被更详细地描述。在其它实施例中,不同于马可夫链机率的计算方法被用以决定观察到甲基化状态向量的每个可能的所述机率。

所述分析系统使用对每个可能被计算的所述数个机率,为所述甲基化状态向量计算430一个p值分数。在一实施例中,这包括辨识对应于所述可能的所述被计算的机率,所述可能符合被考虑的所述甲基化状态向量。特定地,这是与所述甲基化状态向量具有相同的一组CpG位点,或类似地具有相同的起始CpG位点及长度的可能。所述分析系统加总所述数个被计算的机率以产生所述p值分数。所述数个被计算的机率是数个可能的被计算的机率,所述数个可能具有任何具有少于或等于被辨识的机率的机率。

此p值代表在所述健康控制组中观察到所述片段的所述甲基化状态向量或其它甚至更不可能的甲基化状态向量的机率。因此,一低p值分数,大致对应于在一健康个体中罕见的一甲基化状态向量,及造成所述片段相对于所述健康控制组,被标记为异常甲基化。一高p值分数一般地关联于在一健康对象中,在一相对概念上被预期存在的一甲基化状态向量。举例而言,若所述健康控制组是一非癌症组,一低p值指示所述片段相对于所述非癌症组而言是异常甲基化的,及因此可能指示在所述检测对象中的癌症的存在。

如上,所述分析系统对数个甲基化状态向量中的各者计算p值分数,所述数个甲基化状态向量中的各者代表在所述检测样本中的一cfDNA片段。为了辨认所述数个片段中的哪一个是异常甲基化的,所述分析系统可以基于数个甲基化状态向量的p值分数过滤440所述数个甲基化状态向量的所述集合。在一实施例中,过滤是通过将所述p值分数与一阀值相比较及仅保留低于所述阀值的那些片段而执行。此阀值p值分数可以是在0.1、0.01、0.001、0.0001或类似的数量级上。

P值分数计算:

图5是根据一实施例的,一示例性p值分数计算的一绘示500。为了计算给定一检测甲基化状态向量505的一p值分数,所述分析系统取该检测甲基化状态向量505,及列举410甲基化状态向量的数个可能。在此例示性示例中,所述检测甲基化状态向量505是<M23,M24,M25,U26>。因为所述检测甲基化状态向量505的所述长度是4,包含CpG位点23至26的甲基化状态向量有2^4种可能。在一个一般性示例中,甲基化状态向量的可能的所述数量是2^n个,其中n是所述检测甲基化状态向量的长度或替代地是所述滑动窗口(在下文中进一步描述)的长度。

所述分析系统计算420数个甲基化状态向量的被列举的数个可能的机率515。因为甲基化是有条件地依赖于附近的CpG位点的甲基化状态,计算观察到一给定的甲基化状态向量的可能的机率的一个方法是使用马可夫链模型。一般地,一甲基化状态向量,比如<S1,S2,...,Sn>(其中S表示所述甲基化状态,或者是甲基化(表示为M)、未甲基化(表示为U)或不确定(表示为I))具有一联合机率,所述联合机率可以使用机率的链式法则(chain rule ofprobabilities)被展开为:

马可夫链模型可以被用于使每个可能的所述条件机率的计算更有效率。在一实施例中,所述分析系统选择一马可夫链阶层k,所述马可夫链阶层k对应于在所述条件机率计算中要考虑多少在所述向量(或窗口)中的先前的CpG位点,而使所述条件机率被建模为P(Sn|S1,...,Sn-1)~P(Sn|Sn-k-2,...,Sn-1)。

为了计算对甲基化向量的一可能的每个经马可夫链建模的机率,所述分析系统存取所述控制组的数据结构,特别是数个CpG位点及状态的各种串的计数。为了计算P(Mn|Sn-k-2,...,Sn-1),所述分析系统自符合<Sn-k-2,...,Sn-1,Mn>的所述数据结构取数个串的所述数量的存储的计数的一比率,除以来自符合<Sn-k-2,...,Sn-1,Mn>及<Sn-k-2,...,Sn-1,Un>的所述数据结构的数个串的数量的所述经存储的计数的所述总和。因此,P(Mn|Sn-k-2,...,Sn-1)是经计算的比率,具有下述形式:

所述计算可以通过应用一先验分布而额外实施所述数个计数的一平滑化。在一实施例中,所述先验分布是如在拉普拉斯平滑化中的一均匀先验。作为此的一示例,一常数被加到上述等式的分子及另一常数(例如,两倍于在所述分子中的所述常数)被加到上述等式的分母。在其它实施例中,一演算法技术,比如聂氏平滑法(Knesser-Ney smoothing)被使用。

在所述例示中,上文中表示的公式被应用到覆盖位点23至26的所述检测甲基化状态向量505。一旦所述经计算的机率515被完成,所述分析系统计算430一p值分数525,所述p值分数525加总数个机率,所述数个机率少于或等于符合所述检测甲基化状态向量505的甲基化状态向量的可能的机率。

在一实施例中,计算机率及/或p值分数的计算负担可以通过缓存至少一些计算而被进一步减少。举例而言,所述分析系统可以将数个甲基化状态向量(或其窗口)的可能的机率的计算缓存于暂时或永久记忆体中。若其它片段具有相同的CpG位点,缓存所述可能机率允许p分数数值的有效率的计算,而不需要重新计算潜在的可能机率。最终,所述分析系统可以为与来自向量(或其窗口)的一组CpG位点相关联的数个甲基化状态向量的可能中的每个计算p值分数。所述分析系统可以缓存所述p值分数,供用于决定包括所述相同CpG位点的其它片段的所述p值分数。一般地,具有相同CpG位点的甲基化状态向量的可能的所述p值分数可以被用于决定来自所述同一组CpG位点的所述可能的不同的一个的所述p值分数。

滑动窗口:

在一实施例中,所述分析系统使用435一滑动窗口以决定甲基化状态向量的可能及计算p值。所述分析系统仅对连续的数个CpG位点的一窗口列举可能及计算p值,而非对整个甲基化状态向量列举可能及计算p值,其中所述窗口在(CpG位点的)长度上比至少一些片段短(否则,所述窗口便无济于事)。所述窗口长度可以是静态的、使用者决定的、动态的或另外选择的。

在为大于所述窗口的一甲基化状态向量计算p值时,所述窗口自所述向量中第一个CpG位点开始,辨识在所述窗口中的,连续一组来自所述向量的CpG位点。所述分析系统计算包括所述第一CpG位点的所述窗口的一p值分数。所述分析系统接着将所述窗口“滑动”到所述向量中的第二个CpG位点,及为所述第二窗口计算另一p值分数。因此,对于尺寸l的一窗口及甲基化向量长度m,每个甲基化状态向量将产生m-l+1个p值分数。在完成对所述向量的每个部份的所述p值计算后,来自所有滑动窗口的最低的p值分数被采取为所述甲基化状态向量的所述总体p值分数。在另一实施例中,所述分析系统合计所述数个甲基化状态向量的所述p值分数以产生一总体p值分数。

使用所述滑动窗口有助减少甲基化状态向量的被列举的可能的数量及若非如此则需要被执行的,对应的机率计算。示例机率计算被展示在图5中,但一般地,甲基化状态向量的可能的数量随着所述甲基化状态向量的尺寸而呈2的次方指数增加。为了给出一现实的例子,片段可能具有多于54个CpG位点。所述分析系统可以对所述片段使用(举例而言是)尺寸5的一窗口,导致对所述甲基化状态向量的50个窗口中的每个执行50个p值计算,而非计算2^54(约1.8×10^16)个可能的机率以产生一单一p值分数。所述50个计算中的每个列举所述甲基化状态向量的2^5(32)个可能,总共导致50×2^5(1.6×10^3)个可能性计算。这导致对异常片段的准确辨识缺乏有意义命中的,要被执行的计算的一大量减少。此额外步骤可以亦在以所述验证组的数个甲基化状态向量验证340所述控制组时被应用。

辨识指示癌症的片段:

所述分析系统自经过滤的异常甲基化片段组辨识450指示癌症的数个DNA片段。

低甲基化及过甲基化片段:

根据一个第一方法,所述分析系统可以自所述经过滤的异常甲基化片段组辨识被视为低甲基化或过甲基化的数个DNA片段,作为指示癌症的片段。低甲基化或过甲基化的数个片段可以被界定为数个CpG位点的一特定长度(例如,多于3、4、5、6、7、8、9、10个等)的数个片段,所述片段具有高百分比的甲基化CpG位点(例如,多于80%、85%、90%、或95%、或在50%至100%的范围内的任何其它百分比)或高百分比的未甲基化CpG位点(例如,多于80%、85%、90%、或95%、或在50%至100%的范围内的任何其它百分比)。

机率模型:

根据本文所述的一个方法,所述分析系统应用拟合到每个癌症类型及非癌症类型的甲基化模式的机率模型,辨识指示癌症的数个片段。所述分析系统使用所述数个基因组区域中的数个DNA片段,以用于每个癌症类型及非癌症类型的经拟合机率模型考虑各种癌症类型,而为一样本计算对数可能性比率。所述分析系统可以基于相对于所述各种癌症类型而被考虑的所述数个对数可能性比率中的至少一者是否高于一阀值,而判定一DNA片段指示癌症。

在划分所述基因组的一个实施例中,所述分析系统通过数个阶段将所述基因组划分为数个区域。在一第一阶段中,所述分析系统将所述基因组分离为数个CpG位点的数个区块。每个区块在两个相邻的CpG位点中有超过一些阀值,例如,大于200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp或1000bp,的一间隔时被界定。自每个区块,所述分析系统于一第二阶段将每个区块细分为一特定长度,例如,500bp、600bp、700bp、800bp、900bp、1000bp、1100bp、1200bp、1300bp、1400bp或1500bp的数个区域。所述分析系统可以进一步以所述长度的一比率,例如,10%、20%、30%、40%、50%或60%,与邻近的数个区域重叠。

所述分析系统对每个区域分析衍生自数个DNA片段的数个序列读数。所述分析系统可以处理来自组织及/或高信号cfDNA的数个样本。高信号cfDNA样本可以由一个二元分类模型通过癌症阶段,或通过其它度量标准判定。

对于每个癌症类型及非癌症,所述分析系统对于数个片段拟合一个分离的机率模型。在一实施例中,每个机率模型是混合模型,包括数个混合成分的一组合,而每个混合成分是一独立位点模型,其中于每个CpG位点处的甲基化被假定为独立于其它CpG位点处的甲基化状态。

在数个替代的实施例中,计算关于每个CpG位点被执行。特定地,一第一计数被决定,所述第一计数是包括与该CpG重叠的一异常甲基化DNA片段的癌症样本的数量(癌症_计数),且一第二计数被决定,所述第二计数是在所述组中,含有与该CpG重叠的片段的样本的总数量(总和)。数个基因组区域可以基于所述数个数量被选择,举例而言,基于正相关于包括与该CpG重叠的一DNA片段的癌症样本的数量(癌症_计数),且负相关于所述组中含有与该CpG重叠的片段的样本的总数量(总和)的标准被选择。

具有不同TOO的各种类型的癌症可以选自于由乳癌、子宫癌、子宫颈癌、卵巢癌、膀胱癌、肾盂的尿路上皮癌、尿路上皮以外的肾癌、前列腺癌、肛门直肠癌、肛门癌、结肠直肠癌、肝细胞引起的肝胆癌、肝细胞以外的细胞引起的肝胆癌、肝/胆管癌、食道癌、胰腺癌、胃癌、上消化道鳞状细胞癌、鳞状细胞癌以外的上消化道癌、头颈癌、肺癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌及腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、浆细胞肿瘤、多发性骨髓瘤、骨髓性肿瘤、淋巴瘤和白血病所组成的群组。

在一些实施例中,可以使用本领域可用的分类方法对各种癌症类型进行分类及标记,例如国际肿瘤疾病分类(ICD-O-3)(code.iarc.fr)或监测、流行病学和及终结果计划(SEER)(SEER.cancer.gov)。在其他实施例中,癌症类型在三个正交码中分类:(i)部位码(topographical codes)、(ii)形态码(morphological codes)、或(iii)性态码(behavioral codes)。根据性态码,良性肿瘤为0、不确定性态为1、原位癌为2、恶性原发部位为3、恶性转移部位为6。

在一些实施例中,也可以从由指南定义的一群组中选择一癌症TOO,该癌症TOO将用于分期检测到的癌症。例如,参考文献Amin,M.B.,Edge,S.,Greene,F.,Byrd,D.R.,Brookland,R.K.,Washington,M.K.,Gershenwald,J.E.,Compton,C.C.,Hess,K.R.,Sullivan,D.C.,Jessup,J.M.,Brierley,J.D.,Gaspar,L.E.,Schilsky,R.L.,Balch,C.M.,Winchester,D.P.,Asare,E.A.,Madera,M.,Gress,D.M.,Meyer,L.R.(Eds.)编辑的《AJCC癌症分期手册,第8版,Springer,2017年》,其确定按照标准指南一起分期的不同癌症组。分期通常是癌症检测及诊断后的癌症管理的下一步骤。

所述分析系统可以进一步以用于每个癌症类型及非癌症类型或一癌症TOO的经拟合机率模型考虑各种癌症类型,为一片段计算对数可能性比率(“R”),指示所述片段是指示癌症的一可能性。所述两个机率可以取自为每个癌症类型及非癌症类型拟合的机率模型,所述数个机率模型被界定以计算给定所述数个H癌症类型及非癌症类型中的各者,在一片段上观察到一甲基化模式的一可能性。举例而言,所述数个机率模型可以被界定为为了所述数个癌症类型及非癌症类型中的各者被拟合。

指示癌症的基因组区域的选择:

在一些实施例中,所述分析系统可以辨识460指示癌症的数个基因组区域。为了辨识这些提供信息的区域,所述分析系统为每个基因组区域,或更特定地为每个CpG位点计算一信息增益,所述信息增益描述在各种结果之间进行区辨的能力。

用于辨识能够在癌症类型及非癌症类型之间进行区辨的数个基因组区域的一方法,应用一经训练的分类模型,所述经训练的分类模型可以被应用在对应于或衍生自一癌症或非癌症群组的所述异常甲基化DNA分子或片段组。所述经训练的分类模型可以被训练以辨识可自所述数个甲基化状态向量被辨识的任何感兴趣的情况。

在一实施例中,所述经训练的分类模型是一个二元分类器,所述二元分类器是基于数个cfDNA片段或数个基因组序列而被训练,所述数个cfDNA片段或数个基因组序列获得自具有癌症或一癌症TOO的一对象群体,及没有癌症的一健康对象群体,并且基于数个异常甲基化状态向量,所述二元分类器接着被用于分类一检测对象具有癌症、一癌症TOO、或不具有癌症的机率。在其它实施例中,不同的分类器可以使用已知具有特定癌症(例如,乳癌、肺癌、前列腺癌等);已知具有特定TOO的癌症,据信癌症起源于该特定TOO、或已知具有不同阶段的特定癌症(例如,乳癌、肺癌、前列腺癌等)的对象群体被训练。在这些实施例中,数个不同的分类器可以使用获得自富含肿瘤细胞的样本的数个序列读数被训练。所述样本来自已知具有特定癌症(例如,乳癌、肺癌、前列腺癌等)的对象群体。每个基因组区域于所述分类模型中在癌症类型及非癌症类型之间进行区辨的能力被用于以分类表现排名所述数个基因组区域,自最能提供资讯至最不提供资讯。所述分析系统可以自所述排名辨识数个基因组区域,所述排名是根据在非癌症类型及癌症类型之间分类的信息增益。

计算来自指示癌症的低甲基化及过甲基化片段的信息增益:

根据一实施例,使用指示癌症的数个片段,所述分析系统可以根据绘示于图6A中的一程序600训练一分类器。所述程序600存取数个样本的两个训练组:一个非癌症组及一个癌症组,并且获得605包括数个异常甲基化片段的数个甲基化状态向量的一个非癌症组及数个甲基化状态向量的一个癌症组,例如,经由来自程序400的步骤440。

所述分析系统对于每个甲基化状态向量,判定610所述甲基化状态向量是否指示癌症。在此,若至少一些数量的CpG位点具有一特定状态(分别为甲基化或未甲基化)及/或具有一阀值比率的位点是所述特定状态(再次地,分别为甲基化或未甲基化),指示癌症的数个片段可以被界定为过甲基化的或低甲基化的片段。在一实施例中,若数个cfDNA片段与至少5个CpG位点重叠,且所述数个cfDNA片段的CpG位点的至少80%、90%或100%是甲基化的,或者所述数个cfDNA片段的CpG位点的至少80%、90%或100%是未甲基化的,则所述数个cfDNA片段分别被识别为低甲基化的或过甲基化的。

在一替代实施例中,所述分析系统考虑所述甲基化状态向量的数个部分,并判定所述部分是否是低甲基化的或过甲基化的,且可以判别该部分是低甲基化的或过甲基化的。此替代方案解决了遗失数个大尺寸但含有至少一个密集低甲基化或过甲基化的区域的甲基化状态向量的问题。这个界定低甲基化及过甲基化的程序可以在图4的步骤450中被应用。在另一实施例中,指示癌症的所述数个片段可以根据输出自数个经训练的机率模型的数个可能性而被界定。

在一实施例中,所述分析系统对所述基因组中的每个CpG位点产生620一个低甲基化分数(P)及一过甲基化分数(P)。为了在一个给定的CpG位点产生两个分数,所述分类器于该CpG位点采取四个计数:(1)与所述CpG位点重叠的,被标示为低甲基化的所述癌症组的数个(甲基化状态)向量的计数;(2)与所述CpG位点重叠的,被标示为过甲基化的所述癌症组的数个向量的计数;(3)与所述CpG位点重叠的,被标示为低甲基化的所述非癌症组的数个向量的计数;及(4)与所述CpG位点重叠的,被标示为过甲基化的所述非癌症组的数个向量的计数。此外,所述程序可以对于每个组标准化这些计数,以计入所述非癌症组与所述癌症组之间的组尺寸差异。在指示癌症的数个片段更一般地被使用的数个替代实施例中,所述数个分数可以被更广泛地界定为于每个基因组区域及/或CpG位点处,指示癌症的数个片段的计数。

在一实施例中,为了产生620在一给定CpG位点处的低甲基化分数,所述程序取(1)除以(1)与(3)加总的一比率。类似地,所述过甲基化分数是通过取(2)除以(2)及(4)的一比率而被计算。此外,这些比率可以如上文所讨论的额外的平滑化技术(smoothingtechnique)被计算。给定来自所述癌症组的数个片段的低甲基化或过甲基化的存在,所述低甲基化分数及所述过甲基化分数与癌症机率的一估计相关联。

所述分析系统为每个异常甲基化状态向量产生630一个总计低甲基化分数及一个总计过甲基化分数。所述总计过甲基化与低甲基化分数是基于在所述甲基化状态向量中的所述数个CpG位点的所述数个过甲基化及低甲基化分数而被决定。在一实施例中,所述总计过甲基化及低甲基化分数分别被指派为在每个状态向量中的所述数个位点的最大过甲基化及低甲基化分数。然而,在数个替代实施例中,所述数个总计分数可以基于使用在每个状态向量中的所述数个位点的数个过甲基化/低甲基化分数的平均数、中位数或其它计算。

所述分析系统接着排名640对象的所有甲基化状态向量而对每个对象导致两个排名,所述排名640是按所述数个甲基化状态向量的总计低甲基化分数及按所述数个甲基化状态向量的总计过甲基化分数。所述过程自所述低甲基化排名选择数个总计低甲基化分数及自所述过甲基化排名选择数个总计过甲基化分数。根据选择的数个分数,所述分类器对每个对象产生650产生一单一特征向量。在一实施例中,被选择自两个排名的所述数个分数是以一固定排序被选择,所述固定排序对所述数个训练群组的各者中的每个对象的每个被产生的特征向量而言是相同的。作为一示例,在一实施例中,所述分类器自每个排名选取第一、第二、第四及第八个总计过甲基化分数,及对每个总计低甲基化分数也相同,以及将这些分数写在该对象的所述特征向量中。

所述分析系统训练660一个二元分类器区辨所述癌症及非癌症训练组的特征向量。一般而言,一些分类技术中的任一者可以被使用。在一实施例中,所述分类器是一非线性分类器。在一特定实施例中,所述分类器是应用具有一高斯径向基函数核(Gaussianradial basis function(RBF)kernel)的一L2-正规化函数核逻辑回归(L2-regularizedkernel logistic regression)的一非线性分类器。

特定地,在一实施例中,非癌症样本或(数个)不同癌症类型的数量(n其它)及具有与一CpG位点重叠的一异常甲基化片段的数个癌症样本或(数个)癌症类型的数量(n癌症)被计数。接着,一个样本是癌症的机率由一分数(“S”)估计,所述分数与n癌症呈正相关且与n其它呈负相关。所述分数可以使用等式:(n癌症+1)/(n癌症+n其它+2)或(n癌症)/(n癌症+n其它)被计算。所述分析系统为每个癌症类型及为每个基因组区域或CpG位点计算670一信息增益,以决定所述基因组区域或CpG位点是否指示癌症。所述信息增益是对具有一给定癌症类型的数个训练样本,相较于所有其它样本而被计算。举例而言,使用了两个随机变数“异常片段”(“AF”)及“癌症类型”(“CT”)。在一实施例中,AF如为上文的异常分数/特征向量而决定地,是一个二元变数,指示在一给定的样本中是否有一异常片段与一给定的CpG位点重叠。CT是一随机变数,指示所述癌症是否属于一特定类型。所述分析系统计算给定AF时关于CT的互信息(mutual information)。亦即,若得知是否有一异常片段与一特定CpG位点重叠,则获得了多少位元的关于癌症类型的信息。

对于一给定的癌症类型,所述分析系统使用此信息以基于数个CpG位点多么地癌症特定而排名所述数个CpG位点。此程序对于所有考虑中的癌症类型被重复。若一特定区域在一给定癌症的数个训练样本中是普遍被异常地甲基化的,但在其它癌症类型的数个训练样本或在健康的数个训练样本中并非普遍被异常地甲基化,则被这些异常片段重叠的数个CpG位点将倾向于对于所述给定的癌症类型具有高信息增益。对于每个癌症类型的被排名的所述数个CpG位点,基于它们的排名,被贪婪地添加(选择)到数个CpG位点的一选定的组别,供在所述癌症分类器中使用。

从辨识自机率模型的指示癌症的片段计算成对信息增益:

以根据本文中描述的第二方法被辨识的指示癌症的数个片段,所述分析可以根据图6B中的程序680辨识数个基因组区域。所述分析系统为每个样本、为每个区域、为每个癌症类型界定690一特征向量,所述界定是通过数个DNA片段的一计数,所述数个DNA片段具有高于数个阀值的,所述片段指示癌症的一经计算的对数可能性比率,其中每个计数是在所述特征向量中的一数值。在一实施例中,所述分析系统为具有高于一个或数个可能阀值的对数可能性比率的每个癌症类型,计数于一区域存在一样本中的片段的数量。所述分析系统通过为对所述片段提供高于数个阀值的一经计算的对数可能性比率的每个癌症类型,对每个基因组区域的数个DNA片段的一计数,为每个样本界定一特征向量,其中每个计数是所述特征向量中的一个数值。所述分析系统使用所述数个被界定的特征向量以为每个基因组区域计算一信息分数,所述信息分数描述该基因组区域在每对癌症类型之间区辨的能力。对于每对的癌症类型,所述分析系统基于所述数个信息分数排名数个区域。所述分析系统可以基于根据数个信息分数的排名选择数个区域。

所述分析系统为每个区域计算695一信息分数,所述信息分数描述该区域在每对癌症类型之间区辨的能力。对于每对不同的癌症类型,所述分析系统可以指定一个类型为一阳性类型,及另一个为一阴性类型。在一实施例中,一个区域在所述阳性类型及所述阴性类型之间区辨的能力是基于互信息,使用所述特征在最终化验中被预期为非零(non-zero)的,所述阳性类型及所述阴性类型的cfDNA样本,亦即,将在一靶向甲基化化验中被定序的,该层的至少一个片段,的估计分数(fraction)被计算。这些分数是使用所述特征在健康的cfDNA、在高信号cfDNA及/或每个癌症类型的肿瘤样本中发生的,被观察到的比率被估计。举例而言,若一特征在健康的cfDNA中频繁发生,则所述特征将也被预计在任何癌症类型的cfDNA中频繁发生,且将可能导致一低信息分数。所述分析系统可以对每对癌症类型,自所述排名选择一特定数量的区域,例如,1024个。

在数个额外的实施例中,所述分析系统进一步自数个区域的所述排名辨识主要过甲基化的或低甲基化的区域。所述分析系统可以对于被辨识为提供信息的一区域,将数个片段的所述组装载到所述(数个)阳性类型中。所述分析系统自所述数个被装载片段评估所述数个被装载片段是否主要地过甲基化或低甲基化。若所述数个被装载片段是主要地过甲基化或低甲基化,所述分析系统可以对应于所述主要甲基化模式选择数个探针。若所述数个被装载片段并不主要地过甲基化或低甲基化,所述分析系统可以使用数个探针的一混合物,以针对过甲基化及低甲基化两者。所述分析系统可以进一步辨识与所述数个片段的一些比率重叠的,CpG位点的一最小组别。

在其它实施例中,在基于数个信息分数而排名所述数个区域之后,所述分析系统以所有的癌症类型对中最低的信息排名标记每个区域。举例而言,若一区域是对区辨乳癌与肺癌第10名最能提供信息的区域,且是区辨乳癌与结肠直肠癌第5名最能提供信息的区域,则所述区域将被给予“5”的整体标签。所述分析系统可以自被标记为最低的数个区域开始设计数个探针,而将数个区域添加到所述检测组合,例如,直到所述检测组合的尺寸预算耗尽。

脱靶基因组区域:

在一些实施例中,针对数个选定的基因组区域的数个探针基于它们的脱靶区域的数量被进一步过滤475。这是为了筛检拉下太多对应于或衍生自脱靶基因组区域的cfDNA片段的探针。排除具有许多脱靶区域的探针可以通过减少脱靶率并增加一给定量的定序的目标覆盖而是有价值的。

一脱靶基因组区域是与一目标基因组区域具有足够的同源性的一基因组区域,使得衍生自数个脱靶基因组区域的DNA分子或片段杂合至设计以杂合至一目标基因组区域的一探针,并被所述探针拉下。一脱靶基因组区域可以是沿着具有至少80%、85%、90%、95%或97%的符合率的至少35bp、40bp、45bp、50bp、60bp、70bp或80bp对齐到一探针。在一些实施例中,一脱靶基因组区域是沿着具有至少90%符合率的至少45bp对齐到一探针的一基因组区域(或相同区域的经转换序列)。各种本领域中已知的方法可以被采用以筛检数个脱靶基因组区域。

彻底地搜索基因组以找到所有脱靶基因组区域可能是计算上具挑战性的。在一些实施例中,一k聚体播种策略(k-mer seeding strategy)(可以允许一个或多个错配)被结合到于所述种子位点的局部对齐。在此案例中,良好对齐的彻底搜寻可以基于k聚体长度、允许的错配的数量,以及于一特定位置的k聚体种子命中数而被保证。这需要于大量的位置进行动态编程局部对齐,因此此方式高度适合使用向量CPU指令(例如,AVX2、AVX512)及也可以在一个机器的许多核心之间,及在由一网络连接的许多机器之间被平行化。本领域的一般技术人员将认识到此方式的修改及变化可以为了辨识数个脱靶基因组区域的目的而被应用。

在一些实施例中,具有与数个脱靶基因组区域同源的序列,或包括多于一阀值数量的对应于或衍生自数个脱靶基因组区域的DNA分子的数个探针被自所述检测组合排除(或过滤)。举例而言,具有与数个脱靶基因组区域,或者对应于或衍生自来自多于30个、多于25个、多于20个、多于18个、多于15个、多于12个、多于10个或多于5个脱靶区域的脱靶基因组区域的DNA分子同源的序列的探针被排除。

在一些实施例中,取决于脱靶区域的数量,数个探针被分为2、3、4、5、6或更多个分离的组。举例而言,不与脱靶区域或者对应于或衍生自数个脱靶区域的DNA分子具有序列同源性的数个探针被分配到高质量组,与1至18个脱靶区域或者对应于或衍生自1至18个脱靶区域的DNA分子具有序列同源性的数个探针被分配到低质量组,且与多于19个脱靶区域或者对应于或衍生自19个脱靶区域的DNA分子具有序列同源性的数个探针被分配到差质量组。其它截止值可以被用于分组。

在一些实施例中,在所述最低质量组中的数个探针被排除。在一些实施例中,在不同于最高质量组的数个组别中的数个探针被排除。在一些实施例中,分别的检测组合为在各个组中的探针被制作。在一些实施例中,所有的探针被放上相同的检测组合,但分别的分析基于被分配的组别被执行。

在一些实施例中,一检测组合比起较低组别中的探针的数量,具有一较大数量的高质量探针。在一些实施例中,一检测组合包括比起在其它组中的数个探针的数量,具有一较小数量的差质量探针。在一些实施例中,在一检测组合中多于95%、90%、85%、80%、75%或70%的探针是高质量探针。在一些实施例中,一检测组合中少于35%、30%、20%、10%、5%、4%、3%、2%或1%的探针是低质量探针。在一些实施例中,一检测组合中少于5%、4%、3%、2%或1%的探针是差质量探针。在一些实施例中,没有差质量探针被包括在一检测组合中。

在一些实施例中,具有低于50%、低于40%、低于30%、低于20%、低于10%或低于5%的探针被移除。在一些实施例中,具有高于30%、高于40%、高于50%、高于60%、高于70%、高于80%或高于90%的探针被选择性地包括在一检测组合中。

使用癌症化验检测组合的方法:

在又一个方面,提供了使用一癌症化验检测组合(或者称为“诱饵组”)的方法。所述方法可以包括步骤:(例如,使用亚硫酸氢盐处理)处理数个DNA分子或数个片段,以将未甲基化的胞嘧啶转换为脲嘧啶,(如本文中描述地)将一癌症检测组合应用到所述经转换的DNA分子或片段,富集结合到在所述检测组合中的所述数个探针的经转换DNA分子或片段的一个次组合,并且定序被富集的cfDNA片段。在一些实施例中,所述数个序列读数可以与一参考基因组(例如,一人类参考基因组)比较,允许辨识在所述DNA分子或片段中的数个CpG位点处的甲基化状态,并且因此提供与癌症检测相关的信息。

序列读数的分析:

在一些实施例中,所述数个序列读数可以使用本领域中已知的方法被对齐到一参考基因组,以判定对齐位置信息。所述对齐位置信息可以指示在所述参考基因组中对应于一给定序列读数的一起始核苷酸碱基及结束核苷酸碱基的一起始位置及一结束位置。对齐位置信息可以亦包括序列读数长度,所述序列读数长度可以自所述起始位置及所述结束位置被判定。在所述参考基因组中的一区域可以与一基因或一基因的一片段相关联。

在各种实施例中,一序列读数包含被记为R1及R2的一读数对。举例而言,所述第一读数R1可以自一核酸片段的一第一末端被定序,而第二读数R2可以自所述核酸片段的一第二末端被定序。因此,所述第一读数R1及所述第二读数R2的数个核苷酸碱基对可以一致地(例如,以相反方向)被与所述参考基因组的核苷酸碱基对齐。衍生自所述读数对R1及R2的对齐位置信息可以包括对应于一第一读数(例如,R1)的一末端的,所述参考基因组中的一起始位置及对应于一第二读数(例如,R2)的一末端的,所述参考基因组中的一结束位置。换言之,在所述参考基因组中的所述起始位置及所述结束位置代表所述核酸片段对应的,在所述参考基因组中的可能位置。具有SAM(定序对齐地图)格式或BAM(二进位对齐地图)格式的一输出档案可以被产生并输出以供进一步分析。

自所述数个序列读数,每个CpG位点的位置及甲基化状态可以基于对齐到一参考基因组而被决定。进一步地,每个片段的一甲基化状态向量可以指定所述片段在一参考基因组中的一位置(例如,通过每个片段中的第一个CpG位点或其它类似的度量标准而被指定)、在所述片段中的数个CpG位点的数量、及在所述片段中的每个CpG位点的或者是甲基化(例如,记为M)、未甲基化(例如,记为U)、或中间(例如,记为I)的甲基化状态,而被产生。所述数个甲基化状态向量可以被存储在暂时或永久计算机记忆体中供之后使用及处理。进一步地,来自一单一对象的数个副本读数或副本甲基化状态向量可以被移除。在一额外的实施例中,一个特定的片段可以被判定为有一个或多个具有一中间甲基化状态的CpG位点。这样的数个片段可以自之后的处理被排除,或在下游的数据模型列入这样的中间甲基化状态时选择性地被包括。

图7B是根据一实施例的,定序一cfDNA片段以获得一甲基化状态向量的图7A的程序100的一绘示。作为一实施例,所述分析系统采取一cfDNA片段112。在此实施例中,所述cfDNA片段112包括三个CpG位点。如所展示的,所述cfDNA片段112的第一个及第三个CpG位点是甲基化114的。在所述处理步骤120中,未甲基化的第二CpG位点的胞嘧啶被转换为脲嘧啶。然而,所述第一及第三CpG位点不被转换。

在转换后,一序列文库130被制备并定序140,产生一序列读数142。所述分析系统将所述序列读数142对齐150到一参考基因组144。所述参考基因组144提供所述片段cfDNA源自一人类基因组中的何处的背景信息。在此简化示例中,所述分析系统将所述序列读数对齐150,而使三个CpG位点关联到CpG位点23、24及25(为了描述的便利,使用了任意的参考标志符)。所述分析系统因此产生在所述cfDNA片段112上的所有CpG位点的甲基化状态以及所述数个CpG位点绘制到所述人类基因组中的何处的信息。如所展示的,在序列读数142上的所述数个被甲基化的CpG位点被读作胞嘧啶。在此示例中,胞嘧啶在所述序列读数142中仅在所述第一及第三CpG位点出现,允许推断在所述原始cfDNA片段中的所述第一及第三CpG位点是甲基化的。所述第二CpG位点被读作一胸腺嘧啶(U在定序程序中被转换为T),且因此,可以推论所述第二CpG位点在原始cfDNA片段中是未甲基化的。以甲基化状态及位置这两条信息,所述分析系统为所述片段cfDNA 112产生160一甲基化状态向量152。在此示例中,作为结果的甲基化状态向量152是<M23,U24,M25>,其中M对应到一甲基化的CpG位点、U对应到一未甲基化的CpG位点,且下标的数字对应于每个CpG位点在所述参考基因组中的位置。

图8A至8B显示三个数据图,所述三个数据图验证一控制组定序的一致性。第一图170显示了从不同癌症阶段(第零期、第一期、第二期、第三期、第四期及非癌症阶段)的数个对象的一检测样本中获得的cfDNA片段上非甲基化胞嘧啶转化为尿嘧啶(步骤120)的转化准确性。如图所示,将cfDNA片段上的非甲基化胞嘧啶转化为尿嘧啶的过程具有一致性。总转换准确度为99.47%,精密度为±0.024%。第二图180比较了癌症不同阶段的覆盖率(定序深度)。仅计算可靠地映射到一参考基因组的数个序列读数,所有组的平均覆盖率为约34。第三图190显示了在癌症不同阶段的每个样本的cfDNA浓度。

癌症的侦测:

通过本文中所提供的方法获得的数个序列读数可以通过自动化演算法被进一步处理。举例而言,所述分析系统被用于接收来自一定序器的序列资料,并执行如本文中所描述的处理的各种面向。所述分析系统可以是一个人计算机(PC)、一台式计算机(desktopcomputer)、一膝上型计算机(1aptop computer)、一笔记本计算机(notbook)、一平板个人电脑(tablet PC)、一行动装置中的一者。一计算装置可以通过一无线、有线或无线与有线通信科技的一结合被通信地耦合至所述定序器。一般地,所述计算装置是配置为具有一处理器及一记忆体,所述记忆体存储数个计算机指令。当由所述处理器执行时,所述数个计算机指令造成所述处理器执行如同在本文件中其余部分所述的数个步骤。一般地,基因数据及自所述基因数据衍生的数据的量足够大,且所需的计算力如此大,以致不可能单纯在纸上或由人类心智执行。

数个目标基因组区域的数个甲基化状态的临床诠释是一程序,所述程序包括分类所述数个甲基化状态中的各者或所述数个甲基化状态的一组合的临床效果,及以对于一医疗专业人员而言有意义的方式报告结果。所述临床诠释可以基于所述数个序列读数与特定到癌症或非癌症对象的数据库的比较,及/或基于自一样本辨识的,具有癌症特定的甲基化模式的cfDNA片段的数量与类型。在一些实施例中,数个目标基因组区域基于它们在数个癌症样本中被差异地甲基化的可能性而被排名或分类,且所述排名或分类在所述诠释过程被使用。所述排名及分类可以包括(1)临床效果的类型、(2)所述效果的证据的强度、及(3)所述效果的大小。各种临床分析及基因组数据诠释的方法可以被用于所述数个序列读数的分析。在一些其它的实施例中,这样的数个不同地甲基化的区域的所述数个甲基化状态的所述临床诠释可以基于机器学习的方式,所述机器学习的方式基于一个分类或回归方法诠释一当前样本,所述分类或回归方法使用来自具有已知的癌症状态、癌症类型、癌症阶段及TOO等的癌症及非癌症患者的样本的,这样的数个不同地甲基化的区域的所述数个甲基化状态被训练。

临床意义信息可以包括癌症广泛而言的存在或不存在、特定类型的癌症的存在或不存在、癌症阶段、或者其它类型的疾病的存在或不存在。在一些实施例中,所述信息与一个或多个癌症类型的存在或不存在相关,所述一个或多个癌症类型选自由乳癌、子宫内膜癌、子宫颈癌、卵巢癌、膀胱癌、肾盂的尿路上皮癌、肾细胞癌、前列腺癌、肛门直肠癌、肛门癌、结肠直肠癌、肝细胞癌、肝/胆管癌、胆管癌与肝胆管癌、胰腺癌、上消化道鳞状细胞癌、食管鳞状细胞癌、头颈癌、肺癌、鳞状细胞肺癌、肺腺癌、小细胞肺癌、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、浆细胞肿瘤、多发性骨髓瘤、骨髓性肿瘤、淋巴瘤和白血病所组成的群组。在一些实施例中,所述信息与一个或多个癌症类型的存在或不存在相关,所述一个或多个癌症类型选自由子宫癌、上消化道鳞状癌、所有其他上消化道癌、甲状腺癌、肉瘤、尿路上皮肾癌、所有其他肾癌、前列腺癌、胰腺癌、卵巢癌、神经内分泌癌、多发性骨髓瘤、黑色素瘤、淋巴瘤、小细胞肺癌、肺腺癌、所有其他肺癌、白血病、肝胆癌(hepatobiliarycarcinoma,hcc)、肝胆管癌、头颈癌、结肠直肠癌、子宫颈癌、乳癌、膀胱癌和肛门直肠癌所组成的群组。在一些实施例中,所述信息与一个或多个癌症类型的存在或不存在相关,所述一个或多个癌症类型选自由肛门癌、膀胱癌、结肠直肠癌、食道癌、头颈癌、肝/胆管癌、肺癌、淋巴瘤、卵巢癌、胰腺癌、浆细胞肿瘤和胃癌所组成的群组。在一些实施例中,所述信息与一个或多个癌症类型的存在或不存在相关,所述一个或多个癌症类型选自由甲状腺癌、黑色素瘤、肉瘤、骨髓性肿瘤、肾癌、前列腺癌、乳癌、子宫癌、卵巢癌、膀胱癌、尿路上皮癌、子宫颈癌、肛门直肠癌、头颈癌、结肠直肠癌、肝癌、胆管癌、胰腺癌、胆囊癌、上消化道癌、多发性骨髓瘤、淋巴瘤和肺癌所组成的群组。在一些实施例中,所述数个样本并非癌性的,并且是来自具有白血球克隆性扩张或没有癌症的对象。

癌症分类器:

在一些实施例中,在本文中描述的化验检测组合可以与一癌症类型分类器被使用,所述癌症类型分类器为一样本预测一疾病状态,比如一癌症类型或非癌症类型预测,一来源组织预测,及/或中间预测,在一些实施例中,所述癌症类型分类器可以基于数个序列读数,通过计入位于特定的感兴趣的基因组区域处的DNA的数个甲基化及未甲基化片段而产生数个特征。举例而言,若所述癌症类型分类器判定在一片段处的一甲基化模式类似一特定癌症类型的甲基化模式,则所述癌症类型分类器可以将该片段的一特征设为1,且若不存在这样的片段,则所述特征可以被设为0。以此方式,所述癌症类型分类器可以为每个样本制造一组二元特征(仅为示例,30000个特征)。进一步地,在一些实施例中,一样本的所述一组二元特征中的所有或一部分可以被输入到所述癌症类型分类器中以提供一组机率分数,比如每个癌症类型类别及一个非癌症类型类别的一个机率分数。进一步地,在一些示例中,所述癌症类型分类器可以整合阀值或与阀值一同被使用,以决定一样本是否应被称为癌症或非癌症及/或中间阀值,以反映对特定TOO称谓的置信度。这样的方法在下文中被进一步描述。

为了训练所述癌症类型分类器,所述分析系统(例如,分析系统800,图12B)可以获得一组训练样本。在一些实施例中,每个训练样本包括(数个)片段档案(例如,含有序列读数数据的数个档案)、一个标签,对应于所述样本的一个类型的癌症(TOO)或非癌症状态、及/或所述样本的所述个体的性别。所述分析系统可以应用所述训练组训练所述癌症类型分类器,以预测所述样本的疾病状态。

在一些实施例中,为了训练,所述分析系统将所述基因组(例如,全基因组)或所述基因组的一次组合(例如,数个目标甲基化区域)分为数个区域。仅以示例性的方式,所述基因组的数个部分可以被分为数个CpG的“区块(blocks)”,而一个新的区块在有最接近的相邻CpG之间的距离至少是一最小分离距离(例如,至少500bp)时开始。进一步地,在一些实施例中,每个区块可以被分为数个1000bp的区域,且被定位而使相邻的数个区块有一定量的(例如,50%或500bp的)重叠。

进一步地,在一些示例中,所述分析系统可以将所述训练组分为K个次组合或折(folds),所述K个次组合或折将被用在一K折交叉验证中。在一些实施例中,所述数个折可以为癌症/非癌症状态、来源组织、癌症阶段、年龄(例如,以10年的数个桶(buckets)分组)、及/或吸烟状态而被平衡。在一些示例中,所述训练组被分成5个折,由此训练了五个分离的分类器,在每个案例中,在所述数个训练样本的4/5上进行训练并使用剩余的1/5供验证。

在以所述训练组训练时,所述分析系统可以对于每个癌症类型(及对于健康cfDNA),将一个机率模型拟合至衍生自该类型的样本的数个片段。如本文中所使用,一“机率模型”是任何数学模型,所述数学模型能够基于一序列读数上的一个或多个位点处的甲基化状态,将一机率指定到所述序列读数。在训练时,所述分析系统拟合衍生自具有一已知疾病的数个对象的一个或多个样本的数个序列读数,且可以被用于应用甲基化信息或数个甲基化状态向量,判定指示一疾病状态的数个序列读数可能性。特别地,在一些案例中,所述分析系统对于在一序列读数中的每个CpG位点决定观察到的甲基化比率。所述甲基化比率代表在一CpG位点中被甲基化的碱基对的比例或百分率。所述经训练的机率模型可以由所述数个甲基化比率的乘积参数化。一般地,用于将数个机率指定到来自一样本的数个序列读数的任何已知的机率模型可以被使用。举例而言,所述机率模型可以是一个二元模型,在所述二元模型中,在一核酸片段上的每个位点(例如,CpG位点)被指定一个甲基化的机率,或可以是一个独立位点模型,在所述独立位点模型中,每个CpG的甲基化由一个不同的甲基化机率指定,而一个位点处的甲基化被假定为独立于所述核酸片段上的一个或多个其它位点处的甲基化。

在一些实施例中,所述机率模型是一马可夫模型,在所述马可夫模型中,在每个CpG位点处的甲基化的所述机率是依赖于在所述序列读数中,或者在所述序列读数从其衍生的核酸分子中的一些数量的在前的CpG位点处的甲基化状态。参见例如,通过引用以其整体被并入本文中且可以被用于各种实施例的,标题为“异常片段侦测及分类”并于2019年3月13日递交的美国专利申请第16/352,602号。

在一些实施例中,所述机率模型是一个“混合模型”,使用来自数个下层模型的成分的一混合被拟合。举例而言,在一些实施例中,所述数个混合成分可以使用多个独立位点模型被判定,而于每个CpG位点处的甲基化(例如,甲基化的比率)被假定为独立于其它CpG位点位点处的甲基化。应用一独立位点模型,被指定到一序列读数,或到所述序列读数从其衍生的所述核酸分子的一机率,是序列读数被甲基化处的每个CpG位点的甲基化机率与一减去序列读数未被甲基化处的每个CpG位点的甲基化机率的乘积。根据此示例,所述分析系统判定所述数个混合成分中的各者的甲基化比率。所述混合模型是通过所述数个混合成分的一总和被参数化,所述数个混合成分中的各者各与所述数个甲基化比率的一个乘积相关联。n个混合成分的一机率模型Pr可以由下述代表:

对于一输入片段,mi∈{0,1}代表所述片段于一参考基因组的位置i的被观察到的甲基化状态,0指示未甲基化且1指示甲基化。对每个混合成分k的分数分配值是fk,其中fk≥0且混合成分k的一CpG位点中的位置i处的甲基化机率是βki。因此,未甲基化的机率是1-βki。混合成分的数量n可以是1、2、3、4、5、6、7、8、9、10等。

在一些实施例中,所述分析系统使用最大可能性估计拟合所述机率模型,以辨识一组参数{βki,fk},所述一组参数{βki,fk}最大化所有衍生自一疾病状态,受到以正规化(regularization)强度r施加到每个甲基化机率的一正规化惩罚的片段的对数可能性。N个总片段的经最大化的量值可以被表示为:

在一些示例中,所述分析系统分别地对每个癌症及对健康cfDNA执行拟合。如本领域的技术人员将理解的,其它方式可以被用于拟合所述数个机率模型,或者被用于辨识数个参数,所述数个参数最大化衍生自所述数个参考样本的所有序列读数的对数可能性。举例而言,在一些实施例中,使用了贝叶斯拟合(Bayesian fitting)(使用例如,马可夫链蒙特卡罗法(Markov chain Monte Carlo)),在其中每个参数不是被指定一单一数值,而是与一分布相关联。在一些实施例中,使用了基于梯度的优化(gradient-basedoptimization),其中关于所述数个参数数值的所述可能性(或对数可能性)被使用,以逐步经过参数空间趋向最适。在另一些实施例中,预期性最大化,其中一组潜在参数(例如,每个片段中其中衍生而出的所述混合物成分的身份)被设置为它们在先前的数个模型参数下的预期性,接着在这些潜在变量的假设值的条件下,模型参数被指定以最大化可能性。所述两步骤的程序接着被重复直到收敛。

进一步地,在一些示例中,所述分析系统可以对在所述训练组中的每个样本产生数个特征。举例而言,对于每个样本(无论标签),在每个区域中,对每个癌症,对每个片段,所述分析系统可以根据下述算式以经拟合的数个机率模型评估所述对数可能性比率R:

接着,对于每个样本,对于每个区域,对于每个癌症类型,对于每组“层(tier)”数值,所述分析系统可以计数具有R癌症类型>层的片段的数量,并将那些计数指定为非负整数值特征。举例而言,所述数个层包括1、2、3、4、5、6、7、8及9的阀值,导致每个癌症类型对每个癌症有9个特征。

在一些实施例中,所述分析系统可以选择特定特征,用于包括到每个样本的一特征向量中。举例而言,对于每对不同的癌症类型,所述分析系统可以指定一个类型为“阳性类型”,及另一个为“阴性类型”,并通过所述数个特征区辨这些类型的能力排名所述数个特征。在一些案例中,所述排名是基于由所述分析系统计算的互信息。举例而言,所述互信息可以使用所述阳性类型及所述阴性类型(例如,癌症类型A及B)的数个样本的估计比例被计算,对于这些样本,所述特征在一结果化验中被预期为非零。举例而言,若一特征在健康的cfDNA中频繁发生,所述分析系统判定所述特征不太可能频繁出现在与各种类型的癌症相关联的cfDNA中。因此,所述特征于在数个疾病状态之间进行区辨时可能是一弱标准。在计算互信息I时,变数X是一特定特征(例如,二元特征)且变数Y代表一疾病状态,例如,癌症类型A或B:

p(1|A)=fA+fH-fHfA

X及Y的联合机率质量函数是p(x,y),且边际机率质量函数是p(x)及p(y)。所述分析系统可以先验地假定特征缺失是无信息的(uninformative)且每种疾病状态是同等地可能的,举例而言,p(Y=A)=p(Y=B)=0.5。(例如,在cfDNA中)观察到癌症的一给定二元特征的机率A是由p(1|A)表示,而fA是在来自与癌症A相关联的肿瘤的ctDNA样本(或高信号cfDNA样本)中观察到所述特征的机率,且fH是在一健康或非癌症的cfDNA样本中观察到所述特征的机率。

在一些实施例中,仅有对应于所述阳性类型的特征被包括在所述排名中,且仅当这些特征的预测发生比率在所述阳性类型中比在所述阴性类型中高时才被包括在所述排名中。举例而言,若“肝”是所述阳性类型,且“乳房”是所述阴性类型,则只有“肝_x”特征被考虑,且仅当它们在肝cfDNA中的预计发生率大于它们在乳房cfDNA中的预计发生率时才被考虑。进一步地,在一些实施例中,对于每个区域,对于每个癌症类型对(包括作为一负向类型的癌症),所述分析系统仅保持表现最佳的层。进一步地,在一些实施例中,所述分析系统通过二元化而转换数个特征数值,从而任何大于0的特征数值被设定为1,而使所有的特征是0或1。

在一些示例中,所述分析系统在一折的训练资料上训练一多项式逻辑回归分类器,并为保持除外的资料产生预测。举例而言,对于所述K个折当中的各者,一个逻辑回归可以为数个超参数(hyperparameter)的每个组合被训练。这样的数个超参数可以包括L2惩罚及/或topK(例如,如由上文概述的互信息程序排名的,每个组织类型对(包括非癌症)保留的高排名区域的数量)。对于每对超参数,表现在完整训练组的交叉验证预测上被评估,且有最佳表现的超参数组被选择,用于在完整训练组上重新训练。在一些示例中,所述分析系统使用对数损失作为一表现度量标准,因而所述对数损失是通过对每个样本的正确标签的预测取负对数,接着在数个样本之间加总而被计算(亦即,对于正确标签的一完美预测1.0,将给出0的对数损失)。

为了产生对一新样本的预测,数个特征值使用上文所描述的相同的方法被计算,但缩限到在选定的topK值下被选择的数个特征(区域/阳性类别组合)。被产生的数个特征接着被用于使用上文中训练的逻辑回归模型创造一预测。

在一些实施例中,所述分析训练一个两阶段分类器。举例而言,所述分析系统基于所述数个训练样本的所述数个特征向量训练一个二元癌症分类器,以在所述数个标签、癌症及非癌症之间进行区辨。在此案例中,所述二元分类器输出一预测分数,所述预测分数指示癌症的存在或不存在的可能性。在另一实施例中,所述分析系统训练一个多类别癌症分类器在许多癌症类型之间进行区辨。在此多类别癌症分类器中,所述癌症分类器被训练以决定一癌症预测,所述癌症预测包括对其被分类的所述数个癌症类型中的各者的一个预测值。所述数个预测值可以对应于一个给定的样本具有所述数个癌症类型中的各者的一可能性。举例而言,所述癌症分类器返回一癌症预测,所述癌症预测包括乳癌、肺癌及非癌症的一预测值。举例而言,所述癌症分类器可以返回对一检测样本的一癌症预测,所述癌症预测包括对乳癌、肺癌及/或非癌症的一预测分数。

所述分析系统可以根据数个方法中的任何一个训练所述癌症分类器。作为一示例,所述二元癌症分类器可以是使用一对数损失函数被训练的一L2正规化逻辑回归分类器。作为另一示例,所述多癌症(TOO)分类器可以是一个多项式逻辑回归。在应用中,两个类型的癌症分类器皆可以使用其它技术被训练。这些技术为数众多,包括核方法(kernelmethod)、机器学习演算法比如多层神经网络等的潜在应用。特别地,如在通过引用以其整体被并入本文中的PCT/US2019/022122及美国专利申请第16/352,602号中被描述的方法,可以被用于各种实施例。此外,在一些示例中,所述TOO分类器仅在被所述二元分类器成功称为癌症的样本上进行训练。另一方面,在一些示例中,所述二元分类器在除了TOO以外的训练样本上进行训练。

示例性的定序器及分析系统:

图12A是用于根据一实施例定序数个核酸样本的数个系统及装置的一流程图。此例示性的流程图包括数个装置,比如一个定序器820及一分析系统800。所述定序器820及所述分析系统800可以协同工作,以执行本文中描述的程序中的一个或多个步骤。

在各种实施例中,所述定序器820接收一个经富集的核酸样本810。如图12A所示,所述定序器820可以包括一个图像式用户介面825及一个或多个装载站830,所述图像式用户介面825在特定作业(例如,起始定序或终止定序)允许使用者互动,所述一个或多个装载站830用于装载一定序盒(sequencing cartridge),所述定序盒包括数个经富集的片段样本及/或用于装载用于执行所述定序化验的必要缓冲液。因此,一旦所述定序器820的一使用者将必要的反应试剂及定序盒提供到所述定序器820的所述装载站830,所述使用者可以通过与所述定序器820的所述图像式用户介面825互动而起始定序。一旦被起始,所述定序器820执行定序并自所述核酸样本810输出所述数个经富集的片段的序列读数。

在一些实施例中,所述定序器820是与所述分析系统800通信地耦合。所述分析系统800包括一些数量的计算装置,用于为各种应用处理所述数个序列读数,比如评估于一个或多个CpG位点处的甲基化状态、变数呼叫或质量控制。所述定序器820可以将BAM档案格式的所述数个序列读数提供至所述分析系统800。所述分析系统800可以被经由一无线的、有线的或两者的一结合的通信科技被耦合到所述定序器820。一般地,所述分析系统800是配置有一处理器及一非暂时性计算机可读存储介质,所述非暂时性计算机可读存储介质存储数个计算机指令。当由所述处理器执行时,所述数个计算机指令造成所述处理器执行本文中揭示的数个方法或程序中的任一者的一个或多个步骤。

在一些实施例中,所述数个序列读数可以使用本领域中已知的方法被对齐到一参考基因组,以判定对齐位置信息。对齐位置可以大致描述对应于一给定序列读数的一起始核苷酸碱基及一结束核苷酸碱基的,在所述参考基因组中的一区域的一起始位置及一结束位置。对应于甲基化定序,所述对齐位置信息可以被概括以根据对所述参考基因组的对齐,指示被包括在所述序列读数中的一个第一CpG位点及一个最后CpG位点。所述对齐位置信息可以进一步指示在一给定的序列读数中的所有CpG位点的甲基化状态及位置。在所述参考基因组中的一区域可以被与一基因或者一基因的一段落相关联。如此,所述分析系统800可以对齐到一序列读数的一个或多个基因标记所述序列读数。在一实施例中,片段长度(或尺寸)是自起始及结束位置被判定。

在各种实施例中,举例而言,当一配对端定序程序被使用时,一个序列读数包括被记为R_1及R_2的一个读数对。举例而言,所述第一读数R_1可以被定序自一双股DNA(dsDNA)分子的一个第一端,而所述第二读数R_2可以被定序自所述双股DNA(dsDNA)的一个第二端。因此,所述第一读数R_1及所述第二读数R_2的数个核苷酸碱基对可以被一贯地(例如,以相反的朝向)与所述参考基因组的核苷酸碱基对齐。衍生自所述读数对R_1及R_2的对齐位置信息可以包括对应于一第一读数(例如,R_1)的一端的,在所述参考基因组中的一个起始位置,以及对应于一第二读数(例如,R_2)的一端的,在所述参考基因组中的一个结束位置。换句话说,在所述参考基因组中的所述起始位置及所述结束位置代表所述核苷酸片段在所述参考基因组中对应到的可能位置。在一实施例中,所述读数对R_1及R_2可以被组合为一片段,且所述片段被用于后续的分析及/或分类。具有SAM(定序对齐地图)格式或BAM(二元)格式的一个输出档案可以被产生并被输出供进一步分析。

现在参考图12B,图12B是用于根据一实施例处理DNA样本的一分析系统800的一方块图。所述分析系统应用一个或多个计算装置,所述一个或多个计算装置是供用在分析数个DNA样本。所述分析系统800包括一个序列处理器840、序列数据库845、模型数据库855、数个模型850、参数数据库865及评分引擎860。在一些实施例中,所述分析系统800执行图3A的程序300、图3B的程序340、图4的程序400、图5的程序500、图6A的程序600或图6B的程序680及本文中描述的其它程序中的一个或多个步骤。

所述序列处理器840对来自一样本的数个片段产生数个甲基化状态向量。在一片段上的每个CpG位点处,所述序列处理器840经由图3A的所述程序300为每个片段产生一甲基化状态向量,所述甲基化状态向量指定所述片段在所述参考基因组中的位置、在所述片段中的CpG位点的数量,及在所述片段中的每个CpG位点的甲基化状态是甲基化、未甲基化或中间。所述序列处理器840可以将数个片段的甲基化状态向量存储在所述序列数据库845中。在所述序列数据库845中的数据可以被组织,使得来自一个样本的所述数个甲基化状态向量彼此关联。

进一步地,多个不同的模型850可以被存储在所述模型数据库855中,或被回收供用于数个检测样本。在一实施例中,一模型是一个经训练的癌症分类器,用于使用衍生自数个异常片段的一特征向量为一检测样本决定一癌症预测。所述癌症分类器的训练及使用在本文中它处被讨论。所述分析系统800可以训练一个或多个模型850并将各种训练参数存储在所述参数数据库865中,所述分析系统800将所述数个模型850连同数个函数存储在所述模型数据库855中。

在推论时,所述评分引擎860使用所述一个或多个模型850以返回输出。所述评分引擎860访问在所述模型数据库855中的所述数个模型850连同来自所述参数数据库865的数个经训练的参数。根据每个模型,所述参数引擎接收对每个模型而言适宜的一输入并基于接收的输入计算一输出,所述数个参数及每个模型的一函数关联所述输入及所述输出。在一些使用案例中,所述评分引擎860进一步地计算数个度量标准,所述数个度量标准与对来自所述模型的被计算的输出的一置信度相关联。在其它使用案例中,所述评分引擎860计算其它用于所述模型中的中间数值。

癌症及治疗监测:

在特定实施例中,第一时间点是在癌症治疗之前(例如,在切除手术或治疗干预之前),第二时间点是在癌症治疗之后(例如,在切除手术或治疗干预之后),以及所述方法是用于监测治疗有效性。例如,如果第二个可能性或机率分数(probability score)比第一个可能性或机率分数降低,则认为治疗成功。然而,如果第二个可能性或机率分数比第一个可能性或概率数分增加,则认为治疗不成功。在其他实施例中,第一时间点及第二时间点均在癌症治疗之前(例如,在切除手术或治疗干预之前)。在其它实施例中,第一时间点及第二时间点均在癌症治疗之后(例如,在切除手术或治疗干预之前),并且所述方法用于监测治疗的有效性或治疗的有效性损失。在其它实施例中,可在第一时间点及第二时间点从一癌症患者获得cfDNA样本并进行分析,例如,监测癌症进展,以确定癌症是否处于缓解期(例如:治疗后),监测或检测残留疾病或疾病复发,或监测治疗(例如:治愈)效果。

本领域技术人员将很容易理解,可以在任何期望的时间点从一癌症患者处获得检测样本,并根据本发明的方法进行分析,以监测患者的一癌症状态。在一些实施例中,所述第一时间点及第二时间点由从约15分钟到约30年(例如,约30分钟)范围内的一段时间,例如,约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23或约24小时;例如,约1、2、3、4、5、10、15、20、25或约30天,或例如约1、2、3、4、5、6、7、8、9、10、11或12个月,或例如约1、1.5、2、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29.5或大约30年。在其他实施例中,可至少每3个月一次、至少每6个月一次、至少每年一次、至少每2年一次、至少每3年一次、至少每4年一次、或至少每5年一次从患者处获得检测样本。

治疗:

在另一个实施例中,从本文所述的任何方法获得的信息(例如,可能性或机率分数)可用于做出或影响一临床决策(例如,癌症诊断、治疗选择、治疗效果评估等)。例如,在一个实施例中,如果可能性或机率分数超过一阈值,则医生可以开出适当的治疗方案(例如,切除手术、放射治疗、化疗及/或免疫治疗)。在一些实施例中,诸如可能性或机率分数之类的信息可以作为读数提供给医生或对象。

分类器(如本文所述)可用于确定一样本特征向量来自具有癌症的一对象的可能性或机率分数。在一个实施例中,当可能性或概率超过阈值时,给出一适当的治疗(例如,切除手术或治疗性治疗)。例如,在一个实施例中,如果可能性或机率分数大于或等于60,则给出一个或多个适当的治疗。在另一实施例中,如果可能性或机率分数大于或等于65、大于或等于70、大于或等于75、大于或等于80、大于或等于85、大于或等于90、或大于或等于95,则给出一种或多种适当的治疗。在其他实施例中,一癌症对数优势比(cancer log-oddsratio)可指示癌症治疗的有效性。例如,癌症对数优势比随着时间增加(例如,在治疗后的第一秒)可能表示治疗无效。类似地,癌症对数优势比随着时间降低(例如,在治疗后的第一秒)可能表示治疗成功。在另一实施例中,如果癌症对数优势比大于1、大于1.5、大于2、大于2.5、大于3、大于3.5、或大于4,则给出一种或多种适当的治疗。

在一些实施例中,所述治疗是一种或多种癌症治疗剂,所述癌症治疗剂是选自由一化学治疗剂、一靶向癌症治疗剂、一分化治疗剂、一激素治疗剂及一免疫治疗剂所组成的群组。例如,所述治疗剂可以是一种或多种化学治疗剂,所述化学治疗剂选自由烷化剂、抗代谢物、蒽环类、抗肿瘤抗生素、细胞骨架破坏剂(taxan)、拓扑异构酶抑制剂、有丝分裂抑制剂、皮质激素、激酶抑制剂、核苷酸类似物以及铂类制剂及其中的任意组合所组成的群组。在一些实施例中,所述治疗是一种或多种靶向癌症治疗剂,所述靶向癌症治疗剂是选自由信号转导抑制剂(例如,酪氨酸激酶及生长因子受体抑制剂)、组蛋白去乙酰化酶(HDAC)抑制剂、维甲酸受体激动剂、蛋白体抑制剂、血管生成抑制剂及单克隆抗体结合物所组成的群组。在一些实施例中,所述治疗是一种或多种分化治疗剂,所述分化治疗剂包括维甲酸,例如,维生素A酸、阿利维甲酸及贝沙罗汀。在一些实施例中,所述治疗是一种或多种激素治疗剂,所述激素治疗剂是选自由抗雌激素、芳香酶抑制剂、孕激素、抗雄激素、促性腺激素释放激素激动剂或类似物所组成的群组。在一些实施例中,所述治疗是一种或多种免疫治疗剂,所述免疫治疗剂是选自包括单克隆抗体疗法(如利妥昔单抗(RITUXAN)及阿伦单抗(CAMPATH))、非特异性免疫疗法及佐剂(如卡介苗、白细胞介素-2(IL-2)及α干扰素)、免疫调节药物(如沙利度胺及来那度胺(REVLIMID))的群组。熟练的医生或肿瘤学家有能力根据肿瘤的类型、癌症阶段、以前接触过的癌症治疗或治疗剂以及癌症的其他特征来选择适当的癌症治疗剂。

示例:

下列的数个示例被提出,以提供本领域的一般技术人员如何制造及使用本揭示的一完整揭示及描述,且并非意在限制发明人视为其描述之物的范围,也并非意在代表下列的实验是所有的或仅有的被执行的实验。做出了努力以确保对于所使用的数字(例如,用量、温度等)的精确性,但一些实验误差及偏差应被考虑。

示例1:探针量值的分析

为了测试在一cfDNA片段及一探针之间需要有多少重叠以达成一不可忽略量的拉下,各种长度的重叠使用设计以包括三个不同类型的探针(VID3、VID4、VIE2)的检测组合被测试。所述三个不同类型的探针与对每个探针有专一性的数个175bp目标DNA片段有各种重叠。被测试的重叠范围在0bp及120bp之间。包括175bp目标DNA片段的数个样本被施用到所述检测组合并被清洗,接着连结到所述数个探针的数个DNA片段被收集。被收集的数个DNA片段的量被测量,且所述量被作为密度对重叠的尺寸作图,如在图10中提供的。

当少于45bp重叠时,没有目标DNA片段的显着结合与拉下。这些结果显示,一般需要至少45bp的一片段-探针重叠以达成一不可忽略量的拉下,虽然视化验条件,此数字可能会改变。

进一步地,被显示的是,在重叠的区域中于所述探针及片段序列之间多于10%的错配率足以大幅干扰结合,并因此干扰拉下效率。因此,可以沿着至少45bp以至少90%的配对率对齐到所述探针的数个序列是脱靶拉下的候选者。

因此,我们对每个探针执行了具有90%+配对率的45bp对齐的所有基因组区域(亦即,脱靶区域)的一穷举搜寻。特定地,我们结合了一k聚体播种策略(这可允许一个或多个错配)与数个种子位置处的局部对齐。这保证基于k聚体长度、允许的错配数量与一特定位置的k聚体种子命中数量,没有错失任何良好的对齐。这涉及在大量的位置执行动态编程局部对齐,因此此方式适于使用向量CPU指令(例如,AVX2、AVX512)及在一个机器的许多核心之间,及在由一网络连接的许多机器之间被平行化。这允许在设计一高表现检测组合(亦即,低脱靶率及对于一给定量的定序的高目标覆盖率)时有价值的一穷举搜寻。

在所述穷举搜寻后,每个探针基于脱靶区域的数量被评分。大多数的探针具有1的一分数,意指它们仅符合到一处。具有2至19之间的分数的数个探针被接受但具有多于20分数的数个探针被废弃。其他截止值可被用于特定样本。靶向过甲基化区域的探针往往比靶向其他区域的探针具有更少的脱靶区域。

示例2:目标基因组区域的注释

对通过图4中概述的所述过程确定的目标基因组区域进行分析,以了解目标区域的特征。具体而言,选定的目标基因组区域与一参考基因组对齐,以确定数个对齐位置。收集每个被选定的目标基因组区域的对齐位置信息,所述对齐位置信息包括:染色体数目、起始核苷酸碱基、终止核苷酸碱基以及给定基因组区域的基因组注释。目标基因组区域位于内含子、外显子、基因间区域、5’UTR、3’UTR或控制区域,如启动子或增强子。在图11中提供的图表中统计并绘制了每个基因组注释内的目标基因组区域的数量。图11还比较了每个基因组注释内被选择的目标基因组区域(黑条)的数量或被随机选择的基因组区域(灰条)的数量。

所述分析表明,被选择的目标基因组区域在其基因组分布上不是随机的,与相同尺寸的被随机选择的目标相比,被选择的目标基因组区域对调控元件及功能元件(如启动子及5’UTR)的富集度更高,基因间序列的代表性更少。例如,发现目标基因组区域位于启动子、5’UTR、外显子、内含子/外显子边界、内含子、3’UTR或增强子,而不是基因间区域。

示例3:用于侦测癌症及癌症类型的癌症化验检测组合

用于基因组区域选择的样本:这项工作的DNA样本来自不同来源。

循环游离细胞基因组图谱研究(CCGA;Clinical Trial.gov identifier(NCT02889978)是一项前瞻性、多中心、病例对照、具有纵向随访的观察性研究。从142个地点的约15000名参与者中收集未鉴定的生物样本。选择样本是为了确保每个群体中癌症类型及非癌症的一预先指定分布,以及癌症及非癌症样本按性别进行了频率年龄匹配。

癌症基因组图谱(“TCGA”;Clinical Trial.gov identifier NCT02889978)是国家癌症研究所(NCI)与国家人类基因组研究所(NHGRI)合作开发的公共资源。

分离的肿瘤细胞(DTC)从Conversant公司获得。

非癌细胞由Yuval Dor及Ben Glaser(希伯来大学)提供,并且来源于标准临床程序获得的人体组织。例如,乳腺管腔及基底上皮细胞来自乳房缩小手术;结肠上皮细胞来自局部结肠病理节段切除后再植入部位附近的组织;骨髓细胞来自关节置换术;血管及动脉内皮细胞来源于血管外科手术;头颈部上皮来自扁桃体切除术。

WGBS是对超过1000个基因组DNA样本进行的,这些样本是从健康个体及被诊断具有不同阶段癌症的个体以及来源组织中采集的。所述样本包括甲醛固定、石蜡包埋(FFPE)组织块、不同TOO的癌症的播散性肿瘤细胞(DTC)、骨髓单个核细胞(BMMC)、白细胞(WBC)及外周血单个核细胞(PBMC)。在分离gDNA之前,使用阴性选择试剂盒对数个DTC进行阴性选择,以去除数个WBC、数个成纤维细胞及数个内皮细胞。阴性选择产生数个纯化的肿瘤细胞,使差异甲基化区域得到更清晰的识别。

所述TCGA数据是通过将8809份样本中的亚硫酸氢盐转化的DNA片段杂合至数个甲基化敏感寡核苷酸阵列而收集的。本研究中的β值代表480000个CpG位点甲基化的相对丰度。在使用数个交叉杂合探针(45000)排除噪声基因组区域(360000)的CpG和CpG位点后,分析了75000个CpG位点。所述TCGA数据使用不同的算法进行分析,因为所述TCGA数据描述了个别CpG位点的甲基化,而WGBS数据揭示了数个DNA片段上相邻CpG位点的数个串的甲基化模式。

来源组织的类别:每个样本被分为二十五(25)个不同来源组织(TOO)类别(即癌症类型)中的一个:乳癌、子宫癌、子宫颈癌、卵巢癌、膀胱癌、肾盂的尿路上皮癌、尿路上皮以外的肾癌、前列腺癌、肛门直肠癌、结肠直肠癌、肝细胞引起的肝胆癌、肝细胞以外的细胞引起的肝胆癌、胰腺癌、上消化道鳞状细胞癌、鳞状细胞癌以外的上消化道癌、头颈癌、肺腺癌、小细胞肺癌、鳞状细胞肺癌及腺癌或小细胞肺癌以外的癌症、神经内分泌癌、黑色素瘤、甲状腺癌、肉瘤、多发性骨髓瘤、淋巴瘤和白血病。在过滤掉液体、大脑、小肠、阴道及外阴以及阴茎及睾丸之后,这些TOO类别也涵盖了由监测、流行病学及最终结果计划(SEER;seer.cancer.gov)报导的癌症发病率的97%。罕见发生的癌症,如肉瘤及神经内分泌癌被汇总以防止分类错误。国际肿瘤疾病分类(ICD-O-3)的部位、形态及性态码以及世界卫生组织(WHO)的部位命名被用于将个别样本分类为数个TOO类别。例如,如表1所示,34项TCGA研究被映射到25个TOO类别。根据观察到的分类表现,对TOO类别进行迭代地优化。

表1:数个TCGA类型的来源组织(TOO)类别

区域选择:对于目标选择,使用如本文中所描述的一个或多个方法选择数个癌症样本中具有异常甲基化模式的数个片段。这些方法的使用允许辨识数个低噪声区域作为推定目标。在这些低噪声区域中,在区别癌症类型上最能提供信息的数个片段被排名并选择。

特定地,在一些实施例中,当WGBS数据被使用时,在所述数据库中的数个片段序列使用一非癌症分布,基于p值被过滤,且仅有具有小于0.001的p值的片段被保留,如本文中所描述的。在一些案例中,所述数个被选择的cfDNA被进一步过滤,仅保留至少90%甲基化或90%未甲基化的cfDNA。接着,对于在所述被选择的片段中的每个CpG位点,包括与该CpG位点重叠的片段的癌症样本或非癌症样本的数量被计算。特定地,对于每个CpG的P(癌症|重叠片段)被计算,且具有高P值的数个基因组位点被选作一般癌症目标。通过设计,所述数个被选择的片段具有非常低的噪声(亦即,少有非癌症片段重叠)。为了寻找数个癌症类型特定目标,类似的选择过程被执行。数个CpG位点基于它们的信息增益被排名,比较(i)一特定TOO的数个样本或其它样本的数量,所述其它样本包括数个非癌症样本及一不同的TOO的样本、(ii)一特定TOO的数个样本或数个非癌症样本的数量,及/或(iii)一特定TOO的数个样本或不同的TOO的样本的数量,所述不同的TOO的样本包括与该CpG位点重叠的数个片段。所述程序被应用到所述25个TOO中的各者,且所述比较对所述25个TOO的所有成对组合被完成。举例而言,P(TOO的癌症|重叠片段)被计算,并接着被与P(不同的TOO的癌症|重叠片段)比较。选择每个TOO中的一离群片段作为TOO的一目标,该离群片段在一TOO的癌症下比在一不同的TOO的癌症下具有更大的可能性。因此,通过成对比较选择的基因组区域包括差异甲基化的基因组区域,以分离一目标TOO及一对照TOO。

根据上述标题为“计算从机率模型识别的癌症指示片段中获得的成对信息”的一章节中所述的方法选择额外的目标基因组区域。在图13中提供用于区分每个目标TOO(x轴)及一对比TOO(y轴)的基因组区域数量。

当使用TCGA数据时,指示甲基化强度的CpGβ值用于识别目标基因组区域。这是因为阵列数据不在CpG位点级别,因此它们容易导致伪阳性。为了避免伪阳性,CpG位点被转换成横跨所述基因组的350bp的二进制文件(bins)。每个二进制文件的β值被计算为该二进制文件中CpGβ值的平均值。小于2个CpG的二进制文件被排除在分析之外。接着,在(i)一特定TOO及其他数个样本之间的β差值大于0.95的二进制文件被选择,其中所述其他数个样本包括非癌症样本及不同的TOO的样本,在(ii)一特定TOO及非癌症样本之间的β差值大于0.95的二进制文件被选择,及/或在(iii)一特定TOO及不同TOO的数个样本之间的β差值大于0.95的二进制文件被选择,其中所述不同的TOO包括重叠该CpG位点的数个片段。

然后根据4.4.7中规定的脱靶基因组区域的数量过滤如上所述选择的数个基因组区域。具体而言,具有>=45bp且与>=90%同一性对齐的数个基因组位置的数量被计算为脱靶基因组区域的数量。具有超过20个脱靶基因组区域的基因组区域被丢弃。

如本节所述被选择的各种目标基因组区域的列表如表2所示。这些列表具有差异但重叠数个目标基因组区的数个组。它们在目标基因组区域的总数、目标基因组区域的总长度以及目标基因组区域的染色体位置上存在差异。列表1至3为小型、中型及大型检测组合。列表4至16的所述数个目标基因组区域具有在列表3的所述数个目标基因组区域中找到的所述数个CpG甲基化位点的数个子集。列表4、6、8至16被过滤以排除先前已知的目标基因组区域。

表2:对应于列表1至16的数个SEQ ID NO。对于每个列表,表格辨识在所述列表中的目标基因组区域的总数,一系列的SEQ ID NO,对应于将在与本申请一同被提交的序列表中被觅得的列表中的所有目标基因组区域,及所述列表中的所有目标基因组区域的长度的总和。所述序列表辨识每个目标基因组区域的染色体位置,要自所述区域被富集的cfDNA是过甲基化或低甲基化的,及所述目标基因组区域的一个DNA股的序列。染色体号码与开始及停止位置是相对于已知的人类参考基因组hg19而被提供。所述人类参考基因组hg19的序列可以一参考号码GRCh37/hg19获得自基因组参考联盟(Genome Reference Consortium),及也可获得自由圣克鲁兹基因组学研究所(Santa Cruz Genomics Institute)提供的基因组浏览器(Genome Browser)。

SEQ ID NO 452706-483478提供了关于某些过甲基化或低甲基化目标基因组区域的进一步信息。这些SEQ ID NO记录辨识的目标基因组区域,该目标基因组区域在来自特定的一对癌症类型的样本中可以被差异地甲基化。SEQ ID NO452706-483478的目标基因组区域取自列表6。列表1至5及7至16中也发现了许多相同的目标基因组区域。每个SEQ ID的条目表示目标基因组区域相对于hg19的染色体位置,要自该区域富集的cfDNA片段是过甲基化还是低甲基化,所述目标基因组区域的一个DNA股的序列,以及在该基因组区域中被差异甲基化的一对或多对癌症类型。由于一些目标基因组区域的甲基化状态区分了一对以上的癌症类型,每个条目标示表3所示的一第一癌症类型及一种或多种第二癌症类型。

表3:数个SEQ ID NO识别成对的癌症类型之间被差异甲基化的目标基因组区域

选择的数个基因组区域的验证:

一些选择的基因组区域已经由以下得到验证:(1)无参考(使用CCGA1 30X WGBS数据库中的cfDNA,其被限于来自具有表示癌症的一对数可能性比大于0.9的样本的cfDNA);或(2)参考(使用组织及WBC样本)。图14提供了基于正确分类部分(fractions)的验证结果。所述结果来自于(1)在cfDNA上训练的数个基因组区域上利用cfDNA进行验证的结果;(2)在本文所用的所有不同类型的样本上训练的基因组区域上利用cfDNA进行验证的结果;(3)在选定的基因组区域,利用组织及WBC gDNA样本进行验证的结果。所述验证数据总结在表4中,另外还包括所有样本的验证数据。验证结果表明,通过本文所述方法选择的基因组区域可以为检测癌症及各种癌症类型提供信息。

表4:验证数据

示例4:一混合模型分类器的产生

为了最大化表现,在此示例中被描述的预测性癌症模型使用序列数据被训练,所述序列数据是获得自下述:来自CCGA子研究(CCGA1及CCGA2)的已知癌症类型及非癌症的数个样本,获得自CCGA1的数个已知癌症的数个组织样本,及来自STRIVE研究(参见政府临床试验辨识号:NCT03085888(//clinicaltrials.gov/ct2/show/NCT03085888))的数个非癌症样本。所述STRIVE研究是一个前瞻性的、多中心的观察性队列研究,以验证用于早期检测乳癌和其他侵略性癌症的一化验,额外的非癌症训练样本被获得自所述研究以训练本文描述的分类器。包括自所述CCGA样本组的已知癌症类型包括下列:乳癌、肺癌、前列腺癌、结肠直肠癌、肾癌、子宫癌、胰脏癌、食道癌、淋巴癌、头颈癌、卵巢癌、肝胆癌、黑色素瘤、子宫颈癌、多发性骨髓瘤、白血病、甲状腺癌、膀胱癌、胃癌和肛门直肠癌。如此,一模型可以是一多癌症模型(或一个多癌症分类器),用于侦测一个或多个、两个或更多个、三个或更多个、四个或更多个、五个或更多个、十个或更多个或20个或更多个不同类型的癌症。

下文展示的分类器表现数据是为一个锁定的分类器而报告的,所述锁定的分类器在获得自CCGA2、一个CCGA子研究的癌症及非癌症样本、及来自STRIVE的非癌症样本上被训练。在所述CCGA2子研究中的数个个体不同于在CCGA1子研究中的数个个体,在CCGA1子研究中的所述数个个体被用以选择数个目标基因组。自所述CCGA2研究,数个血液样本被收集自被诊断有未治疗的癌症(包括20个肿瘤类型及所有癌症阶段)的数个个体及没有癌症诊断的数个健康个体(控制组)。对于STRIVE。数个血液样本在数名女性的扫描乳房造影(screening mammogram)的28天内自所述数名女性被收集。细胞游离DNA(cfDNA)自每个样本被提取并被以亚硫酸氢盐处理,以将未甲基化的胞嘧啶转换为脲嘧啶。所述经亚硫酸氢盐处理的cfDNA使用数个杂合探针富集能提供信息的cfDNA分子,所述数个杂合探针是设计以富集衍生自在一化验检测组合中的数个目标基因组区域中的各者的经亚硫酸氢盐转换的核酸,所述化验检测组合包括列表1至16的所有基因组区域。所述经富集的经亚硫酸氢盐转换的核酸分子使用配对端定序在一Illumina平台(加利福尼亚州圣地亚哥)上被定序,以对所述数个训练样本中的各者获得一组序列读数,且作为结果的数个读数对被对齐到所述参考基因组,组合为数个片段,且甲基化与未甲基化的CpG位点被辨识。

基于混合模型的特征化:

对于每个癌症类型(包括非癌症),一个机率混合模型被训练并应用,以基于一片段多么可能在一给定的样本类型中被观察到,而将一机率指定到来自每个癌症及非癌症样本的每个片段。

片段水平分析:

简言之,对于每个样本类型(癌症及非癌症样本),对于每个区域(其中每个区域若小于1kb(千碱基)则被如其所是(as-if)地使用,否则以相邻区域之间50%的重叠(例如,500碱基重叠)被细分为1千碱基长的数个区域),对于每个类型的癌症及非癌症,一机率模型被拟合至衍生自所述数个训练样本的所述数个片段。为每个样本类型被训练的所述机率模型是一混合模型,其中三个混合成分中的各者是一独立位点模型,在所述独立位点模型中,每个CpG处的甲基化被假定为独立于其他CpG处的甲基化。数个片段自所述模型被排除,若:所述数个片段具有大于0.01的P值(来自一非癌症马可夫模型)、被标示为重复片段、(仅对于目标甲基化样本)所述数个片段具有大于1的袋大小(bag size)、并未覆盖至少一个CpG位点、或所述片段的长度大于1000碱基。若被保留的数个训练片段与来自一区域的至少一个CpG重叠,则所述数个训练片段被分配到该区域。若一个片段与在多个区域中的数个CpG重叠,所述片段被分配到所有的所述多个区域。

局部来源模型:

每个机率模型使用最大可能性估计被拟合,以辨识一组参数,所述一组参数最大化所有衍生自每个样本类型,受到一正规化惩罚的片段的对数可能性。

特定地,在每个分类区域中,一组机率模型被训练,每一个机率模型用于一个训练标签(亦即,每一个用于一个癌症类型及一个用于非癌症)。每个模型采取具有三个成分的一个伯努利混合模型的形式。数学上是:

(1)

其中n是混合成分的数量,设定为3、mi∈{0,1}是所述片段在位置i处的观察到的甲基化、fk是对成分k的分数指定值(fk≥0且∑fk=1)且βki是成份k中于CpGi处的甲基化比例。i上的乘积仅包括数个位置,对于该些位置,一甲基化状态可以自所述定序被辨识。每个模型的参数{fk,βki}的最大可能性数值通过使用rprop演算法(例如,如在Riedmiller M,Braun H,RPROP:一种快速适应性学习演算法,计算机和信息科学国际研讨会论文集VII,1992年当中所描述的rprop演算法)以最大化一个训练标签的所述数个片段的,受到采取一β分布先验的形式在βki-上的一正规化惩罚的总对数可能性而被估计。数学上,所述最大量值是:

(2)∑j ln(Pr(片段j|{βki,fk}))+∑k,i r ln(βki(1-βki))

其中r是正规化强度,所述正规化强度被设定至1。

特征化:

一旦所述数个机率模型被训练,一组数值化特征对每个样本被计算。特定地,在每个区域中,对于每个癌症类型及非癌症样本,数个特征对来自每个训练样本的每个片段被提取。被提取的数个特征是数个离群值片段(亦即,被异常地甲基化的数个片段)的纪录,所述数个离群值片段被界定为在一第一癌症模型下的对数可能性以至少一阀值的层值(tiervalue)超过在一个第二癌症模型或非癌症模型下的对数可能性的片段。数个离群值片段对于每个基因组区域、样本模型(亦即,癌症类型)及层(对层1、2、3、4、5、6、7、8及9)被分别记录,对于每个样本类型,每个区域收获9个特征。以此方式,每个特征通过三个性质被界定:一基因组区域、一“阳性”癌症类型标签(排除非癌症)、及选自于{1,2,3,4,5,6,7,8,9}的群组的层值。每个特征的数字数值被界定为在该区域中的片段的数量,而使:

(3)其中所述数个机率是通过等式(1)使用对应于所述“阳性”癌症类型(在对数的分子中)或对应于非癌症(在分母中)的,所述数个最大可能性估计参数值被界定。

特征排行:

对于成对特征中的每一组,所述数个特征使用互信息被排名,所述互信息是基于所述数个特征区辨所述第一癌症类型(所述第一癌症类型界定所述所述对数可能性模型,所述特征由所述对数可能性模型衍生)与所述第二癌症类型或非癌症的能力。特定地,数个特征的两个经排名的列表对于数个类别标签的每个独特的配对被编纂:一个列表有被指定为“阳性”的第一标签及被作为“阴性”的第二标签,且另一个列表有被调换的阳性/阴性指定(除了“非癌症标签”,仅被准许作为阴性标签)。对于这些排名的列表中的各者,仅有其阳性癌症类型标签(如在等式(3)中)符合被考虑的所述阳性标签的数个特征被包括在所述排名中。对于每个这样的特征,具有非零特征值的训练样本的比例对于每个阳性及阴性标签被分别地计算。此比例在所述阳性标签中较大的特征,以其相对于该对类别标签的互信息被排名。

来自每个成对比较的,排名于顶端的256个特征被辨识并添加到每个癌症类型及非癌症的最终特征组。为了避免冗余,如果多于一个特征自相同的阳性类型及基因组区域被选择(亦即,对于多个阴性类型被选择),只有对它的癌症类型对被指定最低(最能提供信息)的排名的特征被保留,通过选择较高层数值而打破数个层。在对每个样本(癌症类型及非癌症)的所述最终特征组中的所述数个特征被二元化(任何大于0的特征值被设为1,而使所有特征是0或1)。

分类器训练:

所述数个训练样本接着被分为不同的5折交叉验证训练组,且一个两阶段分类器对每个折被训练,在每个案例中在所述数个训练样本的4/5上训练并使用剩余的1/5供验证。

在训练的第一阶段中,用于侦测癌症的存在的一个二元(二类别)逻辑回归模型被训练,以自非癌症样本区辨所述数个癌症样本(无论TOO)。当训练此二元分类器时,一个样本权重被指派到雄性非癌症样本以抵销在所述训练组中的性别不平衡。对于每个样本,所述二元分类器输出一预测分数,所述预测分数指示癌症的存在或不存在的可能性。

在训练的第二阶段,用于判定癌症来源组织的一个平行多类别逻辑回归模型以TOO作为目标标签被训练。仅有在所述第一阶段分类器中,收到高于所述非癌症样本的第95百分位的一分数的癌症样本被包括在此多类别分类器的训练中。对于在训练所述多类别分类器中被使用的每个癌症样本,所述多类别分类输出对于被分类的癌症类型的数个预测值,其中每个预测值是给定样本具有一特定癌症类型的一可能性。举例而言,所述癌症分类器可以返回对一检测样本的一癌症预测,所述癌症预测包括对于乳癌的一预测分数、对于肺癌的一预测分数及/或对于无癌症的一预测分数。

二元及多类别分类器两者皆是通过小批量的随机梯度下降(stochasticgradient descent)被训练,且在每个案例中,训练在于所述验证折上的(由交叉熵损失(cross-entropy loss)评估的)表现开始劣化时被提早停止。对于在所述训练组之外的样本上的预测,在每个阶段中,由所述五个交叉验证分类器指定的所述数个分数被平均。被指派到性别不恰当的癌症类型的分数被设定为零,而剩余的数值被重整化(renormalized)以加总至一。

被指派到所述训练组中的所述数个验证折的数个分数被保留,以供在指定截止值(阀值),以针对特定表现度量标准时使用。特定地,被指派到训练组非癌症样本的所述数个机率分数,被用以界定数个对应于特定特异度水平的阀值。举例而言,对于99.4%的一个所希望的特异度目标,所述阀值被设定于被指定到所述训练组中的所述数个非癌症样本的所述数个交叉验证癌症侦测机率分数的第99.4百分位。具有超过一阀值的一机率分数的数个训练样本被呼叫为对癌症为阳性。

随后,对于被判定为对癌症是阳性的每个训练样本,一个TOO或癌症类型评估自所述多类别分类器被做出。首先,所述多类别逻辑回归分类器对每个样本指定一组机率分数,每个预期癌症类型一个机率分数。接下来,这些分数的置信度被评估,作为由所述多类别分类器对每个样本指派的最高与次高分数之间的差异。接着,使用经交叉验证的训练组分数来识别最低阈值,使得训练组中前两个分数的差异超过阈值的癌症样本中,90%被分配了正确的TOO标签作为它们的最高分数。以此方式,在训练时被指定到所述数个验证折的所述数个分数被进一步用以判定一个第二阀值,所述第二阀值用于在置信的与不确定的TOO呼叫之间进行区辨。

于预测时,自所述二元(第一阶段)分类器接收一个低于所述预先决定的特定阀值的分数的样本,被指派一个“非癌症”标签。对于剩余的样本,来自所述第二阶段分类器的最高两个TOO分数的差异低于第二预先界定的阀值的样本被指派“不确定癌症”标签。剩余的样本被指派所述TOO分类器指派了最高分数的癌症标签。

示例5:使用列表4至16的目标基因组区域的分类器

列表4至16的所述数个目标基因组区域的区辨数值,是通过测试一个癌症分类器根据这些目标基因组区域的甲基化状态侦测癌症及20种不同的癌症类型中任一者的能力而被评估。如表5所示,表现横跨未被用于训练所述分类器的1532个癌症样本及1521个非癌症样本被评估。对于每个样本,差异地甲基化的cfDNA使用一个诱饵组被富集,所述诱饵组包括列表1至16的所有目标基因组区域。所述分类器接着被缩限到仅根据被评估的列表的目标基因组区域的甲基化状态提供癌症判断。

表5:cfDNA被用于训练分类器的个体的癌症诊断

列表4至16的分类器表现分析结果如图15至27所示。在每个图中,A部分是一条接收者操作者曲线(ROC),该ROC显示判定癌症或非癌症的真阳性结果及伪阳性结果。这些ROC曲线的不对称形状说明分类器被设计用以最小化伪阳性的结果。曲线下的区域被紧密聚集在0.78及0.83之间,如表6所示。这些结果表明,与大于10MB的较大检测组合(如列表6及6)相比,使用小于1MB的较小检测组合(如列表8、9及13)不会严重影响癌症的判定。

表6

目标区域 AUC
列表4 0.81
列表5 0.83
列表6 0.81
列表7 0.83
列表8 0.80
列表9 0.81
列表10 0.81
列表11 0.81
列表12 0.81
列表13 0.78
列表14 0.79
列表15 0.80
列表16 0.80

如图28至30及表7所示,还对列表4及列表12中随机选择的目标基因组区域的子集的分类器表现进行了评估。再次,最小的检测组合(列表12的随机10%,0.36MB)的结果与最大的检测结果(列表4,4.63MB)的结果相似,这表明所有列表中至少绝大多数目标区域的甲基化状态结果是癌症的存在或不存在的信息。

表7

目标区域 AUC
列表4 0.81
列表4的随机50% 0.81
列表12 0.81
列表12的随机10% 0.78
列表12的随机25% 0.79

尝试对所有具有一癌症判定的数个样本进行癌症类型(即TOO)判定。图15至30中的检测组合B显示了这些判定的准确性。举例而言,图15B的右上角的数值表明,根据列表4中所述数个目标基因组区域的甲基化状态分类为肺癌的151个样本来自已知具有肺癌的数个对象。同一混淆矩阵中左侧3个位置的数值“3”表明,预测具有肺癌的三个样本来自实际具有一上消化道癌症的数个对象。总之,使用列表4至16中任一者的所述目标基因组区域进行的绝大多数癌症类型判定都落在所述混淆矩阵的对角线上,这表明所述分类器判定了正确的癌症类型。使用从列表4及列表12中随机选择的目标基因组区域获得了类似的结果。

表8至23进一步总结了这些分类器的结果,表8至23显示癌症侦测及癌症类型判定的准确性,特异度为0.990,表示伪阳性率为1%。这些结果以癌症分期来描述。与具有早期癌症的个体(如I期)的样本相比,具有晚期癌症的个体(如IV期)的样本的癌症侦测及癌症类型判定得到改善。对于所有癌症阶段(无阶段分离),所有目标基因组区域列表以及列表4及列表12的数个随机子集的癌症类型判定在大约90%的时间是准确的。对于第一期癌症,在大约75%的时间进行一准确的癌症类型判定。特别地,75.6%的癌症类型判定对于最小的化验检测组合(列表8)而言是准确的,只有1370个目标基因组区域的一总尺寸为395kb。

根据表24中的癌症类型对相同的准确度结果进行细分,表24显示了所有常见癌症(如肝癌及胆管癌)、罕见癌症(如肉瘤)及难以侦测的癌症(如乳腺癌)的所有列表的目标基因组区域的高度准确的癌症类型判定。

使用列表4至16的目标基因组区域或列表4及列表12中被随机选择的部分侦测20种不同癌症类型的敏感度如表25至40所示。敏感度结果的特异度为0.990(伪阳性率为1%)。对所有特定癌症类型的癌症以及第一期至第四期癌症均显示出敏感度。晚期癌症的敏感度通常较高。对于第四前癌症,对于所有具有一个以上样本的癌症,所述敏感度大于60%,对于乳癌、卵巢癌、膀胱及尿路上皮癌、头颈部癌、结肠直肠癌、肝癌、胰腺癌及胆囊癌、上消化道癌、淋巴瘤及肺癌,敏感度大于90%。在第二期,对于头颈癌、肝癌、胰腺癌及胆囊癌、上消化道癌、淋巴瘤及肺癌的敏感度是最佳的。列表8是目标基因组区域的最小群组,该群组提供对这些第二期癌症的至少50%的一敏感度。

表8:使用列表4的数个基因组区域的分类准确性。在特异度为0.990的情况下,癌症存在及癌症类型数据显示准确率百分比、一95%的置信区间(在方形括号内),以及被正确指派的数量及总数(在圆括号内)。

表9:使用列表5的数个基因组区域的分类准确性

表10:使用列表6的数个基因组区域的分类准确性

表11:使用列表7的数个基因组区域的分类准确性

表12:使用列表8的数个基因组区域的分类准确性

表13:使用列表9的数个基因组区域的分类准确性

表14:使用列表10的数个基因组区域的分类准确性

表15:使用列表11的数个基因组区域的分类准确性

表16:使用列表12的数个基因组区域的分类准确性

表17:使用列表13的数个基因组区域的分类准确性

表18:使用列表14的数个基因组区域的分类准确性

表19:使用列表15的数个基因组区域的分类准确性

表20:使用列表16的数个基因组区域的分类准确性

表21:使用列表12的数个基因组区域的10%的一随机选择的子集的分类准确性

表22:使用列表12的数个基因组区域的25%的一随机选择的子集的分类准确性

表23:使用列表4的数个基因组区域的50%的一随机选择的子集的分类准确性

示例6:使用癌症化验检测组合侦测癌症

数个血液样本被收集自先前被诊断有一TOO的癌症的数个个体的一群组(“测试组”),及没有癌症或被诊断有一不同类型的癌症的数个个体的其它群组(“其它组”)。cfDNA片段被自所述数个血液样本提取并以亚硫酸氢盐处理,以将未甲基化的胞嘧啶转换为脲嘧啶。本文中所描述的癌症化验检测组合被应用到所述数个经亚硫酸氢盐处理后的样本。未连结的cfDNA片段被冲洗,且连结到所述数个探针的cfDNA片段被收集。被收集的cfDNA片段被放大并定序。所述数个序列读数证实所述数个探针特定地富集了具有指示一TOO的癌症的甲基化模式的cfDNA片段,相较于来自其它组,具有显着更多的差异地甲基化的cfDNA片段的测试组的数个样本的cfDNA片段。

虽然在本文中展示并描述了本揭示的数个优选的实施例,对于本领域中的技术人员而言明显的是,这样的数个实施例仅以示例的方式被提供。许多变更、改变及替换现在将为本领域的技术人员所思及,而不脱离本揭示。应被了解的是,本文中描述的本揭示的数个实施例的各种替换可以被应用在实施本揭示。下文的权利要求是意在界定本揭示的范围,且在这些权利要求的范围中的方法及结构与其等同物被该些权利要求所涵盖。

148页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于早期癌症检测的方法和组合物

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!