从循环无细胞核酸中灵敏地检测拷贝数变异(cnv)

文档序号:174385 发布日期:2021-10-29 浏览:33次 >En<

阅读说明:本技术 从循环无细胞核酸中灵敏地检测拷贝数变异(cnv) (Sensitive detection of Copy Number Variation (CNV) from circulating cell-free nucleic acids ) 是由 向红·婕思敏·周 李文渊 李硕 刘俊吉 倪晓晖 于 2019-08-22 设计创作,主要内容包括:本公开内容提供了用于在无细胞核酸样品中检测或推断拷贝数变体(CNV)水平以检测或评估癌症和产前疾病的方法和系统。无细胞核酸甲基化测序数据可用于区分肿瘤来源或胎儿来源测序读段与正常cfDNA测序读段。基于甲基化cfDNA测序数据(例如,使用亚硫酸氢盐测序方法或无亚硫酸氢盐的测序方法获得)和肿瘤/胎儿甲基化标志物,每个无细胞核酸测序读段(例如,包含肿瘤或胎儿甲基化标志物)可以被归类为对应于肿瘤/胎儿来源的无细胞核酸或正常血浆的无细胞核酸。接下来,可以构建肿瘤/胎儿来源测序读段计数的谱,并随后进行归一化。可以推断每个基因组区域的CNV状态(例如,获得或丢失),并且可以基于对象的推断CNV谱进行诊断或预后。(The present disclosure provides methods and systems for detecting or inferring Copy Number Variant (CNV) levels in cell-free nucleic acid samples for the detection or assessment of cancer and prenatal disease. Cell-free nucleic acid methylation sequencing data can be used to distinguish tumor-derived or fetal-derived sequencing reads from normal cfDNA sequencing reads. Based on the methylated cfDNA sequencing data (e.g., obtained using a bisulfite sequencing method or a bisulfite-free sequencing method) and the tumor/fetal methylation markers, each cell-free nucleic acid sequencing read (e.g., comprising a tumor or fetal methylation marker) can be classified as a cell-free nucleic acid corresponding to tumor/fetal-derived cell-free nucleic acid or normal plasma. Next, a spectrum of tumor/fetal derived sequencing read counts can be constructed and subsequently normalized. The CNV status (e.g., gain or loss) of each genomic region can be inferred, and a diagnosis or prognosis can be made based on the inferred CNV profile of the subject.)

从循环无细胞核酸中灵敏地检测拷贝数变异(CNV)

相关申请的交叉引用

本申请要求于2018年8月22日提交的美国临时专利申请No.62/721,410的权益,其通过引用整体并入本文。

政府权益

本发明是在国立卫生研究院(National Institutes of Health)授予的HL108645的政府支持下完成的。政府拥有本发明的某些权利。

背景技术

循环无细胞核酸(例如无细胞DNA(cell-free DNA,cfDNA)和无细胞RNA(cell-free RNA,cfRNA))(例如存在于血浆中)被认为是在癌症和产前诊断和预后方面具有巨大潜力的生物标志物。因此,cfDNA和/或cfRNA的检测和表征代表了一种进行癌症和产前诊断和预后的有前途的方法。此外,由于cfDNA和/或cfRNA分析涉及进行液体活检而不是传统的组织活检,因此其允许在不需要侵入性操作的情况下进行多种不同恶性肿瘤的诊断、预后或其他评估。

拷贝数变异、拷贝数改变、拷贝数畸变或拷贝数多态性(统称为拷贝数变体(CopyNumber Variant,CNV))是其中在两个或更多个基因组之间观察到拷贝数差异的结构变体区域。体细胞CNV通过癌基因扩增和肿瘤抑制因子缺失而在人癌症的发展中具有重要的作用。因此,从cfDNA和/或cfRNA中检测CNV可提供有效的癌症和产前诊断和预后机制。

通常,获自癌症患者的cfDNA样品包含源自肿瘤细胞的DNA和源自正常(例如非肿瘤)细胞的DNA的混合物。同样,获自癌症患者的cfRNA样品包含源自肿瘤细胞的RNA和源自正常(例如非肿瘤)细胞的RNA的混合物。当血流中肿瘤来源cfDNA和/或cfRNA的分数较低时,从cfDNA和/或cfRNA中检测CNV中的挑战可能会加剧。肿瘤来源无细胞核酸的这种低分数可能使得特别难以将实际变异(例如,体细胞变体,例如CNV)与观察或测量中的误差(例如,由于扩增或测序误差引起)区分开。

可以通过利用基于测序的方法例如双端映射(Paired-End Mapping,PEM)、拆分读段(Split Read,SR)、从头组装(de novo Assembly,AS)和/或读段计数(Read-Count,RC)方法来检测CNV。PEM、SR和AS方法可包括搜索跨越CNV断点的不一致的序列读段或读段对。然而,这些方法对于从cfDNA/cfRNA样品中检测CNV可能是不切实际的,例如,其中肿瘤来源cfDNA/cfRNA测序读段的数目通常非常有限,并且鉴定恰好跨越CNV断点的不一致读段的机会很低。因此,仅RC方法可实际用于cfDNA/cfRNA样品中的CNV检测,其检测一组基因组区域内的测序读段数目的增加或减少。然而,当样品中肿瘤来源cfDNA的分数较低时,RC方法的有用性将降低。这是因为来自具有肿瘤CNV的测序读段的信号被来自代表了样品的大多数的非肿瘤测序读段的信号所淹没。

发明内容

鉴于前述内容,本公开内容提供了用于检测或推断无细胞核酸样品中的拷贝数变体(CNV)水平的系统和方法,例如在其中无细胞核酸样品中CNV的量或水平较低的情况下。首先,可以利用cfDNA/cfRNA甲基化测序数据和癌症甲基化标志物来区分肿瘤来源测序读段与正常测序读段。基于甲基化cfDNA/cfRNA测序数据(例如,使用甲基化测序方法(例如亚硫酸氢盐测序)获得)和癌症甲基化标志物,可以将多个cfDNA/cfRNA测序读段(例如,包含癌症甲基化标志物)中的每一个cfDNA/cfRNA测序读段归类为肿瘤来源cfDNA/cfRNA测序读段或正常血浆cfDNA/cfRNA测序读段。接下来,可以构建肿瘤来源测序读段计数的谱(profile)。然后可以对所构建的肿瘤来源测序读段的谱进行归一化。可以推断每个基因组区域的CNV状态(例如,获得或丢失),并且可以基于对象的推断的CNV谱进行诊断或预后。

在一个方面,本公开内容提供了用于从对象的多个无细胞核酸中检测拷贝数变体(CNV)的方法,所述方法包括:获得通过对所述多个无细胞核酸进行测序而得到的多个测序读段,其中所述多个测序读段包含(i)对应于所述多个无细胞核酸中的肿瘤来源无细胞核酸的多个肿瘤来源测序读段和(ii)对应于所述多个无细胞核酸中的正常无细胞核酸的多个正常测序读段;以及使用所述多个无细胞核酸的甲基化测序数据和至少一种癌症甲基化标志物来区分所述多个肿瘤来源测序读段与所述多个正常测序读段,其中区分所述多个肿瘤来源测序读段与所述多个正常测序读段包括:将所述甲基化测序数据的测序读段归类为肿瘤来源测序读段或正常测序读段;构建肿瘤来源测序读段计数的谱,其中构建所述谱包括在多个基因组区域中每一个处对所述多个肿瘤来源测序读段进行量化;对所构建的肿瘤来源测序读段计数的谱进行归一化,以产生肿瘤来源测序读段计数的归一化谱;以及基于肿瘤来源测序读段计数的所述归一化谱推断所述多个基因组区域中每一个的CNV状态。

在一些实施方案中,将甲基化测序数据的测序读段归类为肿瘤来源测序读段或正常测序读段包括以下至少之一:(i)计算测序读段的似然比,并且将所述似然比与似然比阈值进行比较,其中似然比超过似然比阈值则指示肿瘤来源测序读段;和(ii)计算测序读段的后验概率,并且将所述后验概率与后验概率阈值进行比较,其中后验概率超过后验概率阈值则指示肿瘤来源测序读段。

在一些实施方案中,将测序读段归类为肿瘤来源测序读段或正常测序读段还包括:计算测序读段的类别特异性似然。

在一些实施方案中,构建肿瘤来源测序读段计数的谱包括排除多个测序读段中全部被归类为正常测序读段的那些。

在一些实施方案中,构建肿瘤来源测序读段计数的谱包括根据全基因组分割策略将人基因组的至少一部分划分为多个基因组区域,所述多个基因组区域包含非重叠区块(bin)。

在一些实施方案中,非重叠区块具有固定大小。

在一些实施方案中,非重叠区块的大小可变。

在一些实施方案中,对所构建的肿瘤来源测序读段计数的谱进行归一化包括计算所构建的谱的多个基因组区域中每一个中的肿瘤来源无细胞核酸的分数。

在一些实施方案中,对所构建的肿瘤来源测序读段计数的谱进行归一化包括对所构建的谱进行偏差校正。

在一些实施方案中,进行偏差校正减少了归因于以下至少之一的偏差:GC含量、测序读段映射、测序文库构建和测序平台。

在一些实施方案中,进行偏差校正包括将所构建的谱与参考谱进行比较。

在一些实施方案中,参考谱是匹配的正常样品,其包含从与多个无细胞核酸相同的血液样品中获得的白细胞的基因组DNA。

在一些实施方案中,参考谱由获自健康对象的一个或更多个cfDNA样品构建。

在一些实施方案中,参考谱由同一样品内的特定基因组区域构建。

在一些实施方案中,对所构建的肿瘤来源测序读段计数的谱进行归一化包括测量多个基因组区域中每一个在病例和对照样品之间的对数比。

在一些实施方案中,该方法还包括基于多个推断的CNV状态来检测对象的癌症。

在一些实施方案中,基于具有肿瘤来源测序读段计数的一个或更多个基因组区域的分数来检测癌症,并且所述检测包括使用具有异常测序读段计数的多个基因组区域的分数作为癌症指标评分,其中基于基因组区域的推断的CNV状态的对数比将该基因组区域确定为具有异常测序读段计数。

在一些实施方案中,该方法还包括使用CNV状态以用于对象的治疗监测。在一些实施方案中,该方法还包括使用CNV状态以用于对象的患者分层。在一些实施方案中,该方法还包括使用CNV状态来追踪多个无细胞核酸的起源组织。

在一些实施方案中,该方法还包括通过处理获自一个或更多个另外的对象的实体瘤样品、正常组织样品、无细胞核酸样品或其组合的甲基化数据来鉴定至少一种癌症甲基化标志物。

在一些实施方案中,至少一种癌症甲基化标志物包含表观等位基因、单个CpG位点、基因组区域或其组合。

在一些实施方案中,处理甲基化数据包括基于至少一种癌症甲基化标志物在实体瘤样品、正常组织样品、无细胞核酸样品或其组合之间的差异甲基化来鉴定至少一种癌症甲基化标志物。

在一些实施方案中,一个或更多个另外的对象包括一个或更多个癌症患者和一个或更多个正常对象。

在一些实施方案中,处理甲基化数据包括基于至少一种癌症甲基化标志物在获自一个或更多个癌症患者的样品和获自一个或更多个正常对象的样品之间的差异甲基化来鉴定至少一种癌症甲基化标志物。

在一些实施方案中,多个无细胞核酸包含无细胞脱氧核糖核酸(cfDNA)。在一些实施方案中,多个无细胞核酸包含无细胞核糖核酸(cfRNA)。

在一些实施方案中,该方法还包括对多个无细胞核酸进行扩增。在一些实施方案中,扩增包括聚合酶链式反应(polymerase chain reaction,PCR)。在一些实施方案中,该方法还包括针对参考来处理所推断的多个CNV状态。在一些实施方案中,参考包含从同一对象或一个或更多个另外的对象的多个无细胞核酸中检测的第二多个CNV状态。在一些实施方案中,参考谱包含同一样品内特定基因组区域中的CNV状态。

在一些实施方案中,多个无细胞核酸获自对象的身体样品。在一些实施方案中,身体样品选自血浆、血清、骨髓、脑脊液、胸膜液、唾液、粪便和尿。在一些实施方案中,该方法还包括处理所推断的多个CNV状态以产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,疾病或病症是癌症。在一些实施方案中,癌症选自胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、睾丸癌、肾癌、肉瘤、胆管癌和前列腺癌。在一些实施方案中,对象无疾病或病症的症状。

在一些实施方案中,该方法还包括以至少约60%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约70%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约80%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约90%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约95%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,该方法还包括以至少约60%的特异性产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约70%的特异性产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约80%的特异性产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约90%的特异性产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约95%的特异性产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,该方法还包括以至少约60%的准确度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约70%的准确度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约80%的准确度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约90%的准确度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约95%的准确度产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,该方法还包括以至少约60%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约70%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约80%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约90%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约95%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,该方法还包括以至少约60%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约70%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约80%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约90%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约95%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,该方法还包括以至少约0.60的接受者操作特征曲线下面积(area under the receiver-operating characteristic,AUROC)产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约0.70的AUROC产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约0.80的AUROC产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约0.90的AUROC产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,该方法还包括以至少约0.95的AUROC产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,该方法还包括对多个无细胞核酸或其衍生物进行测序以产生多个测序读段。在一些实施方案中,所推断的多个CNV状态包含癌症体细胞驱动突变。

在另一个方面,本公开内容提供了用于从对象的多个无细胞核酸中检测拷贝数变体(CNV)的系统,所述系统包括:存储器;通信地偶连至所述存储器的一个或更多个处理器,所述一个或更多个处理器被单独地或共同地编程为:获得通过对所述多个无细胞核酸进行测序而得到的多个测序读段,其中所述多个测序读段包含(i)对应于所述多个无细胞核酸中的肿瘤来源无细胞核酸的多个肿瘤来源测序读段和(ii)对应于所述多个无细胞核酸中的正常无细胞核酸的多个正常测序读段;以及使用所述多个无细胞核酸的甲基化测序数据和至少一种癌症甲基化标志物来区分所述多个肿瘤来源测序读段与所述多个正常测序读段,其中区分所述多个肿瘤来源测序读段与所述多个正常测序读段包括:将所述甲基化测序数据的测序读段归类为肿瘤来源测序读段或正常测序读段;构建肿瘤来源测序读段计数的谱,其中构建所述谱包括在多个基因组区域中每一个处对所述多个肿瘤来源测序读段进行量化;对所构建的肿瘤来源测序读段计数的谱进行归一化,以产生肿瘤来源测序读段计数的归一化谱;以及基于肿瘤来源测序读段计数的所述归一化谱推断所述多个基因组区域中每一个的CNV状态。

在一些实施方案中,将甲基化测序数据的测序读段归类为肿瘤来源测序读段或正常测序读段包括以下至少之一:(i)计算测序读段的似然比,并且将所述似然比与似然比阈值进行比较,其中似然比超过似然比阈值则指示肿瘤来源测序读段;和(ii)计算测序读段的后验概率,并且将所述后验概率与后验概率阈值进行比较,其中后验概率超过后验概率阈值则指示肿瘤来源测序读段。

在一些实施方案中,将测序读段归类为肿瘤来源测序读段或正常测序读段还包括:计算测序读段的类别特异性似然。

在一些实施方案中,构建肿瘤来源测序读段计数的谱包括排除多个测序读段中全部被归类为正常测序读段的那些。

在一些实施方案中,构建肿瘤来源测序读段计数的谱包括根据全基因组分割策略将人基因组的至少一部分划分为多个基因组区域,所述多个基因组区域包含非重叠区块。

在一些实施方案中,非重叠区块具有固定大小。

在一些实施方案中,非重叠区块的大小可变。

在一些实施方案中,对所构建的肿瘤来源测序读段计数的谱进行归一化包括计算所构建的谱的多个基因组区域中每一个中的肿瘤来源无细胞核酸的分数。

在一些实施方案中,对所构建的肿瘤来源测序读段计数的谱进行归一化包括对所构建的谱进行偏差校正。

在一些实施方案中,进行偏差校正减少了归因于以下至少之一的偏差:GC含量、测序读段映射、测序文库构建和测序平台。

在一些实施方案中,进行偏差校正包括将所构建的谱与参考谱进行比较。

在一些实施方案中,参考谱是匹配的正常样品,其包含从与多个无细胞核酸相同的血液样品中获得的白细胞的基因组DNA。

在一些实施方案中,参考谱由获自健康对象的一个或更多个cfDNA样品构建。

在一些实施方案中,参考谱由同一样品内的特定基因组区域构建。

在一些实施方案中,对所构建的肿瘤来源测序读段计数的谱进行归一化包括测量多个基因组区域中每一个在病例和对照样品之间的对数比。

在一些实施方案中,一个或更多个处理器被编程为基于多个推断的CNV状态来检测对象的癌症。

在一些实施方案中,一个或更多个处理器被单独地或共同地编程为进一步使用CNV状态以用于对象的治疗监测。

在一些实施方案中,一个或更多个处理器被单独地或共同地编程为进一步使用CNV状态以用于对象的患者分层。

在一些实施方案中,一个或更多个处理器被单独地或共同地编程为进一步使用CNV状态来追踪多个无细胞核酸的起源组织。

在一些实施方案中,一个或更多个处理器被单独地或共同地编程为进一步通过处理获自一个或更多个另外的对象的实体瘤样品、正常组织样品、无细胞核酸样品或其组合的甲基化数据来鉴定至少一种癌症甲基化标志物。

在一些实施方案中,至少一种癌症甲基化标志物包含表观等位基因、单个CpG位点、基因组区域或其组合。

在一些实施方案中,处理甲基化数据包括基于至少一种癌症甲基化标志物在实体瘤样品、正常组织样品、无细胞核酸样品或其组合之间的差异甲基化来鉴定至少一种癌症甲基化标志物。

在一些实施方案中,一个或更多个另外的对象包括一个或更多个癌症患者和一个或更多个正常对象。

在一些实施方案中,处理甲基化数据包括基于至少一种癌症甲基化标志物在获自一个或更多个癌症患者的样品和获自一个或更多个正常对象的样品之间的差异甲基化来鉴定至少一种癌症甲基化标志物。

在一些实施方案中,基于具有肿瘤来源测序读段计数的一个或更多个基因组区域的分数来检测癌症,并且其中所述检测包括使用具有异常测序读段计数的多个基因组区域的分数作为癌症指标评分,其中基于基因组区域的推断的CNV状态的对数比将该基因组区域确定为具有异常测序读段计数。

在一些实施方案中,多个无细胞核酸包含无细胞脱氧核糖核酸(cfDNA)。在一些实施方案中,多个无细胞核酸包含无细胞核糖核酸(cfRNA)。

在一些实施方案中,一个或更多个处理器被编程为指导对多个无细胞核酸进行扩增。在一些实施方案中,扩增包括聚合酶链式反应(PCR)。在一些实施方案中,一个或更多个处理器被编程为针对参考来处理所推断的多个CNV状态。在一些实施方案中,参考包含从同一对象或一个或更多个另外的对象的多个无细胞核酸中检测的第二多个CNV状态。

在一些实施方案中,多个无细胞核酸获自对象的身体样品。在一些实施方案中,身体样品选自血浆、血清、骨髓、脑脊液、胸膜液、唾液、粪便和尿。在一些实施方案中,一个或更多个处理器被编程为处理所推断的多个CNV状态以产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,疾病或病症是癌症。在一些实施方案中,癌症选自胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、睾丸癌、肾癌、肉瘤、胆管癌和前列腺癌。在一些实施方案中,对象无疾病或病症的症状。

在一些实施方案中,一个或更多个处理器被编程为以至少约60%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约70%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约80%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约90%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约95%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,一个或更多个处理器被编程为以至少约60%的特异性产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约70%的特异性产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约80%的特异性产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约90%的特异性产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约95%的特异性产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,一个或更多个处理器被编程为以至少约60%的准确度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约70%的准确度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约80%的准确度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约90%的准确度产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约95%的准确度产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,一个或更多个处理器被编程为以至少约60%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约70%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约80%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约90%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约95%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,一个或更多个处理器被编程为以至少约60%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约70%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约80%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约90%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约95%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,一个或更多个处理器被编程为以至少约0.60的接受者操作特征曲线下面积(AUROC)产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约0.70的AUROC产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约0.80的AUROC产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约0.90的AUROC产生对象患有或被怀疑患有疾病或病症的似然。在一些实施方案中,一个或更多个处理器被编程为以至少约0.95的AUROC产生对象患有或被怀疑患有疾病或病症的似然。

在一些实施方案中,一个或更多个处理器被编程为对多个无细胞核酸或其衍生物进行测序以产生多个测序读段。在一些实施方案中,所推断的多个CNV状态包含癌症体细胞驱动突变。

在另一个方面,本公开内容提供了存储指令集的非暂时性计算机可读存储介质,当执行所述指令时,其使得一个或更多个处理器从对象的多个无细胞核酸中检测拷贝数变体(CNV),所述指令集包含进行以下的指令:获得通过对所述多个无细胞核酸进行测序而得到的多个测序读段,其中所述多个测序读段包含(i)对应于所述多个无细胞核酸中的肿瘤来源无细胞核酸的多个肿瘤来源测序读段和(ii)对应于所述多个无细胞核酸中的正常无细胞核酸的多个正常测序读段;以及使用所述多个无细胞核酸的甲基化测序数据和至少一种癌症甲基化标志物来区分所述多个肿瘤来源测序读段与所述多个正常测序读段,其中区分所述多个肿瘤来源测序读段与所述多个正常测序读段包括:将所述甲基化测序数据的测序读段归类为肿瘤来源测序读段或正常测序读段;构建肿瘤来源测序读段计数的谱,其中构建所述谱包括在多个基因组区域中每一个处对所述多个肿瘤来源测序读段进行量化;对所构建的肿瘤来源测序读段计数的谱进行归一化,以产生肿瘤来源测序读段计数的归一化谱;以及基于肿瘤来源测序读段计数的所述归一化谱推断所述多个基因组区域中每一个的CNV状态。

在一些实施方案中,将甲基化测序数据的测序读段归类为肿瘤来源测序读段或正常测序读段包括以下至少之一:(i)计算测序读段的似然比,并且将所述似然比与似然比阈值进行比较,其中似然比超过似然比阈值则指示肿瘤来源测序读段;和(ii)计算测序读段的后验概率,并且将所述后验概率与后验概率阈值进行比较,其中后验概率超过后验概率阈值则指示肿瘤来源测序读段。

在一些实施方案中,将测序读段归类为肿瘤来源测序读段或正常测序读段还包括:计算测序读段的类别特异性似然。

在一些实施方案中,构建肿瘤来源测序读段计数的谱包括排除多个测序读段中全部被归类为正常测序读段的那些。

在一些实施方案中,构建肿瘤来源测序读段计数的谱包括根据全基因组分割策略将人基因组的至少一部分划分为多个基因组区域,所述多个基因组区域包含非重叠区块。

在一些实施方案中,非重叠区块具有固定大小。

在一些实施方案中,非重叠区块的大小可变。

在一些实施方案中,对所构建的肿瘤来源测序读段计数的谱进行归一化包括计算所构建的谱的多个基因组区域中每一个中的肿瘤来源无细胞核酸的分数。

在一些实施方案中,对所构建的肿瘤来源测序读段计数的谱进行归一化包括对所构建的谱进行偏差校正。

在一些实施方案中,进行偏差校正减少了归因于以下至少之一的偏差:GC含量、测序读段映射、测序文库构建和测序平台。

在一些实施方案中,进行偏差校正包括将所构建的谱与参考谱进行比较。

在一些实施方案中,参考谱是匹配的正常样品,其包含从与多个无细胞核酸相同的血液样品中获得的白细胞的基因组DNA。

在一些实施方案中,参考谱由获自健康对象的一个或更多个cfDNA样品构建。

在一些实施方案中,参考谱由同一样品内的特定基因组区域构建。

在一些实施方案中,对所构建的肿瘤来源测序读段计数的谱进行归一化包括测量多个基因组区域中每一个在病例和对照样品之间的对数比。

在一些实施方案中,指令集包含基于多个推断的CNV状态来检测对象的癌症的指令。

在一些实施方案中,基于具有肿瘤来源测序读段计数的一个或更多个基因组区域的分数来检测癌症,并且其中所述检测包括使用具有异常测序读段计数的多个基因组区域的分数作为癌症指标评分,其中基于基因组区域的推断的CNV状态的对数比将该基因组区域确定为具有异常测序读段计数。

在一些实施方案中,指令集包含使用CNV状态以用于对象的治疗监测的指令。

在一些实施方案中,指令集包含使用CNV状态以用于对象的患者分层的指令。

在一些实施方案中,指令集包含使用CNV状态来追踪多个无细胞核酸的起源组织的指令。

在一些实施方案中,指令集包含通过处理获自一个或更多个另外的对象的实体瘤样品、正常组织样品、无细胞核酸样品或其组合的甲基化数据来鉴定至少一种癌症甲基化标志物的指令。

在一些实施方案中,至少一种癌症甲基化标志物包含表观等位基因、单个CpG位点、基因组区域或其组合。

在一些实施方案中,处理甲基化数据包括基于至少一种癌症甲基化标志物在实体瘤样品、正常组织样品、无细胞核酸样品或其组合之间的差异甲基化来鉴定至少一种癌症甲基化标志物。

在一些实施方案中,一个或更多个另外的对象包括一个或更多个癌症患者和一个或更多个正常对象。

在一些实施方案中,处理甲基化数据包括基于至少一种癌症甲基化标志物在获自一个或更多个癌症患者的样品和获自一个或更多个正常对象的样品之间的差异甲基化来鉴定至少一种癌症甲基化标志物。

在一些实施方案中,多个无细胞核酸包含无细胞脱氧核糖核酸(cfDNA)。在一些实施方案中,多个无细胞核酸包含无细胞核糖核酸(cfRNA)。

在一些实施方案中,指令集包含指导对多个无细胞核酸进行扩增的指令。在一些实施方案中,扩增包括聚合酶链式反应(PCR)。在一些实施方案中,指令集包含针对参考来处理所推断的多个CNV状态的指令。在一些实施方案中,参考包含从同一对象或一个或更多个另外的对象的多个无细胞核酸中检测的第二多个CNV状态。

在一些实施方案中,多个无细胞核酸获自对象的身体样品。在一些实施方案中,身体样品选自血浆、血清、骨髓、脑脊液、胸膜液、唾液、粪便和尿。在一些实施方案中,指令集包含处理所推断的多个CNV状态以产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,疾病或病症是癌症。在一些实施方案中,癌症选自胰腺癌、肝癌、肺癌、结直肠癌、白血病、膀胱癌、骨癌、脑癌、乳腺癌、宫颈癌、子宫内膜癌、食管癌、胃癌、头颈癌、黑素瘤、卵巢癌、睾丸癌、肾癌、肉瘤、胆管癌和前列腺癌。在一些实施方案中,对象无疾病或病症的症状。

在一些实施方案中,指令集包含以至少约60%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约70%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约80%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约90%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约95%的灵敏度产生对象患有或被怀疑患有疾病或病症的似然的指令。

在一些实施方案中,指令集包含以至少约60%的特异性产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约70%的特异性产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约80%的特异性产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约90%的特异性产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约95%的特异性产生对象患有或被怀疑患有疾病或病症的似然的指令。

在一些实施方案中,指令集包含以至少约60%的准确度产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约70%的准确度产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约80%的准确度产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约90%的准确度产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约95%的准确度产生对象患有或被怀疑患有疾病或病症的似然的指令。

在一些实施方案中,指令集包含以至少约60%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约70%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约80%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约90%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约95%的阳性预测值产生对象患有或被怀疑患有疾病或病症的似然的指令。

在一些实施方案中,指令集包含以至少约60%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约70%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约80%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约90%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约95%的阴性预测值产生对象患有或被怀疑患有疾病或病症的似然的指令。

在一些实施方案中,指令集包含以至少约0.60的接受者操作特征曲线下面积(AUROC)产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约0.70的AUROC产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约0.80的AUROC产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约0.90的AUROC产生对象患有或被怀疑患有疾病或病症的似然的指令。在一些实施方案中,指令集包含以至少约0.95的AUROC产生对象患有或被怀疑患有疾病或病症的似然的指令。

在一些实施方案中,指令集包含对多个无细胞核酸或其衍生物进行测序以产生多个测序读段的指令。在一些实施方案中,所推断的多个CNV状态包含癌症体细胞驱动突变。

在另一个方面,本公开内容提供了用于从怀孕对象的母体样品的多个无细胞核酸中检测胎儿拷贝数变体(CNV)的方法,所述方法包括:获得通过对所述多个无细胞核酸进行测序而得到的多个测序读段,其中所述多个测序读段包含(i)对应于所述多个无细胞核酸中的胎儿来源无细胞核酸的多个胎儿来源测序读段和(ii)对应于所述多个无细胞核酸中的正常无细胞核酸的多个正常测序读段;以及使用所述多个无细胞核酸的甲基化测序数据和至少一种胎儿甲基化标志物来区分所述多个胎儿来源测序读段与所述多个正常测序读段,其中区分所述多个胎儿来源测序读段与所述多个正常测序读段包括:将所述甲基化测序数据的测序读段归类为胎儿来源测序读段或正常测序读段;构建胎儿来源测序读段计数的谱,其中构建所述谱包括在多个基因组区域中每一个处对所述多个胎儿来源测序读段进行量化;对所构建的胎儿来源测序读段计数的谱进行归一化,以产生胎儿来源测序读段计数的归一化谱;以及基于胎儿来源测序读段计数的所述归一化谱推断所述多个基因组区域中每一个的CNV状态。

在一些实施方案中,将甲基化测序数据的测序读段归类为胎儿来源测序读段或正常测序读段包括以下至少之一:(i)计算测序读段的似然比,并且将所述似然比与似然比阈值进行比较,其中似然比超过似然比阈值则指示胎儿来源测序读段;和(ii)计算测序读段的后验概率,并且将所述后验概率与后验概率阈值进行比较,其中后验概率超过后验概率阈值则指示胎儿来源测序读段。

在一些实施方案中,将测序读段归类为胎儿来源测序读段或正常测序读段还包括:计算测序读段的类别特异性似然。

在一些实施方案中,构建胎儿来源测序读段计数的谱包括排除多个测序读段中全部被归类为正常测序读段的那些。

在一些实施方案中,构建胎儿来源测序读段计数的谱包括根据全基因组分割策略将人基因组的至少一部分划分为多个基因组区域,所述多个基因组区域包含非重叠区块。

在一些实施方案中,非重叠区块具有固定大小。

在一些实施方案中,非重叠区块的大小可变。

在一些实施方案中,对所构建的胎儿来源测序读段计数的谱进行归一化包括计算所构建的谱的多个基因组区域中每一个中的胎儿来源无细胞核酸的分数。

在一些实施方案中,对所构建的胎儿来源测序读段计数的谱进行归一化包括对所构建的谱进行偏差校正。

在一些实施方案中,进行偏差校正减少了归因于以下至少之一的偏差:GC含量、测序读段映射、测序文库构建和测序平台。

在一些实施方案中,进行偏差校正包括将所构建的谱与参考谱进行比较。

在一些实施方案中,参考谱由获自具有健康胎儿的怀孕对象的一个或更多个cfDNA样品构建。

在一些实施方案中,对所构建的胎儿来源测序读段计数的谱进行归一化包括测量多个基因组区域中每一个在病例和对照样品之间的对数比。

在一些实施方案中,该方法还包括基于多个推断的CNV状态来检测怀孕对象的胎儿的胎儿异常。

在一些实施方案中,基于具有胎儿来源测序读段计数的一个或更多个基因组区域的分数来检测胎儿的胎儿异常,并且所述检测包括使用具有异常测序读段计数的多个基因组区域的分数作为胎儿异常指标评分,其中基于基因组区域的推断的CNV状态的对数比将基因组区域确定为具有异常测序读段计数。

在一些实施方案中,多个无细胞核酸包含无细胞脱氧核糖核酸(cfDNA)。在一些实施方案中,多个无细胞核酸包含无细胞核糖核酸(cfRNA)。

在一些实施方案中,该方法还包括对多个无细胞核酸进行扩增。在一些实施方案中,扩增包括聚合酶链式反应(PCR)。在一些实施方案中,该方法还包括针对参考来处理所推断的多个CNV状态。在一些实施方案中,参考包含从一个或更多个另外的怀孕对象的多个无细胞核酸中检测的第二多个CNV状态。

在一些实施方案中,多个无细胞核酸获自怀孕对象的身体样品。在一些实施方案中,身体样品选自血浆、血清、骨髓、脑脊液、胸膜液、唾液、粪便和尿。在一些实施方案中,该方法还包括处理所推断的多个CNV状态以产生怀孕对象或怀孕对象的胎儿患有或被怀疑患有疾病或病症的似然。在一些实施方案中,疾病或病症包括胎儿异常(例如,胎儿非整倍性)。在一些实施方案中,胎儿非整倍性是唐氏综合症。在一些实施方案中,该方法还包括对多个无细胞核酸或其衍生物进行测序以产生多个测序读段。

前面已经相当广泛地概述了本发明的特征和技术优点,以便可以更好地理解以下对本发明的详细描述。在下文中将描述构成本发明权利要求书主题的本发明的另外的特征和优点。本领域技术人员应理解,所公开的概念和具体实施方案可以容易地用作修改或设计用于实现本发明相同目的的其他结构的基础。本领域技术人员还应认识到,这样的等同构建不脱离所附权利要求书中阐述的本发明的精神和范围。当结合附图考虑时,从以下描述中将更好地理解就其组织和操作方法而言被认为是本发明特征的新特征以及另外的目的和优点。然而,应清楚地理解,每个附图仅出于举例说明和描述的目的而提供,并且不意图作为对本发明的限制的定义。特别考虑到的是,关于本发明的一个实施方案讨论的任何限制可以适用于本发明的任何其他实施方案。此外,本发明的任何系统或存储介质或其他组件可用于本发明的任何方法,并且本发明的任何方法可用于产生或利用本发明的任何组件。在实施例中阐述的实施方案的一些方面也是可以在不同实施例中的其他地方或在本申请的其他地方(例如发明内容、

具体实施方式

、权利要求和附图说明)讨论的实施方案的背景中实施的实施方案。

附图说明

为了更全面地理解本发明,现在参考以下结合附图进行的描述,其中:

图1示出了根据一个公开的实施方案,无细胞拷贝数变异(cfCNV)推断方法之间比较的一些方面的实例。

图2示出了根据一个公开的实施方案,用于在一个或更多个cfDNA样品中检测CNV的方法的一些方面的实例。

图3示出了根据一个公开的实施方案,与区分cfDNA中的肿瘤来源测序读段与正常测序读段相关的概念的实例。

图4示出了根据一个公开的实施方案,通过用于发现覆盖基因组的标志物的方法鉴定的癌症标志物的实例,包括在遍及整个基因组的1M bp的区块内发现的标志物的数目的分布。

图5示出了根据一个公开的实施方案,肿瘤类型T的标志物的不同甲基化模式,其在(A)表观等位基因、(B)CpG位点和(C)基因组区域的水平下以不同的分辨率定义。可以类似地定义正常类别的这些甲基化模式。

图6示出了根据一个公开的实施方案,用于计算给定的cfDNA测序读段的类别特异性似然的方法的实例。

图7示出了根据一个公开的实施方案,计算测序读段的类别特异性似然的实例。

图8示出了根据一个公开的实施方案的实例,其中对于绝大多数标志物,来自健康个体的cfDNA的假阳性率(False Positive Rate,FPR)极低。图8示出了(A)从健康个体的cfDNA样品估计的每种癌症特异性标志物的FPR直方图,以及(B)(A)的直方图的缩小图,其排除了FPR=0的柱。

图9A示出了由公开的实施方案实现的结果的一些方面的实例。

图9B示出了由公开的实施方案实现的结果的一些方面的实例。通过本文中公开的cfCNV方法从怀孕对象的cfDNA样品中获得的CNV谱可以检测到与在来自相同对象的实体胎盘组织样品中发现的那些相同的重复区域(例如,指示CNV获得)和缺失区域(例如,指示CNV丢失)。相比之下,传统CNV方法(例如,基于总读段计数的方法)无法做到这一点。

图10示出了根据一个公开的实施方案,用于执行本公开内容的方法的系统的组件的实例。

图11示出了被编程为或以其他方式被配置为实施本文中提供的方法的计算机系统。

具体实施方式

尽管在本文中已经示出和描述了本发明的多种实施方案,但是对于本领域技术人员而言明显的是,这样的实施方案仅以示例的方式提供。在不脱离本发明的情况下,本领域技术人员可以想到许多变化、改变和替换。应理解,可以采用本文中所述的本发明的实施方案的多种替代方案。

如说明书和权利要求书中所使用的,除非上下文另外明确指出,否则未用数量词限定的名词包括了复数引用。例如,术语“核酸”包括多个核酸,包括其混合物。

如本文中所使用的,术语“对象”通常是指具有可测试或可检测的遗传信息的实体或介体。对象可以是个人、个体或患者。对象可以是脊椎动物,例如哺乳动物。哺乳动物的一些非限制性实例包括人、猿、农场动物、运动动物、啮齿动物和宠物。对象可以是健康对象、患有疾病或病症(例如,癌症)的患者、被怀疑患有疾病或病症(例如,癌症)的患者、怀孕的雌性对象或被怀疑怀孕的雌性对象。对象可能表现出指示对象的健康或生理状态或状况的症状,例如对象的癌症相关健康或生理状态或状况。作为替代,对象关于这样的健康或生理状态或状况可以是无症状的。

如本文中所使用的,术语“样品”通常是指获自或源自一个或更多个对象的生物样品。生物样品可以是无细胞生物样品或基本上无细胞的生物样品,或者可以被处理或分级以产生无细胞生物样品。例如,无细胞生物样品可以包括无细胞核糖核酸(cfRNA)、无细胞脱氧核糖核酸(cfDNA)、无细胞胎儿DNA(cffDNA)、血浆、血清、尿、唾液、羊水及其衍生物。无细胞生物样品可使用乙二胺四乙酸(EDTA)收集管、无细胞RNA收集管(例如Streck)或无细胞DNA收集管(例如Streck)获自或源自对象。无细胞生物样品可通过分级源自全血样品。

如本文中所使用的,术语“核酸”通常是指任何长度的核苷酸的聚合物形式,所述核苷酸是脱氧核糖核苷酸(dNTP)或核糖核苷酸(rNTP)或其类似物。核酸可以具有任何三维结构,并且可以执行任何已知或未知的功能。核酸的一些非限制性实例包括脱氧核糖核酸(DNA)、核糖核酸(RNA)、基因或基因片段的编码或非编码区、从连锁分析限定的基因座、外显子、内含子、信使RNA(mRNA)、转移RNA、核糖体RNA、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微小RNA(miRNA)、核酶、cDNA、重组核酸、分支核酸、质粒、载体、任何序列的分离的DNA、任何序列的分离的RNA、核酸探针和引物。核酸可包含一个或更多个经修饰核苷酸,例如甲基化核苷酸和核苷酸类似物。如果存在的话,核苷酸结构的修饰可以在核酸组装之前或之后进行。核酸的核苷酸序列可以被非核苷酸组分中断。核酸可以在聚合之后进一步修饰,例如通过与报道剂缀合或结合。

如本文中所使用的,术语“靶核酸”通常是指核酸分子的起始群体中具有如下核苷酸序列的核酸分子:希望确定所述核苷酸序列的存在、量和/或序列或者这些中的一种或更多种的变化。靶核酸可以是任何类型的核酸,包括DNA、RNA及其类似物。如本文中所使用的,“靶核糖核酸(RNA)”通常是指作为RNA的靶核酸。如本文中所使用的,“靶脱氧核糖核酸(DNA)”通常是指作为DNA的靶核酸。

如本文中所使用的,术语“扩增”通常是指核酸分子的大小或量的增加。核酸分子可以是单链或双链的。扩增可包括产生核酸分子的一个或更多个拷贝或“扩增产物”。扩增可以例如通过延伸(例如引物延伸)或连接来进行。扩增可包括进行引物延伸反应以产生与单链核酸分子互补的链,并且在一些情况下产生链和/或单链核酸分子的一个或更多个拷贝。术语“DNA扩增”通常是指产生DNA分子或“扩增的DNA产物”的一个或更多个拷贝。术语“逆转录扩增”通常是指通过逆转录酶的作用从核糖核酸(RNA)模板产生脱氧核糖核酸(DNA)。

本公开内容提供了用于在无细胞核酸样品(例如无细胞DNA(cfDNA)和/或无细胞RNA(cfRNA)样品)中检测或推断拷贝数变异、拷贝数改变或拷贝数多态性(统称为拷贝数变体(CNV))的定量测量的方法和系统,即使在cfDNA/cfRNA样品中CNV的量或水平较低的情况下也是如此。由于cfDNA经常被用于检测CNV,因此本公开内容一般提及cfDNA(没有明确提及cfRNA)。然而,应理解,本文中提供的方法和系统也可以应用于其他类型的核酸,例如cfRNA。因此,本公开内容中对“cfDNA”的任何提及也可以明确地应用于其他类型的循环核酸。

在一些实施方案中,本公开内容的方法和系统可用于在个体患者中检测CNV。在一些实施方案中,本公开内容的方法和系统可用于从母体血液中检测胎儿CNV。

在一个方面,本公开内容提供了用于在cfDNA样品中灵敏地检测CNV的方法,其可以包括使用cfDNA甲基化测序数据和癌症甲基化标志物来区分肿瘤来源测序读段与正常测序读段。基于甲基化cfDNA测序数据(例如,使用甲基化测序方法(例如亚硫酸氢盐测序)获得)和癌症甲基化标志物,可以将cfDNA样品的多个cfDNA测序读段(例如,包含癌症甲基化标志物)中的每一个cfDNA测序读段归类为对应于肿瘤来源cfDNA或正常血浆cfDNA。基于归类,仅cfDNA样品的肿瘤来源测序读段集可用于推断CNV。接下来,可以构建肿瘤来源测序读段计数的谱(例如,通过对多个基因组区域或区块的每一个中的肿瘤来源测序读段计数进行量化)。然后可以对所构建的肿瘤来源测序读段的谱进行归一化。可以推断每个基因组区域的CNV状态(例如,获得或丢失),并且可以基于对象的推断的CNV谱进行诊断或预后。

根据本公开内容的方法和系统在cfDNA样品中检测或推断CNV在本文中可称为无细胞CNV(cfCNV)方法。与常规的基于测序读段计数的CNV检测方法相比,本文中所述的cfCNV方法和系统可以能够以高得多的灵敏度、特异性和准确度检测CNV。

首先,可以通过检查常规方法的缺点进一步理解本文中所述的实施方案及其提供的益处。如所提及的,如果肿瘤来源的cfDNA分数低,则常规RC方法的实用性可能降低,因为来自肿瘤来源CNV的信号被绝大多数的正常(例如,非肿瘤)测序读段所淹没。该挑战在图1中示出,其中肿瘤来源测序读段(红色)占所有测序读段(例如,包含肿瘤来源和正常测序读段的混合物)中的很小一部分。在组101A处,图1示出了cfDNA读段,其可以包含肿瘤来源测序读段或正常测序读段。在组101B处,图1示出了常规拷贝数推断方法,其对多个基因组区域(区块)中每一个中的所有测序读段进行计数。例如,假设在第一个区块中,肿瘤细胞复制了染色体片段,使得观察到50个肿瘤来源测序读段,而不是25个肿瘤来源测序读段。然而,在第一个区块中观察到总共10050个读段,因此,这样的相对较小的变化通常可被认为是噪音。因此,在这样的情况下,常规RC方法可能无法准确地检测和调用(call)CNV。图1的组101C示出了与本文中所述的一些实施方案相关概念。

图2示出了根据一个公开的实施方案,用于在一个或更多个cfDNA样品中检测CNV的方法200的一些方面的实例。方法200可以包括使用cfDNA甲基化测序数据和癌症甲基化标志物来区分肿瘤来源测序读段与正常测序读段。基于甲基化cfDNA测序数据(例如,使用甲基化测序方法(例如亚硫酸氢盐测序)获得)和癌症甲基化标志物,可以将cfDNA样品的每一个cfDNA测序读段归类为对应于肿瘤来源cfDNA或正常血浆cfDNA。基于这种归类,仅肿瘤来源测序读段集可用于推断cfDNA样品中的CNV。因此,方法200可包括鉴定癌症甲基化标志物的集(如在操作201中),预测肿瘤来源测序读段的集(如在操作202中),构建基因组区块中肿瘤来源测序读段计数的谱(如在操作203中),对基因组区块中的所构建的谱进行归一化(如在操作204中),以及估计每个基因组区块的CNV状态(如在操作205中)。可以基于对象的推断的CNV谱进行诊断或预后。或者,CNV推断方法可以具有广泛的应用,例如癌症监测、治疗监测、抗性监测、手术或其他治疗对于对象癌症的效力的评估,以及最小残留疾病(minimum residual disease,MRD)检测。例如,可以使用后续血浆cfDNA样品检测最小残留疾病(MRD)。也就是说,在手术之后,可以获得后续血浆样品,并且使用本公开内容的cfCNV方法和系统进行分析来监测和检测MRD。由于肿瘤已经治疗或切除,因此后续cfDNA样品中的肿瘤分数可低于基线cfDNA样品。因此,MRD检测可能需要通过本公开内容的方法和系统提供的对包含肿瘤来源CNV信号的测序读段的灵敏和可靠的检测。

无细胞核酸样品和测序

无细胞生物样品可获自或源自健康对象、患有疾病或病症(例如,癌症)的患者、被怀疑患有疾病或病症(例如,癌症)的患者、怀孕的雌性对象、或被怀疑怀孕的雌性对象。无细胞样品在处理之前可以储存在多种储存条件下,例如不同的温度(例如,在室温下,在冷藏或冷冻条件下,在25℃、4℃、-18℃、-20℃或-80℃下)或不同悬浮液(例如EDTA收集管、无细胞RNA收集管或无细胞DNA收集管)。

无细胞生物样品可获自患有疾病或病症(例如,癌症)的对象、被怀疑患有疾病或病症(例如,癌症)的对象、或未患有或未被怀疑患有疾病或疾患(例如,癌症)的对象。

可以在治疗患有疾病或病症(例如,癌症)的对象之前和/或之后获取无细胞生物样品。可以在治疗或治疗方案期间从对象获得无细胞生物样品。可以从对象获得多个无细胞生物样品以监测随时间的治疗效果。可以从已知或被怀疑患有疾病或病症(例如,癌症)的对象获取无细胞生物样品,对于所述疾病或病症,不能通过临床测试获得确定的阳性或阴性诊断。可以从被怀疑患有疾病或病症(例如,癌症)的对象获取样品。可以从经历无法解释的症状(例如疲劳、恶心、体重减轻、疼和疼痛、虚弱或出血)的对象获取无细胞生物样品。可以从具有解释的症状的对象获取无细胞生物样品。可以从由于例如以下的因素或存在其他风险因素而处于发生疾病或病症(例如,癌症)的风险之中的对象获取无细胞生物样品:家族史、年龄、高血压或高血压前期、糖尿病或糖尿病前期、超重或肥胖、环境暴露、生活方式风险因素(例如吸烟、饮酒或吸毒)。

在一些实施方案中,从无细胞生物样品中提取多个核酸分子,并进行测序以产生多个测序读段。核酸分子可包含核糖核酸(RNA)或脱氧核糖核酸(DNA)。可以通过例如以下的多种方法从无细胞生物样品中提取核酸分子(例如RNA或DNA),例如来自MP Biomedicals的FastDNA试剂盒方案(FastDNA Kit protocol),来自Qiagen的QIAamp DNA无细胞生物迷你试剂盒(QIAamp DNA cell-free biological mini kit),或来自Norgen Biotek的无细胞生物DNA分离试剂盒方案(cell-free biological DNA isolation kit protocol)。提取方法可以从样品中提取所有RNA或DNA分子。或者,提取方法可以从样品中选择性地提取RNA或DNA分子的一部分。从样品中提取的RNA分子可通过逆转录(reverse transcription,RT)转化为DNA分子。

测序可以通过任何合适的测序方法进行,例如大规模平行测序(massivelyparallel sequencing,MPS)、双端测序、高通量测序、下一代测序(next-generationsequencing,NGS)、鸟枪法测序、单分子测序、纳米孔测序、半导体测序、焦磷酸测序、合成测序(sequencing-by-synthesis,SBS)、连接测序(sequencing-by-ligation)和杂交测序(sequencing-by-hybridization)、RNA-Seq(Illumina)。

测序可以包括(例如,RNA或DNA分子的)核酸扩增。在一些实施方案中,核酸扩增是聚合酶链式反应(PCR)。可以进行适当的PCR(例如PCR、qPCR、逆转录酶PCR、数字PCR等)轮数,以将初始量的核酸(例如RNA或DNA)充分扩增至用于随后测序的期望输入量。在一些情况下,PCR可用于靶核酸的全局扩增(global amplification)。这可以包括使用可以首先与不同分子连接的衔接子序列(adapter sequence),然后使用通用引物进行PCR扩增。可以使用多种商业试剂盒中的任一种进行PCR,例如,由Life Technologies、Affymetrix、Promega、Qiagen等提供的。在另一些情况下,仅核酸群体内的特定靶核酸可以扩增。在一些实施方案中,对多个DNA进行酶或化学反应以区分甲基化的碱基与未甲基化的碱基。在一些实施方案中,对多个DNA进行亚硫酸氢盐转化。可与衔接子连接结合的特异性引物可用于选择性地扩增特定靶标以进行下游测序。PCR可以包括一种或更多种基因组基因座(例如与癌症或妊娠相关的基因组基因座)的靶向扩增。测序可以包括同时使用逆转录(RT)和聚合酶链式反应(PCR),例如Qiagen、NEB、Thermo Fisher Scientific或Bio-Rad的OneStep RT-PCR试剂盒方案。

从无细胞生物样品分离或提取的RNA或DNA分子可以例如用可鉴定的标签进行标记,以允许多个样品的多路复用。可以对任意数目的RNA或DNA样品进行多路复用。例如,多路复用反应可以包含来自至少约2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100或多于100个初始无细胞生物样品的RNA或DNR。例如,多个无细胞生物样品可以用样品条形码标记,使得每个DNA分子可以追溯回DNA分子所来源的样品(和对象)。这样的标签可以通过连接或通过用引物进行的PCR扩增而附着于RNA或DNA分子。条形码可以独特地标记样品中的cfDNA分子。或者,条形码可以非独特地标记样品中的cfDNA分子。条形码可以非独特地标记样品中的cfDNA分子,使得与非独特标签组合获取的取自cfDNA分子(例如cfDNA分子的内源序列的至少一部分)的另外信息可用作样品中cfDNA分子的独特标识符(例如,以相对于其他分子进行独特鉴定)。例如,可以基于包括以下的序列信息检测具有独特身份(例如,来自给定的模板分子)的cfDNA序列读段:在序列读段的一端或两端处的一个或更多个连续碱基区域、序列读段的长度以及在序列读段的一端或两端处连接的条形码的序列。可以通过在扩增之前将DNA(例如cfDNA)样品分割到许多个(例如至少约50个、至少约100个、至少约500个、至少约1000个、至少约5000个、至少约1万个、至少约5万个或至少约10万个)不同的离散亚单位(例如,分区、孔或液滴)中使得可以独特地分辨扩增的DNA分子并将其鉴定为源自它们各自单独的DNA输入分子来在没有标记的情况下独特地鉴定DNA分子。

可以使多个DNA分子或衍生物经受足以允许区分甲基化核酸碱基与未甲基化核酸碱基的条件。在一些情况下,使多个DNA分子或其衍生物经受区分甲基化碱基与未甲基化碱基的条件包括对多个DNA分子进行亚硫酸氢盐转化。在一些情况下,使多个DNA分子或其衍生物经受区分甲基化碱基与未甲基化碱基的条件包括酶促反应或化学反应以氧化甲基化胞嘧啶核酸碱基和/或羟甲基化胞嘧啶核酸碱基,然后使氧化反应产物还原和/或脱氨基。

可以使用多种核酸测序方法对本公开内容的样品进行测序。这样的样品可以在测序之前进行处理,例如通过进行纯化、分离、富集、核酸扩增(例如,聚合酶链式反应(PCR))。测序可以使用例如以下来进行:Sanger测序、高通量测序、焦磷酸测序、合成测序、单分子测序、纳米孔测序、半导体测序、连接测序、杂交测序、RNA-Seq(Illumina)、数字基因表达(Helicos)、下一代测序(例如,Illumina,Pacific Biosciences of California,IonTorrent)、单分子合成测序(Single Molecule Sequencing by Synthesis,SMSS)(Helicos)、大规模平行测序、克隆单分子阵列(Solexa)、鸟枪法测序、Maxim-Gilbert测序、引物步移、使用PacBio、SOLiD、Ion Torrent或Nanopore平台的测序,以及本领域中已知的任何其他测序方法。可以使用多路复用测序进行同时测序反应。

测序可以产生测序读段(“读段”),其可以通过计算机处理。在一些实例中,可以相对于一个或更多个参考来处理读段以鉴定拷贝数变体(CNV)。

在一些实例中,可对可包含多种不同类型的核酸的无细胞多核苷酸进行测序。核酸可以是多核苷酸或寡核苷酸。核酸包括但不限于脱氧核糖核酸(DNA)或核糖核酸(RNA)、单链或双链DNA、互补DNA(cDNA)或RNA/cDNA对。

鉴定覆盖基因组的癌症甲基化标志物的集

重复区域中的普遍低甲基化是许多癌症类型的特点。因此,我们考虑了占人基因组超过50%的重复序列,以鉴定足以跨越基因的癌症甲基化标志物的集。例如,对于肝癌,已鉴定出平均甲基化水平相对于正常具有至少大于0.2的变化(注意平均甲基化值跨度为0至1)的447,050种标志物。如果将人基因组划分为1Mb区块,则每个区块包含平均157种癌症标志物,并且所有区块中94%包含癌症标志物。这些标志物覆盖了整个基因组。因此,我们在每个区块中具有足够数目的标志物,以高度可信地构建肿瘤读段分数的谱。

参考图2,在操作201中,可存在可以被执行以鉴定cfDNA甲基化标志物的不同的甲基化标志物发现方法。然而,无论使用哪种甲基化标志物发现方法,关键原则都是选择其甲基化模式不仅可以区分肿瘤和其匹配的正常组织(以消除组织特异性作用)还可以区分肿瘤与正常血浆(以鉴定癌症特异性标志物)的基因组区域或单个CpG位点。肿瘤类别或正常类别(正常组织或正常cfDNA样品)中标志物的甲基化模式可以在不同的碱基分辨率水平下限定。例如,如图5中所示,对于肿瘤类别或正常类别,可存在三种类型的标志物甲基化模式。其分辨率可与表观等位基因一样高,或者可具有“单个CpG位点”的较小的碱基分辨率,或者可与基因组区域的甲基化水平一样低。为了考虑肿瘤(或正常)类别的群体中标志物甲基化模式的个体间差异,可以使用标志物的统计分布(例如β分布)以统计方式描述甲基化模式。如本文中所述,这些分布可用于计算每个测序读段的类别特异性似然。

预测肿瘤来源测序读段

为了预测cfDNA测序读段,本公开内容的方法和系统可以利用单个cfDNA测序读段上的多个相邻CpG位点的联合甲基化模式。常规DNA甲基化分析可集中于细胞群体中单个CpG位点的甲基化率。该比率通常称为CpG位点的β-值,是给定的CpG位点被甲基化的细胞在细胞群体中的比例。然而,使用这样的群体平均测量的方法可能不够敏感以捕获仅影响一小部分cfDNA的异常甲基化信号。

参考图3,单个CpG位点的平均甲基化率对于正常血浆cfDNA可为β正常=1,并且对于肿瘤来源cfDNA可为β肿瘤=0;因此,假设在cfDNA样品中存在约1%的肿瘤来源cfDNA,则常规测量得出的cfDNA样品(例如,获自患有癌症的对象)的值为β混合=0.99,其可能难以与cfDNA样品(例如,获自未患有癌症的对象)的β正常=1区分。

相比之下,本公开内容的方法和系统可以利用DNA甲基化的普遍性质来区分癌症特异性肿瘤来源cfDNA测序读段与正常cfDNA测序读段。如果将给定的测序读段中所有多个CpG位点的甲基化值(表示为α-值)在多个CpG位点上取平均值,则可以观察到异常甲基化(例如,肿瘤来源)的cfDNA(α肿瘤=0%)与正常(例如,非肿瘤来源)的cfDNA(α正常=100%)之间的显著差异。如图3中所示,作为对竖直地覆盖所有多个测序读段的一个CpG位点的多个观察值取平均值(β-值)的替代,本公开内容的系统和方法可以对水平地覆盖测序读段的所有多个CpG位点的观察值取平均值(α-值)。换句话说,考虑到DNA甲基化的普遍性质,多个相邻CpG位点的联合甲基化模式可用于容易地区分癌症特异性肿瘤来源cfDNA测序读段与正常cfDNA测序读段。如通过对α-值的观察所表明的,可以有效地利用由cfDNA中普遍甲基化引起的肿瘤特异性信号来估计给定的测序读段中所有多个CpG位点的联合概率是否指示癌症的DNA甲基化特征。使用这种概率方法,本公开内容的系统和方法可以有效地用于区分肿瘤来源测序读段与正常测序读段。

图3示出了根据一个公开的实施方案,与区分cfDNA中的肿瘤来源测序读段与正常测序读段相关的概念的实例。每条线301表示测序读段,并且每个点表示CpG位点,其中空心点302表示未甲基化的CpG位点,并且实心点303表示甲基化的CpG位点。通常,肿瘤来源测序读段可预期包含甲基化的CpG位点,而正常测序读段可预期包含未甲基化的CpG位点。与使用CpG位点的β-值(例如,对所有多个测序读段取平均值的CpG位点的观察的甲基化水平,如水平行所示)的方法相比,测序读段的α-值(例如,对给定的测序读段中的所有多个CpG位点取平均值的观察的甲基化值,如竖直列所示)可用于以更高的灵敏度、特异性和准确度检测肿瘤来源cfDNA,例如在肿瘤来源cfDNA分数(例如在cfDNA样品中)非常低的情况下。

根据不同的实施方案,可以使用多种不同的方法进行基于甲基化模式的肿瘤来源测序读段预测。根据一个优选的实施方案,使用(1)似然比或(2)后验概率(由P(T|读段)表示)进行基于甲基化模式的肿瘤来源测序读段预测。两种方法都可以包括计算每个cfDNA测序读段的类别特异性似然,对于肿瘤类别T由P(读段|T)表示,并且对于正常类别N由P(读段|N)表示。例如,进行肿瘤读段预测由图2的操作201示出。

为了计算类别特异性测序读段似然,考虑以肿瘤类别T为例,应注意可以将类似计算应用于正常类别N。如通过本文中公开的甲基化测量概念所激发的,可通过评估测序读段上多个CpG位点的联合甲基化状态与类别T的甲基化模式的符合程度来计算P(读段|T)。例如,可以通过生物标志物发现来获得类别T的标志物的甲基化模式,所述生物标志物发现选择不仅能够区分肿瘤和其匹配的正常组织(以消除组织特异性作用)还能够区分肿瘤与正常血浆(以鉴定癌症特异性标志物)的特定基因组区域。甲基化模式可以以位置特异性方式描述多个相邻CpG位点的甲基化水平。给定的CpG位点可具有在对象群体中表现出个体间差异的甲基化水平。因此,通常将给定的CpG位点的甲基化水平建模为具有两个正形状参数的β分布β(ηTT)。另外,当考虑从测序数据观察到的二元甲基化状态时,具有先前β(ηTT)的β-Bemoulli分布已被证明是更合适的模型。

图6示出了根据一个公开的实施方案,用于计算给定的cfDNA测序读段的类别特异性似然的方法的实例,包括正常类别似然计算601和肿瘤类别似然计算602。肿瘤类别似然计算602示出了肿瘤特异性甲基化模式的实例,其包含多个4个CpG位点(CpG位点1、CpG位点2、CpG位点3和CpG位点4),并且每个CpG位点具有通过β-Bernoulli分布描述的甲基化水平的统计分布。可以从例如来自肿瘤患者群体(例如,包含50个个体)的实体瘤的甲基化数据获知β分布的参数ηT和ρT。因此,给定包含该多个4个CpG位点的cfDNA测序读段,本公开内容的方法和系统可包括计算观察到来自肿瘤类别T的该测序读段的似然(例如,肿瘤类别特异性测序读段似然),由P(读段|T)表示,作为测量该测序读段的多个4个CpG位点的联合甲基化状态如何同时符合肿瘤类别的4个β-Bemoulli分布的概率。图6示出了肿瘤类别似然计算602的细节。

类似地,可以基于标志物的正常类别甲基化模式计算同一测序读段的正常类别似然,由P(读段|N)表示。正常类别似然计算601示出了正常甲基化模式的实例,其包含多个4个CpG位点(CpG位点1、CpG位点2、CpG位点3和CpG位点4),并且每个CpG位点具有通过β-Bernoulli分布描述的甲基化水平的统计分布。可以从例如来自正常对象(例如,未患有癌症)的群体(例如,包含50个个体)的甲基化数据获知β分布的参数ηN和ρN。因此,给定包含该多个4个CpG位点的cfDNA测序读段,本公开内容的方法和系统可包括计算观察到来自正常类别N的该测序读段的似然(例如,正常类别测序读段似然),由P(读段|N)表示,作为测量该测序读段的多个4个CpG位点的联合甲基化状态如何同时符合正常类别的4个β-Bemoulli分布的概率。图6示出了正常类别似然计算601的细节。

在实践中,可用Illumina珠阵列分析肿瘤和匹配的组织样品的大量甲基化数据,例如从公共数据源(例如,癌症基因组图谱(The Cancer Genome Atlas,TCGA)数据库、1000基因组数据库(1000Genome database)和国际癌症基因组联盟数据库(InternationalCancer Genome Consortium database,ICGC))获得的那些。由于Illumina阵列上的探针可能无法覆盖CpG岛中所有的多个连续CpG位点,所以可能无法指定标志物中多个的单个CpG位点的DNA甲基化水平的分布。因此,在一些实施方案中,基于标志物区域内多个的大多数CpG位点遵循甲基化水平的相同统计分布的假设,使用了测序读段似然的“近似”计算。以这种方式,标志物中所有多个CpG位点的甲基化水平可以通过估计均匀的β分布来建模。也就是说,可以将类别T的每种标志物的甲基化模式建模为β分布,由β(ηTT)表示。

图7示出了根据一个公开的实施方案,计算测序读段的类别特异性似然的实例,包括正常类别似然计算701和肿瘤类别似然计算702。根据图7中示出的实施方案,可以假设,基于研究结果,覆盖少于500个碱基对(bp)的标志物区域中的多个CpG位点的甲基化是高度相关的。例如,使用从TCGA收集的包含18种组织类型的711份正常样品的组群,计算了那些标志物每一个内相邻CpG位点的平均相关性为0.626(P-值<10-30)。

用于对读段进行归类的似然比方法可以如下进行。基于序列读段源自肿瘤类别(T)或正常组织类别(N)的单个似然,可以计算似然比,由Λ(r)=P(读段|T)/P(读段|N)表示,其评价了与正常组织类别N相比,序列读段源自肿瘤类别T的相对似然(例如,可能高出多少倍)。具有大似然比(例如,远大于1)的测序读段被归类为肿瘤来源测序读段。例如,如果测序读段的似然比大于给定的似然比阈值(例如约2、约3、约4、约5、约6、约7、约8、约9、约10、约20、约30、约40、约50、约60、约70、约80、约90、约100、约500、约1000、约5000、约104、约5×104、约105、约5×105、约106、约5×106、约107、约5×107、约108、约5×108、约109、或大于约109),则该测序读段可被归类为肿瘤来源测序读段。在一些实施方案中,可以计算每个似然比的p-值以评价其显著性,并且该p-值可以在多次测试中校正。在一些实施方案中,可以应用不同的似然比(或p-值)阈值来获得具有不同质量的预测的肿瘤来源测序读段的多个不同集。

用于对读段进行归类的后验概率方法可以如下进行。可以使用以下表达基于贝叶斯定理(Bayes theorem)计算后验概率P(T|读段)。

其中θ是肿瘤来源cfDNA分数。通过解决以下最大似然估计问题,可以使用诸如最大期望值算法(expectation maximization algorithm)或网格搜索算法(grid searchalgorithm)的优化算法来估计θ:

在此,R={读段1,…,读段N}表示患者的cfDNA的甲基化测序数据,例如映射到所有多个癌症甲基化标志物的基因组区域的N个读段的集。可以将似然P(R|θ)扩展为所有多个测序读段的似然的乘积,例如根据混合模型,单个读段i的似然P(读段i|θ)可以通过类别特异性测序读段似然的加权和给出,其中所应用的权重是混合参数θ和(1-θ),由下式给出:

P(读段i|θ)=θP(读段i|T)+(1-θ)P(读段i|N)

后验概率也可以被认为是预测的肿瘤来源测序读段的质量评分。在一些实施方案中,可以使用不同的质量评分阈值来获得预测的肿瘤来源测序读段的多个不同的集,例如高质量、中等质量和/或低质量的肿瘤来源测序读段。通常,与使用较小的质量评分阈值获得的预测的肿瘤来源测序读段集相比,使用较高的质量评分阈值获得的预测的肿瘤来源测序读段集可以预期具有更高的质量。在所有优化算法中,可以使用网格搜索算法来找到全局最优值。其可用于测试所有可能的10,000个均匀分布在0%和100%之间的θ值,并以0.01%的精度找到全局最优值,该值足以捕获肿瘤来源cfDNA的很小一部分。此外,由于网格搜索的计算很快,因此可以通过测试第一最优值附近的更精确的值来容易地完善θ的估计。在一些实施方案中,除了后验概率方法之外或作为后验概率方法的替代,还可以使用似然比对测序读段进行归类。

作为用于对测序读段进行归类的似然比和后验概率方法的替代,可以应用其他方法来分析不同类别(例如,肿瘤来源类别或正常类别)的甲基化模式以对测序读段进行归类。例如,这样的甲基化模式分析可以基于表观等位基因模式,使得可以基于其表观等位基因是否更频繁地在肿瘤来源类别表观等位基因分布或在正常类别表观等位基因分布中出现而将测序读段归类为肿瘤来源测序读段或正常测序读段。

应理解,(1)本公开内容的方法和系统可仅对映射到在肿瘤来源测序读段和正常测序读段之间具有不同的甲基化模式的癌症标志物的测序读段进行归类;以及(2)由于计算的概率性质,可能产生影响CNV检测的一些假阳性(例如,被错误地预测为肿瘤来源测序读段的正常测序读段)和假阴性(例如,被预测为正常测序读段的错过的肿瘤来源测序读段)。然而,与使用具有在大小上与噪音相当的很小部分的肿瘤来源测序读段的cfDNA样品的所有测序读段(肿瘤来源测序读段与正常测序读段的混合物)的常规方法相比,具有很小部分的假阳性和/或假阴性的仅使用肿瘤来源测序读段的方法依然可以实现更高的准确性、灵敏度和/或特异性。因此,利用本文中提供的方法和系统能够显著富集来自cfDNA样品的肿瘤来源测序读段。此外,如本文中更详细地描述的,在一些实施方案中,可以将肿瘤读段计数归一化,以使假阳性和/或假阴性的影响最小化。

可以通过测序读段归类的多种度量来评估各个测序读段的归类准确性,这对于CNV推断可能是必不可少的,所述度量例如灵敏度、特异性、假阳性率(FPR)、假阴性率(False Negative Rate,FNR)、真阳性率(True Positive Rate,TPR)、真阴性率(TrueNegative Rate,TNR)、阳性预测值(positive predictive value,PPV)、阴性预测值(negative predictive value,NPV)、曲线下面积(Area Under Curve,AUC)或其组合。例如,可以通过简单地调用来自非癌症个体的血浆cfDNA的肿瘤来源读段来估计FPR。FNR的估计可能更微妙,因为所使用的癌症标志物可能是预期存在于任何给定对象的cfDNA样品中的标志物的超集,并且因此可能并非全部发生在给定的癌症患者中,并且大多数肿瘤组织与大量的正常组织混合。图8表明,对于绝大多数标志物,来自健康个体cfDNA的FPR率可能极低:约90.9%的癌症标志物具有0%的FPR,并且约8.3%的癌症标志物具有低于20%的FPR。如此低的FPR率,加上归一化的谱利用区块中所有标志物的能力,仅在肿瘤分数极低的情况下才可能影响CNV推断。

构建肿瘤来源测序读段计数的谱

参考图2,在操作202中,构建肿瘤来源测序读段计数的谱。基于在操作201中进行的归类,构建测序读段计数的谱,其排除了被归类为正常的所有测序读段。由于cfDNA中肿瘤来源分数低的挑战,在一些实施方案中,可以通过将整个人基因组划分为大小为例如1M碱基对(bp)的非重叠区域(区块)来应用全基因组分割策略。在一些实施方案中,区块的大小可以为约100bp、约500bp、约1kbp、约5kbp、约10kbp、约50kbp、约100kbp、约500kbp、约1Mbp、约5M bp、约10M bp、约50M bp、约100M bp、约500M bp、或约1000M bp。因此,在一些实施方案中,操作202包括构建测序读段计数谱,其排除了多个测序读段中被归类为“正常”的所有测序读段。然后,可以采用全基因组分割策略,其包括将整个人基因组划分为非重叠的区块,其中每个区块可以具有固定大小或可变大小。

出于至少三个原因,使用固定区块大小(例如,约1M bp的)可以是有利的。首先,可以预期大区块包含了足够数目的肿瘤来源测序读段,即使在浅测序覆盖下也是如此。例如,平均而言,1M bp的区块包含了262种癌症标志物,并且所有这样的区块中的94%被癌症标志物覆盖。其次,1M bp的区块大小足够大以克服与大小为约166bp和332bp的核小体定位相关的任何偏差。第三,可以观察到,该区块大小在来自实际样品的cfDNA数据上运行良好。

应理解,不同的实施方案可以利用不同的区块大小,这取决于例如肿瘤来源测序读段覆盖。另外,可以将基因组分割成不同大小的区块(例如,使用高级分割方法(advancedsegmentation method)自动分割)。如果可以使用具有较高质量评分阈值的似然比来鉴定肿瘤来源测序读段,则可以对每个区块中的肿瘤来源测序读段进行定向计数以产生高质量的谱。或者,如果使用后验概率对肿瘤来源测序读段进行归类,则可以将区块内的所有多个测序读段的后验概率之和计算为测序读段计数,如通过ΣiP(T|读段i)给出的。该方法可以运行良好,因为测序读段的后验概率是0至1的实数值,其等于测序读段身份的“模糊”表示。

或者,可变区块大小可用于基因组分割方法,其基于测序深度和标志物分布动态地确定最佳区块大小。基因组可以如下动态地分割。区块中的标志物区域可能需要包含足够数目的测序读段,以确保足够的灵敏度。取决于测序深度,可能需要每个区块中的测序读段总数高于阈值,以达到检测少量肿瘤cfDNA的灵敏度。例如,如果期望检测灵敏度为0.5%,并且需要至少100个肿瘤读段/区块,则区块必须覆盖至少约20,000个读段。动态基因组分割策略可以满足该标准。首先,可以根据测序深度和癌症检测所需的灵敏度来确定每个区块中标志物区域的最小总大小,从而满足上述标准。然后,可以将整个基因组划分为区块,使得每个区块覆盖确定大小的标志物区域,以满足上述第一标准。在一些实施方案中,由于CNV检测方法依赖于甲基化标志物,对将基因组划分为大小相等的区块的替代是将基因组划分为包含相同数目或大小的所包含的标志物区域的区块。该标准考虑了整个基因组中标志物分布的密度变化。

对所构建的谱进行归一化

再次参考图2,在操作203中,对所构建的肿瘤来源测序读段谱进行归一化。标志物的分布、GC含量、测序读段映射、测序文库构建以及测序深度和平台都可能在测序读段计数中引入误差、偏差或噪音。对肿瘤来源测序读段谱进行归一化可降低这样的影响。在一些实施方案中,可以通过使用局部加权散点图平滑(Locally Weighted Scatter-plotSmoothing,LOWESS)回归和多种工具(例如HMMcopy)来校正由GC含量和容量引起的偏差。另外,可以通过提供对照谱来改善偏差校正:在这种情况下,由匹配的正常样品产生,所述正常样品包含来自获得cfDNA样品的相同血液样品的白细胞的基因组DNA(白细胞通常贡献约80%cfDNA)。如果同一患者的白细胞样品不可获得,则可用对照参考数据集(例如,由来自健康对象的cfDNA样品的集合构建)代替。更重要的是,将所构建的肿瘤来源测序读段谱与对照谱进行比较也可以减少由低质量癌症标志物引起的病例谱中的假阳性测序读段。作为另一实例,用于偏差校正的另一种方法是样品内肿瘤来源测序读段谱比较,其中参考谱由同一样品内的特定基因组区域构建。最后,可以将每个区块的病例样品与对照样品之间的对数比随后用作归一化谱。除上述方法之外,每个区块的“局部”肿瘤cfDNA分数(θ区块)可以用作区块中肿瘤读段丰度的归一化度量。具体地,单个区块的“局部”肿瘤分数θ区块是所有多个测序读段中映射至区块内标志物的肿瘤来源测序读段的分数,并且可以通过将本文中所述的最大似然估计法应用于映射至单个区块内标志物的所有多个测序读段来估计。

估计CNV状态(获得或丢失)

再次参考图2,在操作204中,推断每个基因组区域的CNV状态(例如,获得或丢失)。对每个区块执行该操作,由此可以对对象进行癌症诊断或预后。在归一化之后,测序读段计数数据在概念上可以类似于来自arrayCGH数据的探针对数比。因此,可以再使用从arrayCGH数据检测CNV区域的算法(例如CBS和CGHseg)并进行修改,以将其应用于测序读段计数数据。鉴于前述内容,在一些实施方案中,操作204包括利用归一化谱输出来估计CNV状态。可以使用多种合适的算法来检测CNV区域以分析该归一化谱。

基于CNV推断进行诊断

在推断基因组区域的CNV状态之后,可以基于前述推断来确定诊断或预后。为了确定诊断决定,例如“患者是否患有癌症”,可将具有异常测序读段计数(例如,基于对数比)的区块分数用作例如癌症指标评分。换句话说,在一些实施方案中,基于具有异常测序读段计数(对数比)的区块分数作为癌症指标评分来确定诊断或预后。作为另一个实例,可以通过周期性染色体区域内的获得或丢失(例如在结肠癌的APC基因区域处的丢失)的发生来确定癌症指标评分。

可发现这种方法实现了良好的诊断结果。在多种实施方案中,步骤201至204可以包括在本公开内容的方法和系统的范围内的某些变化和/或子操作。

如所讨论的,图6示出了用于计算具有多个4个CpG位点(例如c1c2c3c4=0011)的给定cfDNA测序读段的类别特异性似然的方法的实例,其中“0011”表示多个中的前两个CpG位点是未甲基化的,并且多个中的后两个CpG位点是甲基化的。注意,(1)每个CpG位点的二元甲基化状态都可以建模为具有先前β(η,ρ)的β-Bernoulli分布,由cj~βBournoulli(ηjj)表示,因此,在CpG位点j观察到甲基化状态的似然cj可以表示为βBournoulli(cjjj);并且(2)B(x,y)是β函数。

还如所讨论的,图7示出了当肿瘤和正常类别的甲基化模式分别遵循β分布β(ηTT)和β(ηNN)时,用于“近似”计算给定cfDNA测序读段的类别特异性似然的方法的实例。注意B(x,y)是β函数。

实施例

提供以下非限制性实施例以进一步举例说明本文中公开的本发明的实施方案。本领域技术人员应理解,以下实施例中公开的技术代表已发现在本发明的实践中功能良好的方法,并且因此可被认为构成用于其实践的方式的实例。然而,根据本公开内容,本领域技术人员应理解,在不脱离本发明的精神和范围的情况下,可以在所公开的具体实施方案中进行许多改变并且仍获得相似或类似的结果。

实施例1:

将cfCNV方法应用于肝癌样品以将肿瘤cfDNA去卷积并检测癌症

如下实施cfCNV方法。在操作1和2中,利用后验概率方法对从肝癌患者cfDNA样品中获得的多个测序读段中的肿瘤来源测序读段进行归类和计数。在步骤3中,在不考虑实验和技术偏差的其他来源的情况下,仅利用来自相同血液样品的白细胞来构建对照谱以用于归一化。在步骤4中,将具有异常对数比的区块的分数用作最终癌症指标评分。

为了执行根据一个公开的实施方案的方法的实例,从15名肝癌患者和5名健康对象收集血浆cfDNA样品的全基因组亚硫酸氢盐测序(whole genome bisulfitesequencing,WGBS)数据。

将cfCNV方法的性能与常规测序读段计数(RC)方法的性能进行比较。为了区分肿瘤来源测序读段,使用了重复区域中的大多数位于基因启动子区域中的甲基化标志物,和低甲基化标志物。使用这些样品,证明了与常规读段计数方法相比,cfCNV方法对于检测癌症更加灵敏和准确。

具体来说,如图9A(称为图表900)中所示,cfCNV方法的公开的实施方案达到了100%的灵敏度和100%的特异性(ROC的曲线下面积(AUC)为1.0,其中使用用于诊断的癌症指标评分的不同截止值产生ROC)。该ROC曲线由实线902示出。相比之下,常规读段计数方法(ROC曲线由虚线901示出)达到了62.8%的灵敏度和99%的特异性(ROC的曲线下面积(AUC)为0.937)。此外,评估了从两种方法得出的基于CNV的癌症指标评分与肿瘤大小的相关程度。在所有具有肿瘤大小记录的15名肝癌患者中,癌症指标评分(例如,异常CNV区块的分数)达到了0.881的皮尔森相关性(Pearson’s correlation)。相比之下,在常规读段计数方法中使用的相同癌症指标达到了0.700的皮尔森相关性。

应理解,设想了将本文中描述的实施方案以不同的方式修改。例如,在检测小的CNV时,使用1M碱基对的区块大小确保了足够数目的肿瘤来源测序读段用于CNV检测,但会使小的CNV的信号变平。因此,一个实施方案可以包括采用高级基因组分割方法以自动地鉴定具有可变大小的CNV区块。此外,通过同时分析多个cfDNA样品可以改善系统偏差的校正。通过对每个基因组区域中多个样品的测序读段计数进行建模,可以容易地鉴定在单个样品中无法鉴定的一些潜在系统偏差,例如差的标志物质量。这样的基于群体的策略可以充分利用多个cfDNA样品的信息,并且可以显示出比仅使用单个样品更好的CNV检测性能。

实施例2:

cfCNV方法的进一步改善

本文中所述的cfCNV方法可以通过以下方法中的一种或更多种来改善。

首先,cfCNV方法可以检测小的CNV。通常,使用1M碱基对的区块大小确保了足够数目的肿瘤来源测序读段用于CNV检测,但会使小的CNV的信号变平。因此,高级基因组分割方法适用于自动地鉴定具有可变大小的CNV区块。

其次,cfCNV方法可以通过同时分析多个cfDNA样品来改善系统偏差的校正。通过对每个基因组区域中多个样品的测序读段计数进行建模,容易地鉴定在单个样品中无法鉴定的一些潜在系统偏差,例如质量差的标志物。与仅使用单个样品相比,这样的基于群体的策略可以充分利用多个cfDNA样品的信息,并实现更高性能的CNV检测。JointSLM23框架中使用的策略或主成分分析(如XHMM24中使用的)适用于整合多个样品以用于偏差消除。

第三,cfCNV方法可如下解决测序误差和/或亚硫酸氢盐转化率。通常,测序误差和/或不完全的亚硫酸氢盐转化可影响似然估计P(读段│T)和P(读段│N)。可以使用碱基质量和读段映射质量评分来计算CpG位点的测序误差。不完全的亚硫酸氢盐转化率不是位点依赖性的,并且可以从已知未甲基化的胞嘧啶(例如线粒体基因组)来估计。可以估计多个相邻CpG位点中联合甲基化的分布,同时考虑这些因素中的任一个或两个。

实施例3:

通过推断胎盘/胎儿DNA的CNV来检测产前病症

本文中所述的方法和系统可用于通过母体cfDNA的甲基化测序数据分析来推断胎盘CNV,以检测产前病症(例如,怀孕对象或怀孕对象的胎儿的疾病或病症)。具体地,选择其甲基化模式(参见图5在不同分辨率下的三种模式)可将胎盘与所有其他正常组织和正常cfDNA样品区分开的特定基因组区域或单个CpG位点作为胎儿甲基化标志物。除了使用多种胎盘甲基化标志物(而不是癌症标志物)之外,其他分析步骤均保持相同(关于癌症中CNV的检测)。构建归一化的胎盘读段丰度的谱并用于估计每个基因组区块中的CNV状态。然后,将所推断的CNV状态以用于检测产前病症,例如胎儿非整倍性(例如唐氏综合症)。

为了模拟胎盘样品中的CNV,如下在胎盘样品中模拟CNV获得和丢失:复制基因组中大小为40M碱基对(bp)的区域中50%的读段以构建复制区域,并去除另一个大小为40M碱基对(bp)的区域中50%的读段以构建缺失区域。通过对正常血浆cfDNA样品和实体胎盘样品两种样品的甲基化测序读段进行采样和混合来模拟血浆cfDNA样品的甲基化数据。实体胎盘样品具有模拟的CNV(如本文中其他地方所述)。产生了胎盘分数为10%、5%和3%的模拟血浆cfDNA样品。

实施可变区块基因组分割方法以限定可变大小的区块。进行组织去卷积以预测胎盘读段,然后基于这些区块构建CNV谱。为了评价本公开内容的可变大小基因组分割方法和cfCNV方法的性能,在怀孕对象中的实体胎盘组织的CNV谱(被认为是真实CNV)与相同对象的模拟cfDNA样品的CNV谱(其可以通过cfCNV方法或通过传统的基于总读段计数的CNV方法获得)之间进行比较。该比较可以通过计算实体胎盘组织的CNV谱与cfDNA来源的CNV谱的相关性来进行。

表1示出了根据一个公开的实施方案,通过cfCNV方法实现的结果的一些方面的实例。给定处于10%、5%和3%的不同胎盘分数下的怀孕对象的模拟cfDNA样品的集,cfCNV方法可以构建与实体胎盘组织的CNV谱匹配良好的CNV谱。如表1中所示,与通过传统的基于总读段计数的CNV方法获得的相比,通过cfCNV方法获得的cfDNACNV谱与实体胎盘组织的CNV谱具有高得多的相关性。注意,基于总读段计数的CNV方法通常用于对区块中的总测序读段进行计数的常规方法中以及用于对总读段计数进行归一化。这些结果表明,cfCNV方法可以改善CNV分析的性能。

图9B示出了由公开的实施方案实现的结果的一些方面的实例。该图进一步证明,cfCNV方法可以灵敏地检测到与在来自相同对象的实体胎盘组织样品中发现的那些相同的重复区域(例如,指示CNV获得)和缺失区域(例如,指示CNV丢失)。相比之下,传统CNV方法(例如,基于总读段计数的CNV方法)无法做到这一点。

表1:通过本公开内容的cfCNV方法和通过常规的基于读段计数的CNV方法获得的胎盘组织样品的CNV谱和模拟cfDNA样品的CNV谱之间的相关性的比较。

图10示出了根据本公开内容,适于从无细胞核酸(例如无细胞脱氧核糖核酸(cfDNA)和无细胞核糖核酸(cfRNA))中灵敏地检测CNV的示例性系统。电子设备1010可以包括设备的多种配置。例如,电子设备1010可以包括计算机、膝上计算机、平板设备、服务器、专用空间处理组件或设备、智能手机、个人数字助理(personal digital assistant,PDA)、物联网(IOTA)设备、网络设备(例如,路由器、接入点、毫微微小区(femtocell)、Pico小区(Pico cell)等)等。

电子设备1010可以包括可操作以促进根据本公开内容的电子设备1010的功能的任何数目的组件,例如所示出的实施方案的处理器1011、系统总线1012、存储器1013、输入接口1014、输出接口1015和编码器1016。处理器1011可以包括一个或更多个处理单元,例如中央处理单元(central processing unit,CPU)(例如,来自英特尔CORE多处理器单元系列(Intel CORE family of multi-processor unit)的处理器)、现场可编程门阵列(fieldprogrammable gate array,FPGA)和/或专用集成电路(application specificintegrated circuit,ASIC),其在一个或更多个限定逻辑模块的指令集的控制下是可操作的,所述逻辑模块被配置为提供如本文中所述的操作。系统总线1012将多种系统组件例如存储器1013、输入接口1014、输出接口1015和/或编码器1016偶连至处理器1011。因此,实施方案的系统总线1012可以是多种类型的总线结构中的任一种,例如使用多种总线体系结构中的任一种的存储器总线或存储器控制器、外围总线和/或局部总线。作为补充或替代,可以利用其他接口和总线结构,例如并行端口、游戏端口或通用串行总线(universal serialbus,USB)。存储器1013可以包括易失性和/或非易失性计算机可读存储介质的多种配置,例如RAM、ROM、EPSOM、闪存或其他存储技术、CD-ROM、数字通用光盘(digital versatiledisk,DVD)或其他光盘存储、磁带盒(magnetic cassette)、磁带、磁盘存储或其他磁性存储设备,或可用于存储期望信息的其他有形和/或非暂时性介质。输入接口1014有助于将一个或更多个输入组件或设备偶连至处理器1011。

例如,使用者可以通过偶连至输入接口1014的一个或更多个输入设备(例如,小键盘、传声器、数字指向设备、触摸屏等)将命令和信息输入到电子设备1010中。图像捕获设备例如照相机、扫描仪、3-D成像设备等可以偶连至实施方案的输入接口1014,例如以在本文中提供源视频。输出接口1015有助于将一个或更多个输出组件或设备偶连至处理器1011。例如,可以通过偶连至输出接口1015的一个或更多个输出设备(例如,显示监视器、触摸屏、打印机、扬声器等)向使用者提供来自电子设备1010的数据、图像、视频、声音等的输出。实施方案的输出接口1015可以提供至其他电子组件、设备和/或系统(例如,存储器、视频解码器、无线电发射机、网络接口卡,设备例如计算机、膝上计算机、平板设备、服务器、专用空间处理组件或设备、智能手机、PDA、IOTA设备、网络设备、机顶盒、电缆头端系统、智能TV等)的接口。

计算机系统

本公开内容提供了被编程为实施本公开内容的方法的计算机系统。图11示出了计算机系统1101,其被编程为或以其他方式被配置为,例如,获得多个测序读段;对多个无细胞核酸进行测序;将测序读段归类为肿瘤来源测序读段或正常测序读段;构建肿瘤来源测序读段计数的谱;对所构建的肿瘤来源测序读段计数的谱进行归一化;推断多个基因组区域中每一个的CNV状态;计算测序读段的似然比;计算测序读段的后验概率;计算测序读段的类别特异性似然;对所构建的谱进行偏差校正;基于推断的CNV状态检测对象的癌症;将测序读段归类为胎儿来源测序读段或正常测序读段;构建胎儿来源测序读段计数的谱;对所构建的胎儿来源测序读段计数的谱进行归一化;以及基于推断的CNV状态检测怀孕对象的胎儿的胎儿异常。

计算机系统1101可以调节本公开内容的分析、计算和生成的多个方面,例如,获得多个测序读段;对多个无细胞核酸进行测序;将测序读段归类为肿瘤来源测序读段或正常测序读段;构建肿瘤来源测序读段计数的谱;对所构建的肿瘤来源测序读段计数的谱进行归一化;推断多个基因组区域中每一个的CNV状态;计算测序读段的似然比;计算测序读段的后验概率;计算测序读段的类别特异性似然;对所构建的谱进行偏差校正;基于推断的CNV状态检测对象的癌症;将测序读段归类为胎儿来源测序读段或正常测序读段;构建胎儿来源测序读段计数的谱;对所构建的胎儿来源测序读段计数的谱进行归一化;以及基于推断的CNV状态检测怀孕对象的胎儿的胎儿异常。计算机系统1101可以是使用者的电子设备或相对于电子设备位于远程的计算机系统。电子设备可以是移动电子设备。

计算机系统1101包括中央处理单元(CPU,在本文中也称为“处理器”和“计算机处理器”)1105,其可以是单核或多核处理器,或者是用于并行处理的多个处理器。计算机系统1101还包括存储器或存储器位置1110(例如,随机存取存储器、只读存储器、闪存)、电子存储单元1115(例如,硬盘)、用于与一个或更多个其他系统进行通信的通信接口1120(例如,网络适配器),以及外围设备1125,例如高速缓冲存储器、其他存储器、数据存储和/或电子显示适配器。存储器1110、存储单元1115、接口1120和外围设备1125通过通信总线(实线)(例如主板)与CPU 1105通信。存储单元1115可以是用于存储数据的数据存储单元(或数据存储库)。计算机系统1101可以借助于通信接口1120可操作地偶连至计算机网络(“网络”)1130。网络1130可以是因特网、互联网和/或外部网,或与因特网通信的内部网和/或外部网。

在一些情况下,网络1130是电信和/或数据网络。网络1130可以包括一个或更多个计算机服务器,其可以能够进行分布式计算,例如云计算。例如,一个或更多个计算机服务器可以能够在网络1130(“云”)上进行云计算,以执行本公开内容的分析、计算和生成的多个方面,例如,获得多个测序读段;对多个无细胞核酸进行测序;将测序读段归类为肿瘤来源测序读段或正常测序读段;构建肿瘤来源测序读段计数的谱;对所构建的肿瘤来源测序读段计数的谱进行归一化;推断多个基因组区域中每一个的CNV状态;计算测序读段的似然比;计算测序读段的后验概率;计算测序读段的类别特异性似然;对所构建的谱进行偏差校正;基于推断的CNV状态检测对象的癌症;将测序读段归类为胎儿来源测序读段或正常测序读段;构建胎儿来源测序读段计数的谱;对所构建的胎儿来源测序读段计数的谱进行归一化;以及基于推断的CNV状态检测怀孕对象的胎儿的胎儿异常。这样的云计算可以由云计算平台提供,例如亚马逊网络服务(AWS)、微软Azure、谷歌云平台和IBM云。在一些情况下,网络1130可以在计算机系统1101的帮助下实现对等网络,该对等网络可以使偶连至计算机系统1101的设备能够充当客户端或服务器。

CPU 1105可包括一个或更多个计算机处理器和/或一个或更多个图形处理单元(GPU)。CPU 1105可以执行一系列机器可读指令,其可以体现在程序或软件中。指令可以存储在存储器位置中,例如存储器1110中。指令可以被定向到CPU 1105,CPU 1105可以随后对CPU 1105进行编程或以其他方式对其进行配置以实施本公开内容的方法。由CPU 1105执行的操作的实例可包括获取、解码、执行和写回。

CPU 1105可以是电路(例如集成电路)的一部分。系统1101的一个或更多个其他组件可以被包含在电路中。在一些情况下,电路是专用集成电路(ASIC)。

存储单元1115可以存储文件,例如驱动程序、文库和保存的程序。存储单元1115可以存储使用者数据,例如,使用者偏好和使用者程序。在一些情况下,计算机系统1101可以包括在计算机系统1101外部的一个或更多个另外的数据存储单元,例如位于通过内部网或因特网与计算机系统1101通信的远程服务器上。

计算机系统1101可以通过网络1130与一个或更多个远程计算机系统进行通信。例如,计算机系统1101可以与使用者的远程计算机系统进行通信。远程计算机系统的实例包括个人计算机(例如,便携式PC)、平板计算机或平板PC(例如,iPad、Galaxy Tab)、电话、智能电话(例如,iPhone、支持Android的设备、)或个人数字助理。使用者可以通过网络1130访问计算机系统1101。

如本文中所述的方法可以通过存储在计算机系统1101的电子存储位置(例如存储器1110或电子存储单元1115)的机器(例如,计算机处理器)可执行代码的方式来实施。机器可执行或机器可读代码可以以软件的形式提供。在使用期间,代码可以由处理器1105执行。在一些情况下,代码可以从存储单元1115检索并存储在存储器1110中,以供处理器1105随时访问。在一些情况下,可以不包括电子存储单元1115,并且机器可执行指令存储在存储器1110中。

代码可以被预编译并配置以与具有适于执行该代码的处理器的机器一起使用,或者可以在运行时间期间编译。代码可以以编程语言来提供,可以选择编程语言以使代码能够以预编译或编译时的方式执行。

本文中提供的系统和方法(例如计算机系统1101)的一些方面可以在编程中体现。可以将技术的多个方面视为通常以机器可读介质的类型承载或体现的机器(或处理器)可执行代码和/或关联数据形式的“产品”或“制品”。机器可执行代码可以存储在电子存储单元,例如存储器(例如,只读存储器、随机存取存储器、闪存)或硬盘上。“存储”类型的介质可以包括计算机、处理器等或其相关模块的任何或所有有形存储器,例如多种半导体存储器、带驱动器、盘驱动器等,其可以随时为软件编程提供非暂时性存储。软件的全部或部分有时可以通过因特网或多种其他电信网络进行通信。例如,这样的通信可以能够将软件从一个计算机或处理器加载到另一个计算机或处理器中,例如从管理服务器或主机加载到应用服务器的计算机平台中。因此,可以承载软件元件的另一种类型的介质包括光波、电波和电磁波,例如通过有线和光学固定网络以及通过多种空中链路在本地设备之间的物理接口中使用。携带这样的波的物理元件(例如有线或无线链路、光链路等)也可以被视为承载软件的介质。如本文中所使用的,除非限于非暂时性有形“存储”介质,否则诸如计算机或机器“可读介质”的术语是指参与向处理器提供指令以供执行的任何介质。

因此,机器可读介质(例如计算机可执行代码)可以采取许多形式,包括但不限于有形存储介质、载波介质或物理传输介质。非易失性存储介质包括例如光盘或磁盘,例如任何计算机中的任何存储设备等,例如可用于实现附图中所示的数据库等。易失性存储介质包括动态存储器,例如这样的计算机平台的主存储器。有形传输介质包括同轴电缆;铜线和光纤,包括构成计算机系统内总线的线。载波传输介质可以采用电信号或电磁信号或声波或光波的形式,例如在射频(radio frequency,RF)和红外(IR)数据通信期间生成的那些。因此,计算机可读介质的常见形式包括,例如:软盘、软磁盘、硬盘、磁带、任何其他磁性介质、CD-ROM、DVD或DVD-ROM、任何其他光学介质、打孔卡纸带、任何其他带孔图案的物理存储介质、RAM、ROM、PROM和EPROM、FLASH-EPROM、任何其他存储芯片或盒带、传输数据或指令的载波、传输这样的载波的电缆或链路,或计算机可以从中读取编程代码和/或数据的任何其他介质。这些形式的计算机可读介质中的许多可能涉及将一个或更多个指令的一个或更多个序列传送至处理器以供执行。

计算机系统1101可包括电子显示器1135或与电子显示器1135通信,所述电子显示器包括使用者界面(UI)1140,其用于提供例如指示以下的数据的视觉显示:测序读段、甲基化测序数据、肿瘤来源测序读段、正常测序读段、肿瘤来源测序读段计数的谱、推断的CNV状态和/或检测的对象癌症;以及将对象鉴定为患有癌症。UI的实例包括但不限于图形使用者界面(graphical user interface,GUI)和基于Web的使用者界面。

本公开内容的方法和系统可以通过一种或更多种算法来实施。可以在由中央处理单元1105执行时通过软件来实施算法。算法可例如获得多个测序读段;对多个无细胞核酸进行测序;将测序读段归类为肿瘤来源测序读段或正常测序读段;构建肿瘤来源测序读段计数的谱;对所构建的肿瘤来源测序读段计数的谱进行归一化;推断多个基因组区域中每一个的CNV状态;计算测序读段的似然比;计算测序读段的后验概率;计算测序读段的类别特异性似然;对所构建的谱进行偏差校正;基于推断的CNV状态检测对象的癌症;将测序读段归类为胎儿来源测序读段或正常测序读段;构建胎儿来源测序读段计数的谱;对所构建的胎儿来源测序读段计数的谱进行归一化;以及基于推断的CNV状态检测怀孕对象的胎儿的胎儿异常。

尽管已经详细描述了本发明及其优点,但是应理解,在不脱离由所附权利要求书限定的本发明的精神和范围的情况下,可以在本文中进行多种改变、替换和变化。此外,本申请的范围不旨在限于说明书中描述的过程、机器、制造、物质组成、手段、方法和步骤的具体实施方案。如本领域的普通技术人员将从本发明的公开内容中容易地理解的,根据本发明可以利用与本文中描述的相应实施方案执行基本上相同的功能或实现基本上相同的结果的当前存在的或以后待开发的过程、机器、制造、物质组成、手段、方法或步骤。因此,所附权利要求书旨在将这样的过程、机器、制造、物质组成、手段、方法或步骤包括在其范围内。

此外,本申请的范围不旨在限于说明书中描述的过程、机器、制造、物质组成、手段、方法和步骤的具体实施方案。

48页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基因融合的快速检测

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!