用于检测循环肿瘤dna的组合物和方法

文档序号:1580716 发布日期:2020-01-31 浏览:36次 >En<

阅读说明:本技术 用于检测循环肿瘤dna的组合物和方法 (Compositions and methods for detecting circulating tumor DNA ) 是由 S·阿纳 T·安格罗尼 于 2017-12-27 设计创作,主要内容包括:本技术提供了多核苷酸组合物和使用其检测患者体内循环肿瘤DNA(ctDNA)的方法。还提供了用于实践所述方法的试剂盒。(The present technology provides polynucleotide compositions and methods of using the same to detect circulating tumor dna (ctdna) in a patient. Kits for practicing the methods are also provided.)

用于检测循环肿瘤DNA的组合物和方法

相关申请的交叉引用

本申请要求2016年12月28日美国临时专利申请案号62/439,574的权益和优先权,其公开内容通过引用以其整体并入本文。

技术领域

本技术涉及多核苷酸衔接子组合物和使用其检测样品(如例如从受试者中获得的无细胞核酸样品)中循环肿瘤DNA(ctDNA)的方法。还提供了用于实践所述方法的试剂盒。

背景技术

下文提供对本技术背景的说明仅仅是为了帮助理解本技术,并且不承认该说明描述或构成本技术的现有技术。

肿瘤不断地使DNA流入循环(ctDNA),所述DNA在循环中容易获得(Stroun等人,EurJ Cancer Clin Oncol 23:707-712(1987))。对这种癌症衍生的无细胞DNA(cfDNA)的分析具有彻底变革癌症检测、肿瘤基因分型和疾病监测的潜力。例如,对于实体瘤,通过液体活组织检查非侵入性地获得肿瘤衍生的DNA特别具有吸引力。然而,在大多数早期实体瘤和许多晚期实体瘤中,ctDNA血液水平极低(Bettegowda,C.等人,Sci.Transl.Med.6:224ra24(2014);Newman,A.M.等人,Nat.Med.20:548–554(2014)),因此使ctDNA检测和分析复杂化。有几个因素影响ctDNA检测限,但是cfDNA分子的回收和文库制备及测序过程中引入的非生物学错误限制了分析灵敏度,并且继续代表超灵敏ctDNA谱分析的主要障碍。

因此,需要更灵敏和高通量的方法来检测和监测癌症患者中肿瘤衍生的核酸。

本技术内容

本文公开的方法和多核苷酸衔接子组合物涉及衍生自被诊断患有或疑似患有癌症的受试者的样品中存在的ctDNA中的突变的检测。预期本文公开的方法允许对一个或多个癌症相关基因(包括但不限于ALK、BRAF、EGFR、ERBB2、KIT、KRAS、MET、NRAS、NTRK1、PIK3CA、ROS1和RET)的外显子和/或内含子中的各靶核酸序列中的ctDNA突变进行快速和灵敏检测以及谱分析。本文公开的方法提供了使用检测限的精确分析模型实现的超灵敏ctDNA谱分析的框架。对于DNA含量有限的样品,这些品质改善了先前方法的检测限。

在一个方面,本公开提供了包含第一寡核苷酸链和第二寡核苷酸链的核酸衔接子,其中(a)第一寡核苷酸链(i)包含第一近端区和第一远端区,其中第一近端区包含第一独特分子标识符序列和具有序列5'TGACT 3'(SEQ ID NO:__)的第一间隔区序列,其中第一间隔区序列位于第一独特分子标识符序列的3'处;(ii)不包含简并或半简并序列;(b)第二寡核苷酸链(i)包含第二近端区和第二远端区,其中第二近端区包含第二独特分子标识符序列和具有序列5'GTCA 3'(SEQ ID NO:__)的第二间隔区序列,其中间隔区序列位于第二独特分子标识符的5'处;(ii)不包括简并或半简并序列;(c)第一寡核苷酸链的第一近端区域与第二寡核苷酸链的第二近端区域杂交;并且(d)第一寡核苷酸链的第一远端区域不与第二寡核苷酸链的第二远端区域杂交。在所述核酸衔接子的一些实施方案中,位于第一间隔区序列的3'端的“T”核苷酸含有硫代磷酸酯键。

在一些实施方案中,第一寡核苷酸链的第一独特分子标识符序列选自:5'AGCTGCAGTAGC 3'(SEQ ID NO:__);5'TGATGATGATAC 3'(SEQ ID NO:__);5'TCGACTGTCGAG3'(SEQ ID NO:__);5'GTACTCTAGCTA 3'(SEQ ID NO:__);5'CAGAGCACTCGT 3'(SEQ IDNO:__);5'CATGCGATAGTC 3'(SEQ ID NO:__);5'TCATCAGTCGAG 3'(SEQ ID NO:__);5'AATCAGCGGTAT 3'(SEQ ID NO:__);5'AGCATACTACTG 3'(SEQ ID NO:__);5'GCTGATACACGT3'(SEQ ID NO:__);5'CTCTGTCACACG 3'(SEQ ID NO:__);5'GCTACGTCATCA 3'(SEQ IDNO:__);5'GCAGATGTCACT 3'(SEQ ID NO:__);5'ACTCACAGCTAG 3'(SEQ ID NO:__);5'CTCGCTCATGTA 3'(SEQ ID NO:__);5'TAGCTGCACTAG 3'(SEQ ID NO:__);5'CAGTTCGAGCTA3'(SEQ ID NO:__);5'TGCATGACTCGC 3'(SEQ ID NO:__);5'GTGTACTGTACA 3'(SEQ IDNO:__);5'ACTAGAGTCTGA 3'(SEQ ID NO:__);5'AGAGTGCGTGTC 3'(SEQ ID NO:__);5'TACGCATCAGAT 3'(SEQ ID NO:__);5'CTGCATGACAGT 3'(SEQ ID NO:__);和5'GTACGATCTCAC 3'(SEQ ID NO:__)。

另外或可替代地,在一些实施方案中,第二寡核苷酸链的第二独特分子标识符序列选自:5'GCTACTGCAGCT 3'(SEQ ID NO:__);5'GTATCATCATCA 3'(SEQ ID NO:__);5'CTCGACAGTCGA 3'(SEQ ID NO:__);5'TAGCTAGAGTAC 3'(SEQ ID NO:__);5'ACGAGTGCTCTG3'(SEQ ID NO:__);5'GACTATCGCATG 3'(SEQ ID NO:__);5'CTCGACTGATGA 3'(SEQ IDNO:__);5'ATACCGCTGATT 3'(SEQ ID NO:__);5'CAGTAGTATGCT 3'(SEQ ID NO:__);5'ACGTGTATCAGC 3'(SEQ ID NO:__);5'CGTGTGACAGAG 3'(SEQ ID NO:__);5'TGATGACGTAGC3'(SEQ ID NO:__);5'AGTGACATCTGC 3'(SEQ ID NO:__);5'CTAGCTGTGAGT 3'(SEQ IDNO:__);5'TACATGAGCGAG 3'(SEQ ID NO:__);5'CTAGTGCAGCTA 3'(SEQ ID NO:__);5'TAGCTCGAACTG 3'(SEQ ID NO:__);5'GCGAGTCATGCA 3'(SEQ ID NO:__);5'TGTACAGTACAC3'(SEQ ID NO:__);5'TCAGACTCTAGT 3'(SEQ ID NO:__);5'GACACGCACTCT 3'(SEQ IDNO:__);5'ATCTGATGCGTA 3'(SEQ ID NO:__);5'ACTGTCATGCAG 3'(SEQ ID NO:__);和5'GTGAGATCGTAC3'(SEQ ID NO:__)。

在一些实施方案中,第一寡核苷酸链的核苷酸序列选自:5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTAGCTGCAGTAGCTGACT 3'(SEQ ID NO:1);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTGATGATGATACTGACT 3'(SEQ ID NO:3);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTCGACTGTCGAGTGACT 3'(SEQ ID NO:5);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGTACTCTAGCTATGACT 3'(SEQ ID NO:7);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCAGAGCACTCGTTGACT 3'(SEQ ID NO:9);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCATGCGATAGTCTGACT 3'(SEQ ID NO:11);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTCATCAGTCGAGTGACT 3'(SEQ ID NO:13);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTAATCAGCGGTATTGACT 3'(SEQID NO:15);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTAGCATACTACTGTGACT 3'(SEQ ID NO:17);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTGATACACGTTGACT 3'(SEQ ID NO:19);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCTGTCACACGTGACT 3'(SEQ ID NO:21);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTACGTCATCATGACT 3'(SEQ ID NO:23);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGCAGATGTCACTTGACT 3'(SEQ ID NO:25);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTACTCACAGCTAGTGACT 3'(SEQ ID NO:27);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCGCTCATGTATGACT 3'(SEQ ID NO:29);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTAGCTGCACTAGTGACT 3'(SEQ ID NO:31);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCAGTTCGAGCTATGACT 3'(SEQ ID NO:33);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTGCATGACTCGCTGACT 3'(SEQ ID NO:35);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGTGTACTGTACATGACT 3'(SEQ ID NO:37);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTACTAGAGTCTGATGACT 3'(SEQ ID NO:39);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTAGAGTGCGTGTCTGACT3'(SEQ ID NO:41);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTACGCATCAGATTGACT 3'(SEQID NO:43);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCTGCATGACAGTTGACT 3'(SEQ ID NO:45);和5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGTACGATCTCACTGACT 3'(SEQ ID NO:47)。

另外或可替代地,在一些实施方案中,第二寡核苷酸链的核苷酸序列选自:5'GTCAGCTACTGCAGCTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:2);5'GTCAGTATCATCATCAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:4);5'GTCACTCGACAGTCGAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:6);5'GTCATAGCTAGAGTACAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:8);5'GTCAACGAGTGCTCTGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:10);5'GTCAGACTATCGCATGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:12);5'GTCACTCGACTGATGAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:14);5'GTCAATACCGCTGATTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC3'(SEQ ID NO:16);5'GTCACAGTAGTATGCTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQID NO:18);5'GTCAACGTGTATCAGCAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:20);5'GTCACGTGTGACAGAGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:22);5'GTCATGATGACGTAGCAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:24);5'GTCAAGTGACATCTGCAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:26);5'GTCACTAGCTGTGAGTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:28);5'GTCATACATGAGCGAGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:30);5'GTCACTAGTGCAGCTAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:32);5'GTCATAGCTCGAACTGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:34);5'GTCAGCGAGTCATGCAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:36);5'GTCATGTACAGTACACAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:38);5'GTCATCAGACTCTAGTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:40);5'GTCAGACACGCACTCTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:42);5'GTCAATCTGATGCGTAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ IDNO:44);5'GTCAACTGTCATGCAGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:46);和5'GTCAGTGAGATCGTACAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:48)。

在核酸衔接子的某些实施方案中,第一寡核苷酸链的5'端用生物素标记。在核酸衔接子的其他实施方案中,第二寡核苷酸链的3'端用生物素标记。在一些实施方案中,使用所述核酸衔接子对选自双链DNA或双链RNA的双链靶核酸分子进行测序。所述双链DNA可以是经剪切的基因组DNA,或是无细胞DNA。

在任何上述实施方案中,本技术的核酸衔接子还包含至少两个PCR引物结合位点、至少两个测序引物结合位点或其任何组合。另外或可替代地,在一些实施方案中,本技术的核酸衔接子还包含样品特异性条形码序列,其中样品特异性条形码序列包含2-20个核苷酸。

在另一个方面,本发明提供了一种用于检测从患者获得的样品中存在的双链循环肿瘤DNA(ctDNA)分子中的至少一个突变的方法,所述方法包括(a)将多个Y形衔接子连接至双链ctDNA分子的两端以形成双链衔接子-ctDNA复合物,每个Y形衔接子包含第一寡核苷酸链和第二寡核苷酸链,其中第一寡核苷酸链的序列和第二寡核苷酸链的序列选自SEQ IDNO:1和SEQ ID NO:2;SEQ ID NO:3和SEQ ID NO:4;SEQ ID NO:5和SEQ ID NO:6;SEQ IDNO:7和SEQ ID NO:8;SEQ ID NO:9和SEQ ID NO:10;SEQ ID NO:11和SEQ ID NO:12;SEQ IDNO:13和SEQ ID NO:14;SEQ ID NO:15和SEQ ID NO:16;SEQ ID NO:17和SEQ ID NO:18;SEQID NO:19和SEQ ID NO:20;SEQ ID NO:21和SEQ ID NO:22;SEQ ID NO:23和SEQ ID NO:24;SEQ ID NO:25和SEQ ID NO:26;SEQ ID NO:27和SEQ ID NO:28;SEQ ID NO:29和SEQ IDNO:30;SEQ ID NO:31和SEQ ID NO:32;SEQ ID NO:33和SEQ ID NO:34;SEQ ID NO:35和SEQID NO:36;SEQ ID NO:37和SEQ ID NO:38;SEQ ID NO:39和SEQ ID NO:40;SEQ ID NO:41和SEQ ID NO:42;SEQ ID NO:43和SEQ ID NO:44;SEQ ID NO:45和SEQ ID NO:46;和SEQ IDNO:47和SEQ ID NO:48;(b)扩增衔接子-ctDNA复合物的两条链以产生第一扩增子和第二扩增子,其中第一扩增子衍生自第一寡核苷酸链,并且第二扩增子衍生自第二寡核苷酸链;(c)对第一扩增子和第二扩增子进行测序;(d)当在第一扩增子中检测到的突变与在第二扩增子中检测到的突变一致时,检测双链ctDNA分子中的至少一个突变。在所述方法的一些实施方案中,患者被诊断患有卵巢癌、乳腺癌、结肠癌、肺癌、***癌、胃癌、胰腺癌、***、肝癌、膀胱癌、泌尿道癌、甲状腺癌、肾癌、上皮癌、黑素瘤、头颈癌或脑癌。

在一些实施方案中,所述方法还包括用多个诱饵序列富集第一扩增子和第二扩增子,其中所述多个诱饵序列包含对应于多个癌症相关基因中的每一个的至少一个基因区域。所述多个癌症相关基因可包含ALK、BRAF、EGFR、ERBB2、KIT、KRAS、MET、NRAS、NTRK1、PIK3CA、ROS1和RET。

另外或可替代地,在所述方法的一些实施方案中,所述多个诱饵序列是RNA诱饵、DNA诱饵、或RNA诱饵和DNA诱饵的混合物。在某些实施方案中,所述多个诱饵序列包含RNA诱饵和DNA诱饵的1:1混合物。在其他实施方案中,所述多个诱饵序列包含RNA诱饵和DNA诱饵的比例为2:1、1.5:1、0.75:1或0.5:1的混合物。

在所述方法的某些实施方案中,所述双链ctDNA分子的两个3'端还包含“A”-悬突端。

在任何上述实施方案中,每个Y形衔接子还包含至少两个测序引物结合位点。另外或可替代地,在一些实施方案中,每个Y形衔接子还包含患者特异性条形码序列,其中所述患者特异性条形码序列包含2-20个核苷酸。本技术的每个Y形衔接子可用生物素标记。

在所述方法的一些实施方案中,所述样品包含不超过5ng的无细胞DNA。在其他实施方案中,所述样品包含至少6-30ng无细胞DNA。在某些实施方案中,所述样品是全血、血清、血浆、滑液、淋巴液、腹水或间质液。

本文还公开了包含一种或多种Y形核酸衔接子和使用说明书的试剂盒,所述Y形核酸衔接子包含选自SEQ ID NO:1-48的至少一个序列。

具体实施方式

本公开内容提供了用于检测无细胞核酸(例如,衍生自被诊断为患有或疑似患有癌症的受试者的样品中存在的ctDNA)中的突变的多核苷酸衔接子组合物和方法。还提供了用于实践所述方法的试剂盒。

癌细胞中的遗传变化可以提供将癌细胞与正常(例如,非癌)细胞区分开的手段。例如,可以分析cfDNA中是否存在肿瘤细胞特有的遗传变异。然而,这些样品中无细胞肿瘤DNA的绝对水平通常较低,并且遗传变异可能仅代表整个基因组的非常小的一部分。影响所有ctDNA谱分析方法的检测限的两个重要因素是回收的cfDNA分子的数量和被研究的患者肿瘤中突变的数量。临床相关的血量在癌症患者中经常由于贫血、合并症和不良的患者体力状态而有限。分析来自健康对照的cfDNA的研究表明,在低于约0.2%的等位基因分数的情况下背景错误越来越明显,并且在0.02%的等位基因分数下>50%的测序基因组位置具有假象(Newman等人,Nat Biotechnol.34(5):547-55(2016))。

尽管已经报道了多种用于减少与测序相关的假象的方法,但是常见的方法涉及用独特标识符(UID,也称为分子条形码)标签化单个DNA分子(Jabara等人,Proc.Natl.Acad.Sci.USA 108,20166–20171(2011);Kinde等人,Proc.Natl.Acad.Sci.USA108,9530–9535(2011);Schmitt,M.W.等人,Proc.Natl.Acad.Sci.USA 109,14508–14513(2012);Kennedy,S.R.等人,Nat.Protoc.9,2586–2606(2014);Kukita,Y.等人,DNARes.22,269–277(2015);Schmitt,M.W.等人,Nat.Methods 12,423–425(2015))。这种条形码能够精确追踪单个分子,从而可以区分体内产生的真实体细胞突变和体外引入的假象。

最近的策略可以追踪原始样品中存在的双链‘双链体’DNA分子(Kennedy,S.R.等人,Nat.Protoc.9,2586–2606(2014);Gregory,M.T.等人,Nucleic Acids Res.44,e22(2016);Schmitt,M.W.等人,Nat.Methods 12,423–425(2015))。虽然双链体条形码比单链条形码方法可实现更好的错误抑制,但效率相对较低(Kennedy,S.R.等人,Nat.Protoc.9,2586–2606(2014)),因此对于在临床环境中可获得的有限cfDNA量而言未达到最优。先前的研究已经报道,涉及使用Y形核酸衔接子的文库构建方法可导致广泛的衔接子-二聚体假象形成,从而使得它们不适合于利用少量核酸起始材料的应用。Bennett等人,BioTechniques56:289-300(2014)。实际上,Kennedy等人(2014)描述的衔接子的整体性能在文库制备的连接阶段较差,从而限制了它们在检测ctDNA中的突变方面的用途。(Newman等人,NatBiotechnol.34(5):547-55(2016));另见图1(b)和图3(a))。

相反,本技术的多核苷酸衔接子组合物使连接效率增加大约20%(表1),从而促进从含有有限cfDNA输入的样品中有效回收ctDNA。此外,本技术的方法在cfDNA输入水平低至5ng的靶基因区域内产生大约500-1800个单链共有读数(SSCS)。见图7。因此,当检测衍生自被诊断患有或疑似患有癌症的受试者的样品中存在的ctDNA突变时,本技术的方法显示出改善的分析灵敏度。

定义

如本文所用,关于数字的术语“约”通常被认为包括在该数字的任一方向(大于或小于)的1%-5%的范围内的数字,除非上下文另外说明或明显可见。

如本文所用,关于核酸序列的术语“扩增(amplify)”或“扩增(amplification)”是指增加样品中核酸序列群体的表现的方法。核酸扩增方法如PCR、等温方法、滚环方法等是本领域技术人员所熟知的。扩增反应中在体外生成的特定核酸序列的拷贝称为“扩增子”或“扩增产物”。

术语“衔接子”是指短的、化学合成的核酸序列,其可用于连接核酸序列的3'或5'端,以促进与另一分子的附接。衔接子可以是单链或双链的。衔接子可以掺入可用于PCR扩增或测序的短(例如,少于55个碱基对)序列。衔接子可包含已知序列、简并序列或两者。双链衔接子可包含两条可杂交的链。可替代地,双链衔接子可包含可杂交部分和不可杂交部分。双链衔接子的不可杂交部分包含两个彼此不可杂交的单链区域。在不可杂交的部分内,含有未杂交的5'-端的链被称为5'-链,含有未杂交的3'-端的链被称为3'-链。在一些实施方案中,所述双链衔接子在衔接子的一端具有可杂交部分,在衔接子的相对端具有不可杂交部分。在一些实施方案中,所述双链衔接子的不可杂交部分可以是开放的(Y形衔接子)。

术语“条形码”是指多核苷酸内用于鉴定核酸分子的核苷酸序列。例如,当来自几组的分子以多重方式组合进行处理或测序时,条形码可用于鉴定分子。条形码可以位于多核苷酸内的某个位置(例如,在多核苷酸的3'-端、5'-端或中间)并且可以包含任何长度的序列(例如,1-100或更多个核苷酸)。另外,条形码可包括一个或多个预定义序列。术语“预定义”是指在鉴定包含条形码的核酸的完整序列之前或在不需要鉴定包含条形码的核酸的完整序列的情况下条形码的序列是预先确定或已知的。在一些情况下,预定义的条形码可以附接到核酸上,用于将核酸分选成组。在一些实施方案中,条形码可包含人工序列,例如,不存在于受试者的未改变(野生型)基因组中的经过设计或工程化的序列。在其他实施方案中,条形码可包含内源序列,例如,存在于受试者的未改变(野生型)基因组中的序列。在某些实施方案中,条形码可以是内源条形码。内源条形码可以是基因组核酸的序列,其中所述序列用作基因组核酸的条形码或标识符。基因组DNA片段的一个或多个序列可以是内源条形码。不同类型的条形码可以组合使用。例如,内源基因组核酸片段可以附接到人工序列,其可以用作所述基因组核酸片段的独特标识符。“样品特异性条形码”或“患者条形码”是指用于鉴定核酸分子的起源或来源的多核苷酸序列。例如,可附接“AAAA”序列以鉴定从患者A分离的核酸。

如本文所用,术语“随机序列”或“简并序列”是指不具有精确定义的序列。

如本文所用,“诱饵”是一种杂交捕获试剂,其可检索靶核酸序列用于测序。诱饵可以是核酸分子,例如DNA或RNA分子,其可以与靶核酸杂交(例如,互补杂交),从而允许捕获靶核酸。在一个实施方案中,诱饵是RNA分子(例如,天然存在的或经修饰的RNA分子);DNA分子(例如,天然存在的或经修饰的DNA分子)或其组合。在其他实施方案中,诱饵包括结合实体,例如亲和标签,其允许捕获和分离(例如通过与结合实体结合)由诱饵和与诱饵杂交的核酸形成的杂交体。在一个实施方案中,诱饵适合于溶液相杂交。

术语“癌症”或“肿瘤”可互换使用,指具有致癌细胞典型特征(如不受控制的增殖、永生、转移潜能、快速生长和增殖速率,以及某些特征性的形态特征)的细胞的存在。癌细胞通常是肿瘤形式,但是这些细胞可以单独存在于动物体内,或者可以是非致瘤性癌细胞。如本文所用,术语“癌细胞”包括癌前细胞(例如良性细胞)、恶性细胞、转移前细胞、转移性细胞和非转移性细胞。几乎每个组织的癌症都是是本领域技术人员已知的,包括实体瘤,如上皮癌、肉瘤、成胶质细胞瘤、黑素瘤、淋巴瘤、骨髓瘤等,以及循环癌症如白血病。癌症的例子包括但不限于卵巢癌、乳腺癌、结肠癌、肺癌、***癌、胃癌、胰腺癌、***、卵巢癌、肝癌、膀胱癌、泌尿道癌、甲状腺癌、肾癌、上皮癌、黑素瘤、头颈癌和脑癌。短语“癌症负荷”或“肿瘤负荷”是指受试者中癌细胞的量或肿瘤体积。因此,减轻癌症负荷可以指减少受试者中的癌细胞的数量或肿瘤体积。术语“癌细胞”是指展现出癌症样特性的细胞,例如,不可控制的繁殖、对抗生长信号的抗性、转移能力、以及经历程序性细胞死亡(例如细胞凋亡)能力的丧失或衍生自癌细胞的细胞(例如癌细胞的克隆)。

术语“无细胞DNA(cfDNA)”是指样品中在收集时不含在细胞内的DNA。cfDNA可包含衍生自正常细胞和癌细胞的DNA。cfDNA通常从血液或血浆(“循环”)中获得。cfDNA可通过分泌或细胞死亡过程(例如细胞坏死或细胞凋亡)释放到循环中。一部分cfDNA可能包括ctDNA。

术语“循环肿瘤DNA(ctDNA)”是指样品中源自肿瘤的无细胞DNA(cfDNA)的部分。

如本文所用的关于多核苷酸(即核苷酸序列,如寡核苷酸或靶核酸)的术语“互补的”或“互补性”是指碱基配对原则。本文所用的核酸序列的补体是指当与核酸序列比对使得一个序列的5'端与另一个序列的3'端配对时,处于“反平行缔合”的寡核苷酸。例如,序列“5'-A-G-T-3'”与序列“3'-T-C-A-5'”互补。在本文所述核酸中可包括天然存在的核酸中通常不存在的某些碱基。例如,这些碱基包括肌苷、7-脱氮鸟嘌呤、锁核酸(LNA)和肽核酸(PNA)。互补性无需完美;稳定双链体可含有错配碱基对、变性或不匹配的碱基。核酸技术领域的技术人员可在考虑多个变量后凭经验确定双链体稳定性,该变量包括例如寡核苷酸的长度、寡核苷酸的碱基组成和序列、错配碱基对的离子强度和发生率。互补序列还可为与DNA序列或其互补序列互补的RNA序列,并且还可为cDNA。

如本文所用,“对照”是实验中用于比较目的使用的替代样品。对照可以是“阳性”或“阴性”。如本文所用的“对照核酸样品”或“参考核酸样品”是指来自对照或参照样品的核酸分子。在某些实施方案中,参考或对照核酸样品是野生型或非突变的DNA或RNA序列。在某些实施方案中,参考核酸样品被纯化或分离(例如,从其天然状态将其除去)。

术语“去重”是指包括将核酸序列分组的方法,所分的组包含最初存在于样品中的单个分子的子代。原始分子及其子代的特征在于相同的独特分子条形码(UID)。去重还包括分析子代分子的序列从而以降低的错误率间接确定原始分子的序列。

如本文所用的“检测”是指确定样品中目的核酸中的突变的存在。检测不要求所述方法提供100%的灵敏度。

如本文所用的“基因”是指包含产生RNA所必需的调节和编码序列的DNA序列,所述RNA可具有非编码功能(例如,核糖体或转移RNA)或可包括多肽或多肽前体。所述RNA或多肽可以由全长编码序列或编码序列的任何部分编码,只要保留所需的活性或功能即可。尽管核酸序列可以以DNA的形式显示,但是本领域普通技术人员认识到相应的RNA序列将具有相似的序列,胸腺嘧啶被尿嘧啶替代,即“T”被替代成“U”。

术语“基因区域”可以指基因内或基因周围的一系列序列,例如内含子、外显子、启动子、3'非翻译区等。

如本文所用的术语“杂交”是指两个基本上互补的核酸链(在至少14至25个核苷酸的延伸段上至少约65%互补,至少约75%或至少约90%互补)在适当严格的条件下彼此退火,以通过在互补碱基对之间形成氢键而形成双链体或异源双链体的过程。杂交典型地且优选地是用探针长度的核酸分子来实施,优选地长度为15-100个核苷酸,更优选地长度为18-50个核苷酸。核酸杂交技术为本领域所熟知。参见,例如Sambrook等人,1989,MolecularCloning:A Laboratory Manual,Second Edition,Cold Spring Harbor Press,Plainview,N.Y.。杂交和杂交强度(即核酸之间的结合强度)受到诸如以下等因素的影响:核酸之间的互补程度、所涉及条件的严格度以及所形成杂合体的热熔点(Tm)。本领域技术人员了解如何估计和调整杂交条件的严格度,使得具有至少所需互补水平的序列可稳定杂交,而具有较低互补性的序列不会杂交。杂交条件和参数的例子参见例如Sambrook等人,1989,Molecular Cloning:A Laboratory Manual,第二版,Cold Spring Harbor Press,Plainview,纽约;Ausubel,F.M.等人,1994,Current Protocols in Molecular Biology,John Wiley&Sons,Secaucus,N.J.。在一些实施方案中,在严格杂交条件下发生特异性杂交。对靶核酸具有特异性的寡核苷酸或多核苷酸(例如,探针或引物)将与靶核酸在适合条件下“杂交”。

术语“可杂交的”是指核酸的两条多核苷酸链在一个或多个核苷酸位置互补,例如,两条多核苷酸链的含氮碱基可形成两个或更多个Crick-Watson氢键。例如,如果多核苷酸包含5'ATGC 3',则其可与5'GCAT 3'序列杂交。在一些实验条件下,如果多核苷酸包含5'GGGG 3',它也可以与5'CCAC 3'和5'CCCA 3'序列杂交,这些序列不是完全互补的。

术语“不可杂交的”是指核酸的两条多核苷酸链是非互补的,例如两条独立的多核苷酸链的含氮碱基在严格杂交条件下不形成两个或更多个Crick-Watson氢键。

如本文所用的术语“个体”、“患者”或“受试者”可互换使用,指单个生物体、脊椎动物、哺乳动物或人类。在优选实施方案中,个体、患者或受试者是人类。

如本文所用,术语“文库”是指核酸序列的集合,例如衍生自完整基因组、亚基因组片段、cDNA、cDNA片段、cfDNA、RNA、RNA片段或其组合的核酸集合。在一个实施方案中,文库核酸序列的一部分或全部包含衔接子序列。衔接子序列可以位于一端或两端。衔接子序列可用于例如测序方法(例如,NGS方法)、扩增、逆转录、测序或克隆到载体中。

文库可包含核酸序列例如靶核酸序列(例如,肿瘤核酸序列)、参考核酸序列或其组合的集合。在一些实施方案中,文库的核酸序列可以衍生自单个受试者。在其他实施方案中,文库可包含来自超过一个受试者(例如,2、3、4、5、6、7、8、9、10、20、30或更多个受试者)的核酸序列。在一些实施方案中,可以组合来自不同受试者的两个或更多个文库以形成具有来自超过一个受试者的核酸序列的文库。在一个实施方案中,受试者患有癌症或肿瘤,或者有患癌症或肿瘤的风险。

“文库核酸序列”是指核酸分子,例如DNA、RNA或其组合,其是文库的成员。在一些实施方案中,文库核酸序列是DNA分子,例如基因组DNA、cfDNA或cDNA。在一些实施方案中,文库核酸序列是片段化基因组DNA,例如剪切或酶促制备的基因组DNA。在某些实施方案中,所述文库核酸序列包含来自受试者的序列和并非衍生自受试者的序列,例如衔接子序列、引物序列或可以鉴定的其他序列,例如“条形码”序列。

术语“连接”是指通过化学键连接两个分子以产生新的分子。例如,将衔接子多核苷酸连接到另一多核苷酸可以指在衔接子和多核苷酸之间形成化学键(例如,使用连接酶或任何其他方法)以产生包含衔接子和多核苷酸的单个新分子。

如本文所用的术语“多重PCR”是指扩增两个或更多个PCR产物或扩增子,其各自使用不同的引物对引发。

术语“突变”是指生物体或细胞的基因组中的遗传改变。例如,目的突变可以是相对于生物体种系的变化,例如癌细胞特异性变化。突变可包括单核苷酸变体(SNV)、拷贝数变体(CNV)、***、缺失和重排(例如融合)。

如本文所用的“新一代测序或NGS”是指以高通量平行方式(例如,大于103、104、105个或更多个分子同时测序)确定各个核酸分子(例如,在单分子测序中)或克隆扩增的各个核酸分子代用物的核苷酸序列的任何测序方法。在一个实施方案中,文库中这些核酸物质的相对丰度可以通过对由测序实验生成的数据中其同源序列的相对出现次数进行计数来估计。下一代测序方法是本领域已知的,并且在例如Metzker,M.Nature BiotechnologyReviews11:31-46(2010)中有描述。

如本文所用,“寡核苷酸”是指在主链上具有核酸碱基序列的分子,该主链主要以确定间隔包括相同单体单元。碱基在主链上的排列方式使得其可与具有与所述寡核苷酸的碱基互补的碱基序列的核酸结合。最常见寡核苷酸具有磷酸糖单元的主链。可区分不具有2'位羟基的寡脱氧核糖核苷酸与具有2'位羟基的寡核糖核苷酸。寡核苷酸也可包括衍生物,其中羟基中的氢由有机基团(例如,烯丙基)替代。寡核苷酸的一个或多个碱基也可以被修饰为包括硫代磷酸酯键(例如,磷酸酯主链中的不参与核苷酸桥接的两个氧原子之一被硫原子替代)以增加对核酸酶降解的抗性。所述方法的用作引物或探针的寡核苷酸通常长至少约10-15个核苷酸,更优选地长至少约15至55个核苷酸,尽管在所述方法中可以使用更短或更长的寡核苷酸。准确的大小将依赖于许多因素,而这些因素又依赖于寡核苷酸的最终功能或用途。寡核苷酸可以以任何方式产生,包括例如化学合成、DNA复制、质粒或噬菌体DNA的限制性内切核酸酶消化、逆转录、PCR或其组合。例如,可以通过添加甲基、生物素或地高辛配基部分、荧光标签或通过使用放射性核苷酸来修饰寡核苷酸。

术语“多核苷酸”是指包含在链中共价键合的一个或多个核苷酸单体(天然或非天然)的生物聚合物。在一些实施方案中,多核苷酸可具有包含基因组核酸序列的序列。在其他实施方案中,多核苷酸可具有人工序列(例如,在基因组核酸中未发现的序列)。多核苷酸可包含基因组核酸序列和/或人工序列。人工序列可以含有或不含有非天然核苷酸。

如本文所用的术语“引物”是指寡核苷酸,其在置于诱导与靶核酸链互补的引物延长产物合成的条件下时能用作核酸序列合成的起始点,该条件即在适当缓冲液(“缓冲液”包括pH、离子强度、辅因子等)中的不同核苷酸三磷酸和聚合酶存在下以及适宜温度下。引物的一个或多个核苷酸可经修饰,例如通过添加甲基、生物素或地高辛配基部分、荧光标签来修饰,或通过使用放射性核苷酸来修饰。引物序列无需反映模板的确切序列。例如,非互补核苷酸片段可附接至引物的5'端,引物序列的其余部分与所述链基本上互补。如本文所用术语引物包括可合成引物的所有形式,包括肽核酸引物、锁核酸引物、硫代磷酸酯修饰引物、经标记引物等。如本文所用术语“正向引物”意指退火到dsDNA的反义链的引物。“反向引物”退火到dsDNA的正义链。

如本文所用,“引物对”是指可一起用于扩增目的核酸的给定区域的正向和反向引物对(即左侧和右侧引物对)。

如本文所用,“样品”是指接受测定以检测目的核酸中是否存在突变的物质。用以释放核酸或以其他方式使其可用以进行检测的加工方法是本领域熟知的,并且可包括核酸操纵的步骤。生物样品可以是从受试者分离的体液或组织样品。在一些情况下,生物样品可以由以下组成或包括:全血、血小板、红细胞、白细胞、血浆、血清、尿液、粪便、表皮样品、***样品、皮肤样品、脸颊拭子、***、羊水、培养细胞、骨髓样品、肿瘤活组织检查样品、抽吸物和/或绒毛膜绒毛、培养细胞、内皮细胞、滑液、淋巴液、腹水、间质液或细胞外液等。术语“样品”还可以包括细胞之间的空间中的液体,包括龈沟液、骨髓、脑脊液(CSF)、唾液、粘液、痰、***、汗液、尿液或任何其他体液。样品可以通过任何方式从受试者获得,包括但不限于静脉穿刺、***、***、按摩、活组织检查、针抽吸、灌洗、刮擦、手术切除、或介入或本领域已知的其他方式。血液样品可以是全血或其任何部分,包括血细胞(红细胞、白细胞或白血球及血小板)、血清和血浆。用EDTA、ACD或肝素作为抗凝血剂收集的约0.5至5ml的全血样品是适合的。

如本文所用,“选择子”是指与一个或多个基因组区域杂交的多个寡核苷酸或探针。在一些实施方案中,所述一个或多个基因组区域可以与疾病(例如癌症)相关。

如本文所用,关于本技术方法的术语“灵敏度”是方法在异质性序列群中检测到预选序列变体的能力的量度。如果给定样品中预选序列变体是以样品中序列的至少F%存在,方法可以C%的预选置信度、S%的次数检测到预选序列,那么方法对F%的变体具有S%的灵敏度。举例而言,如果给定样品中预选变体序列是以样品中序列的至少5%存在,方法可以99%的预选置信度、10次有9次检测到预选序列(F=5%;C=99%;S=90%),那么方法对5%的变体具有90%灵敏度。

如本文所用关于寡核苷酸引物的术语“特异性”意指,在比对寡核苷酸与核酸时,引物的核苷酸序列与要扩增的核酸的一部分具有至少12个碱基的序列同一性。对核酸具有特异性的寡核苷酸引物是在严格杂交或洗涤条件下,能够与目的靶杂交并且基本上不与非目的核酸杂交的引物。较高序列同一性水平是优选的,并且包括至少75%、至少80%、至少85%、至少90%、至少95%且更优选地至少98%序列同一性。

如本文所用,“特异性”是方法区分真实存在的预选序列变体与测序假象或其他密切相关序列的能力的量度。它是避免假阳性检测的能力。假阳性检测可由以下各项引起:在样品制备期间引入目的序列中的错误、测序错误或密切相关序列(假基因或基因家族成员)的疏忽测序。如果在应用于N个序列的样品集(其中X真实序列是真实变体并且X非真实是非真实变体)时,方法选择至少X%的非真实变体为非变体,那么方法具有X%的特异性。例如,如果在应用于1,000个序列的样品集(其中500个序列式真实变体并且500个序列是非真实变体)时,方法选择500个非真实变体序列中的90%为非变体,那么方法具有90%的特异性。示例性特异性包括90%、95%、98%和99%。

如本文所用的术语“严格杂交条件”是指至少像以下一样严格的杂交条件:在50%甲酰胺、5x SSC、50mM NaH2PO4、pH 6.8、0.5%SDS、0.1mg/mL超声处理的鲑鱼***DNA和5xDenhart's溶液中,在42℃下杂交过夜;用2x SSC、0.1%SDS在45℃下洗涤;并用0.2x SSC、0.1%SDS在45℃下洗涤。在另一例子中,严格杂交条件应不允许两个在20个连续核苷酸的延伸段上相差超过两个碱基的核酸杂交。

如本文所用,术语“靶序列”和“靶核酸序列”是指待分析的样品中待检测和/或定量的特定核酸序列。

本技术的核酸衔接子

本文提供了可用于鉴定或分析核酸的多核苷酸衔接子组合物。在一些实施方案中,所述本技术的核酸衔接子是Y形衔接子。

本技术提供了多个Y形衔接子,其中每个Y形衔接子包括在所述Y形衔接子的一端(近端)处的可杂交部分和在所述Y形衔接子的相对端(远端)处的不可杂交部分,其中可杂交部分包含具有至少6-12个碱基对的独特可识别双链条形码序列。本文公开的核酸衔接子可以通过衔接子的可杂交(双链)部分与一种或多种核酸(例如cfDNA)附接。

本文还提供了多个Y形衔接子,其中每个Y形衔接子包括在所述Y形衔接子的一端(近端)处的可杂交部分和在所述Y形衔接子的相对端(远端)处的不可杂交部分,并且其中每个Y形衔接子包括具有至少两个核苷酸的患者条形码。

本技术的核酸衔接子包含第一寡核苷酸链和第二寡核苷酸链,其中(a)第一寡核苷酸链(i)包含第一近端区和第一远端区,其中第一近端区包含第一独特分子标识符序列和具有序列5'TGACT 3'(SEQ ID NO:__)的第一间隔区序列,其中第一间隔区序列位于第一独特分子标识符序列的3'处;(ii)不包含简并或半简并序列;(b)第二寡核苷酸链(i)包含第二近端区和第二远端区,其中第二近端区包含第二独特分子标识符序列和具有序列5'GTCA 3'(SEQ ID NO:__)的第二间隔区序列,其中间隔区序列位于第二独特分子标识符的5'处;(ii)不包括简并或半简并序列;(c)第一寡核苷酸链的第一近端区域与第二寡核苷酸链的第二近端区域(即衔接子的可杂交部分)杂交;并且(d)第一寡核苷酸链的第一远端区域不与第二寡核苷酸链的第二远端区域(即衔接子的不可杂交部分)杂交。在所述核酸衔接子的一些实施方案中,位于第一间隔区序列的3'端的“T”核苷酸含有硫代磷酸酯键。在某些实施方案中,第一独特分子标识符序列和第二独特分子标识符序列可包含非天然核苷酸,例如氨基烯丙基-尿苷、异胞嘧啶、异鸟嘌呤和2-氨基嘌呤。

在一些实施方案中,第一寡核苷酸链的第一独特分子标识符序列选自:5'AGCTGCAGTAGC 3'(SEQ ID NO:__);5'TGATGATGATAC 3'(SEQ ID NO:__);5'TCGACTGTCGAG3'(SEQ ID NO:__);5'GTACTCTAGCTA 3'(SEQ ID NO:__);5'CAGAGCACTCGT 3'(SEQ IDNO:__);5'CATGCGATAGTC 3'(SEQ ID NO:__);5'TCATCAGTCGAG 3'(SEQ ID NO:__);5'AATCAGCGGTAT 3'(SEQ ID NO:__);5'AGCATACTACTG 3'(SEQ ID NO:__);5'GCTGATACACGT3'(SEQ ID NO:__);5'CTCTGTCACACG 3'(SEQ ID NO:__);5'GCTACGTCATCA 3'(SEQ IDNO:__);5'GCAGATGTCACT 3'(SEQ ID NO:__);5'ACTCACAGCTAG 3'(SEQ ID NO:__);5'CTCGCTCATGTA 3'(SEQ ID NO:__);5'TAGCTGCACTAG 3'(SEQ ID NO:__);5'CAGTTCGAGCTA3'(SEQ ID NO:__);5'TGCATGACTCGC 3'(SEQ ID NO:__);5'GTGTACTGTACA 3'(SEQ IDNO:__);5'ACTAGAGTCTGA 3'(SEQ ID NO:__);5'AGAGTGCGTGTC 3'(SEQ ID NO:__);5'TACGCATCAGAT 3'(SEQ ID NO:__);5'CTGCATGACAGT 3'(SEQ ID NO:__);和5'GTACGATCTCAC 3'(SEQ ID NO:__)。

另外或可替代地,在一些实施方案中,第二寡核苷酸链的第二独特分子标识符序列选自:5'GCTACTGCAGCT 3'(SEQ ID NO:__);5'GTATCATCATCA 3'(SEQ ID NO:__);5'CTCGACAGTCGA 3'(SEQ ID NO:__);5'TAGCTAGAGTAC 3'(SEQ ID NO:__);5'ACGAGTGCTCTG3'(SEQ ID NO:__);5'GACTATCGCATG 3'(SEQ ID NO:__);5'CTCGACTGATGA 3'(SEQ IDNO:__);5'ATACCGCTGATT 3'(SEQ ID NO:__);5'CAGTAGTATGCT 3'(SEQ ID NO:__);5'ACGTGTATCAGC 3'(SEQ ID NO:__);5'CGTGTGACAGAG 3'(SEQ ID NO:__);5'TGATGACGTAGC3'(SEQ ID NO:__);5'AGTGACATCTGC 3'(SEQ ID NO:__);5'CTAGCTGTGAGT 3'(SEQ IDNO:__);5'TACATGAGCGAG 3'(SEQ ID NO:__);5'CTAGTGCAGCTA 3'(SEQ ID NO:__);5'TAGCTCGAACTG 3'(SEQ ID NO:__);5'GCGAGTCATGCA 3'(SEQ ID NO:__);5'TGTACAGTACAC3'(SEQ ID NO:__);5'TCAGACTCTAGT 3'(SEQ ID NO:__);5'GACACGCACTCT 3'(SEQ IDNO:__);5'ATCTGATGCGTA 3'(SEQ ID NO:__);5'ACTGTCATGCAG 3'(SEQ ID NO:__);和5'GTGAGATCGTAC3'(SEQ ID NO:__)。

在一些实施方案中,第一寡核苷酸链的核苷酸序列选自:5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTAGCTGCAGTAGCTGACT 3'(SEQ ID NO:1);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTGATGATGATACTGACT 3'(SEQ ID NO:3);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTCGACTGTCGAGTGACT 3'(SEQ ID NO:5);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGTACTCTAGCTATGACT 3'(SEQ ID NO:7);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCAGAGCACTCGTTGACT 3'(SEQ ID NO:9);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCATGCGATAGTCTGACT 3'(SEQ ID NO:11);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTCATCAGTCGAGTGACT 3'(SEQ ID NO:13);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTAATCAGCGGTATTGACT 3'(SEQID NO:15);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTAGCATACTACTGTGACT 3'(SEQ ID NO:17);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTGATACACGTTGACT 3'(SEQ ID NO:19);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCTGTCACACGTGACT 3'(SEQ ID NO:21);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGCTACGTCATCATGACT 3'(SEQ ID NO:23);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGCAGATGTCACTTGACT 3'(SEQ ID NO:25);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTACTCACAGCTAGTGACT 3'(SEQ ID NO:27);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCTCGCTCATGTATGACT 3'(SEQ ID NO:29);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTAGCTGCACTAGTGACT 3'(SEQ ID NO:31);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCAGTTCGAGCTATGACT 3'(SEQ ID NO:33);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTGCATGACTCGCTGACT 3'(SEQ ID NO:35);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGTGTACTGTACATGACT 3'(SEQ ID NO:37);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTACTAGAGTCTGATGACT 3'(SEQ ID NO:39);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTAGAGTGCGTGTCTGACT3'(SEQ ID NO:41);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTTACGCATCAGATTGACT 3'(SEQID NO:43);5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTCTGCATGACAGTTGACT 3'(SEQ ID NO:45);和5'TACACTCTTTCCCTACACGACGCTCTTCCGATCTGTACGATCTCACTGACT 3'(SEQ ID NO:47)。

另外或可替代地,在一些实施方案中,第二寡核苷酸链的核苷酸序列选自:5'GTCAGCTACTGCAGCTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:2);5'GTCAGTATCATCATCAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:4);5'GTCACTCGACAGTCGAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:6);5'GTCATAGCTAGAGTACAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:8);5'GTCAACGAGTGCTCTGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:10);5'GTCAGACTATCGCATGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:12);5'GTCACTCGACTGATGAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:14);5'GTCAATACCGCTGATTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC3'(SEQ ID NO:16);5'GTCACAGTAGTATGCTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQID NO:18);5'GTCAACGTGTATCAGCAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:20);5'GTCACGTGTGACAGAGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:22);5'GTCATGATGACGTAGCAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:24);5'GTCAAGTGACATCTGCAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:26);5'GTCACTAGCTGTGAGTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:28);5'GTCATACATGAGCGAGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:30);5'GTCACTAGTGCAGCTAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:32);5'GTCATAGCTCGAACTGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:34);5'GTCAGCGAGTCATGCAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:36);5'GTCATGTACAGTACACAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:38);5'GTCATCAGACTCTAGTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:40);5'GTCAGACACGCACTCTAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:42);5'GTCAATCTGATGCGTAAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ IDNO:44);5'GTCAACTGTCATGCAGAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:46);和5'GTCAGTGAGATCGTACAGATCGGAAGAGCACACGTCTGAACTCCAGTCAC 3'(SEQ ID NO:48)。

在核酸衔接子的某些实施方案中,第一寡核苷酸链的5'端用亲和标签(例如生物素)标记。在核酸衔接子的其他实施方案中,第二寡核苷酸链的3'端用亲和标签(例如,生物素)标记。可使用本技术的核酸衔接子对选自双链DNA或双链RNA的双链靶核酸分子进行测序。所述双链DNA可以是经剪切的基因组DNA,或是无细胞DNA。

另外或可替代地,在一些实施方案中,本技术的核酸衔接子还包含样品特异性条形码序列(例如,患者条形码),其中样品特异性条形码序列包含约2-20个核苷酸。患者条形码可含有天然存在的碱基(例如,腺苷(A)、胸苷(T)、鸟苷(G)、胞嘧啶(C)和尿嘧啶(U))或非天然存在的碱基(例如,氨基烯丙基-尿苷、异胞嘧啶、异鸟嘌呤和2-氨基嘌呤)。

在一些实施方案中,患者条形码位于核酸衔接子的不可杂交部分的5'链处。在其他实施方案中,患者条形码位于核酸衔接子的不可杂交部分的3'链处。可替代地,在某些实施方案中,患者条形码位于核酸衔接子的可杂交部分中。

在任何上述实施方案中,本技术的核酸衔接子还可包含至少两个PCR引物结合位点、至少两个测序引物结合位点或其任何组合。在一些实施方案中,所述PCR引物结合位点和/或测序引物结合位点存在于本技术的核酸衔接子的不可杂交部分中。在其他实施方案中,所述PCR引物结合位点和/或测序引物结合位点存在于本技术的核酸衔接子的可杂交部分中。在一些实施方案中,测序引物结合位点包含选自P5、P7、P1、A和Ion XpressTM的至少一个序列。

在任何上述实施方案中,本技术的核酸衔接子可包含与本技术的其他核酸衔接子相同的引物序列。在其他实施方案中,本技术的一种或多种核酸衔接子上的引物序列可以与本文公开的其他核酸衔接子上的引物序列不同。

本技术的检测方法

本文公开了用于核酸(例如循环无细胞DNA,例如样品中的循环无细胞肿瘤DNA)超灵敏检测的方法。所述方法精确地定量核酸(例如衍生自肿瘤的无细胞肿瘤DNA)。因为肿瘤衍生的DNA水平通常与对不同疗法的临床反应平行,所述方法可以鉴定可操作的突变。所述方法还可用于非侵入性地检测和监测肿瘤,从而促进个性化癌症治疗。

本公开文本提供了使用新一代测序以高灵敏度检测循环肿瘤核酸中的癌症相关突变的方法。所述方法可以应用于含有循环肿瘤DNA(ctDNA)的无细胞DNA(cfDNA)。本技术的方法优化了来自低输入样品的ctDNA检测,从而促进了跨数百个千碱基的变体的无活检定量。

在所述方法的一些实施方案中,可以用5-15ng的cfDNA输入检测频率低至0.5%的SNV和***/缺失。在所述方法的某些实施方案中,可以用至少30ng的cfDNA输入检测频率低至0.25%的SNV和***/缺失。

在一个方面,本发明提供了一种用于检测从患者获得的样品中存在的双链循环肿瘤DNA(ctDNA)分子中的至少一个突变的方法,所述方法包括(a)将多个Y形衔接子连接至双链ctDNA分子的两端以形成双链衔接子-ctDNA复合物,每个Y形衔接子包含第一寡核苷酸链和第二寡核苷酸链,其中第一寡核苷酸链的序列和第二寡核苷酸链的序列选自SEQ ID NO:1和SEQ ID NO:2;SEQ ID NO:3和SEQ ID NO:4;SEQ ID NO:5和SEQ ID NO:6;SEQ ID NO:7和SEQ ID NO:8;SEQ ID NO:9和SEQ ID NO:10;SEQ ID NO:11和SEQ ID NO:12;SEQ ID NO:13和SEQ ID NO:14;SEQ ID NO:15和SEQ ID NO:16;SEQ ID NO:17和SEQ ID NO:18;SEQ IDNO:19和SEQ ID NO:20;SEQ ID NO:21和SEQ ID NO:22;SEQ ID NO:23和SEQ ID NO:24;SEQID NO:25和SEQ ID NO:26;SEQ ID NO:27和SEQ ID NO:28;SEQ ID NO:29和SEQ ID NO:30;SEQ ID NO:31和SEQ ID NO:32;SEQ ID NO:33和SEQ ID NO:34;SEQ ID NO:35和SEQ IDNO:36;SEQ ID NO:37和SEQ ID NO:38;SEQ ID NO:39和SEQ ID NO:40;SEQ ID NO:41和SEQID NO:42;SEQ ID NO:43和SEQ ID NO:44;SEQ ID NO:45和SEQ ID NO:46;和SEQ ID NO:47和SEQ ID NO:48;(b)扩增衔接子-ctDNA复合物的两条链以产生第一扩增子和第二扩增子,其中第一扩增子衍生自第一寡核苷酸链,并且第二扩增子衍生自第二寡核苷酸链;(c)对第一扩增子和第二扩增子进行测序;(d)当在第一扩增子中检测到的突变与在第二扩增子中检测到的突变一致时,检测双链ctDNA分子中的至少一个突变。通过将ctDNA分子附接到Y形衔接子的可杂交(双链)部分来形成衔接子-ctDNA复合物。

在所述方法的一些实施方案中,患者被诊断患有卵巢癌、乳腺癌、结肠癌、肺癌、***癌、胃癌、胰腺癌、***、肝癌、膀胱癌、泌尿道癌、甲状腺癌、肾癌、上皮癌、黑素瘤、头颈癌或脑癌。

在所述方法的某些实施方案中,所述双链ctDNA分子的两个3'端还包含“A”-悬突端。本文公开的方法包括将一个分子附接到另一个分子上的步骤,例如将多核苷酸衔接子附接到一个不同的多核苷酸上。附接可以包括将本技术的Y形衔接子与一种或多种核酸连接。在一些情况下,连接中使用的酶是DNA连接酶,例如T4 DNA连接酶、大肠杆菌(E.coli)DNA连接酶、哺乳动物连接酶或其任何组合。所述哺乳动物连接酶可以是DNA连接酶I、DNA连接酶III或DNA连接酶IV。所述连接酶也可以是热稳定连接酶。

在一些实施方案中,所述方法还包括用多个诱饵序列富集第一扩增子和第二扩增子,其中所述多个诱饵序列包含对应于多个癌症相关基因中的每一个的至少一个基因区域。所述多个癌症相关基因可包含ALK、BRAF、EGFR、ERBB2、KIT、KRAS、MET、NRAS、NTRK1、PIK3CA、ROS1和RET。

另外或可替代地,在所述方法的一些实施方案中,所述多个诱饵序列是RNA诱饵、DNA诱饵、或RNA诱饵和DNA诱饵的混合物。在某些实施方案中,所述多个诱饵序列包含RNA诱饵和DNA诱饵的1:1混合物。在其他实施方案中,所述多个诱饵序列包含RNA诱饵和DNA诱饵的比例为2:1、1.5:1、0.75:1或0.5:1的混合物。

在任何上述实施方案中,每个Y形衔接子还包含至少两个测序引物结合位点。另外或可替代地,在一些实施方案中,每个Y形衔接子还包含患者特异性条形码序列,其中所述患者特异性条形码序列包含2-20个核苷酸。本技术的每个Y形衔接子可以用亲和标签(例如,生物素)标记。

在所述方法的一些实施方案中,所述样品包含不超过5ng的无细胞DNA。在其他实施方案中,所述样品包含至少6-20ng无细胞DNA。在某些实施方案中,所述样品是全血、血清、血浆、滑液、淋巴液、腹水或间质液。

检测可以包括通过鉴定存在于本技术的Y形衔接子的第一和第二寡核苷酸链的可杂交部分中的分子标识符序列(即“双链条形码序列”)来确定第一扩增子和第二扩增子是否衍生自样品中存在的双链ctDNA分子的相同链。独特双链条形码序列可以鉴定靶核酸(例如,ctDNA分子)的链。例如,在衔接子与靶核酸附接后,所得核酸的两条链均含有独特双链条形码。扩增后,衍生自核酸的一条链的扩增子含有与衍生自相同核酸的另一条链的扩增子相同的双链条形码。

因此,在一些实施方案中,双链条形码可用于鉴定衍生自相同模板核酸的两条链的扩增子。在某些实施方案中,所述独特双链条形码可用于鉴定核酸的一条链上有而另一条链上没有的突变。在某些实施方案中,在模板核酸的一条链上发生而另一条链上未发生的突变可以是可作为假象忽略的扩增错误。

双链条形码序列可位于距离将Y形衔接子附接至ctDNA分子的碱基对的几个碱基对处。若所述分子标识符序列可以匹配为源自相同的衔接子,则可以进行双链测序。双链条形码序列与Watson-Crick配对匹配。

在本技术的背景中,衍生自相同模板核酸的扩增子应含有相同的独特分子标识符序列(UID)。这些不同的独特分子标识符可用于对原始样品中的不同模板核酸进行鉴定和计数。例如,UID可用于对含有相同突变的原始模板核酸进行计数。在其他情况下,UID可用于对来自相同的原始模板核酸的扩增子进行鉴定和分组。

样品

可在一段时间内重复地(例如,每天一次、每周一次、每月一次、每半年一次或每年一次)从受试者中收集样品。在一段时间内从受试者中获得大量样品可用于验证早期检测的结果或鉴定起因于例如药物治疗的改变。

所述样品可包含核酸,包括肿瘤核酸。所述核酸可以是基因组核酸。核酸也可以是循环核酸,例如无细胞核酸。例如,循环核酸可以来自肿瘤,例如ctDNA。可用于本技术方法的样品核酸可包含cfDNA,例如样品中不含在细胞内的DNA。这种DNA可以是片段化的,例如,平均长度可以是约170个核苷酸,这可以与包裹在单个核小体周围的DNA的长度一致。

cfDNA可以是来自正常细胞和肿瘤细胞的DNA的异质混合物,并且cfDNA的初始样品可能不富集癌细胞DNA和癌细胞基因组的反复突变区域。本领域技术人员将理解,未突变的种系序列可能无法区分肿瘤来源和正常细胞来源,但含有体细胞突变的序列具有衍生自肿瘤DNA的可能性。在一些实施方案中,样品可包含对照种系DNA。样品也可包含已知的肿瘤DNA。此外,样品可包含从怀疑样品中含有ctDNA的个体获得的cfDNA。另外,样品可包含从未怀疑在样品中含有ctDNA的个体获得的cfDNA,例如,作为常规测试的一部分。

本文公开的方法可包括从受试者获得一个或多个样品,例如核酸样品。所述一个或多个样品核酸可以是肿瘤核酸。例如,可以从肿瘤活组织检查样品中提取核酸。肿瘤核酸也可以从肿瘤细胞释放到血流中(例如,由于对肿瘤的免疫学应答)。释放到血液中的肿瘤核酸可以是ctDNA。

所述一个或多个样品核酸可以是基因组核酸。应当理解,从患有特定癌症的受试者获得肿瘤核酸和基因组核酸的步骤可以同时发生。例如,静脉穿刺以收集血液、血浆或血清,可以同时收集基因组核酸和肿瘤核酸。从患有特定癌症的受试者获得肿瘤核酸和基因组核酸也可以在不同的时间发生。例如,可以从患者获得单个组织样品,例如活组织检查样品,其包括肿瘤核酸和基因组核酸。还可以在单独的样品中、单独的组织中或在单独的时间从受试者获得肿瘤核酸和基因组核酸。

从患有特定癌症的受试者获得肿瘤核酸和基因组核酸还可以包括从患有特定癌症的受试者中提取生物流体或组织样品的过程。获得核酸可包括改善核酸产率或回收率的程序,如将核酸与其他细胞组分以及可能存在于生物流体或组织样品中的污染物分离,例如,通过苯酚氯仿提取、通过有机溶剂沉淀或DNA结合旋转柱。

有时,所述核酸为混合物或不纯。在一些实施方案中,可以从两个或更多个受试者中分离两个或更多个样品。患者条形码序列可用于鉴定核酸所来源的样品并将核酸分选成不同的组。在一些实施方案中,来自第一样品的核酸可与第一患者条形码相关联,来自第二样品的核酸可与第二患者条形码相关联。

在其他实施方案中,所述两个或更多个样品可以来自相同的受试者。在某些实施方案中,所述两个或更多个样品可以来自相同受试者的不同组织。例如,一个样品可以来自肿瘤(例如,实体瘤),另一个样品可以来自同一受试者的血液。所述样品可以同时获得或在两个或更多个时间点获得。

扩增

被扩增的核酸可以是DNA,包括基因组DNA、cDNA(互补DNA)、无细胞DNA(cfDNA)和循环肿瘤DNA(ctDNA)。被扩增的核酸也可以是RNA。如本文所用,一次扩增反应可以由许多轮DNA合成组成。

本文公开的方法可以包括扩增包含与Y形衔接子附接的样品核酸的模板核酸。用于核酸(例如DNA和RNA)扩增的任何已知技术均可与本文所述的测定一起使用。一些扩增技术是聚合酶链式反应(PCR)方法,其可包括但不限于溶液PCR和原位PCR。可替代地,扩增可以包括非指数扩增,如线性扩增。

模板核酸的扩增可包括使用珠扩增,随后进行光纤检测,如美国申请公开号2002/0012930、2003/0058629、2003/0100102、2003/0148344、2004/0248161、2005/0079510、2005/0124022和2006/0078909所述。

模板核酸的扩增可包括使用一种或多种聚合酶。所述聚合酶可以是DNA聚合酶或RNA聚合酶。在一些实施方案中,所述聚合酶可以是高保真聚合酶,KAPA HiFi DNA聚合酶。所述聚合酶也可以是Phusion DNA聚合酶。

在一些实施方案中,单个引物或引物对的一个或两个引物包含与所述引物的靶标特异性序列部分的5'端连接的特异性测序衔接子。此测序衔接子是已知序列的短寡核苷酸,其可以为邻接的靶核酸的扩增和测序提供引发位点。因此,测序衔接子允许片段与流动池结合以进行下一代测序。任何测序衔接子都可以包括在本公开内容中使用的引物中。

在一些实施方案中,所有正向扩增子(即,从与靶核酸的反义链杂交的正向引物延伸的扩增子)含有相同的测序衔接子。在一些实施方案中,当进行双链测序时,所有正向扩增子含有相同的测序衔接子,并且所有反向扩增子(即,从与靶区段的正义链杂交的反向引物延伸的扩增子)含有与反向扩增子的测序衔接子不同的测序衔接子。

在一些实施方案中,所述测序衔接子是推荐用于Illumina测序仪(MiSeq和HiSeq)的P5和/或P7衔接子序列。参加,例如,Williams-Carrier等人,Plant J.,63(1):167-77(2010)。在一些实施方案中,所述测序衔接子是推荐用于Life Technologies测序仪的P1、A或Ion XpressTM条形码衔接子序列。其他测序衔接子在本领域中是已知的。

另外或可替代地,在上述方法的一些实施方案中,对来自超过一个样品的扩增子进行测序。在一些实施方案中,所有样品同时平行测序。在上述方法的一些实施方案中,使用本文所述的方法对来自至少1、5、10、20、30或多达35、40、45、48或50个不同样品的扩增子进行扩增和测序。

另外或可替代地,在所述方法的一些实施方案中,衍生自单个样品的扩增子可以还包含相同的索引序列,其指示产生扩增子的来源,每个样品的索引序列不同于所有其他样品的索引序列。因此,索引序列的使用允许每次测序运行合并多个样品,随后基于索引序列确定样品来源。在一些实施方案中,使用Access ArrayTM系统(Fluidigm Corp.,SanFrancisco,CA)或Apollo 324系统(Wafergen Biosystems,Fremont,CA)通过同时扩增来自一个背景的样品的核酸来生成条形码(索引)扩增子文库。

在一些实施方案中,使用含有索引序列的引物(例如,正向引物和/或反向引物)产生索引化的扩增子。这些索引的引物可以在文库制备期间作为“条形码”工具包括在内,以将特定扩增子鉴定为源自特定样品来源。当使用测序衔接子连接和/或索引的引物时,所述测序衔接子和/或索引序列在扩增过程中(连同靶标特异性引物序列)掺入扩增子中。因此,得到的扩增子具有测序能力,不需要传统的文库制备方案。此外,索引标签的存在允许区分来自多个样品来源的序列。在一些实施方案中,所述扩增子文库使用多重PCR方法生成。

来自超过一个样品来源的索引扩增子被单独量化,然后在高通量测序之前合并。因此,索引序列的使用允许每次测序运行合并多个样品(即,来自超过一个样品来源的样品),并且随后基于索引序列确定样品来源。当使用索引引物组时,可以利用这种能力进行比较研究。在一些实施方案中,在测序之前合并来自多达48个单独来源的扩增子文库。

末端修复

本文公开的方法可以包括对多种靶核酸(例如cfDNA)进行末端修复反应以产生多个末端修复的核酸。例如,可以在将本技术的Y形衔接子附接到多个靶核酸之前进行末端修复反应。

在一些实施方案中,末端修复反应可在扩增衔接子修饰的核酸之前进行。在其他实施方案中,末端修复反应可在扩增衔接子修饰的核酸后进行。

在一些实施方案中,末端修复反应可在片段化多个靶核酸之前进行。在其他实施方案中,末端修复反应可在片段化多个靶核酸后进行。

末端修复反应也可以通过使用一种或多种末端修复酶来进行。在一些实施方案中,用于修复DNA的酶可包含聚合酶和外切核酸酶。例如,聚合酶可以从5'到3'方向填充DNA链的缺失碱基。得到的双链DNA可以与原始最长的DNA链长度相同。外切核酸酶可以去除3'悬突端。得到的双链DNA可以与原始最短的DNA链长度相同。

加A尾

本文公开的方法可包括对多种靶核酸(例如cfDNA)进行加A尾反应以产生多个加A尾核酸。例如,可以在将本技术的Y形衔接子附接到多个核酸之前进行加A尾反应。

此外,加A尾反应可在扩增衔接子修饰的核酸之前进行。在其他实施方案中,加A尾反应可在扩增衔接子修饰的核酸后进行。

在一些实施方案中,加A尾反应可在片段化多个靶核酸之前进行。在一些情况下,加A尾反应可在可在片段化多个靶核酸之后进行。

在其他实施方案中,加A尾反应可在多个靶核酸的末端修复之前进行。在一些实施方案中,加A尾反应可在多个靶核酸的末端修复后进行。

加A尾反应也可以通过使用一种或多种加A尾酶进行。例如,可以通过将DNA片段与dATP和非校正DNA聚合酶一起孵育来添加A残基,这将添加单个3'“A”残基。

NGS平台

ctDNA的基因分型、检测、鉴定或定量可以利用测序。可以使用高通量大规模平行测序来完成测序。可以使用本文描述的核酸(如基因组DNA、cfDNA、衍生自RNA转录物的cDNA或RNA)作为模板进行测序。例如,可以通过大规模平行测序获得无细胞DNA样品的序列信息。在一些实施方案中,可以对基因组的子集(例如,来自cfDNA样品的cfDNA的子集)进行大规模平行测序。序列信息可以通过使用流动池的平行测序获得。例如,用于扩增的引物可以共价附接到流动池中的载玻片上,然后可以将流动池暴露于用于核酸延伸和测序的试剂。

在产生衔接子标签化的扩增子文库后,使用高通量大规模平行测序(即,下一代测序)对扩增子进行测序。在一些实施方案中,高通量大规模平行测序采用合成测序,用可逆染料终止子进行。在其他实施方案中,测序通过连接测序进行。在又其他实施方案中,测序是单分子测序。下一代测序技术的例子包括但不限于焦磷酸测序、可逆染料-终止子测序、SOLiD测序、离子半导体测序、Helioscope单分子测序等。

Ion TorrentTM(Life Technologies,Carlsbad,CA)扩增子测序系统采用基于流量的方法,所述方法检测在DNA复制中掺入未修饰的核苷酸期间由氢离子释放引起的pH变化。与此系统一起使用时,最初通过生成侧接测序衔接子的DNA片段来生产测序文库。在一些实施方案中,可通过乳液PCR在颗粒上克隆扩增这些片段。然后将具有扩增模板的颗粒置于硅半导体测序芯片中。在复制期间,芯片被一个接一个的核苷酸淹没,并且如果核苷酸与芯片的特定微孔中的DNA分子互补,则其将被掺入。当核苷酸通过DNA分子中的聚合酶掺入时,质子自然释放,导致可检测的局部pH变化。然后该孔中溶液的pH发生变化并由离子传感器检测。如果模板序列中存在均聚物重复序列,则将在单个循环中掺入多个核苷酸。这导致相应数量的释放氢和更高比例的电子信号。

454TM GS FLXTM测序系统(Roche,德国)在大规模平行焦磷酸测序系统中采用基于光的检测方法。焦磷酸测序使用DNA聚合,一次添加一种核苷酸物质,并通过附接的焦磷酸盐释酯所发出的光检测和定量添加到给定位置的核苷酸的数量。与454TM系统一起使用时,衔接子连接的DNA片段被固定在油包水乳液中的小DNA捕获珠上,并通过PCR(乳液PCR)扩增。将每个DNA结合的珠子置于皮克滴定板(picotiter plate)上的孔中,并将测序试剂递送到板的各个孔中。在测序运行期间,四个DNA核苷酸以固定顺序依次添加在整个皮克滴定板装置上。在核苷酸流动期间,对与每个珠子结合的数百万DNA拷贝进行平行测序。当将与模板链互补的核苷酸添加到孔中时,所述核苷酸被掺入到现有的DNA链上,产生光信号,该信号由仪器中的CCD相机记录。

基于可逆染料-终止子的测序技术:首先将DNA分子附接到载玻片上的引物上并扩增,以便形成局部克隆集落。添加四种类型的可逆终止子碱基(RT-碱基),并洗去未掺入的核苷酸。与焦磷酸测序不同,DNA一次只能延伸一个核苷酸。相机拍摄荧光标记的核苷酸的图像,然后从DNA中化学除去染料以及末端3'阻断剂,允许下一个循环。

Helicos Biosciences Corp(Cambridge,MA)的单分子测序使用添加了多A尾衔接子的DNA片段,其附接于流动池表面。在每个循环中,添加DNA聚合酶和单种荧光标记的核苷酸,导致表面固定的引物-模板双链体的模板依赖性延伸。由Helioscope测序仪执行读取。在获得平铺整个阵列的图像之后,化学裂解和荧光标记的释放允许随后的延伸和成像循环。

合成测序(SBS),与“旧式”染料终止电泳测序一样,依赖于通过DNA聚合酶掺入核苷酸来确定碱基序列。将具有附着衔接子的DNA文库变性为单链并移植到流动池中,随后桥接扩增以在玻璃芯片上形成高密度点阵列。可逆终止子方法使用可逆形式的染料-终止子,每次添加一个核苷酸,通过重复去除阻断基团以允许另一个核苷酸的聚合来检测每个位置的荧光。核苷酸掺入的信号可以随所有曾使用的荧光标记的核苷酸、磷酸酯驱动的光反应和氢离子感测而变化。SBS平台的例子包括Illumina GA、HiSeq 2500、HiSeq 1500、HiSeq2000或HiSeq 1000。个性化测序系统(Illumina,Inc.)也采用合成测序,用可逆终止子化学进行。

与合成方法测序相反,连接测序法使用DNA连接酶来确定靶序列。此测序方法依赖于邻近寡核苷酸通过模板DNA链上的局部互补性的酶促连接。此技术使用固定长度的所有可能的寡核苷酸的分区,其根据测序位置标记。对寡核苷酸进行退火和连接,并且关于匹配序列通过DNA连接酶优先连接在该位置产生二核苷酸编码的颜色空间信号(通过释放荧光标记的探针,其对应于沿着寡核苷酸在已知位置处的已知核苷酸)。此方法主要由LifeTechnologies的SOLiDTM测序仪使用。在测序之前,通过乳液PCR扩增DNA。将得到的珠子(每个仅含有相同DNA分子的拷贝)沉积在固体平面基底上。

SMRTTM测序基于合成测序方法。DNA在零模波导(ZMW)小孔样容器中合成,捕获工具位于孔的底部。使用未修饰的聚合酶(附接于ZMW底部)和在溶液中自由流动的荧光标记核苷酸进行测序。以仅检测到在孔的底部出现的荧光的方式构建孔。荧光标记在其掺入DNA链中时与核苷酸分离,留下未修饰的DNA链。

RNA或DNA的高通量测序也可以使用AnyDot芯片(Genovoxx,德国)进行,其允许监测生物过程(例如,miRNA表达或等位基因变异性(SNP检测))。例如,AnyDot芯片允许核苷酸荧光信号检测的10X-50X增强。其他高通量测序系统包括Venter,J.等人,Science 2001年2月16日;Adams,M.等人,Science 2000年3月24日;和M.J,Levene等人,Science 299:682-686,2003年1月;以及美国申请公开号2003/0044781和2006/0078937所公开的那些。

双链测序

本文公开的方法可包括配对测序读数以获得双链(双链体)序列的步骤。所述步骤涉及读取每个核酸序列以确定其条形码。在一些实施方案中,两条链上的条形码彼此互补(例如,如果独特分子ID位于Y形衔接子的可杂交部分中)。在这种情况下,Y形衔接子标签化的核酸被分组到共享相同的独特分子ID(UID)的家族中,并且为两条链中的每一条建立共有序列以形成‘单链共有序列’(SSCS)。然后将衍生自单个DNA双链体的两条链的两个互补共有序列相互比较,并且仅当两条链在每个位置完全匹配时才保留该位置的碱基同一性,产生‘双链体共有序列’(DCS)。

在一些实施方案中,本文公开的方法包括使用条形码进行错误抑制的步骤。所述方法包括将序列映射到参考基因组并鉴定所有单核苷酸变体(SNV)(即,与参考序列不同的碱基)的步骤。所述方法还包括对SNV进行质量过滤的步骤。在一些实施方案中,所述质量过滤是使用阈值Q为30的Phred质量过滤,其消除了99.9%的由测序假象引起的错误。

在一些实施方案中,所述方法还包括通过计算每个基因组位置的SNV数量(经历并且已经通过前述步骤中的质量过滤)并选择最丰富的变体来减少错误的步骤。在另一实施方案中,所述方法还包括从定义为共享相同UID的条形码家族的序列组中减去未通过质量过滤的具有SNV的序列的步骤。所述方法还包括将条形码家族的所有成员合并成单个序列的步骤,仅保留>2个成员的通过前述步骤的变体。

此外,在所述方法的一些实施方案中,单个条形码家族(即,具有一个序列的家族)中的所有非参考变体被消除,除非被来自支持该变体的>2个家族成员的至少一个其他DNA分子的证据支持。

减少背景错误

本文提供的方法还可包括减少背景错误的方法。背景错误可包括不在体内发生而是人工产生(如在扩增或测序期间)的突变。背景错误突变,例如,单核苷酸改变,如鸟嘌呤至胸腺嘧啶(G至T)的突变,可能由PCR或测序错误引起。这些突变发生在双链核酸的一条链上,但不发生在另一条链上。这些人工G至T突变可被检测到也可被忽略。

本文还公开了用于减少衍生自多种核酸的多个扩增子的序列中的背景错误的方法,其包括a)鉴定来自至少第一序列读数和至少第二序列读数的突变,其中来自第一序列序列读数的突变和来自第二序列读数的突变是一致的突变;b)消除在少于50%的衍生自单一核酸的扩增子上发生的突变;c)消除衍生自双链核酸的第一链的第一扩增子上发生的G至T突变,其中G至T突变不发生在衍生自双链核酸的第二链的第二扩增子上;d)消除扩增子上的突变,其中扩增子的第一子集包含第一双链条形码,扩增子的第二子集包含第二双链条形码,其中第一双链条形码不同于第二双链条形码;或f)其任何组合。如本文使用的术语“消除”可以指忽略序列信息中的突变数据。

减少背景错误可包括鉴定来自至少第一序列读数和至少第二序列读数的突变,其中来自第一序列读数的突变和第二序列读数的突变是一致的突变。在这种情况下,突变是真正的突变,例如,不是背景错误。

在一些实施方案中,从双链核酸的一条链的第一序列读数鉴定的核苷酸的突变与从双链核酸的相同链的第二序列读数鉴定的核苷酸的突变一致。例如,如果突变是真实的,例如,不是背景错误,则从双链核酸的一条链的序列读数鉴定的A突变(例如,突变为A的核苷酸)应当与从双链核酸的相同链的第二序列读数鉴定的A突变(例如,突变为A的核苷酸)一致。

在某些实施方案中,从双链核酸的一条链的第一序列读数鉴定的核苷酸的突变与从双链核酸的另一条链的第二序列读数鉴定的互补核苷酸的突变一致。例如,如果突变是真实的,例如,不是背景错误,则从双链核酸的一条链的序列读数鉴定的A突变(例如,突变为A的核苷酸)应当与从双链核酸的另一条链的序列读数鉴定的A突变(例如,突变为A的核苷酸)一致。

减少背景错误可以包括从2个或更多个序列读数(例如,多达20个或更多个序列读数)鉴定一致的突变。

被认为是序列信息中的背景错误的突变可以在各基因座上随机发生,因此可能不是在含有突变基因座的所有扩增子上都存在。在另一个实施方案中,可以进行生物信息学分析以除去在含有相同基因座的所有扩增子上均未发生的突变。

背景错误可包括在衍生自单一核酸的所有扩增子上均未发生的突变。例如,减少背景错误可以包括消除在小于约50%至小于约75%或小于约100%的衍生自单一核酸的扩增子上或在低于实验确定的截止水平的情况下发生的突变。

本技术还提供了一种ctDNA测序的方法,所述方法包括通过将共享相同的独特分子ID(UID)的分子分组到各家族中来减少背景错误的步骤。此步骤确定测序的原始分子的数量(作为共享UID的家族的数量)并消除不是所有家族成员都有的错误。在靶分子的离体拷贝或加工期间,这些错误可通过氧化核苷损伤、PCR和其他外源来源引入。通过UID对分子进行分组并评估错误的方法被称为“去重”。在一些实施方案中,本技术提供了通过使用分子条形码在错误抑制的情况下分析ctDNA来评估癌症的方法。在一些实施方案中,本技术提供了使用分子条形码对患者的ctDNA进行基因分型时的错误抑制方法。

然后可以使用如本文所述的UID对所述序列“去重”。鉴于临床血浆样品中典型较低的cfDNA产率,可使用所有回收的分子评估错误率和条形码性能(即,不管UID拷贝数或链型如何)。

选择子设计

本文公开了用于分析核酸以检测癌症的方法。所述方法包括(a)通过多个Y形衔接子的双链部分将其连接到多个双链核酸的两端以产生衔接子标签化的核酸,其中每个Y形衔接子包含第一寡核苷酸链和第二寡核苷酸链,其中第一寡核苷酸链的序列和第二寡核苷酸链的序列选自SEQ ID NO:1和SEQ ID NO:2;SEQ ID NO:3和SEQ ID NO:4;SEQ ID NO:5和SEQ ID NO:6;SEQ ID NO:7和SEQ ID NO:8;SEQ ID NO:9和SEQ ID NO:10;SEQ ID NO:11和SEQ ID NO:12;SEQ ID NO:13和SEQ ID NO:14;SEQ ID NO:15和SEQ ID NO:16;SEQ ID NO:17和SEQ ID NO:18;SEQ ID NO:19和SEQ ID NO:20;SEQ ID NO:21和SEQ ID NO:22;SEQ IDNO:23和SEQ ID NO:24;SEQ ID NO:25和SEQ ID NO:26;SEQ ID NO:27和SEQ ID NO:28;SEQID NO:29和SEQ ID NO:30;SEQ ID NO:31和SEQ ID NO:32;SEQ ID NO:33和SEQ ID NO:34;SEQ ID NO:35和SEQ ID NO:36;SEQ ID NO:37和SEQ ID NO:38;SEQ ID NO:39和SEQ IDNO:40;SEQ ID NO:41和SEQ ID NO:42;SEQ ID NO:43和SEQ ID NO:44;SEQ ID NO:45和SEQID NO:46;和SEQ ID NO:47和SEQ ID NO:48;(b)扩增衔接子标签化的核酸的两条链以产生多个扩增子;(c)使扩增子与选择子杂交,所述选择子包含选择性地与所述一种或多种样品核酸的全部或子集的基因组区域杂交的一组寡核苷酸;并且(d)对杂交的扩增子进行测序以检测癌症或癌症相关突变的存在或不存在。在一些实施方案中,所述双链核酸是基因组DNA、cfDNA、ctDNA或衍生自RNA转录物的cDNA。

体细胞突变是除了种系细胞之外的任何身体细胞中发生的突变,可以是癌细胞的特征。大多数人类癌症关于个体基因中的体细胞突变是相对异质的。选择子可用于从总基因组核酸中富集肿瘤衍生的核酸分子。选择子的设计可以决定可以高概率地检测患有特定癌症的患者的哪些突变。选择子大小也可以直接影响序列覆盖的成本和深度。例如,选择子的设计和使用在US2014/0296081和Newman等人,Nat Med.20(5):548-54(2014)中有部分描述,所述文献通过引用以其整体并入本文。

本文公开的方法可包括一个或多个选择子或所述一个或多个选择子的使用。选择子可包含与一个或多个基因组区域杂交的多个寡核苷酸或探针。所述基因组区域可包含一个或多个突变区域。所述基因组区域可包含与一种或多种癌症相关的一个或多个突变。

所述多个基因组区域可包含不同的基因组区域。在一些实施方案中,多个基因组区域可包含数个至多达7500个不同的基因组区域。

基因组区域可包含蛋白质编码区或其部分。蛋白质编码区可以指基因组中编码蛋白质的区域,例如基因。基因组区域可包含两个或更多个基因、蛋白质编码区或其部分。基因还可以包含非编码序列,如内含子,或非翻译区(UTR)或其部分。在一些实施方案中,基因组区域不包含完整基因。基因组区域可包含假基因、转座子或反转录转座子。

基因组区域可包含非蛋白质编码区。在一些实施方案中,非蛋白质编码区可以转录成非编码RNA(ncRNA)。在一些实施方案中,所述非编码RNA可以是转移RNA(tRNA)、核糖体RNA(rRNA)、调节RNA、小核RNA(snRNA)、小核仁RNA(snoRNA)、微小RNA、小干扰RNA(siRNA)、Piwi相互作用RNA(piRNA)或长ncRNA。

基因组区域可以包含反复突变的区域,例如基因组的区域,通常是人类基因组,其中相对于整个基因组,目的癌症中遗传突变的概率增加。反复突变的区域还可以指基因组的区域,其包含群体中反复发生的一个或多个突变。反复突变的区域可以通过“复发指数”(RI)来表征。

RI通常是指具有在给定千碱基基因组序列内发生突变的个体受试者(例如,癌症患者)的数量(例如,具有突变的患者数量/以kb计的基因组区域长度)。基因组区域的特征可能还在于每个外显子的有突变患者数。可以选择每个度量的阈值(例如,RI和每个外显子或基因组区域的患者数)以在统计上富集目的癌症的已知或疑似驱动因子。也可以通过任意选取每个度量的最高百分位来选择阈值。

选择子中基因组区域的数量可以根据癌症的性质而不同。包含更多数量的基因组区域通常可以增加鉴定独特体细胞突变的可能性。例如,可以对肿瘤样品和基因组样品的整个基因组进行测序,并且可以比较所得到的序列以注意与非肿瘤组织的任何差异。

对于特定的癌症,可以在整个群体中使用反复突变的基因组区域或“选择子”的文库,并且不需要针对每个受试者进行优化。

所述方法可以还包括杂交反应,例如,使扩增子与选择子杂交,所述选择子包含选择性地与一个或多个样品核酸的基因组区域杂交的一组寡核苷酸。在一些实施方案中,杂交反应可包括使多个扩增子与固体支持物(例如多个珠子)杂交。

所述方法可以还包括在酶促反应后进行杂交反应。例如,在一些实施方案中,酶促反应可包括连接反应、片段化反应、末端修复反应、加A尾反应或扩增反应中的一项或多项。

所述选择子还可包含一组寡核苷酸。所述组寡核苷酸可以与小于100kb且多达1.5兆碱基(Mb)的基因组杂交。所述组寡核苷酸可能能够与至少5个且多达500个或更多个不同的基因组区域杂交。所述选择子还可以与一系列不同的基因组区域杂交,例如,在约10至约1000个不同的基因组区域之间。所述选择子还可以与多个基因组区域杂交,例如,约50至约7500个不同的基因组区域。

选择子可以与包含在群体中不反复发生的突变的基因组区域杂交。例如,基因组区域可包含给定受试者中存在的一个或多个突变。在一些实施方案中,受试者中包含一个或多个突变的基因组区域可用于产生受试者的个性化选择子。

所述选择子可以与包含一个或多个选自SNV、CNV、***、缺失和重排的突变的多个基因组区域杂交。

选择子可以与已知或预测与癌症相关的基因组区域中的突变杂交。已知与癌症相关的基因组区域中的突变可称为“已知的体细胞突变”。已知的体细胞突变可以是位于已知与癌症相关的一个或多个基因中的突变,并且可以是存在于一个或多个癌基因中的突变。例如,已知的体细胞突变可包括位于EGFR、KRAS或BRAF中的一个或多个突变。可替代地,选择子可以与尚未报道与癌症相关的基因组区域中的突变杂交。基因组区域可包含足够大小的人类基因组序列以捕获一个或多个复发突变。

本技术的方法可以针对cfDNA,其长度通常小于约200bp,因此基因组区域通常可能小于约10kb。通常,SNV的基因组区域可以非常短,长度为约45bp至约500bp,而关于融合或其他基因组重排的基因组区域可以更长,长度为约1Kb至约10Kb。选择子中的基因组区域可小于10Kb,例如,100bp至10Kb。在一些实施方案中,选择子覆盖的总序列小于约1.5兆碱基对(Mb),例如10kb至1.5Mb。

在某些实施方案中,可用于本技术方法的选择子包含从肿瘤的全基因组测序获得的变体。例如,变体列表可以从来自肿瘤样品集合的外显子组测序核酸获得,如肺鳞状细胞癌(SCC)肿瘤或肺腺癌肿瘤的集合或可用于测序分析的一种或多种类型肿瘤的任何其他集合。可以过滤序列以消除位于富含重复序列的基因组区域中的变体(如例如简单重复、微卫星、中断重复和区段重复)。还可以(或替代地)对序列进行过滤以消除位于具有低映射率或低k聚体(k-mer)独特性的区间中的变体。

本文公开的方法中使用的选择子可以设计为以最少量的基因组空间覆盖尽可能多的患者和每个患者的突变。

在一些实施方案中,本公开文本提供了产生选择子的方法,即,选择待在患者中分析的基因组区域。选择子可以被设计为基于本文定义的“复发指数”(RI)度量来优先纳入基因组区域。在一些实施方案中,待纳入选择子中的基因组区域是外显子或外显子的含有已知病变的较小部分。待纳入的基因组区域包含已知的病变,并且侧翼为一个或多个碱基对,最小平铺尺寸为100bp。

在某些实施方案中,通过降低RI对基因组区域进行排序,并且在选择子中纳入RI和每个外显子的患者数均为最高等级的基因组区域。在一些实施方案中,最高等级高于或等于前10%。在此实施方案中,选择子以最小的空间最大化了额外的患者覆盖度。在一些实施方案中,在较不严格的条件下重复选择基因组区域的过程,即,可以选择低于前10%的百分等级,例如,前33%。在此实施方案中,所述方法导致纳入了最大程度地增加每个患者的突变中位数量的区域。在一些实施方案中,当达到预定大小时,终止将其他基因组区域纳入选择子中。在一些实施方案中,预定的所需大小为约100-200kb。在其他实施方案中,当满足上述过滤器的所有基因组区域用尽时,终止将其他基因组区域纳入选择子中。

在一些实施方案中,包含含有单核苷酸变异(SNV)的基因组区域的选择子还包含含有其他类型突变的临床相关区域(例如融合、种子区域、拷贝数变异(CNV)和组织学分类区域)。

所述选择子可以设计用于特定癌症,例如,非小细胞肺癌(NSCLC)、乳腺癌、子宫内膜癌等。所述选择子也可以设计用于癌症的一般种类,例如上皮癌(epithelial cancer/carcinoma)、肉瘤、淋巴瘤、黑色瘤、胶质瘤、畸胎瘤等。所述选择子也可以设计用于癌症的亚属,例如,腺癌、鳞状细胞癌等。

所述选择子可包括关于多个基因组区域的信息,所述基因组区域包含存在于患有癌症的至少一个受试者中的一个或多个突变。例如,所述选择子可以包括关于多个基因组区域的信息,所述基因组区域包含至少一个患有癌症的受试者中存在的多达20个突变。在一些实施方案中,所述选择子可以包括关于多个基因组区域的信息,所述基因组区域包含至少一个患有癌症的受试者中存在的多达200个或更多个突变。在一些实施方案中,所述多个基因组区域内的一个或多个突变可能存在于来自患有癌症的受试者群体的至少1%且多达20%或更多(例如,多达95%或更多)的受试者中。

估计肿瘤负荷

在一些实施方案中,本公开文本提供了通过对患者的cfDNA中的双链体分子测序来确定患者肿瘤负荷的方法。

本文公开的方法可包括设计选择子的步骤,所述选择子覆盖足够数量(例如,>1,500)的序列变异,如非同义突变(即,改变蛋白质的氨基酸序列的核苷酸突变)。选择子可通过任何调查方法设计,例如肿瘤的外显子组测序。在一些实施方案中,可以通过对患者肿瘤进行外显子组测序来设计个性化选择子。所述方法还包括对患者的cfDNA进行双重测序的步骤。在一些实施方案中,在此步骤中可以回收少至1,000个基因组当量。

基于ctDNA筛选的治疗选择

本文公开了用于确定携带一个或多个ctDNA突变的患者是否将受益于用至少一种治疗剂进行的治疗的方法。

在一个方面,本公开内容提供了用于选择患者来用至少一种治疗剂进行治疗的方法,其包括:(a)将多个Y形衔接子连接至从患者体内获得的样品中存在的双链ctDNA分子的两端,以形成双链衔接子-ctDNA复合物,每个Y形衔接子包含第一寡核苷酸链和第二寡核苷酸链,其中第一寡核苷酸链的序列和第二寡核苷酸链的序列选自SEQ ID NO:1和SEQ IDNO:2;SEQ ID NO:3和SEQ ID NO:4;SEQ ID NO:5和SEQ ID NO:6;SEQ ID NO:7和SEQ IDNO:8;SEQ ID NO:9和SEQ ID NO:10;SEQ ID NO:11和SEQ ID NO:12;SEQ ID NO:13和SEQID NO:14;SEQ ID NO:15和SEQ ID NO:16;SEQ ID NO:17和SEQ ID NO:18;SEQ ID NO:19和SEQ ID NO:20;SEQ ID NO:21和SEQ ID NO:22;SEQ ID NO:23和SEQ ID NO:24;SEQ ID NO:25和SEQ ID NO:26;SEQ ID NO:27和SEQ ID NO:28;SEQ ID NO:29和SEQ ID NO:30;SEQ IDNO:31和SEQ ID NO:32;SEQ ID NO:33和SEQ ID NO:34;SEQ ID NO:35和SEQ ID NO:36;SEQID NO:37和SEQ ID NO:38;SEQ ID NO:39和SEQ ID NO:40;SEQ ID NO:41和SEQ ID NO:42;SEQ ID NO:43和SEQ ID NO:44;SEQ ID NO:45和SEQ ID NO:46;和SEQ ID NO:47和SEQ IDNO:48;(b)扩增衔接子-ctDNA复合物的两条链以产生第一扩增子和第二扩增子,其中第一扩增子衍生自第一寡核苷酸链,并且第二扩增子衍生自第二寡核苷酸链;(c)对第一扩增子和第二扩增子进行测序;(d)当在第一扩增子中检测到的突变与在第二扩增子中检测到的突变一致时,检测双链ctDNA分子中的至少一个突变;以及(e)如果在双链ctDNA分子中检测到突变,则选择用至少一种治疗剂进行治疗的患者,其中所述ctDNA分子对应于ALK、BRAF、EGFR、ERBB2、KIT、KRAS、MET、NRAS、NTRK1、PIK3CA、ROS1或RET。

在一些实施方案中,所述至少一种治疗剂包括抗HER-2治疗、抗EGFR酪氨酸激酶抑制剂、PI3K/AKT/mTor途径抑制剂、激酶抑制剂、BRAF抑制剂、ALK/MET抑制剂、ERBB2拮抗剂和RAF/MEK/ERK抑制剂中的一种或多种。

在某些实施方案中,所述EGFR酪氨酸激酶抑制剂是吉非替尼(gefitinib)或厄洛替尼(erlotinib)。在某些实施方案中,所述抗EGFR治疗是西妥昔单抗(cetuximab)。

在所述方法的一些实施方案中,所述抗HER-2治疗是曲妥珠单抗(trastuzumab)或拉帕替尼(lapatinib)。

激酶抑制剂的例子包括但不限于克唑替尼(crizotinib)、阿法替尼(afatinib)、阿西替尼(Axitinib)、贝伐单抗(bevacizumab)、伯舒替尼(Bosutinib)、西妥昔单抗(Cetuximab)、达沙替尼(Dasatinib)、厄洛替尼(Erlotinib)、福斯马替尼(Fostamatinib)、吉非替尼(Gefitinib)、伊马替尼(Imatinib)、拉帕替尼(Lapatinib)、乐伐替尼(Lenvatinib)、尼罗替尼(Nilotinib)、帕尼单抗(Panitumumab)、帕唑帕尼(Pazopanib)、哌加他尼(Pegaptanib)、兰尼单抗(Ranibizumab)、鲁索替尼(Ruxolitinib)、索拉非尼(Sorafenib)、舒尼替尼(Sunitinib)、曲妥珠单抗(Trastuzumab)和维莫非尼(Vemurafenib)。

BRAF抑制剂的例子包括但不限于GDC-0879、SB590885、康奈非尼、RAF265、TAK-632、PLX4720、CEP-32496、AZ628、甲苯磺酸索拉非尼、索拉非尼、维莫非尼(Zelboraf)和达拉菲尼(GSK2118436)。

RAF/MEK/ERK抑制剂的例子包括但不限于维莫非尼(Zelboraf)和达拉菲尼(Dabrafenib)(GSK2118436)、康奈非尼(Encorafenib)、TAK-632、PLX4720、MLN2480、考比替尼(Cobimetinib)(GDC-0973)、MEK 162、RO5126766、GDC-0623、VTX11e、司美替尼(Selumetinib)(AZD6244)、PD0325901、曲美替尼(Trametinib)(GSK1120212)、U0126-EtOH、PD184352(CI-1040)、雷法替尼(Refametinib)、PD98059、BIX02189、比美替尼(Binimetinib)、Pimasertib(AS-703026)、SL327、BIX02188、AZD8330、TAK-733、PD318088、SCH772984和FR 180204。

PI3K/AKT/mTor途径抑制剂的例子包括但不限于BKM120、BEZ235、Pictilisib(GDC-0941)、LY294002、CAL-101(Idelalisib)、GNE-317、PI-3065、HS-173、PI-103、NU7441、GSK2636771、VS-5584、CZC24832、Duvelisib、TG100-115、A66、YM201636、CAY10505、GSK1059615、PF-04691502、PIK-75、PIK-93、AS-605240、BGT226、AZD6482、Voxtalisib、Alpelisib、CUDC-907、IC-87114、Omipalisib、TG100713、Gedatolisib、CH5132799、PKI-402、BAY 80-6946、TGX-221、XL147、PIK-90、PIK-293、PIK-294、3-甲基腺嘌呤、槲皮苷、渥曼青霉素(Wortmannin)、ZSTK474、AS-252424、AS-604850、依维莫司(everolimus)和Apitolisib。

ERBB2拮抗剂的例子包括但不限于拉帕替尼(Lapatinib)、卡奈替尼(Canertinib)、CP-724,714、AZD8931、AEE788、酪氨酸磷酸化抑制剂(Tyrphostin)AG 879、木利替尼(Mubritinib)和帕妥珠单抗(Pertuzumab)。

ALK抑制剂的例子包括但不限于克唑替尼(Crizotinib)、TAE684、艾乐替尼(Alectinib)、色瑞替尼(Ceritinib)、AP26113、AZD3463和ASP3026。

MET抑制剂的例子包括但不限于克唑替尼(Crizotinib)、PHA-665752、SU11274、SGX-523、BMS-777607、JNJ-38877605、Tivantinib、PF-04217903、MGCD-265、Capmatinib、AMG 208、MK-2461、AMG 458、NVP-BVU972和Tepotinib。

本技术的方法可用于评估癌症治疗方案在患者中的疗效。ctDNA表达水平/ctDNA表达谱提供了方便测量的基准,通过该基准来评估癌症治疗方案的有效性。

在一个方面,本公开文本提供了用于评估治疗方案在被诊断患有或疑似患有癌症的受试者中的疗效的方法,其包括(a)检测在使用本文公开的核酸衔接子和方法的治疗方案的给予期间或之后从受试者中获得的测试样品中的ctDNA突变,和(b)通过检测测试样品中存在的ctDNA表达水平和/或ctDNA表达谱相对于在给予治疗方案之前从受试者获得的参考样品中观察到的情况的改变来确定治疗方案的疗效。在所述方法的一些实施方案中,如果测试样品中存在的ctDNA表达水平相对于在给予治疗方案之前从受试者中获得的参照样品中观察到的ctDNA表达水平降低,则确定治疗方案是有效的。在所述方法的一些实施方案中,如果测试样品中存在的ctDNA表达谱与从正常(无癌症)对照受试者中获得的参照样品中观察到的ctDNA表达谱相当,则确定治疗方案是有效的。

在一些实施方案中,所述治疗方案基于在给予治疗方案之前在受试者中观察到的ctDNA表达水平和/或ctDNA表达谱来进行选择。所述治疗方案可基于在给予治疗方案期间或之后在受试者中观察到的ctDNA表达水平和/或ctDNA表达谱来维持、中断或进行后续修改。

在另一个方面,本文描述的方法可用于鉴定对治疗剂(例如,本文公开的治疗剂或本领域已知的抗癌治疗剂)展现出不同程度敏感性的患者群体。年龄、性别、身高、体重、种族、遗传障碍的家族史、免疫功能不全状态和病史是可影响患者对特定治疗剂的反应性的因素的非限制性例子。

ctDNA表达水平和/或ctDNA表达谱的改变可用于基于患者对特定剂量的治疗剂的反应性对患者进行分类。在一些实施方案中,患者可能对特定剂量或剂量范围的治疗剂有反应、无反应或过度反应。确定患者对治疗剂的敏感性可用于优化治疗疗效和减少与治疗剂相关的副作用。在某些实施方案中,所述治疗剂的计量可以基于治疗患者中ctDNA表达水平和/或ctDNA表达谱的改变来调节,以实现治疗疗效和/或最大程度地减少副作用。在其他实施方案中,治疗剂可以用另外的治疗剂补充,以基于治疗患者中ctDNA表达水平和/或ctDNA表达谱的改变来实现治疗疗效和/或最大程度地减少副作用。在另一个实施方案中,可以暂时或完全中断治疗剂的治疗,以基于治疗患者中ctDNA表达水平和/或ctDNA表达谱的改变来实现治疗疗效和/或最大程度地减少副作用。

试剂盒

本公开文本还提供了用于检测样品中cfDNA或ctDNA的改变的试剂盒。

本技术的试剂盒包含一种或多种本文公开的Y形核酸衔接子。在一些实施方案中,本技术的试剂盒还包含诱饵序列,其可用于检测对应于一种或多种癌症相关基因的各个cfDNA或ctDNA序列中的突变,所述基因包括但不限于ALK、BRAF、EGFR、ERBB2、KIT、KRAS、MET、NRAS、NTRK1、PIK3CA、ROS1和RET。

在一些实施方案中,所述试剂盒还包含缓冲液、具有聚合酶活性的酶、具有聚合酶活性且缺少5'→3'外切核酸酶活性或5'→3'和3'→5'两种外切核酸酶活性的酶、酶辅因子(如镁或锰)、盐、链延长核苷酸(如脱氧核苷三磷酸(dNTP)、经修饰dNTP、核酸酶抗性dNTP或经标记dNTP),以上各项为实施测定或反应(如靶核酸序列的扩增和/或其改变的检测)所必需。

在一个实施方案中,本技术的试剂盒还包含阳性对照核酸序列和阴性对照核酸序列,以在实验运行期间确保测定的完整性。试剂盒还可含有用于将衍生自癌症患者的样品中的cfDNA谱与参考核酸样品(例如,非癌症性cfDNA样品)进行比较的工具。所述试剂盒还可以包括使用说明书、用于自动分析的软件、容器、包装(如用于商业销售的包装等)。

本技术的试剂盒还可以包括实施本文公开的任何NGS技术所必需的其他试剂。例如,所述试剂盒还可以包括以下一种或多种:测序衔接子、引物、末端修复酶、加A尾酶、条形码序列、反应管、连接酶、连接酶缓冲液、洗涤缓冲液和/或试剂、杂交缓冲液和/或试剂、标记缓冲液和/或试剂以及检测工具。所述缓冲液和/或试剂通常针对试剂盒要用于的特定扩增/检测技术加以优化。使用这些缓冲液和试剂进行所述程序的不同步骤的方案也可包括在试剂盒中。

本技术的试剂盒可包括用于从测试样品制备核酸用于随后cfDNA或ctDNA的扩增和/或其改变的检测的组分。此类样品制备组分可用于从组织样品中产生核酸提取物。上述方法中使用的测试样品将基于诸如测定形式,检测方法的性质以及用作待测定的测试样品的特定组织、细胞或提取物等因素而不同。从样品中提取核酸的方法是本领域熟知的,并且可以容易地适用于获得与所用系统相容的样品。用于从测试样品中提取核酸的自动化样品制备系统是可商购的,例如Roche Molecular Systems的COBAS AmpliPrep System、Qiagen的BioRobot 9600和Applied Biosystems的PRISMTM 6700样品制备系统。

实施例

实施例1:一般方法和程序

从患者中收集全血样品置于无细胞DNA BCT管(Streck,Omaha,NE)中

Figure BDA0002179119910000441

随后离心以分离血浆、血沉棕黄层和红细胞部分。根据制造商的说明书,使用DynaMax Cell FreeDNA Extraction Kit(Life Technologies,Grand Island,NY)和Hamilton Microlab Star(Hamilton Bonaduz AG,Bonaduz,Switzerland)和KingFisher(Thermo Scientific,Waltham,MA)从血浆中提取cfDNA。根据制造商的说明书,使用Qubit dsDNA HighSensitivity试剂盒(Life Technologies,Grand Island,NY)对DNA进行定量。根据制造商的说明书,使用NEBNext Ultra II End Repair Kit(New England BioLabs,Ipswich,MA)对分离的cfDNA进行末端修复和加A尾。

根据通过引用并入本文的Kennedy,S.R.等人,Nat.Protoc.9,2586-2606(2014))描述的程序生成和利用YUMI。将对应于本文公开的Y形核酸衔接子(YAMI)的正义链和反义链的寡核苷酸在含有5X衔接子杂交缓冲溶液(0.5X TE(pH 8.0),0.025M NaCl)的96孔板中在以下条件下单独退火:

温度℃ 时间
95 5min
35 1sec
25 5min

随后合并各自具有其自身双链条形码序列的退火YAMI。一些YAMI被生物素化。

然后根据制造商的说明书,使用NEBNext Ultra II Ligation Kit(New EnglandBioLabs,Ipswich,MA),将YAMI和YUMI通过其可杂交(双链)部分连接到每个cfDNA分子的两端。每个cfDNA样品(5-30ng输入)使用的YAMI衔接子的浓度为大约110nM。根据制造商的说明书,使用Agencourt Ampure XP珠(Beckman Coulter)纯化连接的产物。YAMI还包括患者条形码和可与测序引物(例如,P5或P7)结合的通用序列,在AMP1期间使用MWS21(5'-CAAGCAGAAGACGGCATACGAGATXXXXXXXXXGTGACTGGAGTTCAGACGTGTGC-3')和P5_R1_F(5'-AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGC-3')引物在以下PCR条件下将它们掺入:

Figure BDA0002179119910000451

将所得的衔接子标签化的核酸合并,随后根据制造商的说明书使其与链霉亲和素或生物素缀合的诱饵(SureSelectXT Target Enrichment System,AgilentTechnologies,Santa Clara,CA和

Figure BDA0002179119910000452

Probes或Panels,IDT,Coralville,IA)接触,以富集ALK、BRAF、EGFR、ERBB2、KIT、KRAS、MET、NRAS、NTRK1、PIK3CA、ROS1和RET中的靶区域。这些包括EGFR、BRAF、MET、ERBB2、KRAS、NRAS、PI3KCA和KIT的外显子区域以及ALK(内含子19)、ROS1(内含子31-35)、RET(内含子9-11)和NTKR1(内含子8-11)的内含子区域。

参数 DNA诱饵(IDT) RNA诱饵(Agilent)
长度 60nt* 120nt
平铺密度 2×max 5×max
最佳杂交温度 65℃ 65℃
最佳杂交时间 4小时 16-24小时
最佳洗涤温度 60℃-65℃ 70℃-72℃

*DNA诱饵长度范围可以为60-120个碱基对

随后使用P5和P7引物通过PCR扩增富集的衔接子标签化的核酸。然后使用Illumina NextSeq平台通过下一代测序获得纯化的衔接子标签化的扩增子的序列信息。将总共6个样品(5个患者样品和单个无模板对照样品)合并到单个文库中进行测序。

当映射到人类基因组时,扩增子被分组成共享相同独特分子ID(UID)和特定位置起始位点的各家族。为单个双链体分子的两条链中的每条链建立共有序列以形成‘单链共有序列’(SSCS)。各个位置的共有只有当超过70%的家族成员在该位置共享相同的核苷酸时才能达到。

作为真正生物学变体的突变发生在相同的基因座上,而归因于背景错误的假突变在不同的基因座上随机发生。此外,归因于背景错误的突变发生在衍生自相同模板核酸的扩增子的子集上。基于独特标识符对衍生自相同模板核酸的扩增子进行比对,并进行生物信息学分析以过滤由于背景错误引起的突变,例如,在不同基因座上随机发生的假突变,或发生在衍生自相同模板核酸的扩增子的子集上的突变。在Kennedy,S.R.等人,Nat.Protoc.9,2586–2606(2014)中描述了为这些分析实施的生物信息学处理步骤。

实施例2:YAMI和YUMI在检测cfDNA中的突变上的比较性能

已知衔接子衍生的二级结构形式会干扰正确连接的靶DNA分子的扩增效率和富集(通过杂交-捕获)。用YAMI进行的连接实验显示,在第一轮扩增(AMP1)期间,衔接子衍生的二级结构假象(在大约150bp处的尖峰)未被扩增。见图2(a)和2(b)。此外,由SEQ ID NO:1-48表示的短YAMI(shYAMI)在连接实验期间不形成二级结构。此外,图2(a)和2(b)显示本技术的YAMI在不同实验条件下(例如,在1小时或3小时的连接期间YAMI浓度范围为25nM至75nM)可有效用于生成cfDNA文库。因此,本技术的YAMI的效力可部分归因于在衔接子连接步骤中衔接子衍生的二级结构假象的不存在。

此外,本技术的YAMI在不同实验条件下(例如,在1小时或3小时的连接期间YAMI浓度范围为25nM至75nM)也有效于从剪切的基因组DNA生成文库。见图3(b)。

图6(a)和6(b)显示,与仅用DNA诱饵观察到的相比,当用DNA诱饵和RNA诱饵的组合富集由cfDNA衍生的扩增子时,所测定基因区域的总覆盖度得到改善。如图6(a)所示,当仅使用DNA诱饵进行富集时,特定富含AT的区域的覆盖度显著下降。当仅使用RNA诱饵进行富集时,富含AT的区域的覆盖度略有改善,而使用DNA诱饵和RNA诱饵的组合进行富集则使跨所有区域(富含AT和富含GC的区域)的覆盖度标准化。图6(b)。

如图1(a)和1(b)所示,与用YUMI观察到的相比,YAMI显示在15ng的cfDNA输入水平下许多癌症相关基因的各区域(例如,KRAS外显子4、MET外显子13、PIK3CA外显子21、KIT外显子11、BRAF外显子15和其他)的优越去重覆盖度。图1(a)还显示用YAMI获得的各基因区域的去重覆盖度与cfDNA输入水平的增加呈正相关。这些结果与以下观察结果一致:YUMI在cfDNA文库制备期间显示出相对于用常规Y-衔接子观察到的情况较差的连接效率。见图3(a)。如图3(a)所示,用YUMI观察到高水平的未连接的cfDNA。

与HPLC或PAGE纯化的YUMI相比,YAMI在基因组DNA文库制备期间(输入:15ng剪切的基因组DNA)还显示提高的连接效率。见表1。

Figure BDA0002179119910000471

实际上,与用YUMI观察到的相比,YAMI的提高的连接效率导致用YAMI生成的cfDNA文库在总体读取深度和复杂性上有可观察到的提高(参见图4)。图5表明,与YUMI相比,当使用YAMI生成cfDNA文库时,关于癌症相关基因的各外显子或内含子区域衍生出更多数量的‘单链共有序列’(SSCS)。此外,图7显示当使用短YAMI(shYAMI)(由SEQ ID NO:1-48表示)生成cfDNA文库时,从低至5ng的cfDNA输入水平获得靶基因区域内的大约500-1800个单链共有读数(SSCS)。

这些结果表明,与本领域已知的其他Y形衔接子(例如,YUMI)相比,本技术的Y形核酸衔接子(YAMI和shYAMI)在从有限量的输入DNA(特别是cfDNA)生成复杂DNA文库方面显示出优越的效力。因此,本技术的Y形核酸衔接子可用于检测患者样品中存在的循环肿瘤DNA(ctDNA)分子中的突变的方法中。

等同物

本技术并非受限于本申请中描述的具体实施方案,计划将该实施方案作为本技术的个别方面的一对一说明。如本领域技术人员所明了,可在不背离本技术的精神和范围的情况下,对本技术进行多种修改和改变。本领域技术人员根据前述说明将明了,除了本文中列举的方法和装置以外,在本技术范围内的功能上等效的方法和装置。所述修改和改变旨在落于本技术的范围内。应理解,本技术不受限于具体方法、试剂、化合物、组合物或生物系统,本技术当然是可变的。还应理解,本文中所用术语仅用于描述具体实施方案的目的,而不意图具有限制性。

另外,当本公开文本的特征或方面是按马库什组(Markush group)来描述时,本领域技术人员将意识到,本公开文本也由此是按马库什组的任何个别成员或成员子组来描述。

如本领域技术人员可理解,出于任一和所有目的,特别在提供书面说明方面,本文中公开的所有范围还涵盖任一和所有可能的子范围以及其子范围的组合。任何所列范围都可容易地识别为充分描述相同范围并且使得相同范围能分解为至少相等的二分之一、三分之一、四分之一、五分之一、十分之一等。作为非限制性例子,本文中论述的每个范围可容易地分解为下三分之一、中三分之一和上三分之一等。同样如本领域技术人员可理解,所有诸如“高达”、“至少”、“大于”、“小于”等言辞都包括所述数字并且涉及随后可分解为如上所述的子范围的范围。最后,如本领域技术人员可理解,范围包括每一个别成员。因此,例如,具有1-3个细胞的组是指具有1、2或3个细胞的组。类似地,具有1-5个细胞的组是指具有1、2、3、4或5个细胞的组,等等。

本文所提到或引用的所有专利、专利申请、待决申请和公开案都是通过引用以其整体并入本文,包括所有图形和表格,结合至其与本说明书的明确教示一致的程度。

43页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:相控纳米孔阵列

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!