用于分析相联系核酸的试剂和方法

文档序号:1776441 发布日期:2019-12-03 浏览:26次 >En<

阅读说明:本技术 用于分析相联系核酸的试剂和方法 (For analyzing the reagent and method of the nucleic acid that is associated ) 是由 卢卡斯·布朗东·埃德尔曼 于 2017-12-19 设计创作,主要内容包括:提供了用于分析循环微粒(即源自血液之微粒)的核酸(例如基因组DNA)的试剂和方法。所述方法包括将循环微粒的至少两个靶核酸片段相联系以产生至少两个相联系靶核酸片段的组。在所述方法中,靶核酸片段可通过例如条码化、分配、连接和/或单独测序的技术相联系。对相联系片段的组的测序提供了对应于来自单个微粒的片段序列的信息上相联系序列读取的组。(Provide the reagent and method of the nucleic acid (such as genomic DNA) for analyzing circulation particle (being originated from the particle of blood).The method includes recycling at least two target nucleic acid fragments of particle to be associated to generate at least two groups for being associated target nucleic acid fragment.In the method, target nucleic acid fragment can be for example, by bar code, distribution, connection and/or individually the technology that is sequenced is associated.The group for the sequence read that is associated in information corresponding to the fragment sequence from single particle is provided to the sequencing of the group for the segment that is associated.)

用于分析相联系核酸的试剂和方法

技术领域

本发明涉及无细胞核酸(例如无细胞DNA)的分析。特别地,其涉及源自血液之微粒(microparticle)内包含的无细胞DNA的分析。提供了用于将单个微粒的核酸相联系(linking)的试剂和方法。还提供了用于分析来自单个微粒的相联系(linked)核酸片段组的方法。

背景技术

循环中的无细胞DNA(cell-free DNA,cfDNA)通常是片段化的(通常长度为100-200个碱基对),并因此用于cfDNA分析的方法传统上集中于可用这些短DNA片段发现的生物信号。例如,检测单个分子内的单核苷酸变体或对大量测序片段进行“分子计数”以间接推断大规模染色体异常的存在,例如评估母体循环内的胎儿DNA的用于胎儿染色体三体性的测试(所谓的“非侵入性产前检测(non-invasive prenatal testing)”或NIPT的形式)。

先前已经描述了许多种分析循环无细胞DNA的方法。根据具体的应用领域,这些测定可采用不同的术语用于大致相似的样品类型和技术方法组,例如循环肿瘤DNA(circulating tumor DNA,ctDNA)、无细胞胎儿DNA(cell-free foetal DNA,cffDNA)和/或液体活检、或非侵入性产前检测。一般来说,这些方法包括制备用于测序的循环无细胞DNA样品、测序反应本身、以及随后用于分析所得序列以检测相关生物信号的信息框架的实验室方案。该方法涉及在测序之前的DNA纯化和分离步骤,这意味着随后的分析必须仅依赖于DNA本身中包含的信息。在测序之后,这样的方法通常使用一个或更多个信息或统计框架来分析序列数据的多个方面,例如检测其中的特定突变、和/或检测特定染色体或亚染色体区域的选择性富集或选择性缺失(例如,其可能指示发育的胎儿中的染色体非整倍性)。

这些方法中的许多用于NIPT(例如在美国专利6258540 B1、8296076 B2、8318430B2、8195415 B2、9447453 B2和8442774 B2中)。用于进行用于检测胎儿染色体异常(例如三体性和/或亚染色体异常,例如微缺失)的非侵入性产前检测的最常用方法涉及对大量cfDNA分子进行测序,将得到的序列映射(mapping)至基因组(即确定序列来自哪个染色体和/或给定染色体的哪个部分),并随后对于一个或更多个这样的染色体或亚染色体区域,确定映射到其上的序列的量(例如,以读取(read)的绝对数目或读取的相对数目的形式),并随后将其与一个或更多个正常或异常阈值或截止值进行比较,和/或进行统计检验,以确定所述区域是否可能在序列量上表达过度(其可例如对应于染色体三体性)和/或所述区域是否可能在序列量上表达不足(其可能例如对应于微缺失)。

还描述了使用来自未联系的个体分子的数据来分析无细胞DNA的多种另外的或经修改的方法(例如WO2016094853 A1、US2015344970 A1和US20150105267 A1)。

尽管存在如此广泛的方法,仍然需要可允许可靠地检测远程遗传信息(例如定相(phasing))的新的cfDNA分析方法以及具有更高灵敏度的方法。例如,在NIPT的情况下,胎儿cfDNA仅占妊娠个体中整体cfDNA的一小部分(大部分循环DNA是正常的母体DNA)。因此,NIPT的一个相当大的技术挑战围绕着区分胎儿cfDNA与母体DNA。类似地,在患有癌症的患者中,cfDNA仅占整体循环DNA的一小部分。因此,在使用cfDNA分析用于诊断或监测癌症方面存在类似的技术挑战。

本发明提供了用于分析循环微粒(或源自血液之微粒)中的核酸片段的方法。本发明基于相联系片段方法(linked-fragment approach),其中来自单个微粒的核酸片段联系在一起。这种联系使得能够产生对应于来自单个微粒的片段序列的相联系序列读取的组。

相联系片段方法提供了高度灵敏的cfDNA分析,并且还使得能够检测远程遗传信息。该方法基于洞察的组合。首先,这些方法利用了以下洞察:个体循环微粒(例如,个体循环凋亡小体)会包含由经历凋亡的同一个体细胞(体内某处)产生的许多基因组DNA片段。其次,个体微粒内的这样的基因组DNA片段的一部分会优先包含来自一个或更多个特定染色体区域的序列。累积地,这样的循环微粒因此用作数据丰富且多特征的“分子听诊器(molecular stethoscope)”,以观察在身体中某处的有限的体细胞组织空间中发生的可以非常复杂的遗传事件;重要的是,由于这样的微粒大部分在清除或代谢之前进入循环,因此其可被非侵入性地检测。本发明描述了使用这些“听诊器”——即相联系片段和相联系序列读取的组(单个个体微粒或者在许多实施方案中包含大量单个循环微粒的复杂样品的形式)来执行分析和诊断任务的实验方法和信息方法。

本发明提供了分析包含源自血液之微粒的样品的方法,其中所述微粒包含至少两个靶核酸片段,并且其中所述方法包括:(a)制备用于测序的样品,其包括将所述至少两个靶核酸片段中的至少两个相联系以产生至少两个相联系靶核酸片段的组;以及(b)对所述组中每个相联系片段进行测序以产生至少两个(信息上)相联系的序列读取。

本发明提供了分析包含循环微粒之样品的方法,其中所述循环微粒包含至少两个靶核酸片段,并且其中所述方法包括:(a)制备用于测序的样品,其包括将所述至少两个靶核酸片段中的至少两个相联系以产生至少两个相联系靶核酸片段的组;以及(b)对所述组中每个相联系片段进行测序以产生至少两个(信息上)相联系的序列读取。

本发明提供了分析包含源自血液之微粒的样品的方法,其中所述微粒包含至少两个基因组DNA片段,并且其中所述方法包括:(a)制备用于测序的样品,其包括将至少两个基因组DNA片段中的至少两个相联系以产生至少两个相联系基因组DNA片段的组;以及(b)对所述组中每个相联系片段进行测序以产生至少两个相联系的序列读取。

本发明提供了分析包含循环微粒之样品的方法,其中所述循环微粒包含至少两个基因组DNA片段,并且其中所述方法包括:(a)制备用于测序的样品,其包括将至少两个基因组DNA片段中的至少两个相联系以产生至少两个相联系基因组DNA片段的组;以及(b)对所述组中每个相联系片段进行测序以产生至少两个相联系的序列读取。

在所述方法中,可将所述微粒的至少3个、至少4个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10,000个、至少100,000个、或至少1,000,000个靶核酸片段联系成组,并随后进行测序以产生至少3个、至少4个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10,000个、至少100,000个、或至少1,000,000个相联系的序列读取。

优选地,可将所述微粒的至少5个靶核酸片段联系成组,并随后进行测序以产生至少5个相联系的序列读取。

在所述方法中,每个相联系的序列读取可提供相联系片段的至少1个核苷酸、至少5个核苷酸、至少10个核苷酸、至少20个核苷酸、至少30个核苷酸、至少50个核苷酸、至少100个核苷酸、至少200个核苷酸、至少500个核苷酸、至少1000个核苷酸、或至少10,000个核苷酸的序列。优选地,每个相联系的序列读取可提供相联系片段的至少20个核苷酸的序列。

在所述方法中,可产生总共至少2个、至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个、至少100,000,000个、至少1,000,000,000个、至少10,000,000,000个、至少100,000,000,000、或至少1,000,000,000,000个序列读取。优选地,产生总共至少500,000个序列读取。

序列读取可包含来自靶核酸(例如基因组DNA)的至少5个、至少10个、至少25个、至少50个、至少100个、至少250个、至少500个、至少1000个、至少2000个、至少5000、或至少10,000个核苷酸。优选地,每个序列读取包含来自靶核酸的至少5个核苷酸。

序列读取可包含由测序仪产生的原始序列读取或其一部分,例如由Illumina测序仪产生的50个核苷酸长序列的原始序列读取。序列读取可包含来自配对末端测序运行的两个读取的融合序列,例如来自Illumina测序仪上的配对末端测序运行的第一读取和第二读取二者的串联(concatenated)或融合的序列。序列读取可包含由测序仪产生的原始序列读取的一部分,例如由Illumina测序仪产生的150个核苷酸的原始序列读取内的20个连续核苷酸。单个原始序列读取可包含通过本发明的方法产生的至少两个相联系的序列读取。

序列读取可通过本领域已知的任何方法产生。例如,通过链终止或Sanger测序。优选地,测序通过下一代测序方法进行,例如合成测序、使用可逆终止子的合成测序(例如Illumina测序)、焦磷酸测序(例如454测序)、连接测序(seqencing by ligation)(例如SOLiD测序)、单分子测序(例如单分子实时(SMRT)测序,Pacific Biosciences),或通过纳米孔测序(例如在Minion或Promethion平台上,Oxford Nanopore Technologies)。最优选地,序列读取通过使用可逆终止子的合成测序(例如Illumina测序)产生。

所述方法可包括将每个相联系的序列读取映射至参考基因组序列的另外的步骤。相联系的序列读取可包含映射至参考基因组序列的相同染色体的序列或映射至参考基因组序列的两个或更多个不同染色体的序列。

微粒的直径可以是至少100nm、至少110nm、至少125nm、至少150nm、至少175nm、至少200nm、至少250nm或至少500nm。优选地,微粒的直径为至少200nm。微粒的直径可以是100-5000nm。微粒的直径可以是10-10,000nm(例如100-10,000nm,110-10,000nm)、50-5000nm、75-5,000nm、100-3,000nm。微粒的直径可以是10-90nm、50-100nm、90-200nm、100-200nm、100-500nm、100-1000nm、1000-2000nm、90-5000nm、或2000-10,000nm。优选地,微粒的直径为100至5000nm。最优选地,微粒的直径为200至5000nm。样品可包括至少两种不同尺寸、或至少三种不同尺寸或一系列不同尺寸的微粒。

联系的基因组DNA片段可源自单个基因组DNA分子。

所述方法还可包括估计或确定相联系基因组DNA片段的基因组序列长度的步骤。任选地,该步骤可通过对相联系片段的基本上整个序列(即从其近似5’端到其近似3’端)进行测序并对其中测序的核苷酸数目进行计数来进行。任选地,这可通过如下进行:对相联系片段的序列的5’端的足够数目的核苷酸进行测序以将所述5’端映射至参考基因组序列(例如人基因组序列)内的基因座,并且同样地对相联系片段的序列的3’端的足够数目的核苷酸进行测序以将所述3’端映射至参考基因组序列内的基因座,并随后使用参考基因组序列确定相联系片段的基因组序列长度(即相联系片段的3’端测序核苷酸的数目+相联系片段的5’端测序核苷酸的数目+参考基因组中这些序列之间的核苷酸的数目(即未测序部分))。

优选地,样品分离自血液、血浆或血清。微粒可分离自血液、血浆或血清。所述方法还可包括从血液、血浆或血清中分离微粒的步骤。该步骤可在步骤(a)之前或期间进行。

微粒可通过离心、尺寸排阻色谱和/或过滤来分离。

分离步骤可包括离心。微粒可通过沉淀来分离,其利用离心步骤和/或超速离心步骤,或者两种或更多种不同速度的两个或更多个离心步骤和/或超速离心步骤的系列,其中来自一个离心/超速离心步骤的沉淀和/或上清液在第二离心/超速离心步骤和/或差速离心过程中进一步处理。

离心或超速离心步骤可以以100-500,000G、100-1000G、1000-10,000G、10,000-100,000G、500-100,000G、或100,000-500,000G的速度进行。离心或超速离心步骤可进行至少5秒、至少10秒、至少30秒、至少60秒、至少5分钟、至少10分钟、至少30分钟、至少60分钟或者至少3小时的持续时间。

分离步骤可包括尺寸排阻色谱法,例如基于柱的尺寸排阻色谱法,例如包括含基于琼脂糖之基质或基于sephacryl之基质的柱的尺寸排阻色谱法。

尺寸排阻色谱法可包括使用包含以下孔径的基质或过滤器:至少50纳米、至少100纳米、至少200纳米、至少500纳米、至少1.0微米、至少2.0微米或至少5.0微米的尺寸或直径。

分离步骤可包括过滤样品。滤液可提供在方法中分析的微粒。任选地,使用过滤器分离低于一定尺寸的微粒,并且其中过滤器优先或完全去除尺寸大于100纳米、尺寸大于200纳米、尺寸大于300纳米、尺寸大于500纳米、尺寸大于1.0微米、尺寸大于2.0微米、尺寸大于3.0微米、尺寸大于5.0微米、或尺寸大于10.0微米的颗粒。任选地,可使用具有相同尺寸过滤参数或者不同尺寸过滤参数的过滤器进行两个或更多个这样的过滤步骤。任选地,来自一个或更多个过滤步骤的滤液包含微粒,并从其产生相联系的序列读取。

在所述方法中,样品可包含源自血液的第一和第二微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括进行步骤(a)以产生第一微粒的第一组相联系靶核酸片段和第二微粒的第二组相联系靶核酸片段,以及进行步骤(b)以产生第一微粒的第一组相联系的序列读取和第二微粒的第二组相联系的序列读取。

在所述方法中,对于第一微粒产生的相联系序列读取组可与对于第二微粒产生的相联系序列读取组区分开。

在所述方法中,样品可包含源自血液的n个微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括进行步骤(a)以产生n组相联系靶核酸片段,所述n个微粒中的每一个一组,以及进行步骤(b)以产生n组相联系的序列读取,所述n个微粒中的每一个一组。

在所述方法中,n可以是至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000、或至少100,000,000,000。优选地,n是至少100,000个微粒。

在所述方法中,核酸样品可包含至少3个、至少5个、至少10个、至少50个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个、至少100,000,000个、至少1,000,000,000个、至少10,000,000,000个、或至少100,000,000,000个微粒,其中在所述方法的任何步骤,例如使样品与多聚体条码化试剂文库(libraryof multimeric barcoding reagent)接触的任何步骤,和/或将条码序列附接至(appending to)靶核酸的任何步骤,和/或将偶联序列(coupling sequence)附接至靶核酸的任何步骤,和/或交联或透化的任何步骤期间,所述微粒包含在单个连续的水性体积内。

对于每个微粒产生的相联系的序列读取组可与对于其他微粒产生的相联系的序列读取组区分开。

在步骤(a)之前,所述方法还可包括将样品分配到至少两个不同反应体积中的步骤。

在本发明中,两个序列或序列读取(例如,通过测序反应确定)可通过任何手段在信息上相联系,其允许将这样的序列以任何方式在计算机系统内、在算法内或在数据集内彼此相关或相互关联。这样的联系可包含以下、由以下确定或由以下表示:通过离散的标识性联系,或通过共有的属性,或通过使两个或更多个这样的序列相联系、相互关联或相关的任何间接方法。

联系可包含以下、和/或由以下确定、和/或由以下表示:测序反应本身内的序列(例如通过测序反应确定的条码序列的形式,或者单个确定的序列的两个不同部分或区段的形式,其一起包含第一和第二相联系序列),或者不依赖于这样的序列确定、包含或表示(例如通过包含在相同的流动池内,或流动池的相同泳道内,或测序仪的相同区室或区域内,或包含在测序仪的相同测序运行内,或者以一定程度的空间接近度包含在生物样品内,和/或以一定程度的空间接近度包含在测序仪或测序流动池内。联系可包含以下、和/或由以下确定、和/或由以下表示:对应于测序仪内的物理位置或分区的量度或参数,例如图像和/或多像素相机或多像素电荷耦合器件内的像素或像素位置,和/或例如纳米孔测序仪或纳米孔膜内的纳米孔或纳米孔的位置。

联系可以是绝对的(即,两个序列相联系或未相联系,在此之外没有定量、半定量或定性/分类关系)。联系也可在联系的度、概率或程度方面是相对的、概率的、或确定、包含或表示,例如相对于可具有一系列定量、半定量或定性/分类值中的一个的一个或更多个参数(或由其表示)。例如,两个(或更多个)序列可通过定量、半定量或定性/分类参数在信息上相联系,所述参数表示、包含、估计或体现了测序仪内所述两个(或更多个)序列的接近度,或者生物样品内所述两个(或更多个)序列的接近度。

对于涉及通过任何此类方式在信息上相联系的两个或更多个序列的任何分析,联系的存在(或不存在)可用作任何分析或评价步骤或用于其执行的任何算法中的参数。对于涉及通过任何此类方式在信息上相联系的两个或更多个序列的任何分析,联系的度、概率或程度可用作任何分析或评价步骤或用于其执行的任何算法中的参数。

在这样的联系的一种形式中,给定组的两个或更多个相联系序列可与特定标识符(例如字母数字标识符)、或条码或条码序列相关联。在另一种形式中,给定组的两个或更多个相联系序列可与条码或条码序列相关联,其中所述条码或条码序列包含在由测序反应确定的序列内。例如,在测序反应中测定的每个序列可包含条码序列和对应于基因组DNA序列的序列二者。任选地,某些序列或相联系序列可由两个或更多个条码或标识符表示或与其相关联。

在联系的另一种形式中,两个或更多个相联系序列可保持在计算机或计算机网络内、硬盘驱动器内或任何种类的存储介质或者存储序列数据的任何其他装置内的离散分区内。任选地,某些序列或相联系序列可保存在这样的计算机或数据介质中的两个或更多个分区内。

在信息上相联系的序列可包括一组或更多组在信息上相联系的序列。相联系序列组中的序列可全部共有相同的相联系函数或其表示;例如,相联系组内的所有序列可与相同的条码或与相同的标识符相关联,或者可包含在计算机或存储介质内的相同分区内;所有序列可共有任何其他形式的联系、相互关系和/或相关性。相联系组中的一个或更多个序列可以是所述组的排他性成员,并因此不是任何其他组的成员。或者,相联系组中的一个或更多个序列可以是所述组的非排他性成员,并因此所述序列可由两个或更多个不同的相联系序列组表示和/或与其相关联。

1.包含微粒的样品

用于本发明方法的样品包含至少一个源自血液(例如人血液)的微粒。微粒可源自母体血液。微粒可源自患有疾病(例如癌症)的患者的血液。样品可以是例如血液样品、血浆样品或血清样品。样品可以是哺乳动物样品。优选地,样品是人样品。

已经在来自人和其他动物的血液、血浆和/或血清中发现了多种无细胞微粒(Orozco et al,Cytometry Part A(2010).77A:502 514,2010)。这些微粒在其所来源的组织和细胞,以及其形成背后的生物物理过程,以及其各自的尺寸和分子结构和组成方面是多样的。微粒可包含来自细胞膜的组分(例如掺入磷脂组分)以及一些细胞内或细胞核组分。微粒包括外排体、凋亡小体(也称为凋亡小泡)和细胞外微泡。

微粒可定义为包含至少两个靶核酸(例如基因组DNA)片段的膜囊泡。微粒的直径可以是100-5000nm。优选地,微粒的直径为100-3000纳米。

外排体是最小的循环微粒之一,直径通常为50至100纳米,并且被认为来自活的完整细胞的细胞膜,并且含有包含在外部磷脂组分内的蛋白质和RNA组分(包括mRNA分子和/或降解的mRNA分子,以及小调节RNA分子,如微RNA分子)二者。外排体被认为是由细胞质多泡体的胞吐作用形成的(Gyorgy et al,Cell.Mol.Life Sci.(2011)68:2667-2688)。外排体被认为在细胞-细胞信号传导以及细胞外功能中发挥不同的作用(Kanada et al,PNAS(2015)1418401112)。先前已经描述了用于对外排体中发现的微RNA和/或mRNA分子进行定量或测序的技术(例如,美国专利申请13/456,121、欧洲申请EP2626433 A1)。

微粒还包括凋亡小体(也称为凋亡小泡)和细胞外微泡,其总直径可达1微米或甚至2至5微米,并且通常认为直径大于100纳米(Lichtenstein et al,Ann N Y Acad Sci.(2001);945:239-49)。所有类型的循环微粒被认为是由体内的大量和多种细胞产生的(Thierry et al,Cancer Metastasis Rev 35(3),347-376.9(2016)/s10555-016-9629-x)。

优选地,微粒不是外排体,例如,微粒是直径大于外排体的任何微粒。

先前已经描述了大量用于分离循环微粒(和/或循环微粒的特定亚组、类别或级分)的方法。欧洲专利ES2540255(B1)和美国专利9005888 B2描述了基于离心操作分离特定循环微粒(例如凋亡小体)的方法。先前已充分描述和开发了大量通过离心、超速离心和其他技术分离不同类型的无细胞微粒的方法(Gyorgy et al,Cell.Mol.Life Sci.(2011)68:2667-2688)。

微粒包含至少两个靶核酸片段(例如片段化基因组DNA的分子)。这些片段化基因组DNA分子和/或这些片段化基因组DNA分子内包含的序列可通过本文中所述的任何方法相联系。

靶核酸的片段可以是DNA片段(例如片段化基因组DNA的分子)或RNA片段(例如mRNA片段)。优选地,靶核酸片段是基因组DNA片段。

DNA片段可以是线粒体DNA的片段。DNA片段可以是来自母体细胞或组织的线粒体DNA片段。DNA片段可以是来自胎儿或胎盘组织的线粒体DNA片段。DNA片段可以是来自患病组织和/或癌组织的线粒体DNA的片段。

微粒可包含血小板。微粒可包含肿瘤教育的血小板(tumour-educatedplatelet)。靶核酸可包含血小板RNA(例如,血小板RNA的片段,和/或肿瘤教育的血小板RNA的片段)。包含一个或更多个血小板的样品可包含富含血小板的血浆(例如,包含肿瘤教育的血小板的富含血小板的血浆)。

靶核酸片段可包含双链或单链核酸。基因组DNA片段可包含双链DNA或单链DNA。靶核酸片段可包含部分双链核酸。基因组DNA片段可包含部分双链DNA。

靶核酸片段可以是源自单个核酸分子的片段,或源自两个或更多个核酸分子的片段。例如,基因组DNA片段可以源自单个基因组DNA分子。

如技术人员所理解的,本文中使用的术语靶核酸片段是指存在于微粒中的原始片段及其拷贝或扩增子。例如,术语gDNA片段是指存在于微粒中的原始gDNA片段,以及例如可通过引物延伸反应从原始基因组DNA片段制备的DNA分子。作为另一个实例,术语mRNA片段是指存在于微粒中的原始mRNA片段,以及例如可以通逆转录从原始mRNA片段制备的cDNA分子。

靶核酸(例如基因组DNA)片段可以是至少10个核苷酸、至少15个核苷酸、至少20个核苷酸、至少25个核苷酸或至少50个核苷酸。靶核酸(例如基因组DNA)片段可以是15至100,000个核苷酸、20至50,000个核苷酸、25至25,000个核苷酸、30至10,000个核苷酸、35-5,000个核苷酸、40-1000个核苷酸或50-500个核苷酸。靶核酸(例如基因组DNA)片段可以是长度为20至200个核苷酸、长度为100至200个核苷酸、长度为200至1000个核苷酸、长度为50至250个核苷酸、长度为1000至10,000个核苷酸、长度为10,000至100,000个核苷酸、或长度为50至100,000个核苷酸。优选地,片段化基因组DNA分子的长度为50至500个核苷酸。

在样品中,微粒的浓度可小于0.001个微粒/微升、小于0.01个微粒/微升、小于0.1个微粒/微升、小于1.0个微粒/微升、小于10个微粒/微升、小于100个微粒/微升、小于1000个微粒/微升、小于10,000个微粒/微升、小于100,000个微粒/微升、小于1,000,000个微粒/微升、小于10,000,000个微粒/微升、或小于100,000,000个微粒/微升。

在样品中,核酸(例如基因组DNA)片段的浓度可小于1.0皮克(picogram)DNA/微升、小于10皮克DNA/微升、小于100皮克DNA/微升、小于1.0纳克DNA/微升、小于10纳克DNA/微升、小于100纳克DNA/微升、或小于1000纳克DNA/微升

2.通过条码化相联系

本发明提供制备用于测序之样品的方法,其中所述样品包含源自血液之微粒,其中所述微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括将所述微粒的至少两个靶核酸片段附接至条码序列或条码序列组的不同条码序列,以产生相联系靶核酸片段组。

本发明提供制备用于测序之样品的方法,其中所述样品包含循环微粒,其中所述循环微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括将所述循环微粒的至少两个靶核酸片段附接至条码序列或条码序列组的不同条码序列,以产生相联系靶核酸片段组。

在将微粒的至少两个靶核酸片段附接至条码序列或条码序列组的不同条码序列的步骤之前,所述方法可包括将偶联序列附接至微粒的每个靶核酸(例如基因组DNA)片段,其中偶联序列随后被附接至条码序列或条码序列组的不同条码序列,以产生所述相联系靶核酸片段组。

在所述方法中,样品可包含源自血液的第一和第二微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法可包括将第一微粒的至少两个靶核酸片段附接至第一条码序列或第一组条码序列的不同条码序列,以产生第一组相联系靶核酸片段,以及将第二微粒的至少两个靶核酸片段附接至第二条码序列或第二组条码序列的不同条码序列,以产生第二组相联系靶核酸片段。

第一条码序列可不同于第二条码序列。第一组条码序列的条码序列可不同于第二组条码序列的条码序列。

在所述方法中,样品可包含源自血液的n个微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括进行步骤(a)以产生n组相联系靶核酸片段,n个循环微粒中的每一个一组。

在所述方法中,n可以是至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000、或至少100,000,000,000。优选地,n是至少100,000个微粒。

优选地,每组相联系序列读取通过不同条码序列或不同组条码序列相联系。条码序列组的每个条码序列可不同于文库中至少1、至少4、至少9、至少49、至少99、至少999、至少9,999、至少99,999、至少999,999、至少9,999,999、至少99,999,999、至少999,999,999、至少9,999,999,999、至少99,999,999,999、或至少999,999,999,999个其他条码序列组的条码序列。条码序列组的每个条码序列可不同于文库中所有其他条码序列组的条码序列。优选地,条码序列组的每个条码序列不同于文库中至少9个其他条码序列组的条码序列。

本发明提供了分析包含源自血液之微粒的样品的方法,其中所述微粒包含至少两个靶核酸片段,并且其中所述方法包括:(a)制备用于测序的样品,其包括将所述微粒的至少两个靶核酸(例如基因组DNA)片段附接至条码序列以产生相联系靶核酸片段组;以及(b)对所述组中的每个相联系片段进行测序以产生至少两个相联系序列读取,其中所述至少两个相联系序列读取通过所述条码序列相联系。

条码序列可包含独特序列。每个条码序列可包含至少5个、至少10个、至少15个、至少20个、至少25个、至少50个或至少100个核苷酸。优选地,每个条码序列包含至少5个核苷酸。优选地,每个条码序列包含脱氧核糖核苷酸,任选地条码序列中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。条码序列可包含一个或更多个简并核苷酸或序列。条码序列可不包含任何简并核苷酸或序列。

在所述方法中,在将微粒的至少两个靶核酸片段附接至条码序列的步骤之前,该方法可包括将偶联序列附接至微粒的每个核酸片段,其中偶联序列随后被附接至条码序列以产生相联系片段组。

在所述方法中,样品可包含源自血液的第一和第二微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括进行步骤(a)以产生第一微粒的第一组相联系靶核酸片段和第二微粒的第二组相联系靶核酸片段,以及进行步骤(b)以产生第一微粒的第一组相联系序列读取和第二微粒的第二组相联系序列读取,其中相对于第二微粒的至少两个相联系序列读取,第一微粒的至少两个相联系序列读取通过不同的条码序列相联系。

相对于第二组相联系片段,第一组相联系片段可通过不同的条码序列相联系。

在所述方法中,样品可包含源自血液的n个微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括进行步骤(a)以产生n组相联系靶核酸片段,n个微粒中的每一个一组,以及进行步骤(b)以产生n组相联系序列读取,n个微粒中的每一个一组。

在所述方法中,n可以是至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000、或至少100,000,000,000。优选地,n是至少100,000个微粒。

优选地,每组相联系序列读取通过不同的条码序列相联系。

在所述方法中,不同的条码序列可作为条码序列文库提供。所述方法中使用的文库可包含至少2个、至少5个、至少10个、至少50个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个、至少100,000,000个、至少1,000,000,000个、至少10,000,000,000个、至少100,000,000,000个、或至少1,000,000,000,000个不同的条码序列。优选地,所述方法中使用的文库包含至少1,000,000个不同的条码序列。

在所述方法中,文库的每个条码序列可仅附接至来自单个微粒的片段。

所述方法可以是确定性的,即一个条码序列可用于鉴定来自单个微粒的序列读取,或者概率性的,即一个条码序列可用于鉴定可能来自单个微粒的序列读取。在某些实施方案中,一个条码序列可附接至来自两个或更多个微粒的基因组DNA片段。

所述方法可包括:(a)制备用于测序的样品,其包括将微粒的至少两个靶核酸(例如基因组DNA)片段中的每一个附接至条码序列组的不同条码序列以产生相联系靶核酸片段组;以及(b)对所述组中每个相联系片段进行测序以产生至少两个相联系序列读取,其中所述至少两个相联系序列读取通过所述条码序列组相联系。

在所述方法中,在将微粒的至少两个靶核酸片段中的每一个附接至不同的条码序列的步骤之前,所述方法可包括将偶联序列附接至微粒的每个靶核酸片段,其中微粒的至少两个靶核酸片段中的每一个通过其偶联序列附接至所述条码序列组的不同条码序列。

在所述方法中,样品可包含源自血液的第一和第二微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法可包括进行步骤(a)以产生第一微粒的第一组相联系靶核酸片段和第二微粒的第二组联系的靶核酸DNA片段,以及进行步骤(b)以产生第一微粒的第一组相联系序列读取和第二微粒的第二组相联系序列读取,其中相对于第二组相联系序列读取,第一组相联系序列读取通过不同条码序列组相联系。

在所述方法中,样品可包含源自血液的n个微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法可包括进行步骤(a)以产生n组相联系靶核酸的片段,n个微粒中的每一个一组,以及进行步骤(b)以产生n组相联系序列读取,n个微粒中的每一个一组。

在所述方法中,n可以是至少3、至少5、至少10、至少50、至少100、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、至少100,000,000、至少1,000,000,000、至少10,000,000,000、或至少100,000,000,000。优选地,n是至少100,000个微粒。

优选地,每组相联系序列读取通过不同条码序列组相联系。

在所述方法中,不同的条码序列组可作为条码序列组文库提供。所述方法中使用的文库可包含至少2个、至少5个、至少10个、至少50个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000、至少10,000,000个、至少100,000,000个、至少1,000,000,000个、至少10,000,000,000个、至少100,000,000,000个、或至少1,000,000,000,000个不同的条码序列组。优选地,所述方法中使用的文库包含至少1,000,000个不同的条码序列组。

条码序列组的每个条码序列可不同于文库中至少1个、至少4个、至少9个、至少49个、至少99个、至少999个、至少9,999个、至少99,999个、至少999,999个、至少9,999,999个、至少99,999,999个、至少999,999,999个、至少9,999,999,999个、至少99,999,999,999个、或至少999,999,999,999个其他条码序列组。条码序列组的每个条码序列可不同于文库中所有其他条码序列组。优选地,条码序列组中的每个条码序列不同于文库中至少9个其他条码序列组的条形码序列。

在所述方法中,来自文库的条码序列组的条码序列可仅附接至来自单个微粒的片段。

所述方法可以是确定性的,即条码序列组可用于鉴定来自单个微粒的序列读取,或者概率性的,即条码序列组可用于鉴定可能来自单个微粒的序列读取。

所述方法可包括制备用于测序的第一和第二样品,其中每个样品包含至少一个源自血液之微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中条码序列各自包含样品标识符区域(sample identifier region),并且其中所述方法包括:(i)对每个样品进行步骤(a),其中附接至来自第一样品的靶核酸片段的条码序列与附接至来自第二样品的靶核酸片段的条码序列具有不同的样品标识符区域;(ii)对每个样品进行步骤(b),其中每个相联系序列读取包含样品标识符区域的序列;以及(iii)通过其样品标识符区域确定得到每个相联系序列读取的样品。

在所述方法中,在附接条码序列和/或偶联序列的步骤之前、期间和/或之后,所述方法可包括使微粒中的基因组DNA片段交联的步骤。

在所述方法中,在附接条码序列和/或偶联序列的步骤之前、期间和/或之后,和/或任选地在使微粒中的基因组DNA片段交联的步骤之后,所述方法可包括使微粒透化的步骤。在转移步骤之前和任选地在交联步骤之后,所述方法包括使微粒透化。

条码序列可包含在条码化寡核苷酸的溶液中的条码化寡核苷酸内;这种条码化寡核苷酸可以是单链、双链、或具有一个或更多个双链区域的单链。条码化寡核苷酸可在单链或双链连接反应中与靶核酸片段连接。条码化寡核苷酸可包含能够与靶核酸片段连接的单链5’或3’区域。每个条码化寡核苷酸可在单链连接反应中与靶核酸片段连接。或者,条码化寡核苷酸可包含能够与靶核酸片段连接的平端、凹端的或突出端的5’或3’区域。每个条码化寡核苷酸可在双链连接反应中与靶核酸的片段连接。

在某些方法中,靶核酸片段的末端可在平端化反应中转化为平端双链末端,并且条码化寡核苷酸可包含平端双链末端。每个条码化寡核苷酸可在平端连接反应中与靶核酸片段连接。在某些方法中,靶核酸片段的末端可在平端化反应中将其末端转化为平端双链末端,并随后将其末端转化为具有单个3’腺苷突出端的形式,并且其中所述条码化寡核苷酸包含具有单个3’胸腺嘧啶突出端的双链末端,其能够与靶核酸片段的单个3’腺苷突出端退火。每个条码化寡核苷酸可在双链A/T连接反应中与靶核酸片段连接。

在某些方法中,条码化寡核苷酸在其3’或5’端包含能够与靶核酸和/或偶联序列中的靶区域退火的靶区域,并且可通过使条码化寡核苷酸与所述靶核酸和/或偶联序列退火并且任选地将条码化寡核苷酸延伸和/或连接至核酸靶和/或偶联序列来将条码序列附接至靶核酸。

在某些方法中,在附接条码化寡核苷酸之前,偶联序列可附接至基因组DNA片段。

在附接步骤之前,所述方法可包括将核酸样品分配到至少两个不同反应体积中的步骤。

3.使用多聚体条码化试剂通过条码化相联系

本发明提供了制备用于测序之样品的方法,其中所述样品包含源自血液之微粒,并且其中所述微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括以下步骤:(a)使样品与包含多聚体条码化试剂的文库接触,其中多聚体条码化试剂包含联系在一起的第一和第二条码区域,其中每个条码区域包含核酸序列;以及(b)将条码序列附接至微粒的第一和第二靶核酸片段中的每一个以产生微粒的第一和第二条码化靶核酸分子,其中第一条码化靶核酸分子包含第一条码区域的核酸序列并且第二条码化靶核酸分子包含第二条码区域的核酸序列。

本发明提供了制备用于测序之样品的方法,其中所述样品包含源自血液之微粒,并且其中所述微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括以下步骤:(a)使样品与多聚体条码化试剂接触,其中多聚体条码化试剂包含联系在一起的第一和第二条码化寡核苷酸,并且其中条码化寡核苷酸各自包含条码区域;以及(b)使第一和第二条码化寡核苷酸与微粒的第一和第二靶核酸片段退火或连接,以产生第一和第二条码化靶核酸分子。

本发明提供了制备用于测序之样品的方法,其中所述样品包含源自血液的第一和第二微粒,并且其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括以下步骤:(a)使样品与包含至少两个多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含联系在一起的第一和第二条码区域,其中每个条码区域包含核酸序列,并且其中第一多聚体条码化试剂的第一和第二条码区域不同于文库的第二多聚体条码化试剂的第一和第二条码区域;以及(b)将条码序列附接至第一微粒的第一和第二靶核酸片段中的每一个,以产生第一微粒的第一和第二条码化靶核酸分子,其中第一条码化靶核酸分子包含第一多聚体条码化试剂的第一条码区域的核酸序列并且第二条码化靶核酸分子包含第一多聚体条码化试剂的第二条码区域的核酸序列,以及将形码序列附接至第二微粒的第一和第二靶核酸片段中的每一个,以产生第二微粒的第一和第二条码化靶核酸分子,其中第一条码化靶核酸分子包含第二多聚体条码化试剂的第一条码区域的核酸序列并且第二条码化靶核酸分子包含第二多聚体条码化试剂的第二条码区域的核酸序列。

本发明提供了制备用于测序之样品的方法,其中所述样品包含源自血液的第一和第二微粒,并且其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括以下步骤:(a)使样品与包含至少两个多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含联系在一起的第一和第二条码化寡核苷酸,其中条码化寡核苷酸各自包含条码区域,并且其中文库的第一多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库的第二多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域;以及(b)使第一多聚体条码化试剂的第一和第二条码化寡核苷酸与第一微粒的第一和第二靶核酸片段退火或连接以产生第一和第二条码化靶核酸分子,以及使第二多聚体条码化试剂的第一和第二条码化寡核苷酸与第二微粒的第一和第二靶核酸片段退火或连接以产生第一和第二条码化靶核酸分子。

条码化寡核苷酸可在单链或双链连接反应中与靶核酸片段连接。

在所述方法中,条码化寡核苷酸可包含能够与靶核酸片段连接的单链5’或3’区域。每个条码化寡核苷酸可在单链连接反应中与靶核酸的片段连接。

在所述方法中,条码化寡核苷酸可包含能够与靶核酸片段连接的平端、凹端或突出端5’或3’区域。每个条码化寡核苷酸可在双链连接反应中与靶核酸的片段连接。

在所述方法中,靶核酸片段的末端可在平端化反应中转化为平端双链末端,并且条码化寡核苷酸可包含平端双链末端。每个条码化寡核苷酸可在平端连接反应中与靶核酸片段连接。

在所述方法中,靶核酸片段的末端可在平端化反应中将其末端转化为平端双链末端,并随后将其末端转化为具有单个3’腺苷突出端的形式,并且其中条码化寡核苷酸包含具有单个3’胸腺嘧啶突出端的双链末端,其能够与靶核酸片段的单个3’腺苷突出端退火。每个条码化寡核苷酸可在双链A/T连接反应中与靶核酸的片段连接。

在所述方法中,靶核酸片段的末端可与限制酶接触,其中限制酶在限制性位点处消化每个片段以在这些限制性位点处产生连接接界(ligation junction),并且其中条码化寡核苷酸包含与这些连接接界相容的末端。每个条码化寡核苷酸可在双链连接反应中在所述连接接界处与靶核酸片段连接。任选地,所述限制酶可以是EcoRI、HindIII或BglII。

在所述方法中,在使第一和第二条码化寡核苷酸与第一和第二靶核酸片段退火或连接的步骤之前,所述方法可包括将偶联序列附接至每个靶核酸片段,其中随后使第一和第二条码化寡核苷酸与第一和第二靶核酸片段的偶联序列退火或连接。

在所述方法中,步骤(b)可包括:(i)使第一多聚体条码化试剂的第一和第二条码化寡核苷酸与第一微粒的第一和第二靶核酸片段退火,以及使第二多聚体条码化试剂的第一和第二条码化寡核苷酸与第二微粒的第一和第二靶核酸片段退火;以及

(ii)使第一多聚体条码化试剂的第一和第二条码化寡核苷酸延伸以产生第一和第二不同的条码化靶核酸分子,以及使第二多聚体条码化试剂的第一和第二条码化寡核苷酸延伸以产生第一和第二不同的条码化靶核酸分子,其中每个条码化靶核酸分子包含至少一个由靶核酸片段作为模板合成的核苷酸。

所述方法可包括:(a)使样品与包含至少两个多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含联系在一起的第一和第二条码化寡核苷酸,其中条码化寡核苷酸各自以5’至3’方向包含靶区域和条码区域,其中文库的第一多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库的第二多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域,并且其中样品还与用于每个多聚体条码化试剂的第一和第二靶引物接触;以及(b)对每个微粒进行以下步骤(i)使第一条码化寡核苷酸的靶区域与微粒的第一靶核酸(例如基因组DNA)片段的第一亚序列退火,以及使第二条码化寡核苷酸的靶区域与微粒的第二靶核酸(例如基因组DNA)片段的第一亚序列退火,(ii)使第一靶引物与微粒的第一靶核酸片段的第二亚序列退火,其中第二亚序列在第一亚序列的3’,以及使第二靶引物与微粒的第二靶核酸片段的第二亚序列退火,其中第二亚序列在第一亚序列的3’,(iii)使用微粒的第一靶核酸片段作为模板使第一靶引物延伸直至其到达第一亚序列,以产生第一经延伸靶引物,以及使用微粒的第二靶核酸片段使第二靶引物延伸直至其到达第一亚序列,以产生第二经延伸靶引物,以及(iv)将第一经延伸靶引物的3’端连接至第一条码化寡核苷酸的5’端以产生第一条码化靶核酸分子,以及将第二经延伸靶引物的3’端连接至第二条码化寡核苷酸的5’端以产生第二条码化靶核酸分子,其中第一和第二条码化靶核酸分子不同,并且各自包含至少一个由靶核酸作为模板合成的核苷酸。

多聚体条码化试剂可各自包含:(i)联系在一起的第一和第二杂交分子,其中每个杂交分子包含含有杂交区域的核酸序列;以及(ii)第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸与第一杂交分子的杂交区域退火,并且其中第二条码化寡核苷酸与第二杂交分子的杂交区域退火。

多聚体条码化试剂可各自包含:(i)联系在一起的第一和第二条码分子,其中每个条码分子包含含有条码区域的核酸序列;以及(ii)第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域退火的条码区域,并且其中第二条码化寡核苷酸包含与第二条码分子的条码区域退火的条码区域。

在所述方法中,在步骤(b)之前,所述方法可包括将第一多聚体条码化试剂的第一和第二条码化寡核苷酸转移到样品的第一微粒中并且将第二多聚体条码化试剂的第一和第二条码化寡核苷酸转移到样品的第二微粒中的步骤。任选地,在步骤(b)之前,所述方法还包括将靶引物转移到第一和第二微粒中的步骤。任选地,在步骤(b)之前,所述方法还包括将第一多聚体条码化试剂转移到第一微粒中并且将第二多聚体条码化试剂转移到第二微粒中的步骤。

本发明提供了制备用于测序之样品的方法,其中所述样品包含至少两个源自血液之微粒,其中每个微粒包含至少两个靶核酸片段,并且其中所述方法包括以下步骤:(a)使样品与包含第一多聚体条码化试剂和第二多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含联系在一起的第一和第二条码分子,其中每个条码分子包含任选地以5’至3’方向包含条码区域和衔接子区域的核酸序列;(b)将偶联序列附接至第一和第二微粒的第一和第二靶核酸(例如基因组DNA)片段;(c)对于每个多聚体条码化试剂,使第一片段的偶联序列与第一条码分子的衔接子区域退火,并且使第二片段的偶联序列与第二条码分子的衔接子区域退火;以及(d)对于每个多聚体条码化试剂,将条码序列附接至微粒的至少两个靶核酸片段中的每一个以产生第一和第二不同的条码化靶核酸分子,其中第一条码化靶核酸分子包含第一条码分子的条码区域的核酸序列,并且第二条码化靶核酸分子包含第二条码分子的条码区域的核酸序列。

在所述方法中,每个条码分子可包含以5’至3’方向包含条码区域和衔接子区域的核酸序列,并且其中步骤(d)包括对于每个多聚体条码化试剂,使用第一条码分子的条码区域作为模板使第一片段的偶联序列延伸以产生第一条码化靶核酸分子,并且使用第二条码分子的条码区域作为模板使第二片段的偶联序列延伸以产生第二条码化靶核酸分子,其中第一条码化靶核酸分子包含与第一条码分子的条码区域互补的序列,并且第二条码化靶核酸分子包含与第二条码分子的条码区域互补的序列。

在所述方法中,每个条码分子可包含以5’至3’方向包含衔接子区域和条码区域的核酸序列,其中步骤(d)包括,对于每个多聚体条码化试剂,(i)使用第一条码分子的条码区域作为模板使第一延伸引物退火并延伸以产生第一条码化寡核苷酸,并且使用第二条码分子的条码区域作为模板使第二延伸引物退火并延伸以产生第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域互补的序列,并且第二条码化寡核苷酸包含与第二条码分子的条码区域互补的序列,(ii)将第一条码化寡核苷酸的3’端连接至第一片段的偶联序列的5’端以产生第一条码化靶核酸分子,并且将第二条码化寡核苷酸的3’端连接至第二片段的偶联序列的5’端以产生第二条码化靶核酸分子。

在所述方法中,每个条码分子可包含以5’至3’方向包含衔接子区域、条码区域和引发区域的核酸序列,其中步骤(d)包括,对于每个多聚体条码化试剂,(i)使第一延伸引物与第一条码分子的引发区域退火并使用第一条码分子的条码区域作为模板使第一延伸引物延伸以产生第一条码化寡核苷酸,并且使第二延伸引物与第二条码分子的引发区域退火并使用第二条码分子的条码区域作为模板使第二延伸引物延伸以产生第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域互补的序列并且第二条码化寡核苷酸包含与第二条码分子的条码区域互补的序列,以及(ii)将第一条码化寡核苷酸的3’端连接至第一片段的偶联序列的5’端以产生第一条码化靶核酸分子,并且将第二条码化寡核苷酸的3’端连接至第二片段的偶联序列的5’端以产生第二条码化靶核酸分子。

在步骤(b)或步骤(c)之前,所述方法可包括将第一多聚体条码化试剂、偶联序列和/或延伸引物转移到第一微粒中并且将第二多聚体条码化试剂、偶联序列和/或将引物延伸到第二微粒中的步骤。

所述方法可包括:(a)使样品与包含第一和第二多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含联系在一起的第一和第二条码分子,其中每个条码分子包含以5’至3’方向包含条码区域和衔接子区域的核酸序列,并且其中样品还与每个多聚体条码化试剂的第一和第二衔接子寡核苷酸接触,其中第一和第二衔接子寡核苷酸各自包含衔接子区域,以及(b)使第一多聚体条码化试剂的第一和第二衔接子寡核苷酸与第一微粒的第一和第二靶核酸片段连接,并且使第二多聚体条码化试剂的第一和第二衔接子寡核苷酸与第二微粒的第一和第二靶核酸片段连接;(c)对于每个多聚体条码化试剂,使第一衔接子寡核苷酸的衔接子区域与第一条码分子的衔接子区域退火,并且使第二衔接子寡核苷酸的衔接子区域与第二条码分子的衔接子区域退火;以及(d)对于每个多聚体条码化试剂,使用第一条码分子的条码区域作为模板使第一衔接子寡核苷酸延伸以产生第一条码化靶核酸分子,并且使用第二条码分子的条码区域作为模板使第二衔接子寡核苷酸延伸以产生第二条码化靶核酸分子,其中第一条码化靶核酸分子包含与第一条码分子的条码区域互补的序列,并且第二条码化靶核酸分子包含与第二条码分子的条码区域互补的序列。

所述方法可包括以下步骤:(a)使样品与包含第一和第二多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含:(i)联系在一起的第一和第二条码分子,其中每个条码分子包含任选地5’至3’方向包含衔接子区域和条码区域的核酸序列,以及(ii)第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域退火的条码区域,其中第二条码化寡核苷酸包含与第二条码分子的条码区域退火的条码区域,并且其中文库的第一多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库的第二多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域;其中样品还与每个多聚体条码化试剂的第一和第二衔接子寡核苷酸接触,其中第一和第二衔接子寡核苷酸各自包含衔接子区域;(b)使第一多聚体条码化试剂的第一和第二衔接子寡核苷酸与第一微粒的第一和第二靶核酸(例如基因组DNA)片段退火或连接,并且使第二多聚体条码化试剂的第一和第二衔接子寡核苷酸与第二微粒的第一和第二靶核酸(例如基因组DNA)片段退火或连接,(c)对于每个多聚体条码化试剂,使第一衔接子寡核苷酸的衔接子区域与第一条码分子的衔接子区域退火,并且使第二衔接子寡核苷酸的衔接子区域与第二条码分子的衔接子区域退火;以及(d)对于每个多聚体条码化试剂,将第一条码化寡核苷酸的3’端连接至第一衔接子寡核苷酸的5’端以产生第一条码化靶核酸分子,并且将第二条码化寡核苷酸的3’端连接至第二衔接子寡核苷酸的5’端以产生第二条码化靶核酸分子。

在所述方法中,步骤(b)可包括使第一多聚体条码化试剂的第一和第二衔接子寡核苷酸与第一微粒的第一和第二靶核酸(例如基因组DNA)片段退火,并且使第二多聚体条码化试剂的第一和第二衔接子寡核苷酸与第二微粒的第一和第二靶核酸(例如基因组DNA)片段退火,并且其中:(i)对于每个多聚体条码化试剂,步骤(d)包括将第一条码化寡核苷酸的3’端连接至第一衔接子寡核苷酸的5’端以产生第一条码化-衔接子寡核苷酸并且将第二条码化寡核苷酸的3’端连接至第二衔接子寡核苷酸的5’端以产生第二条码化-衔接子寡核苷酸,并且使第一和第二条码化-衔接子寡核苷酸延伸以产生第一和第二不同的条码化靶核酸分子,其各自包含至少一个由靶核酸片段作为模板合成的核苷酸,或者(ii)对于每个多聚体条码化试剂,在步骤(d)之前,所述方法包括使第一和第二衔接子寡核苷酸延伸以产生第一和第二不同的靶核酸分子,其各自包含至少一个由靶核酸片段作为模板合成的核苷酸。

在所述方法中,在使第一和第二衔接子寡核苷酸与第一和第二靶核酸片段退火或连接的步骤之前,所述方法可包括将偶联序列附接至每个靶核酸片段,其中第一和第二衔接子寡核苷酸随后与第一和第二靶核酸片段的偶联序列退火或连接。

在所述方法中,在步骤(b)或步骤(c)之前,所述方法可包括将第一多聚体条码化试剂的第一和第二衔接子寡核苷酸转移到第一微粒中并且将第二多聚体条码化试剂的第一和第二衔接子寡核苷酸转移到第二微粒中的步骤,任选地其中所述步骤还包括将第一多聚体条码化试剂转移到第一微粒中并将第二多聚体条码化试剂转移到第二微粒中。

在本文中所述的任何方法中,所述方法可包括使微粒中的靶核酸(例如基因组DNA)片段交联的步骤。该步骤可用化学交联剂例如甲醛、多聚甲醛、戊二醛、二琥珀酰亚胺基戊二酸酯、乙二醇双(琥珀酰亚胺基琥珀酸酯)、同双官能交联剂或异双官能交联剂进行。该步骤在任何透化步骤之前、任何透化步骤之后、任何分配步骤之前、任何附接偶联序列的步骤之前、任何附接偶联序列的步骤之后、任何附接条码序列的步骤之前(例如步骤(b)之前)、任何附接条码序列的步骤之后(例如步骤(d)之后)、与附接条码序列同时、或其任意组合下进行。例如,在使包含微粒的样品与两个或更多个多聚体条码化试剂的文库接触之前,可使包含微粒的样品交联。任何这样的交联步骤可进一步通过淬灭步骤结束,例如通过与甘氨酸溶液混合来淬灭甲醛交联步骤。可在方案的特定后续步骤之前,例如在引物延伸、PCR或核酸纯化步骤之前,除去任何这样的交联。

在所述方法中,在步骤(b)、(c)和/或(d)(即附接条码序列的步骤)期间,微粒和/或靶核酸片段可包含在凝胶或水凝胶内,例如琼脂糖凝胶、聚丙烯酰胺凝胶或任何共价交联的凝胶,例如共价交联的聚(乙二醇)凝胶,或包含硫醇官能化的聚(乙二醇)和丙烯酸酯官能化的聚(乙二醇)的混合物的共价交联的凝胶。

在本文中所述的任何方法中,任选地在交联步骤之后,所述方法可包括使微粒透化。可通过孵育步骤使微粒透化。孵育步骤可在化学表面活性剂的存在下进行。任选地,该透化步骤可在附接条码序列之前(例如在步骤(b)之前)、在附接条码序列之后(例如在步骤(d)之后)、或在附接条码序列之前和之后二者下发生。孵育步骤可在至少20摄氏度、至少30摄氏度、至少37摄氏度、至少45摄氏度、至少50摄氏度、至少60摄氏度、至少65摄氏度、至少70摄氏度、或至少80摄氏度的温度下进行。孵育步骤可以是至少1秒长、至少5秒长、至少10秒长、至少30秒长、至少1分钟长、至少5分钟长、至少10分钟长、至少30分钟长、至少60分钟长、或至少3小时长。该步骤可在任何交联步骤之后、在任何透化步骤之前、在任何透化步骤之后、在任何分配步骤之前、在任何附接偶联序列的步骤之前、在任何附接偶联序列的步骤之后、在任何附接条码序列的步骤之前(例如,在步骤(b)之前)、在任何附接条码序列的步骤之后(例如在步骤(d)之后)、在附接条码序列的同时、或其任意组合下进行。例如,在使包含微粒的样品与两个或更多个多聚体条码化试剂的文库接触之前,可使包含微粒的样品交联,并随后在化学表面活性剂的存在下透化。

在本文中所述的任何方法中,可用蛋白酶消化步骤(例如用蛋白酶K酶消化)消化微粒的样品。任选地,该蛋白酶消化步骤可以是至少10秒长,至少30秒长,至少60秒长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长,至少3小时长,至少6小时长,至少12小时长,或至少24小时长。该步骤可在任何交联步骤之后、在任何透化步骤之前、在任何透化步骤之后、在任何分配步骤之前、在任何附接偶联序列的步骤之前、在任何附接偶联序列的步骤之后、在任何附接条码序列的步骤之前(例如,在步骤(b)之前)、在任何附接条码序列的步骤之后(例如在步骤(d)之后)、在附接条码序列的同时、或其任意组合下进行。例如,在使包含微粒的样品与两个或更多个多聚体条码化试剂的文库接触之前,可使包含微粒的样品交联,并随后进行用蛋白酶K消化步骤部分地消化。

在所述方法中,条码化寡核苷酸、衔接子寡核苷酸和/或多聚体条码化试剂可通过与转染试剂或脂质载体(例如脂质体或胶束)复合而转移到微粒中。

转染试剂可以是脂质转染试剂,例如阳离子脂质转染试剂。任选地,所述阳离子脂质转染试剂包含至少两个烷基链。任选地,所述阳离子脂质转染试剂可以是市售的阳离子脂质转染试剂,例如Lipofectamine。

在所述方法中,第一多聚体条码化试剂的条码化寡核苷酸可包含在第一脂质载体内,并且其中第二多聚体条码化试剂的条码化寡核苷酸可包含在第二脂质载体内。脂质载体可以是脂质体或胶束。

在所述方法中,步骤(a)和(b)以及任选的(c)和(d)可在单个反应体积中的至少两个微粒上进行。

在步骤(b)之前,所述方法还可包括将核酸样品分配到至少两个不同反应体积中的步骤。

本发明提供了分析包含源自血液之微粒的样品的方法,其中所述微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括:(a)制备用于测序的样品,其包括(i)使样品与包含联系在一起的第一和第二条码区域的多聚体条码化试剂接触,其中每个条码区域包含核酸序列,以及(ii)将条码序列附接至微粒的至少两个靶核酸片段中的每一个以产生第一和第二不同的条码化靶核酸分子,其中第一条码化靶核酸分子包含第一条码区域的核酸序列并且第二条码化靶核酸分子包含第二条码区域的核酸序列;以及(b)对每个条码化靶核酸分子进行测序以产生至少两个相联系序列读取。

在所述方法中,在将条码序列附接至微粒的至少两个基因组DNA的片段中的每一个的步骤之前,所述方法可包括将偶联序列附接至微粒的每个基因组DNA片段,其中条码序列随后被附接至微粒的至少两个基因组DNA片段中的每一个的偶联序列,以产生第一和第二不同的条码化靶核酸分子。

所述方法还可包括,任选地在步骤(a)(i)或(a)(ii)之前,将多聚体条码化试剂的第一和第二条码区域转移到微粒中的步骤

在转移步骤之前,本文中所述的任何方法还可包括使微粒中基因组DNA片段交联的步骤。交联步骤可用化学交联剂例如甲醛、多聚甲醛、戊二醛、二琥珀酰亚胺基戊二酸酯、乙二醇双(琥珀酰亚胺基琥珀酸酯)、同双官能交联剂或异双官能交联剂进行。

在步骤(a)期间,微粒和/或靶核酸片段可包含在凝胶或水凝胶内,例如琼脂糖凝胶、聚丙烯酰胺凝胶或任何共价交联的凝胶,例如共价交联的聚(乙二醇)凝胶,或包含硫醇官能化的聚(乙二醇)和丙烯酸酯官能化的聚(乙二醇)的混合物的共价交联的凝胶。

在转移步骤之前和任选地在交联步骤之后,所述方法还可包括使微粒透化的步骤。可通过孵育步骤使微粒透化。孵育步骤可在化学表面活性剂的存在下进行。任选地,该透化步骤可在附接条码序列之前(例如在步骤(a)(ii)之前)、在附接条码序列之后(例如在步骤(a)(ii)之后)、或在附接条码序列之前和之后二者下发生。孵育步骤可在至少20摄氏度、至少30摄氏度、至少37摄氏度、至少45摄氏度、至少50摄氏度、至少60摄氏度、至少65摄氏度、至少70摄氏度、或至少80摄氏度的温度下进行。孵育步骤可以是至少1秒长、至少5秒长、至少10秒长、至少30秒长、至少1分钟长、至少5分钟长、至少10分钟长、至少30分钟长、至少60分钟长、或至少3小时长。

可用蛋白酶消化步骤(例如用蛋白酶K酶消化)消化微粒样品。任选地,该蛋白酶消化步骤可以是至少10秒长,至少30秒长,至少60秒长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长,至少3小时长,至少6小时长,至少12小时长,或至少24小时长。该步骤可在透化之前、在透化之后、在附接条码序列之前(例如在步骤(a)(ii)之前)、在附接条码序列之后(例如在步骤(a)(ii)之后)、在附接条码序列的同时、或其任意组合下进行。

多聚体条码化试剂的第一和第二条码区域可通过与转染试剂或脂质载体(例如脂质体或胶束)复合而转移到微粒中。

转染试剂可以是脂质转染试剂,例如阳离子脂质转染试剂。任选地,所述阳离子脂质转染试剂包含至少两个烷基链。任选地,所述阳离子脂质转染试剂可以是市售的阳离子脂质转染试剂,例如Lipofectamine。

所述方法的步骤(a)可通过本文中所述的制备用于测序之样品(或核酸样品)的任何方法来进行。

所述方法可包括制备用于测序的第一和第二样品,其中每个样品包含至少一个源自血液之微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中条码序列各自包含样品标识符区域,并且其中所述方法包括:(i)对每个样品进行步骤(a),其中附接至来自第一样品的核酸片段的条码序列与附接至来自第二样品的靶核酸片段的条码序列具有不同的样品标识符区域;(ii)对每个样品进行步骤(b),其中每个序列读取包含样品标识区的序列;以及(iii)通过其样品标识符区域确定得到每个序列读取的样品。

所述方法可包括分析包含至少两个源自血液之微粒的样品,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括以下步骤:(a)制备用于测序的样品,其包括:(i)使样品与包含用于两个或更多个微粒中的每一个的多聚体条码化试剂的多聚体条码化试剂文库接触,其中每个多聚体条码化试剂如本文中所限定;以及(ii)将条码序列附接至每个微粒的至少两个靶核酸片段中的每一个,其中从所述至少两个微粒中的每一个产生至少两个条码化靶核酸分子,并且其中从单个微粒产生至少两个条码化靶核酸分子各自包含来自同一多聚体条码化试剂的条码区域的核酸序列;以及(b)对每个条码化靶核酸分子进行测序,以产生每个微粒的至少两个相联系序列读取。

条码序列可在单个反应体积中附接至微粒的基因组DNA片段,即所述方法的步骤(a)可在单个反应体积中进行。

在附接步骤(步骤(a)(ii))之前,所述方法还可包括将样品分配到至少两个不同反应体积中的步骤。

在任何方法中,在附接条码序列的步骤之前,多聚体条码化试剂可分离、分级(fractionate)或溶解成两个或更多个组成部分,例如释放条码化寡核苷酸。

在任何方法中,多聚体条码化试剂的浓度可小于1.0飞摩(femtomolar)、小于10飞摩、小于100飞摩、小于1.0皮摩、小于10皮摩、小于100皮摩、小于1纳摩、小于10纳摩、小于100纳摩、或小于1.0微摩。

4.通过将片段联系在一起来相联系

本发明提供了分析包含源自血液之微粒的样品的方法,其中所述微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括:(a)制备用于测序的样品,其包括将微粒的至少两个靶核酸片段联系在一起,以产生包含至少两个靶核酸片段的序列的单个核酸分子;以及(b)对所述单个核酸分子中的每个片段进行测序,以产生至少两个相联系序列读取。

所述至少两个靶核酸(例如基因组DNA)片段在所述单个核酸分子中可以是连续的。

所述至少两个相联系序列读取可在单个原始序列读取内提供。

所述方法可包括,在联系步骤之前,将偶联序列附接至至少一个靶核酸(例如基因组DNA)片段,并随后通过偶联序列将至少两个靶核酸片段联系在一起。

靶核酸(例如基因组DNA)片段可通过固体支持物联系在一起,其中两个或多个片段联系至相同的固体支持物(直接或间接地,例如通过偶联序列)。任选地,固体支持物是珠,例如Styrofoam珠、超顺磁珠或琼脂糖珠。

靶核酸(例如基因组DNA)片段可通过连接反应(例如双链连接反应或单链连接反应)联系在一起。

靶核酸片段的末端可在平端化反应中转化为平端可连接的双链末端,并且所述方法可包括通过平端连接反应将两个或更多个片段彼此连接。

靶核酸片段的末端可与限制酶接触,其中限制酶在限制性位点处消化片段以在这些限制性位点产生连接接界,并且其中所述方法可包括通过连接接界处的连接反应将两个或更多个片段彼此连接。任何靶核酸可与限制酶接触,其中限制酶在限制性位点处消化片段以在这些限制性位点产生连接接界,并且其中所述方法可包括通过连接接界处的连接反应将两个或更多个片段彼此连接。任选地,所述限制酶可以是EcoRI、HindIII或BglII。

在将片段联系在一起之前,可将偶联序列附接至两个或更多个靶核酸片段。任选地,将两个或更多个不同的偶联序列附接至靶核酸片段群。

偶联序列可在至少一端包含连接接界,并且其中第一偶联序列附接至第一靶核酸片段,并且其中第二偶联序列附接至第二靶核酸片段,并且其中两个偶联序列彼此连接,因而将两个靶核酸片段联系在一起。

偶联序列可包含在至少一个3’端的退火区,并且其中使第一偶联序列附接至第一靶核酸片段,并且其中使第二偶联序列附接至第二靶核酸片段,并且其中两个偶联序列沿着长度为至少一个核苷酸的区段彼此互补并退火,并且其中DNA聚合酶用于延伸第一偶联序列的至少一个3’端至少一个核苷酸进入到第二靶核酸片段的序列中,因而将两个靶核酸(例如基因组DNA)片段联系在一起。

在将至少两个片段联系在一起之前,所述方法还可包括使微粒交联的步骤,例如利用化学交联剂例如甲醛、多聚甲醛、戊二醛、二琥珀酰亚胺基戊二酸酯、乙二醇双(琥珀酰亚胺基琥珀酸酯)、同双官能交联剂或异双官能交联剂进行。

在将至少两个片段联系在一起之前,所述方法还可包括将微粒分配到两个或更多个分区中。

所述方法还可包括在孵育步骤期间使微粒透化。该步骤可在分配(如果进行的话)之前、在分配(如果进行的话)之后、在将片段联系在一起之前和/或在将片段联系在一起之后进行。

孵育步骤可在化学表面活性剂的存在下进行,例如Triton X-100(C14H22O(C2H4O)n(n=9-10))、NP-40、Tween 20、Tween 80、皂苷、毛地黄皂苷(Digitonin)或十二烷基硫酸钠。

孵育步骤在至少20摄氏度、至少30摄氏度、至少37摄氏度、至少45摄氏度、至少50摄氏度、至少60摄氏度、至少65摄氏度、至少70摄氏度、至少80摄氏度、至少90摄氏度、或至少95摄氏度的温度下进行。

孵育步骤可以是至少1秒长、至少5秒长、至少10秒长、至少30秒长、至少1分钟长、至少5分钟长、至少10分钟长、至少30分钟长、至少60分钟长、或至少3小时长。

所述方法可包括用蛋白酶消化步骤(例如用蛋白酶K酶消化)消化微粒的样品。任选地,该蛋白酶消化步骤可以是至少10秒长,至少30秒长,至少60秒长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长,至少3小时长,至少6小时长,至少12小时长,或至少24小时长。该步骤可在分配(如果进行的话)之前、在分配(如果进行的话)之后、在将片段联系在一起之前和/或在将片段联系在一起之后进行。

所述方法可包括扩增(原始)靶核酸片段,并随后将两个或更多个所得核酸分子联系在一起。

将片段联系在一起的步骤可产生多联体化(concatamerised)的核酸分子,其包含至少3个、至少5个、至少10个、至少50个、至少100个、至少500个、或至少1000个已经在单个连续的核酸分子中彼此附接的核酸分子。

该方法可用于为至少3个微粒、至少5个微粒、至少10个微粒、至少50个微粒、至少100个微粒、至少1000个微粒、至少10,000个微粒、至少100,000个微粒、至少1,000,000个微粒、至少10,000,000个微粒、至少100,000,000个微粒、至少1,000,000,000个微粒、至少10,000,000,000个微粒、或至少100,000,000,000个微粒产生相联系序列读取。

样品可包含至少两个源自血液之微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括进行步骤(a)以产生每个微粒的包含至少两个靶核酸片段的序列的单个核酸分子,以及进行步骤(b)以产生每个微粒的相联系序列读取。

在将至少两个靶核酸(例如基因组DNA)片段联系在一起的步骤之前、期间和/或之后,所述方法可包括使微粒中的靶核酸片段交联的步骤。交联步骤可用化学交联剂例如甲醛、多聚甲醛、戊二醛、二琥珀酰亚胺基戊二酸酯、乙二醇双(琥珀酰亚胺基琥珀酸酯)、同双官能交联剂或异双官能交联剂进行。

在将至少两个靶核酸(例如基因组DNA)片段联系在一起的步骤之前、期间和/或之后,和/或任选地在使微粒中的靶核酸片段交联的步骤之后,所述方法包括使微粒透化的步骤。

在步骤(a)之前,所述方法还可包括将核酸样品分配到至少两个不同反应体积中的步骤。

在将循环微粒的至少两个靶核酸片段联系在一起以产生包含至少两个靶核酸片段的序列的单个核酸分子的方法的一个实施方案中,使包含至少一个循环微粒的样品(例如,其中所述样品通过本文中公开的任何方法获得和/或纯化)在室温下在1%甲醛溶液中交联10分钟,并随后用甘氨酸淬灭甲醛交联步骤。通过离心步骤(例如在3000×G下5分钟)使微粒沉淀,并重悬在含有1.0%十二烷基硫酸钠(SDS)的1×NEBuffer 2(New EnglandBiolabs)中,并且在45摄氏度下孵育10分钟以使微粒透化。通过添加Triton X-100淬灭SDS,并将溶液与AluI(New England Biolabs)在37摄氏度下孵育过夜以产生平端可连接末端。通过添加SDS至终浓度为1.0%使酶失活,并且在65摄氏度下孵育15分钟。通过添加Triton X-100淬灭SDS,并将溶液在1×缓冲液中稀释至少10倍以用于T4 DNA连接酶,并且至DNA的总浓度为每微升至多1.0纳克DNA。将稀释的溶液与T4DNA连接酶在16摄氏度下孵育过夜,以将来自循环微粒的片段连接在一起。随后通过在65摄氏度下在蛋白酶K的溶液中孵育过夜来逆转交联并且使蛋白质组分降解。随后纯化连接的DNA(例如用Qiagen spin-column PCR Purification Kit和/或Ampure XP珠)。随后用Nextera体外转座方法(Illumina;按照制造商的方案)附接Illumina测序衔接子序列,进行适当数目的PCR循环以扩增连接的材料;并随后将经扩增和纯化的大小合适的DNA用Illumina测序仪(例如Illumina NextSeq 500或MiSeq)进行测序,每个为至少50个碱基的配对末端读取。将配对末端序列的每个末端独立地映射至参考人基因组以阐明相联系序列读取(例如,其中两个末端包含来自单个循环微粒的不同基因组DNA片段的序列的读取)。

将微粒的至少两个靶核酸片段联系在一起以产生包含至少两个靶核酸片段的序列的单个核酸分子的方法可具有多种独特的性质和特征,使其可期望成为用于将来自一个或更多个循环微粒的序列相联系的方法。在一个方面,这样的方法使得能够联系来自循环微粒的序列而无需复杂的仪器(例如,用于基于分区的方法的微流控)。此外,该方法(广泛地)能够在可包含大量循环微粒(例如数百、或数千或更多数目)的单个单独的反应中进行,并因此能够处理大量循环微粒而不需要多个反应,而这在其他方法中可能是必要的,例如在组合索引方法中。此外,由于该方法不是必然需要使用条码和/或多聚体条码化试剂,因此不受条码文库(和/或多聚体条码化试剂文库)的大小限制,以实现来自循环微粒的相联系序列的可用分子测量。

5.通过分配来相联系

所述方法可对包含已经分配到至少两个不同的反应体积(或分区(partition))的至少两个微粒的核酸样品进行。

在任何方法中,可将包含至少两个微粒的核酸样品分配到至少两个不同的反应体积(或分区)中。不同的反应体积(或分区)可由不同的反应容器(或不同的物理反应容器)提供。不同的反应体积(或分区)可由不同的水性微滴提供,例如,乳液内的不同水性微滴或固体支持物(例如载玻片)上的不同水性微滴。

例如,在将条码序列附接至微粒的靶核酸片段之前,可分配核酸样品。或者,在将微粒的至少两个靶核酸片段联系在一起之前,可分配核酸样品。

对于涉及分配步骤的任何方法,所述方法的在所述分配步骤之后的任何步骤(例如任何附接条码序列或附接偶联序列的步骤,或任何连接、退火、引物延伸或PCR的步骤)可在每个分区上独立地进行。可将试剂(例如寡核苷酸、酶和缓冲液)直接添加到每个分区。在其中分区包含乳液中的水性微滴的方法中,这样的添加步骤可通过融合乳液内的水性微滴的过程来进行,例如利用微流控微滴-合并管道并且并任选地使用机械或热混合步骤。

分区包含乳液内的不同水溶液微滴,并且其中乳液是油包水乳液,并且其中微滴通过物理摇动或涡旋步骤产生,或者其中微滴通过在微流控导管或接头内融合水溶液与油溶液产生。

对于其中分区包含乳液内的水性微滴的方法,可通过本领域已知的任何方法或工具产生这种油包水乳液。任选地,这可包括商业上可获得的微流控系统,例如可获自10×Genomics Inc的Chromium系统或其他系统,来自Raindance Technologies或Bio-Rad的数字微滴发生器,以及用于微流控产生和操作的基于组件的系统,例如Drop-Seq(Macosko etal.,2015,Cell 161,1202-1214)和inDrop(Klein et al.,2015,Cell 161,1187-1201)。

分区可包含凝胶或水凝胶内不同的物理上不重叠的空间体积,例如琼脂糖凝胶、聚丙烯酰胺凝胶或任何共价交联的凝胶,例如共价交联的聚(乙二醇)凝胶,或包含硫醇官能化的聚(乙二醇)和丙烯酸酯官能化的聚(乙二醇)的混合物的共价交联的凝胶。

微粒样品可分到总共至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个、至少100,000,000个、或至少1,000,000,000个分区中。优选地,微粒溶液分到总共至少1000个分区中。

可将微粒样品分到分区中,使得每个分区存在平均少于0.0001个微粒,少于0.001个微粒,少于0.01个微粒,少于0.1个微粒,少于1.0个微粒,少于10个微粒,少于100个微粒,少于1000个微粒,少于10,000个微粒,少于100,000个微粒,少于1,000,000个微粒,少于10,000,000个微粒,或少于100,000,000个微粒。优选地,每个分区存在平均小于1.0个微粒。

可将微粒的溶液分到分区中,使得每个分区存在平均少于1.0阿克(attogram)的DNA,少于10阿克的DNA,少于100阿克的DNA,少于1.0飞克的DNA,少于10飞克的DNA,少于100飞克的DNA,少于1.0皮克的DNA,少于10皮克的DNA,少于100皮克的DNA,或少于1.0纳克的DNA。优选地,每个分区存在少于10皮克的DNA。

分区的体积可小于100飞升(femtoliter),小于1.0皮升(picoliter),小于10皮升,小于100皮升,小于1.0纳升,小于10纳升,小于100纳升,小于1.0微升,小于10微升,小于100微升,或小于1.0毫升。

可在每个分区中提供条码序列。对于包含条码序列的两个或更多个分区中的每一个,其中包含的条码序列可包含同一条码序列的多个拷贝,或者包含来自同一条码序列组的不同条形码序列。

在将微粒分到两个或更多个分区后,可通过本文中所述的任何方法的孵育步骤使微粒透化。

可用蛋白酶消化步骤(例如用蛋白酶K酶消化)消化微粒的样品。任选地,该蛋白酶消化步骤可以是至少10秒长,至少30秒长,至少60秒长,至少5分钟长,至少10分钟长,至少30分钟长,至少60分钟长,至少3小时长,至少6小时长,至少12小时长,或至少24小时长。该步骤可在分配之前、分在分配之后、在附接条码序列之前、在附接条码序列之后和/或在附接条码序列的同时进行。

通过组合条码化方法来附接序列

附接条码序列的方法可包括组合条形化方法的至少两个步骤,其中执行第一条码化步骤,其中将微粒样品分配到两个或更多个分区中,其中每个分区包含不同的条码序列或不同的条码序列组,其随后被附接至来自包含在该分区内的微粒的靶核酸(例如基因组DNA)片段的序列,并且其中随后将至少两个分区的条码化核酸分子合并成第二样品混合物,并且其中随后将该第二样品混合物分配到两个或更多个新分区中,其中每个新分区包含不同的条码序列或不同的条码序列组,其随后被附接至来自包含在两个或更多新分区内的微粒的靶核酸(例如基因组DNA)片段的序列。

任选地,组合条码化方法可包括第一条码化步骤,其中:A)将包含至少第一和第二循环微粒的第一样品混合物分配到至少第一和第二原始分区(例如,其中来自样品的至少第一循环微粒分配到第一原始分区,并且其中来自样品的至少第二循环微粒分配到第二原始分区中),其中第一原始分区包含不同于第二原始分区内包含的条码序列(或条码序列组)的条码序列(或条码序列组),并且其中将第一原始分区内包含的条码序列(或来自条码序列组的条码序列)附接至第一循环微粒的至少第一和第二靶核酸片段,并且其中将第二原始分区内包含的条码序列(或来自条码序列组的条码序列)附接至第二循环微粒的至少第一和第二靶核酸片段;并且其中将第一原始分区内包含的至少一个循环微粒与第二原始分区内包含的至少一个循环微粒合并以产生第二样品混合物,以及第二条码化步骤,其中:B)将第二样品混合物中包含的微粒分配到至少第一和第二新分区中(例如,其中来自第二样品混合物的至少第一循环微粒分配到第一新分区中,并且其中来自第二样品混合物的至少第二循环微粒分配到第二新分区中),其中第一新分区包含不同于第二新分区内包含的条码序列(或条码序列组)的条码序列(或条码序列组),并且将第一新分区内包含的条码序列(或来自条码序列组的条码序列)附接至第一循环微粒的至少第一和第二靶核酸片段,并且其中将第二新分区内包含的条码序列(或来自条码序列组的条码序列)附接至第二循环微粒的至少第一和第二靶核酸片段。

任选地,组合条码化方法可包括第一条码化步骤,其中:A)将包含至少第一和第二循环微粒的第一样品混合物分配到至少第一和第二原始分区(例如,其中来自样品的至少第一循环微粒分配到第一原始分区中,并且其中来自样品的至少第二循环微粒分配到第二原始分区中),其中第一原始分区包含包含在条码化寡核苷酸内的条码序列(或条码序列组),其不同于第二原始分区内包含的包含在条码化寡核苷酸内的条码序列(或条码序列组),并且其中将第一原始分区内包含的条码化寡核苷酸附接至第一循环微粒的至少第一和第二靶核酸片段,并且其中将第二原始分区内包含的条码化寡核苷酸附接至第二循环微粒的至少第一和第二靶核酸片段;并且其中将第一原始分区内包含的至少一个循环微粒与第二原始分区内包含的至少一个循环微粒合并以产生第二样品混合物,以及第二条码化步骤,其中:B)将第二样品混合物中包含的微粒分配到至少第一和第二新分区(例如,其中来自第二样品混合物的至少第一循环微粒分配到第一新分区中,并且其中来自第二样品混合物的至少第二循环微粒分配到第二新分区中),其中第一新分区包含包含在条码化寡核苷酸内的条码序列(或条码序列组),其不同于第二新分区中包含的包含在条码化寡核苷酸内的条码序列(或条码序列组),并且将第一新分区内包含的条码化寡核苷酸附接至第一循环微粒的至少第一和第二靶核酸片段,并且其中将第二新分区内包含的条码化寡核苷酸附接至第二循环微粒的至少第一和第二靶核酸片段。

任选地,组合条码化方法可包括第一条码化步骤,其中:A)将包含至少第一和第二循环微粒的第一样品混合物分配到至少第一和第二原始分区中(例如,其中来自样品的至少第一循环微粒分配到第一原始分区中,并且其中来自样品的至少第二循环微粒分配到第二原始分区中),其中第一原始分区包含包含在条码化寡核苷酸内的条码序列(或条码序列组),其不同于第二原始分区包含内的包含在条码化寡核苷酸内的条码序列(或条码序列组),并且其中将第一原始分区内包含的条码化寡核苷酸连接至第一循环微粒的至少第一和第二靶核酸片段,并且其中将第二原始分区内包含的条码化寡核苷酸连接至第二循环微粒的至少第一和第二靶核酸片段;并且其中将第一原始分区内包含的至少一个循环微粒与第二原始分区内包含的至少一个循环微粒合并以产生第二样品混合物,以及第二条码化步骤,其中:B)将第二样品混合物中包含的微粒分配到至少第一和第二新分区中(例如,其中来自第二样品混合物的至少第一循环微粒分配到第一新分区中,并且其中来自第二样品混合物的至少第二循环微粒分配到第二新分区中),其中第一新分区包含包含在条码化寡核苷酸内的条码序列(或条码序列组),其不同于第二新分区内包含的包含在条码化寡核苷酸内的条码序列(或条码序列组),并且其中将第一新分区内包含的条码化寡核苷酸连接至第一循环微粒的至少第一和第二靶核酸片段,并且其中将第二新分区内包含的条码化寡核苷酸连接至第二循环微粒的至少第一和第二靶核酸片段。

任选地,组合条码化方法可包括:A)化学交联步骤,其中利用化学交联剂(例如甲醛)使包含至少第一和第二循环微粒的样品交联,并随后任选地其中交联步骤通过淬灭步骤结束,例如通过将样品与甘氨酸溶液混合来淬灭甲醛交联步骤,和/或随后任选地使经交联微粒透化(即,使得基因组DNA(和/或其他靶核酸)片段在物理上可接近,使得其可被进一步操作;例如,使得其可在条码化步骤中条码化);任选地,其中任何这样的透化通过与化学表面活性剂(例如非离子洗涤剂)一起孵育来进行;以及B)第一条码化步骤,其中将包含至少第一和第二循环微粒的第一样品混合物分配到至少第一和第二原始分区中(例如,其中来自样品的至少第一循环微粒分配到第一原始分区中,并且其中来自样品的至少第二循环微粒分配到第二原始分区中),其中第一原始分区包含包含在条码化寡核苷酸内的条码序列(或条码序列组),其不同于第二原始分区内包含的包含在条码化寡核苷酸内的条码序列(或条码序列组),并且其中将第一原始分区内包含的条码化寡核苷酸连接至第一循环微粒的至少第一和第二靶核酸片段,并且其中将第二原始分区内包含的条码化寡核苷酸连接至第二循环微粒的至少第一和第二靶核酸片段;并且其中将第一原始分区内包含的至少一个循环微粒与第二原始分区内包含的至少一个循环微粒合并以产生第二样品混合物,以及C)第二条码化步骤,其中将第二样品混合物中包含的微粒分配到至少第一和第二新分区中(例如,其中来自第二样品混合物的至少第一循环微粒分配到第一新分区中,并且其中来自第二样品混合物的至少第二循环微粒分配到第二新分区中),其中第一新分区包含包含在条码化寡核苷酸内的条码序列(或条码序列组),其不同于第二新分区内包含的包含在条码化寡核苷酸内的条码序列(或条码序列组),并且将第一新分区内包含的条码化寡核苷酸连接至第一循环微粒的至少第一和第二靶核酸片段,并且其中将第二新分区内包含的条码化寡核苷酸连接至第二循环微粒的至少第一和第二靶核酸片段。

任选地,在任意组合条码化方法中,在第一和/或第二(和/或另外的)条码化步骤之前,所述方法可包括使循环微粒和/或使一个或更多个循环微粒内的靶核酸片段(例如基因组DNA片段)交联的步骤。该步骤可用化学交联剂例如甲醛、多聚甲醛、戊二醛、二琥珀酰亚胺基戊二酸酯、乙二醇双(琥珀酰亚胺基琥珀酸酯)、同双官能交联剂或异双官能交联剂进行。该步骤可在任何透化步骤之前、任何透化步骤之后、任何分配步骤之前、任何附接条码序列的步骤之前、任何附接条码序列的步骤之后、与附接条码序列同时、或其任意组合下进行。任何这样的交联步骤可进一步通过淬灭步骤结束,例如通过与甘氨酸溶液混合来淬灭甲醛交联步骤。可在实验室方案的特定后续步骤之前,例如在引物延伸、PCR或核酸纯化步骤之前,进一步除去任何这样的交联。通过化学交联剂交联的步骤用于将每个微粒内的基因组DNA(和/或其他靶核酸)片段保持彼此物理接近,使得可在保持微粒的基本结构性质的同时(即,在保持来自同一微粒的基因组DNA片段的物理接近性的同时)操作和处理样品

任选地,在任意组合条码化方法中,在化学交联步骤之后的步骤中,可使经交联微粒透化(即,使得基因组DNA(和/或其他靶核酸)片段在物理上可接近,使得其可被进一步操作;例如,使得其可在条码化步骤中条码化);这种透化可例如通过与化学表面活性剂(例如非离子洗涤剂)一起孵育来进行。任选地,用于这种透化步骤的化学表面活性剂可包括Triton X-100(C14H22O(C2H4O)n(n=9-10))、NP-40、Tween 20、Tween 80、皂苷、毛地黄皂苷或十二烷基硫酸钠。

任选地,在任意组合条码化方法中,在化学交联步骤之后的任何一个或更多个步骤中,交联可部分或完全逆转(例如,使得基因组DNA(和/或其他靶核酸)片段在物理上更加可接近,使得其可被进一步操作;例如,使得其可在条码化步骤中条码化;该交联逆转可例如通过在高温下孵育来进行,例如至少45℃,至少50℃,至少55℃,至少60℃,至少65℃,至少70℃,至少75℃,至少80℃,至少85℃,或至少90℃;此外,该交联逆转可例如进行一段特定的持续时间,例如至少1分钟,至少5分钟,至少10分钟,至少20分钟,至少30分钟,至少60分钟,至少2小时,至少3小时,至少5小时,或至少24小时。

任选地,在任意组合条码化方法中,在任何一个或更多个附接条码序列的步骤(例如任何附接和/或连接条码化寡核苷酸的步骤),和/或任何一个或更多个将一个或更多个样品(例如,循环微粒)分配到不同分区中的步骤,和/或任何一个或更多个将两个或更多个循环微粒合并到单个分区中的步骤,和/或任何一个或更多个化学交联步骤,和/或任何一个或更多个其他步骤之后,可采用纯化处理,其中相对于所述步骤中采用的溶液内的其他成分优先纯化和分离微粒。任何一个或更多个这样的纯化步骤可包括尺寸排阻色谱方法。任何一个或更多个这样的纯化步骤可包括大小离心(例如差速离心)方法。

任选地,在任意组合条码化方法中,可通过本文中描述的任何一种或更多种方法(例如单链连接、双链连接、平端连接、A尾连接、黏端介导的连接、杂交、杂交和延伸、杂交和延伸和连接、和/或转座)附接条码序列。

任选地,在任意组合条码化方法的任何步骤期间,至少2个、至少3个、至少5个、至少10个、至少20个、至少50个、至少100个、至少200个、至少500个、至少1000个、至少2000个、至少5000个、至少10,000个、至少50,000个、至少100,000个、至少500,000个、或至少1,000,000个循环微粒可包含在分区内(和/或至少第一和第二分区每一个内;和/或任何更大数目的分区内)。优选地,至少50个循环微粒可包含在分区内(和/或至少第一和第二分区每一个内;和/或任何更大数目的分区内)。

任选地,在任意组合条码化方法的任何步骤期间,可采用至少2个、至少3个、至少5个、至少10个、至少20个、至少50个、至少100个、至少200个、至少500个、至少1000个、至少2000个、至少5000个、至少10,000个、至少50,000个、至少100,000个、至少500,000个、至少1,000,000个、至少10,000,000个、或至少100,000,000个分区(例如,可将循环微粒分配到所述数目的分区中)。优选地,在任意组合条码化方法的任何步骤期间,可使用至少24个分区(例如,可将循环微粒分配到所述数目的分区中)。

任选地,在任意组合条码化方法的任何步骤中,可将微粒样品分到分区中,使得每个分区存在平均少于0.0001个微粒、少于0.001个微粒、少于0.01个微粒、少于0.1个微粒、少于1.0个微粒、少于10个微粒、少于100个微粒、少于1000个微粒、少于10,000个微粒、少于100,000个微粒、少于1,000,000个微粒、少于10,000,000个微粒、或少于100,000,000个微粒。优选地,每个分区存在平均小于1.0个微粒。

任选地,在任意组合条码化方法的任何步骤中,可将微粒溶液分到分区中,使得每个分区存在平均少于1.0阿克的DNA,少于10阿克的DNA,少于100阿克的DNA,少于1.0飞克的DNA,少于10飞克的DNA,少于100飞克的DNA,少于1.0皮克的DNA,少于10皮克的DNA,少于100皮克的DNA,或少于1.0纳克的DNA。优选地,每个分区存在少于10皮克的DNA。

任选地,在任意组合条码化方法的任何步骤中,分区的体积可小于100飞升,小于1.0皮升,小于10皮升,小于100皮升,小于1.0纳升,小于10纳升,小于100纳升,小于1.0微升,小于10微升,小于100微升,或小于1.0毫升。

任选地,任意组合条码化方法可包括至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少30个、至少40个、至少50个、至少100个、至少500、或至少1000个不同的条码化步骤。每个条码化步骤可以如本文中对第一和第二条码化步骤所描述的那样。

任选地,在任意组合条码化方法中,任何一个或更多个分配步骤可包括随机特征,例如,可将估计数目(而不是确切或精确数目)的循环微粒分配到一个或更多个分区中;即,每个分区的循环微粒的所述数目可具有统计或概率的不确定性(例如受到泊松加载和/或分布统计)。

任选地,在任意组合条码化方法中,附接至特定序列的条码组(例如附接至基因组DNA片段的序列;例如,包含在第一条码化步骤期间附接至所述序列的第一条码和在第二条码化步骤期间附接至所述序列的第二条码的组)可用于将来自单个微粒的序列相联系和/或将来自两个或更多个微粒的组的序列相联系。任选地,在任意组合条码化方法中,相同的两个(或多于两个)条码的组可附接至来自两个或更多个循环微粒(例如,其中所述两个或更多个循环微粒在第一和第二条码化步骤期间分别分配到同一系列的第一和第二分区中)的特定序列(例如附接至基因组DNA片段的序列)。任选地,在任意组合条码化方法中,相同组的两个(或多于两个)条码可附接至来自仅一个循环微粒(例如,其中仅一个循环微粒在第一和第二条码化步骤期间分别分配到同一系列的第一和第二分区中)的特定序列(例如附接至基因组DNA片段的序列)。

任选地,在任意组合条码化方法中,在任何一个或更多个条码化步骤中使用的分区的数目以及不同条码化步骤的数目可组合地组合,使得平均来说,两个(或更多个)条码的每个组附接于来自仅一个循环微粒的序列。例如,对于包含1000个循环微粒的样品,第一和第二条码化步骤各自可采用100个分区(和其中包含的相关条码);随后不同条码组的总数将等于(100×100=)10,000个不同的条码组;与原始样品中包含的1000个循环微粒相比,每个条码组因此平均附接于仅来自一个(或概念上少于一个)循环微粒的序列。在任意组合条码方法的一些不同实施方案中,在任何一个或更多个条码化步骤中使用的分区的数目和/或不同条码化步骤的数目可提高和/或降低以实现期望的分辨率和/或灵敏度水平(例如,考虑到分析包含不同数目的循环微粒的样品的需要,和/或对不同应用的不同条码化特异性要求)。任选地,在某些应用中,具有不完美和/或低效的条码化方法(例如,其中在一个或更多个条码化步骤中来自特定微粒的仅一小部分序列附接至条码;和/或例如其中相同组的条码序列附接至来自两个或更多个循环微粒的序列)可使得足够的分子和/或信息分辨率成为能够以实现期望的信号和/或测序读出。

组合条码化方法可提供优于替代条码化方法的优点,其形式是降低对精细和/或复杂设备的需求,以实现更高数目的潜在识别条码组用于将条码附接至来自循环微粒的序列(例如来自基因组DNA片段)。例如,在两个不同的条码化步骤中采用96个不同分区(例如,很容易用分子生物学中广泛使用的标准96孔板实现)的组合条码化方法可实现净(96×96=)9216个不同的条码组;与替代的非组合方法相比,这显著降低了执行这种索引所需的分区数量。通过提高条码化步骤的数目和/或提高在一个或更多个这样的条码化步骤中使用的分区的数目,可进一步实现显著更高水平的组合索引分辨率。此外,组合条码化方法可消除对用于替代条码化方法的复杂仪器(例如,微流控仪器(例如10×Genomics ChromiumSystem))的需求。

6.通过空间测序或原位测序或原位文库构建来相联系

本发明提供制备用于测序之样品的方法,其中所述样品包含源自血液之微粒,并且其中所述微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括:(a)制备用于测序的样品,其中将微粒的至少两个靶核酸片段通过其在测序装置上的接近度彼此联系,以产生至少两个相联系靶核酸片段的组;以及(b)使用测序装置对每个相联系靶核酸片段进行测序,以产生至少两个相联系序列读取。

核酸样品可包含至少两个源自血液之微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中该方法包括进行步骤(a)以产生每个微粒的相联系靶核酸片段的组,并且其中每个微粒的靶核酸片段在测序装置上在空间上不同,以及进行步骤(b)以产生每个微粒的相联系序列读取。

来自微粒的至少两个片段可在测序装置本身内或其上保持彼此物理接近度,并且其中该物理接近度是已知的或者可由测序装置或通过或在其操作期间确定或观察,并且其中物理接近度的这一量度用于将至少两个序列相联系。

所述方法可包括使用原位文库构建方法进行测序。在所述方法中,可将来自样品的完整或部分完整的微粒置于测序仪上,并且其中将两个或更多个靶核酸(例如基因组DNA)片段在测序仪内加工成测序就绪模板,即使用原位文库构建方法进行测序。原位文库构建在Schwartz et al(2012)PNAS 109(46):18749-54)中描述。

所述方法可包括原位测序。在该方法中,样品可保持完整(例如大部分或部分完整),并且对微粒内的靶核酸(例如基因组DNA)片段直接测序,例如,使用Lee等(2014)Science,343,6177,1360-1363)中描述的‘FISSEQ’荧光原位测序技术。

任选地,微粒样品可用化学交联剂交联,并随后置于测序装置内或其上,并随后保持彼此物理接近。任选地,放置在测序装置内或其上的来自微粒的两个或更多个靶核酸(例如基因组DNA)片段随后可通过测序方法确定其序列的全部或一部分。任选地,可通过荧光原位测序技术对这样的片段进行测序,其中通过光学测序方法确定所述片段的序列。任选地,可将一个或更多个偶联序列、衔接子序列或扩增序列附接至所述靶核酸片段。任选地,所述片段可在扩增过程中扩增,其中扩增产物保持与扩增它们的片段的物理接近或物理接触。任选地,随后通过光学测序方法对这些扩增产物进行测序。任选地,将所述扩增产物附接至平面表面,例如测序流动池。任选地,由单个片段产生的所述扩增产物各自构成流动池内的单个簇。任选地,在如上所述的任何方法中,任何两个或更多个测序分子之间的距离通过测序装置内的配置先验已知,或者可在测序过程中确定或观察。任选地,每个测序分子被映射到簇场内或像素阵列内,其中任何两个或更多个测序分子之间的距离由所述簇或像素之间的距离确定。任选地,距离或接近度的任何测量或估计可用于联系任何两个或更多个确定的序列。

任选地,可进一步评价通过上述任何方法确定的序列,其中将两个或更多个测序分子之间的距离或接近度的测量值与一个或更多个截止值或阈值进行比较,并且仅将在特定范围内或者高于或低于确定特定阈值或截止值的分子确定为在信息上相联系。任选地,可使用两个或更多个这样的截止值或阈值或其范围的组,使得可确定任何两个或更多个测序分子的联系的不同程度和/或类别和/或分类。

7.通过单独顺序方法来相联系

本发明提供了制备用于测序之样品的方法,其中所述样品包含源自血液之微粒,并且其中所述微粒包含至少两个靶核酸(例如基因组DNA)片段,并且其中所述方法包括:(a)制备用于测序的样品,其中将每个微粒的至少两个靶核酸(例如基因组DNA)片段通过加载到单独的测序过程中来相联系,以产生至少两个相联系靶核酸片段的组;以及(b)使用测序装置对每个相联系靶核酸片段进行测序,以产生至少两个相联系序列读取的组。

样品可包含至少两个源自血液之微粒,其中每个微粒包含至少两个靶核酸(例如基因组DNA)片段,并且所述方法可包括进行步骤(a)以产生每个微粒的相联系靶核酸片段,其中每个微粒的至少两个靶核酸片段通过加载到单独的测序过程中来相联系,以及对每个测序过程进行步骤(b)以产生每个微粒的相联系序列读取。

在所述方法中,第一单个微粒(或微粒组)的片段可独立于其他微粒的片段进行测序,并且所得的序列读取是信息上相联系的;包含在第二单个微粒(或微粒组)内的片段独立于第一微粒或微粒组进行测序,并且所得的序列读取是信息上相联系的。

任选地,(所有测序过程的)第一和第二测序过程用不同的测序仪进行,和/或用相同的测序仪但是在两个不同的时间或在两个不同的测序过程内进行。任选地,第一和第二测序过程用相同的测序仪进行,但是在测序仪的两个不同的区域、分区、隔室、导管、流动池、泳道、纳米孔、微支架、微支架阵列或集成回路内进行。任选地,3个或更多个、10个或更多个、1000个或更多个、1,000,000个或更多个、或1,000,000,000个或更多个微粒或微粒组可通过上述方法来相联系。

8.在相联系之前扩增原始片段

如技术人员会理解的,本文中使用的术语“片段”(例如,“基因组DNA片段”、或“靶核酸片段”或“来自微粒的基因组DNA片段”)是指存在于微粒中的原始片段,以及其部分、拷贝或扩增子,包括原始片段的仅一部分(例如其扩增子)的拷贝,以及经修饰片段或拷贝(例如已经附接偶联序列的片段)。例如,术语基因组DNA片段是指存在于微粒中的原始基因组DNA片段,以及例如,可通过引物延伸反应从原始基因组DNA片段制备的DNA分子。作为另一个实例,术语mRNA片段是指存在于微粒中的原始mRNA片段,以及例如可以通逆转录从原始mRNA片段制备的cDNA分子。

在附接条码序列的步骤之前,所述方法还可包括扩增微粒的原始靶核酸片段的步骤,例如,通过引物延伸步骤或聚合酶链式反应步骤。随后可使用本文中所述的任何方法将条码序列附接至原始靶核酸片段的扩增子或拷贝。

引物延伸步骤或聚合酶链式反应步骤可使用包含一个或更多个简并碱基的区段的一种或更多种引物来进行。

引物延伸步骤或聚合酶链式反应步骤可使用对特定靶核酸序列(例如特定的靶基因组DNA序列)具有特异性的一种或更多种引物来进行。

扩增步骤可通过链置换聚合酶(例如Phi29DNA聚合酶、或Bst聚合酶或Bsm聚合酶,或者phi29、Bst或Bsm聚合酶的经修饰衍生物)来进行。扩增可通过多重置换扩增反应和包含一个或更多个简并碱基的区域的引物组来进行。任选地,使用随机六聚体、随机七聚体、随机八聚体、随机九聚体或随机十聚体引物。

扩增步骤可包括通过DNA聚合酶使原始靶核酸的片段中的单链切口延伸。切口可由具有单链DNA切割行为的酶或者由序列特异性切口限制性内切核酸酶产生。

扩增步骤可包括将至少一个或更多个dUTP核苷酸引入到通过DNA聚合酶复制或扩增一个或更多个基因组DNA片段的至少一部分而合成的DNA链中,并且其中通过尿嘧啶切除酶(例如尿嘧啶DNA糖基化酶)产生切口。

扩增步骤可包括在包含基因组DNA片段的核酸上产生引发序列,其中引发序列由引物酶(例如Thermus Thermophilus PrimPol聚合酶或TthPrimPol聚合酶)产生,并且其中DNA聚合酶用于使用该引发序列作为引物来复制基因组DNA片段的序列的至少一个核苷酸。

扩增步骤可通过线性扩增反应来进行,例如通过体外转录过程进行的RNA扩增过程。

扩增步骤可通过引物延伸步骤或聚合酶链式反应步骤来进行,并且因此其中使用引物是对应于一个或更多个通用引发序列的通用引物。通用引发序列可通过连接反应、通过引物延伸或聚合酶链式反应或通过体外转座反应附接至基因组DNA片段。

9.在联系之前将偶联序列附接至片段

在任何方法中,条码序列可直接或间接(例如通过退火或连接)附接至微粒的靶核酸(例如gDNA)片段。条码序列可附接至已附接至片段的偶联序列(例如合成序列)。

在包括将微粒的至少两个靶核酸片段联系在一起以产生单个核酸分子的方法中,可首先将偶联序列附接至至少两个片段中的每一个,并随后可通过偶联序列将片段联系在一起。

偶联序列可附接至微粒的原始靶核酸片段或者其拷贝或扩增子。

偶联序列可添加至核酸样品的两个或更多个片段的5’端或3’端。在该方法中,(条码化寡核苷酸的)靶区域可包含与偶联序列互补的序列。

偶联序列可包含在双链偶联寡核苷酸内或单链偶联寡核苷酸内。偶联寡核苷酸可通过双链连接反应或单链连接反应附接至靶核酸。偶联寡核苷酸可包含能够与靶核酸连接的单链5’或3’区域,并且偶联序列可通过单链连接反应附接至靶核酸。

偶联寡核苷酸可包含能够与靶核酸连接的平端、凹端或突出端5’或3’区域,并且偶联序列可通过双链连接反应附接至靶核酸。

靶核酸片段的末端可在平端化反应中转化为平端双链末端,并且偶联寡核苷酸可包含平端双链末端,并且其中偶联寡核苷酸可在平端连接反应中与靶核酸片段连接。

靶核酸片段的末端可在平端化反应中将其末端转化为平端双链末端,并随后将其末端转化为具有单个3’腺苷突出端的形式,并且其中偶联寡核苷酸可包含具有单个3’胸腺嘧啶突出端的双链末端,其能够与靶核酸片段的单个3’腺苷突出端退火,并且其中偶联寡核苷酸在双链A/T连接反应中与靶核酸的片段连接。

靶核酸可与限制酶接触,其中限制酶在限制性位点处消化靶核酸以在限制性位点产生连接接界,并且其中偶联寡核苷酸包含与这些连接接界相容的末端,并且其中偶联寡核苷酸随后在双链连接反应中与靶核酸连接。

偶联寡核苷酸可通过引物延伸或聚合酶链式反应步骤来附接。

可使用包含引发区段的一个或更多个寡核苷酸通过引物延伸或聚合酶链式反应步骤来附接偶联寡核苷酸,所述引发区段包含一个或更多个简并碱基。

可使用还包含对于特定靶核酸序列具有特异性的引发或杂交区段的一个或更多个寡核苷酸通过引物延伸或聚合酶链式反应步骤来附接偶联寡核苷酸。

可通过多核苷酸加尾反应添加偶联序列。偶联序列可通过末端转移酶(例如末端脱氧核苷酸转移酶)来添加。偶联序列可通过用末端脱氧核苷酸转移酶进行的多核苷酸加尾反应来附接,并且其中偶联序列包含同聚序列的至少两个连续核苷酸。

偶联序列可包含同聚3’尾(例如poly(A)尾)。任选地,在这样的方法中,(条码化寡核苷酸的)靶区域包含互补的同聚3’尾(例如poly(T)尾)。

偶联序列可包含在合成转座子内,并且可通过体外转座反应来附接。

偶联序列可附接至靶核酸,并且其中条码寡核苷酸通过至少一个引物延伸步骤或聚合酶链式反应步骤附接至靶核酸,并且其中所述条码寡核苷酸包含与所述偶联序列互补的长度为至少一个核苷酸的区域。任选地,该互补区域位于条码寡核苷酸的3’端。任选地,该互补区域长度为至少2个核苷酸,长度为至少5个核苷酸,长度为至少10个核苷酸,长度为至少20个核苷酸,或长度为至少50个核苷酸。

10.所述方法的任选的额外步骤

所述方法可包括确定来自包含一个或更多个循环微粒的样品的一个或更多个基因组DNA片段中至少一个经修饰核苷酸或核碱基的存在或不存在。所述方法可包括循环微粒的基因组DNA片段中经修饰核苷酸或核碱基的测量(例如测量经修饰核苷酸或核碱基)。测量值可以是循环微粒的经分析的基因组DNA片段(即相联系基因组DNA片段)的总值和/或测量值可以是每个经分析的基因组DNA片段的值。经修饰核苷酸或核碱基可以是5-甲基胞嘧啶或5-羟基-甲基胞嘧啶。

来自循环微粒的一个或更多个基因组DNA片段中经修饰核苷酸或核碱基的测量使得能够进行多种分子和信息分析,其可补充所述片段本身的序列的测量。在一个方面,在来自循环微粒的基因组DNA片段内所谓的“表观遗传学”标记的测量(即“表观基因组”的测量)使得能够与参考表观遗传学序列和/或参考表观遗传学序列的列表进行比较(和/或相对于其进行映射)。这使得与仅测量标准4种(未经修饰)碱基和/或其传统的“遗传学”序列相比,能够对来自循环微粒的基因组片段的序列进行“正交(orthogonal)”形式的分析。此外,经修饰核苷酸和/或核碱基的测量可使得能够更精确地确定和/或估计得至一个或更多个循环微粒的细胞和/或组织的类型。由于体内不同的细胞类型表现出不同的表观遗传学特征(epigenetic signature),因此来自循环微粒的基因组DNA片段的表观基因组的测量可因此允许更精确的这种微粒至细胞类型的映射。在所述方法中,来自循环微粒的基因组DNA片段的表观遗传学测量可与对应于特定具体组织内的甲基化和/或羟甲基化的参考表观遗传学序列的列表(或多个列表)进行比较(例如,向其映射)。这可使得能够阐明和/或富集来自特定组织类型和/或特定健康和/或患病组织(例如癌组织)的微粒(例如来自特定微粒的相联系序列组)。例如,循环微粒的基因组DNA片段中的经修饰核苷酸或核碱基的测量可使得能够鉴定源自癌细胞的基因组DNA片段的相联系序列(或相联系序列读取)。在另一个实例中,循环微粒的基因组DNA片段中的经修饰核苷酸或核碱基的测量可使得能够鉴定源自胎儿细胞的基因组DNA片段的相联系序列(或相联系序列读取)。特定经修饰核苷酸或核碱基的绝对量可与特定组织内的健康状况和/或疾病相关。例如,与正常健康组织相比,癌组织中5-羟基甲基胞嘧啶的水平强烈改变;因此,来自循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶的测量可使得能够更精确地检测和/或分析源自癌细胞的循环微粒。

所述方法可包括循环微粒的基因组DNA片段中的5-甲基胞嘧啶的测量(例如,测量循环微粒的基因组DNA片段中的5-甲基胞嘧啶)。所述方法可包括循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶的测量(例如,测量循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶)。

所述方法可包括循环微粒的基因组DNA片段中的5-甲基胞嘧啶的测量(例如,测量循环微粒的基因组DNA片段中的5-甲基胞嘧啶),其中所述测量使用富集探针进行,与其他经修饰或未经修饰的碱基相比,所述富集探针特异性或优先结合基因组DNA片段中的5-甲基胞嘧啶。所述方法可包括循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶的测量(例如,测量循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶),其中所述测量使用富集探针进行,与其他经修饰或未经修饰的碱基相比,所述富集探针特异性或优先结合基因组DNA片段中的5-羟基-甲基胞嘧啶。

所述方法可包括两个或更多个循环微粒的基因组DNA片段中的5-甲基胞嘧啶的测量(例如,测量第一循环微粒的基因组DNA片段中的5-甲基胞嘧啶并且测量第二循环微粒的基因组DNA片段中的5-甲基胞嘧啶)。所述方法可包括两个或更多个循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶的测量(例如,测量第一循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶并且测量第二循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶)。

所述方法可包括两个或更多个循环微粒的基因组DNA片段中的5-甲基胞嘧啶的测量(例如,测量第一循环微粒的基因组DNA片段中的5-甲基胞嘧啶并且测量第二循环微粒的基因组DNA片段中的5-甲基胞嘧啶),其中所述测量使用富集探针进行,与其他经修饰或未经修饰的碱基相比,所述富集探针特异性或优先结合基因组DNA片段中的5-甲基胞嘧啶。所述方法可包括两个或更多个循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶的测量(例如,测量第一循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶并且测量第二循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶),其中所述测量使用富集探针进行,与其他经修饰或未经修饰的碱基相比,所述富集探针特异性或优先结合基因组DNA片段中的5-羟基-甲基胞嘧啶。

所述方法可包括循环微粒的基因组DNA片段中的5-甲基胞嘧啶的测量(例如,测量循环微粒的基因组DNA片段中的5-甲基胞嘧啶),其中所述测量使用亚硫酸氢盐转化方法或氧化亚硫酸氢盐转化方法进行。所述方法可包括循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶的测量(例如,测量循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶),其中所述测量使用亚硫酸氢盐转化方法或氧化亚硫酸氢盐转化方法进行。

所述方法可包括两个或更多个循环微粒的基因组DNA片段中的5-甲基胞嘧啶的测量(例如,测量第一循环微粒的基因组DNA片段中的5-甲基胞嘧啶并且测量第二循环微粒的基因组DNA片段中的5-甲基胞嘧啶),其中所述测量使用亚硫酸氢盐转化方法或氧化亚硫酸氢盐转化方法进行。所述方法可包括两个或更多个循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶的测量(例如,测量第一循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶并且测量第二循环微粒的基因组DNA片段中的5-羟基-甲基胞嘧啶),其中所述测量使用亚硫酸氢盐转化方法或氧化亚硫酸氢盐转化方法进行。

任选地,来自包含一个或更多个循环微粒的样品的两个或更多个组成部分的序列可作为关联确定,以确定来自所述样品的一个或更多个基因组DNA片段中至少一个经修饰核苷酸或核碱基的存在或不存在。例如,可进行富集步骤以富集样品中包含经修饰碱基(例如5-甲基胞嘧啶或5-羟基甲基胞嘧啶)的基因组DNA片段,其中可对包含基因组片段的样品的已通过所述富集步骤富集的第一组成部分进行测序,并且还可对包含基因组片段的样品的未通过所述富集步骤富集的第二组成部分进行测序(例如在独立的测序反应中测序)。任选地,样品的所述第二组成部分可包含在富集过程期间产生的非富集和/或上清液级分(例如,在富集过程期间未被富集探针或亲和探针结合的级分)。任选地,原始样品可分成第一和第二子样品,其中第一子样品用于进行富集步骤以产生样品的第一组成部分,并且其中样品的所述第二组成部分可包含第二非富集的子样品。可对样品的两个或更多个富集和/或未富集和/或转化(例如亚硫酸氢盐转化和/或氧化亚硫酸氢盐转化)和/或未转化的组成部分的任意组合进行测序。例如,包含一个或更多个循环微粒的样品可用于产生三个组成部分,例如富含5-甲基胞嘧啶DNA的组成部分(或者,已经被亚硫酸氢盐转化的组成部分)、富含5-羟基-甲基胞嘧啶的组成部分(或者,已经被氧化亚硫酸氢盐转化的组成部分)和未富集的(和/或未转化的)组成部分。任选地,样品的任何这样的两个或更多个组成部分可在独立的测序反应(例如在独立的流动池内,或在单个流动池的独立泳道内)中单独测序。任选地,样品的任何这样的两个或更多个部分可附接至识别条码序列(例如,其识别样品的富集或未富集的组成部分内的给定序列),并随后在相同的测序过程中(例如在相同的流动池内或流动池的泳道内)测序。

任选地,本文中所述的任何将序列相联系的方法(例如,通过附接条码序列,例如通过附接来自多聚体条码化试剂的条码序列或通过附接来自两个或更多个多聚体条码化试剂的文库的条码序列)可在任何这样的富集和/或分子转化步骤之前进行(例如,其中在包含至少一个循环微粒或至少两个循环微粒的原始样品上进行这样的联系方法,其中相联系序列随后作为输入序列用于富集或分子转化过程)。

例如,包含两个或更多个循环微粒的样品可附接至来自两个或更多个多聚体条码化试剂的文库的条码序列,其中来自第一多聚体条码化试剂的第一和第二条码序列附接至来自第一循环微粒的第一和第二基因组DNA片段,并且其中来自第二多聚体条码化试剂的第一和第二条码序列附接至来自第二循环微粒的第一和第二基因组DNA片段,并且其中所得条码附接的基因组DNA片段富含5-甲基胞嘧啶(和/或5-羟基甲基胞嘧啶),并且其中随后对富集的基因组DNA片段进行测序,其中随后条码序列用于确定哪些富集的片段附接至来自同一多聚体条码化试剂的条码,并由此预测(或确定)哪些富集的片段包含在同一循环微粒内。在该实例中,还可对未富集的基因组DNA片段进行第二测序反应(例如,通过对富集步骤的上清液级分(即未捕获的非富集级分)内的基因组片段进行测序),其中随后条码序列用于确定哪些未富集的片段附接至来自同一多聚体条码化试剂的条码,并由此预测(或确定)哪些未富集的片段包含在同一循环微粒内。在该实例中,如果富集和未富集的基因组DNA片段二者都如此测序,则因此可预测(或确定)哪些富集的和哪些未富集的片段附接至来自同一多聚体条码化试剂的条码,并由此预测(或确定)哪些富集的和哪些未富集的片段包含在同一循环微粒内。也可使用类似于该实例的方法,例如通过采用一个或更多个分子转化过程,和/或例如通过制备、分析样品的三个或更多个组成部分(例如,富含5-甲基胞嘧啶的组成部分、富含5-羟基-甲基胞嘧啶组分部分、以及未富集的组成部分)或对其进行测序。

任选地,本文中所述的任何将序列相联系的方法(例如,通过附接条码序列,例如通过附接来自多聚体条码化试剂或者两个或更多个多聚体条码化试剂的文库的条码序列)可在任何这样的富集和/或分子转化步骤之后进行(例如,其中进行富集步骤以富集包含5-甲基胞嘧啶或包含5-羟基-甲基胞嘧啶的基因组DNA片段,并且其中通过本文中所述的任何方法将通过该过程富集的基因组DNA片段相联系)。

所述方法可包括确定基因组DNA片段中至少一个经修饰核苷酸或核碱基的存在或不存在,其中进行富集步骤以富集包含所述经修饰碱基的基因组DNA片段。这样的经修饰碱基可包含5-甲基胞嘧啶、或5-羟基-甲基胞嘧啶、或任何其他经修饰碱基中的一种或更多种。这样的富集步骤可通过与其他经修饰或未经修饰的碱基相比特异性或优先与所述经修饰的碱基结合的富集探针,例如抗体、酶、酶片段、或其他蛋白质、或衔接子、或任何其他探针进行。这样的富集步骤可通过能够酶促修饰包含经修饰碱基的DNA分子的酶来进行,例如葡糖基转移酶,例如5-羟基甲基胞嘧啶葡糖基转移酶。任选地,可用5-羟基甲基胞嘧啶葡糖基转移酶确定基因组DNA片段内5-羟基甲基胞嘧啶的存在,其中5-羟基甲基胞嘧啶葡糖基转移酶用于将葡萄糖部分从尿苷二磷酸葡萄糖转移至基因组DNA片段内的经修饰碱基以产生葡糖基-5-羟基甲基胞嘧啶碱基,任选地其中随后检测所述葡糖基-5-羟基甲基胞嘧啶碱基,例如用葡糖基-5-羟基甲基胞嘧啶敏感性限制酶进行检测,其中对所述葡糖基-5-羟基甲基胞嘧啶敏感性限制酶的消化具有抗性的基因组DNA片段被认为包含经修饰的5-羟基甲基胞嘧啶碱基;任选地,可通过本文中所述的任何方法对所述对消化具有抗性的基因组DNA片段进行测序以确定其序列。任选地,如果附接条码序列,则可在附接条码序列的步骤之前或在附接条码序列的步骤之后进行该富集步骤。任选地,如果来自微粒的基因组DNA片段的两个或更多个序列彼此附接,则可在将这些序列彼此附接的步骤之前或在将这些序列彼此附接的步骤之后进行该富集步骤。使用富集探针测量基因组DNA片段中的至少一个经修饰核苷酸或核碱基的任何方法可用市售的富集探针或其他产品来进行,例如市售抗体,例如抗5-羟基-甲基胞嘧啶抗体ab178771(Abcam),或例如抗5-甲基胞嘧啶抗体ab10805(Abcam)。此外,市售产品和/或试剂盒也可用于此类方法的其他步骤,例如蛋白A或蛋白GDynabeads(ThermoFisher)用于结合、回收和处理/洗涤抗体和/或与其结合的片段。

所述方法可包括确定基因组DNA片段中至少一个经修饰核苷酸或核碱基的存在或不存在,其中进行分子转化步骤以将所述经修饰碱基转化为不同的经修饰或未经修饰的核碱基,后者可在确定核酸序列期间检测。该转化步骤可包括亚硫酸氢盐转化步骤、氧化亚硫酸氢盐转化步骤、或任何其他分子转化步骤。任选地,如果附接条码序列,则可在附接条码序列的步骤之前或在附接条码序列的步骤之后进行该富集步骤。任选地,如果来自微粒的基因组DNA片段的两个或更多个序列彼此附接,则可在将这些序列彼此附接的步骤之前或在将这些序列彼此附接的步骤之后进行该富集步骤。使用分子转化步骤测量基因组DNA片段中至少一个经修饰核苷酸或核碱基的任何方法可用市售的分子转化试剂盒来进行,例如EpiMark Bisulfite Conversion Kit(New England Biolabs)或TruMethyl SeqOxidative Bisulfite Sequencing Kit(Cambridge Epigenetix)。

在进行分子转化步骤的任何方法中,在分子转化过程之后一个或更多个衔接子寡核苷酸可附接至基因组DNA片段(和/或样品内基因组DNA片段的集合)的一端或两端。例如,单链衔接子寡核苷酸(例如,包含用于扩增(例如通过PCR扩增)的引物的结合位点)可用单链连接酶连接至经转化的基因组DNA片段(和/或样品中基因组DNA片段的集合)的一端或两端。任选地,在分子转化步骤之前条码序列和/或衔接子序列(例如在条码化寡核苷酸内)可附接至基因组DNA片段(和/或样品内基因组DNA片段的集合)的一端,并随后在分子转化过程之后衔接子寡核苷酸可附接至基因组DNA片段的第二端。任选地,所述第二端可包括在分子转化过程中产生的末端(即其中基因组DNA的片段已经经历了片段化过程,因此相对于其原始片段产生了所述片段的一个或更多个新末端)。这种附接衔接子寡核苷酸的方法可具有允许在分子转化过程中已经片段化和/或降解的基因组DNA片段被进一步扩增和/或分析和/或测序的益处。

在进行分子转化步骤的任何方法中,任何衔接子寡核苷酸、和/或条码化寡核苷酸、和/或条码序列、和/或任何偶联序列和/或任何偶联寡核苷酸可包含一个或更多个合成的5-甲基胞嘧啶核苷酸。任选地,任何衔接子寡核苷酸、和/或条码化寡核苷酸、和/或条码序列、和/或任何偶联序列和/或任何偶联寡核苷酸可被配置成使得其中包含的任何或所有胞嘧啶核苷酸是合成的5-甲基胞嘧啶核苷酸。任选地,包含一个或更多个合成的5-甲基胞嘧啶核苷酸的任何衔接子寡核苷酸、和/或条码化寡核苷酸、和/或条码序列、和/或任何偶联序列和/或任何偶联寡核苷酸可在分子转化步骤之前附接至基因组DNA片段;作为替代和/或补充,其可在分子转化步骤之后附接至基因组DNA片段。所述衔接子和/或寡核苷酸和/或序列内的这种合成的5-甲基胞嘧啶核苷酸可具有在分子转化过程(例如亚硫酸氢盐转化过程)期间使其降解和/或片段化降低或最小化的益处,因为其对这样的过程期间的降解具有抗性。

所述方法可包括确定基因组DNA片段中至少一个经修饰核苷酸或核碱基的存在或不存在,其中通过测序反应确定或检测所述经修饰核苷酸或核碱基(例如5-甲基胞嘧啶或5-羟基-甲基胞嘧啶)。任选地,所述测序反应可通过基于纳米孔的测序仪进行,例如由Oxford Nanopore Technologies生产的Minion、Gridion X5、Promethion和/或Smidgion测序仪,其中在基因组DNA片段通过测序仪内的纳米孔转位的过程期间并且通过分析在基因组DNA片段的所述转位期间通过纳米孔装置的电流信号来确定经修饰核苷酸或核碱基的存在。任选地,所述测序反应可通过基于零模式波导的测序仪(zero-mode-waveguide-basedsequencing instrument)进行,例如由Pacific Biosciences生产的Sequel或RSII测序仪,其中在测序仪内的零模式波导内合成基因组DNA片段的至少一部分的拷贝的过程期间并且通过在复制基因组DNA片段的至少一部分的所述过程期间分析来自所述零模式波导的光信号来确定经修饰核苷酸或核碱基的存在。

在进行富集步骤和/或分子转化步骤的任何方法中,所述富集和/或转化可以是不完全的和/或低于100%的效率。例如,可进行分子转化过程,使得少于100%的特定类别的目标经修饰核苷酸(例如5-甲基胞嘧啶或5-羟基-甲基胞嘧啶)通过分子转化过程(例如亚硫酸氢盐转化或氧化亚硫酸氢盐转化)进行转化。例如,约99%、或约95%、或约90%、或约80%、或约70%、或约60%、或约50%、或约40%、或约25%、或约10%的这样的目标经修饰核苷酸可在这样的分子转化过程期间转化。这种不完全的分子转化过程可通过限制进行分子转化过程的持续时间来进行(例如,通过使所述持续时间短于用于实现分子转化过程的完全或接近完全的效率的标准时间)使得,平均而言,实现所述目标转化效率。这种不完全的分子转化过程可具有降低样品降解/片段化和/或样品损失的量的益处,而这例如是许多分子转化过程(例如亚硫酸氢盐转化)的特征。

类似地,在进行富集步骤的任何方法中,所述富集可以是不完全的和/或低于100%的效率。例如,可进行5-甲基胞嘧啶(和/或5-羟基-甲基胞嘧啶)的富集步骤,其中约99%、或约95%、或约90%、或约80%、或约70%、或约60%、或约50%、或约40%、或约25%、或约10%的含有这样的目标经修饰核苷酸的基因组DNA片段在富集步骤(例如使用亲和探针(例如对所述目标经修饰核苷酸具有特异性的抗体)的富集步骤)期间被捕获并回收。任选地,可通过限制和/或降低富集过程中使用的亲和探针的量和/或浓度来进行所述不完全富集(例如,通过使用不同的量和/或浓度的所述亲和探针来经验性地测试这种捕获的效率,并且任选地通过使用包含已知经修饰核苷酸谱的DNA序列作为所述经验测试的评价指标)。任选地,可通过限制和/或降低持续时间来进行所述不完全富集,其中亲和探针用于在富集过程内结合和/或捕获目标基因组DNA片段(即通过使用不同孵育时间,其中亲和探针能够与样品内潜在的目标基因组DNA片段相互作用);例如,通过使用不同的孵育持续时间凭经验测试这种捕获的效率,并且任选地通过使用包含已知经修饰核苷酸谱的DNA序列作为所述经验测试的评价指标)。这种不完全富集可具有降低假阳性分子信号的益处(例如,其中在富集过程期间捕获基因组DNA的片段,但其中所述片段不具有期望的目标经修饰核苷酸)。另外,所述不完全富集可具有降低富集发放本身的成本和复杂性的益处。

所述方法可包括进行序列富集或序列捕获步骤,其中一个或更多个特定基因组DNA序列从基因组DNA片段中富集。该步骤可通过进行序列富集的任何方法来进行,例如使用与所述序列互补的DNA寡核苷酸,或与所述序列互补的RNA寡核苷酸,或通过采用引物延伸靶标富集步骤的步骤,或通过采用分子倒置探针(molecular inversion probe)组的步骤,或通过采用挂锁探针(padlock probe)组的步骤。任选地,如果附接条码序列,则可在附接条码序列的步骤之前或在附接条码序列的步骤之后进行该富集步骤。任选地,如果来自微粒的基因组DNA片段的两个或更多个序列彼此附接,则可在将这些序列彼此附接的步骤之前或在将这些序列彼此附接的步骤之后进行该富集步骤。

该方法可包括富集至少1个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10,000个、至少100,000个、至少1,000,000、或至少10,000,000个不同的基因组DNA片段。

在所述方法中,每个独特的输入分子可在测序反应中平均测序至少1.0次,平均至少1.5次,平均至少2.0次,平均至少3.0次,平均至少5.0次,平均至少10.0次,平均至少20.0次,平均至少50.0次,或平均至少100次。任选地,在测序反应中测序至少两次(即,利用至少两个序列读取的冗余测序)的独特的输入分子用于检测和/或去除通过测序反应产生的所述至少两个序列读取之间的测序中的错误或不一致性。

在进行测序反应之前和/或在进行扩增反应之前,可进行核苷酸修复反应,其中去除和/或修复受损和/或切除的碱基或寡核苷酸。任选地,所述修复反应可在以下一种或更多种的存在下进行:水生栖热菌(Thermus aquaticus)DNA连接酶、大肠杆菌(e.coli)内切核酸酶IV、嗜热脂肪芽孢杆菌(Bacillus stearothermophilus)DNA聚合酶、大肠杆菌甲酰胺嘧啶[fapy]-DNA糖基化酶、大肠杆菌尿嘧啶-DNA糖基化酶、T4内切核酸酶V和大肠杆菌内切核酸酶VIII。

在所述方法中,在测序步骤之前和/或在扩增步骤(例如PCR扩增步骤)之前,可附接通用衔接子序列(例如一个或两个通用衔接子序列)。任选地,一个或更多个这样的通用衔接子序列可通过随机引发或基因特异性引物延伸步骤,通过体外转座反应进行(其中一个或更多个所述通用衔接子序列包含在合成转座体(synthetic transposome)内),通过双链或单链连接反应(进行或不进行先前的片段化步骤,例如化学片段化步骤、声或机械片段化步骤、或酶促片段化步骤;以及任选地具有或不具有平端化和/或3’A-加尾步骤)来添加。

包含酶促产生的拷贝或酶产生的互补序列的条码序列

一个或更多个条码序列可包含在包含条码序列的酶促产生的拷贝或酶促产生的互补序列的寡核苷酸内(例如包含在条码化寡核苷酸内)。

任选地,一个或更多个条码序列可包含在条码化寡核苷酸内,其中条码化寡核苷酸的条码区域包含条码序列的酶促产生的拷贝或酶促产生的互补序列。任选地,一个或更多个条码序列可包含在条码化寡核苷酸内,其中条码化寡核苷酸的条码区域包含包含在条码分子内的条码序列的酶促产生的互补序列。任选地,一个或更多个条码序列可包含在条码化寡核苷酸内,其中条码化寡核苷酸的条码区域包含包含在条码分子内的条码序列的酶促产生的拷贝。

任选地,一个或更多个条码序列可包含在条码化寡核苷酸内,其中条码化寡核苷酸的条码区域包含包含在多聚体条码分子内的条码序列的酶促产生的互补序列。任选地,一个或更多个条码序列可包含在条码化寡核苷酸内,其中条码化寡核苷酸的条码区域包含包含在多聚体条码分子内的条码序列的酶促产生的拷贝。

任选地,一个或更多个条码序列可包含在第一条码化寡核苷酸内,其中条码化寡核苷酸的条码区域包含包含在第二条码化寡核苷酸内的条码序列的酶促产生的互补序列。任选地,一个或更多个条码序列可包含在第一条码化寡核苷酸内,其中条码化寡核苷酸的条码区域包含包含在第二条码化寡核苷酸内的条码序列的酶促产生的拷贝。

用于拷贝、复制和/或合成核酸序列的任何酶促方法可用于产生条码序列的酶促产生的拷贝或酶促产生的互补序列。任选地,可采用引物延伸方法。任选地,可采用引物延伸方法,其中包含在条码分子内(和/或包含在多聚体条码分子内,和/或包含在条码化寡核苷酸内)的条码序列在引物延伸步骤中被复制,并且其中引物延伸步骤的所得引物延伸产物包含条码序列的全部或一部分(例如包含条码化寡核苷酸的全部或一部分),其随后被附接至来自循环微粒的核酸序列(例如,附接至来自循环微粒的基因组DNA片段的序列)。

任选地,可采用聚合酶链式反应(PCR)方法。任选地,可采用聚合酶链式反应(PCR)方法,其中包含在条码分子内(和/或包含在多聚体条码分子内,和/或包含在条码化寡核苷酸内)的条码序列在PCR延伸步骤中被复制,并且其中PCR延伸步骤的所得延伸产物包含条码序列的全部或一部分(例如包含条码化寡核苷酸的全部或一部分),其随后被附接至来自循环微粒的核酸序列(例如,附接至来自循环微粒的基因组DNA片段的序列)。任选地,可采用聚合酶链式反应(PCR)方法,其中包含在条码分子内(和/或包含在多聚体条码分子内,和/或包含在条码化寡核苷酸内)的条码序列用至少两个连续的PCR延伸步骤中复制(例如,用至少第一PCR循环并随后第二PCR循环进行复制),并且其中至少两个所得PCR延伸产物各自包含条码序列的全部或一部分(例如包含条码化寡核苷酸的全部或一部分),其随后被附接至来自循环微粒的核酸序列(例如,附接至来自循环微粒的基因组DNA片段的序列)。

任选地,可采用滚环扩增(rolling-circle amplification,RCA)方法。任选地,可采用滚环扩增(RCA)方法,其中包含在条码分子内(和/或包含在多聚体条码分子内,和/或包含在条码化寡核苷酸内)的条码序列在滚环扩增步骤中被复制,并且其中滚环扩增步骤的所得延伸产物包含条码序列的全部或一部分(例如包含条码化寡核苷酸的全部或一部分,和/或包含条码分子的全部或一部分,和/或包含多聚体条码分子的全部或一部分),其随后被附接至来自循环微粒的核酸序列(例如,附接至来自循环微粒的基因组DNA片段的序列)。

任选地,可采用滚环扩增(RCA)方法,其中包含在多聚体条码分子内的条码序列在滚环扩增步骤中被复制,并且其中滚环扩增步骤的所得延伸产物包含第二多聚体条码分子,并且其中所述第二多聚体条码分子用作模板以合成至少一个条码化寡核苷酸(其中这样的条码化寡核苷酸可通过本文中所述的任何方法产生;例如使用所述第二多聚体条码分子作为模板通过引物延伸步骤或者使用所述第二多聚体条码分子作为模板通过引物延伸和连接步骤产生至少一个条码化寡核苷酸),其随后被附接至来自循环微粒的核酸序列(例如,附接至来自循环微粒的基因组DNA片段的序列)。

任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何此类方法可在单个反应体积中进行。任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何此类方法可在两个或更多个不同的反应体积中进行(即,在两个或更多个不同的分区中进行)。任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何此类方法可在至少3个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000、或至少100,000,000个不同的反应体积(和/或分区)中进行。

任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何此类方法可在包含来自一个或更多个循环微粒的核酸序列的反应体积中(例如,在包含一个或更多个循环微粒的反应体积中)进行。任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的方法可在包含来自样品的第一循环微粒的核酸序列(例如包含来自样品的第一循环微粒的基因组DNA片段,和/或包含来自样品的第一循环微粒)的第一反应体积中进行,并且在包含来自样品的第二循环微粒的核酸序列(例如包含来自样品的第二循环微粒的基因组DNA片段,和/或包含来自样品的第二循环微粒)的第二反应体积中进行。

任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的方法可在N个不同的反应体积中进行,其中每个这样的反应体积包含至少一个条码序列并且还包含来自样品的循环微粒的核酸序列(例如,还包含来自样品的循环微粒的基因组DNA片段,和/或还包含来自样品的循环微粒),其中N为至少2、至少3、至少5、至少10、至少50、至少100、至少500、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、或至少100,000,000。任选地,包含在N个不同反应体积中的条码序列可一起包含至少2、至少3、至少5、至少10、至少50、至少100、至少500、至少1000、至少10,000、至少100,000、至少1,000,000、至少10,000,000、或至少100,000,000个不同的条码序列。

任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的方法可在包含第一条码序列并且还包含样品的第一循环微粒的核酸序列(例如,还包含来自样品的第一循环微粒的基因组DNA片段,和/或还包含来自样品的第一循环微粒)的第一反应体积中进行,并且在包含第二条码序列并且还包含样品的第二循环微粒的核酸序列(例如,还包含来自样品的第二循环微粒的基因组DNA片段,和/或还包含来自样品的第二循环微粒)的第二反应体积中进行,其中第一条码序列不同于第二条码序列。

任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的方法可在包含样品的第一循环微粒的核酸序列(例如包含样品的第一循环微粒的基因组DNA片段)的第一反应体积中进行,其中来自第一反应体积的条码序列的至少第一和第二酶促产生的拷贝或酶促产生的互补序列附接至样品的第一循环微粒的核酸序列,并且在包含来自样品的第二循环微粒的核酸序列(例如包含来自样品的第二循环微粒的基因组DNA片段)的第二反应体积中进行,其中来自第二反应体积的条码序列的至少第一和第二酶促产生的拷贝或酶促产生的互补序列附接至样品的第二循环微粒的核酸序列。

任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法可对于(和/或利用或用)包含两个或更多个条码序列的文库进行。任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法可对于(和/或利用或用)包含两个或更多个条码分子的文库进行。任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法可对于(和/或利用或用)包含两个或更多个多聚体条码分子的文库进行。任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法可对于(和/或利用或用)包含两个或更多个多聚体条码化试剂的文库进行。任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法可对于(和/或利用或用)包含两个或更多个条码化寡核苷酸的文库进行。

任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法还可包括在附接步骤中将条码序列的一个或更多个酶促产生的拷贝或酶促产生的互补序列附接至循环微粒的一个或更多个核酸序列中的每一个(例如附接至循环微粒的基因组DNA序列)。任选地,任何一个或更多个这样的附接步骤可包括杂交步骤(例如,使条码化寡核苷酸与核酸序列杂交的步骤)、杂交和延伸杂交的步骤(例如使条码化寡核苷酸与核酸序列杂交并随后用聚合酶使杂交的条码化寡核苷酸延伸的步骤)、和/或连接步骤(例如将条码化寡核苷酸连接至核酸序列的步骤)。在任何一个或更多个这样的附接步骤之后,可对包含条码序列的核酸序列和其已经附接的来自循环微粒的核酸序列进行测序步骤。

任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法还可包括将条码序列的一个或更多个酶促产生的拷贝或酶促产生的互补序列附接至循环微粒的一个或更多个核酸序列的每一个(例如附接至循环微粒的基因组DNA序列),其中循环微粒的所述核酸序列还包含偶联序列。可采用本文中所述的任何偶联序列和/或附接偶联序列的方法,和/或将条码序列附接至偶联序列(和/或包含偶联序列的寡核苷酸)的方法。

任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列并且还包括将条码序列的一个或更多个酶促产生的拷贝或酶促产生的互补序列附接至循环微粒的核酸序列的任何方法还可包括使循环微粒化学交联(和/或使包含两个或更多个循环微粒的样品化学交联)的步骤。任选地,所述化学交联步骤可在将循环微粒和/或条码分子分配到两个或更多个不同分区中的步骤之前和/或之后进行。任选地,所述化学交联步骤之后可以是逆转所述交联的步骤,例如通过高温热孵育步骤。任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列并且还包括将条码序列的一个或更多个酶促产生的拷贝或酶促产生的互补序列附接至循环微粒的核酸序列的任何方法还可包括使所述循环微粒透化的步骤,例如通过高温孵育步骤和/或化学表面活性剂。

任选地,产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法可用任何数量和/或类型和/或体积的本文中所述的分区进行。任选地,在一个或更多个分区中产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法可包括一个或更多个分区,所述分区包含任何数量的如本文中所述的循环微粒。任选地,在一个或更多个分区中产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法可包括一个或更多个分区,所述分区包含任何数量(或平均数量)的如本文中所述的循环微粒。任选地,在一个或更多个分区中产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法可包括一个或更多个分区,所述分区包含任何重量(mass)(或平均重量)的来自本文中所述的循环微粒的核酸(例如任何重量的基因组DNA片段)。

产生条码序列的酶促产生的拷贝或酶促产生的互补序列的任何方法可具有用于分析来自循环微粒的相联系序列的多种期望的特征和特性。在第一种情况下,产生条码序列的酶促产生的拷贝或酶促产生的互补序列使得能够仅使用少量起始条码序列材料来产生大绝对重量的条码序列(例如大绝对重量的条码分子或条码化寡核苷酸)(例如,PCR和RCA处理可产生输入材料的大量指数扩增,用于随后的使用和操作)。

此外,产生条码序列的酶促产生的拷贝或酶促产生的互补序列,其中这样的条码序列包含在文库中(例如包含在条码分子的文库、多聚体条码分子的文库、多聚体条码化试剂的文库、和/或条码化寡核苷酸的文库中),使得能够产生大绝对重量的具有确定序列特征的条码序列(例如,其中大绝对重量的条码序列包含来自先前建立的和/或先前表征的文库的序列)。

此外,许多酶促复制和扩增方法(例如通过phi29聚合酶的滚环扩增,以及通过热稳定聚合酶(例如Phusion聚合酶)的引物延伸和/或PCR扩增)在所述复制期间表现出高分子准确性(在新复制的序列中产生错误的几率方面),并因此与非酶促方法相比(例如与标准化学寡核苷酸合成方法,例如亚磷酰胺寡核苷酸合成)相比显示出所得条码序列(例如所得的条码分子、多聚体条码分子和/或条码化寡核苷酸)的有利准确性特性。

此外,酶促复制和扩增方法(例如引物延伸和PCR方法)高度地适合于所述序列的后续修饰、加工和功能化步骤,其本身也可具有以相对简单的方式在大绝对重量的底物上实现的进一步益处。例如,引物延伸产物容易配置和/或可配置用于随后的连接过程(例如,如在引物延伸和连接过程中,如例如可被进行以产生条码化寡核苷酸和/或多聚体条码化试剂)。并且对于进一步的实例,酶促复制过程本身的直接产物(例如,其中条码序列的互补序列/拷贝与条码序列本身退火)可具有期望的功能和/或结构特性。例如,通过酶促引物延伸过程产生的条码化寡核苷酸在其生产过程中在结构上保持在单一的大分子复合物中栓系于(通过退火的核苷酸序列)条码分子(例如多聚体条码分子),其随后可在溶液中进一步加工和/或功能化为单一完整试剂。

11.多聚体条码化试剂的一般性质

多聚体条码化试剂的使用表现出多种可用的特征和功能,以将来自循环微粒的序列相联系。在第一种情况下,这样的试剂(和/或其文库)可包含非常明确限定的充分表征的条码组,其可告知和增强随后的生物信息学分析(例如,涉及使用已知和/或经验确定的序列的多聚体条码分子和/或多聚体条码化试剂)。另外,这样的试剂能够极其容易地分配和/或一次进行多个条码序列的其他分子或生物物理处理(即,由于每个这样的试剂中包含多个条码序列,其在溶液内和在液体处理和/或加工步骤期间自动地“一起移动”)。此外,这些试剂本身的多个条码序列之间的接近度可实现新的功能测定形式,例如使循环微粒交联,并随后将来自这样的多聚体试剂的序列附接至其中包含的基因组DNA片段(包括例如在其溶液相反应中,即单个分区内的两个或更多个微粒)。

本发明提供了用于标记一个或更多个靶核酸的多聚体条码化试剂。多聚体条码化试剂包括联系在一起(直接或间接)的两个或更多个条码区域。

每个条码区域包含核酸序列。核酸序列可以是单链DNA、双链DNA、或具有一个或更多个双链区域的单链DNA。

每个条码区域可包含鉴定多聚体条码化试剂的序列。例如,该序列可以是单个多聚体条码化试剂的所有条码区域共有的恒定区。每个条码区域可包含不存在于其他区域中并因此可用于唯一地鉴定每个条码区域的独特序列。每个条码区域可包含至少5个、至少10个、至少15个、至少20个、至少25个、至少50个或至少100个核苷酸。优选地,每个条码区域包含至少5个核苷酸。优选地,每个条码区域包含脱氧核糖核苷酸,任选地条码区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。条码区域可包含一个或更多个简并核苷酸或序列。条码区域可以不包含任何简并核苷酸或序列。

多聚体条码化试剂可包含至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000、或至少10,000个条码区域。优选地,多聚体条码化试剂包含至少5个条码区域。

多聚体条码化试剂可包含至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000个、至少104个、至少105、或至少106个独特或不同的条码区域。优选地,多聚体条码化试剂包括至少5个独特或不同的条码区域。

多聚体条码化试剂可包含:联系在一起的第一和第二条码分子(即多聚体条码分子),其中每个条码分子包含含有条码区域的核酸序列。

多聚体条码分子的条码分子可在核酸分子上相联系。多聚体条码分子的条码分子可包含在(单个)核酸分子内。多聚体条码分子可包含含有两个或更多个条码分子的单个连续核酸序列。多聚体条码分子可以是单链核酸分子(例如单链DNA)、双链链核酸分子或包含一个或更多个双链区域的单链分子。多聚体条码分子可包含能够与其他核酸分子的3’端连接的一个或更多个磷酸化5’端。任选地,在双链区域中或两个不同的双链区域之间,多聚体条码分子可包含一个或更多个切口(nick)或者一个或更多个缺口(gap),其中多聚体条码分子本身被分开或分离。任何所述缺口的长度可以是至少一个、至少2个、至少5个、至少10个、至少20个、至少50个、或至少100个核苷酸。所述切口和/或缺口可用于提高多聚体条码分子和/或多聚体条码化试剂的分子柔性的目的,例如提高分子或试剂与靶核酸分子相互作用的可及性。所述切口和/或缺口还可使得能够更高效地纯化或去除所述分子或试剂。包含所述切口和/或缺口的分子和/或试剂可通过具有互补DNA链而保持不同条码分子之间的联系,所述互补DNA链与多聚体条码分子的两个或更多个分开的部分的区域共同杂交。

条码分子可通过例如支持物(例如大分子、固体支持物或半固体支持物)相联系。条码分子与每个支持物相联系序列可以是已知的。条码分子可直接或间接(例如通过接头分子)与支持物相联系。条码分子可通过与支持物结合和/或通过与结合到支持物上的接头分子结合或退火而相联系。条码分子可通过共价连接、非共价连接(例如蛋白质-蛋白质相互作用或链霉亲和素-生物素键)或核酸杂交与支持物(或与接头分子)结合。接头分子可以是生物聚合物(例如核酸分子)或合成聚合物。接头分子可包含一个或更多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。接头分子可包含一个或更多个乙基,例如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。

条码分子可通过与大分子结合和/或通过与大分子退火而通过大分子相联系。

条码分子可直接或间接(例如通过接头分子)与大分子相联系。条码分子可通过与大分子结合和/或通过与结合至大分子上的接头分子结合或退火而相联系。条码分子可通过共价连接、非共价连接(例如蛋白质-蛋白质相互作用或链霉亲和素-生物素键)或核酸杂交与大分子(与或接头分子)结合。接头分子可以是生物聚合物(例如核酸分子)或合成聚合物。接头分子可包含一个或更多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。接头分子可包含一个或更多个乙基,例如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。

大分子可以是合成聚合物(例如树枝状聚合物)或生物聚合物例如核酸(例如单链核酸,例如单链DNA)、肽、多肽或蛋白质(例如多聚体蛋白质)。

树枝状聚合物可包含至少2代、至少3代、至少5代、或至少10代。

大分子可以是包含两个或更多个核苷酸的核酸,每个核苷酸能够与条码分子结合。作为补充或替代,核酸可包含两个或更多个区域,每个区域能够与条码分子杂交。

核酸可包含第一经修饰核苷酸和第二经修饰核苷酸,其中每个经修饰核苷酸包含能够与条码分子结合的结合部分(例如,生物素部分,或可用于点击化学反应的炔部分)。任选地,第一和第二经修饰核苷酸可通过至少一个、至少两个、至少5个或至少10个核苷酸的间插核酸序列分开。

核酸可包含第一杂交区域和第二杂交区域,其中每个杂交区域包含与条码分子内的至少一个核苷酸的序列互补且能够与其杂交的序列。互补序列可以是至少5个、至少10个、至少15个、至少20个、至少25个或至少50个连续核苷酸。优选地,互补序列是至少10个连续核苷酸。任选地,第一和第二杂交区域可通过至少一个、至少两个、至少5个或至少10个核苷酸的间插核酸序列分开。

大分子可以是蛋白质,例如多聚体蛋白质,例如同聚蛋白质或异聚蛋白质。例如,蛋白质可包含链霉亲和素,例如四聚体链霉亲和素。

支持物可以是固体支持物或半固体支持物。支持物可包含平坦表面。支持物可以是例如载玻片,例如玻璃载玻片。载玻片可以是用于测序的流动池。如果支持物是载玻片,则第一和第二条码分子可被固定在载玻片上的离散区域中。任选地,文库中每个多聚体条码化试剂的条码分子相对于文库中其他多聚体条码化试剂的条码分子固定在载玻片上不同的离散区域中。支持物可以是包含孔的板,任选地其中第一和第二条码分子固定在同一孔中。任选地,文库中每个多聚体条码化试剂的条码分子相对于文库中其他多聚体条码化试剂的条码分子固定在板的不同孔中。

优选地,支持物是珠(例如凝胶珠)。珠可以是琼脂糖珠、二氧化硅珠、styrofoam珠、凝胶珠(例如可从10×获得的那些)、抗体缀合珠、oligo-dT缀合珠、链霉亲和素珠或磁珠(例如超顺磁珠)。珠可具有任何尺寸和/或分子结构。例如,珠可以是直径10纳米至100微米,直径100纳米至10微米,或者直径1微米至5微米。任选地,珠为直径约10纳米,直径约100纳米,直径约1微米,直径约10微米,或直径约100微米。珠可以是实心的,或者作为替代地珠可以是中空的或部分中空的或多孔的。对于某些条码化方法,某些尺寸的珠可以是最优选的。例如,小于5.0微米或小于1.0微米的珠对于使个体细胞内的核酸靶标条码化可以是最可用的。优选地,文库中每个多聚体条码化试剂的条码分子一起相对于文库中其他多聚体条码化试剂的条码分子联系到不同的珠上。

可将支持物官能化以使得能够连接两个或更多个条码分子。这种官能化可通过向支持物添加化学部分(例如羧化基团、炔烃、叠氮化物、丙烯酸酯基团、氨基、硫酸酯基团或琥珀酰亚胺基团)和/或基于蛋白质的部分(例如链霉亲和素、亲和素或蛋白G)来实现。条码分子可直接或间接(例如通过接头分子)与所述部分相连接。

可在促进两个或更多种个条码分子与溶液中的每个珠连接的条件下使官能化的支持物(例如珠)与条码分子的溶液接触(产生多聚体条码化试剂)。

在多聚体条码化试剂的文库中,文库中每个多聚体条码化试剂的条码分子可以一起相对于相对于文库中其他多聚体条码化试剂的条码分子联系在不同的支持物上。

多聚体条码化试剂可包含:至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000个、至少104个、至少105个、或至少106个联系在一起的条码分子,其中每个条码分子如本文中所限定;以及与每个条码分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。优选地,多聚体条码化试剂包含至少5个联系在一起的条码分子,其中每个条码分子如本文中所限定;以及与每个条码分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。

多聚体条码化试剂可包含:至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000个、至少104个、至少105个、或至少106个联系在一起的独特或不同的条码分子,其中每个条码分子如本文中所限定;以及与每个条码分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。优选地,多聚体条码化试剂包含至少5个联系在一起的独特或不同的条码分子,其中每个条码分子如本文中所限定;以及与每个条码分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。

多聚体条码化试剂可包含两个或更多个如本文中所限定的条码化寡核苷酸,其中条码化寡核苷酸各自包含条码区域。多聚体条码化试剂可包含:至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000个、至少10,000个、至少100,000、或至少1,000,000个独特或不同的条码化寡核苷酸。优选地,多聚体条码化试剂包含至少5个独特或不同的条码化寡核苷酸。

多聚体条码化试剂的条码化寡核苷酸联系在一起(直接或间接)。多聚体条码化试剂的条码化寡核苷酸通过本文中所述的支持物(例如大分子、同体支持物或半同体支持物)联系在一起。多聚体条码化试剂可包含条码化寡核苷酸退火或附着于其上的一个或更多个聚合物。例如,多聚体条码化试剂的条码化寡核苷酸可与多聚体杂交分子(例如多聚体条码分子)退火。或者,多聚体条码化试剂的条码化寡核苷酸可通过大分子(例如合成聚合物如树枝状聚合物,或生物聚合物如蛋白质)或支持物(例如固体支持物或半固体支持物,例如凝胶珠)联系在一起。作为补充或替代,(单个)多聚体条码化试剂的条码化寡核苷酸可通过包含在(单个)脂质载体(例如脂质体或胶束)内而联系在一起。

多聚体条码化试剂可含:联系在一起的第一和第二杂交分子(即多聚体杂交分子),其中每个杂交分子包含含有杂交区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸与第一杂交分子的杂交区域退火,并且其中第二条码化寡核苷酸与第二杂交分子的杂交区域退火。

杂交分子包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。杂交分子可包含一个或更多个简并核苷酸或序列。杂交分子可以不包含任何简并核苷酸或序列。

多聚体杂交分子的杂交分子可在核酸分子上相联系。这样的核酸分子可提供可与单链条码化寡核苷酸退火的主链。多聚体杂交分子的杂交分子可包含在(单个)核酸分子内。多聚体杂交分子可包含含有两个或更多个杂交分子的单个连续核酸序列。多聚体杂交分子可以是包含两个或更多个杂交分子的单链核酸分子(例如单链DNA)。多聚体杂交分子可包含一个或更多个双链区域。任选地,在双链区域中或两个不同的双链区域之间,多聚体杂交分子可包含一个或更多个切口或者一个或更多个缺口,其中多聚体条码分子本身被分开或分离。任何这样的缺口的长度可以是至少一个、至少2个、至少5个、至少10个、至少20个、至少50个、或至少100个核苷酸。所述切口和/或缺口可用于提高多聚体杂交分子和/或多聚体条码化试剂的分子柔性的目的,例如提高分子或试剂与靶核酸分子相互作用的可及性。所述切口和/或缺口还可使得能够更高效地纯化或去除所述分子或试剂。包含所述切口和/或缺口的分子和/或试剂可通过具有互补DNA链而保持不同杂交分子之间的联系,所述互补DNA链与多聚体杂交分子的两个或更多个分开的部分的区域共同杂交。

杂交分子可通过与大分子结合和/或通过与大分子退火而通过大分子相联系。

杂交分子可直接或间接(例如通过接头分子)与大分子相联系。杂交分子可通过与大分子结合和/或通过与结合至大分子的接头分子结合或退火而相联系。杂交分子可通过共价连接、非共价连接(例如蛋白质-蛋白质相互作用或链霉亲和素-生物素键)或核酸杂交与大分子(或接头分子)结合。接头分子可以是生物聚合物(例如核酸分子)或合成聚合物。接头分子可包含一个或更多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。接头分子可包含一个或更多个乙基,例如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。

大分子可以是合成聚合物(例如树枝状聚合物)或生物聚合物例如核酸(例如单链核酸,例如单链DNA)、肽、多肽或蛋白质(例如多聚体蛋白质)。

树枝状聚合物可包含至少2代、至少3代、至少5代、或至少10代。

大分子可以是包含两个或更多个核苷酸的核酸,每个核苷酸能够与杂交分子结合。作为补充或替代,核酸可包含两个或更多个区域,每个区域能够与杂交分子杂交。

核酸可包含第一经修饰核苷酸和第二经修饰核苷酸,其中每个经修饰核苷酸包含能够与杂交分子结合的结合部分(例如,生物素部分,或可用于点击化学反应的炔部分)。任选地,第一和第二经修饰核苷酸可通过至少一个、至少两个、至少5个或至少10个核苷酸的间插核酸序列分开。

核酸可包含第一杂交区域和第二杂交区域,其中每个杂交区域包含与杂交分子内的至少一个核苷酸的序列互补且能够与其杂交的序列。互补序列可以是至少5个、至少10个、至少15个、至少20个、至少25个或至少50个连续核苷酸。任选地,第一杂交区域和第二杂交区域可通过至少一个、至少两个、至少5个或至少10个核苷酸的间插核酸序列分开。

大分子可以是蛋白质,例如多聚体蛋白质,例如同聚蛋白质或异聚蛋白质。例如,蛋白质可包含链霉亲和素,例如四聚链霉亲和素。

杂交分子可通过支持物相联系。杂交分子可以直接或间接(例如通过接头分子)与支持物相联系。杂交分子可通过与支持物结合和/或通过与结合到支持物上的接头分子结合或退火而相联系。杂交分子可通过共价连接、非共价连接(例如蛋白质-蛋白质相互作用或链霉亲和素-生物素键)或核酸杂交与支持物(或接头分子)结合。接头分子可以是生物聚合物(例如核酸分子)或合成聚合物。接头分子可包含一个或更多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。接头分子可包含一个或更多个乙基,例如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。

支持物可以是固体支持物或半固体支持物。支持物可包含平坦表面。支持物可以是例如载玻片,例如玻璃载玻片。载玻片可以是用于测序的流动池。如果支持物是载玻片,则第一和第二杂交分子可固定在载玻片上的离散区域中。任选地,文库中每个多聚体条码化试剂的杂交分子相对于文库中其他多聚体条码化试剂的杂交分子固定在载玻片上不同的离散区域中。支持物可以是包含孔的板,任选地其中第一和第二杂交分子固定在同一孔中。任选地,文库中每个多聚体条码化试剂的杂交分子相对于文库中其他多聚体条码化试剂的杂交分子固定在板的不同孔中。

优选地,支持物是珠(例如凝胶珠)。珠可以是琼脂糖珠、二氧化硅珠、styrofoam珠、凝胶珠(例如可从10×获得的那些)、抗体缀合珠、oligo-dT缀合珠、链霉亲和素珠或磁珠(例如超顺磁珠)。珠可具有任何尺寸和/或分子结构。例如,珠可以是直径10纳米至100微米,直径100纳米至10微米,或者直径1微米至5微米。任选地,珠为直径约10纳米,直径约100纳米,直径约1微米,直径约10微米,或直径约100微米。珠可以是实心的,或者作为替代地珠可以是中空的或部分中空的或多孔的。对于某些条码化方法,某些尺寸的珠可能是最优选的。例如,小于5.0微米或小于1.0微米的珠对于使个体细胞内的核酸靶标条码化可以是最可用的。优选地,文库中每个多聚体条码化试剂的杂交分子一起相对于文库中其他多聚体条码化试剂的杂交分子联系在不同的珠上。

可将支持物官能化以使得能够连接两个或更多个杂交分子。这种官能化可通过向支持物添加化学部分(例如羧化基团、炔烃、叠氮化物、丙烯酸酯基团、氨基、硫酸酯基团或琥珀酰亚胺基团)和/或基于蛋白质的部分(例如链霉亲和素、亲和素或蛋白G)来实现。杂交分子可直接或间接(例如通过接头分子)与所述部分连接。

可在促进两个或更多种个杂交分子与溶液中的每个珠连接的条件下使官能化的支持物(例如珠)与杂交分子的溶液接触(产生多聚体条码化试剂)。

在多聚体条码化试剂的文库中,文库中每个多聚体条码化试剂的杂交分子可以一起相对于相对于文库中其他多聚体条码化试剂的杂交分子联系在不同的支持物上。

任选地,杂交分子通过共价连接、非共价连接(例如链霉亲和素-生物素键)或核酸杂交与珠连接。

多聚体条码化试剂可包含:至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000个、或至少10,000个联系在一起的杂交分子,其中每个杂交分子如本文中所限定;以及与每个杂交分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。优选地,多聚体条码化试剂包含至少5个联系在一起的杂交分子,其中每个杂交分子如本文中所限定;以及与每个杂交分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。

多聚体条码化试剂可包含:至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000个、或至少10,000个联系在一起的独特或不同的杂交分子,其中每个杂交分子如本文中所限定;以及与每个杂交分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。优选地,多聚体条码化试剂包含至少5个联系在一起的独特或不同的杂交分子,其中每个杂交分子如本文中所限定;以及与每个杂交分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。

多聚体杂交分子可以是多聚体条码分子,其中第一杂交分子是第一条码分子,并且第二杂交分子是第二条码分子。多聚体条码化试剂可包含:联系在一起的第一和第二条码分子(即多聚体条码分子),其中每个条码分子包含含有条码区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸与第一条码分子的条码区域退火,并且其中第二条码化寡核苷酸与第二条码分子的条码区域退火。

多聚体条码化试剂的条码化寡核苷酸可包含:第一条码化寡核苷酸,其任选地以5’至3’方向包含条码区域和能够与第一靶核酸片段退火或连接的靶区域;以及第二条码化寡核苷酸,其任选地以5’至3’方向包含条码区域和能够与第二靶核酸片段退火或连接的靶区域。

多聚体条码化试剂的条码化寡核苷酸可包含:第一条码化寡核苷酸,其包含条码区域和能够与第一靶核酸片段连接的靶区域;以及第二条码化寡核苷酸,其包含条码区域和能够与第二靶核酸片段连接的靶区。

多聚体条码化试剂的条码化寡核苷酸可包含:第一条码化寡核苷酸,其以5’至3’方向包含条码区域和能够与第一靶核酸片段退火的靶区域;以及第二条码化寡核苷酸,其以5’至3’方向包含条码区域和能够与第二靶核酸片段退火的靶区域。

12.条码化寡核苷酸的一般性质

条码化寡核苷酸包含条码区域。条码化寡核苷酸可任选地以5’至3’方向包含条码区域和靶区域。靶区域能够与靶核酸片段退火或连接。或者,条码化寡核苷酸可基本上由条码区域组成或由条码区域组成。

条码化寡核苷酸的5’端可被磷酸化。这可使条码化寡核苷酸的5’端能够连接至靶核酸的3’端。或者,条码化寡核苷酸的5’端可不被磷酸化。

条码化寡核苷酸可以是单链核酸分子(例如单链DNA)。条码化寡核苷酸可包含一个或更多个双链区。条码化寡核苷酸可以是双链核酸分子(例如双链DNA)。

条码化寡核苷酸可包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。条码化寡核苷酸可包含一个或更多个简并核苷酸或序列。条码化寡核苷酸可以不包含任何简并核苷酸或序列。

每个条码化寡核苷酸的条码区域可包含不同序列。每个条码区域可包含鉴定多聚体条码化试剂的序列。例如,该序列可以是单个多聚体条码化试剂的所有条码区域共有的恒定区。每个条码化寡核苷酸的条码区域可包含不存在于其他条码化寡核苷酸中并因此可用于唯一地鉴定每个条码化寡核苷酸的独特序列。每个条码区域可包含至少5个、至少10个、至少15个、至少20个、至少25个、至少50个或至少100个核苷酸。优选地,每个条码区域包含至少5个核苷酸。优选地,每个条码区域包含脱氧核糖核苷酸,任选地条码区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。条码区域可包含一个或更多个简并核苷酸或序列。条码区域可以不包含任何简并核苷酸或序列。

每个条码化寡核苷酸的靶区域可包含不同的序列。每个靶区域可包含能够仅与核酸样品内的单个靶核酸片段退火的序列(即靶特异性序列)。每个靶区域可包含一个或更多个随机序列或者一个或更多个简并序列,以使靶区域能够与多于一个靶核酸片段退火。每个靶区域可包含至少5个、至少10个、至少15个、至少20个、至少25个、至少50个或至少100个核苷酸。优选地,每个靶区域包含至少5个核苷酸。每个靶区域可包含5至100个核苷酸,5至10个核苷酸,10至20个核苷酸,20至30个核苷酸,30至50个核苷酸,50至100个核苷酸,10至90个核苷酸,20至80个核苷酸,30至70个核苷酸或50至60个核苷酸。优选地,每个靶区域包含30至70个核苷酸。优选地,每个靶区域包含脱氧核糖核苷酸,任选地靶区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个靶区域可包含一个或更多个通用碱基(例如肌苷)、一个或经修饰的核苷酸和/或一个或更多个核苷酸类似物。

靶区域可用于使条码化寡核苷酸与靶核酸片段退火,并随后可用作引物延伸反应或扩增反应(例如聚合酶链式反应)的引物。或者,靶区域可用于将条码化寡核苷酸连接至靶核酸片段。靶区域可位于条码化寡核苷酸的5’端。这样的靶区域可被磷酸化。这可使靶区域的5’端能够连接至靶核酸片段的3’端。

条码化寡核苷酸还可包含一个或更多个衔接子区域。衔接子区域可在条码区域与靶区域之间。条码化寡核苷酸可例如包含在条码区域的5’的衔接子区域(5’衔接子区域)和/或在条码区域的3’的衔接子区域(3’衔接子区域)。任选地,条码化寡核苷酸以5’至3’方向包含条码区域、衔接子区域和靶区域。

条码化寡核苷酸的衔接子区域可包含与多聚体条码分子的衔接子区域互补的序列或与多聚体杂交分子的杂交区域互补的序列。条码化寡核苷酸的衔接子区域可使得条码化寡核苷酸能够与大分子或支持物(例如珠)连接。衔接子区域可用于操作、纯化、回收、扩增或检测其可退火或连接的条码化寡核苷酸和/或靶核酸。

每个条码化寡核苷酸的衔接子区域可包含恒定区。任选地,每个多聚体条码化试剂的条码化寡核苷酸的所有衔接子区域基本上相同。衔接子区域可包含至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少8个、至少10个、至少15个、至少20个、至少25个、至少50个、至少100个、或至少250个核苷酸。优选地,衔接子区域包含至少4个核苷酸。优选地,每个衔接子区域包含脱氧核糖核苷酸,任选地,衔接子区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个衔接子区域可包含一个或更多个通用碱基(例如肌苷)、一个或经修饰的核苷酸和/或一个或更多个核苷酸类似物。

条码化寡核苷酸可通过化学寡核苷酸合成方法合成。条码化寡核苷酸合成过程可包括以下的一个或更多个步骤:酶促生产过程、酶促扩增过程、或酶促修饰操作,例如体外转录过程、逆转录过程、引物延伸过程或聚合酶链式反应反应过程。

条码化寡核苷酸的这些一般性质适用于本文中所述的任何多聚体条码化试剂。

13.多聚体条码化试剂文库的一般性质

本发明提供了多聚体条码化试剂文库,其包含如本文中所限定的第一和第二多聚体条码化试剂,其中第一多聚体条码化试剂的条码区域不同于第二多聚体条码化试剂的条码区域。

多聚体条码化试剂文库可包含至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少250个、至少500个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108个或至少109个如本文中所限定的多聚体条码化试剂。优选地,文库包含至少10个如本文中所限定的多聚体条码化试剂。优选地,每个多聚体条码化试剂的第一和第二条码区域不同于文库中的至少9个其他多聚体条码化试剂的条码区域。

每个多聚体条码化试剂的第一和第二条码区域可不同于文库中的至少4个、至少9个、至少19个、至少24个、至少49个、至少74个、至少99个、至少249个、至少499个、至少999(即103-1)个、至少104-1个、至少105-1个、至少106-1个、至少107-1个、至少108-1个或至少109-1个其他多聚体条码化试剂的条码区域。每个多聚体条码化试剂的第一和第二条码区域可不同于与文库中所有其他多聚体条码化试剂的条码区域。优选地,每个多聚体条码化试剂的第一和第二条码区域不同于文库中至少9个其他多聚体条码化试剂的条码区域。

每个多聚体条码化试剂的条码区域可不同于文库中的至少4个、至少9个、至少19个、至少24个、至少49个、至少74个、至少99个、至少249个、至少499个、至少999(即103-1)个、至少104-1个、至少105-1个、至少106-1个、至少107-1个、至少108-1个或至少109-1个其他多聚体条码化试剂的条码区域。每个多聚体条码化试剂的条码区域可不同于文库中所有其他多聚体条码化试剂的条码区域。优选地,每个多聚体条码化试剂的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码区域。

本发明提供了包含如本文中所限定的第一和第二多聚体条码化试剂的多聚体条码化试剂文库,其中第一多聚体条码化试剂的条码化寡核苷酸的条码区域不同于第二多聚体条码化试剂的条码化寡核苷酸的条码区域。

多聚体条码化试剂文库内的不同多聚体条码化试剂可包含不同数量的条码化寡核苷酸。

多聚体条码化试剂文库可包含至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少250个、至少500个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108个或至少109个如本文中所限定多聚体条码化试剂。优选地,文库包含至少10个如本文中所限定的多聚体条码化试剂。优选地,每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域可不同于文库中至少4个、至少9个、至少19个、至少24个、至少49个、至少74个、至少99个、至少249个、至少499个、至少999(即103-1)个、至少104-1个、至少105-1个、至少106-1个、至少107-1个、至少108-1个或至少109-1个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域可不同于与文库中所有其他多聚体条码化试剂的条码化寡核苷酸的条码区域。优选地,每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

每个多聚体条码化试剂的条码化寡核苷酸的条码区域可不同于文库中至少4个、至少9个、至少19个、至少24个、至少49个、至少74个、至少99个、至少249个、至少499个、至少999(即103-1)个、至少104-1个、至少105-1个、至少106-1个、至少107-1个、至少108-1个或至少109-1个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。每个多聚体条码化试剂的条码化寡核苷酸的条码区域可不同于文库中所有其他多聚体条码化试剂的条码化寡核苷酸的条码区域。优选地,每个多聚体条码化试剂的条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

多聚体条码化试剂文库的这些一般性质适用于本文中所述的任何多聚体条码化试剂。

14.多聚体条码化试剂包含与多聚体条码分子退火的条码化寡核苷酸

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含:联系在一起的第一和第二条码分子(即多聚体条码分子),其中每个条码分子包含含有条码区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸任选地以5’至3’方向包含与第一条码分子的条码区域退火的条码区域和能够与第一靶核酸片段退火或连接的靶区域,并且其中第二条码化寡核苷酸任选地以5’至3’方向包含与第二条码分子的条码区域退火的条码区域和能够与第二靶核酸片段退火或连接的靶区域。

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含:联系在一起的第一和第二条码分子(即多聚体条码分子),其中每个条码分子包含含有条码区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域退火的条码区域和能够与第一靶核酸片段连接的靶区域,并且其中第二条码化寡核苷酸包含与第二条码分子的条码区域退火的条码区域和能够与第二靶核酸片段连接的靶区域。

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含:联系在一起的第一和第二条码分子(即多聚体条码分子),其中每个条码分子包含含有条码区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸以5’至3’方向包含与第一条码分子的条码区域退火的条码区域和能够与第一靶核酸片段退火的靶区域,并且其中第二条码化寡核苷酸以5’至3’方向包含与第二条码分子的条码区域退火的条码区域和能够与第二靶核酸片段退火的靶区域。

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含:联系在一起的第一和第二条码分子(即多聚体条码分子),其中每个条码分子包含含有条码区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域退火并且能够与第一靶核酸片段连接的条码区域,并且其中第二条码化寡核苷酸包含与第二条码分子的条码区域退火并且能够与第二靶核酸片段连接的的条码区域。

每个条码化寡核苷酸可基本上由条码区域组成或由条码区域组成。

优选地,条码分子包含脱氧核糖核苷酸或由脱氧核糖核苷酸组成。一个或更多个脱氧核糖核苷酸可以是经修饰脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。条码分子可包含一个或更多个简并核苷酸或序列。条码分子可以不包含任何简并核苷酸或序列。

条码区域可唯一地鉴定每个条码分子。每个条码区域可包含鉴定多聚体条码化试剂的序列。例如,该序列可以是单个多聚体条码化试剂的所有条码区域共有的恒定区。每个条码区域可包含至少5个、至少10个、至少15个、至少20个、至少25个、至少50个或至少100个核苷酸。优选地,每个条码区域包含至少5个核苷酸。优选地,每个条码区域包含脱氧核糖核苷酸,任选地条码区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。条码区域可包含一个或更多个简并核苷酸或序列。条码区域可以不包含任何简并核苷酸或序列。

优选地,第一条码化寡核苷酸的条码区域包含与第一条码分子的条码区域互补且退火的序列,并且第二条码化寡核苷酸的条码区域包含与第二条码分子的条码区域互补且退火的序列。每个条码化寡核苷酸的互补序列可以是至少5个、至少10个、至少15个、至少20个、至少25个、至少50个、或至少100个连续核苷酸。

条码化寡核苷酸的靶区域(其不与多聚体条码分子退火)可以不与多聚体条码分子互补。

条码化寡核苷酸可包含在条码区域和靶区域之间的接头区域。接头区域可包含不与多聚体条码分子退火并且不与靶核酸片段互补的一个或更多个连续核苷酸。接头可包含1至100个、5至75个、10至50个、15至30或20至25个非互补核苷酸。优选地,接头包含15至30个非互补核苷酸。使用这种接头区域增强了使用多聚体条码化试剂进行的条码化反应的效率。

条码分子还可包含不与条码化寡核苷酸的条码区域互补的一个或更多个核酸序列。例如,条码分子可包含一个或更多个衔接子区域。条码分子可例如包含在条码区域的5’的衔接子区域(5’衔接子区域)和/或在条码区域的3’的衔接子区域(3’衔接子区域)。衔接子区域(和/或衔接子区域的一个或更多个部分)可与寡核苷酸(例如条码化寡核苷酸的衔接子区域)互补且退火。或者,条码分子的衔接子区域(和/或衔接子区域的一个或更多个部分)可以不与条码化寡核苷酸的序列互补。衔接子区域可用于操作、纯化、检索、扩增和/或检测条码分子。

多聚体条码化试剂可配置成使得:每个条码分子包含以5’至3’方向包含衔接子区域和条码区域的核酸序列;第一条码化寡核苷酸任选地以5’至3’方向包含与第一条码分子的条码区域退火的条码区域、与第一条码分子的衔接子区域退火的衔接子区域和能够与第一靶核酸区域退火的靶区域;并且第二条码化寡核苷酸任选地以5’至3’方向包含与第二条码分子的条码区域退火的条码区域、与第二条码分子的衔接子区域退火的衔接子区域和能够与第二靶核酸区域退火的靶区域。

每个条码分子的衔接子区域可包含恒定区。任选地,多聚体条码化试剂的所有衔接子区域基本上相同。衔接子区域可包含至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少8个、至少10个、至少15个、至少20个、至少25个、至少50个、至少100个、或至少250个核苷酸。优选地,衔接子区域包含至少4个核苷酸。优选地,每个衔接子区域包含脱氧核糖核苷酸,任选地,衔接子区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个衔接子区域可包含一个或更多个通用碱基(例如肌苷)、一个或经修饰的核苷酸和/或一个或更多个核苷酸类似物。

条码化寡核苷酸可包含在衔接子区域与靶区域之间的接头区域。接头区域可包含不与多聚体条码分子退火并且不与靶核酸片段互补的一个或更多个连续核苷酸。接头可包含1至100个、5至75个、10至50个、15至30或20至25个非互补核苷酸。优选地,接头包含15至30个非互补核苷酸。使用这种接头区域增强了使用多聚体条码化试剂进行的条码化反应的效率。

多聚体条码分子的条码分子可在核酸分子上相联系。这样的核酸分子可提供可与单链条码化寡核苷酸退火的主链。或者,多聚体条码分子的条码分子可通过本文中所述的任何其他方式联系在一起。

多聚体条码化试剂可包含:至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000、或至少10,000个联系在一起的条码分子,其中每个条码分子如本文中所限定;以及与每个条码分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。优选地,多聚体条码化试剂包含至少5个联系在一起的条码分子,其中每个条码分子如本文中所限定;以及与每个条码分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。

多聚体条码化试剂可包含:至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000个、至少104个、至少105个、或至少106个联系在一起的独特或不同的条码分子,其中每个条码分子如本文中所限定;以及与每个条码分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。优选地,多聚体条码化试剂包含至少5个联系在一起的独特或不同的条码分子,其中每个条码分子如本文中所限定;以及与每个条码分子退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。

多聚体条码化试剂可包含:至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000个、或至少10,000个条码区域,其中每个条码区域如本文中所限定;以及与每个条码区域退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。优选地,多聚体条码化试剂包含至少5个条码区域,其中每个条码区域如本文中所限定;以及与每个条码区域退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。

多聚体条码化试剂可包含:至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000个、至少104个、至少105个、或至少106个独特或不同的条码区域,其中每个条码区域如本文中所限定;以及与每个条码区域退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。优选地,多聚体条码化试剂包含至少5个独特或不同的的条码区域,其中每个条码区域如本文中所限定;以及与每个条码区域退火的条码化寡核苷酸,其中每个条码化寡核苷酸如本文中所限定。

图1示出了多聚体条码化试剂,其包含第一(D1、E1和F1)和第二(D2、E2和F2)条码分子,每个条码分子包含含有条码区域(E1和E2)的核酸序列。这些第一和第二条码分子例如通过连接核酸序列(S)联系在一起。多聚体条码化试剂还包含第一(A1、B1、C1和G1)和第二(A2、B2、C2和G2)条码化寡核苷酸。这些条码化寡核苷酸各自包含条码区域(B1和B2)和靶区域(G1和G2)。

条码化寡核苷酸内的条码区域可各自包含不存在于其他条码化寡核苷酸中的独特序列,并可因此用于唯一地鉴定每个这样的条码分子。靶区域可用于使条码化寡核苷酸与靶核酸片段退火,并随后可用作引物延伸反应或扩增反应(例如聚合酶链式反应)的引物。

每个条码分子还可任选地包含5’衔接子区域(F1和F2)。条码化寡核苷酸随后还可包含与条码分子的5’衔接子区域互补的3’衔接子区域(C1和C2)。

每个条码分子还可任选地包含3’区域(D1和D2),其可包含每个条码分子内的相同序列。条码化寡核苷酸随后还可包含与条码分子的3’区域互补的5’区域(A1和A2)。这些3’区域可用于操作或扩增核酸序列,例如通过用条码化寡核苷酸标记核酸靶标产生的序列。3’区域可包含至少4个、至少5个、至少6个、至少8个、至少10个、至少15个、至少20个、至少25个、至少50个、至少100个、或至少250个核苷酸。优选地,3’区域包含至少4个核苷酸。优选地,每个3’区域包含脱氧核糖核苷酸,任选地,3’区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个3’区域可包含一个或更多个通用碱基(例如肌苷)、一个或经修饰的核苷酸和/或一个或更多个核苷酸类似物。

本发明提供了多聚体条码化试剂文库,其包含至少10个用于标记用于测序的靶核酸的多聚体条码化试剂,其中每个多聚体条码化试剂包含:包含在(单个)核酸分子内的第一和第二条码分子,其中每个条码分子包含含有条码区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸任选地以5’至3’方向包含与第一条码分子的条码区域互补且退火的条码区域和能够与第一靶核酸片段退火或连接的靶区域,并且其中第二条码化寡核苷酸任选地以5’至3’方向包含与第二条码分子的条码区域互补且退火的条码区域和能够与第二靶核酸片段退火或连接的靶区域。优选地,每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

15.多聚体条码化试剂包含与多聚体杂交分子退火的条码化寡核苷酸

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含:联系在一起的第一和第二杂交分子(即多聚体杂交分子),其中每个杂交分子包含含有杂交区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸任选地以5’至3’方向包含与第一杂交分子的杂交区域退火的衔接子区域、条码区域和能够与第一靶核酸片段退火或连接的靶区域,并且第二条码化寡核苷酸任选地以5’至3’方向包含与第二杂交分子的杂交区域退火的衔接子区域、条码区域和能够与第二靶核酸片段退火或连接的靶区域。

任选地,第一和第二条码化寡核苷酸各自包含在单个连续序列中的衔接子区域和靶区域,所述单个连续序列与杂交分子的杂交区域互补且退火,并且还能够与靶核酸片段退火或连接。

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含:联系在一起的第一和第二杂交分子(即多聚体杂交分子),其中每个杂交分子包含含有杂交区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸任选地以5’至3’方向包含条码区域、与第一杂交分子的杂交区域退火的衔接子区域和能够与第一靶核酸片段退火或连接的靶区域,并且其中第二条码化寡核苷酸任选地以5’至3’方向包含条码区域、与第二杂交分子的杂交区域退火的衔接子区域和能够与第二靶核酸片段退火或连接的靶区域。

任选地,第一和第二条码化寡核苷酸各自包含在单个连续序列中的衔接子区域和靶区域,所述单个连续序列与杂交分子的杂交区域互补且退火,并且还能够与靶核酸片段退火或连接。

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含:联系在一起的第一和第二杂交分子(即多聚体杂交分子),其中每个杂交分子包含含有杂交区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含(以5’-3’或3’-5’方向)与第一杂交分子的杂交区域退火的衔接子区域、条码区域和能够与第一靶核酸片段连接的靶区域,并且其中第二条码化寡核苷酸包含(以5’-3’或3’-5’方向)与第二杂交分子的杂交区域退火的衔接子区域、条码区域和能够与第二靶核酸片段连接的靶区域。

任选地,第一和第二条码化寡核苷酸各自包含在单个连续序列中的衔接子区域和靶区域,所述单个连续序列与杂交分子的杂交区域互补且退火,并且还能够与靶核酸片段连接。

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含:联系在一起的第一和第二杂交分子(即多聚体杂交分子),其中每个杂交分子包含含有杂交区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含(以5’-3’或3’-5’方向)条码区域、与第一杂交分子的杂交区域退火的衔接子区域和能够与第一靶核酸片段连接的靶区域,并且其中第二条码化寡核苷酸包含(以5’-3’或3’-5’方向)条码区域、与第二杂交分子的杂交区域退火的衔接子区域和能够与第二靶核酸片段连接的靶区域

任选地,第一和第二条码化寡核苷酸各自包含在单个连续序列中的衔接子区域和靶区域,所述单个连续序列与杂交分子的杂交区域互补且退火,并且还能够与靶核酸片段连接。

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含:联系在一起的第一和第二杂交分子(即多聚体杂交分子),其中每个杂交分子包含含有条码区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸以5’至3’方向包含与第一杂交分子的杂交区域退火的衔接子区域、条码区域和能够与第一靶核酸片段退火的靶区域,并且其中第二条码化寡核苷酸以5’至3’方向包含与第二杂交分子的杂交区域退火的衔接子区域、条码区域和能够与第二靶核酸片段退火的靶区域。

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含:联系在一起的第一和第二杂交分子(即多聚体杂交分子),其中每个杂交分子包含含有条码区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸以5’至3’方向包含条码区域、与第一杂交分子的杂交区域退火的衔接子区域和能够与第一靶核酸片段退火的靶区域,并且其中第二条码化寡核苷酸以5’至3’方向包含条码区域、与第二杂交分子的杂交区域退火的衔接子区域和能够与第二靶核酸片段退火的靶区域。

任选地,第一和第二条码化寡核苷酸各自包含在单个连续序列中的衔接子区域和靶区域,所述单个连续序列与杂交分子的杂交区域互补且退火,并且还能够与靶核酸退火。

优选地,第一条码化寡核苷酸的衔接子区域包含与第一杂交分子的杂交区域互补且退火的序列,并且第二条码化寡核苷酸的衔接子区域包含与第二杂交分子的杂交区域互补且退火的序列。每个条码化寡核苷酸的互补序列可以是至少5个、至少10个、至少15个、至少20个、至少25个、至少50个、或至少100个连续核苷酸。

每个杂交分子的杂交区域可包含恒定区。优选地,多聚体条码化试剂的所有杂交区域基本上相同。任选地,多聚体条码化试剂文库的所有杂交区域基本上相同。杂交区域可包含至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少8个、至少10个、至少15个、至少20个、至少25个、至少50个、至少100个、或至少250个核苷酸。优选地,杂交区域包含至少4个核苷酸。优选地,每个杂交区域包含脱氧核糖核苷酸,任选地,杂交区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个杂交区域可包含一个或更多个通用碱基(例如肌苷)、一个或经修饰的核苷酸和/或一个或更多个核苷酸类似物。

条码化寡核苷酸的靶区域可以不与多聚体杂交分子退火。条码化寡核苷酸的靶区域可以不与多聚体杂交分子互补。

条码化寡核苷酸可包含在衔接子区域与靶区之间的接头区域。接头区域可包含不与多聚体杂交分子退火并且不与靶核酸片段互补的一个或更多个连续核苷酸。接头可包含1至100个、5至75个、10至50个、15至30或20至25个非互补核苷酸。优选地,接头包含15至30个非互补核苷酸。使用这种接头区域增强了使用多聚体条码化试剂进行的条码化反应的效率。

杂交分子还可包含不与条码化寡核苷酸互补的一个或更多个核酸序列。例如,杂交分子可包含一个或更多个衔接子区域。杂交分子可例如包含在杂交区域的5’的衔接子区域(5’衔接子区域)和/或在杂交区域的3’的衔接子区域(3’衔接子区域)。衔接子区域可用于操作、纯化、检索、扩增和/或检测杂交分子。

每个杂交分子的衔接子区域可包含恒定区。任选地,多聚体杂交试剂的所有衔接子区域基本上相同。衔接子区域可包含至少1个、至少2个、至少3个、至少4个、至少5个、至少6个、至少8个、至少10个、至少15个、至少20个、至少25个、至少50个、至少100个、或至少250个核苷酸。优选地,衔接子区域包含至少4个核苷酸。优选地,每个衔接子区域包含脱氧核糖核苷酸,任选地,衔接子区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个衔接子区域可包含一个或更多个通用碱基(例如肌苷)、一个或经修饰的核苷酸和/或一个或更多个核苷酸类似物。

条码化寡核苷酸可包含在衔接子区域与靶区域之间的接头区域。接头区域可包含不与多聚体杂交分子退火并且不与靶核酸片段互补的一个或更多个连续核苷酸。接头可包含1至100个、5至75个、10至50个、15至30或20至25个非互补核苷酸。优选地,接头包含15至30个非互补核苷酸。使用这种接头区域增强了使用多聚体条码化试剂进行的条码化反应的效率。

本发明提供了多聚体条码化试剂文库,其包含至少10个用于标记用于测序的靶核酸多聚体条码化试剂,其中每个多聚体条码化试剂包含:包含在(单个)核酸分子内的第一和第二杂交分子,其中每个杂交分子包含含有杂交区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸任选地以5’至3’方向包含与第一杂交分子的杂交区域互补且退火的衔接子区域、条码区域和能够与第一靶核酸片段退火或连接的靶区域,并且其中第二条码化寡核苷酸任选地以5’至3’方向包含与第二杂交分子的杂交区域互补且退火的衔接子区域、条码区域和能够与第二靶核酸片段退火或连接的靶区域。

优选地,每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

本发明提供了多聚体条码化试剂文库,其包含至少10个用于标记用于测序的靶核酸多聚体条码化试剂,其中每个多聚体条码化试剂包含:包含在(单个)核酸分子内的第一和第二杂交分子,其中每个杂交分子包含含有杂交区域的核酸序列;以及第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸任选地以5’至3’方向包含条码区域、与第一杂交分子的杂交区域互补且退火的衔接子区域和能够与第一靶核酸片段退火或连接的靶区域,并且其中第二条码化寡核苷酸任选地以5’至3’方向包含条码区域、与第二杂交分子的杂交区域互补且退火的衔接子区域和能够与第二靶核酸片段退火或连接的靶区域。优选地,每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

16.多聚体条码化试剂包含通过大分子相联系的条码化寡核苷酸

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含通过大分子联系在一起的第一和第二条码化寡核苷酸,并且其中条码化寡核苷酸各自包含条码区域。

第一条码化寡核苷酸还可包含能够与第一靶核酸片段退火或连接的靶区域,并且第二条码化寡核苷酸还可包含能够与第二靶核酸片段退火或连接的靶区域。

第一条码化寡核苷酸可以以5’-3’方向包含条码区域和能够与第一靶核酸片段退火的靶区域,并且第二条码化寡核苷酸可以以5’-3’方向包含条码区域和能够与第二靶核酸片段退火的靶区域。

条码化寡核苷酸还可包含本文中所述的任何特征。

条码化寡核苷酸可通过与大分子结合和/或通过与大分子退火而通过大分子相联系。

条码化寡核苷酸可直接或间接(例如通过接头分子)与大分子联系。条码化寡核苷酸可通过与大分子结合和/或通过与结合至大分子的接头分子结合或退火而相联系。条码化寡核苷酸可通过共价连接、非共价连接(例如蛋白质-蛋白质相互作用或链霉亲和素-生物素键)或核酸杂交与大分子(或接头分子)结合。接头分子可以是生物聚合物(例如核酸分子)或合成聚合物。接头分子可包含一个或更多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。接头分子可包含一个或更多个乙基,例如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。

大分子可以是合成聚合物(例如树枝状聚合物)或生物聚合物例如核酸(例如单链核酸,例如单链DNA)、肽、多肽或蛋白质(例如多聚体蛋白质)。

树枝状聚合物可包含至少2代、至少3代、至少5代、或至少10代。

大分子可以是包含两个或更多个核苷酸的核酸,每个核苷酸能够与条码化寡核苷酸结合。作为补充或替代,核酸可包含两个或更多个区域,每个区域能够与条码化寡核苷酸杂交。

核酸可包含第一和第二经修饰核苷酸,其中每个经修饰核苷酸包含能够与条码化寡核苷酸结合的结合部分(例如,生物素部分,或可用于点击化学反应的炔部分)。任选地,第一和第二经修饰核苷酸可通过至少一个、至少两个、至少5个或至少10个核苷酸的间插核酸序列分开。

核酸可包含第一杂交区域和第二杂交区域,其中每个杂交区域包含与条码化寡核苷酸内的至少一个核苷酸的序列互补且能够与其杂交的序列。互补序列可以是至少5个、至少10个、至少15个、至少20个、至少25个或至少50个连续核苷酸。任选地,第一杂交区域和第二杂交区域可通过至少一个、至少两个、至少5个或至少10个核苷酸的间插核酸序列分开。

大分子可以是蛋白质,例如多聚体蛋白质,例如同聚蛋白质或异聚蛋白质。例如,蛋白质可包含链霉亲和素,例如四聚链霉亲和素。

还提供了包含通过大分子相联系的条码化寡核苷酸的多聚体条码化试剂的文库。这样的文库可基于本文中所述的多聚体条码化试剂文库的一般性质。在文库中,每个多聚体条码化试剂可包含不同的大分子。

17.多聚体条码化试剂包含通过固体支持物或半固体支持物联系的条码化寡核苷酸

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含通过固体支持物或半固体支持物联系在一起的第一和第二条码化寡核苷酸,并且其中条码化寡核苷酸各自包含条码区域。

第一条码化寡核苷酸还可包含能够与第一靶核酸片段退火或连接的靶区域,并且第二条码化寡核苷酸还可包含能够与第二靶核酸片段退火或连接的靶区域。

第一条码化寡核苷酸可以以5’-3’方向包含条码区域和能够与第一靶核酸片段退火的靶区域,并且第二条码化寡核苷酸可以以5’-3’方向包含条码区域和能够与第二靶核酸片段退火的靶区域。

条码化寡核苷酸还可包含本文中所述的任何特征。

条码化寡核苷酸可通过固体支持物或半固体支持物相联系。条码化寡核苷酸可直接或间接(例如通过接头分子)与支持物相联系。条码化寡核苷酸可通过与支持物结合和/或通过与结合至支持物上的接头分子结合或退火而相联系。条码化寡核苷酸可通过共价连接、非共价连接(例如蛋白质-蛋白质相互作用或链霉亲和素-生物素键)或核酸杂交与支持物(或接头分子)结合。接头分子可以是生物聚合物(例如核酸分子)或合成聚合物。接头分子可包含一个或更多个乙二醇和/或聚(乙二醇)(例如六乙二醇或五乙二醇)单元。接头分子可包含一个或更多个乙基,例如C3(三碳)间隔基、C6间隔基、C12间隔基或C18间隔基。

支持物可包含平坦表面。支持物可以是例如载玻片,例如玻璃载玻片。载玻片可以是用于测序的流动池。如果支持物是载玻片,则第一和第二条码化寡核苷酸可固定在载玻片上的离散区域中。任选地,文库中每个多聚体条码化试剂的条码化寡核苷酸相对于文库中其他多聚体条码化试剂的条码化寡核苷酸固定在载玻片上不同的离散区域中。支持物可以是包含孔的板,任选地其中第一和第二条码化寡核苷酸固定在同一孔中。任选地,文库中每个多聚体条码化试剂的条码化寡核苷酸相对于文库中其他多聚体条码化试剂的条码化寡核苷酸固定在板的不同孔中。

优选地,支持物是珠(例如凝胶珠)。珠可以是琼脂糖珠、二氧化硅珠、styrofoam珠、凝胶珠(例如可从10×获得的那些)、抗体缀合珠、oligo-dT缀合珠、链霉亲和素珠或磁珠(例如超顺磁珠)。珠可具有任何尺寸和/或分子结构。例如,珠可以是直径10纳米至100微米,直径100纳米至10微米,或者直径1微米至5微米。任选地,珠为直径约10纳米,直径约100纳米,直径约1微米,直径约10微米,或直径约100微米。珠可以是实心的,或者作为替代地珠可以是中空的或部分中空的或多孔的。对于某些条码化方法,某些尺寸的珠可以是最优选的。例如,小于5.0微米或小于1.0微米的珠对于使个体细胞内的核酸靶标条码化可以是最可用的。优选地,文库中每个多聚体条码化试剂的条码化寡核苷酸一起相对于文库中其他多聚体条码化试剂的条码化寡核苷酸联系在不同的珠上。

可将支持物官能化以使得能够连接两个或更多个条码化寡核苷酸。这种官能化可通过向支持物添加化学部分(例如羧化基团、炔烃、叠氮化物、丙烯酸酯基团、氨基、硫酸酯基团或琥珀酰亚胺基团)和/或基于蛋白质的部分(例如链霉亲和素、抗生物素蛋白或蛋白G)来实现。条码化寡核苷酸可直接或间接(例如通过接头分子)与所述部分连接。

可在促进两个或更多种个条码化寡核苷酸与溶液中的每个珠连接的条件下使官能化的支持物(例如珠)与条码化寡核苷酸的溶液接触(产生多聚体条码化试剂)。

还提供了包含通过支持物相联系的条码化寡核苷酸的多聚体条码化试剂的文库。这样的文库可基于本文中所述的多聚体条码化试剂文库的一般性质。在文库中,每个多聚体条码化试剂可包含不同的支持物(例如,不同的标记的珠)。在多聚体条码化试剂的文库中,文库中每个多聚体条码化试剂的条码化寡核苷酸可一起相对于文库中其他多聚体条码化试剂的条码化寡核苷酸联系到不同的支持物上。

18.多聚体条码化试剂包含通过包含在脂质载体中联系在一起的条码化寡核苷酸

本发明提供了用于标记靶核酸的多聚体条码化试剂,其中所述试剂包含第一和第二条码化寡核苷酸和脂质载体,其中第一和第二条码化寡核苷酸通过包含在脂质载体内而联系在一起,并且其中所述条码化寡核苷酸各自包含条码区域。

第一条码化寡核苷酸还可包含能够与第一靶核酸片段退火或连接的靶区域,并且第二条码化寡核苷酸还可包含能够与第二靶核酸片段退火或连接的靶区域。。

第一条码化寡核苷酸可以以5’-3’方向包含条码区域和能够与第一靶核酸片段退火的靶区域,并且第二条码化寡核苷酸可以以5’-3’方向包含条码区域和能够与第二靶核酸片段退火的靶区域。

条码化寡核苷酸可进一步包含本文中所述的任何特征。

本发明提供了多聚体条码化试剂的文库,其包含如本文中所限定的第一和第二多聚体条码化试剂,其中第一多聚体条码化试剂的条码化寡核苷酸包含在第一脂质载体内,并且其中第二多聚体条码化试剂的条码化寡核苷酸包含第二脂质载体内,并且其中第一多聚体条码化试剂的条码化寡核苷酸的条码区域不同于第二多聚体条码化试剂的条码化寡核苷酸的条码区域。

多聚体条码化试剂文库可包含至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少250个、至少500个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108个或至少109个如本文中所限定的多聚体条码化试剂。优选地,每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

每个多聚体条码化试剂的条码化寡核苷酸包含在不同的脂质载体中。

脂质载体可以是脂质体或胶束。脂质载体可以是磷脂载体。脂质载体可包含一种或更多种两亲性分子。脂质载体可包含一种或更多种磷脂。磷脂可以是磷脂酰胆碱。脂质载体可包含一种或更多种以下成分:磷脂酰乙醇胺、磷脂酰丝氨酸、胆固醇、心磷脂、磷酸二鲸蜡酯、硬脂胺、磷脂酰甘油、二棕榈酰磷脂酰胆碱、二硬脂基磷脂酰胆碱和/或其任何相关和/或衍生分子。任选地,脂质载体可包含两种或更多种上述成分的任意组合,具有或不具有其他成分。

脂质载体(例如脂质体或胶束)可以是单层或多层的。多聚体条码化试剂文库可包含单层脂质载体和多层脂质载体二者。脂质载体可包含共聚物,例如嵌段共聚物。

脂质载体可包含至少2个、至少3个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少10,000、或至少100,000个条码化寡核苷酸,或任何更大数量的条码化寡核苷酸。

任何脂质载体(例如脂质体或胶束、和/或脂质体试剂或胶束试剂)可平均与1个、或少于1个、或多于1个多聚体条码化试剂复合,以形成此类多聚体条码化试剂的文库。

本发明提供了多聚体条码化试剂文库,其包含至少10个如本文中所限定的多聚体条码化试剂,其中每个多聚体条码化试剂包含包含在不同脂质载体内的第一和第二条码化寡核苷酸,并且其中每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

制备多聚体条码化试剂的方法包括将条码化寡核苷酸和/或多聚体条码化试剂加载到脂质载体(例如脂质体或胶束)中。所述方法可包括被动、主动和/或远程加载的步骤。预形成的脂质载体(例如脂质体和/或胶束)可通过使其与条码化寡核苷酸和/或多聚体条码化试剂的溶液接触来加载。脂质载体(例如脂质体和/或胶束)可通过在形成或合成脂质载体之前和/或期间使其与条码化寡核苷酸和/或多聚体条码化试剂的溶液接触来加载。所述方法可包括在脂质载体中对条码化寡核苷酸和/或多聚体条码化试剂进行被动包封和/或捕获。

脂质载体(例如脂质体和/或胶束)可通过基于声处理的方法、基于弗氏压碎器的方法(French press-based method)、反相方法、溶剂蒸发方法、基于挤出的方法、基于机械混合的方法、基于冷冻/解冻的方法、基于脱水/再水合的方法、和/或其任意组合来制备。

脂质载体(例如脂质体和/或胶束)可在使用前使用已知方法稳定化和/或储存。

本文中所述的任何多聚体条码化试剂或试剂盒可包含脂质载体。

19.包含多聚体条码化试剂和衔接子寡核苷酸的试剂盒

本发明还提供了包含一种或更多种本文中限定的组分的试剂盒。本发明还提供了特别适用于实施本文中限定的任何方法的试剂盒。

本发明还提供了用于标记靶核酸的试剂盒,其中所述试剂盒包含:(a)多聚体条码化试剂,其包含(i)联系在一起的第一和第二条码分子(即多聚体条码分子),其中每个条码分子包含任选地以5’至3’方向包含衔接子区域和条码区域的核酸序列,以及(ii)第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域退火的条码区域,并且其中第二条码化寡核苷酸包含与第二条码分子的条码区域退火的条码区域;以及(b)第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸任选地以5’至3’方向包含能够与第一条码分子的衔接子区域退火的衔接子区域和能够与第一靶核酸片段退火或连接的靶区域,并且其中第二衔接子寡核苷酸任选地以5’至3’方向包含能够与第二条码分子的衔接子区域退火的衔接子区域和能够与第二靶核酸片段退火或连接的靶区域。

本发明还提供了用于标记靶核酸的试剂盒,其中所述试剂盒包含:(a)多聚体条码化试剂,其包含(i)联系在一起的第一和第二条码分子(即多聚体条码分子),其中每个条码分子包含含有衔接子区域和条码区域的核酸序列,以及(ii)第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域退火的条码区域,并且其中第二条码化寡核苷酸包含与第二条码分子的条码区域退火的条码区域;以及(b)第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸包含能够与第一条码分子的衔接子区域退火的衔接子区域和能够与第一靶核酸片段连接的靶区域,并且其中第二衔接子寡核苷酸包含能够与第二条码分子的衔接子区域退火的衔接子区域和能够与第二靶核酸片段连接的靶区域。

本发明还提供了用于标记靶核酸的试剂盒,其中所述试剂盒包含:(a)多聚体条码化试剂,其包含(i)联系在一起的第一和第二条码分子(即多聚体条码分子),其中每个条码分子包含以5’至3’方向包含衔接子区域和条码区域的核酸序列,以及(ii)第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域退火的条码区域,并且其中第二条码化寡核苷酸包含与第二条码分子的条码区域退火的条码区域;以及(b)第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸以5’至3’方向包含能够与第一条码分子的衔接子区域退火的衔接子区域和能够与第一靶核酸片段退火的靶区域,并且其中第二衔接子寡核苷酸以5’至3’方向包含能够与第二条码分子的衔接子区域退火的衔接子区域和能够与第二靶核酸片段退火的靶区域。

本发明还提供了用于标记靶核酸的试剂盒,其中所述试剂盒包含:(a)多聚体条码化试剂,其包含(i)联系在一起的第一和第二条码分子(即多聚体条码分子),其中每个条码分子包含任选地以5’至3’方向包含衔接子区域和条码区域的核酸序列,以及(ii)第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域退火的条码区域,并且其中第二条码化寡核苷酸包含与第二条码分子的条码区域退火的条码区域;以及(b)第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸包含能够与第一条码分子的衔接子区域退火并且能够与第一靶核酸片段连接的衔接子区域,并且其中第二衔接子寡核苷酸包含能够与第二条码分子的衔接子区域退火并且能够与第二靶核酸片段连接的衔接子区域。

每个衔接子寡核苷酸可基本上由衔接子区域组成或由衔接子区域组成。每个衔接子寡核苷酸可不包含靶区域。

优选地,第一衔接子寡核苷酸的衔接子区域包含与第一条码分子的衔接子区域互补且能够与其退火的序列,并且第二衔接子寡核苷酸的衔接子区域包含与第二条码分子的衔接子区域互补且能够与其退火的序列。每个衔接子寡核苷酸的互补序列可以是至少5个、至少10个、至少15个、至少20个、至少25个、至少50个或至少100个连续核苷酸。

衔接子寡核苷酸的靶区域可以不能够与多聚体条码分子退火。衔接子寡核苷酸的靶区域可以不与多聚体条码分子互补。

每个衔接子寡核苷酸的靶区域可包含不同的序列。每个靶区域可包含能够仅与核酸样品内的单个靶核酸片段退火的序列。每个靶区域可包含一个或更多个随机序列或者一个或更多个简并序列,以使靶区域能够与多于一个靶核酸片段退火。每个靶区域可包含至少5个、至少10个、至少15个、至少20个、至少25个、至少50个或至少100个核苷酸。优选地,每个靶区域包含至少5个核苷酸。每个靶区域可包含5至100个核苷酸,5至10个核苷酸,10至20个核苷酸,20至30个核苷酸,30至50个核苷酸,50至100个核苷酸,10至90个核苷酸,20至80个核苷酸,30至70个核苷酸或50至60个核苷酸。优选地,每个靶区域包含30至70个核苷酸。优选地,每个靶区域包含脱氧核糖核苷酸,任选地靶区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个靶区域可包含一个或更多个通用碱基(例如肌苷)、一个或经修饰的核苷酸和/或一个或更多个核苷酸类似物。

靶区域可用于使衔接子寡核苷酸与靶核酸的片段退火,并随后可用作引物延伸反应或扩增反应(例如聚合酶链式反应)的引物。或者,靶区域可用于将衔接子寡核苷酸连接至靶核酸的片段。靶区域可位于衔接子寡核苷酸的5’端。这样的靶区域可被磷酸化。这可使靶区域的5’端能够连接至靶核酸片段的3’端。

衔接子寡核苷酸可包含在衔接子区域与靶区域之间的接头区域。接头区域可包含不与第一和第二条码分子(即多聚体条码分子)退火并且不与靶核酸片段互补的一个或更多个连续核苷酸。接头可包含1至100个、5至75个、10至50个、15至30或20至25个非互补核苷酸。优选地,接头包含15至30个非互补核苷酸。使用这种接头区域增强了使用本文中所述试剂盒进行的条码化反应的效率。

试剂盒的每种组分可采用本文中限定的任何形式。

多聚体条码化试剂和衔接子寡核苷酸可作为物理上分离的组分在试剂盒中提供。

所述试剂盒可包含:(a)多聚体条码化试剂,其包含至少5个、至少10个、至少20个、至少25个、至少50个、至少75或至少100个联系在一起的条码分子,其中每个条码分子如本文中所限定;以及(b)能够与每个条码分子退火的衔接子寡核苷酸,其中每个衔接子寡核苷酸如本文中所限定。

图2示出了用于标记靶核酸的包含多聚体条码化试剂和衔接子寡核苷酸的试剂盒。更具体地,该试剂盒包含第一(D1、E1和F1)和第二(D2、E2和F2)条码分子,每个条码分子并入了条码区域(E1和E2)以及5’衔接子区域(F1和F2)。在该实施方案中,这些第一和第二条码分子通过连接核酸序列(S)联系在一起。

该试剂盒还包含第一(A1和B1)和第二(A2和B2)条码化寡核苷酸,其各自包含条码区域(B1和B2),以及5’区域(A1和A2)。每个条码化寡核苷酸的5’区域与条码分子的3’区域(D1和D2)互补并因此可与其退火。条码区域(B1和B2)与条码分子的条码区域(E1和E2)互补并因此可与其退火。

该试剂盒还包含第一(C1和G1)和第二(C2和G2)衔接子寡核苷酸,其中每个衔接子寡核苷酸包含与条码分子的5’衔接子区域(F1和F2)互补并因此能够与其退火的衔接子区域(C1和C2)。可合成这些衔接子寡核苷酸以包含5’-末端磷酸基团。每个衔接子寡核苷酸还包含靶区域(G1和G2),其可用于使条码化-衔接子寡核苷酸(A1、B1、C1和G1,以及A2、B2、C2和G2)与靶核酸退火,并随后可用作引物延伸反应或聚合酶链式反应的引物。

试剂盒可包含两个或更多个多聚体条码化试剂的文库,其中每个多聚体条码化试剂如本文中所限定,以及用于每个多聚体条码化试剂的衔接子寡核苷酸,其中每个衔接子寡核苷酸如本文中所限定。第一多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于第二多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域。

所述试剂盒可包含含有至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少250个、至少500个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108个或至少109个如本文中所限定的多聚体条码化试剂的文库。优选地,试剂盒包含含有至少10个如本文中所限定的多聚体条码化试剂的文库。试剂盒还可包含用于每个多聚体条码化试剂的衔接子寡核苷酸,其中每个衔接子寡核苷酸可以采取本文中限定的任何衔接子寡核苷酸的形式。优选地,每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域可不同于文库中的至少4个、至少9个、至少19个、至少24个、至少49个、至少74个、至少99个、至少249个、至少499个、至少999(即103-1)个、至少104-1个、至少105-1个、至少106-1个、至少107-1个、至少108-1个或至少109-1个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域可不同于文库中所有其他多聚体条码化试剂的条码化寡核苷酸的条码区域。优选地,每个多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

每个多聚体条码化试剂的条码化寡核苷酸的条码区域可不同于文库中的至少4个、至少9个、至少19个、至少24个、至少49个、至少74个、至少99个、至少249个、至少499个、至少999(即103-1)个、至少104-1个、至少105-1个、至少106-1个、至少107-1个、至少108-1个或至少109-1个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。每个多聚体条码化试剂的条码化寡核苷酸的条码区域可不同于文库中所有其他多聚体条码化试剂的条码化寡核苷酸的条码区域。优选地,每个多聚体条码化试剂的条码化寡核苷酸的条码区域不同于文库中至少9个其他多聚体条码化试剂的条码化寡核苷酸的条码区域。

本发明提供了用于标记用于测序的靶核酸的试剂盒,其中所述试剂盒包含:(a)包含至少10个多聚体条码化试剂的多聚体条码化试剂文库,其中每个多聚体条码化试剂包含:(i)包含在(单个)核酸分子内的第一和第二条码分子,其中每个条码分子包含任选地以5’至3’方向包含衔接子区域和条码区域的核酸序列,以及(ii)第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域互补且退火的条码区域,并且其中第二条码化寡核苷酸包含与第二条码分子的条码区域互补且退火的条码区域;以及(b)用于每个多聚体条码化试剂的第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸任选地以5’至3’方向包含能够与第一条码分子的衔接子区域退火的衔接子区域和能够与第一靶核酸片段退火或连接的靶区域,并且其中第二衔接子寡核苷酸任选地以5’至3’方向包含能够与第二条码分子的衔接子区域退火的衔接子区域和能够与第二靶核酸片段退火或连接的靶区域。

20.包含多聚体条码化试剂、衔接子寡核苷酸和延伸引物的试剂盒

本发明还提供了用于标记用于测序的靶核酸的试剂盒,其中所述试剂盒包含:(a)多聚体条码分子,其包含联系在一起的第一和第二条码分子,其中每个条码分子包含任选地以5’至3’方向包含衔接子区域、条码区域和引发区域的核酸序列;(b)用于多聚体条码分子的第一和第二延伸引物,其中第一延伸引物包含能够与第一条码分子的引发区域退火的序列,并且其中第二延伸引物包含能够与第二条码分子的引发区域退火的序列;以及(c)用于多聚体条码分子的第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸任选地以5’至3’方向包含能够与第一条码分子的衔接子区域退火的衔接子区域和能够与第一靶核酸片段退火或连接的靶区域,并且其中第二衔接子寡核苷酸任选地以5’至3’方向包含能够与第二条码分子的衔接子区域退火的衔接子区域和能够与第二靶核酸片段退火或连接的靶区域。

本发明还提供了用于标记用于测序的靶核酸的试剂盒,其中所述试剂盒包含:(a)多聚体条码分子,其包含联系在一起的第一和第二条码分子,其中每个条码分子包含任选地以5’至3’方向包含衔接子区域、条码区域和引发区域的核酸序列;(b)用于多聚体条码分子的第一和第二延伸引物,其中第一延伸引物包含能够与第一条码分子的引发区域退火的序列,并且其中第二延伸引物包含能够与第二条码分子的引发区域退火的序列;以及(c)用于多聚体条码分子的第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸包含能够与第一条码分子的衔接子区域退火并且能够与第一靶核酸片段连接的衔接子区域,并且其中第二衔接子寡核苷酸包含能够与第二条码分子的衔接子区域退火并且能够与第二靶核酸片段连接的靶区域。

每个衔接子寡核苷酸可基本上由衔接子区域组成或由衔接子区域组成

试剂盒的组分可采用本文中所述的任何形式。

优选地,第一延伸引物包含与第一条码分子的引发区域互补且能够与其退火的序列,并且第二延伸引物包含与第二条码分子的引发区域互补且能够与其退火的序列。每个延伸引物的互补序列可以是至少5个、至少10个、至少15个、至少20个、至少25个、至少50个或至少100个连续核苷酸。

第一和第二延伸引物可以能够使用第一和第二条码分子的条码区域作为模板延伸,以产生第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域互补的序列,并且第二条码化寡核苷酸包含与第二条码分子的条码区域互补的序列。

第一和第二延伸引物的序列可以相同。或者,第一和第二延伸引物的序列可以不同。

第一延伸引物和/或第二延伸引物还可包含分别具有与第一条形码分子和第二条形码分子不互补的核酸序列的一个或更多个区域。任选地,这样的非互补区域可包含一种或更多种扩增引物的结合位点。任选地,这样的非互补区可位于分子的5’区域内。任选地,第一和第二延伸引物可包含能够与核酸分子的3’端连接的末端5’磷酸基团。

第一延伸引物和/或第二延伸引物还可包含一个或更多个第二条码区域。任选地,第二条码区域可包含在延伸引物的与条码分子不互补的区域内。任选地,第二条码区域可包含在延伸引物的区域内,该区域位于延伸引物的与条码分子互补的3’区域和延伸引物的包含扩增引物的结合位点的5’区域之间。

第二条码区域可包含一个或更多个核苷酸的序列,其中第一延伸引物和第二延伸引物的第二条码区域的序列不同。任选地,所述一个或更多个核苷酸可包含随机或简并核苷酸。任选地,所述一个或更多个核苷酸可包含不同但非随机的核苷酸。任何第二条码区域可包含至少2个、至少3个、至少5个、至少10个、至少15个、至少20个或至少30个核苷酸。任何第二条码区域可包含条码寡核苷酸的连续序列,或可包含由至少一个非条码或不变核苷酸分隔的两个或更多个不同区段。任选地,任何第二条码区域可包括唯一分子标识符(uniquemolecular identifier,UMI)。

试剂盒可包含两个或更多个多聚体条码分子的文库,其中每个多聚体条码分子如本文中所限定,以及第一和第二延伸引物,以及用于每个多聚体条码分子的第一和第二衔接子寡核苷酸。延伸引物和衔接子寡核苷酸可采用本文中所述的任何形式。第一多聚体条码分子的第一和第二条码分子的条码区域不同于第二多聚体条码分子的第一和第二条码分子的条码区域。

所述试剂盒可包含含有至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少250个、至少500个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108个或至少109个如本文中所限定的多聚体条码分子的文库。优选地,试剂盒包含含有至少10个如本文中所限定的多聚体条码分子的文库。试剂盒还可包含用于每个多聚体条码分子的延伸引物和/或衔接子寡核苷酸。延伸引物和衔接子寡核苷酸可采用本文中所述的任何形式。优选地,每个多聚体条码分子的第一和第二条码分子的条码区域不同于文库中至少9个其他多聚体条码分子的条码分子的条码区域。

每个多聚体条码分子的第一和第二条码分子的条码区域可不同于文库中的至少4个、至少9个、至少19个、至少24个、至少49个、至少74个、至少99个、至少249个、至少499个、至少999(即103-1)个、至少104-1个、至少105-1个、至少106-1个、至少107-1个、至少108-1个或至少109-1个其他多聚体条码分子的条码分子的条码区域。每个多聚体条码分子的第一和第二条码分子的条码区域可不同于文库中所有其他多聚体条码分子的条码分子的条码区域。优选地,每个多聚体条码分子的第一和第二条码分子的条码区域不同于文库中至少9个其他多聚体条码分子的条码分子的条码区域。

每个多聚体条码分子的条码分子的条码区域可不同于文库中的至少4个、至少9个、至少19个、至少24个、至少49个、至少74个、至少99个、至少249个、至少499个、至少999(即103-1)个、至少104-1个、至少105-1个、至少106-1个、至少107-1个、至少108-1个或至少109-1个其他多聚体条码分子的条码分子的条码区域。每个多聚体条码分子的条码分子的条码区域可不同于文库中所有其他多聚体条码分子的条码分子的条码区域。优选地,每个多聚体条码分子的条码分子的条码区域不同于文库中至少9个其他多聚体条码分子的条码分子的条码区域。

本发明还提供了用于标记用于测序的靶核酸的试剂盒,其中所述试剂盒包含:(a)包含至少10个多聚体条码分子的多聚体条码分子文库,每个多聚体条码分子包含包含在(单个)核酸分子中的第一和第二条码分子,其中每个条码分子包含任选地以5’至3’方向包含衔接子区域、条码区域和引发区域的核酸序列,并且其中每个多聚体条码分子的第一和第二条码分子的形码区域不同于文库中9个其他多聚体条码分子的条码区域;(b)用于每个多聚体条码分子的第一和第二延伸引物,其中第一延伸引物包含能够与第一条码分子的引发区域退火的序列,并且其中第二延伸引物包含能够与第二条码分子的引发区域退火的序列;以及(c)用于每个多聚体条码分子的第一和第二衔接子寡核苷酸,其中第一衔接子寡核苷酸任选地以5’至3’方向包含能够与第一条码分子的衔接子区域退火的衔接子区域和能够与第一靶核酸片段退火或连接的靶区域,并且其中第二衔接子寡核苷酸任选地以5’至3’方向包含能够与第二条码分子的衔接子区域退火的衔接子区域和能够与第二靶核酸片段退火或连接的靶区域。

21.制备用于测序的核酸样品的方法

制备用于测序的核酸样品的方法可包括(i)使核酸样品与包含联系在一起的第一和第二条码区域的多聚体条码化试剂接触,其中每个条码区域包含核酸序列,以及(ii)将条码序列附接至第一和第二靶核酸片段以产生第一和第二不同的条码化靶核酸分子,其中第一条码化靶核酸分子包含第一条码区域的核酸序列并且第二条码化靶核酸分子包含第二条码区域的核酸序列

在多聚体条码化试剂包含联系在一起的第一和第二条码化寡核苷酸的方法中,条码序列可通过本文中所述的任何方法附接至第一和第二靶核酸片段。

第一和第二条码化寡核苷酸可连接至第一和第二靶核酸片段,以产生第一和第二不同的条码化靶核酸分子。任选地,在连接步骤之前,所述方法包括将第一和第二偶联序列附接至靶核酸,其中第一和第二偶联序列是与第一和第二条码化寡核苷酸连接的第一和第二靶核酸片段。

第一和第二条码化寡核苷酸可与延伸的第一和第二靶核酸片段退火,以产生第一和第二不同的条码化靶核酸分子。任选地,在退火步骤之前,所述方法包括将第一和第二偶联序列附接至靶核酸,其中第一和第二偶联序列是与第一和第二条码化寡核苷酸退火的第一和第二靶核酸片段。

第一和第二条码化寡核苷酸可在其5’端与靶核酸的第一和第二亚序列退火,并且第一和第二靶引物可分别与靶核酸的第三和第四亚序列退火,其中第三亚序列在第一亚序列的3’,并且其中第四亚序列在第二亚序列的3’。所述方法还包括使用靶核酸作为模板使第一靶引物延伸直至其到达第一亚序列,以产生第一经延伸靶引物,并且使用靶核酸作为模板延伸第二靶引物直至其到达第二亚序列,以产生第二经延伸靶引物,并且将第一经延伸靶引物的3’端连接至第一条码化寡核苷酸的5’端以产生第一条码化靶核酸分子,并且将第二经延伸靶引物的3’端连接至第二条码化寡核苷酸的5’端以产生第二条码化靶核酸分子,其中第一和第二条码化靶核酸分子不同并且各自包含由靶核酸作为模板合成的至少一个核苷酸。任选地,在一个或两个退火步骤之前,所述方法包括将第一和第二偶联序列、和/或第三和第四偶联序列附接至靶核酸,其中第一和第二偶联序列是与第一和第二条码化寡核苷酸退火的靶核酸的第一和第二亚序列,和/或其中第三和第四偶联序列是与第一和第二靶引物退火的靶核酸的第三和第四亚序列。

如本文中所述,在使多聚体杂交分子、多聚体条码分子、条码化寡核苷酸、衔接子寡核苷酸或靶引物与靶核酸退火或连接之前,可将偶联序列附接至靶核酸。随后可使多聚体杂交分子、多聚体条码分子、条码化寡核苷酸、衔接子寡核苷酸或靶引物与偶联序列退火或连接。

可将偶联序列添加到核酸样品的两个或更多个靶核酸的5’端或3’端。在该方法中,(条码化寡核苷酸的)靶区域可包含与偶联序列互补的序列。

偶联序列可包含在双链偶联寡核苷酸内或单链偶联寡核苷酸内。偶联寡核苷酸可通过双链连接反应或单链连接反应附接至靶核酸。偶联寡核苷酸可包含能够与靶核酸连接的单链5’或3’区域,并且偶联序列可通过单链连接反应附接至靶核酸。

偶联寡核苷酸可包含能够与靶核酸连接的平端、凹端的或突出端5’或3’区域,并且偶联序列可通过双链连接反应附接至靶核酸。

靶核酸的末端可在平端化反应中转化为平端双链末端,并且偶联寡核苷酸可包含平端双链末端,并且其中偶联寡核苷酸可在平端连接反应中与靶核酸连接。

靶核酸的末端可在平端化反应中转化为平端双链末端,随后转化为具有单个3’腺苷突出端的形式,并且其中偶联寡核苷酸可包含具有单个3’胸腺嘧啶突出端的双链末端,其能够与靶核酸的单个3’腺苷突出端退火,并且其中偶联寡核苷酸在双链A/T连接反应中与靶核酸连接。

靶核酸可与限制酶接触,其中限制酶在限制性位点处消化靶核酸以在限制性位点处产生连接接界,并且其中偶联寡核苷酸包含与这些连接接界相容的末端,并且其中偶联寡核苷酸随后在双链连接反应中与靶核酸连接。

偶联寡核苷酸可通过引物延伸或聚合酶链式反应步骤附接。

可使用包含引发区段的一个或更多个寡核苷酸通过引物延伸或聚合酶链式反应步骤附接偶联寡核苷酸,所述引发区段包含一个或更多个简并碱基

可使用还包含对于特定靶核酸序列具有特异性的引发或杂交区段的一个或更多个寡核苷酸通过引物延伸或聚合酶链式反应步骤附接偶联寡核苷酸。

可通过多核苷酸加尾反应添加偶联序列。偶联序列可通过末端转移酶(例如末端脱氧核苷酸转移酶)进行添加。偶联序列可通过用末端脱氧核苷酸转移酶进行的多核苷酸加尾反应来附接,并且其中偶联序列包含同聚序列的至少两个连续核苷酸。

偶联序列可包含同聚3’尾(例如poly(A)尾)。任选地,在这样的方法中,(条码化寡核苷酸的)靶区域包含互补的同聚3’尾(例如poly(T)尾)。

偶联序列可包含在合成转座子内,并且可通过体外转座反应进行附接。

偶联序列可附接至靶核酸,并且其中条码寡核苷酸通过至少一个引物延伸步骤或聚合酶链式反应步骤附接至靶核酸,并且其中所述条码寡核苷酸包含与所述偶联序列互补的长度为至少一个核苷酸的区域。任选地,该互补区域位于条码寡核苷酸的3’端。任选地,该互补区域长度为至少2个核苷酸,长度为至少5个核苷酸,长度为至少10个核苷酸,长度为至少20个核苷酸,或长度为至少50个核苷酸。

在将衔接子寡核苷酸附接(例如连接或退火)至靶核酸的方法中,衔接子寡核苷酸的衔接子区域提供能够与多聚体杂交分子或多聚体条码分子的衔接子区域杂交的偶联序列。

本发明提供了制备用于测序的核酸样品的方法,其包括以下步骤:(a)将偶联序列附接至第一和第二靶核酸片段上;(b)使核酸样品与包含联系在一起的第一和第二条码分子的多聚体条码化试剂接触,其中每个条码分子包含含有(以5’至3’或3’至5’方向)条码区域和衔接子区域的核酸序列;(c)使第一片段的偶联序列与第一条码分子的衔接子区域退火,并使第二片段的偶联序列与第二条码分子的衔接子区域退火;以及(d)将条码序列附接至至少两个靶核酸片段中的每一个以产生第一和第二不同的条码化靶核酸分子,其中第一条码化靶核酸分子包含第一条码分子的条码区域的核酸序列,并且第二条码化靶核酸分子包含第二条码分子的条码区域的核酸序列。

在所述方法中,每个条码分子可包含以5’至3’方向包含条码区域和衔接子区域的核酸序列,并且步骤(d)可包括使用第一条码分子的条码区域作为模板使第一靶核酸片段的偶联序列延伸以产生第一条码化靶核酸分子,并且使用第二条码分子的条码区域作为模板使第二靶核酸片段的偶联序列延伸以产生第二条码化靶核酸分子,其中第一条码化靶核酸分子包含与第一条码分子的条码区域互补的序列,并且第二条码化靶核酸分子包含与第二条码分子的条码区域互补的序列。

在所述方法中,每个条码分子可包含以5’至3’方向包含衔接子区域和条码区域的核酸序列,并且步骤(d)可包括(i)使用第一条码分子的条码区域作为模板使第一延伸引物退火并延伸以产生第一条码化寡核苷酸,并且使用第二条码分子的条码区域作为模板使第二延伸引物退火并延伸以产生第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域互补的序列,并且第二条码化寡核苷酸包含与第二条码分子的条码区域互补的序列,(ii)将第一条码化寡核苷酸的3’端连接至第一靶核酸片段的偶联序列的5’端以产生第一条码化靶核酸分子,并且将第二条码化寡核苷酸的3’端连接至第二靶核酸片段的偶联序列的5’端以产生第二条码化靶核酸分子。

在所述方法中,每个条码分子可包含以5’至3’方向包含衔接子区域、条码区域和引发区域的核酸序列,其中步骤(d)包括(i)使第一延伸引物与第一条码分子的引发区域退火并使用第一条码分子的条码区域作为模板使第一延伸引物延伸以产生第一条码化寡核苷酸,并且使第二延伸引物与第二条码分子的引发区域退火并使用第二条码分子的条码区域作为模板使第二延伸引物延伸以产生第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域互补的序列,并且第二条码化寡核苷酸包含与第二条码分子的条码区域互补的序列,(ii)将第一条码化寡核苷酸的3’端连接至第一靶核酸片段的偶联序列的5’端以产生第一条码化靶核酸分子,并且将第二条码化寡核苷酸的3’端连接至第二靶核酸片段的偶联序列的5’端以产生第二条码化靶核酸分子。

制备用于测序的核酸样品的方法可用于制备一系列不同的用于测序的核酸样品。靶核酸可以是DNA分子(例如基因组DNA分子)或RNA分子(例如mRNA分子)。靶核酸可以来自任何样品。例如,个体细胞(或多个细胞)、组织、体液(例如血液、血浆和/或血清)、活检或***固定的石蜡包埋(FFPE)样品。

样品可包含至少10个、至少100个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108个或至少109个靶核酸。

所述方法可包括产生至少2个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少250个、至少500个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108个或至少109个不同的条码化靶核酸分子。优选地,所述方法包括产生至少5个不同的条码化靶核酸分子。

每个条码化靶核酸分子可包含至少1个、至少5个、至少10个、至少25个、至少50个、至少100个、至少250个、至少500个、至少1000个、至少2000个、至少5000个、或至少10,000个由靶核酸作为模板合成的核苷酸。优选地,每个条码化靶核酸分子包含至少20个由靶核酸作为模板合成的核苷酸。

或者,每个条码化靶核酸分子可包含靶核酸的至少5个、至少10个、至少25个、至少50个、至少100个、至少250个、至少500个、至少1000个、至少2000个、至少5000个、或至少10,000个核苷酸。优选地,每个条码化靶核酸分子包含靶核酸的至少5个核苷酸。

可将通用引发序列添加到条码化靶核酸分子。该序列可使得能够使用一种正向引物和一种反向引物随后扩增至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少250个、至少500个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108、或至少109个不同的条码化靶核酸分子。

所述方法可包括制备两个或更多个独立的用于测序的核酸样品,其中每个核酸样品使用不同的多聚体条码化试剂文库(或不同的多聚体条码分子文库)来制备,并且其中每个多聚体条码化试剂文库(或多聚体条码分子)的条码区域包含与其他多聚体条码化试剂(或多聚体条码分子)文库的条码区域不同的序列。在单独制备每个用于测序的样品之后,可将从不同样品制备的条码化靶核酸分子合并并一起测序。为每个条码化靶核酸分子产生的序列读取可用于鉴定在其制备中使用的多聚体条码化试剂(或多聚体条码分子)的文库,并由此鉴定从其制备的核酸样品。

在制备用于测序的核酸样品的任何方法中,靶核酸分子可以以特定浓度存在于核酸样品内,例如浓度为至少100纳摩,至少10纳摩,至少1纳摩,至少100皮摩,至少10皮摩,至少1皮摩,至少100飞摩,至少10飞摩,或至少1飞摩。浓度可以是1皮摩至100纳摩,10皮摩至10纳摩,或100皮摩至1纳摩。优选地,浓度为10皮摩至1纳摩。

在制备用于测序的核酸样品的任何方法中,多聚体条码化试剂可以以特定浓度存在于核酸样品内,例如浓度为至少100纳摩,至少10纳摩,至少1纳摩,至少100皮摩,至少10皮摩,至少1皮摩,至少100飞摩,至少10飞摩,或至少1飞摩。浓度可以是1皮摩至100纳摩,10皮摩至10纳摩,或100皮摩至1纳摩。优选地,浓度为1皮摩至100皮摩。

在制备用于测序的核酸样品的任何方法中,多聚体条码分子可以以特定浓度存在于核酸样品内,例如浓度为至少100纳摩,至少10纳摩,至少1纳摩,至少100皮摩,至少10皮摩,至少1皮摩,至少100飞摩,至少10飞摩,或至少1飞摩。浓度可以是1皮摩至100纳摩,10皮摩至10纳摩,或100皮摩至1纳摩。优选地,浓度为1皮摩至100皮摩。

在制备用于测序的核酸样品的任何方法中,条码化寡核苷酸可以以特定浓度存在于核酸样品内,例如浓度为至少100纳摩,至少10纳摩,至少1纳摩,至少100皮摩,至少10皮摩,至少1皮摩,至少100飞摩,至少10飞摩,或至少1飞摩。浓度可以是1皮摩至100纳摩,10皮摩至10纳摩,或100皮摩至1纳摩。优选地,浓度为100皮摩至100纳摩。

22.使用多聚体条码化试剂制备用于测序的核酸样品的方法

本发明提供了制备用于测序的核酸样品的方法,其中所述方法包括以下步骤:使核酸样品与如本文中所限定的多聚体条码化试剂接触;使第一条码化寡核苷酸的靶区域与第一靶核酸片段退火,并且使第二条码化寡核苷酸的靶区域与第二靶核酸片段退火;并且使第一和第二条码化寡核苷酸延伸以产生第一和第二不同的条码化靶核酸分子,其中每个条码化靶核酸分子包含至少一个由靶核酸作为模板合成的核苷酸。

在制备用于测序的核酸样品的任何方法中,核酸样品中的核酸分子和/或多聚体条码化试剂可以以特定浓度存在于溶液体积内,例如浓度为至少100纳摩,至少10纳摩,至少1纳摩,至少100皮摩,至少10皮摩,或至少1皮摩。浓度可以是1皮摩至100纳摩,10皮摩至10纳摩,或100皮摩至1纳摩。也可使用其他更高或更低的浓度。

制备用于测序的核酸样品的方法可包括使核酸样品与如本文中所限定的多聚体条码化试剂文库接触,并且其中:第一多聚体条码化试剂的条码化寡核苷酸与第一靶核酸片段退火并产生第一和第二不同的条码化靶核酸分子,其中每个条码化靶核酸分子包含至少一个由第一靶核酸作为模板合成的核苷酸;并且第二多聚体条码化试剂的条码化寡核苷酸与第二靶核酸片段退火并产生第一和第二不同的条码化靶核酸分子,其中每个条码化靶核酸分子包含至少一个由第二靶核酸作为模板合成的核苷酸。

在该方法中,在与靶核酸的片段退火之后并且在产生条码化靶核酸分子之前,可从核酸样品中分离条码化寡核苷酸。任选地,通过链霉亲和素-生物素相互作用捕获在固体支持物上来分离条码化寡核苷酸。

作为补充或替代,可从核酸样品中分离条码化靶核酸分子。任选地,通过链霉亲和素-生物素相互作用捕获在固体支持物上来分离条码化靶核酸分子。

延伸条码化寡核苷酸的步骤可在条码化寡核苷酸与条码分子退火的同时进行。

图3示出了制备用于测序的核酸样品的方法,其中使用本文中限定的多聚体条码化试剂(例如,如图1中所示)来标记和延伸核酸样品中的两个或更多个核酸亚序列。在所述方法中,合成了多聚体条码化试剂,其引入了至少第一(A1、B1、C1和G1)和第二(A2、B2、C2和G2)条码化寡核苷酸,后者各自包含条码区域(B1和B2)和靶区域(分别为G1和G2)。

将包含靶核酸的核酸样品与多聚体条码化试剂接触或混合,并允许两个或更多个条码化寡核苷酸的靶区域(G1和G2)与靶核酸内的两个或更多个相应的亚序列(H1和H2)退火。在退火步骤之后,将第一和第二条码化寡核苷酸延伸(例如,用靶区域作为聚合酶的引物)到靶核酸的序列中,使得亚序列的至少一个核苷酸引入到每个条码化寡核苷酸的延伸3’端。该方法产生条码化靶核酸分子,其中来自靶核酸的两个或更多个亚序列用条码化寡核苷酸进行标记。

或者,该方法还可包括在使条码化寡核苷酸的靶区域与靶核酸的亚序列退火之前将使条码化寡核苷酸与条码分子解离的步骤。

图4示出了制备用于测序的核酸样品的方法,其中使用本文中所述的多聚体条码化试剂(例如,如图1中所示)来标记和延伸核酸样品中的两个或更多个核酸亚序列,但是其中在与靶核酸序列退火(并且延伸靶核酸序列)之前,使来自多聚体条码化试剂的条码化寡核苷酸与条码分子解离。在所述方法中,合成了多聚体条码化试剂,其引入了至少第一(A1、B1、C1和G1)和第二(A2、B2、C2和G2)条码化寡核苷酸,后者各自包含条码区域(B1和B2)和靶区域(分别为G1和G2)。

使包含靶核酸的核酸样品与多聚体条码化试剂接触,并随后使条码化寡核苷酸与条码分子解离。可例如通过使试剂暴露于升高的温度(例如,至少35℃、至少40℃、至少45℃、至少50℃、至少55℃、至少60℃、至少65℃、至少70℃、至少75℃、至少80℃、至少85℃、或至少90℃的温度)或通过化学变性剂或其组合来完成该步骤。该步骤还可使样品本身内的双链核酸变性。随后可允许条码化寡核苷酸扩散一定量的时间(例如至少5秒、至少15秒、至少30秒、至少60秒、至少2分钟、至少5分钟、至少15分钟、至少30分钟、或至少60分钟)(并相应地,在样品内扩散一定的物理距离)。

随后可改变试剂-样品混合物的条件以允许两个或更多个条码化寡核苷酸的靶区域(G1和G2)与靶核酸内的两个或更多个相应的亚序列(H1和H2)退火。这可包括例如降低溶液的温度以允许退火(例如,将温度降低至低于90℃、低于85℃、低于70℃、低于65℃、低于60℃、低于55℃、低于50℃、低于45℃、低于40℃、低于35℃、低于30℃、低于25℃或低于20℃)。在该退火步骤之后(或例如,在纯化/制备步骤之后),将第一和第二条码化寡核苷酸延伸(例如,靶区域用作聚合酶的引物)到靶核酸的序列中,使得亚序列的至少一个核苷酸并入到每个条码化寡核苷酸的延伸的3’端。

所述方法产生了条码化靶核酸分子,其中来自核酸样品的两个或更多个亚序列由条码化寡核苷酸标记。此外,使条码化寡核苷酸解离并使其扩散通过样品的步骤对于特定类型的样品具有优势。例如,交联的核酸样品(例如***固定的石蜡包埋的(FFPE)样品)可经受相对小的单个条码化寡核苷酸的扩散。该方法可允许标记具有较差可及性(例如FFPE样品)或其他生物物理性质的核酸样品,例如,其中靶核酸亚序列彼此物理上远离。

可将通用引发序列添加至条码化靶核酸分子。该序列可使得能够使用一种正向引物和一种反向引物随后扩增至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少250个、至少500个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108、或至少109个不同的条码化靶核酸分子。

在使核酸样品与如本文中所限定的多聚体条码化试剂或多聚体条码化试剂文库接触之前,可将偶联序列添加至核酸样品的两个或更多个靶核酸的5’端或3’端。在该方法中,靶区域可包含与偶联序列互补的序列。偶联序列可包含同聚3’尾(例如poly(A)尾)。偶联序列可通过末端转移酶来添加。在其中偶联序列包含poly(A)尾的方法中,靶区域可包含poly(T)尾序列。可在核酸样品的高温孵育之后添加这样的偶联序列,以在添加偶联序列之前使其中包含的核酸变性。

或者,可通过用限制酶消化靶核酸样品来添加偶联序列,在这种情况下,偶联序列可包含限制酶识别序列的一个或更多个核苷酸。在这种情况下,偶联序列可以是至少部分双链的,并且可包含平端双链DNA序列,或具有1个或更多个核苷酸的5’突出端区域的序列,或具有1个或更多个核苷酸的3’突出端区域的序列。在这些情况下,多聚体条码化试剂中的靶区域可随后包含双链和平端序列(并因此能够与平端限制性消化产物连接),或者靶区域可包含1个或更多个核苷酸的5’或3’突出端序列,其使得它们与所述限制性消化产物黏合(并因此能够与其退火和连接)。

所述方法可包括制备两个或更多个独立的用于测序的核酸样品,其中每个核酸样品使用不同的多聚体条码化试剂文库(或不同的多聚体条码分子文库)来制备,并且其中每个多聚体条码化试剂文库(或多聚体条码分子)的条码区域包含与其他多聚体条码化试剂(或多聚体条码分子)文库的条码区域不同的序列。在单独制备每个用于测序的样品之后,可将从不同样品制备的条码化靶核酸分子合并并一起测序。为每个条码化靶核酸分子产生的序列读取可用于鉴定在其制备中使用的多聚体条码化试剂(或多聚体条码分子)的文库,并因而鉴定从其制备的核酸样品。

本发明提供了制备用于测序的核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与多聚体条码化试剂以及第一和第二靶引物接触,其中每个条码化寡核苷酸以5’至3’方向包含靶区域和条码区域;(b)使第一条码化寡核苷酸的靶区域与靶核酸的第一亚序列退火,并且使第二条码化寡核苷酸的靶区域与靶核酸的第二亚序列退火;(c)使第一靶引物与靶核酸的第三亚序列退火,其中第三亚序列在第一亚序列的3’,并且使第二靶引物与靶核酸的第四亚序列退火,其中第四亚序列在第二亚序列的3’;(d)使用靶核酸作为模板使第一靶引物延伸直至其到达第一亚序列以产生第一经延伸靶引物,并且使用靶核酸作为模板使第二靶引物延伸直至其到达第二亚序列以产生第二经延伸靶引物;以及(e)将第一经延伸靶引物的3’端连接至第一条码化寡核苷酸的5’端以产生第一条码化靶核酸分子,并且将第二经延伸靶引物的3’端连接至第二条码化寡核苷酸的5’端以产生第二条码化靶核酸分子,其中第一和第二条码化靶核酸分子不同,并且其中每个条码化靶核酸分子包含至少一个由靶核酸作为模板合成的核苷酸。

在该方法中,步骤(b)和(c)可同时进行。

23.使用多聚体条码化试剂和衔接子寡核苷酸制备用于测序的核酸样品的方法

以下提供的方法可用本文中限定的任何试剂盒来进行。

本发明还提供了制备用于测序的核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与如本文中所限定的第一和第二衔接子寡核苷酸接触;(b)使第一衔接子寡核苷酸与第一靶核酸片段退火或连接,并且使第二衔接子寡核苷酸与第二靶核酸片段退火或连接;(c)使核酸样品与如本文中所限定的多聚体条码化试剂接触;(d)使第一衔接子寡核苷酸的衔接子区域与第一条码分子的衔接子区域退火,并且使第二衔接子寡核苷酸的衔接子区域与第二条码分子的衔接子区域退火;以及(e)将第一条码化寡核苷酸的3’端连接至第一衔接子寡核苷酸的5’端以产生第一条码化-衔接子寡核苷酸,并且将第二条码化寡核苷酸的3’端连接至第二衔接子寡核苷酸的5’端以产生第二条码化-衔接子寡核苷酸。

本发明还提供了制备用于测序的核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与如本文中所限定的第一和第二衔接子寡核苷酸接触;(b)使第一衔接子寡核苷酸与第一靶核酸片段连接,并且使第二衔接子寡核苷酸与第二靶核酸片段连接;(c)使核酸样品与如本文中所限定的多聚体条码化试剂接触;(d)使第一衔接子寡核苷酸的衔接子区域与第一条码分子的衔接子区域退火,并且使第二衔接子寡核苷酸的衔接子区域与第二条码分子的衔接子区域退火;以及(e)使用第一条码分子的条码区域作为模板使第一衔接子寡核苷酸延伸以产生第一条码化靶核酸分子,并且使用第二条码分子的条码区域作为模板使第二衔接子寡核苷酸延伸以产生第二条码化靶核酸分子,其中第一条码化靶核酸分子包含与第一条码分子的条码区域互补的序列,并且第二条码化靶核酸分子包含与第二条码分子的条码区域互补的序列。

本发明还提供了制备用于测序的核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与如本文中所限定的第一和第二衔接子寡核苷酸接触;(b)使第一衔接子寡核苷酸的靶区域与第一靶核酸片段退火,并且使第二衔接子寡核苷酸的靶区域与第二靶核酸片段退火;(c)使核酸样品与如本文中所限定的多聚体条码化试剂接触;(d)使第一衔接子寡核苷酸的衔接子区域与第一条码分子的衔接子区域退火,并且使第二衔接子寡核苷酸的衔接子区域与第二条码分子的衔接子区域退火;以及(e)将第一条码化寡核苷酸的3’端连接至第一衔接子寡核苷酸的5’端以产生第一条码化-衔接子寡核苷酸,并且将第二条码化寡核苷酸的3’端连接至第二衔接子寡核苷酸的5’端以产生第二条码化-衔接子寡核苷酸。

在所述方法中,可使第一和第二条码化-衔接子寡核苷酸延伸以产生第一和第二不同的条码化靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。

或者,可使第一和第二衔接子寡核苷酸延伸以产生第一和第二不同的靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。在该方法中,步骤(f)产生第一条码化靶核酸分子(即与经延伸第一衔接子寡核苷酸连接的第一条码化寡核苷酸)和第二条码化靶核酸分子(即与经延伸第二衔接子寡核苷酸连接的第二条码化寡核苷酸)。

延伸衔接子寡核苷酸的步骤可在步骤(c)之前、步骤(d)之前和/或步骤(e)之前进行,并且第一和第二衔接子寡核苷酸可保持与第一和第二条码分子退火直至步骤(e)之后。

所述方法可使用如本文中所限定的多聚体条码化试剂文库和对于每个多聚体条码化试剂的如本文中所限定的衔接子寡核苷酸进行。优选地,第一多聚体条码化试剂的条码化-衔接子寡核苷酸与第一靶核酸片段退火并且产生第一和第二不同的条码化靶核酸分子,其中每个条码化靶核酸分子包含至少一个由第一靶核酸作为模板合成的核苷酸;并且第二多聚体条码化试剂的条码化-衔接子寡核苷酸与第二靶核酸片段退火并且产生第一和第二不同的条码化靶核酸分子,其中每个条码化靶核酸分子包含至少一个由第二靶核酸作为模板合成的核苷酸。

所述方法可使用如本文中所限定多聚体条码化试剂文库和对于每个多聚体条码化试剂的如本文中所限定衔接子寡核苷酸进行。优选地,第一多聚体条码化试剂的衔接子寡核苷酸与第一靶核酸片段退火并且产生第一和第二不同的靶核酸分子,其中每个靶核酸分子包含至少一个由第一靶核酸作为模板合成的核苷酸;并且第二多聚体条码化试剂的衔接子寡核苷酸与第二靶核酸片段退火并且产生第一和第二不同的靶核酸分子,其中每个靶核酸分子包含至少一个由第二靶核酸作为模板合成的核苷酸。

条码化-衔接子寡核苷酸可在与靶核酸的片段退火之后并且在产生条码的靶核酸分子之前从核酸样品中分离。任选地,通过链霉亲和素-生物素相互作用在固体支持物上捕获来分离条码化-衔接子寡核苷酸。

可从核酸样品中分离条码化靶核酸分子。任选地,通过链霉亲和素-生物素相互作用捕获在固体支持物上来分离条码化靶核酸分子。

图5示出了使用多聚体条码化试剂制备用于测序的核酸样品的方法。在所述方法中,使第一(C1和G1)和第二(C2和G2)衔接子寡核苷酸与核酸样品中的靶核酸退火,并随后用于引物延伸反应。每个衔接子寡核苷酸包含衔接子区域(C1和C2),其与条码分子的5’衔接子区域(F1和F2)互补并因此能够与其退火。每个衔接子寡核苷酸还包含靶区域(G1和G2),其可用于使条码化寡核苷酸与靶核酸退火,并随后可用作引物延伸反应或聚合酶链式反应的引物。可合成这些衔接子寡核苷酸以包含5’-末端磷酸基团。

随后使衔接子寡核苷酸(其各自已经延伸以包含来自靶核酸的序列)与多聚体条码化试剂接触,所述多聚体条码化试剂包含第一(D1、E1和F1)和第二(D2、E2和F2)条码分子以及第一(A1和B1)和第二(A2和B2)条码化寡核苷酸,所述条码化寡核苷酸各自包含条码区域(B1和B2)以及5’区域(A1和A2)。第一和第二条码分子各自包含条码区域(E1和E2)、衔接子区域(F1和F2)和3’区域(D1和D2),并且在该实施方案中通过连接核酸序列(S)联系在一起。

在引物延伸核酸样品与多聚体条码化试剂接触之后,每个衔接子寡核苷酸的5’衔接子区域(C1和C2)能够与和每个条码化寡核苷酸的3’端相邻的“连接接界”(J1和J2)退火。随后将延伸的衔接子寡核苷酸的5’端连接至多聚体条码化试剂内的条码化寡核苷酸的3’端,产生连接碱基对(K1和K2),其中连接接界先前位于其中。随后可进一步处理或扩增溶液,并用于测序反应。

该方法与图3和4中所示的方法类似,产生条码化靶核酸分子,其中来自核酸样品的两个或更多个片段通过条码化寡核苷酸标记。在该方法中,对于使靶区域与靶核酸片段退火的步骤,或者使用聚合酶使退火的靶区域延伸的步骤,不需要存在多聚体条码化试剂。该特征在某些应用中可具有优势,例如其中感兴趣的是大量靶序列,并且当不受多聚体条码化试剂的分子约束时,靶区域能够更迅速地与靶核酸杂交。

24.使用多聚体条码化试剂、衔接子寡核苷酸和扩增引物制备用于测序的核酸样品的方法

本发明还提供了制备用于测序的核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与如本文中所限定的第一和第二衔接子寡核苷酸接触;(b)使第一衔接子寡核苷酸的靶区域与第一靶核酸片段退火,并且使第二衔接子寡核苷酸的靶区域与第二靶核酸片段退火;(c)使核酸样品与如本文中所限定的多聚体条码分子文库和如本文中所限定的第一和第二延伸引物接触;(d)使第一衔接子寡核苷酸的衔接子区域与第一条码分子的衔接子区域退火,并且使第二衔接子寡核苷酸的衔接子区域与第二条码分子的衔接子区域退火;(e)使用第一条码分子的条码区域作为模板使第一延伸引物延伸以产生第一条码化寡核苷酸,并且使用第二条码分子的条码区域作为模板使第二延伸引物延伸以产生第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域互补的序列,并且第二条码化寡核苷酸包含与第二条码分子的条码区域互补的序列;以及(f)将第一条码化寡核苷酸的3’端连接至第一衔接子寡核苷酸的5’端以产生第一条码化-衔接子寡核苷酸,并且将第二条码化寡核苷酸的3’端连接至第二衔接子寡核苷酸的5’端以产生第二条码化-衔接子寡核苷酸。

在所述方法中,可使第一和第二条码化-衔接子寡核苷酸延伸以产生第一和第二不同的条码化靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。

或者,可使第一衔接子寡核苷酸延伸第一和第二衔接子寡核苷酸以产生第一和第二不同的靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。在该方法中,步骤(f)产生第一条码化靶核酸分子(即与经延伸第一衔接子寡核苷酸连接的第一条码化寡核苷酸)和第二条码化靶核酸分子(即与经延伸第二衔接子寡核苷酸连接的第二化寡核苷酸)。

使衔接子寡核苷酸延伸的步骤可在步骤(c)之前、步骤(d)之前、步骤(e)之前和/或步骤(f)之前进行,并且第一和第二衔接子寡核苷酸可保持与第一和第二条码分子退火直至步骤(f)之后。

在步骤(c)之前,可使延伸引物与多聚体条码分子退火。或者,可使核酸样品与如本文中所限定的多聚体条码分子文库和本文中所定义的单独的延伸引物接触。随后可使延伸引物与核酸样品中的多聚体条码分子退火。在步骤(d)期间,延伸引物可与多聚体条码分子退火。

所述方法可使用第一和第二延伸引物的文库,例如,该文库可包含用于每个多聚体条码分子的第一和第二延伸引物。任选地,延伸引物文库中的每个延伸引物可包含第二条码区域,其中所述第二条码区域与文库内其他延伸引物内的第二条码区域不同。任选地,这样的文库可包含至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少50个、至少100个、至少500个、至少1000个、至少5,000个、或至少10,000个不同的延伸引物。

25.使用多聚体条码化试剂、衔接子寡核苷酸和靶引物制备用于测序的核酸样品的方法

本发明还提供了制备用于测序的核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与第一和第二衔接子寡核苷酸以及第一和第二靶引物接触,其中每个衔接子寡核苷酸以5’至3’方向包含靶区域和衔接子区域;(b)使第一衔接子寡核苷酸的靶区域与靶核酸的第一亚序列退火,并且使第二衔接子寡核苷酸的靶区域与靶核酸的第二亚序列退火;(c)使第一靶引物与靶核酸的第三亚序列退火,其中第三亚序列在第一亚序列的3’,并且使第二靶引物与靶核酸的第四亚序列退火,其中第四亚序列在第二亚序列的3’;(d)使用靶核酸作为模板使第一靶引物延伸直至其到达第一亚序列以产生第一经延伸靶引物,并且使用靶核酸作为模板使第二靶引物延伸直至其到达第二亚序列以产生第二经延伸靶引物;(e)将第一经延伸靶引物的3’端连接至第一衔接子寡核苷酸的5’端,并且将第二经延伸靶引物的3’端连接至第二衔接子寡核苷酸的5’端;(f)使核酸样品与如本文中所限定多聚体条码分子文库接触;(g)使第一衔接子寡核苷酸的衔接子区域与第一条码分子的衔接子区域退火,并且第二衔接子寡核苷酸的衔接子区域与第二条码分子的衔接子区域退火;以及(h)使用第一条码分子的条码区域作为模板使第一衔接子寡核苷酸延伸以产生第一条码化寡核苷酸,并且使用第二条码分子的条码区域作为模板使第二衔接子寡核苷酸延伸以产生第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域互补的序列,并且第二条码化寡核苷酸包含与第二条码分子的条码区域互补的序列。

在所述方法中,步骤(b)和(c)可同时进行。

在所述方法中,步骤(f)-(h)可在步骤(d)和(e)之前进行。在该方法中,通过完成步骤(e)产生第一和第二不同的条码化靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。

在所述方法中,步骤(f)-(h)可在步骤(d)和(e)之后进行。在该方法中,通过完成步骤(h)产生第一和第二不同的条码化靶核酸分子,其各自包含至少一个由靶核酸作为模板合成的核苷酸。

图6示出了可执行该方法的一种方式。在该方法中,靶核酸是基因组DNA。应理解,靶核酸可以是其他类型的核酸,例如RNA分子,例如mRNA分子。

26.使用多聚体条码化试剂和靶引物制备用于测序的核酸样品的方法

本发明还提供了制备用于测序的核酸样品的方法,其中所述方法包括以下步骤:(a)使核酸样品与联系在一起的第一和第二条码化寡核苷酸以及第一和第二靶引物接触,其中每个条码化寡核苷酸以5’至3’方向包含靶区域和条码区域;(b)使第一条码化寡核苷酸的靶区域与靶核酸的第一亚序列退火,并且使第二条码化寡核苷酸的靶区域与靶核酸的第二亚序列退火;(c)使第一靶引物与靶核酸的第三亚序列退火,其中第三亚序列在第一亚序列的3’,并且使第二靶引物与靶核酸的第四亚序列退火,其中第四亚序列在第二亚序列的3’;(d)使用靶核酸作为模板使第一靶引物延伸直至其到达第一亚序列以产生第一经延伸靶引物,并且使用靶核酸作为模板使第二靶引物延伸直至其到达第二亚序列以产生第二经延伸靶引物;(e)将第一经延伸靶引物的3’端连接至第一条码化寡核苷酸的5’端以产生第一条码化靶核酸分子,并且将第二经延伸靶引物的3’端连接至第二条码化寡核苷酸的5’端以产生第二条码化靶核酸分子,其中第一和第二条码化靶核酸分子不同,并且各自包含至少一个由靶核酸作为模板合成的核苷酸。

27.通过滚动扩增来组装多聚体条码分子的方法

本发明还提供了从核酸条码分子文库组装多聚体条码分子文库的方法,其中所述核酸条码分子通过一个或更多个滚环扩增(RCA)过程扩增。在该方法中,核酸条码分子可各自任选地以5’至3’方向包含条码区域和衔接子区域。任选地,核酸条码分子可包含能够与核酸分子的3’端连接的磷酸化5’端。

在该方法中,将文库内的核酸条码分子转化为环状形式,使得来自条码分子的条码区域和衔接子区域包含在连续的环状核酸分子内。任选地,这种将核酸条码分子转化成环状形式的步骤可通过分子内单链连接反应来进行。例如,包含磷酸化5’端的核酸条码分子可通过与单链核酸连接酶(例如T4 RNA连接酶1)孵育或通过与热稳定的单链核酸连接酶(例如CircLigase热稳定的单链核酸连接酶(来自Epicenter Bio))孵育来环化。任选地,可进行外切核酸酶步骤以消耗或降解未环化和/或未连接的分子;任选地,其中外切核酸酶步骤由大肠杆菌外切核酸酶I或大肠杆菌λ外切核酸酶进行。

任选地,将核酸条码分子转化成环状形式的步骤可使用环化引物进行。在该实施方案中,核酸条码分子包含磷酸化的5’端。此外,在该实施方案中,使包含与条码分子的3’区域互补的5’区域和与条码分子的5’区域互补的3’区域的环化引物与条码分子退火,使得条码分子的5’端和3’端在沿着环化引物退火时紧密地彼此相邻。在退火步骤之后,将退火的条码分子用连接酶(例如T4 DNA连接酶)进行连接,所述连接酶将条码分子的3’端连接至条码分子的5’端。任选地,可进行外切核酸酶步骤以消耗或降解未环化和/或未连接的分子;任选地,其中外切核酸酶步骤由大肠杆菌外切核酸酶I或大肠杆菌λ外切核酸酶进行。

在环化步骤之后,可用滚环扩增步骤扩增环化条码分子。在该过程中,引物与包含条码分子的环化核酸链退火,并且所述引物的3’端用表现出链置换行为的聚合酶来延伸。对于每个原始的环化条码分子,该过程可形成包含原始环化条码分子的拷贝的线性(非环形)多聚体条码分子,如图7中所示。在一个实施方案中,已经与条码退火的环化引物分子可作为滚环扩增步骤的引物。任选地,在环化之后,可使与环化条码分子至少部分互补的单独扩增引物与环化条码分子退火以引发滚环扩增步骤。

在所述滚环扩增步骤期间,引物可通过聚合酶来延伸,其中聚合酶沿着环化模板延伸直至其遇到扩增引物和/或环化引物的5’端,随后其沿着环化模板继续扩增,同时置换引物的5’端,并随后在滚环扩增过程中置换先前扩增的链。在任何这样的扩增步骤之后,可进行纯化和/或清除步骤以分离这种滚环扩增的产物。任选地,纯化和/或清除步骤可包括尺寸选择方法,例如基于凝胶的尺寸选择方法,或固相可逆固定尺寸选择方法,例如基于磁珠的固相可逆固定尺寸选择方法。任选地,可纯化长度为至少100个核苷酸、长度为至少500个核苷酸、长度为至少1000个核苷酸、长度为至少2000个核苷酸、长度为至少5000个核苷酸、长度为至少10,000个核苷酸、长度为至少20,000个核苷酸、长度为至少50,000个核苷酸、或长度为至少100,000个核苷酸的扩增产物。任选地,在任何滚环扩增步骤之前和/或期间,可在反应混合物中包含单链DNA结合蛋白(例如T4Gene 32 Protein),例如以防止通过环化模板和/或扩增产物形成二级结构。在任何这样的滚环扩增步骤期间或之后,可除去和/或灭活所述单链DNA结合蛋白,例如通过热灭活步骤。

任选地,这样的滚环扩增过程可通过phi29DNA聚合酶进行。任选地,这样的滚环扩增过程可通过Bst或Bsm DNA聚合酶进行。任选地,可进行这样的滚环扩增过程,使得通过聚合酶产生环化模板的至少一个完整拷贝。任选地,可进行这样的滚环扩增过程,使得通过聚合酶产生环化模板的至少2个、至少3个、至少5个、至少10个、至少50个、至少100个、至少200个、至少500个、至少1000个、至少2000个、至少5000、或至少10,000个完整拷贝。

图7中提供了该方法的一个实例。在该图中,使包含衔接子区域和条码区域的条码分子环化(例如使用单链连接反应)。随后使引物与所得的环化产物退火,并随后使用链置换聚合酶(例如phi29DNA聚合酶)延伸所述引物。在合成延伸产物的同时,聚合酶随后沿着环化产物处理一个圆周,并随后在链置换反应中置换原始引物。随后可以继续进行滚环扩增过程以产生长的连续核酸分子,其包含环化序列的许多串联拷贝——即条码分子的条码和衔接子序列的许多串联拷贝(和/或与条码和衔接子序列互补的序列)。

多聚体条码分子也可通过滚环扩增来扩增。

28.通过滚环扩增来扩增多聚体条码分子的方法

A)多聚体条码分子的性质

本发明还提供了从核酸条码分子文库扩增多聚体条码分子的方法,其中所述多聚体条码分子通过一个或更多个滚环扩增(RCA)过程来扩增。在该方法中,多聚体条码分子包含在(单个)核酸分子内联系在一起的至少两个条码分子。任选地,条码分子的每个条码区域可与一个或更多个衔接子区域相邻;任选地,这样的衔接子区域可位于相关条码区域的5’端,或者可位于相关条码区域的3’端。任选地,每个条码区域与3’衔接子区域和5’衔接子区域二者相关联;任选地,3’衔接子区域和5’衔接子区域可包含不同的衔接子序列。任选地,一个或更多个衔接子区域可包含与衔接子寡核苷酸的衔接子区域互补或相同的序列。任选地,一个或更多个衔接子区域可包含与延伸引物的全部或一部分互补或相同的序列。多聚体条码分子可采用本文中所述的任何形式。

每个多聚体条码分子还可包含(任选地在多聚体条码分子的5’端内)正向试剂扩增序列,其可包含与正向试剂扩增引物互补或相同的序列。每个多聚体条码分子还可包含(任选地在多聚体条码分子的3’端内)反向试剂扩增序列,其可包含与反向试剂扩增引物互补或相同的序列。

多聚体条码分子可包含至少2个、至少3个、至少4个、至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少200个、至少500个、至少1000个、至少5000个、至少104个、至少105、或至少106个不同的条码分子。任何多聚体条码分子文库可包含至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少250个、至少500个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108、或至少109个不同的多聚体条码分子。

B)使多聚体条码分子和/或其文库环化的方法

在扩增多聚体条码分子的方法中,将多聚体条码分子(和/或其文库)转化成环状形式,使得来自多聚体条码分子的2个或更多个条码区域(和任选地,2个或更多个衔接子区域)包含在连续的环状核酸分子内。任选地,这种将多聚体条码分子转化成环状形式的步骤可通过分子内单链连接反应来进行。例如,包含磷酸化5’端的多聚体条码分子可通过与单链核酸连接酶(例如T4 RNA连接酶1)孵育或通过与热稳定的单链核酸连接酶(例如CircLigase热稳定的单链核酸连接酶(来自Epicenter Bio))孵育来环化,其中所述连接酶将多聚体条码分子的5’磷酸化末端连接至同一分子的3’端。任选地,可进行外切核酸酶步骤以消耗或降解未环化和/或未连接的分子;任选地,其中外切核酸酶步骤由大肠杆菌外切核酸酶I或大肠杆菌λ外切核酸酶进行。

任选地,将多聚体条码分子转化成环状形式的步骤可通过分子内双链连接反应来进行。例如,包含双链序列和磷酸化5’端的多聚体条码分子可包含平端,或任选地可使其末端通过平端化反应转化为平端形式。随后可通过与T4 DNA连接酶的分子内双链连接反应将这种多聚体条码分子转化为环状形式,使得多聚体条码分子的一端在一条或两条链上连接至同一多聚体条码分子的另一端。

在一个替代实施方案中,将多聚体条码分子转化成环状形式的步骤可通过分子内双链连接反应来进行,其中多聚体条码分子的末端包含通过限制性消化步骤产生的末端。在一个这样的实施方案中,包含双链序列的多聚体条码分子包含其5’和3’区域内的一个或更多个限制性内切核酸酶的识别位点。在消化反应中,所述多聚体条码分子用这样的一种或更多种限制性内切核酸酶进行消化,以产生包含具有限制性消化产物的末端的经消化的多聚体条码分子。随后可任选地纯化这些经消化的多聚体条码分子,例如用基于凝胶或基于珠的尺寸选择步骤。随后可通过与T4 DNA连接酶的分子内双链连接反应将经消化的多聚体条码分子转化为环状形式,使得多聚体条码分子一端的限制性消化位点连接至同一多聚体条码分子的另一端的限制性消化位点。任选地,通过限制酶产生的末端可以是平端,或者可包含1个或多个核苷酸的3’突出端,或者可包含1个或多个核苷酸的5’突出端。

任选地,将多聚体条码分子转化成环状形式的步骤可使用环化引物进行。在该实施方案中,多聚体条码分子包含磷酸化的5’端。此外,在该实施方案中,包含与多聚体条码分子的3’区域互补的5’区域和与多聚体条码分子的5’区域互补的3’区域的环化引物与多聚体条码分子退火,使得多聚体条码分子的5’端和3’端在沿着环化引物退火时紧密地彼此相邻。任选地,多聚体条码分子可分别在其5’端和3’端内包含正向试剂扩增序列和反向试剂扩增序列,并且环化引物可包含与所述试剂扩增序列至少部分互补的序列。任选地,在环化引物与多聚体条码分子或其文库退火的步骤之后,可通过清除反应(例如基于凝胶的尺寸选择步骤或基于珠的尺寸选择步骤,例如固相可逆固定步骤)从溶液中消耗未与多聚体条码分子退火的过量环化引物。

在环化-引物退火步骤之后,将退火的多聚体条码分子用连接酶(例如T4 DNA连接酶)连接,所述连接酶将多聚体条码分子的3’端连接至退火的多聚体条码分子的5’端,沿着环化引物与其紧密相邻。任选地,可进行外切核酸酶步骤以消耗或降解未环化和/或未连接的分子;任选地,其中外切核酸酶步骤由大肠杆菌外切核酸酶I或大肠杆菌λ外切核酸酶进行。

在组装、扩增、连接和/或环化条码分子和/或多聚体条码分子和/或其文库或组分的任何步骤期间,溶液内这样的分子的浓度可保持在一定范围内。例如,条码分子和/或多聚体条码分子的浓度可小于100纳摩、小于10纳摩、小于1纳摩、小于100皮摩、小于10皮摩、小于1皮摩、小于100飞摩、小于10飞摩、或小于1飞摩。任选地,在组装、扩增、连接和/或环化条码分子和/或多聚体条码分子和/或其文库或其成分的任何步骤期间,溶液内这样的分子的浓度可允许两个或更多个不同的条码分子和/或多聚体条码分子在溶液内彼此附接、串联或连接,任选地,随后在扩增步骤期间进一步扩增这些附接、串联或连接的产物。

C)用滚环扩增来扩增环化多聚体条码分子的方法

在环化步骤之后,用滚环扩增步骤扩增环化的多聚体条码分子。在该方法中,使引物与包含多聚体条码分子的环化核酸链退火,并且用表现出链置换行为的聚合酶使所述引物的3’端延伸。在一个实施方案中,已经与多聚体条码分子退火的环化引物可用作滚环扩增步骤的引物。任选地,在环化之后,可使与环化的多聚体条码分子至少部分互补的一种或更多种单独的扩增引物与环化的条码分子退火以引发滚环扩增步骤。任选地,与多聚体条码分子内包含的一个或更多个衔接子区域至少部分互补的寡核苷酸可用作扩增引物。任选地,在使一种或更多种扩增引物与环化多聚体条码分子退火的任何步骤之后,可进行清除步骤以从溶液中消耗未退火的引物和/或分离引物退火的多聚体条码分子。任选地,这样的清除步骤可包括尺寸选择步骤,例如基于凝胶的尺寸选择步骤或基于珠的尺寸选择步骤,例如固相可逆固定步骤。

在所述滚环扩增步骤期间,每个引物可通过聚合酶来延伸,其中聚合酶沿着环化模板延伸直至其遇到扩增引物和/或环化引物的5’端,随后其沿着环化模板继续扩增,同时置换引物的5’端,并随后在滚环扩增过程中置换先前扩增的链。在任何这样的扩增步骤之后,可进行纯化和/或清除步骤以分离这种滚环扩增的产物。任选地,纯化和/或清除步骤可包括尺寸选择方法,例如基于凝胶的尺寸选择方法,或固相可逆固定尺寸选择方法,例如基于磁珠的固相可逆固定尺寸选择方法。任选地,可纯化长度为至少100个核苷酸、长度为至少500个核苷酸、长度为至少1000个核苷酸、长度为至少2000个核苷酸、长度为至少5000个核苷酸、长度为至少10,000个核苷酸、长度为至少20,000个核苷酸、长度为至少50,000个核苷酸、或长度为至少100,000个核苷酸的扩增产物。

任选地,这样的滚环扩增过程可通过phi29DNA聚合酶进行。任选地,这样的滚环扩增过程可通过Bst或Bsm DNA聚合酶进行。任选地,可进行这样的滚环扩增过程,使得通过聚合酶产生环化模板的至少一个完整拷贝。任选地,可进行这样的滚环扩增过程,使得通过聚合酶产生环化模板的至少2个、至少3个、至少5个、至少10个、至少50个、至少100个、至少200个、至少500个、至少1000个、至少2000个、至少5000、或至少10,000个完整拷贝。

D)用第二滚环扩增过程扩增多聚体条码分子的方法

在通过滚环扩增扩增多聚体条码分子的任何步骤之后,可进行第二滚环扩增的过程。在该过程中,来自第一滚环扩增步骤的产物(或其组成部分)自身被环化,并随后用作第二(或另外的)滚环扩增步骤的模板分子。

例如,在一个这样的实施方案中,将多聚体条码分子文库在第一滚环扩增步骤中扩增。随后将所得产物转化为双链或部分双链形式。例如,引物可与所述产品退火;任选地,所述引物可与原始多聚体条码化试剂内包含的一个或更多个“试剂扩增序列”的全部或一部分互补或相同。任选地,在这样的退火步骤之后,可进行引物延伸步骤,其中引物的3’端通过聚合酶延伸至少一个核苷酸。任选地,可进行这样的引物延伸直至产生相关多聚体条码分子的完整拷贝,即直至产生完整的双链分子。任选地,这样的引物延伸可通过缺少链置换或5’-3’外切核酸酶或瓣状内切核酸酶行为(flap endonuclease behavior)的聚合酶(例如Phusion聚合酶或T4 DNA聚合酶)来进行。

包含所述引物和与其退火的试剂扩增序列(以及任选地,通过引物延伸步骤产生的任何引物延伸产物)的双链区可包含限制性内切核酸酶的识别位点。随后可用所述限制性内切核酸酶消化所得的双链或部分双链产物,使得每个分子的末端包含能够连接的限制性接界。任选地,通过限制酶产生的末端可以是平端,或者可包含1个或多个核苷酸的3’突出端,或者可包含1个或多个核苷酸的5’突出端。

随后可通过与T4 DNA连接酶的分子内双链连接反应将所得的经消化分子转化为环状形式,使得分子一端上的限制性消化位点连接至同一分子另一端的限制性消化位点。任选地,在这样的连接反应之前,限制性消化的多聚体条码分子可在溶液中稀释。任选地,所得多聚体条码分子的浓度可小于100纳摩、小于10纳摩、小于1纳摩、小于100皮摩、小于10皮摩、小于1皮摩、小于100飞摩、小于10飞摩、或小于1飞摩。

所得的环化分子可用于本文中任何方法中描述的任何滚环扩增过程。任选地,进行第一滚环扩增过程、对所得产物进行环化并随后进行第二滚环扩增过程的这个整个过程可重复两次、三次、四次、五次或任何更大次数以提高最终由整个过程产生的产品量。

E)用引物延伸过程处理滚环扩增的多聚体条码分子的方法

在对多聚体条码分子和/或其文库进行滚环扩增的任何过程之后,可对所得产物进行一个或更多个引物延伸步骤。所得的引物延伸产物可包含单链核酸分子,其包含多聚体条码分子的全部或一部分和/或两个或多个多聚体条码分子的全部或一部分。在一些实施方案中,这样的引物延伸产物可包含单链核酸分子的文库,其中每个单核酸链包含多聚体条码分子。在另一些实施方案中,这样的引物延伸产物可与合成它们的模板分子退火或部分退火。任选地,由任何这样的引物延伸过程产生的任何多聚体条码分子可用于产生多聚体条码化试剂和/或其文库。任选地,由任何这样的引物延伸过程产生的任何多聚体条码分子可用于使核酸样品内的核酸分子条码化;任选地,包含所述多聚体条码分子的条码序列可附接至核酸样品内的核酸分子。

在引物延伸过程的一个这样的实施方案中,可使用与正向试剂扩增序列的全部或一部分和/或反向试剂扩增序列的全部或一部分互补或在序列上相同的引物。在一个这样的实施方案中,与包含在滚环扩增反应的聚合酶-延伸产物内的试剂扩增序列至少部分互补的引物可用于进行一个或更多个引物延伸反应和/或循环。在引物延伸过程的一个实施方案中,随机引物文库用于所述引物延伸过程,例如随机六聚体引物、随机八聚体引物或随机十聚体引物。任选地,引物延伸过程中使用的任何引物可包含一个或更多个修饰,例如硫代磷酸酯键,并且特别是例如引物内最3’的一个或两个核苷酸键内的硫代磷酸酯键。这种3’硫代磷酸酯键可防止所述引物被显示外切核酸酶行为的聚合酶降解。

任选地,这样的引物延伸步骤可通过表现出5’-3’外切核酸酶行为(例如来自大肠杆菌的DNA聚合酶I)和/或瓣状内切核酸酶行为(例如来自水生栖热菌的Taq聚合酶)的聚合酶进行,使得在加工聚合酶的立即下游退火的核酸序列在所述聚合酶的引物延伸过程期间降解或部分降解。

任选地,这样的引物延伸步骤可通过表现出链置换行为的聚合酶(例如phi29 DNA聚合酶、Vent聚合酶、Deep Vent聚合酶或其外切核酸酶缺陷衍生物(例如来自New EnglandBioloabs)或者Bst或Bsm DNA聚合酶)进行,使得在加工聚合酶的立即下游退火的核酸序列在所述聚合酶的引物延伸过程期间被置换。任选地,所述置换的核酸序列可包含在引物延伸过程期间产生的其他引物延伸产物。任选地,这种引物延伸步骤可通过phi29DNA聚合酶进行,其中用于所述引物延伸步骤的引物包含随机引物。

通过表现出链置换行为的聚合酶进行的任何这样的引物延伸步骤可具有置换包含一个或更多个衔接子区域和/或衔接子序列的多聚体条码分子区域(和/或包含来自多聚体条码分子的序列的核酸链,例如由这样的引物延伸过程产生的那些)的作用,使得所述衔接子区域和/或衔接子序列转化为单链形式,使得所得的单链衔接子区域能够与互补序列(例如包含在偶联寡核苷酸、衔接子寡核苷酸和/或延伸引物内的互补序列)杂交。此类链置换分子的一部分可保持与合成它们的模板分子退火。通过这样的引物延伸过程合成的任何给定的链置换的核酸分子的一部分可用于合成多聚体条码化试剂。通过这样的引物延伸过程合成的任何给定的链置换的核酸分子的一部分可用于对核酸样品内的核酸分子进行条码化。

任选地,这样的引物延伸步骤可通过不表现出5’-3’外切核酸酶或瓣状内切核酸酶行为或链置换行为的聚合酶(例如Pfu和/或Phusion聚合酶或其衍生物(New EnglandBiolabs)或T4 DNA聚合酶)进行,使得在加工聚合酶的立即下游退火的核酸序列在聚合酶遇到它们时停止聚合酶的延伸。

任选地,任何这样的引物延伸步骤可包含至少1个、至少5个、至少10个、至少15个、至少20个、至少30个、至少50个、或至少100个引物延伸循环。任选地,这样的引物延伸循环可在引物延伸、模板变性和引物退火的重复循环内进行。任选地,任何这样的引物延伸步骤可在包含一种或更多种大分子拥挤剂(crowding agent)(例如聚乙二醇(PEG)试剂,例如PEG 8000)的缓冲液中进行。

任选地,通过任何上述引物延伸过程可产生长度为至少100个核苷酸、长度为至少500个核苷酸、长度为至少1000个核苷酸、长度为至少2000个核苷酸、长度为至少5000个核苷酸、长度为至少10,000个核苷酸、长度为至少可20,000个核苷酸、长度为至少50,000个核苷酸、长度为至少100,000个核苷酸的引物延伸产物。任选地,可进行这样的引物延伸过程,使得通过聚合酶产生环化模板的至少一个完整拷贝。任选地,可进行这样的滚环扩增的过程,使得在每个引物延伸步骤期间通过聚合酶产生多聚体条码分子模板的至少2个、至少3个、至少5个、至少10个、至少50个、至少100个、至少200个、至少500个、至少1000个、至少2000个、至少5000、或至少10,000个拷贝。

任选地,引物延伸反应的时间长度(例如,秒或分钟)可配置成使得每个引物延伸产物与文库内的单个多聚体条码化试剂的长度大致相同。例如,如果用于引物延伸过程的聚合酶以每分钟1000个核苷酸的速率进行,并且多聚体条码化试剂文库内多聚体条码化试剂的平均长度是1000个核苷酸,则引物延伸循环可配置成1分钟的长度。

任选地,在一个或更多个引物延伸步骤之后,可通过清除反应分离或纯化所得的引物延伸产物。任选地,这样的清除反应可包括尺寸选择步骤,例如基于凝胶的尺寸选择步骤或基于珠的尺寸选择步骤,例如固相可逆固定步骤。任选地,可纯化长度为至少100个核苷酸、长度为至少500个核苷酸、长度为至少1000个核苷酸、长度为至少2000个核苷酸、长度为至少5000个核苷酸、长度为至少10,000个核苷酸、长度为至少可20,000个核苷酸、长度为至少50,000个核苷酸、长度为至少100,000个核苷酸的引物延伸产物。

F)用变性过程处理滚环扩增和/或引物延伸的多聚体条码分子的方法

在任何纯化步骤和/或尺寸选择步骤之前或之后,和/或用于合成多聚体条码化试剂之前,和/或用于使核酸样品内的核酸条码化之前,任何如上产生的滚环扩增产物或引物延伸产物可通过变性步骤变性。这样的变性步骤可以是热变性步骤,其中产物在高温下孵育以使退火序列和/或二级结构解链。这样的变性步骤可在至少60摄氏度、至少70摄氏度、至少80摄氏度、至少90摄氏度或至少95摄氏度的温度下进行。这样的变性步骤可具有使包含一个或更多个衔接子区域和/或衔接子序列的多聚体条码分子区域变性为单链形式的效果,使得所得的单链衔接子区域能够与互补序列(例如包含在偶联寡核苷酸、衔接子寡核苷酸和/或延伸引物内的互补序列)杂交。

在一些替代实施方案中,在任何纯化步骤和/或尺寸选择步骤之前或之后,和/或用于合成多聚体条码化试剂之前,和/或用于使核酸样品内的核酸条码化之前,可不进行这样的变性步骤。例如,包含在引物延伸步骤期间产生的引物延伸产物的核酸链可保持与合成它们的模板分子退火或部分退火。得到的核酸大分子可包含总共至少2个单独的核酸链、至少3个单独的核酸链、至少5个单独的核酸链、至少10个单独的核酸链、至少50个单独的核酸链、至少100个单独的核酸链、至少500个单独的核酸链、至少1000个单独的核酸链、至少5000个单独的核酸链、或至少10,000个单独的核酸链。任选地,单独的核酸链可包含一个或更多个多聚体条码分子的全部或一部分。这样的核酸大分子和/或其文库可用于合成多聚体条码化试剂,和/或用于使核酸样品内的核酸条码化。

29.合成多聚体条码化试剂的方法

本发明还提供合成用于标记靶核酸的多聚体条码化试剂的方法,其包括:(a)使第一和第二条码分子与第一和第二延伸引物接触,其中每个条码分子包含以5’至3’方向包含衔接子区域、条码区域和引发区域的单链核酸;(b)使第一延伸引物与第一条码分子的引发区域退火,并且使第二延伸引物与第二条码分子的引发区域退火;以及(c)通过使第一延伸引物延伸来合成第一条码化延伸产物,并且通过使第二延伸引物延伸来合成第二条码化延伸产物,其中第一条码化延伸产物包含与第一条码分子的条码区域互补的序列并且第二条码化延伸产物包含与第二条码分子的条码区域互补的序列,并且其中第一条码化延伸产物不包含与第一条码分子的衔接子区域互补的序列,并且第二条码化延伸产物不包含与第二条码分子的衔接子区域互补的序列;并且其中第一和第二条码分子联系在一起。

所述方法还可包括在合成第一和第二条码化延伸产物的步骤之前的以下步骤:(a)使第一和第二条码分子与第一和第二阻断引物接触;以及(b)使第一阻断引物与第一条码分子的衔接子区域退火,并且使第二阻断引物与第二条码分子的衔接子区域退火;并且其中该方法还包括在合成条码化延伸产物的步骤之后使阻断引物与条码分子解离的步骤。

在所述方法中,可进行在合成延伸产物之后的延伸步骤或第二延伸步骤,其中从延伸反应中排除四种典型脱氧核糖核苷酸中的一种或更多种,使得第二延伸步骤在衔接子区域序列之前的位置处终止,其中该位置包含与被排除的脱氧核糖核苷酸互补的核苷酸。该延伸步骤可用缺乏3’至5’外切核酸酶活性的聚合酶进行。

条码分子可由如本文中所限定的单链多聚体条码分子提供。

条码分子可通过如本文中所限定任何方法合成。条码区域可唯一地鉴定每个条码分子。条码分子可在核酸分子上相联系。条码分子可在连接反应中联系在一起。条码分子可通过包括将条码分子附着至固体支持物的另外的步骤联系在一起。

在上文中限定的步骤(a)(即,使第一和第二条码分子与第一和第二延伸引物接触)之前,第一和第二条码分子可通过如本文中所限定任何方法组装成双链多聚体条码分子。可解离双链多聚体条码分子以产生单链多聚体条码分子,用于上文限定的步骤(a)(即,使第一和第二条码分子与第一和第二延伸引物接触)。

所述方法还可包括以下步骤:(a)使第一衔接子寡核苷酸的衔接子区域与第一条码分子的衔接子区域退火,并且使第二衔接子寡核苷酸的衔接子区域与第二条码分子的衔接子区域退火,其中第一衔接子寡核苷酸还包含能够与靶核酸的第一亚序列退火的靶区域,并且第二衔接子寡核苷酸还包含能够与靶核酸的第二亚序列退火的靶区域;以及(b)将第一条码化延伸产物的3’端连接至第一衔接子寡核苷酸的5’端以产生第一条码化寡核苷酸,并且将第二条码化延伸产物的3’端连接至第二衔接子寡核苷酸的5’端以产生第二条码化寡核苷酸。任选地,退火步骤(a)可在合成第一和第二条码化延伸产物的步骤之前进行,并且其中合成第一和第二条码化延伸产物的步骤在进行连接步骤(b)的连接酶的存在下进行。连接酶可以是热稳定的连接酶。延伸和连接反应可在超过37摄氏度、超过45摄氏度或超过50摄氏度下进行。

靶区域可包含不同的序列。每个靶区域可包含能够与核酸样品内的靶核酸的仅单个亚序列退火的序列。每个靶区域可包含一个或更多个随机序列或者一个或更多个简并序列,以使靶区域能够与靶核酸的多于一个亚序列退火。每个靶区域可包含至少5个、至少10个、至少15个、至少20个、至少25个、至少50或至少100个核苷酸。优选地,每个靶区域包含至少5个核苷酸。每个靶区域可包含5至100个核苷酸、5至10个核苷酸、10至20个核苷酸、20至30个核苷酸、30至50个核苷酸、50至100个核苷酸、10至90个核苷酸、20至80个核苷酸、30至70个核苷酸或50至60个核苷酸。优选地,每个靶区域包含30至70个核苷酸。优选地,每个靶区域包含脱氧核糖核苷酸,任选地靶区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰的脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个靶区域可包含一个或更多个通用碱基(例如肌苷)、一个或经修饰的核苷酸和/或一个或更多个核苷酸类似物。

每个衔接子寡核苷酸的衔接子区域可包含恒定区。任选地,与单个多聚体条码化试剂退火的衔接子寡核苷酸的所有衔接子区域基本上相同。衔接子区域可包含至少4个、至少5个、至少6个、至少8个、至少10个、至少15个、至少20个、至少25个、至少50个、至少100个、或至少250个核苷酸。优选地,衔接子区域包含至少4个核苷酸。优选地,每个衔接子区域包含脱氧核糖核苷酸,任选地,衔接子区域中的所有核苷酸都是脱氧核糖核苷酸。一个或更多个脱氧核糖核苷酸可以是经修饰脱氧核糖核苷酸(例如用生物素部分修饰的脱氧核糖核苷酸或脱氧尿嘧啶核苷酸)。每个衔接子区域可包含一个或更多个通用碱基(例如肌苷)、一个或经修饰的核苷酸和/或一个或更多个核苷酸类似物。

对于涉及衔接子寡核苷酸的任何方法,衔接子寡核苷酸的3’端可包含可逆终止子部分或可逆终止子核苷酸(例如,3’-O-阻断核苷酸),例如在靶区域的3’端核苷酸处。当用于延伸和/或延伸和连接反应时,可防止这些衔接子寡核苷酸的3’端引发任何延伸事件。这可使条码化寡核苷酸的产生期间的错误引发或其他假延伸事件最小化。在使用组装的多聚体条码化试剂之前,可通过化学或其他方法除去可逆终止子的终止子部分,因而允许靶区域沿着与其退火的靶核酸模板延伸。

类似地,对于涉及衔接子寡核苷酸的任何方法,在延伸和/或延伸和连接反应期间可使用与靶区域内的一个或更多个序列互补的一个或更多个阻断寡核苷酸。阻断寡核苷酸可在其3’和/或5’端包含终止子和/或其他部分,使得它们不能通过聚合酶来延伸。可设计阻断寡核苷酸,使得它们与同一个或更多个靶区域完全或部分互补的序列退火,并且在延伸和/或延伸和连接反应之前与所述靶区域退火。阻断引物的使用可防止靶区域与溶液内不期望这样的退火的序列(例如,条码分子自身内的序列特征)退火和潜在的错误引发。可设计阻断寡核苷酸以实现特定的退火和/或解链温度。在使用组装的多聚体条码化试剂之前,随后可通过例如热变性并随后进行尺寸选择性来清除或其他方法除去阻断寡核苷酸。阻断寡核苷酸的去除可允许靶区域沿着与其退火的靶核酸模板延伸。

该方法可包括合成包含至少5个、至少10个、至少20个、至少25个、至少50个、至少75或至少100个条码分子的多聚体条码化试剂,并且其中:(a)每个条码分子是如本文中所限定;并且(b)根据如本文中所限定任何方法从每个条码分子合成条码化延伸产物;以及任选地(c)根据如本文中所限定任何方法将衔接子寡核苷酸连接至每个条码化延伸产物,以产生条码化寡核苷酸。

本发明还提供了合成多聚体条码化试剂文库的方法,其中所述方法包括重复如本文中所限定任何方法的步骤以合成两个或更多个多聚体条码化试剂。任选地,所述方法包括合成至少5个、至少10个、至少20个、至少25个、至少50个、至少75个、至少100个、至少250个、至少500个、至少103个、至少104个、至少105个、至少106个、至少107个、至少108个、至少109或至少1010个如本文中所限定的多聚体条码化试剂的文库。优选地,文库包含至少5个如本文中所限定的多聚体条码化试剂。优选地,每个多聚体条码化试剂的条码区域可与其他多聚体条码化试剂的条码区域不同。

图8示出了合成用于标记靶核酸的多聚体条码化试剂的方法。在所述方法中,使第一(D1、E1和F1)和第二(D2、E2和F2)条码分子变性为单链形式,所述条码分子各自包含含有条码区域(E1和E2)的核酸序列并且通过连接核酸序列(S)相联系。对于这些单链条码分子,使第一和第二延伸引物(A1和A2)与第一和第二条码分子的3’区域(D1和D2)退火,并且使第一和第二阻断引物(R1和R2)与第一和第二条码分子的5’衔接子区域(F1和F2)退火。这些阻断引物(R1和R2)可在3’端上修饰,使得其不能用作聚合酶的引发位点。

随后使用聚合酶进行引物延伸反应,其中使延伸引物延伸以产生条码分子的条码区域(E1和E2)的拷贝(B1和B2)。进行该引物延伸反应,使得延伸产物紧邻阻断引发序列终止,例如通过使用缺少链置换或5’-3’外切核酸酶活性的聚合酶。随后除去阻断引物(R1和R2),例如通过高温变性。

因此,该方法产生多聚体条码化试剂,其包含与单链衔接子区域(F1和F2)相邻的第一和第二连接接界(J1和J2)。该多聚体条码化试剂可用于图5中所示的方法。

该方法还可包括将由引物延伸步骤产生的第一和第二条码化寡核苷酸的3’端(B1和B2的3’端)连接至第一(C1和G1)和第二(C2和G2)衔接子寡核苷酸的步骤,其中每个衔接子寡核苷酸包含与条码分子的衔接子区域(F1和F2)互补并因此能够与其退火的衔接子区域(C1和C2)。可合成衔接子寡核苷酸以包括5’-末端磷酸基团。

每个衔接子寡核苷酸还可包含靶区域(G1和G2),其可用于使条码化寡核苷酸与靶核酸退火,并且可单独或随后用作引物延伸反应或聚合酶链式反应的引物。将第一和第二条码化寡核苷酸连接至衔接子寡核苷酸的步骤产生如图1中所示多聚体条码化试剂,其可用于图3和/或图4中所示的方法。

图9示出了合成用于标记靶核酸的多聚体条码化试剂(如图1所示)的方法。在该方法中,使第一(D1、E1和F1)和第二(D2、E2和F2)条码分子变性为单链形式,所述条码分子各自包含含有条码区域(E1和E2)的核酸序列并且通过连接核酸序列(S)相联系。对于这些单链条码分子,使第一和第二延伸引物(A1和A2)与第一和第二条码分子的3’区域(D1和D2)退火,并且使第一衔接子寡核苷(C1和G1)和第二衔接子寡核苷(C2和G2)的衔接子区域(C1和C2)与第一和第二条码分子的5’衔接子区域(F1和F2)退火。可合成这些衔接子寡核苷酸以包含5’-末端磷酸基团。

随后使用聚合酶进行引物延伸反应,其中使延伸引物延伸以产生条码分子的条码区域(E1和E2)的拷贝(B1和B2)。进行该引物延伸反应,使得延伸产物紧邻衔接子区域(C1和C2)序列终止,例如通过使用缺少链置换或5’-3’外切核酸酶活性的聚合酶。

随后使用连接酶将衔接子寡核苷酸的5’端连接至相应延伸产物的相邻3’端。在另一个实施方案中,连接酶可在一个反应中与聚合酶一起包括,所述反应同时实现引物延伸和所得产物与连接寡核苷酸的连接。通过该方法,所得到的条码化寡核苷酸可随后用作引物延伸反应或聚合酶链式反应的引物,例如如图3和/或图4中所示的方法。

30.测序和/或处理测序数据的方法

本发明提供了对循环微粒的靶核酸进行测序的方法,其中所述循环微粒包含至少两个靶核酸片段,并且其中所述方法包括:(a)制备用于测序的样品,其包括将所述至少两个靶核酸片段中的至少两个相联系以产生至少两个相联系靶核酸片段的组;以及(b)对所述组中每个相联系片段进行测序,以产生至少两个(信息上)相联系序列读取。

本发明提供了对循环微粒的基因组DNA进行测序的方法,其中所述循环微粒包含至少两个基因组DNA片段,并且其中所述方法包括:(a)制备用于测序的样品,其包括将至少两个基因组DNA片段中的至少两个相联系以产生至少两个相联系基因组DNA片段的组;以及(b)对所述组中每个相联系片段进行测序,以产生至少两个(信息上)相联系序列读取。

本发明提供了对循环微粒的靶核酸进行测序的方法,其包括:(a)联系来自(单个)循环微粒的至少两个靶核酸片段以产生至少两个相联系靶核酸片段的组;以及(b)对所述组中每个相联系片段进行测序,以产生至少两个(信息上)相联系序列读取。

本发明提供了对循环微粒基因组DNA进行测序的方法,包括:(a)将来自(单个)循环微粒的至少两个基因组DNA片段相联系以产生至少两个相联系循环微粒基因组DNA片段的组;以及(b)对所述组中每个相联系片段进行测序,以产生至少两个(信息上)相联系序列读取。

本发明还提供了对样品进行测序的方法,其中所述样品已通过本文中所定义的制备用于测序的核酸样品的任何一种方法制备。对样品进行测序的方法包括以下步骤:分离条码化靶核酸分子,并且产生包含条码区域、靶区域和至少一个来自靶核酸的另外的核苷酸的每个条码化靶核酸分子的序列读取。每个序列读取可包含至少5个、至少10个、至少25个、至少50个、至少100个、至少250个、至少500个、至少1000个、至少2000个、至少5000个、或至少10,000个来自靶核酸的核苷酸。优选地,每个序列读取包含至少5个来自靶核酸的核苷酸。

所述方法可产生来自一个或更多个条码化靶核酸分子的序列读取,所述条码化靶核酸分子由至少10个、至少100个、或至少103个、至少104个、至少105个、至少106个、至少107个、至少108或至少109个不同的靶核酸产生。

可通过本领域已知的任何方法进行测序。例如,通过链终止或Sanger测序。优选地,测序通过下一代测序方法进行,例如合成测序、使用可逆终止子的合成测序(例如Illumina测序)、焦磷酸测序(例如454测序)、连接测序(例如SOLiD测序)、单分子测序(例如,单分子实时(SMRT)测序,Pacific Biosciences),或通过纳米孔测序(例如在Minion或Promethion平台上,Oxford Nanopore Technologies)。

本发明还提供了处理通过如本文中所限定任何方法获得的测序数据的方法。处理序列数据的方法包括以下步骤:(a)鉴定每个序列读取的条码区域的序列和来自靶核酸的序列;以及(b)使用来自步骤(a)的信息来确定用来自同一多聚体条码化试剂的条码区域标记的靶核酸的序列组。

所述方法还可包括通过分析序列组以确定连续序列来确定靶核酸序列的步骤,其中靶核酸序列包含来自至少两个序列读取的核苷酸。

本发明还提供了用于处理(或分析)通过如本文中所限定任何方法获得的测序数据的算法。所述算法可配置成执行如本文中所限定用于处理测序数据的任何方法。该算法可用于检测每个序列读取内的条码区域的序列,并且还用于检测序列读取内源自靶核酸的序列,并将这些序列分成两个相关的数据集。

本发明还提供了产生来自靶核酸的合成长读取的方法,其包括以下步骤:(a)根据如本文中所限定任何方法制备用于测序的核酸样品;(b)对样品进行测序,任选地其中通过如本文中所限定任何方法对样品进行测序;以及(c)处理通过步骤(b)获得的序列数据,任选地其中根据如本文中所限定任何方法处理序列数据;其中步骤(c)产生包含来自至少两个序列读取中的每一个的至少一个核苷酸的合成长读取。

所述方法可使得能够对靶核酸分子的靶序列进行定相,即其可使得能够确定序列位于染色体的哪个拷贝(即父本或母本)。靶序列可包含特定的靶突变、易位、缺失或扩增,并且所述方法可用于将突变、易位、缺失或扩增分配给特定的染色体。对两个或更多个靶序列进行定相可还使得能够检测非整倍性。

合成长读取可包含至少50个、至少100个、至少250个、至少500个、至少750个、至少1000个、至少2000个、至少104个、至少105个、至少106个、至少107或至少108个核苷酸。优选地,合成长读取包含至少50个核苷酸。

本发明还提供了对两个或更多个共定位的靶核酸进行测序的方法,其包括以下步骤:(a)根据如本文中所限定任何方法制备用于测序的核酸样品;(b)对样品进行测序,任选地其中通过如本文中所限定任何方法对样品进行测序;以及(c)处理通过步骤(b)获得的序列数据,任选地其中根据如本文中所限定任何方法处理序列数据;其中步骤(c)鉴定包含来自在样品中共定位的至少两个靶核酸的核苷酸的至少两个序列读取。

通过测序分析条码或相联系核酸分子的任何方法可包括冗余测序反应,其中靶核酸分子(例如已经在条码化反应中条码化)在测序反应中测序两次或更多次。任选地,从样品制备的每个这样的分子可平均测序至少两次、至少3次、至少5次、至少10次、至少20次、至少50次或至少100次。

在通过测序分析条码化核酸分子的任何方法中,可采用错误校正过程。该过程可包括以下步骤:(i)确定来自测序数据集的包含同一条码序列的两个或更多个序列读取,以及(ii)将来自所述两个或更多个序列读取的序列彼此比对。任选地,该错误校正过程还可包括以下步骤:(iii)确定序列读取内的每个位置处和/或靶核酸分子的序列内每个位置处的大多数和/或最常见和/或最可能的核苷酸。该步骤可任选地包括通过错误校正、错误去除、错误检测、错误计数或统计学错误去除的任何过程建立每个靶核酸序列的共有序列。该步骤还可包括将包含同一条码序列的多个序列读取压缩成包含单个错误校正读取的代表的步骤。任选地,确定来自测序数据集的包含同一条码序列的两个或更多个序列读取的任何步骤可包括确定包含具有至少一定程度的相同核苷酸和/或序列相似性的条码序列的序列读取,例如至少70%、至少80%、至少90%、或至少95%的序列相似性(例如,允许条码序列之间的任何点处的错配和/或***或缺失)。

在使用通过测序分析条码化核酸分子的任何方法中,可采用替代的错误校正过程,其包括以下步骤:(i)确定来自测序数据集的包含同一靶核酸序列的两个或更多个序列读取,其中所述两个或更多个序列读取还包含两个或更多个不同的条码序列,其中条码序列来自同一多聚体条码分子和/或多聚体条码化试剂,以及(ii)将来自所述两个或更多个序列读取的序列彼此比对。任选地,该错误校正过程还可包括步骤(iii)确定靶核酸分子序列内每个位置处的大多数和/或最常见和/或最可能的核苷酸。该步骤可任选地包括通过错误校正、错误去除、错误检测、错误计数或统计学错误去除的任何过程建立靶核酸分子的共有序列。该步骤还可包括将包含同一靶核酸分子的多个序列读取压缩(callapsing)成包含单个错误校正读取的代表的步骤。靶核酸分子可包含例如基因组DNA序列。任选地,比较两个条码序列和/或比较测序条码序列和参考条码序列的任何步骤可包括确定包含至少一定程度的相同核苷酸和/或序列相似性的序列,例如至少70%、至少80%、至少90%、或至少95%的序列相似性(例如,允许条码序列之间的任何点处的错配和/或***或缺失)。

31.用于确定和分析来自微粒的相联系序列读取组的方法

本发明提供了确定来自单个微粒的靶核酸(例如基因组DNA)片段的相联系序列读取组的方法,其中所述方法包括:(a)根据本文中所述的任一种方法分析样品;以及(b)确定两个或更多个相联系序列读取的组。

可通过鉴定包含同一条码序列的序列读取来确定两个或更多个相联系序列读取的组。

可通过鉴定包含来自同一组的条码序列的不同条码序列的序列读取来确定两个或更多个相联系序列读取的组。

可通过鉴定包含来自同一多聚体条码化试剂的条码区域的条码序列的序列读取来确定两个或更多个相联系序列读取的组。

可通过鉴定包含在同一测序分子的两个或更多个非重叠区段内的序列读取来确定两个或更多个相联系序列读取。

可通过鉴定两个或更多个相联系序列读取在用于其测序的测序仪内的其空间接近度来确定两个或更多个相联系序列读取的组。任选地,这种空间接近度通过使用截止值或阈值来确定,或者通过非随机接近度或高于平均值的接近度来确定。任选地,这种空间接近度表示为对应于测序仪内不同空间接近程度的定量值、半定量值或范畴值。

所述方法可包括确定相联系序列读取的至少3个、至少5个、至少10个、至少50个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个组。

本发明提供了确定序列数据集内相联系序列读取组的总数的方法,其包括:(a)根据本文中所述的任一种方法分析样品;以及(b)确定相联系序列读取组的数目。

可通过对包含不同条码序列的序列读取的数目进行计数来确定相联系序列读取组的数目。

可通过对具有序列读取中的条码序列的条码序列组进行计数来确定相联系序列读取组的数目。

可通过对具有条码区域的多聚体条码化试剂的数目进行计数来确定相联系序列读取组的数目,所述条码区域的条码序列在序列读取内。

任选地,在这些计数方法中仅包含在序列数据集内表示至少2次、至少3次、至少5次、至少10次、至少20次、至少50次或至少100次的条码序列。任选地,在所述计数方法之前,通过错误校正方法处理序列读取和/或条码序列。任选地,在所述计数方法之前,在整个序列数据集中多于一次地表示的技术重复读取在重复数据删除(de-duplication)过程中被压缩成单个重复数据删除读取。

所述方法可包括对相联系序列读取组的总数进行计数或估计,其中将包含来自微粒的靶核酸(例如基因组DNA)片段的两个或更多个核酸序列在包含所述序列数据集的序列内彼此附接,并且对来自包含至少两个不同靶核酸区段的所述序列数据集的序列读取的数目进行计数,因而确定序列数据集内相联系序列读取组的数目。任选地,对所述序列数据集内测序分子的总数进行计数,因而确定序列数据集内相联系序列读取组的数目。任选地,仅对包含至少3个不同靶核酸区段、包含至少5个不同靶核酸区段、包含至少10个不同靶核酸区段或包含至少50个不同靶核酸区段的测序分子进行计数。

所述方法可包括对相联系序列读取组的总数进行计数或估计,其中序列的组通过在测序仪内的空间接近度来信息上相联系,并且其中对所述序列数据集内测序分子的总数进行计数,因而确定序列数据集内相联系序列读取组的数目。任选地,对所述序列数据集内测序分子的总数进行计数,并随后将其除以不变的归一化因子,因而确定序列数据集内相联系序列读取组的数目。

本发明提供了从相联系序列读取的组确定参数值的方法,其中所述方法包括:(a)根据本文中所述任一种方法确定相联系序列读取的组;以及(b)将相联系序列读取组的每个序列(至少其一部分)映射至一个或更多个参考核苷酸序列;以及(c)通过对相联系序列读取组内一个或更多个参考核苷酸序列进行计数或鉴定其存在来确定参数值。

任选地,该参考序列可包含整个基因组、整个染色体、染色体的一部分、基因、基因的一部分、基因组的任何其他部分、或任何其他合成或实际序列。参考序列可包含转录物、转录物的一部分、转录物同种型或转录物同种型的一部分;参考序列可包含转录物的剪接接界。参考序列可来自人基因组。参考序列可来自一个或更多个不同的参考人基因组序列,例如来自以下的不同参考序列:两个或更多个不同的参考人基因组序列的文库、或两个或更多个不同的单倍型定相的参考人基因组序列的文库(例如,来自国际HapMap项目(International HapMap Project)和/或100基因组项目(100 Genomes Project)的不同基因组序列)。

任选地,一个或更多个参考序列可包含假参考序列,其中所述参考序列包含不同于正常或标准参考序列(例如人基因组参考序列)的一个或更多个核苷酸。例如,所述假参考序列可包含一个或更多个由分子转化过程(例如亚硫酸氢盐转化过程或氧化亚硫酸氢盐转化过程)产生的序列。假参考序列可包含对应于标准参考基因组序列内胞嘧啶核苷酸位点的一个或更多个核苷酸,其中所述假参考序列在所述位点包含一个或更多个经修饰的和/或变体核苷酸。任选地,所述假参考序列可包含在所述胞嘧啶核苷酸位点处的核苷酸,其对应于不同的分子转化谱(即对应于在分子转化(例如亚硫酸氢盐转化或氧化亚硫酸氢盐转化)过程期间产生的不同序列,例如其中所述不同序列作为所述胞嘧啶核苷酸位点是否包含未甲基化、甲基化和/或羟甲基化的胞嘧啶核苷酸的函数而产生),任选地,其中在分子转化过程之后获得的序列将作为其甲基化和/或羟甲基化状态的函数差异地映射至所述参考序列。

任选地,一个或更多个参考序列可包含在特定组织(即特定细胞类型)内和/或在特定具体病变组织内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现的序列。任选地,一个或更多个参考序列可在非母体和/或父体组织内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现。任选地,一个或更多个参考序列可在母体组织内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现。任选地,一个或更多个参考序列可在一种或更多种特定组织类型(例如,肺组织、或胰腺组织、或淋巴细胞)内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现。任选地,一个或更多个参考序列可在特定类型的病变组织(例如癌组织,例如肺癌组织、或结直肠癌组织,或来自非癌患病组织例如梗死的心肌组织、或病变的脑血管组织、或经历子痫或先兆性子痫的胎盘组织)内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现。任选地,一个或更多个参考序列可在特定类型的组织(例如,肺组织、或胰腺组织、或淋巴细胞)内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现。任选地,一个或更多个参考序列可在特定类型的健康组织(例如,健康的肺组织、或健康的胰腺组织、或健康的淋巴细胞)内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现。

任选地,可通过经验测量和/或评价方法来建立任何一个或更多个参考序列,其包含在特定组织(即特定细胞类型)内和/或在特定具体病变组织内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现的序列。任选地,可测量两种或更多种不同组织类型(例如,病变组织和健康组织)中一个或更多个转录物的表达(例如RNA水平),以建立在所述不同组织类型之一内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现的一个或更多个转录物。任选地,可测量两种或更多种不同组织类型(例如,病变组织和健康组织)中一个或更多个基因(或例如基因启动子)的5-甲基胞嘧啶(或类似地5-羟基-甲基胞嘧啶)水平,以建立在所述不同组织类型之一内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现的一个或更多个甲基化(或羟甲基化)基因或基因启动子。任选地,可测量两种或更多种不同组织类型(例如,病变组织和健康组织)中一个或更多个基因(或例如基因启动子)的DNA酶(DNAse)可接近性和/或染色质开放性(例如通过ATAC-seq测定),以建立在所述不同组织类型之一内排他地存在、或优先地发现、或以高的水平和/或高于平均值的水平发现的一个或更多个DNA酶可接近的(和/或开放染色质)基因或基因启动子。

参考核苷酸序列可包含对应于染色体或染色体一部分的序列。任选地,该序列长度为至少1个核苷酸,长度为至少10个核苷酸,长度为至少100个核苷酸,长度为至少1000个核苷酸,长度为至少10,000个核苷酸,长度为至少100,000个核苷酸,长度为至少1,000,000个核苷酸,长度为至少10,000,000个核苷酸,或长度为至少100,000,000个核苷酸。

参考核苷酸序列可包含对应于两个或更多个染色体的两个或更多个序列,或对应于一个或更多个染色体的两个或更多个部分的序列。任选地,这些序列各自长度为至少1个核苷酸,长度为至少10个核苷酸,长度为至少100个核苷酸,长度为至少1000个核苷酸,长度为至少10,000个核苷酸,长度为至少100,000个核苷酸,长度为至少1,000,000个核苷酸,长度为至少10,000,000个核苷酸,或长度为至少100,000,000个核苷酸。任选地,该参考序列可包含整个基因组序列。

参考核苷酸序列可包含一个或更多个滑动窗口,其中每个窗口包含有限长度的基因组区域的跨度,并且其中两个或更多个窗口沿着所述基因组区域偏移某些有限数目的核苷酸。任选地,这些滑动窗口可以是部分重叠的、彼此紧邻的、或由一定数目的核苷酸的跨度分开。

参考核苷酸序列可包含重复序列。任选地,该重复序列包含二核苷酸重复、三核苷酸重复、四核苷酸重复或五核苷酸重复。任选地,参考核苷酸序列包含相同重复单元的两个或更多个紧邻的拷贝的系列,例如2个紧邻的拷贝、5个紧邻的拷贝、8个紧邻的拷贝、10个紧邻的拷贝、15个紧邻的拷贝、20紧邻的拷贝、30个紧邻的拷贝、40个紧邻的拷贝、50个紧邻的拷贝或100个紧邻的拷贝。

任选地,可采用任何一个或更多个参考序列来分析通过本文中所述的任何方法确定的序列。可采用任何一个或更多个参考序列来分析基因组DNA片段的序列。可采用任何一个或更多个参考序列来分析RNA的序列。可采用任何一个或更多个参考序列来分析基因组DNA片段的序列,其中对一个或更多个所述基因组DNA片段进行经修饰的核苷酸或核碱基的测量(作为一个这样的实例,可采用任何一个或更多个参考序列来分析已通过富集方法富集了经修饰的核苷酸(例如5-甲基胞嘧啶或5-羟基-甲基胞嘧啶)的基因组DNA片段的序列;作为另一个这样的实例,可采用任何一个或更多个参考序列来分析其中包含的至少一个核苷酸已通过分子转化过程(例如亚硫酸氢盐转化过程或氧化亚硫酸氢盐转化过程)转化的基因组DNA片段的序列,其中所述转化过程用于检测一个或更多个经修饰的核苷酸,例如5-甲基胞嘧啶或5-羟基-甲基胞嘧啶)。

任选地,可采用任何一个或更多个参考序列来分析基因组DNA片段的序列,其中任何这样的基因组DNA片段的最5’和/或最3’核苷酸(和/或最5’和/或最3’核苷酸附近的核苷酸,例如最5’和/或最3’核苷酸的最近2个、3个、4个或5个核苷酸内的核苷酸)映射至所述参考序列。任选地,可映射基因组DNA片段的序列以确定它们在参考人基因组DNA序列内的位置和/或跨度,并随后可确定它们最5’和/或最3’核苷酸(和/或例如最5’和/或最3’核苷酸的最近2个、3个、4个或5个核苷酸内的核苷酸)是否落入一个或更多个参考序列内。任选地,可采用这样的分析基因组DNA片段的序列的5’和/或3’端的方法来分析所述片段的片段化模式-例如分析核小体和/或与基因组DNA分子一起的其他蛋白质的间距和/或位置和/或定位。任选地,可采用两个或更多个不同的参考序列和/或参考映射图来分析这样的片段化模式,其中所述不同的参考映射图可对应于特定组织类型和/或病变组织类型和/或与其相关(例如,第一参考映射图可对应于和/或能够测量第一组织类型(例如肺组织)中存在的片段化模式,并且第二参考映射图可对应于和/或能够测量第二组织类型(例如肝组织)中存在的片段化模式;作为另外的实例,第一参考映射图可对应于和/或能够测量特定健康组织类型(例如健康肺组织)中存在的片段化模式,并且第二参考映射图可对应于和/或能够测量特定病变组织类型(例如病变和/或癌性肺组织)中存在的片段化模式)。

参数值可以是定量值或半定量值,并且通过对被确定包含源自所述参考核苷酸序列之序列的序列的组内序列读取的数目进行计数来确定。任选地,确定所确定的序列是否源自参考核苷酸序列的步骤可仅包括两个序列之间的完美匹配,并且任选地该步骤可允许两个序列之间的不完美匹配。任选地,当比较两个序列时,不完美匹配可包括变体核苷酸以及核苷酸的***或缺失。任选地,可通过确定与其他序列完美匹配的序列之一内的核苷酸的分数来确定匹配。任选地,可通过检测某一特定长度或某一最小长度的序列的一部分的完美匹配来确定匹配。任选地,可通过特异性评价参考核苷酸序列内等位基因或多个等位基因的存在来确定匹配,其中所述等位基因包含单个核苷酸、或两个或更多个核苷酸的区域、或其***或缺失,这在不同染色体或不同单倍型中可以是不同的。任选地,等位基因在两个或更多个参考核苷酸序列中是不同的。任选地,等位基因可包含非母体和/或父体等位基因,其中微粒样品来源于母体血液、血清或血浆样品。

参数值可以是二元值,并且可通过检测序列读取的组内的至少一个序列读取是否包含源自所述参考核苷酸序列的序列来确定。任选地,确定所确定的序列是否源自参考核苷酸序列的步骤可仅包括两个序列之间的完美匹配,并且任选地该步骤可允许两个序列之间的不完美匹配。任选地,当比较两个序列时,不完美匹配可包括变体核苷酸以及核苷酸的***或缺失。任选地,可通过确定与其他序列完美匹配的序列之一内的核苷酸的分数来确定匹配。任选地,可通过检测某一特定长度或某一最小长度的序列的一部分的完美匹配来确定匹配。任选地,可通过特异性评价参考核苷酸序列内等位基因或多个等位基因的存在来确定匹配,其中所述等位基因包含单个核苷酸、或两个或更多个核苷酸的区域、或其***或缺失,这在不同染色体或不同单倍型中可以是不同的。任选地,等位基因在两个或更多个参考核苷酸序列中是不同的。任选地,等位基因可包含非母体和/或父体等位基因,其中微粒样品来源于母体血液、血清或血浆样品。

任选地,两个或更多个参考序列的列表和/或群组内的每个参考序列可与加权值和/或关联值相关。任选地,该加权值和/或关联值可对应于给定序列是非母体或父体的可能性或概率,或者对应于给定序列是母体的可能性或概率。任选地,该加权值和/或关联值可对应于给定序列来自特定组织类型(例如,肺组织、或胰腺组织、或淋巴细胞)的可能性或概率。任选地,该加权值和/或关联值可对应于给定序列来自特定类型的病变组织(例如癌组织,例如肺癌组织或结直肠癌组织,或来自非癌患病组织例如梗死的心肌组织、或病变的脑血管组织、或经历子痫或先兆性子痫的胎盘组织)的可能性或概率。

任选地,可通过经验测量和/或评价方法来建立任何一个或更多个参考序列的任何这样的加权值和/或关联值。任选地,可通过测量两种或更多种不同组织类型(例如,病变组织和健康组织)中两种或更多种转录物的表达(例如RNA水平)来建立任何一个或更多个参考序列的加权值和/或关联值,并随后可与所述第一和第二组织类型的所述加权值和/或关联值一样,根据经验分别建立第一和第二组织类型内所述两种或更多种转录物的绝对和/或相对表达水平。任选地,可通过测量两种或更多种不同组织类型(例如,病变组织和健康组织)中两个或更多个基因组区域(例如,两个或更多个基因或两个或更多个基因启动子区域)的5-甲基胞嘧啶(或类似地5-羟基-甲基胞嘧啶)水平来建立任何一个或更多个参考序列的任何加权值和/或关联值,并随后可与所述第一和第二组织类型的所述加权值和/或关联值一样,根据经验分别建立第一和第二组织类型内所述两个或更多个基因(或启动子)的绝对和/或相对5-甲基胞嘧啶水平。任选地,可通过测量两种或更多种不同组织类型(例如,病变组织和健康组织)中两个或更多个基因组区域(例如,两个或更多个基因,或两个或更多个基因启动子区域)的DNA酶可接近性和/或染色质开放性(例如,通过ATAC-seq测定)来建立任何一个或更多个参考序列的任何加权值和/或关联值,并随后可与所述第一和第二组织类型的所述加权值和/或关联值一样,根据经验分别建立第一和第二组织类型内所述两个或更多个基因(或启动子)的绝对和/或相对DNA酶可接近性(或染色质开放性)的水平。

任选地,可通过经验测量和/或评价方法来建立任何一个或更多个参考序列的任何这样的加权值和/或关联值,其中所述经验测量和/或评价方法采用包含一个或更多个循环微粒的一个或更多个样品作为用于所述经验测量和/或评价方法的输入样品(例如,其中来自循环微粒的基因组DNA片段的第一和第二序列例如通过本文中所述的任何方法相联系)。任选地,任何所述一个或更多个循环微粒各自包含至少第一和第二基因组DNA片段。任选地,包含一个或更多个循环微粒的任何所述一个或更多个样品可获自患有一种或更多种特定疾病(例如癌症(例如肺癌或胰腺癌)、或例如在特定阶段的癌症(例如I期、II期、III期、IV期)或例如具有特定临床特征的癌症(例如良性癌、例如恶性癌、例如局部癌、例如转移性癌、或例如治疗抗性癌))的患者。任选地,包含一个或更多个循环微粒的所述一个或更多个样品可来自不具有任何这样的一种或更多种特定疾病的患者。任选地,包含一个或更多个循环微粒的所述一个或更多个样品可来自被认为是健康的患者。任选地,包含一个或更多个循环微粒的任何所述一个或更多个样品可包含来自同一个体的至少第一和第二样品,其中第一样品从个体在较早的时间制备,并且第二样品从个体在较晚的时间制备,隔开第一和第二样品之间的时间间隔(例如一小时、或一天、或一周、或一个月、或3个月、或6个月、或12个月、或2年、或3年、或5年、或10年)。任选地,可通过经验测量和/或评价方法来建立任何一个或更多个参考序列的任何这样的加权值和/或关联值,其中所述经验测量和/或评价方法采用来自患有疾病的患者的至少一个样品(包含一个或更多个循环微粒)以及来自未患所述疾病的人的至少一个样品(包含一个或更多个循环微粒)(例如,其中将对应于来自患有疾病的人的样品内所述参考序列的量和/或信号与对应于来自未患疾病的人的样品内所述参考序列的量和/或信号进行比较,例如其中所述两个测量的比值用作所述加权值和/或关联值)。任选地,可通过经验测量和/或评价方法来建立任何一个或更多个参考序列的任何这样的加权值和/或关联值,其中所述经验测量和/或评价方法采用来自至少两名患有疾病的患者群组的样品(包含一个或更多个循环微粒),以及来自至少两名未患所述疾病的人的群组的样品(包含一个或更多个循环微粒)。任选地,患有疾病的患者的任何所述群组(或未患所述疾病的人的群组)可各自包含至少3个、至少5个、至少10个、至少20个、至少50个、至少100个、至少200个、至少500个、至少1000个、至少2000个、至少10,000个、至少20,000个、至少50,000个、至少100,000个、至少500,000个、至少1,000,000个或至少10,000,000个个体。任选地,患有疾病的患者的所述群组内的任何患者(或未患所述疾病的人的所述群组内的任何人)可各自提供两个或更多个包含循环微粒的样品,其中每个样品在不同的时间点(例如隔开至少一天、至少一周、至少一个月、至少2个月、至少6个月、至少一年、至少2年或至少5年的时间点)获得。

任选地,在其中包含一个或更多个循环微粒的一个或更多个样品用作输入样品以通过经验测量和/或评价方法建立任何一个或更多个参考序列的任何加权值和/或关联值的任何方法中,所述加权值和/或关联值可与5-甲基胞嘧啶水平相关(例如,它们可与特定健康或特定病变组织内的5-甲基胞嘧啶水平相关),或者任选地可与5-羟基-甲基胞嘧啶水平相关(例如,它们可与特定健康或特定病变组织内的5-羟基-甲基胞嘧啶水平相关),或者任选地可与DNA酶可接近性和/或染色质开放性水平相关(例如它们可与特定健康或特定病变组织内的DNA酶可接近性和/或染色质开放性水平相关),或者任选地可与在所述参考序列内发现来自特定组织类型和/或病变组织类型和/或健康组织类型的基因组DNA片段的最5’和/或最3’核苷酸(和/或最5’和/或最3’核苷酸附近的核苷酸,例如最5’和/或最3’核苷酸的最近2个、3个、4个或5个核苷酸内的核苷酸)的频率和/或概率相关。

任选地,所述方法可包括对来自相联系序列读取组中一个或更多个参考序列列表的参考序列数目进行计数。任选地,可对样品中的所有相联系序列读取组或其任何一个或更多个亚组进行该计数方法。任选地,每个参考序列可与加权值和/或关联值相关,使得计数方法包括加权计数方法,其中确定了相联系序列读取组内的参考序列的加权总和。任选地,该加权值可对应于给定序列是非母体或父体的可能性或概率,或对应于给定序列是母体的可能性或概率,或对应于给定序列来自特定组织来源(例如,肺组织、或胰腺组织、或淋巴细胞)的可能性或概率,或对应于给定序列来自特定健康组织来源(例如,健康的肺组织、或健康的胰腺组织、或健康的淋巴细胞)的可能性或概率,或对应于给定序列来自特定病变组织来源(例如,病变的肺组织、或病变的胰腺组织、或病变的淋巴细胞)的可能性或概率,或对应于给定序列来自特定癌性组织来源(例如,癌性肺组织、或癌性胰腺组织、或癌性淋巴细胞)的可能性或概率。

任选地,可将来自相联系序列读取组的参考序列的任何总和或加权总和与一个或更多个阈值进行比较,并且其中确定和/或怀疑包含大于所述阈值之数目相联系序列读取组来自特定的组织来源。任选地,可对样品中的所有相联系序列读取组和/或其任何一个或更多个亚组进行确定任何这样的所述总和并将其与一个或更多个阈值进行比较的任何方法。任选地,确定任何这样的所述总和的方法可包括确定如上所述的加权总和。任选地,可确定总和或加权总和等于阈值、在阈值的一个或更多个范围内、小于阈值、或在特定值组内的相联系序列读取组来自特定的组织来源。任选地,本申请中所述的任何方法可用于确定特定组织来源的相联系序列读取组。任选地,可对通过任何方法被发现或怀疑为是特定组织来源的相联系序列读取组的总数进行计数,以确定所述特定组织来源的相联系序列读取组的总数。

任选地,可通过两个或更多个不同的参考序列列表和/或与其进行比较来分析任何一个或更多个相联系序列组(或例如样品中的所有相联系序列读取组)。任选地,样品中的相联系序列读取组可用对应于第一特定组织类型的第一参考序列列表进行分析,并且还用对应于第二特定组织类型的第二参考序列列表进行分析。任选地,样品中的相联系序列读取组可用对应于特定健康组织类型的第一参考序列列表进行分析,并且还用对应于特定病变组织类型的第二参考序列列表进行分析。任选地,样品中的相联系序列读取组可用对应于特定健康组织类型的第一参考序列列表进行分析,并且还用对应于相同组织类型的癌性组织的第二参考序列列表进行分析。任选地,可用至少3个、至少4个、至少5个、至少10个、至少20个或至少30个参考序列列表分析样品中的相联系序列读取组,其中每个参考序列列表对应于不同组织类型和/或健康组织类型和/或病变组织类型和/或癌性组织类型。任选地,可用至少50个、至少100个、至少500个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个或至少100,000,000个参考序列列表分析样品中的相联系序列读取组,任选地其中每个参考序列列表对应于不同组织类型和/或健康组织类型和/或病变组织类型。任选地,用两个或更多个参考序列列表分析样品中的相联系序列读取组的任何方法可包括将包含5-甲基胞嘧啶的来自所述样品的基因组DNA的片段与所述两个或更多个参考序列列表进行比较。任选地,用两个或更多个参考序列列表分析样品中的相联系序列读取组的任何方法可包括将包含5-羟基-甲基胞嘧啶的来自所述样品的基因组DNA片段与所述两个或更多个参考序列列表进行比较。任选地,用两个或更多个参考序列列表分析样品中的相联系序列读取组的任何方法可包括将来自所述样品的RNA的序列与所述两个或更多个参考序列列表进行比较。任选地,用两个或更多个参考序列列表分析样品中的相联系序列读取组的任何方法可包括将来自所述样品的基因组DNA片段的最5’和/或最3’核苷酸(和/或最5’和/或最3’核苷酸附近的核苷酸,例如最5’和/或最3’核苷酸的最近2个、3个、4个或5个核苷酸内的核苷酸)与所述两个或更多个参考序列列表进行比较。

来自相联系序列读取组的序列读取可映射至对应于相同的基因组区域的两个或更多个参考核苷酸序列,其中每个参考核苷酸序列包含所述基因组区域内的不同突变等位基因或不同组的突变等位基因,并且可通过所述相联系序列读取组内一个或更多个参考核苷酸序列的存在来确定所述参数值。

可确定或估计所述靶核酸(例如基因组DNA)片段的长度,并且参数可包括所述确定的或估计的长度的平均值、中位数、众数、最大值、最小值或任何其他单个代表性值。任选地,通过基本上对基因组DNA片段的整个序列(即从其接近5’端到其接近3’端)进行测序并对其中测序的核苷酸的数目进行计数来确定每个测序片段内基因组DNA序列的长度。任选地,这通过以下来进行:对足够数目的在片段化基因组DNA的序列的5’端处的核苷酸进行测序,以将所述5’端映射至参考人基因组序列内的基因座,并且同样地,对足够数目的在片段化基因组DNA的序列的3’端处的核苷酸进行测序,以将所述3’端映射至参考人基因组序列内的基因座,并随后计算包含以下的核苷酸的总跨度:参考人基因组序列内的所述5’区段、参考人基因组序列内的所述3’区段、以及包含在两个测序部分之间的任何未测序的人基因组序列。

可对至少2个、至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个、至少100,000,000个或至少1,000,000,000个相联系序列读取组确定参数值。

可对相联系序列读取的至少2个组确定参数值,并且可通过确定相联系序列读取组的数目来评价参数值,其中所述参数值等于特定参数值、等于两个或更多个参数值的组中之一、小于特定参数值、大于特定参数值、或在所述参数值的至少一个范围内、或在所述参数值的两个或更多个范围之一内。任选地,确定了在所有评价的相联系序列读取组中被确定满足一个或更多个上述条件的相联系序列读取组的分数或比例。任选地,对至少2个相联系序列读取组确定参数值,并确定整个参数值群组的平均值(mean)、平均数(average)、众数或中位数参数值。

对至少2个相联系序列读取组的群组确定参数值,并且可通过将参数值的群组与第二参数值的群组进行比较来评价参数值。任选地,所述第二参数值群组可对应于参数值的预期正态分布,或者对应于参数值的预期非正态分布。任选地,这些参数值可来自代表一种或更多种正常或异常条件的合成数据、随机数据、或由循环微粒的一个或更多个独立样品产生的实验数据。任选地,可确定至少1个、至少10个、至少100个、至少1000个、至少10,000个、至少100,000个或至少1,000,000个另一些参数值群组并进一步将其与第一参数值群组进行比较。任选地,可进行统计学检验(例如T检验、二项分布检验、卡方检验或方差分析(ANOVA)检验)以比较第一和第二或更多个参数值群组。任选地,进行错误发现率评价,其中将第一参数值的群组与两个或更多个参数值群组的条目进行比较,并且其中确定了具有高于或低于第一参数值群组的参数值、平均参数值、中位数参数值或从所述参数值来源的其他量的两个或更多个群组的条目内的群组的分数。

对于相联系序列读取组可确定至少两个不同的参数值。任选地,确定至少3个、至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个或至少100,000,000个不同的参数值。

本发明提供了确定相联系序列读取组的方法,其包括:(a)确定两个或更多个相联系序列读取组中的每一个的参数值,其中根据本文中所述的任何方法确定每个相联系序列读取组的参数值;以及(b)比较相联系序列读取组的参数值以鉴定两个或更多个相联系序列读取组的群组。

可通过鉴定相联系序列读取组来确定相联系序列读取组的群组,所述相联系序列读取组的参数值等于特定参数值、等于两个或更多个参数值的组中的一个、小于特定参数值、大于特定参数值、或在所述参数值的至少一个值范围内、或在所述参数值的两个或更多个值范围之一内。任选地,确定群组内相联系序列读取组的数目,从而确定群组的大小。

所述方法可包括进一步评价相联系序列读取组的群组,其中通过第二分析步骤来进一步分析相联系序列读取组的群组。任选地,该第二分析步骤包含确定和/或评价相联系序列读取组的群组的第二参数值。任选地,该第二分析步骤包含确定包含在相联系序列读取组的群组内的序列内存在或不存在特定等位基因。任选地,该第二分析步骤包含确定存在或不存在染色体异常,例如一个或更多个非整倍性、或微缺失、或拷贝数变异、或杂合性丢失、或重排或易位事件、单核苷酸变体、从头突变、或任何其他基因组特征或突变。

所述方法可包括通过第二分析步骤进一步评价相联系序列读取组的群组,其中第二分析步骤包含确定相联系序列读取组的群组内每个相联系序列读取组内映射至一个或更多个参考核苷酸序列的序列读取的数目。任选地,所述参考序列可包含整个基因组、整个染色体、染色体的一部分、基因、基因的一部分、基因组的任何其他部分、或任何其他合成或实际序列。任选地,该第二分析步骤包含对群组内映射至参考序列内的序列读取的总数进行计数,并随后将序列读取的该数目除以该群组内的组的总数,以估计每组在参考序列内的序列读取的相对数目。因此,这可形成对应于相联系序列读取组的群组的原始微粒样品内每个微粒在参考序列内的序列读取的相对数目的估计。任选地,该第二分析步骤还可包括将该估计的相对数目与阈值进行比较的步骤,其中,估计的相对数目大于所述阈值,或者作为替代地,估计的相对数目小于所述阈值可表明存在或不存在特定的医学或遗传病症,例如染色体非整倍性或微缺失。

32.用于转换相联系序列读取数据用于通过算法进行分析的方法

本发明提供了用于将相联系序列数据转换成可通过分析或统计学工具更容易或更全面地分析的其代表形式的方法。特别重要的是,所述方法可用于分析循环微粒的特定样品中结构异常(例如,易位或大规模拷贝数变异)的存在,但其中所述结构异常的具体特性、基因组位置或大小先前是未知的,且此外,其中这样的因素对特定的生物学测量可以不是直接重要的。

来自微粒的序列可用于检测结构异常的存在,所述结构异常的存在可指示样品从其来源的人体内癌症的存在。一定数目的结构异常的存在和/或负担本身可指示癌症(或指示其风险),但是这样的潜在异常的基因组位置可以既不是前瞻性已知的也不是与癌症风险评估相关的;因此,将相联系微粒序列数据转换成用信息或统计学工具更容易分析的形式可增强该方法的灵敏度和特异性。特别重要的是,转换方法可使得能够用通常需要对数据进行一些转换以进行有效的分析的特定的数字工具家族(例如深度学习和/或机器学习方法、以及神经网络/递归神经网络方法)分析这样的微粒相联系序列数据。

本发明提供了转换由微粒样品产生的相联系序列数据的方法,其中第一组相联系序列读取由第一循环微粒的靶核酸片段产生,并且其中第二组相联系序列读取由第二循环微粒的靶核酸片段产生。

第一和第二相联系序列读取组可被映射至参考基因组序列,并且其中每个序列读取被转换为包括其所映射的染色体的表示,以及指示功能,其中所述指示功能包括其与来自同一相联系序列读取组的另一个至少1个序列的联系。任选地,所述指示功能可以是鉴定相应相联系序列读取组的独特标识符。

第一和第二相联系序列读取组可被映射至参考基因组序列,并且其中每个序列被转换为包括其基因组坐标(包括染色体数目和所述染色体上的位置)的表示,以及指示功能,其中所述指示功能包括或代表其与来自同一相联系序列读取组的另一个至少1个序列的联系。任选地,所述指示功能可以是鉴定相应的相联系序列读取组的独特标识符。任选地,基因组坐标可表示为近似值或加窗值,例如通过表示在染色体上最近的2个碱基内、或在染色体上最近的10个碱基内、或在染色体上最近的100个碱基内、或在染色体上最近的1000个碱基内、或在染色体上最近的10千个碱基内、或在染色体上最近的100千个碱基内、或在染色体上最近的1兆个碱基内、或在染色体上最近的10兆个碱基内;或者例如基因组坐标可在对应于每个染色体内的位置的窗口内表示,其中这样的窗口可以是长度为至少2个核苷酸,或长度为至少10个核苷酸,或长度为至少100个核苷酸,或长度为至少1000个核苷酸,或长度为至少10,000个核苷酸,或长度为至少100,000个核苷酸,或长度为至少1,000,000个核苷酸,或长度为至少10,000,000个核苷酸。任选地,序列表示的基因组坐标(或其加窗表示或近似表示)可通过因子(例如通过上游或下游的一定数目的核苷酸)沿着染色体移动。

第一和第二相联系序列读取组可被映射至参考基因组序列,并且其中在相联系序列读取组内的第一序列读取和第二序列读取各自包含来自同一染色体的序列,其中第二序列读取被转换为包括沿染色体的所述第一与第二序列读取之间的基因组距离的表示。任选地,所述基因组距离的表示是近似值或加窗值,例如最近的2个碱基对、最近的10个碱基对、最近的100个碱基对、最近的1000个碱基对、最近的10,000个碱基对、最近的100,000个碱基对、最近的1,00,000个碱基对、或最近的10,000,000个碱基对。任选地,可在同一相联系序列读取组内的3个或更多个序列的组上进行任何这样的方法。任选地,计算相联系序列读取组内的序列的平均值或中位数染色***置,并且每个序列由相对于所述平均值或中位数位置的核苷酸距离表示。任选地,其中这样的方法在同一相联系序列读取组内的3个或更多个序列的组上进行,3个或更多个序列中的一个序列可充当参考序列,并且其染色***置可充当参考染色***置,并且每个序列由相对于所述参考染色***置的核苷酸的距离来表示。

第一和第二相联系序列读取组可被映射至两个或更多个参考核苷酸序列的群组,并且其中每个序列被转换为包括其所映射的参考核苷酸序列(如果有的话)的表示,以及指示功能,其中所述指示功能包括其与来自同一相联系序列读取组的其他至少1个序列的联系。任选地,所述指示功能可以是鉴定相应的相联系序列读取组的独特标识符。任选地,所述参考核苷酸序列可各自通过独特的参考序列标识符来鉴定,并且每个序列可由相应的独特参考序列标识符表示。任选地,可使用至少3个、至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个、至少100,000,000个、至少1,000,000,000个、至少10,000,000,000个、或至少100,000,000,000个不同的参考核苷酸序列。任选地,每个参考核苷酸序列可包含任何长度的单个连续序列,或者可包含任何长度的两个或更多个连续序列的群组。

第一和第二相联系序列读取组可被映射至两个或更多个变体等位基因或变体的群组,并且其中每个序列被转换为包括其所映射的变体等位基因或变体(如果有的话)的表示,以及指示功能,其中所述指示功能包括其与来自同一相联系序列读取组的其他至少1个序列的联系。任选地,所述变体等位基因或变体可各自通过独特的变体等位基因或变体标识符来鉴定,并且每个序列可分别由任何相应的独特变体等位基因或变体标识符表示。任选地,可采用变体等位基因或变体的两个或更多个不同的群组,其中每个序列被转换为包括来自其所映射的其第一群组的变体等位基因或变体(如果有的话)以及来自其所映射的其第二群组以及任何其他群组的变体等位基因或变体(如果有的话)的表示,以及包括其与来自同一相联系序列读取组的其他至少1个序列的联系的指示功能。任选地,其每个群组内的所述变体等位基因或变体的可各自通过独特的变体等位基因或变体标识符来鉴定,任选地,变体等位基因或变体的每个群组可通过独特的变体或变体等位基因群组标识符进一步鉴定。

所述方法可包括确定第一和第二相联系序列读取组的序列读取的长度,并且其中每个序列被转换为包括其确定的长度的表示,以及指示功能,其中所述指示功能包括其与来自同一相联系序列读取组的其他至少1个序列的联系。任选地,将基因组DNA序列的每个长度与一个或更多个潜在长度范围进行比较,并且将每个序列转换为包括表示所述长度是否落入每个这样的范围内的参数的表示,以及指示功能,其中所述指示功能包括其与来自同一相联系序列读取组的其他至少1个序列的联系。任选地,可确定相联系序列读取组内任何两个或更多个长度的平均长度。

可对至少2个相联系序列读取组、至少10个相联系序列读取组、至少100个相联系序列读取组、至少1000个相联系序列读取组、至少10,000个相联系序列读取组、至少100,000个相联系序列读取组、至少1,000,000个相联系序列读取组、至少10,000,000个相联系序列读取组、至少100,000,000个相联系序列读取组、或至少1,000,000,000个相联系序列读取组进行所述方法。任选地,可对来自微粒样品的相联系序列读取组的亚组进行所述方法。任选地,在特定的相联系序列读取组内,仅所述相联系序列读取组内所有序列的不完全比例或分数可用于上述任何分析。

在所述方法中,由两个或更多个微粒的样品产生的相联系序列数据可如本文中所述进行转换,并且其中所述经转换数据用于训练算法,例如神经网络、或人工神经网络、或递归神经网络、或深度神经网络、决策树、或支持向量机、或贝叶斯网络(Bayesiannetwork)、或遗传算法、或稀疏辞典、或机器学习算法、或深度学习算法,或监督、无监督或半监督的机器学习算法或者特征学习或特征提取算法、或强化学习算法、或表示学习算法,或者其任意组合、组件或组成。任选地,可基于由两个或更多个不同微粒样品产生的经转换数据来训练所述算法。任选地,可训练所述算法以检测提供所述样品的人体内癌症的存在。任选地,可训练所述算法以检测来自循环微粒的基因组DNA中结构异常或染色体异常的存在。

在所述方法中,由两个或更多个微粒的样品产生的相联系序列数据可如本文中所述进行转换,并且其中所述经转换数据使用算法进行评价,例如神经网络、或人工神经网络、或递归神经网络、或深度神经网络、或决策树、或支持向量机、或贝叶斯网络、或遗传算法、或稀疏辞典、或机器学习算法、或深度学习算法,或监督、无监督或半监督的机器学习算法或者特征学习或特征提取算法、或强化学习算法、或表示学习算法,或者其任意组合、组件或组成。

在所述方法中,由两个或更多个微粒的样品产生的相联系序列数据可如本文中所述进行转换,并且其中所述经转换数据用于训练算法(例如上述任何算法),其中所述算法将来自第一生物微粒样品的第一经转换数据集和来自第二生物微粒样品的第二经转换数据集作为输入,其中第二样品采集自与第一生物样品相同的个体,但是与第一样品相比在第二和更晚的时间段采集。第二样品可在第一样品之后至少1天、至少1周、至少1个月、至少2个月、至少6个月、至少12个月、至少24个月、至少36个月、至少5年或至少10年的时间点采集。任选地,所述算法还可将也按顺序隔开一天或更多天或更长时间的第三、或第四、或第五或更多数目的样品作为输入数据。任选地,可训练算法以检测结构异常的存在,其增大个体的频率、累积的负担或者来自两个或更多个时间点的样品之间的统计学显著性。任选地,可训练算法以检测癌症的存在或负担,和/或检测两个或更多个时间点之间的恶性肿瘤的生长,和/或对恶性过程的风险进行分层。任选地,可使用由第一个体群体和第二个体群体产生的相联系序列数据来训练算法,其中每个群体提供间相隔至少1天(或任何更长的时间)采集的第一样品和第二样品,并且其中发现第一群体已被诊断为具有恶性过程,并且其中发现第二群体未被诊断为具有恶性过程,因此训练所述算法以检测恶性过程的存在。任选地,该算法训练方法可使用各自按顺序隔开至少1天的每个个体三个或更多个样品来进行,和/或该过程可使用具有不同特征(例如不同的年龄范围、不同的吸烟状态、不同的种族性、不同的遗传性癌症易感性水平和/或不同的癌症负担家族史)的三个或更多个个体群体来进行。

在所述方法中,由两个或更多个微粒的样品产生的相联系序列数据可如本文中所述进行转换,并且其中使用算法(例如上述任何算法)评价所述经转换数据,其中所述算法将来自第一微粒样品的第一经转换数据集和来自第二微粒样品的第二经转换数据集作为输入,其中第二样品采集自与第一生物样品相同的个体,但是与第一样品相比在第二和更晚的时间段采集。第二样品可在第一样品之后至少1天、至少1周、至少1个月、至少2个月、至少6个月、至少12个月、至少24个月、至少36个月、至少5年或至少10年的时间点采集。任选地,所述算法还可将也按顺序隔开一天或更多天或更长时间的第三、或第四、或第五或更多数目的样品作为输入数据。任选地,该算法可用于检测结构异常的存在,其增大个体的频率、累积的负担或者来自两个或更多个时间点的样品之间的统计学显著性。任选地,该算法可用于检测癌症的存在或负担,和/或检测两个或更多个时间点之间的恶性肿瘤的生长,和/或对恶性过程的风险进行分层。

在任一种方法中,该算法配置成从包含母体来源和胎儿来源的微粒之混合物的样品中检测来自胎儿来源微粒的相联系序列读取组。

33.用于确定基因组重排、易位、结构变体或基因组联系的方法

本发明提供了确定来自单个微粒的靶核酸(例如基因组DNA)片段的相联系序列读取组内基因组重排或结构变体的存在的方法,其中所述方法包括:(a)根据本文中所述的任一种方法确定相联系序列读取组;以及(b)将相联系序列读取组的每个序列(至少一部分)映射至包含第一基因组区域的第一参考核苷酸序列,并将相联系序列读取组的每个序列(至少一部分)映射至包含第二基因组区域的第二参考核苷酸序列;以及(c)对被发现映射在第一基因组区域内的来自相联系序列读取组的序列读取的数目进行计数,并且对被发现映射在第二基因组区域内的来自相联系序列读取组的序列读取的数目进行计数。

基因组重排或结构变体可以是任何类型的基因组结构现象,例如基因组拷贝数变异(包括拷贝数增大或拷贝数丢失)、微缺失或任何类别的重排(例如倒位)、易位例如染色体易位(例如染色体内易位或染色体间易位)。

在所述方法中,计数的序列读取的数目随后可用于进一步的评价步骤或统计学分析以确定第一基因组区域与第二基因组区域之间是否可存在基因组联系(即沿着同一染色体延伸的联系)。所述方法可对单个相联系序列读取组进行,并且其也可对两个或更多个相联系序列读取组的群组进行,以及对微粒样品内的所有相联系序列读取组或其子群组进行。

任选地,还确定了相联系序列读取组内的序列读取的总数。第一和第二基因组区域可位于同一染色体内,并且如果是这样,那么它们可彼此紧邻或者可由任何数目的核苷酸分开。或者,第一和第二基因组区域可位于两个不同的染色体内。第一和第二基因组区域各自可以是任何数目的核苷酸的长度,从1个核苷酸至染色体臂或整个染色体的长度。

任选地,进行评价,其中将第一基因组区域内的序列读取的数目与第一阈值进行比较,并且将第二基因组区域内的序列读取的数目与第二阈值进行比较,其中第一数目等于或高于第一阈值并且第二数目等于或高于第二阈值确定或表明了第一基因组区域与第二基因组区域之间基因组联系的存在和/或涉及第一和第二基因组区域的重排或易位事件的存在。任选地,该评价还可包括来自微粒的相联系序列读取组中序列读取的总数。例如,该评价可包括计算整个相联系组之外的映射至任何给定基因组区域内的序列读取的分数;任选地,可将这些分数值与一个或更多个阈值进行比较,以确定或表明基因组联系的存在。

任选地,可进行统计学检验,其中通过统计学检验或通过算法来评价第一基因组区域内的序列读取的数目和/或第二基因组区域内的序列读取的数目,以估计在第一与第二区域之间存在基因组联系或重排事件的概率或可能性。任选地,该评价还可并入了来自微粒的相联系序列读取的组中序列读取的总数。

任选地,所述方法可在来自微粒的单个相联系序列读取组上进行,或者其可在两个或更多个相联系序列读取组的群组上进行。其也可在来自特定样品的所有相联系序列读取组上进行,并且其也可在相联系序列读取组的群组上进行。任选地,其中所述方法在两个或更多个相联系序列读取组的群组上进行,可进行一个或更多个另外的评价步骤以评价第一与第二区域之间存在基因组联系的统计学显著性、或者概率或可能性,其中一起评价被发现映射至第一区域和第二区域内的来自两个或更多个相联系序列读取组的序列的数目。

34.用于对变体或变体等位基因进行定相的方法

本发明提供了用于对分布在染色体区域的等位基因进行定相的方法。这些分析可适应于在同一染色体上或在两个不同的染色体上存在两个核酸变体可具有生物学或医学意义的任何应用或任务。例如,其中可在单个基因内发现两个不同的变***点(复合杂合性的情况),第一位点中的突变是否位于个体基因组内基因的与第二位点中突变相同的拷贝内是有重大意义的,或者相反,如果它们各自位于个体基因组内基因的两个不同拷贝之一上(例如,如果两个突变是失活突变),那么它们位于相同的基因拷贝上仍将允许一个有活性、有功能的基因拷贝,而如果两个失活突变各自位于该基因的两个拷贝之一上,则该基因的两个拷贝都将没有活性。

本发明提供了对两个变体等位基因进行定相的方法,其中第一变体等位基因包含在第一基因组区域内,并且其中第二变体等位基因包含在第二基因组区域内,并且其中每个变体等位基因具有至少两个变体或潜在变体,其中所述方法包括:(a)根据本文中所述的任一种方法确定相联系序列读取组;以及(b)确定包含来自第一变体等位基因的每个潜在变体的序列是否存在于相联系序列读取组内,并且确定包含来自第二变体等位基因的每个潜在变体的序列是否存在于同一相联系序列读取组内。

变体等位基因可包含单个核苷酸、或者两个或更多个核苷酸的区域、或者一个或更多个核苷酸的***和/或缺失。任选地,进行进一步的评价步骤,其中检测第一等位基因的第一变体的存在,并且其中检测第二等位基因的第一变体的存在,并且其中这两个等位基因在同一相联系序列读取组中被发现表明或估计了两个等位基因彼此在同一染色体相中和/或沿着同一染色体或单倍型或单倍型嵌段相联系的概率。

可对包含以下的两对或更多对变体等位基因重复所述方法:任何潜在变体等位基因,以及等位基因或变体等位基因位点内的任何潜在变体,以及两个或更多个不同的这样的变体等位基因的其任意组合。

所述方法可在来自微粒的单个相联系序列读取组上进行,或者其可在两个或更多个相联系序列读取组的群组上进行。其也可在来自特定样品的所有相联系序列读取组上进行,并且其也可在相联系序列读取组的一个或更多个特定群组的上进行。任选地,所述方法在两个或更多个相联系序列读取组的群组上进行,可进行一个或更多个另外的评价步骤以评价两个等位基因彼此在同一染色体相中和/或在同一染色体或相同单倍型中被发现的统计学显著性或概率或可能性。任选地,可一起评价来自包含来自第一和/或第二变体等位基因的一个或更多个变体之两个或更多个相联系序列读取组的序列。任选地,其中所述方法在两个或更多个相联系序列读取组的群组上进行,可对变体等位基因内的特定(或更多数目的)变体对被发现定相在单个相联系序列读取组内的次数进行计数;任选地,所得数目可与一个或更多个阈值进行比较,或者用一个或更多个统计学检验或算法进行评价,以评价所述变体与样品内的每一个同相的可能性或概率。

任选地,所述方法可用于对三个或更多个变体等位基因进行定相。任选地,这可通过在单个步骤内同时对所有所述三个或更多个变体等位基因进行定相来进行,或者可通过两个或更多个连续步骤按顺序来进行。

任选地,所述方法可用于对基因组跨度内的变体等位基因(例如至少2个、至少5个、至少10个、至少25个、至少50个、至少100个、至少500个、至少1000个、至少10,000个、或至少100,000个变体等位基因)进行定相。基因组跨度可以是至少100千个碱基、至少1兆个碱基、至少10兆个碱基、或整个染色体臂或整个染色体。任选地,所述方法可用于对整个序列进行定相,包括任何类型的变体或不变序列,包括其大小为至少1千个碱基、大小为至少10千个碱基、大小为至少100千个碱基、大小为至少1兆个碱基、大小至少为10兆个碱基、大小至少为100兆个碱基、长度为至少染色体臂、以及长度为整个染色体的基因组跨度。

变体等位基因可以是任何类别的遗传性变体,包括单核苷酸变体或单核苷酸多态性、长度为两个或更多个核苷酸的变体、一个或更多个核苷酸的***或缺失、从头突变、杂合性丢失、重排或易位事件、拷贝数变异或任何其他基因组特征或突变。

所述方法可包括或扩展为包括遗传插补方法(genetic imputation process)。任选地,确定来自微粒的相联系序列读取组的一个或更多个等位基因或变体等位基因的列表以进行遗传插补方法;任选地,该列表可从两个或更多个相联系序列读取组的群组确定,或者从相联系序列读取组的特定亚群组确定。可进行遗传插补方法,其中将一个或更多个这样的列表与来自人群体的一个或更多个先前已知的单倍型或单倍型嵌段进行比较,以对所述列表内的等位基因或变体等位基因进行定相或估计其定相,或者确定或估计所述序列所来源的基因组的一部分的单倍型或单倍型嵌段。任选地,在进行遗传插补方法之前,可对两个或更多个等位基因或变体等位基因进行定相。任选地,这样的两个或更多个等位基因或变体等位基因的定相可通过上述任何方法进行。任选地,可进行定相和/或遗传插补和/或单倍型估计的组合和/或迭代的过程,其中任何这样的步骤或组件可重复一次、两次或更多次。

可使用进行遗传插补和/或单倍型估计和/或定相和/或变体估计的任何工具和/或方法和/或信息方法。任选地,可使用SHAPEIT2、MaCH、Minimac、IMPUTE2和/或Beagle。

任选地,可采用遗传插补方法来产生一个或更多个参考序列(例如,产生一个或更多个参考序列列表)。任选地,遗传插补方法可与单倍型估计方法同时和/或一起采用。任选地,可采用遗传插补方法来产生一个或更多个参考序列,其包含包含在胎儿基因组内和/或可能包含在胎儿基因组内和/或在胎儿基因组内富集的序列(例如,产生一个或更多个参考序列列表,序列包含包含在胎儿基因组内和/或可能包含在胎儿基因组内和/或在胎儿基因组内富集的序列)。任选地,可采用遗传插补方法来产生一个或更多个参考序列,其包含包含在母体基因组内和/或可能包含在母体基因组内和/或在母体基因组内富集的序列(例如,产生一个或更多个参考序列列表,序列包含包含在母体基因组内和/或可能包含在母体基因组内和/或在母体基因组内富集的序列)。任选地,可采用遗传插补方法来产生一个或更多个参考序列,其包含包含在父体基因组内和/或可能包含在父体基因组内和/或在父体基因组内富集的序列(例如,产生一个或更多个参考序列列表,序列包含包含在父体基因组内和/或可能包含在父体基因组内和/或在父体基因组内富集的序列)。任选地,可采用遗传插补方法来产生一个或更多个参考序列,其包含包含在癌症基因组内和/或可能包含在癌症基因组内和/或在癌症基因组内富集的序列(例如,产生一个或更多个参考序列列表,序列包含包含在癌症基因组内和/或可能包含在癌症基因组内和/或在癌症基因组内富集的序列)。

任选地,遗传插补方法可采用序列和/或等位基因的输入列表(例如单核苷酸多态性列表),其中所述输入列表源自来自循环微粒的基因组DNA片段的序列。任选地,所述输入列表可源自来自循环微粒的基因组DNA片段的相联系序列。任选地,所述输入列表可源自来自循环微粒的基因组DNA片段的未相联系序列。任选地,所述输入列表可源自来自循环微粒的基因组DNA片段的(相联系的或未相联系的)序列的亚组。任选地,所述输入列表可源自来自循环微粒的基因组DNA片段的(相联系的或未相联系的)序列的亚组,其中所述序列的亚组包含包含在母体基因组内和/或可能包含在母体基因组内和/或在母体基因组内富集和/或被怀疑在母体基因组内富集的序列。任选地,所述输入列表可源自来自循环微粒的基因组DNA片段的(相联系的或未相联系的)序列的亚组,其中所述序列的亚组包含包含在父体基因组内和/或可能包含在父体基因组内和/或在父体基因组内富集和/或被怀疑在父体基因组内富集的序列。任选地,所述输入列表可源自来自循环微粒的基因组DNA片段的(相联系的或未相联系的)序列的亚组,其中所述序列的亚组包含包含在胎儿基因组内和/或可能包含在胎儿基因组内和/或在胎儿基因组内富集和/或被怀疑在胎儿基因组内富集的序列。任选地,所述输入列表可源自来自循环微粒的基因组DNA片段的(相联系的或未相联系的)序列的亚组,其中所述序列的亚组包含包含在癌症基因组内和/或可能包含在癌症基因组内和/或在癌症基因组内富集和/或被怀疑在癌症基因组内富集的序列。

序列和/或等位基因的任何输入列表(例如单核苷酸多态性列表)和/或任何一个或更多个参考序列(例如一个或更多个参考序列列表)和/或其任何亚组可通过本文中所述的任何方法产生。

任选地,可采用遗传插补方法来产生、确定或估计基因组的一部分的单倍型或单倍型嵌段。任选地,可采用遗传插补方法来产生、确定或估计母体基因组的一部分的单倍型或单倍型嵌段。任选地,可采用遗传插补方法来产生、确定或估计父体基因组的一部分的单倍型或单倍型嵌段。任选地,可采用遗传插补方法来产生、确定或估计胎儿基因组的一部分的单倍型或单倍型嵌段。任选地,可采用遗传插补方法来产生、确定或估计癌症基因组的一部分的单倍型或单倍型嵌段。任选地,这样的所述单倍型或单倍型嵌段可涉及长度为至少2个核苷酸、至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个或至少100,000,000个核苷酸的基因组区域;任选地,这样的所述单倍型或单倍型嵌段可涉及染色体臂、全染色体和/或全基因组。

任选地,遗传插补方法可采用来自人群体的两个或更多个先前已知的(和/或先前预测的或产生的)单倍型或单倍型嵌段的条目。任选地,单倍型或单倍型嵌段可涉及长度为至少2个核苷酸、至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个或至少100,000,000个核苷酸的基因组区域;任选地,单倍型或单倍型嵌段可涉及染色体臂、全染色体和/或全基因组。

任选地,遗传插补方法可采用至少2个、至少3个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10,000个、至少50,000个、至少100,000个、至少500,000个、或至少1,000,000个更多先前已知的(和/或先前预测的或产生的)单倍型或单倍型嵌段的条目。

所述方法可对单个相联系序列读取组进行,并且其也可对两个或更多个相联系序列读取组的群组进行,以及对微粒样品内的所有相联系序列读取组或其子群组进行。

35.用于确定和分析胎儿来源的相联系序列读取的方法

本发明提供了用于分析相联系序列数据的方法,其中所述数据由来自妊娠女性的样品(因此该样品可包含母体来源(即来自正常躯体母体组织)的微粒和胎儿(和/或胎盘)来源的微粒的混合物)产生。所述方法可用于检测胎儿染色体异常(例如胎儿三体性或胎儿染色体微缺失)的存在。可对相同组的胎儿序列进行数种这样的方法,因而能够对胎儿遗传性病症进行多重且灵敏的检测。

本发明提供了确定胎儿来源的相联系序列读取组的方法,其中所述方法包括:(a)根据本文中所述的任一种方法确定相联系序列读取组,其中所述样品包含源自母体血液的微粒;以及(b)将相联系序列读取组的每个序列读取(至少一部分)与存在于胎儿基因组中的序列的参考列表进行比较;以及(c)通过在相联系序列读取组的一个或更多个序列读取内存在来自参考列表的一个或更多个序列来鉴定胎儿来源的相联系序列读取组。

胎儿来源的相联系序列读取组可包含源自胎儿的靶核酸片段的序列读取、由其组成或基本上由其组成。任选地,胎儿来源的相联系序列读取组可包含源自胎儿的靶核酸片段的序列读取或由其组成,并且还包含源自一个或更多个母体组织和/或母体细胞的靶核酸片段的序列读取或由其组成。

存在于胎儿基因组中的序列(或序列变体)的参考列表可包含在胎儿基因组中富集的序列、由其组成或基本上由其组成。存在于胎儿基因组中的序列的参考列表可包含在胎儿基因组中富集的序列(与母体基因组相比)、由其组成或基本上由其组成。存在于胎儿基因组中的序列的参考列表可包含在母体基因组中缺失的序列(与胎儿基因组相比)、由其组成或基本上由其组成。存在于胎儿基因组中的序列的参考列表可包含在母体基因组中不存在的序列、由其组成或基本上由其组成。存在于胎儿基因组中的序列的参考列表可包含序列父体序列或父体序列变体、由其组成或基本上由其组成。

微粒可源自妊娠个体的母体血液。任选地,微粒可源自妊娠个体的母体血液,其中所述个体妊娠有至少两个发育中的胎儿(例如,所述个体妊娠有双胞胎、或三胞胎、或任何更大数目的发育中的胎儿)。任选地,微粒可源自妊娠个体的母体血液,其中妊娠已通过体外受精产生。任选地,任何体外受精方法可进一步包括以下任何步骤:植入之前的遗传筛选、植入之前的遗传诊断、植入之前的胚胎评价和/或植入之前的胚胎选择。

微粒可源自妊娠个体的母体血液,其中产生相应的发育中的胎儿的胚胎已经经历了一种或更多种合成的遗传修饰过程(或由其产生)。任选地,任何一个或更多个合成遗传修饰过程可包括CRISPR修饰操作。任选地,任何一个或更多个合成遗传修饰过程可包括线粒体置换操作。任选地,任何一个或更多个合成遗传修饰过程可涉及疾病相关或疾病引起的突变和/或序列和/或等位基因的修饰和/或校正。任选地,任何一个或更多个合成遗传修饰过程可涉及包含在单个基因内的序列的修饰。任选地,任何一个或更多个合成遗传修饰过程可涉及包含在非基因(例如基因间)区域内的序列的修饰。任选地,任何一个或更多个合成遗传修饰过程可涉及序列的***、序列的缺失和/或序列的修饰和/或失活。任选地,任何一个或更多个合成遗传修饰过程可涉及基因组区域的***、缺失、置换或修饰;任选地,这样的基因组区域长度可以是至少2个核苷酸、至少3个核苷酸、至少5个核苷酸、至少100个核苷酸、至少1000个核苷酸、至少10,000个核苷酸、至少100,000个核苷酸、至少1,000,000个核苷酸、至少10,000,000个核苷酸、至少染色体臂、或至少染色体。

任何合成遗传修饰过程可包括至少2个、至少3个、至少5个、至少10个、至少50个、至少100个、至少1000个、或至少10,000个不同的合成遗传修饰过程的组。任何这样的合成遗传修饰过程的组可依次地进行(例如,其中进行第一合成遗传修饰过程,随后进行第二合成遗传修饰过程)或并行地进行(例如,其中两个或多个合成遗传修饰过程在单个样品上同时进行)。

微粒可源自妊娠个体的母体血液,其中产生相应的发育中的胎儿的胚胎已经通过一种或更多种体外配子发生过程产生。任选地,一种这样的体外配子发生过程可包括体外卵子发生。任选地,一种这样的体外配子发生过程可包括体外***发生。任选地,任何一种或更多种这样的体外配子发生过程可包括从获自一个或更多个个体的体细胞组织(例如皮肤和/或成纤维细胞组织或细胞)体外合成配子。任选地,任何一种或更多种这样的体外配子发生过程还可包括体外受精过程。任选地,任何一种或更多种这样的体外配子发生过程还可包括(在体外受精过程之后的一个或更多个配子和/或一个或更多个胚胎的)一个或更多个合成遗传修饰过程。

所述方法可包括:进行步骤(a)以确定至少2个、至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个、至少100,000,000个或至少1,000,000,000个相联系序列读取组;对每个相联系序列读取组进行步骤(b);以及进行步骤(c)以通过在相联系序列读取组的一个或更多个序列读取内存在来自参考列表的一个或更多个序列来鉴定胎儿来源的相联系序列读取组。

所述方法可包括鉴定胎儿来源的至少2个、至少10个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个相联系序列读取组。

所述方法可包括鉴定母体来源和/或非胎儿来源的相联系序列读取组。

可将来自每个相联系序列读取组的序列读取与序列或序列变体的参考列表进行比较,其中所述序列或序列变体的参考列表在胎儿基因组中存在或富集。任选地,其中序列或序列变体在母体基因组中不存在或缺失。可通过在相联系序列读取组的序列读取内检测来自所述参考列表的一个或更多个序列或序列变体来确定或预测胎儿来源的相联系序列读取组。

父体序列或序列变体或其组可通过评价它们在相联系序列读取组或所有相联系序列读取组中的等位基因分数来确定,并且其中发现在所述序列读取内所述等位基因分数小于特定分数,例如小于50%、小于40%、小于30%、小于25%、小于20%、小于15%、小于10%、小于8%、小于5%、小于4%、小于3%、小于2%、小于1%或小于任何其他阈值。任选地,所述父体序列或序列变体由一个或更多个序列或序列变体的有限列表确定,任选地其中所述有限列表包括在人群体内常见的单核苷酸变体和/或单核苷酸***或缺失的列表。任何所述序列或序列变体可以是单核苷酸变体的形式,是至少1个核苷酸、至少2个核苷酸、或更多数目的核苷酸、或任何其他类别或大小的序列或序列变体的***或缺失的形式。通过上述方法确定的任何一个或更多个父体序列或序列变体随后可用作参考列表以评价来自微粒样品的相联系序列读取组,例如以评价给定的相联系序列读取组是否为胎儿来源。任选地,上述任何方法可以替代地用于确定母体来源的相联系序列读取组。

父体序列或序列变体或其组可通过遗传插补来确定。任选地,包含单核苷酸变体或包含任何其他类型的序列或序列变体或其组合的第一组父体序列用于估计单倍型或单倍型嵌段,并且第二组父体序列或序列变体由所述单倍型或单倍型嵌段确定,其中来自第一组序列的序列和来自第二组序列的序列二者都包含在单倍型或单倍型嵌段内,但其中第二组父体序列或序列变体不包含在第一组父系序列或序列变体内。任选地,可通过像确定在所有相联系序列读取组内低于特定阈值等位基因分数的序列一样确定所述第一组父体序列。父体序列或序列变体的一个或两个组随后可用作参考列表以评价来自微粒样品的相联系序列读取组,例如以评价给定的相联系序列读取组是否为胎儿来源。任选地,上述任何方法可以替代地用于确定或预测母体来源的相联系序列读取组。

父体序列或序列变体或其组可通过对包含来自父亲的基因组DNA的样品进行测序来确定(例如通过对父体基因组DNA进行靶基因组测序和/或全基因组测序)。母体序列或序列变体或其组可通过对包含来自母亲的基因组DNA的样品进行测序来确定(例如通过对母体基因组DNA进行靶基因组测序和/或全基因组测序)。

可将来自每个相联系序列读取组的序列与序列或序列变体的两个或更多个不同的参考列表进行比较。

所述方法可包括确定包含在所述参考列表内的来自每个相联系序列读取组的序列读取的数目。

所述方法可包括对相联系序列读取组中的来自非母体或父体序列列表的非母体或父体序列的数目进行计数。任选地,可对样品中的所有相联系序列读取组进行该计数方法。任选地,每个非母体或父体序列可与加权值相关,使得计数方法包括加权计数方法,其中确定了相联系序列读取组内非母体或父体序列的加权总和。任选地,该加权值可对应于给定序列是非母体或父体的可能性或概率,或对应于给定序列是母体的可能性或概率。

可将来自相联系序列读取组的非母体或父体序列的总和或加权总和与一个或更多个阈值进行比较,并且其中确定包含大于所述阈值之数目的非母体或父体序列的相联系序列读取组为胎儿来源。任选地,可对样品中的所有相联系序列读取组进行确定任何这样的所述总和并将其与一个或更多个阈值进行比较的方法。任选地,确定任何这样的所述总和的方法可包括确定如上所述的加权总和。任选地,可确定总和或加权总和等于阈值、在阈值的一个或更多个范围内、小于阈值、或在特定值组内的相联系序列读取组为胎儿来源。任选地,上述任何方法可用于确定母体来源的相联系序列读取组。任选地,可对通过任何上述方法被发现为胎儿来源或被发现为母体来源的相联系序列读取组的总数进行计数,以分别确定胎儿来源或母体来源的相联系序列读取组的总数。

任选地,可将胎儿来源的相联系序列读取组的总数与母体来源的相联系序列读取组的总数进行比较或除以母体来源的相联系序列读取组的总数,以估计或确定胎儿微粒与母体微粒和/或与所有微粒的分数或比例。

所述方法可包括确定来自所述一个或更多个相联系序列读取组的两个或更多个基因组序列的长度,并且其中所述长度确定所述相联系序列读取组是否对应于胎儿或母体来源的微粒。任选地,可对样品中的所有相联系序列读取组进行确定这样的所述长度的方法。任选地,确定来自相联系序列读取组之基因组序列长度的平均值、中位数或众数,并随后将其与阈值进行比较,其中包含小于、大于或等于所述阈值之这样的值的相联系序列读取组被确定为胎儿来源。任选地,将来自相联系序列读取组的基因组序列长度的所述平均值、中位数或众数与值的一个或更多个范围或值的一个或更多个有限组进行比较,并确定所述范围或所述组内的值为胎儿来源。任选地,上述任何方法可用于确定母体来源的相联系序列读取组。任选地,可对通过任何上述方法被发现为胎儿来源或被发现为母体来源的相联系序列读取组的总数进行计数,以分别确定胎儿来源或母体来源的相联系序列读取组的总数。

任选地,可将胎儿来源的相联系序列读取组的总数与母体来源的相联系序列读取组的总数进行比较或除以母体来源的相联系序列读取组的总数,以估计或确定胎儿微粒与母体微粒和/或与所有微粒的分数或比例。

所述方法可包括确定来自一个或更多个相联系序列读取组的两个或更多个基因组序列的长度,并将所述长度与参考基因组长度分布进行比较,其中进行统计学检验以将来自所述相联系序列读取组的长度与所述参考分布进行比较,并且在被确定为与所述参考分布的长度在统计学上相似、在统计学上不同、在统计学上比其大和/或在统计学上比其小的长度内的相联系序列读取组被确定为胎儿或母体来源。任选地,t检验、曼-惠特尼检验(Mann-Whitney test)、方差分析(ANOVA)检验或任何其他统计学检验可用作所述统计学检验。任选地,可通过将每个相联系序列读取的第一端和第二端映射至参考基因组序列,并随后确定所述基因组序列从第一端的5’端至第二端的3’端的总跨度,因而计算碱基对的总长度来确定相联系序列读取组内分子的基因组长度。任选地,可通过对从第一端的5’端至第二端的3’端的每个相联系序列整体进行测序,从而直接确定包含基因组序列的分子的碱基对长度来确定相联系序列读取组内分子的基因组长度。

任选地,可对样品中的所有相联系序列读取组进行确定和统计学评价所述长度的方法。任选地,上述任何方法可以替代地用于确定母体来源的相联系序列读取组。任选地,可对通过任何上述方法被发现为胎儿来源或被发现为母体来源的相联系序列读取组的总数进行计数,以分别确定胎儿来源或母体来源的相联系序列读取组的总数。任选地,可将胎儿来源的相联系序列读取组的总数与母体来源的相联系序列读取组的总数进行比较或除以母体来源的相联系序列读取组的总数,以估计或确定胎儿微粒与母体微粒和/或与所有微粒的分数或比例。

所述方法可包括确定相联系序列读取组中每个序列读取的基因组长度,并且其中确定同一相联系序列读取组的序列读取中非母体或父体序列的存在和/或数目,并且其中两个参数用于确定相联系序列读取组是否为胎儿来源。任选地,可对样品中的所有相联系序列读取组进行确定长度和序列的该方法。任选地,使用算法以评价两个参数以确定相联系序列读取组是否为胎儿来源。任选地,相联系序列读取组被确定为胎儿来源,其中每个这样的相联系序列读取组被确定为具有在特定长度范围内的平均序列长度,并且其中还发现同一相联系序列读取组包含高于非母体或父体序列的特定阈值数目之数目的非母体或父体序列。任选地,可采用长度范围和序列计数的两个或更多个这样的对来确定相联系序列读取组是否为胎儿来源,其中如果其落入长度范围和序列计数的任何一个或更多个这样的对的参数内,则确定相联系序列读取组为胎儿来源。

所述方法可包括对一个或更多个相联系序列读取组内映射在特定参考序列内的序列读取的总数进行计数,其中所述参考序列长度为至少1个核苷酸,长度为至少2个核苷酸,或长度为至少10个核苷酸,或长度为至少100个核苷酸,或长度为至少1000个核苷酸,或长度为至少10,000个核苷酸,或长度为至少100,000个核苷酸,或长度为至少1,000,000个核苷酸,或长度为至少为10,000,000个核苷酸,或长度为染色体臂,或长度为整个染色体。任选地,参考序列可由两个或更多个独立的区段构成,并因此本质上是不连续的。任选地,可对两个或更多个不同的参考序列,或至少10个参考序列,至少100个参考序列,至少1000个参考序列,至少10,000个参考序列,至少100,000个参考序列,至少1,000,000个参考序列,至少10,000,000个参考序列,至少100,000,000个参考序列,或至少1,000,000,000个参考序列进行该计数方法。

任选地,可对滑动窗口进行该计数方法,其中两个或更多个窗口跨越染色体的一部分、或跨越整个染色体臂、或跨越整个染色体、或跨越基因组的所有染色体平铺(tile)。任选地,可确定映射至给定的这样的参考序列的被确定为胎儿来源的所有序列的绝对数目。任选地,可确定映射至给定的这样的参考序列的被确定为胎儿来源的所有序列的分数或比例。任选地,可确定映射至给定的这样的参考序列的被确定为胎儿来源的所有序列的数目,并随后将其除以被确定为胎儿来源的相联系序列读取组的总数,以确定每个胎儿来源的相联系序列读取组的映射至所述参考序列的序列读取的平均数目。任选地,可对胎儿来源的一个或更多个单独的相联系序列读取组中的每一个独立地进行任何这样的分析。任选地,可对来自胎儿来源的两个或更多个相联系序列读取组的所有序列联合地进行任何这样的分析。任选地,可对来自母体来源的一个或更多个相联系序列读取组的序列进行上述任何这样的分析。任选地,可将对应于映射在特定参考序列内的来自胎儿来源微粒的序列的任何这样的数目或分数与对应于映射在相同参考序列内的来自母体来源微粒的序列的任何这样的数目或分数进行比较。任选地,可进行上述任何这样的分析以确定来自胎儿来源微粒的相联系序列读取组的这样的数目或分数,并且可进行相同的分析以确定来自母体来源微粒的相联系序列读取组的这样的数目或分数,并且可将胎儿来源的序列的数目与母体来源的序列的相应数目进行比较以产生其比例、分数或比较值。

在所述方法中,(序列的参考列表的)至少一个参考序列可包含重复序列。任选地,该重复序列包含二核苷酸重复、三核苷酸重复、四核苷酸重复或五核苷酸重复。任选地,参考核苷酸序列包含相同重复单元的两个或更多个紧邻的拷贝的系列,例如2个紧邻的拷贝、5个紧邻的拷贝、8个紧邻的拷贝、10个紧邻的拷贝、15个紧邻的拷贝、20紧邻的拷贝、30个紧邻的拷贝、40个紧邻的拷贝、50个紧邻的拷贝或100个紧邻的拷贝。

所述方法可包括进一步的评价步骤,其中每个相联系序列读取组或相联系序列读取组的群组之序列读取的任何这样的绝对数目、每个相联系序列读取组或相联系序列读取组的群组之序列读取的平均数目、或映射至参考序列内的序列读取的相对或分数数目可与阈值或值的一个或更多个范围进行比较。任选地,所述数目高于或低于所述阈值或在值的一个或更多个范围内表明或确定遗传或染色体病症或异常的存在。任选地,任何这样的分析可表明或确定核苷酸中任何长度的拷贝数增大、核苷酸中任何长度的拷贝数丢失、任何长度的染色体微缺失、或染色体非整倍性、或任何其他结构或染色体病症或异常。任选地,可对高于这样的所述阈值、低于这样的所述阈值、或在值的一个或更多个这样的范围内的相联系序列读取组或相联系序列读取组的群组的总数进行计数。

所述方法可包括进一步的评价步骤,其中可在两个或更多个不同的参考序列之间比较每个相联系序列读取组之序列读取的任何这样的绝对数目、每个相联系序列读取组之序列读取的平均数目、或映射在参考序列内的序列读取的相对或分数数目。任选地,可将来自第一参考序列的这样的数目与来自第二参考序列的这样的数目进行比较。任选地,可使用两个或更多个相同长度的第二参考序列。任选地,可使用两个或更多个不同长度的参考序列,其中在比较之前每个参考序列的数目相对于所述参考序列的长度归一化。任选地,可将第一这样的数目与第二这样的数目之间的绝对差异与阈值或值的一个或更多个范围进行比较,其中所述差异高于所述阈值、低于所述阈值、或在一个或更多个这样的范围内表明或确定遗传或染色体病症或异常的存在。任选地,可将第一这样的数目与第二这样的数目之间的相对差异(例如以比例、分数或百分比的形式表示)与阈值或值的一个或更多个范围进行比较,其中所述差异高于所述阈值、低于所述阈值、或在一个或更多个这样的范围内表明或确定遗传或染色体病症或异常的存在。任选地,任何这样的分析可表明或确定核苷酸中任何长度的拷贝数增大、核苷酸中任何长度的拷贝数丢失、任何长度的染色体微缺失、或染色体非整倍性、或任何其他结构或染色体病症或异常。任选地,可进行上述任何这样的分析以确定来自胎儿来源微粒的相联系序列读取组的两个或更多个不同参考序列之间这样的数目、分数、比例或相对差异,并且可进行相同的分析以确定来自母体来源微粒的相联系序列读取组的两个或更多个不同参考序列之间这样的数目、分数、比例或相对差异,并且可将胎儿来源的序列的数目、分数、比例或相对差异与母体来源的序列的相应数目、分数、比例或相对差异进行比较以产生其比例、分数或比较值。

所述方法可包括确定每个胎儿来源的相联系序列读取的组之映射至参考序列内的序列读取的平均数目,并且其中将该平均数目与阈值进行比较,并且其中所述数目高于或低于所述阈值表明或确定胎儿遗传或染色体病症或异常的存在。任选地,所述参考序列包含基本上所有的染色体,并且所述数目高于所述阈值表明或确定胎儿染色体三体性的存在。任选地,所述参考序列包含基本上所有基因组微缺失区域,并且所述数目低于所述阈值表明或确定胎儿微缺失的存在。

确定了所述方法可包括确定每个胎儿来源的相联系序列读取组之映射在第一参考序列内的序列读取的平均数目,并且其中确定了每个胎儿来源的相联系序列读取组之映射在第二参考序列内的序列读取的平均数目,并且其中确定了第一这样的数目与第二这样的数目之间的相对差异(例如以比例、分数或百分比的形式表示),并且其中将所述相对差异与阈值进行比较,其中所述差异高于或低于所述阈值表明或确定胎儿遗传或染色体病症或异常的存在。任选地,所述第一参考序列包含基本上所有的染色体,并且所述相对差异高于所述阈值表明或确定胎儿染色体三体性的存在。任选地,所述第一参考序列包含基本上所有基因组微缺失区域,并且所述相对差异低于所述阈值表明或确定胎儿微缺失的存在。

本发明提供了确定胎儿基因型的方法,其包括:(a)通过本文中所述的任一种方法确定胎儿来源的相联系序列读取组;以及(b)从胎儿来源的相联系序列读取组确定胎儿基因型。

胎儿基因型可以是胎儿染色体异常(例如非整倍性)。

本发明提供了确定胎儿基因型、胎儿基因组序列、定相的胎儿基因组序列、或其组成或分数的方法,其中包含所述胎儿基因型或序列的序列由来自胎儿来源微粒的相联系序列读取组内的序列确定。任选地,所述基因型或基因组可包含来自胎儿基因组的两个单倍型(例如父系遗传的单倍型和母系遗传的单倍型)的序列或序列变体。任选地,胎儿基因型或基因组还可包含可以是父系或母系遗传的一个或更多个结构或染色体异常,或者可已作为从头结构或染色体异常产生。任选地,胎儿基因型或基因组还可包含非母系或父系遗传的一个或更多个从头单核苷酸变体。

所述方法可包括从来自胎儿来源微粒的相联系序列读取组内的序列确定胎儿基因组DNA的序列,并且其中确定其一个单倍型或两个单倍型。任选地,所述基因组DNA可包含来自胎儿基因组的两个单倍型的序列或序列变体,并且由此使用单倍型定相算法或单倍型估计算法来估计或定相所述一个或两个单倍型。任选地,可在使用单倍型定相算法之前对序列或序列变体的列表进行处理或过滤过程,其中在随后的定相或单倍型估计步骤内仅使用至少一定置信水平的、至少一定准确度水平的序列或序列变体、或至少任何其他一个或更多个参数的阈值。任选地,在定相或单倍型估计的步骤之前,使用错误校正和/或冗余测序方法以提高所述序列或序列变体的准确度。任选地,所述单倍型定相或估计算法还可包括来自人群体的一个或更多个单倍型或单倍型嵌段的组。任选地,可使用任何上述方法来确定对应于特定染色体或染色体部分的单倍型,并且任选地,可确定对应于所述染色体或染色体部分的母系遗传的单倍型和父系遗传的单倍型二者。

如本文中所述,所述方法可包括对序列读取进行计数和/或对加权、平均、绝对、相对或归一化的序列读取进行计数的任何步骤。所述步骤可在重复数据删除步骤之后,其中在进一步分析、计数、评价、处理或操作的步骤之前,将两次或多次测序的来自测序反应的测序分子压缩成单个表示。任选地,该重复数据删除过程可进一步包括错误校正过程,其中在计数或进一步分析的任何的步骤之前,检测和/或量化和/或校正重复分子内的错误和/或错配序列重复分子。

本发明提供对来自胎儿来源和/或母体来源微粒的相联系序列读取组进行组合或联合评价的方法,其中所述方法包括进行第一评价,其包括如本文中所述的任何分析以确定第一序列或染色体的病症、事件或异常;并且进行第二评价,其包括如本文中所述的任何分析以确定第二序列或染色体的病症、事件或异常。任选地,对不同的序列或染色体的病症、事件或异常进行至少3次、至少10次、至少100次、至少1000次、至少10,000次或至少1百万次这样的评价或分析。任选地,任何这样的分析或评价可与对未相联系序列数据进行的序列分析联合进行。

36.用于诊断和监测的方法

本发明提供了基于本文中所述的任一种方法的诊断和监测的方法。

本发明提供了在受试对象中诊断疾病或病症的方法,其中所述方法包括:(a)确定从来自所述对象的受试样品确定的第一相联系序列读取组的参数值,其中根据本文中所述的任一种方法确定所述参数值;以及(b)将从受试样品确定的相联系序列读取组的参数值与对照参数值进行比较。

可从由来自对象的受试样品确定的第二相联系序列读取组确定对照参数值,其中根据本文中所述的任一种方法确定所述对照参数值。

可从由对照样品确定的相联系序列读取组确定对照参数值,其中根据本文中所述的任一种方法确定所述对照参数值。

疾病或病症可以是癌症、染色体非整倍性、或染色体微缺失、基因组拷贝数变异(例如拷贝数增大或拷贝数丢失)、杂合性丢失、重排或易位事件、单核苷酸变体、或从头突变。

本发明提供了在受试对象中监测疾病或病症的方法,其中所述方法包括:(a)确定从来自所述对象的受试样品确定的第一相联系序列读取组的参数值,其中根据本文中所述的任一种方法确定所述参数值;以及(b)将相联系序列读取组的参数值与对照参数值进行比较。

可从由在比受试样品更早的时间点获自同一对象的对照样品确定的第二相联系序列读取组确定对照参数值。获得的对照样品与受试样品之间的时间间隔可以是至少1天、至少1周、至少1个月或至少1年。

可对来自对象的由时间间隔隔开的两个或更多个不同样品之序列的相联系组独立地进行确定参数值和/或进行本文中所述的第二分析步骤的任何方法,其中两个或更多个不同的样品来自同一对象,其中时间间隔为至少1天、至少1周、至少1个月、至少1年、至少2年或至少3年。可在任何两个或更多个这样的不同样品之间比较任何这样的参数值和/或第二分析步骤的结果。可通过这样的比较步骤确定这样的参数值和/或第二分析步骤的结果之间的绝对或相对差异。任选地,这样的绝对或相对差异可相对于两个样品之间时间间隔的长度归一化和/或除以两个样品之间时间间隔的长度。任选地,可将这样的绝对或相对差异和/或相关的归一化值与一个或更多个阈值进行比较,其中高于这样的阈值的值可指示疾病或病症,例如癌症或癌症发生的高风险。

疾病或病症可以是癌症。

本发明提供了在对象中诊断疾病或病症的方法,其中所述方法包括:(a)根据本文中所述的任一种方法确定相联系序列读取组,其中所述样品包含源自血液的微粒;以及(b)将相联系序列读取组的每个序列读取(的至少一部分)与存在于疾病的细胞中的序列的参考列表进行比较,其中在相联系序列读取组的一个或更多个序列读取内存在来自参考列表的一个或更多个序列表明疾病的存在。

疾病或病症可以是癌症。

本发明提供了确定病变细胞(例如肿瘤细胞)来源的相联系序列读取组的方法,其中所述方法包括:(a)根据本文中所述的任一种方法确定相联系序列读取的组,其中所述样品包含源自血液的微粒;以及(b)将相联系序列读取组的每个序列读取(的至少一部分)与存在于疾病的细胞(例如肿瘤细胞)中的序列的参考列表进行比较;以及(c)通过在相联系序列读取组的一个或更多个序列读取内存在来自参考列表的一个或更多个序列来鉴定病变细胞(例如肿瘤细胞)来源的相联系序列读取组。

本发明提供了确定肿瘤基因型的方法,其包括:(a)根据本文中所述的任一种方法确定肿瘤来源的相联系序列读取组;以及(b)从肿瘤来源的相联系序列读取组确定肿瘤基因型。

样品可包含源自被诊断患有疾病(例如癌症)的患者的血液的微粒。

本发明在以下组的编号条款中进一步限定:

1.分析包含源自血液之微粒的样品的方法,其中所述微粒包含至少两个基因组DNA片段,并且其中所述方法包括:

(a)制备用于测序的样品,其包括将至少两个基因组DNA片段中的至少两个相联系以产生至少两个相联系基因组DNA片段的组;以及

(b)对所述组中每个相联系片段进行测序以产生至少两个相联系序列读取。

2.条款1所述的方法,其中将所述微粒的至少3个、至少4个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10,000个、至少100,000个、或至少1,000,000个基因组DNA片段相联系,并随后进行测序以产生至少3个、至少4个、至少5个、至少10个、至少50个、至少100个、至少500个、至少1000个、至少5000个、至少10,000个、至少100,000个、或至少1,000,000个相联系序列读取。

3.条款1或条款2所述的方法,其中所述微粒的直径为100至5000nm。

4.条款1至3中任一项所述的方法,其中所述相联系基因组DNA片段源自单个基因组DNA分子。

5.条款1至4中任一项所述的方法,其中所述方法还包括估计或确定相联系基因组DNA片段的基因组序列长度。

6.条款1至5中任一项所述的方法,其中所述方法还包括从血液、血浆或血清中分离微粒的步骤。

7.条款6所述的方法,其中所述分离步骤包含离心。

8.条款6或条款7所述的方法,其中所述分离步骤包含尺寸排阻色谱法。

9.条款6至8中任一项所述的方法,其中所述分离步骤包含过滤。

10.条款1至9中任一项所述的方法,其中所述样品包含源自血液的第一和第二微粒,其中每个微粒包含至少两个基因组DNA片段,并且其中所述方法包括进行步骤(a)以产生第一微粒的第一组相联系基因组DNA片段和第二微粒的第二组相联系基因组DNA片段,以及进行步骤(b)以产生第一微粒的第一组相联系序列读取和第二微粒的第二组相联系序列读取。

11.条款1至9中任一项所述的方法,其中所述样品包含源自血液的n个微粒,其中每个微粒包含至少两个基因组DNA片段,并且其中所述方法包括进行步骤(a)以产生n组相联系基因组DNA片段,n个微粒中的每一个一组,以及进行步骤(b)以产生n组相联系序列读取,n个微粒中的每一个一组。

12.条款11所述的方法,其中n是至少3个、至少5个、至少10个、至少50个、至少100个、至少1000个、至少10,000个、至少100,000个、至少1,000,000个、至少10,000,000个、或至少100,000,000个微粒。

13.条款10至12中任一项所述的方法,其中在步骤(a)之前,所述方法还包括将样品分配到至少两个不同反应体积中的步骤。

14.制备用于测序之样品的方法,其中所述样品包含源自血液的微粒,其中微粒包含至少两个基因组DNA片段,并且其中所述方法包括将微粒的至少两个基因组DNA片段附接至条码序列或条码序列组的不同条码序列,以产生相联系基因组DNA片段的组。

15.条款14所述的方法,其中在将微粒的至少两个基因组DNA片段附接至条码序列或条码序列组的不同条码序列的步骤之前,所述方法包括将偶联序列附接至微粒的每个基因组DNA片段,其中所述偶联序列随后被附接至条码序列或条码序列组的不同条码序列,以产生相联系基因组DNA片段的组。

16.条款14或条款15所述的方法,其中所述样品包含源自血液的第一和第二微粒,其中每个微粒包含至少两个基因组DNA片段,并且其中所述方法包括将第一微粒的至少两个基因组DNA片段附接至第一条码序列或第一组条码序列的不同条码序列,以产生第一组相联系基因组DNA片段,并且将第二微粒的至少两个基因组DNA片段附接至第二条码序列或第二组条码序列的不同条码序列,以产生第二组相联系基因组DNA片段。

17.条款1至13中任一项所述的方法,其中所述方法包括:

(a)制备用于测序的样品,其包括将微粒的至少两个基因组DNA片段附接至条码序列以产生相联系基因组DNA片段的组;以及

(b)对所述组中每个相联系片段进行测序以产生至少两个相联系序列读取,其中所述至少两个相联系序列读取通过条码序列相联系。

18.条款17所述的方法,其中在将微粒的至少两个基因组DNA片段附接至条码序列的步骤之前,所述方法包括将偶联序列附接至微粒的每个基因组DNA片段,其中所述偶联序列随后被附接至条码序列以产生相联系基因组DNA片段的组。

19.条款17或条款18所述的方法,其中所述样品包含源自血液的第一和第二微粒,其中每个微粒包含至少两个基因组DNA片段,并且其中所述方法包括进行步骤(a)以产生第一微粒的第一组相联系基因组DNA片段和第二微粒的第二组相联系基因组DNA片段,以及进行步骤(b)以产生第一微粒的第一组相联系序列读取和第二微粒的第二组相联系序列读取,其中相对于所述第二微粒的所述至少两个相联系序列读取,所述第一微粒的所述至少两个相联系序列读取通过不同的条码序列相联系。

20.条款1至13中任一项所述的方法,其中所述方法包括:

(a)制备用于测序的样品,其包括将微粒的所述至少两个基因组DNA片段中的每一个附接至条码序列组的不同条码序列以产生相联系基因组DNA片段的组;以及

(b)对所述组中每个相联系片段进行测序以产生至少两个相联系序列读取,其中所述至少两个相联系序列读取通过所述条码序列组相联系。

21.条款20所述的方法,其中在将所述微粒的至少两个基因组DNA片段中的每一个附接至不同条码序列的步骤之前,所述方法包括将偶联序列附接至所述微粒的每个基因组DNA片段,其中所述微粒的所述至少两个基因组DNA片段中的每一个通过其偶联序列附接至所述条码序列组的不同条码序列。

22.条款20或条款21所述的方法,其中所述样品包含源自血液的第一和第二微粒,其中每个微粒包含至少两个基因组DNA片段,并且其中所述方法包括进行步骤(a)以产生第一微粒的第一组相联系基因组DNA片段和第二微粒的第二组相联系基因组DNA片段,以及进行步骤(b)以产生第一微粒的第一组相联系序列读取和第二微粒的第二组相联系序列读取,其中相对于第二组相联系序列读取,第一组相联系序列读取通过不同的条码序列组相联系。

23.条款14至22中任一项所述的方法,其中所述方法包括制备用于测序的第一和第二样品,其中每个样品包含至少一个源自血液的微粒,其中每个微粒包含至少两个基因组DNA片段,并且其中条码序列各自包含样品标识符区域,并且其中所述方法包括:

(i)对每个样品进行步骤(a),其中附接至来自第一样品的基因组DNA片段的条码序列与附接至来自第二样品的基因组DNA片段的条码序列具有不同的样品标识符区域;

(ii)对每个样品进行步骤(b),其中每个相联系序列读取包含样品标识符区域的序列;以及

(iii)通过其样品标识符区域确定得到每个相联系序列读取的样品。

24.条款14至23中任一项所述的方法,其中在附接条码序列和/或偶联序列的步骤之前、期间和/或之后,所述方法包括使微粒中的基因组DNA片段交联的步骤。

25.条款14至24中任一项所述的方法,其中在附接条码序列和/或偶联序列的步骤之前、期间和/或之后,和/或任选地在使微粒中的基因组DNA片段交联的步骤之后,所述方法包括使微粒透化的步骤。

26.条款14至25中任一项所述的方法,其中在附接的步骤之前,所述方法还包括将样品分配到至少两个不同反应体积中的步骤。

27.制备用于测序之样品的方法,其中所述样品包含源自血液的第一和第二微粒,并且其中每个微粒包含至少两个靶核酸片段,并且其中所述方法包括以下步骤:

(a)使样品与包含至少两个多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含联系在一起的第一和第二条码区域,其中每个条码区域包含核酸序列,并且其中第一多聚体条码化试剂的第一和第二条码区域不同于文库的第二多聚体条码化试剂的第一和第二条码区域;以及

(b)将条码序列附接至第一微粒的第一和第二靶核酸片段中的每一个以产生第一微粒的第一和第二条码化靶核酸分子,其中第一条码化靶核酸分子包含第一多聚体条码化试剂的第一条码区域的核酸序列,并且第二条码化靶核酸分子包含第一多聚体条码化试剂的第二条码区域的核酸序列,并且将条码序列附接至第二微粒的第一和第二靶核酸片段中的每一个以产生第二微粒的第一和第二条码化靶核酸分子,其中第一条码化靶核酸分子包含第二多聚体条码化试剂的第一条码区域的核酸序列,并且第二条码化靶核酸分子包含第二多聚体条码化试剂的第二条码区域的核酸序列。

28.条款27所述的方法,其中所述方法包括以下步骤:

(a)使样品与包含至少两个多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含联系在一起的第一和第二条码化寡核苷酸,其中条码化寡核苷酸各自包含条码区域,并且其中文库的第一多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库的第二多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域;以及

(b)使第一多聚体条码化试剂的第一和第二条码化寡核苷酸与第一微粒的第一和第二靶核酸片段退火或连接以产生第一和第二条码化靶核酸分子,并且使第二多聚体条码化试剂的第一和第二条码化寡核苷酸与第二微粒的第一和第二靶核酸片段退火或连接以产生第一和第二条码化靶核酸分子。

29.条款28所述的方法,其中在使第一和第二条码化寡核苷酸与第一和第二基因组DNA片段退火或连接的步骤之前,所述方法包括将偶联序列附接至每个基因组DNA片段,其中使第一和第二条码化寡核苷酸随后与第一和第二基因组DNA片段的偶联序列退火或连接。

30.条款28或条款29所述的方法,其中步骤(b)包括:

(i)使第一多聚体条码化试剂的第一和第二条码化寡核苷酸与第一微粒的第一和第二基因组DNA片段退火,并且使第二多聚体条码化试剂的第一和第二条码化寡核苷酸与第二微粒的第一和第二基因组DNA片段退火;以及

(ii)使第一多聚体条码化试剂的第一和第二条码化寡核苷酸延伸以产生第一和第二不同的条码化靶核酸分子,并且使第二多聚体条码化试剂的第一和第二条码化寡核苷酸延伸以产生第一和第二不同的条码化靶核酸分子,其中每个条码化靶核酸分子包含至少一个由基因组DNA片段作为模板合成的核苷酸。

31.条款28或条款29所述的方法,其中所述方法包括:

(a)使样品与包含至少两个多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含联系在一起的第一和第二条码化寡核苷酸,其中条码化寡核苷酸各自以5’至3’方向包含靶区域和条码区域,其中文库的第一多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库的第二多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域,并且其中使样品进一步与每个多聚体条码化试剂的第一和第二靶引物接触;以及

(b)对每个微粒进行以下步骤

(i)使第一条码化寡核苷酸的靶区域与微粒的第一靶核酸片段的第一子序列退火,并且使第二条码化寡核苷酸的靶区域与微粒的第二靶核酸片段的第一子序列退火,

(ii)使第一靶引物与微粒的第一靶核酸片段的第二子序列退火,其中所述第二子序列在所述第一子序列的3’,并且使第二靶引物与微粒的第二靶核酸片段的第二子序列退火,其中所述第二子序列在所述第一子序列的3’,

(iii)使用微粒的第一靶核酸片段作为模板使第一靶引物延伸直至其到达第一子序列以产生第一延伸靶引物,并且使用微粒的第二靶核酸片段使第二靶引物延伸直至其到达第一子序列以产生第二延伸靶引物,以及

(iv)使第一延伸靶引物的3’端与第一条码化寡核苷酸的5’端连接以产生第一条码化靶核酸分子,并且使第二延伸靶引物的3’端与第二条码化寡核苷酸的5’端连接以产生第二条码化靶核酸分子,其中第一和第二条码化靶核酸分子是不同的,并且各自包含至少一个由靶核酸作为模板合成的核苷酸。

32.条款27至31中任一项所述的方法,其中多聚体条码化试剂各自包含:

(i)联系在一起的第一和第二杂交分子,其中每个杂交分子包含含有杂交区域的核酸序列;以及

(ii)第一和第二条码化寡核苷酸,其中使第一条码化寡核苷酸与第一杂交分子的杂交区域退火,并且其中使第二条码化寡核苷酸与第二杂交分子的杂交区域退火。

33.条款32所述的方法,其中多聚体条码化试剂各自包含:

(i)联系在一起的第一和第二条码分子,其中每个条码分子包含含有条码区域的核酸序列;以及

(ii)第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域退火的条码区域,并且其中第二条码化寡核苷酸包含与第二条码分子的条码区域退火的条码区域。

34.制备用于测序之样品的方法,其中所述样品包含至少两个源自血液的微粒,其中每个微粒包含至少两个靶核酸片段,并且其中所述方法包括以下步骤:

(a)使样品与包含第一和第二多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含联系在一起的第一和第二条码分子,其中每个条码分子包含任选地以5’至3’方向包含条码区域和衔接子区域的核酸序列;

(b)将偶联序列附接至第一和第二微粒的第一和第二靶核酸片段;

(c)对于每个多聚体条码化试剂,使第一片段的偶联序列与第一条码分子的衔接子区域退火,并且使第二片段的偶联序列与第二条码分子的衔接子区域退火;以及

(d)对于每个多聚体条码化试剂,将条码序列附接至微粒的至少两个靶核酸片段中的每一个以产生第一和第二不同的条码化靶核酸分子,其中第一条码化靶核酸分子包含第一条码分子的条码区域的核酸序列,并且第二条码化靶核酸分子包含第二条码分子的条码区域的核酸序列。

35.条款34所述的方法,其中每个条码分子包含以5’至3’方向包含条码区域和衔接子区域的核酸序列,并且其中步骤(d)包括,对于每个多聚体条码化试剂,使用第一条码分子的条码区域作为模板使第一片段的偶联序列延伸以产生第一条码化靶核酸分子,并且使用第二条码分子的条码区域作为模板使第二片段的偶联序列延伸以产生第二条码化靶核酸分子,其中第一条码化靶核酸分子包含与第一条码分子的条码区域互补的序列,并且第二条码化靶核酸分子包含与第二条码分子的条码区域互补的序列。

36.条款34所述的方法,其中每个条码分子包含以5’至3’方向包含衔接子区域和条码区域的核酸序列,其中步骤(d)包括,对于每个多聚体条码化试剂,

(i)使用第一条码分子的条码区域作为模板来使第一延伸引物退火并延伸以产生第一条码化寡核苷酸,并且使用第二条码分子的条码区域作为模板来使第二延伸引物退火并延伸以产生第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域互补的序列,并且第二条码化寡核苷酸包含与第二条码分子的条码区域互补的序列,

(ii)使第一条码化寡核苷酸的3’端与第一片段的偶联序列的5’端连接以产生第一条码化靶核酸分子,并且使第二条码化寡核苷酸的3’端与第二片段的偶联序列的5’端连接以产生第二条码化靶核酸分子。

37.条款34所述的方法,其中每个条码分子包含以5’至3’方向包含衔接子区域、条码区域和引发区域的核酸序列,其中步骤(d)包括,对于每个多聚体条码化试剂,

(i)使第一延伸引物与第一条码分子的引发区域退火并且使用第一条码分子的条码区域作为模板使第一延伸引物延伸以产生第一条码化寡核苷酸,并且使第二延伸引物与第二条码分子的引发区域退火并且使用第二条码分子的条码区域作为模板使第二延伸引物延伸以产生第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域互补的序列,并且第二条码化寡核苷酸包含与第二条码分子的条码区域互补的序列,以及

(ii)使第一条码化寡核苷酸的3’端与第一片段的偶联序列的5’端连接以产生第一条码化靶核酸分子,并且使第二条码化寡核苷酸的3’端与第二片段的偶联序列的5’端连接以产生第二条码化靶核酸分子。

38.条款34所述的方法,其中所述方法包括以下步骤:

(a)使样品与包含第一和第二多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含联系在一起的第一和第二条码分子,其中每个条码分子包含以5’至3’方向包含条码区域和衔接子区域的核酸序列,并且其中样品进一步与每个多聚体条码化试剂的第一和第二衔接子寡核苷酸接触,其中第一和第二衔接子寡核苷酸各自包含衔接子区域,以及

(b)使第一多聚体条码化试剂的第一和第二衔接子寡核苷酸与第一微粒的第一和第二靶核酸片段连接,并且使第二多聚体条码化试剂的第一和第二衔接子寡核苷酸与第二微粒的第一和第二靶核酸片段连接;

(c)对于每个多聚体条码化试剂,使第一衔接子寡核苷酸的衔接子区域与第一条码分子的衔接子区域退火,并且使第二衔接子寡核苷酸的衔接子区域与第二条码分子的衔接子区域退火;以及

(d)对于每个多聚体条码化试剂,使用第一条码分子的条码区域作为模板使第一衔接子寡核苷酸延伸以产生第一条码化靶核酸分子,并且使用第二条码分子的条码区域作为模板使第二衔接子寡核苷酸延伸以产生第二条码化靶核酸分子,其中第一条码化靶核酸分子包含与第一条码分子的条码区域互补的序列,并且第二条码化靶核酸分子包含与第二条码分子的条码区域互补的序列。

39.条款34所述的方法,其中所述方法包括以下步骤:

(a)使样品与包含第一和第二多聚体条码化试剂的文库接触,其中每个多聚体条码化试剂包含:

(i)联系在一起的第一和第二条码分子,其中每个条码分子包含任选地以5’至3’方向包含衔接子区域和条码区域的核酸序列,以及

(ii)第一和第二条码化寡核苷酸,其中第一条码化寡核苷酸包含与第一条码分子的条码区域退火的条码区域,其中第二条码化寡核苷酸包含与第二条码分子的条码区域退火的条码区域,并且其中文库的第一多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域不同于文库的第二多聚体条码化试剂的第一和第二条码化寡核苷酸的条码区域;其中样品进一步与每个多聚体条码化试剂的第一和第二衔接子寡核苷酸接触,其中第一和第二衔接子寡核苷酸各自包含衔接子区域;

(b)使第一多聚体条码化试剂的第一和第二衔接子寡核苷酸与第一微粒的第一和第二靶核酸片段退火或连接,并且使第二多聚体条码化试剂的第一和第二衔接子寡核苷酸与第二微粒的第一和第二靶核酸片段退火或连接;

(c)对于每个多聚体条码化试剂,使第一衔接子寡核苷酸的衔接子区域与第一条码分子的衔接子区域退火,并且使第二衔接子寡核苷酸的衔接子区域与第二条码分子的衔接子区域退火;以及

(d)对于每个多聚体条码化试剂,使第一条码化寡核苷酸的3’端与第一衔接子寡核苷酸的5’端连接以产生第一条码化靶核酸分子,并且使第二条码化寡核苷酸的3’端与第二衔接子寡核苷酸的5’端连接以产生第二条码化靶核酸分子。

40.条款39所述的方法,其中步骤(b)包括使第一多聚体条码化试剂的第一和第二衔接子寡核苷酸与第一微粒的第一和第二靶核酸片段退火,并且使第二多聚体条码化试剂的第一和第二衔接子寡核苷酸与第二微粒的第一和第二靶核酸片段退火,并且其中:

(i)对于每个多聚体条码化试剂,步骤(d)包括使第一条码化寡核苷酸的3’端与第一衔接子寡核苷酸的5’端连接以产生第一条码化衔接子寡核苷酸,并且使第二条码化寡核苷酸的3’端与第二衔接子寡核苷酸的5’端连接以产生第二条码化衔接子寡核苷酸,并且使第一和第二条码化衔接子寡核苷酸延伸以产生第一和第二不同的条码化靶核酸分子,其每一个包含至少一个由靶核酸片段作为模板合成的核苷酸,或者

(ii)对于每个多聚体条码化试剂,在步骤(d)之前,所述方法包括使第一和第二衔接子寡核苷酸以产生第一和第二不同的靶核酸分子,其每一个包含至少一个由靶核酸片段作为模板合成的核苷酸。

41.条款38至40中任一项所述的方法,其中在使第一和第二衔接子寡核苷酸与第一和第二靶核酸片段退火或连接的步骤之前,所述方法包括将偶联序列附接至每个靶核酸片段,其中第一和第二衔接子寡核苷酸随后与第一和第二靶核酸片段的偶联序列退火或连接。

42.条款27至41中任一项所述的方法,其中步骤(a)和(b)以及任选的(c)和(d)在单个反应体积中的至少两个微粒上进行。

43.条款27至41中任一项所述的方法,其中在步骤(b)之前,所述方法还包括将样品分配到至少两个不同反应体积中的步骤。

44.条款1至26中任一项所述的方法,其中所述方法包括:

(a)制备用于测序的样品,其包括:

(i)使样品与包含联系在一起的第一和第二条码区域的多聚体条码化试剂接触,其中每个条码区域包含核酸序列,以及

(ii)将条码序列附接至微粒的至少两个基因组DNA片段中的每一个以产生第一和第二不同的条码化靶核酸分子,其中第一条码化靶核酸分子包含第一条码区域的核酸序列并且第二条码化靶核酸分子包含第二条码区域的核酸序列;以及

(b)对每个条码化靶核酸分子进行测序以产生至少两个相联系序列读取。

45.条款44所述的方法,其中在将条码序列附接至微粒的至少两个基因组DNA片段中的每一个的步骤之前,所述方法包括将偶联序列附接至微粒的每个基因组DNA片段,其中将条码序列随后被附接至微粒的至少两个基因组DNA片段中的每一个的偶联序列以产生第一和第二不同的条码化靶核酸分子。

46.条款44或条款45所述的方法,其中步骤(a)通过条款27至43中任一项所述的方法进行。

47.条款44至46中任一项所述的方法,其中所述方法包括制备用于测序的第一和第二样品,其中每个样品包含至少一个源自血液的微粒,其中微粒包含至少两个基因组DNA片段,并且其中条码序列各自包含样品标识符区域,并且其中所述方法包括:

(i)对每个样品进行步骤(a),其中附接至来自第一样品的基因组DNA片段的条码序列与附接至来自第二样品的基因组DNA片段的条码序列具有不同的样品标识符区域;

(ii)对每个样品进行步骤(b),其中每个序列读取包含样品标识符区域的序列;以及

(iii)通过其样品标识符区域确定得到每个序列读取的样品。

48.条款44至47中任一项所述的方法,其中所述方法包括分析包含至少两个源自血液之微粒的样品,其中每个微粒包含至少两个基因组DNA片段,并且其中所述方法包括以下步骤:

(a)制备用于测序的样品,其包括:

(i)使样品与包含两个或更多个微粒中的每一个的多聚体条码化试剂之多聚体条码化试剂文库接触,其中每个多聚体条码化试剂如条款44至46中任一项中所限定;以及

(ii)将条码序列附接至每个微粒的至少两个基因组DNA片段中的每一个,其中由至少两个微粒中的每一个产生至少两个条码化靶核酸分子,并且其中由各自包含来自同一多聚体条码化试剂的条码区域之核酸序列的单个微粒产生至少两个条码化靶核酸分子;以及

(b)对每个条码化靶核酸分子进行测序以产生每个微粒的至少两个相联系序列读取。

49.条款48所述的方法,其中将条码序列附接至在单个反应体积中的微粒的基因组DNA片段。

50.条款48所述的方法,其中在附接的步骤之前,所述方法还包括将样品分配到至少两个不同反应体积中的步骤。

51.条款1至13中任一项所述的方法,其中所述方法包括:

(a)制备用于测序的样品,其包括将微粒的至少两个基因组DNA片段联系在一起以产生包含至少两个基因组DNA片段的序列的单个核酸分子;以及

(b)对单个核酸分子中的每个片段进行测序以产生至少两个相联系序列读取。

52.条款51所述的方法,其中所述至少两个基因组DNA片段在单个核酸分子中是连续的。

53.条款51所述的方法,其中在联系的步骤之前,所述方法包括将偶联序列附接至至少一个基因组DNA片段,并且随后通过所述偶联序列将至少两个基因组DNA片段联系在一起。

54.条款51至53所述的方法,其中基因组DNA片段通过连接反应联系在一起。

55.条款51至54中任一项所述的方法,其中所述样品包含至少两个源自血液的微粒,其中每个微粒包含至少两个基因组DNA片段,并且其中所述方法包括进行步骤(a)以产生包含每个微粒的至少两个基因组DNA片段的序列的单个核酸分子,并且进行步骤(b)以产生每个微粒的相联系序列读取。

56.条款51至55中任一项所述的方法,其中在将至少两个基因组DNA片段联系在一起的步骤之前、期间和/或之后,所述方法包括使微粒中的基因组DNA片段交联的步骤。

57.条款51至56中任一项所述的方法,其中在将至少两个基因组DNA片段联系在一起的步骤之前、期间和/或之后,和/或任选地在使微粒中的基因组DNA片段交联的步骤之后,所述方法包括使微粒透化的步骤。

58.条款55至57中任一项所述的方法,其中在步骤(a)之前,所述方法还包括将样品分配到至少两个不同反应体积中的步骤。

59.条款13、26、43、50和58中任一项所述的方法,其中将包含至少两个微粒的样品分配到至少两个不同的反应体积。

60.条款59所述的方法,其中不同的反应体积由不同的反应容器提供。

61.条款59所述的方法,其中不同的反应体积由不同的水性微滴提供。

62.条款61所述的方法,其中不同的水性微滴是乳液中的不同水性微滴。

63.条款61所述的方法,其中不同的水性微滴是固体支持物上的不同水性微滴。

64.条款1至13中任一项所述的方法,其中所述方法包括:

(a)制备用于测序的样品,其中微粒的所述至少两个基因组DNA片段通过它们在测序装置上的彼此接近度而相联系,以产生至少两个相联系基因组DNA片段的组;以及

(b)使用测序装置对每个相联系基因组DNA片段进行测序以产生至少两个相联系序列读取。

65.条款64所述的方法,其中所述样品包含至少两个源自血液的微粒,其中每个微粒包含至少两个基因组DNA片段,并且其中所述方法包括进行步骤(a)以产生每个微粒的相联系基因组DNA片段的组,并且其中每个微粒的基因组DNA片段在测序装置上在空间上是不同的,并且进行步骤(b)以产生每个微粒的相联系序列读取。

66.条款1至13中任一项所述的方法,其中所述样品包括:

(a)制备用于测序的样品,其中每个微粒的至少两个基因组DNA片段通过加载到单独测序方法中来相联系以产生至少两个相联系基因组DNA片段的组;以及

(b)使用测序装置对每个相联系基因组DNA片段进行测序以产生至少两个相联系序列读取。

67.条款66所述的方法,其中所述样品包含至少两个源自血液的微粒,其中每个微粒包含至少两个基因组DNA片段,并且其中所述方法包括进行步骤(a)以产生每个微粒的相联系基因组DNA片段,其中每个微粒的至少两个基因组DNA片段通过加载到单独测序方法中来相联系,并且对每个测序方法进行步骤(b)以产生每个微粒的相联系序列读取。

68.确定来自单个微粒的基因组DNA片段的相联系序列读取组方法,其中所述方法包括:

(a)根据条款1至26和44至67中任一项所述的方法分析样品;以及

(b)确定两个或更多个相联系序列读取。

69.条款68所述的方法,其中通过鉴定包含同一条码序列的序列读取来确定两个或更多个相联系序列读取。

70.条款68所述的方法,其中通过鉴定包含来自同一条码序列组的不同条码序列的序列读取来确定两个或更多个相联系序列读取。

71.条款68所述的方法,其中通过鉴定包含来自同一多聚体条码化试剂的条码区域的条码序列的序列读取来确定两个或更多个相联系序列读取。

72.确定序列数据集内相联系序列读取组的总数的方法,其包括:

(a)根据条款1至26和44至67中任一项所述的方法分析样品;以及

(b)确定相联系序列读取组的数目。

73.条款72所述的方法,其中通过对包含不同条码序列的序列读取的数目进行计数来确定相联系序列读取组的数目。

74.条款72所述的方法,其中通过对具有序列读取中的条码序列的条码序列组进行计数来确定相联系序列读取组的数目。

75.条款72所述的方法,其中通过对具有条码区域的多聚体条码化试剂的数目进行计数来确定相联系序列读取组的数目,所述条码区域的条码序列在序列读取内。

76.从相联系序列读取的组确定参数值的方法,其中所述方法包括:

(a)根据条款68至71中任一项所述的方法确定相联系序列读取的组;以及

(b)将相联系序列读取组的每个序列读取的至少一部分映射至一个或更多个参考核苷酸序列;以及

(c)通过对相联系序列读取组内一个或更多个参考核苷酸序列进行计数或鉴定其存在来确定参数值。

77.确定相联系序列读取组的方法,其包括:

(a)确定两个或更多个相联系序列读取组中的每一个的参数值,其中根据条款76所述的方法确定每个相联系序列读取组的参数值;以及

(b)将相联系序列读取组的参数值彼此进行比较或与一个或更多个阈值进行比较以鉴定两个或更多个相联系序列读取组的群组。

78.确定来自单个微粒的基因组DNA片段的相联系序列读取的组内基因组重排或结构变体的存在的方法,其中所述方法包括:

(a)根据条款68至71中任一项所述的方法确定相联系序列读取的组;以及

(b)将相联系序列读取组的每个序列的至少一部分映射至包含第一基因组区域的第一参考核苷酸序列,并且将相联系序列读取组的每个序列的至少一部分映射至包含第二基因组区域的第二参考核苷酸序列;以及

(c)对被发现映射在第一基因组区域内的来自相联系序列读取组的序列读取的数目进行计数,并且对被发现映射在第二基因组区域内的来自相联系序列读取组的序列读取的数目进行计数。

79.对两个变体等位基因进行定相的方法,其中第一变体等位基因包含在第一基因组区域内,并且其中第二变体等位基因包含在第二基因组区域内,并且其中每个变体等位基因具有至少两个变体或潜在变体,其中所述方法包括:

(a)根据条款68至71中任一项所述的方法确定相联系序列读取组;以及

(b)确定包含来自第一变体等位基因的每个潜在变体的序列是否存在于所述相联系序列读取组内,并且确定包含来自第二变体等位基因的每个潜在变体的序列是否存在于同一相联系序列读取组内。

80.确定胎儿来源的相联系序列读取组的方法,其中所述方法包括:

(a)根据条款68至71中任一项所述的方法确定相联系序列读取的组,其中所述样品包含源自母体血液的微粒;以及

(b)将相联系序列读取组的每个序列读取的至少一部分与存在于胎儿基因组中的序列的参考列表进行比较;以及

(c)通过在相联系序列读取组的一个或更多个序列读取内存在来自参考列表的一个或更多个序列来鉴定胎儿来源的相联系序列读取组。

81.确定胎儿基因型的方法,其包括:

(a)根据条款80所述的方法确定胎儿来源的相联系序列读取组;以及

(b)从胎儿来源的相联系序列读取组确定胎儿基因型。

82.在受试对象中诊断疾病或病症的方法,其中所述方法包括:

(a)确定从来自对象的受试样品确定的第相联系序列读取组的参数值,其中根据条款76所述的方法确定参数值;以及

(b)将从受试样品确定的相联系序列读取组的参数值与对照参数值进行比较。

83.条款82所述的方法,其中从由来自对象的受试样品确定的第二相联系序列读取组确定对照参数值,其中根据条款76所述的方法确定对照参数值。

84.条款82所述的方法,其中从由对照样品确定的相联系序列读取组确定对照参数值,其中根据条款76所述的方法确定对照参数值。

85.在受试对象中监测疾病或病症的方法,其中所述方法包括:

(a)确定从来自对象的受试样品确定的第一相联系序列读取组的参数值,其中根据条款76所述的方法确定参数值;以及

(b)将相联系序列读取组的参数值与对照参数值进行比较。

86.条款85所述的方法,其中从由在比受试样品更早的时间点获自相同对象的对照样品确定的第二相联系序列读取组确定对照参数值,任选地其中根据条款76所述的方法确定对照参数值。

87.在对象中诊断疾病的方法,其中所述方法包括:

(a)根据条款68至71中任一项所述的方法确定相联系序列读取组,其中所述样品包含源自血液的微粒;以及

(b)将相联系序列读取组的每个序列读取的至少一部分与存在于疾病的细胞中的序列的参考列表进行比较,其中在相联系序列读取组的一个或更多个序列读取内存在来自参考列表的一个或更多个序列表明疾病的存在。

88.确定病变细胞来源的相联系序列读取组的方法,其中所述方法包括:

(a)根据条款68至71中任一项确定相联系序列读取组,其中所述样品包含源自血液的微粒;以及

(b)将相联系序列读取组的每个序列读取的至少一部分与存在于疾病的细胞中的序列的参考列表进行比较;以及

(c)通过在相联系序列读取组的一个或更多个序列读取内存在来自参考列表的一个或更多个序列来鉴定病变细胞来源的相联系序列读取组。

89.条款88所述的方法,其中所述方法包括确定肿瘤细胞来源的相联系序列读取组,并且其中所述方法包括:

(a)根据条款68至71中任一项确定相联系序列读取组,其中所述样品包含源自血液的微粒;以及

(b)将相联系序列读取组的每个序列读取的至少一部分与存在于肿瘤细胞中的序列的参考列表进行比较;以及

(c)通过在相联系序列读取组的一个或更多个序列读取内存在来自参考列表的一个或更多个序列来鉴定肿瘤细胞来源的相联系序列读取组。

90.确定肿瘤基因型的方法,其包括:

(a)根据条款89所述的方法确定肿瘤来源的相联系序列读取组;以及

(b)从肿瘤来源的相联系序列读取组确定肿瘤基因型。

附图说明

通过参照结合附图的描述,可最佳地理解本发明及其另一些目的和优点,其中:

图1示出了可用于图3或图4中所示方法的多聚体条码化试剂。

图2示出了用于标记靶核酸的包含多聚体条码化试剂和衔接子寡核苷酸的套件(kit)。

图3示出了使用多聚体条码化试剂制备用于测序的核酸样品的第一方法。

图4示出了使用多聚体条码化试剂制备用于测序的核酸样品的第二方法。

图5示出了使用多聚体条码化试剂和衔接子寡核苷酸制备用于测序的核酸样品的方法。

图6示出了使用多聚体条码化试剂、衔接子寡核苷酸和靶寡核苷酸制备用于测序的核酸样品的方法。

图7示出了使用滚环扩增方法组装多聚体条码分子的方法。

图8示出了合成可用于图3、图4和/或图5中所示方法的用于标记靶核酸的多聚体条码化试剂的方法。

图9示出了合成可用于图3和/或图4中所示方法的用于标记靶核酸的多聚体条码化试剂(如图1中所示)的替代方法。

图10是示出了每个条码序列内核苷酸总数的图。

图11是示出了每个测序的多聚体条码分子内独特条码分子总数的图。

图12示出了通过分析脚本(script)检测出的代表性多聚体条码分子。

图13是示出了在用包含条码化寡核苷酸的多聚体条码化试剂对已知序列的合成DNA模板进行条码化之后,每个分子序列标识符的独特条码的数目相对于分子序列标识符的数目的图。

图14是示出了在用多聚体条码化试剂和单独衔接子寡核苷酸对已知序列的合成DNA模板进行条码化之后,每个分子序列标识符的独特条码的数目相对于分子序列标识符的数目的图。

图15是示出了用包含条码化寡核苷酸的多聚体条码化试剂对三种人基因(BRCA1、HLA-A和DQB1)的基因组DNA基因座进行条码化的结果的表。

图16是从用包含条码化寡核苷酸的多聚体条码化试剂对基因组DNA基因座进行条码化获得的序列读取的示意图。

图17是示出了来自同一多聚体条码化试剂的对同一合成模板分子上的序列进行标记的条码的数目相对于合成模板分子的数目的图。

图18示出了一种方法,其中确定了来自微粒的两个或更多个序列并使其在信息上相联系。

图19示出了一种方法,其中来自特定微粒的序列通过共享的标识符相联系。

图20示出了一种方法,其中分子条码附接至已被分配的微粒内的基因组DNA片段,并且其中所述条码提供源自同一微粒的序列之间的联系。

图21示出了一种特定的方法,其中分子条码通过多聚体条码化试剂附接至微粒内的基因组DNA片段,并且其中所述条码提供源自同一微粒的序列之间的联系。

图22示出了一种方法,其中个体微粒内的基因组DNA片段彼此附接,并且其中对所得分子进行测序,使得从同一测序分子确定来自同一微粒的两个或更多个基因组DNA片段的序列,从而在同一微粒内的片段之间建立联系。

图23示出了一种方法,其中在两个或更多个独立的单独测序反应中对来自大的微粒样品的个体微粒(和/或小的微粒群组)进行测序,并且从每个这样的测序反应确定的序列因此被确定为在信息上相联系并因此被预测为源自同一个体微粒(和/或小的微粒群组)。

图24示出了一种具体方法,其中在进行测序之前将个体微粒内的基因组DNA片段附接至测序流动池的离散区域,并且其中在所述流动池上测序的片段的接近度提供源自同一微粒的序列之间的联系。

图25示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体A’版本)。示出了人基因组中所有染色体上的序列读取的密度,在单个染色体区段内具有清晰的读取聚类(clustering of read)。

图26示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体B’版本)。示出了人基因组中所有染色体上的序列读取的密度,在单个染色体区段内具有清晰的读取聚类。

图27示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体B’版本)。示出了在特定染色体区段内放大的序列读取的密度,以示出这些相联系读取的集中的高密度特性。

图28示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体C’版本)。示出了人基因组中所有染色体上的序列读取的密度,在单个染色体区段内具有清晰的读取聚类,虽然这样的区段比在其他变体方法中染色体跨度更大(由于与变体A或B相比更大的微粒在变体C中沉淀)。

图29示出了阴性对照实验,其中基因组DNA的片段在附接至条码化寡核苷酸之前进行纯化(即因此是未相联系的)。根本没有观察到读取聚类,证实了循环微粒包含来自集中的连续基因组区域的基因组DNA片段。

下面提供图18至29中的每一个的详细描述。

图18示出了一种方法,其中确定了来自微粒的两个或更多个序列并使其在信息上相联系。在所述方法中,包含在血液、血浆或血清样品内或从其来源的微粒包含两个或更多个基因组DNA片段。确定这些基因组DNA片段的至少一部分的序列;并且此外,通过一种或更多种方法,建立了信息性联系,使得来自微粒的第一和第二序列相联系。

这种联系可采取任何形式,例如共享标识符(例如,其可来源于在分子条码化过程期间可附接至所述第一和第二基因组DNA序列的共享条码);任何其他共享特性也可用于使两个序列相联系;包含序列本身的数据可包含在共享的电子存储介质或其分区内。此外,联系可包括非二元或相对值,例如表示在空间计量的测序反应内的两个片段的物理接近度,或者表示两个序列可来源于包含在同一微粒内的基因组DNA片段的估计的可能性或概率。

图19示出了一种方法,其中来自特定微粒的序列通过共享的标识符相联系。在所述方法中,确定了包含在两个不同微粒(例如,源自单个血液、血浆或血清样品的两个不同微粒)内的基因组DNA片段的序列的数目,例如,通过核酸测序反应。对应于来自第一微粒的基因组DNA片段的序列各自被分配至相同的信息性标识符(在此,标识符‘0001’),并且对应于来自第二微粒的基因组DNA片段的序列各自被分配至同一不同的信息性标识符(在此,标识符‘0002’)。因此,序列和相应标识符的该信息包括源自同一微粒的序列之间的在信息上相联系,其中不同组的标识符服务于信息性联系的功能。

图20示出了一种方法,其中分子条码附接至已被分配的微粒内的基因组DNA片段并且其中所述条码提供源自同一微粒的序列之间的联系。在所述方法中,将来自微粒样品的微粒分配到两个或更多个分区,并随后在分区内对微粒内的基因组DNA片段进行条码化,并随后以这样的方式确定序列:条码识别序列通过哪个分区得到,并因而使来自个体微粒的不同序列相联系。

在第一步骤中,将微粒分配到两个或更多个分区(其可包括例如不同的物理反应容器、或乳液内的不同微滴)。随后从每个分区内的微粒释放基因组DNA的片段(即,使片段物理上可接近,使得它们随后可被条码化)。该释放步骤可通过高温孵育步骤和/或通过用分子溶剂或化学表面活性剂孵育来进行。任选地(但未在此示出),可在附接条码序列之前,在该时间点进行扩增步骤,使得基因组DNA片段的全部或一部分复制至少一次(例如在PCR反应中),并且随后条码序列可随后被附接至所得复制产物。

随后将条码序列附接至基因组DNA片段。条码序列可采取任何形式,例如包含条码区域的引物、或多聚体条码化试剂内的条码化寡核苷酸、或多聚体条码分子内的条码分子。条码序列也可通过任何方式附接,例如通过引物延伸和/或PCR反应,或单链或双链连接反应,或通过体外转座。在任何情况下,附接条码序列的方法在每个分区内产生分子溶液,其中每个这样的分子包含条码序列、并随后包含对应于来自被分配到所述分区的微粒的基因组DNA片段的序列的全部或一部分。

随后将来自不同分区的包含条码的分子合并在一起形成单个反应物,并随后对所得分子进行测序反应以确定基因组DNA的序列和它们所附接的条码序列。随后使用相关的条码序列来鉴定得到每个序列的分区,并因而使在测序反应中确定的源自包含在同一微粒或微粒的群组内的基因组DNA片段的序列相联系。

图21示出了一种具体的方法,其中分子条码通过多聚体条码化试剂附接至微粒内的基因组DNA片段,并且其中所述条码提供源自同一微粒的序列之间的联系。在所述方法中,使来自微粒样品的微粒交联并随后进行透化,并随后通过多聚体条码化试剂对包含在微粒内的基因组DNA片段进行条码化,并且随后以这样的方式确定序列:条码识别每个序列通过哪个多聚体条码化试剂进行条码化,并因而使来自个体微粒的不同序列相联系。

在第一步骤中,通过化学交联剂使来自微粒样品的微粒交联。该步骤用于保持每个微粒内的基因组DNA片段彼此物理接近度的目的,使得可操作和处理样品,同时保留微粒的基本结构性质(即,同时保持源自同一微粒的基因组DNA片段的物理接近度)。在第二步骤中,使交联的微粒透化(即,使基因组DNA片段物理上可接近,使得它们随后可在条码化步骤中被条码化);这种透化可例如通过用化学表面活性剂(例如非离子洗涤剂)孵育来进行。

随后将条码序列附接至基因组DNA片段,其中包含在多聚体条码化试剂(和/或多聚体条码分子)内的条码序列附接至相同的交联微粒内的片段。条码序列可通过任何方式附接,例如通过引物延伸反应,或通过单链或双链连接反应。进行附接条码序列的方法,使得许多多聚体条码化试剂(和/或多聚体条码分子)的文库用于将序列附接至包含许多交联微粒的样品,在稀释条件下使得每个多聚体条码化试剂(和/或多聚体条码分子)通常仅对包含在单个微粒内的序列进行条码化。

随后对所得分子进行测序反应以确定基因组DNA的序列和它们所附接的条码序列。随后使用相关的条码序列来鉴定每个序列通过哪个多聚体条码化试剂(和/或多聚体条码分子)进行条码化,并因而使在测序反应中确定的源自包含在同一微粒内的基因组DNA片段的序列相联系。

图22示出了一种方法,其中个体微粒内的基因组DNA片段彼此附接,并且其中对所得分子进行测序,使得从同一测序分子确定来自同一微粒的两个或更多个基因组DNA片段的序列,从而在同一微粒内的片段之间建立联系。在所述方法中,使个体微粒内的基因组DNA片段彼此交联,并随后平端化,并随后使所得基因组DNA平端化片段彼此连接成连续的多部分的序列。随后对所得分子进行测序,使得来自包含在同一测序分子内的两个或更多个基因组DNA片段的序列因此被确定为因为源自同一微粒而相联系。

在第一步骤中,通过化学交联剂使来自微粒样品的微粒交联。该步骤用于保持每个微粒内的基因组DNA片段彼此物理接近度的目的,使得可操作和处理样品,同时保留微粒的基本结构性质(即,同时保持源自同一微粒的基因组DNA片段的物理接近度)。在第二步骤中,使交联的微粒透化(即,使基因组DNA片段物理上可接近,使得它们随后可在条码化步骤中被条码化);这种透化可例如通过用化学表面活性剂(例如非离子洗涤剂)孵育来进行。

在下一步骤中,使每个微粒内的基因组DNA片段的端平端化(即,任何单链突出端被除去和/或末端被填充),使得末端在双链连接反应中能够彼此附接。随后进行双链连接反应(例如用T4 DNA连接酶),其中包含在同一微粒内的分子的平端化末端彼此连接成连续的多部分的双链序列。该连接反应(或任何其他步骤)可在稀释条件下进行,使得包含在两个或更多个不同微粒内的序列之间的假连接产物最小化。

随后对所得分子进行测序反应,以确定每个多部分分子内的基因组DNA序列。随后评价所得分子,使得来自包含在同一测序分子内的两个或更多个基因组DNA片段的序列因此被确定为因为源自同一微粒而相联系。

图23示出了一种方法,其中在两个或更多个独立的单独测序反应中对来自大的微粒样品的个体微粒(和/或小的微粒群组)进行测序,并且从每个这样的测序反应确定的序列因此被确定为在信息上相联系并因此被预测为源自同一个体微粒(和/或小的微粒群组)。在所述方法中,来自微粒样品的微粒被分成微粒的两个或更多个单独的子样品。每个子样品可包含一个或更多个个体微粒,但在任何情况下将仅包含原始微粒样品的一部分。

每个子样品内的基因组DNA片段随后被释放并被加工成使得可对它们可被测序的形式(例如,它们可附接至测序衔接子例如Illumina测序衔接子,并且任选地被扩增和纯化用于测序)。该方法可包括或可不包括附接条码序列的步骤;任选地,测序的分子不包含任何条码序列。

随后在单独的独立测序反应中对来自每个单独子样品的基因组DNA片段(和/或其复制的拷贝)进行测序。例如,来自每个子样品的分子可在单独的测序流动池上被测序,或者可在流动池的不同泳道内被测序,或者可在纳米孔测序仪的不同端口或流动池内被测序。

随后评价所得测序的分子,使得来自同一单独测序反应的序列被确定为因为源自同一微粒(和/或来自同一小的微粒群组)而相联系。

图24示出了一种具体方法,其中在进行测序之前将个体微粒内的基因组DNA片段附接至测序流动池的离散区域,并且其中在所述流动池上测序的片段的接近度包括源自同一微粒的序列之间的联系。在所述方法中,使来自微粒样品的微粒交联并随后进行透化,并随后将包含在个体微粒内的基因组DNA片段附接至测序流动池,使得来自同一个体微粒的两个或更多个片段附接至流动池的同一区域。随后对附接的分子进行测序,并且所得序列在流动池上的接近度包括联系值,其中可预测流动池上紧密接近度内的序列源自原始样品内的同一个体微粒。

在第一步骤中,通过化学交联剂使来自微粒样品的微粒交联。该步骤用于保持每个微粒内的基因组DNA片段彼此物理接近度的目的,使得可操作和处理样品,同时保留微粒的基本结构性质(即,同时保持源自同一微粒的基因组DNA片段的物理接近度)。在第二步骤中,使交联的微粒透化(即,使基因组DNA片段物理上可接近,使得它们随后可附接至流动池);这种透化可例如通过用化学表面活性剂(例如非离子洗涤剂)孵育来进行。

在下一步骤中,随后将来自微粒的基因组DNA片段附接至测序装置的流动池,使得在同一微粒内交联的两个或更多个片段附接至流动池的同一离散区域。这可在涉及衔接子分子的多部分反应中进行;例如,衔接子分子可附接至微粒内的基因组DNA片段,并且所述衔接子分子可包含与流动池上的单链引物互补的单链部分。随后可使来自交联微粒的序列扩散并与流动池的同一区域内的不同引物退火。

随后对所得测序分子进行测序,使得所得序列在流动池上的接近度提供联系值,其中可预测流动池上紧密接近度内的序列(例如,在某个离散区域和/或接近度值内)源自原始样品内的同一个体微粒。

仅通过举例的方式,通过参照NIPT和癌症检测中的可能应用,可举例说明本发明的优点:

例如,在肿瘤学领域中,本发明可使强大的新框架能够筛选癌症的早期检测。数个团体正在寻求开发cfDNA测定,其可在转移性转化之前检测来自早期肿瘤的低水平循环DNA(所谓的“循环肿瘤DNA”或ctDNA)。从非癌症试样中描绘癌症的主要方法之一是通过检测作为恶性肿瘤的几乎普遍标志的“结构变体”(遗传扩增、缺失或易位);然而,通过当前的“分子计数”框架检测这样的大规模遗传事件需要对cfDNA进行超深度测序以实现统计学上有意义的检测,并且甚至需要在血浆中存在足够量的ctDNA以产生足够的完全分子信号,即使具有假设的无限的测序深度也是如此。

相比之下,本发明可实现结构变异的直接分子评价,具有潜在的单分子灵敏度:包含“重排位点”(例如,一条染色体上已经与另一染色体易位并因此附着于其上的点,或在单个染色体内基因或其他染色体区段已被扩增或缺失的点)的任何结构变异通过该方法可直接检测,因为包含重排DNA的循环微粒可包含重排位点本身两侧侧翼的DNA片段的群体,其通过该方法随后可彼此联系以在信息性上推断重排本身的位置以及两个参与的基因组位点在其每一端的界限二者。

为了概念化这如何可改善普遍的癌症筛查的成本效益和绝对分析灵敏度,可给出假设的单循环微粒的实例,其包含来自早期癌细胞的染色体易位,并且其包含跨越该易位的左半部分和右半部分的总共1兆碱基的DNA,该DNA被片段化为累积跨越整个1兆碱基区段的10,000个不同的、100个核苷酸长的个体片段。为了使用当前的、仅未相联系片段的方法检测这种易位事件的存在,需要对本身包含准确易位位点的单个的100碱基对的片段进行测序,并对其整个长度进行测序以检测真实的易位位点本身。因此,该测试方法需要以下二者:1)高效地将所有10,000个片段转换成可在测序仪上读取的格式(即,10,000个片段中的大多数必须在整个DNA纯化和测序样品制备过程中成功地处理和保留),随后2)所有10,000个片段必须通过DNA测序方法测序至少一次以可靠地对包含易位位点的片段进行测序(即,必须进行至少1兆碱基的测序,甚至推测所有输入分子理论均匀采样进入测序步骤)。因此,需要进行1兆碱基的测序以检测易位事件。

相比之下,为了以高的统计置信度但使用相联系的片段方法检测易位的存在,只需要对来自易位位点本身每侧的少量输入片段进行测序(以从例如统计噪声或错误映射误差区分“确信的”易位事件)。为了提供高的统计置信度,可对来自易位的每一侧的10个片段的顺序进行测序;并且由于它们需要仅被映射至基因组中的位置并且不在其整个长度上测序以观察实际的易位本身,因此需要对来自每个片段的仅50个碱基对的序列进行测序。总之,这产生了1000个碱基对的总测序要求以检测易位的存在(比现有技术所需的1,000,000个碱基对降低1000倍)。

除了关于相对测序通量和成本的这种显著益处之外,相联系读取方法还可提高这些癌症筛选测试的可实现的绝对灵敏度。因为,对于早期(并且因此可能治愈的)癌症,循环中肿瘤DNA的绝对量很低,样品处理和测序准备过程期间样品DNA的损失可显著阻碍测试效力,即使具有理论上无限制的测序深度也是如此。与上述实例一致,使用当前方法,包含易位位点本身的单个DNA片段在整个样品收集、处理和测序制备方案中需要被保留并且成功地被处理,并随后成功地进行测序。然而,所有这些步骤导致一定分数的“输入”分子从处理过的样品物理损失(例如在离心或清除步骤期间),或简单地以其他方式不被后续步骤成功地被处理/改变(例如,在置于DNA测序仪上之前没有成功地扩增)。相反,由于本发明的相联系读取方法仅需要涉及小比例的实际“输入”分子的测序,因此这种类型的样品损失可能对最终测定的最终灵敏度具有显著降低的影响。

除了其在肿瘤学和癌症筛查中的应用之外,本发明还可在非侵入性产前检测(noninvasive prenatal testing,NIPT)领域中实现相当多的新工具。发育中的胎儿(和包含它的胎盘)使片段化的DNA流入母体循环中,其一部分包含在循环微粒中。类似于从ctDNA筛查癌症的问题,循环的胎儿DNA仅代表妊娠个体中总的循环DNA的一小部分(大多数循环DNA是正常的母体DNA)。NIPT的一个相当大的技术挑战围绕着区分实际的胎儿DNA与母体DNA片段(其将共享相同的核苷酸序列,因为它们是一半胎儿基因组的遗传来源)。NIPT的一个另外的技术挑战涉及从循环中存在的胎儿DNA的短片段检测长范围的基因组序列(或突变)。

源自相同个体循环微粒的相联系片段的分析呈现了用于基本上解决NIPT的这两个技术挑战的强有力框架。由于胎儿基因组的(大约)一半与发育中的胎儿所遗传的母体基因组的(大约)一半序列相同,因此难以区分具有母体序列的给定测序片段是否可以是由正常的母体组织,或者相反地由发育中的胎儿组织产生。相比之下,对于父系遗传(遗传自父亲)的胎儿基因组的(大约)一半,存在于父体基因组但不存在于母体基因组中的序列变体(例如单核苷酸变体或其他变体)的存在充当识别这些父系遗传的胎儿片段的分子标志物(因为循环中仅父体DNA序列将是来自妊娠本身的那些)。

因此对来自单个循环胎儿微粒的恰巧包含母体和父体序列(例如来自一个特定母系遗传的胎儿染色体的序列,以及来自父系遗传的第二胎儿染色体的序列)二者的多个片段进行测序的能力呈现出直接识别发育中的胎儿遗传哪些母体序列的方法:被发现共定位在还包含父体序列的微粒内的母体序列可被预测为胎儿遗传的母体序列,并且相反,未被发现与父体序列共定位的母体序列可被预测为代表未被胎儿遗传的母体序列。通过该技术,可从加工的序列数据集中特异性地过滤出由正常母体DNA构成的循环DNA的大部分,并且仅被证明为真实胎儿序列的序列在可信息上分离用于进一步分析。

由于用于NIPT测定的“胎儿分数”(由胎儿自身产生的所有循环DNA的分数)通常低于10%,并且对于一些临床试样为1%至5%,并且由于该父体序列来源的“信息门控”步骤产生100%的“有效胎儿分数”(推定错误映射误差最小),因此这种相联系片段方法具有将NIPT测试的信噪比提高一至两个数量级的潜力。因此,本发明具有提高NIPT测试的总体分析灵敏度和特异性、以及显著降低该过程所需的测序量的潜力,并且还使NIPT测试能够在妊娠早期(胎儿的分数足够低、目前的测试具有不可接受的假阳性和假阴性率的时间点)进行。

重要的是,本发明提供了来自在信息上相联系序列形式的循环DNA的序列数据内新的、正交的维度,在其上可直接进行分析算法、计算和/或统计学检验以产生相当的更敏感和特异的遗传测量。例如,不是评价整个样品中两条染色体之间的序列总量来测量胎儿染色体非整倍性,而是可直接评估相联系序列(和/或其组或亚组)以检查例如映射至特定染色体或染色体部分的每个在信息上相联系组的序列的数目。可进行比较和/或统计学检验以比较不同推定细胞来源的序列的相联系组(例如,胎儿序列与母体序列之间的比较,或推定的健康组织与推定的癌症或恶性组织之间的比较),或评价仅在序列的相联系组的水平上存在的序列特征或数值特征(并且其在单个未相联系序列的水平上不存在),例如特定序列或序列组的特定染色体分布型、或累积的富集。

除了其用于检测胎儿微粒序列的应用之外,该方法还具有检测胎儿基因组中存在的长范围的遗传序列或序列突变的潜力。与癌症基因组重排所描述的方式大致相同,如果对跨越基因组重排位点(例如易位或扩增或缺失)和/或在其侧翼的来自胎儿微粒的数个DNA片段进行测序,那么即使没有直接对重排位点本身进行测序,这些类型的重排也可在信息上检测。此外,在基因组重排事件之外,该方法具有检测个体基因组区域内“定相”信息的潜力。例如,如果两个单核苷酸变体在特定基因内的不同点处被发现但被数千碱基的基因组距离分开,则该方法使得能够评估这两个单核苷酸变体是否位于胎儿基因组中的基因的相同单个拷贝上,或者它们是否各自位于胎儿基因组中存在的基因的两个拷贝中的不同拷贝上(即它们是否位于相同的单倍型内)。这种功能对于胎儿基因组中从头单核苷酸突变(其包括大部分具有遗传病因学的主要发育障碍)的遗传评价和预后具有特别的临床效用。

实施例

实施例1

材料和方法

方法1-核酸条码分子文库的合成

双链子条码分子文库的合成

在PCR管中,将10微升的10微摩BC_MX3(SEQ ID NO:18至269中所有序列的等摩混合物)添加至10微升的10微摩BC_ADD_TP1(SEQ ID NO:1),加10微升的10×CutSmart缓冲液(New England Biolabs),加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加68微升H2O,至99微升的终体积。将PCR管置于热循环仪上,并在75℃下孵育5分钟,随后缓慢退火至4℃,随后保持4℃,随后置于冰上。向溶液添加1.0微升Klenow聚合酶片段(New England Biolabs;5U/μL)并混合。再次将PCR管置于热循环仪上,并在25℃下孵育15分钟,随后保持在4℃。随后,将溶液用纯化柱(核苷酸除去试剂盒(NucleotideRemoval Kit);Qiagen)进行纯化,在50微升H2O中洗脱,并通过分光光度法进行定量。

双链下游衔接子分子的合成

在PCR管中,将0.5微升的100微摩BC_ANC_TP1(SEQ ID NO:2)添加至0.5微升的100微摩BC_ANC_BT1(SEQ ID NO:3),加20微升的10×CutSmart缓冲液(New EnglandBiolabs),加178微升H2O,至200微升的终体积。将PCR管置于热循环仪上,并在95℃下孵育5分钟,随后缓慢退火至4℃,随后保持4℃,随后置于冰上,随后储存在-20℃下。

双链子条码分子文库与双链下游衔接子分子的连接

在1.5毫升Eppendorf管中,将1.0微升双链下游衔接子分子溶液添加至2.5微升双链子条码分子文库,加2.0微升的10×T4 DNA连接酶缓冲液和13.5微升H2O,至19微升的终体积。向该溶液中添加1.0微升T4DNA连接酶(New England Biolabs;高浓度)并混合。将管在室温下孵育60分钟,随后用1.8×体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在40微升H2O中洗脱。

连接文库的PCR扩增

在PCR管中,将2.0微升连接文库添加至2.0微升的50微摩BC_FWD_PR1(SEQ ID NO:4),加2.0微升的50微摩BC_REV_PR1(SEQ ID NO:5),加10微升的10×Taq PCR缓冲液(Qiagen),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加81.5微升H2O,加0.5微升Qiagen Taq聚合酶(5U/μL)至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃持续30秒,随后59℃持续30秒,随后72℃持续30秒;随后保持在4℃。随后,用1.8×体积(180微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在50微升H2O中洗脱。

尿嘧啶糖基化酶消化

向eppendorf管添加15微升洗脱的PCR扩增物、1.0微升H2O,加2.0微升的10×CutSmart缓冲液(New England Biolabs),加2.0微升USER酶溶液(New England Biolabs)并混合。将管在37℃下孵育60分钟,随后用1.8×体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在34微升H2O中洗脱。

MlyI限制性酶切割

向来自先前(糖基化酶消化)步骤的洗脱液添加4.0微升的10×CutSmart缓冲液(New England Biolabs),加2.0微升MlyI酶(New England Biolabs,5U/μL)并混合。将管在37℃下孵育60分钟,随后用1.8×体积(72微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在40微升H2O中洗脱。

子条码文库与MlyI切割溶液的连接

在1.5毫升Eppendorf管中,将10微升的MlyI切割溶液添加至2.5微升双链子条码分子文库,加2.0微升的10×T4 DNA连接酶缓冲液和4.5微升H2O,至19微升的终体积。向该溶液中添加1.0微升的T4 DNA连接酶(New England Biolabs;高浓度)并混合。将管在室温下孵育60分钟,随后用1.8×体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)进行纯化,并在40微升H2O中洗脱。

重复子条码添加的循环

按顺序重复以下实验步骤总共5个循环:1)子条码文库与MlyI切割溶液的连接,2)连接文库的PCR扩增,3)尿嘧啶糖基化酶消化,以及4)MlyI限制性酶切割。

双链上游衔接子分子的合成

在PCR管中,将1.0微升的100微摩BC_USO_TP1(SEQ ID NO:6)添加至1.0微升的100微摩BC_USO_BT1(SEQ ID NO:7),加20微升的10×CutSmart缓冲液(New EnglandBiolabs),加178微升H2O,至200微升的终体积。将PCR管置于热循环仪上,并在95℃下孵育60秒,随后缓慢退火至4℃,随后保持4℃,随后置于冰上,随后储存在-20℃下。

双链上游衔接子分子的连接

在1.5毫升Eppendorf管中,将3.0微升上游衔接子溶液添加至10.0微升的最终(在第五个循环之后)MlyI切割溶液,加2.0微升的10×T4 DNA连接酶缓冲液和5.0微升的H2O,至19微升的终体积。向该溶液中添加1.0微升的T4 DNA连接酶(New England Biolabs;高浓度)并混合。将管在室温下孵育60分钟,随后用1.8×体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)进行纯化,并在40微升H2O中洗脱。

上游衔接子连接文库的PCR扩增

在PCR管中,将6.0微升上游衔接子连接文库添加至1.0微升的100微摩BC_CS_PCR_FWD1(SEQ ID NO:8),加1.0微升的100微摩BC_CS_PCR_REV1(SEQ ID NO:9),加10微升的10×Taq PCR缓冲液(Qiagen),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加73.5微升H2O,加0.5微升Qiagen Taq聚合酶(5U/μL),至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃持续30秒,随后61℃持续30秒,随后72℃持续30秒;随后保持在4℃。随后,用1.8×体积(180微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化包含所扩增核酸条码分子文库的溶液。随后,将所扩增核酸条码分子文库在40微升H2O中进行洗脱。

随后,使用由上述方法合成的所扩增核酸条码分子文库来如下所述组装多聚体条码分子文库。

方法2-多聚体条码分子文库的组装

使用根据方法1所述方法合成的核酸条码分子文库来组装多聚体条码分子文库。

用正向终止引物和正向夹板引物(splinting primer)进行引物延伸

在PCR管中,将5.0微升所扩增核酸条码分子文库添加至1.0微升的100微摩CS_SPLT_FWD1(SEQ ID NO:10),加1.0微升的5微摩CS_TERM_FWD1(SEQ ID NO:11),加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加80.0微升H2O,加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)至100微升的终体积。将PCR管置于热循环仪上,并扩增1个以下循环:95℃持续30秒,随后53℃持续30秒,随后72℃持续60秒;随后是1个以下循环:95℃持续30秒,随后50℃持续30秒,随后72℃持续60秒,随后保持在4℃。随后,将溶液用PCR纯化柱(Qiagen)纯化,并在85.0微升H2O中洗脱。

用反向终止引物和反向夹板引物进行引物延伸

在PCR管中,将85.0微升正向延伸引物-延伸产物添加至1.0微升的100微摩CS_SPLT_REV1(SEQ ID NO:12),加1.0微升的5微摩CS_TERM_REV1(SEQ ID NO:13),加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)至100微升的终体积。将PCR管置于热循环仪上,并扩增1个以下循环:95℃持续30秒,随后53℃持续30秒,随后72℃持续60秒;随后是1个以下循环:95℃持续30秒,随后50℃持续30秒,随后72℃持续60秒,随后保持在4℃。随后,将溶液用PCR纯化柱(Qiagen)纯化,并在43.0微升H2O中洗脱。

用重叠延伸PCR使引物延伸产物相联系

在PCR管中,添加43.0微升反向延伸引物-延伸产物,加5.0微升的10×Thermopol缓冲液(NEB),加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)至50微升的终体积。将PCR管置于热循环仪上,并扩增5个以下循环:95℃持续30秒,随后60℃持续60秒,随后72℃持续2分钟;随后是5个以下循环:95℃持续30秒,随后60℃持续60秒,随后72℃持续5分钟;随后是5个以下循环:95℃持续30秒,随后60℃持续60秒,随后72℃持续10分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在40微升H2O中洗脱。

重叠延伸产物的扩增

在PCR管中添加2.0微升重叠延伸PCR溶液,加1.0微升的100微摩CS_PCR_FWD1(SEQID NO:14),加1.0微升的100微摩CS_PCR_REV1(SEQ ID NO:15),加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加83.0微升H2O,至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃持续30秒,随后58℃持续30秒,随后72℃持续10分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在50微升H2O中洗脱,并通过分光光度法进行定量。

扩增的重叠延伸产物的基于凝胶的尺寸选择

上样约250纳克扩增的重叠延伸产物并在0.9%琼脂糖凝胶上运行,随后用溴化乙锭染色并可视化。切下对应于尺寸为1000个核苷酸(±100个核苷酸)的条带,用凝胶提取柱(Gel Extraction Kit,Qiagen)纯化并在50微升H2O中洗脱。

重叠延伸产物的扩增

在PCR管中添加10.0微升凝胶尺寸选择溶液,加1.0微升的100微摩CS_PCR_FWD1(SEQ ID NO:14),加1.0微升的100微摩CS_PCR_REV1(SEQ ID NO:15),加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加75.0微升H2O,至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃持续30秒,随后58℃持续30秒,随后72℃持续4分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt按照制造商的说明书)纯化溶液,并在50微升H2O中洗脱,并通过分光光度法进行定量。

定量已知数目的多聚体条码分子的选择和扩增

将扩增的凝胶提取溶液稀释至1皮克/微升的浓度,并随后向PCR管添加2.0微升的该稀释溶液(约200万个单独分子),加0.1微升的100微摩CS_PCR_FWD1(SEQ ID NO:14),加0.1微升的100微摩CS_PCR_REV1(SEQ ID NO:15),加1.0微升的10×Thermopol缓冲液(NEB),加0.2微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加0.1微升VentExo-Minus聚合酶(New England Biolabs,2U/μL),加6.5微升H2O,至10微升的终体积。将PCR管置于热循环仪上并扩增11个以下循环:95℃持续30秒,随后57℃持续30秒,随后72℃持续4分钟;随后保持在4℃。

向PCR管添加1.0微升的100微摩CS_PCR_FWD1(SEQ ID NO:14),加1.0微升的100微摩CS_PCR_REV1(SEQ ID NO:15),加9.0微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加76.0微升H2O,至100微升的终体积。将PCR管置于热循环仪上并扩增10个以下循环:95℃持续30秒,随后57℃持续30秒,随后72℃持续4分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在50微升H2O中洗脱,并通过分光光度法进行定量。

方法3:通过体外转录和cDNA合成产生单链多聚体条码分子

该方法描述了产生单链DNA链的一系列步骤,寡核苷酸可与所述单链DNA链退火并随后沿之进行条码化。该方法开始于平行进行的四个相同的反应,其中使用重叠延伸PCR扩增反应将T7 RNA聚合酶的启动子位点附接至多聚体条码分子文库的5’端。平行进行四个相同的反应,随后合并以提高可用的该产物的定量的量和浓度。在四个相同的PCR管中的每一个中,将约500皮克的经尺寸选择且PCR扩增的多聚体条码分子(如在方法2的“定量已知数目的多聚体条码分子的选择和扩增”步骤中产生的)与2.0微升的100微摩CS_PCR_FWD1_T7(SEQ ID NO.270)和2.0微升的100微摩CS_PCR_REV4(SEQ ID NO.271)混合,加20.0微升的10×Thermopol PCR缓冲液,加4.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,以及2.0微升Vent Exo Minus聚合酶(5单位/微升),加水,至200微升的总体积。将PCR管置于热循环仪上并扩增22个以下循环:95℃持续60秒,随后60℃持续30秒,随后72℃持续3分钟;随后保持在4℃。随后,用凝胶提取柱(Gel Extraction Kit,Qiagen)纯化来自所有四个反应的溶液,并在52微升H2O中洗脱。

将50微升洗脱液与10微升的10×NEBuffer 2(NEB)混合,加0.5微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物和1.0微升Vent Exo Minus聚合酶(5单位/微升),加水,至100微升的总体积。将反应物在室温下孵育15分钟,随后用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在40微升H2O中洗脱,并通过分光光度法进行定量。

随后进行转录步骤,其中将包含T7 RNA聚合酶启动子位点的PCR扩增模板文库(如在先前步骤中产生的)用作T7 RNA聚合酶的模板。这包括扩增步骤以产生大量对应于多聚体条码分子文库的基于RNA的核酸(因为每个输入PCR分子可充当模板以产生大量同源RNA分子)。在随后的步骤中,随后对这些RNA分子进行逆转录以产生期望的单链多聚体条码分子。将10微升洗脱液与20微升的5×转录缓冲液(Promega)混合,加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加10微升的0.1微摩DTT,加4.0微升SuperAseIn(Ambion),以及4.0微升Promega T7 RNA聚合酶(20单位/微升),加水,至100微升的总体积。将反应物在37℃下孵育4小时,随后用RNEasy微型试剂盒(Qiagen)纯化,并在50微升H2O中洗脱,并添加至6.0微升SuperAseIn(Ambion)。

随后,对在先前体外转录步骤中产生的RNA溶液进行逆转录(使用对RNA分子的3’端具有特异性的引物),并随后用RNAse H消化以产生对应于多聚体条码分子的单链DNA分子,寡核苷酸可与所述单链DNA分子退火并随后沿之进行条码化。在两个相同的重复管中,将23.5微升洗脱液与5.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物混合,加3.0微升SuperAseIn(Ambion),以及10.0微升的2.0微摩CS_PCR_REV1(SEQ ID NO.272),加水,至73.5微升的终体积。将反应物在热循环仪上在65℃下孵育5分钟,随后在50℃下60秒;随后保持在4℃。向管添加20微升的5×逆转录缓冲液(Invitrogen),加5.0微升的0.1毫摩DTT,以及1.75微升Superscript III逆转录酶(Invitrogen)。将反应物在55℃下孵育45分钟,随后在60℃下5分钟;随后在70℃下15分钟,随后保持在4℃,随后用PCR清除柱(Qiagen)纯化,并在40微升H2O中洗脱。

将60微升洗脱液与7.0微升的10×RNAse H缓冲液(Promega)混合,加4.0微升RNAse H(Promega)。将反应物在37℃下孵育12小时,随后在95℃下10分钟,随后保持在4℃,随后用0.7×体积(49微升)的Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在30微升H2O中洗脱,并通过分光光度法进行定量。

方法4:包含条码化寡核苷酸的多聚体条码化试剂的产生

该方法描述了由单链多聚体条码分子(如在方法3中产生的)以及合适的延伸引物和衔接子寡核苷酸产生多聚体条码化试剂的步骤。

在PCR管中,将约45纳克的单链RNAse H消化多聚体条码分子(如在方法3的最后步骤中产生的)与0.25微升的10微摩DS_ST_05(SEQ ID NO.273,衔接子寡核苷酸)和0.25微升的10微摩US_PCR_Prm_Only_03(SEQ ID NO.274,延伸引物)混合,加5.0微升的5×等温延伸/连接缓冲液,加水,至19.7微升的终体积。为了使衔接子寡核苷酸和延伸引物与多聚体条码分子退火,在热循环仪中,将管在98℃下孵育60秒,随后缓慢退火至55℃,随后在55℃下保持60秒,随后缓慢退火至50℃,随后在50℃下保持60秒,随后以0.1℃/秒缓慢退火至20℃,随后保持在4℃。向管添加0.3微升(0.625U)Phusion聚合酶(NEB;2U/μL)、2.5微升(100U)Taq DNA连接酶(NEB;40U/μL);以及2.5微升的100毫摩DTT。为了使延伸引物横跨每个多聚体条码分子的相邻条码区域延伸,并随后使该延伸产物与退火至其下游的衔接子寡核苷酸的磷酸化5’端连接,随后将该管在50℃下孵育3分钟,随后保持在4℃。随后,用PCR清除柱(Qiagen)纯化反应物,并在30微升H2O中洗脱,并通过分光光度法进行定量。

方法5:已知序列的合成DNA模板的产生

该方法描述了如下产生具有大量串联重复的共线分子序列标识符的合成DNA模板的技术:使包含所述分子序列标识符的寡核苷酸环化并随后串联扩增(用进行性的链置换聚合酶)。随后,该试剂可用于评价和测量本文中所述的多聚体条码化试剂。

在PCR中,添加0.4微升的1.0微摩Syn_Temp_01(SEQ ID NO.275)和0.4微升的1.0微摩ST_Splint_02(SEQ ID NO.276)以及10.0微升的10×NEB CutSmart缓冲液。在热循环仪上,将管在95℃下孵育60秒,随后在75℃下保持5分钟,随后缓慢退火至20℃,随后在20℃下保持60秒,随后保持在4℃。为了通过分子内连接反应使分子环化,随后向管添加10.0微升ribo-ATP和5.0微升的T4 DNA连接酶(NEB;高浓度)。随后,将管在室温下孵育30分钟,随后在65℃下10分钟,随后缓慢退火至20℃,随后在20℃下保持60秒,随后保持在4℃。随后,向每个管添加10×NEB CutSmart缓冲液、4.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物和1.5微升的经稀释phi29DNA聚合酶(NEB;在1×CutSmart缓冲液中以1∶20稀释),加水,至200微升的总体积。将反应物在30℃下孵育5分钟,随后保持在4℃,随后用0.7×体积(140微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在30微升H2O中洗脱,并通过分光光度法进行定量。

方法6:用包含条码化寡核苷酸的多聚体条码化试剂对已知序列的合成DNA模板进行条码化

在PCR管中添加10.0微升的5×Phusion HF缓冲液(NEB),加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加2.0微升(10纳克)的5.0纳克/微升已知序列的合成DNA模板(由方法5产生),加水,至42.5微升的终体积。随后,将管在98℃下孵育60秒,随后保持在20℃。向管添加5.0微升的5.0皮克/微升包含条码化寡核苷酸的多聚体条码化试剂(由方法4产生)。随后,将反应物在70℃下孵育60秒,随后缓慢退火至60℃,随后在60℃下5分钟,随后缓慢退火至55℃,随后在55℃下5分钟,随后缓慢退火至50℃,随后在50℃下5分钟,随后保持在4℃。向反应物中添加0.5微升Phusion聚合酶(NEB),加2.0微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO.277,与使由方法4产生的多聚体条码化试剂沿着由方法5产生的合成DNA模板退火并延伸产生的延伸产物的一部分互补的引物,充当该方法中所述引物延伸和随后PCR反应的引物)。在该反应中,将5.0微升的体积添加至新的PCR管,随后将其在55℃下孵育30秒,在60℃下30秒,并在72℃下30秒,随后接着进行10个以下循环:98℃,随后65℃,随后72℃,各自30秒,随后保持在4℃。随后,向每个管添加9.0微升的5×Phusion缓冲液,加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加1.75微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO.277),加1.75微升的10μM US_PCR_Prm_Only_02(SEQ IDNO.278,与用于按照方法4产生多聚体条码化试剂的延伸引物部分互补并且在该PCR扩增反应中充当“正向”引物的引物),加0.5微升Phusion聚合酶(NEB),加水,至50微升的终体积。将PCR管置于热循环仪上并扩增24个以下循环:98℃持续30秒,随后72℃持续30秒;随后保持在4℃,随后用1.2×体积(60微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在30微升H2O中洗脱,并通过分光光度法进行定量。

随后,所得文库被条码化用于通过基于PCR的方法进行样品鉴定,扩增,使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并在信息上去多重化(demultiplexed)用于进一步分析。

方法7:用多聚体条码化试剂和单独的衔接子寡核苷酸对已知序列的合成DNA模板进行条码化

为了使衔接子寡核苷酸沿着合成DNA模板退火并延伸,在PCR管中添加10.0微升的5×Phusion HF缓冲液(NEB),加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加5.0微升(25纳克)的5.0纳克/微升已知序列的合成DNA模板(如由方法5产生的),加0.25微升的10微摩DS_ST_05(SEQ ID NO.273,衔接子寡核苷酸),加水,至49.7微升的终体积。在热循环仪中,将管在98℃下孵育2分钟,随后在63℃下1分钟,随后缓慢退火至60℃,随后在60℃下保持1分钟,随后缓慢退火至57℃,随后在57℃下保持1分钟,随后缓慢退火至54℃,随后在54℃下保持1分钟,随后缓慢退火至50℃,随后在50℃下保持1分钟,随后缓慢退火至45℃,随后在45℃下保持1分钟,随后缓慢退火至40℃,随后在40℃下保持1分钟,随后保持在4℃。向管添加0.3微升Phusion聚合酶(NEB),并将反应物在45℃下孵育20秒,随后在50℃下20秒,随后在55℃下20秒,在60℃下20秒,随后在72℃下20秒,随后保持在4℃;随后用0.8×体积(40微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化反应物,并在30微升H2O中洗脱,并通过分光光度法进行定量。

为了使衔接子寡核苷酸(如在先前步骤中沿合成DNA模板退火并延伸)与多聚体条码分子退火,并随后使延伸引物退火并随后延伸跨越每个多聚体条码分子的相邻条码区域,并随后使该延伸产物与退火至其下游的衔接子寡核苷酸的磷酸化5’端连接,向PCR管添加10微升来自先前步骤的洗脱液(包含衔接子寡核苷酸已沿着其退火并延伸的合成DNA模板),加3.0微升的RNAse H消化的多聚体条码分子(如在方法3的最后步骤中产生的)的50.0纳摩溶液,加6.0微升的5×等温延伸/连接缓冲液,加水,至26.6微升的终体积。在热循环仪上,将管在70℃下孵育60秒,随后缓慢退火至60℃,随后在60℃下保持5分钟,随后缓慢退火至55℃,随后在55℃下保持5分钟,随后以0.1℃/秒缓慢退火至50℃,随后在50℃下保持30分钟,随后保持在4℃。向管添加0.6微升的10μM US_PCR_Prm_Only_02(SEQ ID NO:278,延伸引物),并将反应物在50℃下孵育10分钟,随后保持在4℃。向管添加0.3微升(0.625U)Phusion聚合酶(NEB;2U/μL)、2.5微升(100U)Taq DNA连接酶(NEB;40U/μL)和2.5微升的100毫摩DTT。随后,将管在50℃下孵育5分钟,随后保持在4℃。随后,用0.7×体积(21微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化反应物,并在30微升H2O中洗脱,并通过分光光度法进行定量。

向新PCR管添加25.0微升洗脱液,加10.0微升的5×Phusion HF缓冲液(NEB),加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加2.0微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO:277;与通过以上步骤产生的延伸产物的一部分互补的引物;充当在此所述的引物延伸和随后PCR反应的引物),加0.5μL Phusion聚合酶(NEB),加水,至49.7微升的终体积。在该反应中,将5.0微升的体积添加至新PCR管,随后将其在55℃下孵育30秒,在60℃下30秒,并在72℃下30秒,随后进行10个以下循环:98℃,随后65℃,随后72℃,各自30秒,随后保持在4℃。随后,向每个管添加9.0微升的5×Phusion缓冲液,加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加1.75微升的10μM SynTemP_PE2_B1_Short1(SEQ IDNO:277),加1.75微升的10μM US_PCR_Prm_Only_02(SEQ ID NO:278),加0.5微升Phusion聚合酶(NEB),加水,至50微升的终体积。将PCR管置于热循环仪上,并扩增24个以下循环:98℃持续30秒,随后72℃持续30秒;随后保持在4℃,随后用1.2×体积(60微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在30微升H2O中洗脱,并通过分光光度法进行定量。

随后,所得文库被条码化用于通过基于PCR的方法进行样品鉴定,扩增,并使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并在信息上去多重化用于进一步分析。

方法9:用包含条码化寡核苷酸的多聚体条码化试剂对基因组DNA基因座进行条码化

该方法描述了用于使用包含条码化寡核苷酸的多聚体条码化试剂对特定基因组基因座中的靶标进行条码化(例如,对特定基因内的多个外显子进行条码化)的框架。首先,通过体外转录和cDNA合成产生多聚体条码分子的溶液(如方法3中所述)。随后,如方法4中所述并进行以下修改来产生包含条码化寡核苷酸的多聚体条码化试剂的溶液:作为使用靶向合成DNA模板的衔接子寡核苷酸(即DS_ST_05,SEQ ID NO:273,如方法4中使用的)的替代,在该步骤包括靶向特定基因组基因座的衔接子寡核苷酸。具体地,对于以下三种不同人基因中的每一种单独地产生包含合适条码化寡核苷酸的多聚体条码化试剂的溶液:BRCA1(包含7种衔接子寡核苷酸,SEQ ID NO:279至285)、HLA-A(包含3种衔接子寡核苷酸,SEQ IDNO:286至288)和DQB1(包含2种衔接子寡核苷酸,SEQ ID NO:289至290)。如上所述对这三种溶液中的每一种都进行方法4的过程。随后,将这三种溶液以等体积合并在一起,并稀释至约50纳摩的最终总浓度的所有条码化寡核苷酸。

在PCR管中加2.0微升的5×Phusion HF缓冲液(NEB),加1.0微升的100纳克/微升人基因组DNA(来自Coriell Institute的NA12878),至9.0微升的终体积。在该方案的某些变化方案中,在该步骤还添加多聚体条码化试剂(包含条码化寡核苷酸),之后进行高温98℃孵育。将反应物在98℃下孵育120秒,随后保持在4℃。向管添加1.0微升的上述50纳摩多聚体条码试剂溶液,并随后将反应物在55℃下孵育1小时,随后在50℃下1小时,随后在45℃下1小时,随后保持在4℃。(注意,对于某些样品,该最后的退火过程延长至过夜进行,每个温度步骤总共约4小时)。

为了将反向通用引发序列添加至每个扩增子序列(并且因此使得随后能够仅使用一种正向和一种反向扩增引物一次扩增整个文库),将反应物以1∶100稀释,并在新PCR管中将1.0微升所得溶液添加至20.0微升5×Phusion HF缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加1.0微升反向引物混合物(等摩浓度的SEQ ID No 291至303,每种引物的浓度为5微摩),加1.0μL Phusion聚合酶(NEB),加水,至100微升的终体积。将反应物在53℃下孵育30秒,72℃持续45秒,98℃持续90秒,随后68℃持续30秒,随后64℃持续30秒,随后72℃持续30秒,随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化反应物,并在30微升H2O中洗脱,并通过分光光度法进行定量。

随后,所得文库被条码化用于通过基于PCR的方法进行样品鉴定,扩增,并使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并在信息性上多重化用于进一步分析。

方法10-对多聚体条码分子文库进行测序

制备扩增的选定分子用于高通量测序评估

向PCR管添加1.0微升扩增选定分子溶液,加1.0微升的100微摩CS_SQ_AMP_REV1(SEQ ID NO:16),加1.0微升的100微摩US_PCR_Prm_Only_02(SEQ ID NO:17),加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加84.0微升H2O至100微升的终体积。将PCR管置于热循环仪上,并扩增3个以下循环:95℃持续30秒,随后56℃持续30秒,随后72℃持续3分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在85微升H2O中洗脱。

随后,将该溶液添加至新PCR管中,加1.0微升的100微摩Illumina_PE1,加1.0微升的100微摩Illumina_PE2,加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(NewEngland Biolabs,2U/μL)至100微升的终体积。将PCR管置于热循环仪上并扩增4个以下循环:95℃持续30秒,随后64℃持续30秒,随后72℃持续3分钟;随后进行18个以下循环:95℃持续30秒,随后67℃持续30秒,随后72℃持续3分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在40微升H2O中洗脱。

随后,用双端250-循环V2测序化学使用MiSeq测序仪对该样品进行高通量Illumina测序。

方法11-沿着单个合成模板DNA分子退火并延伸的条码的多聚体性质的评估

使用根据方法3和方法4中一般性描述的方案产生的多聚体条码化试剂溶液,并且使用如方法5中所述的合成DNA模板溶液,并且使用如方法6中所述的实验室方案产生经条码化合成DNA模板的文库;随后,所得文库被条码化用于通过基于PCR的方法进行样品鉴定,扩增,并使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并在信息上去多重化用于进一步分析。随后,将来自该方法的DNA测序结果与由方法10产生的数据在信息上进行比较,以评估合成DNA模板的多聚体条码化与所述条码在单独多聚体条码化试剂上的布置之间的重叠程度(结果示于图17)。

结果

每个测序多聚体条码化试剂分子的结构和预期序列内容

制备如方法1至3中所述合成的多聚体条码分子文库用于高通量测序,其中每个测序分子包含特定多聚体条码分子的连续跨度(包含一个或更多个条码序列、以及一个或更多个相关上游衔接子序列和/或下游衔接子序列),在所测序的分子内全部共线。随后,如所述,在MiSeq测序仪(Illumina)上用双端250核苷酸读取对该文库进行测序。这产生从该文库中测序的总共约1350万个分子,从每一端测序一次,总共约2700万个序列读取。

预期每个正向读取以6个核苷酸的序列开始,对应于上游衔接子的3’端:TGACCT

在该正向读取之后是分子内中的第一条码序列(预期长度为20nt)。

随后,在该条码之后是“条码内序列(在以“正向”方向进行测序的这种情况下(其是包含串联的下游衔接子序列和上游衔接子序列二者的82个核苷酸):

在250个核苷酸的正向读取内,随后在这之后将是第二条码,另一条码内序列,并随后是第三条码,并随后是另一条码内序列的一部分。

预期每个反向读取以对应于下游衔接子序列的以下序列开始:

随后,在该反向读取之后是从分子的相对端进入的第一条码(也是20个核苷酸的长度,但是从分子的相对链测序,并且因此相对于通过正向读取测序的那些为相反方向)。

随后,在该条码之后是“条码内序列”,但是为相反方向(如其在相对链上):

同样地,随后,在该250个核苷酸的反向读取之后将是第二条码,另一条码内序列,随后是第三条码,并随后是另一条码内序列的一部分。

序列提取与分析

使用Python中的脚本处理,分离条码与侧翼上游衔接子和下游衔接子序列的每个相关对,随后分离每个条码分子的每个单独条码序列,并将在同一分子内测序的每个条码序列注释为属于多聚体条码分子文库中的同一多聚体条码分子。使用简单的分析脚本(Networkx;Python)通过检查条码-条码对在不同测序分子之间的重叠来确定总体多聚体条码分子条码群组。对该数据产生数个度量,包括条码长度,序列内容,以及多聚体条码分子文库中多聚体条码分子的大小和复杂性。

每个条码序列内核苷酸的数目

分离来自每个Illumina测序分子内包含的每个条码分子的每个单独条码序列,并通过对上游衔接子分子序列与下游衔接子分子序列之间核苷酸的数目进行计数来确定每个这样的条码的总长度。结果示于图10中。

绝大多数条码长度为20个核苷酸,其对应于五次添加来自我们双链子条码文库的我们长度为4个核苷酸的子条码分子。因此,这是预期的期望结果,并且表明每个“循环”(子条码文库与MlyI切割溶液的连接、连接文库的PCR扩增、尿嘧啶糖基化酶消化和MlyI限制性酶切割)是成功的且能够在每个循环有效地添加新的四核苷酸子条码分子,并随后成功地能够扩增这些分子并使其向前经历用于继续进一步处理的方案,包括经历总共五个子条码添加循环,以制备最终的上游衔接子连接文库。

我们还使用这种序列分析方法来对所有测序多聚体条码分子中全部独特条码的总数进行定量:这等于总共19,953,626个独特条码,其与预期的2000万个条码基本上相同,假定我们合成了200万个多聚体条码分子,则每个具有约10个单独的条码分子。

总之,该数据和分析因此表明,由子条码序列创建复杂的组合条码的方法对于合成多聚体条码分子的目的是有效且可用的。

每个多聚体条码分子中独特条码分子的总数

图11示出了量化每个测序多聚体条码分子中独特条码分子(如通过其各自的条码序列确定的)的总数的结果。如上所述,为此,在第一种情况下我们检查了在测序仪上测序的相同单独分子中存在并检出的条码序列。随后,我们进一步采用了对条码序列进行聚类的另外步骤,其中我们采用简单的网络分析脚本(Networkx),其可基于联系的明确了解来确定单独条码序列之间的联系(其中条码见于同一连续测序分子中),并且还可确定“隐式”联系,其中不在同一测序分子内测序的两个或更多个条码作为替代均与共同的第三条码序列共有直接联系(这个共有的共同联系因此指示两个第一条码序列实际上位于相同的多聚体条码分子上)。

该图显示,在我们的反应中测序的大多数多聚体条码分子具有在其中包含的两个或更多个独特条码,因此显示通过我们的重叠-延伸PCR联系过程,我们能够将多个条码分子一起联系成多聚体条码分子。虽然我们会预期看到更多的多聚体条码分子展现出更接近于预期的条码分子数目(10),但我们预期观察到的这一效应是由于测序深度不够高,并且在测序分子的数目较大下,我们能够观察单独条码分子之间的真实联系的更大部分。虽然如此,该数据表明,我们在这里描述的基本合成程序对于预期目的是有效的。

代表性多聚体条码分子

图12示出了由我们的分析脚本检出的代表性多聚体条码分子。在该图中,每个“节点”是单个条码分子(来自其相关的条码序列),每条线是在同一测序分子中已被测序至少一次的两个条码分子之间的“直接联系”,且每个节点簇是单独的多聚体条码分子,其包含具有直接联系的条码和如由我们的分析脚本确定的在隐式间接联系内的那些二者。插图包括单个多聚体条码分子,以及其中包含的其组成条码分子的序列。

该图示出了我们的多聚体条码分子合成程序:我们能够由子条码分子文库构建条码分子,我们能够通过重叠-延伸PCR反应使多个条码分子相联系,我们能够分离定量已知数目的单独多聚体条码分子,并且我们能够扩增这些并对其进行下游分析和使用。

用(i)包含条码化寡核苷酸的多聚体条码化试剂、以及(ii)多聚体条码化试剂和单独衔接子寡核苷酸对已知序列的合成DNA模板进行条码化序列提取和分析

利用Python中并在Amazon Web Service(AWS)架构中实施的脚本,对于在样品去多重化之后的每个序列读取,使来自给定多聚体条码试剂的每个条码区域与其侧翼上游衔接子和下游衔接子序列分离。同样地,使来自给定合成DNA模板分子的每个分子序列识别符区与其侧翼上游和下游序列分离。对样品文库中的每个分子重复该过程;进行单个过滤步骤,其中从数据中删去仅存在于单个读取中(因此可能代表测序错误或来自酶促样品制备过程的误差)的单独条码和分子序列标识符。对于每个分子序列标识符,量化在单个序列读取内发现与其相关的独特(即具有不同序列)条码区域的总数。随后,创建直方图以使这一数目在该文库中发现的所有分子序列标识符中的分布可视化。

讨论

图13示出了对方法6(用包含条码化寡核苷酸的多聚体条码化试剂对已知序列的合成DNA模板进行条码化)的这一分析的结果。该图清楚地看出大多数多聚体条码化试剂能够成功地标记与其相关的每个分子序列标识符的两个或更多个串联重复拷贝。观察到1至约5或6个“标记事件”的分布,表明可能存在一定程度的在该系统中发生的随机相互作用,这可能是由于不完全的酶促反应或在条码试剂/合成模板界面处的空间位阻,或其他因素。

图14示出了使用方法7(用多聚体条码分子和单独衔接子寡核苷酸对已知序列的寡核苷酸合成DNA模板进行条码化)进行的这一相同分析的结果。该图也清楚地表明,大多数多聚体条码化试剂能够成功地标记与其相关的每个分子序列标识符的两个或更多个串联重复拷贝,具有与对先前分析观察到的分布相似的分布。

总之,这两幅图表明,多聚体分子条码化的这个框架是一个有效的框架,并且此外该框架可以以不同方法学方式配置。图13示出了基于以下方法的结果,在所述方法中该框架被配置成使得多聚体条码试剂在使其与靶(合成)DNA模板接触之前已经包含条码化寡核苷酸。相比之下,图14示出了基于一种替代方法的结果,在所述方法中衔接子寡核苷酸首先接触合成DNA模板,并随后在随后的步骤中通过与多聚体条码试剂接触来对衔接子寡核苷酸进行条码化。这些图一起表明了这些试剂的多聚体条码化能力,以及其在不同关键实验室方案中的多功能性二者。

为了分析单独多聚体条码化试剂是否成功标记同一合成DNA模板的两个或更多个子序列及其标记程度,将文库中每个单独多聚体条码化试剂上不同条码的组(如从前面段落中所述的Networkx分析预测的并且如图12中所示)与沿单个合成DNA模板退火并延伸的条码(如方法11中所述)进行比较。向在单独多聚体条码化试剂上发现的每个条码组给予数字“试剂标识符标记”。对于在方法11的测序数据中由两个或更多个条码(即,其中合成模板分子的两个或更多个子序列通过条码化寡核苷酸退火并延伸)表示的每个合成DNA模板分子序列标识符(即,对于每个单独的合成DNA模板分子),确定相应的“试剂标识符标记”。随后,对于每个这样的合成模板分子,计算来自同一单一多聚体条码化试剂的多聚体条码的总数(即,计算合成模板分子中被不同的但来自同一单个多聚体条码化试剂的条码化寡核苷酸标记的不同子序列的数目)。随后,重复该分析,并与“阴性对照”条件进行比较,在所述阴性对照条件下分配给每个“试剂标识符标记”的条码是随机化的(即,数据中仍然存在相同的条码序列,但其不再对应于多聚体条码化试剂文库中不同条码序列的实际分子联系)。

来自该分析的数据示于图17:实际的实验数据和具有随机化条码分配的对照数据二者(注意垂直轴的对数标度)。如该图所示,虽然每个靶合成DNA模板分子的独特条码化事件的数目较小,但其与单独多聚体条码化试剂的已知条码内容几乎完美地重叠。也就是说,当与随机化条码数据(其基本上不包含显示是“多价条码化”的模板分子)相比时,实际实验中显示被来自同一单独多聚体条码化试剂的多个条码化寡核苷酸标记的绝大多数(超过99.9%)模板分子事实上被溶液中的相同同一单个试剂多重标记。相比之下,如果在标记单独合成DNA模板的不同条码之间不存在非随机关联(即,如果图17显示实际实验数据与随机化数据之间没有差异),则这将已指示条码化不以空间上约束的方式发生,如多聚体条码化试剂所指导的。然而,如上所述,数据有说服力地表明,期望条码化反应确实发生,其中在单个合成DNA模板上发现的子序列仅与单个单独的多聚体条码化试剂相互作用(并随后被其条码化)。

用包含条码化寡核苷酸的多聚体条码化试剂对基因组DNA基因座进行条码化

序列提取和分析

与其他分析一样,脚本在Python中编写,并在Amazon Web Service(AWS)架构中实施。对于样品去多重化之后的每个序列读取,使来自给定多聚体条码试剂的每个条码区域与其侧翼上游衔接子和下游衔接子序列分离,并独立记录用于进一步分析。同样地,分离到下游区的3’端的每个序列(表示包含条码化寡核苷酸的序列,以及在实验方案期间寡核苷酸已经沿之引发的任何序列)用于进一步分析。对每个读取的每个下游序列分析预期衔接子寡核苷酸序列(即来自对应于寡核苷酸所针对的三种基因之一的引物)和相关的另外下游序列的存在。随后,将每个读取记录为“中靶”(具有对应于预期的靶向序列之一的序列)或“脱靶”。此外,对于每个靶向区域,计算独特多聚体条码的总数(即,具有融合成单拷贝表示的相同但重复的条码)。在图16中示出了每个预期序列读取及其组成组分的示意图。

讨论

图15示出了针对这种方法对四个不同独立样品进行这一分析的结果。这四个样品代表其中使多聚体条码试剂退火的过程进行3小时或过夜(约12小时)的方法。此外,对于这两种条件中的每一种,用按照最初合成保持完整的多聚体条码试剂或者用改进方案进行所述方法,在所述改进方案中首先使条码寡核苷酸变性远离条码分子自身(通过高温解链步骤)。如所示的,每行表示不同的扩增子靶标,并且每个单元格表示四个样品中每一个中发现与每个扩增子相关的独特条码的总数。还列出了每个样品的合计在一起的所有中靶读取在所有靶标中的总比例。

如图所示,所有样品中的大部分读取是中靶的;然而,对于每个扩增子靶标观察到的独特条码分子的数目的范围较大。在不同扩增子之间的这些趋势看来在不同的实验条件之间是一致的,并且可以是由于不同寡核苷酸的不同引发(或错误引发)效率、或不同扩增效率、或不同映射效率,以及独立地或组合作用的其他潜在因素。此外,清楚的是,退火较久的样品观察到的条码数目较大,这可能是由于多聚体试剂与其同源基因组靶标的更完全整体退火。并且此外,其中使条码化寡核苷酸首先与条码分子变性的样品显示出较低的独特条码总数,这可能是由于其中完全组装的条码分子可更有效地使引物簇与同一基因座的附近基因组靶标退火的亲合力效应。在任何情况下,总之,该图说明了多聚体试剂同时在大量分子中标记基因组DNA分子的能力,以及为了实现这一点,条码化寡核苷酸是否保持结合在多聚体条码化试剂上或者其是否已经从其变性并且由此可能能够更容易地在溶液中扩散。

实施例2

用于将来自微粒的序列相联系的材料和方法

所有实验步骤均在污染受控的实验室环境中进行,包括使用标准物理实验室分离(例如PCR前和PCR后实验室)。

用于分离微粒试样的方案

从对象采集标准血液样品(例如总共5至15mL),并使用含EDTA的管通过血液分级方法使用800×G离心10分钟对其进行处理以分离血浆级分。随后小心地分离细胞血浆级分并以800×G离心10分钟以沉淀剩余的完整细胞。随后小心地分离上清液用于进一步处理。随后将上清液在3000×G下离心30分钟以沉淀微粒级分(使用20,000×G下30分钟的高速离心模式来沉淀更高浓度的微粒试样);随后小心地除去所得上清液,并将沉淀重悬于适当的缓冲液中用于之后的处理步骤。从重悬的沉淀获得等分试样并使用其量化重悬的沉淀中DNA的浓度(例如使用标准荧光核酸染色方法,例如PicoGreen,ThermoFisherScientific)。调节试样体积以实现合适的浓度用于后续处理步骤。

用于分配和PCR扩增的方案

在如上分离微粒试样的过程之后,将沉淀重悬于PCR缓冲液中,该缓冲液包含1×PCR缓冲液、PCR聚合酶、dNTP和引物对的组的完全溶液;采用适合于直接PCR的聚合酶和PCR缓冲液。进行该重悬步骤,使得每5微升重悬溶液包含约0.1皮克的来自微粒试样本身的DNA。使用多重化PCR设计算法(例如PrimerPlex;PREMIER Biosoft)设计涵盖一个或更多个基因靶标的5至10个引物对(更大的数目用于更大的扩增子组)的组,以使交叉引发最小化并实现近似相等的所有引物的退火温度;每个扩增子长度锁定在70至120个核苷酸;每个正向引物在其5’端具有恒定的正向衔接子序列,并且每个反向引物在其5’端具有恒定的反向衔接子序列,并且引物以等摩的浓度包含在聚合酶反应中。随后将重悬的样品散布在PCR管组(或384孔板形式中的单独孔)中,每个管/孔中包含5.0微升的反应溶液;当微粒试样中的DNA总量允许时,进行多至384或更多个单独的反应;进行10至15个PCR循环用于随后用条码化寡核苷酸进行条码化;进行22至28个PCR循环用于随后用多聚体条码化试剂进行条码化。

用于用条码化寡核苷酸进行条码化的方案

按照上述PCR扩增的方案,将条码化寡核苷酸添加至每个孔,每个正向条码化寡核苷酸包含在其3’端的正向衔接子序列、在其5’端的正向(读取1)Illumina测序引物序列、以及这二者之间的6个核苷酸的条码序列;使用反向引物,其包含在其5’端的反向(读取2)Illumina扩增序列和在其3’端的反向衔接子序列。对每个孔使用不同的单个条码化寡核苷酸(即包含不同的条码序列)。将PCR反应体积调节至50微升以稀释靶特异性引物,并进行8至12个PCR循环以将条码序列附接至每个管/孔内的序列。使用SPRI清除/尺寸选择步骤(Agencourt Ampure XP,Beckman-Coulter Genomics)纯化来自每个孔的扩增产物,并将来自所有孔的所得纯化产物合并为单一溶液。使用全长Illumina扩增引物(PE PCR引物1.0/2.0)的最终PCR反应进行7至12个循环以将合并的产物扩增至适合于加载到Illumina流动池上的浓度,并且对所得反应物进行SPRI纯化/尺寸选择和定量。

用于用多聚体条码化试剂进行条码化的方案

为了用多聚体条码化试剂附接条码序列,在上述PCR扩增过程之后,用SPRI纯化步骤纯化来自单独孔的PCR扩增产物,并随后将其在单独孔中重悬于1×PCR反应缓冲液(含dNTP)中,不合并或交叉污染来自不同孔的样品。从至少1000万个不同多聚体条码化试剂的文库中,随后将包含约5个多聚体条码化试剂的等分试样添加至每个孔,其中每个多聚体条码化试剂是由10至30个单独条码分子构成的连续多聚体条码分子,每个条码分子包含条码区域,其具有不同于其他条码分子的序列以及与每个条码分子退火的条码化寡核苷酸。每个条码化寡核苷酸包含在其5’端的正向(读取1)Illumina测序引物序列、以及在其3’端的正向衔接子序列(也包含在正向PCR引物中),以及在中间部分内的其条码序列。包含在其5’端的反向(读取2)Illumina扩增序列和在其3’端的反向衔接子序列的反向引物也包含在反应混合物中。热启动聚合酶用于该条码附接反应。聚合酶首先在其活化温度下被活化,并随后通过在正向/反向衔接子退火温度下进行的退火步骤进行5至10个PCR循环以沿着PCR扩增产物使条码化寡核苷酸延伸,并相对于这些引物延伸产物使反向Illumina扩增序列延伸。使用SPRI清除/尺寸选择纯化来自每个孔的所得产物,并将来自所有孔的所得纯化产物合并为单一溶液。使用全长Illumina扩增引物(PE PCR引物1.0/2.0)的最终PCR反应进行7至12个循环以将合并的产物扩增至适合于加载到Illumina流动池上的浓度,并且对所得反应物进行SPRI纯化/尺寸选择和定量。

用于测序和信息性分析的方案

在条码化和扩增方案之后,在Illumina测序仪(例如HiSeq 2500)上对扩增的样品进行定量并测序。在加载之前,将样品与准备好的测序仪的phiX基因组DNA文库组合,使得phiX分子占组合文库的50%至70%最终摩尔分数。随后将组合的样品以推荐的浓度各自加载到流动池的一个或更多个泳道上用于聚类。相对于读取深度对样品进行测序,其中使用配对端2x100测序循环将每个单独的条码化序列平均测序5至10个读取。随后对原始序列进行品质修剪和长度修剪,修剪掉恒定的衔接子/引物序列,并且对来自每个保留的序列读取的基因组DNA序列和条码序列在信息上分离。通过检测附接至同一的条码序列、或附接至来自同一组的条码序列(即来自同一的多聚体条码化试剂)的不同条码序列的基因组DNA序列来确定相联系序列。

用于使用条码化寡核苷酸对基因组DNA片段进行条码化的方案

为了从全血中分离循环微粒,将1.0毫升人全血(用K2EDTA管收集)添加至两个1.5毫升Eppendorf DNA Lo-Bind管的每一个,并在台式微量离心机中以500×G离心5分钟;随后将所得顶部(上清液)层(每管约400微升)添加至新的1.5毫升Eppendorf DNA Lo-Bind管,并再次在台式微量离心机中以500×G离心5分钟;随后将所得顶部(上清液)层(每管约300微升)添加至新的1.5毫升Eppendorf DNA Lo-Bind管,并在台式微量离心机中以3000×G离心15分钟;将所得上清液层完全且小心地吸出,并将每个管中的沉淀重悬于10微升磷酸缓冲盐水(Phosphate-Buffered Saline,PBS)中,并随后将两个10微升重悬的样品合并成单个20微升样品(产生本方法的‘变体A’的样品)。

在所述方法的相关变体(‘变体C’)中,将该原始20微升样品的等分试样转移至新的1.5毫升Eppendorf DNA Lo-Bind管,并在1500×G下离心5分钟,随后将所得沉淀物重悬于PBS中,并如下所述等分到低浓度溶液中。

随后在附接条码化寡核苷酸之前,分配前述20微升样品(和/或来自重悬的‘变体’C样品)内的循环微粒。为了分配每个分区的少量循环微粒,将20微升样品等分到包含较低微粒浓度的溶液中;使用具有不同浓度的8种溶液,第一种是原始(未稀释的)20微升样品,并且随后的7种溶液中的每一种相对于前一溶液具有低2.5倍的微粒浓度(在PBS中)。随后将每种溶液的0.5微升等分试样添加至在200微升PCR管(平盖;来自Axygen)中的H2O中的9.5微升的1.22X‘NEBNext Ultra II端部制备反应缓冲液(NEBNext Ultra II End PrepReaction Buffer)’(New England Biolabs)并轻轻混合。为了使微粒透化,在具有加热盖的热循环仪上将管在65℃下加热30分钟。向每个管添加0.5微升的‘NEBNext Ultra II端部制备酶混合物(NEBNext Ultra II End Prep Enzyme Mix)’并混合,将溶液轻轻混合;将溶液在热循环仪上在20℃下孵育30分钟,并随后在65℃下30分钟。

向每个管添加5.0微升的‘NEBNext Ultra II连接主混合物(NEBNext Ultra IILigation Master Mix)’和0.33微升的0.5×(在H2O中)‘NEBNext连接增强剂(NEBNextLigation Enhancer)’以及0.42微升的0.04×(在0.1×NEBuffer 3中)‘NEBNext衔接子(NEBNext Adapter)’,并将溶液轻轻混合;随后将溶液在具有关闭的加热盖的热循环仪上在20℃下孵育15分钟(或在该方法的‘变体B’中孵育2小时)。向每个管添加0.5微升‘NEBNext USER酶(NEBNext USER Enzyme)’,并将溶液轻轻混合;随后将溶液在具有设定为50℃的加热盖的热循环仪上在20℃下孵育20分钟,在37℃下30分钟,并随后保持在4℃。随后用1.1倍体积的Ampure XP SPRI珠(Agencourt;按照制造商的说明书)纯化每个反应物,并在21.0微升H2O中洗脱。将‘NEBNext衔接子’序列连接至来自分配的循环微粒的基因组DNA片段的该方法提供了将偶联序列附接至所述片段的方法(其中‘NEBNext衔接子’本身,其包含部分双链和部分单链序列,包含所述偶联序列,其中所述附接偶联序列的方法通过连接反应来进行)。在所述方法的后续步骤中,通过退火和延伸方法(通过PCR反应来进行)将条码化寡核苷酸附接至来自分配的循环微粒的基因组DNA片段。

在该方法的‘变体B’中,在上述USER酶步骤之后但在Ampure XP纯化之前,将USER消化的样品添加至50.0微升的‘NEBNext Ultra II Q5主混合物’、以及2.5微升的‘Illumina的通用PCR引物(Universal PCR Primer for Illumina)’、以及2.5微升的特异性‘NEBNext指示引物(NEBNext Index Primer)’[来自NEBNext Multiplex Oligos指示引物组1或指示引物组2]以及28.2微升的H2O,并将溶液轻轻混合,随后在热循环仪中通过5个循环PCR进行扩增,每个循环为:98℃持续20秒,65℃持续3分钟。随后用0.95×体积的Ampure XP SPRI珠(Agencourt;按照制造商的说明书)纯化每个反应物,并在21.0微升H2O中洗脱。

随后将Ampure XP纯化溶液(在所述方法的‘变体B’的在USER消化之后或在初始PCR扩增过程之后)(每个20.0微升)添加至25.0微升的‘NEBNext Ultra II Q5主混合物’、以及2.5微升的‘Illumina的通用PCR引物’、以及2.5微升的特异性‘NEBNext指示引物’,并将溶液轻轻混合,并随后在热循环仪中通过28个(或对于变体B为26个循环)循环PCR进行扩增,每个循环为:98℃持续10秒,65℃持续75秒;单个最终延伸步骤为75℃持续5分钟。随后用0.9X体积的Ampure XP SPRI珠(Agencourt;按照制造商的说明书)纯化每个反应物,并在25.0微升H2O中洗脱。这些PCR步骤将条码序列附接至来自循环微粒的基因组DNA片段的序列,其中条码序列包含在条码化寡核苷酸内(即包含在每个PCR反应中采用的特异性‘NEBNext指示引物’内)。在PCR反应的每个引物结合和延伸步骤中,条码化寡核苷酸与偶联序列(例如‘NEBNext衔接子’内的序列)杂交,并随后用于引发延伸步骤,其中使条码化寡核苷酸的3’端延伸以产生包含条码序列和来自循环微粒的基因组DNA片段的序列的序列。每个PCR反应采用一个条码化寡核苷酸(并且因此一个条码序列),不同的条码序列用于每个不同的PCR反应。因此,来自每个分区中循环微粒的基因组DNA片段的序列附接至单个条码序列,该序列将来自分区的序列组相联系。每个分区中的序列组通过不同的条码序列相联系。

为了产生阴性对照样品,如上文第一段中那样制备单独的20微升循环微粒样品,但是随后分离其中的基因组DNA片段并用Qiagen DNEasy纯化试剂盒(按照Qiagen制造商的说明书使用旋转柱和离心方案)进行纯化,并在50微升H2O中洗脱,并随后通过如上所述的NEBNext端部制备、连接、USER和PCR处理步骤进行处理。该阴性对照样品用于分析测序信号和读出,其中分析了来自非常大量的循环微粒的基因组DNA片段(即其中未进行将来自一个或少量循环微粒的序列相联系)。

在离心和分配循环微粒、并随后附接偶联序列、附接条码序列、以及PCR扩增和纯化的上述步骤之后,随后将包含来自循环微粒的基因组DNA片段的序列的数个条码化文库合并,并用配对端读取(100×50)加单独(正向)指示读取在150循环的中等输出IlluminaNextSeq 500流动池上进行测序(以确定附接有条码化寡核苷酸的条码序列)。通常来说,合并6至12个条码化文库(即每个文库包含相联系序列的一个条码化组)并进行每个流动池测序;每个条码化文库实现了至少数百万次总读取的覆盖。根据指示读取内的条码对序列读取进行去多重化,将来自每个条码化分区的序列通过Bowtie2映射至参考人基因组序列(hg38),并随后将映射的(和重复数据删除的)序列导入到Seqmonk(版本1.39.0)中用于可视化、定量和分析。在典型的代表性分析中,将读取映射到沿着每个人染色体的500Kb的滑动窗口中,并随后对每个这样的窗口的读取总数进行量化和可视化。

这些条码化寡核苷酸方法的关键实验结果示于图25至29中,并在此处进一步详细描述:

图25示出了代表性循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体A’版本)。示出了在每个染色体上平铺的500千碱基(Kb)滑动窗口内人基因组中所有染色体上的序列读取的密度。观察到两个清晰的、独立的(self-contained)读取聚类,分别总共跨越约200Kb和500Kb。值得注意的是,两个读取聚类均位于同一染色体上,并且还来自同一染色体臂(在染色体上14)的附近部分,因而证实了以下怀疑:实际上,多个分子内染色体结构可被包装到单个循环微粒中,因此,从其来源的基因组DNA片段在人脉管系统内循环。

图26还示出了循环微粒内基因组DNA片段的序列的联系,但是如通过附接条码化寡核苷酸的变体方法所产生的(来自实施例方案‘变体B’版本),其中连接的持续时间相对于‘变体A’延长了。再次示出了人基因组中所有染色体上的序列读取的密度,在单个染色体区段内(分别在染色体1和染色体12上)具有清晰的读取聚类。在该实验中采用的分区可能包含两个不同的微粒,在这种情况下,可能每个微粒引起一个读取聚类;或者,单个微粒可能包含来自染色体1和12中的每一个的读取聚类,这将因此示出分子间染色体结构也可包装到单个循环微粒中,其随后通过血液循环。

图27示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体B’版本)。示出了在大的且随后在小的染色体区段内放大的(来自图26的染色体12的读取聚类的)实际的序列读取,以示出这些相联系的读取的集中、高密度特性,并示出以下事实:甚至低至示出紧邻的、非重叠的、核小体定位的片段的水平的读取聚类包含来自单个细胞的独立染色体分子的清晰、连续的序列聚类。

图28示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体C’版本)。与变体A和变体B相比,该变体C实验采用低速离心方法来分离与其他两个变体相比不同、更大的循环微粒群体。示出了来自该实验的人基因组中所有染色体上的序列读取的密度,再次在单个染色体区段内观察到清晰的读取聚类。然而,这样的区段在染色体跨度上明显比在其他变体方法中更大(由于与变体A或B相比更大的微粒在变体C内沉淀)。

图29示出了阴性对照实验,其中基因组DNA片段用清除试剂盒(Qiagen DNEasy旋转柱试剂盒)(Qiagen DNEasy Spin Column Kit)纯化(即因此是未相联系的),随后如‘变体A’方案中那样附接至条码化寡核苷酸。正如在给定未相联系的读取的输入样品时所预期的,根本没有观察到读取聚类(相反,确实存在的读取随机且基本均匀地在基因组的所有染色体区域上分散),证实循环微粒包含来自单独染色体内的集中、连续的基因组区域的基因组DNA片段。即使对来自所述对照文库的读取进行进一步的随机采样/子采样,也没有观察到读取聚类。

具体实施方式

通过参照结合附图的描述,可最佳地理解本发明及其另一些目的和优点,其中:

图1示出了可用于图3或图4中所示方法的多聚体条码化试剂。

图2示出了用于标记靶核酸的包含多聚体条码化试剂和衔接子寡核苷酸的套件(kit)。

图3示出了使用多聚体条码化试剂制备用于测序的核酸样品的第一方法。

图4示出了使用多聚体条码化试剂制备用于测序的核酸样品的第二方法。

图5示出了使用多聚体条码化试剂和衔接子寡核苷酸制备用于测序的核酸样品的方法。

图6示出了使用多聚体条码化试剂、衔接子寡核苷酸和靶寡核苷酸制备用于测序的核酸样品的方法。

图7示出了使用滚环扩增方法组装多聚体条码分子的方法。

图8示出了合成可用于图3、图4和/或图5中所示方法的用于标记靶核酸的多聚体条码化试剂的方法。

图9示出了合成可用于图3和/或图4中所示方法的用于标记靶核酸的多聚体条码化试剂(如图1中所示)的替代方法。

图10是示出了每个条码序列内核苷酸总数的图。

图11是示出了每个测序的多聚体条码分子内独特条码分子总数的图。

图12示出了通过分析脚本(script)检测出的代表性多聚体条码分子。

图13是示出了在用包含条码化寡核苷酸的多聚体条码化试剂对已知序列的合成DNA模板进行条码化之后,每个分子序列标识符的独特条码的数目相对于分子序列标识符的数目的图。

图14是示出了在用多聚体条码化试剂和单独衔接子寡核苷酸对已知序列的合成DNA模板进行条码化之后,每个分子序列标识符的独特条码的数目相对于分子序列标识符的数目的图。

图15是示出了用包含条码化寡核苷酸的多聚体条码化试剂对三种人基因(BRCA1、HLA-A和DQB1)的基因组DNA基因座进行条码化的结果的表。

图16是从用包含条码化寡核苷酸的多聚体条码化试剂对基因组DNA基因座进行条码化获得的序列读取的示意图。

图17是示出了来自同一多聚体条码化试剂的对同一合成模板分子上的序列进行标记的条码的数目相对于合成模板分子的数目的图。

图18示出了一种方法,其中确定了来自微粒的两个或更多个序列并使其在信息上相联系。

图19示出了一种方法,其中来自特定微粒的序列通过共享的标识符相联系。

图20示出了一种方法,其中分子条码附接至已被分配的微粒内的基因组DNA片段,并且其中所述条码提供源自同一微粒的序列之间的联系。

图21示出了一种特定的方法,其中分子条码通过多聚体条码化试剂附接至微粒内的基因组DNA片段,并且其中所述条码提供源自同一微粒的序列之间的联系。

图22示出了一种方法,其中个体微粒内的基因组DNA片段彼此附接,并且其中对所得分子进行测序,使得从同一测序分子确定来自同一微粒的两个或更多个基因组DNA片段的序列,从而在同一微粒内的片段之间建立联系。

图23示出了一种方法,其中在两个或更多个独立的单独测序反应中对来自大的微粒样品的个体微粒(和/或小的微粒群组)进行测序,并且从每个这样的测序反应确定的序列因此被确定为在信息上相联系并因此被预测为源自同一个体微粒(和/或小的微粒群组)。

图24示出了一种具体方法,其中在进行测序之前将个体微粒内的基因组DNA片段附接至测序流动池的离散区域,并且其中在所述流动池上测序的片段的接近度提供源自同一微粒的序列之间的联系。

图25示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体A’版本)。示出了人基因组中所有染色体上的序列读取的密度,在单个染色体区段内具有清晰的读取聚类(clustering of read)。

图26示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体B’版本)。示出了人基因组中所有染色体上的序列读取的密度,在单个染色体区段内具有清晰的读取聚类。

图27示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体B’版本)。示出了在特定染色体区段内放大的序列读取的密度,以示出这些相联系读取的集中的高密度特性。

图28示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体C’版本)。示出了人基因组中所有染色体上的序列读取的密度,在单个染色体区段内具有清晰的读取聚类,虽然这样的区段比在其他变体方法中染色体跨度更大(由于与变体A或B相比更大的微粒在变体C中沉淀)。

图29示出了阴性对照实验,其中基因组DNA的片段在附接至条码化寡核苷酸之前进行纯化(即因此是未相联系的)。根本没有观察到读取聚类,证实了循环微粒包含来自集中的连续基因组区域的基因组DNA片段。

下面提供图18至29中的每一个的详细描述。

图18示出了一种方法,其中确定了来自微粒的两个或更多个序列并使其在信息上相联系。在所述方法中,包含在血液、血浆或血清样品内或从其来源的微粒包含两个或更多个基因组DNA片段。确定这些基因组DNA片段的至少一部分的序列;并且此外,通过一种或更多种方法,建立了信息性联系,使得来自微粒的第一和第二序列相联系。

这种联系可采取任何形式,例如共享标识符(例如,其可来源于在分子条码化过程期间可附接至所述第一和第二基因组DNA序列的共享条码);任何其他共享特性也可用于使两个序列相联系;包含序列本身的数据可包含在共享的电子存储介质或其分区内。此外,联系可包括非二元或相对值,例如表示在空间计量的测序反应内的两个片段的物理接近度,或者表示两个序列可来源于包含在同一微粒内的基因组DNA片段的估计的可能性或概率。

图19示出了一种方法,其中来自特定微粒的序列通过共享的标识符相联系。在所述方法中,确定了包含在两个不同微粒(例如,源自单个血液、血浆或血清样品的两个不同微粒)内的基因组DNA片段的序列的数目,例如,通过核酸测序反应。对应于来自第一微粒的基因组DNA片段的序列各自被分配至相同的信息性标识符(在此,标识符‘0001’),并且对应于来自第二微粒的基因组DNA片段的序列各自被分配至同一不同的信息性标识符(在此,标识符‘0002’)。因此,序列和相应标识符的该信息包括源自同一微粒的序列之间的在信息上相联系,其中不同组的标识符服务于信息性联系的功能。

图20示出了一种方法,其中分子条码附接至已被分配的微粒内的基因组DNA片段并且其中所述条码提供源自同一微粒的序列之间的联系。在所述方法中,将来自微粒样品的微粒分配到两个或更多个分区,并随后在分区内对微粒内的基因组DNA片段进行条码化,并随后以这样的方式确定序列:条码识别序列通过哪个分区得到,并因而使来自个体微粒的不同序列相联系。

在第一步骤中,将微粒分配到两个或更多个分区(其可包括例如不同的物理反应容器、或乳液内的不同微滴)。随后从每个分区内的微粒释放基因组DNA的片段(即,使片段物理上可接近,使得它们随后可被条码化)。该释放步骤可通过高温孵育步骤和/或通过用分子溶剂或化学表面活性剂孵育来进行。任选地(但未在此示出),可在附接条码序列之前,在该时间点进行扩增步骤,使得基因组DNA片段的全部或一部分复制至少一次(例如在PCR反应中),并且随后条码序列可随后被附接至所得复制产物。

随后将条码序列附接至基因组DNA片段。条码序列可采取任何形式,例如包含条码区域的引物、或多聚体条码化试剂内的条码化寡核苷酸、或多聚体条码分子内的条码分子。条码序列也可通过任何方式附接,例如通过引物延伸和/或PCR反应,或单链或双链连接反应,或通过体外转座。在任何情况下,附接条码序列的方法在每个分区内产生分子溶液,其中每个这样的分子包含条码序列、并随后包含对应于来自被分配到所述分区的微粒的基因组DNA片段的序列的全部或一部分。

随后将来自不同分区的包含条码的分子合并在一起形成单个反应物,并随后对所得分子进行测序反应以确定基因组DNA的序列和它们所附接的条码序列。随后使用相关的条码序列来鉴定得到每个序列的分区,并因而使在测序反应中确定的源自包含在同一微粒或微粒的群组内的基因组DNA片段的序列相联系。

图21示出了一种具体的方法,其中分子条码通过多聚体条码化试剂附接至微粒内的基因组DNA片段,并且其中所述条码提供源自同一微粒的序列之间的联系。在所述方法中,使来自微粒样品的微粒交联并随后进行透化,并随后通过多聚体条码化试剂对包含在微粒内的基因组DNA片段进行条码化,并且随后以这样的方式确定序列:条码识别每个序列通过哪个多聚体条码化试剂进行条码化,并因而使来自个体微粒的不同序列相联系。

在第一步骤中,通过化学交联剂使来自微粒样品的微粒交联。该步骤用于保持每个微粒内的基因组DNA片段彼此物理接近度的目的,使得可操作和处理样品,同时保留微粒的基本结构性质(即,同时保持源自同一微粒的基因组DNA片段的物理接近度)。在第二步骤中,使交联的微粒透化(即,使基因组DNA片段物理上可接近,使得它们随后可在条码化步骤中被条码化);这种透化可例如通过用化学表面活性剂(例如非离子洗涤剂)孵育来进行。

随后将条码序列附接至基因组DNA片段,其中包含在多聚体条码化试剂(和/或多聚体条码分子)内的条码序列附接至相同的交联微粒内的片段。条码序列可通过任何方式附接,例如通过引物延伸反应,或通过单链或双链连接反应。进行附接条码序列的方法,使得许多多聚体条码化试剂(和/或多聚体条码分子)的文库用于将序列附接至包含许多交联微粒的样品,在稀释条件下使得每个多聚体条码化试剂(和/或多聚体条码分子)通常仅对包含在单个微粒内的序列进行条码化。

随后对所得分子进行测序反应以确定基因组DNA的序列和它们所附接的条码序列。随后使用相关的条码序列来鉴定每个序列通过哪个多聚体条码化试剂(和/或多聚体条码分子)进行条码化,并因而使在测序反应中确定的源自包含在同一微粒内的基因组DNA片段的序列相联系。

图22示出了一种方法,其中个体微粒内的基因组DNA片段彼此附接,并且其中对所得分子进行测序,使得从同一测序分子确定来自同一微粒的两个或更多个基因组DNA片段的序列,从而在同一微粒内的片段之间建立联系。在所述方法中,使个体微粒内的基因组DNA片段彼此交联,并随后平端化,并随后使所得基因组DNA平端化片段彼此连接成连续的多部分的序列。随后对所得分子进行测序,使得来自包含在同一测序分子内的两个或更多个基因组DNA片段的序列因此被确定为因为源自同一微粒而相联系。

在第一步骤中,通过化学交联剂使来自微粒样品的微粒交联。该步骤用于保持每个微粒内的基因组DNA片段彼此物理接近度的目的,使得可操作和处理样品,同时保留微粒的基本结构性质(即,同时保持源自同一微粒的基因组DNA片段的物理接近度)。在第二步骤中,使交联的微粒透化(即,使基因组DNA片段物理上可接近,使得它们随后可在条码化步骤中被条码化);这种透化可例如通过用化学表面活性剂(例如非离子洗涤剂)孵育来进行。

在下一步骤中,使每个微粒内的基因组DNA片段的端平端化(即,任何单链突出端被除去和/或末端被填充),使得末端在双链连接反应中能够彼此附接。随后进行双链连接反应(例如用T4 DNA连接酶),其中包含在同一微粒内的分子的平端化末端彼此连接成连续的多部分的双链序列。该连接反应(或任何其他步骤)可在稀释条件下进行,使得包含在两个或更多个不同微粒内的序列之间的假连接产物最小化。

随后对所得分子进行测序反应,以确定每个多部分分子内的基因组DNA序列。随后评价所得分子,使得来自包含在同一测序分子内的两个或更多个基因组DNA片段的序列因此被确定为因为源自同一微粒而相联系。

图23示出了一种方法,其中在两个或更多个独立的单独测序反应中对来自大的微粒样品的个体微粒(和/或小的微粒群组)进行测序,并且从每个这样的测序反应确定的序列因此被确定为在信息上相联系并因此被预测为源自同一个体微粒(和/或小的微粒群组)。在所述方法中,来自微粒样品的微粒被分成微粒的两个或更多个单独的子样品。每个子样品可包含一个或更多个个体微粒,但在任何情况下将仅包含原始微粒样品的一部分。

每个子样品内的基因组DNA片段随后被释放并被加工成使得可对它们可被测序的形式(例如,它们可附接至测序衔接子例如Illumina测序衔接子,并且任选地被扩增和纯化用于测序)。该方法可包括或可不包括附接条码序列的步骤;任选地,测序的分子不包含任何条码序列。

随后在单独的独立测序反应中对来自每个单独子样品的基因组DNA片段(和/或其复制的拷贝)进行测序。例如,来自每个子样品的分子可在单独的测序流动池上被测序,或者可在流动池的不同泳道内被测序,或者可在纳米孔测序仪的不同端口或流动池内被测序。

随后评价所得测序的分子,使得来自同一单独测序反应的序列被确定为因为源自同一微粒(和/或来自同一小的微粒群组)而相联系。

图24示出了一种具体方法,其中在进行测序之前将个体微粒内的基因组DNA片段附接至测序流动池的离散区域,并且其中在所述流动池上测序的片段的接近度包括源自同一微粒的序列之间的联系。在所述方法中,使来自微粒样品的微粒交联并随后进行透化,并随后将包含在个体微粒内的基因组DNA片段附接至测序流动池,使得来自同一个体微粒的两个或更多个片段附接至流动池的同一区域。随后对附接的分子进行测序,并且所得序列在流动池上的接近度包括联系值,其中可预测流动池上紧密接近度内的序列源自原始样品内的同一个体微粒。

在第一步骤中,通过化学交联剂使来自微粒样品的微粒交联。该步骤用于保持每个微粒内的基因组DNA片段彼此物理接近度的目的,使得可操作和处理样品,同时保留微粒的基本结构性质(即,同时保持源自同一微粒的基因组DNA片段的物理接近度)。在第二步骤中,使交联的微粒透化(即,使基因组DNA片段物理上可接近,使得它们随后可附接至流动池);这种透化可例如通过用化学表面活性剂(例如非离子洗涤剂)孵育来进行。

在下一步骤中,随后将来自微粒的基因组DNA片段附接至测序装置的流动池,使得在同一微粒内交联的两个或更多个片段附接至流动池的同一离散区域。这可在涉及衔接子分子的多部分反应中进行;例如,衔接子分子可附接至微粒内的基因组DNA片段,并且所述衔接子分子可包含与流动池上的单链引物互补的单链部分。随后可使来自交联微粒的序列扩散并与流动池的同一区域内的不同引物退火。

随后对所得测序分子进行测序,使得所得序列在流动池上的接近度提供联系值,其中可预测流动池上紧密接近度内的序列(例如,在某个离散区域和/或接近度值内)源自原始样品内的同一个体微粒。

仅通过举例的方式,通过参照NIPT和癌症检测中的可能应用,可举例说明本发明的优点:

例如,在肿瘤学领域中,本发明可使强大的新框架能够筛选癌症的早期检测。数个团体正在寻求开发cfDNA测定,其可在转移性转化之前检测来自早期肿瘤的低水平循环DNA(所谓的“循环肿瘤DNA”或ctDNA)。从非癌症试样中描绘癌症的主要方法之一是通过检测作为恶性肿瘤的几乎普遍标志的“结构变体”(遗传扩增、缺失或易位);然而,通过当前的“分子计数”框架检测这样的大规模遗传事件需要对cfDNA进行超深度测序以实现统计学上有意义的检测,并且甚至需要在血浆中存在足够量的ctDNA以产生足够的完全分子信号,即使具有假设的无限的测序深度也是如此。

相比之下,本发明可实现结构变异的直接分子评价,具有潜在的单分子灵敏度:包含“重排位点”(例如,一条染色体上已经与另一染色体易位并因此附着于其上的点,或在单个染色体内基因或其他染色体区段已被扩增或缺失的点)的任何结构变异通过该方法可直接检测,因为包含重排DNA的循环微粒可包含重排位点本身两侧侧翼的DNA片段的群体,其通过该方法随后可彼此联系以在信息性上推断重排本身的位置以及两个参与的基因组位点在其每一端的界限二者。

为了概念化这如何可改善普遍的癌症筛查的成本效益和绝对分析灵敏度,可给出假设的单循环微粒的实例,其包含来自早期癌细胞的染色体易位,并且其包含跨越该易位的左半部分和右半部分的总共1兆碱基的DNA,该DNA被片段化为累积跨越整个1兆碱基区段的10,000个不同的、100个核苷酸长的个体片段。为了使用当前的、仅未相联系片段的方法检测这种易位事件的存在,需要对本身包含准确易位位点的单个的100碱基对的片段进行测序,并对其整个长度进行测序以检测真实的易位位点本身。因此,该测试方法需要以下二者:1)高效地将所有10,000个片段转换成可在测序仪上读取的格式(即,10,000个片段中的大多数必须在整个DNA纯化和测序样品制备过程中成功地处理和保留),随后2)所有10,000个片段必须通过DNA测序方法测序至少一次以可靠地对包含易位位点的片段进行测序(即,必须进行至少1兆碱基的测序,甚至推测所有输入分子理论均匀采样进入测序步骤)。因此,需要进行1兆碱基的测序以检测易位事件。

相比之下,为了以高的统计置信度但使用相联系的片段方法检测易位的存在,只需要对来自易位位点本身每侧的少量输入片段进行测序(以从例如统计噪声或错误映射误差区分“确信的”易位事件)。为了提供高的统计置信度,可对来自易位的每一侧的10个片段的顺序进行测序;并且由于它们需要仅被映射至基因组中的位置并且不在其整个长度上测序以观察实际的易位本身,因此需要对来自每个片段的仅50个碱基对的序列进行测序。总之,这产生了1000个碱基对的总测序要求以检测易位的存在(比现有技术所需的1,000,000个碱基对降低1000倍)。

除了关于相对测序通量和成本的这种显著益处之外,相联系读取方法还可提高这些癌症筛选测试的可实现的绝对灵敏度。因为,对于早期(并且因此可能治愈的)癌症,循环中肿瘤DNA的绝对量很低,样品处理和测序准备过程期间样品DNA的损失可显著阻碍测试效力,即使具有理论上无限制的测序深度也是如此。与上述实例一致,使用当前方法,包含易位位点本身的单个DNA片段在整个样品收集、处理和测序制备方案中需要被保留并且成功地被处理,并随后成功地进行测序。然而,所有这些步骤导致一定分数的“输入”分子从处理过的样品物理损失(例如在离心或清除步骤期间),或简单地以其他方式不被后续步骤成功地被处理/改变(例如,在置于DNA测序仪上之前没有成功地扩增)。相反,由于本发明的相联系读取方法仅需要涉及小比例的实际“输入”分子的测序,因此这种类型的样品损失可能对最终测定的最终灵敏度具有显著降低的影响。

除了其在肿瘤学和癌症筛查中的应用之外,本发明还可在非侵入性产前检测(noninvasive prenatal testing,NIPT)领域中实现相当多的新工具。发育中的胎儿(和包含它的胎盘)使片段化的DNA流入母体循环中,其一部分包含在循环微粒中。类似于从ctDNA筛查癌症的问题,循环的胎儿DNA仅代表妊娠个体中总的循环DNA的一小部分(大多数循环DNA是正常的母体DNA)。NIPT的一个相当大的技术挑战围绕着区分实际的胎儿DNA与母体DNA片段(其将共享相同的核苷酸序列,因为它们是一半胎儿基因组的遗传来源)。NIPT的一个另外的技术挑战涉及从循环中存在的胎儿DNA的短片段检测长范围的基因组序列(或突变)。

源自相同个体循环微粒的相联系片段的分析呈现了用于基本上解决NIPT的这两个技术挑战的强有力框架。由于胎儿基因组的(大约)一半与发育中的胎儿所遗传的母体基因组的(大约)一半序列相同,因此难以区分具有母体序列的给定测序片段是否可以是由正常的母体组织,或者相反地由发育中的胎儿组织产生。相比之下,对于父系遗传(遗传自父亲)的胎儿基因组的(大约)一半,存在于父体基因组但不存在于母体基因组中的序列变体(例如单核苷酸变体或其他变体)的存在充当识别这些父系遗传的胎儿片段的分子标志物(因为循环中仅父体DNA序列将是来自妊娠本身的那些)。

因此对来自单个循环胎儿微粒的恰巧包含母体和父体序列(例如来自一个特定母系遗传的胎儿染色体的序列,以及来自父系遗传的第二胎儿染色体的序列)二者的多个片段进行测序的能力呈现出直接识别发育中的胎儿遗传哪些母体序列的方法:被发现共定位在还包含父体序列的微粒内的母体序列可被预测为胎儿遗传的母体序列,并且相反,未被发现与父体序列共定位的母体序列可被预测为代表未被胎儿遗传的母体序列。通过该技术,可从加工的序列数据集中特异性地过滤出由正常母体DNA构成的循环DNA的大部分,并且仅被证明为真实胎儿序列的序列在可信息上分离用于进一步分析。

由于用于NIPT测定的“胎儿分数”(由胎儿自身产生的所有循环DNA的分数)通常低于10%,并且对于一些临床试样为1%至5%,并且由于该父体序列来源的“信息门控”步骤产生100%的“有效胎儿分数”(推定错误映射误差最小),因此这种相联系片段方法具有将NIPT测试的信噪比提高一至两个数量级的潜力。因此,本发明具有提高NIPT测试的总体分析灵敏度和特异性、以及显著降低该过程所需的测序量的潜力,并且还使NIPT测试能够在妊娠早期(胎儿的分数足够低、目前的测试具有不可接受的假阳性和假阴性率的时间点)进行。

重要的是,本发明提供了来自在信息上相联系序列形式的循环DNA的序列数据内新的、正交的维度,在其上可直接进行分析算法、计算和/或统计学检验以产生相当的更敏感和特异的遗传测量。例如,不是评价整个样品中两条染色体之间的序列总量来测量胎儿染色体非整倍性,而是可直接评估相联系序列(和/或其组或亚组)以检查例如映射至特定染色体或染色体部分的每个在信息上相联系组的序列的数目。可进行比较和/或统计学检验以比较不同推定细胞来源的序列的相联系组(例如,胎儿序列与母体序列之间的比较,或推定的健康组织与推定的癌症或恶性组织之间的比较),或评价仅在序列的相联系组的水平上存在的序列特征或数值特征(并且其在单个未相联系序列的水平上不存在),例如特定序列或序列组的特定染色体分布型、或累积的富集。

除了其用于检测胎儿微粒序列的应用之外,该方法还具有检测胎儿基因组中存在的长范围的遗传序列或序列突变的潜力。与癌症基因组重排所描述的方式大致相同,如果对跨越基因组重排位点(例如易位或扩增或缺失)和/或在其侧翼的来自胎儿微粒的数个DNA片段进行测序,那么即使没有直接对重排位点本身进行测序,这些类型的重排也可在信息上检测。此外,在基因组重排事件之外,该方法具有检测个体基因组区域内“定相”信息的潜力。例如,如果两个单核苷酸变体在特定基因内的不同点处被发现但被数千碱基的基因组距离分开,则该方法使得能够评估这两个单核苷酸变体是否位于胎儿基因组中的基因的相同单个拷贝上,或者它们是否各自位于胎儿基因组中存在的基因的两个拷贝中的不同拷贝上(即它们是否位于相同的单倍型内)。这种功能对于胎儿基因组中从头单核苷酸突变(其包括大部分具有遗传病因学的主要发育障碍)的遗传评价和预后具有特别的临床效用。

实施例

实施例1

材料和方法

方法1-核酸条码分子文库的合成

双链子条码分子文库的合成

在PCR管中,将10微升的10微摩BC_MX3(SEQ ID NO:18至269中所有序列的等摩混合物)添加至10微升的10微摩BC_ADD_TP1(SEQ ID NO:1),加10微升的10×CutSmart缓冲液(New England Biolabs),加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加68微升H2O,至99微升的终体积。将PCR管置于热循环仪上,并在75℃下孵育5分钟,随后缓慢退火至4℃,随后保持4℃,随后置于冰上。向溶液添加1.0微升Klenow聚合酶片段(New England Biolabs;5U/μL)并混合。再次将PCR管置于热循环仪上,并在25℃下孵育15分钟,随后保持在4℃。随后,将溶液用纯化柱(核苷酸除去试剂盒(NucleotideRemoval Kit);Qiagen)进行纯化,在50微升H2O中洗脱,并通过分光光度法进行定量。

双链下游衔接子分子的合成

在PCR管中,将0.5微升的100微摩BC_ANC_TP1(SEQ ID NO:2)添加至0.5微升的100微摩BC_ANC_BT1(SEQ ID NO:3),加20微升的10×CutSmart缓冲液(New EnglandBiolabs),加178微升H2O,至200微升的终体积。将PCR管置于热循环仪上,并在95℃下孵育5分钟,随后缓慢退火至4℃,随后保持4℃,随后置于冰上,随后储存在-20℃下。

双链子条码分子文库与双链下游衔接子分子的连接

在1.5毫升Eppendorf管中,将1.0微升双链下游衔接子分子溶液添加至2.5微升双链子条码分子文库,加2.0微升的10×T4 DNA连接酶缓冲液和13.5微升H2O,至19微升的终体积。向该溶液中添加1.0微升T4DNA连接酶(New England Biolabs;高浓度)并混合。将管在室温下孵育60分钟,随后用1.8×体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在40微升H2O中洗脱。

连接文库的PCR扩增

在PCR管中,将2.0微升连接文库添加至2.0微升的50微摩BC_FWD_PR1(SEQ ID NO:4),加2.0微升的50微摩BC_REV_PR1(SEQ ID NO:5),加10微升的10×Taq PCR缓冲液(Qiagen),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加81.5微升H2O,加0.5微升Qiagen Taq聚合酶(5U/μL)至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃持续30秒,随后59℃持续30秒,随后72℃持续30秒;随后保持在4℃。随后,用1.8×体积(180微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在50微升H2O中洗脱。

尿嘧啶糖基化酶消化

向eppendorf管添加15微升洗脱的PCR扩增物、1.0微升H2O,加2.0微升的10×CutSmart缓冲液(New England Biolabs),加2.0微升USER酶溶液(New England Biolabs)并混合。将管在37℃下孵育60分钟,随后用1.8×体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在34微升H2O中洗脱。

MlyI限制性酶切割

向来自先前(糖基化酶消化)步骤的洗脱液添加4.0微升的10×CutSmart缓冲液(New England Biolabs),加2.0微升MlyI酶(New England Biolabs,5U/μL)并混合。将管在37℃下孵育60分钟,随后用1.8×体积(72微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在40微升H2O中洗脱。

子条码文库与MlyI切割溶液的连接

在1.5毫升Eppendorf管中,将10微升的MlyI切割溶液添加至2.5微升双链子条码分子文库,加2.0微升的10×T4 DNA连接酶缓冲液和4.5微升H2O,至19微升的终体积。向该溶液中添加1.0微升的T4 DNA连接酶(New England Biolabs;高浓度)并混合。将管在室温下孵育60分钟,随后用1.8×体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)进行纯化,并在40微升H2O中洗脱。

重复子条码添加的循环

按顺序重复以下实验步骤总共5个循环:1)子条码文库与MlyI切割溶液的连接,2)连接文库的PCR扩增,3)尿嘧啶糖基化酶消化,以及4)MlyI限制性酶切割。

双链上游衔接子分子的合成

在PCR管中,将1.0微升的100微摩BC_USO_TP1(SEQ ID NO:6)添加至1.0微升的100微摩BC_USO_BT1(SEQ ID NO:7),加20微升的10×CutSmart缓冲液(New EnglandBiolabs),加178微升H2O,至200微升的终体积。将PCR管置于热循环仪上,并在95℃下孵育60秒,随后缓慢退火至4℃,随后保持4℃,随后置于冰上,随后储存在-20℃下。

双链上游衔接子分子的连接

在1.5毫升Eppendorf管中,将3.0微升上游衔接子溶液添加至10.0微升的最终(在第五个循环之后)MlyI切割溶液,加2.0微升的10×T4 DNA连接酶缓冲液和5.0微升的H2O,至19微升的终体积。向该溶液中添加1.0微升的T4 DNA连接酶(New England Biolabs;高浓度)并混合。将管在室温下孵育60分钟,随后用1.8×体积(34微升)Ampure XP珠(Agencourt;按照制造商的说明书)进行纯化,并在40微升H2O中洗脱。

上游衔接子连接文库的PCR扩增

在PCR管中,将6.0微升上游衔接子连接文库添加至1.0微升的100微摩BC_CS_PCR_FWD1(SEQ ID NO:8),加1.0微升的100微摩BC_CS_PCR_REV1(SEQ ID NO:9),加10微升的10×Taq PCR缓冲液(Qiagen),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加73.5微升H2O,加0.5微升Qiagen Taq聚合酶(5U/μL),至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃持续30秒,随后61℃持续30秒,随后72℃持续30秒;随后保持在4℃。随后,用1.8×体积(180微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化包含所扩增核酸条码分子文库的溶液。随后,将所扩增核酸条码分子文库在40微升H2O中进行洗脱。

随后,使用由上述方法合成的所扩增核酸条码分子文库来如下所述组装多聚体条码分子文库。

方法2-多聚体条码分子文库的组装

使用根据方法1所述方法合成的核酸条码分子文库来组装多聚体条码分子文库。

用正向终止引物和正向夹板引物(splinting primer)进行引物延伸

在PCR管中,将5.0微升所扩增核酸条码分子文库添加至1.0微升的100微摩CS_SPLT_FWD1(SEQ ID NO:10),加1.0微升的5微摩CS_TERM_FWD1(SEQ ID NO:11),加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加80.0微升H2O,加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)至100微升的终体积。将PCR管置于热循环仪上,并扩增1个以下循环:95℃持续30秒,随后53℃持续30秒,随后72℃持续60秒;随后是1个以下循环:95℃持续30秒,随后50℃持续30秒,随后72℃持续60秒,随后保持在4℃。随后,将溶液用PCR纯化柱(Qiagen)纯化,并在85.0微升H2O中洗脱。

用反向终止引物和反向夹板引物进行引物延伸

在PCR管中,将85.0微升正向延伸引物-延伸产物添加至1.0微升的100微摩CS_SPLT_REV1(SEQ ID NO:12),加1.0微升的5微摩CS_TERM_REV1(SEQ ID NO:13),加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)至100微升的终体积。将PCR管置于热循环仪上,并扩增1个以下循环:95℃持续30秒,随后53℃持续30秒,随后72℃持续60秒;随后是1个以下循环:95℃持续30秒,随后50℃持续30秒,随后72℃持续60秒,随后保持在4℃。随后,将溶液用PCR纯化柱(Qiagen)纯化,并在43.0微升H2O中洗脱。

用重叠延伸PCR使引物延伸产物相联系

在PCR管中,添加43.0微升反向延伸引物-延伸产物,加5.0微升的10×Thermopol缓冲液(NEB),加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL)至50微升的终体积。将PCR管置于热循环仪上,并扩增5个以下循环:95℃持续30秒,随后60℃持续60秒,随后72℃持续2分钟;随后是5个以下循环:95℃持续30秒,随后60℃持续60秒,随后72℃持续5分钟;随后是5个以下循环:95℃持续30秒,随后60℃持续60秒,随后72℃持续10分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在40微升H2O中洗脱。

重叠延伸产物的扩增

在PCR管中添加2.0微升重叠延伸PCR溶液,加1.0微升的100微摩CS_PCR_FWD1(SEQID NO:14),加1.0微升的100微摩CS_PCR_REV1(SEQ ID NO:15),加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加83.0微升H2O,至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃持续30秒,随后58℃持续30秒,随后72℃持续10分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在50微升H2O中洗脱,并通过分光光度法进行定量。

扩增的重叠延伸产物的基于凝胶的尺寸选择

上样约250纳克扩增的重叠延伸产物并在0.9%琼脂糖凝胶上运行,随后用溴化乙锭染色并可视化。切下对应于尺寸为1000个核苷酸(±100个核苷酸)的条带,用凝胶提取柱(Gel Extraction Kit,Qiagen)纯化并在50微升H2O中洗脱。

重叠延伸产物的扩增

在PCR管中添加10.0微升凝胶尺寸选择溶液,加1.0微升的100微摩CS_PCR_FWD1(SEQ ID NO:14),加1.0微升的100微摩CS_PCR_REV1(SEQ ID NO:15),加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加75.0微升H2O,至100微升的终体积。将PCR管置于热循环仪上并扩增15个以下循环:95℃持续30秒,随后58℃持续30秒,随后72℃持续4分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt按照制造商的说明书)纯化溶液,并在50微升H2O中洗脱,并通过分光光度法进行定量。

定量已知数目的多聚体条码分子的选择和扩增

将扩增的凝胶提取溶液稀释至1皮克/微升的浓度,并随后向PCR管添加2.0微升的该稀释溶液(约200万个单独分子),加0.1微升的100微摩CS_PCR_FWD1(SEQ ID NO:14),加0.1微升的100微摩CS_PCR_REV1(SEQ ID NO:15),加1.0微升的10×Thermopol缓冲液(NEB),加0.2微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加0.1微升VentExo-Minus聚合酶(New England Biolabs,2U/μL),加6.5微升H2O,至10微升的终体积。将PCR管置于热循环仪上并扩增11个以下循环:95℃持续30秒,随后57℃持续30秒,随后72℃持续4分钟;随后保持在4℃。

向PCR管添加1.0微升的100微摩CS_PCR_FWD1(SEQ ID NO:14),加1.0微升的100微摩CS_PCR_REV1(SEQ ID NO:15),加9.0微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加76.0微升H2O,至100微升的终体积。将PCR管置于热循环仪上并扩增10个以下循环:95℃持续30秒,随后57℃持续30秒,随后72℃持续4分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在50微升H2O中洗脱,并通过分光光度法进行定量。

方法3:通过体外转录和cDNA合成产生单链多聚体条码分子

该方法描述了产生单链DNA链的一系列步骤,寡核苷酸可与所述单链DNA链退火并随后沿之进行条码化。该方法开始于平行进行的四个相同的反应,其中使用重叠延伸PCR扩增反应将T7 RNA聚合酶的启动子位点附接至多聚体条码分子文库的5’端。平行进行四个相同的反应,随后合并以提高可用的该产物的定量的量和浓度。在四个相同的PCR管中的每一个中,将约500皮克的经尺寸选择且PCR扩增的多聚体条码分子(如在方法2的“定量已知数目的多聚体条码分子的选择和扩增”步骤中产生的)与2.0微升的100微摩CS_PCR_FWD1_T7(SEQ ID NO.270)和2.0微升的100微摩CS_PCR_REV4(SEQ ID NO.271)混合,加20.0微升的10×Thermopol PCR缓冲液,加4.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,以及2.0微升Vent Exo Minus聚合酶(5单位/微升),加水,至200微升的总体积。将PCR管置于热循环仪上并扩增22个以下循环:95℃持续60秒,随后60℃持续30秒,随后72℃持续3分钟;随后保持在4℃。随后,用凝胶提取柱(Gel Extraction Kit,Qiagen)纯化来自所有四个反应的溶液,并在52微升H2O中洗脱。

将50微升洗脱液与10微升的10×NEBuffer 2(NEB)混合,加0.5微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物和1.0微升Vent Exo Minus聚合酶(5单位/微升),加水,至100微升的总体积。将反应物在室温下孵育15分钟,随后用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在40微升H2O中洗脱,并通过分光光度法进行定量。

随后进行转录步骤,其中将包含T7 RNA聚合酶启动子位点的PCR扩增模板文库(如在先前步骤中产生的)用作T7 RNA聚合酶的模板。这包括扩增步骤以产生大量对应于多聚体条码分子文库的基于RNA的核酸(因为每个输入PCR分子可充当模板以产生大量同源RNA分子)。在随后的步骤中,随后对这些RNA分子进行逆转录以产生期望的单链多聚体条码分子。将10微升洗脱液与20微升的5×转录缓冲液(Promega)混合,加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加10微升的0.1微摩DTT,加4.0微升SuperAseIn(Ambion),以及4.0微升Promega T7 RNA聚合酶(20单位/微升),加水,至100微升的总体积。将反应物在37℃下孵育4小时,随后用RNEasy微型试剂盒(Qiagen)纯化,并在50微升H2O中洗脱,并添加至6.0微升SuperAseIn(Ambion)。

随后,对在先前体外转录步骤中产生的RNA溶液进行逆转录(使用对RNA分子的3’端具有特异性的引物),并随后用RNAse H消化以产生对应于多聚体条码分子的单链DNA分子,寡核苷酸可与所述单链DNA分子退火并随后沿之进行条码化。在两个相同的重复管中,将23.5微升洗脱液与5.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物混合,加3.0微升SuperAseIn(Ambion),以及10.0微升的2.0微摩CS_PCR_REV1(SEQ ID NO.272),加水,至73.5微升的终体积。将反应物在热循环仪上在65℃下孵育5分钟,随后在50℃下60秒;随后保持在4℃。向管添加20微升的5×逆转录缓冲液(Invitrogen),加5.0微升的0.1毫摩DTT,以及1.75微升Superscript III逆转录酶(Invitrogen)。将反应物在55℃下孵育45分钟,随后在60℃下5分钟;随后在70℃下15分钟,随后保持在4℃,随后用PCR清除柱(Qiagen)纯化,并在40微升H2O中洗脱。

将60微升洗脱液与7.0微升的10×RNAse H缓冲液(Promega)混合,加4.0微升RNAse H(Promega)。将反应物在37℃下孵育12小时,随后在95℃下10分钟,随后保持在4℃,随后用0.7×体积(49微升)的Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在30微升H2O中洗脱,并通过分光光度法进行定量。

方法4:包含条码化寡核苷酸的多聚体条码化试剂的产生

该方法描述了由单链多聚体条码分子(如在方法3中产生的)以及合适的延伸引物和衔接子寡核苷酸产生多聚体条码化试剂的步骤。

在PCR管中,将约45纳克的单链RNAse H消化多聚体条码分子(如在方法3的最后步骤中产生的)与0.25微升的10微摩DS_ST_05(SEQ ID NO.273,衔接子寡核苷酸)和0.25微升的10微摩US_PCR_Prm_Only_03(SEQ ID NO.274,延伸引物)混合,加5.0微升的5×等温延伸/连接缓冲液,加水,至19.7微升的终体积。为了使衔接子寡核苷酸和延伸引物与多聚体条码分子退火,在热循环仪中,将管在98℃下孵育60秒,随后缓慢退火至55℃,随后在55℃下保持60秒,随后缓慢退火至50℃,随后在50℃下保持60秒,随后以0.1℃/秒缓慢退火至20℃,随后保持在4℃。向管添加0.3微升(0.625U)Phusion聚合酶(NEB;2U/μL)、2.5微升(100U)Taq DNA连接酶(NEB;40U/μL);以及2.5微升的100毫摩DTT。为了使延伸引物横跨每个多聚体条码分子的相邻条码区域延伸,并随后使该延伸产物与退火至其下游的衔接子寡核苷酸的磷酸化5’端连接,随后将该管在50℃下孵育3分钟,随后保持在4℃。随后,用PCR清除柱(Qiagen)纯化反应物,并在30微升H2O中洗脱,并通过分光光度法进行定量。

方法5:已知序列的合成DNA模板的产生

该方法描述了如下产生具有大量串联重复的共线分子序列标识符的合成DNA模板的技术:使包含所述分子序列标识符的寡核苷酸环化并随后串联扩增(用进行性的链置换聚合酶)。随后,该试剂可用于评价和测量本文中所述的多聚体条码化试剂。

在PCR中,添加0.4微升的1.0微摩Syn_Temp_01(SEQ ID NO.275)和0.4微升的1.0微摩ST_Splint_02(SEQ ID NO.276)以及10.0微升的10×NEB CutSmart缓冲液。在热循环仪上,将管在95℃下孵育60秒,随后在75℃下保持5分钟,随后缓慢退火至20℃,随后在20℃下保持60秒,随后保持在4℃。为了通过分子内连接反应使分子环化,随后向管添加10.0微升ribo-ATP和5.0微升的T4 DNA连接酶(NEB;高浓度)。随后,将管在室温下孵育30分钟,随后在65℃下10分钟,随后缓慢退火至20℃,随后在20℃下保持60秒,随后保持在4℃。随后,向每个管添加10×NEB CutSmart缓冲液、4.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物和1.5微升的经稀释phi29DNA聚合酶(NEB;在1×CutSmart缓冲液中以1∶20稀释),加水,至200微升的总体积。将反应物在30℃下孵育5分钟,随后保持在4℃,随后用0.7×体积(140微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在30微升H2O中洗脱,并通过分光光度法进行定量。

方法6:用包含条码化寡核苷酸的多聚体条码化试剂对已知序列的合成DNA模板进行条码化

在PCR管中添加10.0微升的5×Phusion HF缓冲液(NEB),加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加2.0微升(10纳克)的5.0纳克/微升已知序列的合成DNA模板(由方法5产生),加水,至42.5微升的终体积。随后,将管在98℃下孵育60秒,随后保持在20℃。向管添加5.0微升的5.0皮克/微升包含条码化寡核苷酸的多聚体条码化试剂(由方法4产生)。随后,将反应物在70℃下孵育60秒,随后缓慢退火至60℃,随后在60℃下5分钟,随后缓慢退火至55℃,随后在55℃下5分钟,随后缓慢退火至50℃,随后在50℃下5分钟,随后保持在4℃。向反应物中添加0.5微升Phusion聚合酶(NEB),加2.0微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO.277,与使由方法4产生的多聚体条码化试剂沿着由方法5产生的合成DNA模板退火并延伸产生的延伸产物的一部分互补的引物,充当该方法中所述引物延伸和随后PCR反应的引物)。在该反应中,将5.0微升的体积添加至新的PCR管,随后将其在55℃下孵育30秒,在60℃下30秒,并在72℃下30秒,随后接着进行10个以下循环:98℃,随后65℃,随后72℃,各自30秒,随后保持在4℃。随后,向每个管添加9.0微升的5×Phusion缓冲液,加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加1.75微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO.277),加1.75微升的10μM US_PCR_Prm_Only_02(SEQ IDNO.278,与用于按照方法4产生多聚体条码化试剂的延伸引物部分互补并且在该PCR扩增反应中充当“正向”引物的引物),加0.5微升Phusion聚合酶(NEB),加水,至50微升的终体积。将PCR管置于热循环仪上并扩增24个以下循环:98℃持续30秒,随后72℃持续30秒;随后保持在4℃,随后用1.2×体积(60微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在30微升H2O中洗脱,并通过分光光度法进行定量。

随后,所得文库被条码化用于通过基于PCR的方法进行样品鉴定,扩增,使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并在信息上去多重化(demultiplexed)用于进一步分析。

方法7:用多聚体条码化试剂和单独的衔接子寡核苷酸对已知序列的合成DNA模板进行条码化

为了使衔接子寡核苷酸沿着合成DNA模板退火并延伸,在PCR管中添加10.0微升的5×Phusion HF缓冲液(NEB),加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加5.0微升(25纳克)的5.0纳克/微升已知序列的合成DNA模板(如由方法5产生的),加0.25微升的10微摩DS_ST_05(SEQ ID NO.273,衔接子寡核苷酸),加水,至49.7微升的终体积。在热循环仪中,将管在98℃下孵育2分钟,随后在63℃下1分钟,随后缓慢退火至60℃,随后在60℃下保持1分钟,随后缓慢退火至57℃,随后在57℃下保持1分钟,随后缓慢退火至54℃,随后在54℃下保持1分钟,随后缓慢退火至50℃,随后在50℃下保持1分钟,随后缓慢退火至45℃,随后在45℃下保持1分钟,随后缓慢退火至40℃,随后在40℃下保持1分钟,随后保持在4℃。向管添加0.3微升Phusion聚合酶(NEB),并将反应物在45℃下孵育20秒,随后在50℃下20秒,随后在55℃下20秒,在60℃下20秒,随后在72℃下20秒,随后保持在4℃;随后用0.8×体积(40微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化反应物,并在30微升H2O中洗脱,并通过分光光度法进行定量。

为了使衔接子寡核苷酸(如在先前步骤中沿合成DNA模板退火并延伸)与多聚体条码分子退火,并随后使延伸引物退火并随后延伸跨越每个多聚体条码分子的相邻条码区域,并随后使该延伸产物与退火至其下游的衔接子寡核苷酸的磷酸化5’端连接,向PCR管添加10微升来自先前步骤的洗脱液(包含衔接子寡核苷酸已沿着其退火并延伸的合成DNA模板),加3.0微升的RNAse H消化的多聚体条码分子(如在方法3的最后步骤中产生的)的50.0纳摩溶液,加6.0微升的5×等温延伸/连接缓冲液,加水,至26.6微升的终体积。在热循环仪上,将管在70℃下孵育60秒,随后缓慢退火至60℃,随后在60℃下保持5分钟,随后缓慢退火至55℃,随后在55℃下保持5分钟,随后以0.1℃/秒缓慢退火至50℃,随后在50℃下保持30分钟,随后保持在4℃。向管添加0.6微升的10μM US_PCR_Prm_Only_02(SEQ ID NO:278,延伸引物),并将反应物在50℃下孵育10分钟,随后保持在4℃。向管添加0.3微升(0.625U)Phusion聚合酶(NEB;2U/μL)、2.5微升(100U)Taq DNA连接酶(NEB;40U/μL)和2.5微升的100毫摩DTT。随后,将管在50℃下孵育5分钟,随后保持在4℃。随后,用0.7×体积(21微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化反应物,并在30微升H2O中洗脱,并通过分光光度法进行定量。

向新PCR管添加25.0微升洗脱液,加10.0微升的5×Phusion HF缓冲液(NEB),加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加2.0微升的10μM SynTemp_PE2_B1_Short1(SEQ ID NO:277;与通过以上步骤产生的延伸产物的一部分互补的引物;充当在此所述的引物延伸和随后PCR反应的引物),加0.5μL Phusion聚合酶(NEB),加水,至49.7微升的终体积。在该反应中,将5.0微升的体积添加至新PCR管,随后将其在55℃下孵育30秒,在60℃下30秒,并在72℃下30秒,随后进行10个以下循环:98℃,随后65℃,随后72℃,各自30秒,随后保持在4℃。随后,向每个管添加9.0微升的5×Phusion缓冲液,加1.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加1.75微升的10μM SynTemP_PE2_B1_Short1(SEQ IDNO:277),加1.75微升的10μM US_PCR_Prm_Only_02(SEQ ID NO:278),加0.5微升Phusion聚合酶(NEB),加水,至50微升的终体积。将PCR管置于热循环仪上,并扩增24个以下循环:98℃持续30秒,随后72℃持续30秒;随后保持在4℃,随后用1.2×体积(60微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化,并在30微升H2O中洗脱,并通过分光光度法进行定量。

随后,所得文库被条码化用于通过基于PCR的方法进行样品鉴定,扩增,并使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并在信息上去多重化用于进一步分析。

方法9:用包含条码化寡核苷酸的多聚体条码化试剂对基因组DNA基因座进行条码化

该方法描述了用于使用包含条码化寡核苷酸的多聚体条码化试剂对特定基因组基因座中的靶标进行条码化(例如,对特定基因内的多个外显子进行条码化)的框架。首先,通过体外转录和cDNA合成产生多聚体条码分子的溶液(如方法3中所述)。随后,如方法4中所述并进行以下修改来产生包含条码化寡核苷酸的多聚体条码化试剂的溶液:作为使用靶向合成DNA模板的衔接子寡核苷酸(即DS_ST_05,SEQ ID NO:273,如方法4中使用的)的替代,在该步骤包括靶向特定基因组基因座的衔接子寡核苷酸。具体地,对于以下三种不同人基因中的每一种单独地产生包含合适条码化寡核苷酸的多聚体条码化试剂的溶液:BRCA1(包含7种衔接子寡核苷酸,SEQ ID NO:279至285)、HLA-A(包含3种衔接子寡核苷酸,SEQ IDNO:286至288)和DQB1(包含2种衔接子寡核苷酸,SEQ ID NO:289至290)。如上所述对这三种溶液中的每一种都进行方法4的过程。随后,将这三种溶液以等体积合并在一起,并稀释至约50纳摩的最终总浓度的所有条码化寡核苷酸。

在PCR管中加2.0微升的5×Phusion HF缓冲液(NEB),加1.0微升的100纳克/微升人基因组DNA(来自Coriell Institute的NA12878),至9.0微升的终体积。在该方案的某些变化方案中,在该步骤还添加多聚体条码化试剂(包含条码化寡核苷酸),之后进行高温98℃孵育。将反应物在98℃下孵育120秒,随后保持在4℃。向管添加1.0微升的上述50纳摩多聚体条码试剂溶液,并随后将反应物在55℃下孵育1小时,随后在50℃下1小时,随后在45℃下1小时,随后保持在4℃。(注意,对于某些样品,该最后的退火过程延长至过夜进行,每个温度步骤总共约4小时)。

为了将反向通用引发序列添加至每个扩增子序列(并且因此使得随后能够仅使用一种正向和一种反向扩增引物一次扩增整个文库),将反应物以1∶100稀释,并在新PCR管中将1.0微升所得溶液添加至20.0微升5×Phusion HF缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物,加1.0微升反向引物混合物(等摩浓度的SEQ ID No 291至303,每种引物的浓度为5微摩),加1.0μL Phusion聚合酶(NEB),加水,至100微升的终体积。将反应物在53℃下孵育30秒,72℃持续45秒,98℃持续90秒,随后68℃持续30秒,随后64℃持续30秒,随后72℃持续30秒,随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化反应物,并在30微升H2O中洗脱,并通过分光光度法进行定量。

随后,所得文库被条码化用于通过基于PCR的方法进行样品鉴定,扩增,并使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并在信息性上多重化用于进一步分析。

方法10-对多聚体条码分子文库进行测序

制备扩增的选定分子用于高通量测序评估

向PCR管添加1.0微升扩增选定分子溶液,加1.0微升的100微摩CS_SQ_AMP_REV1(SEQ ID NO:16),加1.0微升的100微摩US_PCR_Prm_Only_02(SEQ ID NO:17),加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(New England Biolabs,2U/μL),加84.0微升H2O至100微升的终体积。将PCR管置于热循环仪上,并扩增3个以下循环:95℃持续30秒,随后56℃持续30秒,随后72℃持续3分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在85微升H2O中洗脱。

随后,将该溶液添加至新PCR管中,加1.0微升的100微摩Illumina_PE1,加1.0微升的100微摩Illumina_PE2,加10微升的10×Thermopol缓冲液(NEB),加2.0微升的10毫摩脱氧核苷酸三磷酸核苷酸混合物(Invitrogen),加1.0微升Vent Exo-Minus聚合酶(NewEngland Biolabs,2U/μL)至100微升的终体积。将PCR管置于热循环仪上并扩增4个以下循环:95℃持续30秒,随后64℃持续30秒,随后72℃持续3分钟;随后进行18个以下循环:95℃持续30秒,随后67℃持续30秒,随后72℃持续3分钟;随后保持在4℃。随后,用0.8×体积(80微升)Ampure XP珠(Agencourt;按照制造商的说明书)纯化溶液,并在40微升H2O中洗脱。

随后,用双端250-循环V2测序化学使用MiSeq测序仪对该样品进行高通量Illumina测序。

方法11-沿着单个合成模板DNA分子退火并延伸的条码的多聚体性质的评估

使用根据方法3和方法4中一般性描述的方案产生的多聚体条码化试剂溶液,并且使用如方法5中所述的合成DNA模板溶液,并且使用如方法6中所述的实验室方案产生经条码化合成DNA模板的文库;随后,所得文库被条码化用于通过基于PCR的方法进行样品鉴定,扩增,并使用150-循环的中等输出NextSeq流动池(Illumina)通过标准方法进行测序,并在信息上去多重化用于进一步分析。随后,将来自该方法的DNA测序结果与由方法10产生的数据在信息上进行比较,以评估合成DNA模板的多聚体条码化与所述条码在单独多聚体条码化试剂上的布置之间的重叠程度(结果示于图17)。

结果

每个测序多聚体条码化试剂分子的结构和预期序列内容

制备如方法1至3中所述合成的多聚体条码分子文库用于高通量测序,其中每个测序分子包含特定多聚体条码分子的连续跨度(包含一个或更多个条码序列、以及一个或更多个相关上游衔接子序列和/或下游衔接子序列),在所测序的分子内全部共线。随后,如所述,在MiSeq测序仪(Illumina)上用双端250核苷酸读取对该文库进行测序。这产生从该文库中测序的总共约1350万个分子,从每一端测序一次,总共约2700万个序列读取。

预期每个正向读取以6个核苷酸的序列开始,对应于上游衔接子的3’端:TGACCT

在该正向读取之后是分子内中的第一条码序列(预期长度为20nt)。

随后,在该条码之后是“条码内序列(在以“正向”方向进行测序的这种情况下(其是包含串联的下游衔接子序列和上游衔接子序列二者的82个核苷酸):

在250个核苷酸的正向读取内,随后在这之后将是第二条码,另一条码内序列,并随后是第三条码,并随后是另一条码内序列的一部分。

预期每个反向读取以对应于下游衔接子序列的以下序列开始:

随后,在该反向读取之后是从分子的相对端进入的第一条码(也是20个核苷酸的长度,但是从分子的相对链测序,并且因此相对于通过正向读取测序的那些为相反方向)。

随后,在该条码之后是“条码内序列”,但是为相反方向(如其在相对链上):

同样地,随后,在该250个核苷酸的反向读取之后将是第二条码,另一条码内序列,随后是第三条码,并随后是另一条码内序列的一部分。

序列提取与分析

使用Python中的脚本处理,分离条码与侧翼上游衔接子和下游衔接子序列的每个相关对,随后分离每个条码分子的每个单独条码序列,并将在同一分子内测序的每个条码序列注释为属于多聚体条码分子文库中的同一多聚体条码分子。使用简单的分析脚本(Networkx;Python)通过检查条码-条码对在不同测序分子之间的重叠来确定总体多聚体条码分子条码群组。对该数据产生数个度量,包括条码长度,序列内容,以及多聚体条码分子文库中多聚体条码分子的大小和复杂性。

每个条码序列内核苷酸的数目

分离来自每个Illumina测序分子内包含的每个条码分子的每个单独条码序列,并通过对上游衔接子分子序列与下游衔接子分子序列之间核苷酸的数目进行计数来确定每个这样的条码的总长度。结果示于图10中。

绝大多数条码长度为20个核苷酸,其对应于五次添加来自我们双链子条码文库的我们长度为4个核苷酸的子条码分子。因此,这是预期的期望结果,并且表明每个“循环”(子条码文库与MlyI切割溶液的连接、连接文库的PCR扩增、尿嘧啶糖基化酶消化和MlyI限制性酶切割)是成功的且能够在每个循环有效地添加新的四核苷酸子条码分子,并随后成功地能够扩增这些分子并使其向前经历用于继续进一步处理的方案,包括经历总共五个子条码添加循环,以制备最终的上游衔接子连接文库。

我们还使用这种序列分析方法来对所有测序多聚体条码分子中全部独特条码的总数进行定量:这等于总共19,953,626个独特条码,其与预期的2000万个条码基本上相同,假定我们合成了200万个多聚体条码分子,则每个具有约10个单独的条码分子。

总之,该数据和分析因此表明,由子条码序列创建复杂的组合条码的方法对于合成多聚体条码分子的目的是有效且可用的。

每个多聚体条码分子中独特条码分子的总数

图11示出了量化每个测序多聚体条码分子中独特条码分子(如通过其各自的条码序列确定的)的总数的结果。如上所述,为此,在第一种情况下我们检查了在测序仪上测序的相同单独分子中存在并检出的条码序列。随后,我们进一步采用了对条码序列进行聚类的另外步骤,其中我们采用简单的网络分析脚本(Networkx),其可基于联系的明确了解来确定单独条码序列之间的联系(其中条码见于同一连续测序分子中),并且还可确定“隐式”联系,其中不在同一测序分子内测序的两个或更多个条码作为替代均与共同的第三条码序列共有直接联系(这个共有的共同联系因此指示两个第一条码序列实际上位于相同的多聚体条码分子上)。

该图显示,在我们的反应中测序的大多数多聚体条码分子具有在其中包含的两个或更多个独特条码,因此显示通过我们的重叠-延伸PCR联系过程,我们能够将多个条码分子一起联系成多聚体条码分子。虽然我们会预期看到更多的多聚体条码分子展现出更接近于预期的条码分子数目(10),但我们预期观察到的这一效应是由于测序深度不够高,并且在测序分子的数目较大下,我们能够观察单独条码分子之间的真实联系的更大部分。虽然如此,该数据表明,我们在这里描述的基本合成程序对于预期目的是有效的。

代表性多聚体条码分子

图12示出了由我们的分析脚本检出的代表性多聚体条码分子。在该图中,每个“节点”是单个条码分子(来自其相关的条码序列),每条线是在同一测序分子中已被测序至少一次的两个条码分子之间的“直接联系”,且每个节点簇是单独的多聚体条码分子,其包含具有直接联系的条码和如由我们的分析脚本确定的在隐式间接联系内的那些二者。插图包括单个多聚体条码分子,以及其中包含的其组成条码分子的序列。

该图示出了我们的多聚体条码分子合成程序:我们能够由子条码分子文库构建条码分子,我们能够通过重叠-延伸PCR反应使多个条码分子相联系,我们能够分离定量已知数目的单独多聚体条码分子,并且我们能够扩增这些并对其进行下游分析和使用。

用(i)包含条码化寡核苷酸的多聚体条码化试剂、以及(ii)多聚体条码化试剂和单独衔接子寡核苷酸对已知序列的合成DNA模板进行条码化序列提取和分析

利用Python中并在Amazon Web Service(AWS)架构中实施的脚本,对于在样品去多重化之后的每个序列读取,使来自给定多聚体条码试剂的每个条码区域与其侧翼上游衔接子和下游衔接子序列分离。同样地,使来自给定合成DNA模板分子的每个分子序列识别符区与其侧翼上游和下游序列分离。对样品文库中的每个分子重复该过程;进行单个过滤步骤,其中从数据中删去仅存在于单个读取中(因此可能代表测序错误或来自酶促样品制备过程的误差)的单独条码和分子序列标识符。对于每个分子序列标识符,量化在单个序列读取内发现与其相关的独特(即具有不同序列)条码区域的总数。随后,创建直方图以使这一数目在该文库中发现的所有分子序列标识符中的分布可视化。

讨论

图13示出了对方法6(用包含条码化寡核苷酸的多聚体条码化试剂对已知序列的合成DNA模板进行条码化)的这一分析的结果。该图清楚地看出大多数多聚体条码化试剂能够成功地标记与其相关的每个分子序列标识符的两个或更多个串联重复拷贝。观察到1至约5或6个“标记事件”的分布,表明可能存在一定程度的在该系统中发生的随机相互作用,这可能是由于不完全的酶促反应或在条码试剂/合成模板界面处的空间位阻,或其他因素。

图14示出了使用方法7(用多聚体条码分子和单独衔接子寡核苷酸对已知序列的寡核苷酸合成DNA模板进行条码化)进行的这一相同分析的结果。该图也清楚地表明,大多数多聚体条码化试剂能够成功地标记与其相关的每个分子序列标识符的两个或更多个串联重复拷贝,具有与对先前分析观察到的分布相似的分布。

总之,这两幅图表明,多聚体分子条码化的这个框架是一个有效的框架,并且此外该框架可以以不同方法学方式配置。图13示出了基于以下方法的结果,在所述方法中该框架被配置成使得多聚体条码试剂在使其与靶(合成)DNA模板接触之前已经包含条码化寡核苷酸。相比之下,图14示出了基于一种替代方法的结果,在所述方法中衔接子寡核苷酸首先接触合成DNA模板,并随后在随后的步骤中通过与多聚体条码试剂接触来对衔接子寡核苷酸进行条码化。这些图一起表明了这些试剂的多聚体条码化能力,以及其在不同关键实验室方案中的多功能性二者。

为了分析单独多聚体条码化试剂是否成功标记同一合成DNA模板的两个或更多个子序列及其标记程度,将文库中每个单独多聚体条码化试剂上不同条码的组(如从前面段落中所述的Networkx分析预测的并且如图12中所示)与沿单个合成DNA模板退火并延伸的条码(如方法11中所述)进行比较。向在单独多聚体条码化试剂上发现的每个条码组给予数字“试剂标识符标记”。对于在方法11的测序数据中由两个或更多个条码(即,其中合成模板分子的两个或更多个子序列通过条码化寡核苷酸退火并延伸)表示的每个合成DNA模板分子序列标识符(即,对于每个单独的合成DNA模板分子),确定相应的“试剂标识符标记”。随后,对于每个这样的合成模板分子,计算来自同一单一多聚体条码化试剂的多聚体条码的总数(即,计算合成模板分子中被不同的但来自同一单个多聚体条码化试剂的条码化寡核苷酸标记的不同子序列的数目)。随后,重复该分析,并与“阴性对照”条件进行比较,在所述阴性对照条件下分配给每个“试剂标识符标记”的条码是随机化的(即,数据中仍然存在相同的条码序列,但其不再对应于多聚体条码化试剂文库中不同条码序列的实际分子联系)。

来自该分析的数据示于图17:实际的实验数据和具有随机化条码分配的对照数据二者(注意垂直轴的对数标度)。如该图所示,虽然每个靶合成DNA模板分子的独特条码化事件的数目较小,但其与单独多聚体条码化试剂的已知条码内容几乎完美地重叠。也就是说,当与随机化条码数据(其基本上不包含显示是“多价条码化”的模板分子)相比时,实际实验中显示被来自同一单独多聚体条码化试剂的多个条码化寡核苷酸标记的绝大多数(超过99.9%)模板分子事实上被溶液中的相同同一单个试剂多重标记。相比之下,如果在标记单独合成DNA模板的不同条码之间不存在非随机关联(即,如果图17显示实际实验数据与随机化数据之间没有差异),则这将已指示条码化不以空间上约束的方式发生,如多聚体条码化试剂所指导的。然而,如上所述,数据有说服力地表明,期望条码化反应确实发生,其中在单个合成DNA模板上发现的子序列仅与单个单独的多聚体条码化试剂相互作用(并随后被其条码化)。

用包含条码化寡核苷酸的多聚体条码化试剂对基因组DNA基因座进行条码化

序列提取和分析

与其他分析一样,脚本在Python中编写,并在Amazon Web Service(AWS)架构中实施。对于样品去多重化之后的每个序列读取,使来自给定多聚体条码试剂的每个条码区域与其侧翼上游衔接子和下游衔接子序列分离,并独立记录用于进一步分析。同样地,分离到下游区的3’端的每个序列(表示包含条码化寡核苷酸的序列,以及在实验方案期间寡核苷酸已经沿之引发的任何序列)用于进一步分析。对每个读取的每个下游序列分析预期衔接子寡核苷酸序列(即来自对应于寡核苷酸所针对的三种基因之一的引物)和相关的另外下游序列的存在。随后,将每个读取记录为“中靶”(具有对应于预期的靶向序列之一的序列)或“脱靶”。此外,对于每个靶向区域,计算独特多聚体条码的总数(即,具有融合成单拷贝表示的相同但重复的条码)。在图16中示出了每个预期序列读取及其组成组分的示意图。

讨论

图15示出了针对这种方法对四个不同独立样品进行这一分析的结果。这四个样品代表其中使多聚体条码试剂退火的过程进行3小时或过夜(约12小时)的方法。此外,对于这两种条件中的每一种,用按照最初合成保持完整的多聚体条码试剂或者用改进方案进行所述方法,在所述改进方案中首先使条码寡核苷酸变性远离条码分子自身(通过高温解链步骤)。如所示的,每行表示不同的扩增子靶标,并且每个单元格表示四个样品中每一个中发现与每个扩增子相关的独特条码的总数。还列出了每个样品的合计在一起的所有中靶读取在所有靶标中的总比例。

如图所示,所有样品中的大部分读取是中靶的;然而,对于每个扩增子靶标观察到的独特条码分子的数目的范围较大。在不同扩增子之间的这些趋势看来在不同的实验条件之间是一致的,并且可以是由于不同寡核苷酸的不同引发(或错误引发)效率、或不同扩增效率、或不同映射效率,以及独立地或组合作用的其他潜在因素。此外,清楚的是,退火较久的样品观察到的条码数目较大,这可能是由于多聚体试剂与其同源基因组靶标的更完全整体退火。并且此外,其中使条码化寡核苷酸首先与条码分子变性的样品显示出较低的独特条码总数,这可能是由于其中完全组装的条码分子可更有效地使引物簇与同一基因座的附近基因组靶标退火的亲合力效应。在任何情况下,总之,该图说明了多聚体试剂同时在大量分子中标记基因组DNA分子的能力,以及为了实现这一点,条码化寡核苷酸是否保持结合在多聚体条码化试剂上或者其是否已经从其变性并且由此可能能够更容易地在溶液中扩散。

实施例2

用于将来自微粒的序列相联系的材料和方法

所有实验步骤均在污染受控的实验室环境中进行,包括使用标准物理实验室分离(例如PCR前和PCR后实验室)。

用于分离微粒试样的方案

从对象采集标准血液样品(例如总共5至15mL),并使用含EDTA的管通过血液分级方法使用800×G离心10分钟对其进行处理以分离血浆级分。随后小心地分离细胞血浆级分并以800×G离心10分钟以沉淀剩余的完整细胞。随后小心地分离上清液用于进一步处理。随后将上清液在3000×G下离心30分钟以沉淀微粒级分(使用20,000×G下30分钟的高速离心模式来沉淀更高浓度的微粒试样);随后小心地除去所得上清液,并将沉淀重悬于适当的缓冲液中用于之后的处理步骤。从重悬的沉淀获得等分试样并使用其量化重悬的沉淀中DNA的浓度(例如使用标准荧光核酸染色方法,例如PicoGreen,ThermoFisherScientific)。调节试样体积以实现合适的浓度用于后续处理步骤。

用于分配和PCR扩增的方案

在如上分离微粒试样的过程之后,将沉淀重悬于PCR缓冲液中,该缓冲液包含1×PCR缓冲液、PCR聚合酶、dNTP和引物对的组的完全溶液;采用适合于直接PCR的聚合酶和PCR缓冲液。进行该重悬步骤,使得每5微升重悬溶液包含约0.1皮克的来自微粒试样本身的DNA。使用多重化PCR设计算法(例如PrimerPlex;PREMIER Biosoft)设计涵盖一个或更多个基因靶标的5至10个引物对(更大的数目用于更大的扩增子组)的组,以使交叉引发最小化并实现近似相等的所有引物的退火温度;每个扩增子长度锁定在70至120个核苷酸;每个正向引物在其5’端具有恒定的正向衔接子序列,并且每个反向引物在其5’端具有恒定的反向衔接子序列,并且引物以等摩的浓度包含在聚合酶反应中。随后将重悬的样品散布在PCR管组(或384孔板形式中的单独孔)中,每个管/孔中包含5.0微升的反应溶液;当微粒试样中的DNA总量允许时,进行多至384或更多个单独的反应;进行10至15个PCR循环用于随后用条码化寡核苷酸进行条码化;进行22至28个PCR循环用于随后用多聚体条码化试剂进行条码化。

用于用条码化寡核苷酸进行条码化的方案

按照上述PCR扩增的方案,将条码化寡核苷酸添加至每个孔,每个正向条码化寡核苷酸包含在其3’端的正向衔接子序列、在其5’端的正向(读取1)Illumina测序引物序列、以及这二者之间的6个核苷酸的条码序列;使用反向引物,其包含在其5’端的反向(读取2)Illumina扩增序列和在其3’端的反向衔接子序列。对每个孔使用不同的单个条码化寡核苷酸(即包含不同的条码序列)。将PCR反应体积调节至50微升以稀释靶特异性引物,并进行8至12个PCR循环以将条码序列附接至每个管/孔内的序列。使用SPRI清除/尺寸选择步骤(Agencourt Ampure XP,Beckman-Coulter Genomics)纯化来自每个孔的扩增产物,并将来自所有孔的所得纯化产物合并为单一溶液。使用全长Illumina扩增引物(PE PCR引物1.0/2.0)的最终PCR反应进行7至12个循环以将合并的产物扩增至适合于加载到Illumina流动池上的浓度,并且对所得反应物进行SPRI纯化/尺寸选择和定量。

用于用多聚体条码化试剂进行条码化的方案

为了用多聚体条码化试剂附接条码序列,在上述PCR扩增过程之后,用SPRI纯化步骤纯化来自单独孔的PCR扩增产物,并随后将其在单独孔中重悬于1×PCR反应缓冲液(含dNTP)中,不合并或交叉污染来自不同孔的样品。从至少1000万个不同多聚体条码化试剂的文库中,随后将包含约5个多聚体条码化试剂的等分试样添加至每个孔,其中每个多聚体条码化试剂是由10至30个单独条码分子构成的连续多聚体条码分子,每个条码分子包含条码区域,其具有不同于其他条码分子的序列以及与每个条码分子退火的条码化寡核苷酸。每个条码化寡核苷酸包含在其5’端的正向(读取1)Illumina测序引物序列、以及在其3’端的正向衔接子序列(也包含在正向PCR引物中),以及在中间部分内的其条码序列。包含在其5’端的反向(读取2)Illumina扩增序列和在其3’端的反向衔接子序列的反向引物也包含在反应混合物中。热启动聚合酶用于该条码附接反应。聚合酶首先在其活化温度下被活化,并随后通过在正向/反向衔接子退火温度下进行的退火步骤进行5至10个PCR循环以沿着PCR扩增产物使条码化寡核苷酸延伸,并相对于这些引物延伸产物使反向Illumina扩增序列延伸。使用SPRI清除/尺寸选择纯化来自每个孔的所得产物,并将来自所有孔的所得纯化产物合并为单一溶液。使用全长Illumina扩增引物(PE PCR引物1.0/2.0)的最终PCR反应进行7至12个循环以将合并的产物扩增至适合于加载到Illumina流动池上的浓度,并且对所得反应物进行SPRI纯化/尺寸选择和定量。

用于测序和信息性分析的方案

在条码化和扩增方案之后,在Illumina测序仪(例如HiSeq 2500)上对扩增的样品进行定量并测序。在加载之前,将样品与准备好的测序仪的phiX基因组DNA文库组合,使得phiX分子占组合文库的50%至70%最终摩尔分数。随后将组合的样品以推荐的浓度各自加载到流动池的一个或更多个泳道上用于聚类。相对于读取深度对样品进行测序,其中使用配对端2x100测序循环将每个单独的条码化序列平均测序5至10个读取。随后对原始序列进行品质修剪和长度修剪,修剪掉恒定的衔接子/引物序列,并且对来自每个保留的序列读取的基因组DNA序列和条码序列在信息上分离。通过检测附接至同一的条码序列、或附接至来自同一组的条码序列(即来自同一的多聚体条码化试剂)的不同条码序列的基因组DNA序列来确定相联系序列。

用于使用条码化寡核苷酸对基因组DNA片段进行条码化的方案

为了从全血中分离循环微粒,将1.0毫升人全血(用K2EDTA管收集)添加至两个1.5毫升Eppendorf DNA Lo-Bind管的每一个,并在台式微量离心机中以500×G离心5分钟;随后将所得顶部(上清液)层(每管约400微升)添加至新的1.5毫升Eppendorf DNA Lo-Bind管,并再次在台式微量离心机中以500×G离心5分钟;随后将所得顶部(上清液)层(每管约300微升)添加至新的1.5毫升Eppendorf DNA Lo-Bind管,并在台式微量离心机中以3000×G离心15分钟;将所得上清液层完全且小心地吸出,并将每个管中的沉淀重悬于10微升磷酸缓冲盐水(Phosphate-Buffered Saline,PBS)中,并随后将两个10微升重悬的样品合并成单个20微升样品(产生本方法的‘变体A’的样品)。

在所述方法的相关变体(‘变体C’)中,将该原始20微升样品的等分试样转移至新的1.5毫升Eppendorf DNA Lo-Bind管,并在1500×G下离心5分钟,随后将所得沉淀物重悬于PBS中,并如下所述等分到低浓度溶液中。

随后在附接条码化寡核苷酸之前,分配前述20微升样品(和/或来自重悬的‘变体’C样品)内的循环微粒。为了分配每个分区的少量循环微粒,将20微升样品等分到包含较低微粒浓度的溶液中;使用具有不同浓度的8种溶液,第一种是原始(未稀释的)20微升样品,并且随后的7种溶液中的每一种相对于前一溶液具有低2.5倍的微粒浓度(在PBS中)。随后将每种溶液的0.5微升等分试样添加至在200微升PCR管(平盖;来自Axygen)中的H2O中的9.5微升的1.22X‘NEBNext Ultra II端部制备反应缓冲液(NEBNext Ultra II End PrepReaction Buffer)’(New England Biolabs)并轻轻混合。为了使微粒透化,在具有加热盖的热循环仪上将管在65℃下加热30分钟。向每个管添加0.5微升的‘NEBNext Ultra II端部制备酶混合物(NEBNext Ultra II End Prep Enzyme Mix)’并混合,将溶液轻轻混合;将溶液在热循环仪上在20℃下孵育30分钟,并随后在65℃下30分钟。

向每个管添加5.0微升的‘NEBNext Ultra II连接主混合物(NEBNext Ultra IILigation Master Mix)’和0.33微升的0.5×(在H2O中)‘NEBNext连接增强剂(NEBNextLigation Enhancer)’以及0.42微升的0.04×(在0.1×NEBuffer 3中)‘NEBNext衔接子(NEBNext Adapter)’,并将溶液轻轻混合;随后将溶液在具有关闭的加热盖的热循环仪上在20℃下孵育15分钟(或在该方法的‘变体B’中孵育2小时)。向每个管添加0.5微升‘NEBNext USER酶(NEBNext USER Enzyme)’,并将溶液轻轻混合;随后将溶液在具有设定为50℃的加热盖的热循环仪上在20℃下孵育20分钟,在37℃下30分钟,并随后保持在4℃。随后用1.1倍体积的Ampure XP SPRI珠(Agencourt;按照制造商的说明书)纯化每个反应物,并在21.0微升H2O中洗脱。将‘NEBNext衔接子’序列连接至来自分配的循环微粒的基因组DNA片段的该方法提供了将偶联序列附接至所述片段的方法(其中‘NEBNext衔接子’本身,其包含部分双链和部分单链序列,包含所述偶联序列,其中所述附接偶联序列的方法通过连接反应来进行)。在所述方法的后续步骤中,通过退火和延伸方法(通过PCR反应来进行)将条码化寡核苷酸附接至来自分配的循环微粒的基因组DNA片段。

在该方法的‘变体B’中,在上述USER酶步骤之后但在Ampure XP纯化之前,将USER消化的样品添加至50.0微升的‘NEBNext Ultra II Q5主混合物’、以及2.5微升的‘Illumina的通用PCR引物(Universal PCR Primer for Illumina)’、以及2.5微升的特异性‘NEBNext指示引物(NEBNext Index Primer)’[来自NEBNext Multiplex Oligos指示引物组1或指示引物组2]以及28.2微升的H2O,并将溶液轻轻混合,随后在热循环仪中通过5个循环PCR进行扩增,每个循环为:98℃持续20秒,65℃持续3分钟。随后用0.95×体积的Ampure XP SPRI珠(Agencourt;按照制造商的说明书)纯化每个反应物,并在21.0微升H2O中洗脱。

随后将Ampure XP纯化溶液(在所述方法的‘变体B’的在USER消化之后或在初始PCR扩增过程之后)(每个20.0微升)添加至25.0微升的‘NEBNext Ultra II Q5主混合物’、以及2.5微升的‘Illumina的通用PCR引物’、以及2.5微升的特异性‘NEBNext指示引物’,并将溶液轻轻混合,并随后在热循环仪中通过28个(或对于变体B为26个循环)循环PCR进行扩增,每个循环为:98℃持续10秒,65℃持续75秒;单个最终延伸步骤为75℃持续5分钟。随后用0.9X体积的Ampure XP SPRI珠(Agencourt;按照制造商的说明书)纯化每个反应物,并在25.0微升H2O中洗脱。这些PCR步骤将条码序列附接至来自循环微粒的基因组DNA片段的序列,其中条码序列包含在条码化寡核苷酸内(即包含在每个PCR反应中采用的特异性‘NEBNext指示引物’内)。在PCR反应的每个引物结合和延伸步骤中,条码化寡核苷酸与偶联序列(例如‘NEBNext衔接子’内的序列)杂交,并随后用于引发延伸步骤,其中使条码化寡核苷酸的3’端延伸以产生包含条码序列和来自循环微粒的基因组DNA片段的序列的序列。每个PCR反应采用一个条码化寡核苷酸(并且因此一个条码序列),不同的条码序列用于每个不同的PCR反应。因此,来自每个分区中循环微粒的基因组DNA片段的序列附接至单个条码序列,该序列将来自分区的序列组相联系。每个分区中的序列组通过不同的条码序列相联系。

为了产生阴性对照样品,如上文第一段中那样制备单独的20微升循环微粒样品,但是随后分离其中的基因组DNA片段并用Qiagen DNEasy纯化试剂盒(按照Qiagen制造商的说明书使用旋转柱和离心方案)进行纯化,并在50微升H2O中洗脱,并随后通过如上所述的NEBNext端部制备、连接、USER和PCR处理步骤进行处理。该阴性对照样品用于分析测序信号和读出,其中分析了来自非常大量的循环微粒的基因组DNA片段(即其中未进行将来自一个或少量循环微粒的序列相联系)。

在离心和分配循环微粒、并随后附接偶联序列、附接条码序列、以及PCR扩增和纯化的上述步骤之后,随后将包含来自循环微粒的基因组DNA片段的序列的数个条码化文库合并,并用配对端读取(100×50)加单独(正向)指示读取在150循环的中等输出IlluminaNextSeq 500流动池上进行测序(以确定附接有条码化寡核苷酸的条码序列)。通常来说,合并6至12个条码化文库(即每个文库包含相联系序列的一个条码化组)并进行每个流动池测序;每个条码化文库实现了至少数百万次总读取的覆盖。根据指示读取内的条码对序列读取进行去多重化,将来自每个条码化分区的序列通过Bowtie2映射至参考人基因组序列(hg38),并随后将映射的(和重复数据删除的)序列导入到Seqmonk(版本1.39.0)中用于可视化、定量和分析。在典型的代表性分析中,将读取映射到沿着每个人染色体的500Kb的滑动窗口中,并随后对每个这样的窗口的读取总数进行量化和可视化。

这些条码化寡核苷酸方法的关键实验结果示于图25至29中,并在此处进一步详细描述:

图25示出了代表性循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体A’版本)。示出了在每个染色体上平铺的500千碱基(Kb)滑动窗口内人基因组中所有染色体上的序列读取的密度。观察到两个清晰的、独立的(self-contained)读取聚类,分别总共跨越约200Kb和500Kb。值得注意的是,两个读取聚类均位于同一染色体上,并且还来自同一染色体臂(在染色体上14)的附近部分,因而证实了以下怀疑:实际上,多个分子内染色体结构可被包装到单个循环微粒中,因此,从其来源的基因组DNA片段在人脉管系统内循环。

图26还示出了循环微粒内基因组DNA片段的序列的联系,但是如通过附接条码化寡核苷酸的变体方法所产生的(来自实施例方案‘变体B’版本),其中连接的持续时间相对于‘变体A’延长了。再次示出了人基因组中所有染色体上的序列读取的密度,在单个染色体区段内(分别在染色体1和染色体12上)具有清晰的读取聚类。在该实验中采用的分区可能包含两个不同的微粒,在这种情况下,可能每个微粒引起一个读取聚类;或者,单个微粒可能包含来自染色体1和12中的每一个的读取聚类,这将因此示出分子间染色体结构也可包装到单个循环微粒中,其随后通过血液循环。

图27示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体B’版本)。示出了在大的且随后在小的染色体区段内放大的(来自图26的染色体12的读取聚类的)实际的序列读取,以示出这些相联系的读取的集中、高密度特性,并示出以下事实:甚至低至示出紧邻的、非重叠的、核小体定位的片段的水平的读取聚类包含来自单个细胞的独立染色体分子的清晰、连续的序列聚类。

图28示出了循环微粒内基因组DNA片段的序列的联系,如通过附接条码化寡核苷酸的方法所产生的(来自实施例方案的‘变体C’版本)。与变体A和变体B相比,该变体C实验采用低速离心方法来分离与其他两个变体相比不同、更大的循环微粒群体。示出了来自该实验的人基因组中所有染色体上的序列读取的密度,再次在单个染色体区段内观察到清晰的读取聚类。然而,这样的区段在染色体跨度上明显比在其他变体方法中更大(由于与变体A或B相比更大的微粒在变体C内沉淀)。

图29示出了阴性对照实验,其中基因组DNA片段用清除试剂盒(Qiagen DNEasy旋转柱试剂盒)(Qiagen DNEasy Spin Column Kit)纯化(即因此是未相联系的),随后如‘变体A’方案中那样附接至条码化寡核苷酸。正如在给定未相联系的读取的输入样品时所预期的,根本没有观察到读取聚类(相反,确实存在的读取随机且基本均匀地在基因组的所有染色体区域上分散),证实循环微粒包含来自单独染色体内的集中、连续的基因组区域的基因组DNA片段。即使对来自所述对照文库的读取进行进一步的随机采样/子采样,也没有观察到读取聚类。

226页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:两部分式中介探针

相关技术

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类