用于下一代测序的组合物和方法

文档序号:1909399 发布日期:2021-11-30 浏览:16次 >En<

阅读说明:本技术 用于下一代测序的组合物和方法 (Compositions and methods for next generation sequencing ) 是由 理查德·甘特 陈思远 于 2020-02-21 设计创作,主要内容包括:本文提供了使用通用多核苷酸衔接子进行下一代测序的组合物和方法。进一步提供了使用锁定核酸或桥连核酸的通用衔接子。进一步提供了用于延伸通用衔接子的长度缩短的条形码化引物。本文进一步提供了通用衔接子阻断剂。(Provided herein are compositions and methods for next generation sequencing using universal polynucleotide adaptors. Further provided are universal adaptors that use locked nucleic acids or bridged nucleic acids. Further provided are barcoded primers of reduced length for extending universal adaptors. Further provided herein are universal adaptor blockers.)

用于下一代测序的组合物和方法

交叉引用

本申请要求2019年2月25日提交的第62/810,321号美国临时专利申请、2019年10月14日提交的第62/914,904号美国临时专利申请和2019年10月25日提交的第62/926,336号美国临时专利申请的权益,所有这些临时申请均通过引用而整体并入。

背景技术

具有高保真度和低成本的高效化学基因合成在生物技术和医学以及基础生物医学研究中发挥核心作用。从头基因合成是基础生物学研究和生物技术应用的强大工具。尽管已知用于以小规模合成相对较短片段的各种方法,但这些技术往往在可扩展性、自动化、速度、精确度和成本方面却不尽人意。

援引并入

本说明书中所提及的所有出版物、专利和专利申请均通过引用并入本文,其程度犹如具体地且单独地指出每个单独的出版物、专利或专利申请均通过引用而并入。

发明内容

本文提供了用于下一代测序的组合物和方法。

本文提供了多核苷酸,其中所述多核苷酸包含:第一链,其中第一链包含第一末端衔接子区、第一非互补区和第一轭(yoke)区;第二链,其中第二链包含第二末端衔接子区、第二非互补区和第二轭区;其中第一轭区和第二轭区是互补的,其中第一非互补区和第二非互补区不互补,并且其中第一轭区或第二轭区包含至少一个核碱基类似物。本文进一步提供了多核苷酸,其中所述核碱基类似物增加了所述第一轭区与第二轭区的结合的Tm。本文进一步提供了多核苷酸,其中所述核碱基类似物是锁定核酸(LNA)或桥连核酸(BNA)。本文进一步提供了多核苷酸,其中所述互补的第一轭区和第二轭区的长度小于15个碱基。本文进一步提供了多核苷酸,其中所述互补的第一轭区和第二轭区的长度小于10个碱基。本文进一步提供了多核苷酸,其中所述互补的第一轭区和第二轭区的长度小于6个碱基。本文进一步提供了多核苷酸,其中所述衔接子不包含条形码或索引序列。

本文进一步提供了多核苷酸,其中所述多核苷酸包含:双链体样品核酸;连接至所述双链体样品核酸的5’末端的第一多核苷酸;

连接至所述双链体样品核酸的3’末端的第二多核苷酸;其中第一多核苷酸或第二多核苷酸包含:第一链,其包含第一末端衔接子区、第一非互补区和第一轭区;以及第二链,其包含第二末端衔接子区、第二非互补区和第二轭区;其中第一轭区和第二轭区是互补的,其中第一非互补区和第二非互补区不互补,并且其中第一轭区或第二轭区包含至少一个核碱基类似物。本文进一步提供了多核苷酸,其中所述双链体样品核酸是DNA。本文进一步提供了多核苷酸,其中所述双链体样品核酸是基因组DNA。本文进一步提供了多核苷酸,其中所述基因组DNA是人类来源的。本文进一步提供了多核苷酸,其中所述第一多核苷酸或第二多核苷酸包含至少一个条形码。本文进一步提供了多核苷酸,其中所述至少一个条形码的长度为至少8个碱基。本文进一步提供了多核苷酸,其中所述至少一个条形码的长度为至少12个碱基。本文进一步提供了多核苷酸,其中所述至少一个条形码的长度为至少16个碱基。本文进一步提供了多核苷酸,其中所述至少一个条形码的长度为8-12个碱基。本文进一步提供了多核苷酸,其中所述第一多核苷酸包含第一条形码和第二条形码,并且所述第二多核苷酸包含第三条形码和第四条形码。本文进一步提供了多核苷酸,其中所述第一条形码与所述第三条形码具有相同的序列,并且所述第二条形码与所述第四条形码具有相同的序列。本文进一步提供了多核苷酸,其中所述多核苷酸中的每个条形码包含独特的序列。

本文提供了标记样品核酸的方法,其包括:(1)将至少一个多核苷酸与至少一个样品核酸连接以生成衔接子连接的样品核酸,其中所述多核苷酸包含:第一链,其包含第一引物结合区、第一非互补区和第一轭区;以及第二链,其包含第二引物结合区、第二非互补区和第二轭区;其中第一轭区和第二轭区是互补的,并且其中第一非互补区和第二非互补区不互补;(2)使所述至少一个衔接子连接的样品核酸与第一引物和聚合酶接触,其中第一引物包含第三引物结合位点;第四引物结合位点;以及至少一个条形码;其中第三引物结合位点与短于所述至少一个多核苷酸衔接子的长度互补,并且第三引物结合位点与第一引物结合区互补;以及(3)延伸所述多核苷酸以生成至少一个扩增的衔接子连接的样品核酸,其中所述扩增的衔接子连接的样品核酸包含至少一个条形码。本文进一步提供了方法,其中所述引物的长度小于30个碱基。本文进一步提供了方法,其中所述引物的长度小于20个碱基。本文进一步提供了方法,其中所述多核苷酸不包含条形码。本文进一步提供了方法,其中所述引物包含一个条形码。本文进一步提供了方法,其中所述至少一个条形码包含索引序列。本文进一步提供了方法,其中所述至少一个条形码的长度为至少8个碱基。本文进一步提供了方法,其中所述至少一个条形码的长度为至少12个碱基。本文进一步提供了方法,其中所述至少一个条形码的长度为至少16个碱基。本文进一步提供了多核苷酸,其中所述至少一个条形码的长度为8-12个碱基。本文进一步提供了方法,其中所述索引序列在来自相同来源的样品核酸文库中是共同的。本文进一步提供了方法,其中所述至少一个条形码包含独特分子标识符(UMI)。本文进一步提供了方法,其中将两个多核苷酸连接至样品核酸。本文进一步提供了方法,其中将第一多核苷酸连接至所述样品核酸的5’末端,并且将第二多核苷酸连接至所述样品核酸的3’末端。本文进一步提供了方法,其中该方法进一步包括:(4)使至少一个衔接子连接的样品核酸与第二引物和聚合酶接触,其中第二引物包含第五引物结合位点;第六引物结合位点;和至少一个条形码;其中第六引物结合位点与短于所述至少一个多核苷酸的长度互补,并且第五引物结合位点与第二引物结合区互补;以及(5)延伸所述多核苷酸以生成至少一个扩增的衔接子连接的样品核酸,其中所述扩增的衔接子连接的样品核酸包含至少一个条形码。本文进一步提供了方法,其进一步包括对所述衔接子连接的样品核酸进行测序。

本文提供了组合物,其包含:至少三个多核苷酸阻断剂,其中所述至少三个多核苷酸阻断剂被配置为结合衔接子连接的样品核酸的一个或多个区域,其中该衔接子连接的样品核酸包含:第一非互补区、第一索引区、第二非互补区和第一轭区;以及第三非互补区、第二索引区、第四非互补区和第二轭区;其中第一轭区和第二轭区是互补的,并且其中第一非互补区和第二非互补区不互补;以及基因组插入物,其邻近第一轭区和第二轭区,其中至少一个多核苷酸阻断剂与第一轭区或第二轭区不互补,并且包含至少一个核苷酸类似物,该核苷酸类似物被配置为增加所述多核苷酸阻断剂与所述衔接子连接的样品核酸之间的结合。本文进一步提供了组合物,其中至少两个多核苷酸阻断剂与第一轭区或第二轭区不互补,并且各自包含至少一个修饰的核碱基,该修饰的核碱基被配置为增加所述多核苷酸阻断剂与所述衔接子连接的样品核酸之间的结合。本文进一步提供了组合物,其中至少一个索引区包含条形码或独特分子标识符。本文进一步提供了组合物,其中至少一个索引区的长度为5-15个碱基。本文进一步提供了组合物,其中至少一个所述多核苷酸阻断剂包含至少一个通用碱基。本文进一步提供了组合物,其中所述至少一个通用碱基是5-硝基吲哚或2-脱氧肌苷。本文进一步提供了组合物,其中所述至少一个通用碱基被配置为与至少一个索引序列重叠。本文进一步提供了组合物,其中至少两个通用碱基被配置为与至少两个索引序列重叠。本文进一步提供了组合物,其中至少两个所述多核苷酸阻断剂包含至少一个通用碱基,其中所述至少一个通用碱基中的每一个与至少一个索引序列重叠。本文进一步提供了组合物,其中所述重叠的长度为2-10个碱基。本文进一步提供了组合物,其中所述组合物包含不超过四个多核苷酸阻断剂。本文进一步提供了组合物,其中所述多核苷酸阻断剂包含一个或多个锁定核酸(LNA)或一个或多个桥连核酸(BNA)。本文进一步提供了组合物,其中所述多核苷酸阻断剂包含至少5个核苷酸类似物。本文进一步提供了组合物,其中所述多核苷酸阻断剂包含至少10个核苷酸类似物。本文进一步提供了组合物,其中所述多核苷酸阻断剂的Tm为至少78摄氏度。本文进一步提供了组合物,其中所述多核苷酸阻断剂的Tm为至少80摄氏度。本文进一步提供了组合物,其中所述多核苷酸阻断剂的Tm为至少82摄氏度。本文进一步提供了组合物,其中所述多核苷酸阻断剂的Tm为80-90摄氏度。

本文提供了核酸杂交方法,其包括:提供包含多个基因组插入物的衔接子连接的样品核酸文库;在本文提供的组合物的存在下,使所述衔接子连接的样品核酸文库与包含至少5000个多核苷酸探针的探针文库接触;以及使至少一些所述探针与所述基因组插入物杂交。根据权利要求54所述的方法,其中所述样品核酸文库包含至少1百万个独特基因组插入物。本文进一步提供了方法,其中至少一些所述基因组插入物包含人DNA。本文进一步提供了方法,其中该方法进一步包括生成富集的样品核酸文库。本文进一步提供了方法,其中该方法进一步包括对所述富集的样品核酸文库进行测序。本文进一步提供了方法,其中所述样品核酸文库包含被配置用于下一代测序的衔接子。

附图说明

图1A描绘了通用或“短粗(stubby)”衔接子。

图1B描绘了连接至样品核酸的末端的两个通用衔接子。

图1C描绘了用于延伸通用衔接子的条形码化的引物。

图1D描绘了(在延伸/条形码添加之后)连接至样品多核苷酸的末端的两个通用衔接子。

图1E描绘了条形码化的引物,其与通用衔接子结合,以生成条形码化的、衔接子连接的样品多核苷酸。

图1F描绘了条形码化的引物,其与通用衔接子结合,以生成条形码化的、衔接子连接的样品多核苷酸。

图2描绘了在测序之前连接条形码化的衔接子和用探针文库富集样品多核苷酸的示意图。

图3描绘了在测序之前连接通用衔接子、向衔接子添加条形码和用探针文库富集样品多核苷酸的示意图。

图4A描绘了对于标准条形码化的Y衔接子或通用衔接子,衔接子连接的样品多核苷酸的浓度。

图4B描绘了在全基因组测序过程中,标准条形码化的Y衔接子或通用衔接子的AT丢失率。

图5描绘了针对各种样品索引号鉴别的读取的数目,其中将样品索引添加到通用衔接子上。

图6A描述了使用带有条形码的传统Y衔接子、通用衔接子(带有通过PCR添加的条形码)、带有UMI的传统Y衔接子和带有UMI的通用衔接子生成的文库的HS文库大小。

图6B描述了对于使用带有条形码的传统Y衔接子、通用衔接子(带有通过PCR添加的条形码)、带有UMI的传统Y衔接子和带有UMI的通用衔接子生成的文库,在30X读取深度下的目标碱基百分比。

图7描绘了用探针捕获并富集样品多核苷酸。

图8描绘了从簇扩增生成多核苷酸文库的示意图。

图9A描绘了用于靶向和富集的一对多核苷酸。所述多核苷酸包含互补靶标结合(插入)序列以及引物结合位点。

图9B描绘了用于靶向和富集的一对多核苷酸。所述多核苷酸包含互补靶序列结合(插入)序列、引物结合位点和非靶序列。

图10A描绘了多核苷酸与较大多核苷酸的靶序列结合的构型。靶序列比多核苷酸结合区短,并且多核苷酸结合区(或插入序列)相对于靶序列是偏移的,并且还与相邻序列的一部分结合。

图10B描绘了多核苷酸与较大多核苷酸的靶序列结合的构型。靶序列长度小于或等于多核苷酸结合区,并且多核苷酸结合区以靶序列为中心,并且还与相邻序列的一部分结合。

图10C描绘了多核苷酸与较大多核苷酸的靶序列结合的构型。靶序列比多核苷酸结合区略长,并且多核苷酸结合区处于靶序列的中心,在每一侧具有缓冲区。

图10D描绘了多核苷酸与较大多核苷酸的靶序列结合的构型。靶序列比多核苷酸结合区长,并且两个多核苷酸的结合区重叠以跨越靶序列。

图10E描绘了多核苷酸与较大多核苷酸的靶序列结合的构型。靶序列比多核苷酸结合区长,并且两个多核苷酸的结合区重叠以跨越靶序列。

图10F描绘了多核苷酸与较大多核苷酸的靶序列结合的构型。靶序列比多核苷酸结合区长,并且两个多核苷酸的结合区不重叠以跨越靶序列,从而留下缺口405。

图10G描绘了多核苷酸与较大多核苷酸的靶序列结合的构型。靶序列比多核苷酸结合区长,并且三个多核苷酸的结合区重叠以跨越靶序列。

图11呈现了说明如本文所公开的基因合成的示例性处理工作流程的步骤图。

图12示出了计算机系统。

图13是示出计算机系统的架构的框图。

图14是说明网络的示图,该网络被配置用于并入多个计算机系统、多个蜂窝电话和个人数据助理,以及网络附加存储(NAS)。

图15是使用共享虚拟地址存储空间的多处理器计算机系统的框图。

图16是具有256个簇的板的图像,每个簇具有121个座位,多核苷酸从该座位延伸。

图17A是来自从每个簇具有121个多核苷酸的240个簇合成29,040个独特多核苷酸的板上的多核苷酸呈现图(多核苷酸频率相对于丰度,作为测得的吸光度)。

图17B是每个单独簇的多核苷酸频率相对于丰度吸光度(作为测得的吸光度)的测量图,其中对照簇用框表示。

图18是四个单独簇的多核苷酸频率相对于丰度(作为测得的吸光度)的测量图。

图19A是来自从每个簇具有121个多核苷酸的240个簇合成29,040个独特多核苷酸的板上的频率相对于错误率的图示。

图19B是每个单独簇的多核苷酸错误率相对于频率的测量图,其中对照簇用框表示。

图20是四个簇的多核苷酸频率相对于错误率的测量图。

图21是作为多核苷酸数目量度的GC含量相对于每个多核苷酸的百分比的图示。

图22描绘了样品片段化、末端修复、A加尾、连接通用衔接子以及通过PCR扩增向衔接子添加条形码以生成测序文库的示意图。另外的步骤任选地包括富集、额外轮次的扩增和/或测序(未示出)。

图23是通过10个PCR循环扩增的标准全长Y衔接子和通过8个PCR循环扩增的通用衔接子的连接产物的浓度(ng/uL)图。通用衔接子以较少的PCR循环获得较高的连接产物产率。

图24显示了连接产物浓度(通过荧光测量)相对于连接产物大小(bp)的图。两幅图上的箭头指示对应于不包含基因组多核苷酸插入物的衔接子二聚体的峰。通用衔接子(右图)比标准全长Y衔接子(左图)产生更少的衔接子二聚体。

图25A是对于使用包含10bp双索引序列或8bp双索引序列的通用引物进行的最终扩增(96-重),计数相对于未调整的相对测序性能的图。通过对每种设计的完美索引读取的总数进行归一化来计算相对测序性能。10bp双索引引物表现出更紧密的相对性能和更均匀的测序呈现。

图25B是对于使用包含10bp双索引序列或8bp双索引序列的通用引物进行的最终扩增(96-重),计数相对于平均中心相对测序性能的图。通过对每种设计的完美索引读取的总数进行归一化并相对于表现最佳者进行归一化来计算相对测序性能;将每个群体的所得分布以其计算的平均值为中心,以供直接比较。10bp双索引引物表现出更紧密的相对性能和更均匀的测序呈现。

图26是对于使用包含10bp双索引序列或8bp双索引序列的通用引物进行的最终扩增(96-重),相对条形码性能相对于每个条形码序列的图示。

图27A是从通用衔接子生成并作为单一池测序的1,152个UDI引物对的初始筛选组的图示。

图27B是从通用衔接子生成并作为单一池测序的一组384个UDI引物对的图示。

图27C是从通用衔接子生成并独立测序的96个UDI引物对的单个池的图示。

图27D是从通用衔接子生成并独立测序的96个UDI引物对的单个池的图示。

图27E是从通用衔接子生成并独立测序的96个UDI引物对的单个池的图示。

图27F是从通用衔接子生成并独立测序的96个UDI引物对的单个池的图示。

图28A描绘了均匀覆盖(上图)和非均匀覆盖(下图)的图示。

图28B是各种比较物组(比较物A1、比较物A2和比较物D)和文库4A的Fold 80碱基罚分的图示。

图28C描绘了中靶率、近靶率和脱靶率的示意图。

图28D是各种比较物组(比较物A1、比较物A2和比较物D)和文库4A的中靶率的图示。

图28E-28F描绘了各种比较物组(比较物A1、比较物A2和比较物D)和文库4A的重复率的图示。图28E描绘了HS文库大小,图28F描绘了因为在读取中被标记为重复而被过滤掉的比对碱基的分数的百分比。

图29是各种比较物组(比较物A1、比较物A2和比较物D)和文库4A的深度覆盖率的图示。

图30A是向定制组添加或增强内容物的第一示意图。

图30B是向定制组添加或增强内容物的第二示意图。

图30C是比较具有和不具有补充探针的组的均匀度(Fold 80)图示。

图30D是比较具有和不具有补充探针的组的重复率图示。

图30E是比较具有和不具有补充探针的组的中靶率百分比图示。

图30F是比较具有和不具有补充探针的组以及比较物富集试剂盒的靶标覆盖率百分比图示。

图30G是比较具有和不具有补充探针的组以及比较物富集试剂盒的Fold 80碱基罚分图示。

图30H描绘了各组的可调靶标覆盖率图示。

图31A是RefSeq设计的示意图。

图31B-31C描绘了在单独的外显子组的组或添加RefSeq组时的覆盖率下作为目标碱基百分比的深度覆盖率图示。图31B描绘了第一实验,而图31C描绘了第二实验。

图31D-31H描绘了在单重和8-重实验中,对于标准外显子组的组与外显子组的组和RefSeq组的组合,各种富集/捕获测序指标的图示。图31D显示了对于单独的外显子组的组或添加RefSeq组时,作为脱靶百分比的特异性的图示。图31E显示了对于单独的外显子组的组或添加RefSeq组时的均匀度图示。图31F显示了对于单独的外显子组的组或添加RefSeq组时的文库大小图示。图31G显示了对于单独的外显子组的组或添加RefSeq组时的重复率图示。图31H显示了对于单独的外显子组的组或添加RefSeq组时的覆盖率图示。

图32A是在每个定制组中实现30x覆盖率的读取的百分比的图示。

图32B是对于每个定制组,>30X的目标碱基分数的图示。

图32C是每个定制组的均匀度(Fold 80)的图示。

图33A是快速富集工作流程的示意图。

图33B将性能描绘为使用快速杂交和洗涤工作流程以及杂交和洗涤工作流程,在覆盖率下的目标碱基百分比。

图34A是使用纳米球测序的靶标上碱基百分比的图示。

图34B是使用纳米球测序的均匀度图示。

图34C是使用纳米球测序的重复率图示。

图34D是30X或更高覆盖率时的目标碱基图示。

图35A-35E将聚合酶链扩增后的下一代测序文库的单个分子描绘为粗条,其中“顶”链和“底”链的5'和3'端被标出以供定向。图35A-35E的图例在图35A中描绘。具有各种化学修饰和/或设计特征的阻断剂被描绘为更细的阻断剂,其5'和3'端被标出以供定向,并且定位于最靠近它们将要结合的衔接子区域。图35A描绘了一组阻断剂(‘D’、‘J’、‘L’和‘E’)的结合构型,其结合具有单个分子(‘J’和‘L’)的索引内部的所有衔接子区域。图35B描绘了一组阻断剂(‘D’、‘M’、‘N’、‘Q’和‘E’)的结合构型,其以多个阻断剂结合索引内部的衔接子区域。请注意,衔接子的Y-茎退火部分与单个阻断剂成员“N”结合。图35C描绘了一组阻断剂(‘D’、‘M’、‘P’、‘Q’和‘E’)的替代结合构型,其以多个阻断剂结合索引内部的衔接子区域。请注意,衔接子的Y-茎退火部分与单个阻断剂成员“P”结合。图35D描绘了一组阻断剂(‘R’、‘N’和‘S’)的结合构型,其以多个阻断剂结合索引内部的衔接子区域。在这种情况下,索引外部、衔接子索引和索引内部的衔接子序列的结合与每一侧的单个独特分子相互作用。请注意,衔接子的Y-茎退火部分与单个阻断剂成员“N”结合。请注意,使用这样的结合构型只能确定单衔接子索引长度。图35E描绘了一组阻断剂的替代结合构型,其以多个阻断剂结合索引内部的衔接子区域。在这种情况下,索引外部、衔接子索引和索引内部的衔接子序列的结合与每一侧的单个独特分子相互作用。请注意,衔接子的Y-茎退火部分与单个阻断剂成员“P”结合。请注意,使用这样的结合构型只能确定单衔接子索引长度。

图36A-36D将聚合酶链扩增后的下一代测序文库的单个分子描绘为粗条,其中“顶”链和“底”链的5'和3'端被标出以供定向。图36A-36D的图例在图35A中描绘。具有各种化学修饰和/或设计特征的阻断剂被描绘为更细的阻断剂,其5'和3'端被标出以供定向,并且定位于最靠近它们将要结合的衔接子区域。图36A描绘了以期望的构型结合的所有阻断剂。这是一个期望的群体,其导致靶标富集工作流程的最佳性能。图36B描绘了以期望的构型结合的外部阻断剂。这是一个不期望的群体。以不期望的构型与未结合的区域结合的内部阻断剂,这些区域可以募集其他分子,这些其他分子包括其他不期望的分子上的衔接子序列。图36C描绘了在溶液中彼此结合的阻断剂。这是一个不期望的群体。阻断剂相互结合,而不能与它们指定的衔接子区域结合。图36D描绘了在溶液中游离的阻断剂。这是一个中性群体,其对靶标富集工作流程的性能影响最小。

图37A-37G将聚合酶链扩增后的下一代测序文库的单个分子描绘为粗条,其中“顶”链和“底”链的5'和3'端被标出以供定向。图37A-37G的图例在图37A中描绘。具有各种化学修饰和/或设计特征的阻断剂被描绘为更细的阻断剂,其5'和3'端被标出以供定向,并且定位于最靠近它们将要结合的衔接子区域。图37A描绘了为(1)双索引衔接子设计的一组阻断剂,其中(2)所有阻断剂均与单链结合,(3)被设计为结合索引外部区域的阻断剂不延伸至覆盖衔接子索引,并且(4)被设计为结合索引内部衔接子区域的阻断剂不延伸至覆盖衔接子索引。图37B描绘了为(1)双索引衔接子设计的一组阻断剂,其中(2)所有阻断剂均与单链结合,(3)被设计为结合索引外部区域的阻断剂延伸至覆盖衔接子索引,并且(4)被设计为结合索引内部衔接子区域的阻断剂不延伸至覆盖衔接子索引。图37C描绘了为(1)双索引衔接子设计的一组阻断剂,其中(2)所有阻断剂均与单链结合,(3)被设计为结合索引外部区域的阻断剂不延伸至覆盖衔接子索引,并且(4)被设计为结合索引内部衔接子区域的阻断剂延伸至覆盖衔接子索引。图37D描绘了为(1)双索引衔接子设计的一组阻断剂,其中(2)所有阻断剂均与单链结合,(3)被设计为结合索引外部区域的阻断剂延伸至覆盖衔接子索引,并且(4)被设计为结合索引内部衔接子区域的阻断剂延伸至覆盖衔接子索引。图37E描绘了为(1)双索引衔接子设计的一组阻断剂,其中(2)阻断剂与两条链均结合,(3)被设计为结合索引外部区域的阻断剂延伸至覆盖衔接子索引,并且(4)被设计为结合索引内部衔接子区域的阻断剂延伸至覆盖衔接子索引。图37F描绘了为(1)单索引衔接子设计的一组阻断剂,其中(2)所有阻断剂均与单链结合,(3)被设计为结合索引外部区域的阻断剂延伸至覆盖衔接子索引(如果存在),并且(4)被设计为结合索引内部衔接子区域的阻断剂延伸至覆盖衔接子索引(如果存在)。图37G描绘了为(1)双索引衔接子设计的一组阻断剂,其中(2)所有阻断剂均与单链结合,(3)被设计为结合索引外部区域的阻断剂延伸至覆盖衔接子索引,(4)被设计为结合索引内部衔接子区域的阻断剂延伸至覆盖衔接子索引,并且(5)被设计为结合索引内部衔接子区域的阻断剂延伸至覆盖独特分子标识符索引(或者可能定义或未定义的其他多核苷酸序列)。

图38描绘了作为脱饵(off bait)百分比的函数的阻断剂组的性能图示,该阻断剂组覆盖不同数目的索引碱基。

图39A-39C将聚合酶链扩增后的下一代测序文库的单个分子的一条链描绘为粗条,其中“顶”链和“底”链的5'和3'端被标出以供定向。图39A-39C的图例在图39A中描绘。具有各种化学修饰和/或设计特征的阻断剂被描绘为更细的阻断剂,其5'和3'端被标出以供定向,并且定位于最靠近它们将要结合的衔接子区域。在此以针对衔接子的不同结合模式显示了被设计为从两侧覆盖三个衔接子索引碱基的两个阻断剂的不同结合模式。图39A描绘了6bp衔接子索引长度、被突出端覆盖的6个总索引碱基、0个总索引碱基暴露,导致0%总索引碱基暴露。图39B描绘了8bp衔接子索引长度、被突出端覆盖的6个总索引碱基、2个总索引碱基暴露,导致25%总索引碱基暴露。

图39C描绘了10bp衔接子索引长度、被突出端覆盖的6个总索引碱基、4个总索引碱基暴露,导致40%总索引碱基暴露。

图40A-40L将聚合酶链扩增后的下一代测序文库的单个分子的一条链描绘为粗条,其中“顶”链和“底”链的5'和3'端被标出以供定向。图40A-40L的图例在图40A中描绘。具有各种化学修饰和/或设计特征的阻断剂被描绘为更细的阻断剂,其5'和3'端被标出以供定向,并且定位于最靠近它们将要结合的衔接子区域。图40A描绘了用于(1)双索引系统的阻断剂,其被设计为(2)与单链结合,(3)没有用于与衔接子的Y-茎退火部分结合的修饰,并且(4)延伸至覆盖衔接子索引。图40B描绘了用于(1)双索引系统的阻断剂,其被设计为(2)与两条链均结合,(3)没有用于与衔接子的Y-茎退火部分结合的修饰,并且(4)延伸至覆盖衔接子索引。图40C描绘了用于(1)单索引系统的阻断剂,其被设计为(2)与单链结合,(3)没有用于与衔接子的Y-茎退火部分结合的修饰,并且(4)延伸至覆盖衔接子索引。图40D描绘了用于(1)双索引系统的阻断剂,其被设计为(2)与单链结合,(3)没有用于与衔接子的Y-茎退火部分结合的修饰,(4)延伸至覆盖衔接子索引,并且(5)延伸至覆盖独特分子标识符索引。图40E描绘了用于(1)双索引系统的阻断剂,其被设计为(2)与单链结合,(3)具有降低与衔接子的Y-茎退火部分的结合亲和力的修饰,并且(4)延伸至覆盖衔接子索引。图40F描绘了用于(1)双索引系统的阻断剂,其被设计为(2)与两条链均结合,(3)具有降低与衔接子的Y-茎退火部分的结合亲和力的修饰,并且(4)延伸至覆盖衔接子索引。图40G描绘了用于(1)单索引系统的阻断剂,其被设计为(2)与单链结合,(3)具有降低与衔接子的Y-茎退火部分的结合亲和力的修饰,并且(4)延伸至覆盖衔接子索引。图40H描绘了用于(1)双索引系统的阻断剂,其被设计为(2)与单链结合,(3)具有降低与衔接子的Y-茎退火部分的结合亲和力的修饰,(4)延伸至覆盖衔接子索引,并且(5)延伸至覆盖独特分子标识符索引。图40I描绘了用于(1)双索引系统的阻断剂,其被设计为(2)与单链结合,(3)具有与衔接子的Y-茎退火部分结合的单个成员,并且(4)延伸至覆盖衔接子索引。图40J描绘了用于(1)双索引系统的阻断剂,其被设计为(2)与两条链均结合,(3)具有与衔接子的Y-茎退火部分结合的单个成员,并且(4)延伸至覆盖衔接子索引。图40K描绘了用于(1)单索引系统的阻断剂,其被设计为(2)与单链结合,(3)具有与衔接子的Y-茎退火部分结合的单个成员,并且(4)延伸至覆盖衔接子索引。图40L描绘了用于(1)双索引系统的阻断剂,其被设计为(2)与单链结合,(3)具有与衔接子的Y-茎退火部分结合的单个成员,(4)延伸至覆盖衔接子索引,并且(5)延伸至覆盖独特分子标识符索引。

图41描绘了未甲基化的样品(上图)和甲基化的样品(下图)的工作流程。

图42A-42D描绘了针对三种不同大小的标准甲基化组的测序指标的图示。图42A描绘了在30X覆盖率时的碱基百分比的图示。图42B描绘了Fold 80碱基罚分的图示。图42C描绘了脱饵百分比的图示。图42D描绘了重复率的图示。

图43A-43D描绘了针对具有高、中或低严格性的优化的1Mb甲基化组的测序指标图示。图43A描绘了在30X覆盖率时的碱基百分比的图示。图43B描绘了Fold 80碱基罚分的图示。图43C描绘了脱饵百分比的图示。图43D描绘了重复率的图示。

图44A-44D描绘了针对中等严格性的优化的1Mb甲基化组的测序指标图示,该组用于从由低甲基化和高甲基化细胞系生成的gDNA文库中捕获靶标,所述细胞系混合至最终比例为0%、25%、50%、75%和100%甲基化。图44A描绘了在30X覆盖率时的碱基百分比的图示。图44B描绘了Fold 80碱基罚分的图示。图44C描绘了脱饵百分比的图示。图44D描绘了重复率的图示。

图45A-45B描绘了沿临床相关细胞周期蛋白D2基因座中的靶标和单独CpG位点的不同DNA甲基化水平的检测,已知该基因座在某些癌症(例如,乳腺癌)中改变甲基化状态。图45A描绘了在4,268kb至4,276kb的基因组基因座处的甲基化。图45B描绘了在4,275.2kb至4,276.4kb的基因组基因座处的甲基化。

图46A-46D描绘了针对中等严格性的优化的1Mb甲基化组的测序指标图示,该组用于使用亚硫酸氢盐或酶促转化方法捕获靶标。图46A描绘了在30X覆盖率时的碱基百分比的图示。图46B描绘了Fold 80碱基罚分的图示。图46C描绘了脱饵百分比的图示。图46D描绘了重复率的图示。

图47描绘了转化率的箱图,其被测量为在非CpG位点转化的胞嘧啶的分数,对于亚硫酸氢盐和酶促转化方法均>99.5%。

具体实施方式

本文描述了用于下一代测序的组合物和方法,包括多核苷酸衔接子和杂交阻断剂。传统的衔接子通常包含条形码区域,该条形码区域包含与样品索引/来源相关的信息,或独特分子标识符;这样的条形码直接连接至样品核酸。然而,在一些情况下,在生产条形码化衔接子时对高纯度和显著合成开销的要求限制了它们在下一代测序应用中的性能。或者,没有条形码的截短的“通用”(或短粗(stubby))衔接子与样品核酸连接,并在测序前的后期添加条形码文库。在一些情况下,相比于传统的条形码化衔接子,这样的通用衔接子的生产成本更低,并且提供更高的连接效率。在一些情况下,更高的连接效率允许更少的PCR扩增循环,从而导致更低的PCR诱导的扩增错误。在一些情况下,添加到通用衔接子上的条形码文库包含数目更多的条形码,或比典型条形码化衔接子更长的条形码。另外,通用衔接子与众多不同的测序平台兼容。本文进一步提供了包含核碱基类似物的通用衔接子。本文进一步提供了条形码化的引物,其中该引物的通用衔接子结合区的长度小于通用衔接子的长度。本文描述了杂交阻断剂防止不希望的衔接子-衔接子相互作用,以增加富集效率指标。本文进一步描述了具有各种衔接子结合构型的杂交阻断剂。本文进一步描述了鉴定对基因组DNA的甲基化修饰的方法。

定义

贯穿本公开内容,数值特征以范围格式给出。应当理解,范围格式的描述只是为了方便和简明,而不应被解释为对任何实施方案的范围的硬性限制。因此,除非上下文另有明确规定,否则对范围的描述应被认为明确公开了所有可能的子范围以及该范围内精确到下限单位十分之一的各个数值。例如,对诸如从1至6的范围的描述应被认为已经明确公开了诸如从1至3、从1至4、从1至5、从2至4、从2至6、从3至6等子范围,以及该范围内的各个值,例如,1.1、2、2.3、5和5.9。无论范围的宽度如何,这都是适用的。这些中间范围的上限和下限可独立地包括在更小的范围内,并且也被涵盖于本发明之中,但受制于所述范围中的任何被明确排除的限值。除非上下文另有明确规定,否则在所述范围包括限值之一或两者的情况下,排除了这些所包含的限值中的任一个或两者的范围也被包括在本发明中。

本文使用的术语仅用于描述特定实施方案的目的,而非旨在限制任何实施方案。除非上下文另有明确规定,否则如本文所用的单数形式“一个”、“一种”和“该”也意欲包括复数形式。进一步应当理解,术语“包括”和/或“包含”在本说明书中使用时指代所述特征、整数、步骤、操作、元件和/或组分的存在,但不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组分和/或其群体。如本文所用的,术语“和/或”包括一个或多个相关所列项目的任何及所有组合。

除非具体说明或从上下文中可以明显看出,否则如本文所用的,关于数字或数字范围的术语“约”应被理解为表示所述数字及其+/-10%的数字,或者对于范围列出的值,表示低于所列下限的10%至高于所列上限的10%。

如本文所用的,术语“预选序列”、“预限定序列”或“预定序列”可互换使用。这些术语意指在聚合物的合成或装配之前,聚合物的序列是已知的和选定的。具体地,本发明的多个方面主要就核酸分子的制备在本文中进行了描述,寡核苷酸或多核苷酸的序列在核酸分子合成或装配之前是已知的和选定的。

术语“核酸”涵盖双链或三链核酸以及单链分子。在双链或三链核酸中,核酸链不必共同延伸(即,双链核酸不必沿两条链的全长都是双链的)。当提供时,核酸序列以5’至3’的方向列出,除非另有说明。本文所述的方法提供了分离的核酸的生成。本文所述的方法另外提供了分离并纯化的核酸的生成。当提供多核苷酸时,其长度被描述为碱基数并缩写为例如nt(核苷酸)、bp(碱基)、kb(千碱基)、Mb(兆碱基)或Gb(千兆碱基)。

本文提供了用于产生合成的(即从头合成的或化学合成的)多核苷酸的方法和组合物。贯穿全文,术语寡核酸、寡核苷酸(oligonucleotide)、寡核苷酸(oligo)和多核苷酸被定义为同义词。本文所述的合成多核苷酸的文库可包含共同编码一个或多个基因或基因片段的多个多核苷酸。在一些情况下,多核苷酸文库包含编码序列或非编码序列。在一些情况下,多核苷酸文库编码多个cDNA序列。cDNA序列所基于的参考基因序列可含有内含子,而cDNA序列不含内含子。本文所述的多核苷酸可编码来自生物体的基因或基因片段。示例性生物体包括但不限于原核生物(例如,细菌)和真核生物(例如,小鼠、兔、人和非人灵长类动物)。在一些情况下,多核苷酸文库包含一个或多个多核苷酸,所述一个或多个多核苷酸中的每一个编码多个外显子的序列。本文所述的文库内的每个多核苷酸可以编码不同的序列,即,非相同的序列。在一些情况下,本文所述的文库内的每个多核苷酸包含至少一个与该文库内另一个多核苷酸的序列互补的部分。除非另有说明,否则本文所述的多核苷酸序列可包括DNA或RNA。本文所述的多核苷酸文库可包含至少10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、30,000、50,000、100,000、200,000、500,000、1,000,000个或超过1,000,000个多核苷酸。本文所述的多核苷酸文库可具有不超过10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、30,000、50,000、100,000、200,000、500,000个或不超过1,000,000个多核苷酸。本文所述的多核苷酸文库可包含10至500、20至1000、50至2000、100至5000、500至10,000、1,000至5,000、10,000至50,000、100,000至500,000或50,000至1,000,000个多核苷酸。本文所述的多核苷酸文库可包含约370,000、400,000、500,000个或更多个不同的多核苷酸。

通用衔接子

如图1A所示,在一些情况下,本文公开的通用衔接子可包括通用多核苷酸衔接子100,该通用多核苷酸衔接子100包含第一链101a和第二链101b。在一些情况下,第一链101a包含第一引物结合区102a、第一非互补区103a和第一轭区104a。在一些情况下,第二链101b包含第二引物结合区102b、第二非互补区103b和第二轭区104b。在一些情况下,引物(例如,102a/102b)结合区允许多核苷酸衔接子100的PCR扩增。在一些情况下,引物(例如,102a/102b)结合区允许多核苷酸衔接子100的PCR扩增和同时向多核苷酸衔接子添加一个或多个条形码。在一些情况下,第一轭区104a与第二轭区104b互补。在一些情况下,第一非互补区域103a与第二非互补区域103b不互补。在一些情况下,通用衔接子100是Y形或叉形衔接子。在一些情况下,一个或多个轭区包含提高第一轭区与第二轭区之间的Tm的核碱基类似物。如本文所述的引物结合区可以是多核苷酸的末端衔接子区的形式。在一些情况下,通用衔接子包含一个索引序列。在一些情况下,通用衔接子包含一个独特分子标识符。

通用(多核苷酸)衔接子100可以相对于典型的条形码化衔接子(例如,全长“Y衔接子”)缩短。例如,通用衔接子链101a或101b的长度为20-45个碱基。在一些情况下,通用衔接子链的长度为25-40个碱基。在一些情况下,通用衔接子链的长度为30-35个碱基。在一些情况下,通用衔接子链的长度不超过50个碱基,长度不超过45个碱基,长度不超过40个碱基,长度不超过35个碱基,长度不超过30个碱基,或长度不超过25个碱基。在一些情况下,通用衔接子链的长度为约25、27、30、32、34、36、38、40、42、44、46、48、50、52、54、56、58或约60个碱基。在一些情况下,通用衔接子链的长度约为60个碱基对。在一些情况下,通用衔接子链的长度约为58个碱基对。在一些情况下,通用衔接子链的长度约为52个碱基对。在一些情况下,通用衔接子链的长度约为33个碱基对。

可以修饰通用衔接子以促进与样品多核苷酸的连接。例如,5’末端被磷酸化。在一些情况下,通用衔接子包含一个或多个非天然核碱基键,如硫代磷酸酯键。例如,通用衔接子在3’末端碱基和与3’末端碱基相邻的碱基之间包含硫代磷酸酯。在一些情况下,样品多核苷酸包含来自多种来源的核酸,如人、细菌、植物、动物、真菌或病毒来源的DNA或RNA。如图1B所示,在一些情况下,衔接子连接的样品多核苷酸110包含样品多核苷酸(例如样品核酸)(105a/105b),其中衔接子100连接至样品多核苷酸105a/105b的5’和3’端。双链体样品多核苷酸包含第一链(正向)105a和第二链(反向)105b。

通用衔接子可含有任何数目的不同核碱基(DNA、RNA等)、核碱基类似物或非核碱基连接体或间隔区。例如,衔接子包含一个或多个核碱基类似物或增强衔接子的两条链之间的杂交(Tm)的其他基团。在一些情况下,核碱基类似物存在于衔接子的轭区中。核碱基类似物和其他基团包括但不限于锁定核酸(LNA)、双环核酸(BNA)、C5修饰的嘧啶碱基、2'-O-甲基取代的RNA、肽核酸(PNA)、二醇核酸(GNA)、苏糖核酸(TNA)、异种核酸(XNA)、吗啉代骨架修饰的碱基、小沟结合物(MGB)、精胺、G-夹钳或蒽醌(Uaq)帽。在一些情况下,衔接子包含一个或多个选自表1的核碱基类似物。

表1

*R为H或Me。

取决于所需的杂交Tm,通用衔接子可包含任何数目的核碱基类似物(如LNA或BNA)。例如,衔接子包含1至20个核碱基类似物。在一些情况下,衔接子包含1至8个核碱基类似物。在一些情况下,衔接子包含至少1、2、3、4、5、6、7、8、9、10、11、12个或至少12个核碱基类似物。在一些情况下,衔接子包含约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或约16个核碱基类似物。在一些情况下,核碱基类似物的数目被表示为相对于衔接子中总碱基的百分比。例如,衔接子包含至少1%、2%、5%、10%、12%、18%、24%、30%或超过30%的核碱基类似物。在一些情况下,本文所述的衔接子(例如,通用衔接子)包含甲基化的核碱基,如甲基化胞嘧啶。

条形码化的引物

多核苷酸引物可包含限定的序列,如条形码(或索引),如图1C所示。条形码可以附接至通用衔接子上,例如,使用PCR和条形码化的引物113a或113b,以生成条形码、衔接子连接的样品多核苷酸,图1D,108。引物结合位点,如图1C和1D中描绘的通用引物结合位点107a或107b,有助于同时扩增条形码引物文库的所有成员或成员的亚群。在一些情况下,引物结合位点107a或107b包含在下一代测序期间与流动池或其他固体支持物结合的区域。在一些情况下,条形码化的引物包含P5(5’-AATGATACGGCGACCACCGA-3’)或P7(5’-CAAGCAGAAGACGGCATACGAGAT-3’)序列。在一些情况下,引物结合位点112a或112b被配置为结合通用衔接子序列102a或102b,并促进条形码化衔接子的扩增和生成。在一些情况下,条形码化的引物的长度不超过60个碱基。在一些情况下,条形码化的引物的长度不超过55个碱基。在一些情况下,条形码化的引物的长度为50-60个碱基。在一些情况下,条形码化的引物的长度约为60个碱基。在一些情况下,本文所述的条形码包含甲基化的核碱基,如甲基化胞嘧啶。

条形码化的引物包含一个或多个条形码106a或106b,如图1C和1D所示。在一些情况下,通过PCR反应将条形码添加到通用衔接子上。条形码是允许鉴别与条形码关联的多核苷酸的一些特征的核酸序列。在一些情况下,条形码包含索引序列。在一些情况下,索引序列允许鉴定样品或待测序的核酸的独特来源。在测序之后,条形码(或条形码区域)提供用于鉴别与编码区或样品来源相关联的特性的指示。条形码可以被设计为合适的长度,以允许足够程度的鉴别,例如,至少约3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55个或更多个碱基的长度。多个条形码,如约2、3、4、5、6、7、8、9、10个或更多个条形码,可以在同一分子上使用,任选地被非条形码序列分隔开。在一些情况下,多个条形码中的每个条形码与所述多个条形码中的每个其他条形码至少有三个碱基位置如至少约3、4、5、6、7、8、9、10个或更多个位置不同。条形码的使用允许合并和同时处理多个文库,以用于下游应用,如测序(多重)。在一些情况下,使用至少4、8、16、32、48、64、128个或更多512个条形码化的文库。条形码化的引物或衔接子可包含独特分子标识符(UMI)。在一些情况下,此类UMI唯一地标记样品中的所有核酸。在一些情况下,样品中至少60%、70%、80%、90%、95%或超过95%的核酸用UMI标记。在一些情况下,样品中至少85%、90%、95%、97%或至少99%的核酸用独特条形码或UMI标记。在一些情况下,条形码化的引物包含索引序列和一个或多个UMI。UMI允许在可能引入偏差的下游样品处理(例如PCR或富集步骤)之前对初始样品浓度或化学计量学进行内部测量。在一些情况下,UMI包含一个或多个条形码序列。在一些情况下,衔接子连接的样品多核苷酸的每条链(正向与反向)都具有一个或多个独特的条形码。此类条形码任选地用来唯一地标记样品多核苷酸的每条链。在一些情况下,条形码化的引物包含索引条形码和UMI条形码。在一些情况下,在用至少两种条形码化的引物扩增后,所得扩增子包含两个索引序列和两个UMI。在一些情况下,在用至少两种条形码化的引物扩增后,所得扩增子包含两个索引条形码和一个UMI条形码。在一些情况下,通用衔接子-样品多核苷酸双链体的每条链都用独特的条形码如UMI或索引条形码标记。

文库中的条形码化的引物包含与通用衔接子上的引物结合区102a/102b互补的区域112a/112b,如图1E和1F所示。例如,通用衔接子结合区112a与通用衔接子的引物区102a互补,并且通用衔接子结合区112b与通用衔接子的引物区102b互补。这样的布置有利于通用衔接子在PCR过程中的延伸,并附接条形码化的引物(如图1E和1F所示)。在一些情况下,引物与引物结合区之间的Tm为40-65摄氏度。在一些情况下,引物与引物结合区之间的Tm为42-63摄氏度。在一些情况下,引物与引物结合区之间的Tm为50-60摄氏度。在一些情况下,引物与引物结合区之间的Tm为53-62摄氏度。在一些情况下,引物与引物结合区之间的Tm为54-58摄氏度。在一些情况下,引物与引物结合区之间的Tm为40-57摄氏度。在一些情况下,引物与引物结合区之间的Tm为40-50摄氏度。在一些情况下,引物与引物结合区之间的Tm约为40、45、47、50、52、53、55、57、59、61或62摄氏度。

杂交阻断剂

阻断剂可含有任何数目的不同核碱基(DNA、RNA等)、核碱基类似物(非规范的)或非核碱基连接体或间隔区。在一些情况下,阻断剂包括通用阻断剂。在一些情况下,此类阻断剂可被描述为“组”,其中该组包括。在一些情况下,通用阻断剂防止衔接子-衔接子相互作用,而与存在于至少一个衔接子上的一个或多个条形码无关。例如,阻断剂包含一个或多个核碱基类似物或增强阻断剂与衔接子之间的杂交(Tm)的其他基团。在一些情况下,阻断剂包含一个或多个降低阻断剂与衔接子之间的杂交(Tm)的核碱基(例如,“通用”碱基)。在一些情况下,本文所述的阻断剂包含一个或多个增加阻断剂与衔接子之间的杂交(Tm)的核碱基和一个或多个降低阻断剂与衔接子之间的杂交(Tm)的核碱基。

本文描述了杂交阻断剂,其包含一个或多个增强与靶向序列(例如衔接子)的结合的区域和一个或多个降低与靶向序列(例如衔接子)的结合的区域。在一些情况下,在靶标富集应用期间,每个区域都针对给定的期望水平的脱饵活动进行调整。在一些情况下,每个区域可以用单一类型或多种类型的化学修饰/部分来改变,以增加或降低分子对靶向序列的总体亲和力。在一些情况下,阻断剂组的所有个体成员的解链温度都保持在指定温度以上(例如,通过添加诸如LNA和/或BNA等部分)。在一些情况下,给定的一组阻断剂将改善脱饵性能,与索引长度无关,与索引序列无关,也与杂交中存在多少衔接子索引无关。

阻断剂可包含增加和/或降低对靶标测序的亲和力的部分,如衔接子。在一些情况下,此类特定区域可以热力学调整至特定解链温度,以避免或增加对特定靶向序列的亲和力。在一些情况下,这种修饰组合旨在帮助增加阻断剂分子对特定和独特衔接子序列的亲和力,并降低阻断剂分子对重复衔接子序列(例如,衔接子的Y-茎退火部分)的亲和力。在一些情况下,阻断剂包含降低阻断剂与衔接子的Y-茎区的结合的部分。在一些情况下,阻断剂包含降低阻断剂与衔接子的Y-茎区的结合的部分,和增加阻断剂与衔接子的非Y-茎区的结合的部分。

阻断剂(例如,通用阻断剂)和衔接子在杂交过程中可以形成许多不同的群体。在一些情况下,当阻断剂的Y-茎退火区中降低亲和力的DNA修饰的数目增加时,群体“A”和“D”占优势,并且具有所需的(A,图36A)或最小的影响(D,图36D)。在一些情况下,当阻断剂的Y-茎退火区中降低亲和力的DNA修饰的数目减少时,群体“B”和“C”占优势,并且具有不希望的影响,其中可能发生菊花式链接或与其他衔接子的退火(“B”,图36B)或者隔离阻断剂,其中它们不能正常发挥作用(C,图36C)。

单或双索引衔接子设计上的索引可以部分或完全被通用阻断剂覆盖,这些阻断剂已用专门设计的DNA修饰进行延伸,以覆盖衔接子索引碱基。在一些情况下,此类修饰包含降低与索引的退火的部分,如通用碱基。在一些情况下,双索引衔接子的索引被一个或多个阻断剂部分地覆盖(或重叠)。在一些情况下,双索引衔接子的索引被一个或多个阻断剂完全覆盖。在一些情况下,单索引衔接子的索引被一个或多个阻断剂部分地覆盖。在一些情况下,单索引衔接子的索引被一个或多个阻断剂完全覆盖。在一些情况下,阻断剂与索引序列重叠至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20个或超过20个碱基。在一些情况下,阻断剂与索引序列重叠不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20个或不超过25个碱基。在一些情况下,阻断剂与索引序列重叠约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20个或约30个碱基。在一些情况下,阻断剂与索引序列重叠1-5、1-3、2-5、2-8、2-10、3-6、3-10、4-10、4-15、1-4或5-7个碱基。在一些情况下,与索引序列重叠的阻断剂区域包含至少一个2-脱氧肌苷或5-硝基吲哚核碱基。

一个或两个阻断剂可以与衔接子上存在的索引序列重叠。在一些情况下,组合的一个或两个阻断剂与索引序列的至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20个或超过20个碱基重叠。在一些情况下,组合的一个或两个阻断剂与索引序列的不超过1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20个或不超过20个碱基重叠。在一些情况下,组合的一个或两个阻断剂与索引序列的约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20个或约20个碱基重叠。在一些情况下,组合的一个或两个阻断剂与索引序列重叠1-5、1-3、2-5、2-8、2-10、3-6、3-10、4-10、4-15、1-4或5-7个碱基。在一些情况下,与索引序列重叠的阻断剂区域包含至少一个2-脱氧肌苷或5-硝基吲哚核碱基。

在第一种布置中,衔接子索引突出端的长度可以变化。当从单侧设计时,衔接子索引突出端可以改变为从索引的任一侧覆盖0至n个衔接子索引碱基(图37B-37F)。这允许为单(图37F)和双索引衔接子系统(图37B和37C)设计这样的衔接子阻断剂的能力。

在第二种布置中,衔接子索引碱基从两侧覆盖(图37D和37E)。当衔接子索引碱基从两侧覆盖时,可以选择每个阻断剂的覆盖区域的长度,使得一对阻断剂能够与一系列衔接子索引长度相互作用,同时仍覆盖索引碱基总数的很大一部分。以两个设计有覆盖衔接子索引的3bp突出端的阻断剂为例。在6bp、8bp或10bp衔接子索引长度的情况下,这些阻断剂将分别在杂交过程中使Obp、2bp或4bp暴露(图39A-39C)。

在第三种布置中,选择修饰的核碱基以覆盖索引衔接子碱基。目前可商购获得的这些修饰的实例包括简并碱基(即,A、T、C、G的混合碱基)、2’-脱氧肌苷和5-硝基吲哚。

在第四种布置中,具有衔接子索引突出端的阻断剂与下一代测序文库的有义链(即“顶链”)或反义链(即“底链”)结合。

在第五种布置中,阻断剂进一步延伸,从而除了具有定义的长度和组成的标准衔接子索引碱基外,还覆盖其他多核苷酸序列(例如,在先前的生化步骤中添加的聚A尾,以便促进连接或其他方法以引入定义的衔接子序列、测序后生物信息学指定的独特分子标识符等)(图37G)。这些类型的序列可以放置在衔接子的多个位置,在这种情况下,呈现最广泛使用的情况(即,基因组插入物旁边的独特分子索引)。独特分子标识符的其他位置(例如,在衔接子索引碱基旁边)也可以用类似的方法确定。

在第六种布置中,所有先前的布置以各种组合来使用,以满足在指定条件下的靶标富集期间脱饵性能的目标性能指标。在一些情况下,阻断剂包括图35A所示的布置。在一些情况下,阻断剂包括图35B所示的布置。在一些情况下,阻断剂包括图35C所示的布置。在一些情况下,阻断剂包括图35D所示的布置。在一些情况下,阻断剂包括图35E所示的布置。在一些情况下,阻断剂包括图37A所示的布置。在一些情况下,阻断剂包括图37B所示的布置。在一些情况下,阻断剂包括图37C所示的布置。在一些情况下,阻断剂包括图37D所示的布置。在一些情况下,阻断剂包括图37E所示的布置。在一些情况下,阻断剂包括图37F所示的布置。在一些情况下,阻断剂包括图37G所示的布置。在一些情况下,阻断剂包括图39A所示的布置。在一些情况下,阻断剂包括图39B所示的布置。在一些情况下,阻断剂包括图39C所示的布置。在一些情况下,阻断剂包括图40A所示的布置。在一些情况下,阻断剂包括图40B所示的布置。在一些情况下,阻断剂包括图40C所示的布置。在一些情况下,阻断剂包括图40D所示的布置。在一些情况下,阻断剂包括图40E所示的布置。在一些情况下,阻断剂包括图40F所示的布置。在一些情况下,阻断剂包括图40G所示的布置。在一些情况下,阻断剂包括图40H所示的布置。在一些情况下,阻断剂包括图40I所示的布置。在一些情况下,阻断剂包括图40J所示的布置。在一些情况下,阻断剂包括图40K所示的布置。在一些情况下,阻断剂包括图40L所示的布置。

阻断剂可包含诸如核碱基类似物等部分。核碱基类似物和其他基团包括但不限于锁定核酸(LNA)、双环核酸(BNA)、C5修饰的嘧啶碱基、2'-O-甲基取代的RNA、肽核酸(PNA)、二醇核酸(GNA)、苏糖核酸(TNA)、肌苷、2’-脱氧肌苷、3-硝基吡咯、5-硝基吲哚、异种核酸(XNA)、吗啉代骨架修饰的碱基、小沟结合物(MGB)、精胺、G-夹钳或蒽醌(Uaq)帽。在一些情况下,核碱基类似物包括通用碱基,其中核碱基具有较低的与同源核碱基结合的Tm。在一些情况下,通用碱基包括5-硝基吲哚或2’-脱氧肌苷。在一些情况下,阻断剂包含连接两条多核苷酸链的间隔元件。在一些情况下,阻断剂包含一个或多个选自表1的核碱基类似物。在一些情况下,添加这样的核碱基类似物以控制阻断剂的Tm。取决于所需的杂交Tm,阻断剂可包含任何数目的核碱基类似物(如LNA或BNA)。例如,阻断剂包含20至40个核碱基类似物。在一些情况下,阻断剂包含8至16个核碱基类似物。在一些情况下,阻断剂包含至少1、2、3、4、5、6、7、8、9、10、11、12个或至少12个核碱基类似物。在一些情况下,阻断剂包含约1、2、3、4、5、6、7、8、9、10、11、12、13、14、15个或约16个核碱基类似物。在一些情况下,核碱基类似物的数目被表示为阻断剂中总碱基的百分比。例如,阻断剂包含至少1%、2%、5%、10%、12%、18%、24%、30%或超过30%的核碱基类似物。在一些情况下,对于每个核碱基类似物,包含核碱基类似物的阻断剂使Tm升高约2℃至约8℃的范围。在一些情况下,对于每个核碱基类似物,Tm升高至少或大约1℃、2℃、3℃、4℃、5℃、6℃、7℃、8℃、9℃、10℃、12℃、14℃或16℃。在一些情况下,此类阻断剂被配置为与衔接子的顶链或“有义”链结合。在一些情况下,阻断剂被配置为与衔接子的底链或“反义”链结合。在一些情况下,一组阻断剂包括被配置为与衔接子的顶链和底链均结合的序列。在一些情况下,另外的阻断剂被配置为衔接子序列的互补、反向、正向或反向互补序列。在一些情况下,设计并测试一组针对顶链(与顶链结合)或底链(或两者)的阻断剂,随后进行优化,例如将顶部阻断剂替换为底部阻断剂,或将底部阻断剂替换为顶部阻断剂。在一些情况下,阻断剂被配置为与衔接子上的索引或条形码的碱基完全或部分重叠。在一些情况下,一组阻断剂包括至少一个与衔接子索引序列重叠的阻断剂。在一些情况下,一组阻断剂包括至少一个与衔接子索引序列重叠的阻断剂,以及至少一个不与衔接子序列重叠的阻断剂。在一些情况下,一组阻断剂包括至少一个不与轭区序列重叠的阻断剂。在一些情况下,一组阻断剂包括至少一个不与轭区序列重叠的阻断剂和至少一个与轭区序列重叠的阻断剂。在一些情况下,一组阻断剂包括2、3、4、5、6、7、8、9、10个或超过10个阻断剂。

阻断剂可以是任何长度,这取决于衔接子的大小或杂交Tm。例如,阻断剂的长度为20至50个碱基。在一些情况下,阻断剂的长度为25至45个碱基、30至40个碱基、20至40个碱基或30至50个碱基。在一些情况下,阻断剂的长度为25至35个碱基。在一些情况下,阻断剂的长度为至少25、26、27、28、29、30、31、32、33、34个或至少35个碱基。在一些情况下,阻断剂的长度为不超过25、26、27、28、29、30、31、32、33、34个或不超过35个碱基。在一些情况下,阻断剂的长度为约25、26、27、28、29、30、31、32、33、34个或约35个碱基。

在一些情况下,阻断剂的长度为约50个碱基。在一些情况下,靶向衔接子标记的基因组文库片段的一组阻断剂包括超过一种长度的阻断剂。在一些情况下,两个阻断剂与连接体拴系在一起。各种连接体是本领域公知的,并且在一些情况下包含烷基、聚醚基团、胺基团、酰胺基团或其他化学基团。在一些情况下,连接体包含通过骨架如磷酸酯、硫代磷酸酯、酰胺或其他骨架连接在一起(或附接至阻断剂多核苷酸)的单独的连接体单元。在一个示例性布置中,连接体跨越在各自靶向衔接子序列5'端的第一阻断剂与靶向衔接子序列3'端的第二阻断剂之间的索引区。在一些情况下,将加帽基团添加到阻断剂的5'或3'端,以防止下游扩增。加帽基团不同地包含聚醚、多元醇、烷烃或其他防止扩增的不可杂交基团。在一些情况下,此类基团通过磷酸酯、硫代磷酸酯、酰胺或其他骨架连接。在一些情况下,使用一个或多个阻断剂。在一些情况下,使用至少4个非相同的阻断剂。在一些情况下,第一阻断剂跨越衔接子序列的第一3'端,第二阻断剂跨越衔接子序列的第一5'端,第三阻断剂跨越衔接子序列的第二3'端,第四阻断剂跨越衔接子序列的第二5'端。在一些情况下,第一阻断剂的长度为至少20、21、22、23、24、25、26、27、28、29、30、31、32、33、34个或至少35个碱基。在一些情况下,第二阻断剂的长度为至少20、21、22、23、24、25、26、27、28、29、30、31、32、33、34个或至少35个碱基。在一些情况下,第三阻断剂的长度为至少20、21、22、23、24、25、26、27、28、29、30、31、32、33、34个或至少35个碱基。在一些情况下,第四阻断剂的长度为至少20、21、22、23、24、25、26、27、28、29、30、31、32、33、34个或至少35个碱基。在一些情况下,第一阻断剂、第二阻断剂、第三阻断剂或第四阻断剂包含核碱基类似物。在一些情况下,该核碱基类似物是LNA。

阻断剂的设计可能受到与衔接子序列的所需杂交Tm的影响。在一些情况下,将非规范核酸(例如锁定核酸、桥连核酸或其他非规范核酸或类似物)插入阻断剂中以增加或降低阻断剂的Tm。在一些情况下,使用专门计算包含非规范氨基酸的多核苷酸的Tm的工具来计算阻断剂的Tm。在一些情况下,使用Exiqon TM在线预测工具计算Tm。在一些情况下,用计算机计算本文所述的阻断剂Tm。在一些情况下,用计算机计算阻断剂Tm,并与体外实验条件进行关联。不受理论的束缚,经实验确定的Tm可能进一步受诸如盐浓度、温度、添加剂的存在或其他因素等实验参数的影响。在一些情况下,本文所述的Tm是用计算机确定的Tm,其用来设计或优化阻断剂性能。在一些情况下,从解链曲线分析实验预测、估计或确定Tm值。在一些情况下,阻断剂的Tm为70摄氏度至99摄氏度。在一些情况下,阻断剂的Tm为75摄氏度至90摄氏度。在一些情况下,阻断剂的Tm为至少85摄氏度。在一些情况下,阻断剂的Tm为至少70、72、75、77、80、82、85、88、90或至少92摄氏度。在一些情况下,阻断剂的Tm为约70、72、75、77、80、82、85、88、90、92或约95摄氏度。在一些情况下,阻断剂的Tm为78摄氏度至90摄氏度。在一些情况下,阻断剂的Tm为79摄氏度至90摄氏度。在一些情况下,阻断剂的Tm为80摄氏度至90摄氏度。在一些情况下,阻断剂的Tm为81摄氏度至90摄氏度。在一些情况下,阻断剂的Tm为82摄氏度至90摄氏度。在一些情况下,阻断剂的Tm为83摄氏度至90摄氏度。在一些情况下,阻断剂的Tm为84摄氏度至90摄氏度。在一些情况下,一组阻断剂的平均Tm为78摄氏度至90摄氏度。在一些情况下,一组阻断剂的平均Tm为80摄氏度至90摄氏度。在一些情况下,一组阻断剂的平均Tm为至少80摄氏度。在一些情况下,一组阻断剂的平均Tm为至少81摄氏度。在一些情况下,一组阻断剂的平均Tm为至少82摄氏度。在一些情况下,一组阻断剂的平均Tm为至少83摄氏度。在一些情况下,一组阻断剂的平均Tm为至少84摄氏度。在一些情况下,一组阻断剂的平均Tm为至少86摄氏度。在一些情况下,由于本文所述的其他组分,例如使用快速杂交缓冲液和/或杂交增强剂,阻断剂Tm得到改变。

阻断剂与衔接子靶标的摩尔比可影响杂交期间的脱饵(以及随后的脱靶)率。阻断剂与目标衔接子的结合效率越高,所需要的阻断剂就越少。在一些情况下,本文所述的阻断剂以小于20:1(阻断剂:靶标)的摩尔比实现了不超过20%脱靶读取的测序结果。在一些情况下,以小于10:1(阻断剂:靶标)的摩尔比实现了不超过20%的脱靶读取。在一些情况下,以小于5:1(阻断剂:靶标)的摩尔比实现了不超过20%的脱靶读取。在一些情况下,以小于2:1(阻断剂:靶标)的摩尔比实现了不超过20%的脱靶读取。在一些情况下,以小于1.5:1(阻断剂:靶标)的摩尔比实现了不超过20%的脱靶读取。在一些情况下,以小于1.2:1(阻断剂:靶标)的摩尔比实现了不超过20%的脱靶读取。在一些情况下,以小于1.05:1(阻断剂:靶标)的摩尔比实现了不超过20%的脱靶读取。

通用阻断剂可与不同大小的组文库一起使用。在一些实施方案中,组文库包含至少或大约0.01、0.02、0.03、0.04、0.05、0.06、0.07、0.08、0.09、1.0、2.0、4.0、8.0、10.0、12.0、14.0、16.0、18.0、20.0、22.0、24.0、26.0、28.0、30.0、40.0、50.0、60.0或超过60.0兆碱基(Mb)。

如本文所述的阻断剂可改善中靶性能。在一些实施方案中,中靶性能提高了至少或大约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或超过95%。在一些实施方案中,对于各种索引设计,中靶性能提高了至少或大约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%或超过95%。在一些实施方案中,对于各种组大小,中靶性能提高了至少或大约5%、10%、15%、20%、25%、30%、35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%,或提高了超过95%。

测序方法

本文描述了提高测序效率和准确性的方法。此类方法包括使用包含核碱基类似物的通用衔接子,以及在与样品核酸连接后生成条形码化的衔接子。在一些情况下,对样品进行片段化,修复片段末端,将一个或多个腺嘌呤添加到片段双链体的一条链上,连接通用衔接子,并用条形码化的引物扩增片段文库以生成条形码化的核酸文库(图22)。在一些情况下,另外的步骤包括核酸文库的富集/捕获、额外的PCR扩增和/或测序。

在示例性测序工作流程(图2)的第一步,通过机械或酶促剪切对包含样品核酸的样品208进行片段化,以形成片段文库209。将索引化的衔接子215连接至片段化的样品核酸,以形成衔接子连接的样品核酸文库210。然后任选地扩增该文库。文库210然后任选地与同样品核酸211杂交的靶标结合多核苷酸217杂交,并与防止样品核酸217与衔接子215之间杂交的阻断多核苷酸216杂交。样品核酸-靶标结合多核苷酸杂交对212/218的捕获,以及靶标结合多核苷酸217的去除,允许分离/富集样品核酸213,然后任选地对其进行扩增和测序214。

在示例性测序工作流程(图3)的第一步,通过机械或酶促剪切对包含样品核酸的样品208进行片段化,以形成片段文库209。将通用衔接子220连接至片段化的样品核酸,以形成衔接子连接的样品核酸文库221。然后用条形码化引物文库222(为了简单起见仅显示一条引物)扩增该文库,以生成条形码化的衔接子-样品多核苷酸文库223。文库223然后任选地与同样品核酸杂交的靶标结合多核苷酸217以及防止探针多核苷酸217与衔接子220之间杂交的阻断多核苷酸216杂交。样品多核苷酸-靶标结合多核苷酸杂交对212/218的捕获,以及靶标结合多核苷酸217的去除,允许分离/富集样品核酸213,然后任选地对其进行扩增和测序214。可以使用通用衔接子和条形码化的引物的各种组合。在一些情况下,条形码化的引物包含至少一个条形码。在一些情况下,使用衔接子或条形码或两者将不同类型的条形码添加至样品核酸。例如,通用衔接子包含索引条形码,并且在连接后用包含额外的索引条形码的条形码化的引物扩增。在一些情况下,通用衔接子包含独特分子标识符条形码,并且在连接后用包含索引条形码的条形码化的引物扩增。

条形码化的引物可用来采用PCR扩增通用衔接子连接的样品多核苷酸,以生成用于测序的多核苷酸文库。在一些情况下,这样的文库在扩增后包含条形码。在一些情况下,相对于标准Y衔接子连接的样品多核苷酸文库的扩增,使用条形码化的引物的扩增导致更高的扩增产率。在一些情况下,使用2、3、4、5、6、7、8、9、10、11或12个PCR循环来扩增通用衔接子连接的样品多核苷酸文库。在一些情况下,使用不超过2、3、4、5、6、7、8、9、10、11个或不超过12个PCR循环来扩增通用衔接子连接的样品多核苷酸文库。在一些情况下,使用2-12、3-10、4-9、5-8、6-10或8-12个PCR循环来扩增通用衔接子连接的样品多核苷酸文库,从而生成扩增子产物。在一些情况下,此类文库包含较少的基于PCR的错误。不受理论的束缚,扩增期间的PCR循环减少导致所得扩增子产物中的错误更少。扩增后,在一些情况下对此类条形码化的扩增子文库进行富集或进行捕获、额外的扩增反应和/或测序。在一些情况下,使用本文所述通用衔接子生成的扩增子产物包含的错误比从标准全长Y衔接子的扩增生成的扩增子产物少约30%、15%、10%、7%、5%、3%、2%、1.5%、1%、0.5%、0.1%或0.05%。

本文描述了方法,其中使用通用阻断剂来防止捕获探针与连接至基因组片段的衔接子的脱靶结合或衔接子-衔接子杂交。用于防止脱靶杂交的衔接子阻断剂可以靶向部分或整个衔接子。在一些情况下,使用与包括独特索引序列的衔接子的一部分互补的特定阻断剂。在衔接子标记的基因组文库包含大量不同的索引的情况下,设计不靶向索引序列或不与其强烈杂交的阻断剂可能是有益的。例如,“通用”阻断剂靶向不包含索引序列的(不依赖于索引的)衔接子的一部分,这允许使用最少数目的阻断剂,而与所采用的不同索引序列的数目无关。在一些情况下,使用不超过8个通用阻断剂。在一些情况下,使用4个通用阻断剂。在一些情况下,使用3个通用阻断剂。在一些情况下,使用2个通用阻断剂。在一些情况下,使用1个通用阻断剂。在示例性布置中,4个通用阻断剂与包含至少4、8、16、32、64、96或至少128个不同索引序列的衔接子一起使用。在一些情况下,不同的索引序列包含至少或大约4、6、8、10、12、14、16、18、20个或超过20个碱基对(bp)。在一些情况下,通用阻断剂不被配置为与条形码序列结合。在一些情况下,通用阻断剂与条形码序列部分地结合。在一些情况下,与条形码序列部分地结合的通用阻断剂进一步包含核苷酸类似物,如增加与衔接子结合的Tm的核苷酸类似物(例如,LNA或BNA)。

甲基化测序和捕获

甲基化测序涉及酶促或化学方法,其通过以脱氨基达到顶点的一系列事件将未甲基化的胞嘧啶转化为尿嘧啶,同时使甲基化的胞嘧啶保持完整(图41)。在扩增过程中,尿嘧啶与互补链上的腺嘌呤配对,导致在未甲基化的胞嘧啶的原位置包含胸腺嘧啶。在图41中,存在相同的序列,每个序列在不同位置具有未甲基化的胞嘧啶。终产物是不对称的,在转化后产生两种不同的双链DNA分子(顶行,图41);对甲基化的DNA实施相同过程产生另外的序列组(底行,图41)。

靶标富集可以通过捕获前或捕获后转化进行。捕获后转化针对左侧的原始样品DNA,而捕获前转化针对右侧的转化序列的四条链(图41)。虽然捕获后转化面临较少的探针设计挑战,但通常需要大量的起始DNA材料,因为PCR扩增不保留甲基化模式,并且不能在捕获前进行。因此,捕获前转化通常是诸如无细胞DNA等低输入、敏感性应用的首选方法。

本文所述的方法可包括用酶或亚硫酸氢盐处理文库以促进胞嘧啶向尿嘧啶的转化。在一些情况下,本文所述的衔接子(例如,通用衔接子)包含甲基化的核碱基,如甲基化胞嘧啶。

用于扩增反应的小多核苷酸群体的从头合成

本文描述了从表面例如板合成多核苷酸的方法。在一些情况下,在用于多核苷酸延伸的座位簇上合成多核苷酸,将其释放,随后进行扩增反应,例如PCR。从簇合成多核苷酸的示例性工作流程在图8中示出。硅板801包括多个簇803。在每个簇内有多个座位821。在板801上从簇803从头合成807多核苷酸。切割811多核苷酸,并将其从板中移出813,以形成释放的多核苷酸的群体815。然后,将释放的多核苷酸的群体815进行扩增817,以形成扩增的多核苷酸的文库819。

本文提供了方法,其中与没有这种聚簇排列的结构的整个表面上的多核苷酸扩增相比,在簇上合成的多核苷酸的扩增提供了对多核苷酸呈现的增强控制。在一些情况下,从具有用于多核苷酸延伸的聚簇座位排列的表面合成的多核苷酸的扩增导致克服了由于大多核苷酸群体的重复合成而对呈现的负面影响。由于大多核苷酸群体的重复合成而对呈现的示例性负面影响包括但不限于由于高/低GC含量、重复序列、尾随腺嘌呤、二级结构、对靶序列结合的亲和力或多核苷酸序列中修饰的核苷酸而引起的扩增偏差。

与没有聚簇排列的整个板上的多核苷酸扩增相反,簇扩增可导致围绕平均值的更紧密的分布。例如,如果对100,000个读取进行随机采样,则每个序列平均有8个读取将产生分布约为平均值的约1.5X的文库。在一些情况下,单簇扩增导致平均值的最多约1.5X、1.6X、1.7X、1.8X、1.9X或2.0X。在一些情况下,单簇扩增导致平均值的至少约1.0X、1.2X、1.3X、1.5X、1.6X、1.7X、1.8X、1.9X或2.0X。

当与整板扩增相比时,本文所述的簇扩增方法可产生多核苷酸文库,该多核苷酸文库需要较少的测序而获得等同的序列呈现。在一些情况下,需要的测序减少至少10%、至少20%、至少30%、至少40%、至少50%、至少60%、至少70%、至少80%、至少90%或至少95%。在一些情况下,需要的测序减少最多10%、最多20%、最多30%、最多40%、最多50%、最多60%、最多70%、最多80%、最多90%或最多95%。与整板扩增相比,在簇扩增后需要的测序有时少30%。在一些情况下,通过高通量测序,例如通过下一代测序来验证多核苷酸的测序。可以使用任何合适的测序技术进行测序文库的测序,包括但不限于单分子实时(SMRT)测序、聚合酶克隆(polony)测序、连接测序、可逆终止子测序、质子检测测序、离子半导体测序、纳米孔测序、电子测序、焦磷酸测序、Maxam-Gilbert测序、链终止(例如,Sanger)测序、+S测序或合成测序。鉴定或“读取”单个核苷酸或多核苷酸的次数被定义为测序深度或读取深度。在一些情况下,读取深度被称为覆盖倍数,例如55倍(或55X)覆盖率,任选地选择描述碱基的百分比。

在一些情况下,与整板扩增相比,从聚簇排列扩增导致较少的丢失或在扩增产物测序后未检测到的序列。丢失可以是AT和/或GC的丢失。在一些情况下,丢失数最多为多核苷酸群体的约1%、2%、3%、4%或5%。在一些情况下,丢失数为零。

本文所述的簇包含用于多核苷酸合成的离散的、非重叠的座位的集合。簇可包含约50-1000、75-900、100-800、125-700、150-600、200-500或300-400个座位。在一些情况下,每个簇包含121个座位。在一些情况下,每个簇包含约50-500、50-200、100-150个座位。在一些情况下,每个簇包含至少约50、100、150、200、500、1000个或更多个座位。在一些情况下,单个板包括100、500、10000、20000、30000、50000、100000、500000、700000、1000000个或更多个座位。座位可以是斑点、孔、微孔、通道或柱杆。在一些情况下,每个簇具有至少1X、2X、3X、4X、5X、6X、7X、8X、9X、10X或更高丰余度的支持延伸具有相同序列的多核苷酸的单独特征。

具有受控的序列内容物化学计量学的多核苷酸文库的生成

在一些情况下,合成具有所需多核苷酸序列的指定分布的多核苷酸文库。在一些情况下,调节多核苷酸文库以富集特定的所需序列导致改善的下游应用结果。

可以基于它们在下游应用中的评价来选择一个或多个特定序列。在一些情况下,该评价是对靶序列的结合亲和力(用于扩增、富集或检测)、稳定性、解链温度、生物活性、装配成更大片段的能力或多核苷酸的其他性质。在一些情况下,该评价是经验性的,或者是从先前的实验和/或计算机算法预测的。一个示例性应用包括增加探针文库中的序列,所述序列对应于具有小于平均值的读取深度的基因组靶标的区域。

在多核苷酸文库中选择的序列可以是序列的至少10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或超过95%。在一些情况下,在多核苷酸文库中选择的序列是序列的至多10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或至多100%。在一些情况下,选择的序列为约5-95%、10-90%、30-80%、40-75%或50-70%的序列。

可以针对每个选择的序列的频率调节多核苷酸文库。在一些情况下,多核苷酸文库支持更多数目的所选序列。例如,设计文库,其中所选序列的增加的多核苷酸频率在约40%至约90%的范围内。在一些情况下,多核苷酸文库包含少量的所选序列。例如,设计文库,其中所选序列的增加的多核苷酸频率在约10%至约60%的范围内。文库可以被设计为支持较高和较低频率的所选序列。在一些情况下,文库支持均一的序列呈现。例如,就所选择的序列频率而言,多核苷酸频率是均一的,在约10%至约90%的范围内。在一些情况下,文库包含所选序列频率为序列的约10%至约95%的多核苷酸。

在一些情况下,通过将至少两个具有不同的选定序列频率含量的多核苷酸文库组合在一起,生成具有指定的选定序列频率的多核苷酸文库。在一些情况下,将至少2、3、4、5、6、7、10个或超过10个多核苷酸文库组合在一起,以生成具有指定的所选序列频率的多核苷酸群体。在一些情况下,将不超过2、3、4、5、6、7或10个多核苷酸文库组合在一起,以生成具有指定的所选序列频率的非相同多核苷酸群体。

在一些情况下,通过每个簇合成更少或更多的多核苷酸来调节选择的序列频率。例如,在单个簇上合成至少25、50、100、200、300、400、500、600、700、800、900、1000个或超过1000个非相同的多核苷酸。在一些情况下,在单个簇上合成不超过约50、100、200、300、400、500、600、700、800、900、1000个非相同的多核苷酸。在一些情况下,在单个簇上合成50至500个非相同的多核苷酸。在一些情况下,在单个簇上合成100至200个非相同的多核苷酸。在一些情况下,在单个簇上合成约100个、约120个、约125个、约130个、约150个、约175或约200个非相同的多核苷酸。

在一些情况下,通过合成不同长度的非相同多核苷酸来调节选择的序列频率。例如,合成的每个非相同多核苷酸的长度可以是至少或大约至少10、15、20、25、30、35、40、45、50、100、150、200、300、400、500、2000个或更多个核苷酸。合成的非相同多核苷酸的长度可以是至多或大约至多2000、500、400、300、200、150、100、50、45、35、30、25、20、19、18、17、16、15、14、13、12、11、10个或更少的核苷酸。合成的每个非相同多核苷酸的长度可以是10-2000、10-500、9-400、11-300、12-200、13-150、14-100、15-50、16-45、17-40、18-35和19-25。

多核苷酸探针结构

多核苷酸探针的文库可用来富集更大样品多核苷酸群体中的特定靶序列。在一些情况下,多核苷酸探针各自包含与一个或多个靶序列互补的靶标结合序列、一个或多个非靶标结合序列以及一个或多个引物结合位点,如通用引物结合位点。在一些情况下,互补的或至少部分互补的靶标结合序列与靶序列结合(杂交)。引物结合位点,如通用引物结合位点,有助于同时扩增探针文库的所有成员或成员的亚群。在一些情况下,探针或衔接子进一步包含条形码或索引序列。条形码是允许鉴别与条形码关联的多核苷酸的一些特征的核酸序列。在测序之后,条形码区域提供用于鉴别与编码区或样品来源相关联的特性的指示。条形码可以被设计为合适的长度,以允许足够程度的鉴别,例如,至少约3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55个或更多个碱基的长度。多个条形码,如约2、3、4、5、6、7、8、9、10个或更多个条形码,可以在同一分子上使用,任选地被非条形码序列分隔开。在一些情况下,多个条形码中的每个条形码与所述多个条形码中的每个其他条形码至少有三个碱基位置如至少约3、4、5、6、7、8、9、10个或更多个位置不同。条形码的使用允许合并和同时处理多个文库,以用于下游应用,如测序(多重)。在一些情况下,使用至少4、8、16、32、48、64、128、512、1024、2000、5000个或超过5000个条形码化的文库。在一些情况下,将多核苷酸连接至一个或多个分子(或亲和力)标签,如小分子、肽、抗原、金属或蛋白质,以形成用于随后捕获感兴趣的靶序列的探针。在一些情况下,仅多核苷酸的一部分与分子标签连接。在一些情况下,两个探针具有互补的靶标结合序列,它们能够杂交形成双链探针对。多核苷酸探针或衔接子可包含独特分子标识符(UMI)。UMI允许在可能引入偏差的下游样品处理(例如PCR或富集步骤)之前对初始样品浓度或化学计量学进行内部测量。在一些情况下,UMI包含一个或多个条形码序列。

本文所述的探针可以与靶序列互补,所述靶序列是基因组中的序列。本文所述的探针可以与靶序列互补,所述靶序列是基因组中的外显子组序列。本文所述的探针可以与靶序列互补,所述靶序列是基因组中的内含子序列。在一些情况下,探针包含与(样品核酸的)靶序列互补的靶标结合序列,和不与靶标互补的至少一个非靶标结合序列。在一些情况下,探针的靶标结合序列的长度约为120个核苷酸,或者长度为至少10、15、20、25、50、75、100、110、120、125、140、150、160、175、200、300、400、500个或超过500个核苷酸。在一些情况下,靶标结合序列的长度不超过10、15、20、25、50、75、100、125、150、175、200个或不超过500个核苷酸。在一些情况下,探针的靶标结合序列的长度约为120个核苷酸,或者长度约为10、15、20、25、40、50、60、70、80、85、87、90、95、97、100、105、110、115、117、118、119、120、121、122、123、124、125、126、127、128、129、130、135、140、145、150、155、157、158、159、160、161、162、163、164、165、166、167、168、169、170、175、180、190、200、210、220、230、240、250、300、400个或约500个核苷酸。在一些情况下,靶标结合序列的长度为约20个至约400个核苷酸,或者长度为约30个至约175个、约40个至约160个、约50个至约150个、约75个至约130个、约90个至约120个或约100个至约140个核苷酸。在一些情况下,探针的非靶标结合序列的长度为至少约20个核苷酸,或者长度为至少约1、5、10、15、17、20、23、25、50、75、100、110、120、125、140、150、160、175个或超过约175个核苷酸。非靶标结合序列的长度通常不超过约5、10、15、20、25、50、75、100、125、150、175个或不超过约200个核苷酸。探针的非靶标结合序列的长度通常为约20个核苷酸,或者长度约为1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、25、40、50、60、70、80、90、100、110、120、130、140、150或约200个核苷酸。在一些情况下,非靶标结合序列的长度为约1个至约250个核苷酸,或者长度为约20个至约200个、约10个至约100个、约10个至约50个、约30个至约100个、约5个至约40个或约15个至约35个核苷酸。非靶标结合序列通常包含与靶序列不互补的序列,并且/或者包含不用来结合引物的序列。在一些情况下,非靶标结合序列包含单个核苷酸的重复,例如聚腺嘌呤或聚胸苷。探针通常不包含或包含至少一个非靶标结合序列。在一些情况下,探针包含一个或两个非靶标结合序列。非靶标结合序列可以与探针中的一个或多个靶标结合序列相邻。例如,非靶标结合序列位于探针的5'或3'端。在一些情况下,非靶标结合序列附接至分子标签或间隔区。

在一些情况下,非靶标结合序列可以是引物结合位点。引物结合位点的长度通常各自为至少约20个核苷酸,或者长度为至少约10、12、14、16、18、20、22、24、26、28、30、32、34、36、38个或至少约40个核苷酸。在一些情况下,每个引物结合位点的长度不超过约10、12、14、16、18、20、22、24、26、28、30、32、34、36、38个或不超过约40个核苷酸。在一些情况下,每个引物结合位点的长度为约10个至约50个核苷酸,或者长度为约15个至约40个、约20个至约30个、约10个至约40个、约10个至约30个、约30个至约50个或约20个至约60个核苷酸。在一些情况下,多核苷酸探针包含至少两个引物结合位点。在一些情况下,引物结合位点可以是通用引物结合位点,其中所有探针都在这些位点处包含相同的引物结合序列。在一些情况下,靶向特定序列及其反向互补序列(例如,基因组DNA的区域)的一对多核苷酸探针在图9A中用900表示,其包括第一靶标结合序列901、第二靶标结合序列902、第一非靶标结合序列903和第二非靶标结合序列904。例如,一对多核苷酸探针与特定序列(例如,基因组DNA的区域)互补。

在一些情况下,第一靶标结合序列901是第二靶标结合序列902的反向互补序列。在一些情况下,这两个靶标结合序列在扩增之前化学合成。在备选布置中,靶向特定序列及其反向互补序列(例如,基因组DNA的区域)的一对多核苷酸探针在图9B中用905表示,其包括第一靶标结合序列901、第二靶标结合序列902、第一非靶标结合序列903、第二非靶标结合序列904、第三非靶标结合序列906和第四非靶标结合序列907。在一些情况下,第一靶标结合序列901是第二靶标结合序列902的反向互补序列。在一些情况下,一个或多个非靶标结合序列包含聚腺嘌呤或聚胸苷。

在一些情况下,该对中的两个探针都用至少一个分子标签标记。在一些情况下,使用PCR在扩增过程中(通过包含分子标签的引物)向探针上引入分子标签。在一些情况下,该分子标签包含一种或多种生物素、叶酸、聚组氨酸、FLAG标签、谷胱甘肽或其他符合本说明书的分子标签。在一些情况下,探针在5'末端标记。在一些情况下,探针在3'末端标记。在一些情况下,5'和3'末端都用分子标签标记。在一些情况下,一对中的第一探针的5'末端用至少一个分子标签标记,而该对中的第二探针的3'末端用至少一个分子标签标记。在一些情况下,在一个或多个分子标签与探针的核酸之间存在间隔区。在一些情况下,该间隔区可包含烷基、多元醇或聚氨基链、肽或多核苷酸。在一些情况下,用来捕获探针-靶核酸复合物的固体支持物是珠子或表面。在一些情况下,该固体支持物包括玻璃、塑料或其他能够包含将结合分子标签的捕获部分的材料。在一些情况下,珠子是磁珠。例如,用生物素标记的探针用包含链霉亲和素的磁珠捕获。使探针与核酸文库接触,以允许探针与靶序列结合。在一些情况下,添加阻断多核酸,以防止探针与附接至靶核酸的一个或多个衔接子序列结合。在一些情况下,阻断多核酸包含一个或多个核酸类似物。在一些情况下,阻断多核酸在一个或多个位置处具有置换胸腺嘧啶的尿嘧啶。

本文所述的探针可包含与一个或多个靶核酸序列结合的互补靶标结合序列。在一些情况下,靶序列是任何DNA或RNA核酸序列。在一些情况下,靶序列可以比探针插入物更长。在一些情况下,靶序列可以比探针插入物更短。在一些情况下,靶序列可以与探针插入物具有相同的长度。例如,靶序列的长度可以是至少或大约至少2、10、15、20、25、30、35、40、45、50、100、150、200、300、400、500、1000、2000、5,000、12,000、20,000个或更多个核苷酸。靶序列的长度可以是至多或大约至多20,000、12,000、5,000、2,000、1,000、500、400、300、200、150、100、50、45、35、30、25、20、19、18、17、16、15、14、13、12、11、10、2个或更少的核苷酸。靶序列的长度可以是2-20,000、3-12,000、5-5,5000、10-2,000、10-1,000、10-500、9-400、11-300、12-200、13-150、14-100、15-50、16-45、17-40、18-35和19-25。探针序列可以靶向与特定基因、疾病、调节途径或其他符合本说明书的生物学功能相关的序列。

在一些情况下,单个探针插入物1003与较大多核酸1000中的一个或多个靶序列1002(图10A-10G)互补。示例性的靶序列是外显子。

在一些情况下,一个或多个探针靶向单个靶序列(图10A-10G)。在一些情况下,单个探针可以靶向一个以上的靶序列。在一些情况下,探针的靶标结合序列同时靶向靶序列1002和邻近序列1001(图10A和10B)。在一些情况下,第一探针靶向靶序列的第一区域和第二区域,而第二探针靶向靶序列的第二区域和第三区域(图10D和图10E)。在一些情况下,多个探针靶向单个靶序列,其中所述多个探针的靶标结合序列包含一个或多个就与靶序列区域的互补性而言重叠的序列(图10G)。在一些情况下,探针插入物就与靶序列区域的互补性而言不重叠。在一些情况下,至少2、10、15、20、25、30、35、40、45、50、100、150、200、300、400、500、1000、2000、5,000、12,000、20,000个或超过20,000个探针靶向单个靶序列。在一些情况下,针对单个靶序列的不超过4个探针重叠,或者针对单个靶序列的不超过3、2、1或0个探针重叠。在一些情况下,一个或多个探针不靶向靶序列中的所有碱基,留下一个或多个缺口(图10C和图10F)。在一些情况下,这些缺口在靶序列的中间附近1005(图10F)。在一些情况下,缺口1004在靶序列的5'或3'端(图10C)。在一些情况下,缺口的长度为6个核苷酸。在一些情况下,缺口的长度不超过1、2、3、4、5、6、7、8、9、10、20、30、40个或不超过50个核苷酸。在一些情况下,缺口的长度为至少1、2、3、4、5、6、7、8、9、10、20、30、40个或至少50个核苷酸。在一些情况下,缺口长度为1至50、1-40、1-30、1-20、1-10、2-30、2-20、2-10、3-50、3-25、3-10或3-8个核苷酸。在一些情况下,当与互补序列杂交时,靶向序列的一组探针在该组探针之间不包含重叠区域。在一些情况下,当与互补序列杂交时,靶向序列的一组探针在该组探针之间没有任何缺口。可以设计探针以最大化与靶序列的均匀结合。在一些情况下,探针被设计为最小化具有高或低GC含量、二级结构、重复/回文序列或可能干扰探针与靶标结合的其他序列特征的靶标结合序列。在一些情况下,单个探针可以靶向多个靶序列。

本文所述的探针文库可包含至少10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000、100,000、200,000、500,000、1,000,000个或超过1,000,000个探针。探针文库可具有不超过10、20、50、100、200、500、1,000、2,000、5,000、10,000、20,000、50,000、100,000、200,000、500,000个或不超过1,000,000个探针。探针文库可包含10至500、20至1000、50至2000、100至5000、500至10,000、1,000至5,000、10,000至50,000、100,000至500,000或50,000至1,000,000个探针。探针文库可包含约370,000、400,000、500,000个或更多个不同的探针。

下一代测序应用

多核苷酸文库的下游应用可包括下一代测序。例如,用受控的化学计量多核苷酸探针文库富集靶序列导致更有效的测序。可以通过描述效率、准确度和精确度的许多不同指标来定义用于捕获或杂交靶标的多核苷酸文库的性能。例如,Picard指标包括变量,如HS文库大小(文库中与靶区域相对应的独特分子的数目,从读取对计算得出)、平均靶标覆盖率(达到特定覆盖水平的碱基的百分比)、覆盖深度(包括给定核苷酸的读取数)、富集倍数(唯一映射到靶标的序列读取/映射到总样品的读取,乘以样品总长度/靶标长度)、脱饵碱基百分比(不与探针/诱饵的碱基相对应的碱基的百分比)、脱靶百分比(不与目的碱基相对应的碱基的百分比)、靶标上的可用碱基、AT或GC丢失率、Fold 80碱基罚分(使80%的非零靶标升高到平均覆盖水平所需的覆盖倍数)、零覆盖率靶标百分比、PF读取(通过质量过滤器的读取数)、所选碱基的百分比(诱饵上碱基和诱饵附近碱基的总和除以比对碱基总数)、重复百分比或其他符合本说明书的变量。

读取深度(测序深度或采样)代表获得序列的被测序核酸片段(“读取”)的总次数。理论读取深度被定义为相同核苷酸被读取的预期次数,假设读取在整个理想化的基因组中完美分布。读取深度被表示为覆盖百分比(或覆盖宽度)的函数。例如,完美分布的100万个碱基的基因组的1000万个读取在理论上导致100%序列的10X读取深度。在实践中,可能需要更多的读取数(更高的理论读取深度或过采样)才能获得靶序列百分比的所需读取深度。用受控的化学计量探针文库富集靶序列会提高下游测序的效率,因为将需要较少的总读取来获得在所需百分比的靶序列上具有可接受读取数的结果。例如,在一些情况下,靶序列的55x理论读取深度导致至少90%的序列的至少3Ox覆盖率。在一些情况下,靶序列的不超过55x的理论读取深度导致至少80%的序列的至少3Ox读取深度。在一些情况下,靶序列的不超过55x的理论读取深度导致至少95%的序列的至少3Ox读取深度。在一些情况下,靶序列的不超过55x的理论读取深度导致至少98%的序列的至少1Ox读取深度。在一些情况下,靶序列的55x理论读取深度导致至少98%的序列的至少2Ox读取深度。在一些情况下,靶序列的不超过55x的理论读取深度导致至少98%的序列的至少5x读取深度。与靶标杂交期间提高探针的浓度可导致读取深度增加。在一些情况下,探针的浓度增加至少1.5x、2.0x、2.5x、3x、3.5x、4x、5x或超过5x。在一些情况下,提高探针浓度导致读取深度增加至少1000%,或20%、30%、40%、50%、60%、70%、80%、90%、100%、200%、300%、500%、750%、1000%或超过1000%。在一些情况下,将探针浓度提高3倍导致读取深度增加1000%。

中靶率代表与所需靶序列相对应的测序读取的百分比。在一些情况下,受控的化学计量多核苷酸探针文库导致至少30%或至少35%、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%或至少90%的中靶率。在与靶核酸接触期间提高多核苷酸探针的浓度导致中靶率增加。在一些情况下,探针的浓度增加至少1.5x、2.0x、2.5x、3x、3.5x、4x、5x或超过5x。在一些情况下,提高探针浓度导致中靶结合增加至少20%,或10%、20%、30%、40%、50%、60%、70%、80%、90%、100%、200%、300%或至少约500%。在一些情况下,将探针浓度提高3倍导致中靶率增加20%。

在一些情况下,覆盖均匀度被计算为随靶序列同一性而变的读取深度。较高的覆盖均匀度导致获得所需读取深度所需的测序读取次数较少。例如,靶序列的性质可影响读取深度,例如,高或低GC或AT含量、重复序列、尾随腺嘌呤、二级结构、对靶序列结合的亲和力(用于扩增、富集或检测)、稳定性、解链温度、生物活性、装配成更大片段的能力、包含修饰的核苷酸或核苷酸类似物的序列,或多核苷酸的其他任何性质。用受控的化学计量多核苷酸探针文库富集靶序列导致在测序后更高的覆盖均匀度。在一些情况下,95%的序列的读取深度在平均文库读取深度的1x以内,或平均文库读取深度的约0.05、0.1、0.2、0.5、0.7、1、1.2、1.5、1.7或约2x以内。在一些情况下,80%、85%、90%、95%、97%或99%的序列的读取深度在平均值的1x以内。

用多核苷酸探针文库富集靶核酸

可以使用本文所述的探针文库富集存在于样品多核苷酸群体中的靶多核苷酸,以用于多种下游应用。在一些情况下,样品是从一个或多个来源获得的,并且样品多核苷酸群体是分离的。(作为非限制性实例)从生物学来源如唾液、血液、组织、皮肤或完全合成来源获得样品。对从样品获得的多个多核苷酸进行片段化、末端修复和腺苷酸化,以形成双链样品核酸片段。在一些情况下,通过在适当的缓冲液中用一种或多种酶(如T4 DNA聚合酶、klenow酶和T4多核苷酸激酶)处理来完成末端修复。在一些情况下,向促进与衔接子连接的核苷酸突出端添加3’至5’exo-klenow片段和dATP。

可以用连接酶如T4连接酶将衔接子(如通用衔接子)连接至样品多核苷酸片段的两端,以产生衔接子标记的多核苷酸链的文库,并且用引物如通用引物扩增衔接子标记的多核苷酸文库。在一些情况下,该衔接子是Y形衔接子,其包含一个或多个引物结合位点、一个或多个移植区和一个或多个索引(或条形码)区。在一些情况下,所述一个或多个索引区存在于衔接子的每条链上。在一些情况下,移植区与流通池表面互补,并有助于样品文库的下一代测序。在一些情况下,Y形衔接子包含部分互补的序列。在一些情况下,Y形衔接子包含与双链衔接子标记的多核苷酸链的突出腺嘌呤杂交的单胸腺嘧啶突出端。Y形衔接子可包含抗切割的修饰核酸。例如,使用硫代磷酸酯骨架将突出的胸苷附接到衔接子的3'端。如果使用通用引物,则进行文库扩增以将条形码化的引物添加至衔接子。在一些情况下,富集工作流程在图7中描绘。双链衔接子标记的多核苷酸链701的文库700与多核苷酸探针接触702,以形成杂合对704。这样的对与未杂交的片段分离705,并与探针分离706,以产生富集的文库707。

然后在衔接子阻断剂的存在下使双链样品核酸片段的文库变性。衔接子阻断剂最小化探针与存在于衔接子标记的多核苷酸链上的衔接子序列(而不是靶序列)的脱靶杂交,并且/或者防止衔接子的分子间杂交(即“菊花式链接”)。在一些情况下,变性在96℃或约85、87、90、92、95、97、98℃或约99℃下进行。在一些情况下,多核苷酸靶向文库(探针文库)在96℃、约85、87、90、92、95、97、98或99℃下在杂交溶液中变性。将变性的衔接子标记的多核苷酸文库和杂交溶液在合适的温度下孵育合适的时间长度,以使探针与其互补靶序列杂交。在一些情况下,合适的杂交温度为约45至80℃,或至少45、50、55、60、65、70、75、80、85或90℃。在一些情况下,杂交温度为70℃。在一些情况下,合适的杂交时间为16小时,或至少4、6、8、10、12、14、16、18、20、22小时或超过22小时,或约12至20小时。然后将结合缓冲液添加到杂交的衔接子标记的多核苷酸探针中,并且使用包含捕获部分的固体支持物来选择性地结合杂交的衔接子标记的多核苷酸-探针。用缓冲液洗涤固体支持物以除去未结合的多核苷酸,然后加入洗脱缓冲液以从固体支持物上释放出富集的、标记的多核苷酸片段。在一些情况下,将固体支持物洗涤2次,或1、2、3、4、5或6次。扩增衔接子标记的多核苷酸片段的富集文库,并对富集文库进行测序。

可以从样品中获得多种核酸(即基因组序列),并进行片段化,任选地末端修复,并腺苷酸化。将衔接子连接至多核苷酸片段的两端以产生衔接子标记的多核苷酸链的文库,并且扩增该衔接子标记的多核苷酸文库。然后,在衔接子阻断剂的存在下,在高温下,优选在96℃下,使衔接子标记的多核苷酸文库变性。在高温下,优选在约90至99℃下,使多核苷酸靶向文库(探针文库)在杂交溶液中变性,并与变性、标记的多核苷酸文库在杂交溶液中在约45至80℃下混合约10至24小时。然后将结合缓冲液添加到杂交的标记的多核苷酸探针中,并且使用包含捕获部分的固体支持物来选择性地结合杂交的衔接子标记的多核苷酸-探针。用缓冲液洗涤固体支持物一次或多次,优选约2至5次,以除去未结合的多核苷酸,然后加入洗脱缓冲液以从固体支持物上释放出富集的、衔接子标记的多核苷酸片段。扩增衔接子标记的多核苷酸片段的富集文库,然后对该文库进行测序。该方法中还可以使用替代变量,如孵育时间、温度、反应体积/浓度、洗涤次数或其他符合本说明书的变量。

在任何情况下,寡核苷酸的检测或定量分析可通过测序来实现。亚单位或整个合成的寡核苷酸可通过本领域已知的任何合适的方法,例如,Illumina合成测序、PacBio纳米孔测序或BGI/MGI纳米孔测序,包括本文所述的测序方法,经由所有寡核苷酸的完整测序进行检测。

测序可通过本领域公知的经典Sanger测序方法来实现。还可采用高通量系统实现测序,其中一些高通量系统允许对测序的核苷酸在其掺入增长链时或之后立即进行检测,即序列的实时检测或基本实时的检测。在一些情况下,高通量测序每小时生成至少1,000、至少5,000、至少10,000、至少20,000、至少30,000、至少40,000、至少50,000、至少100,000或至少500,000个序列读取结果;其中每次读取每个读取结果为至少50、至少60、至少70、至少80、至少90、至少100、至少120或至少150个碱基。

在一些情况下,高通量测序包括使用可通过Illumina的Genome Analyzer IIX、MiSeq个人测序仪或HiSeq系统获得的技术,如采用HiSeq 2500、HiSeq 1500、HiSeq 2000、HiSeq 1000、iSeq 100、Mini Seq、MiSeq、NextSeq 550、NextSeq 2000、NextSeq 550或NovaSeq 6000的那些。这些机器采用基于可逆终止子的合成测序化学法。这些机器可在13-44小时内生成6000Gb或更多的读取。可采用较小的系统在3、2、1天或更短的时间内运行。可采用短合成循环使获得测序结果的耗时最小化。

在一些情况下,高通量测序包括使用可通过ABI Solid System获得的技术。该遗传分析平台使得能够对连接至珠子的克隆扩增的DNA片段进行大规模平行测序。该测序技术基于与染料标记的寡核苷酸的依次连接。

下一代测序可包括离子半导体测序(例如,采用来自Life Technologies(IonTorrent)的技术)。离子半导体测序可利用当核苷酸掺入DNA的链时离子可被释放这一事实。为进行离子半导体测序,可形成微加工的孔的高密度阵列。每个孔可容纳一个DNA模板。该孔的下方可以是离子敏感层,而离子敏感层的下方可以是离子传感器。当核苷酸被添加至DNA时,可释放H+,这可作为pH的变化而测量。H+离子可转化成电压,并由半导体传感器记录。阵列芯片可依次用一个接一个的核苷酸充溢。可能不需要扫描、光或相机。在一些情况下,使用IONPROTONTM测序仪对核酸进行测序。在一些情况下,使用IONPGMTM测序仪。IonTorrent Personal Genome Machine(PGM)可在两小时内进行1000万次读取。

[0545]

在一些情况下,高通量测序包括使用可通过Helicos BioSciences Corporation(Cambridge,Mass.)获得的技术,例如单分子合成测序(SMSS)方法。SMSS是独特的,因为其允许在至多24小时内对整个人类基因组进行测序。最后,SMS是强大的,因为其像MW技术一样,在杂交前不需要预扩增步骤。实际上,SMSS不需要任何扩增。在公开号为2006002471I、20060024678、20060012793、20060012784和20050100932的美国申请中对SMSS进行了部分描述。

[0546]

在一些情况下,高通量测序包括使用可通过454Lifesciences,Inc.(Branford,Conn.)获得的技术,如Pico Titer Plate装置,该装置包括传输通过测序反应生成的化学发光信号以被仪器中的CCD相机记录的光纤板。光纤的这种使用允许在4.5小时内检测最少2000万个碱基对。

[0547]

先采用珠扩增而后进行光纤检测的方法在Marguiles,M.等人,“Genomesequencing in microfabricated high-density picolitre reactors”,Nature,doi:10.1038/nature03959以及公开号为20020012930、20030058629、20030100102、20030148344、20040248161、20050079510、20050124022和20060078909的美国申请中有所描述。

在一些情况下,高通量测序采用克隆单分子阵列(Clonal Single MoleculeArray,Solexa,Inc.)或利用可逆终止子化学法的合成测序(SBS)来进行。这些技术在美国专利6,969,488、6,897,023、6,833,246、6,787,308和公开号为20040106130、20030064398、20030022207的美国申请以及Constans,A.,The Scientist 2003,17(13):36中有部分描述。寡核苷酸的高通量测序可采用本领域已知的任何合适的测序方法实现,如由PacificBiosciences、Complete Genomics、Genia Technologies、Halcyon Molecular、OxfordNanopore Technologies等商业化的那些方法。其他高通量测序系统包括在Venter,J.等人,Science,2001年2月16日、Adams,M.等人,Science,2000年3月24日和M.J,Levene等人,Science 299:682-686,2003年1月以及公开号为20030044781和2006/0078937的美国申请中公开的系统。总的来说,这类系统包括通过经由聚合反应暂时添加碱基来对具有多个碱基的靶寡核苷酸分子进行测序,这在寡核苷酸分子上测量,即实时跟踪核酸聚合酶对于待测序的模板寡核苷酸分子的活性。然后可通过确定在碱基添加顺序中的每一步,哪个碱基经由核酸聚合酶的催化活性被掺入靶寡核苷酸的增长的互补链中,来推断序列。靶多核苷酸分子复合物上的聚合酶在适合于沿着靶寡核苷酸分子移动并在活性位点延伸寡核苷酸引物的位置提供。在邻近活性位点处提供多种标记类型的核苷酸类似物,其中每个可区分类型的核苷酸类似物与靶寡核苷酸序列中的不同核苷酸互补。通过采用聚合酶将核苷酸类似物添加到寡核苷酸链的活性位点处而延伸增长的寡核苷酸链,其中所添加的核苷酸类似物与靶寡核苷酸在活性位点处的核苷酸互补。对由于聚合步骤而添加至寡核苷酸引物的核苷酸类似物进行鉴别。重复进行提供标记的核苷酸类似物、使增长的寡核苷酸链聚合和鉴别添加的核苷酸类似物的步骤,使得寡核苷酸链进一步延伸且靶寡核苷酸的序列得到确定。

下一代测序技术可包括来自Pacific Biosciences的实时(SMRTTM)技术。在SMRT中,可将四种DNA碱基中的每一种与四种不同的荧光染料之一附接。这些染料可以是磷酸连接的。可将单种DNA聚合酶与模板单链DNA的单分子固定在零模式波导(ZMW)的底部。ZMW可以是约束结构,其使得能够针对可快速扩散进入和离开ZWM(在数微秒内)的荧光核苷酸的背景,观察单个核苷酸被DNA聚合酶的掺入。核苷酸掺入增长链中可耗费数毫秒。在这段时间内,荧光标记物可被激发并产生荧光信号,并且可将荧光标签切除。ZMW可从下方照射。来自激发束的衰减光可透过每个ZMW的下部20-30nm。可创建检测极限为20仄升(10"升)的显微镜。微小的检测体积可提供在背景噪声的降低方面1000倍的改善。对染料的相应荧光的检测可指示掺入了哪种碱基。可重复该过程。

在一些情况下,下一代测序是纳米孔测序(参见,例如,Soni G V和Meller A.(2007)Clin Chem 53:1996-2001)。纳米孔可以是直径为约1纳米数量级的小孔。将纳米孔浸没在导电流体中并横跨该纳米孔施加电势可因离子传导通过纳米孔而产生轻微的电流。流过的电流的量对纳米孔的大小可能是敏感的。当DNA分子穿过纳米孔时,DNA分子上的每个核苷酸均可在不同程度上阻塞纳米孔。因此,当DNA分子穿过纳米孔时经过纳米孔的电流的变化可代表DNA序列的读取。纳米孔测序技术可来自Oxford Nanopore Technologies;例如,GridION系统。可将单个纳米孔插入跨越微孔顶部的聚合物膜中。每个微孔均可具有用于单独感测的电极。可将微孔制作于阵列芯片内,每个芯片具有100,000个或更多个微孔(例如,超过200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000或1,000,000个)。可使用仪器(或节点)对芯片进行分析。可对数据进行实时分析。一次可操作一个或多个仪器。纳米孔可以是蛋白质纳米孔,例如,蛋白α-溶血素——一种七聚体蛋白质孔。纳米孔可以是制成的固态纳米孔,例如,在合成膜(例如,SiNx或SiO2)中形成的纳米尺寸的孔。纳米孔可以是杂合的孔(例如,蛋白质孔整合到固态膜中)。纳米孔可以是具有集成传感器(例如,隧道电极检测器(tunneling electrode detector)、电容式检测器或基于石墨烯的纳米间隙或边缘态检测器(参见,例如,Garaj等人(2010)Nature vol.67,doi:10.1038/nature09379))的纳米孔。可对纳米孔进行功能化以用于分析特定类型的分子(例如,DNA、RNA或蛋白质)。纳米孔测序可包括“链测序”,其中完整的DNA聚合物可穿过蛋白质纳米孔,当DNA使孔移位时实时测序。酶可将双链DNA的链分开,并将链输送通过纳米孔。DNA可在一端具有发夹结构,且系统可读取两条链。在一些情况下,纳米孔测序是“外切核酸酶测序”,其中可通过持续性的外切核酸酶从DNA链上切下单个核苷酸,并且该核苷酸可穿过蛋白质纳米孔。该核苷酸可与孔中的分子(例如,环糊精)瞬时结合。电流的特征性中断可用来鉴别碱基。

可使用来自GENIA的纳米孔测序技术。工程化的蛋白质孔可嵌入脂双层膜中。可使用“主动控制”技术来实现有效的纳米孔-膜组装和对DNA通过通道的移动的控制。在一些情况下,纳米孔测序技术来自NABsys。基因组DNA可被片段化为平均长度约为100kb的链。可将这些100kb片段制成单链,随后与6-聚体探针杂交。可驱使具有探针的基因组片段通过纳米孔,这可产生电流-时间示踪。电流示踪可提供探针在每个基因组片段上的位置。可将基因组片段排列起来,以创建基因组的探针图。可对探针的文库平行地进行该过程。可生成每个探针的基因组长度探针图。可通过称为“移动窗口杂交测序(mwSBH)”的方法修正错误。在一些情况下,纳米孔测序技术来自IBM/Roche。可利用电子束在微芯片中制作纳米孔尺寸的开口。可使用电场将DNA拉过或使其穿过纳米孔。纳米孔中的DNA晶体管装置可包括交替的纳米尺寸的金属和电介质层。DNA骨架中的离散电荷可被DNA纳米孔内的电场捕获。关闭和打开门电压可使得DNA序列被读取。

下一代测序可包括DNA纳米球测序(例如由Complete Genomics所进行的;参见,例如Drmanac等人(2010)Science 327:78-81)。可对DNA进行分离、片段化和大小选择。例如,DNA可被片段化(例如,通过超声处理)为约500bp的平均长度。可将衔接子(Adl)附接至片段的末端。该衔接子可用来与锚杂交,以用于测序反应。可以PCR扩增在每一端上结合有衔接子的DNA。可对衔接子序列进行修饰,使得互补的单链末端彼此结合,从而形成环状DNA。可对该DNA进行甲基化,以保护其免于在后续步骤中使用的IIS型限制酶的切割。衔接子(例如,右侧衔接子)可具有限制性识别位点,并且该限制性识别位点可保持非甲基化。衔接子中的非甲基化的限制性识别位点可被限制酶(例如,Acul)识别,并且该DNA可被Acul在右侧衔接子右侧的13bp处切割,以形成线性双链DNA。可将第二轮的右侧和左侧衔接子(Ad2)连接至该线性DNA的任一端上,并且可以PCR扩增(例如,通过PCR)结合有两个衔接子的所有DNA。可对Ad2序列进行修饰,以使它们彼此结合并形成环状DNA。可对该DNA进行甲基化,但在左侧Adl衔接子上的限制酶识别位点可保持非甲基化。可施加限制酶(例如,Acul),并且该DNA可在Adl左侧的13bp处切割,以形成线性DNA片段。可将第三轮的右侧和左侧衔接子(Ad3)连接至线性DNA的右翼和左翼,并且可对所得的片段进行PCR扩增。可对衔接子进行修饰,使得它们可彼此结合并形成环状DNA。可添加III型限制酶(例如,EcoP15);EcoP15可在Ad3左侧的26bp处和Ad2右侧的26bp处切割DNA。该切割可去除DNA的大区段,并使DNA再次线性化。可将第四轮的右侧和左侧衔接子(Ad4)连接至该DNA,并且可扩增(例如,通过PCR)该DNA并修饰,使得它们彼此结合并形成完整的环状DNA模板。

滚环复制(例如,使用Phi 29DNA聚合酶)可用来扩增DNA的小片段。四个衔接子序列可含有可杂交的回文序列,且单链可折叠到其自身之上,以形成直径平均可为约200-300纳米的DNA纳米球(DNBTM)。DNA纳米球可附接(例如,通过吸附)至微阵列(测序流动池)。该流动池可以是涂覆有二氧化硅、钛和六甲基二硅氮烷(HMDS)以及光致抗蚀剂材料的硅晶片。可以通过将荧光探针连接至DNA,经由非链式测序进行测序。探询位置的荧光的颜色可通过高分辨率相机来可视化。可确定在衔接子序列之间的核苷酸序列的身份。

在衔接子连接之前,可以富集多核苷酸群体。在一个实例中,从样品获得多个多核苷酸,对其进行片段化,任选地末端修复,并在高温下,优选在90-99℃下进行变性。在高温下,优选在约90至99℃下,使多核苷酸靶向文库(探针文库)在杂交溶液中变性,并与变性、标记的多核苷酸文库在杂交溶液中在约45至80℃下混合约10至24小时。然后将结合缓冲液添加到杂交的标记的多核苷酸探针中,并且使用包含捕获部分的固体支持物来选择性地结合杂交的衔接子标记的多核苷酸-探针。用缓冲液洗涤固体支持物一次或多次,优选约2至5次,以除去未结合的多核苷酸,然后加入洗脱缓冲液以从固体支持物上释放出富集的、衔接子标记的多核苷酸片段。然后对富集的多核苷酸片段进行聚腺苷酸化,将衔接子连接至多核苷酸片段的两端以产生衔接子标记的多核苷酸链的文库,并且扩增该衔接子标记的多核苷酸文库。然后对衔接子标记的多核苷酸文库进行测序。

还可以使用多核苷酸靶向文库,通过与不希望的片段杂交,从多个多核苷酸中过滤出不希望的序列。例如,从样品中获得多个多核苷酸,并进行片段化,任选地末端修复,并腺苷酸化。将衔接子连接至多核苷酸片段的两端以产生衔接子标记的多核苷酸链的文库,并且扩增该衔接子标记的多核苷酸文库。或者,在富集样品多核苷酸之后进行腺苷酸化和衔接子连接步骤。然后,在衔接子阻断剂的存在下,在高温下,优选在90-99℃下,使衔接子标记的多核苷酸文库变性。在高温下,优选在约90至99℃下,使旨在去除不希望的非靶序列的多核苷酸过滤文库(探针文库)在杂交溶液中变性,并与变性、标记的多核苷酸文库在杂交溶液中在约45至80℃下混合约10至24小时。然后将结合缓冲液添加到杂交的标记的多核苷酸探针中,并且使用包含捕获部分的固体支持物来选择性地结合杂交的衔接子标记的多核苷酸-探针。固体支持物用缓冲液洗涤一次或多次,优选约1至5次,以洗脱未结合的衔接子标记的多核苷酸片段。扩增未结合的衔接子标记的多核苷酸片段的富集文库,然后对扩增的文库进行测序。

高度平行的从头核酸合成

本文描述了一种平台方法,其利用从多核苷酸合成到硅上纳米孔内基因装配的端到端过程的小型化、平行化及垂直整合来创建革命性的合成平台。本文所述的装置采用与96孔板相同的占地面积(footprint)提供了这样一种硅合成平台,与传统合成方法相比,该硅合成平台能够将通量提高100至1,000倍,其中在单次高度平行化运行中产生高达约1,000,000个多核苷酸。在一些情况下,单个本文所述的硅板提供约6,100个非相同多核苷酸的合成。在一些情况下,每个非相同的多核苷酸位于簇内。簇可包含50至500个非相同的多核苷酸。

本文所述的方法提供了合成各自编码至少一个预定参考核酸序列的预定变体的多核苷酸的文库。在一些情况下,该预定参考序列是编码蛋白质的核酸序列,并且该变体文库包含编码至少单个密码子的变异的序列,使得由合成核酸编码的后续蛋白质中单个残基的多个不同变体通过标准翻译过程生成。核酸序列中合成的特定变化可通过将核苷酸变化并入重叠或平端寡多苷酸引物中来引入。或者,多核苷酸群体可共同编码长核酸(例如,基因)及其变体。在这种布置中,多核苷酸群体可进行杂交并且经历标准分子生物技术以形成长核酸(例如,基因)及其变体。当长核酸(例如,基因)及其变体在细胞中表达时,生成变异蛋白质文库。类似地,此处提供了合成编码RNA序列(例如,miRNA、shRNA和mRNA)或DNA序列(例如,增强子、启动子、UTR和终止子区)的变体文库的方法。此处还提供了使用本文所述方法合成的文库中所选择出的变体的下游应用。下游应用包括鉴定具有增强的生物学相关功能(例如,生物化学亲和力、酶活性、细胞活性变化)和用于治疗或预防疾病状态的变异核酸或蛋白质序列。

基底

本文提供了包含多个簇的基底,其中每个簇包含多个支持多核苷酸附着和合成的座位。如本文所用的术语“座位”是指结构上的离散区域,其提供了对编码单个预定序列的多核苷酸从该表面延伸的支持。在一些情况下,座位在二维表面(例如,基本上为平面的表面)上。在一些情况下,座位是指表面上离散的凸起或凹陷的位点,例如孔、微孔、通道或柱杆。在一些情况下,座位的表面包含这样的材料,该材料被活化官能化,以附着至少一个核苷酸以供多核苷酸合成,或者优选地,附着相同核苷酸的群体以供多核苷酸群体合成。在一些情况下,多核苷酸是指编码相同核酸序列的多核苷酸群体。在一些情况下,装置的表面包括基底的一个或多个表面。

本文提供了可包含表面的结构,该表面支持在共同支持物上的可寻址位置处合成具有不同预定序列的多个多核苷酸。在一些情况下,装置为合成超过2,000、5,000、10,000、20,000、30,000、50,000、75,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,200,000、1,400,000、1,600,000、1,800,000、2,000,000、2,500,000、3,000,000、3,500,000、4,000,000、4,500,000、5,000,000、10,000,000个或更多个非相同的多核苷酸提供支持。在一些情况下,该装置为合成超过2,000、5,000、10,000、20,000、30,000、50,000、75,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,200,000、1,400,000、1,600,000、1,800,000、2,000,000、2,500,000、3,000,000、3,500,000、4,000,000、4,500,000、5,000,000、10,000,000个或更多个编码不同序列的多核苷酸提供支持。在一些情况下,至少一部分多核苷酸具有相同的序列或被配置为用相同的序列合成。

本文提供了用于制备和增长长度约为5、10、20、30、40、50、60、70、80、90、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900或2000个碱基的多核苷酸的方法和装置。在一些情况下,所形成的多核苷酸的长度约为5、10、20、30、40、50、60、70、80、90、100、125、150、175、200或225个碱基。多核苷酸的长度可以是至少5、10、20、30、40、50、60、70、80、90或100个碱基。多核苷酸的长度可以是10至225个碱基、12至100个碱基、20至150个碱基、20至130个碱基或30至100个碱基。

在一些情况下,多核苷酸在基底的不同座位上合成,其中每个座位支持合成多核苷酸群体。在一些情况下,每个座位支持合成与在另一座位上增长的多核苷酸群体具有不同序列的多核苷酸群体。在一些情况下,装置的座位位于多个簇内。在一些情况下,装置包含至少10、500、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、11000、12000、13000、14000、15000、20000、30000、40000、50000个或更多个簇。在一些情况下,装置包含超过2,000、5,000、10,000、100,000、200,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,100,000、1,200,000、1,300,000、1,400,000、1,500,000、1,600,000、1,700,000、1,800,000、1,900,000、2,000,000、300,000、400,000、500,000、600,000、700,000、800,000、900,000、1,000,000、1,200,000、1,400,000、1,600,000、1,800,000、2,000,000、2,500,000、3,000,000、3,500,000、4,000,000、4,500,000、5,000,000或10,000,000个或更多个不同的座位。在一些情况下,装置包含约10,000个不同的座位。单簇内的座位的量在不同情况下是不同的。在一些情况下,每个簇包含1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、120、130、150、200、300、400、500、1000个或更多个座位。在一些情况下,每个簇包含约50-500个座位。在一些情况下,每个簇包含约100-200个座位。在一些情况下,每个簇包含约100-150个座位。在一些情况下,每个簇包含约109、121、130或137个座位。在一些情况下,每个簇包含约19、20、61、64个或更多个座位。

在装置上合成的不同多核苷酸的数目可取决于基底中可用的不同座位的数目。在一些情况下,装置的簇内的座位密度为至少或大约1个座位/mm2、10个座位/mm2、25个座位/mm2、50个座位/mm2、65个座位/mm2、75个座位/mm2、100个座位/mm2、130个座位/mm2、150个座位/mm2、175个座位/mm2、200个座位/mm2、300个座位/mm2、400个座位/mm2、500个座位/mm2、1,000个座位/mm2或更高。在一些情况下,装置包含约10个座位/mm2至约500mm2、约25个座位/mm2至约400个座位/mm2、约50个座位/mm2至约500个座位/mm2、约100个座位/mm2至约500个座位/mm2、约150个座位/mm2至约500个座位/mm2、约10个座位/mm2至约250个座位/mm2、约50个座位/mm2至约250个座位/mm2、约10个座位/mm2至约200个座位/mm2或约50个座位/mm2至约200个座位/mm2。在一些情况下,簇内两个相邻座位中心的距离为约10um至约500um、约10um至约200um或约10um至约100um。在一些情况下,相邻座位的两个中心的距离为大于约10um、20um、30um、40um、50um、60um、70um、80um、90um或100um。在一些情况下,两个相邻座位的中心的距离为小于约200um、150um、100um、80um、70um、60um、50um、40um、30um、20um或10um。在一些情况下,每个座位的宽度约为0.5um、1um、2um、3um、4um、5um、6um、7um、8um、9um、10um、20um、30um、40um、50um、60um、70um、80um、90um或100um。在一些情况下,每个座位的宽度为约0.5um至100um、约0.5um至50um、约10um至75um或约0.5um至50um。

在一些情况下,装置内的簇的密度是至少或大约1个簇/100mm2、1个簇/10mm2、1个簇/5mm2、1个簇/4mm2、1个簇/3mm2、1个簇/2mm2、1个簇/1mm2、2个簇/1mm2、3个簇/1mm2、4个簇/1mm2、5个簇/1mm2、10个簇/1mm2、50个簇/1mm2或更高。在一些情况下,装置包含约1个簇/10mm2至约10个簇/1mm2。在一些情况下,两个相邻簇的中心的距离小于约50um、100um、200um、500um、1000um或2000um或5000um。在一些情况下,两个相邻簇的中心的距离为约50um至约100um、约50um至约200um、约50um至约300um、约50um至约500um和约100um至约2000um。在一些情况下,两个相邻簇的中心的距离为约0.05mm至约50mm、约0.05mm至约10mm、约0.05mm至约5mm、约0.05mm至约4mm、约0.05mm至约3mm、约0.05mm至约2mm、约0.1mm至10mm、约0.2mm至10mm、约0.3mm至约10mm、约0.4mm至约10mm、约0.5mm至10mm、约0.5mm至约5mm或约0.5mm至约2mm。在一些情况下,每个簇沿一个维度具有约0.5至2mm、约0.5至1mm或约1至2mm的直径或宽度。在一些情况下,每个簇沿一个维度具有约0.5、0.6、0.7、0.8、0.9、1、1.1、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9或2mm的直径或宽度。在一些情况下,每个簇沿一个维度具有约0.5、0.6、0.7、0.8、0.9、1、1.1、1.15、1.2、1.3、1.4、1.5、1.6、1.7、1.8、1.9或2mm的内径或宽度。

装置可以是大约标准96孔板的大小,例如约100至200mm乘以约50至150mm。在一些情况下,装置的直径小于或等于约1000mm、500mm、450mm、400mm、300mm、250nm、200mm、150mm、100mm或50mm。在一些情况下,装置的直径为约25mm至1000mm、约25mm至约800mm、约25mm至约600mm、约25mm至约500mm、约25mm至约400mm、约25mm至约300mm或约25mm至约200mm。装置大小的非限制性实例包括约300mm、200mm、150mm、130mm、100mm、76mm、51mm和25mm。在一些情况下,装置的平面表面积为至少约100mm2、200mm2、500mm2、1,000mm2、2,000mm2、5,000mm2、10,000mm2、12,000mm2、15,000mm2、20,000mm2、30,000mm2、40,000mm2、50,000mm2或更大。在一些情况下,装置的厚度为约50mm至约2000mm、约50mm至约1000mm、约100mm至约1000mm、约200mm至约1000mm或约250mm至约1000mm。装置厚度的非限制性实例包括275mm、375mm、525mm、625mm、675mm、725mm、775mm和925mm。在一些情况下,装置的厚度随直径而变化,并取决于基底的组成。例如,包含硅之外的材料的装置具有与相同直径的硅装置不同的厚度。装置厚度可以取决于所用材料的机械强度,并且该装置必须厚到足以在操作过程中支撑其自身重量而不会破裂。在一些情况下,结构包含多个本文所述的装置。

表面材料

本文提供了包含表面的装置,其中该表面被修饰用于支持在预定位置处的多核苷酸合成,并且具有低错误率、低丢失率、高产率和高寡核苷酸呈现。在一些情况下,本文提供的用于多核苷酸合成的装置的表面由能够被修饰以支持从头多核苷酸合成反应的多种材料制成。在一些情况下,该装置具有足够的导电性,例如,能够跨整个装置或其一部分形成均匀的电场。本文所述的装置可包含柔性材料。示例性柔性材料包括但不限于改性尼龙、未改性的尼龙、硝酸纤维素和聚丙烯。本文所述的装置可包含刚性材料。示例性刚性材料包括但不限于玻璃、熔融石英、硅、二氧化硅、氮化硅、塑料(例如聚四氟乙烯、聚丙烯、聚苯乙烯、聚碳酸酯,及其掺合物)和金属(例如,金、铂)。本文公开的装置可由包含硅、聚苯乙烯、琼脂糖、葡聚糖、纤维素聚合物、聚丙烯酰胺、聚二甲基硅氧烷(PDMS)、玻璃或其任意组合的材料制成。在一些情况下,本文公开的装置使用本文所列材料或本领域中已知的其他任何适当材料的组合制成。

本文所述示例性材料的拉伸强度的列表提供如下:尼龙(70MPa)、硝酸纤维素(1.5MPa)、聚丙烯(40MPa)、硅(268MPa)、聚苯乙烯(40MPa)、琼脂糖(1-10MPa)、聚丙烯酰胺(1-10MPa)、聚二甲基硅氧烷(PDMS)(3.9-10.8MPa)。本文所述的固体支持物的拉伸强度可以是1至300、1至40、1至10、1至5或3至11MPa。本文所述的固体支持物的拉伸强度可以是约1、1.5、2、3、4、5、6、7、8、9、10、11、20、25、40、50、60、70、80、90、100、150、200、250、270MPa或更大。在一些情况下,本文所述的装置包含用于多核苷酸合成的固体支持物,其为能够储存在连续环或卷轴中的柔性材料如带或柔性片的形式。

杨氏模量衡量材料对弹性(可恢复的)载荷变形的抵抗力。本文所述示例性材料的刚度的杨氏模量列表提供如下:尼龙(3GPa)、硝酸纤维素(1.5GPa)、聚丙烯(2GPa)、硅(150GPa)、聚苯乙烯(3GPa)、琼脂糖(1-10GPa)、聚丙烯酰胺(1-10GPa)、聚二甲基硅氧烷(PDMS)(1-10GPa)。本文所述的固体支持物的杨氏模量可以是1至500、1至40、1至10、1至5或3至11GPa。本文所述的固体支持物的杨氏模量可以是约1、1.5、2、3、4、5、6、7、8、9、10、11、20、25、40、50、60、70、80、90、100、150、200、250、400、500GPa或更大。由于柔性与刚度之间的关系为彼此相反,因此柔性材料具有低杨氏模量并且在负载下其形状显著改变。

在一些情况下,本文公开的装置包含二氧化硅基质和氧化硅表面层。或者,该装置可以具有氧化硅基质。本文提供的装置的表面可以是纹理化的,导致用于多核苷酸合成的总表面积增加。本文公开的装置可包含至少5%、10%、25%、50%、80%、90%、95%或99%的硅。本文公开的装置可以由绝缘体上硅(SOI)晶片制成。

表面架构

本文提供了包含凸起和/或凹陷特征的装置。具有这类特征的一个益处是用来支持多核苷酸合成的表面积增大。在一些情况下,具有凸起和/或凹陷特征的装置被称为三维基底。在一些情况下,三维装置包含一个或多个通道。在一些情况下,一个或多个座位包含通道。在一些情况下,通道可通过沉积装置如多核苷酸合成仪进行试剂沉积。在一些情况下,试剂和/或流体收集在与一个或多个通道流体连通的较大的孔中。例如,装置包含与具有簇的多个座位相对应的多个通道,并且所述多个通道与该簇的一个孔流体连通。在一些方法中,多核苷酸文库在簇的多个座位中合成。

在一些情况下,该结构被配制为允许用于表面上多核苷酸合成的受控的流动和质量传递路径。在一些情况下,装置的构造允许在多核苷酸合成过程中质量传递路径、化学暴露次数和/或洗涤功效的受控且均匀的分布。在一些情况下,装置的构造允许增加扫描效率,例如通过提供足以用于增长多核苷酸的体积,使得由增长的多核苷酸所排除的体积占可用于或适合于增长多核苷酸的初始可用体积的不超过50%、45%、40%、35%、30%、25%、20%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%或更少。在一些情况下,三维结构允许流体的受管控的流动,从而允许化学暴露的快速交换。

本文提供了合成1fM、5fM、10fM、25fM、50fM、75fM、100fM、200fM、300fM、400fM、500fM、600fM、700fM、800fM、900fM、1pM、5pM、10pM、25pM、50pM、75pM、100pM、200pM、300pM、400pM、500pM、600pM、700pM、800pM、900pM或更多量的DNA的方法。在一些情况下,多核苷酸文库可跨越基因的约1%、2%、3%、4%、5%、10%、15%、20%、30%、40%、50%、60%、70%、80%、90%、95%或100%的长度。基因可以变化最多约1%、2%、3%、4%、5%、10%、15%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%或100%。

非相同的多核苷酸可以共同编码基因的至少1%、2%、3%、4%、5%、10%、15%、20%、30%、40%、50%、60%、70%、80%、85%、90%、95%或100%的序列。在一些情况下,多核苷酸可以编码基因的50%、60%、70%、80%、85%、90%、95%或更多的序列。在一些情况下,多核苷酸可以编码基因的80%、85%、90%、95%或更多的序列。

在一些情况下,通过物理结构实现隔离。在一些情况下,通过表面的差异官能化以生成用于多核苷酸合成的活化和钝化区域来实现隔离。差异官能化还可通过在整个装置表面上交替呈现疏水性,从而造成可引起沉积的试剂结珠或润湿的水接触角效应来实现。采用较大的结构可减少飞溅和邻近斑点的试剂对不同的多核苷酸合成位置的交叉污染。在一些情况下,使用装置如多核苷酸合成仪将试剂沉积到不同的多核苷酸合成位置。具有三维特征的基底以允许以低错误率(例如,小于约1:500、1:1000、1:1500、1:2,000;1:3,000;1:5,000;或1:10,000)合成大量多核苷酸(例如,超过约10,000个)的方式配置。在一些情况下,装置包含密度为大约或大于约1、5、10、20、30、40、50、60、70、80、100、110、120、130、140、150、160、170、180、190、200、300、400或500个特征/mm2的特征。

装置的孔可具有与基底的另一个孔相同或不同的宽度、高度和/或容积。装置的通道可具有与基底的另一个通道相同或不同的宽度、高度和/或容积。在一些情况下,簇的宽度为约0.05mm至约50mm、约0.05mm至约10mm、约0.05mm至约5mm、约0.05mm至约4mm、约0.05mm至约3mm、约0.05mm至约2mm、约0.05mm至约1mm、约0.05mm至约0.5mm、约0.05mm至约0.1mm、约0.1mm至10mm、约0.2mm至10mm、约0.3mm至约10mm、约0.4mm至约10mm、约0.5mm至10mm、约0.5mm至约5mm或约0.5mm至约2mm。在一些情况下,包含簇的孔的宽度为约0.05mm至约50mm、约0.05mm至约10mm、约0.05mm至约5mm、约0.05mm至约4mm、约0.05mm至约3mm、约0.05mm至约2mm、约0.05mm至约1mm、约0.05mm至约0.5mm、约0.05mm至约0.1mm、约0.1mm至10mm、约0.2mm至10mm、约0.3mm至约10mm、约0.4mm至约10mm、约0.5mm至10mm、约0.5mm至约5mm或约0.5mm至约2mm。在一些情况下,簇的宽度为小于或约5mm、4mm、3mm、2mm、1mm、0.5mm、0.1mm、0.09mm、0.08mm、0.07mm、0.06mm或0.05mm。在一些情况下,簇的宽度约为1.0至1.3mm。在一些情况下,簇的宽度约为1.150mm。在一些情况下,孔的宽度为小于或约5mm、4mm、3mm、2mm、1mm、0.5mm、0.1mm、0.09mm、0.08mm、0.07mm、0.06mm或0.05mm。在一些情况下,孔的宽度约为1.0至1.3mm。在一些情况下,孔的宽度约为1.150mm。在一些情况下,簇的宽度约为0.08mm。在一些情况下,孔的宽度约为0.08mm。簇的宽度可以指二维或三维基底内的簇。

在一些情况下,孔的高度为约20um至约1000um、约50um至约1000um、约100um至约1000um、约200um至约1000um、约300um至约1000um、约400um至约1000um或约500um至约1000um。在一些情况下,孔的高度小于约1000um、小于约900um、小于约800um、小于约700um或小于约600um。

在一些情况下,装置包含对应于簇内多个座位的多个通道,其中通道的高度或深度为约5um至约500um、约5um至约400um、约5um至约300um、约5um至约200um、约5um至约100um、约5um至约50um或约10um至约50um。在一些情况下,通道的高度小于100um、小于80um、小于60um、小于40um或小于20um。

在一些情况下,通道、座位(例如,在基本上为平面的基底中)或通道和座位两者(例如,在其中座位对应于通道的三维装置中)的直径为约1um至约1000um、约1um至约500um、约1um至约200um、约1um至约100um、约5um至约100um或约10um至约100um,例如约90um、80um、70um、60um、50um、40um、30um、20um或10um。在一些情况下,通道、座位或通道和座位两者的直径小于约100um、90um、80um、70um、60um、50um、40um、30um、20um或10um。在一些情况下,两个相邻通道、座位或通道和座位两者的中心的距离为约1um至约500um、约1um至约200um、约1um至约100um、约5um至约200um、约5um至约100um、约5um至约50um或约5um至约30um,例如约20um。

表面修饰

在各种情况下,采用表面修饰通过加成工艺或减成工艺对表面进行化学和/或物理改变,以改变装置表面或装置表面的选定位点或区域的一种或多种化学和/或物理性质。例如,表面修饰包括但不限于:(1)改变表面的润湿性质;(2)对表面进行官能化,即,提供、修改或取代表面官能团;(3)对表面进行去官能化,即,移除表面官能团;(4)以其他方式例如通过刻蚀来改变表面的化学组成;(5)增大或减小表面粗糙度;(6)在表面上提供涂层,例如,展现出与表面的润湿性质不同的润湿性质的涂层;和/或(7)在表面上沉积微粒。

在一些情况下,在表面顶部添加化学层(被称为粘附促进剂)有利于基底表面上的座位的结构化图案化。用于施加粘附促进剂的示例性表面包括但不限于玻璃、硅、二氧化硅和氮化硅。在一些情况下,该粘附促进剂是具有高表面能的化学品。在一些情况下,在基底的表面上沉积第二化学层。在一些情况下,第二化学层具有低表面能。在一些情况下,涂覆在表面上的化学层的表面能支持小液滴在表面上的定位。根据所选择的图案化布置,座位的接近度和/或在座位处的流体接触面积是可改变的。

在一些情况下,(例如为了多核苷酸合成)核酸或其他部分所沉积到的装置表面或解析座位是光滑的或基本上为平面的(例如,二维的),或者具有不规则性,诸如凸起或凹陷特征(例如,三维特征)。在一些情况下,用一个或多个不同的化合物层来修饰装置表面。感兴趣的此类修饰层包括但不限于无机层和有机层,如金属、金属氧化物,聚合物、有机小分子等。非限制性聚合物层包括肽、蛋白质、核酸或其模拟物(例如,肽核酸等)、多糖、磷脂、聚氨酯、聚酯、聚碳酸酯、聚脲、聚酰胺、聚乙烯胺、聚芳硫醚、聚硅氧烷、聚酰亚胺、聚乙酸酯,以及本文所述的或本领域已知的其它任何合适的化合物。在一些情况下,聚合物为杂聚物。在一些情况下,聚合物为均聚物。在一些情况下,聚合物包含官能部分或是缀合的。

在一些情况下,使用增大和/或减小表面能的一个或多个部分对装置的解析座位进行官能化。在一些情况下,部分是化学惰性的。在一些情况下,部分被配置为支持所需的化学反应,例如在多核苷酸合成反应中的一个或多个过程。表面的表面能或疏水性是决定核苷酸附着到该表面上的亲和力的因素。在一些情况下,装置官能化方法可包括:(a)提供具有包含二氧化硅的表面的装置;和(b)使用本文所述的或本领域已知的合适的硅烷化剂(例如,有机官能烷氧基硅烷分子)对所述表面进行硅烷化。

在一些情况下,所述有机官能烷氧基硅烷分子包括二甲基氯-十八烷基-硅烷、甲基二氯-十八烷基-硅烷、三氯-十八烷基-硅烷、三甲基-十八烷基-硅烷、三乙基-十八烷基-硅烷或其任意组合。在一些情况下,装置表面包含采用以下各项的官能化:聚乙烯/聚丙烯(通过伽马辐射或铬酸氧化并还原为羟烷基表面而官能化)、高度交联的聚苯乙烯-二乙烯基苯(通过氯甲基化衍生化,并胺化为苄胺官能表面)、尼龙(末端氨基己基直接是反应性的)或用还原的聚四氟乙烯刻蚀。在通过引用整体并入本文的美国专利5474796中描述了其它方法和官能化剂。

在一些情况下,装置表面通常经由存在于装置表面上的反应性亲水部分,在有效地将硅烷偶联至装置表面的反应条件下,使装置表面与含有硅烷混合物的衍生化组合物相接触来进行官能化。硅烷化一般通过使用有机官能烷氧基硅烷分子自装配来覆盖表面。

还可使用本领域当前已知的多种硅氧烷官能化试剂,例如用于降低或增大表面能。有机官能烷氧基硅烷可根据其有机官能来分类。

本文提供了可包含能够与核苷偶联的试剂的图案化的装置。在一些情况下,装置可以涂覆有活性剂。在一些情况下,装置可以涂覆有钝化剂。包含在本文所述的涂层材料中的示例性活性剂包括但不限于N-(3-三乙氧基甲硅烷基丙基)-4-羟基丁酰胺(HAPS)、11-乙酰氧基十一烷基三乙氧基硅烷、正癸基三乙氧基硅烷、(3-氨丙基)三甲氧基硅烷、(3-氨丙基)三乙氧基硅烷、3-缩水甘油基氧基丙基三甲氧基硅烷(GOPS)、3-碘-丙基三甲氧基硅烷、丁基-醛-三甲氧基硅烷、二聚仲氨基烷基硅氧烷、(3-氨丙基)-二乙氧基-甲基硅烷、(3-氨丙基)二甲基-乙氧基硅烷和(3-氨丙基)-三甲氧基硅烷、(3-缩水甘油基氧基丙基)-二甲基-乙氧基硅烷、缩水甘油基氧基-三甲氧基硅烷、(3-巯基丙基)-三甲氧基硅烷,3-4环氧环己基-乙基三甲氧基硅烷以及(3-巯基丙基)-甲基-二甲氧基硅烷、烯丙基三氯氯硅烷、7-辛-1-烯基三氯氯硅烷或双(3-三甲氧基甲硅烷基丙基)胺。

包含在本文所述的涂层材料中的示例性钝化剂包括但不限于全氟辛基三氯硅烷;十三氟-1,1,2,2-四氢辛基三氯硅烷;1H,1H,2H,2H-氟辛基三乙氧基硅烷(FOS);三氯(1H,1H,2H,2H-全氟辛基)硅烷;叔丁基-[5-氟-4-(4,4,5,5-四甲基-1,3,2-二氧杂环戊硼烷-2-基)吲哚-1-基]-二甲基-硅烷;CYTOPTM;FluorinertTM;全氟辛基三氯硅烷(PFOTCS);全氟辛基二甲基氯硅烷(PFODCS);全氟癸基三乙氧基硅烷(PFDTES);五氟苯基-二甲基丙基氯-硅烷(PFPTES);全氟辛基三乙氧基硅烷;全氟辛基三甲氧基硅烷;辛基氯硅烷;二甲基氯-十八烷基-硅烷;甲基二氯-十八烷基-硅烷;三氯-十八烷基-硅烷;三甲基-十八烷基-硅烷;三乙基-十八烷基-硅烷;或十八烷基三氯硅烷。

在一些情况下,官能化剂包括烃硅烷,如十八烷基三氯硅烷。在一些情况下,官能化剂包括11-乙酰氧基十一烷基三乙氧基硅烷、正癸基三乙氧基硅烷、(3-氨丙基)三甲氧基硅烷、(3-氨丙基)三乙氧基硅烷、缩水甘油基氧基丙基/三甲氧基硅烷和N-(3-三乙氧基甲硅烷基丙基)-4-羟基丁酰胺。

多核苷酸合成

用于多核苷酸合成的本公开的方法可包括涉及亚磷酰胺化学法的过程。在一些情况下,多核苷酸合成包括将碱基与亚磷酰胺偶联。多核苷酸合成可包括通过在偶联条件下沉积亚磷酰胺来偶联碱基,其中相同的碱基任选地与亚磷酰胺沉积超过一次,即双偶联。多核苷酸合成可包括未反应位点的加帽。在一些情况下,加帽是可选的。多核苷酸合成还可包括氧化或氧化步骤或多个氧化步骤。多核苷酸合成可包括解封闭、脱三苯甲基化和硫化。在一些情况下,多核苷酸合成包括氧化或硫化。在一些情况下,在多核苷酸合成反应期间的一个步骤或每个步骤之间,例如使用四唑或乙腈来洗涤所述装置。亚磷酰胺合成方法中任一步骤的时间范围可小于约2分钟、1分钟、50秒、40秒、30秒、20秒和10秒。

使用亚磷酰胺方法的多核苷酸合成可包括随后将亚磷酰胺构件(例如,核苷亚磷酰胺)添加至增长的多核苷酸链以形成亚磷酸三酯键。亚磷酰胺多核苷酸合成沿3’至5’方向进行。亚磷酰胺多核苷酸合成允许在每个合成循环中将一个核苷酸受控添加至增长的核酸链。在一些情况下,每个合成循环包括偶联步骤。亚磷酰胺偶联包括在活化的核苷亚磷酰胺与(例如通过连接体)结合至基底的核苷之间形成亚磷酸三酯键。在一些情况下,将核苷亚磷酰胺提供给活化的装置。在一些情况下,将核苷亚磷酰胺提供给具有活化剂的装置。在一些情况下,核苷亚磷酰胺以相对于与基底结合的核苷1.5、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、50、60、70、80、90、100倍或更多倍的过量来提供给装置。在一些情况下,核苷亚磷酰胺的添加在无水环境中(例如,在无水乙腈中)进行。添加核苷亚磷酰胺后,任选地洗涤该装置。在一些情况下,偶联步骤额外重复一次或多次,任选地在向基底添加核苷亚磷酰胺之间进行洗涤步骤。在一些情况下,本文使用的多核苷酸合成方法包括1、2、3个或更多个连续的偶联步骤。在许多情况下,在偶联之前,与装置结合的核苷通过去除保护基团来脱保护,其中该保护基团起到防止聚合的作用。常见的保护基团为4,4’-二甲氧基三苯甲基(DMT)。

偶联后,亚磷酰胺多核苷酸合成方法任选地包括加帽步骤。在加帽步骤中,用加帽剂处理增长的多核苷酸。加帽步骤可用来在偶联后封闭未反应的与基底结合的5’-OH基团以防止进一步链延伸,从而防止形成具有内部碱基缺失的多核苷酸。此外,用1H-四唑活化的亚磷酰胺可以在很小的程度上与鸟苷的O6位置反应。不受理论的束缚,在用I2/水氧化后,该副产物(可能经由O6-N7迁移)可经历脱嘌呤。无嘌呤位点可终止在多核苷酸的最终脱保护过程中被切割,从而降低全长产物的产率。O6修饰可通过在用I2/水氧化之前用加帽试剂处理而去除。在一些情况下,与没有加帽的合成相比,在多核苷酸合成过程中包括加帽步骤会降低错误率。作为实例,加帽步骤包括用乙酸酐和1-甲基咪唑的混合物处理与基底结合的多核苷酸。在加帽步骤之后,任选地洗涤所述装置。

在一些情况下,在添加核苷亚磷酰胺之后,并且任选地在加帽和一个或多个洗涤步骤之后,对与装置结合的增长的核酸进行氧化。氧化步骤包括将亚磷酸三酯氧化成四配位的磷酸三酯——天然存在的磷酸二酯核苷间连接的受保护的前体。在一些情况下,增长的多核苷酸的氧化通过任选地在弱碱(例如,吡啶、二甲基吡啶、三甲吡啶)的存在下用碘和水处理来实现。氧化可在无水条件下采用例如叔丁基过氧化氢或(1S)-(+)-(10-樟脑磺酰基)-氧杂吖丙啶(CSO)进行。在一些方法中,在氧化之后进行加帽步骤。第二个加帽步骤允许装置干燥,因为可能持续存在的来自氧化的残余水可以抑制随后的偶联。氧化后,任选地洗涤装置和增长的多核苷酸。在一些情况下,氧化步骤用硫化步骤来代替,以获得多核苷酸硫代磷酸,其中任何加帽步骤均可在硫化之后进行。许多试剂能够进行有效的硫转移,包括但不限于3-(二甲基氨基亚甲基)氨基)-3H-1,2,4-二噻唑-3-硫酮、DDTT、3H-1,2-苯并二噻戊环-3-酮1,1-二氧化物(也被称为Beaucage试剂)和N,N,N'N'-四乙基秋兰姆二硫化物(TETD)。

为了使后续核苷掺入循环通过偶联而发生,除去与装置结合的增长的多核苷酸的受保护的5’末端,使得伯羟基与下一个核苷亚磷酰胺反应。在一些情况下,保护基团为DMT,并且用在二氯甲烷中的三氯乙酸进行解封闭。进行延长时间的脱三苯甲基化或者使用比推荐的酸溶液更强的酸溶液进行脱三苯甲基化可导致与固体支持物结合的多核苷酸的脱嘌呤增加,并因此降低了所需全长产物的产率。本文所述的本公开的方法和组合物提供了受控的解封闭条件,从而限制不希望的脱嘌呤反应。在一些情况下,与装置结合的多核苷酸在解封闭后洗涤。在一些情况下,解封闭后的有效洗涤有助于以低错误率合成多核苷酸。

多核苷酸合成方法一般包括一系列迭代的以下步骤:将受保护的单体施加至活化官能化的表面(例如,座位)以与活化的表面、连接体或与预先脱保护的单体连接;使所施加的单体脱保护,使其可与随后施加的受保护的单体反应;以及施加另一种受保护的单体以供连接。一个或多个中间步骤包括氧化或硫化。在一些情况下,在一个或全部步骤之前或之后有一个或多个洗涤步骤。

基于亚磷酰胺的多核苷酸合成方法包括一系列化学步骤。在一些情况下,合成方法的一个或多个步骤涉及试剂循环,其中该方法的一个或多个步骤包括向该装置施加对该步骤有用的试剂。例如,试剂通过一系列液相沉积和真空干燥步骤进行循环。对于包含诸如孔、微孔、通道等三维特征的基底,试剂任选地经由孔和/或通道穿过该装置的一个或多个区域。

本文所述的方法和系统涉及用于合成多核苷酸的多核苷酸合成装置。该合成可以是平行的。例如,可以平行合成至少或大约至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、30、35、40、45、50、100、150、200、250、300、350、400、450、500、550、600、650、700、750、800、850、900、1000、10000、50000、75000、100000个或更多个多核苷酸。可以平行合成的多核苷酸的总数可以是2-100000、3-50000、4-10000、5-1000、6-900、7-850、8-800、9-750、10-700、11-650、12-600、13-550、14-500、15-450、16-400、17-350、18-300、19-250、20-200、21-150、22-100、23-50、24-45、25-40、30-35个。本领域技术人员知晓,平行合成的多核苷酸的总数可处于由这些值中的任何值所限定的任何范围内,例如25-100。平行合成的多核苷酸的总数可处于由充当范围端点的任何值所限定的任何范围内。在装置内合成的多核苷酸的总摩尔质量或每种多核苷酸的摩尔质量可以是至少或至少约10、20、30、40、50、100、250、500、750、1000、2000、3000、4000、5000、6000、7000、8000、9000、10000、25000、50000、75000、100000皮摩尔或更大。每种多核苷酸的长度或装置内多核苷酸的平均长度可以是至少或大约至少10、15、20、25、30、35、40、45、50、100、150、200、300、400、500个或更多个核苷酸。每种多核苷酸的长度或装置内多核苷酸的平均长度可以是至多或大约至多500、400、300、200、150、100、50、45、35、30、25、20、19、18、17、16、15、14、13、12、11、10个或更少的核苷酸。每种多核苷酸的长度或装置内多核苷酸的平均长度可以处于10-500、9-400、11-300、12-200、13-150、14-100、15-50、16-45、17-40、18-35、19-25之间。本领域技术人员知晓,每种多核苷酸的长度或装置内多核苷酸的平均长度可处于由这些值中的任何值所限定的任何范围内,例如100-300。每种多核苷酸的长度或装置内多核苷酸的平均长度可处于由充当范围端点的任何值所限定的任何范围内。

本文提供的在表面上合成多核苷酸的方法允许以较快的速度合成。作为实例,每小时合成至少3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、70、80、90、100、125、150、175、200个或更多个核苷酸。核苷酸包括腺嘌呤、鸟嘌呤、胸腺嘧啶、胞嘧啶、尿苷构件,或其类似物/修饰形式。在一些情况下,多核苷酸文库在基底上平行合成。例如,包含大约或至少约100、1,000、10,000、30,000、75,000、100,000、1,000,000、2,000,000、3,000,000、4,000,000或5,000,000个解析座位的装置能够支持合成至少相同数目的不同的多核苷酸,其中编码不同序列的多核苷酸在解析座位上合成。在一些情况下,在少于约三个月、两个月、一个月、三周、15天、14天、13天、12天、11天、10天、9天、8天、7天、6天、5天、4天、3天、2天、24小时或更短的时间内,以本文所述的低错误率在装置上合成多核苷酸文库。在一些情况下,使用本文所述的基底和方法从以低错误率合成的多核苷酸文库装配的较大核酸在少于约三个月、两个月、一个月、三周、15天、14天、13天、12天、11天、10天、9天、8天、7天、6天、5天、4天、3天、2天、24小时或更短的时间内制备。

在一些情况下,本文所述的方法导致生成包含在多个密码子位点处不同的变异多核苷酸的多核苷酸文库。在一些情况下,多核苷酸可具有1个位点、2个位点、3个位点、4个位点、5个位点、6个位点、7个位点、8个位点、9个位点、10个位点、11个位点、12个位点、13个位点、14个位点、15个位点、16个位点、17个位点、18个位点、19个位点、20个位点、30个位点、40个位点、50个位点或更多个变异密码子位点。

在一些情况下,变异密码子位点的一个或多个位点可以是相邻的。在一些情况下,变异密码子位点的一个或多个位点可以是不相邻的,并且由1、2、3、4、5、6、7、8、9、10个或更多个密码子隔开。

在一些情况下,多核苷酸可包含变异密码子位点的多个位点,其中所有变异密码子位点彼此相邻,形成一段变异密码子位点。在一些情况下,多核苷酸可包含变异密码子位点的多个位点,其中所述变异密码子位点彼此均不相邻。在一些情况下,多核苷酸可包含变异密码子位点的多个位点,其中一些变异密码子位点彼此相邻,形成一段变异密码子位点,而一些变异密码子位点彼此不相邻。

参见附图,图11示出了用于从较短多核苷酸合成核酸(例如,基因)的示例性处理工作流程。该工作流程大致分为以下阶段:(1)从头合成单链多核苷酸文库,(2)连接多核苷酸以形成更大的片段,(3)错误校正,(4)质量控制,以及(5)运输。在从头合成之前,预先选择预期的核酸序列或一组核酸序列。例如,预先选择一组基因用于生成。

一旦选择用于生成的大多核苷酸,则针对从头合成来设计预定的多核苷酸文库。用于生成高密度多核苷酸阵列的各种合适的方法是已知的。在该工作流程示例中,提供了装置表面层1101。在该示例中,改变表面的化学性质,以改进多核苷酸合成过程。生成低表面能区域以排斥液体,同时生成高表面能区域以吸引液体。表面本身可以是平面表面的形式或者包含形状的变化,例如增加表面积的突起或微孔。在该工作流程示例中,如在通过引用整体并入本文的国际专利申请公开WO/2015/021080中所公开的,所选择的高表面能分子发挥支持DNA化学过程的双重功能。

多核苷酸阵列的原位制备在固体支持物上进行,并利用单核苷酸延伸过程平行延伸多个寡聚物。材料沉积装置,如多核苷酸合成仪,被设计为以逐步方式释放试剂,使得多个多核苷酸平行地一次延伸一个残基,以生成具有预定核酸序列的寡聚物1102。在一些情况下,多核苷酸在该阶段从表面上切下。切割包括例如采用氨或甲胺的气体切割。

将生成的多核苷酸文库放置于反应室中。在该示例性工作流程中,反应室(也被称为“纳米反应器”)为硅涂覆的孔,其含有PCR试剂并下降到多核苷酸文库1103上。在多核苷酸密封1104之前或之后,添加试剂以从基底释放多核苷酸。在该示例性工作流程中,多核苷酸在纳米反应器密封1105之后释放。一旦释放,单链多核苷酸的片段即发生杂交,以跨越整个长程DNA序列。部分杂交1105是可能的,因为每个合成的多核苷酸被设计为具有与群体中的至少一个其他多核苷酸重叠的一小部分。

杂交后,开始PCR反应。在聚合酶循环过程中,多核苷酸与互补片段退火,并且用聚合酶补平缺口。根据哪些多核苷酸彼此发现,每个循环随机增加各个片段的长度。片段之间的互补性允许形成完整的大跨度的双链DNA 1106。

在PCR完成之后,将纳米反应器与装置分开1107,并定位成与具有PCR引物的装置相互作用1108。密封后,纳米反应器经历PCR 1109并扩增较大的核酸。在PCR之后1110,打开纳米室1111,添加错误校正试剂1112,将腔室密封1113并进行错误校正反应,以从双链PCR扩增产物中去除具有较差互补性的错配碱基对和/或链1114。打开并分离纳米反应器1115。错误校正产物接下来经历另外的处理步骤,如PCR和分子条形码化,随后包装1122以供运输1123。

在一些情况下,采取质量控制措施。在错误校正之后,质量控制步骤包括例如与具有用于扩增错误校正产物的测序引物的晶片进行相互作用1116,将晶片密封到含有错误校正扩增产物的腔室中1117,并进行另一轮扩增1118。打开纳米反应器1119,合并产物1120并进行测序1121。在得到可接受的质量控制结果之后,包装的产物1122准许运输1123。

在一些情况下,通过诸如图11中的工作流程生成的核酸使用本文公开的重叠引物进行诱变。在一些情况下,通过在固体支持物上原位制备来生成引物文库,并利用单核苷酸延伸过程平行延伸多个寡聚物。沉积装置,如多核苷酸合成仪,被设计为以逐步方式释放试剂,使得多个多核苷酸平行地一次延伸一个残基,以生成具有预定核酸序列的寡聚物1102。

具有低错误率的大多核苷酸文库

使用所提供的系统和方法在文库内合成的多核苷酸的平均错误率常常可以小于1/1000、小于1/1250、小于1/1500、小于1/2000、小于1/3000或更低。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸的平均错误率小于1/500、1/600、1/700、1/800、1/900、1/1000、1/1100、1/1200、1/1250、1/1300、1/1400、1/1500、1/1600、1/1700、1/1800、1/1900、1/2000、1/3000或更低。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸的平均错误率小于1/1000。

在一些情况下,与预定序列相比,使用所提供的系统和方法在文库内合成的多核苷酸的总错误率小于1/500、1/600、1/700、1/800、1/900、1/1000、1/1100、1/1200、1/1250、1/1300、1/1400、1/1500、1/1600、1/1700、1/1800、1/1900、1/2000、1/3000或更低。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸的总错误率小于1/500、1/600、1/700、1/800、1/900或1/1000。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸的总错误率小于1/1000。

在一些情况下,错误校正酶可用于使用所提供的系统和方法在文库内合成的多核苷酸。在一些情况下,与预定序列相比,经错误校正的多核苷酸的总错误率可小于1/500、1/600、1/700、1/800、1/900、1/1000、1/1100、1/1200、1/1300、1/1400、1/1500、1/1600、1/1700、1/1800、1/1900、1/2000、1/3000或更低。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸经错误校正后的总错误率可小于1/500、1/600、1/700、1/800、1/900或1/1000。在一些情况下,使用所提供的系统和方法在文库内合成的多核苷酸经错误校正后的总错误率可小于1/1000。

错误率可限制基因合成在产生基因变体文库方面的价值。错误率为1/300时,在1500个碱基对的基因中约0.7%的克隆将是正确的。由于大多数来自多核苷酸合成的错误导致移码突变,所以在这样的文库中超过99%的克隆将不会产生全长蛋白质。将错误率降低75%将使正确克隆的比例提高40倍。本公开的方法和组合物允许快速从头合成大多核苷酸和基因文库,其错误率低于基因合成方法通常观察到的错误率,这是由于合成质量的改善以及能够以大规模平行且具时效性的方式进行的错误校正方法的适用性。因此,可以合成文库,其中在整个文库中或该文库的超过80%、85%、90%、93%、95%、96%、97%、98%、99%、99.5%、99.8%、99.9%、99.95%、99.98%、99.99%或更多中具有低于1/300、1/400、1/500、1/600、1/700、1/800、1/900、1/1000、1/1250、1/1500、1/2000、1/2500、1/3000、1/4000、1/5000、1/6000、1/7000、1/8000、1/9000、1/10000、1/12000、1/15000、1/20000、1/25000、1/30000、1/40000、1/50000、1/60000、1/70000、1/80000、1/90000、1/100000、1/125000、1/150000、1/200000、1/300000、1/400000、1/500000、1/600000、1/700000、1/800000、1/900000、1/1000000或更低的碱基插入、缺失、置换或总错误率。本公开的方法和组合物还涉及具有低错误率的大合成多核苷酸和基因文库,该错误率与该文库的至少一个子集中至少30%、40%、50%、60%、70%、75%、80%、85%、90%、93%、95%、96%、97%、98%、99%、99.5%、99.8%、99.9%、99.95%、99.98%、99.99%或更多的多核苷酸或基因相关,从而涉及与预定/预选序列相比的无错误序列。在一些情况下,文库内的隔离体积中至少30%、40%、50%、60%、70%、75%、80%、85%、90%、93%、95%、96%、97%、98%、99%、99.5%、99.8%、99.9%、99.95%、99.98%、99.99%或更多的多核苷酸或基因具有相同的序列。在一些情况下,与超过95%、96%、97%、98%、99%、99.5%、99.6%、99.7%、99.8%、99.9%或更高的相似性或同一性有关的任意多核苷酸或基因中的至少30%、40%、50%、60%、70%、75%、80%、85%、90%、93%、95%、96%、97%、98%、99%、99.5%、99.8%、99.9%、99.95%、99.98%、99.99%或更多具有相同的序列。在一些情况下,优化与多核苷酸或基因上的指定基因座有关的错误率。因此,作为大文库的部分的一个或多个多核苷酸或基因的给定基因座或多个选定基因座可各自具有低于1/300、1/400、1/500、1/600、1/700、1/800、1/900、1/1000、1/1250、1/1500、1/2000、1/2500、1/3000、1/4000、1/5000、1/6000、1/7000、1/8000、1/9000、1/10000、1/12000、1/15000、1/20000、1/25000、1/30000、1/40000、1/50000、1/60000、1/70000、1/80000、1/90000、1/100000、1/125000、1/150000、1/200000、1/300000、1/400000、1/500000、1/600000、1/700000、1/800000、1/900000、1/1000000或更低的错误率。在各种情况下,这类错误优化的基因座可包含至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000、6000、7000、8000、9000、10000、30000、50000、75000、100000、500000、1000000、2000000、3000000个或更多个基因座。错误优化的基因座可分布到至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、60、70、80、90、100、200、300、400、500、600、700、800、900、1000、1500、2000、2500、3000、4000、5000、6000、7000、8000、9000、10000、30000、75000、100000、500000、1000000、2000000、3000000个或更多个多核苷酸或基因。

可在使用或不使用错误校正的情形下达到所述错误率。可在整个文库中,或在文库的超过80%、85%、90%、93%、95%、96%、97%、98%、99%、99.5%、99.8%、99.9%、99.95%、99.98%、99.99%或更多中达到所述错误率。

计算机系统

本文所述的任何系统均可以可操作地连接至计算机,并且可以本地或远程地通过计算机进行自动化。在各种情况下,本公开的方法和系统可进一步包括计算机系统上的软件程序及其使用。因此,对于分配/抽真空/再填充功能的同步(如编排和同步材料沉积装置运动、分配动作和真空致动)的计算机化控制处于本公开内容的范围内。计算机系统可被编程为在用户指定的碱基序列与材料沉积装置的位置之间接合,以将正确的试剂递送至基底的指定区域。

图12中示出的计算机系统1200可被理解为能够从介质1211和/或网络端口1205读取指令的逻辑设备,其可任选地连接至具有固定介质1212的服务器1209。诸如图12示出的系统可包括CPU 1201、磁盘驱动器1203、可选的输入设备如键盘1215和/或鼠标1216以及可选的监视器1207。可通过示出的通信媒介实现与本地或远程位置处的服务器的数据通信。通信媒介可包括传输和/或接收数据的任何手段。例如,通信媒介可以是网络连接、无线连接或因特网连接。这样的连接可提供经由万维网的通信。可以设想有关本公开的数据可经过这样的网络或连接而传输,以便由图12所示的用户方1222接收和/或审阅。

图13是示出可与本公开的示例实例结合使用的计算机系统1300的第一示例架构的框图。如图13所示,该示例计算机系统可包括用于处理指令的处理器1302。处理器的非限制性示例包括:Intel XeonTM处理器、AMD OpteronTM处理器、Samsung 32-位RISC ARM1176JZ(F)-S v1.0TM处理器、ARM Cortex-A8 Samsung S5PC100TM处理器、ARM Cortex-A8Apple A4TM处理器、Marvell PXA 930TM处理器或功能上等效的处理器。多个执行线程可用于并行处理。在一些情况下,也可以使用多个处理器或具有多个核的处理器,无论是在单一计算机系统中,在群集中,还是通过包含多个计算机、蜂窝电话和/或个人数据助理设备的网络跨系统分布。

如图13所示,高速缓冲存储器1304可连接至或并入处理器1302,以提供由处理器1302新近或频繁使用的指令或数据的高速存储器。处理器1302通过处理器总线1308连接至北桥1306。北桥1306通过存储器总线1312连接至随机存取存储器(RAM)1310,并管理处理器1302对RAM 1310的访问。北桥1306还通过芯片集总线1316连接至南桥1314。南桥1314又连接至外围总线1318。外围总线可以是例如PCI、PCI-X、PCI Express或其他外围总线。北桥和南桥通常被称为处理器芯片集,并管理在处理器、RAM与外围总线1318上的外围组件之间的数据传送。在一些备选的架构中,北桥的功能性可以并入处理器中,而不是使用单独的北桥芯片。在一些情况下,系统1300可包括附接至外围总线1318的加速器卡1322。加速器可包括现场可编程门阵列(FPGA)或用于加速某个处理的其他硬件。例如,加速器可用于适应性数据重建或用来评价在扩展集处理中使用的代数表达式。

软件和数据存储在外部存储器1324中,并可加载至RAM 1310和/或高速缓冲存储器1304中,以供处理器使用。系统1300包括用于管理系统资源的操作系统;操作系统的非限制性实例包括:Linux、WindowsTM、MACOSTM、BlackBerry OSTM、iOSTM和其他功能上等效的操作系统,以及在操作系统顶部运行的、用于根据本公开的示例情况管理数据存储和优化的应用软件。在该实例中,系统1300还包括与外围总线连接的网络接口卡(NIC)1320和1321,以提供与外部存储如网络附加存储(NAS)和可用于分布式并行处理的其他计算机系统的网络接口。

图14是显示了具有多个计算机系统1402a和1402b、多个蜂窝电话和个人数据助理1002c以及网络附加存储(NAS)1404a和1404b的网络1400的示图。在示例实例中,系统1402a、1402b和1402c可管理数据存储并优化对存储在网络附加存储(NAS)1404a和1404b中的数据的数据访问。数学模型可用于该数据,并使用跨计算机系统1402a和1402b和蜂窝电话以及个人数据助理系统1402c的分布式并行处理进行评价。计算机系统1402a和1402b和蜂窝电话以及个人数据助理系统1402c也可提供对存储在网络附加存储(NAS)1404a和1404b中的数据的适应性数据重建的并行处理。图14仅示出了一个实例,而多种多样的其他计算机架构和系统可与本公开的多个实例一起使用。例如,刀片服务器可以用来提供并行处理。处理器刀片可通过背板连接,以提供并行处理。存储还可通过单独的网络接口连接至背板或作为网络附加存储(NAS)。在一些示例实例中,处理器可维持单独的存储空间,并通过网络接口、背板或其他连接器传输数据以便由其他处理器并行处理。在其他情况下,部分或全部处理器可使用共享的虚拟地址存储空间。

图15是根据示例情况使用共享虚拟地址存储空间的多处理器计算机系统1500的框图。该系统包括可访问共享的存储器子系统1504的多个处理器1502a-f。该系统中在存储器子系统1504中并入多个可编程硬件存储算法处理器(MAP)1506a-f。每个MAP 1506a-f可以包含存储器1508a-f以及一个或多个现场可编程门阵列(FPGA)1510a-f。MAP提供可配置的功能单元,并且可以向FPGA 1510a-f提供特定算法或算法的部分,以供与相应的处理器密切协同地进行处理。例如,在示例情况中,MAP可用来评价与数据模型相关的代数表达式以及用来进行适应性数据重建。在该示例中,每个MAP可被用于这些目的的所有处理器全局访问。在一种配置中,每个MAP可使用直接存储器访问(DMA)来访问相关联的存储器1508a-f,使其独立于且异步于各自的微处理器1502a-f而执行任务。在这一配置中,MAP可将结果直接馈送至另一MAP以供流水处理和并行执行算法。

以上计算机架构和系统仅为实例,并且多种多样的其他计算机、蜂窝电话和个人数据助理架构和系统可与示例实例结合使用,包括使用通用处理器、协处理器、FPGA和其他可编程逻辑设备、芯片上系统(SOC)、专用集成电路(ASIC)和其他处理和逻辑元件的任何组合的系统。在一些情况下,全部或部分计算机系统可用软件或硬件来实现。任何种类的数据存储介质可与示例实例结合使用,包括随机存取存储器、硬盘驱动器、闪速存储器、磁带驱动器、磁盘阵列、网络附加存储(NAS)和其他的本地或分布式数据存储设备和系统。

在示例实例中,计算机系统可使用在任何上述或其他计算机架构和系统上执行的软件模块来实现。在其他实例中,该系统的功能可部分或完全地在固件、可编程逻辑设备如图15提到的现场可编程门阵列(FPGA)、芯片上系统(SOC)、专用集成电路(ASIC)或其他处理和逻辑元件中实现。例如,集处理器(Set Processor)和优化器可通过使用硬件加速器卡如图13所示的加速器卡1322用硬件加速方式实现。

实施例

给出以下实施例是为了说明本发明的各个实施方案的目的,而并非意味着以任何方式限制本发明。这些实施例以及目前代表优选实施方案的本文所述方法是示例性的,而非旨在限制本发明的范围。本领域技术人员将会想到包含在由权利要求范围所限定的本发明精神之内的其变化以及其他用途。

实施例1:基底表面的官能化

对基底进行官能化以支持多核苷酸文库的附着和合成。首先使用包含90%H2SO4和10%H2O2的水虎鱼溶液(piranha solution)将基底表面润湿清洗20分钟。将该基底在含有去离子水的数个烧杯中冲洗,在去离子水鹅颈旋塞下保持5分钟,并用N2干燥。随后将该基底在NH4OH(1:100;3mL:300mL)中浸泡5分钟,使用手持式喷枪(handgun)用去离子水冲洗,在连续三个含有去离子水的烧杯中各浸泡1分钟,然后再使用手持式喷枪用去离子水冲洗。然后通过将基底表面暴露于O2来等离子体清洗该基底。使用SAMCO PC-300仪器在下游模式下以250瓦进行O2等离子体蚀刻1分钟。

使用具有以下参数的YES-1224P气相沉积烘箱系统,用包含N-(3-三乙氧基甲硅烷基丙基)-4-羟基丁酰胺的溶液对清洁的基底表面进行活化官能化:0.5至1托,60分钟,70℃,135℃汽化器。使用Brewer Science 200X旋涂仪对基底表面进行抗蚀剂涂覆。将SPRTM3612光致抗蚀剂以2500rpm旋涂在基底上40秒。该基底在Brewer热板上以90℃预烘30分钟。使用Karl Suss MA6掩模对准仪对基底进行光刻。将该基底暴露2.2秒并在MSF 26A中显影1分钟。剩余的显影剂用手持式喷枪冲洗,并将装置在水中浸泡5分钟。该基底在烘箱中以100℃烘烤30分钟,随后使用Nikon L200目视检查光刻缺陷。采用预清除(descum)工艺利用SAMCO PC-300仪器以250瓦进行O2等离子体蚀刻1分钟来去除残余抗蚀剂。

用与10μL轻质矿物油混合的100μL全氟辛基三氯硅烷溶液对基底表面进行钝化官能化。将该基底放置于腔室中,泵送10分钟,然后关闭通往泵的阀门并静置10分钟。使该腔室排放至空气。该基底通过在70℃下在500mL NMP中进行两次5分钟浸泡并同时以最大功率(在Crest系统上的9)进行超声波处理来剥离抗蚀剂。然后将该基底在室温下在500mL异丙醇中浸泡5分钟,同时以最大功率进行超声波处理。将该基底浸入300mL的200标准酒精度(proof)的乙醇中并用N2吹干。活化该官能化表面以充当多核苷酸合成的支持物。

实施例2:在多核苷酸合成装置上合成50-聚体序列

将二维多核苷酸合成装置组装至流动池中,其与流动池(Applied Biosystems(ABI394 DNA合成仪")连接。该多核苷酸合成装置用N-(3-三乙氧基甲硅烷基丙基)-4-羟基丁酰胺(Gelest)均匀地官能化,并用来使用本文所述的多核苷酸合成方法合成50bp的示例性多核苷酸("50-聚体多核苷酸”)。

所述50-聚体的序列如SEQ ID NO.:1所述。5'AGACAATCAACCATTTGGGGTGGACAGCCTTGACCTCTAGACTTCGGCAT##TTTTTTTTTT3'(SEQ ID NO.:1),其中#表示胸苷-琥珀酰基己酰胺CED亚磷酰胺(来自ChemGenes的CLP-2244),它是允许在脱保护过程中从表面上释放多核苷酸的可切割的连接体。

根据表2中的方案和ABI合成仪,使用标准DNA合成化学法(偶联、加帽、氧化和解封闭)完成合成。

表2

亚磷酰胺/活化剂组合以类似于本体试剂通过流动池递送的方式进行递送。当在全部时间内保持环境被试剂“润湿”时,不进行干燥步骤。

从ABI 394合成仪中去除限流器,以使得能够更快速流动。在没有限流器的情况下,酰胺类(amidites)(在ACN中0.1M)、活化剂(在ACN中的0.25M苯甲酰基硫基四唑(“BTT”;来自GlenResearch的30-3070-xx))和Ox(在20%吡啶、10%水和70%THF中的0.02M I2)的流速大致为约100uL/秒,乙腈(“ACN”)和加帽试剂(帽A和帽B的1:1混合物,其中帽A是在THF/吡啶中的乙酸酐,帽B是在THF中的16%1-甲基咪唑(1-methylimidizole))的流速大致为约200uL/秒,而解封闭剂(在甲苯中的3%二氯乙酸)的流速大致为约300uL/秒(相比之下,在有限流器的情况下,所有试剂的流速均为约50uL/秒)。观测完全排出氧化剂的时间,相应地调整化学品流动时间的时间选择,并在不同的化学品之间引入额外的ACN洗涤。在多核苷酸合成后,将芯片在75psi下在气态氨中脱保护过夜。将五滴水施加到表面上以回收多核苷酸。然后在BioAnalyzer小RNA芯片上分析所回收的多核苷酸(数据未示出)。

实施例3:在多核苷酸合成装置上合成100-聚体序列

使用实施例2中描述的用于合成50-聚体序列的相同过程,在两个不同的硅芯片上合成100-聚体多核苷酸(“100-聚体多核苷酸”;5'CGGGATCCTTATCGTCATCGTCGTACAGATCCCGACCCATTTGCTGTCCACCAGTCATGCTAGCCATACCATGATGATGATGATGATGAGAACCCCGCAT##TTTTTTTTTT3',其中#表示胸苷-琥珀酰基己酰胺CED亚磷酰胺(来自ChemGenes的CLP-2244);SEQ ID NO.:2),第一个用N-(3-三乙氧基甲硅烷基丙基)-4-羟基丁酰胺均匀地官能化,而第二个用11-乙酰氧基十一烷基三乙氧基硅烷和正癸基三乙氧基硅烷的5/95混合物官能化,并在BioAnalyzer仪器上分析从表面提取的多核苷酸(数据未示出)。

使用下列热循环程序,在50uL PCR混合物(25uL NEB Q5主混合物,2.5uL 10uM正向引物,2.5uL 10uM反向引物,1uL从表面提取的多核苷酸,用水加至50uL)中使用正向引物(5'ATGCGGGGTTCTCATCATC3';SEQ ID NO.:3)和反向引物(5'CGGGATCCTTATCGTCATCG3';SEQID NO.:4)进一步PCR扩增来自两个芯片的全部十个样品:

98℃,30秒

98℃,10秒;63℃,10秒;72℃,10秒;重复12个循环

72℃,分钟

PCR产物还在BioAnalyzer上运行(数据未示出),在100-聚体位置处显示出尖锐峰。然后,对PCR扩增的样品进行克隆,并进行Sanger测序。表3总结了从来自芯片1的斑点1-5采集的样品和从来自芯片2的斑点6-10采集的样品的Sanger测序结果。

表3

因此,合成的多核苷酸的高质量和均匀度在具有不同表面化学的两个芯片上重现。总体上,所测序的100-聚体中有89%是没有错误的完美序列,对应于262个中的233个。

最后,表4总结了从来自斑点1-10的多核苷酸样品中获得的序列的错误特征。

表4

实施例4:29,040个独特多核苷酸的平行装配

如图16所示制造包含256个簇1605的结构,每个簇在平面硅板1601上包含121个座位。在1610中显示了具有121个座位的簇的展开图。256个簇中有240个簇的座位为具有不同序列的多核苷酸的合成提供了附接和支持。多核苷酸合成使用实施例3的通用方法通过亚磷酰胺化学法来进行。256个簇中有16个簇的座位是对照簇。合成的29,040个独特多核苷酸(240x 121)的全局分布在图17A中示出。多核苷酸文库以高均匀度合成。90%的序列存在于平均值的4x以内的信号处,从而允许100%呈现。如图17B所示,测量每个簇的分布。在图18中显示了在4个代表性簇中合成的独特多核苷酸的分布。在全局水平上,存在该运行中的所有多核苷酸,并且99%的多核苷酸的丰度在平均值的2x以内,表明合成均匀度。在按照簇的水平上,这种相同的观察结果是一致的。

使用Illumina MiSeq基因测序仪确定每个多核苷酸的错误率。29,040个独特多核苷酸的错误率分布在图19A中示出,平均约500个碱基中有1个,有些错误率低至800个碱基中1个。如图19B所示,测量每个簇的分布。图20中显示了四个代表性簇中独特多核苷酸的错误率分布。在不到20小时内合成了29,040个独特多核苷酸的文库。

在所有29,040个独特多核苷酸中对GC百分比相对于多核苷酸呈现的分析表明,尽管有GC含量,合成也是均匀的,图21。

实施例5:使用多核苷酸靶向文库的样品制备和富集

从样品中获得基因组DNA(gDNA),并在片段化缓冲液中酶促片段化、末端修复并3’腺苷酸化。将双索引衔接子(16个独特条形码组合)连接至基因组DNA片段的两端,以产生衔接子标记的gDNA链的文库,并使用高保真度聚合酶扩增衔接子标记的DNA文库。然后,在通用衔接子阻断剂的存在下,使gDNA文库在96℃下变性为单链。使多核苷酸靶向文库(探针文库)在杂交溶液中在96℃下变性,并与变性、标记的gDNA文库在杂交溶液中在70℃下混合16小时。然后将结合缓冲液添加到杂交的标记的gDNA探针中,并使用包含链霉亲和素的磁珠来捕获生物素化的探针。使用磁体将珠子与溶液分离,然后用缓冲液将珠子洗涤3次以去除未结合的衔接子、gDNA和衔接子阻断剂,之后加入洗脱缓冲液以从珠子上释放富集的标记的gDNA片段。用高保真度聚合酶扩增标记的gDNA片段的富集文库,以获得足以生成簇的产量,然后使用NGS仪器对文库进行测序。

实施例6:用靶向外显子组的多核苷酸探针文库捕获基因组DNA

设计并使用实施例3的通用方法通过亚磷酰胺化学法在结构上合成包含至少500,000个靶向人类外显子组的非相同多核苷酸的多核苷酸靶向文库,并使用实施例5的通用方法控制化学计量以生成文库4。然后用生物素标记多核苷酸,然后溶解以形成外显子组探针文库溶液。使用实施例16的通用方法,从基因组DNA(gDNA)样品获得干燥的索引化文库池。

外显子探针文库溶液、杂交溶液、阻断剂混合物A和阻断剂混合物B通过脉冲涡旋混合2秒。将杂交溶液在65℃下加热10分钟,或直至所有沉淀物溶解,然后再在工作台上使其达到室温5分钟。将20μL杂交溶液和4μL外显子组探针文库溶液添加到0.2mL薄壁PCR条管中,并通过移液轻轻混合。将合并的杂交溶液/外显子探针溶液在具有105℃盖的热循环仪中加热至95℃保持2分钟,并立即在冰上冷却至少10分钟。然后使溶液在工作台上冷却至室温5分钟。在杂交溶液/外显子探针文库溶液冷却的同时,向每个基因组DNA样品加水至9μl,并将5μl阻断剂混合物A和2μl阻断剂混合物B添加到0.2mL薄壁PCR条管中的干燥的索引化文库池中。然后通过轻轻移液将溶液混合。在具有105℃盖的热循环仪中,将合并的文库/阻断剂管在95℃下加热5分钟,然后在工作台上使其达到室温不超过5分钟,然后进行下一步。通过移液混合杂交混合物/探针溶液,并添加到整个24μL合并的文库/阻断剂管中。通过轻轻移液将整个捕获反应孔混合,以避免产生气泡。对样品管进行脉冲旋转,以确保样品管紧密密封。将捕获/杂交反应在PCR热循环仪中于70℃加热16小时,盖温度为85℃。

将结合缓冲液、洗涤缓冲液1和洗涤缓冲液2在48℃下加热,直到所有沉淀物溶解为溶液。每次捕获等分700μL洗涤缓冲液2,并预热至48℃。将链霉亲和素结合珠和DNA纯化珠在室温下平衡至少30分钟。将聚合酶如KAPA HiFi HotStart ReadyMix和扩增引物在冰上解冻。一旦试剂解冻,即通过脉冲涡旋混合2秒。每个捕获反应制备500μL 80%乙醇。链霉亲和素结合珠在室温下预平衡并涡旋直至均化。每个捕获反应将100μL链霉亲和素结合珠添加到干净的1.5mL微量离心管中。将200μL结合缓冲液添加到每个试管中,并通过移液将每个管混合直至均化。将该管放在磁力架上。链霉亲和素结合珠在1分钟内沉淀。移出管,并丢弃澄清的上清液,确保不干扰珠沉淀物。将管从磁力架上取下,并再重复两次洗涤。第三次洗涤后,取出管,并丢弃澄清的上清液。添加最后200μL结合缓冲液,并且通过涡旋将珠子重悬直至均匀。

杂交反应完成后,打开热循环仪盖,并将捕获反应的全部体积快速转移(36-40μL)到洗涤过的链霉亲和素结合珠中。将该混合物在室温下在振荡器、摇床或旋转器上以足以保持捕获反应/链霉亲和素结合珠溶液均化的速度混合30分钟。从混合器中移出捕获反应/链霉亲和素结合珠溶液并脉冲旋转,以确保所有溶液都在管的底部。将样品放在磁力架上,并且链霉亲和素结合珠沉淀,在1分钟内留下澄清的上清液。取出澄清上清液并丢弃。从磁力架上取下管,并在室温下加入200μL洗涤缓冲液,随后通过移液混合直至均化。将管脉冲旋转,以确保所有溶液都在管的底部。使用以下条件对热循环仪进行编程(表5)。

加热的盖的温度被设定为105℃。

表5

将扩增引物(2.5μL)和聚合酶如KAPA HiFi HotStart ReadyMix(25μL)添加到容纳有水/链霉亲和素结合珠浆液的管中,并通过移液将管混合。然后将管分成两个反应。将管脉冲旋转并转移至热循环仪,并开始表5中的循环程序。热循环仪程序完成后,将样品从模块中取出并立即进行纯化。将在室温下预平衡的DNA纯化珠涡旋直至均化。将90μL(1.8x)均化的DNA纯化珠添加到管中,并通过涡旋混合均匀。将管在室温下孵育5分钟,然后置于磁力架上。DNA纯化珠沉淀,在1分钟内留下澄清的上清液。丢弃澄清的上清液,并将管留在磁力架上。DNA纯化珠沉淀物用200μL新鲜制备的80%乙醇洗涤,孵育1分钟,然后移出并丢弃乙醇。在将管保持在磁力架上的同时,重复洗涤一次,总共洗涤两次。取出所有剩余的乙醇,并用10μL移液器丢弃,以确保不干扰DNA纯化珠沉淀物。将DNA纯化珠沉淀物在磁力架上风干5-10分钟,或直至沉淀物干燥。从磁力架上取下管,加入32μL水,通过移液混合直至均化,并在室温下孵育2分钟。将管在磁力架上放置3分钟,或直到珠子完全沉淀。回收30μL澄清的上清液,并转移到干净的0.2mL薄壁PCR条管中,以确保不干扰DNA纯化珠沉淀物。在分析仪器上使用150bp至1000bp的范围设置,平均片段长度在约375bp至约425bp之间。理想地,最终浓度值至少约为15ng/μL。使用下一代测序(NGS)量化并验证每个捕获。

与比较物外显子组捕获试剂盒(比较物试剂盒D)相比,NGS指标的总结显示在表6、表7中。文库4具有与高于比较物试剂盒D的外显子靶标百分比相对应的探针(诱饵)。这导致使用文库4以较少的测序获得相当的靶序列质量和覆盖率。

表6

NGS指标 比较物试剂盒D 文库4
靶标范围 38.8Mb 33.2Mb
诱饵范围 50.8Mb 36.7Mb
诱饵设计效率 76.5% 90.3%
捕获多重数 8-重 8-重
PF读取 57.7M 49.3M
归一化的覆盖率 150X 150X
HS文库大小 30.3M 404.0M
重复百分比 32.5% 2.5%
富集倍数 43.2 48.6
Fold 80碱基罚分 1.84 1.40

表7

表8显示了试剂盒D和文库4两者的重叠靶区域的比较(相对于96X覆盖率归一化的总读取)。文库4在每次杂交时作为8个样品处理,试剂盒D在每次杂交时以2个样品处理。另外,对于这两个文库,将来自重叠区域的单核苷酸多态性和符合读框的缺失判定与从“瓶中基因组(Genome in a Bottle)”NA12878参考数据鉴定的高置信区进行比较(表9)。在鉴定SNP和插入/缺失方面,文库4的表现类似于或好于(插入/缺失精确度更高)试剂盒D。如本文所用的术语“插入/缺失”是指包括与预定序列不同的插入和缺失的一类错误。

表8

表9

精确度表示真阳性判定与总(真和假)阳性判定之比。灵敏度表示真阳性判定与真实总值(真阳性和假阴性)之比。

实施例7.使用通用衔接子的文库制备

使用实施例5或6的通用方法制备核酸样品,其中进行以下修改:将双索引衔接子替换为通用衔接子。通用衔接子连接后,用条形码化引物文库扩增衔接子连接的样品核酸文库,以生成条形码化的衔接子连接的样品核酸文库。然后直接对该文库进行测序。相对于标准双索引Y衔接子,通用衔接子的使用导致扩增后文库核酸浓度增加(图4A)。另外,与标准双索引Y衔接子相比,使用通用衔接子制备的文库提供较低的AT丢失率(图4B),并导致所有索引序列的均匀呈现。(图5)

实施例8.使用通用衔接子的文库制备和富集

使用实施例5或6的通用方法制备核酸样品,其中进行以下修改:将双索引衔接子替换为通用衔接子。通用衔接子连接后,用条形码化引物文库扩增衔接子连接的样品核酸文库,以生成条形码化的衔接子连接的样品核酸文库。然后对该文库进行类似的富集、纯化和测序步骤。通用衔接子的使用导致相当的或更好的测序结果(图6A和图6B)。

实施例9.使用包含修饰碱基的通用衔接子的文库制备

使用实施例8的通用方法制备核酸样品,其中进行以下修改:通用衔接子包含至少一个锁定核酸或桥连核酸。通用衔接子连接后,用条形码化引物文库扩增衔接子连接的样品核酸文库,以生成条形码化的衔接子连接的样品核酸文库。然后对该文库进行类似的富集、纯化和测序步骤。

实施例10.使用短条形码化引物,使用通用衔接子的文库制备

使用实施例8的通用方法制备核酸样品,其中进行以下修改:每个条形码化的引物与小于通用衔接子的全长结合。

实施例11.使用含有核碱基类似物的通用衔接子的文库制备,以及使用短条形码化引物的扩增

使用实施例8的通用方法制备核酸样品,其中进行以下修改:将双索引衔接子替换为包含一个或多个核碱基类似物(例如,锁定核酸或桥连核酸)的通用衔接子。通用衔接子连接后,用条形码化引物文库扩增衔接子连接的样品核酸文库,以生成条形码化的衔接子连接的样品核酸文库。每个条形码与小于通用衔接子的全长结合。然后对该文库进行类似的富集、纯化和测序步骤。

实施例12.使用通用衔接子和标准双索引衔接子制备的测序文库的比较

使用实施例8的通用方法从基因组DNA(50ng Na12878)制备核酸样品,其中进行以下修改:使用包含10bp双索引的通用衔接子(8个PCR循环,N=12)。为了进行比较,还针对相同的基因组DNA样品测试了标准全长Y衔接子(10个PCR循环,N=12)。利用通用衔接子的方案导致扩增后更高的总产率(图23)和更低的衔接子二聚体形成(图24)。

实施例13.使用10bp UDI通用衔接子和8bp组合双引物制备的测序文库的比较

使用实施例8的通用方法从基因组DNA(NA12878)制备核酸样品,其中进行以下修改:使用包含10bp索引序列(N=96)或8bp索引序列(N=96)的通用引物用于文库的最终扩增步骤。通过对每种设计的完美索引读取的总数进行归一化并相对于表现最佳者进行归一化来计算相对测序性能;将每个群体的所得分布以其计算的平均值为中心,以供直接比较。使用10bp通用引物的实验表现出更严格的相对性能和更均匀的测序呈现(图25A和25B),并且在所有96个独特索引中具有更高的相对性能(图26)。

实施例14.独特双索引文库的筛选与评价

按照实施例13的通用程序,以迭代方式构建并筛选包含独特双索引序列的1,152个文库以获得均匀的测序性能(图27A)。使用酶促片段化生成文库,其包含人类基因组材料作为插入物。单独的文库按质量合并,并使用NextSeq 500/550High Output v2试剂盒进行测序,以生成2x 10bp索引读取。确定单独的索引读取对(允许1个错配)的总计数,并相对于平均值计算每个单独对的相对性能。结果,鉴定了384个UDI序列,它们提供了相对于平均值+/-25%的测序性能,作为单个大池(图27B)或作为4x 96个成员的单独组(图27C-27F)。

实施例15:用各种靶向外显子组的多核苷酸探针文库捕获基因组DNA

设计并使用实施例3的通用方法通过亚磷酰胺化学法在结构上合成包含至少500,000个靶向人类外显子组的非相同多核苷酸的多核苷酸靶向文库,并使用实施例5的通用方法控制化学计量以生成文库4A。然后用生物素标记多核苷酸,然后溶解以形成外显子组探针文库溶液。使用实施例5的通用方法,从基因组DNA(gDNA)样品获得干燥的索引化文库池。

使用如实施例6所述的方法进行使用各种探针文库的DNA捕获。简言之,将外显子组探针文库溶液、杂交溶液、阻断剂混合物A和阻断剂混合物B混合,并制备杂交混合物/探针溶液。进行杂交反应,随后进行捕获反应。然后对溶液进行扩增,随后进行下一代测序(NGS)。

将文库4A与各种比较物外显子组捕获试剂盒(包括实施例6中描述的比较物试剂盒D)进行了比较。各种比较物外显子组捕获试剂盒与文库4A的NGS指标的总结在表10中示出。

表10

对各种文库的均匀度、特异性和重复率进行了评估。如图28B所示,与比较物试剂盒相比,文库4A将靶标富集效率(通过Fold 80碱基罚分测量的)提高了35-60%。如图28C-28D所示,文库4A具有增加的特异性和中靶率。中靶率通过中靶碱基除以比对的PF碱基来测量。文库4A表现出改善的寡核苷酸合成、优化的双链探针及相容的缓冲液和工作流程,如图28E-28F中所见的重复率所示。

还评估了各种文库的覆盖深度和最大化的测序输出。如图29所示,使用文库4A,采用150x总原始测序,95%的靶向碱基以30x覆盖。表11显示文库4A使测序输出最大化。

表11

实施例16.灵活且模块化的定制组

可以添加或增强内容物。参见图30A-30B。向该组添加内容物会增加覆盖的靶标数。增强该组的内容物是指特定区域的覆盖率。

添加从RefSeq数据库衍生的3Mb额外靶区域。该组的产生增加了覆盖率,并且没有降低性能。RefSeq、CCDS和GENCODE数据库的覆盖率提高到>99%。此外,定制组显示出高均匀度和中靶率,以及低重复率(所有结果均基于150x测序)。

使用本文描述的定制组增加了表12中所示的数据库覆盖率。该数据将组内容物之间的重叠与数据库中的蛋白质编码区进行了比较,所述蛋白质编码区被标注在主要人类基因组装配体上(不包括替代染色体),截至2018年5月(UCSC基因组浏览器)。比较物A1、比较物A2和比较物D是可商购获得的比较物组。使用BEDtools套件和括号中指示的基因组版本进行比较。3Mb内容物的添加使RefSeq和GENCODE数据库的覆盖率提高到>99%。

表12.

图30C-30E示出了来自组1和组1+补充探针的倍数数据(图30C)、重复率(图30D)和靶标百分比(图30E)。图30F和图30G示出了针对靶标覆盖率(图30F)和Fold 80碱基罚分(图30G)的比较数据。

图30H显示了本文所述的文库的可调靶标覆盖率。如图30H的上图所示,平均覆盖率为34.9,并且在大于20X时观察到91%的目标碱基。如图30H的下图所示,平均覆盖率为67.5,并且在大于20X时观察到97%的目标碱基。

实施例17.RefSeq设计

在hg38中设计了RefSeq组设计,其包括CCDS21、RefSeq所有编码序列和GENCODEv28基本编码序列的合集。单独的RefSeq(外显子组)的大小为3.5Mb,合并的核心外显子组+RefSeq(外显子组+RefSeq)的大小为36.5Mb。使用50ng gDNA(NA12878)作为1-重和8-重运行一式三份进行实验,并在150x测序下以76bp读取进行评价。靶标文件为36.5Mb。参见图31A。

评估RefSeq组设计的覆盖深度、特异性、均匀度、文库复杂性、重复率和覆盖率。图31B-31C示出了覆盖深度。在20x下观察到超过95%的目标碱基。在30x下观察到超过90%的目标碱基。图31D示出了RefSeq组的特异性。脱靶百分比小于0.2。图31E示出了RefSeq组的均匀度。Fold 80小于1.5。图31F示出了文库的复杂性。文库大小超过3.2亿。图31G示出了RefSeq组的重复率。重复率小于4%。图31H示出了RefSeq组的覆盖率。覆盖率在0.9到1.1之间。如图31H所,覆盖率小于1.1。

实施例18.在一系列组大小和靶区域中的定制组设计

使用实施例6的通用方法获得测序数据。表13中列出了文库的详细信息。简言之,按照制造商的建议,每个单重池使用500ng gDNA(NA12878;Coriell),使用本文设计的若干靶标富集组进行杂合捕获。使用NextSeq 500/550High Output v2试剂盒进行测序,以生成2x76配对的末端读取。对数据进行降采样至靶标大小的150x,并使用Picard Metrics进行分析,其映射质量为20;N=2。所述组导致高百分比的中靶读取,以及改善的均匀度和低重复率。图32A-32B显示了在每个组中达到30x覆盖率的读取百分比,而图32C显示了均匀度(Fold 80)。

表13.

实施例19.富集工作流程

富集工作流程时间线可见于图33A中。使用实施例6的通用方法获得测序数据。简言之,使用外显子组的组或定制组杂交并捕获基因组DNA(NA12878,Corriell)。在将两个不同的探针文库(外显子探针或定制组)与核酸样品杂交期间使用“快速”杂交缓冲液与液体聚合物,并将捕获/杂交反应在PCR热循环仪中在65℃下加热不同时间段,盖温度为80℃。测序后,使用具有默认值的Picard HS_Metric工具(Pct_Target_Bases_30X)进行序列分析。对于任一组,在快速杂交溶液中的15分钟杂交产生了与16小时标准杂交相当的性能,并且增加杂交时间改善了相对于使用常规杂交缓冲液的标准方案的性能,如图33B所见。

实施例20.使用纳米球测序的靶标富集

使用纳米球测序对靶标富集组进行测序。简言之,纳米球测序使用滚环扩增(RCA)将基因组DNA片段扩增成DNA纳米球。DNA纳米球吸附到流动池上,并确定每个位置的荧光并用来鉴别碱基。

制备具有两种不同的插入物大小的文库,并使用纳米球测序进行测序。环化的衔接子与纳米球测序兼容。评估文库的中靶率、特异性、重复率、覆盖率。如图34A-34D所示,使用环化衔接子的中靶率百分比从40%增加到75%(图34A),在约1.45处更高的Fold 80均匀度(图34B),在约3%时更低的重复率(图34C),并且在30X或更高覆盖率下观察到约92%的目标碱基(图34D)。

实施例21.结合衔接子的茎区的阻断剂

不同的市售衔接子系统包括不同的茎(Y茎、轭)长度和解链温度(表14),如标准的双条形码衔接子系统T;转座酶衔接子系统N;和针对基于纳米球的测序而设计的衔接子系统B。

表14.各种衔接子系统的Y-茎区的总结。

按照实施例19的通用程序,在富集/捕获过程中,包含锁定核酸(LNA)的封闭核酸与N衔接子系统一起使用,并且测量作为观察到的“脱饵”百分比的函数的NGS性能(定位远离任何诱饵区的PF_碱基_比对的分数,脱饵_碱基/PF_碱基_比对)。通常,增加与衔接子茎区退火的锁定核酸的数目导致较差的脱饵性能(表15)。

表15.使用含有不同数目的DNA修饰的阻断剂观察到的脱饵性能,这些修饰增加了旨在与N衔接子系统的衔接子的Y-茎退火的序列的解链温度。

*括号中的数字表示Y-茎退火部分之外的LNA的数目。

不受理论的束缚,在一些情况下,性能的降低可能是由不希望的杂交种类群体B-D的增加(图36B-36D)和希望的种类群体A的减少(图36A)引起的,表16。

表16.提高阻断剂Y-茎退火区的解链温度的DNA修饰量的概述以及靶标富集工作流程中预期的脱饵性能。

实施例22.推拉通用阻断剂

通用阻断剂可以设计为具有增强和降低靶向序列的结合亲和力的区域,以在靶标富集过程中引起亲和力的总体净正增加和脱饵性能的改善。这样的设计提供了潜在的优势,例如:1)每个区域都可以在靶标富集应用过程中针对给定的所需水平的脱饵活动在理论上或经验上进行调整;2)每个区域都可以用单一类型或多种类型的化学修饰进行改变,所述修饰可增加或降低分子对靶向序列的总体亲和力;3)阻断剂组的所有个体成员的解链温度必须通过其他修饰(例如LNA和BNA)保持在指定温度以上,以便获得最佳性能;4)给定的一组阻断剂将改善脱饵性能,与索引长度无关,与索引序列无关,也与杂交中存在多少衔接子索引无关。

解决通用阻断剂的Y-茎衔接子退火部分的一种方法是完全去除DNA改变并在这个有问题的区域中设计仅具有标准A、C、G和T碱基的阻断剂。还有可能添加降低对给定区域的结合亲和力的额外的DNA修饰。如果这伴随着在其中引入DNA改变以增加结合亲和力的区域,那么可以创建阻断剂寡核苷酸,其被设计为具有增加和减少的对给定靶区域的亲和力区域。可以在化学合成过程中引入的可商购获得的修饰的一个实例是2’-脱氧肌苷。

虽然一些设计利用这些类型的部分(长度为6-10bp)的延伸来覆盖衔接子条形码,但它们也可以在整个序列中以稀疏方式使用,以降低解链温度(Tm)。下面显示了随机18bp序列,其不包含和包含不同数目的2'-脱氧肌苷部分,以证明可以将Tm调整到所需的目标(表17)。当这样的序列与含有增加Tm的部分的序列串联时,可以产生具有不同热力学性质的杂合分子。在这样的杂合分子中,特定区域可以热力学调整至特定解链温度,以避免或增加对特定靶向序列的亲和力。这种修饰组合旨在帮助增加阻断剂分子对特定和独特衔接子序列的亲和力,并降低阻断剂分子对重复衔接子序列(例如,衔接子的Y-茎退火部分)的亲和力。不受理论的束缚,在靶标富集工作流程中在杂交背景下,此类设计可增加对期望的群体的结合并降低对不期望的群体的结合。

表17呈现了一个实例,其中在独特区域中提高亲和力的部分的数目保持不变,而在与衔接子的Y-茎部分结合的区域中降低亲和力的部分的数目增加。

表17.当引入2'-脱氧肌苷部分时,解链温度对随机序列的影响。

当阻断剂的Y-茎退火区中降低亲和力的DNA修饰的数目增加时,群体“A”和“D”占优势,并且具有所需的(A,图36A)或最小的影响(D,图36D)。当阻断剂的Y-茎退火区中降低亲和力的DNA修饰的数目减少时,群体“B”和“C”占优势,并且具有不希望的影响,其中可能发生菊花式链接或与其他衔接子的退火(“B”,图36B)或者隔离阻断剂,其中它们不能正常发挥作用(C,图36C)。

表18.提高阻断剂Y-茎退火区的解链温度的DNA修饰量的概述以及靶标富集工作流程中预期的脱饵性能。群体A对应于图36A,群体B对应于图36B,群体C对应于图36C,而群体D对应于图36D。

实施例23.使用通用碱基的通用衔接子覆盖索引

单或双索引衔接子设计上的索引部分地或完全地被通用阻断剂覆盖,这些阻断剂已用专门设计的DNA修饰进行延伸,以覆盖衔接子索引碱基。这样的设计提供了潜在的优势,如1)调整以从索引的任一侧部分或完全覆盖各种长度的条形码;2)在一些情况下,阻断剂组的所有个体成员的解链温度都通过其他修饰(例如LNA和/或BNA)保持在指定温度以上,以便获得最佳性能;并且3)当索引长度等于或大于定义的最小长度时,给定的一组阻断剂将改善脱饵性能,与序列无关,也与杂交中存在多少衔接子索引无关。

阻断剂以这样的方式进行设计,即它们与不是衔接子索引的一部分的区域结合(图37A)。结果,具有这种设计的所有索引碱基都完全暴露(即,图37A中的'1|2|3|......|(n-1)|n')。这种设计还延伸了多种部分,这些部分将延伸阻断剂以覆盖索引碱基。当双索引系统的单个索引被2'-脱氧肌苷部分的3bp或5bp段从单侧覆盖时,以这样的方式覆盖索引碱基被证明可增强靶标富集期间的脱饵性能(图37B)。另外的设计包括图37C-37G。

按照实施例19的通用程序,使用33.1Mb外显子组的组进行捕获,杂交时间为2小时,并获得NGS指标。对于以下方面观察到改善:(a)脱饵百分比(百分比_脱饵),(b)均匀度(Fold 80_碱基_罚分),和(c)覆盖深度(百分比_目标_碱基_30)(图38,表19)。这样的变化对可以放置到下一代测序机器(例如,Illumina的NGS NovaSeq平台)上的样品数具有显著影响。

表19.覆盖各种数目的索引碱基的阻断剂组的指标总结。

实施例24.用于靶向甲基化测序的外显子组富集

材料与方法。将来自NA12878(Coriell Institute)以及低甲基化和高甲基化gDNA对照(分别<5%和>95%甲基化HCT116 DKO gDNA)的基因组DNA样品机械剪切至约300bp的大小(在ME220上)。通过掺混剪切的低甲基化和高甲基化对照来制备各种模拟甲基化水平的样品。将500ng gDNA输入放入SwiftMethyl-seqDNA Library Kit,并组合进行亚硫酸氢盐处理(Zymo EZ DNA Methylation-LightningKit)、Omega Bio-Tek Mag-Bind RxnPure Plus SPRI Beads和KAPA HiFi尿嘧啶+DNA聚合酶。将200ng gDNA输入放入Enzymatic Methyl-seq Kit。使用AgilentBioAnalyzer 7500和Invitrogen Qubit Broad Range Kits验证剪切的样品和文库。

按照实施例19的通用方案,使用快速杂交缓冲液进行四小时杂交,其中四个甲基化组覆盖一系列不同的靶标大小(0.05、1.0、1.5和3.0Mb)。每个单重捕获使用200ng文库,随后使用v2.5 High Output Kit在Illumina NextSeq 550上进行2x151bp测序。在采样到每个样品250X原始覆盖率后,使用Bismark 19.1和Picard HsMetrics进行比对和甲基化分析。

结果。虽然捕获前转化可以实现高度灵敏的表观遗传学应用,但关键挑战来自转化后基因组复杂性的降低。与非甲基化组相比,这通常导致明显高的脱靶(水平>50-60%)、诱饵的测序覆盖率较低和捕获均匀度显著降低(Fold 80碱基罚分值>2.5)。从覆盖宽范围的不同甲基化靶标的三个组获得的结果示于图42A-42D中。评价的组显示脱靶值低至27%。与其他三个组相比,0.05Mb组显示出更高的脱靶率。不受理论的束缚,这可能是由于极小的靶标大小的性质。捕获均匀度Fold-80>2.5,并达到低至1.75和1.5的值。所有四个测试组的重复率都非常低,这表明捕获步骤是有效的,并且能够在整个工作流程中保持高样品复杂性。总体而言,在250x原始测序覆盖率下,即使对于最小的组,也达到在20x时高于84%和在30x时高于70%的碱基原始覆盖率。

自适应组设计优化算法能够使用来自捕获实验的经验数据来了解具体探针特性,从而对性能进行定量调整。在控制高脱靶率成为优先事项时,这种方法对于甲基化组特别有用。另外,使用为超过约30,000个甲基化靶标收集的数据,推导出信息性的序列特征,并用于开发具有三个严格性水平的优化默认组设计。1Mb组用作具有低、中和高严格性的默认组的示例,其提供对脱靶率的增加的控制,同时仅导致其他关键指标的微小变化(图43A-43D)。

为了评价一系列可能的甲基化水平中的兼容性,使用从混合至最终比例分别为0%、25%、50%、75%和100%甲基化的低甲基化和高甲基化细胞系生成的gDNA文库对中等严格性1Mb组进行了捕获。图44A-44D突出显示了关键捕获指标,条形显示代表差异甲基化样品之间捕获性能变异性的平均值和标准误差。指标显示对不同甲基化水平没有或几乎没有响应,证明该系统与宽范围的甲基化状态(包括低甲基化和高甲基化DNA)的兼容性。

启动子和其他调节元件的甲基化水平的变化正在成为一些可用于癌症早期检测的最灵敏的标志。靶向甲基化测序可以检测并量化DNA甲基化的差异水平。低甲基化和高甲基化的DNA以不同的比例掺混,并用于用1Mb组捕获。图45A和图45B突出显示了沿临床相关细胞周期蛋白D2基因座中的靶标和单独CpG位点的不同DNA甲基化水平的检测,已知该基因座在某些癌症(例如,乳腺癌)中改变甲基化状态。检测甲基化胞嘧啶涉及将未甲基化的胞嘧啶转化为胸腺嘧啶,同时保护甲基化的胞嘧啶免于转化。传统上,通过化学亚硫酸氢盐法进行转化。包括未甲基化胞嘧啶的酶促转化在内的其他方法已在该领域中以越来越高的速度被采用。每种转化方法都有其优点和缺点,例如酶对转化反应条件的潜在敏感性更高,或者亚硫酸氢盐对DNA的环境偏向性降解。

使用本文的组合成的甲基化测序与基于酶促和亚硫酸氢盐的方法兼容(图46A-46D)。转化率被测量为在非CpG位点转化的胞嘧啶的分数,对于这两种方法均>99.5%(图47)。这两种文库制备方法的总体捕获指标相似地在相同的数量级上,但对于亚硫酸氢盐法,某些指标如均匀度和脱靶率降低。不受理论的束缚,降低的均匀度可能至少部分是由于通过基于亚硫酸氢盐的文库制备方法引入的固有GC偏性(数据未示出)。

虽然本文已经显示并描述了本发明的优选实施方案,但是对于本领域技术人员显而易见的是,这些实施方案仅以示例的方式提供。在不脱离本发明的情况下,本领域技术人员现将想到许多变化、改变和替换。应当理解,在实施本发明的过程中可以采用本文所述的本发明实施方案的各种替代方案。旨在以所附权利要求书限定本发明的范围,由此涵盖这些权利要求范围内的方法和结构及其等同物。

175页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:脂质纳米颗粒制剂

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!