基于crispr系统的液滴诊断系统和方法

文档序号:74461 发布日期:2021-10-01 浏览:30次 >En<

阅读说明:本技术 基于crispr系统的液滴诊断系统和方法 (Droplet diagnostic systems and methods based on CRISPR systems ) 是由 C·梅尔沃德 C·A·弗雷杰 H·梅特斯基 P·萨贝蒂 G·萨库 J·克赫 C·阿克曼 于 2019-11-14 设计创作,主要内容包括:靶向RNA的蛋白用于通过以渺摩尔级灵敏度在液滴中进行检测来提供基于CRISPR的稳健大规模多重诊断。在纳升体积下以相当的灵敏度水平检测DNA和RNA两者可基于单碱基对差异区分靶标与非靶标,可应用于人类健康的多种情形,包括例如病毒检测、细菌菌株分型和灵敏基因分型。(RNA-targeting proteins are used to provide robust large-scale multiplex diagnostics based on CRISPR by detection in droplets with attomole sensitivity. Detection of both DNA and RNA at comparable sensitivity levels in nanoliter volumes can distinguish between target and non-target based on single base pair differences, and can be applied in a variety of situations in human health, including, for example, viral detection, bacterial strain typing, and sensitive genotyping.)

基于CRISPR系统的液滴诊断系统和方法

相关申请的交叉引用

本申请要求2018年11月14日提交的美国临时申请号62/767,070、2019年5月1日提交的美国临时申请号62/841,812和2019年7月5日提交的美国临时申请号62/871,056的权益。以上确认的申请的全部内容特此以引用方式完全并入本文。

电子序列表引用

电子序列表(BROD_3830WP_ST25.txt;大小为217KB,创建日期为2019年10月7日)的内容以引用方式整体并入本文。

技术领域

本文所公开的主题大体上关于与CRISPR系统的使用相关的液滴诊断。

背景技术

在短时间内针对大量样品以高灵敏度和单碱基特异性快速检测核酸的能力具有彻底改革许多疾病的诊断和监测的潜力,提供有价值的流行病学信息,并作为普遍的科学工具。使用能够一次测试大量样品的平台,利用少量样品将提供优于当前技术水平的明显优势。举例来说,qPCR方法灵敏但昂贵,并且依赖于复杂仪器,限制了对于在实验室环境中训练有素的操作员的可用性。其他方法,诸如将等温核酸扩增与便携式平台相结合的新方法(Du等人,2017;Pardee等人,2016),在护理点(POC)环境中提供了高检测特异性,但由于灵敏度低而应用有些局限。随着核酸诊断变得与各种医疗保健应用越来越相关,能够以低成本实现高特异性和灵敏度的大规模多重化的检测技术在临床和基础研究环境两者中将具有很大的实用性,最终允许对样品进行泛病毒、泛细菌或泛病原体检测。

发明内容

在某些示例性实施方案中,提供了一种多重检测系统,所述多重检测系统包括检测CRISPR系统;用于一种或多种靶分子的光学条形码;以及微流体装置。在一些实施方案中,所述检测CRISPR系统包含靶向DNA或RNA的蛋白、一种或多种被设计成结合至相应靶分子的指导RNA、掩蔽构建体和光学条形码。在一些实施方案中,所述微流体装置包括微孔阵列和在微孔下方的至少一个流动通道,微孔的尺寸被设定成捕获至少两个液滴。

在一些实施方案中,任选地基于核酸的掩蔽构建体阻遏可检测阳性信号的产生。在其他实施方案中,所述基于RNA的掩蔽构建体通过掩蔽可检测阳性信号或替代地产生可检测阴性信号来阻遏所述可检测阳性信号的产生。在一方面,所述掩蔽构建体是基于RNA的。在某些实施方案中,所述基于RNA的掩蔽构建体包含沉默RNA,所述沉默RNA阻遏由报告构建体编码的基因产物的产生,其中所述基因产物在表达时产生所述可检测阳性信号。

在一个实施方案中,所述基于RNA的掩蔽构建体是产生所述阴性可检测信号的核酶,并且其中当使所述核酶失活时产生所述阳性可检测信号,所述核酶可以将底物转化为第一种颜色,并且其中当使所述核酶失活时,所述底物转化为第二种颜色。

在一些实施方案中,所述基于RNA的掩蔽构建体包含可检测配体和掩蔽组分所附接的RNA寡核苷酸。在一些实施方案中,所述可检测配体是荧光团,并且所述掩蔽组分是猝灭剂分子。

所述基于RNA的掩蔽构建体可以包含通过桥分子保持呈聚集体的纳米粒子,其中所述桥分子的至少一部分包含RNA,并且其中当所述纳米粒子分散于溶液中时所述溶液经历色移,任选地所述纳米粒子是胶体金属,在一些情况下是胶体金。所述基于RNA的掩蔽构建体还可以包含通过连接分子与一个或多个猝灭剂分子连接的量子点,其中所述连接分子的至少一部分包含RNA。

在一些情况下,所述基于RNA的掩蔽构建体包含与嵌入剂复合的RNA,其中所述嵌入剂在所述RNA裂解后改变吸光度。在一些情况下,所述嵌入剂是焦宁-Y或亚甲蓝。

所述基于RNA的掩蔽剂还可以是RNA适体和/或包含RNA栓系的抑制剂,在一些情况下,所述适体或所述RNA栓系的抑制剂螯合酶,其中所述酶在从所述适体或所述RNA栓系的抑制剂释放后通过作用于底物产生可检测信号。在特定实施方案中,所述适体是抑制酶,并且阻止所述酶催化从底物产生可检测信号的抑制性适体,或者其中所述RNA栓系的抑制剂抑制酶并且阻止所述酶催化从底物产生可检测信号。在一些情况下,所述酶是凝血酶、蛋白C、中性粒细胞弹性蛋白酶、枯草杆菌蛋白酶、辣根过氧化物酶、β-半乳糖苷酶或小牛碱性磷酸酶。当所述酶是凝血酶时,所述底物可以是与凝血酶的肽底物共价连接的对硝基苯胺,或与凝血酶的肽底物共价连接的7-氨基-4甲基香豆素。所述适体可以螯合一对剂,所述剂在从所述适体释放时组合而产生可检测信号。

在一方面,本文所公开的实施方案涉及用于检测样品中的靶核酸的方法。在一些实施方案中,本文所公开的方法可以包括以下步骤:产生第一组液滴,所述第一组液滴中的每个液滴包含至少一个靶分子和光学条形码;产生第二组液滴,所述第二组液滴中的每个液滴包含检测CRISPR系统,所述检测CRISPR系统包含Cas蛋白(例如靶向RNA的蛋白)和一种或多种被设计成结合至相应靶分子的指导RNA、基于RNA的掩蔽构建体和任选的光学条形码;将所述第一组液滴和所述第二组液滴组合成液滴汇集物,并使所述组合的液滴汇集物流到微流体装置上,所述装置包括微孔阵列和在微孔下方的至少一个流动通道,所述微孔的尺寸被设定成捕获至少两个液滴;将液滴捕获于所述微孔中并检测在每个微孔中捕获的液滴的光学条形码;将在每个微孔中捕获的液滴合并以在每个微孔中形成合并液滴,所述合并液滴的至少一个子组包含检测CRISPR系统和靶序列;启动检测反应。然后将合并的液滴保持在足以允许一种或多种指导RNA与一种或多种靶分子结合的条件下。所述一种或多种指导RNA与靶核酸的结合进而激活CRISPR蛋白。一旦被激活,CRISPR蛋白随后使掩蔽构建体失活,例如,通过切割掩蔽构建体以使得可检测阳性信号被揭露、释放或产生。可以在一个或多个时间段检测和测量每个合并液滴的可检测信号,当例如存在阳性可检测信号时指示靶分子的存在。所公开的方法可以包括扩增靶分子的步骤,在一些情况下,扩增可以是RPA或PCR。

在一些实施方案中,靶分子包含于生物样品或环境样品中。在一些实施方案中,所述样品来自人类。在一些实施方案中,生物样品是血液、血浆、血清、尿液、粪便、痰液、粘液、淋巴液、滑液、胆汁、腹水、胸腔积液、血清肿、唾液、脑脊髓液、水状液或玻璃体液,或任何身体分泌物、渗出物、渗出液,或获自关节的流体,或皮肤或粘膜表面的拭子。在进一步评估之前,可以进一步处理生物样品,包括例如通过富集或分离目标细胞。

所述一种或多种指导RNA被设计成结合至包含(合成)错配的相应靶分子,所述错配可以是靶分子中单核苷酸多态性(SNP)或其他单核苷酸变异的上游或下游的错配。所述一种或多种指导RNA可以被设计成检测靶RNA或DNA中的单核苷酸多态性,或RNA转录物的剪接变体。在一些情况下,指导RNA可以被设计成检测病毒感染中的药物抗性SNP。在一些实施方案中,指导RNA还可以被设计成结合至一种或多种对疾病状态具诊断性的靶分子,所述疾病状态的特征任选地可在于药物抗性或易感基因或转录物或多肽的存在或不存在,并且可任选地是感染。在一些情况下,所述感染由病毒、细菌、真菌、原生动物或寄生虫引起。所述指导RNA被设计成区分一种或多种微生物株系。在一些情况下,所述指导RNA可以包括至少90种指导RNA。

在一些实施方案中,所述靶向蛋白可以包含一个或多个RuvC样结构域。在特定实施方案中,CRISPR蛋白是Cas12,在实施方案中,所述Cas12是Cpf1或C2c1。在一些实施方案中,靶向蛋白可以包含一个或多个HEPN结构域,所述结构域可任选地包含RxxxxH基序序列。在一些情况下,RxxxH基序包含R{N/H/K]X1X2X3H(SEQ ID NO:1)序列,在一些实施方案中X1是R、S、D、E、Q、N、G或Y,并且X2独立地是I、S、T、V或L,并且X3独立地是L、F、N、Y、V、I、S、D、E或A。在一些特定实施方案中,靶向RNA的CRISPR效应蛋白是Cas13。在特定实施方案中,Cas13是Cas13a、Cas13b1、Cas13b2或Cas13c。

在一些情况下,进行光学评估包括捕获每个微孔的图像。在一些实施方案中,通过使用光学显微镜法、荧光显微镜法、拉曼光谱法或它们的组合来检测光学条形码。在一些实施方案中,所述光学条形码包含具有特定尺寸、形状、折射率、颜色或它们的组合的粒子。包含粒子的光学条形码可包括胶体金属粒子、纳米壳、纳米管、纳米棒、量子点、水凝胶粒子、脂质体、树枝状聚合物或金属-脂质体粒子。每个光学条形码包含一种或多种荧光染料,所述荧光染料可以是不同比率的荧光染料。在一些情况下,可以测量的可检测信号是荧光水平。

用于本文所公开的系统的方法中的装置可包括至少40,0000个微孔或至少190,000个微孔的阵列。还公开了一种多重检测系统,在一个实施方案中所述多重检测系统包括检测CRISPR系统,所述检测CRISPR系统包含靶向RNA的蛋白和一种或多种被设计成结合至相应靶分子的指导RNA、基于RNA的掩蔽构建体和光学条形码;用于一种或多种靶分子的光学条形码;以及微流体装置,所述微流体装置包括微孔阵列和在微孔之间的至少一个流动通道,所述微孔的尺寸被设定成捕获至少两个液滴。在本公开主题的实施方案中还提供了包括多重检测系统的试剂盒。所述试剂盒可包括用于执行诊断、试剂、设备微流体平台、试剂等的说明以及用于校准或实施方法的标准。根据本发明的试剂盒中提供的说明书可涉及呈标签或单独插页形式的合适的操作参数。任选地,所述试剂盒还可包括标准或对照信息,以便可以将测试样品与对照信息标准进行比较以确定是否获得一致的结果。

结合以下对所说明的示例性实施方案的详细说明,示例性实施方案的这些和其他方面、目的、特征和优点对于本领域普通技术人员而言将变得显而易见。

附图说明

通过参考阐述了其中可能利用了本发明原理的说明性实施方案的以下详细说明及其附图,将获得对本发明的特征和优点的理解:

图1提供了示例性液滴检测方法的示意图。通过在带有微孔阵列的芯片上进行液滴检测,可以大规模地多重化SHERLOCK病原体检测。扩增反应(使用RPA或PCR)可以在标准管或微孔中进行。然后将检测和扩增混合物排列在微孔中。可以将由不同比率的荧光染料组成的独特荧光条形码添加至各检测混合物和各靶标中。在油中乳化条形码化试剂,并且将来自乳液的液滴汇集在一个管中。将液滴汇集物加载到带有微孔阵列的PDMS芯片上。每个微孔容纳两个液滴,随机产生所有汇集液滴的成对组合。将微孔夹持在玻璃上,隔离每个孔的内容物,并使用荧光显微镜法读取所有液滴的条形码并确定每个微孔的内容物。成像之后,在电场中合并液滴,将检测混合物和靶标组合并开始检测反应。对芯片进行孵育以允许反应进行,并使用荧光显微镜法监测SHERLOCK(特异性高灵敏度酶促报告子解锁)反应的进展。

图2包括的图像显示,检测试剂和靶标可以稳定地乳化为油中的液滴。左图:靶标在油中乳化的水溶液的白光图像。右图:加载有检测试剂和靶标文库的微孔芯片的荧光图像,检测试剂和靶标各自带有独特荧光条形码。每个孔的内容物可以根据荧光条形码确定。

图3包括的图表显示,SHERLOCK在板中和在液滴中的表现同样良好。左图:板中SHERLOCK对寨卡病毒的灵敏度曲线。右图:液滴中同一SHERLOCK测定对寨卡病毒的灵敏度曲线。左图的误差条指示一个标准偏差;右图的误差条是S.E.M.

图4提供的图表显示,SHERLOCK在板中和在液滴中同样能很好地辨别单核苷酸多态性(SNP)。左图:对在寨卡病毒传播到美国时出现的SNP的SHERLOCK辨别。右图:相同SNP的液滴SHERLOCK检测。左图的误差条指示一个标准偏差;右图的误差条是S.E.M.

图5包括的热图显示,流感亚型可以通过在微孔阵列中在液滴中的SHERLOCK检测来辨别。该热图中指示了crRNA汇集物的背景扣除后的倍数开启。

图6包括流感H亚型多重检测的热图结果。基于自2008年以来保藏的序列,设计41个crRNA靶向流感的H区段。方框指示针对各亚型设计的一组crRNA,星号指示与各亚型的多数共有序列对齐的crRNA,有0或1个错配。指示了针对H4、H8和H12的对照crRNA汇集物。

图7示出了流感H亚型多重检测的第二种设计的热图。基于自2008年以来保藏的序列,设计28个crRNA靶向流感的H区段,优先考虑更近期的序列。方框指示针对各亚型设计的一组crRNA,星号指示与各亚型的多数共有序列对齐的crRNA,有0或1个错配。指示了针对H4、H8和H12的对照crRNA汇集物。

图8包括流感N亚型的多重检测的热图。基于自2008年以来保藏的序列,设计35个crRNA靶向流感的H区段,优先考虑更近期的序列。方框指示针对各亚型设计的一组crRNA,星号指示与各亚型的多数共有序列对齐的crRNA,有0或1个错配。“crRNA36”指示未添加crRNA的阴性对照。

图9包括使用液滴SHERLOCK对HIV逆转录酶中6个突变的多重检测。示出了使用祖先型和衍生型序列的合成靶标,靶向祖先型和衍生型等位基因的crRNA的指定突变在不同时间点的荧光。合成靶标(104cp/μl)使用多重PCR扩增并使用液滴SHERLOCK检测。误差条:S.E.M.

图10描绘了HIV衍生型v0和祖先型v1测试的工作方式,并有可能一起使用。

图11包括使用液滴SHERLOCK对TB中的药物抗性突变进行多重检测的结果。示出了30分钟后两个等位基因(参照和药物抗性)的背景扣除荧光。

图12的图表明,将SHERLOCK和微孔阵列芯片技术相结合提供了迄今为止最高的多重检测通量。

图13示出了扩大条形码数量和芯片大小如何实现大规模多重化。(左图)使用3种荧光染料,已将当前的64个条形码组扩展到105个条形码。与现有系统相比,添加第四种染料的可能性已得到小规模证明且不会降低编码准确度,并且可以很容易地扩展到数百个条形码;(右图)现有芯片的尺寸可以扩大四倍,测定开发所需的芯片数量可以减少四倍。

图14包括的图表显示,如所指出的那样,通过实施额外的条形码和扩大的芯片尺寸,可以同时检测约20个样品的所有人类相关病毒。

图15A至图15D用于多重核酸评估的组合排列反应(CARMEN)。图15A在人类和动物群体中识别多种传播病原体是一个大规模的检测问题。图15BCARMEN工作流程示意图。图15C通过单一CARMEN-Cas13测定以渺摩尔级灵敏度和数十个复制液滴对(黑点)检测寨卡病毒;红线在图中标记中值并且用于构建下面的热图。代表性的液滴图像显示在图表上方。图15D寨卡病毒检测的荧光与输入浓度的关系图。

图16A至图16C利用CARMEN-Cas13对人类相关病毒的全面鉴定。图16A具有≥10个可用基因组序列的所有人类相关病毒小组的开发和测试。图16B实验设计,和图16C使用CARMEN-Cas13对全面人类相关病毒小组进行的测试。热图指示检测1h后的背景扣除荧光。PCR引物汇集物和病毒家族分别位于热图的下方和左侧。灰线:未测试的crRNA。

图17A至图17D用CARMEN-Cas13辨别流感亚型。图17A使用CARMEN-Cas13辨别甲型流感亚型的示意图。图17B使用CARMEN-Cas13辨别H1-H16。图17C使用CARMEN-Cas13辨别N1-N9。图17D从病毒种子储备液和合成靶标鉴定H和N亚型。热图指示Cas13检测1h(图17B)或3h(图17C和图17D)后的背景扣除荧光。在图17B至图17D中,以104cp/ul使用合成靶标。

图18A至图18F使用CARMEN-Cas13进行多重DRM鉴定。图18A使用CARMEN-Cas13鉴定HIV药物抗性突变(DRM)的示意图。图18B使用CARMEN-Cas13鉴定6个逆转录酶突变。图18C使用CARMEN-Cas13鉴定患者血浆样品的DRM。图18D使用CARMEN-Cas13鉴定21种整合酶DRM。热图指示Cas13检测0.5-3h后的SNP指数;图18B和图18D按行归一化。在图18B至图18D中,以104cp/ul使用合成靶标。图18D中的星号指示具有突变的靶标;方框指示同一密码子中的多个突变。图18E绘制了K103N逆转录酶突变的DRM频率与SNP指数的关系图。图18F使用CARMEN-Cas13鉴定患者血浆和血清样品的DRM。

图19A至图19E利用CARMEN-Cas13对人类相关病毒的全面鉴定。图19A具有≥10个可用基因组序列的人类相关病毒检测小组的开发的示意图,其中一项潜在应用是区域病毒诊断和监测。图19B通过温和的数据过滤,色码分类准确度得到提高。图19C使用CATCH dx设计引物和crRNA的工作流程。图19D实验设计。图19E使用CARMEN-Cas13测试全面人类相关病毒小组。热图指示Cas13检测3h后的背景扣除荧光。

图20A至图20C CARMEN示意图。图20A包括CARMEN-Cas13中核酸检测的详细分子示意图。扩增(任选有逆转录)之后,使用Cas13进行检测,使用体外转录将扩增DNA转化为RNA。通过Cas13-crRNA复合物以精确的序列特异性检测所得RNA,使用切割报告RNA进行附带切割从而产生信号;图20B提供了详细的CARMEN示意图。(步骤1)扩增样品,进行颜色编码并乳化。同时,组装检测混合物,进行颜色编码并乳化。(步骤2)将来自每个乳液的液滴汇集到单个管中并通过移液混合。(步骤3)在单个移液步骤中将液滴加载到芯片中。侧视图:将液滴通过加载槽沉积到芯片与玻璃之间的流动空间中。倾斜加载器使液滴汇集物在流动空间周围移动,从而使液滴漂浮到微孔中。(步骤4)将芯片夹持在玻璃上,隔离各微孔的内容物,并通过荧光显微镜法成像以鉴定每个液滴的色码和位置。(步骤5)合并液滴,启动检测反应。(步骤6)通过荧光显微镜法随时间(几分钟至3小时)监测每个微孔中的检测反应;图20C丙烯酸加载设备、液滴流动、进入微孔以及两个液滴合并的详细侧视图。

图21A至图21K芯片设计、制造、加载和成像。图21A针对由PCR产物或检测混合物制成的液滴进行优化的微孔设计。图21B标准芯片的尺寸和布局。浅蓝色是微孔阵列所覆盖的区域。图21C标准芯片的照片。图21D密封在丙烯酸加载器中的准备成像的标准芯片的照片。图21E与标准芯片相比,mChip的尺寸和布局。浅紫色是微孔阵列所覆盖的区域。图21F用于mChip制造的丙烯酸模具的AutoCAD绘制。图21G mChip的照片。图21H(左图)mChip加载器各部分的AutoCAD绘制;(中图)mChip加载器设置的AutoCAD绘制;(右图)准备加载的加载器中的mChip的AutoCAD绘制。图21I待加载的mChip的照片。图21J加载和密封mChip,对应于图20B中的步骤:(步骤3)mChip加载:液滴在芯片边缘沉积到芯片与丙烯酸加载器之间的流动空间中。倾斜加载器使液滴汇集物在流动空间周围移动,从而使液滴漂浮到微孔中。(步骤4)从底座上取下芯片和加载器盖子,并用PCR膜密封。没有使用玻璃来密封mChip。将密封的mChip悬于丙烯酸加载器盖上,可以直接置于显微镜上进行成像。图21K密封并准备成像的mChip的照片。

图22A至图22E使用CARMEN对寨卡病毒序列进行多重检测——对寨卡病毒实验的进一步观察。图22A 3h时合成寨卡病毒序列SHERLOCK检测的酶标仪数据。图22B酶标仪(图20A)和液滴(图15C)数据的比较。图22C液滴中寨卡病毒检测的先导分析;图22D液滴中寨卡病毒检测的接受者操作特征(ROC)曲线。AUC:曲线下面积;图22E测定、测试和液滴对重复命名。每一多重测定由一个测试矩阵组成,其中矩阵的尺寸为M个样品x N个检测混合物。每个测试是由一个检测混合物评估一个样品的结果,其中测试结果是微孔阵列中一组重复液滴对的中值。

图23A至图23C定量CARMEN-Cas13。图23A的示意图显示,扩增引物包含T7或T3启动子,导致Cas13检测后多数(T7)产物的信号增加。定量CARMEN-Cas13示意图显示,扩增引物包含T7或T3启动子,导致Cas13检测后多数(T7)产物的信号增加。图23B使用定量CARMEN-Cas13增加了检测的动态范围。动态范围用图表上方的彩色条指示。误差条指示SEM。图23C的图表示出了实际浓度与计算浓度之间的线性相关性。

图24A至图24F 1050个色码的设计和表征。图24A 1050个色码的设计。图24B 1050个色码的3色维度和210个色码的表征。图24C三色空间中210个色码的性能。图24D三色空间中1050个色码的性能。图24E第4个颜色维度中1050个色码的表征。图24F描绘了荧光条形码在三色空间和四色空间中的扩展,包括在第4颜色维度上的性能。

图25A至图25G mChip设计和制造。图25A与标准芯片相比,mChip的尺寸和布局。浅紫色显示微孔阵列所覆盖的区域。图25B用于mChip制造的丙烯酸模具的AutoCAD绘制。图25C(左图)mChip加载器各部分的AutoCAD绘制;(中图)mChip加载器设置的AutoCAD绘制;(右图)准备加载的加载器中的mChip的AutoCAD绘制。图25D mChip的照片。图25E内置准备加载的mChip的mChip加载器的照片(对应于C中的右侧草图)。图25F待加载的mChip的照片。图25G密封并准备成像的mChip的照片(D中所示方案的输出)。

图26人类相关病毒小组的引物和crRNA设计的详细示意图。在NCBI中有576个人类相关病毒种至少有1个基因组邻居,169个有10个或更多个基因组邻居。对每个区段进行基因组比对,并使用CATCH-dx分析序列多样性以确定最佳引物和crRNA结合位点(有关详细信息参见方法)。

图27A至图27D人类相关病毒小组设计统计。图27A人类相关病毒小组设计中各科的物种数量。图27B捕获每一物种内至少90%的序列多样性所需的引物对数量。两个物种需要使用包含简并碱基的引物对。图27C捕获每一物种内至少90%的序列多样性所需的crRNA数量。图27D设计的每一crRNA组覆盖的每一物种内的序列分数;能够针对169个物种中的164种设计小crRNA组,覆盖率达到90%或更高。

图28A至图28C人类相关病毒小组版本1的性能。图28A来自人类相关病毒小组测试版本1的背景扣除荧光热图。图28B通过序列分析(黑色)或基于实验数据(橙色)将crRNA分类为中靶、低活性或具交叉反应性。图28C低活性或交叉反应性的潜在原因。

图29A至图29B人类相关病毒小组:第1轮和第2轮的比较。图29A第1轮。图29B第2轮比较。

图30A至图30B第1轮和第2轮人类相关病毒小组测试的比较。图30A在第1轮(上图)和第2轮(下图)测试中每个crRNA-靶标的重复液滴对数量的分布。图30A第1轮和第2轮中crRNA性能的总结。

图31A至图31D第1轮和第2轮人类相关病毒小组中单个指导物的性能。图31A第1轮和第2轮(x轴)的单个指导物的性能。图31B第1轮测试内中靶与脱靶反应性的接受者操作特征(ROC)曲线下面积。针对每个性能范围(>0.97、0.89-0.97和<0.89),示出了代表性的中靶和脱靶分布。图31C第2轮测试内中靶与脱靶反应性的接受者操作特征(ROC)曲线下面积。针对每个性能范围(>0.97、0.89-0.97和<0.89),示出了代表性的中靶和脱靶分布。图31D第1轮和第2轮的AUC比较。标记出在第2轮中性能特别低的指导物。

图32A至图32B甲型流感设计概述和统计。图32A甲型流感病毒亚型分型测定的设计目标。图32B四轮设计过程的概述。

图33A至图33B甲型流感个别crRNA性能。图33A各甲型流感H亚型crRNA与各靶标的液滴荧光分布。右图示出了中靶反应性(例如crRNA H1与靶标H1)与所有其他脱靶活性(例如crRNA H1与任何其他靶标)的接受者操作特征(ROC)曲线。图33B各甲型流感N亚型crRNA与各靶标的液滴荧光分布。右图示出了中靶反应性与所有其他脱靶活性的接受者操作特征(ROC)曲线。AUC=曲线下面积。

图34甲型流感N亚亚型鉴定。热图示出了被设计来捕获包含神经氨酸酶的甲型流感基因组区段内的序列多样性的完整crRNA组。使用设计的35个crRNA测试35个合成靶标(以104cp/μl)。每个亚型用橙色框指示,每个亚型的共有序列用星号指示。

图35逆转录酶突变的HIV液滴荧光分布。在大多数情况下示出了30min后各crRNA-靶标对的液滴荧光分布;对于V106M和M184V示出了3h时间点。图18B中展示的SNP指数是根据这些分布的中值计算的。

图36逆转录酶突变的HIV低等位基因频率。条形图示出了包含野生型逆转录酶序列的合成靶标或具有指示的6个药物抗性突变的合成靶标的连续1:3稀释液。在6例中的5例中,检测到等位基因频率<30%,在2例中降至3%。

图37使用CARMEN-Cas13测试全面人类相关病毒小组。热图指示检测1h后的背景扣除荧光。PCR引物汇集物和病毒家族分别位于热图的下方和左侧。灰线:在第2轮中未测试的crRNA。“登革热”指示来自4名感染登革热病毒的患者的样品,274个“寨卡”指示来自4名感染寨卡病毒的患者的样品,并且“健康”指示来自健康人类供体的血浆、血清和尿液样品。如果仅在受感染的患者中检测到病毒,则病毒名称以黑色列出,如果在任何阴性对照中检测到病毒,则病毒名称以灰色列出。带有x的紫色线指示在阴性对照中检测到的病毒。图41A至图41F中示出了其他临床样品数据。TLMV:细环样微小病毒;HPV:人乳头瘤病毒;HCV:丙型肝炎病毒;HBV:乙型肝炎病毒;HPIV-1:人类副流感病毒1;HIV:人类免疫缺陷病毒;B19病毒:细小病毒B19。

图38A至图38G 1,050个色码的设计和表征。图38A 1,050个色码的设计。图38B 1,050个色码的3色维度和210个色码的表征示意图。图38C来自210个色码的表征的原始数据。图38D三色空间中210个色码的性能。图38E三色空间中1,050个色码的性能。图38F三色空间中滑动距离过滤器(圆形)的图示。图38G第4个颜色维度中1,050个色码的表征示意图和性能。

图39A至图39G人类相关病毒(HAV)小组设计示意图和统计。图39A在NCBI中有576个人类相关病毒种至少有1个基因组邻居,169个有≥10个基因组邻居。按照区段进行基因组比对,并使用CATCH-dx分析序列多样性以确定最佳引物和crRNA结合位点(有关详细信息参见方法)。图39B人类相关病毒小组设计中各科的物种数量。图39C捕获每一物种内至少90%的序列多样性所需的引物对数量。两个物种需要使用包含简并碱基的引物对。图39D捕获每一物种内至少90%的序列多样性所需的crRNA数量。图39E设计的每一crRNA组覆盖的每一物种内的序列分数;针对169个物种中的164种设计小crRNA组,覆盖率达到90%或更高。为了比较HAV小组的预期的和观察到的性能,图39F引物和图39G crRNA通过序列分析(蓝色或黑色)或基于实验数据(橙色)分类为中靶、低活性或具交叉反应性。

图40A至图40E在人类相关病毒小组测试期间的crRNA性能。图40A第1轮和第2轮的单个指导物的性能。在第1轮和第2轮的数据之间指示了测试轮次之间的重新设计和重新稀释。“中靶”:仅针对预期靶标的反应性高于阈值。“具交叉反应性”:脱靶反应性高于阈值。“低活性”:无反应性高于阈值。图40B第1轮和第2轮中crRNA性能的总结条形图。图40C重新设计、重新稀释以及未更改测试第1轮与第2轮之间一致性的总结表。图40D第1轮和图40E第2轮,第1轮测试内中靶与脱靶反应性的接受者操作特征的分级曲线下面积(AUC)。示出了指定等级的代表性中靶和脱靶分布。

图41A至图41F使用HAV小组进行的合成靶标和临床样品测试。图41A对未知样品进行的样品处理和数据分析。在使用15个汇集物进行多重PCR之后,将PCR产物组合成3个一组。crRNA的子组对应于每个PCR产物汇集物中的引物,如扩展的热图中的颜色所示。复合热图是通过组合来自扩展热图中的PCR产物汇集物的数据生成的。图41B用所有引物汇集物扩增五个合成靶标(104cp/μl),并使用来自HAV小组的169个crRNA加上HCV crRNA 2进行检测。对照与c中所示的对照相同。图41C使用HAV 10小组加HCV crRNA 2测试4个HCV和4个HIV临床样品,显示为复合热图。图41D示出1和3小时的图41C中相同样品仅与HCV crRNA的986反应性。图41E图37中展示的登革热、寨卡病毒和健康样品的病毒子组的PCR扩增评分和CARMEN荧光的比较。图41F图41C中展示的HIV、HCV和健康样品的病毒子组的PCR扩增评分和CARMEN荧光的比较。CARMEN荧光是1小时后的背景扣除荧光,除了HCV crRNA2是3小时后的背景扣除荧光。除非另外指明,否则热图指示1小时后的背景扣除荧光。TLMV:细环样微小病毒;HPV:人乳头瘤病毒;HCV:丙型肝炎病毒;HBV:乙型肝炎病毒;HPIV-1:人类副流感病毒1;HIV:人类免疫缺陷病毒;B19病毒:细小病毒B19。

图42A至图42C甲型流感病毒亚型分型和HIV逆转录酶(RT)突变检测的性能。图42A各甲型流感H亚型crRNA与各靶标的液滴荧光分布。示出了中靶反应性(例如crRNA H1与靶标H1)与所有脱靶活性(例如crRNA H1与任何其他靶标)的接受者操作特征(ROC)曲线。图42B的热图示出了设计来捕获流感N序列多样性的完整crRNA组。使用35个crRNA测试35个合成靶标(104cp/μl)。灰色:低于检测阈值;绿色:荧光计数高于阈值;橙色轮廓:亚型;最下面一行展示检测到哪些靶标。图42C在大多数情况下示出了30min后各HIV RT crRNA-靶标对的液滴荧光分布;对于V106M和M184V示出了3h时间点。图4B中的SNP指数是根据这些分布的中值计算的。

本文中的附图仅用于说明目的,而不一定按比例绘制。

具体实施方式

一般定义

除非另有规定,否则本文所用的技术和科学术语具有与本公开所属领域的普通技术人员通常所理解的相同的含义。在分子生物学中常用的术语和技术的定义可以在以下文献中找到:Molecular Cloning:A Laboratory Manual,第2版(1989)(Sambrook、Fritsch和Maniatis);Molecular Cloning:A Laboratory Manual,第4版(2012)(Green和Sambrook);Current Protocols in Molecular Biology(1987)(F.M.Ausubel等人编辑);the seriesMethods in Enzymology(Academic Press,Inc.):PCR 2:A Practical Approach(1995)(M.J.MacPherson、B.D.Hames和G.R.Taylor编辑):Antibodies,A Laboratory Manual(1988)(Harlow和Lane编辑):Antibodies A Laboratory Manual,第2版2013(E.A.Greenfield编辑);Animal Cell Culture(1987)(R.I.Freshney编辑);BenjaminLewin,Genes IX,Jones and Bartlet出版,2008(ISBN 0763752223);Kendrew等人(编辑),The Encyclopedia of Molecular Biology,Blackwell Science Ltd.出版,1994(ISBN0632021829);Robert A.Meyers(编辑),Molecular Biology and Biotechnology:aComprehensive Desk Reference,VCH Publishers,Inc.出版,1995(ISBN9780471185710);Singleton等人,Dictionary of Microbiology and Molecular Biology第2版,J.Wiley&Sons(New York,N.Y.1994),三月,Advanced Organic ChemistryReactions,Mechanisms and Structure第4版,John Wiley&Sons(New York,N.Y.1992);和Marten H.Hofker和Jan van Deursen,Transgenic Mouse Methods and Protocols,第2版(2011)。

除非上下文另有明确指示,否则如本文所用的单数形式“一个”、“一种”和“所述”包括单数和复数指示物。

术语“任选的”或“任选地”意指后续描述的事件、情形或替代物可能发生或可能不发生,并且该描述包括事件或情形发生的情况和不发生的情况。

通过端点表述的数值范围包括在对应范围内的所有数值和分数,以及所表述的端点。

如本文所用的术语“约”或“近似”当涉及诸如参数、量、时距等可测量的值时,有意涵盖指定值的变化和从指定值的变化,诸如指定值和从指定值+/-10%或更小、+/-5%或更小、+/-1%或更小和+/-0.1%或更小的变化,只要此类变化适于在所公开的发明中执行即可。应当理解,修饰语“约”或“近似”所涉及的值本身也是具体地且优选地公开的。

在本说明书通篇提及“一个实施方案”、“实施方案”、“示例性实施方案”意指结合实施方案描述的特定特征、结构或特性包括于本发明的至少一个实施方案中。因此,在本说明书通篇各处出现短语“在一个实施方案中”、“在实施方案中”或“示例性实施方案”不一定全部指代同一实施方案,但也有可能如此。此外,如本领域技术人员从本公开将明显了解的,在一个或多个实施方案中,特定特征、结构或特性可以按任何适合的方式组合。此外,虽然本文所述的一些实施方案包括其他实施方案中所包括的一些特征而非其他特征,但不同实施方案的特征的组合有意处于本发明的范围内。例如,在所附权利要求中,任何所要求保护的实施方案可以按任何组合使用。

现在将“C2c2”称为“Cas13a”,除非另有说明,否则这些术语在本文中可互换使用。

本文所引用的所有公布、公布的专利文献和专利申请特此以引用方式并入,如同每个单独公布、公布的专利文献或专利申请被确切地且单独地指明为以引用方式整体并入。

综述

本文所公开的实施方案利用靶向RNA的蛋白,通过在液滴中进行检测提供用于大规模多重应用的稳健的基于CRISPR的诊断。本文所公开的实施方案可以相当的灵敏度水平检测DNA和RNA两者,并且可以纳升体积基于单碱基对差异将靶标与非靶标区分开。此类实施方案可用于人类健康的多种情形,包括例如病毒检测、细菌菌株分型、灵敏基因分型、多重SNP检测、多重株系辨别,和疾病相关无细胞DNA的检测。为了便于参考,本文所公开的实施方案也可以称为SHERLOCK(特异性高灵敏度酶促报告子解锁),在一些实施方案中其在可多重化的液滴中进行,有利地允许以小体积进行灵敏检测。

当前公开的主题利用可编程的核酸内切酶,包括单RNA指导的RNA酶(Shmakov等人,2015;Abudayyeh等人,2016;Smargon等人,2017),包括C2c2,以提供用于特定RNA感测的平台。来自微生物成簇规律间隔短回文重复序列(CRISPR)和CRISPR相关(CRISPR-Cas)适应性免疫系统的RNA指导的RNA核酸内切酶可使用CRISPR RNA(crRNA)轻松且方便地进行重新编程以切割靶RNA。RNA指导的RNA酶(如C2c2)在切割其RNA靶标后保持活性,引起附近的非靶向RNA的“附带”切割(Abudayyeh等人,2016)。这种crRNA编程的附带RNA切割活性使得有机会使用RNA指导的RNA酶通过触发可以充当读出的体内程序性细胞死亡或体外非特异性RNA降解来检测特异性RNA的存在(Abudayyeh等人,2016;East-Seletsky等人,2016)。当前公开的主题在液滴应用中利用切割活性来实现与小体积样品的多重反应。

在一方面,提供了一种多重检测系统,所述多重检测系统包括检测CRISPR系统;用于一种或多种靶分子的光学条形码;以及微流体装置。在一些实施方案中,检测CRISPR系统包含靶向RNA的效应蛋白、一种或多种被设计成结合至相应靶分子的指导RNA、基于RNA的掩蔽构建体和光学条形码。在一些实施方案中,微流体装置包括微孔阵列和在微孔下方的至少一个流动通道,微孔的尺寸被设定成捕获至少两个液滴。所述系统可作为试剂盒提供。

在一方面,本文所公开的实施方案涉及用于检测样品中的靶核酸的方法。在一些实施方案中,本文所公开的方法可以包括以下步骤:产生第一组液滴,所述第一组液滴中的每个液滴包含至少一个靶分子和光学条形码;产生第二组液滴,所述第二组液滴中的每个液滴包含检测CRISPR系统,所述检测CRISPR系统包含靶向RNA的效应蛋白和一种或多种被设计成结合至相应靶分子的指导RNA、基于RNA的掩蔽构建体和任选的光学条形码;将所述第一组液滴和所述第二组液滴组合成液滴汇集物,并使所述组合的液滴汇集物流到微流体装置上,所述装置包括微孔阵列和在微孔下方的至少一个流动通道,所述微孔的尺寸被设定成捕获至少两个液滴;将液滴捕获于所述微孔中并检测在每个微孔中捕获的液滴的光学条形码;将在每个微孔中捕获的液滴合并以在每个微孔中形成合并液滴,所述合并液滴的至少一个子组包含检测CRISPR系统和靶序列;启动检测反应。然后将合并的液滴保持在足以允许一种或多种指导RNA与一种或多种靶分子结合的条件下。一种或多种指导RNA与靶核酸的结合进而激活CRISPR效应蛋白。一旦被激活,CRISPR效应蛋白随后使掩蔽构建体失活,例如,通过切割掩蔽构建体以使得可检测阳性信号被揭露、释放或产生。可以在一个或多个时间段检测和测量每个合并液滴的可检测信号,当例如存在阳性可检测信号时指示靶分子的存在。

在特定实施方案中,所述系统高度针对单个样品,使得第二组条形码中的光学条形码不需要或是任选的。在某些实施方案中,先进的、改善的或更强大的预扩增方法允许省略一组液滴中的光学条形码。因此,一组液滴中的光学条形码是任选的,并且可取决于特定应用(包括样品质量、靶标特异性、预扩增技术等变量)而包括在内。

多重检测系统

公开了多重系统,所述多重系统包括:检测CRISPR系统,所述检测CRISPR系统包含靶向RNA的效应蛋白和一种或多种被设计成结合至相应靶分子的指导RNA、基于RNA的掩蔽构建体和光学条形码;一种或多种靶分子光学条形码;以及微流体装置,所述微流体装置包括微孔阵列和在微孔下方的至少一个流动通道。在多个实施方案中,微孔的尺寸被设定成捕获至少两个液滴。

一般来讲,如本文中和诸如WO 2014/093622(PCT/US2013/074667)的文献中所用的CRISPR-Cas或CRISPR系统共同地涉及CRISPR相关的(“Cas”)基因的表达中所涉及或引导所述基因的活性的转录物和其他元件,包括编码Cas基因的序列、tracr(反式激活CRISPR)序列(例如tracrRNA或活性部分tracrRNA)、tracr配对序列(在内源性CRISPR系统的情形中涵盖“正向重复序列”和tracrRNA加工的部分正向重复序列)、指导序列(在内源性CRISPR系统的情形中也称为“间隔区”),或如本文所用的那个术语“一种或多种RNA”(例如用以导向Cas诸如Cas9的一种或多种RNA,例如CRISPR RNA和反式激活(tracr)RNA或单指导RNA(sgRNA)(嵌合RNA)),或来自CRISPR基因座的其他序列和转录物。一般来讲,CRISPR系统由促进在靶序列的位点处CRISPR复合物形成的元件表征(在内源性CRISPR系统的情形中也称为原间隔区)。

靶向RNA的Cas蛋白

当Cas蛋白是C2c2蛋白时,不需要tracrRNA。C2c2已描述于Abudayyeh等人(2016)“C2c2 is a single-component programmable RNA-guided RNA-targeting CRISPReffector”;Science;DOI:10.1126/science.aaf5573;以及Shmakov等人(2015)“Discoveryand Functional Characterization of Diverse Class 2CRISPR-Cas Systems”,Molecular Cell,DOI:dx.doi.org/10.1016/j.molcel.2015.10.008;所述文献以引用方式整体并入本文。Cas13b已描述于Smargon等人(2017)“Cas13b Is a Type VI-B CRISPR-Associated RNA-Guided RNases Differentially Regulated by Accessory ProteinsCsx27 and Csx28,”Molecular Cell.65,1-13;dx.doi.org/10.1016/j.molcel.2016.12.023.,所述文献以引用方式整体并入本文。国际申请号PCT/US2017/065477,表1至表6,第40-52页中描述的CRISPR效应蛋白可用于当前公开的方法、系统和装置中,并且以引用方式具体并入本文。

所述两个或更多个CRISPR系统可以是靶向RNA的蛋白、靶向DNA的效应蛋白或它们的组合。所述靶向RNA的蛋白可以是Cas13蛋白,诸如Cas13a、Cas13b或Cas13c。所述靶向DNA的蛋白可以是Cas12蛋白,诸如Cpf1和C2c1。

Cpf1直系同源物

本发明涵盖来源于被指代为亚型V-A的Cpf1基因座的Cpf1效应蛋白的用途。在本文中,此类效应蛋白也称为“Cpf1p”,例如Cpf1蛋白(并且这种效应蛋白或Cpf1蛋白或来源于Cpf1基因座的蛋白也称为“CRISPR酶”)。目前,亚型V-A基因座包括cas1、cas2(指代为cpf1的独特基因)和CRISPR阵列。Cpf1(CRISPR相关蛋白Cpf1,亚型PREFRAN)是一种大蛋白(约1300个氨基酸),它含有与Cas9的相应结构域同源的RuvC样核酸酶结构域,以及与Cas9的特征性精氨酸富集簇相对应的部分。但是,Cpf1缺乏所有Cas9蛋白中都存在的HNH核酸酶结构域,而RuvC样结构域在Cpf1序列中是连续的,相比之下Cas9含有长插入片段,包括HNH结构域。因此,在特定实施方案中,CRISPR-Cas酶仅包含RuvC样核酸酶结构域。

RNA指导的Cpf1的可编程性、特异性和附带活性也使其成为用于核酸非特异性切割的理想可切换核酸酶。在一个实施方案中,将Cpf1系统工程化以提供并利用RNA的附带非特异性切割。在另一个实施方案中,将Cpf1系统工程化以提供并利用ssDNA的附带非特异性切割。因此,工程化的Cpf1系统提供了用于核酸检测和转录组操纵的平台。Cpf1被开发用作哺乳动物转录敲减和结合的工具。当被序列特异性的靶向DNA结合激活时,Cpf1能够对RNA和ssDNA进行稳健的附带切割。

术语“直系同源物(orthologue)”(在本文中也称为“直系同源物(ortholog)”)和“同系物(homologue)”(本文中也称为“同系物(homolog)”)在本领域中是众所周知的。作为进一步指导,如本文所用的蛋白质的“同系物”是与作为其同系物的蛋白质发挥相同或类似功能的相同种类的蛋白质。同源蛋白质可以是但不需要是结构上相关的,或仅是部分结构上相关的。如本文所用的蛋白质的“直系同源物”是与作为其直系同源物的蛋白质发挥相同或类似功能的不同种类的蛋白质。直系同源蛋白质可以是但不需要是结构上相关的,或仅是部分结构上相关的。同源物和直系同源物可以通过同源建模(参见例如Greer,Science第228卷(1985)1055和Blundell等人Eur J Biochem vol 172(1988),513)或“结构BLAST”(Dey F,Cliff Zhang Q,Petrey D,Honig B.Toward a"structural BLAST":usingstructural relationships to infer function.Protein Sci.2013年4月;22(4):359-66.doi:10.1002/pro.2225.)。另参见Shmakov等人(2015)了解在CRISPR-Cas基因座领域中的申请。同源蛋白质可以是但不需要是结构上相关的,或仅是部分结构上相关的。

Cpf1基因存在于若干种不同的细菌基因组中,典型地与cas1、cas2和cas4基因以及CRISPR盒(例如新凶手弗朗西斯菌(Francisella cf.novicida)Fx1的FNFX1_1431-FNFX1_1428)在同一基因座中。因此,此推定的新颖CRISPR-Cas系统的布局似乎与II-B型的布局类似。此外,与Cas9类似,Cpf1蛋白含有与转座子ORF-B同源的易于鉴定的C端区,并且包含活性的RuvC样核酸酶、富含精氨酸的区和Zn指(不存在于Cas9中)。然而,与Cas9不同,Cpf1还存在于没有CRISPR-Cas环境的若干种基因组中,并且其与ORF-B的相对较高相似性表明其可能是转座子组分。表明如果此是真正的CRISPR-Cas系统并且Cpf1是Cas9的功能类似物,则其将是新颖CRISPR-Cas类型,即V型(参见Annotation and Classification ofCRISPR-Cas Systems.Makarova KS,Koonin EV.Methods Mol Biol.2015;1311:47-75)。然而,如本文所述,将Cpf1指代为亚型V-A以将其与C2c1p区分,该C2c1p不具有相同的结构域结构并且因此被指代为亚型V-B。

在特定实施方案中,效应蛋白是来自源自包括以下的属的生物体的Cpf1效应蛋白:链球菌属(Streptococcus)、弯曲杆菌属(Campylobacter)、硝酸盐裂解菌属(Nitratifractor)、葡萄球菌属(Staphylococcus)、细小棒菌属(Parvibaculum)、罗氏菌属(Roseburia)、奈瑟氏菌属(Neisseria)、葡糖醋杆菌属(Gluconacetobacter)、固氮螺菌属(Azospirillum)、单丝壳属(Sphaerochaeta)、乳杆菌属(Lactobacillus)、真杆菌属(Eubacterium)、棒状杆菌属(Corynebacter)、肉杆菌属(Carnobacterium)、红细菌属(Rhodobacter)、李斯特菌属(Listeria)、沼杆菌属(Paludibacter)、梭菌属(Clostridium)、毛螺菌科(Lachnospiraceae)、Clostridiaridium、纤毛菌属(Leptotrichia)、弗朗西斯菌属(Francisella)、军团菌属(Legionella)、脂环酸芽孢杆菌属(Alicyclobacillus)、甲烷嗜甲基菌属(Methanomethyophilus)、卟啉单胞菌属(Porphyromonas)、普雷沃氏菌属(Prevotella)、拟杆菌门(Bacteroidetes)、创伤球菌属(Helcococcus)、钩端螺旋体属(Letospira)、脱硫弧菌属(Desulfovibrio)、脱硫盐碱杆菌属(Desulfonatronum)、丰佑菌科(Opitutaceae)、肿块芽孢杆菌属(Tuberibacillus)、芽孢杆菌属(Bacillus)、短芽孢杆菌属(Brevibacilus)、甲基杆菌属(Methylobacterium)或氨基酸球菌属(Acidaminococcus)。

在另外的特定实施方案中,Cpf1效应蛋白来自选自以下的生物体:变异链球菌(S.mutans)、无乳链球菌(S.agalactiae)、似马链球菌(S.equisimilis)、血链球菌(S.sanguinis)、肺炎链球菌;空肠弯曲杆菌(C.jejuni)、大肠弯曲杆菌(C.coli);N.salsuginis、N.tergarcus;耳葡萄球菌(S.auricularis)、肉葡萄球菌(S.carnosus);脑膜炎奈瑟氏菌(N.meningitides)、淋病奈瑟氏菌(N.gonorrhoeae);单核增生李斯特菌(L.monocytogenes)、伊氏李斯特菌(L.ivanovii);肉毒梭菌(C.botulinum)、艰难梭菌(C.difficile)、破伤风梭菌(C.tetani)、索氏梭菌(C.sordellii)。

效应蛋白可包含嵌合效应蛋白,所述嵌合效应蛋白包含来自第一效应蛋白(例如Cpf1)直系同源物的第一片段和来自第二效应蛋白(例如Cpf1)直系同源物的第二片段,并且其中第一和第二效应蛋白直系同源物是不同的。第一和第二效应蛋白(例如Cpf1)直系同源物中的至少一者可以包含来自包括以下的生物体的效应蛋白(例如Cpf1):链球菌属、弯曲杆菌属、硝酸盐裂解菌属、葡萄球菌属、细小棒菌属、罗氏菌属、奈瑟氏菌属、葡糖醋杆菌属、固氮螺菌属、单丝壳属、乳杆菌属、真杆菌属、棒状杆菌属、肉杆菌属、红细菌属、李斯特菌属、沼杆菌属、梭菌属、毛螺菌科、Clostridiaridium、纤毛菌属、弗朗西斯菌属、军团菌属、脂环酸芽孢杆菌属、甲烷嗜甲基菌属、卟啉单胞菌属、普雷沃氏菌属、拟杆菌门、创伤球菌属、钩端螺旋体属、脱硫弧菌属、脱硫盐碱杆菌属、丰佑菌科、肿块芽孢杆菌属、芽孢杆菌属、短芽孢杆菌属、甲基杆菌属或氨基酸球菌属;例如包含第一片段和第二片段的嵌合效应蛋白,其中第一片段和第二片段各自选自包括以下的生物体的Cpf1:链球菌属、弯曲杆菌属、硝酸盐裂解菌属、葡萄球菌属、细小棒菌属、罗氏菌属、奈瑟氏菌属、葡糖醋杆菌属、固氮螺菌属、单丝壳属、乳杆菌属、真杆菌属、棒状杆菌属、肉杆菌属、红细菌属、李斯特菌属、沼杆菌属、梭菌属、毛螺菌科、Clostridiaridium、纤毛菌属、弗朗西斯菌属、军团菌属、脂环酸芽孢杆菌属、甲烷嗜甲基菌属、卟啉单胞菌属、普雷沃氏菌属、拟杆菌门、创伤球菌属、钩端螺旋体属、脱硫弧菌属、脱硫盐碱杆菌属、丰佑菌科、肿块芽孢杆菌属、芽孢杆菌属、短芽孢杆菌属、甲基杆菌属或氨基酸球菌属,其中第一片段和第二片段并非来自相同细菌;例如包含第一片段和第二片段的嵌合效应蛋白,其中第一片段和第二片段各自选自以下的Cpf1:变异链球菌、无乳链球菌、似马链球菌、血链球菌、肺炎链球菌;空肠弯曲杆菌、大肠弯曲杆菌;N.salsuginis、N.tergarcus;耳葡萄球菌、肉葡萄球菌;脑膜炎奈瑟氏菌、淋病奈瑟氏菌;单核增生李斯特菌、伊氏李斯特菌;肉毒梭菌、艰难梭菌、破伤风梭菌、索氏梭菌、土拉弗朗西斯菌1、易北普雷沃氏菌、毛螺菌科细菌MC2017 1、解蛋白丁酸弧菌、异域菌门细菌GW2011_GWA2_33_10、俭菌超门细菌GW2011_GWC2_44_17、史密斯氏菌属种SCADC、氨基酸球菌属种BV3L6、毛螺菌科细菌MA2020、候选白蚁甲烷支原体、挑剔真杆菌、牛眼莫拉氏菌237、稻田氏钩端螺旋体、毛螺菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃氏菌和猕猴卟啉单胞菌,其中第一片段和第二片段并非来自相同细菌。

在更优选的实施方案中,Cpf1p来源于选自以下的细菌种类:土拉弗朗西斯菌1、易北普雷沃氏菌、毛螺菌科细菌MC2017 1、解蛋白丁酸弧菌、异域菌门细菌GW2011_GWA2_33_10、俭菌超门细菌GW2011_GWC2_44_17、史密斯氏菌属种SCADC、氨基酸球菌属种BV3L6、毛螺菌科细菌MA2020、候选白蚁甲烷支原体、挑剔真细菌、牛眼莫拉氏菌237、稻田氏钩端螺旋体、毛螺菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃氏菌和猕猴卟啉单胞菌。在某些实施方案中,Cpf1p来源于选自以下的细菌种类:氨基酸球菌属种BV3L6、毛螺菌科细菌MA2020。在某些实施方案中,效应蛋白来源于土拉弗朗西斯菌1的亚种,包括但不限于土拉弗朗西斯菌新凶手亚种。

在一些实施方案中,Cpf1p来源于来自真杆菌属的生物体。在一些实施方案中,CRISPR效应蛋白是来源于来自细菌种类直肠真细菌的生物体的Cpf1蛋白。在一些实施方案中,Cpf1效应蛋白的氨基酸序列对应于NCBI参考序列WP_055225123.1、NCBI参考序列WP_055237260.1、NCBI参考序列WP_055272206.1或GenBank ID OLA16049.1。在一些实施方案中,Cpf1效应蛋白与NCBI参考序列WP_055225123.1、NCBI参考序列WP_055237260.1、NCBI参考序列WP_055272206.1或GenBank ID OLA16049.1具有至少60%,更特别地至少70%,诸如至少80%,更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同源性或序列同一性。技术人员将理解,这包括Cpf1蛋白的截短形式,由此在截短形式的长度上确定序列同一性。在一些实施方案中,Cpf1效应子识别TTTN或CTTN的PAM序列。

在特定实施方案中,如本文所提及的Cpf1的同系物或直系同源物与Cpf1具有至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同源性或同一性。在另外的实施方案中,如本文所提及的Cpf1的同系物或直系同源物与野生型Cpf1具有至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同一性。在Cpf1具有一个或多个突变(是突变的)的情况下,如本文所提及的所述Cpf1的同系物或直系同源物与突变的Cpf1具有至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同一性。

在一个实施方案中,Cpf1蛋白可以是包括但不限于以下的属的生物体的直系同源物:氨基酸球菌属种、毛螺菌科细菌或牛眼莫拉氏菌;在特定实施方案中,V型Cas蛋白可以是包括但不限于以下的种的生物体的直系同源物:氨基酸球菌属种BV3L6、毛螺菌科细菌ND2006(LbCpf1)或牛眼莫拉氏菌237。在特定实施方案中,如本文所提及的Cpf1的同系物或直系同源物与本文所公开的Cpf1序列中的一者或多者具有至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同源性或同一性。在另外的实施方案中,如本文所提及的Cpf的同系物或直系同源物与野生型FnCpf1、AsCpf1或LbCpf1具有至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同一性。

在特定实施方案中,本发明的Cpf1蛋白与FnCpf1、AsCpf1或LbCpf1具有至少60%,更特别地至少70%,诸如至少80%,更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同源性或同一性。在另外的实施方案中,如本文所提及的Cpf1蛋白与野生型AsCpf1或LbCpf1具有至少60%,诸如至少70%,更特别地至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同一性。在特定实施方案中,本发明的Cpf1蛋白与FnCpf1具有少于60%的序列同一性。技术人员将理解,这包括Cpf1蛋白的截短形式,由此在截短形式的长度上确定序列同一性。

在以下某些内容中,Cpf1氨基酸后跟核定位信号(NLS)(斜体)、甘氨酸-丝氨酸(GS)接头和3x HA标签。1-土拉弗朗西斯菌新凶手亚种U112(FnCpf1);3-毛螺菌科细菌MC2017(Lb3Cpf1);4-解蛋白丁酸弧菌(BpCpf1);5-异域菌门细菌GW2011_GWA_33_10(PeCpf1);6-俭菌超门细菌GWC2011_GWC2_44_17(PbCpf1);7-史密斯氏菌属种SC_K08D17(SsCpf1);8-氨基酸球菌属种BV3L6(AsCpf1);9-毛螺菌科细菌MA2020(Lb2Cpf1);10-候选白蚁甲烷支原体(CMtCpf1);11-挑剔真杆菌(EeCpf1);12-牛眼莫拉氏菌237(MbCpf1);13-稻田氏钩端螺旋体(LiCpf1);14-毛螺菌科细菌ND2006(LbCpf1);15-狗口腔卟啉单胞菌(PcCpf1);16-解糖胨普雷沃氏菌(PdCpf1);17-猕猴卟啉单胞菌(PmCpf1);18-硫微螺菌属种XS5(TsCpf1);19-牛眼莫拉氏菌AAX08_00205(Mb2Cpf1);20-牛眼莫拉氏菌AAX11_00205(Mb3Cpf1);和21-丁酸弧菌属种NC3005(BsCpf1)。

其他Cpf1直系同源物包括NCBI WP_055225123.1、NCBI WP_055237260.1、NCBIWP_055272206.1和GenBank OLA16049.1。

C2c1直系同源物

本发明涵盖来源于被指代为亚型V-B的C2c1基因座的C2c1效应蛋白的用途。在本文中,此类效应蛋白也称为“C2c1p”,例如C2c1蛋白(并且这种效应蛋白或C2c1蛋白或来源于C2c1基因座的蛋白也称为“CRISPR酶”)。目前,亚型V-B基因座包括cas1-Cas4融合物、cas2(指代为C2c1的独特基因)和CRISPR阵列。C2c1(CRISPR相关蛋白C2c1)是一种大蛋白(约1100-1300个氨基酸),它含有与Cas9的相应结构域同源的RuvC样核酸酶结构域,以及与Cas9的特征性精氨酸富集簇相对应的部分。但是,C2c1缺乏所有Cas9蛋白中都存在的HNH核酸酶结构域,而RuvC样结构域在C2c1序列中是连续的,相比之下Cas9含有长插入片段,包括HNH结构域。因此,在特定实施方案中,CRISPR-Cas酶仅包含RuvC样核酸酶结构域。

C2c1(也称为Cas12b)蛋白是RNA指导的核酸酶。其切割依赖于tracr RNA以募集包含指导序列和正向重复序列的指导RNA,其中所述指导序列与靶核苷酸序列杂交以形成DNA/RNA异源双链体。基于目前的研究,C2c1核酸酶活性还需要依赖于PAM序列的识别。C2c1PAM序列是T富集序列。在一些实施方案中,PAM序列是5’TTN 3'或5’ATTN 3',其中N是任何核苷酸。在特定实施方案中,PAM序列是5’TTC 3'。在特定实施方案中,PAM处于恶性疟原虫的序列之中。

C2c1在靶基因座处产生交错切口,在靶序列的PAM远端侧具有5’突出端或“粘性末端”。在一些实施方案中,5'突出端为7nt。参见Lewis和Ke,Mol Cell.2017年2月2日;65(3):377-379。

本发明提供了C2c1(V-B型;Cas12b)效应蛋白和直系同源物。术语“直系同源物(orthologue)”(在本文中也称为“直系同源物(ortholog)”)和“同系物(homologue)”(本文中也称为“同系物(homolog)”)在本领域中是众所周知的。作为进一步指导,如本文所用的蛋白质的“同系物”是与作为其同系物的蛋白质发挥相同或类似功能的相同种类的蛋白质。同源蛋白质可以是但不需要是结构上相关的,或仅是部分结构上相关的。如本文所用的蛋白质的“直系同源物”是与作为其直系同源物的蛋白质发挥相同或类似功能的不同种类的蛋白质。直系同源蛋白质可以是但不需要是结构上相关的,或仅是部分结构上相关的。同源物和直系同源物可以通过同源建模(参见例如Greer,Science第228卷(1985)1055和Blundell等人Eur J Biochem vol 172(1988),513)或“结构BLAST”(Dey F,Cliff ZhangQ,Petrey D,Honig B.Toward a"structural BLAST":using structural relationshipsto infer function.Protein Sci.2013年4月;22(4):359-66.doi:10.1002/pro.2225.)。另参见Shmakov等人(2015)了解在CRISPR-Cas基因座领域中的申请。同源蛋白质可以是但不需要是结构上相关的,或仅是部分结构上相关的。

C2c1基因存在于若干种不同的细菌基因组中,典型地与cas1、cas2和cas4基因以及CRISPR盒在同一基因座中。因此,此推定的新颖CRISPR-Cas系统的布局似乎与II-B型的布局类似。此外,与Cas9类似,C2c1蛋白含有活性的RuvC样核酸酶、精氨酸富集区和Zn指(不存在于Cas9中)。

在特定实施方案中,效应蛋白是来自源自包括以下的属的生物体的C2c1效应蛋白:脂环酸芽孢杆菌属、脱硫弧菌属、脱硫盐碱杆菌属、丰佑菌科、肿块芽孢杆菌属、芽孢杆菌属、短芽孢杆菌属、候选种、脱硫杆菌属、柠檬酸杆菌属、迷踪菌门、甲基杆菌属、杂食菌门、浮霉菌纲、浮霉菌门、螺旋体属和疣微菌科。

在另外的特定实施方案中,C2c1效应蛋白来自选自以下的种类:抗酸土脂环酸芽孢杆菌(例如ATCC 49025)、污染脂环酸芽孢杆菌(例如DSM 17975)、大孢束脂环酸芽孢杆菌(例如DSM 17980)、外村尚芽孢杆菌菌株C4、候选林道菌属细菌RIFCSPLOWO2、非常脱硫弧菌(例如DSM 10711)、硫歧化酶脱硫盐碱杆菌(例如菌株MLF-1)、迷踪菌门细菌RIFOXYA12、杂食菌门WOR_2细菌RIFCSPHIGHO2、丰佑菌科细菌TAV5、浮霉菌纲细菌ST-NAGAB-D1、浮霉菌门细菌RBG_13_46_10、螺旋体属细菌GWB1_27_13、疣微菌科细菌UBA2429、热生肿块芽胞杆菌(例如DSM 17572)、嗜热淀粉芽孢杆菌(例如菌株B4166)、短芽孢杆菌属种CF112、芽孢杆菌属种NSP2.1、食丁酸盐还原硫酸盐小杆菌(例如DSM 18734)、草脂环酸芽孢杆菌(例如DSM13609)、弗氏柠檬酸杆菌(例如ATCC 8090)、土壤短芽孢杆菌(例如BAB-2500)、结瘤甲基杆菌(例如ORS 2060)。

效应蛋白可包含嵌合效应蛋白,所述嵌合效应蛋白包含来自第一效应蛋白(例如C2c1)直系同源物的第一片段和来自第二效应蛋白(例如C2c1)直系同源物的第二片段,并且其中第一和第二效应蛋白直系同源物是不同的。第一和第二效应蛋白(例如C2c1)直系同源物中的至少一者可以包含来自包括以下的生物体的效应蛋白(例如C2c1):脂环酸芽孢杆菌属、脱硫弧菌属、脱硫盐碱杆菌属、丰佑菌科、肿块芽孢杆菌属、芽孢杆菌属、短芽孢杆菌属、候选种、脱硫杆菌属、柠檬酸杆菌属、迷踪菌门、甲基杆菌属、杂食菌门、浮霉菌纲、浮霉菌门、螺旋体属和疣微菌科;例如包含第一片段和第二片段的嵌合效应蛋白,其中第一片段和第二片段各自选自包括以下的生物体的C2c1:脂环酸芽孢杆菌属、脱硫弧菌属、脱硫盐碱杆菌属、丰佑菌科、肿块芽孢杆菌属、芽孢杆菌属、短芽孢杆菌属、候选种、脱硫杆菌属、迷踪菌门、柠檬酸杆菌属、甲基杆菌属、杂食菌门、浮霉菌纲、浮霉菌门、螺旋体属和疣微菌科,其中第一片段和第二片段并非来自相同细菌;例如包含第一片段和第二片段的嵌合效应蛋白,其中第一片段和第二片段各自选自以下的C2c1:抗酸土脂环酸芽孢杆菌(例如ATCC49025)、污染脂环酸芽孢杆菌(例如DSM 17975)、大孢束脂环酸芽孢杆菌(例如DSM 17980)、外村尚芽孢杆菌菌株C4、候选林道菌属细菌RIFCSPLOWO2、非常脱硫弧菌(例如DSM 10711)、硫歧化酶脱硫盐碱杆菌(例如菌株MLF-1)、迷踪菌门细菌RIFOXYA12、杂食菌门WOR_2细菌RIFCSPHIGHO2、丰佑菌科细菌TAV5、浮霉菌纲细菌ST-NAGAB-D1、浮霉菌门细菌RBG_13_46_10、螺旋体属细菌GWB1_27_13、疣微菌科细菌UBA2429、热生肿块芽胞杆菌(例如DSM17572)、嗜热淀粉芽孢杆菌(例如菌株B4166)、短芽孢杆菌属种CF112、芽孢杆菌属种NSP2.1、食丁酸盐还原硫酸盐小杆菌(例如DSM 18734)、草脂环酸芽孢杆菌(例如DSM13609)、弗氏柠檬酸杆菌(例如ATCC 8090)、土壤短芽孢杆菌(例如BAB-2500)、结瘤甲基杆菌(例如ORS 2060),其中第一片段和第二片段并非来自相同细菌。

在更优选的实施方案中,C2c1p来源于选自以下的种类:抗酸土脂环酸芽孢杆菌(例如ATCC 49025)、污染脂环酸芽孢杆菌(例如DSM 17975)、大孢束脂环酸芽孢杆菌(例如DSM 17980)、外村尚芽孢杆菌菌株C4、候选林道菌属细菌RIFCSPLOWO2、非常脱硫弧菌(例如DSM 10711)、硫歧化酶脱硫盐碱杆菌(例如菌株MLF-1)、迷踪菌门细菌RIFOXYA12、杂食菌门WOR_2细菌RIFCSPHIGHO2、丰佑菌科细菌TAV5、浮霉菌纲细菌ST-NAGAB-D1、浮霉菌门细菌RBG_13_46_10、螺旋体属细菌GWB1_27_13、疣微菌科细菌UBA2429、热生肿块芽胞杆菌(例如DSM 17572)、嗜热淀粉芽孢杆菌(例如菌株B4166)、短芽孢杆菌属种CF112、芽孢杆菌属种NSP2.1、食丁酸盐还原硫酸盐小杆菌(例如DSM 18734)、草脂环酸芽孢杆菌(例如DSM13609)、弗氏柠檬酸杆菌(例如ATCC 8090)、土壤短芽孢杆菌(例如BAB-2500)、结瘤甲基杆菌(例如ORS 2060)。在某些实施方案中,C2c1p来源于选自以下的细菌种类:嗜酸脂环酸芽孢杆菌(例如ATCC 49025)、污染脂环酸芽孢杆菌(例如DSM 17975)。

在特定实施方案中,如本文所提及的C2c1的同系物或直系同源物与C2c1具有至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同源性或同一性。在另外的实施方案中,如本文所提及的C2c1的同系物或直系同源物与野生型C2c1具有至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同一性。在C2c1具有一个或多个突变(是突变的)的情况下,如本文所提及的所述C2c1的同系物或直系同源物与突变的C2c1具有至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同一性。

在一个实施方案中,C2c1蛋白可以是包括但不限于以下的属的生物体的直系同源物:脂环酸芽孢杆菌属、脱硫弧菌属、脱硫盐碱杆菌属、丰佑菌科、肿块芽孢杆菌属、芽孢杆菌属、短芽孢杆菌属、候选种、脱硫杆菌属、柠檬酸杆菌属、迷踪菌门、甲基杆菌属、杂食菌门、浮霉菌纲、浮霉菌门、螺旋体属和疣微菌科;在特定实施方案中,V型Cas蛋白可以是包括但不限于以下的种类的生物体的直系同源物:抗酸土脂环酸芽孢杆菌(例如ATCC49025)、污染脂环酸芽孢杆菌(例如DSM 17975)、大孢束脂环酸芽孢杆菌(例如DSM 17980)、外村尚芽孢杆菌菌株C4、候选林道菌属细菌RIFCSPLOWO2、非常脱硫弧菌(例如DSM 10711)、硫歧化酶脱硫盐碱杆菌(例如菌株MLF-1)、迷踪菌门细菌RIFOXYA12、杂食菌门WOR_2细菌RIFCSPHIGHO2、丰佑菌科细菌TAV5、浮霉菌纲细菌ST-NAGAB-D1、浮霉菌门细菌RBG_13_46_10、螺旋体属细菌GWB1_27_13、疣微菌科细菌UBA2429、热生肿块芽胞杆菌(例如DSM17572)、嗜热淀粉芽孢杆菌(例如菌株B4166)、短芽孢杆菌属种CF112、芽孢杆菌属种NSP2.1、食丁酸盐还原硫酸盐小杆菌(例如DSM 18734)、草脂环酸芽孢杆菌(例如DSM13609)、弗氏柠檬酸杆菌(例如ATCC 8090)、土壤短芽孢杆菌(例如BAB-2500)、结瘤甲基杆菌(例如ORS 2060)。在特定实施方案中,如本文所提及的C2c1的同系物或直系同源物与本文所公开的C2c1序列中的一者或多者具有至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同源性或同一性。在另外的实施方案中,如本文所提及的C2c1的同系物或直系同源物与野生型AacC2c1或BthC2c1具有至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同一性。

在特定实施方案中,本发明的C2c1蛋白与AacC2c1或BthC2c1具有至少60%,更特别地至少70%,诸如至少80%,更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同源性或同一性。在另外的实施方案中,如本文所提及的C2c1蛋白与野生型AacC2c1具有至少60%,诸如至少70%,更特别地至少80%、更优选地至少85%、甚至更优选地至少90%,诸如例如至少95%的序列同一性。在特定实施方案中,本发明的C2c1蛋白与AacC2c1具有少于60%的序列同一性。技术人员将理解,这包括C2c1蛋白的截短形式,由此在截短形式的长度上确定序列同一性。

在根据本发明的某些方法中,优选地相对于相应的野生型酶使CRISPR-Cas蛋白突变,使得所述突变的CRISPR-Cas蛋白缺乏切割含有靶序列的靶基因座的一条或两条DNA链的能力。在特定实施方案中,使C2c1蛋白的一个或多个催化结构域突变以产生仅切割靶序列的一条DNA链的突变的Cas蛋白。

在特定实施方案中,可以相对于相应的野生型酶使CRISPR-Cas蛋白突变,使得所述突变的CRISPR-Cas蛋白基本上缺乏所有的DNA切割活性。在一些实施方案中,当突变酶的切割活性为所述酶的非突变形式的核酸切割活性的约不超过25%、10%、5%、1%、0.1%、0.01%或更低时,认为CRISPR-Cas蛋白基本上缺乏所有的DNA和/或RNA切割活性;一个实例可以是当突变形式的核酸切割活性与非突变形式相比是零或可忽略不计时。

在本文提供的方法的某些实施方案中,CRISPR-Cas蛋白是仅切割一条DNA链的突变CRISPR-Cas蛋白,即切口酶。更特别地,在本发明的情形中,所述切口酶确保在非靶序列(即,在靶序列的相反DNA链上并且是PAM序列的3’的序列)内的切割。作为进一步指导且非限制性地,来自脂环酸芽孢杆菌的C2c1的Nuc结构域中的精氨酸至丙氨酸取代(R911A)将C2c1从切割两条链的核酸酶转化为切口酶(切割单条链)。本领域技术人员将理解,在酶不是AacC2c1的情况下,可以在相应位置的残基处形成突变。

在某些实施方案中,C2c1蛋白是无催化活性的C2c1,其在RuvC结构域中包含突变。在一些实施方案中,无催化活性的C2c1蛋白包含对应于脂环酸芽孢杆菌C2c1中的氨基酸位置D570、E848或D977的突变。在一些实施方案中,无催化活性的C2c1蛋白包含对应于脂环酸芽孢杆菌C2c1中的D570A、E848A或D977A的突变。

RNA指导的C2c1的可编程性、特异性和附带活性也使其成为用于核酸非特异性切割的理想可切换核酸酶。在一个实施方案中,将C2c1系统工程化以提供并利用RNA的附带非特异性切割。在另一个实施方案中,将C2c1系统工程化以提供并利用ssDNA的附带非特异性切割。因此,工程化的C2c1系统提供了用于核酸检测和转录组操纵以及诱导细胞死亡的平台。C2c1被开发用作哺乳动物转录敲减和结合的工具。当被序列特异性的靶向DNA结合激活时,C2c1能够对RNA和ssDNA进行稳健的附带切割。

在某些实施方案中,C2c1在体外系统或在细胞中瞬时或稳定地提供或表达,并被靶向或触发以非特异性地切割细胞核酸。在一个实施方案中,将C2c1工程化以敲减ssDNA,例如病毒ssDNA。在另一个实施方案中,将C2c1工程化以敲减RNA。可将所述系统设计成使得敲减依赖于细胞或体外系统中存在的靶DNA,或通过向系统或细胞中添加靶核酸来触发。

在一个实施方案中,将C2c1系统工程化以非特异性地切割细胞的亚群中的RNA,所述细胞的亚群可通过异常DNA序列的存在来区分,举例来说,其中异常DNA的切割可能是不完全的或无效的。在一个非限制性实例中,靶向存在于癌细胞中并驱动细胞转化的DNA易位。经历染色体DNA和修复的细胞亚群可存活,而非特异性的附带核糖核酸酶活性则有利地导致潜在存活者的细胞死亡。

最近,附带活性被用于称为SHERLOCK的高度灵敏且具特异性的核酸检测平台,所述平台可用于许多临床诊断(Gootenberg,J.S.等人Nucleic acid detection withCRISPR-Cas13a/C2c2.Science 356,438-442(2017))。

根据本发明,工程化的C2c1系统被优化用于DNA或RNA核酸内切酶活性,并且可在哺乳动物细胞中表达并且被靶向以有效地敲减细胞中的报告分子或转录物。

在某些实施方案中,原间隔区相邻基序(PAM)或PAM样基序引导如本文所公开的效应蛋白复合物结合至目标靶基因座。在一些实施方案中,PAM可以是5'PAM(即,位于原间隔区的5’末端上游)。在其他实施方案中,PAM可以是3'PAM(即,位于原间隔区的5’末端下游)。术语“PAM”可以与术语“PFS”或“原间隔区侧接位点”或“原间隔区侧接序列”互换使用。

在优选实施方案中,CRISPR效应蛋白可以识别3’PAM。在某些实施方案中,CRISPR效应蛋白可以识别作为5'H的3'PAM,其中H是A、C或U。在某些实施方案中,效应蛋白可以是沙氏纤毛菌C2c2p,更优选地是沙氏纤毛菌DSM 19757C2c2,并且3’PAM为5’H。

在形成CRISPR复合物的情形中,“靶序列”是指指导序列被设计成与其具有互补性的序列,其中靶序列与指导序列之间的杂交促进CRISPR复合物的形成。靶序列可以包含RNA多核苷酸。术语“靶RNA”是指是或包含靶序列的RNA多核苷酸。换句话说,靶RNA可以是gRNA的一部分,即,指导序列被设计成与其具有互补性并且由包含CRISPR效应蛋白和gRNA的复合物介导的效应功能所针对的RNA多核苷酸或RNA多核苷酸的一部分。在一些实施方案中,靶序列位于细胞的细胞核或细胞质中。

编码CRISPR效应蛋白,特别是C2c2的核酸分子有利地是密码子优化的CRISPR效应蛋白。在这种情况下,密码子优化的序列的实例是对于在真核生物,例如人类中表达而优化(即,对于在人类中表达而优化),或对于如本文所论述的另一种真核生物、动物或哺乳动物中表达而优化的序列;参见例如WO 2014/093622(PCT/US2013/074667)中的SaCas9人类密码子优化的序列。虽然这是优选的,但将了解,其他实例可能存在,并且对于除人类以外的宿主物种的密码子优化或对于特定器官的密码子优化是已知的。在一些实施方案中,编码CRISPR效应蛋白的酶编码序列对于在特定细胞,诸如真核细胞中表达进行密码子优化。真核细胞可以是特定生物体的那些或来源于特定生物体的那些,所述生物体诸如植物或哺乳动物,包括但不限于人类,或如本文所论述的非人类真核生物或动物或哺乳动物,例如小鼠、大鼠、兔、犬、家畜或非人类哺乳动物或灵长类动物。在一些实施方案中,可以排除有可能不会对人或动物带来任何实质性医学益处的修改人类的种系遗传身份的过程和/或修改动物的遗传身份的过程,以及由此类过程产生的动物。一般来讲,密码子优化是指修饰核酸序列用于增强在目标宿主细胞中的表达的过程,这个过程是通过用在宿主细胞的基因中较频繁或最频繁使用的密码子替代原生序列的至少一个密码子(例如约或大于约1个、2个、3个、4个、5个、10个、15个、20个、25个、50个或更多个密码子),同时维持原生氨基酸序列。不同种类对特定氨基酸的某些密码子展现特定偏性。密码子偏性(生物体之间密码子使用的差异)常常与信使RNA(mRNA)的翻译效率相关,据信所述效率继而尤其取决于所翻译的密码子的特性和特定转移RNA(tRNA)分子的可用性。细胞中所选tRNA的主导性一般反映了肽合成中最频繁使用的密码子。因此,可以基于密码子优化来调整基因用于给定的生物体中最佳基因表达。密码子使用表可容易得到,例如,在kazusa.orjp/codon/上可得的“密码子使用数据库(Codon Usage Database)”中,并且这些表可以按许多方式进行改编。参见Nakamura,Y.,等人“Codon usage tabulated from the international DNA sequencedatabases:status for the year 2000”Nucl.Acids Res.28:292(2000)。对于在特定宿主细胞中表达对特定序列进行密码子优化的计算机算法也可得到,诸如Gene Forge(Aptagen;Jacobus,PA)也可得到。在一些实施方案中,编码Cas的序列中的一个或多个密码子(例如1个、2个、3个、4个、5个、10个、15个、20个、25个、50个或更多个或所有密码子)对应于对于特定氨基酸最频繁使用的密码子。

在某些实施方案中,如本文所述的方法可以包括提供Cas转基因细胞,尤其C2c2转基因细胞,在所述细胞中提供或引入编码一种或多种指导RNA的一种或多种核酸,所述一种或多种核酸在细胞中与包含一种或多种目标基因的启动子的调控元件可操作地连接。如本文所用,术语“Cas转基因细胞”是指细胞,诸如真核细胞,其中Cas基因已经在基因组上整合。细胞的性质、类型或来源根据本发明并无特别限制。而且,Cas转基因引入细胞中的方式可以有变化并且可以是如本领域中已知的任何方法。在某些实施方案中,通过将Cas转基因引入分离的细胞中来获得Cas转基因细胞。在某些其他实施方案中,通过从Cas转基因生物体中分离细胞来获得Cas转基因细胞。通过实例并且不受限制,如本文所提及的Cas转基因细胞可以来源于Cas转基因真核生物,诸如Cas敲入真核生物。参考WO 2014/093622(PCT/US13/74667),以引用的方式并入本文中。可以修改针对靶向Rosa基因座的转让给SangamoBioSciences,Inc.的美国专利公布号20120017290和20110265198的方法以利用本发明的CRISPR Cas系统。还可以修改针对靶向Rosa基因座的转让给Cellectis的美国专利公布号20130236946的方法以利用本发明的CRISPR Cas系统。通过另一个实例,参考Platt等人(Cell;159(2):440-455(2014)),所述文献描述了Cas9敲入小鼠,以引用的方式并入本文中。Cas转基因还可以包含Lox-Stop-polyA-Lox(LSL)盒,从而促成由Cre重组酶可诱导的Cas表达。或者,可以通过将Cas转基因引入分离的细胞中来获得Cas转基因细胞。用于转基因的递送系统在本领域中是众所周知的。通过实例,可以借助于如本文别处也描述的载体(例如AAV、腺病毒、慢病毒)和/或粒子和/或纳米粒子递送将Cas转基因递送于例如真核细胞中。

技术人员将了解,如本文所提及的细胞,诸如Cas转基因细胞除了具有整合的Cas基因或当与能够将Cas导向靶基因座的RNA复合时由Cas的序列特异性作用产生的突变以外还可以包含基因组改变。

在某些方面,本发明涉及例如用于将Cas和/或能够将Cas导向靶基因座的RNA(即,指导RNA)递送至或引入细胞中以及用于繁殖这些组分(例如在原核细胞中)的载体。如本文所用,“载体”是允许或有助于实体从一种环境转移至另一种环境的工具。载体是复制子,诸如质粒、噬菌体或粘粒,可以向该复制子中插入另一个DNA区段以便使得该插入的区段复制。一般来讲,载体当与适当控制元件相关联时能够复制。一般来讲,术语“载体”是指能够转运它所连接的另一个核酸的核酸分子。载体包括但不限于单链、双链或部分双链的核酸分子;包含一个或多个游离端、不包含游离端(例如环状)的核酸分子;包含DNA、RNA或两者的核酸分子;以及本领域中已知的多核苷酸的其他种类。一种类型的载体是“质粒”,其是指环状双链DNA环,可以诸如通过标准分子克隆技术向该环中插入另外的DNA区段。另一种类型的载体是病毒载体,其中病毒来源的DNA或RNA序列存在于包装到病毒(例如逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒和腺相关病毒(AAV))中的载体中。病毒载体还包括由转染到宿主细胞中的病毒携带的多核苷酸。某些载体能够在引入它们的宿主细胞中自主复制(例如具有细菌复制起点的细菌载体和附加型哺乳动物载体)。其他载体(例如非附加型哺乳动物载体)在引入到宿主细胞中之后被整合到宿主细胞的基因组中,并且因此随着宿主基因组一起复制。此外,某些载体能够引导它们可操作地连接的基因的表达。此类载体在本文中称为“表达载体”。在重组DNA技术中有效用的常用表达载体常常呈质粒的形式。

重组表达载体可以包含处于适于在宿主细胞中表达核酸的形式的本发明的核酸,这意味着重组表达载体包含一个或多个调控元件,这些调控元件可以基于用于表达的宿主细胞来选择,可操作地连接至有待表达的核酸序列。在重组表达载体内,“可操作地连接”旨在意指目标核苷酸序列以允许核苷酸序列表达(例如,在体外转录/翻译系统中或当该载体被引入到宿主细胞时在宿主细胞中)的方式连接至一个或多个调控元件。关于重组和克隆方法,提及2004年9月2日以US 2004-0171156 A1公布的美国专利申请10/815,730,该专利的内容以引用方式整体并入本文。因此,本文所公开的实施方案还可以包括包含CRISPR效应系统的转基因细胞。在某些示例性实施方案中,转基因细胞可以充当个别离散体积。换句话说,可以将包含掩蔽构建体的样品例如在合适的递送囊泡中递送至细胞,并且如果靶标存在于递送囊泡中,则CRISPR效应子被激活并且生成可检测信号。

一个或多个载体可以包括一个或多个调控元件,例如一个或多个启动子。一个或多个载体可以包含Cas编码序列和/或单个,但可能还可以包含至少3个或8个或16个或32个或48个或50个指导RNA(例如sgRNA)编码序列,诸如1-2个、1-3个、1-4个、1-5个、3-6个、3-7个、3-8个、3-9个、3-10个、3-16个、3-30个、3-32个、3-48个、3-50个RNA(例如sgRNA)。在单个载体中,可以存在每个RNA(例如sgRNA)的启动子,有利地当存在至多约16个RNA时;并且当单个载体提供多于16个RNA时,一个或多个启动子可以驱动多于一个RNA的表达,例如当存在32个RNA时,每个启动子可以驱动两个RNA的表达,并且当存在48个RNA时,每个启动子可以驱动三个RNA的表达。通过简单的算术和完善的克隆方案和本公开中的教义,本领域技术人员可以关于适合的示例性载体(诸如AAV)的一个或多个RNA和诸如U6启动子的适合启动子来容易地实施本发明。举例来说,AAV的包封限度为约4.7kb。单个U6-gRNA(加上用于克隆的限制性位点)的长度为361bp。因此,技术人员可以容易地将约12-16个,例如13个U6-gRNA盒装配至单个载体中。这可以通过任何适合的手段,诸如用于TALE组装的金门策略来组装(genome-engineering.org/taleffectors/)。技术人员还可以使用串联指导策略以使U6-gRNA的数目增加约1.5倍,例如,从12-16个,例如13个增加至约18-24个,例如约19个U6-gRNA。因此,本领域技术人员可以在单个载体,例如AAV载体中容易地达到约18-24个,例如约19个启动子-RNA,例如U6-gRNA。用于增加载体中启动子和RNA的数目的进一步方式是使用单个启动子(例如U6)以表达由可切割序列分离的RNA阵列。并且,用于增加载体中启动子-RNA的数目的更进一步方式是在编码序列或基因的内含子中表达由可切割序列分离的启动子-RNA阵列;并且在这种情况下,有利的是使用聚合酶II启动子,其可以具有增加的表达并且能够以组织特异性方式转录长RNA。(参见例如nar.oxfordjournals.org/content/34/7/e53.short and nature.com/mt/journal/v16/n9/abs/mt2008144a.html)。在有利的实施方案中,AAV可以包封靶向至多约50个基因的U6串联gRNA。因此,根据本领域中的知识和本公开中的教义,无需过度实验技术人员可以容易地制备和使用一个或多个载体,例如单个载体,所述载体表达多个RNA或指导物,所述个RNA或指导物处于一个或多个启动子控制下或者操作性地或功能性地连接至一个或多个启动子—尤其是本文所论述的数目的RNA或指导物。

指导RNA编码序列和/或Cas编码序列可以功能性地或操作性地连接至一个或多个调控元件,并且因此所述一个或多个调控元件驱动表达。一个或多个启动子可以是一个或多个组成型启动子和/或一个或多个条件型启动子和/或一个或多个诱导型启动子和/或一个或多个组织特异性启动子。启动子可以选自由以下组成的组:RNA聚合酶、pol I、pol II、pol III、T7、U6、H1、逆转录病毒劳斯肉瘤病毒(Rous sarcoma virus)(RSV)LTR启动子、巨细胞病毒(CMV)启动子、SV40启动子、二氢叶酸还原酶启动子、β-肌动蛋白启动子、磷酸甘油激酶(PGK)启动子和EF1α启动子。有利的启动子是启动子U6。

在一些实施方案中,靶向核酸的系统的一个或多个元件来源于包含靶向RNA的内源CRISPR系统的特定生物体。在某些示例性实施方案中,靶向RNA的效应蛋白CRISPR系统包含至少一个HEPN结构域,包括但不限于本文所述的HEPN结构域、本领域中已知的HEPN结构域,和通过与共有序列基序相比而被识别为HEPN结构域的结构域。本文中提供若干此类结构域。在一个非限制性实例中,共有序列可以来源于本文所提供的C2c2或Cas13b直系同源物的序列。在某些示例性实施方案中,效应蛋白包含单个HEPN结构域。在某些其他示例性实施方案中,效应蛋白包含两个HEPN结构域。技术人员将理解,可利用C2c2蛋白的截短形式,由此在截短形式的长度上确定序列同一性。

在一个示例性实施方案中,效应蛋白包含一个或多个包含RxxxxH基序序列的HEPN结构域。RxxxxH基序序列可以是但不限于来自本文所述的HEPN结构域或本领域中已知的HEPN结构域。RxxxxH基序序列还包括通过组合两个或更多个HEPN结构域的部分而建立的基序序列。如所指出的,共有序列可以来源于以下文献中公开的直系同源物的序列:题为“新颖的VI型CRISPR直系同源物和系统(Novel Type VI CRISPR Orthologs and Systems)”的PCT/US2017/038154的例如第256-264和285-336页、题为“新颖的CRISPR酶和系统(NovelCRISPR Enzymes and Systems)”的美国临时专利申请62/432,240、2017年3月15日提交的题为“新颖的VI型CRISPR直系同源物和系统(Novel Type VI CRISPR Orthologs andSystems)”的美国临时专利申请62/471,710和2017年4月12日提交的题为“新颖的VI型CRISPR直系同源物和系统(Novel Type VI CRISPR Orthologs and Systems)”的美国临时专利申请62/484,786。

在本发明的实施方案中,HEPN结构域包含至少一个包含序列R{N/H/K}X1X2X3H(SEQ ID NO:1)的RxxxxH基序。在本发明的实施方案中,HEPN结构域包括包含序列R{N/H}X1X2X3H(SEQ ID NO:2)的RxxxxH基序。在本发明的实施方案中,HEPN结构域包含序列R{N/K}X1X2X3H(SEQ ID NO:3)。在某些实施方案中,X1是R、S、D、E、Q、N、G、Y或H。在某些实施方案中,X2是I、S、T、V或L。在某些实施方案中,X3是L、F、N、Y、V、I、S、D、E或A。

根据本发明使用的额外效应子可以通过其与cas1基因的接近性来鉴定,例如但不限于在距cas1基因的始端20kb和距cas1基因的末端20kb的区域内。在某些实施方案中,效应蛋白包含至少一个HEPN结构域和至少500个氨基酸,并且其中C2c2效应蛋白天然存在于Cas基因或CRISPR阵列上游或下游20kb内的原核基因组中。Cas蛋白质的非限制性实例包括Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas6、Cas7、Cas8、Cas9(也称为Csn1和Csx12)、Cas10、Csy1、Csy2、Csy3、Cse1、Cse2、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4、其同系物或其修饰型式。在某些示例性实施方案中,C2c2效应蛋白天然存在于Cas 1基因上游或下游20kb内的原核基因组中。术语“直系同源物(orthologue)”(在本文中也称为“直系同源物(ortholog)”)和“同系物(homologue)”(本文中也称为“同系物(homolog)”)在本领域中是众所周知的。作为进一步指导,如本文所用的蛋白质的“同系物”是与作为其同系物的蛋白质发挥相同或类似功能的相同种类的蛋白质。同源蛋白质可以是但不需要是结构上相关的,或仅是部分结构上相关的。如本文所用的蛋白质的“直系同源物”是与作为其直系同源物的蛋白质发挥相同或类似功能的不同种类的蛋白质。直系同源蛋白质可以是但不需要是结构上相关的,或仅是部分结构上相关的。

在特定实施方案中,靶向RNA的VI型Cas酶是C2c2。在其他示例性实施方案中,靶向RNA的VI型Cas酶是Cas 13b。在特定实施方案中,如本文所提及的VI型蛋白质,诸如C2c2的同系物或直系同源物与VI型蛋白质,诸如C2c2(例如,基于以下任一种的野生型序列:沙氏纤毛菌C2c2、毛螺菌科细菌MA2020 C2c2、毛螺菌科细菌NK4A179 C2c2、嗜氨梭菌(DSM10710)C2c2、鸡肉杆菌(DSM 4847)C2c2、产丙酸沼杆菌(WB4)C2c2、韦氏李斯特菌(FSL R9-0317)C2c2、李斯特菌科细菌(FSL M6-0635)C2c2、纽约李斯特菌(Listeria newyorkensis)(FSL M6-0635)C2c2、韦德纤毛菌(F0279)C2c2、荚膜红细菌(SB 1003)C2c2、荚膜红细菌(R121)C2c2、荚膜红细菌(DE442)C2c2、韦德纤毛菌(Lw2)C2c2或斯氏李斯特菌C2c2)具有至少30%,或至少40%,或至少50%,或至少60%,或至少70%,或至少80%,更优选地至少85%,甚至更优选地至少90%,例如至少95%的序列同源性或同一性。在另外的实施方案中,如本文所提及的VI型蛋白质,诸如C2c2的同系物或直系同源物与野生型C2c2(例如,基于以下任一种的野生型序列:沙氏纤毛菌C2c2、毛螺菌科细菌MA2020 C2c2、毛螺菌科细菌NK4A179 C2c2、嗜氨梭菌(DSM10710)C2c2、鸡肉杆菌(DSM 4847)C2c2、产丙酸沼杆菌(WB4)C2c2、韦氏李斯特菌(FSL R9-0317)C2c2、李斯特菌科细菌(FSL M6-0635)C2c2、纽约李斯特菌(FSL M6-0635)C2c2、韦德纤毛菌(F0279)C2c2、荚膜红细菌(SB 1003)C2c2、荚膜红细菌(R121)C2c2、荚膜红细菌(DE442)C2c2、韦德纤毛菌(Lw2)C2c2或斯氏李斯特菌C2c2)具有至少30%,或至少40%,或至少50%,或至少60%,或至少70%,或至少80%,更优选地至少85%,甚至更优选地至少90%,例如至少95%的序列同一性。

在某些其他示例性实施方案中,CRISPR系统效应蛋白是C2c2核酸酶。C2c2的活性可以取决于两个HEPN结构域的存在。这些已经显示为RNA酶结构域,即,切割RNA的核酸酶(特别是核酸内切酶)。C2c2 HEPN还可以靶向DNA,或潜在地DNA和/或RNA。在C2c2的HEPN结构域至少能够结合至RNA并且以其野生型形式切割RNA的基础上,则优选的是C2c2效应蛋白具有RNA酶功能。关于C2c2 CRISPR系统,参考题为“VI型CRISPR直系同源物和系统(TYPE VICRISPR ORTHOLOGS AND SYSTEMS)”的国际专利公布WO/2017/219027、2016年6月17日提交的美国临时申请62/351,662和2016年8月17日提交的美国临时申请62/376,377。还参考2016年6月17日提交的美国临时案62/351,803。还参考2016年12月8日提交的题为“新颖的Crispr酶和系统(Novel Crispr Enzymes and Systems)”的美国临时案,带有博德研究所(Broad Institute)编号10035.PA4和代理人案号47627.03.2133。进一步参考East-Seletsky等人“Two distinct RNase activities of CRISPR-C2c2 enable guide-RNAprocessing and RNA detection”Nature doi:10/1038/nature19802和Abudayyeh等人“C2c2 is a single-component programmable RNA-guided RNA targeting CRISPReffector”bioRxiv doi:10.1101/054742。

CRISPR系统中的RNA酶功能是已知的,举例来说,对于某些III型CRISPR-Cas系统已经报道mRNA靶向(Hale等人,2014,Genes Dev,第28卷,2432-2443;Hale等人,2009,Cell,第139卷,945-956;Peng等人,2015,Nucleic acids research,第43卷,406-417)并且提供显著优点。在表皮葡萄球菌(Staphylococcus epidermis)III-A型系统中,跨靶标的转录切割靶DNA和其转录物,这是由Cas10-Csm核糖核蛋白效应蛋白复合物内的独立活性位点介导(参见Samai等人,2015,Cell,第151卷,1164-1174)。由此提供CRISPR-Cas系统、组合物或经由本发明效应蛋白靶向RNA的方法。

在一个实施方案中,Cas蛋白质可以是以下属的生物体的C2c2直系同源物:包括但不限于纤毛菌属、李斯特菌属、棒状杆菌属、萨特氏菌属、军团菌属、密螺旋体属、产线菌属、真杆菌属、链球菌属、乳杆菌属、支原体属、拟杆菌属、弗维菌属、黄杆菌属、单丝壳属、固氮螺菌属、葡糖醋杆菌属、奈瑟氏菌属、罗氏菌属、细小棒菌属、葡萄球菌属、硝酸盐裂解菌属、支原体属、弯曲杆菌属和毛螺菌属。这种属的生物体的种类可以如本文其他方面所论述。

在某些示例性实施方案中,本发明的C2c2效应蛋白包括但不限于以下21种直系同源物种类(包括多个CRISPR基因座):沙氏纤毛菌;韦德纤毛菌(Lw2);斯氏李斯特菌;毛螺菌科细菌MA2020;毛螺菌科细菌NK4A179;嗜氨[梭菌]DSM 10710;鸡肉杆菌DSM 4847;鸡肉杆菌DSM 4847(第二CRISPR基因座);产丙酸沼杆菌WB4;韦氏李斯特菌FSL R9-0317;李斯特菌科细菌FSL M6-0635;韦德纤毛菌F0279;荚膜红细菌SB 1003;荚膜红细菌R121;荚膜红细菌DE442;口腔纤毛菌C-1013-b;解半纤维素赫氏菌;直肠[真杆菌];真杆菌科细菌CHKCI004;布劳特氏菌属种马赛-P2398;和纤毛菌属种口腔分类群879菌株F0557。另外十二(12)种非限制性实例是:毛螺菌科细菌NK4A144;聚集绿屈挠菌;桔红色去甲基醌菌;海旋菌属种TSL5-1;假丁酸弧菌属种OR37;丁酸弧菌属种YAB3001;布劳特氏菌属种马赛-P2398;纤毛菌属种马赛-P3007;爱华拟杆菌;紫单孢菌科细菌KH3CP3RA;崖李斯特菌;和陌生非适应螺菌。

鉴定CRISPR-Cas系统酶的直系同源物的一些方法可以涉及鉴定目标基因组中的tracr序列。tracr序列的鉴定可以涉及以下步骤:在数据库中搜索正向重复序列或tracr配对序列以鉴定包含CRISPR酶的CRISPR区。在正义与反义方向上侧接CRISPR酶的CRISPR区中搜索同源序列。寻找转录终止子和二级结构。鉴定不是正向重复序列或tracr配对序列,但与正向重复序列或tracr配对序列具有大于50%同一性的任何序列作为潜在tracr序列。获取潜在tracr序列并且分析与其相关联的转录终止子序列。

应当理解,本文所述的任何功能性可以工程化至来自其他直系同源物的CRISPR酶中,包括包含来自多种直系同源物的片段的嵌合酶。此类直系同源物的实例在本文别处描述。因此,嵌合酶可以包含以下生物体的CRISPR酶直系同源物的片段:包括但不限于纤毛菌属、李斯特菌属、棒状杆菌属、萨特氏菌属、军团菌属、密螺旋体属、产线菌属、真杆菌属、链球菌属、乳杆菌属、支原体属、拟杆菌属、弗维菌属、黄杆菌属、单丝壳属、固氮螺菌属、葡糖醋杆菌属、奈瑟氏菌属、罗氏菌属、细小棒菌属、葡萄球菌属、硝酸盐裂解菌属、支原体属和弯曲杆菌属。嵌合酶可以包含第一片段和第二片段,并且所述片段可以是本文所提及的属类或本文所提及的种类的生物体的CRISPR酶直系同源物的片段;有利地,所述片段来自不同种类的CRISPR酶直系同源物。

在实施方案中,如本文所提及的C2c2蛋白质还涵盖C2c2或其同系物或直系同源物的功能变体。如本文所用的蛋白质的“功能变体”是指这种蛋白质的变体,其至少部分保留所述蛋白质的活性。功能变体可以包括突变体(其可以是插入、缺失或置换突变体),包括多形体等。功能变体还包括这种蛋白质与另一种通常无关的核酸、蛋白质、多肽或肽的融合产物。功能变体可以是天然存在的或可以是人造的。有利的实施方案可以涉及工程化的或非天然存在的靶向RNA的VI型效应蛋白。

在一个实施方案中,编码C2c2或其直系同源物或同系物的一个或多个核酸分子可以对于在真核细胞中表达进行密码子优化。真核生物可以如本文所论述。一个或多个核酸分子可以是工程化的或非天然存在的。

在一个实施方案中,C2c2或其直系同源物或同系物可以包含一个或多个突变,并且因此编码其的一个或多个核酸分子可以具有一个或多个突变。突变可以是人工引入的突变并且可以包括但不限于催化结构域中的一个或多个突变。关于Cas9酶的催化结构域的实例可以包括但不限于RuvC I、RuvC II、RuvC III和HNH结构域。

在实施方案中,C2c2或其直系同源物或同系物可以包含一个或多个突变。突变可以是人工引入的突变并且可以包括但不限于催化结构域中的一个或多个突变。关于Cas酶的催化结构域的实例可以包括但不限于HEPN结构域。

在一个实施方案中,C2c2或其直系同源物或同系物可以用作与功能结构域融合或可操作地连接至功能结构域的通用核酸结合蛋白。示例性功能结构域可以包括但不限于翻译引发剂、翻译激活剂、翻译阻遏剂、核酸酶(尤其核糖核酸酶)、剪接体、珠粒、光可诱导/可控制结构域或化学可诱导/可控制结构域。

在某些示例性实施方案中,C2c2效应蛋白可以来自选自由以下组成的组的生物体:纤毛菌属、李斯特菌属、棒状杆菌属、萨特氏菌属、军团菌属、密螺旋体属、产线菌属、真杆菌属、链球菌属、乳杆菌属、支原体属、拟杆菌属、弗维菌属、黄杆菌属、单丝壳属、固氮螺菌属、葡糖醋杆菌属、奈瑟氏菌属、罗氏菌属、细小棒菌属、葡萄球菌属、硝酸盐裂解菌属、支原体属和弯曲杆菌属。

在某些实施方案中,效应蛋白可以是李斯特菌属种C2c2p,优选地是斯氏李斯特菌C2c2p,更优选地是斯氏李斯特菌血清变型1/2b菌株SLCC3954 C2c2p,并且crRNA序列的长度可以是44至47个核苷酸,其具有5'29nt正向重复序列(DR)和15nt至18nt间隔区。

在某些实施方案中,效应蛋白可以是纤毛菌属种C2c2p,优选地是沙氏纤毛菌C2c2p,更优选地是沙氏纤毛菌DSM 19757C2c2p,并且crRNA序列的长度可以是42至58个核苷酸,其具有至少24nt的5'正向重复序列,诸如5'24-28nt正向重复序列(DR),和至少14nt的间隔区,诸如14nt至28nt间隔区,或至少18nt的间隔区,诸如19、20、21、22或更多nt,诸如18-28、19-28、20-28、21-28或22-28nt。

在某些示例性实施方案中,效应蛋白可以是纤毛菌属种,韦德纤毛菌F0279;或李斯特菌属种,优选地是纽约李斯特菌FSL M6-0635。

在某些实施方案中,根据本发明的C2c2蛋白是或来源于所述直系同源物中的一种,或是如本申请中所描述的直系同源物中的两种或更多种的嵌合蛋白,或是所述直系同源物中的一种的突变体或变体(或嵌合突变体或变体),包括如本文别处所定义的死亡C2c2、脱落C2c2、去稳定C2c2等,其与或不与异源/功能结构域融合。

在某些示例性实施方案中,靶向RNA的效应蛋白是VI-B型效应蛋白,诸如Cas13b和第29组或第30组蛋白质。在某些示例性实施方案中,靶向RNA的效应蛋白包含一个或多个HEPN结构域。在某些示例性实施方案中,靶向RNA的效应蛋白包含C端HEPN结构域、N端HEPN结构域或这两个结构域。关于在本发明的情形中可以使用的示例性VI-B型效应蛋白,参考题为"新颖的CRISPR酶和系统(Novel CRISPR Enzymes and Systems)"并且2016年10月21日提交的美国申请号15/331,792,题为"新颖的CRISPR酶和系统(Novel CRISPR Enzymesand Systems)"并且2016年10月21日提交的国际专利申请号PCT/US2016/058302,和Smargon等人"Cas13b is a Type VI-B CRISPR-associated RNA-Guided RNasedifferentially regulated by accessory proteins Csx27 and Csx28"MolecularCell,65,1-13(2017);dx.doi.org/10.1016/j.molcel.2016.12.023,以及2017年3月15日提交的题为“新颖的Cas13b直系同源物CRISPR酶和系统(Novel Cas13b OrthologuesCRISPR Enzymes and System)”的有待转让的美国临时申请号。在某些示例性实施方案中,可使用来自相同类别的CRISPR效应蛋白的不同直系同源物,诸如两个Cas13a直系同源物、两个Cas13b直系同源物或两个Cas13c直系同源物,国际申请号PCT/US2017/065477,表1至表6,第40-52页中描述了这些直系同源物并且以引用方式并入本文。在某些其他示例性实施方案中,可使用具有不同核苷酸编辑偏好的不同直系同源物,诸如Cas13a和Cas13b直系同源物,或Cas13a和Cas13c直系同源物,或Cas13b直系同源物和Cas13c直系同源物等。

在一些实施方案中,靶向RNA的效应蛋白可包含一个或多个HEPN结构域,所述结构域可任选地包含RxxxxH基序序列。在一些情况下,RxxxH基序包含R{N/H/K]X1X2X3H序列,其在一些实施方案中X1是R、S、D、E、Q、N、G或Y,并且X2独立地是I、S、T、V或L,并且X3独立地是L、F、N、Y、V、I、S、D、E或A。在一些特定实施方案中,靶向RNA的CRISPR效应蛋白是C2c2。

非特异性ssDNA和RNA引导的蛋白将必然产生进一步的且潜在改进的Cas蛋白,这些蛋白表现出附带切割并且可用于检测并为在增强的且高度灵敏的(尤其是SHERLOCK)诊断系统中进行核酸靶标的多重检测提供更大的范围。

指导物

如本文所用,V型或VI型CRISPR-Cas基因座效应蛋白的术语“crRNA”或“指导RNA”或“单指导RNA”或“sgRNA”或“一种或多种核酸组分”包括与靶核酸序列具有足够互补性以与靶核酸序列杂交并且引导核酸靶向复合物序列特异性地结合至靶核酸序列的任何多核苷酸序列。在一些实施方案中,当使用合适的比对算法最佳比对时,互补程度为约或大于约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或更大。最佳比对可以借助于用于比对序列的任何合适算法来确定,其非限制性实例包括史密斯-沃特曼算法(Smith-Watermanalgorithm)、尼德曼-翁施算法(Needleman-Wunsch algorithm)、基于巴罗斯-维勒变换(Burrows-Wheeler Transform)的算法(例如巴罗斯-维勒比对仪(Burrows WheelerAligner))、ClustalW、Clustal X、BLAT、Novoalign(Novocraft Technologies;在www.novocraft.com上可得)、ELAND(Illumina,San Diego,CA)、SOAP(在soap.genomics.org.cn上可得)和Maq(在maq.sourceforge.net上可得)。可以通过任何合适的测定来评定指导序列(在核酸靶向指导RNA内)引导核酸靶向复合物序列特异性地结合至靶核酸序列的能力。举例来说,足以形成核酸靶向复合物的核酸靶向CRISPR系统的组分,包括有待测试的指导序列,可以提供给具有相应靶核酸序列的宿主细胞,诸如通过用编码核酸靶向复合物的组分的载体转染,继而诸如通过如本文所述的Surveyor测定评定靶核酸序列内的优先靶向(例如切割)。类似地,可以在试管中通过提供靶核酸序列、核酸靶向复合物的组分(包括有待测试的指导序列)和不同于测试指导序列的对照指导序列,以及在测试指导序列与对照指导序列反应之间比较靶序列处的结合或切割速率来评估靶核酸序列的切割。其他测定可能存在,并且将为本领域技术人员所想到。可以选择指导序列并且因此选择核酸靶向指导以靶向任何靶核酸序列。靶序列可以是DNA。靶序列可以是任何RNA序列。在一些实施方案中,靶序列可以是选自由以下组成的组的RNA分子内的序列:信使RNA(mRNA)、前体mRNA、核糖体RNA(rRNA)、转移RNA(tRNA)、微小RNA(miRNA)、小干扰RNA(siRNA)、小细胞核RNA(snRNA)、小细胞核RNA(snoRNA)、双链RNA(dsRNA)、非编码RNA(ncRNA)、长非编码RNA(lncRNA)和小细胞质RNA(scRNA)。在一些优选的实施方案中,靶序列可以是选自由mRNA、前体mRNA和rRNA组成的组的RNA分子内的序列。在一些优选的实施方案中,靶序列可以是选自由ncRNA和lncRNA组成的组的RNA分子内的序列。在一些更优选的实施方案中,靶序列可以是mRNA分子或前体mRNA分子内的序列。

在一些实施方案中,选择核酸靶向指导物以降低核酸靶向指导物内的二级结构程度。在一些实施方案中,当最佳折叠时,核酸靶向指导物的约或小于约75%、50%、40%、30%、25%、20%、15%、10%、5%、1%或更少的核苷酸参与自身互补碱基配对。最佳折叠可以通过任何合适的多核苷酸折叠算法来确定。一些程序是基于计算最小吉布斯自由能(Gibbs free energy)。一种此类算法的实例是如Zuker和Stiegler(Nucleic Acids Res.9(1981),133-148)所描述的mFold。另一个示例性折叠算法是维也纳大学(University ofVienna)的理论化学研究所(Institute for Theoretical Chemistry)开发的使用质心结构预测算法的在线网络服务器RNAfold(参见例如A.R.Gruber等人,2008,Cell 106(1):23-24;以及PA Carr和GM Church,2009,Nature Biotechnology 27(12):1151-62)。

在某些实施方案中,指导RNA或crRNA可以包含正向重复(DR)序列和指导序列或间隔区序列,基本上由其组成,或由其组成。在某些实施方案中,指导RNA或crRNA可以包含融合或连接至指导序列或间隔区序列的正向重复序列,基本上由其组成,或由其组成。在某些实施方案中,正向重复序列可以位于指导序列或间隔区序列上游(即,5')。在其他实施方案中,正向重复序列可以位于指导序列或间隔区序列下游(即3')。

在某些实施方案中,crRNA包含茎环,优选单个茎环。在某些实施方案中,正向重复序列形成茎环,优选单个茎环。

在某些实施方案中,指导RNA的间隔区长度为15至35nt。在某些实施方案中,指导RNA的间隔区长度为至少15个核苷酸。在某些实施方案中,间隔区长度为15至17nt,例如15、16或17nt;17至20nt,例如17、18、19或20nt;20至24nt,例如20、21、22、23或24nt;23至25nt,例如23、24或25nt;24至27nt,例如24、25、26或27nt;27-30nt,例如27、28、29或30nt;30-35nt,例如30、31、32、33、34或35nt;或35nt或更长。

“tracrRNA”序列或类似术语包括与crRNA序列具有足够互补性以杂交的任何多核苷酸序列。在一些实施方案中,当沿着tracrRNA序列和crRNA序列中较短的一个序列最佳比对时,这两个序列之间的互补程度为约或大于约25%、30%、40%、50%、60%、70%、80%、90%、95%、97.5%、99%或更大。在一些实施方案中,tracr序列的长度为约或大于约5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、40、50个或更多个核苷酸。在一些实施方案中,tracr序列和crRNA序列包含在单一转录物中,使得两者之间的杂交产生具有二级结构诸如发夹的转录物。在本发明的一个实施方案中,转录物或转录的多核苷酸序列具有至少两个或更多个发夹。在优选的实施方案中,转录物具有两个、三个、四个或五个发夹。在本发明的另一个实施方案中,转录物具有至多五个发夹。在发夹结构中,环的最后“N”和上游的序列5'的部分对应于tracr配对序列,而环的序列3'的部分对应于tracr序列。

一般来讲,互补程度是指沿着sca序列和tracr序列中较短的一个序列,这两个序列的最佳比对。最佳比对可以通过任何合适的比对算法来确定,并且可以进一步考虑二级结构,诸如sca序列或tracr序列内的自互补性。在一些实施方案中,当沿着tracr序列和sca序列中较短的一个序列最佳比对时,这两个序列之间的互补程度为约或大于约25%、30%、40%、50%、60%、70%、80%、90%、95%、97.5%、99%或更大。

一般来讲,CRISPR-Cas、CRISPR-Cas9或CRISPR系统可以如在诸如WO 2014/093622(PCT/US2013/074667)的前述文献中那样使用并且共同地涉及CRISPR相关的(“Cas”)基因的表达中所涉及或引导所述基因的活性的转录物和其他元件,包括编码Cas基因(特别地,在CRISPR-Cas9的情况下为Cas9基因)的序列、tracr(反式激活CRISPR)序列(例如tracrRNA或活性部分tracrRNA)、tracr配对序列(在内源性CRISPR系统的情形中涵盖“正向重复序列”和tracrRNA加工的部分正向重复序列)、指导序列(在内源性CRISPR系统的情形中也称为“间隔区”),或如本文所用的那个术语“一种或多种RNA”(例如用以导向Cas9的一种或多种RNA,例如CRISPR RNA和反式激活(tracr)RNA或单指导RNA(sgRNA)(嵌合RNA)),或来自CRISPR基因座的其他序列和转录物。一般来讲,CRISPR系统由促进在靶序列的位点处CRISPR复合物形成的元件表征(在内源性CRISPR系统的情形中也称为原间隔区)。在形成CRISPR复合物的情形中,“靶序列”是指指导序列被设计成与其具有互补性的序列,其中靶序列与指导序列之间的杂交促进CRISPR复合物的形成。与靶序列的互补对于切割活性很重要的指导序列的部分在本文中称为种子序列。靶序列可以包含任何多核苷酸,诸如DNA或RNA多核苷酸。在一些实施方案中,靶序列位于细胞的细胞核或细胞质中,并且可以包括处于存在于细胞内的线粒体、细胞器、囊泡、脂质体或粒子中或来自其的核酸。在一些实施方案中,特别是对于非核用途,NLS不是优选的。在一些实施方案中,CRISPR系统包含一个或多个核输出信号(NES)。在一些实施方案中,CRISPR系统包含一个或多个NLS和一个或多个NES。在一些实施方案中,可以通过搜索满足以下任何或所有条件的重复基序,在计算机上鉴定正向重复序列:1.在II型CRISPR基因座侧翼的2Kb基因组序列窗口中;2.跨度为20至50bp;和3.间隔20至50bp。在一些实施方案中,可以使用这些标准中的2个,例如1和2、2和3或1和3。在一些实施方案中,可以使用所有3个标准。

在本发明的实施方案中,术语指导序列和指导RNA,即,能够将Cas导向靶基因组基因座的RNA,如前面引用的文献诸如WO 2014/093622(PCT/US2013/074667)中所述互换使用。一般来讲,指导序列是与靶多核苷酸序列具有足够互补性以与靶序列杂交并且引导CRISPR复合物序列特异性地结合至靶序列的任何多核苷酸序列。在一些实施方案中,当使用合适的比对算法最佳比对时,指导序列与其相应靶序列之间的互补程度为约或大于约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或更大。最佳比对可以借助于用于比对序列的任何合适算法来确定,其非限制性实例包括史密斯-沃特曼算法(Smith-Watermanalgorithm)、尼德曼-翁施算法(Needleman-Wunsch algorithm)、基于巴罗斯-维勒变换(Burrows-Wheeler Transform)的算法(例如巴罗斯-维勒比对仪(Burrows WheelerAligner))、ClustalW、Clustal X、BLAT、Novoalign(Novocraft Technologies;在www.novocraft.com上可得)、ELAND(Illumina,San Diego,CA)、SOAP(在soap.genomics.org.cn上可得)和Maq(在maq.sourceforge.net上可得)。在一些实施方案中,指导序列的长度为约或大于约5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75个或更多个核苷酸。在一些实施方案中,指导序列的长度小于约75、50、45、40、35、30、25、20、15、12个或更少的核苷酸。优选地,指导序列长度为10 30个核苷酸。可以通过任何适合的测定来评定指导序列引导CRISPR复合物序列特异性地结合至靶序列的能力。例如,足以形成CRISPR复合物的CRISPR系统的组分,包括有待测试的指导序列,可以提供给具有相应靶序列的宿主细胞,诸如通过用编码CRISPR序列的组分的载体转染,继而诸如通过如本文所述的Surveyor测定评定靶序列内的优先切割。类似地,可以在试管中通过提供靶序列、CRISPR复合物的组分(包括有待测试的指导序列)和不同于测试指导序列的对照指导序列,以及在测试指导序列与对照指导序列反应之间比较靶序列处的结合或切割速率来评估靶多核苷酸序列的切割。其他测定可能存在,并且将为本领域技术人员所想到。

在CRISPR-Cas系统的一些实施方案中,指导序列与其相应靶序列之间的互补程度可以为约或大于约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或100%;指导物或RNA或sgRNA的长度可以为约或大于约5个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、35个、40个、45个、50个、75个或更多个核苷酸;或者指导物或RNA或sgRNA的长度可以小于约75个、50个、45个、40个、35个、30个、25个、20个、15个、12个或更少个核苷酸;并且有利地tracr RNA的长度为30或50个核苷酸。然而,本发明的一个方面是减少脱靶相互作用,例如,减少指导物与具有低互补性的靶序列相互作用。实际上,在实施例中显示,本发明涉及使得CRISPR-Cas系统能够区分靶序列与具有大于80%至约95%互补性,例如83%-84%或88-89%或94-95%互补性的脱靶序列(例如,区分具有18个核苷酸的靶标与具有1个、2个或3个错配的18个核苷酸的脱靶)的突变。因此,在本发明的情形中,指导序列与其相应靶序列之间的互补程度大于94.5%或95%或95.5%或96%或96.5%或97%或97.5%或98%或98.5%或99%或99.5%或99.9%,或100%。脱靶小于100%或99.9%或99.5%或99%或99%或98.5%或98%或97.5%或97%或96.5%或96%或95.5%或95%或94.5%或94%或93%或92%或91%或90%或89%或88%或87%或86%或85%或84%或83%或82%或81%或80%的序列与指导物之间的互补性,有利的是,脱靶为100%或99.9%或99.5%或99%或99%或98.5%或98%或97.5%或97%或96.5%或96%或95.5%或95%或94.5%的序列与指导物之间的互补性。

根据本发明的特别优选的实施方案,所述指导RNA(能够将Cas导向至靶基因座)可以包含(1)能够与真核细胞中的基因组靶基因座杂交的指导序列;(2)tracr序列;和(3)tracr配对序列。所有(1)至(3)都可以驻留在单RNA中,即sgRNA(以5'至3'取向排列),或者tracr RNA可以是与包含指导序列和tracr序列的RNA不同的RNA。tracr与tracr配对序列杂交,并将CRISPR/Cas复合物引导至靶序列。如果tracr RNA与包含指导序列和tracr序列的RNA位于不同的RNA上,则可以优化每个RNA的长度以使其各自的天然长度缩短,并且可以对每个RNA进行独立的化学修饰以防止被细胞RNA酶降解或者以其他方式增加稳定性。

如本文所述的根据本发明的方法涵盖在如本文所论述的真核细胞中(体外,即,在分离的真核细胞中)诱导一个或多个突变,其包括向细胞递送如本文所论述的载体。一个或多个突变可以包括经由一个或多个指导RNA或sgRNA在一个或多个细胞的每个靶序列处一个或多个核苷酸的引入、缺失或取代。突变可以包括经由一个或多个指导RNA或sgRNA在所述一个或多个细胞的每个靶序列处1-75个核苷酸的引入、缺失或取代。突变可以包括经由一个或多个指导RNA或sgRNA在所述一个或多个细胞的每个靶序列处1、5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或75个核苷酸的引入、缺失或取代。突变可以包括经由一个或多个指导RNA或sgRNA在所述一个或多个细胞的每个靶序列处5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或75个核苷酸的引入、缺失或取代。突变包括经由一个或多个指导RNA或sgRNA在所述一个或多个细胞的每个靶序列处10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或75个核苷酸的引入、缺失或取代。突变可以包括经由一个或多个指导RNA或sgRNA在所述一个或多个细胞的每个靶序列处20、21、22、23、24、25、26、27、28、29、30、35、40、45、50或75个核苷酸的引入、缺失或取代。突变可以包括经由一个或多个指导RNA或sgRNA在所述一个或多个细胞的每个靶序列处40、45、50、75、100、200、300、400或500个核苷酸的引入、缺失或取代。

为了使毒性和脱靶效应最小化,控制所递送的Cas mRNA和指导RNA的浓度可能很重要。通过在细胞或非人类真核生物动物模型中测试不同的浓度,并使用深度测序分析潜在脱靶基因组基因座处的修饰程度,可以确定Cas mRNA和指导RNA的最佳浓度。或者,为了使毒性水平和脱靶效应最小化,可以将Cas切口酶mRNA(例如具有D10A突变的化脓链球菌Cas9)与靶向目标位点的一对指导RNA一起递送。使毒性和脱靶效应最小化的指导序列和策略可以如WO 2014/093622(PCT/US2013/074667)所述;或者经由如本文所述的突变。

通常,在内源性CRISPR系统的情形中,CRISPR复合物(包含杂交至靶序列并且与一种或多种Cas蛋白复合的指导序列)的形成导致靶序列中或附近(例如距其1、2、3、4、5、6、7、8、9、10、20、50个或更多个碱基对以内)一条或两条链的切割。不希望受到理论的束缚,tracr序列可以包含野生型tracr序列的全部或一部分(例如,野生型tracr序列的约或大于约20、26、32、45、48、54、63、67、85个或更多个核苷酸)或由其组成,还可以形成CRISPR复合物的一部分,如通过沿着tracr序列的至少一部分与可操作地连接至指导序列的tracr配对序列的全部或一部分杂交。

指导物修饰

在某些实施方案中,本发明的指导物包含非天然存在的核酸和/或非天然存在的核苷酸和/或核苷酸类似物和/或化学修饰。非天然存在的核酸可以包括例如天然和非天然存在的核苷酸的混合物。非天然存在的核苷酸和/或核苷酸类似物可在核糖、磷酸和/或碱基部分被修饰。在本发明的实施方案中,指导核酸包含核糖核苷酸和非核糖核苷酸。在一个这样的实施方案中,指导物包含一种或多种核糖核苷酸和一种或多种脱氧核糖核苷酸。在本发明的实施方案中,指导物包含一种或多种非天然存在的核苷酸或核苷酸类似物,诸如具有硫代磷酸酯键联、硼酸磷酸酯键联的核苷酸、包含在核糖环的2’和4’碳原子之间的亚甲基桥的锁定核酸(LNA)、肽核酸(PNA)或桥接核酸(BNA)。修饰的核苷酸的其他实例包括2'-O-甲基类似物、2'-脱氧类似物、2-硫代尿苷类似物、N6-甲基腺苷类似物或2'-氟类似物。修饰的核苷酸的其他实例包括在2'位置处的化学部分的键联,包括但不限于肽、核定位序列(NLS)、肽核酸(PNA)、聚乙二醇(PEG)、三甘醇或四甘醇(TEG)。修饰的碱基的其他实例包括但不限于2-氨基嘌呤、5-溴-尿苷、假尿苷(Ψ)、N1-甲基假尿苷(me1Ψ)、5-甲氧基尿苷(5moU)、肌苷、7-甲基鸟苷。指导RNA化学修饰的实例包括但不限于在一个或多个末端核苷酸处并入2'-O-甲基(M)、2'-O-甲基-3'-硫代磷酸酯(MS)、硫代磷酸酯(PS)、S-约束乙基(cEt)、2'-O-甲基-3'-硫代PACE(MSP)或2'-O-甲基-3'-膦酰基乙酸酯(MP)。此类化学修饰的指导物与未修饰的指导物相比可以包含增加的稳定性和增加的活性,不过中靶对脱靶特异性不可预测。(参见Hendel,2015,Nat Biotechnol.33(9):985-9,doi:10.1038/nbt.3290,2015年6月29日在线发布;Ragdarm等人,0215,PNAS,E7110-E7111;Allerson等人,J.Med.Chem.2005,48:901-904;Bramsen等人,Front.Genet.,2012,3:154;Deng等人,PNAS,2015,112:11870-11875;Sharma等人,MedChemComm.,2014,5:1454-1471;Hendel等人,Nat.Biotechnol.(2015)33(9):985-989;Li等人,Nature Biomedical Engineering,2017,1,0066DOI:10.1038/s41551-017-0066;Ryan等人,Nucleic Acids Res.(2018)46(2):792-803)。在一些实施方案中,指导RNA的5’和/或3’端被包括荧光染料、聚乙二醇、胆固醇、蛋白质或检测标签在内的多种功能性部分修饰。(参见Kelly等人,2016,J.Biotech.233:74-83)。在某些实施方案中,指导物在结合至靶DNA的区域中包含核糖核苷酸,并在结合至Cas9、Cpf1或C2c1的区域中包含一个或多个脱氧核糖核苷酸和/或核苷酸类似物。在本发明的实施方案中,将脱氧核糖核苷酸和/或核苷酸类似物并入工程化的指导结构(诸如但不限于5'端和/或3'端、茎环区和种子区)中。在某些实施方案中,修饰不在茎环区的5'柄(5’-handle)中。指导物的茎环区的5'柄中的化学修饰可能会废除其功能(参见Li等人,Nature Biomedical Engineering,2017,1:0066)。在某些实施方案中,指导物的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个、25个、26个、27个、28个、29个、30个、35个、40个、45个、50个或75个核苷酸经化学修饰。在一些实施方案中,指导物的3’或5’端的3-5个核苷酸经化学修饰。在一些实施方案中,在种子区中仅引入较小的修饰,诸如2’-F修饰。在一些实施方案中,在指导物的3’端引入2'-F修饰。在某些实施方案中,指导物的5’端和/或3’端的3至5个核苷酸用2'-O-甲基(M)、2'-O-甲基-3'-硫代磷酸酯(MS)、S-约束乙基(cEt)、2'-O-甲基3'-硫代PACE(MSP)或2'-O-甲基-3'-膦酰基乙酸酯(MP)进行化学修饰。这样的修饰可以提高基因组编辑效率(参见Hendel等人,Nat.Biotechnol.(2015)33(9):985-989;Ryan等人,Nucleic Acids Res.(2018)46(2):792-803)。在某些实施方案中,指导物的所有磷酸二酯键被硫代磷酸酯(PS)取代以增强基因破坏的水平。在某些实施方案中,指导物的5’和/3’端的多于5个核苷酸用2’-O-Me、2’-F或S-约束乙基(cEt)化学修饰。这种化学修饰的指导物可以介导增强的基因破坏水平(参见Ragdarm等人,0215,PNAS,E7110-E7111)。在本发明的一个实施方案中,指导物被修饰成在其3’和/或5’端包含化学部分。这样的部分包括但不限于胺、叠氮化物、炔、硫代基、二苯并环辛炔(DBCO)、若丹明、肽、核定位序列(NLS)、肽核酸(PNA)、聚乙二醇(PEG)、三甘醇或四甘醇(TEG)。在某些实施方案中,化学部分通过接头诸如烷基链缀合至指导物。在某些实施方案中,修饰的指导物的化学部分可用于将指导物附接至另一分子,诸如DNA、RNA、蛋白质或纳米粒子。这种化学修饰的指导物可用于识别或富集一般由CRISPR系统编辑的细胞(参见Lee等人,eLife,2017,6:e25312,DOI:10.7554)。在一些实施方案中,3个核苷酸的每个3'端和5'端均经化学修饰。在具体实施方案中,修饰包括2'-O-甲基或硫代磷酸酯类似物。在具体实施方案中,四环中的12个核苷酸和茎环区中的16个核苷酸被2'-O-甲基类似物替代。此类化学修饰改善了体内编辑和稳定性(参见Finn等人,Cell Reports(2018),22:2227-2235)。在一些实施方案中,指导物的超过60或70个核苷酸经化学修饰。在一些实施方案中,此修饰包括用2'-O-甲基或2'-氟核苷酸类似物替代核苷酸或磷酸二酯键的硫代磷酸酯(PS)修饰。在一些实施方案中,化学修饰包括在CRISPR复合物形成时延伸至核酸酶蛋白外部的指导核苷酸的2'-O-甲基或2'-氟修饰,或指导物的3'端的20至30个或更多个核苷酸的PS修饰。在特定实施方案中,化学修饰还包括在指导物的5'端的2'-O-甲基类似物或者在种子区和尾部区中的2'-氟类似物。此类化学修饰改善核酸酶降解的稳定性,并且维持或增强基因组编辑活性或效率,但所有核苷酸的修饰可能会消除指导物的功能(参见Yin等人,Nat.Biotech.(2018),35(12):1179-1187)。可以通过了解CRISPR复合物的结构,包括了解有限数量的核酸酶和RNA 2'-OH相互作用来指导此类化学修饰(参见Yin等人,Nat.Biotech.(2018),35(12):1179-1187)。在一些实施方案中,可以将一个或多个指导RNA核苷酸替换为DNA核苷酸。在一些实施方案中,将5'端尾部/种子指导区的多至2、4、6、8、10或12个RNA核苷酸替换为DNA核苷酸。在某些实施方案中,将3'端的大多数指导RNA核苷酸替换为DNA核苷酸。在特定实施方案中,将3'端的16个指导RNA核苷酸替换为DNA核苷酸。在特定实施方案中,将5'端尾部/种子区的8个指导RNA核苷酸和3'端的16个RNA核苷酸替换为DNA核苷酸。在特定实施方案中,将在CRISPR复合物形成时延伸至核酸酶蛋白外部的指导RNA核苷酸替换为DNA核苷酸。与未经修饰的指导物相比,这种用DNA核苷酸替代多个RNA核苷酸导致脱靶活性降低,但中靶活性相似;但是,替换掉3'端的所有RNA核苷酸可能会消除指导物的功能(参见Yin等人,Nat.Chem.Biol.(2018)14,311-316)。可以通过了解CRISPR复合物的结构,包括了解有限数量的核酸酶和RNA 2'-OH相互作用来指导此类修饰(参见Yin等人,Nat.Chem.Biol.(2018)14,311-316)。

在本发明的在一方面,指导物包括修饰的Cpf1 crRNA,其具有5’柄和指导区段,所述指导区段还包括种子区和3'端。在一些实施方案中,修饰的指导物可以与以下任一种Cpf1结合使用:氨基酸球菌属种BV3L6 Cpf1(AsCpf1);土拉弗朗西斯菌新凶手亚种U112Cpf1(FnCpf1);李斯特氏菌(L.bacterium)MC2017 Cpf1(Lb3Cpf1);解蛋白丁酸弧菌Cpf1(BpCpf1);俭菌超门细菌GWC2011_GWC2_44_17Cpf1(PbCpf1);异域菌门细菌GW2011_GWA_33_10Cpf1(PeCpf1);稻田氏钩端螺旋体Cpf1(LiCpf1);史密斯氏菌属种SC_K08D17 Cpf1(SsCpf1);李斯特氏菌MA2020 Cpf1(Lb2Cpf1);狗口腔卟啉单胞菌Cpf1(PeCpf1);猕猴卟啉单胞菌Cpf1(PmCpf1);候选白蚁甲烷支原体Cpf1(CMtCpf1);挑剔真杆菌Cpf1(EeCpf1);牛眼莫拉氏菌237Cpf1(MbCpf1);解糖胨普雷沃氏菌Cpf1(PdCpf1);或李斯特氏菌ND2006Cpf1(LbCpf1)。

在一些实施方案中,对指导物的修饰是化学修饰、插入、缺失或拆分。在一些实施方案中,化学修饰包括但不限于并入2'-O-甲基(M)类似物、2'-脱氧类似物、2-硫代尿苷类似物,N6-甲基腺苷类似物、2'-氟类似物、2-氨基嘌呤、5-溴-尿苷、假尿苷(Ψ)、N1-甲基假尿苷(me1Ψ)、5-甲氧基尿苷(5moU)、肌苷、7-甲基鸟苷、2'-O-甲基-3’硫代磷酸酯(MS)、S-约束乙基(cEt)、硫代磷酸酯(PS)、2'-O-甲基-3'-硫代PACE(MSP)或2'-O-甲基-3'-膦酰基乙酸酯(MP)。在一些实施方案中,指导物包含一种或多种硫代磷酸酯修饰。在某些实施方案中,指导物的至少1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个或25个核苷酸经化学修饰。在一些实施方案中,所有核苷酸均经化学修饰。在某些实施方案中,种子区中的一个或多个核苷酸经化学修饰。在某些实施方案中,在3’端的一个或多个核苷酸经化学修饰。在某些实施方案中,5’柄中的核苷酸均未经化学修饰。在一些实施方案中,种子区中的化学修饰是次要修饰,诸如并入2’-氟类似物。在具体实施方案中,种子区的一个核苷酸被2’-氟类似物替代。在一些实施方案中,3’端中的5或10个核苷酸经化学修饰。在Cpf1 CrRNA的3’端处的此类化学修饰提高基因切割效率(参见Li等人,Nature Biomedical Engineering,2017,1:0066)。在具体实施方案中,3'端中的5个核苷酸被2'-氟类似物替代。在具体实施方案中,3'端中的10个核苷酸被2'-氟类似物替代。在具体实施方案中,3'端中的5个核苷酸被2'-O-甲基(M)类似物替代。在一些实施方案中,3个核苷酸的每个3'端和5'端均经化学修饰。在具体实施方案中,修饰包括2'-O-甲基或硫代磷酸酯类似物。在具体实施方案中,四环中的12个核苷酸和茎环区中的16个核苷酸被2'-O-甲基类似物替代。此类化学修饰改善了体内编辑和稳定性(参见Finn等人,Cell Reports(2018),22:2227-2235)。

在一些实施方案中,指导物的5'柄的环经修饰。在一些实施方案中,指导物的5'柄的环被修饰为具有缺失、插入、拆分或化学修饰。在某些实施方案中,环包含3、4或5个核苷酸。在某些实施方案中,环包含序列UCUU、UUUU、UAUU或UGUU。在一些实施方案中,指导分子与单独的非共价连接的序列(其可以是DNA或RNA)形成茎环。

合成连接的指导物

在一方面,指导物包含经由非磷酸二酯键化学连接或缀合的tracr序列和tracr配对序列。在一方面,指导物包含经由非核苷酸环化学连接或缀合的tracr序列和tracr配对序列。在一些实施方案中,tracr和tracr配对序列经由非磷酸二酯共价接头连接。共价接头的实例包括但不限于选自由以下组成的组的化学部分:氨基甲酸酯、醚、酯、酰胺、亚胺、脒、氨基三嗪、腙、二硫键、硫醚、硫酯、硫代磷酸酯、二硫代磷酸酯、磺酰胺、磺酸酯、砜(fulfone)、亚砜、脲、硫脲、酰肼、肟、三唑、光不稳定键联、C-C键形成基团(诸如狄尔斯-阿尔德环加成对(Diels-Alder cyclo-addition pair)或闭环复分解对(ring-closingmetathesis pair))以及迈克尔反应对(Michael reaction pair)。

在一些实施方案中,首先使用标准亚磷酰胺合成方案合成tracr和tracr配对序列(Herdewijn,P.,编辑,Methods in Molecular Biology Col 288,OligonucleotideSynthesis:Methods and Applications,Humana Press,New Jersey(2012))。在一些实施方案中,可以使用本领域已知的标准方案将tracr或tracr配对序列官能化成含有适于连接的官能团(Hermanson,G.T.,Bioconjugate Techniques,Academic Press(2013))。官能团的实例包括但不限于羟基、胺、羧酸、羧酸卤化物、羧酸活性酯、醛、羰基、氯代羰基、咪唑基羰基、肼基、氨基脲、硫代氨基脲、硫醇、马来酰亚胺、卤代烷基、磺酰基、烯丙基、炔丙基、二烯、炔和叠氮化物。一旦tracr或tracr配对序列被官能化,就可以在两个寡核苷酸之间形成共价化学键或键联。化学键的实例包括但不限于基于以下的那些:氨基甲酸酯、醚、酯、酰胺、亚胺、脒、氨基三嗪、腙、二硫键、硫醚、硫酯、硫代磷酸酯、二硫代磷酸酯、磺酰胺、磺酸酯、砜(fulfone)、亚砜、脲、硫脲、酰肼、肟、三唑、光不稳定键联、C-C键形成基团(诸如狄尔斯-阿尔德环加成对(Diels-Alder cyclo-addition pair)或闭环复分解对(ring-closingmetathesis pair))以及迈克尔反应对(Michael reaction pair)。

在一些实施方案中,tracr和tracr配对序列可以经化学方式合成。在一些实施方案中,化学合成使用自动固相寡核苷酸合成机并利用2’-乙酰氧基乙基原酸酯(2’-ACE)(Scaringe等人,J.Am.Chem.Soc.(1998)120:11820-11821;Scaringe,Methods Enzymol.(2000)317:3-18)或2'-硫代氨基甲酸酯(2'-TC)化学品(Dellinger等人,J.Am.Chem.Soc.(2011)133:11540-11546;Hendel等人,Nat.Biotechnol.(2015)33:985-989)。

在一些实施方案中,可以使用各种生物缀合反应、环、桥和非核苷酸键经由糖、核苷酸间磷酸二酯键、嘌呤和嘧啶残基的修饰将tracr和tracr配对序列共价连接。Sletten等人,Angew.Chem.Int.Ed.(2009)48:6974-6998;Manoharan,M.Curr.Opin.Chem.Biol.(2004)8:570-9;Behlke等人,Oligonucleotides(2008)18:305-19;Watts等人,Drug.Discov.Today(2008)13:842-55;Shukla等人,ChemMedChem(2010)5:328-49。

在一些实施方案中,可以使用点击化学将tracr和tracr配对序列共价连接。在一些实施方案中,可以使用三唑接头将tracr和tracr配对序列共价连接。在一些实施方案中,可以使用涉及炔烃和叠氮化物产生高度稳定的三唑接头的Huisgen 1,3-偶极环加成反应将tracr和tracr配体序列共价连接(He等人,ChemBioChem(2015)17:1809-1812;WO 2016/186745)。在一些实施方案中,通过连接5'-己炔tracrRNA和3'-叠氮化物crRNA将tracr和tracr配对序列共价连接。在一些实施方案中,可以用2'-乙酰氧基乙基原酸酯(2'-ACE)基团保护5'-己炔tracrRNA和3'-叠氮化物crRNA中的一者或两者,然后可以使用Dharmacon方案将该基团去除(Scaringe等人,J.Am.Chem.Soc.(1998)120:11820-11821;Scaringe,Methods Enzymol.(2000)317:3-18)。

在一些实施方案中,可以经由接头(例如,非核苷酸环)将tracr和tracr配对序列共价连接,所述接头包含诸如间隔区、附接物、生物缀合物、发色团、报告基团、染料标记的RNA和非天然存在的核苷酸类似物的部分。更具体地,用于本发明目的的合适间隔区包括但不限于聚醚(例如聚乙二醇、多元醇、聚丙二醇或乙二醇和丙二醇的混合物)、聚胺基团(例如精胺、亚精胺及其聚合衍生物)、聚酯(例如聚(丙烯酸乙酯))、聚磷酸二酯、亚烃基以及它们的组合。合适的附接物包括可以被添加至接头以向接头增加附加特性的任何部分,诸如但不限于荧光标记。合适的生物缀合物包括但不限于肽、糖苷、脂质、胆固醇、磷脂、二酰基甘油和二烷基甘油、脂肪酸、烃、酶底物、类固醇、生物素、地高辛、碳水化合物、多糖。合适的发色团、报告基团和染料标记的RNA包括但不限于荧光染料(诸如荧光素和若丹明),化学发光、电化学发光和生物发光标记化合物。在WO 2004/015075中也描述了缀合两个RNA组分的示例性接头的设计。

接头(例如非核苷酸环)可以具有任何长度。在一些实施方案中,接头具有等于约0-16个核苷酸的长度。在一些实施方案中,接头具有等于约0-8个核苷酸的长度。在一些实施方案中,接头具有等于约0-4个核苷酸的长度。在一些实施方案中,接头具有等于约2个核苷酸的长度。示例性接头设计另外描述于WO2011/008730中。

典型的II型Cas9 sgRNA包含(以5'至3'方向):指导序列、poly U束、第一互补段(“重复序列”)、环(四环)、第二互补段(与重复序列互补的“抗重复序列”)、茎,以及另外的茎环和茎和poly A(通常为RNA中的poly U)尾(终止子)。在优选的实施方案中,指导物架构的某些方面得以保留,指导物架构的某些方面可以例如通过特征的添加、减去或取代进行修饰,而指导物架构的某些其他方面得以维持。工程化的sgRNA修饰(包括但不限于插入、缺失和取代)的优选位置包括指导物末端和sgRNA的在与CRISPR蛋白和/或靶标复合时暴露的区域,例如四环和/或环2。

在某些实施方案中,本发明的指导物包含用于衔接蛋白的特异性结合位点(例如适体),所述衔接蛋白可以包含一个或多个功能结构域(例如经由融合蛋白)。当这样的指导物形成CRISPR复合物(即结合至指导物和靶标的CRISPR酶)时,衔接蛋白结合功能结构域,并且与所述衔接蛋白缔合的功能结构域被定位成有利于属性化的功能生效的空间取向。例如,如果功能结构域是转录激活因子(例如VP64或p65),则转录激活因子被定位成允许其实现靶标转录的空间取向。同样,转录阻抑因子将被有利地定位以影响靶标转录,而核酸酶(例如Fok1)将被有利地定位以切割或部分切割靶标。

技术人员将理解,对允许衔接子+功能结构域结合但未正确定位衔接子+功能结构域(例如由于CRISPR复合物的三维结构内的空间位阻)的指导物的修饰是未预期的修饰。如本文所述,一种或多种修饰的指导物可在四环、茎环1、茎环2或茎环3处修饰,优选地在四环或茎环2中,且最优选地在四环处环和茎环2两者中修饰。

重复序列:抗重复序列双链体将从sgRNA的二级结构中显而易见。其通常可以是(沿5'至3'方向)poly U束之后四环之前的第一互补段;(沿5'至3'方向)四环之后poly A束之前的第二互补段。第一互补段(“重复序列”)与第二互补段(“抗重复序列”)互补。这样,当彼此折回时,它们沃森-克里克碱基配对形成dsRNA的双链体。这样,就A-U或C-G碱基配对而言,而且根据由于四环抗重复序列处于相反取向这一事实,抗重复序列是重复序列的互补序列。

在本发明的实施方案中,指导架构的修饰包括替代茎环2中的碱基。例如,在一些实施方案中,茎环2中的“actt”(RNA中的“acuu”)和“aagt”(RNA中的“aagu”)碱基被“cgcc”和“gcgg”替代。在一些实施方案中,茎环2中的“actt”和“aagt”碱基被4个核苷酸的互补的富含GC的区替代。在一些实施方案中,4个核苷酸的互补的富含GC的区是“cgcc”和“gcgg”(均沿5'至3'方向)。在一些实施方案中,4个核苷酸的互补的富含GC的区是“gcgg”和“cgcc”(均沿5'至3'方向)。在4个核苷酸的互补的富含GC的区中的C和G的其他组合将是显而易见的,包括CCCC和GGGG。

在一方面,茎环2(例如“ACTTgtttAAGT”)可以被任何“XXXXgtttYYYY”替代,例如,其中XXXX和YYYY代表任何互补的核苷酸组,它们将彼此碱基配对以产生茎。

在一方面,茎含有互补X和Y序列,包含至少约4bp,但也涵盖具有更多(例如5个、6个、7个、8个、9个、10个、11个或12个)或更少(例如3个、2个)的碱基对的茎。因此,可以涵盖例如X2-12和Y2-12(其中X和Y代表任何互补的核苷酸组)。在一方面,由X和Y核苷酸组成的茎与“gttt”一起将在总体二级结构中形成完整的发夹;并且,这可能是有利的,并且碱基对的数量可以是形成完整发夹的任何数量。在一方面,只要保留整个sgRNA的二级结构,就可以容忍任何互补的X:Y碱基配对序列(例如,就长度而言)。在一方面,茎可以是X:Y碱基配对的形式,这种形式不会破坏整个sgRNA的二级结构,因为它具有DR:tracr双链体和3个茎环。在一方面,连接ACTT和AAGT(或由X:Y碱基对组成的任何替代茎)的“gttt”四环可以是不干扰sgRNA的总体二级结构的长度相同(例如4个核苷酸)或更长的任何序列。在一方面,茎环可以是进一步延长茎环2的长度的物质,例如可以是MS2适体。在一方面,茎环3“GGCACCGagtCGGTGC”可以另外采用“XXXXXXXagtYYYYYYY”形式,例如,其中X7和Y7代表任何互补的核苷酸组,它们将彼此碱基对以形成茎。在一方面,茎含有互补X和Y序列,包含约7bp,但也涵盖具有更多或更少的碱基对的茎。在一方面,由X和Y核苷酸组成的茎与“agt”一起在总体二级结构中形成完整的发夹。在一方面,只要保留整个sgRNA的二级结构,就可以容忍任何互补的X:Y碱基配对序列。在一方面,茎可以是X:Y碱基配对的形式,这种形式不会破坏整个sgRNA的二级结构,因为它具有DR:tracr双链体和3个茎环。在一方面,茎环3的“agt”序列可以被延长,或者被适体例如MS2适体或通常保留茎环3的架构的序列替代。在一方面,对于替代茎环2和/或3,每个X和Y对可以指代任何碱基对。在一方面,涵盖非沃森-克里克(Watson-Crick)碱基配对,这种配对通常以其他方式保留该位置处茎环的架构。

在一方面中,DR:tracrRNA双链体可以被替换为以下形式:gYYYYag(N)NNNNxxxxNNNN(AAN)uuRRRRu(使用标准IUPAC核苷酸命名法),其中(N)和(AAN)代表双链体中的部分凸环,并且“xxxx”代表接头序列。只要与tracrRNA的相应NNNN部分成碱基对,那么正向重复序列的NNNN就可以是任何物质。在一方面,DR:tracrRNA双链体可以经由任何长度(xxxx...)、任何碱基组成的接头进行连接,只要接头不改变总体结构即可。

在一方面,sgRNA的结构要求是具有双链体和3个茎环。在大多数情况下,许多特定碱基要求的实际序列要求并不严格,因为应保留DR:tracrRNA双链体的架构,但是产生该架构的序列,即茎、环、凸环等可能会被改变。

适体

具有第一适体/RNA结合蛋白对的一个指导物可以连接或融合至激活因子,而具有第二适体/RNA结合蛋白对的第二指导物可以连接或融合至阻抑因子。这些指导物适用于不同的靶标(基因座),因此使得可以激活一个基因并阻抑一个基因。例如,以下示意图显示了这种方法:

指导物1-MS2适体-------MS2 RNA结合蛋白-------VP64激活因子;和

指导物2-PP7适体-------PP7 RNA结合蛋白-------SID4x阻抑因子。

本发明还涉及正交PP7/MS2基因靶向。在此实例中,用不同的RNA环修饰靶向不同基因座的sgRNA,以募集分别激活和阻抑其靶基因座的MS2-VP64或PP7-SID4X。PP7是噬菌体假单胞菌的RNA结合外壳蛋白。同MS2一样,它结合特定的RNA序列和二级结构。PP7 RNA识别基序与MS2的不同。因此,PP7和MS2可以多重化,以同时在不同的基因组基因座介导不同的效应。例如,靶向基因座A的sgRNA可以用MS2环修饰,从而募集MS2-VP64激活因子;而靶向基因座B的另一sgRNA可以用PP7环修饰,从而募集PP7-SID4X阻抑结构域。因此,在同一细胞中,dCas9可以介导正交的基因座特异性修饰。可以扩展该原理以并入其他正交RNA结合蛋白,诸如Q-β。

正交阻抑的替代选择包括向指导物中并入具有反向激活阻抑功能的非编码RNA环(在被整合到该指导物中的MS2/PP7环的类似位置处或在该指导物的3’端处)。例如,用非编码(但已知是阻抑性的)RNA环设计指导物(例如,使用干扰哺乳动物细胞中的RNA聚合酶II的Alu阻抑因子(在RNA中))。将Alu RNA序列定位在如本文使用的MS2 RNA序列位置中(例如在四环和/或茎环2处);和/或在该指导物的3’端处。这给出了MS2、PP7或Alu在四环和/或茎环2位置处的可能的组合,以及任选地,Alu在该指导物的3’端处的添加(用或不用接头)。

两种不同适体(不同的RNA)的使用允许一起使用激活因子-衔接蛋白融合物和阻抑因子-衔接蛋白融合物与不同指导物,以激活一个基因的表达,同时阻抑另一个基因的表达。可以在多重方法中一起或基本上一起施用这些适体连同其不同指导物。可以同时使用大量的此类修饰的指导物(例如10种或20种或30种等),同时待递送仅一种(或至少最小数量的)Cas9,因为相对较小数量的Cas9可以与大量的修饰的指导物一起使用。衔接蛋白可以与一种或多种激活因子或一种或多种阻抑因子相缔合(优选地连接至或融合至它们)。例如,衔接蛋白可以与第一激活因子和第二激活因子相缔合。第一激活因子和第二激活因子可以是相同的,但是优选地它们是不同的激活因子。例如,一者可能是VP64,而另一者可能是p65,但是这些仅是实例并且设想了其他转录激活因子。可以使用三种或更多种或甚至四种或更多种激活因子(或阻抑因子),但是包装尺寸可以将数量限制为高于5个不同的功能结构域。优选在直接融合至衔接蛋白的情况下使用接头,其中两个或更多个功能结构域与衔接蛋白相缔合。合适的接头可能包括GlySer接头。

还可以设想的是,酶-指导物复合物整体上可以与两个或更多个功能结构域相缔合。例如,可以存在两个或更多个与该酶相缔合的功能结构域,或者可以存在两个或更多个与该指导物相缔合的功能结构域(经由一种或多种衔接蛋白),或者可以存在一个或多个与该酶相缔合的功能结构域和一个或多个与该指导物相缔合的功能结构域(经由一种或多种衔接蛋白)。

衔接蛋白与激活因子或阻抑因子之间的融合物可以包括接头。例如,可以使用GlySer接头GGGS。它们可以按3个((GGGGS)3)或6、9或甚至12个或更多个的重复使用,以根据需要提供合适的长度。可以在RNA结合蛋白与功能结构域(激活因子或阻抑因子)之间,或者在CRISPR酶(Cas9)与功能结构域(激活因子或阻抑因子)之间使用接头。使用这些接头来工程化适当量的“机械柔性”。

死亡指导物:包含死亡指导序列的指导RNA可以用于本发明

在一方面,本发明提供了按以下方式修饰的指导序列,该方式允许形成CRISPR复合物并且成功地结合至靶标,但同时不允许成功地获得核酸酶活性(即没有核酸酶活性/没有插入缺失活性)。出于解释的原因,此类修饰的指导序列被称为“死亡指导物”或“死亡指导序列”。就核酸酶活性而言,可以认为这些死亡指导物或死亡指导序列是无催化活性的或无构象活性的。可以使用本领域通常使用的surveyor分析或深度测序来测量核酸酶活性,优选使用surveyor分析。类似地,就促进催化活性的能力或区分中靶和脱靶结合活性的能力而言,死亡指导序列并不可以足够地参与富有成效的碱基配对。简而言之,surveyor测定涉及纯化和扩增基因的CRISPR靶位点,并用能扩增CRISPR靶位点的引物形成异源双链体。再退火后,按照制造商推荐的方案用SURVEYOR核酸酶和SURVEYOR增强子S(Transgenomics)处理产物,在凝胶上进行分析,并基于相对条带强度进行定量。

因此,在相关方面,本发明提供了一种非天然存在的或工程化的组合物Cas9CRISPR-Cas系统,所述系统包含如本文所述的功能性Cas9和指导RNA(gRNA),其中所述gRNA包含死亡指导序列,由此所述gRNA能够与靶序列杂交,这样使得所述Cas9 CRISPR-Cas系统被引导至细胞中的目标基因组基因座,而没有如由SURVEYOR测定检测到的由所述系统的非突变Cas9酶的核酸酶活性所导致的可检测的插入缺失活性。为了简便起见,以下gRNA在本文中被称为“死亡gRNA”:其包含死亡指导序列,由此所述gRNA能够与靶序列杂交,这样使得所述Cas9 CRISPR-Cas系统被引导至细胞中的目标基因组基因座,而没有如由SURVEYOR测定检测到的由所述系统的非突变Cas9酶的核酸酶活性所导致的可检测的插入缺失活性。应当理解,如本文别处所述的根据本发明的任何gRNA都可以用作死亡gRNA/包含如下文所述的死亡指导序列的gRNA。如本文别处所述的任何方法、产品、组合物和用途都同样地适用于如下文进一步详述的死亡gRNA/包含死亡指导序列的gRNA。作为进一步的指导,提供了以下特定方面和实施方案。

可以通过任何适合的测定来评定死亡指导序列引导CRISPR复合物序列特异性地结合至靶序列的能力。例如,足以形成CRISPR复合物的CRISPR系统的组分,包括有待测试的死亡指导序列,可以提供给具有相应靶序列的宿主细胞,诸如通过用编码CRISPR序列的组分的载体转染,继而诸如通过如本文所述的Surveyor测定评定靶序列内的优先切割。类似地,可以在试管中通过提供靶序列、CRISPR复合物的组分(包括有待测试的死亡指导序列)和不同于测试死亡指导序列的对照指导序列,以及在测试指导序列与对照指导序列反应之间比较靶序列处的结合或切割速率来评估靶多核苷酸序列的切割。其他测定可能存在,并且将为本领域技术人员所想到。可以选择死亡指导序列以靶向任何靶序列。在一些实施方案中,靶序列是细胞基因组内的序列。

如本文进一步解释的,若干结构参数允许适当的框架到达这样的死亡指导物处。死亡指导序列短于对应的指导序列,这导致活跃的Cas9特异性插入缺失形成。死亡指导物比引导至相同Cas9的对应指导物短5%、10%、20%、30%、40%、50%,这导致活跃的Cas9特异性插入缺失形成。

如下文所解释的并且在本领域中已知的,gRNA-Cas9特异性的一方面是正向重复序列,它有待被适当地连接至此类指导物。特别地,这意味着正向重复序列的设计取决于Cas9的来源。因此,可用于经验证的死亡指导序列的结构数据可用于设计Cas9特异性等效物。例如两个或更多个Cas9效应蛋白的直系同源核酸酶结构域RuvC之间的结构相似性可以用于迁移设计等效死亡指导物。因此,可以在长度和序列上对本文的死亡指导物进行适当修饰,以反映此类Cas9特异性等效物,从而允许形成CRISPR复合物并且成功地结合至靶标,而同时不允许成功地获得核酸酶活性。

死亡指导物在本文上下文以及现有技术中的使用为体外、离体和体内应用两者中的网络生物学和/或系统生物学提供了令人惊讶且出乎意料的平台,从而允许多重基因靶向,并且特别是双向多重基因靶向。在死亡指导物的使用之前,处理多个靶标例如以便激活、阻抑和/或沉默基因活性一直具有挑战性并且在一些情况下是不可能的。通过使用死亡指导物,可以例如在同一细胞中,在同一动物体内,或在同一患者体内处理多个靶标,并且因此处理多种活性。这种多重化可以同时发生或交错发生持续所需的时间段。

例如,死亡指导物现在允许首次使用gRNA作为基因靶向手段,而不是核酸酶活性的结果,并且同时提供激活或阻抑的引导手段。包含死亡指导物的指导RNA可以按一定方式被修饰为还包括以下元件,这些元件允许激活或阻抑基因活性,特别地是如本文别处所述的允许功能性放置基因效应子(例如基因活性的激活因子或阻抑因子)的蛋白衔接子(例如适体)。一个实例是并入适体,如本文和现有技术中所解释的。通过工程化包含死亡指导物的gRNA以并入蛋白相互作用适体(Konermann等人,"Genome-scale transcriptionactivation by an engineered CRISPR-Cas9 complex,"doi:10.1038/naturel4136,以引用方式并入本文),可以组装由多个不同的效应结构域组成的合成转录激活复合物。可以在自然转录激活过程之后将其模式化。例如,可以将选择性地结合效应子(例如激活因子或阻抑因子;二聚化MS2噬菌体外壳蛋白与激活因子或阻抑因子形成的融合蛋白)的适体,或自身结合效应子(例如激活因子或阻抑因子)的蛋白质附加至死亡gRNA四环和/或茎环2。就MS2而言,融合蛋白MS2-VP64结合至四环和/或茎环2,进而介导例如Neurog2的转录上调。其他转录激活因子是例如VP64、P65、HSF1和MyoD1。仅作为此概念的示例,可以使用与PP7相互作用的茎环替代MS2茎环来募集阻抑性元件。

因此,一方面是本发明的gRNA,其包含死亡指导物,其中所述gRNA还包含如本文所述的提供基因激活或阻抑的修饰。死亡gRNA可以包含一种或多种适体。适体可以对基因效应子、基因激活因子或基因阻抑因子具有特异性。或者,适体可以对蛋白质具有特异性,该蛋白质又对特定的基因效应子、基因激活因子或基因阻抑因子具有特异性并且募集/结合它们。如果存在多个用于激活因子或阻抑因子募集的位点,则优选的是这些位点对于激活因子或阻抑因子具有特异性。如果存在多个用于激活因子或阻抑因子结合的位点,则这些位点可能对相同激活因子或相同阻抑因子具有特异性。这些位点还可以对不同激活因子或不同阻抑因子具有特异性。基因效应子、基因激活因子、基因阻抑因子可以按融合蛋白的形式存在。

在一个实施方案中,如本文所述的死亡gRNA或如本文所述的Cas9CRISPR-Cas复合物包括非天然存在的或工程化的组合物,所述组合物包含两种或更多种衔接蛋白,其中每种衔接蛋白与一个或多个功能结构域相缔合,并且其中衔接蛋白与插入到死亡gRNA的至少一个环中的一个或多个不同的RNA序列结合。

因此,一方面提供了一种非天然存在的或工程化的组合物,所述组合物包含指导RNA(gRNA),所述指导RNA包含能够与细胞中目标基因组基因座中的靶序列杂交的死亡指导序列,其中所述死亡指导序列如本文所定义是包含至少一个或多个核定位序列的Cas9,其中所述Cas9任选地包含至少一个突变,其中所述死亡gRNA的至少一个环通过插入与一种或多种衔接蛋白结合的一个或多个不同的RNA序列来修饰,并且其中所述衔接蛋白与一个或多个功能结构域相缔合;或者,其中所述死亡gRNA被修饰为具有至少一个非编码功能环,并且其中所述组合物包含两种或更多种衔接蛋白,其中每种衔接蛋白与一个或多个功能结构域相缔合。

在某些实施方案中,所述衔接蛋白是包含功能结构域的融合蛋白,所述融合蛋白任选地在所述衔接蛋白与所述功能结构域之间包含接头,所述接头任选地包括GlySer接头。

在某些实施方案中,所述死亡gRNA的所述至少一个环不通过插入与所述一种或多种衔接蛋白结合的一个或多个不同的RNA序列来修饰。

在某些实施方案中,与所述衔接蛋白相缔合的所述一个或多个功能结构域是转录激活结构域。

在某些实施方案中,与所述衔接蛋白相缔合的所述一个或多个功能结构域是包含VP64、p65、MyoD1、HSF1、RTA或SET7/9的转录激活结构域。

在某些实施方案中,与所述衔接蛋白相缔合的所述一个或多个功能结构域是转录阻抑结构域。

在某些实施方案中,所述转录阻抑结构域是KRAB结构域。

在某些实施方案中,转录阻抑结构域是NuE结构域、NcoR结构域、SID结构域或SID4X结构域。

在某些实施方案中,与所述衔接蛋白相缔合的所述一个或多个功能结构域中的至少一个具有一种或多种活性,包括甲基酶活性、脱甲基酶活性、转录激活活性、转录阻抑活性、转录释放因子活性、组蛋白修饰活性、DNA整合活性RNA切割活性、DNA切割活性或核酸结合活性。

在某些实施方案中,DNA切割活性是由于Fok1核酸酶。

在某些实施方案中,对死亡gRNA进行了修饰,使得在所述死亡gRNA结合衔接蛋白并进一步结合Cas9和靶标之后,功能结构域处于允许功能结构域以其属性化的功能发挥作用的空间取向。

在某些实施方案中,所述死亡gRNA的至少一个环是四环和/或环2。在某些实施方案中,死亡gRNA的四环和环2通过插入一个或多个不同的RNA序列来修饰。

在某些实施方案中,与一种或多种衔接蛋白结合的一个或多个不同的RNA序列的插入是适体序列。在某些实施方案中,所述适体序列是对相同衔接蛋白具有特异性的两个或更多个适体序列。在某些实施方案中,适体序列是对不同衔接蛋白特异的两个或更多个适体序列。

在某些实施方案中,衔接蛋白包含MS2、PP7、Qβ、F2、GA、fr、JP501、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、7s、PRR1。

在某些实施方案中,细胞是真核细胞。在某些实施方案中,真核细胞是哺乳动物细胞,任选地是小鼠细胞。在某些实施方案中,哺乳动物细胞是人类细胞。

在某些实施方案中,第一衔接蛋白与p65结构域相缔合,而第二衔接蛋白与HSF1结构域相缔合。

在某些实施方案中,所述组合物包含具有至少三个功能结构域的Cas9CRISPR-Cas复合物,其中至少一个功能结构域与Cas9相缔合并且其中至少两个功能结构域与死亡gRNA相缔合。

在某些实施方案中,所述组合物还包含第二gRNA,其中所述第二gRNA是能够与第二靶序列杂交的活gRNA,使得第二Cas9 CRISPR-Cas系统被引导至细胞中的第二目标基因座基因座,并且由所述系统的Cas9酶的核酸酶活性所致在所述第二基因组基因座处检测到插入缺失活性。

在某些实施方案中,所述组合物还包含多个死亡gRNA和/或多个活gRNA。

本发明的一个方面是利用gRNA支架的模块性和可定制性来建立一系列具有不同结合位点(特别地适体)的gRNA支架,以便以正交方式募集不同类型的效应子。再次,作为更广泛概念的示例和说明,可以使用与PP7相互作用的茎环替代MS2茎环来结合/募集阻抑性元件,从而实现多重双向转录控制。因此,一般来讲,可以采用包含死亡指导物的gRNA来提供多重转录控制和优选的双向转录控制。这种转录控制是基因中最优选的。例如,一种或多种包含死亡指导物的gRNA可用于靶向一种或多种靶基因的激活。同时,一种或多种包含死亡指导物的gRNA可用于靶向一种或多种靶基因的阻抑。这样的序列可以按多种不同的组合应用,例如首先阻抑靶基因,接着在适当的时期激活其他靶标,或者在激活选择基因的同时阻抑选择基因,随后进行进一步激活和/或阻抑。因此,可以有利地一起解决一个或多个生物系统的多个组分。

在一方面,本发明提供了编码死亡gRNA的一种或多种核酸分子或Cas9 CRISPR-Cas复合物或如本文所述的组合物。

在一方面,本发明提供了一种载体系统,所述载体系统包含:编码如本文所定义的死亡指导RNA的核酸分子。在某些实施方案中,所述载体系统还包含编码Cas9的一种或多种核酸分子。在某些实施方案中,所述载体系统还包含编码(活)gRNA的一种或多种核酸分子。在某些实施方案中,所述核酸分子或所述载体还包含在真核细胞中可操作的一个或多个调控元件,所述一个或多个调控元件可操作地连接至编码指导序列(gRNA)的核酸分子和/或编码Cas9的核酸分子和/或任选的一个或多个核定位序列。

在另在一方面,还可以使用结构分析来研究死亡指导物与活性Cas9核酸酶之间使得能够发生DNA结合但不发生DNA切割的相互作用。以这种方式确定对于Cas9的核酸酶活性重要的氨基酸。此类氨基酸的修饰可改善用于基因编辑的Cas9酶。

另一方面是将如本文所解释的死亡指导物的使用与如本文所解释以及如本领域已知的CRISPR的其他应用相结合。例如,如本文所解释,可将包含用于靶向多重基因激活或阻抑或靶向多重双向基因激活/阻抑的死亡指导物的gRNA与包含维持核酸酶活性的指导物的gRNA相结合。这样的包含维持核酸酶活性的指导物的gRNA可以或可以不还包括允许阻抑基因活性的修饰(例如适体)。这样的包含维持核酸酶活性的指导物的gRNA可以或可以不还包括允许激活基因活性的修饰(例如适体)。以这种方式,引入了用于多重基因控制的另一种手段(例如,可以同时提供或与具有核酸酶活性的基因靶向抑制结合提供没有核酸酶活性/没有插入缺失活性的多重基因靶向激活)。

例如,1)使用包含靶向一个或多个基因并且用适当的适体进一步修饰以募集基因激活因子的一个或多个死亡指导物的一个或多个gRNA(例如1-50个、1-40个、1-30个、1-20个,优选1-10个,更优选1-5个);2)可以结合包含靶向一个或多个基因并且用适当的适体进一步修饰以募集基因阻抑因子的一个或多个死亡指导物的一个或多个gRNA(例如1-50个、1-40个、1-30个、1-20个,优选1-10个,更优选1-5个)。接着可以将1)和/或2)与3)靶向一个或多个基因的一个或多个gRNA(例如1-50个、1-40个、1-30个、1-20个,优选1-10个,更优选1-5个)组合。接着可以依次与1)+2)+3)连同4)靶向一个或多个基因并且用适当的适体进一步修饰以募集基因激活因子的一个或多个gRNA(1-50个、1-40个、1-30个、1-20个,优选1-10个,更优选1-5个)实施此组合。接着可以依次与1)+2)+3)+4)连同5)靶向一个或多个基因并且用适当的适体进一步修饰以募集基因阻抑因子的一个或多个gRNA(1-50个、1-40个、1-30个、1-20个,优选1-10个,更优选1-5个)实施此组合。因此,本发明包括各种用途和组合。例如,组合1)+2);组合1)+3);组合2)+3);组合1)+2)+3);组合1)+2)+3)+4);组合1)+3)+4);组合2)+3)+4);组合1)+2)+4);组合1)+2)+3)+4)+5);组合1)+3)+4)+5);组合2)+3)+4)+5);组合1)+2)+4)+5);组合1)+2)+3)+5);组合1)+3)+5);组合2)+3)+5);组合1)+2)+5)。

在一方面,本发明提供了一种用于设计、评估或选择用于将Cas9 CRISPR-Cas系统引导至靶基因座的死亡指导RNA靶向序列(死亡指导序列)的算法。特别地,已确定死亡指导RNA的特异性与i)GC含量和ii)靶向序列长度有关,并且可以通过改变这些参数加以优化。在一方面,本发明提供了一种使死亡指导RNA的脱靶结合或相互作用最小化的用于设计或评估死亡指导RNA靶向序列的算法。在本发明的一个实施方案中,用于选择用于将CRISPR系统引导至生物体中的基因座的死亡指导RNA靶向序列的算法包括:a)在所述基因座中定位一个或多个CRISPR基序,分析每个CRISPR基序下游的20nt序列,方式为:i)确定所述序列的GC含量,并且ii)确定在生物体基因组中最接近所述CRISPR序列的15个下游核苷酸是否存在脱靶匹配;以及c)如果所述序列的GC含量为70%或更低并且没有鉴定到脱靶匹配,则选择所述15个核苷酸用于在死亡指导RNA中使用。在一个实施方案中,如果GC含量为60%或更低,则选择所述序列用于靶向序列。在某些实施方案中,如果GC含量为55%或更低、50%或更低、45%或更低、40%或更低、35%或更低或30%或更低,则选择所述序列用于靶向序列。在一个实施方案中,分析基因座的两个或更多个序列,并且选择具有最低GC含量、或次低GC含量、或次最低GC含量的序列。在一个实施方案中,如果在生物体的基因组中没有鉴定到脱靶匹配,则选择所述序列用于靶向序列。在一个实施方案中,如果在基因组的调控序列中没有鉴定到脱靶匹配,则选择靶向序列。

在一方面,本发明提供了一种选择用于将官能化的CRISPR系统引导至生物体中的基因座的死亡指导RNA靶向序列的方法,所述方法包括:a)在所述基因座中定位一个或多个CRISPR基序;b)分析每个CRISPR基序下游的20nt序列,方式为:i)确定所述序列的GC含量,并且ii)确定在所述生物体的基因组中所述序列的前15nt是否存在脱靶匹配;c)如果所述序列的GC含量为70%或更低并且没有鉴定到脱靶匹配,则选择所述序列用于在指导RNA中使用。在一个实施方案中,如果GC含量为50%或更低,则选择所述序列。在一个实施方案中,如果GC含量为40%或更低,则选择所述序列。在一个实施方案中,如果GC含量为30%或更低,则选择所述序列。在一个实施方案中,分析两个或更多个序列,并且选择具有最低GC含量的序列。在一个实施方案中,在生物体的调控序列中确定脱靶匹配。在一个实施方案中,基因座是调控区。一方面提供了包含根据前述方法所选择的靶向序列的死亡指导RNA。

在一方面,本发明提供了一种用于将官能化的CRISPR系统靶向生物体中的基因座的死亡指导RNA。在本发明的一个实施方案中,所述死亡指导RNA包含靶向序列,其中所述靶序列的CG含量为70%或更低,并且所述靶向序列的前15nt与该生物体中的另一个基因座的调控序列中的CRISPR基序下游的脱靶序列不匹配。在某些实施方案中,靶向序列的GC含量为60%或更低、55%或更低、50%或更低、45%或更低、40%或更低、35%或更低或30%或更低。在某些实施方案中,靶向序列的GC含量为70%至60%或60%至50%或50%至40%或40%至30%。在一个实施方案中,在基因座的潜在靶向序列中所述靶向序列具有最低的CG含量。

在本发明的一个实施方案中,死亡指导物的前15nt与靶序列匹配。在另一个实施方案中,死亡指导物的前14nt与靶序列匹配。在另一个实施方案中,死亡指导物的前13nt与靶序列匹配。在另一个实施方案中,死亡指导物的前12nt与靶序列匹配。在另一个实施方案中,死亡指导物的前11nt与靶序列匹配。在另一个实施方案中,死亡指导物的前10nt与靶序列匹配。在本发明的一个实施方案中,死亡指导物的前15nt与另一个基因座的调控区中的CRISPR基序下游的脱靶序列不匹配。在其他实施方案中,死亡指导物的前14nt或前13nt、或指导物的前12nt、或死亡指导物的前11nt、或死亡指导物的前10nt与另一个基因座的调控区中的CRISPR基序下游的脱靶序列不匹配。在其他实施方案中,死亡指导物的前15nt、或14nt、或13nt、或12nt、或11nt与基因组中的CRISPR基序下游的脱靶序列不匹配。

在某些实施方案中,死亡指导RNA在3'端包括与靶序列不匹配的另外的核苷酸。因此,包括CRISPR基序下游的前15nt、或14nt、或13nt、或12nt、或11nt的死亡指导RNA的长度可以在3'端延长至12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt或更长。

本发明提供了一种用于将Cas9 CRISPR-Cas系统引导至基因座的方法,所述Cas9CRISPR-Cas系统包括但不限于死亡Cas9(dCas9)或官能化的Cas9系统(其可以包括官能化的Cas9或官能化的指导物)。在一方面,本发明提供了一种用于选择死亡指导RNA靶向序列并将官能化的CRISPR系统引导至生物体中的基因座的方法。在一方面,本发明提供了一种用于选择死亡指导RNA靶向序列并通过官能化的Cas9 CRISPR-Cas系统实现靶基因座的基因调控的方法。在某些实施方案中,所述方法用于在最小化脱靶效应的同时实现靶基因调控。在一方面,本发明提供了一种用于选择两个或更多个死亡指导RNA靶向序列并通过官能化的Cas9 CRISPR-Cas系统实现两个或更多个靶基因座的基因调控的方法。在某些实施方案中,所述方法用于在最小化脱靶效应的同时实现两个或更多个靶基因座的调控。

在一方面,本发明提供了一种选择用于将官能化的Cas9引导至生物体中的基因座的死亡指导RNA靶向序列的方法,所述方法包括:a)在所述基因座中定位一个或多个CRISPR基序;b)分析每个CRISPR基序下游的序列,方式为:i)选择与所述CRISPR基序相邻的10至15nt,ii)确定所述序列的GC含量;以及c)如果所述序列的GC含量为40%或更高,则选择所述10至15nt序列作为靶向序列用于在指导RNA中使用。在一个实施方案中,如果GC含量为50%或更高,则选择所述序列。在一个实施方案中,如果GC含量为60%或更高,则选择所述序列。在一个实施方案中,如果GC含量为70%或更高,则选择所述序列。在一个实施方案中,分析两个或更多个序列,并且选择具有最高GC含量的序列。在一个实施方案中,所述方法还包括将与CRISPR基序下游的序列不匹配的核苷酸添加至所选序列的3'端。一方面提供了包含根据前述方法所选择的靶向序列的死亡指导RNA。

在一方面,本发明提供了一种用于将官能化的CRISPR系统引导至生物体中的基因座的死亡指导RNA,其中所述死亡指导RNA的靶向序列由与所述基因座的CRISPR基序相邻的10至15个核苷酸组成,其中靶序列的CG含量为50%或更高。在某些实施方案中,所述死亡指导RNA还包含添加至靶向序列的3'端的与基因座的CRISPR基序下游的序列不匹配的核苷酸。

在一方面,本发明提供了有待引导至一个或多个或两个或更多个基因座的单一效应子。在某些实施方案中,所述效应子与Cas9相缔合,并且一个或多个、或两个或更多个选择的死亡指导RNA用于将与Cas9缔合的效应子引导至一个或多个、或两个或更多个选择的靶基因座。在某些实施方案中,所述效应子与一个或多个、或两个或更多个选择的死亡指导RNA相缔合,当与Cas9酶复合时,每个选择的死亡指导RNA都使其所缔合的效应子定位至死亡指导RNA靶标。此类CRISPR系统的一个非限制性实例调节受相同转录因子调控的一个或多个、或两个或更多个基因座的活性。

在一方面,本发明提供了有待引导至一个或多个基因座的两个或更多个效应子。在某些实施方案中,采用两个或更多个死亡指导RNA,所述两个或更多个效应子中的每一个与选择的死亡指导RNA相缔合,两个或更多个效应子中的每一个均定位至其死亡指导RNA的选定靶标。此类CRISPR系统的一个非限制性实例调节受不同转录因子调控的一个或多个、或两个或更多个基因座的活性。因此,在一个非限制性实施方案中,两个或更多个转录因子定位至单一基因的不同调控序列。在另一个非限制性实施方案中,两个或更多个转录因子定位至不同基因的不同调控序列。在某些实施方案中,一个转录因子是激活因子。在某些实施方案中,一个转录因子是抑制因子。在某些实施方案中,一个转录因子是激活因子,并且另一个转录因子是抑制因子。在某些实施方案中,调控表达相同调控途径的不同组分的基因座。在某些实施方案中,调控表达不同调控途径的组分的基因座。

在一方面,本发明还提供了一种用于设计和选择特定用于由活性Cas9 CRISPR-Cas系统介导的靶DNA切割或靶标结合和基因调控的死亡指导RNA的方法和算法。在某些实施方案中,所述Cas9 CRISPR-Cas系统使用活性Cas9提供正交基因控制,所述活性Cas9切割一个基因座处的靶DNA,同时结合并促进另一个基因座的调控。

在一方面,本发明提供了一种选择用于将官能化的Cas9引导至生物体中的基因座的死亡指导RNA靶向序列而不发生切割的方法,所述方法包括:a)在所述基因座中定位一个或多个CRISPR基序;b)分析每个CRISPR基序下游的序列,方式为:i)选择与所述CRISPR基序相邻的10至15nt,ii)确定所述序列的GC含量;以及c)如果所述序列的GC含量为30%或更高、40%或更高,则选择所述10至15nt序列作为靶向序列用于在死亡指导RNA中使用。在某些实施方案中,靶向序列的GC含量为35%或更高、40%或更高、45%或更高、50%或更高、55%或更高、60%或更高、65%或更高或70%或更高。在某些实施方案中,靶向序列的GC含量为30%至40%或40%至50%或50%至60%或60%至70%。在本发明的一个实施方案中,分析基因座中的两个或更多个序列,并且选择具有最高GC含量的序列。

在本发明的一个实施方案中,靶向序列中评估了GC含量的部分是最接近PAM的15个靶核苷酸中的10至15个连续核苷酸。在本发明的一个实施方案中,指导物中考虑了GC含量的部分是最接近PAM的15个核苷酸中的10至11个核苷酸、或11至12个核苷酸、或12至13个核苷酸、或13或14或15个连续核苷酸。

在一方面,本发明进一步提供了一种用于鉴定促进CRISPR系统基因座切割同时避免功能激活或抑制的死亡指导RNA的算法。据观察,16至20个核苷酸的死亡指导RNA中的GC含量增加与DNA切割增加和功能激活减少相吻合。

本文还证明了通过将与CRISPR基序下游的靶序列不匹配的核苷酸添加至指导RNA的3'端可以提高官能化的Cas9的效率。例如,在长度为11至15nt的死亡指导RNA中,较短的指导物可能不太可能促进靶标切割,在促进CRISPR系统结合和功能控制方面效率也较低。在某些实施方案中,将与靶序列不匹配的核苷酸添加至死亡指导RNA的3'端增加激活效率,而不增加不期望的靶标切割。在一方面,本发明还提供了一种用于鉴定改进的死亡指导RNA的方法和算法,所述改进的死亡指导RNA有效地促进CRISPRP系统在DNA结合和基因调控中的功能而不促进DNA切割。因此,在某些实施方案中,本发明提供了一种死亡指导RNA,所述死亡指导RNA包括CRISPR基序下游的前15nt、或14nt、或13nt、或12nt、或11nt,并且其长度通过与靶标错配的核苷酸在3'端延长至12nt、13nt、14nt、15nt、16nt、17nt、18nt、19nt、20nt或更长。

在一方面,本发明提供了一种用于实现选择性正交基因控制的方法。如将从本文的公开理解的,根据本发明的考虑了指导物长度和GC含量的死亡指导物选择通过功能性Cas9 CRISPR-Cas系统提供了有效且具选择性的转录控制,例如以便通过激活或抑制调控基因座的转录并使脱靶效应最小化。因此,通过提供对单个靶基因座的有效调控,本发明还提供了对两个或更多个靶基因座的有效正交调控。

在某些实施方案中,正交基因控制是通过激活或抑制两个或更多个靶基因座而进行的。在某些实施方案中,正交基因控制是通过激活或抑制一个或多个靶基因座以及切割一个或多个靶基因座而进行的。

在一方面,本发明提供了一种包含非天然存在的Cas9 CRISPR-Cas系统的细胞,所述Cas9 CRISPR-Cas系统包含根据本文所述的方法或算法公开或制备的一种或多种死亡指导RNA,其中一种或多种基因产物的表达已被改变。在本发明的一个实施方案中,两种或更多种基因产物在细胞中的表达已被改变。本发明还提供了一种来自这种细胞的细胞系。

在一方面,本发明提供了一种包含含有非天然存在的Cas9 CRISPR-Cas系统的一种或多种细胞的多细胞生物体,所述Cas9 CRISPR-Cas系统包含根据本文所述的方法或算法公开或制备的一种或多种死亡指导RNA。在一方面,本发明提供了一种来自包含非天然存在的Cas9 CRISPR-Cas系统的细胞、细胞系或多细胞生物体的产物,所述Cas9 CRISPR-Cas系统包含根据本文所述的方法或算法公开或制备的一种或多种死亡指导RNA。

本发明的另一方面是如本文所述的包含一种或多种死亡指导物的gRNA,任选地结合如本文所述的或现有技术中的包含一种或多种指导物的gRNA、结合被工程化以用于过表达Cas9或优选敲入Cas9的系统(例如细胞、转基因动物、转基因小鼠、诱导型转基因动物、诱导型转基因小鼠)的用途。因此,单一系统(例如转基因动物、细胞)可以用作系统/网络生物学中多重基因修饰的基础。由于死亡指导物,现在这在体外、离体和体内均可实现。

例如,一旦提供了Cas9,就可以提供一种或多种死亡gRNA来引导多重基因调控,并且优选地是多重双向基因调控。如果必要或期望的话,可以采用在空间和时间上适当的方式提供一种或多种死亡gRNA(例如,组织特异性诱导Cas9表达)。因为在目标细胞、组织、动物中提供(例如表达)转基因/诱导型Cas9,所以包含死亡指导物的gRNA或包含指导物的gRNA都同样有效。同样地,本发明的另一方面是如本文所述的包含一种或多种死亡指导物的gRNA,任选地结合如本文所述的或现有技术中的包含一种或多种指导物的gRNA、结合被工程化以敲除Cas9 CRISPR-Cas的系统(例如细胞、转基因动物、转基因小鼠、诱导型转基因动物、诱导型转基因小鼠)的用途。

因此,如本文所述的死亡指导物与本文所述的CRISPR应用和本领域中已知的CRISPR应用的结合产生了用于系统的多重筛选的高效且准确的手段(例如,网络生物学)。这种筛选允许例如鉴定基因活性的特定组合(例如开/关组合),以鉴定造成疾病(特别地基因相关疾病)的基因。这种筛选的优选应用是癌症。同样地,本发明包括对此类疾病的治疗的筛选。细胞或动物可能会暴露在异常条件下,造成疾病或疾病样影响。可以提供候选组合物,并且在所需的多重环境中筛选效果。例如,可以筛查患者的癌细胞中哪些基因组合会导致细胞死亡,然后使用此信息来建立适当的疗法。

在一方面,本发明提供了一种药盒,所述药盒包含本文所述的一种或多种组分。所述药盒可以包括具有或不具有如本文所述的指导物的如本文所述的死亡指导物。

本文提供的结构信息允许探询死亡gRNA与靶DNA和Cas9的相互作用,从而允许工程化或改变死亡gRNA的结构以优化整个Cas9 CRISPR-Cas系统的功能。例如,可以通过插入可以结合至RNA的衔接蛋白来延长死亡gRNA的环,而不会与Cas9蛋白发生冲突。这些衔接蛋白可以进一步募集包含一个或多个功能结构域的效应蛋白或融合物。

在一些优选的实施方案中,功能结构域是转录激活结构域,优选为VP64。在一些实施方案中,功能结构域是转录阻抑结构域,优选为KRAB。在一些实施方案中,转录阻抑结构域是SID或SID的串联体(例如SID4X)。在一些实施方案中,功能结构域是表观遗传修饰结构域,从而提供了表观遗传修饰酶。在一些实施方案中,功能结构域是激活结构域,其可以是P65激活结构域。

本发明的一方面是上述元件被包含在单一组合物中或者被包含在单独的组合物中。这些组合物可以有利地应用于宿主以在基因组水平上引发功能效应。

一般来讲,以提供用于包含要结合(例如,经由融合蛋白)的一个或多个功能结构域的衔接蛋白的特异性结合位点(例如适体)的方式修饰死亡gRNA。修饰的死亡gRNA被修饰,使得一旦死亡gRNA形成CRISPR复合物(即,Cas9结合至死亡gRNA和靶标),衔接蛋白结合功能结构域,并且所述衔接蛋白上的功能结构域被定位成有利于属性化的功能生效的空间取向。例如,如果功能结构域是转录激活因子(例如VP64或p65),则转录激活因子被定位成允许其实现靶标转录的空间取向。同样,转录阻抑因子将被有利地定位以影响靶标转录,而核酸酶(例如Fok1)将被有利地定位以切割或部分切割靶标。

技术人员将理解,对允许衔接子+功能结构域结合但未正确定位衔接子+功能结构域(例如由于CRISPR复合物的三维结构内的空间位阻)的死亡gRNA的修饰是未预期的修饰。如本文所述,一种或多种修饰的死亡gRNA可在四环、茎环1、茎环2或茎环3处修饰,优选地在四环或茎环2中,且最优选地在四环处环和茎环2两者中修饰。

如本文所解释,功能结构域可以是例如选自由以下组成的组的一个或多个结构域:甲基酶活性、脱甲基酶活性、转录激活活性、转录阻抑活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性和分子开关(例如光诱导型)。在一些情况下,有利的是另外提供至少一个NLS。在一些情况下,将NLS定位在N末端处是有利的。当包括不止一个功能结构域时,所述功能结构域可以是相同或不同的。

可以将死亡gRNA设计为包括对相同或不同衔接蛋白具有特异性的多个结合识别位点(例如适体)。可以将死亡gRNA设计为结合至转录起始位点(即TSS)上游的启动子区-1000-+1个核酸(优选-200个核酸)。这种定位改善了影响基因激活(例如转录激活因子)或基因抑制(例如转录阻抑因子)的功能结构域。修饰的死亡gRNA可以是包含在组合物中的靶向一个或多个靶基因座的一个或多个修饰的死亡gRNA(例如,至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个gRNA、至少50个gRNA)。

衔接蛋白可以是任何数量的蛋白质,其结合至被引入到修饰的死亡gRNA中的适体或识别位点,并且一旦死亡gRNA已经被并入CRISPR复合物中,允许一个或多个功能结构域正确定位,以便以属性化功能影响靶标。如本申请中详细解释的,衔接蛋白可以是外壳蛋白,优选为噬菌体外壳蛋白。与此类衔接蛋白(例如,呈融合蛋白的形式)相缔合的功能结构域可以包括例如选自由以下组成的组的一个或多个结构域:甲基酶活性、脱甲基酶活性、转录激活活性、转录阻抑活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性和分子开关(例如光诱导型)。优选的结构域是Fok1、VP64、P65、HSF1、MyoD1。在功能结构域是转录激活因子或转录阻抑因子的情况下,有利的是另外提供并且优选地在N端提供至少一个NLS。当包括不止一个功能结构域时,所述功能结构域可以是相同或不同的。衔接蛋白可以利用已知的接头来附接此类功能结构域。

因此,修饰的死亡gRNA、(失活的)Cas9(具有或不具有功能结构域)和具有一个或多个功能结构域的结合蛋白可以各自单独地包含在组合物中并且单独地或共同地施用至宿主。或者,可以将这些组分以单一组合物的形式提供给宿主。可以经由技术人员已知的或本文描述的用于递送至宿主的病毒载体(例如慢病毒载体、腺病毒载体、AAV载体)进行对宿主的施用。如本文所述,使用不同的选择标记物(例如,用于慢病毒gRNA选择)和gRNA浓度(例如,取决于是否使用多个gRNA)对于引出改进的效果而言可以是有利的。

在这个概念的基础上,若干变化适于引出基因组基因座事件,包括DNA切割、基因激活或基因灭活。使用所提供的组合物,本领域技术人员可以有利地且特异性地靶向具有相同或不同功能结构域的单个或多个基因座,以引出一个或多个基因组基因座事件。这些组合物可以按多种多样的方法应用,用于在细胞中筛选文库和在体内进行功能建模(例如,lincRNA的基因激活和功能鉴定;功能获得建模;功能丧失建模;使用本发明的组合物建立用于优化和筛选目的的细胞系和转基因动物)。

本发明涵盖本发明的组合物用于建立和利用条件型或诱导型CRISPR转基因细胞/动物的用途,这在本发明或应用之前是不可信的。例如,靶细胞条件性地或诱导性地包含Cas9(例如呈Cre依赖性构建体的形式)和/或条件性地或诱导性地包含衔接蛋白,并且在表达被引入到所述靶细胞中的载体之后,所述载体表达所述Cas9和/或衔接蛋白,这在所述靶细胞中诱导或产生Cas9表达和/或衔接子表达的条件。通过用产生CRISPR复合物的已知方法应用本发明的教导和组合物,受功能结构域影响的诱导型基因组事件也是本发明的一个方面。一个实例是创建CRISPR敲入/条件型转基因动物(例如,包含Lox-Stop-polyA-Lox(LSL)盒的小鼠),随后递送一种或多种组合物,所述组合物提供如本文所述的一种或多种修饰的死亡gRNA(例如,目标靶基因的TSS地-200个核苷酸,用于基因激活目的)(例如带有一种或多种被外壳蛋白(例如MS2)识别的适体的修饰的死亡gRNA)、如本文所述的一种或多种衔接蛋白(连接至一个或多个VP64的MS2结合蛋白)和用于诱导条件型动物的工具(例如,使Cas9表达可诱导的Cre重组酶)。或者,可以将衔接蛋白与条件型或诱导型Cas9一起作为条件型或诱导型元件提供,以提供用于筛选目的的有效模型,这种模型有利地仅需要最少的设计和特异性死亡gRNA的施用即可用于广泛的应用。

在另一方面,进一步修饰了死亡指导物以提高特异性。可以合成受保护的死亡指导物,由此将二级结构引入死亡指导物的3'端从而提高其特异性。受保护的指导RNA(pgRNA)包含能够与细胞中目标基因组基因座中的靶序列杂交的指导序列和保护链,其中所述保护链任选地与所述指导序列互补,并且其中所述指导序列可以部分地与保护链杂交。pgRNA任选地包含延伸序列。pgRNA-靶DNA杂交的热力学由指导RNA与靶DNA之间互补的碱基数决定。通过采用“热力学保护”,可以通过添加保护序列来提高死亡gRNA的特异性。例如,一种方法将不同长度的互补保护链添加至死亡gRNA内的指导序列的3'端。因此,保护链与死亡gRNA的至少一部分结合,并且提供了受保护的gRNA(pgRNA)。继而,可以使用所描述的实施方案容易地保护本文提及的死亡gRNA,从而产生pgRNA。保护链可以是单独的RNA转录物或链,或者是连接指死亡gRNA指导序列的3'端的嵌合型式。

串联指导物和在多重(串联)靶向方法中的用途

本发明人已经表明,如本文所定义的CRISPR酶可以采用多于一种RNA指导物而不会失去活性。这使得能够用如本文所定义的单个酶、系统或复合物,将如本文所定义的CRISPR酶、系统或复合物用于靶向多个DNA靶标、基因或基因座。这些指导RNA可以串联地排列,任选地由核苷酸序列(诸如本文所定义的正向重复序列)隔开。串联的不同指导RNA的位置不影响活性。注意,术语“CRISPR-Cas系统”、“CRISP-Cas复合物”、“CRISPR复合物”和“CRISPR系统”可互换使用。术语“CRISPR酶”、“Cas酶”或“CRISPR-Cas酶”也可以互换使用。在优选的实施方案中,所述CRISPR酶、CRISP-Cas酶或Cas酶是Cas9,或本文别处所述的其修饰的或突变的变体中的任一种。

在一方面,本发明提供了一种用于串联或多重靶向的非天然存在的或工程化的CRISPR酶,优选2类CRISPR酶,优选如本文所述的V型或VI型CRISPR酶,诸如但不限于如本文别处所述的Cas9。应当理解,如本文别处所述的根据本发明的任何CRISPR(或CRISPR-Cas或Cas)酶、复合物或系统均可用于这种方法。如本文别处所述的任何方法、产品、组合物和用途与下文进一步详述的多重或串联靶向方法同样适用。作为进一步的指导,提供了以下特定方面和实施方案。

在一方面,本发明提供了如本文所定义的Cas9酶、复合物或系统用于靶向多个基因座的用途。在一个实施方案中,这可以通过使用多个(串联或多重)指导RNA(gRNA)序列来建立。

在一方面,本发明提供了使用如本文所定义的Cas9酶、复合物或系统的一个或多个元件用于串联或多重靶向的方法,其中所述CRISPR系统包含多个指导RNA序列。优选地,所述gRNA序列由核苷酸序列(诸如如本文别处所定义的正向重复序列)隔开。

如本文所定义的Cas9酶、系统或复合物提供了用于修饰多个靶多核苷酸的有效手段。如本文所定义的Cas9酶、系统或复合物具有多种多样的实用性,包括修饰(例如,缺失、插入、转位、失活、激活)多种细胞类型中的一个或多个靶多核苷酸。这样,本发明在此定义的Cas9酶、系统或复合物在例如基因疗法、药物筛选、疾病诊断和预后中具有广谱应用,包括靶向单个CRISPR系统内的多个基因座。

在一方面,本发明提供了如本文所定义的Cas9酶、系统或复合物,即具有以下项的Cas9 CRISPR-Cas复合物:具有至少一个与之相缔合的去稳定结构域的Cas9蛋白和靶向多个核酸分子(诸如DNA分子)的多个指导RNA,由此所述多个指导RNA中每者都特异性地靶向其相应的核酸分子(例如DNA分子)。每个核酸分子靶标(例如DNA分子)都可以编码基因产物或包括基因座。因此,使用多个指导RNA使得能够靶向多个基因座或多个基因。在一些实施方案中,Cas9酶可以切割编码基因产物的DNA分子。在一些实施方案中,基因产物的表达被改变。Cas9蛋白和指导RNA不能天然地一起存在。本发明涵盖包含串联排列的指导序列的指导RNA。本发明还涵盖经密码子优化以便在真核细胞中表达的Cas9蛋白的编码序列。在一个优选的实施方案中,真核细胞是哺乳动物细胞、植物细胞或酵母细胞,并且在一个更优选的实施方案中,哺乳动物细胞是人类细胞。基因产物的表达可以被降低。Cas9酶可以构成CRISPR系统或复合物的一部分,所述CRISPR系统或复合物还包含串联排列的指导RNA(gRNA),这些指导RNA包含一连串的2、3、4、5、6、7、8、9、10、15、25、25、30个、或超过30个指导序列,每个指导序列都能够特异性地杂交至细胞中的目标基因组基因座中的靶序列。在一些实施方案中,功能性Cas9 CRISPR系统或复合物结合至多个靶序列。在一些实施方案中,功能性CRISPR系统或复合物可以编辑多个靶序列,例如靶序列可以包含基因组基因座,并且在一些实施方案中,可以存在基因表达的改变。在一些实施方案中,功能性CRISPR系统或复合物可以包含另外的功能结构域。在一些实施方案中,本发明提供了一种用于改变或修饰多种基因产物的表达的方法。所述方法可以包括引入到含有所述靶核酸(例如DNA分子)、或含有和表达靶核酸(例如DNA分子)的细胞中;例如,这些靶核酸可以编码基因产物或提供基因广物(例如调控序列)的表达。

在优选的实施方案中,用于多重靶向的CRISPR酶是Cas9,或者CRISPR系统或复合物包含Cas9。在一些实施方案中,用于多重靶向的CRISPR酶是AsCas9,或者用于多重靶向的CRISPR系统或复合物包含AsCas9。在一些实施方案中,CRISPR酶是LbCas9,或者CRISPR系统或复合物包含LbCas9。在一些实施方案中,用于多重靶向的Cas9酶切割DNA的两条链以产生双链断裂(DSB)。在一些实施方案中,用于多重靶向的CRISPR酶是切口酶。在一些实施方案中,用于多重靶向的Cas9酶是双切口酶。在一些实施方案中,用于多重靶向的Cas9酶是Cas9酶,像如本文别处所定义的DD Cas9酶。

在一些一般实施方案中,用于多重靶向的Cas9酶与一个或多个功能结构域相缔合。在一些更具体的实施方案中,用于多重靶向的CRISPR酶是如本文别处所定义的死亡Cas9。

在一方面,本发明提供了一种用于递送用于在多靶向中使用的如本文所定义的Cas9酶、系统或复合物或者本文所定义的多核苷酸的工具。此类递送工具的非限制性实例是例如递送复合物的一种或多种组分的一种或多种粒子、包含本文所讨论的一种或多种多核苷酸的一种或多种载体(例如,编码所述CRISPR酶、提供编码所述CRISPR复合物的核苷酸)。在一些实施方案中,载体可以是质粒或病毒载体,诸如AAV或慢病毒。用质粒瞬时转染进例如HEK细胞中可以是有利的,尤其是考虑到AAV的尺寸限制,并且在将Cas9装配进AAV中时用另外的指导RNA的情况下AAV可以达到上限。

还提供了一种模型,所述模型组成性地表达用于在多重靶向中使用的如本文所用的Cas9酶、复合物或系统的模型。该生物体可以是转基因的,并且可以已经用本发明载体转染或者可以是这样转染的生物的后代。在另一方面,本发明提供了包含如本文所定义的CRISPR酶、系统和复合物或本文所述的多核苷酸或载体的组合物。还提供了包含多个指导RNA(优选处于串联排列的形式)的Cas9 CRISPR系统或复合物。所述不同的指导RNA可以由核苷酸序列(诸如正向重复序列)隔开。

还提供了一种治疗受试者(例如有需要的受试者)的方法,所述方法包括通过用编码Cas9 CRISPR系统或复合物的多核苷酸或本文所述的任何多核苷酸或载体转化所述受试者而诱导基因编辑并且向所述受试者施用它们。还可以提供适合的修复模板,例如通过包含所述修复模板的载体递送所述修复模板。还提供了一种治疗受试者(例如有需要的受试者)的方法,所述方法包括通过用本文所述的多核苷酸或载体转化所述受试者而诱导多个靶基因座的转录激活或阻抑,其中所述多核苷酸或载体编码或包含含有优选地串联排列的多个指导RNA的Cas9酶、复合物或系统。在任何处理离体地(例如在细胞培养物中)发生的情况下,则应当理解的是,术语“受试者”可以由短语“细胞或细胞培养物”替换。

还提供了包含Cas9酶、复合物或系统(其包含优选地串联排列的多个指导RNA)的组合物,或编码或包含所述Cas9酶、复合物或系统(其包含优选地串联排列的多个指导RNA)的多核苷酸或载体,用于在如本文别处所定义的治疗方法中使用。可以提供包括此类组合物的药盒。还提供了所述组合物在用于此类治疗方法的药剂的制造中的用途。本发明还提供了Cas9 CRISPR系统在筛选(例如功能获得筛选)中的用途。人为地强行过表达基因的细胞能够例如通过负反馈回路随时间下调该基因(重建平衡)。到筛选开始时,未调控的基因可能再次被减少。使用诱导型Cas9激活因子允许正好在筛选之前诱导转录并且因此使假阴性命中的机会最小化。因此,通过在筛选(例如功能获得筛选)中使用本发明,可以使假阴性结果的机会最小化。

在一方面,本发明提供了一种工程化的非天然存在的CRISPR系统,所述系统包含Cas9蛋白和各自特异性地靶向细胞中编码基因产物的DNA分子的多种指导RNA,由此所述多种指导RNA各自靶向编码所述基因产物的其特异性DNA分子,并且所述Cas9蛋白切割编码所述基因产物的靶DNA分子,由此改变所述基因产物的表达;并且其中所述CRISPR蛋白和所述指导RNA并不天然地一起存在。本发明包括包含多个指导序列的多种指导RNA,这些指导序列优选地由核苷酸序列(诸如正向重复序列)隔开并且任选地融合至tracr序列。在本发明的一个实施方案中,CRISPR蛋白是V型或VI型CRISPR-Cas蛋白,并且在一个更优选的实施方案中,CRISPR蛋白是Cas9蛋白。本发明还涵盖经密码子优化以便在真核细胞中表达的Cas9蛋白。在一个优选的实施方案中,真核细胞是哺乳动物细胞,并且在一个更优选的实施方案中,哺乳动物细胞是人类细胞。在本发明的另一个实施方案中,基因产物的表达被降低。

在另在一方面,本发明提供了工程化的非天然存在的载体系统,所述载体系统包含一种或多种载体,所述一种或多种载体包含第一调控元件和第二调控元件,所述第一调控元件可操作地连接至多种Cas9 CRISPR系统指导RNA,所述指导RNA各自特异性地靶向编码基因产物的DNA分子,所述第二个调控元件可操作地连接、编码CRISPR蛋白。两个调控元件可以位于系统的相同载体或不同载体上。所述多种指导RNA靶向细胞中编码多种基因产物的多个DNA分子,并且所述CRISPR蛋白可以切割编码所述基因产物的所述多个DNA分子(它可以切割一条链或两条链或者基本上没有核酸酶活性),由此改变所述多种基因产物的表达;并且,其中所述CRISPR蛋白和所述多种指导RNA并不天然地一起存在。在一个优选的实施方案中,CRISPR蛋白是Cas9蛋白,任选地经密码子优化以便在真核细胞中表达。在一个优选的实施方案中,真核细胞是哺乳动物细胞、植物细胞或酵母细胞,并且在一个更优选的实施方案中,哺乳动物细胞是人类细胞。在本发明的另一个实施方案中,多种基因产物各自的表达被改变,优选地被降低。

在一方面,本发明提供了包含一种或多种载体的载体系统。在一些实施方案中,所述系统包含:(a)第一调控元件,所述第一调控元件可操作地连接至正向重复序列和一个或多个插入位点,所述一个或多个插入位点用于在所述正向重复序列的上游或下游(以适用者为准)插入一个或多个指导序列,其中当表达时,所述一个或多个指导序列引导所述CRISPR复合物与真核细胞中的一个或多个靶序列的序列特异性结合,其中所述CRISPR复合物包含Cas9酶,所述Cas9酶与杂交至所述一个或多个靶序列的一个或多个指导序列复合;和(b)第二调控元件,所述第二调控元件可操作地连接至编码所述Cas9酶的酶编码序列,所述Cas9酶优选地包含至少一个核定位序列和/或至少一个NES;其中组分(a)和组分(b)位于所述系统的相同或不同载体上。在适用的情况下,还可以提供tracr序列。在一些实施方案中,组分(a)还包含可操作地连接至所述第一调控元件的两个或更多个指导序列,其中当表达时,所述两个或更多个指导序列中的每者都引导Cas9 CRISPR复合物与真核细胞中的不同靶序列的序列特异性结合。在一些实施方案中,所述CRISPR复合物包含一个或多个核定位序列和/或一个或多个NES,这些序列具有足够强度来在真核细胞的细胞核中或细胞核外驱动所述Cas9 CRISPR复合物以可检测的量积聚。在一些实施方案中,所述第一调控元件是聚合酶III启动子。在一些实施方案中,所述第二调控元件是聚合酶II启动子。在一些实施方案中,所述指导序列各自的长度为至少16、17、18、19、20、25个核苷酸,或16-30个之间、或16-25个之间、或16-20个之间的核苷酸。

重组表达载体可以包含处于适合于在宿主细胞中表达核酸的形式的编码用于在多靶向中使用的如本文所定义的Cas9酶、系统或复合物的多核苷酸,这意味着重组表达载体包含一个或多个调控元件,这些调控元件可以基于用于表达的宿主细胞来选择,可操作地连接至有待表达的核酸序列。在重组表达载体内,“可操作地连接”旨在意指目标核苷酸序列以允许核苷酸序列表达(例如,在体外转录/翻译系统中或当该载体被引入到宿主细胞时在宿主细胞中)的方式连接至一个或多个调控元件。

在一些实施方案中,用一种或多种载体瞬时或非瞬时转染宿主细胞,所述一种或多种载体包含编码用于在多靶向中使用的如本文所定义的Cas9酶、系统或复合物的多核苷酸。在一些实施方案中,当细胞天然地出现在受试者体内时将其转染。在一些实施方案中,转染的细胞是从受试者获得。在一些实施方案中,细胞来源于从受试者获得的细胞,诸如细胞系。用于组织培养的多种多样的细胞系在本领域是已知的并且在本文别处示例。细胞系可从本领域技术人员已知的多种来源获得(参见例如美国典型培养物保藏中心(ATCC)(Manassus,Va.))。在一些实施方案中,使用利用一种或多种载体转染的细胞建立包括一个或多个载体来源的序列的新细胞系,所述一种或多种载体包含编码用于在多靶向中使用的如本文所定义的Cas9酶、系统或复合物的多核苷酸。在一些实施方案中,使用利用如本文所述的用于在多靶向中使用的Cas9 CRISPR系统或复合物的组分转染(诸如通过用一种或多种载体进行瞬时转染、或用RNA进行转染)并且通过Cas9 CRISPR系统或复合物的活性修饰的细胞建立新细胞系,所述新细胞系包含含有修饰但是缺少任何其他外源性序列的细胞。在一些实施方案中,在评定一种或多种测试化合物中使用用一种或多种载体瞬时或非瞬时转染的细胞或来源于此类细胞的细胞系,所述一种或多种载体包含编码用于在多靶向中使用的如本文所定义的Cas9酶、系统或复合物的多核苷酸。

术语“调控元件”如本文别处所定义。

有利的载体包括慢病毒和腺伴随病毒并且此类载体类型还可以被选择用于靶向特定细胞类型。

在一方面,本发明提供了一种真核宿主细胞,所述真核宿主细胞包含(a)第一调控元件,所述第一调控元件可操作地连接至正向重复序列和一个或多个插入位点,所述一个或多个插入位点用于在所述正向重复序列的上游或下游(以适用者为准)插入一个或多个指导RNA序列,其中当表达时,所述一个或多个指导序列引导所述Cas9 CRISPR复合物与真核细胞中的一个或多个对应靶序列的序列特异性结合,其中所述Cas9 CRISPR复合物包含Cas9酶,所述Cas9酶与杂交至所述一个或多个对应靶序列的一个或多个指导序列复合;和/或(b)第二调控元件,所述第二调控元件可操作地连接至编码所述Cas9酶的酶编码序列,所述Cas9酶优选地包含至少一个核定位序列和/或NES。在一些实施方案中,所述宿主细胞包含组分(a)和组分(b)。在适用的情况下,还可以提供tracr序列。在一些实施方案中,组分(a)、组分(b)或组分(a)和组分(b)被稳定地整合到所述宿主真核细胞的基因组中。在一些实施方案中,组分(a)还包含可操作地连接至所述第一调控元件并且任选地由正向重复序列隔开的两个或更多个指导序列,其中当表达时,所述两个或更多个指导序列中的每者都引导Cas9 CRISPR复合物与真核细胞中的不同靶序列的序列特异性结合。在一些实施方案中,所述Cas9酶包含一个或多个核定位序列和/或核输出序列或NES,这些序列具有足够强度来在真核细胞的细胞核中和/或细胞核外驱动所述CRISPR酶以可检测的量积聚。

在一些实施方案中,所述Cas9酶是V型或VI型CRISPR系统酶。在一些实施方案中,所述Cas9酶是Cas9酶。在一些实施方案中,所述Cas9酶来源于土拉弗朗西斯菌(Francisella tularensis)1、土拉弗朗西斯菌新凶手亚种(Francisella tularensissubsp.novicida)、易北普雷沃氏菌(Prevotella albensis)、毛螺菌科细菌MC2017 1、解蛋白丁酸弧菌(Butyrivibrio proteoclasticus)、异域菌门细菌(Peregrinibacteriabacterium)GW2011_GWA2_33_10、俭菌超门细菌(Parcubacteria bacterium)GW2011_GWC2_44_17、史密斯氏菌属种(Smithella sp.)SCADC、氨基酸球菌属种(Acidaminococcus sp.)BV3L6、毛螺菌科细菌MA2020、候选白蚁甲烷支原体(Candidatus Methanoplasmatermitum)、挑剔真杆菌(Eubacterium eligens)、牛眼莫拉氏菌(Moraxella bovoculi)237、稻田氏钩端螺旋体(Leptospira inadai)、毛螺菌科细菌ND2006、狗口腔卟啉单胞菌(Porphyromonas crevioricanis)3、解糖胨普雷沃氏菌(Prevotella disiens)或猕猴卟啉单胞菌(Porphyromonas macacae)Cas9,并且可以包括如本文别处所定义的Cas9的另外的改变或突变,并且可以是嵌合Cas9。在一些实施方案中,所述Cas9酶经密码子优化以便在真核细胞中表达。在一些实施方案中,所述CRISPR酶引导在所述靶序列位置处的一条或两条链的切割。在一些实施方案中,所述第一调控元件是聚合酶III启动子。在一些实施方案中,所述第二调控元件是聚合酶II启动子。在一些实施方案中,所述一个或多个指导序列(各自)的长度为至少16、17、18、19、20、25个核苷酸,或16-30个之间、或16-25个之间、或16-20个之间的核苷酸。当使用多个指导RNA时,它们优选地由正向重复序列隔开。在一方面,本发明提供了一种非人类的真核生物体;优选地是多细胞真核生物体,这些生物体包含根据任何所述实施方案的真核宿主细胞。在其他方面,本发明提供了一种真核生物体;优选地是多细胞真核生物体,这些生物体包含根据任何所述实施方案的真核宿主细胞。在这些方面的一些实施方案中,生物体可以是动物;例如哺乳动物。而且,生物体可以是节肢动物,诸如昆虫。所述生物体还可以是植物。此外,所述生物体可以是真菌。

在一方面,本发明提供了一种药盒,所述药盒包含本文所述的一种或多种组分。在一些实施方案中,所述药盒包括载体系统以及用于使用所述药盒的说明书。在一些实施方案中,所述载体系统包含(a)第一调控元件,所述第一调控元件可操作地连接至正向重复序列和一个或多个插入位点,所述一个或多个插入位点用于在所述正向重复序列的上游或下游(以适用者为准)插入一个或多个指导序列,其中当表达时,所述指导序列引导Cas9CRISPR复合物与真核细胞中的靶序列的序列特异性结合,其中所述Cas9 CRISPR复合物包含Cas9酶,所述Cas9酶与杂交至所述靶序列的指导序列复合;和/或(b)第二调控元件,所述第二调控元件可操作地连接至编码所述Cas9酶的酶编码序列,所述Cas9酶包含核定位序列。在适用的情况下,还可以提供tracr序列。在一些实施方案中,所述药盒包含位于所述系统的相同或不同载体上的组分(a)和组分(b)。在一些实施方案中,组分(a)还包含可操作地连接至所述第一调控元件的两个或更多个指导序列,其中当表达时,所述两个或更多个指导序列中的每者都引导CRISPR复合物与真核细胞中的不同靶序列的序列特异性结合。在一些实施方案中,所述Cas9酶包含一个或多个核定位序列,这些序列具有足够强度来在真核细胞的细胞核中驱动所述CRISPR酶以可检测的量积聚。在一些实施方案中,所述CRISPR酶是V型或VI型CRISPR系统酶。在一些实施方案中,所述CRISPR酶是Cas9酶。在一些实施方案中,所述Cas9酶来源于土拉弗朗西斯菌1、土拉弗朗西斯菌新凶手亚种、易北普雷沃氏菌、毛螺菌科细菌MC2017 1、解蛋白丁酸弧菌、异域菌门细菌GW2011_GWA2_33_10、俭菌超门细菌GW2011_GWC2_44_17、史密斯氏菌属种SCADC、氨基酸球菌属种BV3L6、毛螺菌科细菌MA2020、候选白蚁甲烷支原体、挑剔真杆菌、牛眼莫拉氏菌237、稻田氏钩端螺旋体、毛螺菌科细菌ND2006、狗口腔卟啉单胞菌3、解糖胨普雷沃氏菌或猕猴卟啉单胞菌Cas9(例如,被修饰成具有至少一个DD或与其相缔合),并且可以包括Cas9的另外的改变或突变,并且可以是嵌合Cas9。在一些实施方案中,所述DD-CRISPR酶经密码子优化以便在真核细胞中表达。在一些实施方案中,所述DD-CRISPR酶引导在所述靶序列位置处的一条或两条链的切割。在一些实施方案中,所述DD-CRISPR酶缺少或基本上缺少DNA链切割活性(例如,与野生型酶或没有降低核酸酶活性的突变或改变的酶相比,不超过5%核酸酶活性)。在一些实施方案中,所述第一调控元件是聚合酶III启动子。在一些实施方案中,所述第二调控元件是聚合酶II启动子。在一些实施方案中,所述指导序列的长度为至少16、17、18、19、20、25个核苷酸,或16-30个之间、或16-25个之间、或16-20个之间的核苷酸。

在一方面,本发明提供了一种修饰宿主细胞诸如真核细胞中的多个靶多核苷酸的方法。在一些实施方案中,所述方法包括允许Cas9 CRISPR复合物结合至多个靶多核苷酸,例如以实现所述多个靶多核苷酸的切割,由此修饰多个靶多核苷酸,其中所述Cas9 CRISPR复合物包含Cas9酶,所述Cas9酶与各自杂交至所述靶多核苷酸内的特定靶序列的多个指导序列复合,其中所述多个指导序列连接至正向重复序列。在适用的情况下,还可以提供tracr序列(例如以提供单个指导RNA,即sgRNA)。在一些实施方案中,所述切割包括通过所述Cas9酶切割在每个靶序列位置处的一条或两条链。在一些实施方案中,所述切割导致所述多个靶基因的转录降低。在一些实施方案中,所述方法还包括通过与外源性模板多核苷酸同源重组修复所述经切割的靶多核苷酸中的一者或多者,其中所述修复导致突变,所述突变包括所述靶多核苷酸中的一者或多者的一个或多个核苷酸的插入、缺失或取代。在一些实施方案中,所述突变导致在从包含所述一个或多个靶序列中的一者或多者的基因表达的蛋白质中的一个或多个氨基酸改变。在一些实施方案中,所述方法还包括将一种或多种载体递送至所述真核细胞,其中所述一种或多种载体驱动以下一者或多者的表达:所述Cas9酶和连接至正向重复序列的所述多个指导RNA序列。在适用的情况下,还可以提供tracr序列。在一些实施方案中,将所述载体递送至受试者内的真核细胞。在一些实施方案中,所述修饰发生在细胞培养物中的所述真核细胞中。在一些实施方案中,所述方法还包括在所述修饰之前从受试者中分离所述真核细胞。在一些实施方案中,所述方法还包括使所述真核细胞和/或来源于其的细胞返回至所述受试者中。

在一方面,本发明提供了一种修饰多个多核苷酸在真核细胞中的表达的方法。在一些实施方案中,所述方法包括允许Cas9 CRISPR复合物结合至多个多核苷酸,这样使得所述结合导致所述多核苷酸的表达增加或降低;其中所述Cas9 CRISPR复合物包含Cas9酶,所述Cas9酶与各自特异性地杂交至所述多核苷酸内其自身靶序列的多个指导序列复合,其中所述指导序列连接至正向重复序列。在适用的情况下,还可以提供tracr序列。在一些实施方案中,所述方法还包括将一种或多种载体递送至所述真核细胞,其中所述一种或多种载体驱动以下一者或多者的表达:所述Cas9酶和连接至正向重复序列的所述多个指导序列。在适用的情况下,还可以提供tracr序列。

在一方面,本发明提供了一种重组多核苷酸,所述重组多核苷酸包含正向重复序列上游或下游(以适用者为准)的多个指导RNA序列,其中当表达时所述多个指导序列中的每者都引导Cas9 CRISPR复合物与存在于真核细胞中的其相应的靶序列的序列特异性结合。在一些实施方案中,所述靶序列是存在于真核细胞中的病毒序列。在适用的情况下,还可以提供tracr序列。在一些实施方案中,所述靶序列是原癌基因或癌基因。

本发明的方面包括非天然存在的或工程化的组合物,所述组合物可以包含:指导RNA(gRNA),所述指导RNA包含能够杂交至细胞中的目标基因组基因座的靶序列的指导序列;以及如本文所定义的Cas9酶,所述Cas9酶可以包含至少一个或多个核定位序列。

本发明的一方面涵盖通过向细胞中引入本文所述的任何组合物来修饰目标基因组基因座以改变所述细胞中的基因表达的方法。

本发明的一方面是上述元件被包含在单一组合物中或者被包含在单独的组合物中。这些组合物可以有利地应用于宿主以在基因组水平上引发功能效应。

如本文所用,术语“指导RNA”或“gRNA”具有如本文别处所用的倾向,并且包括与靶核酸序列具有足够互补性以与靶核酸序列杂交并且引导核酸靶向复合物序列特异性地结合至靶核酸序列的任何多核苷酸序列。可以将每种gRNA设计为包括对相同或不同衔接蛋白具有特异性的多个结合识别位点(例如适体)。可以将每种gRNA设计为结合至转录起始位点(即TSS)上游的启动子区-1000-+1个核酸(优选-200个核酸)。这种定位改善了影响基因激活(例如转录激活因子)或基因抑制(例如转录阻抑因子)的功能结构域。修饰的gRNA可以是包含在组合物中的靶向一个或多个靶基因座的一个或多个修饰的gRNA(例如,至少1个gRNA、至少2个gRNA、至少5个gRNA、至少10个gRNA、至少20个gRNA、至少30个gRNA、至少50个gRNA)。所述多个gRNA序列可以是串联排列的并且优选由正向重复序列隔开。

因此,可以将如本文所定义的gRNA、CRISPR酶各自单独地包含在组合物中并且单独地或共同地施用至宿主。或者,可以将这些组分以单一组合物的形式提供给宿主。可以经由技术人员已知的或本文描述的用于递送至宿主的病毒载体(例如慢病毒载体、腺病毒载体、AAV载体)进行对宿主的施用。如本文所述,不同选择标记物(例如,用于慢病毒sgRNA选择)的使用和gRNA的浓度(例如,取决于是否使用多个gRNA)可能有利于引发改善的效应。在这个概念的基础上,若干变化适于引出基因组基因座事件,包括DNA切割、基因激活或基因灭活。使用所提供的组合物,本领域技术人员可以有利地且特异性地靶向具有相同或不同功能结构域的单个或多个基因座,以引出一个或多个基因组基因座事件。这些组合物可以按多种多样的方法应用,用于在细胞中筛选文库和在体内进行功能建模(例如,lincRNA的基因激活和功能鉴定;功能获得建模;功能丧失建模;使用本发明的组合物建立用于优化和筛选目的的细胞系和转基因动物)。

本发明涵盖本发明的组合物用于建立和利用条件型或诱导型CRISPR转基因细胞/动物的用途;参见例如Platt等人,Cell(2014),159(2):440-455或本文引用的PCT专利公布,诸如WO 2014/093622(PCT/US2013/074667)。例如,细胞或动物(诸如非人类动物,例如脊椎动物或哺乳动物,诸如啮齿动物例如小鼠、大鼠,或其他实验室或田间动物例如猫、狗、绵羊等)可以是“敲入的”,由此类似于Platt等人,所述动物条件性地或诱导性地表达Cas9。所述靶细胞或动物因此条件性地或诱导性地包含CRISPR酶(例如Cas9)(例如,呈Cre依赖性构建体的形式),在表达被引入所述靶细胞中的载体之后,所述载体表达所述CRISPR酶(例如Cas9),这在所述靶细胞中诱导或产生所述CRISPR酶(例如Cas9)表达的条件。通过用产生CRISPR复合物的已知方法应用如本文所定义的教导和组合物,诱导型基因组事件也是本发明的一个方面。此类诱导型事件的实例已在本文别处进行了描述。

在一些实施方案中,当靶向遗传疾病时,尤其是在治疗方法中,并且优选地在提供修复模板以校正或改变表型的情况下,表型改变优选是基因组修饰的结果。

在一些实施方案中,可以被靶向的疾病包括与致病剪接缺陷有关的那些疾病。

在一些实施方案中,细胞靶标包括造血干细胞/祖细胞(CD34+);人类T细胞;以及眼(视网膜细胞)-例如光感器前体细胞。

在一些实施方案中,基因靶标包括:人类β珠蛋白-HBB(用于治疗镰状细胞性贫血,包括通过刺激基因转化(使用密切相关的HBD基因作为内源性模板));CD3(T细胞);以及CEP920-视网膜(眼)。

在一些实施方案中,疾病靶标还包括:癌症;镰状细胞性贫血(基于点突变);HBV、HIV;β-地中海贫血;以及眼科或眼部疾病-例如引起莱伯氏先天性黑蒙症(LCA)的剪接缺陷。

在一些实施方案中,递送方法包括:酶-指导复合物(核糖核蛋白)的阳离子脂质介导的“直接”递送和质粒DNA的电穿孔。

本文所述的方法、产品和用途可以用于非治疗目的。此外,本文所述的方法中的任一项可以在体外或离体应用。

在一方面,提供了一种非天然存在的或工程化的组合物,所述组合物包含:

I.两个或更多个CRISPR-Cas系统多核苷酸序列,其包含

(a)第一指导序列,所述第一指导序列能够杂交至多核苷酸基因座中的第一靶序列,

(b)第二指导序列,所述第二指导序列能够杂交至多核苷酸基因座中的第二靶序列,

(c)正向重复序列,

以及

II.Cas9酶或编码它的第二多核苷酸序列,

其中当转录时,所述第一指导序列和所述第二指导序列分别引导第一Cas9CRISPR复合物和第二Cas9 CRISPR复合物与所述第一靶序列和所述第二靶序列的序列特异性结合,

其中所述第一CRISPR复合物包含与可杂交至所述第一靶序列的所述第一指导序列复合的Cas9酶,

其中所述第二CRISPR复合物包含与可杂交至所述第二靶序列的所述第二指导序列复合的Cas9酶,并且

其中所述第一指导序列引导邻近所述第一靶序列的DNA双链体的一条链的切割,并且所述第二指导序列引导邻近所述第二靶序列的另一条链的切割,从而诱导双链断裂,由此修饰所述生物体或所述非人类或非动物生物体。类似地,可以设想包含多于两种指导RNA的组合物,例如这些指导RNA各自对一种靶标具有特异性,并且被串联地排列在如本文所述的组合物或CRISPR系统或复合物中。

在另一个实施方案中,所述Cas9作为蛋白质递送到所述细胞中。在另一个且特别优选的实施方案中,所述Cas9作为蛋白质或作为编码它的核苷酸序列递送到所述细胞中。作为蛋白质递送至细胞可以包括核糖核蛋白(RNP)复合物的递送,在所述复合物中所述蛋白质与所述多种指导物复合。

在一方面,提供了通过本发明的组合物、系统或修饰的酶修饰的或包含本发明的组合物、系统或修饰的酶的宿主细胞和细胞系,包括干细胞及其子代。

在一方面,提供了细胞治疗方法,在这些方法中,例如对单个细胞或细胞群进行取样或培养,其中对所述细胞或细胞群如本文所述地进行离体修饰或已经如本文所述地进行离体修饰,然后将其重新引入(取样的细胞)或引入(培养的细胞)生物体内。就这一点而言,干细胞(无论是胚胎干细胞还是诱导型多能或全能干细胞)也是特别优选的。但是,当然还设想了体内实施方案。

本发明方法还可以包括递送模板,诸如修复模板,它们可以是dsODN或ssODN,参见下文。模板的递送可以经由与任何或所有CRISPR酶或指导RNA的递送同时的或分开的递送并且经由相同或不同的递送机制。在一些实施方案中,优选的是一起递送所述模板与所述指导RNA,并且优选地还有所述CRISPR酶。实例可以是AAV载体,其中CRISPR酶是AsCas9或LbCas9。

本发明方法还可以包括:(a)向所述细胞递送双链寡脱氧核苷酸(dsODN),所述双链寡脱氧核苷酸包含与通过所述双链断裂产生的突出端互补的突出端,其中所述dsODN被整合到所述目标基因座中;或-(b)向所述细胞递送单链寡脱氧核苷酸(ssODN),其中所述ssODN充当所述双链断裂的同源定向修复的模板。本发明的方法可以用于预防或治疗个体的疾病,任选地其中所述疾病是由所述目标基因座中的缺陷引起。本发明的方法可以是在所述个体的体内进行或针对取自所述个体的细胞离体地进行,任选地其中将所述细胞返回至所述个体。

本发明还涵盖通过使用如本文所定义的用于在串联或多靶向中使用的CRISPR酶或Cas酶或Cas9酶或CRISPR-CRISPR酶或CRISPR-Cas系统或CRISPR-Cas9系统获得的产物。

根据本发明的Cas9 CRISPR-Cas系统的受护航的指导物

在一方面,本发明提供了受护航的Cas9 CRISPR-Cas系统或复合物,尤其是涉及受护航的Cas9 CRISPR-Cas系统指导物的这样一种系统。所谓“受护航的”是指将Cas9CRISPR-Cas系统或复合物或指导物递送至细胞内的选定时间或位置,从而在空间或时间上控制Cas9 CRISPR-Cas系统或复合物或指导物的活性。例如,可以通过对适体配体(诸如细胞表面蛋白或其他局部细胞组分)具有结合亲和力的护航性RNA适体序列控制Cas9CRISPR-Cas系统或复合物或指导物的活性和目的地。或者,护航性适体可以例如对细胞上或细胞中的适体效应子作出反应,所述适体效应子诸如有瞬时效应子,诸如在特定时间施加至细胞的外部能源。

受护航的Cas9 CRISPR-Cas系统或复合物具有gRNA,其具有被设计来改善gRNA的结构、架构、稳定性、基因表达或它们的任何组合的功能结构。这样的结构可包括适体。

适体是可以例如使用一种称为指数富集的配体系统进化(SELEX;Tuerk C,GoldL:“Systematic evolution of ligands by exponential enrichment:RNA ligands tobacteriophage T4 DNA polymerase.”Science 1990,249:505-510)的技术进行设计或选择以与其他配体紧密结合的生物分子。核酸适体可以例如选自随机序列寡核苷库,它们对大范围的生物医学相关靶具有高结合亲和力和特异性,这揭示了适体的广泛治疗实用性(Keefe、Anthony D.、Supriya Pai和Andrew Ellington."Aptamers as therapeutics."Nature Reviews Drug Discovery 9.7(2010):537-550)。这些特征还揭示了适体作为药物递送媒介物的广泛用途(Levy-Nissenbaum,Etgar等人"Nanotechnology and aptamers:applications in drug delivery."Trends in biotechnology 26.8(2008):442-449;以及Hicke BJ,Stephens AW.“Escort aptamers:a delivery service for diagnosis andtherapy.”J Clin Invest 2000,106:923-928.)。还可以构建充当分子开关、通过改变特性来响应问询(que)的适体,诸如结合荧光团以模拟绿色荧光蛋白活性的RNA适体(Paige、Jeremy S.、Karen Y.Wu和Samie R.Jaffrey."RNA mimics of green fluorescentprotein."Science 333.6042(2011):642-646)。先前还已提出适体可以用作靶向的siRNA治疗性递送系统的组分,例如靶向细胞表面蛋白(Zhou,Jiehua和John J.Rossi."Aptamer-targeted cell-specific RNA interference."Silence 1.1(2010):4)。

因此,本文提供了例如通过一种或多种适体修饰的gRNA,所述一种或多种适体被设计来改善gRNA的递送,包括递送穿过细胞膜、到达细胞内隔室或进入细胞核。加上所述一种或多种适体或无所述一种或多种适体,这样的结构可包括一个或多个部分,以便使指导物可递送、可诱导或响应于选定的效应子。因此,本发明包括响应于正常或病理生理条件的gRNA,所述生理条件包括但不限于pH、低氧、O2浓度、温度、蛋白质浓度、酶浓度、脂质结构、曝光、机械破坏(例如超声波)、磁场、电场或电磁辐射。

本发明的一方面提供了非天然存在的或工程化的组合物,所述组合物包含受护航的指导RNA(egRNA),所述受护航的指导RNA包含:

RNA指导序列,所述RNA指导序列能够杂交至细胞中的目标基因组基因座中的靶序列;以及,

护航性RNA适体序列,其中所述护航性适体对所述细胞上或所述细胞中的适体配体具有结合亲和力,或者所述护航性适体响应于所述细胞上或所述细胞中的局部化适体效应子,其中所述适体配体或效应子在所述细胞上或所述细胞中的存在在空间上或在时间上是受限的。

所述护航性适体可以例如响应于与所述细胞中的适体配体或效应子的相互作用而改变构象。

所述护航性适体可以对所述适体配体具有特异性结合亲和力。

所述适体配体可以位于所述细胞中的位置或区室,例如在所述细胞的细胞膜上或细胞膜中。所述护航性适体与所述适体配体的结合可以因此将所述egRNA引导至所述细胞中的目标位置,如通过结合至作为细胞表面配体的适体配体的方式而至所述细胞的内部。以此方式,可以靶向所述细胞内的多个空间上受限的位置,诸如细胞核或线粒体。

一旦已经引入预期的改变,如通过在细胞基因组中编辑预期的基因拷贝,便不再需要在所述细胞中继续CRISPR/Cas9表达。实际上,持续表达在非预期基因组位点处存在脱靶效应的某些酪蛋白情况下等是不希望的。因此,限时表达是有用的。诱导型表达提供了一种方法,但是此外申请人已经工程化自我失活性Cas9 CRISPR-Cas系统,所述系统依赖于在所述CRISPR载体本身内使用非编码指导靶序列。因此,表达开始后,所述CRISPR系统将导致其自身的破坏,但是在破坏完成之前,它将有时间编辑靶基因的基因组拷贝(在二倍体细胞中具有正常点突变的情况下,需要至多两个编辑)。简单地,所述自我失活性Cas9 CRISPR-Cas系统包括另外的RNA(即,指导RNA),其靶向CRISPR酶自身的编码序列或靶向与存在于下列一项或多项中的独特序列互补的非编码指导靶序列:(a)在驱动非编码RNA元件的表达的启动子内,(b)在驱动Cas9基因的表达的启动子内,(c)在Cas9编码序列中的100bp的ATG翻译起始密码子内,(d)在病毒递送载体的反向末端重复序列(iTR)内(例如,在AAV基因组中)。

所述egRNA可以包括RNA适体连接序列,其将护航性RNA序列可操作地连接至RNA指导序列。

在实施方案中,所述egRNA可以包括一个或多个光不稳定的键或非天然存在的残基。

在一方面,所述护航性RNA适体序列可以与靶miRNA互补,所述靶miRNA可以或可以不存在于细胞内,使得仅当存在所述靶miRNA时,才存在所述护航性RNA适体序列与所述靶miRNA的结合,这使得所述egRNA被所述细胞内的RNA诱导沉默复合物(RISC)切割。

在实施方案中,所述护航性RNA适体序列的长度可以例如为10至200个核苷酸,并且所述egRNA可以包括不止一个护航性RNA适体序列。

应当理解,如本文别处所述的任何RNA指导序列都可以用在本文所述的egRNA中。在本发明的某些实施方案中,所述指导RNA或成熟crRNA包含正向重复序列和指导序列或间隔区序列、基本上由其组成、或由其组成。在某些实施方案中,所述指导RNA或成熟crRNA包含连接至指导序列或间隔区序列的正向重复序列、基本上由其组成、或由其组成。在某些实施方案中,所述指导RNA或成熟crRNA包含19nt的部分正向重复序列,之后是23-25nt的指导序列或间隔区序列。在某些实施方案中,所述效应蛋白是FnCas9效应蛋白并且需要至少16nt的指导序列来实现可检测的DNA切割以及最少17nt的指导序列来实现有效的体外DNA切割。在某些实施方案中,正向重复序列位于指导序列或间隔区序列上游(即,5')。在一个优选的实施方案中,所述FnCas9指导RNA的种子序列(即,对于识别和/或杂交至靶基因座处的序列而言必需、关键的序列)大约在所述指导序列或间隔区序列的5’端上的前5nt内。

所述egRNA可以与Cas9—起被包括在非天然存在的或工程化的Cas9CRISPR-Cas复合物组合物中,所述Cas9可以包括至少一个突变,例如以下突变:使得所述Cas9具有不超过5%的没有所述至少一个突变的Cas9的核酸酶活性,例如与没有所述至少一个突变的Cas9相比,具有减弱至少97%、或100%的核酸酶活性。所述Cas9还可以包括一个或多个核定位序列。在本文别处描述了具有调节的活性(诸如减弱的核酸酶活性)的突变Cas9酶。

所述工程化的Cas9 CRISPR-Cas组合物可以被提供在细胞(诸如真核细胞、哺乳动物细胞或人类细胞)中。

在实施方案中,本文所述的组合物包含Cas9 CRISPR-Cas复合物,所述复合物具有至少三个功能结构域,其中至少一个功能结构域与Cas9相缔合并且其中至少两个功能结构域与egRNA相缔合。

本文所述的组合物可以用于将基因组基因座事件引入宿主细胞(诸如真核细胞,特别是哺乳动物细胞)中、或非人类真核生物(特别是非人类哺乳动物,如小鼠)体内。基因组基因座事件可以包括影响基因座中的基因激活、基因抑制或切割。本文所述的组合物还可以用于修饰目标基因组基因座,以改变细胞中的基因表达。在本文别处详细描述了使用本文所提供的Cas9酶在宿主细胞中引入基因组基因座事件的方法。所述组合物的递送可以例如通过以下方式:递送编码所述组合物的一种或多种核酸分子,所述一种或多种核酸分子操作性地连接至一个或多个调控序列,并且体内地表达所述一种或多种核酸分子,例如通过慢病毒、腺病毒,或AAV的方式。

本发明提供了通过其可以调整gRNA介导的基因编辑活性的组合物和方法。本发明提供了gRNA二级结构,这些二级结构通过增加gRNA和/或增加递送至所述细胞中的RNA的量而提高切割效率。所述gRNA可以包括光不稳定型或诱导型核苷酸。

为了增加gRNA(例如通过病毒或非病毒技术递送的gRNA)的有效性,申请人将二级结构添加到所述gRNA中,这些二级结构增强其稳定性并且改进基因编辑。分开地,为了克服有效递送的缺乏,申请人用细胞渗透RNA适体修饰了gRNA;这些适体结合至细胞表面受体并且促进gRNA进入细胞中。值得注意的是,可以将这些细胞渗透适体设计成靶向特定细胞受体,以便介导细胞特异性递送。申请人还已经创造了可诱导的指导物。

诱导型系统的光响应性可以经由隐花色素-2和CIB1的激活和结合来实现。蓝光刺激诱导隐花色素-2中的激活的构象变化,导致其结合配偶体CIB1募集。这种结合是快速且可逆的,在脉冲刺激后的<15秒内达到饱和,并在刺激结束后的<15分钟内恢复至基线。这些快速的结合动力学使得系统暂时仅受转录/翻译和转录物/蛋白质降解的速度限制,而不受诱导剂的吸收和清除的限制。隐花色素-2的激活还是高度敏感的,使得可以使用低光强度刺激并减轻了光毒性的风险。此外,在诸如完整的哺乳动物脑的情形下,可变的光强度可用于控制受激区域的大小,从而获得比单独的载体递送所能提供的精度更高的精度。

本发明考虑了诸如电磁辐射、声能或热能的能源来诱导指导物。有利地,电磁辐射是可见光的组分。在优选的实施方案中,光是波长为约450至约495nm的蓝光。在特别优选的实施方案中,波长为约488nm。在另一个优选的实施方案中,光刺激是经由脉冲实现的。光功率可以在大约0-9mW/cm2的范围内。在优选的实施方案中,每15秒低至0.25秒的刺激范式应该会导致最大的激活。

本发明的实践中所涉及的细胞可以是原核细胞或真核细胞,有利地是动物细胞、植物细胞或酵母细胞,更有利地是哺乳动物细胞。

化学或能量敏感型指导物在由于化学源的结合或能量而被诱导时可能会发生构象变化,使其成为指导物并具有Cas9 CRISPR-Cas系统或复合物功能。本发明可涉及施加化学源或能量以具有指导物功能和Cas9 CRISPR-Cas系统或复合物功能;并且任选地进一步确定基因组基因座的表达已改变。

此化学诱导型系统有几种不同的设计:1.由脱落酸(ABA)可诱导的基于ABI-PYL的系统(参见例如http://stke.sciencemag.org/cgi/content/abstract/sigtrans;4/164/rs2);2.由雷帕霉素可诱导的基于FKBP-FRB系统(参见例如http://www.nature.com/nmeth/journal/v2/n6/full/nmeth763.html);3.由赤霉素(GA)可诱导的基于GID1-GAI的系统(参见例如http://www.nature.com/nchembio/journal/v8/n5/full/nchembio.922.html)。

由本发明所考虑的另一种系统是基于亚细胞定位变化的化学诱导型系统。申请人还开发了这样一种系统,在所述系统中多肽包括DNA结合结构域,所述结构域包括至少五个或更多个转录激活因子样效应子(TALE)单体,并且至少一半或多于一半的被特异性地要求对连接至至少一个或多个效应子结构域的目标基因组基因座进行靶向的单体被进一步连接至化学或能量敏感型蛋白。当化学或能量传递物与所述化学或能量敏感型蛋白结合时,这种蛋白将导致整个多肽的亚细胞定位变化(即将整个多肽从细胞质运输到细胞的细胞核中)。整个多肽从一个亚细胞区室或细胞器(在其中由于缺乏效应子结构域的底物,其活性被封存)向另一个亚细胞区室或细胞器(在其中存在所述底物)的这种运输将允许整个多肽与其所需的底物(即哺乳动物细胞核中的基因组DNA)相接触并且导致靶基因表达的激活或阻抑。

当所述效应子结构域是核酸酶时,这种类型的系统还可以用于诱导细胞中的目标基因组基因座的切割。

化学诱导型系统可以是由4-羟基他莫昔芬(4OHT)可诱导的基于雌激素受体(ER)的系统(参见例如http://www.pnas.org/content/104/3/1027.abstract)。雌激素受体的一种称为ERT2的突变配体结合结构域在与4-羟基他莫昔芬结合后易位到细胞的细胞核中。在本发明的另外的实施方案中,任何核受体、甲状腺激素受体、视黄酸受体、雌激素受体、雌激素相关受体、糖皮质激素受体、孕激素受体、雄激素受体的任何天然存在的或工程化的衍生物都可以用于与基于ER的诱导型系统类似的诱导型系统。

另一种诱导型系统是基于使用由能量、热或无线电波可诱导的基于瞬时受体电位(TRP)离子通道的系统进行的设计(参见例如http://www.sciencemag.org/content/336/6081/604)。这些TRP家族蛋白响应于不同的刺激,包括光和热。当这种蛋白质被光或热激活时,离子通道将打开并允许诸如钙的离子进入质膜。这种离子涌流将与连接至多肽(包括指导物和Cas9 CRISPR-Cas复合物或系统的其他组分)的细胞内离子相互作用配偶体结合,并且所述结合将诱导所述多肽的亚细胞定位的变化,从而使得整个多肽进入细胞的细胞核。一旦进入细胞核,所述指导蛋白和Cas9 CRISPR-Cas复合物的其他组分就将呈活性状态并调节细胞中的靶基因表达。

这种类型的系统还可以用于诱导细胞中的目标基因组基因座的切割;并且就这一点而言,应指出的是所述Cas9酶是核酸酶。光可以通过激光或其他形式的能源产生。热可以通过提高温度来产生,温度的提高是由能源造成的、或由在从以无线电波形式递送的能源吸收能量之后释放热的纳米粒子造成的。

尽管光激活可以是有利的实施方案,但是有时对于光可能不穿透皮肤或其他器官的体内应用而言可能是尤为不利的。在这种情况下,可以考虑其他具有类似效果的能量激活方法,特别是电场能和/或超声。

优选地在体内条件下,使用约1V/cm至约10k V/cm的一个或多个电脉冲,基本上如本领域中所述施加电场能。代替脉冲或加上脉冲,可以采用连续方式递送电场。可以施加电脉冲,持续1微秒与500毫秒之间,优选地1微秒与100毫秒之间。可以连续地或以脉冲方式施加电场,持续约5分钟。

如本文所用,“电场能”是细胞暴露于其中的电能。在体内条件下,电场的强度优选为约1V/cm至约10kV/cm或更大(参见WO97/49450)。

如本文所用,术语“电场”包括在可变电容和电压下的一个或多个脉冲,并且包括指数波和/或方形波和/或调制波和/或调制方形波形式。对电场和电的提及应视为包括对细胞环境中电位差的存在的提及。如本领域中已知的,可以通过静电、交流电(AC)、直流电(DC)等来建立这样的环境。电场可以是均匀的、不均匀的或其他方式的,并且可以以时间依赖性方式改变强度和/或方向。

还可以按任何顺序和任何组合单次或多次施加电场,以及单次或多次施加超声。超声和/或电场可以作为单次或多次连续施加或作为脉冲来递送(脉冲式递送)。

电穿孔已用于体外和体内程序中,以将异物引入活细胞中。在体外应用中,首先将活细胞样品与目标剂混合,接着将它们放置在电极(诸如平行板)之间。接着,电极向细胞/植入物混合物施加电场。执行体外电穿孔的系统的实例包括Electro Cell ManipulatorECM600产品和Electro Square Porator T820,这两者均由Genetronics,Inc的BTX分部制造(参见美国专利号5,869,326)。

已知的电穿孔技术(体外和体内)都通过向位于治疗区域周围的电极施加短暂的高压脉冲来发挥作用。电极之间产生的电场使细胞膜暂时变为多孔的,此时目标剂进入细胞。在已知的电穿孔应用中,此电场包括持续约100微秒的大约1000V/cm的单个方形波脉冲。这样的脉冲可以例如在Electro Square Porator T820的已知应用中产生。

在体外条件下,电场的强度优选为约1V/cm至约10kV/cm。因此,电场的强度可以为1V/cm、2V/cm、3V/cm、4V/cm、5V/cm、6V/cm、7V/cm、8V/cm、9V/cm、10V/cm、20V/cm、50V/cm、100V/cm、200V/cm、300V/cm、400V/cm、500V/cm、600V/cm、700V/cm、800V/cm、900V/cm、1kV/cm、2kV/cm、5kV/cm、10kV/cm、20kV/cm、50kV/cm或更大。在体外条件下,更优选为约0.5kV/cm至约4.0kV/cm。在体内条件下,电场的强度优选为约1V/cm至约10kV/cm。然而,当递送至靶位点的脉冲数量增加时,电场强度可能降低。因此,设想以较低的场强脉冲式递送电场。

优选地,采用多个脉冲的形式,诸如具有相同强度和电容的双脉冲或具有变化强度和/或电容的顺序脉冲来施加电场。如本文所用,术语“脉冲”包括在可变电容和电压下的一个或多个电脉冲,并且包括指数波和/或方形波和/或调制波/方形波形式。

优选地,将电脉冲作为选自指数波形式、方形波形式、调制波形式和调制方形波形式的波形递送。

优选的实施方案采用低压直流电。因此,申请人公开了以1V/cm与20V/cm之间的场强向细胞、组织或组织块施加电场,持续时间为100毫秒或更长,优选为15分钟或更长。

有利地,以约0.05W/cm2至约100W/cm2的功率水平施用超声。可以使用诊断性超声或治疗性超声,或它们的组合。

如本文所用,术语“超声”是指一种由机械振动组成的能量形式,所述机械振动的频率特别高以至于超出人类的听觉范围。超声频谱的频率下限通常可以取为约20kHz。大多数诊断性超声应用采用1至15MHz’的频率(Ultrasonics in Clinical Diagnosis,P.N.T.Wells,编辑,第2版,出版社Churchill Livingstone[Edinburgh,London&NY,1977])。

在诊断性和治疗性应用中皆已使用超声。当用作诊断性工具(诊断性超声)时,通常在高达约100mW/cm2的能量密度下使用超声(FDA推荐),但也使用过高达750mW/cm2的能量密度。在物理疗法中,通常使用高达约3至4W/cm2范围内的超声作为能源(WHO推荐)。在其他治疗性应用中,可以在短时间内采用更高强度的超声,例如100W/cm至1kW/cm2(或甚至更高)的HIFU。在本说明书中使用的术语“超声”旨在涵盖诊断性超声、治疗性超声和聚焦超声。

聚焦超声(FUS)允许在不使用侵入式探头的情况下递送热能(参见Morocz等人1998,Journal of Magnetic Resonance Imaging,第8卷,第1期,第136-142页。聚焦超声的另一种形式是高强度聚焦超声(HIFU),Moussatov等人,Ultrasonics(1998),第36卷,第8期,第893-900页以及TranHuuHue等人,Acustica(1997),第83卷,第6期,第1103-1106页中对此进行了综述。

优选地,采用诊断性超声和治疗性超声的组合。但是,该组合并非旨在进行限制,而是本领域技术人员将理解可以使用超声的任何多种组合。另外,能量密度、超声频率和暴露时间是可以改变的。

优选地,超声能源暴露的功率密度为约0.05至约100Wcm-2。甚至更优选地,超声能源暴露的功率密度为约1至约15Wcm-2

优选地,超声能源暴露的频率为约0.015至约10.0MHz。更优选地,超声能源暴露的频率为约0.02至约5.0MHz或约6.0MHz。最优选地,以3MHz的频率施加超声。

优选地,暴露持续约10毫秒至约60分钟的时段。优选地,暴露持续约1秒至约5分钟的时段。更优选地,施加超声持续约2分钟。然而,取决于有待破坏的特定靶细胞,暴露可以持续更长的持续时间,例如持续15分钟。

有利地,将靶组织暴露于超声能源,超声能源的声功率密度为约0.05Wcm-2至约10Wcm-2,频率在约0.015至约10MHz的范围内(参见WO 98/52609)。但是替代方案也是可能的,例如超声能源暴露的声功率密度高于100Wcm-2,但持续缩短的时间段,例如1000Wcm-2持续毫秒范围或更小的时段。

优选地,超声施加呈多个脉冲的形式;因此,可以采用任何组合的连续波和脉冲波(脉冲式超声递送)。例如,可以施加连续波超声,之后施加脉冲波超声,反之亦然。可以采用任何顺序和组合将其重复任意次数。可以在连续波超声的背景下施加脉冲波超声,并且可以使用任何组数的任何数量的脉冲。

优选地,超声可包括脉冲波超声。在高度优选的实施方案中,以0.7Wcm-2或1.25Wcm-2的功率密度以连续波形式施加超声。如果使用了脉冲超声波,则可以采用更高的功率密度。

超声的使用是有利的,因为像光一样,超声可以精确地聚焦在靶标上。此外,超声是有利的,因为与光不同,超声可以更深地聚焦到组织中。因此,它更适于完整组织穿透(诸如但不限于肝叶)或完整器官(诸如但不限于整个肝脏或整个肌肉,诸如心脏)疗法。另一个重要的优点是超声是非侵入式刺激,可用于多种多样的诊断性和治疗性应用。举例来说,超声在医学成像技术以及骨科疗法中是众所周知的。此外,适于向受试者脊椎动物施加超声的仪器是广泛可得的,并且它们使用在本领域中是众所周知的。

本发明的快速转录反应和内源性靶向促成了用于研究转录动力学的理想系统。例如,本发明可以用于研究在靶基因的诱导表达时变体产生的动力学。在转录循环的另一端,mRNA降解研究通常响应于强细胞外刺激来进行,强细胞外刺激导致种类繁多的基因的表达水平发生变化。本发明可以用于可逆地诱导内源性靶标的转录,在此之后可以停止刺激,并且可以追踪独特靶标的降解动力学。

本发明的时间精度可以为时间基因调控提供与实验干预一致的动力。例如,在长时程增强(LTP)中具有可疑牵涉的靶标可以在器官型或解剖的神经元培养物中调节,但仅在刺激期间调节以诱导LTP,以便避免干扰这些细胞的正常发育。类似地,在展现出疾病表型的细胞模型中,怀疑牵涉在特定疗法的有效性中的靶标可以仅在治疗期间调节。相反,遗传靶标可以仅在病理刺激期间调节。其中遗传线索对外部实验刺激的定时具有相关性的任何数目的实验都可以潜在地从本发明的实用性中受益。

体内背景为本发明控制基因表达提供了同样丰富的机会。光诱导性提供了空间精度的潜力。利用光极技术的发展,可以将刺激光纤导线置于精确的脑区中。然后可以通过光强度调谐刺激区域尺寸。这可以与本发明的Cas9CRISPR-Cas系统或复合物的递送结合完成,或者在转基因Cas9动物的情况下,可以递送本发明的指导RNA,并且光极技术可以允许调节精确脑区中的基因表达。可以向透明的表达Cas9的生物体施用本发明的指导RNA,并且然后可以存在极其精确的激光诱导的局部基因表达变化。

用于培养宿主细胞的培养基包括通常用于组织培养的培养基,诸如M199-earlebase、Eagle MEM(E-MEM)、Dulbecco MEM(DMEM)、SC-UCM102、UP-SFM(GIBCO BRL)、EX-CELL302(Nichirei)、EX-CELL293-S(Nichirei)、TFBM-01(Nichirei)、ASF104等。用于特定细胞类型的合适的培养基可以发现于美国典型培养物保藏中心(ATCC)或欧洲细胞培养物保藏中心(ECACC)。培养基可以补充有氨基酸(诸如L-谷氨酰胺)、盐、抗真菌剂或抗细菌剂(诸如)、青霉素-链霉素、动物血清等。细胞培养基可以任选地是无血清的。

本发明还可以提供在体内有价值的时间精度。本发明可以用于在特定发育阶段期间改变基因表达。本发明可以用于将遗传线索定时至特定实验窗。例如,牵连在学习中的基因可以仅在完整的啮齿动物或灵长类动物脑的精确区域中在学习刺激期间过表达或阻抑。另外,本发明可以用于仅在疾病发展的特定阶段期间诱导基因表达变化。例如,癌基因可以仅在肿瘤达到特定尺寸或转移阶段后才过表达。相反,在阿尔茨海默病发展中可疑的蛋白质可以仅在动物生命的限定时间点且在特定脑区内敲低。尽管这些实例并未穷尽性地列出本发明的潜在应用,但是它们突出显示了本发明在其中可以是有力技术的一些领域。

受保护的指导物:本发明的酶可与受保护的指导RNA结合使用

在一方面,本发明的一个目的在于通过热力学调谐指导RNA与靶DNA的结合特异性来进一步增强Cas9给定的单独指导RNA的特异性。这是引入指导序列的错配、伸长或截短的通用方法,以增加/减少在基因组靶标与其潜在脱靶基因座之间共享的互补碱基与错配碱基的数目,以便向靶向的基因组基因座给出优于基因组脱靶的热力学优势。

在一方面,本发明提供了通过二级结构进行修饰的指导序列,以增加所述Cas9CRISPR-Cas系统的特异性,并且由此所述二级结构可以保护免受外切核酸酶活性影响并且允许将3’添加至所述指导序列。

在一方面,本发明提供了使“保护性RNA”杂交至指导序列,其中所述“保护性RNA”是与所述指导RNA(gRNA)的5’端互补的RNA链,以由此产生部分双链的gRNA。在本发明的一个实施方案中,用完全互补的保护性序列保护错配碱基降低了靶DNA结合至3’端处的错配碱基对的可能性。在本发明的实施方案中,还可以存在包含延伸长度的另外的序列。

与基因组靶标匹配的指导RNA(gRNA)延伸提供gRNA保护并且增强特异性。设想了用在间隔区种子端的远端的针对单独基因组靶标的匹配序列延伸gRNA,以提供增强的特异性。已经在没有截短的情况下在细胞中观察到增强特异性的匹配gRNA延伸。伴随这些稳定的长度延伸的gRNA结构的预测已经显示,稳定形式产生自保护状态,在这些保护状态中由于间隔区延伸部和间隔区种子中的互补序列,延伸部与gRNA种子形成闭环。这些结果证实,受保护的指导物概念还包括与20mer间隔区结合区远端的基因组靶序列匹配的序列。可以使用热力学预测来预测产生受保护的gRNA状态的完全匹配或部分匹配指导物延伸。这将受保护的gRNA的概念扩展至X与Z之间的相互作用,其中X的长度通常是17-20nt并且Z的长度是1-30nt。可以使用热力学预测来确定Z的最佳延伸状态,从而潜在地在Z中引入小数目的错配,以促进在X与Z之间形成受保护的构象。在本申请通篇,术语“X”和种子长度(SL)与术语外露长度(EpL)(其表示可为靶DNA结合所用的核苷酸的数目)可互换使用;术语“Y”和保护长度(PL)可互换使用,代表保护子的长度;并且术语“Z”、“E”、“E’”和“EL”可互换使用,对应于术语延伸长度(ExL),该术语代表靶序列延伸所靠的核苷酸的数目。

对应于延伸长度(ExL)的延伸序列可以任选地被直接附接至受保护的指导序列的3’端处的指导序列。所述延伸序列的长度可以是2至12个核苷酸。优选地,ExL在长度上可以被表示为0、2、4、6、8、10或12个核苷酸。在一个优选的实施方案中,ExL在长度上被表示为0或4个核苷酸。在一个更优选的实施方案中,ExL在长度上为4个核苷酸。所述延伸序列可以或可以不与靶序列互补。

延伸序列可以进一步任选地被直接附接至受保护的指导序列的5’端处的指导序列并且附接至保护性序列的3’端。因此,所述延伸序列充当受保护的序列与保护性序列之间的连接序列。不希望受理论的束缚,这样一种连接可以将保护性序列定位在受保护的序列附近,用于改进保护性序列与受保护的序列的结合。应当理解,种子、保护子和延伸部的上述关系适用于指导物的远端(即,靶向端)是5’端(例如,起作用的指导物是Cas9系统)的情况。在指导物的远端是3’端的实施方案中,该关系将是相反的。在这样一个实施方案中,本发明提供了使“保护性RNA”杂交至指导序列,其中所述“保护性RNA”是与所述指导RNA(gRNA)的3’端互补的RNA链,以由此产生部分双链的gRNA。

向gRNA的远端添加gRNA错配可以展示增强的特异性。在Y中引入未受保护的远端错配或用远侧错配(Z)延伸gRNA可以展示增强的特异性。所提及的这个概念限于受保护的gRNA中所用的X、Y、和Z组分。未受保护的错配概念可以被进一步推广至针对受保护的指导RNA描述的X、Y、和Z的概念。

Cas9.在一方面,本发明提供了增强的Cas9特异性,其中受保护的指导RNA(pgRNA)的双链3’端允许两种可能的结果:(1)将发生指导RNA-保护性RNA至指导RNA-靶DNA的链交换并且所述指导物将完全结合所述靶标,或(2)所述指导RNA将不能完全结合所述靶标并且因为Cas9靶标切割是需要指导RNA:靶DNA结合以激活Cas9催化的DSB的多步骤动力学反应,其中如果所述指导RNA不适当地结合,则不会发生Cas9切割。根据特定实施方案,与天然存在的CRISPR-Cas系统相比,受保护的指导RNA改进靶标结合特异性。根据特定实施方案,与天然存在的CRISPR-Cas相比,受保护的经修饰的指导RNA改进稳定性。根据特定实施方案,所述保护性序列具有3与120个核苷酸之间的长度并且包括3个或更多个与指导物或保护子的另一序列互补的连续核苷酸。根据特定实施方案,所述保护性序列形成发夹。根据特定实施方案,所述指导RNA还包括受保护的序列和外露序列。根据特定实施方案,所述外露序列是1至19个核苷酸。更特别地,所述外露序列至少75%、至少90%或约100%与所述靶序列互补。根据特定实施方案,所述指导序列至少90%或约100%与所述保护性链互补。根据特定实施方案,所述指导序列至少75%、至少90%或约100%与所述靶序列互补。根据特定实施方案,所述指导RNA还包括延伸序列。更特别地,当所述指导物的远端是3’端时,所述延伸序列可操作地连接至受保护的指导序列的3’端,并且任选地直接连接至受保护的指导序列的3’端。根据特定实施方案,所述延伸序列是1-12个核苷酸。根据特定实施方案,所述延伸序列可操作地连接至受保护的指导序列的3’端处的指导序列和保护性链的5’端,并且任选地直接连接至受保护的指导序列的3’端和保护性链的5’端,其中所述延伸序列是受保护的序列与保护性链之间的连接序列。根据特定实施方案,所述延伸序列100%不与保护性链互补,任选地至少95%、至少90%、至少80%、至少70%、至少60%或至少50%不与保护性链互补。根据特定实施方案,所述指导序列还包括附于指导序列端的错配,其中这些错配在热力学上优化特异性。

根据本发明,在某些实施方案中,将需要阻止链侵入的指导物修饰。例如,为了使脱靶活性最小化,在某些实施方案中,期望设计或修改指导物以阻止脱靶位点处的链侵入。在某些此类实施方案中,以中靶结合效率为代价来设计或修饰指导物可能是可接受的或有用的。在某些实施方案中,可以容忍靶位点处的指导物-靶标错配,这些错配大幅降低了脱靶活性。

在本发明的某些实施方案中,期望调整受保护的指导物的结合特征以使脱靶CRISPR活性最小化。因此,使用热力学预测算法来预测中靶和脱靶结合强度。可替代地或另外地,使用选择方法以绝对量度或相对于中靶效应减少或最小化脱靶效应。

设计选项包括但不限于:i)调整结合至受保护的链的保护性链的长度;ii)调整受保护的链的外露部分的长度;iii)用位于受保护的链的外部(远端)的茎环延伸受保护的链(即,设计成使得茎环在受保护链的远端的外部);iv)通过添加保护性链来延伸受保护的链,从而形成带有全部或部分受保护的链的茎环;v)通过设计一个或多个碱基错配和/或一个或多个非经典碱基配对来调整保护性链与受保护的链的结合;vi)调整由保护性链与受保护的链杂交而形成的茎的位置;以及vii)向受保护的链的末端添加非结构化保护子。

在一方面,本发明提供了一种工程化的非天然存在的CRISPR-Cas系统,所述系统包含Cas蛋白和靶向在细胞中编码基因产物的DNA分子的受保护的指导RNA,由此所述受保护的指导RNA靶向编码所述基因产物的DNA分子,并且所述Cas蛋白切割编码所述基因产物的DNA分子,由此改变所述基因产物的表达;并且其中所述Cas9蛋白和所述受保护的指导RNA并不天然地一起存在。本发明涵盖包含融合至正向重复序列的指导序列的受保护的指导RNA。本发明还涵盖经密码子优化以便在真核细胞中表达的CRISPR蛋白。在一个优选的实施方案中,真核细胞是哺乳动物细胞、植物细胞或酵母细胞,并且在一个更优选的实施方案中,哺乳动物细胞是人类细胞。在本发明的另一个实施方案中,基因产物的表达被降低。在一些实施方案中,所述CRISPR蛋白是Cas12或Cas13。在一些实施方案中,所述CRISPR蛋白是Cas12a。在一些实施方案中,所述Cas12a蛋白是氨基酸球菌属种BV3L6、毛螺菌科细菌或土拉弗朗西斯菌Cas12a,并且可以包括来源于这些生物体的突变Cas12a。所述蛋白可以是另外的Cas12a同系物或直系同源物。在一些实施方案中,编码Cas蛋白的核苷酸序列经密码子优化以便在真核细胞中表达。在一些实施方案中,所述Cas9或Cas12a蛋白引导在所述靶序列位置处的一条或两条链的切割。在一些实施方案中,所述第一调控元件是聚合酶III启动子。在一些实施方案中,所述第二调控元件是聚合酶II启动子。一般来讲,并且贯穿本说明书,术语“载体”是指能够转运它所连接的另一个核酸的核酸分子。载体包括但不限于单链、双链或部分双链的核酸分子;包含一个或多个游离端、不包含游离端(例如环状)的核酸分子;包含DNA、RNA或两者的核酸分子;以及本领域中已知的多核苷酸的其他种类。一种类型的载体是“质粒”,其是指环状双链DNA环,可以诸如通过标准分子克隆技术向该环中插入另外的DNA区段。另一种类型的载体是病毒载体,其中病毒来源的DNA或RNA序列存在于包装到病毒(例如逆转录病毒、复制缺陷型逆转录病毒、腺病毒、复制缺陷型腺病毒和腺相关病毒)中的载体中。病毒载体还包括由转染到宿主细胞中的病毒携带的多核苷酸。某些载体能够在引入它们的宿主细胞中自主复制(例如具有细菌复制起点的细菌载体和附加型哺乳动物载体)。其他载体(例如非附加型哺乳动物载体)在引入到宿主细胞中之后被整合到宿主细胞的基因组中,并且因此随着宿主基因组一起复制。此外,某些载体能够引导它们可操作地连接的基因的表达。此类载体在本文中称为“表达载体”。在重组DNA技术中有效用的常用表达载体常常呈质粒的形式。

重组表达载体可以包含处于适于在宿主细胞中表达核酸的形式的本发明的核酸,这意味着重组表达载体包含一个或多个调控元件,这些调控元件可以基于用于表达的宿主细胞来选择,可操作地连接至有待表达的核酸序列。在重组表达载体内,“可操作地连接”旨在意指目标核苷酸序列以允许核苷酸序列表达(例如,在体外转录/翻译系统中或当该载体被引入到宿主细胞时在宿主细胞中)的方式连接至一个或多个调控元件。

有利的载体包括慢病毒和腺伴随病毒并且此类载体类型还可以被选择用于靶向特定细胞类型。

在一方面,本发明提供了一种真核宿主细胞,所述真核宿主细胞包含(a)第一调控元件,所述第一调控元件可操作地连接至正向重复序列和一个或多个插入位点,所述一个或多个插入位点用于在所述正向重复序列的下游插入一个或多个指导序列,其中当表达时,所述指导序列引导CRISPR复合物与真核细胞中的靶序列的序列特异性结合,其中所述CRISPR复合物包含与包含杂交至所述靶序列的指导序列的指导RNA复合的CRISPR酶;和/或(b)第二调控元件,所述第二调控元件可操作地连接至编码所述Cas9酶的酶编码序列,所述Cas9酶包含核定位序列。在一些实施方案中,所述宿主细胞包含组分(a)和组分(b)。在一些实施方案中,组分(a)、组分(b)或组分(a)和组分(b)被稳定地整合到所述宿主真核细胞的基因组中。在一些实施方案中,组分(a)还包含可操作地连接至所述第一调控元件的两个或更多个指导序列,其中当表达时,所述两个或更多个指导序列中的每者都引导CRISPR复合物与真核细胞中的不同靶序列的序列特异性结合。在一些实施方案中,所述Cas9酶引导在所述靶序列位置处的一条或两条链的切割。在一些实施方案中,所述Cas9酶缺少DNA链切割活性。在一些实施方案中,所述第一调控元件是聚合酶III启动子。在一些实施方案中,所述第二调控元件是聚合酶II启动子。

在一方面,本发明提供了一种非人类的真核生物体;优选地是多细胞真核生物体,这些生物体包含根据任何所述实施方案的真核宿主细胞。在其他方面,本发明提供了一种真核生物体;优选地是多细胞真核生物体,这些生物体包含根据任何所述实施方案的真核宿主细胞。在这些方面的一些实施方案中,生物体可以是动物;例如哺乳动物。而且,生物体可以是节肢动物,诸如昆虫。生物体还可以是植物或酵母。此外,所述生物体可以是真菌。

在一方面,本发明提供了一种药盒,所述药盒包含上文所述的一种或多种组分。在一些实施方案中,所述药盒包括载体系统以及用于使用所述药盒的说明书。在一些实施方案中,所述载体系统包含(a)第一调控元件,所述第一调控元件可操作地连接至正向重复序列和一个或多个插入位点,所述一个或多个插入位点用于在所述正向重复序列的下游插入一个或多个指导序列,其中当表达时,所述指导序列引导Cas9 CRISPR复合物与真核细胞中的靶序列的序列特异性结合,其中所述CRISPR复合物包含与包含杂交至所述靶序列的指导序列的受保护的指导RNA复合的Cas9酶;和/或(b)第二调控元件,所述第二调控元件可操作地连接至编码所述Cas9酶的酶编码序列,所述Cas9酶包含核定位序列。在一些实施方案中,所述药盒包含位于所述系统的相同或不同载体上的组分(a)和组分(b)。在一些实施方案中,组分(a)还包含可操作地连接至所述第一调控元件的两个或更多个指导序列,其中当表达时,所述两个或更多个指导序列中的每者都引导CRISPR复合物与真核细胞中的不同靶序列的序列特异性结合。在一些实施方案中,所述Cas9酶包括一个或多个核定位序列,其具有足够强度来在真核细胞的细胞核中驱动所述Cas9酶以可检测的量积聚。在一些实施方案中,所述Cas9酶是氨基酸球菌属BV3L6、毛螺菌科细菌MA2020或土拉弗朗西斯菌1新凶手Cas9,并且可以包括来源于这些生物体的突变Cas9。所述酶可以是Cas9同系物或直系同源物。在一些实施方案中,所述CRISPR酶经密码子优化以便在真核细胞中表达。在一些实施方案中,所述CRISPR酶引导在所述靶序列位置处的一条或两条链的切割。在一些实施方案中,所述CRISPR酶缺少DNA链切割活性。在一些实施方案中,所述第一调控元件是聚合酶III启动子。在一些实施方案中,所述第二调控元件是聚合酶II启动子。

在一方面,本发明提供了一种修饰真核细胞中的靶多核苷酸的方法。在一些实施方案中,所述方法包括允许CRISPR复合物结合至所述靶多核苷酸以实现所述靶多核苷酸的切割,由此修饰所述靶多核苷酸,其中所述CRISPR复合物包含与受保护的指导RNA复合的Cas9酶,所述受保护的指导RNA包含杂交至所述靶多核苷酸内的靶序列的指导序列。在一些实施方案中,所述切割包括通过所述Cas9酶切割在靶序列位置处的一条或两条链。在一些实施方案中,所述切割导致靶基因的转录降低。在一些实施方案中,所述方法还包括通过基于非同源末端连接(NHEJ)的基因插入机制(更具体地与外源性模板多核苷酸)修复所述切割的靶多核苷酸,其中所述修复导致突变,包括所述靶多核苷酸的一个或多个核苷酸的插入、缺失或取代。在一些实施方案中,所述突变导致在从包含所述靶序列的基因表达的蛋白质中的一个或多个氨基酸改变。在一些实施方案中,所述方法还包括将一种或多种载体递送至所述真核细胞,其中所述一种或多种载体驱动下列一者或多者的表达:Cas9酶、包含连接至正向重复序列的指导序列的受保护的指导RNA。在一些实施方案中,将所述载体递送至受试者内的真核细胞。在一些实施方案中,所述修饰发生在细胞培养物中的所述真核细胞中。在一些实施方案中,所述方法还包括在所述修饰之前从受试者中分离所述真核细胞。在一些实施方案中,所述方法还包括使所述真核细胞和/或来源于其的细胞返回至所述受试者中。

在一方面,本发明提供了一种修饰多核苷酸在真核细胞中的表达的方法。在一些实施方案中,所述方法包括允许Cas9 CRISPR复合物结合至所述多核苷酸,这样使得所述结合导致所述多核苷酸的表达增加或降低;其中所述CRISPR复合物包含与受保护的指导RNA复合的Cas9酶,所述受保护的指导RNA包含杂交至所述多核苷酸内的靶序列的指导序列。在一些实施方案中,所述方法还包括将一种或多种载体递送至所述真核细胞,其中所述一种或多种载体驱动下列一者或多者的表达:所述Cas9酶和所述受保护的指导RNA。

在一方面,本发明提供了产生包含突变的疾病基因的模型真核细胞的方法。在一些实施方案中,疾病基因是与患有或产生疾病的风险的增加相关联的任何基因。在一些实施方案中,所述方法包括(a)向真核细胞中引入一种或多种载体,其中所述一种或多种载体驱动下列一者或多者的表达:Cas9酶和包含连接至正向重复序列的指导序列的受保护的指导RNA;以及(b)允许CRISPR复合物结合至靶多核苷酸上以实现在所述疾病基因内的所述靶多核苷酸的切割,其中所述CRISPR复合物包含与包含杂交至所述靶多核苷酸内的靶序列的序列的指导RNA复合的Cas9酶,由此产生包含突变的疾病基因的模型真核细胞。在一些实施方案中,所述切割包括通过所述Cas9酶切割在靶序列位置处的一条或两条链。在一些实施方案中,所述切割导致靶基因的转录降低。在一些实施方案中,所述方法还包括通过基于非同源末端连接(NHEJ)的基因插入机制(与外源性模板多核苷酸)修复所述切割的靶多核苷酸,其中所述修复导致突变,包括所述靶多核苷酸的一个或多个核苷酸的插入、缺失或取代。在一些实施方案中,所述突变导致在从包含所述靶序列的基因表达的蛋白质中的一个或多个氨基酸改变。

在一方面,本发明提供了一种用于开发生物活性剂的方法,所述生物活性剂调节与疾病基因相关联的细胞信号传导事件。在一些实施方案中,疾病基因是与患有或产生疾病的风险的增加相关联的任何基因。在一些实施方案中,所述方法包括(a)使测试化合物与所描述实施方案中任一项的模型细胞接触;以及(b)检测读数变化,所述变化指示与所述疾病基因的所述突变相关联的细胞信号传导事件的减少或增加,由此开发调节与所述疾病基因相关联的所述细胞信号传导事件的所述生物活性剂。

在一方面,本发明提供了一种包含正向重复序列下游的受保护的指导序列的重组多核苷酸,其中当表达时,所述受保护的指导序列引导CRISPR复合物与存在于真核细胞中的相应靶序列的序列特异性结合。在一些实施方案中,所述靶序列是存在于真核细胞中的病毒序列。在一些实施方案中,所述靶序列是原癌基因或癌基因。

在一方面,本发明提供了一种通过在一种或多种细胞的基因中引入一个或多个突变来选择一种或多种细胞的方法,所述方法包括:将一种或多种载体引入所述一种或多种细胞中,其中所述一种或多种载体驱动下列一者或多者的表达:Cas9酶、包含指导序列的受保护的指导RNA和编辑模板;其中所述编辑模板包含消除Cas9酶切的一个或多个突变;允许所述编辑模板与所述靶多核苷酸在有待选择的所述一种或多种细胞中的基于非同源末端连接(NHEJ)的基因插入机制;允许CRISPR复合物结合至靶多核苷酸以实现在所述基因内的所述靶多核苷酸的切割,其中所述CRISPR复合物包含与受保护的指导RNA复合的Cas9酶,所述受保护的指导RNA包含杂交至所述靶多核苷酸内的靶序列的指导序列,其中所述CRISPR复合物与所述靶多核苷酸的结合诱导细胞死亡,由此允许选择其中已经引入一个或多个突变的一种或多种细胞。在本发明的一个优选的实施方案中,所述有待选择的细胞可以是真核细胞。本发明的方面允许选择特定细胞,而不需要选择标记物或可能包括反选择系统的两步法。

关于所述Cas9酶的突变,当所述酶不是FnCas9时,突变可以是如在本文别处所描述的;还设想了任何这些置换氨基酸的保守性取代。在一方面,本发明提供了本文讨论的任何或每个或所有实施方案,其中所述CRISPR酶包含至少一个或多个、或至少两个或更多个突变,其中所述至少一个或多个突变或所述至少两个或更多个突变选自在本文别处描述的那些。

在另在一方面,本发明涉及一种用于鉴定或设计待装配在或结合至CRISPR-Cas9系统或其功能部分的潜在化合物的计算机辅助方法、或反之亦然(用于鉴定或设计结合至所需化合物的潜在CRISPR-Cas9系统或其功能部分的计算机辅助方法)、或用于鉴定或设计潜在的CRISPR-Cas9系统的计算机辅助方法(例如,就预测能够被操纵的CRISPR-Cas9系统的区域而言—例如,基于晶体结构数据或基于Cas9直系同源物的数据,或就官能团(诸如激活因子或阻抑因子)可以附接至所述CRISPR-Cas9系统的何处而言,或就Cas9截短而言或就设计切口酶而言),所述方法包括:

使用计算机系统,例如包括处理器、数据存储系统、输入设备、和输出设备的编程计算机,以下步骤:

(a)通过所述输入设备将数据输入至所述编程计算机中,所述数据包括来自CRISPR-Cas9晶体结构的或与其有关的原子子组的三维坐标,例如在CRISPR-Cas9系统结合结构域中、或可替代地或另外地在基于Cas9直系同源物之间的或关于Cas9的或关于切口酶的或关于官能团的差异而变化的结构域中,任选地连同来自一种或多种CRISPR-Cas9系统复合物的结构信息,由此产生数据组;

(b)使用所述处理器比较所述数据集与储存在所述计算机数据存储系统中的计算机结构数据库,例如结合至或推定结合至或希望结合至CRISPR-Cas9系统的化合物的、或关于Cas9直系同源物的(例如,关于Cas9的或关于在Cas9直系同源物之间变化的结构域或区域的)、或关于CRISPR-Cas9晶体结构的、或关于切口酶的或关于官能团的结构;

(c)使用计算机方法从所述数据库中选择一种或多种结构—例如,可以结合至所需结构的CRISPR-Cas9结构、可以结合至某些CRISPR-Cas9结构的所需结构、可以被操纵的CRISPR-Cas9系统的部分(例如基于来自CRISPR-Cas9晶体结构的其他部分的和/或来自Cas9直系同源物的数据)、截短的Cas9、新颖的切口酶或特定的官能团、或用于附接官能团或官能团-CRISPR-Cas9系统的位置;

(d)使用计算机方法构建所选一种或多种结构的模型;以及

(e)将所选一种或多种结构输出至所述输出设备;

并且任选地合成所选一种或多种结构中的一者或多者;

并且进一步任选地作为CRISPR-Cas9系统或在其中测试所述合成的所选一种或多种结构;

或者,所述方法包括:提供所述CRISPR-Cas9晶体结构的至少两个原子(例如本文的CRISPR-Cas9晶体结构的晶体结构表的至少两个原子)的坐标,或所述CRISPR-Cas9晶体结构的至少一个子结构域的坐标(“所选坐标”);提供包含结合分子的候选物的或可以被操纵的所述CRISPR-Cas9系统的部分的结构(例如基于来自所述CRISPR-Cas9晶体结构的其他部分的和/或来自Cas9直系同源物的数据)、或官能团的结构,并且将所述候选物的结构与所选坐标匹配,以由此获得产品数据,所述产品数据包括可以结合至所需结构的CRISPR-Cas9结构、可以结合至某些CRISPR-Cas9结构的所需结构、可以被操纵的CRISPR-Cas9系统的部分、截短的Cas9、新颖的切口酶或特定的官能团、或用于附接官能团或官能团-CRISPR-Cas9系统的位置,并且将这些数据输出;并且任选地从所述产品数据合成一种或多种化合物并且进一步任选地包括作为CRISPR-Cas9系统或在其中测试所述合成的一种或多种化合物。

所述测试可以包括例如就结合、或执行所需功能对由所述合成的所选一种或多种结构产生的CRISPR-Cas9系统进行分析。

前述方法中的输出可以包括数据传输,例如经由电信、电话、视讯会议、公众通讯(例如演示,诸如计算机演示(例如POWERPOINT))、因特网、电子邮件、文献交流(诸如计算机程序(例如WORD))文件等进行的信息传输。因此,本发明还涵盖含有以下项的计算机可读介质:根据本文引用的晶体结构的原子坐标数据,所述数据限定了CRISPR-Cas9或其至少一个子结构域的三维结构;或针对CRISPR-Cas9的结构因子数据,所述结构因子数据可衍生自本文引用的晶体结构的原子坐标数据。所述计算机可读介质还可以含有前述方法的任何数据。本发明还涵盖用于产生或执行如在前述方法中的合理设计的方法计算机系统,其含有以下任一项:根据本文引用的晶体结构的原子坐标数据,所述数据限定了CRISPR-Cas9或其至少一个子结构域的三维结构;或针对CRISPR-Cas9的结构因子数据,所述结构因子数据可衍生自本文引用的晶体结构的原子坐标数据。本发明还涵盖经商方法,所述方法包括向用户提供所述计算机系统或所述介质或CRISPR-Cas9或其至少一个子结构域的三维结构、或针对CRISPR-Cas9的结构因子数据(所述结构列于本文引用的晶体结构的原子坐标数据中并且所述结构因子数据可衍生自本文引用的晶体结构的原子坐标数据)、或本文的计算机介质或本文的数据传输。

“结合位点”或“活性位点”包括结合腔或区域中的位点(诸如原子、氨基酸残基的官能团或多个这样的原子和/或基团)或基本上由其组成或由其组成,所述结合腔或区域可以结合至化合物(诸如核酸分子),所述化合物涉及在结合中。

所谓“匹配(fitting)”意指通过自动或半自动手段确定候选分子的一个或多个原子与本发明结构的至少一个原子之间的相互作用,并且计算这样的相互作用稳定的程度。相互作用包括由电荷、空间因素等引起的吸引和排斥。进一步描述了匹配用的各种基于计算机的方法。

所谓“均方根(或rms)偏差”,意指离均差的平方的算术平均数的平方根。

所谓“计算机系统”意指用于分析原子坐标数据的硬件装置、软件装置和数据存储装置。本发明的基于计算机的系统的最小硬件包括中央处理单元(CPU)、输入装置、输出装置和数据存储装置。合意地,提供显示器或监测器用于可视化结构数据。数据存储装置可以是RAM或用于存取本发明的计算机可读介质的装置。这样的系统的实例是运行Unix、Windows或Apple操作系统的计算机和平板设备。

所谓“计算机可读介质”意指可以被计算机直接或间接读取并且存取,例如使得所述介质适于在以上提及的计算机系统中使用的任何一种或多种介质。这样的介质包括但不限于:磁存储介质,诸如软盘、硬盘存储介质和磁带;光存储介质,诸如光盘或CD-ROM;电存储介质,诸如RAM和ROM;拇指驱动设备;云存储设备以及这些类别的混合体,诸如磁/光存储介质。

本发明涵盖上文所述的受保护的指导物在本文所述的优化的功能性CRISPR-Cas酶系统中的用途。

组覆盖方法(Set Cover Approach)

在特定实施方案中,设计引物和/或探针,其可例如鉴定一组确定病毒和微生物内的所有病毒和/或微生物种类。此类方法描述于在某些示例性实施方案中。组覆盖求解可以鉴定覆盖整个靶序列或一组靶序列,例如一组基因组序列所需的最小数目的靶序列探针或引物。组覆盖方法先前已经用于鉴定引物和/或微阵列探针,通常在20个至50个碱基对的范围内。参见例如Pearson等人,cs.virginia.edu/~robins/papers/primers_dam11_fmal.pdf.;Jabado等人Nucleic Acids Res.2006 34(22):6605-11;Jabado等人NucleicAcids Res.2008,36(1):e3 doi10.1093/nar/gkm1106;Duitama等人Nucleic AcidsRes.2009,37(8):2483-2492;Phillippy等人BMC Bioinformatics.2009,10:293 doi:10.1186/1471-2105-10-293。此类方法一般涉及将每个引物/探针处理成k-mer以及搜索精确匹配或允许使用后缀阵列搜索不精确匹配。另外,方法一般采用二元方法以通过选择引物或探针以使得每个输入序列仅需要由一个引物或探针结合并且这个结合沿着序列的位置是无关的来检测杂交。替代性方法可以将靶基因组分成预定义窗口并且在二元方法下将每个窗口有效处理成单独的输入序列-即,其确定给定的探针或指导RNA是否在每个窗口内结合并且是否需要所有窗口都由某些探针或探针结合。有效地,这些方法将组覆盖问题中“通用”的每个元件处理成整个输入序列或输入序列的预定义窗口,并且如果探针或指导RNA的起点在元件内结合,那么每个元件被视为“覆盖的”。

在一些实施方案中,本文所公开的方法可以用于在单个测定中鉴定给定病毒或多个不同病毒的所有变体。此外,本文所公开的方法将组覆盖问题中“通用”的每个元件处理成靶序列的核苷酸,并且每个元件被视为“覆盖的”,只要探针或指导RNA结合至包括元件的靶基因组的某个区段即可。胜过仅询问给定引物或探针是否结合至给定的窗口,此类方法可以用于检测杂交模式-即,在给定引物或探针结合至一个或多个靶序列的情况下-然后从那些杂交模式确定覆盖靶序列组至足以能够从样品富集并且对任何和所有靶序列进行测序的程度所需的最小数目的引物或探针。这些杂交模式可以通过定义某些参数来确定,所述参数使损失功能降至最低,从而能够以允许参数对于每个物种有变化,例如以反映每个物种的多样性的方式,以及以使用组覆盖求解的简单应用,例如在引物或探针设计情形中先前应用的那些无法达成的计算有效方式鉴定最小探针或指导RNA组。

检测多个转录物丰度的能力可以允许产生指示特定表型的独特病毒或微生物标识。各种机器学习技术可以用于导出基因标识。因此,本发明的引物和/或探针可以用于鉴定和/或定量由基因标识定义的生物标志的相对水平以检测某些表型。在某些示例性实施方案中,基因标识指示对特定治疗的易感性、对治疗的抗性,或其组合。

在本发明的一个方面,方法包括检测一种或多种病原体。以这种方式,可以获得个别微生物对受试者的感染之间的区别。在一些实施方案中,此种区别能够由临床医师检测或诊断特定疾病,例如疾病的不同变体。优选地,病毒或病原体序列是病毒或病原体的基因组或其片段。所述方法还可以包括确定病原体的演变。确定病原体的演变可以包括鉴别病原体突变,例如核苷酸缺失、核苷酸插入、核苷酸取代。在后者当中,存在非同义、同义和非编码取代。突变在爆发期间更频繁地是非同义的。所述方法还可以包括确定如上文所描述而分析的两个病原体序列之间的取代率。突变是有害的还是甚至适应性的将需要功能性分析,然而,非同义突变率表明这种流行病的持续进展可能为病原体适应提供机会,强调了快速遏制的需要。因此,方法还可以包括评价病毒适应的风险,其中确定非同义突变的数目。(Gire等人,Science 345,1369,2014)。所述方法可包括如本文其他地方所述的诊断指导物设计。

基于RNA的掩蔽构建体

如本文所用,“掩蔽构建体”是指可以通过本文所述的激活的CRISPR系统效应蛋白切割或以其他方式灭活的分子。术语“掩蔽构建体”替代地也可以称为“检测构建体”。在某些示例性实施方案中,掩蔽构建体是基于RNA的掩蔽构建体。基于RNA的掩蔽构建体包含可被CRISPR效应蛋白切割的RNA元件。RNA元件的切割释放剂或产生构象变化,其允许可检测信号产生。下面描述了证实如何使用RNA元件以阻止或掩蔽可检测信号的产生的示例性构建体,并且本发明的实施方案包括其变体。在切割之前,或当掩蔽构建体处于“活性”状态时,掩蔽构建体阻断阳性可检测信号的生成或检测。应当理解,在某些示例性实施方案中,可以在活性RNA掩蔽构建体存在下产生极小背景信号。阳性可检测信号可以是可使用本领域中已知的光学、荧光、化学发光、电化学或其他检测方法检测到的任何信号。术语“阳性可检测信号”用于与在掩蔽构建体存在下可检测的其他可检测信号区分开。举例来说,在某些实施方案中,当存在掩蔽剂时可以检测到第一信号(即阴性可检测信号),所述第一信号然后在检测到靶分子且掩蔽剂被激活的CRISPR效应蛋白切割或灭活时转化为第二信号(例如阳性可检测信号)。

因此,在本发明的某些实施方案中,所述基于RNA的掩蔽构建体阻遏可检测阳性信号的生成,或者所述基于RNA的掩蔽构建体通过掩蔽所述可检测阳性信号或替代地生成可检测阴性信号来阻遏可检测阳性信号的生成,或者所述基于RNA的掩蔽构建体包含沉默RNA,所述沉默RNA阻遏由报告构建体编码的基因产物的生成,其中所述基因产物在表达时生成所述可检测阳性信号。

在另外的实施方案中,所述基于RNA的掩蔽构建体是生成所述阴性可检测信号的核酶,并且其中当所述核酶被灭活时生成所述阳性可检测信号,或者所述核酶将底物转化为第一颜色,并且其中当所述核酶被灭活时,所述底物转化为第二颜色。

在其他实施方案中,所述基于RNA的掩蔽剂是RNA适体,或者所述适体螯合酶,其中所述酶通过作用于底物而在从所述适体释放后生成可检测信号,或者所述适体螯合一对剂,所述剂在从所述适体释放时组合以生成可检测信号。

在另一个实施方案中,所述基于RNA的掩蔽构建体包含RNA寡核苷酸,可检测配体和掩蔽组分附接至所述RNA寡核苷酸。在另一个实施方案中,所述可检测配体是荧光团,并且所述掩蔽组分是猝灭剂分子,或用以扩增靶RNA分子的试剂,诸如但不限于NASBA或RPA试剂。

在某些示例性实施方案中,掩蔽构建体可以阻遏基因产物的生成。基因产物可以由添加到样品中的报告构建体编码。掩蔽构建体可以是参与RNA干扰途径的干扰RNA,诸如短发夹RNA(shRNA)或小干扰RNA(siRNA)。掩蔽构建体还可以包含微小RNA(miRNA)。当存在时,掩蔽构建体阻遏基因产物的表达。基因产物可以是在不存在掩蔽构建体时可被标记的探针、适体或抗体检测的荧光蛋白或其他RNA转录物或蛋白。在激活效应蛋白后,掩蔽构建体被切割或以其他方式沉默而允许基因产物作为阳性可检测信号表达和检测。

在某些示例性实施方案中,掩蔽构建体可以螯合生成可检测阳性信号所需要的一种或多种试剂,使得从掩蔽构建体释放一种或多种试剂导致可检测阳性信号的生成。所述一种或多种试剂可以组合以产生比色信号、化学发光信号、荧光信号或任何其他可检测信号,并且可以包括已知适合于这样的目的的任何试剂。在某些示例性实施方案中,所述一种或多种试剂被结合所述一种或多种试剂的RNA适体鳌合。当检测到靶分子而效应蛋白被激活并且RNA适体被降解时,释放一种或多种试剂。

在某些示例性实施方案中,掩蔽构建体可以固定在个别离散体积(在下文中进一步定义)的固体衬底上,并螯合单一试剂。举例来说,试剂可以是包含染料的珠粒。当被固定的试剂鳌合时,个别珠粒过于扩散而不能生成可检测信号,但是从掩蔽构建体释放后能够生成可检测信号,例如在溶液浓缩中通过聚集或简单增加。在某些示例性实施方案中,固定的掩蔽剂是基于RNA的适体,所述适体可以在检测到靶分子后被激活的效应蛋白切割。

在某些其他示例性实施方案中,掩蔽构建体与溶液中的固定的试剂结合,从而阻断试剂与溶液中游离的单独标记结合配偶体结合的能力。因此,在对样品施加洗涤步骤后,在不存在靶分子的情况下标记的结合配偶体会从样品中洗掉。然而,如果效应蛋白被激活,则掩蔽构建体被切割至足以干扰掩蔽构建体结合试剂的能力的程度,从而允许标记的结合配偶体与固定的试剂结合。因此,标记的结合配偶体在洗涤步骤后保留,表明样品中存在靶分子。在某些方面,结合固定的试剂的掩蔽构建体是RNA适体。固定的试剂可以是蛋白质,并且标记的结合配偶体可以是标记的抗体。或者,固定的试剂可以是链霉亲和素,并且标记的结合配偶体可以是标记的生物素。在上述实施方案中使用的结合配偶体上的标记可以是本领域中已知的任何可检测标记。此外,可以根据本文所述的总体设计使用其他已知的结合配偶体。

在某些示例性实施方案中,掩蔽构建体可以包含核酶。核酶是具有催化特性的RNA分子。天然核酶和工程化的核酶两者包含可以被本文所公开的效应蛋白靶向的RNA或由其组成。可以选择或工程化核酶以催化生成阴性可检测信号或阻止生成阳性对照信号的反应。在激活的效应蛋白灭活核酶后,生成阴性对照信号或阻止生成阳性可检测信号的反应被移除,从而允许阳性可检测信号生成。在一个示例性实施方案中,核酶可以催化比色反应,使溶液显示为第一颜色。当核酶灭活时,溶液然后变成第二颜色,第二颜色是可检测阳性信号。Zhao等人“Signal amplification of glucosamine-6-phosphate based onribozyme glmS,”Biosens Bioelectron.2014;16:337-42描述了核酶如何用于催化比色反应的实例,并提供如何修饰这样的系统以在本文所公开的实施方案的情形中工作的实例。或者,核酶当存在时可以生成例如RNA转录物的切割产物。因此,阳性可检测信号的检测可以包括检测仅在不存在核酶的情况下生成的未切割的RNA转录物。

在某些示例性实施方案中,一种或多种试剂是能够促进生成可检测信号,诸如比色、化学发光或荧光信号的蛋白,诸如酶,所述蛋白被抑制或鳌合使得因一种或多种RNA适体与蛋白的结合,蛋白无法生成可检测信号。在本文所公开的效应蛋白激活时,RNA适体被切割或降解到一个程度即它们不再抑制蛋白产生可检测信号的能力。在某些示例性实施方案中,适体是凝血酶抑制剂适体。在某些示例性实施方案中,凝血酶抑制剂适体具有GGGAACAAAGCUGAAGUACUUACCC(SEQ ID NO:4)的序列。当该适体被切割时,凝血酶将变得具有活性并且将切割肽比色或荧光底物。在某些示例性实施方案中,比色底物是与凝血酶的肽底物共价连接的对硝基苯胺(pNA)。在被凝血酶切割后,pNA被释放并变成黄色并且容易被眼睛看到。在某些示例性实施方案中,荧光底物是可以使用荧光检测器检测的7-氨基-4-甲基香豆素蓝色荧光团。抑制性适体也可以用于辣根过氧化物酶(HRP)、β-半乳糖苷酶或小牛碱性磷酸酶(CAP),并且在上述一般原理内。

在某些实施方案中,用比色法经由酶抑制性适体的切割检测RNA酶。将RNA酶转化为比色信号的一种潜在模式是将RNA适体的切割与能够产生比色输出的酶的再激活结合。在不存在RNA切割的情况下,完整的适体将与酶靶标结合并抑制其活性。该读出系统的优点在于酶提供了另外的扩增步骤:一旦经由附带活性(例如Cas13a附带活性)从适体释放,比色酶将继续产生比色产物,导致信号放大。

在某些实施方案中,使用抑制具有比色读出的酶的现有适体。存在若干具有比色读出的适体/酶对,诸如凝血酶、蛋白C、中性粒细胞弹性蛋白酶和枯草杆菌蛋白酶。这些蛋白酶具有基于pNA的比色底物,并且可以商购获得。在某些实施方案中,使用靶向共同比色酶的新颖适体。常见且稳健的酶,诸如β-半乳糖苷酶、辣根过氧化物酶或小牛肠碱性磷酸酶,可以通过由选择策略(诸如SELEX)设计的工程化的适体靶向。这样的策略允许快速选择具有纳摩尔级结合效率的适体,并且可以用于开发用于比色读出的另外的酶/适体对。

在某些实施方案中,用比色法经由RNA拴系的抑制剂的切割检测RNA酶活性。许多常见的比色酶具有竞争性的可逆抑制剂:例如,β-半乳糖苷酶可以被半乳糖抑制。这些抑制剂中许多都很弱,但是它们的效果可以通过局部浓度的增加来增加。通过将局部浓度的抑制剂与RNA酶活性联系起来,比色酶和抑制剂对可以被工程化至RNA酶传感器中。基于小分子抑制剂的比色RNA酶传感器涉及三个组分:比色酶、抑制剂,和与抑制剂和酶共价连接以将抑制剂拴系在酶上的桥接RNA。在未切割的构型中,酶被增加的局部浓度的小分子所抑制;当RNA被切割时(例如通过Cas13a附带切割),抑制剂将被释放并且比色酶将被激活。

在某些实施方案中,通过比色法经由G四链体的形成和/或激活来检测RNA酶活性。DNA中的G四链体可以与血红素(铁(III)-原卟啉IX)复合以形成具有过氧化物酶活性的DNA酶。当提供过氧化物酶底物(例如ABTS:(2,2’-氮杂双[3-乙基苯并噻唑啉-6-磺酸]-二铵盐))时,在过氧化氢存在下G四链体-血红素复合物使得底物氧化,底物然后在溶液中形成绿色。示例性的形成G四链体的DNA序列是:GGGTAGGGCGGGTTGGGA(SEQ ID NO:5)。通过将RNA序列与该DNA适体杂交,G四链体结构的形成将受到限制。RNA酶附带激活(例如C2c2复合物附带激活)后,RNA钉将被切割,从而允许G四链体形成并且与血红素结合。该策略特别有吸引力,因为颜色形成是酶促的,这意味着除了RNA酶激活之外还存在另外的扩增。

在某些示例性实施方案中,掩蔽构建体可以固定在个别离散体积(在下文中进一步定义)的固体衬底上,并螯合单一试剂。举例来说,试剂可以是包含染料的珠粒。当被固定的试剂鳌合时,个别珠粒过于扩散而不能生成可检测信号,但是从掩蔽构建体释放后能够生成可检测信号,例如在溶液浓缩中通过聚集或简单增加。在某些示例性实施方案中,固定的掩蔽剂是基于RNA的适体,所述适体可以在检测到靶分子后被激活的效应蛋白切割。

在一个示例性实施方案中,掩蔽构建体包含检测剂,所述检测剂根据检测剂在溶液中聚集或分散而改变颜色。举例来说,某些纳米粒子,诸如胶体金,当它们从聚集体移动到分散的粒子时,经历可见的紫色到红色的色移。因此,在某些示例性实施方案中,这样的检测剂可以通过一种或多种桥分子聚集。桥分子的至少一部分包含RNA。在本文所公开的效应蛋白激活后,桥分子的RNA部分被切割,允许检测剂分散并导致相应的颜色变化。在某些示例性实施方案中,桥分子是RNA分子。在某些示例性实施方案中,检测剂是胶体金属。胶体金属材料可以包括水不溶性金属粒子或分散在液体、水溶胶或金属溶胶中的金属化合物。胶体金属可以选自周期表中IA、IB、IIB和IIIB族的金属,以及过渡金属,尤其是VIII族的那些金属。优选的金属包括金、银、铝、钌、锌、铁、镍和钙。其他合适的金属还包括以下金属的各种氧化态:锂、钠、镁、钾、钪、钛、钒、铬、锰、钴、铜、镓、锶、铌、钼、钯、铟、锡、钨、铼、铂和钆。金属优选以离子形式提供,来源于适当的金属化合物,例如Al3+、Ru3+、Zn2+、Fe3+、Ni2+和Ca2+离子。

当RNA桥被激活的CRISPR效应子切割时,观察到前述的色移。在某些示例性实施方案中,粒子是胶体金属。在某些其他示例性实施方案中,胶体金属是胶体金。在某些示例性实施方案中,胶体纳米粒子是15nm金纳米粒子(AuNP)。由于胶体金纳米粒子的独特表面特性,当在溶液中完全分散时在520nm处观察到最大吸光度,并且肉眼看起来呈红色。在AuNP聚集时,它们表现出最大吸光度的红移并且颜色看起来更暗,最终作为深紫色聚集体从溶液中沉淀出来。在某些示例性实施方案中,纳米粒子经修饰而包括从纳米粒子表面延伸的DNA接头。个别粒子通过在RNA的每个末端与DNA接头的至少一部分杂交的单链RNA(ssRNA)桥连接在一起。因此,纳米粒子将形成连接的粒子和聚集体的网状物,呈现为暗沉淀物。在本文所公开的CRISPR效应子激活后,ssRNA桥将被切割,从连接网格释放AU NP并产生可见的红色。下面列出了示例性DNA接头和RNA桥序列。DNA接头末端的硫醇接头可以用于与AuNP的表面缀合。可以使用其他形式的缀合。在某些示例性实施方案中,可以生成两个AuNP群,每个DNA接头一个。这将有助于促进ssRNA桥以正确取向正确结合。在某些示例性实施方案中,第一DNA接头通过3’端缀合,而第二DNA接头通过5’端缀合。

在某些其他示例性实施方案中,掩蔽构建体可以包含可检测标记与其连接的RNA寡核苷酸和该可检测标记的掩蔽剂。这样的可检测标记/掩蔽剂对的实例是荧光团和荧光团的猝灭剂。由于荧光团与另一荧光团或非荧光分子之间形成非荧光复合物,可以发生荧光团的猝灭。这种机制称为基态复合物形成、静态猝灭或接触猝灭。因此,可以设计RNA寡核苷酸,使得荧光团和猝灭剂足够接近以发生接触猝灭。荧光团及其关联猝灭剂在本领域中是已知的,并且可以由本领域普通技术人员为此目的进行选择。特定的荧光团/猝灭剂在本发明的情形中并不重要,只要荧光团/猝灭剂对的选择能确保荧光团的掩蔽。在激活本文所公开的效应蛋白后,RNA寡核苷酸被切割,从而切断维持接触猝灭效应所需的荧光团和猝灭剂之间的接近度。因此,荧光团的检测可以用于确定样品中靶分子的存在。

在某些其他示例性实施方案中,掩蔽构建体可以包含一种或多种金属纳米粒子诸如金纳米粒子附接至其的一种或多种RNA寡核苷酸。在一些实施方案中,掩蔽构建体包含由形成闭环的多个RNA寡核苷酸交联的多个金属纳米粒子。在一个实施方案中,掩蔽构建体包含由形成闭环的三个RNA寡核苷酸交联的三个金纳米粒子。在一些实施方案中,CRISPR效应蛋白切割RNA寡核苷酸导致由金属纳米粒子产生可检测信号。

在某些其他示例性实施方案中,掩蔽构建体可以包含一种或多种量子点附接至其的一种或多种RNA寡核苷酸。在一些实施方案中,CRISPR效应蛋白切割RNA寡核苷酸导致由量子点产生的可检测信号。

在一个示例性实施方案中,掩蔽构建体可以包含量子点。量子点可以具有附接至表面的多个接头分子。接头分子的至少一部分包含RNA。接头分子在一端附接至量子点,并沿着接头的长度或在接头的末端附接至一种或多种猝灭剂,使得猝灭剂保持足够接近以发生量子点的猝灭。接头可以是分支的。如上所述,量子点/猝灭剂对并不重要,只要量子点/猝灭剂对的选择能确保荧光团的掩蔽即可。量子点及其关联猝灭剂在本领域中是已知的,并且可以由本领域普通技术人员为此目的进行选择。在本文所公开的效应蛋白激活后,接头分子的RNA部分被切割,从而消除了维持猝灭效应所需的量子点与一种或多种猝灭剂之间的接近度。在某些示例性实施方案中,量子点是链霉亲和素缀合的。RNA经由生物素接头附接并用序列/5Biosg/UCUCGUACGUUC/3IAbRQSp/(SEQ ID NO:9)或/5Biosg/UCUCGUACGUUCUCUCGUACGUUC/3IAbRQSp/(SEQ ID NO:10)募集猝灭剂分子,其中/5Biosg/是生物素标签并且/31AbRQSp/是Iowa黑猝灭剂。在被本文所公开的激活的效应子切割后,量子点将可见地发荧光。

以类似的方式,荧光能量转移(FRET)可以用于生成可检测阳性信号。FRET是非辐射过程,通过该过程,来自能量激发的荧光团(即“供体荧光团”)的光子将另一分子(即“受体”)中的电子的能态提升到激发单重态的更高振动水平。供体荧光团返回基态而不发出该荧光团的荧光特征。受体可以是另一荧光团或非荧光分子。如果受体是荧光团,则转移的能量作为该荧光团的荧光特征发射。如果受体是非荧光分子,则吸收的能量作为热量而损失。因此,在如本文所公开的实施方案的情形中,荧光团/猝灭剂对被附接至寡核苷酸分子的供体荧光团/受体对替换。当完整时,如通过从受体发射的荧光或热检测到的,掩蔽构建体生成第一信号(阴性可检测信号)。在本文所公开的效应蛋白激活后,RNA寡核苷酸被切割并且FRET被破坏,使得现在检测到供体荧光团的荧光(阳性可检测信号)。

在某些示例性实施方案中,掩蔽构建体包括使用插入染料,所述插入染料响应于长RNA切割为短核苷酸而改变它们的吸光度。存在若干这样的染料。举例来说,焦宁-Y将与RNA复合并形成在572nm处具有吸光度的复合物。RNA的切割导致吸光度损失和颜色变化。亚甲蓝可以以类似的方式使用,RNA切割后亚甲蓝在688nm处的吸光度变化。因此,在某些示例性实施方案中,掩蔽构建体包含RNA和插入染料复合物,所述复合物在本文所公开的效应蛋白切割RNA后改变吸光度。

在某些示例性实施方案中,掩蔽构建体可以包含用于HCR反应的引发剂。参见例如Dirks和Pierce.PNAS 101,15275-15728(2004)。HCR反应利用两种发夹物质中的势能。当具有与发夹之一上的相应区域互补的部分的单链引发剂被释放到先前稳定的混合物中时,它打开一种物质的发夹。该过程进而暴露出打开其他物质的发夹的单链区域。该过程进而暴露出与原始引发剂相同的单链区域。所产生的链反应可以导致形成切刻的双螺旋,所述切刻的双螺旋生长直至发夹供应耗尽。所得产物的检测可以在凝胶上或用比色法进行。示例性比色检测方法包括例如在Lu等人“Ultra-sensitive colorimetric assay systembased on the hybridization chain reaction-triggered enzyme cascadeamplification ACS Appl Mater Interfaces,2017,9(1):167-175;Wang等人“An enzyme-free colorimetric assay using hybridization chain reaction amplification andsplit aptamers”Analyst 2015,150,7657-7662;以及Song等人“Non covalentfluorescent labeling of hairpin DNA probe coupled with hybridization chainreaction for sensitive DNA detection.”Applied Spectroscopy,70(4):686-694(2016)中公开的那些。

在某些示例性实施方案中,掩蔽构建体可以包含HCR引发剂序列和阻止引发剂引发HCR反应的可切割结构元件,诸如环或发夹。在激活的CRISPR效应蛋白切割切割结构元件后,接着释放引发剂以触发HCR反应,检测到HCR反应表明样品中存在一种或多种靶标。在某些示例性实施方案中,掩蔽构建体包含具有RNA环的发夹。当激活的CRISRP效应蛋白切割RNA环时,可以释放引发剂以触发HCR反应。

光学条形码、条形码和独特分子标识符(UMI)

如本文所公开的系统可包括用于一种或多种靶分子的光学条形码和与检测CRISPR系统缔合的光学条形码。例如,一种或多种靶分子的条形码和包含靶分子的目标样品可以与含有光学条形码的含CRISPR检测系统的液滴合并。

如本文所用,术语“条形码”是指用作相关分子(诸如靶分子和/或靶核酸)的标识符、或用作相关分子来源(诸如起源细胞)的标识符的短核苷酸序列(例如DNA或RNA)。条形码还可以指代可用于识别核酸片段的来源的任何独特的、非天然存在的核酸序列。尽管没有必要了解发明机制,但据信条形码序列提供了与单一细胞、病毒载体、标记配体(例如适体)、蛋白质、shRNA、sgRNA或cDNA缔合的条形码的高质量个别读取,使得可以一起测序多个物种。

条形码化可基于专利公布WO 2014047561 A1(Compositions and methods forlabeling of agents)中公开的任何组合物或方法进行,所述专利公布整体并入本文。在某些实施方案中,条形码化使用纠错方案(T.K.Moon,Error Correction Coding:Mathematical Methods and Algorithms(Wiley,New York,第1版,2005)).不受理论的束缚,来自单个细胞的扩增序列可一起测序并基于与每个细胞缔合的条形码进行解析。

可以将光学编码粒子随机递送至离散体积,从而在每个孔中产生光学编码粒子的随机组合,或者可以将光学编码粒子的独特组合特定地指派给每个离散体积。然后可以使用光学编码粒子的可观察组合来识别每个离散体积。可以对每个离散体积进行光学评估(诸如表型)并记录。在一些情况下,条形码可以是可通过光学或荧光显微镜法观察的光学可检测条形码。在某些示例性实施方案中,光学条形码包含具有来自一组限定颜色的可区分颜色的荧光团或量子点的子组。在一些情况下,可以将光学编码粒子随机递送至离散体积,从而在每个孔中产生光学编码粒子的随机组合,或者可以将光学编码粒子的独特组合特定地指派给每个离散体积。

在一个示例性实施方案中,不同水平的3种荧光染料(例如Alexa Fluor 555、594、647)可以产生105个条形码。可以添加第四种染料,并且可以扩展到数百个独特条形码;类似地,五种颜色可以增加独特条形码的数目,这可以通过改变颜色的比率来实现。通过用不同比率的染料进行标记,可选择染料比率,使得在归一化后染料在对数坐标中均匀分布。

在一个实施方案中,在每个液滴或离散体积中接收的荧光团的指派或随机子组决定了每个离散体积中光学编码离散粒子的可观察图谱,从而允许独立地识别每个离散体积。使用适当的成像技术对每个离散体积进行成像,以检测光学编码粒子。举例来说,如果光学编码粒子以荧光方式标记,则使用荧光显微镜对每个离散体积进行成像。在另一个实例中,如果光学编码粒子以比色方式标记,则使用具有一个或多个滤光器的显微镜对每个离散体积进行成像,所述一个或多个滤光器与每个颜色标签固有的波长或吸收光谱或发射光谱相匹配。设想了与所使用的光学系统相匹配的其他检测方法,例如本领域已知的用于检测量子点、染料等的检测方法。可以记录所观察到的每个离散体积的光学编码离散粒子的图谱以供以后使用。

光学条形码可以任选地包括独特寡核苷酸序列,其产生方法可如例如国际专利申请公布号WO/2014/047561的[050]-[0115]中所述。在一个示例性实施方案中,将引物粒子标识符并入靶分子中。本领域中已知的下一代测序(NGS)技术可用于测序,依据一个或多个靶序列的序列相似性进行聚类。依据序列变异性的比对将允许基于并入比对序列信息中的粒子标识符来识别递送至离散体积的光学编码粒子。在一个实施方案中,并入比对序列信息中的每个引物的粒子标识符指示在产生扩增子的相应离散体积中可观察到的光学编码粒子的图谱。这样就可以将核酸序列变异性原始离散体积关联起来,并进一步与由该离散体积中含有核酸的样本构成的光学评估(诸如表型)相匹配。

在优选的实施方案中,使用独特分子标识符(UMI)进行测序。如本文所用,术语“独特分子标识符”(UMI)是指在使用分子标签检测和定量独特扩增产物的方法中使用的测序接头或核酸条形码亚型。UMI用于区分单个克隆和多个克隆的效果。如本文所用,术语“克隆”可指待测序的单个mRNA或靶核酸。UMI还可用于确定产生扩增产物的转录物的数量,或在如本文所述的目标条形码的情况下,确定结合事件的数量。在优选的实施方案中,扩增是通过PCR或多重置换扩增(MDA)进行的。

在某些实施方案中,将具有4至20个碱基对的随机序列的UMI添加至模板,对该模板进行扩增并测序。在优选的实施方案中,将UMI添加至模板的5’端。测序允许高分辨率读取,从而能够准确检测真变体。如本文所用,“真变体”将存在于源自原始克隆的每个扩增产物中,如通过比对具有UMI的所有产物所识别的。扩增的每个克隆将具有不同的随机UMI,其将指示该扩增产物源自该克隆。可消除由扩增过程的保真性引起的背景,因为真变体将存在于所有扩增产物中,而代表随机误差的背景仅存在于单个扩增产物中(参见例如,IslamS.等人,2014.Nature Methods第11期,163-166)。不受理论的束缚,UMI的设计使得即使在扩增或测序过程中出现多达4-7个错误,也可指派给原始物。不受理论的束缚,UMI可用于辨别真条形码序列。

可以使用独特分子识别符(例如),以便针对可变扩增效率队样品进行归一化。举例来说,在以核酸条形码(例如共享相同序列的多个条形码)所附接的固体或半固体支持物(例如水凝胶珠粒)为特征的各个实施方案中,可将每个条形码进一步偶联至独特分子标识符,使得特定固体或半固体支持物上的每个条形码接收不同的独特分子标识符。然后可例如将独特分子标识符转移至具有所缔合的条形码的靶分子,使得靶分子不仅接收核酸条形码,而且还接收在源自该固体或半固体支持物的标识符之中独特的标识符。

核酸条形码或UMI可以具有至少例如4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、60、70、80、90或100个核苷酸的长度,并且可以呈单链或双链形式。靶分子和/或靶核酸可以用多个核酸条形码以组合方式,诸如核酸条形码多联体作标记。通常,核酸条形码用于将靶分子和/或靶核酸识别为来自特定离散体积,具有特定物理特性(例如亲和力、长度、序列等),或已经经受某些处理条件。靶分子和/或靶核酸可以与多个核酸条形码相缔合以提供关于所有这些特征(和更多特征)的信息。另一方面,给定UMI群体的每个成员通常与一组特定的相同的特异性(例如,离散体积特异性、物理特性特异性或处理条件特异性)核酸条形码的个别成员相缔合(例如,与其共价结合或与其相同分子的组分缔合)。因此,例如,具有相同或匹配的条形码序列的一组起源特异性核酸条形码或其他核酸标识符或连接器寡核苷酸的每个成员可与独特或不同UMI缔合(例如,与其共价结合或与其相同分子的组分缔合)。

如本文所公开,使用独特核酸标识符来标记靶分子和/或靶核酸,例如起源特异性条形码等。核酸标识符、核酸条形码可包括核苷酸短序列,所述核苷酸短序列可用作缔合分子、位置或条件的标识符。在某些实施方案中,核酸标识符还包括一个或多个独特分子标识符和/或条形码接收衔接子。核酸标识符可以具有例如4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、60、70、80、90或100个碱基对(bp)或核苷酸(nt)的长度。在某些实施方案中,可通过组合随机选择的索引(例如约1、2、3、4、5、6、7、8、9或10个索引)以组合方式构建核酸标识符。每个这样的索引是具有不同序列的核苷酸(例如,DNA、RNA或它们的组合)的短序列。索引可以具有约例如4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24或25bp或nt的长度。可以例如通过分开-汇集合成法(诸如例如国际专利公布号WO 2014/047556和WO 2014/143158中所描述的那些,所述专利公布各自以引用方式整体并入本文)产生核酸标识符。

可以将一个或多个核酸标识符(例如核酸条形码)附接或“作为标签连接”于靶分子。这种附接可以是直接的(例如,核酸标识符与靶分子共价或非共价结合)或间接的(例如,经由额外的分子)。此类间接附接可例如包括与识别靶分子的特异性结合剂结合的条形码。在某些实施方案中,将条形码附接至蛋白G并且靶分子是抗体或抗体片段。可使用本领域中众所周知的标准方法将条形码附接至靶分子(例如蛋白质和其他生物分子)。举例来说,条形码可经由半胱氨酸残基(例如,C端半胱氨酸残基)连接。又如,可使用适当的组特异性试剂经由多肽上的各种官能团以化学方式将条形码引入多肽(例如,抗体)中(参见例如www.drmr.com/abcon)。在某些实施方案中,如本文所述,可经由与靶分子缔合(例如,附接)的条形码接收衔接子来进行条形码标签化。

可任选地用多个条形码(例如,使用与一种或多种特异性地识别靶分子的特异性结合剂结合的多个条形码)以组合方式标记靶分子,由此极大地增加特定条形码汇集物内可能的独特标识符的数目。在某些实施方案中,将条形码添加至附接至靶分子的增长条形码多联体中,例如,一次添加一个。在其他实施方案中,在附接至靶分子之前将多个条形码组装。例如在国际专利公布号WO 2014/047561中描述了用于将多个条形码多联体化的组合物和方法,所述国际专利公布以引用方式整体并入本文。

在一些实施方案中,可将核酸标识符(例如核酸条形码)附接至允许扩增和测序的序列(例如,用于Illumina测序的SBS3和P5元件)。在某些实施方案中,核酸条形码可还包括附接至条形码末端的引物(例如单链DNA引物)的杂交位点。例如,起源特异性条形码可以是包括条形码和用于特定引物的杂交位点的核酸。在特定实施方案中,一组起源特异性条形码包括例如使用随机化寡核苷酸类型NNNNNNNNNNNN(SEQ ID NO:11)制备的独特引物特异性条形码。

核酸标识符还可包括独特分子标识符和/或例如对一个或多个核酸标识符所附接的共同支持物具有特异性的额外条形码。因此,可将靶分子汇集物例如添加至含有代表不同处理条件的多个固体或半固体支持物(例如珠粒)的离散体积(和/或例如可在引入靶分子汇集物之后将一个或多个额外的固体或半固体支持物依序添加至离散体积中),使得可随后通过对给定靶分子所缔合的独特分子标识符进行测序来确定给定靶分子所暴露的条件的精确组合。

可通过本领域中已知的方法(诸如聚合酶链反应,PCR)来扩增与起源特异性核酸条形码(任选地与如本文所述的其他核酸条形码组合)缔合的带标记的靶分子和/或靶核酸。举例来说,核酸条形码可含有通用引物识别序列,所述通用引物识别序列可由PCR引物结合用于PCR扩增和后续高通量测序。在某些实施方案中,核酸条形码包括或连接至测序衔接子(例如通用引物识别序列),使得条形码和测序衔接子元件均偶联至靶分子。在特定实例中,例如使用PCR来扩增起源特异性条形码的序列。在一些实施方案中,起源特异性条形码还包含测序衔接子。在一些实施方案中,起源特异性条形码还包含通用引发位点。可任选地通过本领域中已知的任何方法(例如高通量测序方法,也称为下一代测序或深度测序)对核酸条形码(或其多联体)、靶核酸分子(例如DNA或RNA分子)、编码靶肽或多肽的核酸和/或编码特异性结合剂的核酸进行测序。可对用条形码(例如起源特异性条形码)标记的核酸靶分子利用所述条形码进行测序,以产生靶分子和条形码两者的单个读段和/或含有所述序列的重叠群,或其部分。示例性下一代测序技术包括例如Illumina测序、离子激流测序(IonTorrent sequencing)、454测序、SOLiD测序和纳米孔测序等。在一些实施方案中,通过不基于测序的方法来测定所标记靶分子的序列。举例来说,可使用可变长度的探针或引物依据例如条形码的长度、靶核酸的长度或编码靶多肽的核酸的长度来辨别标记不同靶分子的条形码(例如起源特异性条形码)。在其他情况下,条形码可包括识别例如特定靶分子的分子类型(例如多肽、核酸、小分子或脂质)的序列。举例来说,在含有多个类型的靶分子的所标记靶分子的汇集物中,多肽靶分子可接收一个识别序列,而靶核酸分子可接收不同的识别序列。可使用此类识别序列来选择性扩增标记特定类型的靶分子的条形码,例如通过使用对特异于特定类型的靶分子的识别序列具特异性的PCR引物来实现。举例来说,可从汇集物选择性扩增标记多肽靶分子的条形码,由此仅检索来自靶分子汇集物的多肽子组的条形码。

可例如在切割之后对核酸条形码进行测序,以确定靶分子的存在、量或其他特征。在某些实施方案中,可将核酸条形码进一步附接至另一核酸条形码。举例来说,可在特异性结合剂结合至靶分子或标签之后使核酸条形码从特异性结合剂裂解(例如,从靶分子裂解的编码多肽标识符元件),并且然后可将核酸条形码连接至起源特异性条形码。可将所得核酸条形码多联体与其他此类多联体汇集在一起并且测序。可使用测序读段来识别哪些靶分子最初存在于哪些离散体积中。

条形码可逆偶联至固体基底

在一些实施方案中,将起源特异性条形码可逆偶联至固体或半固体基底。在一些实施方案中,起源特异性条形码还包含特异性结合至靶核酸的核酸捕获序列和/或特异性结合至靶分子的特异性结合剂。在具体实施方案中,起源特异性条形码包括两个或更多个起源特异性条形码群体,其中第一群体包含核酸捕获序列,而第二群体包含特异性结合至靶分子的特异性结合剂。在一些实例中,第一起源特异性条形码群体还包含靶核酸条形码,其中所述靶核酸条形码将所述群体识别为标记核酸的群体。在一些实例中,第二起源特异性条形码群体还包含靶分子条形码,其中所述靶分子条形码将所述群体识别为标记靶分子的群体。

具有切割位点的条形码

核酸条形码可为例如在特异性结合剂已结合于靶分子之后可从特异性结合剂裂解的。在一些实施方案中,起源特异性条形码还包含一个或多个切割位点。在一些实例中,对至少一个切割位点进行定向,使得在该位点处的切割使起源特异性条形码从与其偶联的基底(诸如珠粒,例如水凝胶珠粒)释放。在一些实施方案中,对至少一个切割位点进行定向,使得在该位点处的切割使起源特异性条形码从靶分子特异性结合剂释放。在一些实施方案中,切割位点为酶切割位点,诸如存在于特异性核酸序列中的核酸内切酶位点。在其他实施方案中,切割位点为肽切割位点,使得特定酶可切割氨基酸序列。在其他实施方案中,切割位点为化学切割位点。

条形码衔接子

在一些实施方案中,将靶分子附接至起源特异性条形码接收衔接子,诸如核酸。在一些实施方案中,起源特异性条形码接收衔接子包含突出,并且起源特异性条形码包含能够杂交至所述突出的序列。条形码接收衔接子是被配置成接受或接收核酸条形码(诸如起源特异性核酸条形码)的分子。举例来说,条形码接收衔接子可包括能够例如经由与核酸条形码的一部分或全部互补的序列杂交至给定条形码(例如起源特异性条形码)的单链核酸序列(例如突出)。在某些实施方案中,条形码的此部分为在个别条形码之间保持恒定的标准序列。杂交将条形码接收衔接子偶联至条形码。在一些实施方案中,可使条形码接收衔接子与靶分子缔合(例如,附接)。因而,条形码接收衔接子可充当使起源特异性条形码附接至靶分子的构件。可根据本领域中已知的方法将条形码接收衔接子附接至靶分子。举例来说,可在半胱氨酸残基(例如C端半胱氨酸残基)处将条形码接收衔接子附接至多肽靶分子。可使用条形码接收衔接子来识别与一个或多个靶分子有关的特定条件,诸如起源细胞或起源离散体积。举例来说,靶分子可为由细胞表达的细胞表面蛋白,其接收细胞特异性条形码接收衔接子。在使细胞暴露于一种或多种条件时,可使条形码接收衔接子缀合至一个或多个条形码,使得可随后通过识别条形码接收衔接子/条形码多联体的序列来确定靶分子的原始起源细胞以及细胞所暴露于的各条件。

具有捕获部分的条形码

在一些实施方案中,起源特异性条形码还包括共价或非共价连接的捕获部分。因此,在一些实施方案中,用特异性结合捕获部分的特异性结合剂来捕获起源特异性条形码和结合或附接至其的包括捕获部分的任何东西。在一些实施方案中,将捕获部分吸附或以其他方式捕获于表面上。在具体实施方案中,例如通过在体外转录期间并入生物素-16-UTP对靶向探针用生物素进行标记,从而允许随后由链霉亲和素捕获。用于标记、捕获以及检测起源特异性条形码的其他手段包括:并入氨基烯丙基标记的核苷酸、并入巯基标记的核苷酸、并入含有稀丙基或叠氮基的核苷酸以及在Bioconjugate Techniques(第2版),GregT.Hermanson,Elsevier(2008)中所描述的许多其他方法,所述文献特定地以引用方式并入本文。在一些实施方案中,使用诸如并入氨基烯丙基标记的核苷酸随后将1-乙基-3-(3-二甲氨基丙基)碳二亚胺(EDC)偶联至羧基激活型固体支持物等的方法或在BioconjugateTechniques中所描述的其他方法将靶向探针在接触样品之前共价偶联至固体支持物或其他捕获装置。在一些实施方案中,已将特异性结合剂例如固定于固体支持物上,由此分离起源特异性条形码。

其他条形码化实施方案

DNA条形码化也是一种分类方法,它使用生物体DNA中的短遗传标记物来确定它属于特定物种。它与分子系统发育的不同之处在于,其主要目标不是确定分类,而是根据已知分类来识别未知样品。Kress等人,“Use of DNA barcodes to identify floweringplants”Proc.Natl.Acad.Sci.U.S.A.102(23):8369-8374(2005)。有时使用条形码来识别未知物种或者评估是否应该合并或分离物种。Koch H.,“Combining morphology and DNAbarcoding resolves the taxonomy of Western Malagasy Liotrigona Moure,1961”African Invertebrates 51(2):413-421(2010);和Seberg等人,“How many loci does ittake to DNA barcode a crocus?”PLoS One 4(2):e4598(2009)。已例如使用条形码来识别植物叶子,即使没有花或果实,根据胃内容物或粪便识别动物的饮食,和/或识别商业产品(例如草药补充剂或木材)。Soininen等人,“Analysing diet of small herbivores:theefficiency of DNA barcoding coupled with high-throughput pyrosequencing fordeciphering the composition of complex plant mixtures”Frontiers in Zoology 6:16(2009)。

有人建议,应标准化DNA条形码化的理想基因座,以便可开发该基因座的大型序列数据库。大多数目标分类群具有无需物种特异性PCR引物即可测序的基因座。CBOL PlantWorking Group,“A DNA barcode for land plants”PNAS 106(31):12794-12797(2009)。此外,拒信这些假定的条形码基因座足够短,可以很容易地用当前技术进行测序。Kress等人,“DNA barcodes:Genes,genomics,and bioinformatics”PNAS 105(8):2761-2762(2008)。因此,这些基因座将提供物种之间的大量变异以及物种内相对少量的变异。Lahaye等人,“DNA barcoding the floras of biodiversity hotspots”Proc Natl Acad SciUSA 105(8):2923-2928(2008)。

DNA条形码化是基于一个相对简单的概念。举例来说,大多数真核细胞含有线粒体,线粒体DNA(mtDNA)突变率相对较快,导致种间mtDNA序列存在显著变异,而物种内变异原则上相对较小。提议将线粒体细胞色素c氧化酶亚基1(CO1)基因的648bp区域作为潜在的“条形码”。截至2009年,CO1序列数据库包括来自超过58,000种动物的至少620,000个样本,比任何其他基因可用的数据库都要大。Ausubel,J.,“A botanical macroscope”Proceedings of the National Academy of Sciences 106(31):12569(2009)。

用于DNA条形码化的软件需要集成现场信息管理系统(FIMS)、实验室信息管理系统(LIMS)、序列分析工具、连接现场数据和实验室数据的工作流跟踪、数据库提交工具和管道自动化以便扩展到生态系统规模项目。Geneious Pro可用于序列分析组件,以及通过Moorea Biocode Project、Biocode LIMS和Genbank Submission插件处理与FIMS、LIMS、工作流跟踪和数据库提交的集成免费提供的两个插件。

此外,已描述了其他条形码化设计和工具(参见例如Birrell等人,(2001)Proc.Natl Acad.Sci.USA 98,12608-12613;Giaever等人,(2002)Nature 418,387-391;Winzeler等人,(1999)Science 285,901-906;和Xu等人,(2009)Proc Natl Acad SciUSA.Feb 17;106(7):2289-94)。

如本文所述,靶分子可包括任何靶核酸序列,在多个实施方案中,一种或多种指导RNA被设计成结合至一种或多种对疾病状态具诊断性的靶分子。在另外的实施方案中,疾病状态是感染、器官疾病、血液疾病、免疫系统疾病、癌症、脑和神经系统疾病、内分泌疾病、妊娠或分娩相关疾病、遗传性疾病或环境获得性疾病。在另外的实施方案中,疾病状态是感染,包括微生物感染。

在另外的实施方案中,感染由病毒、细菌或真菌引起,或者感染是病毒感染。在具体实施方案中,病毒感染由双链RNA病毒、正义RNA病毒、反义RNA病毒、逆转录病毒或它们的组合引起。在某些实施方案中,所述应用可实现多重株系辨别。在一些实施方案中,可检测病原体亚型分型,在一个实施方案中,可进行流感亚型分型、葡萄球菌或链球菌亚型分型以及细菌重叠感染亚型检测。在一个优选的实施方案中,可对甲型流感病毒的所有H和N亚型进行多重检测和鉴定。在一方面,使用汇集(或排列)的crRNA来捕获亚型内的变异。在某些情况下,感染是HIV。在一个实施方案中,HIV逆转录酶中的耐药突变可经由SNP检测进行。在一些实施方案中,突变可以是K65R、K103N、V106M、Y181C、M184V、G190A。

类似地,可在其他感染中,诸如在结核病中进行SNP检测。在一些实施方案中,突变可为katG,315ACC:异烟肼抗性;rpoB,531TTG:利福平抗性;gyrA,94GGC:氟喹诺酮抗性;rrs,1401G:氨基糖苷类抗性。此外,可检测到HIV/TB共感染。可实现大规模多重化来检测泛病毒、病毒带泛病毒、泛细菌或泛病原体检测。

如本文所述,用于本发明的含有靶分子的样品可以是生物或环境样品,诸如食物样品(新鲜水果或蔬菜、肉)、饮料样品、纸表面、织物表面、金属表面、木材表面、塑料表面、土壤样品、淡水样品、废水样品、盐水样品、暴露于大气或其他气体样品,或它们的组合。举例来说,可以拭抹由包括但不限于金属、木材、塑料、橡胶等的任何材料制成的家用/商业/工业表面并测试污染物。可以针对病原性细菌或寄生虫或者其他微生物的存在测试土壤样品,用于环境目的和/或用于人类、动物或植物疾病测试。可以评估诸如淡水样品、废水样品或盐水样品的水样品的清洁度和安全性和/或可饮用性,以检测例如微小隐孢子虫(Cryptosporidium parvum)、兰伯氏贾第虫(Giardia lamblia)或其他微生物污染的存在。在另外的实施方案中,生物样品可以获自以下来源:包括但不限于组织样品、唾液、血液、血浆、血清、粪便、尿液、痰液、粘液、淋巴、滑液、脑脊髓液、腹水、胸腔积液、血清肿、脓液,或皮肤或粘膜表面的拭子。在一些具体实施方案中,环境样品或生物样品可以是粗样品和/或在应用方法之前一种或多种靶分子可能未从样品纯化或扩增。微生物的鉴定可用于许多应用和/或为许多应用所需,并且因此可以根据本发明使用本领域技术人员认为适当的来自任何来源的任何类型的样品。

在进一步评估之前,可以进一步处理生物样品,包括例如通过富集或分离目标细胞。在一方面,已将生物样品中的细胞在进一步处理和/或文库制备之前首先富集或分选。在多个实施方案中,通过荧光激活细胞分选(FACS)或磁激活细胞分选(MACS)分选细胞。在示例性实施方案中,首先例如使用抗体包被的(顺)磁珠对细胞进行分选以分选抗原特异性T细胞。可使用基于管和基于柱的MACS方法来分离稀有细胞群,或进一步丰富目标细胞(亚)群。多轮MACS可进一步富集细胞,用相同的表位标签或不同的表位标签进行连续轮次富集。参见例如Lee等人,J.Biomol.Tech.2012Jull 23(2):69-77。可在必要时去除磁珠洗脱细胞,并进一步处理,包括进一步富集。在一个实施方案中,可通过裂解红细胞并耗尽单核细胞,例如经由PERCOLLTM梯度离心来从外周血淋巴细胞中分离T细胞。可通过阳性或阴性选择技术进一步分离特定的T细胞亚群,诸如CD28+T细胞。举例来说,在一个优选的实施方案中,通过将T细胞与抗CD3/抗CD28(即,3x28)缀合珠粒,诸如M-450CD3/CD28T或XCYTE DYNABEADSTM一起孵育充足的时间段来分离T细胞从而阳性选择所需T细胞。在一个实施方案中,所述时间段为约30分钟。在另一个实施方案中,所述时间段的范围为30分钟至36小时或更长时间,以及它们之间的所有整数值。在另一个实施方案中,所述时间段为至少1、2、3、4、5或6小时。在另一个优选的实施方案中,所述时间段为10至24小时。在一个优选的实施方案中,孵育时间段为24小时。一旦分选、富集和/或分离目标细胞,就可例如通过提取核酸、附加条形码、形成和分析液滴进一步处理样品。

在一些实施方案中,生物样品可包括但不必要限于血液、血浆、血清、尿液、粪便、痰液、粘液、淋巴液、滑液、胆汁、腹水、胸腔积液、血清肿、唾液、脑脊髓液、水状液或玻璃体液,或任何身体分泌物、渗出物、渗出液(例如获自脓肿或任何其他感染或发炎部位的流体),或获自关节(例如正常关节或受诸如类风湿性关节炎、骨关节炎、痛风或化脓性关节炎等疾病影响的关节)的流体,或皮肤或粘膜表面的拭子。在具体实施方案中,样品可以是获自人类患者的血液、血浆或血清。

在一些实施方案中,样品可以是植物样品。在一些实施方案中,样品可以是粗样品。在一些实施方案中,样品可以是纯化的样品。

包括微孔阵列的微流体装置

微流体装置包括微孔阵列与在微孔下方的至少一个流动通道。在某些示例性实施方案中,装置是产生和/或合并不同液滴(即个别离散体积)的微流体装置。举例来说,可以形成含有待筛选的样品的第一组液滴,并且形成含有本文所述的系统的元件的第二组液滴。然后合并第一组液滴和第二组液滴,然后在合并的液滴组上执行如本文所述的诊断方法。

本文所公开的微流体装置可以是基于硅酮的芯片并且可以使用多种技术制造,所述技术包括但不限于热压花、弹性体模制、注射成型、LIGA、软光刻、硅制造和相关的薄膜加工技术。用于制造微流体装置的合适材料包括但不限于环烯烃共聚物(COC)、聚碳酸酯、聚(二甲基硅氧烷)(PDMS)和聚(甲基丙烯酸酯)(PMMA)。在一个实施方案中,PDMS中的软光刻可用于制备微流体装置。举例来说,可以使用限定基底内流动通道、阀门和过滤器的位置的光刻制造模具。将基底材料倒入模具中并使其凝固以形成印模。然后将印模密封于固体支持物(诸如但不限于玻璃)上。由于一些聚合物(诸如PDMS)吸收一些蛋白质并且可以抑制某些生物过程的疏水性质,钝化剂可以是必要的(Schoffner等人Nucleic Acids Research,1996,24:375-379)。适合的钝化剂在本领域中是已知的并且包括但不限于硅烷、聚对二甲苯、正十二烷基-b-D-麦芽糖苷(DDM)、普朗尼克(pluronic)、Tween-20、其他类似表面活性剂、聚乙二醇(PEG)、白蛋白、胶原蛋白,以及其他类似蛋白质和肽。

可在本发明的情形中使用的微流体装置的实例描述于Kulesa等人PNAS,115,6685-6690,所述文献以引用方式并入本文。

在某些示例性实施方案中,所述装置可以包括个别孔,诸如微板孔。微板孔的尺寸可以是标准6、24、96、384、1536、3456或9600号孔的尺寸。在某些实施方案中,微孔的数目可超过40,0000或超过190,000。在某些示例性实施方案中,可以将本文所述的系统的成分冷冻干燥并且在分配和使用之前施加至孔的表面。

可以如代理人案卷号52199-505P03US或美国专利申请号15/559,381中所公开的那样设计微孔芯片,所述文献以引用方式并入本文。在一个实施方案中,可以将微孔芯片设计成尺寸为约6.2x7.2cm的格式,包含49200个微孔;或者设计成尺寸为7.4x10cm的更大的格式,包含97,194个微孔。可以将微孔阵列成形为例如直径为约50-300μm的两个圆,在特定实施方案中,直径为150μm,设置为10%重叠。微孔阵列可以50μm的孔间距以六方点格排列。在一些情况下,可以其他形状、间距和尺寸排列微孔,以容纳不同数量的液滴。在一些实施方案中,以有利方式设定微孔芯片的尺寸以与标准实验室设备(包括成像设备,诸如显微镜)一起使用。

在示例性方法中,可以将化合物与独特比率的荧光染料(例如Alexa Fluor 555、594、647)混合。可以将靶分子与染料混合物的各混合物乳化成液滴。类似地,可以将具有光学条形码的各检测CRISPR系统乳化成液滴。在一些实施方案中,液滴各自为约1nL。然后可以将CRISPR检测系统液滴和靶分子液滴组合并施加至微孔芯片。可以通过简单混合或其他组合方法来组合液滴。在一个示例性实施方案中,将微孔芯片附加至诸如具有可移除间隔件的疏水性载玻片的平台上,可以通过夹具或其他固定构件(其可为例如钕磁体)从上方和下方夹持所述间隔件。可以将芯片和载玻片之间由间隔件形成的间隙加载油,并将液滴汇集物注入芯片中,通过注入更多的油并排出过量的液滴来继续使液滴流动。加载完成后,可以用油清洗芯片,并且可以移除间隔件以将微孔密封在载玻片上并闭合夹具。可以例如使用落射荧光显微镜将芯片成像,通过施加例如由电晕处理器提供的交流电场合并液滴以混合每个微孔中的化合物,随后根据所需方案进行处理。在一个实施方案中,可以在37℃下孵育微孔,同时使用落射荧光显微镜测量荧光。在对液滴进行操纵之后,可以如本文所述将液滴从微孔中洗脱以进行额外的分析、处理和/或操纵。

所公开的装置还可以包括入口和出口端口,或开口,其又可连接至阀、管、通道、腔室和注射器和/或泵用于将流体引入装置和从装置中抽出流体。这些装置可以连接至允许流体在微流体装置内定向移动的流体流动致动器。示例性致动器包括但不限于意图迫使流体移动的注射器泵、机械致动的再循环泵、电渗泵、球管、波纹管、隔膜或鼓泡器。在某些示例性实施方案中,装置连接至具有一起工作以使流体移动通过装置的可编程阀的控制器。在某些示例性实施方案中,装置连接至控制器,所述控制器在下文进一步详细讨论。这些装置可通过终止于金属销中以插入装置上的入口端口的管道连接至流动致动器、控制器和样品加载装置。

本发明可以与无线芯片实验室(LOC)诊断传感器系统一起使用(参见例如美国专利号9,470,699“Diagnostic radio frequency identification sensors andapplications thereof”)。在某些实施方案中,本发明在由无线装置(例如手机、个人数字助理(PDA)、平板电脑)控制的LOC中执行,并且将结果报告给所述装置。

射频识别(RFID)标签系统包括RFID标签,所述RFID标签发送数据以供RFID读取器(也称为询问机)接收。在典型RFID系统中,个别物体(例如储存商品)配备有含有转发器的相对小的标签。转发器具有给定独特的电子产品代码的存储芯片。RFID读取器发射信号,从而经由使用通信协议激活标签内的转发器。因此,RFID读取器能够读取数据并将数据写入标签。另外,RFID标签读取器根据RFID标签系统应用来处理数据。目前,存在无源和有源型RFID标签。无源型RFID标签不包含内部电源,而是由从RFID读取器接收的射频信号供电。或者,有源型RFID标签包含内部电源,这使有源型RFID标签具有更大的传输范围和存储容量。无源标签与有源标签的使用取决于特定应用。

芯片实验室技术在科学文献中有很充分的描述,由多个微流体通道、输入或化学孔组成。可以使用射频识别(RFID)标签技术来测量孔中的反应,因为来自RFID电子芯片的导电引线可以直接连接至每个测试孔。天线可以印刷或安装在电子芯片的另一层中或直接印刷或安装在装置的背面。此外,引线、天线和电子芯片可以嵌入LOC芯片中,从而防止电极或电子器件的短路。由于LOC允许复杂的样品分离和分析,因此该技术允许LOC测试独立于复杂或昂贵的读取器而完成。而是可以使用诸如蜂窝电话或PDA的简单无线装置。在一个实施方案中,无线装置还控制微流体通道的分离和控制,以进行更复杂的LOC分析。在一个实施方案中,LOC-RFID芯片中包括LED和其他电子测量或感测装置。不受理论束缚,这种技术是可任意使用的,允许在实验室外进行需要分离和混合的复杂的测试。

在优选的实施方案中,LOC可以是微流体装置。LOC可以是无源芯片,其中芯片经由无线装置供电和控制。在某些实施方案中,LOC包括用于容纳试剂的微流体通道和用于引入样品的通道。在某些实施方案中,来自无线装置的信号将电力传送至LOC并激活样品和测定试剂的混合。具体地,在本发明的情况下,系统可以包括掩蔽剂、CRISPR效应蛋白和对靶分子具有特异性的指导RNA。在LOC激活后,微流体装置可以混合样品与测定试剂。在混合后,传感器检测信号并将结果发送到无线装置。在某些实施方案中,去掩蔽剂是导电RNA分子。导电RNA分子可以附接至导电材料。导电分子可以是导电纳米粒子、导电蛋白、附接至蛋白质或乳胶的金属粒子或其他导电珠粒。在某些实施方案中,如果使用DNA或RNA,则导电分子可以直接附接至匹配的DNA或RNA链。可以跨越传感器检测导电分子的释放。测定可以是一步过程。

由于可以精确地测量表面区域的电导率,因此可以在可任意使用的无线RFID电测定中获得定量结果。此外,测试区域可以极小,从而允许在给定的区域中完成更多测试并且因此节约成本。在某些实施方案中,使用各自与固定至传感器的不同CRISPR效应蛋白和指导RNA相关联的单独传感器来检测多个靶分子。不受理论束缚,可以通过无线装置区分不同传感器的激活。

除本文所述的导电方法之外,可以使用依赖于RFID或蓝牙作为用于可任意使用的RFID测定的基础低成本通信和电力平台的其他方法。举例来说,可以使用光学构件来评估给定靶分子的存在和水平。在某些实施方案中,光学传感器检测荧光掩蔽剂的去掩蔽。

在某些实施方案中,本发明的装置可以包括用于诊断性读取测定的手持便携式装置(参见例如Vashist等人,Commercial Smartphone-Based Devices and SmartApplications for Personalized Healthcare Monitoring and Management,Diagnostics 2014,4(3),104-128;来自移动式测定的mReader;以及Holomic快速诊断测试读取器)。

如本文所指出的,某些实施方案允许通过比色变化的检测,当在POC情境下和或在获得更复杂的检测设备以读出信号可能受限的资源贫乏的环境中使用实施方案时,这些实施方案具有某些附带的益处。然而,本文所公开的便携式实施方案还可以与能够检测可见光范围之外的信号的手持式分光光度计结合。Das等人“Ultra-portable,wirelesssmartphone spectrophotometer for rapid,non-destructive testing of fruitripeness.”Nature Scientific Reports.2016,6:32504,DOI:10.1038/srep32504描述了可以与本发明结合使用的手持式分光光度计装置的实例。最后,在利用基于量子点的掩蔽构建体的某些实施方案中,由于量子点提供的接近完全的量子产率,可以成功地使用手持式UV光或其他合适的装置来检测信号。

个别离散体积

在一些实施方案中,CRISPR系统包含在个别离散体积中,每一个别离散体积包含CRISPR效应蛋白、一种或多种被设计成结合至相应靶分子的指导RNA和基于RNA的掩蔽构建体。在一些情况下,每一个别离散体积是液滴。在特别优选的实施方案中,液滴作为第一组液滴提供,每个液滴含有CRISPR系统。在一些实施方案中,靶分子或样品包含在个别离散体积中,每一个别离散体积包含靶分子。在一些情况下,每一个别离散体积是液滴。在一个特别优选的实施方案中,液滴作为第二组液滴提供,每个液滴含有靶分子。

在一方面,本文所公开的实施方案可以包括针对核酸检测系统的第一组液滴,所述核酸检测系统包括CRISPR系统、一种或多种被设计成结合至相应靶分子的指导RNA、掩蔽构建体,以及任选的用以扩增样品中的靶核酸分子的扩增试剂。在某些示例性实施方案中,所述系统还可包括一种或多种检测适体。一种或多种检测适体可包含RNA聚合酶位点或引物结合位点。一种或多种检测适体特异性地结合一种或多种靶多肽,并且被配置成使得RNA聚合酶位点或引物结合位点仅在检测适体与靶肽结合时暴露。RNA聚合酶位点的暴露有助于使用适体序列作为模板产生触发RNA寡核苷酸。因此,在此类实施方案中,一种或多种指导RNA被配置成结合至触发RNA。

“个别离散体积”是离散体积或离散空间,诸如容器(container)、接收器(receptacle)或可以由防止和/或抑制核酸、CRISPR检测系统和实施本文所公开的方法所必需的试剂迁移的特性限定的其他限定体积或空间,例如由物理特性诸如壁,例如孔、管的壁或液滴的表面(其可以是不可渗透的或半渗透的)限定的体积或空间,或者由诸如化学、扩散速率限制、电磁或光照射或它们的任何组合的其他手段限定的体积或空间。在特别优选的实施方案中,个别离散体积是液滴。所谓“扩散速率限制”(例如扩散限定的体积)意指由于扩散约束有效地限定了空间或体积而仅某些分子或反应可以接近的空间,如同其中扩散将限制靶分子从一个流到另一个流的迁移的两个平行层流的情况。所谓“化学”限定的体积或空间意指由于其化学或分子特性(诸如大小)而仅某些靶分子可以存在的空间,例如凝胶珠粒例如通过珠粒的表面电荷、基质尺寸或可允许选择可以进入珠粒内部的种类的其他物理特性,可以排除某些种类进入而不排除其他种类进入。所谓“电磁”限定的体积或空间意指其中靶分子或其支持物的电磁特性(诸如电荷或磁性)可用于限定空间中的某些区域(诸如在磁场内或直接在磁铁上捕获磁性粒子)的空间。所谓“光学”限定的体积是指可以通过用可见光、紫外线、红外线或其他波长的光照射它来限定的任何空间区域,使得仅可以标记该限定空间或体积内的靶分子。使用非壁或半透性离散体积的一个优点是一些试剂,诸如缓冲液、化学激活剂或其他剂可以通过离散体积,而其他材料诸如靶分子可以保持在离散体积或空间内。如本文所解释的,液滴系统允许分离化合物直至需要启动反应。通常,离散体积将包括在允许标记的条件下适合于用可转位核酸标识符标记靶分子的流体介质(例如,水溶液、油、缓冲液和/或能够支持细胞生长的培养基)。在所公开的方法中有用的示例性离散体积或空间包括液滴(例如,微流体液滴和/或乳液液滴)、水凝胶珠粒或其他聚合物结构(例如聚乙二醇二丙烯酸酯珠粒或琼脂糖珠粒)、组织载玻片(例如,具有由化学、光学或物理手段限定的特定区域、体积或空间的固定福尔马林石蜡包埋的组织载玻片)、具有由以有序阵列或随机图案的沉积试剂限定的区域的显微镜载玻片、管(诸如离心管、微量离心管、试管、比色杯、锥形管等)、瓶子(诸如玻璃瓶、塑料瓶、陶瓷瓶、锥形瓶、闪烁瓶等)、孔(诸如板中的孔)、板、移液管或移液管尖端等。在某些示例性实施方案中,个别离散体积是液滴。

液滴

本文所提供的液滴通常是由油输入通道和水性输入通道形成的油包水微乳液。可通过本领域中已知的多种分散方法形成液滴。在一个特定实施方案中,可通过微乳液制备在油相中均一的大量液滴。示例性方法可包括,例如,R结头几何,其中通过油剪切水相,从而产生液滴;流动聚焦几何,其中通过从两个方向剪切水流来产生液滴;或同流几何,其中喷射水相通过细毛细管,所述细毛细管同轴放置在更大的毛细管内,油通过该毛细管泵送。

所使用的单分散水性液滴通过微流体装置作为油包水乳液产生。在一个实施方案中,液滴被携带在流动油相中并通过表面活性剂稳定。在一方面,单一细胞或单一细胞器或单一分子(蛋白质、RNA、DNA)从水性溶液/分散液包封到均一的液滴中。在相关方面,多种细胞或多种分子可以取代单一细胞或单一分子。

体积范围为1pL至10nL的水性液滴作为单独反应器发挥作用。可在单次运行中处理和分析液滴中的104至105个单一细胞。为利用微液滴进行快速大规模化学筛选或复杂生物学文库的鉴定,不同种类的微液滴(各含有特定化学化合物或生物探针细胞或目标分子条形码)必须在优选的条件(例如混合比率、浓度和组合顺序)下产生和组合。将各液滴种类在汇合点从单独的入口微流体通道引入到主微流体通道中。优选地,如美国公布号US2007/0195127和国际公布号WO 2007/089541(其各自以引用方式整体并入本文),按照设计选择液滴体积以使得一个种类大于其他种类且在载体流体中以不同的速率移动,通常慢于其他种类。选择通道宽度和长度使得较快的液滴种类赶上最慢的种类。通道的尺寸限制防止较快移动的液滴经过较慢移动的液滴,导致液滴串进入合并区。多步骤化学反应、生物化学反应或测定检测化学作用经常在不同类型的物质添加至反应之前需要固定的反应时间。通过用第二、第三或更多个汇合点(各具有单独的合并点)重复该过程多次来实现多步骤反应。高度有效且精确的反应及反应的分析在来自入口通道的液滴的频率与最优比率匹配并且物种的体积相匹配以在组合的液滴中提供最优反应条件时实现。通过改变含有液滴的液体的流动,可以在本发明的流体系统中筛选或分选流体液滴。举例来说,在一组实施方案中,可以通过将包围流体液滴的液体指引到第一通道、第二通道等中来操纵或分选流体液滴。在另一组实施方案中,可以控制流体系统内(例如不同通道内或不同通道部分内)的压力以指引流体液滴的流动。举例来说,可以将液滴指引到包括用于进一步流动方向的多个选项的通道接合点(例如指引到通道中限定任选的下游流动通道的分支或分叉)。可以控制一个或多个任选的下游流动通道内的压力以指引液滴选择性地进入一个通道,并且可以按照相继的液滴到达接合点所需时间的顺序来实现压力的变化,使得可以独立地控制各相继的液滴的下游流动路径。

在一种布置中,可以利用液体贮存器的扩展和/或收缩来操纵或分选流体液滴进入通道中,例如通过使含有流体液滴的流体定向移动。在另一种布置中,例如,如本文所述的,可以将液体贮存器的扩展和/或收缩与其他流动控制装置和方法相结合。能够导致液体贮存器的扩展和/或收缩的装置的非限制性实例包括活塞。使用微流体通道处理液滴的关键要素包括:(1)产生适当体积的液滴,(2)以适当频率产生液滴以及(3)以第一样品液滴流的频率匹配第二样品液滴流的频率的方式使第一样品液滴流与第二样品液滴流集合到一起。优选地,以文库液滴的频率匹配样品液滴的频率的方式使样品液滴流与预制文库液滴流集合到一起。用于以规则的频率产生均一体积的液滴的方法是本领域中众所周知的。一种方法是使用分散相流体和不混溶载体流体的流体动力学聚焦产生液滴,如美国公布号US2005/0172476和国际公布号WO 2004/002627中公开的。希望在汇合处引入的种类之一是预制的微滴文库,其中所述文库包含多种反应条件,例如,文库可以以一定浓度范围包含作为单独文库元件包封的用于筛选其对于细胞或酶的作用的多种不同的化合物,或者文库可以由作为不同文库元件包封的用于基因座集合的靶向扩增的多个不同引物对构成,或者文库可以包含作为不同文库元件包封以进行多个结合测定的多个不同抗体种类。通过将预制的文库液滴集合用驱动流体推出小瓶来实现将反应条件文库引入到基底上。驱动流体是连续流体。驱动流体可以包含与载体流体相同的物质(例如碳氟化合物油)。举例来说,如果由10微微升液滴组成的文库用10,000微微升/秒流率的驱动流体驱动进入微流体基底上的入口通道中,则名义上液滴预期进入汇合点的频率是1000/秒。但是,实际上液滴在其之间用缓慢排出的油封装。载体流体随着时间从文库液滴排出并且液滴的数量密度(数量/mL)提高。因此,驱动流体的简单固定输注速率不提供将液滴引入基底的微流体通道中的均一速率。此外,平均文库液滴体积的文库-文库差异导致在汇合点处液滴引入频率的偏移。因此,由于样品差异和油排出导致的液滴均一性的缺乏提出了待解决的另一问题。举例来说,如果名义液滴体积在文库中预期为10微微升,但在文库之间从9微微升至11微微升变化,则10,000微微升/秒的输注速率名义上将产生900至1,100个液滴/秒的频率范围。简言之,在芯片上形成的液滴的分散相组成的样品-样品差异、文库液滴的数量密度随时间提高的趋势以及平均液滴体积的文库-文库差异严重地限制液滴频率可以通过简单地使用固定输注速率可靠地在汇合处匹配的程度。此外,这些限制也具有对体积可以重现地组合的程度有影响。与泵流率精度的典型变化和通道尺寸的变化相结合,系统受到严重的限制而无基于逐次运行进行补偿的手段。前述事实不仅说明了待解决的问题,而且阐明了对于即时调节对微流体通道内微液滴的微流体控制的方法的需要。

必须开发多种表面活性剂和油的组合以利于液滴的产生、储存和操纵,从而维持多样化文库的各液滴内独特的化学/生物化学/生物学环境。因此,表面活性剂和油的组合应当(1)在液滴形成过程及随后的收集和储存过程中稳定液滴以避免不受控的聚并,(2)最小化任何液滴内容物至油相的转运和/或在液滴之间的转运,并且(3)维持与各液滴的内容物的化学和生物学惰性(例如,包封的内容物在油-水界面处无吸附或反应,和对液滴中生物或化学成分无负面影响)。除对液滴文库功能和稳定性的要求之外,油中表面活性剂的溶液必须与流体物理和材料(其与平台相关)相结合。具体地,油溶液必须不使用于构建微流体芯片的材料溶胀、溶解或降解,并且油的物理特性(例如粘度、沸点等)必须适合于平台的流动和操作条件。在没有表面活性剂的油中所形成的液滴不稳定而允许聚并,因此必须将表面活性剂溶解于用作乳液文库的连续相的油中。表面活性剂分子是两亲性的——分子的一部分是油溶性的并且分子的一部分是水溶性的。当微流体芯片的喷嘴处(例如本文所述的入口模块中)形成水-油界面时,溶解于油相中的表面活性剂分子吸附到界面上。分子的亲水性部分居于液滴的内部,而分子的亲氟部分分(fluorophilic portion)分布于液滴的外部。当界面充满表面活性剂时,液滴的表面张力降低,因此乳液的稳定性提高。除了使液滴稳定以避免聚并之外,表面活性剂应当对于各液滴的内容物是惰性的并且表面活性剂不应当促进包封的组分至油或其他液滴的转运。液滴文库可以由一起汇集在单一集合中的多种文库元件构成(参见例如美国专利公布号2010002241)。

文库的复杂性可以从单一文库元件至1015个或更多个文库元件变化。各文库元件可以是固定浓度的一种或多种给定组分。元件可以是但不限于细胞、细胞器、病毒、细菌、酵母、珠粒、氨基酸、蛋白质、多肽、核酸、多核苷酸或小分子化学化合物。元件可以包含标识符诸如标记。术语“液滴文库”或“多个液滴文库”在本文中也称为“乳液文库”或“多个乳液文库”。这些术语在整个说明书中可互换使用。细胞文库元件可以包括但不限于杂交瘤、B细胞、原代细胞、培养细胞系、癌细胞、干细胞、从组织获得的细胞或任何其他细胞类型。细胞文库元件是通过在单个液滴中包封一个至成千上万的多个细胞来制备的。包封的细胞数通常从细胞的数量密度和液滴的体积通过泊松统计(Poisson statistic)给出。但是,在一些情况下,如Edd等人,“Controlled encapsulation of single-cells into monodispersepicolitre drops.”Lab Chip,8(8):1262-1264,2008中所述的,数字偏离泊松统计。细胞的离散性质允许大量制备具有全部存在于单一起始介质中的多种细胞变体的文库,并且然后该介质分散成包含至多一个细胞的单个液滴囊。然后这些单个液滴囊组合或汇集以形成由独特文库元件组成的文库。继包封之后或者,在一些实施方案中,紧接着包封,细胞分裂产生克隆文库元件。

在某些实施方案中,基于珠粒的文库元件可以包含一个或多个给定类型的珠粒并且还可包含其他试剂,诸如抗体、酶或其他蛋白质。在其中所有文库元件包含不同类型的珠粒但包含相同的周围介质的情况中,文库元件可以全部从单一起始流体制备或具有多种起始流体。在从变体(诸如遗传修饰的)酵母或细菌细胞的集合大量制备的细胞文库的情况中,文库元件从多种起始流体制备。经常希望的是,当用多个经工程化以产生蛋白质的变体的细胞或酵母或细菌开始时,每液滴恰好具有一个细胞而仅有一些液滴包含超过一个细胞。在一些情况下,可以获得与泊松统计的偏离以提供加强的液滴加载,使得更多的液滴恰好具有一个细胞/液滴,而空液滴或包含超过一个细胞的液滴很少。液滴文库的实例是具有不同内容物的液滴的集合,范围为珠粒、细胞、小分子、DNA、引物、抗体。较小的液滴可以是大约毫微微升(fL)体积的液滴,其特别地用液滴分配器设定。体积可在约5至约600fL的范围内。较大液滴的尺寸范围为大约0.5微米至500微米直径,相当于约1微微升至1纳升。然而,液滴可以小至5微米,大至500微米。优选地,液滴的直径为小于100微米、约1微米至约100微米。最优选的尺寸是直径约20至40微米(10至100微微升)。液滴文库检验的优选特性包括渗透压平衡、均一尺寸和尺寸范围。本发明乳液文库内的液滴可以包含在不混溶油内,所述不混溶油可以包含至少一种含氟表面活性剂。在一些实施方案中,不混溶氟碳化合物油内的含氟表面活性剂是由一个或多个全氟化聚醚(PFPE)嵌段和一个或多个聚乙二醇(PEG)嵌段组成的嵌段共聚物。在其他实施方案中,含氟表面活性剂是由通过酰胺连接基团与两个PFPE嵌段共价结合的PEG中心嵌段组成的三嵌段共聚物。含氟表面活性剂的存在(与文库中液滴的均一尺寸类似)对于维持液滴的稳定性和完整性是关键的并且也对于文库内液滴用于本文所述的各种生物学和化学测定的后续使用是必要的。可以在本发明的液滴文库中使用的流体(例如水性流体、不混溶油等)和其他表面活性剂在本文中更详细地描述。

本发明因此可涉及可以在不混溶油(例如氟碳化合物油)中包含多个水性液滴的乳液文库,所述不混溶油可以包含至少一种含氟表面活性剂,其中各液滴尺寸均一并且可以包含相同的水性流体且可以包含不同的文库元件。本发明还提供了用于形成乳液文库的方法,所述方法可以包括提供单一水性流体(其可以包含不同文库元件),将各文库元件包封到不混溶氟碳化合物油(其可以包含至少一种含氟表面活性剂)内的水性液滴中,其中各液滴尺寸均一并且可以包含相同的水性流体且可以包含不同的文库元件,以及汇集不混溶氟碳化合物油(其可以包含至少一种含氟表面活性剂)内的水性液滴,从而形成乳液文库。举例来说,在一种类型的乳液文库中,所有不同类型的元件(例如细胞或珠粒)可以汇集到相同介质中包含的单一来源中。在初始汇集之后,接着将细胞或珠粒包封在液滴中以产生液滴文库,其中具有不同类型的珠粒或细胞的各液滴是不同文库元件。初始溶液的稀释使得包封过程成为可能。在一些实施方案中,形成的液滴将包含单一细胞或珠粒或将不包含任何东西,即,是空的。在其他实施方案中,形成的液滴将包含多个拷贝的文库元件。包封的细胞或珠粒一般是相同类型的细胞或珠粒的变体。在另一个实例中,乳液文库可以包含不混溶氟碳化合物油内的多个水性液滴,其中单一分子可以被包封,使得对于所产生的每20-60个液滴(例如20、25、30、35、40、45、50、55、60个液滴,或其间的任何整数)存在液滴内包含的单一分子。单一分子可以通过稀释包含该分子的溶液至使得能够实现单一分子的包封的这种低浓度而包封。这些文库的形成可能依赖于有限稀释。

本发明还提供了可以在油(在一个实施方案中为氟碳化合物油,其可以包含至少一种表面活性剂,在一个实施方案中为含氟表面活性剂)内包含至少第一水性液滴和至少第二水性液滴的乳液文库,其中所述至少第一液滴和所述至少第二液滴的尺寸均一并且包含不同的水性流体和不同的文库元件。本发明还提供了用于形成乳液文库的方法,所述方法可以包括提供至少第一水性流体(其可以包含至少第一元件文库),提供至少第二水性流体(其可以包含至少第二元件文库),将所述至少第一文库的各元件包封到不混溶氟碳化合物油(其可以包含至少一种含氟表面活性剂)内的至少第一水性液滴中,将所述至少第二文库的各元件包封到不混溶氟碳化合物油(其可以包含至少一种含氟表面活性剂)内的至少第二水性液滴中,其中所述至少第一液滴和所述至少第二液滴的尺寸均一并包含不同的水性流体和不同的文库元件,以及汇集不混溶氟碳化合物油(其可以包含少一种含氟表面活性剂)内的至少第一水性液滴和至少第二水性液滴,从而形成乳液文库。

本领域技术人员将认识到,本发明的方法和系统不限于任何特定的样品类型,并且本发明的方法和系统可以用于任何类型的有机、无机或生物分子(参见例如美国专利公布号20120122714)。

在特定实施方案中,样品可以包括核酸靶分子。核酸分子可以是合成的或来源于天然存在的来源。在一个实施方案中,核酸分子可以从包含多种其他组分诸如蛋白质、脂质和非模板核酸的生物样品分离。核酸靶分子可以从获自动物、植物、细菌、真菌或任何其他细胞生物体的任何细胞物质获得。在某些实施方案中,核酸靶分子可以从单一细胞获得。用于本发明的生物样品可以包括病毒粒子或制剂。核酸靶分子可以直接获自生物体或获自从生物体获得的生物样品,例如获自血液、尿液、脑脊液、精液、唾液、痰液、粪便和组织。任何组织或体液样本都可以用作本发明中使用的核酸的来源。核酸靶分子也可以从培养的细胞诸如原代细胞培养物或细胞系分离。核酸由其获得的细胞或组织可以用病毒或其他细胞内病原体感染。样品也可以是从生物样本提取的总RNA、cDNA文库、病毒或基因组DNA。一般来讲,核酸可以通过多种技术诸如Maniatis等人,Molecular Cloning:A LaboratoryManual,Cold Spring Harbor,N.Y.,第280-281页(1982)描述的那些从生物样品提取。核酸分子可以是单链的、双链的或具有单链区域的双链(例如茎和环结构)。从生物样品获得的核酸通常可以断裂以产生用于分析的合适片段。可以使用多种机械、化学和/或酶促方法将靶核酸断裂或剪切到所需长度。可以经由超声处理(例如Covaris法)、短暂暴露于DNA酶或使用一种或多种限制性酶或者转座酶或切口酶的混合物随机剪切DNA。可以通过短暂暴露于RNA酶、热加镁或通过剪切使RNA断裂。RNA可以转化为cDNA。如果采用断裂,RNA可以在断裂之前或之后转换为cDNA。在一个实施方案中,通过超声处理使来自生物样品的核酸断裂。在另一个实施方案中,通过水力剪切仪使核酸断裂。一般来讲,单个核酸靶分子可为约40个碱基至约40kb。核酸分子可以是单链的、双链的或具有单链区域的双链(例如茎和环结构)。可以在洗涤剂或表面活性剂的存在下均质化或分级分离如本文所述的生物样品。缓冲液中洗涤剂的浓度可为约0.05%至约10.0%。洗涤剂的浓度可以最高达到其中洗涤剂保持溶解于溶液中的量。在一个实施方案中,洗涤剂的浓度为0.1%至约2%。洗涤剂,特别是非变性的温和洗涤剂,可以起到增溶样品的作用。洗涤剂可以是离子的或非离子的。非离子洗涤剂的实例包括triton,诸如TritonTMX系列(TritonTMX-100t-Oct-C6H4--(OCH2--CH2)xOH,x=9-10,TritonTMX-100R,TritonTMX-114x=7-8)、辛基糖苷、聚氧乙烯(9)十二烷基醚、洋地黄皂苷、IGEPALTMCA630辛基苯基聚乙二醇、正辛基-β-D-吡喃葡萄糖苷(betaOG)、正十二烷基-β、TweenTM20聚乙二醇脱水山梨糖醇单月桂酸酯、TweenTM80聚乙二醇脱水山梨糖醇单油酸酯、聚多卡醇、正十二烷基β-D-麦芽糖苷(DDM)、NP-40壬基苯基聚乙二醇、C12E8(八乙二醇正十二烷基单醚)、六乙二醇单正十四烷基醚(C14E06)、辛基-β-硫代吡喃葡萄糖苷(辛基硫代葡萄糖苷,OTG)、Emulgen和聚氧乙烯10月桂基醚(C12E10)。离子洗涤剂(阴离子型或阳离子型)的实例包括脱氧胆酸盐、十二烷基硫酸钠(SDS)、N-月桂酰基肌氨酸和鲸蜡基三甲基溴化铵(CTAB)。两性离子试剂也可以用于本发明的纯化方案中,诸如Chaps、zwitterion 3-14和3-[(3-胆酰胺丙基)二甲基铵基]-1-丙烷磺酸盐。还设想可以在具有或不具有另一洗涤剂或表面活性剂的情况下添加尿素。裂解或均质化溶液可还包含其他剂,诸如还原剂。这些还原剂的实例包括二硫苏糖醇(DTT)、β-巯基乙醇、DTE、GSH、半胱氨酸、半胱胺、三羧基乙膦(TCEP)或亚硫酸的盐。可以进行核酸的尺寸选择以除去非常短的片段或非常长的片段。可以使用本领域中已知的任何合适方法将核酸片段分配到可包含所需数目的片段的级分中。限制各片段的片段大小的合适方法在本领域中是已知的。在本发明的各个实施方案中,片段大小限制于约10与100Kb之间或更长。本发明中或关于本发明的样品可以包括单个靶蛋白质、蛋白质复合物、具有翻译修饰的蛋白质和蛋白质/核酸复合物。蛋白质靶标包括肽,并且还包括酶、激素、结构组分(诸如病毒衣壳蛋白)和抗体。蛋白质靶标可以是合成的或来源于天然存在的来源。本发明的蛋白质靶标可以从包含多种其他组分(包括脂质、非模板核酸和核酸)的生物样品分离。蛋白质靶标可以从动物、细菌、真菌、细胞生物体和单细胞获得。蛋白质靶标可以直接获自生物体或获自从生物体获得的生物样品,包括体液诸如血液、尿液、脑脊液、精液、唾液、痰液、粪便和组织。蛋白质靶标也可以从细胞和组织裂解物和生物化学级分获得。单个蛋白质是分离的多肽链。蛋白质复合物包括两个或更多个多肽链。样品可以包括具有翻译后修饰(包括但不限于磷酸化、甲硫氨酸氧化、脱酰胺、糖基化、泛素化、氨甲酰化、s-羧甲基化、乙酰化和甲基化)的蛋白质。蛋白`质/核酸复合物包括交联或稳定的蛋白质-核酸复合物。使用本领域中已知的方法提取或分离单个蛋白质、蛋白质复合物、具有翻译修饰的蛋白质和蛋白质/核酸复合物。

本发明因此可涉及形成样品液滴。液滴是被不混溶载体流体包围的水性液滴。形成这种液滴的方法例如显示于Link等人(美国专利申请号2008/0014589、2008/0003142和2010/0137163)、Stone等人(美国专利号7,708,949和美国专利申请号2010/0172803)、Anderson等人(美国专利号7,041,481且作为RE41,780重授权)和Raindance TechnologiesInc.的欧洲公布号EP2047910中。所述文献各自的内容以引用方式整体并入本文。本发明涉及用于在高通量微流体系统中操纵液滴的系统和方法。微流体液滴可包封分化的细胞,所述细胞被裂解并且其mRNA杂交到表面上包含条形码化寡聚dT引物的捕获珠粒上,这些全部在液滴内部。条形码经由柔性多原子接头如PEG共价附接至捕获珠粒。在优选的实施方案中,通过添加含氟表面活性剂(如全氟辛醇)使液滴破碎、洗涤并收集。然后进行逆转录(RT)反应以将各细胞的mRNA转化为第一链cDNA,对所述第一链cDNA加独特条形码并共价连接至mRNA捕获珠粒。随后,经由模板转换反应的通用引物使用常规文库制备方案进行修复以制备RNA-Seq文库。由于来自任何给定细胞的所有mRNA都带独特条形码,对单一文库进行测序,然后以计算方式解析以确定哪些mRNA来自哪些细胞。以这种方式,通过单一测序轮次,可以同时获得数以万计(或更多)的可区分转录组。可在珠粒表面上产生寡核苷酸序列。在这些循环过程中,将珠粒从合成柱移除,汇集并按质量等分成四个相等部分;然后将这些珠粒等份置于单独的合成柱中并且与dG、dC、dT或dA亚磷酰胺任一者反应。在其他情况下,使用二核苷酸、三核苷酸或长度较长的寡核苷酸,在其他实例中,将寡聚dT尾用基因特异性寡核苷酸替代以引发特定的靶标(单数或复数),任意长度的随机序列用于捕获所有或特定RNA。将这一过程重复12次,达到总共412=16,777,216个独特条形码序列。在完成这些循环后,在所有珠粒上进行8个循环的简并寡核苷酸合成,接着30个循环的dT添加。在其他实施方案中,将简并合成省略、缩短(少于8个循环)或延长(多于8个循环);换句话说,将30个循环的dT添加用基因特异性引物(单一靶标或多个靶标)或简并序列替代。前述微流体系统被视为本发明的试剂递送系统微流体文库打印机或液滴文库打印系统液滴从含有裂解试剂和条形码的液滴发生器通过含有油的微流体出口通道朝向接合点形成为样品流体流。限定体积的加载试剂乳液(对应于限定数目的液滴)按照需要分配到载体流体的流动流中。样品流体通常可以包含水性缓冲溶液,诸如超纯水(例如18兆欧电阻率,例如通过柱色谱法获得)、10mM Tris HCl和1mM EDTA(TE)缓冲液、磷酸盐缓冲盐水(PBS)或乙酸盐缓冲液。可以使用与核酸分子生理上相容的任何液体或缓冲液。载体流体可以包括与样品流体不混溶的载体流体。载体流体可以是非极性溶剂、癸烷(例如十四烷或十六烷)、氟碳化合物油、硅油、惰性油(诸如烃)或另一种油(例如矿物油)。载体流体可以包含一种或多种添加剂,诸如降低表面张力的剂(表面活性剂)。表面活性剂可以包括Tween、Span、含氟表面活性剂和相对于水可溶于油中的其他试剂。在一些应用中,通过向样品流体添加第二表面活性剂来改善性能。表面活性剂可以帮助控制或优化液滴尺寸、流动和均一性,例如通过降低挤出或注射液滴到交叉通道中所需的剪切力。这会影响液滴体积和周期性或者液滴破碎进入交叉通道中的速率或频率此外,表面活性剂可以用于稳定氟化油中的水性乳液以避免聚并。液滴可以被表面活性剂包围,表面活性剂通过降低水油界面处的表面张力来稳定液滴。可以添加至载体流体的优选的表面活性剂包括但不限于表面活性剂,诸如基于脱水山梨糖醇的羧酸酯(例如“Span”表面活性剂,Fluka Chemika),包括脱水山梨糖醇单月桂酸酯(Span 20)、脱水山梨糖醇单棕榈酸酯(Span 40)、脱水山梨糖醇单硬脂酸酯(Span 60)和脱水山梨糖醇单油酸酯(Span 80),以及全氟化聚醚(例如DuPont Krytox 157FSL、FSM和/或FSH)。可以使用的非离子型表面活性剂的其他非限制性实例包括聚氧乙烯化烷基酚(例如壬基酚、对十二烷基酚和二壬基酚)、聚氧乙烯化直链醇、聚氧乙烯化聚氧丙烯二醇、聚氧乙烯化硫醇、长链羧酸酯(例如天然脂肪酸、丙二醇、山梨糖醇的甘油酯和聚甘油酯、聚氧乙烯化山梨糖醇酯、聚氧乙烯二醇酯等)和烷醇胺(例如二乙醇胺-脂肪酸缩合物和异丙醇胺-脂肪酸缩合物)。在一些情况下,用于经由微流体系统建立单细胞测序文库的装置提供体积驱动的流,其中随时间注射恒定的体积。流体通道中的压力是注射速率和通道尺寸的函数。在一个实施方案中,所述装置提供油/表面活性剂入口、分析物入口、过滤器、mRNA捕获微珠和裂解试剂入口、连接入口的载体流体通道、阻流体、用于液滴夹止的收缩部、混合器和液滴出口。在一个实施方案中,本发明提供了用于经由微流体系统建立单细胞测序文库的设备,所述设备可包括:可包含过滤器和载体流体通道的油-表面活性剂入口,其中所述载体流体通道可还包含阻流体;可包含过滤器和载体流体通道的分析物入口,其中所述载体流体通道可还包含阻流体;可包含过滤器和载体流体通道的mRNA捕获微珠和裂解试剂入口,其中所述载体流体通道可还包含阻流体;所述载体流体通道具有在其中以可调节的或预定的流率流动的载体流体;其中各所述载体流体通道在接合点处合并;并且所述接合点连接至混合器,所述混合器包含液滴出口。因此,设想了用于经由微流体系统微流体流方案建立单细胞测序文库用于单细胞RNA-seq的设备。两个通道(一个承载细胞悬浮液,另一个承载带独特条形码的mRNA捕获珠粒、裂解缓冲液和文库制备试剂)在接合处相交且立即以一个细胞和一个珠粒/液滴的速率共包封在惰性载体油中。在各液滴中,使用珠粒的加条形码标签的寡核苷酸作为cDNA模板,各mRNA用独特的细胞特异性标识符加标签。本发明还涵盖小鼠和人类细胞混合物的Drop-Seq文库的用途。可以使载体流体流过出口通道,使得载体流体中的表面活性剂涂覆通道壁。可通过使全氟化聚醚DuPont Krytox 157FSL、FSM或FSH与氢氧化铵水溶液在挥发性氟化溶剂中反应来制备含氟表面活性剂。溶剂及残留的水和氨可以用旋转蒸发器除去。然后可以将表面活性剂溶解(例如2.5wt%)在氟化油(例如Fluorinert(3M))中,然后将其用作载体流体。激活样品流体贮存器以产生试剂液滴是基于经由按需功能的动态试剂递送的概念(例如组合条形码化)。如本文中所述,可以通过用于释放递送液滴至原始液滴的多种技术能力之一提供按需特征。

根据本公开和本文引用的本领域的文献和知识,开发流率、通道长度和通道几何形状在本领域技术人员的能力范围内;确定后,包含随机或指定试剂组合的液滴可以按需产生并与包含目标样品/细胞/底物的“反应室”液滴合并。通过将多个独特标签并入另外的液滴中并将标签接合至被设计成对于原始液滴具特异性的固体支持物上,可以编码和记录原始液滴所暴露的条件。举例来说,核酸标签可以依序连接以产生反映条件和条件顺序的序列。或者,标签可以独立地添加而附接至固体支持物。可以用于以生物信息学方式记录信息的动态标记系统的非限制性实例可以在2012年9月21日和2012年11月29日提交的题为“Compositions and Methods for Unique Labeling of Agents”的美国临时专利申请中找到。以这种方式,两个或更多个液滴可以暴露于多种不同的条件,其中每次液滴暴露于某一条件,将编码该条件的核酸添加至各自连接在一起的液滴或添加至与液滴缔合的独特固体支持物,使得即使随后组合具有不同历史的液滴,各液滴的条件仍能通过不同核酸保持为可得的。评估对暴露于多种条件的反应的方法的非限制性实例可以在2012年9月21日提交的美国临时专利申请和2015年4月17日提交的题为“Systems and Methods for DropletTagging”的美国临时专利申请15/303874中找到。因此,在本发明中或就本发明而言,可设想分子条形码(例如DNA寡核苷酸、荧光团等)的动态产生,其与各种目标化合物(siRNA、CRISPR指导RNA、试剂等)的受控递送无关或与之协同。举例来说,独特分子条形码可以在一个喷嘴阵列中产生,而单个化合物或化合物组合可以通过另一喷嘴阵列产生。然后可以将目标条形码/化合物与包含CRISPR检测系统的液滴合并。可以保持计算机日志文件形式的电子记录以将递送的条形码与递送的一种或多种下游试剂相关联。这一方法使得可能根据本文所述的方法有效地筛选大的细胞群体。所公开发明的装置和技术有助于以经济的方式进行需要单一细胞(或单一分子)水平的数据解析的研究的努力。将试剂高通量地且高分辨率地递送至可能包含靶分子样品的单个乳液液滴,以便通过使用在微流体芯片中作为油包水乳液逐一产生的单分散水性液滴进行进一步评估。

蛋白质检测

本文所公开的系统、装置和方法经由并入特异性构造的多肽检测适体可以适应于除核酸检测以外的多肽(或其他分子)的检测。多肽检测适体不同于上文所论述的掩蔽构建体适体。首先,适体被设计成特异性地结合至一种或多种靶分子。在一个示例性实施方案中,靶分子是靶多肽。在另一个示例性实施方案中,靶分子是靶化合物,诸如靶治疗性分子。设计和选择对给定靶标具有特异性的适体的方法(诸如SELEX)在本领域中是已知的。除了对给定靶标的特异性以外,适体被进一步设计成并入RNA聚合酶启动子结合位点。在某些示例性实施方案中,RNA聚合酶启动子是T7启动子。在将适体结合至靶标之前,RNA聚合酶位点对RNA聚合酶是不可及的或以其他方式不可识别。然而,适体被配置成使得在结合靶标后,适体的结构经历构象变化以便接着暴露RNA聚合酶启动子。在RNA聚合酶启动子下游的适体序列充当模板用于由RNA聚合酶产生触发RNA寡核苷酸。因此,适体的模板部分还可以并入识别给定适体及其靶标的条形码或其他识别序列。如上文所述的指导RNA然后可以被设计成识别这些特异性触发寡核苷酸序列。指导RNA结合至触发寡核苷酸会激活CRISPR效应蛋白,其继而使掩蔽构建体失活并且产生如本文所述的阳性可检测信号。

因此,在某些示例性实施方案中,本文所公开的方法包括另外的步骤:将样品或样品组分配到一组个别离散体积中,每一个别离散体积包含肽检测适体、CRISPR效应蛋白、一种或多种指导RNA、掩蔽构建体,以及在足以允许检测适体与一种或多种靶分子结合的条件下孵育样品或样品组,其中适体与相应靶标的结合导致RNA聚合酶启动子结合位点的暴露,使得通过RNA聚合酶与RNA聚合酶启动子结合位点的结合启动触发RNA的合成。

在另一个示例性实施方案中,在适体结合至靶多肽后,适体的结合可以暴露引物结合位点。举例来说,适体可以暴露RPA引物结合位点。因此,引物的添加或包括然后将送入扩增反应中,诸如上文所概述的RPA反应。

在某些示例性实施方案中,适体可以是构象转换适体,其在结合至目标靶标后可以改变二级结构并且暴露单链DNA的新区域。在某些示例性实施方案中,单链DNA的这些新区域可以用作接合的基底,延伸适体并产生可以使用本文所公开的实施方案特异性地检测的更长的ssDNA分子。适体设计可以与三元复合物进一步结合用于检测低表位靶标,诸如葡萄糖(Yang等人2015:pubs.acs.org/doi/abs/10.1021/acs.analchem.5b01634)。示例性构象转换适体和相应的指导RNA(crRNA)显示在下文中。

扩增

在某些示例性实施方案中,在激活CRISPR效应蛋白之前可以扩增靶RNA和/或DNA。在一些情况下,在形成包含靶分子的液滴组之前进行扩增。其他实施方案允许在形成包含靶分子的液滴组之后进行扩增,并且因此可以在包含靶分子的液滴中包括核酸扩增试剂。可以使用任何适合的RNA或DNA扩增技术。在某些示例性实施方案中,RNA或DNA扩增是等温扩增。在某些示例性实施方案中,等温扩增可以是基于核酸序列的扩增(NASBA)、重组酶聚合酶扩增(RPA)、环介导的等温扩增(LAMP)、链置换扩增(SDA)、解旋酶依赖性扩增(HDA)或切口酶扩增反应(NEAR)。在某些示例性实施方案中,可以使用非等温扩增方法,包括但不限于PCR、多重置换扩增(MDA)、滚环扩增(RCA)、连接酶链反应(LCR)或分枝扩增方法(RAM)。在一些优选的实施方案中,RNA或DNA扩增是RPA或PCR。

在某些示例性实施方案中,RNA或DNA扩增是NASBA,其通过序列特异性反向引物对靶RNA的逆转录起始以建立RNA/DNA双链体。RNA酶H然后用于使RNA模板降解,从而允许含有启动子(诸如T7启动子)的正向引物结合互补链并起始互补链的延长,产生双链DNA产物。RNA聚合酶启动子介导的DNA模板转录然后建立靶RNA序列的拷贝。重要的是,新靶RNA中的每一个可以由指导RNA检测,由此进一步增强测定的灵敏度。靶RNA由指导RNA结合然后使得CRISPR效应蛋白激活并且方法如上文所概述继续进行。NASBA反应具有能够在适度等温条件下,例如在约41℃下继续进行的额外优点,使其适合于用于在实地和远离临床实验室的早期和直接检测而部署的系统和装置。

在某些其他示例性实施方案中,重组酶聚合酶扩增(RPA)反应可以用于扩增靶核酸。RPA反应采用能够使序列特异性引物与双链体DNA中的同源序列配对的重组酶。如果存在靶DNA,那么起始DNA扩增并且不需要其他样品操纵,诸如热循环或化学熔融。整个RPA扩增系统呈干燥的配方而稳定并且无需冷冻即可以安全地运输。RPA反应还可以在等温温度下进行,其中最佳反应温度为37℃-42℃。序列特异性引物被设计成扩增包含待检测的靶核酸序列的序列。在某些示例性实施方案中,将RNA聚合酶启动子(诸如T7启动子)添加至其中一个引物。这得到包含靶序列和RNA聚合酶启动子的扩增的双链DNA产物。在RPA反应之后或期间,添加RNA聚合酶,这将从双链DNA模板产生RNA。然后继而可以由CRISPR效应系统检测扩增的靶RNA。以这种方式,可以使用本文所公开的实施方案检测靶DNA。RPA反应还可以用于扩增靶RNA。首先使用逆转录酶使靶RNA转化为cDNA,接着第二链DNA合成,届时如上文所概述继续进行RPA反应。

因此,在某些示例性实施方案中,本文所公开的系统可以包括扩增试剂。本文描述了可用于核酸扩增的不同组分或试剂。举例来说,如本文所述的扩增试剂可以包括缓冲液,诸如Tris缓冲液。Tris缓冲液可以在适于所需应用或用途的任何浓度下使用,例如包括但不限于1mM、2mM、3mM、4mM、5mM、6mM、7mM、8mM、9mM、10mM、11mM、12mM、13mM、14mM、15mM、25mM、50mM、75mM、1M等浓度。本领域技术人员将能够确定用于本发明的缓冲液(诸如Tris)的适当浓度。

为了改善核酸片段的扩增,可以在扩增反应(诸如PCR)中包括盐,诸如氯化镁(MgCl2)、氯化钾(KCl)或氯化钠(NaCl)。尽管盐浓度将取决于特定反应和应用,但在一些实施方案中,特定大小的核酸片段在特定盐浓度下可能产生最佳结果。较大产物可能需要改变的盐浓度,通常是较低的盐,以产生所需结果,而较小产物的扩增在较高盐浓度下可能产生较佳结果。本领域技术人员将了解,盐的存在和/或浓度以及盐浓度的改变可以改变生物或化学反应的严格度,并且因此可以使用为本发明和如本文所述的反应提供适当条件的任何盐。

生物或化学反应的其他组分可以包括细胞裂解组分以使细胞破开或溶解以供分析其中的物质。细胞裂解组分可以包括但不限于洗涤剂;如上所述的盐,诸如NaCl、KCl、硫酸铵[(NH4)2SO4];或其他。可以适于本发明的洗涤剂可以包括Triton X-100、十二烷基硫酸钠(SDS)、CHAPS(3-[(3-胆酰胺基丙基)二甲铵基]-1-丙磺酸盐)、乙基三甲基溴化铵、壬基苯氧基聚乙氧基乙醇(NP-40)。洗涤剂的浓度可以取决于特定应用,并且在一些情况下可以特定针对反应。扩增反应可以包括在适于本发明的任何浓度下使用的dNTP和核酸引物,诸如包括但不限于100nM、150nM、200nM、250nM、300nM、350nM、400nM、450nM、500nM、550nM、600nM、650nM、700nM、750nM、800nM、850nM、900nM、950nM、1mM、2mM、3mM、4mM、5mM、6mM、7mM、8mM、9mM、10mM、20mM、30mM、40mM、50mM、60mM、70mM、80mM、90mM、100mM、150mM、200mM、250mM、300mM、350mM、400mM、450mM、500mM等浓度。同样地,根据本发明可用的聚合酶可以是本领域中已知并且可用于本发明的任何特定或一般聚合酶,包括Taq聚合酶、Q5聚合酶等。

在一些实施方案中,如本文所述的扩增试剂可以适用于热启动扩增中。热启动扩增在一些实施方案中可以有益于减少或消除衔接分子或寡核苷酸的二聚,或以其他方式防止不合需要的扩增产物或人造物并且获得所需产物的最佳扩增。本文所述的用于扩增中的许多组分也可以用于热启动扩增中。在一些实施方案中,视情况而定,适用于热启动扩增的试剂或组分可以替代组成组分中的一种或多种而使用。举例来说,可以使用在特定温度或其他反应条件下表现出所需活性的聚合酶或其他试剂。在一些实施方案中,可以使用经过设计或优化以用于热启动扩增中的试剂,例如,在转座之后或在达到特定温度之后可以使聚合酶激活。此类聚合酶可以是基于抗体或基于适体的。如本文所述的聚合酶在本领域中是已知的。此类试剂的实例可以包括但不限于热启动聚合酶、热启动dNTP和光笼化dNTP。此类试剂在本领域中是已知且可得的。本领域技术人员将能够确定适于个别试剂的最佳温度。核酸扩增可以使用特定热循环机器或设备进行,并且可以在单个反应中或成批进行,以便可以同时进行任何所需数目的反应。在一些情况下,可以在液滴中或在液滴形成之前进行扩增。在一些实施方案中,扩增可以使用微流体或机器人装置进行,或可以使用温度的手动改变来进行以达成所需扩增。在一些实施方案中,可以进行优化以获得用于特定应用或材料的最佳反应条件。本领域技术人员将了解并且能够优化反应条件以获得足够的扩增。

在一些情况下,核酸扩增试剂包括重组酶聚合酶扩增(RPA)试剂、基于核酸序列的扩增(NASBA)试剂、环介导等温扩增(LAMP)试剂、链置换扩增(SDA)试剂、解旋酶依赖性扩增(HDA)试剂、切口酶扩增反应(NEAR)试剂、RT-PCR试剂、多重置换扩增(MDA)试剂、滚环扩增(RCA)试剂、连接酶链反应(LCR)试剂、分枝扩增法(RAM)试剂、基于转座酶的扩增试剂,或可编程CRISPR切口扩增(PCNA)试剂。

在某些实施方案中,使用本发明的方法或系统的DNA检测需要在检测之前将(扩增的)DNA转录成RNA。

显然,本发明的检测方法可以涉及核酸扩增和检测程序的各种组合。待检测的核酸可以是任何天然存在的或合成的核酸,包括但不限于DNA和RNA,核酸可以通过任何合适的方法来扩增以提供可以检测的中间产物。对中间产物的检测可以通过任何合适的方法来进行,所述方法包括但不限于结合并激活Cas蛋白,所述Cas蛋白通过直接或附带活性产生可检测信号部分。

可检测阳性信号的扩增和/或增强

在某些示例性实施方案中,可以引入进一步扩增可检测阳性信号的进一步修改。举例来说,激活的CRISPR效应蛋白附带激活可以用于产生二级靶标或另外的指导序列,或两者。在一个示例性实施方案中,反应溶液将包含以高浓度加标的二级靶标。二级靶标可不同于一级靶标(即,测定被设计用于检测的靶标),并且在某些情况下,在所有反应体积中可为共同的。举例来说,用于二级靶标的二级指导序列可以通过二级结构特征诸如带有RNA环的发夹加以保护,并且无法结合第二靶标或CRISPR效应蛋白。激活的CRISPR效应蛋白切割保护基(即,在与溶液中的一种或多种一级靶标形成复合物后激活),并在溶液中与游离CRISPR效应蛋白形成复合物,并从加标的第二靶标中激活。在某些其他示例性实施方案中,类似的概念用于二级靶序列的二级指导序列。二级靶序列可通过二级靶标上的结构特征或保护基团加以保护。从二级靶标上切割保护基团然后允许额外的CRISPR效应蛋白/二级指导序列/二级靶复合物形成。在另一个示例性实施方案中,所述一种或多种一级靶标对CRISPR效应蛋白的激活可用于切割受保护的或环化的引物,然后将所述引物释放以对编码二级指导序列、二级靶序列或两者进行等温扩增反应,诸如本文所公开的那些。对此扩增模板的后续转录将产生更多的二级指导序列和/或二级靶序列,随后进行额外的CRISPR效应蛋白附带激活。

方法

在一方面,本文所公开的实施方案涉及用于使用本文所述的系统检测样品中的靶核酸的方法。在一些实施方案中,本文所公开的方法可以包括以下步骤:产生第一组液滴,所述第一组液滴中的每个液滴包含至少一个靶分子和光学条形码;产生第二组液滴,所述第二组液滴中的每个液滴包含检测CRISPR系统,所述检测CRISPR系统包含靶向RNA的效应蛋白和一种或多种被设计成结合至相应靶分子的指导RNA、掩蔽构建体和任选的光学条形码。通常通过混合或搅动所述第一组液滴和所述第二组液滴将所述第一组液滴和所述第二组液滴组合成液滴汇集物。然后可以使所述液滴汇集物流到微流体装置上,所述微流体装置包括微孔阵列和在微孔下方的至少一个流动通道,所述微孔的尺寸被设定成捕获至少两个液滴;检测在每个微孔中捕获的液滴的光学条形码;将在每个微孔中捕获的液滴合并以在每个微孔中形成合并液滴,所述合并液滴的至少一个子组包含检测CRISPR系统和靶序列;启动检测反应;以及在一个或多个时间段测量每个合并液滴的可检测信号。

液滴的产生

关于第一组液滴的产生,在一方面产生第一组液滴,每个第一液滴包含检测CRISPR系统,所述检测CRISPR系统可以包含靶向RNA的效应蛋白和一种或多种被设计成结合至相应靶分子的指导RNA、基于RNA的掩蔽构建体和如本文所述的光学条形码。在特定实施方案中,产生第二组液滴的步骤,第二组液滴中的每个液滴包含至少一个靶分子和任选的如本文所提供的光学条形码。

在产生第一组液滴和第二组液滴之后,将第一组液滴和第二组液滴组合成液滴汇集物。可以通过任何手段来实现所述组合以组合第一组和第二组。在一个示例性实施方案中,将液滴组混合以组合成液滴汇集物。

一旦产生液滴汇集物,就执行使液滴汇集物流动的步骤。液滴汇集物的流动是通过将液滴加载到包含多个微孔的微流体装置上来执行的。微孔的尺寸被设定成捕获至少两个液滴。任选地,在加载之后,洗掉表面活性剂。

一旦将液滴加载到微孔阵列中,就执行检测在每个微孔中捕获的液滴的光学条形码的步骤。在一些情况下,当光学条形码为荧光条形码时,通过低倍率荧光扫描来检测光学条形码。无论何种光学条形码,每个液滴的条形码都是固独特的,因此可以识别每个液滴的内容物。将根据所利用的光学条形码的类型选择检测方式。然后合并每个微孔中包含的液滴。可以通过施加电场来执行合并。合并液滴的至少一个子组包含检测CRISPR系统和靶序列。

合并液滴之后,接着启动检测反应。在一些实施方案中,启动检测反应包括孵育合并液滴。在检测反应之后,对合并液滴进行光学测定(在一些情况下是低倍率荧光扫描)以产生测定评分。

在一些实施方案中,所述方法可以包括扩增靶分子的步骤。可以在产生第一组液滴之前或之后进行靶分子的扩增。

在另一方面,本文所公开的实施方案涉及一种用于检测多肽的方法。用于检测多肽的方法类似于上文所述用于检测靶核酸的方法。然而,还包括肽检测适体。肽检测适体如上文所述起作用,并且在与靶多肽结合后促进触发寡核苷酸的产生。指导RNA被设计成识别触发寡核苷酸,从而激活CRISPR效应蛋白。激活的CRISPR效应蛋白使掩蔽构建体失活导致可检测阳性信号的揭露、释放或产生。

利用报告构建体(例如荧光蛋白)的多重检测诊断可以快速检测靶序列,诊断药物抗性SNP,并辨别微生物种类的株系和亚型。在评估样品中是否存在微生物种类的一种或多种株系的情况下,例如,利用包含在第二组液滴中的CRISPR系统组评估来自样品的靶分子组,每个CRISPR系统包含不同的指导RNA。在组合第一组液滴和第二组液滴之后,快速并重复测试这些组合。将每个待测试的靶分子置于微板孔中。可以使用水和油输入通道形成包含待筛选的靶分子的单分散液滴。然后将靶分子液滴加载到微流体装置上。每个靶分子都标有条形码。当两个或更多个液滴合并时,组合的光学条形码可以识别合并液滴中存在哪个靶分子和/或CRISPR系统。条形码是用光学或荧光显微镜法观察的光学可检测条形码或芯片外检测的寡核苷酸条形码。

如本文所述,将包含指导RNA所靶向的靶分子的样品加载到一组液滴中并与包含指导RNA和CRISPR系统的一个或多个液滴合并。并入CRISPR系统液滴中的报告系统在掩蔽构建体中表达光学可检测标记物(例如荧光蛋白)。该组液滴包括CRISPR系统,所述CRISPR系统包含效应蛋白和一种或多种被设计成结合至相应靶分子的指导RNA,以及基于RNA的掩蔽构建体。液滴合并之后,可以通过光学扫描每个微孔以读取光学条形码来确定每个孔中分子种类的身份。报告系统的光学测量可以与条形码的光学扫描同时进行。因此,使用该组合筛选系统可以同时采集实验数据和分子种类识别。

在一些情况下,将微流体装置在成像之前孵育一段时间,并在多个时间点成像,以跟踪报告子测得量随时间的变化。另外,对于一些实验,将合并液滴从微流体装置上洗脱下来用于芯片外评估(参见例如国际公布号WO2016/149661,出于所有目的以引用方式整体并入本文,洗脱具体在[0056]-[0059]处论述)。

使用所公开的处理策略,并行处理数百万个液滴达到组合筛选所需要的规模。另外,液滴的纳升体积减少了筛选所需的化合物消耗。本公开在大的固定位置空间阵列中结合了光学条形码和液滴并行操纵以将液滴身份与测定结果联系起来。本发明系统的独特优势是在2nL测定体积中筛选的化合物的节约使用。本文的平台利用液滴微流体系统的高通量潜力,替代了构建化合物对组合所需的确定性液体处理操作,同时在微孔装置中并行合并随机液滴对。此方法的独特优势在于它可以在高通量下手动操作,并且微孔中的测定小型化使得可使用小样品量。当与SHEROCK技术相结合时,这些方法提供了可以利用较小样品量进行大规模多重复用的一种强大的检测技术。

本文的技术提供了一种处理平台,这种平台在三个步骤内测试输入化合物组的所有成对组合。首先,将靶分子与彩色条形码(两种、三种、四种或更多种荧光染料的独特比率)组合。可以依据靶分子的荧光染料(例如红色、绿色、蓝色等)的比率对靶分子进行条形码化。在样品处理之后,接着将靶分子乳化成油包水液滴,优选尺寸为约1纳升。在一些实施方案中,可以包括表面活性剂以稳定液滴。可以使用标准的多通道微量移液器技术将液滴组合成汇集物。制备的第二组液滴包含CRISPR系统、任选的使用一定比率荧光染料的光学条形码和RNA掩蔽化合物。将第一组液滴和第二组液滴混合成大的汇集物,随后将液滴加载到微孔阵列中,使得每个微孔随机捕获两个液滴。在一些实施方案中,在加载之后接着将微孔阵列密封到玻璃基底上以限制微孔交叉污染和蒸发。在一些情况下,通过机械夹持将微孔阵列固定到组件上。由独特比率的两种、三种、四种或更多种荧光染料与识别的第一组液滴和第二组液滴预混合而成的荧光条形码编码每个液滴的内容物。

可以使用低倍率(2-4X)落射荧光显微镜来识别每个液滴和/或孔的内容物。然后将每个孔中的两个液滴合并,施加高压交流电场以诱导液滴合并。合并之后,启动SHERLOCK反应,将样品(在一些实施方案中)在37℃下孵育。随后,对阵列成像以确定光学表型(例如阳性荧光)并将该测量映射到先前在每个孔中识别的化合物对。特别优选的是在加载之后限制化合物交换的微孔阵列设计,一种示例性方式是在液滴加载之后机械密封微孔阵列。

在一方面,本文所述的实施方案涉及一种多重筛选一种或多种含核酸样本中的核酸序列变异的方法。核酸序列变异可以包括天然序列变异、基因表达变异、工程化遗传扰动或它们的组合。含核酸样本可以是细胞的或无细胞的。含核酸样本被制备为含有光学条形码的液滴。制备包含CRISPR检测系统和光学条形码的第二组液滴。在一些情况下,条形码可以是可通过光学或荧光显微镜法观察的光学可检测条形码。在某些示例性实施方案中,光学条形码包含具有来自一组限定颜色的可区分颜色的荧光团或量子点的子组。在一些情况下,可以将光学编码粒子随机递送至离散体积,从而在每个孔中产生光学编码粒子的随机组合,或者可以将光学编码粒子的独特组合特定地指派给每个离散体积。光学编码粒子的随机分布可以通过泵送、混合、摇动或搅动测定平台持续足以允许分布到所有离散体积的时间来实现。本领域普通技术人员可以基于所使用的测定平台选择合适的机制来将光学编码粒子随机分布在离散体积上。

然后可以使用光学编码粒子的可观察组合来识别每个离散体积。例如,可以使用荧光显微镜或其他成像装置对每个离散体积进行光学评估(诸如表型)并记录。如图13所示,使用不同水平的3种荧光染料(例如Alexa Fluor 555、594、647)可以产生105个条形码。可以添加第四种染料,并且可以扩展到数百个独特条形码;类似地,五种颜色可以增加独特条形码的数目,这可以通过改变颜色的比率来实现。

举例来说,可以将核酸功能化粒子合成到固体支持物上,随后用不同比率的染料(例如FAM、Cy3和Cy5)或3种荧光染料(例如Alexa Fluor 555、594、647)以不同水平标记,可以产生105个条形码。

在一个实施方案中,在每个液滴或离散体积中接收的荧光团的指派或随机子组决定了每个离散体积中光学编码离散粒子的可观察图谱,从而允许独立地识别每个离散体积。使用适当的成像技术对每个离散体积进行成像,以检测光学编码粒子。举例来说,如果光学编码粒子以荧光方式标记,则使用荧光显微镜对每个离散体积进行成像。在另一个实例中,如果光学编码粒子以比色方式标记,则使用具有一个或多个滤光器的显微镜对每个离散体积进行成像,所述一个或多个滤光器与每个颜色标签固有的波长或吸收光谱或发射光谱相匹配。设想了与所使用的光学系统相匹配的其他检测方法,例如本领域已知的用于检测量子点、染料等的检测方法。可以记录所观察到的每个离散体积的光学编码离散粒子的图谱以供以后使用。

此外,可以在合并液滴以及孵育CRISPR检测系统与靶分子之后进行光学评估。一旦靶分子由指导分子检测到,CRISPR效应蛋白被激活从而使掩蔽构建体失活,例如,通过切割掩蔽构建体以使得可检测阳性信号被揭露、释放或产生。可以在一个或多个时间段检测和测量每个合并液滴的可检测信号,当例如存在阳性可检测信号时指示靶分子的存在。

本发明的其他实施方案在以下编号的段落中描述。

1.一种用于检测靶分子的方法,所述方法包括:

产生第一组液滴,所述第一组液滴中的每个液滴包含检测CRISPR系统,所述检测CRISPR系统包含Cas蛋白和一种或多种被设计成结合至相应靶分子的指导RNA、掩蔽构建体和光学条形码;

产生第二组液滴,所述第二组液滴中的每个液滴包含至少一个靶分子和任选的光学条形码;

将所述第一组液滴和所述第二组液滴组合成液滴汇集物,并使所述液滴汇集物流到微流体装置上,所述微流体装置包括微孔阵列和在所述微孔下方的至少一个流动通道,所述微孔的尺寸被设定成捕获至少两个液滴;

检测在每个微孔中捕获的所述液滴的所述光学条形码;

将在每个微孔中捕获的所述液滴合并以在每个微孔中形成合并液滴,所述合并液滴的至少一个子组包含检测CRISPR系统和靶序列;

启动检测反应;以及

在一个或多个时间段,任选地以连续方式,测量每个合并液滴的可检测信号。

2.根据段落1所述的方法,所述方法还包括扩增所述靶分子的步骤。

3.根据段落2所述的方法,其中所述扩增包括基于核酸序列的扩增(NASBA)、重组酶聚合酶扩增(RPA)、环介导等温扩增(LAMP)、链置换扩增(SDA)、解旋酶依赖性扩增(HDA)、切口酶扩增反应(NEAR)、PCR、多重置换扩增(MDA)、滚环扩增(RCA)、连接酶链反应(LCR)或分枝扩增法(RAM)。

4.根据段落2所述的方法,其中用RPA或PCR进行所述扩增。

5.根据段落1所述的方法,其中所述靶分子包含于生物样品或环境样品中。

6.根据段落5所述的方法,其中所述样品来自人类。

7.根据段落5所述的方法,其中所述生物样品是血液、血浆、血清、尿液、粪便、痰液、粘液、淋巴液、滑液、胆汁、腹水、胸腔积液、血清肿、唾液、脑脊髓液、水状液或玻璃体液,或任何身体分泌物、渗出物、渗出液,或获自关节的流体,或皮肤或粘膜表面的拭子。

8.根据段落1所述的方法,其中所述一种或多种被设计成结合至相应靶分子的指导RNA包含(合成)错配。

9.根据段落8所述的方法,其中所述错配在所述靶分子中的SNP或其他单核苷酸变异的上游或下游。

10.根据段落1所述的方法,其中所述一种或多种指导RNA被设计成检测靶RNA或DNA中的单核苷酸多态性,或RNA转录物的剪接变体。

11.根据段落10所述的方法,其中所述一种或多种指导RNA被设计成检测病毒感染中的药物抗性SNP。

12.根据段落1所述的方法,其中所述一种或多种指导RNA被设计成结合至一种或多种对疾病状态具诊断性的靶分子。

13.根据段落12所述的方法,其中所述疾病状态的特征在于药物抗性或易感基因或转录物或多肽的存在或不存在。

14.根据段落1所述的方法,其中所述一种或多种指导RNA被设计成区分一种或多种微生物株系。

15.根据段落12所述的方法,其中所述疾病状态是感染。

16.根据段落15所述的方法,其中所述感染由病毒、细菌、真菌、原生动物或寄生虫引起。

17.根据段落15所述的方法,其中所述一种或多种指导RNA包括至少90种指导RNA。

18.根据段落1所述的方法,其中所述Cas蛋白是靶向RNA的蛋白、靶向DNA的蛋白或它们的组合。

19.根据段落18所述的方法,其中所述靶向RNA的蛋白包含一个或多个HEPN结构域。

20.根据段落19所述的方法,其中所述一个或多个HEPN结构域包含RxxxxH基序序列。

21.根据段落20所述的方法,其中所述RxxxH基序包含R{N/H/K]X1X2X3H序列。

22.根据段落21所述的方法,其中X1是R、S、D、E、Q、N、G或Y,并且X2独立地是I、S、T、V或L,并且X3独立地是L、F、N、Y、V、I、S、D、E或A。

23.根据段落1所述的方法,其中所述靶向RNA的CRISPR蛋白是C2c2。

24.根据段落18所述的方法,其中所述Cas蛋白是靶向DNA的蛋白。

25.根据段落24所述的方法,其中所述Cas蛋白包含RuvC样结构域。

26.根据段落24所述的方法,其中所述靶向DNA的蛋白是V型蛋白。

27.根据段落24所述的方法,其中所述靶向DNA的蛋白是Cas12。

28.根据段落25所述的方法,其中所述Cas12是Cpf1、C2c3、C2c1或它们的组合。

29.根据段落1所述的方法,其中所述掩蔽构建体是基于RNA的,并且阻遏可检测阳性信号的产生。

30.根据段落29所述的方法,其中所述基于RNA的掩蔽构建体通过掩蔽可检测阳性信号或替代地产生可检测阴性信号来阻遏所述可检测阳性信号的产生。

31.根据段落29所述的方法,其中所述基于RNA的掩蔽构建体包含沉默RNA,所述沉默RNA阻遏由报告构建体编码的基因产物的产生,其中所述基因产物在表达时产生所述可检测阳性信号。

32.根据段落29所述的方法,其中所述基于RNA的掩蔽构建体是产生所述阴性可检测信号的核酶,并且其中当所述核酶失活时产生所述阳性可检测信号。

33.根据段落32所述的方法,其中所述核酶将底物转化为第一种颜色,并且其中当所述核酶失活时,所述底物转化为第二种颜色。

34.根据段落29所述的方法,其中所述基于RNA的掩蔽剂是RNA适体并且/或者包含RNA栓系的抑制剂。

35.根据段落34所述的方法,其中所述适体或所述RNA栓系的抑制剂螯合酶,其中所述酶在从所述适体或所述RNA栓系的抑制剂释放后通过作用于底物产生可检测信号。

36.根据段落34所述的方法,其中所述适体是抑制酶,并且阻止所述酶催化从底物产生可检测信号的抑制性适体,或者其中所述RNA栓系的抑制剂抑制酶并且阻止所述酶催化从底物产生可检测信号。

37.根据段落36所述的方法,其中所述酶是凝血酶、蛋白C、中性粒细胞弹性蛋白酶、枯草杆菌蛋白酶、辣根过氧化物酶、β-半乳糖苷酶或小牛碱性磷酸酶。

38.根据段落37所述的方法,其中所述酶是凝血酶,并且所述底物是与凝血酶的肽底物共价连接的对硝基苯胺,或与凝血酶的肽底物共价连接的7-氨基-4甲基香豆素。

39.根据段落34所述的方法,其中所述适体螯合一对剂,所述剂在从所述适体释放时组合而产生可检测信号。

40.根据段落29所述的方法,其中所述基于RNA的掩蔽构建体包含可检测配体和掩蔽组分所附接的RNA寡核苷酸。

41.根据段落29所述的方法,其中所述基于RNA的掩蔽构建体包含通过桥分子保持呈聚集体的纳米粒子,其中所述桥分子的至少一部分包含RNA,并且其中当所述纳米粒子分散于溶液中时所述溶液经历色移。

42.根据段落41所述的方法,其中所述纳米粒子是胶体金属。

43.根据段落42所述的方法,其中所述胶体金属是胶体金。

44.根据段落22所述的方法,其中所述基于RNA的掩蔽构建体包含通过连接分子与一个或多个猝灭剂分子连接的量子点,其中所述连接分子的至少一部分包含RNA。

45.根据段落22所述的方法,其中所述基于RNA的掩蔽构建体包含与嵌入剂复合的RNA,其中所述嵌入剂在所述RNA裂解后改变吸光度。

46.根据段落45所述的方法,其中所述嵌入剂是焦宁-Y或亚甲蓝。

47.根据段落22所述的方法,其中可检测配体是荧光团,并且掩蔽组分是猝灭剂分子。

48.根据段落1所述的方法,其中所述检测所述光学条形码包括对每个微孔中的所述液滴进行光学评估。

49.根据段落48所述的方法,其中所述进行光学评估包括捕获每个微孔的图像。

50.根据段落1所述的方法,其中所述光学条形码包含具有特定尺寸、形状、折射率、颜色或它们的组合的粒子。

51.根据段落50所述的方法,其中所述粒子包括胶体金属粒子、纳米壳、纳米管、纳米棒、量子点、水凝胶粒子、脂质体、树枝状聚合物或金属-脂质体粒子。

52.根据段落48所述的方法,其中使用光学显微镜法、荧光显微镜法、拉曼光谱法或它们的组合来检测所述光学条形码。

53.根据段落1所述的方法,其中每个光学条形码包含一种或多种荧光染料。

54.根据段落53所述的方法,其中每个光学条形码包含不同比率的荧光染料。

55.根据段落1所述的方法,其中所述可检测信号是荧光水平。

56.根据段落1所述的方法,所述方法还包括应用组覆盖求解过程的步骤。

57.根据段落1所述的方法,其中所述微流体装置包括至少40,000个微孔的阵列。

58.根据段落57所述的方法,其中所述微流体装置包括至少190,000个微孔的阵列。

59.一种多重检测系统,所述多重检测系统包括:

检测CRISPR系统,所述检测CRISPR系统包含靶向RNA的蛋白和一种或多种被设计成结合至相应靶分子的指导RNA、基于RNA的掩蔽构建体和光学条形码;

任选的用于一种或多种靶分子的光学条形码;

和微流体装置,所述微流体装置包括微孔阵列和在所述微孔下方的至少一个流动通道,所述微孔的尺寸被设定成捕获至少两个液滴。

60.一种试剂盒,所述试剂盒包括根据段落59所述的多重检测系统。

61.根据段落1-58中任一项所述的方法,其中所述第二组液滴包含光学条形码。

62.根据段落59所述的多重检测系统,其中所述系统包括用于一种或多种靶分子的光学条形码。

在以下实施例中进一步描述了本发明,这些实施例不限制权利要求中所描述的本发明的范围。

示例性方法

在示例性方法中,可以将化合物与独特比率的荧光染料混合。可以将靶分子与染料混合物的各混合物乳化成液滴。类似地,将具有光学条形码的各检测CRISPR系统乳化成液滴。在一些实施方案中,液滴各自为约1nL。然后可以将液滴组合并施加至微孔芯片。可以通过简单混合来组合液滴。在一个示例性实施方案中,将微孔芯片附加至诸如具有可移除间隔件的疏水性载玻片的平台上,可以通过夹具(例如钕磁体)从上方和下方夹持所述间隔件。可以将芯片和载玻片之间由间隔件形成的间隙加载油,并将液滴汇集物注入芯片中,通过注入更多的油并排出过量的液滴来继续使液滴流动。加载完成之后,可以用油清洗芯片以清除游离表面活性剂。可以移除间隔件以将微孔密封在载玻片上并闭合夹具。然后使用落射荧光显微镜将芯片成像,接着通过施加例如由电晕处理器提供的交流电场合并液滴以混合每个微孔中的化合物。在37℃下孵育微孔并使用落射荧光显微镜测量荧光。

关于引物的设计,可以利用以下用于病毒序列的示例性方法,利用在软件工具中实施的“诊断-指导物-设计”方法。就病毒序列而言,利用病毒序列比对输入,其目标是找到一组指导序列,所有序列都在某个指定的扩增子长度内,这些指导序列将检测到某一期望分数(例如95%)的可容忍指导物与靶标之间某一错配数目(通常为1)的输入序列。对于亚型分型(或任何差异化识别)至关重要的是,它设计了不同的指导物集合,确保每个集合特定于一个亚型。

目标是在此基础上使用诊断-指导物-设计(“d-g-d”)与其他工具同时设计扩增子引物和指导序列以进行物种识别:

组装必要的病毒基因组,在物种级别与mafft进行比对,对数据进行聚类以识别密切相关的物种。对分段病毒进行特殊处理;对每个区段都进行单独处理。最终,选择最好的区段(或两个)继续进行。

使用诊断-指导物-设计来确定推定的引物结合位点(25mer)。查找单一引物序列,覆盖率为95%,且容许错配不超过2个。

如果无法在某个位置/窗口达到此覆盖率,移至下一个位置,在识别primer3之前首先在整个基因组中执行此操作。

确定长度在80至120个核苷酸的扩增子的引物对。使用primer3缩小25mer以达到58-60C的目标熔融温度。

使用SEQUENCE_PRIMER_PAIR_OK_REGION_LIST指定推定扩增子的正向/反向引物位置。这样就可使用[fwd_start,fwd_length,rev_start,rev_length]格式输入引物可进入的区域。

优选地,可以在较低温度下,例如在50至55C下运行PCR。

如果引物的二级结构不良,则丢弃(PRIMER_MAX_SELF_ANY_TH,_PRIMER_PAIR_MAX_COMPL_ANY_TH,设定为40C)。这低于默认设置47C,但此处需要严格性以得到良好的引物。

使用聚类数据检查扩增子的交叉反应性。这可以使用primer3来完成,它允许引物应当避免的“错误引发文库”。可以在此处输入来自其他物种(但在同一簇中)的序列的列表。扩增子可能有独特的引物,但在crRNA水平上仍有重叠,这是确保测定极具特异性所必需的。

将这些扩增子传至d-g-d并尝试查找crRNA。

允许1个错配,就像之前所做的那样。

窗口大小是整个扩增子(与引物序列没有重叠)。

使用聚类数据进行差异化设计(可能只是检查扩增子与其他扩增子,因为未扩增的物质应该很少)。需要至少4个错配(不包括G-U对)。

列出crRNA少、覆盖率高且具有特异性的扩增子的列表。

现在,可准备单一“最佳”设计,但需要修改代码以允许例如白名单提供多个选项来测试每种病毒。使用20uL反应在板中对寨卡病毒进行的SHERLOCK分析的相同寨卡病毒样品的灵敏度曲线与使用2nL反应在液滴中对寨卡病毒进行的SHERLOCK测定相同,表明液滴SHERLOCK(dSHERLOCK)检测限与板相当。(图3)。类似地,与板中测定相比,dSHERLOCK同等良好地辨别单核苷酸多态性(SNP)。

本文所公开的方法和系统可用于流感亚型的多重检测(图5)。值得注意的是,在芯片中产生检测混合物和靶标的所有组合所需的实验工作与仅在孔板中构建对角反应所需的工作相同,这允许将系统和方法应用于分析有大量组合。由于芯片会自动构建除对角之外的所有非对角组合,因此可以快速确定其预期产品的每种检测组合的选择性。指导RNA可以被设计成基于存放的序列靶向病毒的特定独特区段。在一些情况下,可以对设计进行加权以包括更近的序列数据或更普遍的序列。可以针对各种病毒亚型设计指导RNA组,如图6中针对流感H亚型所示,成功的结果提供了指导RNA与每个亚型的多数共有序列的对齐,具有0或1个错配。

当前系统和方法的其他示例性应用包括多重检测突变,包括检测TB(图11)和HIV逆转录酶中的药物抗性突变。指导RNA可以被设计成靶向祖先型或衍生型等位基因,测试显示使用衍生型等位基因和靶等位基因测试的潜力。(图10)。dSHERLOCK可以在30分钟内检测到荧光。(图11)。

在本文所公开的方法中结合SHERLOCK,使用微孔阵列芯片和液滴检测可以提供迄今为止最高的多路检测通量,条形码数量和芯片尺寸的扩展能够实现大规模多重化。(图12-14)。

工作实施例1

该实施例描述的是开发用于多重核酸评估的组合排列反应(CARMEN)以及使用Cas13实施CARMEN(CARMEN-Cas13)。如本文所示,CARMEN-Cas13特异地、选择性地且同时地测试具有≥10个已测序基因组的所有人类相关病毒的数十个样品。另外,CARMEN-Cas13利用Cas13检测的灵敏度和特异性并行辨别不同病毒种的所有株系,并检测单核苷酸变体(诸如药物抗性突变)组。概括地说,CARMEN-Cas13是一种高度多重化的基于CRISPR的核酸检测平台,能够以前所未有的规模实现流行病学监测。

CARMEN通过将每个样品和检测混合物限制在乳化液滴中并在微孔阵列中构建样品-检测混合物对,将传统的基于CRISPR的核酸检测转化为多重测定(图15B,图20)。在常规微量滴定板中制备扩增样品和检测混合物。将各扩增样品或检测混合物与作为独特光学标识符的特别荧光色码组合,将带色码的溶液在氟油中乳化以产生1nL液滴。一旦乳化,将来自所有样品和检测混合物的液滴汇集到一个管中,并在单个移液步骤中加载到内置于聚二甲基硅氧烷(PDMS)芯片中的微孔阵列中(图15B和图20至图21)。阵列中的每个微孔随机容纳来自汇集物中的两个液滴,从而自发形成液滴化输入的所有成对组合,并将阵列物理密封在玻璃基底上以物理隔离每个微孔。通过使用荧光显微镜法评估液滴的色码来确定每个孔的内容物。暴露于电场使限制于每个微孔中的液滴对合并,并同时启动所有检测反应。使用荧光显微镜法随时间监测每个检测反应(图15B和图20)。

CARMEN-Cas13与特异性高灵敏度酶促报告子解锁(SHERLOCK)一样灵敏,其已被用于快速检测复杂样品中的各种病毒和细菌病原体,并且每个微孔阵列收集的大量数据点可用于调整每个实验中的统计功效与通量。CARMEN-Cas13以渺摩尔级灵敏度检测寨卡病毒序列,其灵敏度与标准SHERLOCK和基于PCR的测定的灵敏度相匹配(图15C和图22)。此外,在申请人的标准芯片上执行CARMEN,在质量过滤后从10,000个微孔中获得数据,提供了每次测试进行数百次技术重复的潜力(图15C)。先导分析显示CARMEN-Cas13高度一致,每次测试仅需要3次技术重复(图20)。每个芯片执行多达1,000次测试,确保>X%的对在每次测试中具有3个或更多技术复制液滴对。组合空间的几何形状(例如100个样品x 10个检测混合,或10个样品x 100个检测混合)是灵活的。CARMEN灵活性的一个应用是通过评估包含正交RNA聚合酶的多个平行检测反应增加核酸检测的动态范围。为了证明这一原理,使用正交RNA聚合酶启动子T3和T7对扩增引物进行条形码标记,并使用包含T3或T7 RNA聚合酶的检测反应生成超过6个数量级的标准曲线(图23)。

除了定量,CARMEN还能够以前所未有的规模进行多重核酸检测。为了展示此规模,下一个重点是设计一种检测方法,所述方法可以特异性、选择性且同时地测试所有169种具有≥10个已公布基因组的人类相关病毒的数十个样品,从而为Cas13检测测定的设计提供依据(图16A,图26)。这些物种中只有39种具有FDA批准的诊断,这在很大程度上是由开发和验证此类测试的劳动密集型过程所致。申请人进行了CARMEN测定的开发,以同时鉴定这169种病毒种中的每一种。

开发和测试跨越人类相关病毒组的测定的实验工作(169个样品x 169个检测混合物=28,561次测试,不算对照和重复)需要比先前的标准芯片和色码组以及其他现有的多重系统可提供的通量更高的通量。为了区分来自数百个输入的液滴,申请人使用某比率的4种市售小分子荧光团开发出1,050个基于溶液的色码组,显著优于现有64种色码组8,且无需先前高度多重化和精确光谱编码系统所报告的定制粒子合成24-26。1,050个色码的性能与原始组相当,所有液滴的液滴分类正确率为97.8%,在保留94%液滴的许可过滤后分类正确率为99.5%(图24、图16B、图38A至图38G)。只需5次重复,导致错误识别测试的错误分类的液滴的几率为100,000分之一。为了匹配扩大色码组所实现的通量,申请人设计了一种更大容量的芯片(mChip)(图25A至图25G),其表面积是先前标准芯片的4倍,允许同时进行>4,000次稳健的且统计重复的测试。相对于标准孔板SHERLOCK测试,mChip将每次测试的试剂成本降低了>300倍。(表11)。

申请人接下来设计了一种CARMEN-Cas13测定,所述测定可选择性地同时测试所有169种具有≥10个可用已发布基因组的人类相关病毒(HAV)的数十个样品,将CATCH-dx(Metsky等人,在内)应用于HAV小组中表示的病毒的已发布病毒基因组,以选择用于PCR引物汇集物的扩增子,使用primer3优化引物序列27。CATCH-dx接受排列成组的序列(例如,一个物种内的所有已知序列)的集合。对于每一组,CATCH-dx搜索对组内序列敏感的最佳crRNA组(即,检测所需的序列部分)并且不太可能检测到其他组中的序列(图39A)。以病毒种的比对作为输入,使用CATCH dx为每个物种设计小crRNA序列组,这样,考虑到NCBIGenBank上的基因组多样性,每一组都提供在其靶向物种内的高灵敏度(检测到>90%的序列)和针对其他物种的高选择性(图16C,图26;图39A至图39G)。使用基于每个物种的共有序列的合成靶标测试设计进,并以计算方式选择该设计中来自每个物种组的最佳crRNA进行测试。(图16B)。

利用CARMEN-Cas13的大规模多重化能力,申请人广泛测试了HAV小组,展示了高性能。针对所有靶标评估每个crRNA(总共169个),对每个靶标都使用其相应的引物汇集物(总共184个PCR产物,包括对照;图16B)进行了扩增,在8个mChip上总共进行了30,912次测试(参见表1)。在初始设计组中,148个crRNA(87.6%)已对其靶标具有高度选择性,其信号高于阈值,13个(7.7%)表现出高于阈值的交叉反应性,8个(4.7%)未表现出高于阈值的反应性。为了解决表现不佳的crRNA,重新设计了11个物种的crRNA序列,重新设计了3个物种的引物序列,并准备了新的crRNA和靶标储备液。在并入重新设计的序列的第二轮测试中,所评估的167个crRNA中有157个(94%)对其靶标具有高度选择性,其信号高于阈值,6个(3.6%)表现出高于阈值的交叉反应性,4个(2.4%)没有高于阈值的反应性(图16C)。第1轮和第2轮的结果非常一致:97.2%的既未重新设计也未重新稀释的序列在两轮之间性能相当,这表明可以在不改变测定其余部分的性能的情况下改进单个crRNA(图40A至图40E)。此外,单个crRNA的性能很强(第1轮和第2轮的中值AUC分别为0.999和0.997)(图40A至图40E)。实际上,没有观察到广泛的交叉反应性,即使用所有引物汇集物扩增合成靶标时也如此(图41A至图41F)。

为了在更具挑战性和复杂性的情形下严格测试CARMEN的性能,申请人针对来自16名确诊感染患者的血浆或血清样品评估了HAV小组。将每个临床样品作为未知样品进行处理,并使用所有15个引物汇集物进行扩增。为了提高测试通量,随后将PCR产物汇集为3个一组(每个患者样品5个最终产物),并用来自HAV小组的crRNA进行测试。作为比较读出,使用物种特异性PCR引物进行第二轮PCR。对于登革热、寨卡病毒和HIV样品,CARMEN和PCR扩增100%一致。对于HCV(一种高度多样化病毒),HAV小组中的HCV特异性crRNA鉴定了4个PCR阳性样品中的2个。检测的敏感性,特别是对不同病毒的检测灵敏度,可以通过提高crRNA多重化以覆盖异质靶标组来解决,如下面图3中的甲型流感亚型分型所示。此外,CARMEN的特异性高,交叉反应性不广泛。169个crRNA中只有3个(1.8%)在3个不同阴性对照(来自健康人的汇集血浆、血清或尿液)中显示出意外反应性,结果与PCR扩增89.6%一致。在不影响HAV小组其余部分的性能的情况下从分析中移除这3个crRNA。

除了确定有症状感染的个别原因之外,还可以使用HAV小组并行监测许多病毒。此处,HAV小组在一部分患者(TLMV:11/16患者,HPV:4/16患者)中鉴定出细环样微小病毒(TLMV)和人类乳头瘤病毒(HPV)株;这些结果已通过第二轮PCR证实具有100%一致性。已知这些病毒通常会感染人,通常无症状,并且经常未被诊断,这表明多重CARMEN组可用于鉴定继发性或亚临床感染。在临床环境中,将HAV小组的结果与患者症状相结合对于判读至关重要,可能只需要HAV小组的一个子组的结果。因此,HAV小组可以被视为核酸检测测定的模块化主集,最终用户可以针对不同应用进行定制。

利用Cas13检测的特异性,申请人使用CARMEN-Cas13来并行辨别平行多种病毒株的多种病毒种的所有流行病学相关血清型。病毒种内的多样性对检测提出了重大挑战:测定必须正确鉴定一组毒株中的许多不同序列,同时对该组保持选择性。作为案例研究,选择甲型流感病毒(IAV)的血凝素(H)和神经氨酸酶(N)亚型H1-H16和N1-N9。这些以血清学定义的亚型由能够感染多种宿主种的株系组成,其中一些与可能流行爆发相关联。鉴定出足够保守可用平行引物组进行扩增的H和N扩增子。为了鉴定亚型,使用CATCH dx设计特定的crRNA组以覆盖每个亚型内>90%的序列(图17A,图30,有关详细信息参见方法)。使用来自H1-16和N1-9的合成共有序列从每一组测试最佳crRNA,并且容易地鉴定这些亚型(图17B至图17C,图31)。使用代表每个N亚型内>90%的序列多样性的35个合成序列进一步测试N亚型分型测定,确定这35个序列中的32个(91.4%)可被鉴定(图32)。还使用来自H1N1和H3N2株系(通常在人类中传播的IAV亚型)的种子储备液和来自禽IAV亚型的合成序列验证了亚型分型测定(图17D,表1)。基于这些结果,该测定可潜在地鉴定H1-16和N1-9亚型的144种可能组合中的任何一种。

表1:用于测试人类相关病毒小组的液滴配对和过滤统计,第1轮和第2轮

Cas13的精细特异性使CARMEN-Cas13能够识别多重临床相关病毒突变,诸如赋予药物抗性的那些突变。作为概念证明,引物对被设计成平铺HIV逆转录酶(RT)编码序列和一组crRNA,以识别六种普遍药物抗性突变(DRM,图18A,表2)。这些DRM在非洲、拉丁美洲和亚洲的抗病毒天真患者群体中的流行频率在5%-15%之间。这些设计是使用合成靶标的测试设计,并且可并行鉴定所有6个突变(图18B,图33)。申请人进一步分析了RT测定在低等位基因频率下检测DRM的性能,并且可检测1%频率的K103N和10%频率的其他DRM(图34)。

对来自4名HIV患者的临床血浆样品进行了RT DRM测定的进一步验证(图18D),结果显示与黄金标准方法Sanger测序测定100%一致(4名患者中有3名不存在DRM,一名患者有K103N突变)。值得注意的是,CARMEN HIV SNP测定比HAV小组或相关PCR对HIV检测更敏感,这可能是由于引物和crRNA的更高程度的多重化。为了证明该方法的普遍性,申请人扩大了该小组的范围,将HIV整合酶(高收入国家一线HIV疗法的靶标)的一组全面的DRM纳入其中。设计扩增引物和crRNA以靶向在2017年由International Antiviral Society-USA指定为临床相关的所有21种整合酶DRM。申请人通过测试一组9个复合合成靶标成功识别了所有这些突变(图18E,表2)。值得注意的是,这些复合靶标中有4个包含多个DRM,证实了CARMEN-Cas13同时检测多个DRM组合的能力。

表2.本研究中测试的HIV药物抗性突变的列表.

基因 突变
逆转录酶 K65R
逆转录酶 K103N
逆转录酶 V106M
逆转录酶 Y181C
逆转录酶 M184V
逆转录酶 G190A
整合酶 66A
整合酶 66I
整合酶 66K
整合酶 74M
整合酶 92G
整合酶 92Q
整合酶 97A
整合酶 121Y
整合酶 138A
整合酶 138K
整合酶 140A
整合酶 140S
整合酶 143C
整合酶 143H
整合酶 143R
整合酶 147G
整合酶 148H
整合酶 148K
整合酶 148R
整合酶 155H
整合酶 263K

论述

已经证明了CARMEN-Cas13的广泛用途——在物种、株系和SNP水平上区分病毒序列——以及快速开发和验证高度多重检测组的能力。更一般地说,CARMEN-Cas13通过提高通量、减少每次测试的试剂和样品消耗以及实现更大动态范围内的检测增强了基于CRISPR的核酸检测技术(图42A至图42C)。CARMEN的灵活性和高通量可以将新引物或crRNA添加至现有CARMEN测定中并进行快速优化,以促进对绝大多数已知病原体序列的检测。此外,在更广泛的病原体检测、发现和进化背景下,CARMEN和下一代测序是相辅相成的:CARMEN可以快速识别受感染的样品,可以对受感染的样品进行进一步测序以追踪病毒进化,新识别的序列可以为改进的基于CRISPR的诊断方法的设计提供信息。由于测序数据呈指数级增长,人们最终可能会创建对高风险病原体具有近乎完美灵敏度的CARMEN测定。将来,申请人可以想象使用区域特异性检测组测试来自选定群体(包括动物载体、动物贮库或出现症状的患者)的数千个样品。此类组的常规采用将需要仔细判读,以便在测试人体样品时对数据进行明智的临床使用。CARMEN推出了基于CRISPR的大规模诊断技术,这是实现常规全面疾病监测以改善患者护理和公共卫生的关键一步。

材料和方法

HIV患者的人体样品可以从Boca Biolistics商购获得,所有方案均已获得麻省理工学院(MIT)机构审查委员会以及麻省理工学院和哈佛大学博德研究所的批准。

一般实验程序

靶标、样品和crRNA的制备

合成靶标:从Integrated DNA Technologies(IDT)订购合成DNA靶标并将其重悬于无核酸酶水中。将重悬的DNA连续稀释至每微升104个拷贝,并用作PCR反应的输入。

样品制备:对于甲型流感病毒种子储备液和HIV临床样品,根据制造商的说明书使用具有载体RNA的QIAamp病毒RNA小型试剂盒(QIAGEN)从140μl输入物质中提取RNA。在60μl无核酸酶水中洗脱样品,并且储存于-80℃下直至使用。将5μl提取的RNA在20μl反应中转化为单链cDNA。首先,使无规六聚物引物在70℃下退火至RNA样品持续7分钟,随后使用SuperScript IV利用规六聚物引物在55℃下进行逆转录持续20分钟,无需RNA酶H处理。将cDNA储存于-20℃下直至使用。

crRNA制备:对于病毒检测(图15至图18),通过Synthego合成crRNA并将其重悬于无核酸酶水中。对于SNP检测(图18),将crRNA DNA模板在1x Taq反应缓冲液(New EnglandBiolabs)中以10μM的最终浓度退火至T7启动子寡核苷酸。该程序包括在95℃下进行5分钟的初始变性,随后以每分钟5℃退火至4℃。使用HiScribe T7高收率RNA合成试剂盒(NewEngland Biolabs)从体外退火的DNA模板转录SNP检测crRNA。对于短RNA转录物根据制造商的说明书进行转录,其中体积按比例调整至30μl。将反应物在37℃下孵育18小时或过夜。使用RNAClean XP珠粒(Beckman Coulter)以珠粒与反应物体积的2x比率并且额外补充1.8x异丙醇来纯化转录物,并重悬于无核酸酶水中。然后使用NanoDrop One(ThermoScientific)或在Take3板上定量体外转录的RNA产物,并且通过Cytation 5(BiotekInstruments)测量吸光度。Cas13a通过重组表达并如Genscript所述纯化,并且储存于储存缓冲液(600mM NaCl,50mM Tris-HCl pH 7.5,5%甘油,2mM DTT)中。

核酸扩增

除非另外指明,否则使用Q5热启动聚合酶(New England Biolabs)使用引物汇集物(各引物150nM)在20μl反应中通过PCR进行扩增。将扩增的样品储存于-20℃下直至使用。有关热循环条件的详细信息,参见方法。

Cas13检测反应

Cas13检测反应:在含有1mM ATP、1mM GTP、1mM UTP、1mM CTP和0.6μl T7聚合酶混合物(Lucigen)的核酸酶测定缓冲液(40mM Tris-HCl,60mM NaCl,pH 7.3)中使用45nM纯化的LwaCas13a、22.5nM crRNA、500nM猝灭荧光RNA报告子(RNA酶Alert v2,ThermoScientific)、2μl鼠RNA酶抑制剂(New England Biolabs)进行检测测定。扩增核酸的输入随测定变化,详细信息如本文所述。检测混合物制备为2.2x主混合物,使得每个液滴在颜色编码后包含2x主混合物,在液滴合并后包含1x主混合物。

颜色编码、乳化和液滴汇集

颜色编码:除非另外指明,否则将在颜色编码前扩增样品以1:10比率稀释到补充有13.2mM MgCl2的无核酸酶水中,以在液滴合并后达到6mM的最终浓度。未稀释检测混合物。将色码储备液(2μL)排列在96W板中(有关构建色码的详细信息,参见下面的方法)。将各扩增样品或检测混合物(18μL)添加至不同色码中,并通过移液混合。

乳化:将含颜色编码试剂(20μL)和2%008-氟表面活性剂(RAN Biotechnologies)的氟油(3M 7500,70μL)添加至液滴发生器筒(Bio Rad)中,并且使用液滴发生器(QX200,Bio Rad)将试剂乳化成液滴。

液滴汇集:使用总液滴汇集物体积为150μL的液滴加载每个标准芯片;总共使用800μL液滴来加载每个mChip。为了最大限度地提高形成生产性液滴配对(扩增样品液滴+检测试剂液滴)的可能性,总液滴汇集物体积的一半用于靶向液滴,一半用于检测试剂液滴。为了合并,将单个液滴混合物排列在96W板中。使用多通道移液管将各液滴类型的必要体积转移到单排8个液滴汇集物中,将这些液滴汇集物进一步组合以形成单一液滴汇集物。轻轻地上下吸移最终的液滴汇集物以完全随机化汇集物中液滴的排列。

加载、成像以及合并微孔阵列

微孔阵列加载(标准芯片):如先前所述加载标准芯片。简而言之,将每个芯片置于丙烯酸芯片加载器中,使得芯片悬浮在疏水性玻璃表面上方约300-500μm处,从而在芯片与玻璃之间形成流动空间。对流动空间填充氟油(3M,7500)直至加载;在即将加载之前,将氟油从流动空间中排出。在单一移液步骤中,将液滴汇集物添加至流动空间中(图20,步骤3)。倾斜加载器以在流动空间内移动液滴汇集物直至微孔充满液滴。使用不含表面活性剂的新鲜氟油(3M 7500)清洗流动空间(3x 1mL),使流动空间充满油,并通过拧紧加载器将芯片密封在玻璃上(图20,步骤4)。将额外的油(1mL)添加至加载槽中,并将槽用透明带(Scotch)密封以防止蒸发。

微孔阵列加载(mChip):将mChip的背面压贴在mChip加载器的盖子上,以将芯片粘附到盖子上,并使微孔阵列朝外(图25C,中图)。将盖子置于加载器底座上,使得盖子和底座中的相对磁铁将盖子和芯片保持在底座上方(图25C,右图和图25D)。使用螺钉上的翼形螺母将盖子推向底座,直至芯片表面和底座之间的流动空间为约300-500μm(图25C,右图)。对流动空间填充氟油(3M,7500)直至加载;在即将加载之前,将氟油从流动空间中排出。在单一移液步骤中,通过沿芯片边缘移液将液滴汇集物添加至流动空间中(图25D,步骤3)。倾斜加载器以在流动空间内移动液滴汇集物直至微孔充满液滴。使用不含表面活性剂的新鲜氟油(3M 7500)清洗流动空间(3x1mL)。将两片PCR膜(MicroAmp,Applied Biosystems)通过将一片膜的粘性侧置于另一片膜的边缘几毫米处接合起来。将PCR膜薄片用氟油润湿并搁置。回到加载器:卸下翼形螺母,以便可以从底座上卸下加载器的盖子(连接了mChip)。将mChip以单次平滑运动密封在湿PCR膜薄片上(图25D,步骤4)。用剃刀刀片修剪悬在芯片边缘上的多余PCR膜。

微孔阵列成像、合并和后续成像:芯片加载之后,通过荧光显微镜法识别每个液滴的色码(图20,步骤4)。成像之后,通过将电晕处理器的尖端通过玻璃或PCR膜来合并每个微孔中的液滴对(图20,步骤5)。立即通过荧光显微镜法对合并液滴成像(图20,步骤6)并置于孵育器(37℃)中,直至随后的成像时间点。所有成像均在配备自动载物台(LudlElectronics,Bio Precision 3LM)、LED光源(Sola)和相机(Hamamatsu)的Nikon TI2显微镜上进行。标准芯片使用2x物镜成像,而mChip使用1x物镜,以减少成像时间。在成像过程中,将显微镜聚光镜向后倾斜以减少488通道中的背景荧光。另外,在涉及UV通道成像的实验中,将黑色布盖在显微镜上以减少从天花板散射的光产生的背景荧光。

数据分析

数据分析:用自定义Python脚本分析成像数据。分析由三部分组成:(1)合并前图像分析,以基于液滴色码确定每个液滴内容物的身份;(2)合并后图像分析,以确定每个液滴对的荧光输出,并将这些荧光值映射回微孔的内容物;(3)对第1部分和第2部分中获得的数据进行统计分析。

合并前图像分析:根据液滴合并前获取的图像确定每个液滴的内容物:从每个液滴图像中减去背景图像,并缩放荧光通道强度,使得每个通道的强度范围为大致相同。使用霍夫变换识别液滴,并从局部卷积图像确定每个液滴位置处每个通道的荧光强度。应用交叉通道光学流失补偿,并将所有荧光强度归一化为647nm、594nm和555nm通道的总和。对于4通道数据组,直接对归一化强度进行三色空间分析。对于5通道数据组,将液滴分成UV强度分区用于下游分析(图24)。单独分析每个UV分区的三色空间。将每个液滴的3色强度向量投影到单位单形上,并使用基于密度的噪声应用空间聚类(DBSCAN)为每个色码簇指派标签。必要时进行手动聚类调整。对于5通道数据组,在指派后重新组合UV强度分区以创建完整数据组(图24)。

合并后图像分析:背景扣除、强度缩放、补偿和归一化与合并前分析一样进行。在进行合并前和合并后图像的图像配准之后,每个液滴对位置的报告通道的荧光强度由局部卷积图像确定。将荧光报告通道物理映射到每个色码的先前确定的位置,用于将报告通道中的荧光信号指派给每个孔的内容物。对适当的合并后液滴大小(不包括未合并的液滴对)和液滴色码与其指定簇的接近程度(参见图24)应用质量过滤。

统计分析:从每个crRNA-靶标对的中值荧光值生成热图。通过计算中靶和所有脱靶液滴的荧光分布的接受者操作特征(ROC)曲线并确定曲线下面积(AUC)来评估每个指导物的性能。

实验特异性方案

寨卡病毒检测(图15C)

核酸扩增:对于寨卡病毒检测(图15C,图22),使用重组酶聚合酶扩增(RPA)。根据制造商的说明书,使用Twist-Dx RT-RPA试剂盒进行RPA反应。引物浓度为480nM,并且MgAc浓度为17mM。对于涉及RNA的扩增反应,以每微升2个单位的最终浓度使用鼠RNA酶抑制剂(New England Biolabs M3014L)。除非另外说明,否则所有RPA反应物均在41℃下孵育20分钟。列出了RPA引物序列。在颜色编码之前,将RPA反应物在无核酸酶水中以1:10稀释。

Cas13检测反应:对于寨卡病毒检测实验(图15C),在液滴合并之前,将检测混合物以6mM最终浓度补充MgCl2。为了比较CARMEN和SHERLOCK(图22),使用Biotek Cytation 5酶标仪测量检测反应的荧光。使用单色器以485nm下激发和520nm下发射来监测荧光动力学,每5分钟读取直至3小时。

人类相关病毒小组(图16)

核酸扩增:对于人类相关病毒小组,使用Q5热启动聚合酶(New England Biolabs)使用引物汇集物(各引物150nM)在20μl反应中进行扩增。使用以下热循环条件:(i)在98℃下进行初始变性持续2分钟;(ii)98℃持续15s、50℃持续30s和72℃持续30s,45个循环;(iii)在72℃下最终延伸持续2分钟。

甲型流感(图17)

种子储备液信息:本研究中使用三种甲型流感病毒株的病毒种子储备液:A/Puerto Rico/8/1934(H1N1)、A/Hong Kong/1-1-MA-12/1968(H3N2)和A/Hong Kong/1/1968-2小鼠适应21-2(H3N2)。

核酸扩增:对于流感亚型分型小组,使用Q5热启动聚合酶(New England Biolabs)使用引物汇集物(各引物150nM)在20μl反应中进行扩增。使用以下热循环条件:(i)在98℃下进行初始变性持续2分钟;(ii)98℃持续15s、52℃持续30s和72℃持续30s,40个循环;(iii)在72℃下最终延伸持续2分钟。对于图3D中所示的实验,将H和N扩增反应物一起稀释。在颜色编码之前,将H反应物以1:10稀释,N以1:5稀释到补充有13.2mM MgCl2的无核酸酶水中。

HIV DRM(图18)

核酸扩增:对于HIV DRM组,使用Q5热启动聚合酶(New England Biolabs)使用引物汇集物(各引物150nM)在20μl反应中进行扩增。使用以下热循环条件:(i)在98℃下进行初始变性持续2分钟;(ii)98℃持续15s、52℃持续30s和72℃持续30s,40个循环;(iii)在72℃下最终延伸持续2分钟。对于图4中所示的实验,将偶奇反应物以1:10比率一起稀释到补充有13.2mM MgCl2的无核酸酶水中,然后进行颜色编码。

软件和核酸序列设计

人类相关病毒小组设计

概述:图26示出了人类相关病毒小组序列设计策略的示意图。简而言之,设计流程由病毒基因组区段比对、PCR扩增子选择,然后是crRNA选择与交叉反应性检查组成。最后,以系统发育方式汇集PCR引物。

病毒基因组区段比对:从NCBI下载病毒基因组邻近物。每个病毒种的每个区段都使用mafft v7.31以以下参数比对:--retree 1--preservecase。进行比对是为了去除那些被指派到错误物种、反向互补或来自错误基因组区段的序列。比对的基因组区段的链接可见于:

PCR扩增子选择:使用CATCH-dx识别潜在的PCR结合位点,窗口大小和长度为20个核苷酸,并且比对中的序列覆盖率要求为90%。(1)Automated and continuous crRNAdesign to comprehensively target diverse sequences.Manuscript inpreparation.2)Capturing sequence diversity in metagenomes with comprehensiveand scalable probe design.Nature Biotechnology(2019)。)

选择距离为70和200个核苷酸的潜在引物结合位点对。将这些潜在的引物对输入到primer3 v2.4.0中,看看是否可以设计合适的PCR引物进行扩增。Primer3使用以下参数运行:PRIMER_TASK=generic,PRIMER_EXPLAIN_FLAG=1,PRIMER_MIN_SIZE=15,PRIMER_OPT_SIZE=18,PRIMER_MAX_SIZE=20,PRIMER_MIN_GC=30.0,PRIMER_MAX_GC=70.0,PRIMER_MAX_Ns_ACCEPTED=0,PRIMER_MIN_TM=52.0,PRIMER_OPT_TM=54.0,PRIMER_MAX_TM=56.0,PRIMER_MAX_DIFF_TM=1.5,PRIMER_MAX_HAIRPIN_TH=40.0,PRIMER_MAX_SELF_END_TH=40.0,PRIMER_MAX_SELF_ANY_TH=40.0,PRIMER_PRODUCT_SIZE_RANGE=70-200。通过以下方式生成潜在扩增子列表:解析primer3输出文件,过滤以确保任一正向引物和反向引物对之间的最大熔融温度差异小于4℃(使得汇集物中的所有引物具有相似的PCR效率)。如由primer3测量的,然后基于设计中所有正向引物和反向引物对之间的平均成对罚分对潜在扩增子列表进行评分。选择每个物种中得分最高的扩增子进行crRNA设计。

crRNA设计:使用称为CATCH-dx的软件包确定在每个扩增子比对的40nt窗口内结合至90%序列所需的最小crRNA数量,在窗口内允许最多一个错配,并允许G-U配对。在科水平上测试这些crRNA组的交叉反应性,同一科内其他物种的>99%的序列需要3个或更多个错配,允许G-U配对。选择该严格阈值是为了确保人类相关病毒测定的高特异性。对于密切相关的病毒属(肠道病毒和痘病毒),选择每个物种的多数共有序列不同的区域,并且只考虑在多数共有水平上有足够序列差异的窗口中的crRNA。

引物汇集:为一组169个物种设计引物,这些物种在数据库中有至少一个区段>=10个序列,以下称为人类相关病毒小组10版本1或hav10-v1。由于多重PCR的限制,将为版本1中169个hav10种设计的210个引物对分成15个引物汇集物,下面进行更详细地描述。

保守引物汇集物:选择14个物种作为前导实验,以测试引物设计算法和汇集策略。将这些物种以150nM的最终浓度组合成单一“保守”引物汇集物。

表3.HAV第1轮靶标和crRNA

表4.HAV第1轮引物

表5a.HAV第2轮引物

表5b.HAV第2轮靶标和crRNA

多样引物汇集物:169个hav10种中的164个具有3个或更少引物对的设计(覆盖它们需要总共187个引物序列:145个具有1个引物对,15个具有2个引物对,4个具有3对引物对)。有四个物种需要超过三个引物对:淋巴细胞性脉络丛脑膜炎病毒(LCMV,7个引物对)、诺罗病毒(4个引物对)、β乳头瘤病毒2(6个引物对)和坎第鲁静脉病毒(6个引物对)。将这四个物种以150nM的最终浓度组合成单一“多样”引物汇集物。

简并引物汇集物:对于169个hav10种中的167个,可以使用CATCH-dx/primer3设计引物组,其覆盖数据库中>90%的基因组,引物对少于10个。然而,对于两个物种(猿猴免疫缺陷病毒和札幌病毒),无法使用计算设计策略识别足够保守的引物结合位点对。相反,引物被设计成具有若干简并碱基以捕获广泛的序列多样性,并手动识别扩增子。将这些引物以600nM的最终浓度用于“简并”引物汇集物。

剩余引物汇集物:对于剩余的149个hav10种,申请人以系统发育方式汇集引物,使得各库包含来自1-3个病毒属的种(有关详细信息参见表4)。汇集物4中一个物种(威德尔海豹细环病毒-1,Torque teno Leptonychotes weddellii virus-1)的引物包含一些简并碱基,并且是手动设计的。这些引物以150nM的最终浓度使用。

第二版重新设计:在测试hav10-v1设计之后,重新设计3个扩增子:Orthohepesvirus A、鼻病毒A和鼻病毒B。重新汇集新设计的引物以产生汇集物8v2和12v2,并且设计新的crRNA序列以靶向这些扩增子。基于hav10-v1测试的结果,申请人重新设计了14个物种的现有v1扩增子内的crRNA(参见表5b)。

在96W板中进行的等效实验的单次重复需要约300个板和>1L检测混合物。

甲型流感设计

引物设计:N个引物基于单一汇集物中每个亚型(9个引物对)的多数共有序列。使用CATCH-dx设计覆盖每个亚型内至少95%序列的H引物。单一汇集物中总共有45个引物(15个正向引物,30个反向引物)。

表6.流感引物

crRNA设计:设计由少量crRNA序列组成的组以使用CATCH-dx选择性地靶向单个H或N亚型。通过在每一轮设计中加入新功能,该设计方法在整个过程中得到改进(图32)。在第一轮设计中,申请人只设计了H crRNA,并且要求所有crRNAs能够杂交所有序列的90%,最多允许1个错配。组中的crRNA可位于扩增子中的任何位置。在第二轮设计中,申请人为H和N都设计了crRNA,并基于序列比对限制了组内crRNA的位置(H在91nt窗口内,N在35nt窗口内),扩增子内的一些位置相比其他位置在亚型之间更保守。此外,通过为2017年之前的序列引入指数式衰减参数,设计的覆盖范围被加权到最近几年。在第三轮中,实施了差异化设计方法,其中当与任何其他亚型内的至少99%的序列杂交时,要求所有crRNA都具有至少3个错配。在第四轮中,修改了杂交模型以考虑G-U配对,将阈值提高到每个亚型中95%的序列,允许多达1个错配。每一轮设计都经过实验测试,并结合使用设计之间的高性能crRNA。H需要4轮设计,而N只需要2轮(第2轮和第3轮)。

表7.流感靶标

表8.流感crRNA

HIV DRM小组设计

引物设计:申请人使用了一种引物汇集策略,其中基于逆转录酶和整合酶基因内DRM的位置,将引物对分成重叠的“奇数”和“偶数”引物汇集物。这允许所有突变都包含在至少一个扩增子中,而不会在扩增过程中产生任何问题。使用primer3 v2.4.0以以下参数设计引物序列:

PRIMER_PRODUCT_OPT_SIZE=150,PRIMER_MAX_GC=70,PRIMER_MIN_GC=30,PRIMER_OPT_GC_PERCENT=50,PRIMER_MIN_TM=55,PRIMER_MAX_TM=60,PRIMER_DNA_CONC=150,PRIMER_OPT_SIZE=20,PRIMER_MIN_SIZE=16,PRIMER_MAX_SIZE=29。扩增子长度介于150和250个核苷酸之间。所有引物序列示于表9中。

crRNA设计:使用三种不同的策略为HIV DRM识别设计crRNA对:3位上的突变和5位上的合成错配、3-5位上的DRM密码子和6位上的合成错配,以及4-6位上的DRM密码子与3位上的合成错配。基于HIV亚型B共有序列,使用对每个对应氨基酸最常使用的密码子设计序列。所有设计都经过实验测试,并为最终小组选择性能最佳的设计。

表9.HIV

硬件开发和构建

微孔阵列芯片设计和制造

微孔阵列设计:凭经验测试优化微孔尺寸,以平衡液滴加载速度(孔越大越快)和微孔内的液滴-液滴紧密度(孔越小合并效果越佳)。对于由PCR扩增反应或Cas13检测混合物制成的液滴,通过接合两个直径为158μm且重叠为10%的圆圈来实现最佳孔几何形状(图21A)。每个孔之间37μm的最小距离促进了一致的芯片制造,而不会发生PDMS撕裂(参见下面的微孔芯片制造)。标准芯片的总微孔阵列为6.0x5.5cm(51,496个微孔);加载槽部分地遮挡微孔阵列,使功能性阵列尺寸减小到6.0x约4.5cm(约42,400个微孔)(图21B)。mChip具有12x9.1cm的微孔阵列,承载177,840个微孔(图25A)。mChip微孔阵列被0.1-0.3cm的PDMS边界包围,从而促进芯片边缘周围的牢固密封。mChip的总尺寸被设计成最大限度地增加可在标准显微镜载物台(16x11cm开口,Bio Precision LM电动载物台,Ludl Electronics)区域上成像的孔的数目,同时仍允许使用标准硅晶片(15cm)制造芯片(图25B)。

微孔芯片制造:根据标准的硬和软光刻实践使用丙烯酸模具制造聚二甲基硅氧烷(PDMS)芯片,以实现一致的芯片尺寸;先前已描述了标准尺寸芯片的制造(PNAS#1)。对于mChip,将150mm晶片(WaferNet,Inc.,#S64801)以2500rpm在旋涂机(型号WS-650MZ-23NPP,Laurell Technologies)上清洗,用丙酮清洗一次,用异丙醇清洗一次。将光刻胶(SU-82050,MicroChem)通过两步法旋涂到每个晶片上:(1)30秒,500rpm,加速度30;(2)59秒,1285rpm,加速度50。将晶片在65℃下烘烤5分钟,随后在95℃下烘烤18分钟。冷却1分钟之后,将涂覆的晶片置于适当的光掩模下并进行辐照(5x3秒,350W,型号200,OAI)。将晶片再次在65℃下烘烤3分钟,在95℃下烘烤9分钟。冷却1分钟之后,将晶片在SU-8显影剂下孵育5分钟。通过以2500rpm旋转去除显影剂,将丙酮和异丙醇洗涤液直接施加到旋转的晶片上以去除多余的显影剂和光刻胶。通过光学显微镜下的目视检查和轮廓测定法来测量特征尺寸(Contour GT,Bruker)来表征每个晶片。将晶片置于丙烯酸模具内并用磁体固定(图25B)。为了从模具制造芯片,将PDMS混合并倒入模具中,并将整个模具置于真空下3-5分钟。用丙烯酸盖子封闭模具以实现均一的芯片厚度,并将芯片烘烤至少2小时。从模具中取出芯片之后,将承载微孔阵列的芯片表面和各侧面(但不是芯片与微孔阵列相对的背面)涂覆1.5μm聚对二甲苯C(Paratronix/MicroChem,Westborough,MA)。将芯片在室温下储存于塑料袋中直至使用。

丙烯酸装置制造(模具和加载器):如先前所述构建用于标准芯片生产和处理的模具(PNAS#1)和加载器(PNAS#2)。使用相似的方法构建mChip的模具和加载器(图25B)。简而言之,从Amazon(Small Parts,#B004N1JLI4)购得12”x12”浇铸丙烯酸薄片(1/4”或1/8”,透明的或黑色的)。在AutoCAD(AutoDesk)中创建模具和加载器设计,并使用Epilog FusionM2激光切割器(60W)切割零件。通过用二氯甲烷(Sigma Aldrich)润湿将丙烯酸零件融合在一起。将N42钕圆盘磁体(Applied Magnets,Inc.,Plano,TX)添加至具有环氧树脂(Loctite,Metal/Concrete)的装置中。有头螺钉(M4 x 25)、螺母(M4)和垫圈(M4)购自Thorlabs。

色码设计、构建和表征

色码设计:色码充当乳化成液滴的各试剂(例如检测混合物或扩增样品)的光学独特溶液标识符。原始64色码组是由不同比率的3种荧光染料制成的,使得三种染料([染料1]+[染料2]+[染料3])的总浓度是恒定的,并充当内部对照用于对整个视野中或芯片上不同位置处的照明变化进行归一化(PNAS#1)。如先前所述(PNAS#1),这64色码组的总工作染料浓度为1-5μM。通过以下方式设计1050个色码:(1)将3种荧光染料的总工作浓度增加到20μM,以便可以在三色空间中如实标识210个色码(图24A和图24B);以及(2)以五种浓度(0、3、7、12或20μM)之一添加第四种荧光染料,以将210个色码乘以五(图24A)。在此设计中,将4种染料强度中的每一种都归一化为前3种荧光染料的总和。

色码构建:如先前所述(PNAS#1)构建标准64色码组(50μM储备液浓度;1-5μM工作浓度)。如下使用相似方法构建210个色码(400μM储备液浓度;20μM工作浓度)。将AlexaFluor 647(AF647)、Alexa Fluor 594(AF594)、Alexa Fluor 555(AF555)和Alexa Fluor405NHS酯(AF405-NHS)(Thermo Fisher)在DMSO(Sigma)中稀释至25mM。由于这些染料的摩尔质量是专有的,因此使用制造商提供的以下近似质量进行计算:AF647:1135g/mol;AF594:1026g/mol;AF555:1135g/mol;AF405-NHS:1028g/mol。将DMSO中的染料储备液在无DNA酶/RNA酶的水(Life Technologies)中进一步稀释至400μm。Alexa Fluor 405NHS酯在室温下孵育一小时,使NHS酯水解并产生Alexa Fluor 405(AF405)。使用自定义Matlab脚本计算染料体积以组合从而在三色空间中均匀分布210个色码(表10b)。使用Janus Mini液体处理器(Perkin Elmer)在96孔板(Eppendorf)中构建3色染料组合(由AF647、AF594和AF555制成)。为了构建1050个色码,将AF405手动稀释至五个浓度(0、60、140、240和400μm),将各浓度排列在96孔板中。使用Bravo(供应商)将210个色码(10μL)和AF405(10μL)中的每一者组合并混合在新鲜96孔板中。AF647、AF594和AF555的总最终储备液浓度为200μM;AF405的最终浓度为0、30、70、120和200μM。将储备液以1:10稀释到扩增样品或检测混合物中供使用。

1050色码组的表征:将各色码在LB肉汤(一种产生与PCR产物和检测试剂制成的液滴大小相似的液滴的培养基)中按1:10稀释,最终总3染料浓度为20μM。如上文第II.D.部分所述,将各溶液乳化成液滴。如先前所述[PNAS#1]测量色码策略的保真度。

表10a至表10b在表10a和表10b中,每一行代表一个色码。每一列给出了三种染料中一种染料的体积(μm)。每一色码的总体积为50μL。

表10a 64个色码.

表10b.210个色码

三色空间中的表征:如先前所述测量三色空间中色码策略的保真度8。将三色空间中的每个色码指派给三个芯片之一。进行指派以最大化任何芯片上色码之间的分离,并且每个芯片接收1/3的色码(总共70个)(图38B和图38C)。将来自指派给芯片1的色码的液滴(70个3色码x 5UV浓度=350个液滴乳液)汇集并加载到标准芯片上。以相似方式制备芯片2和芯片3。对芯片成像(需注意,在色码表征实验中没有进行合并),并且将每个液滴以计算方式指派给一个色码簇。芯片1、2和3的实验结果用作“地面真值”指派。然后将来自芯片1、2和3的数据以计算方式组合,这有效地增加三色空间中色码簇的密度,将液滴重新指派给这个更拥挤的三色空间中的色码簇(图38B和图38C)。最后,应用滑动距离过滤器去除簇边缘或簇之间的液滴,并将液滴重新指派给色码簇(图38B和图38F)。滑动距离过滤器是指每个簇质心周围的半径,用于去除落在簇之间空间中的液滴(图38F)。半径可更大(以包括更多液滴)或更小(以更严格地过滤掉液滴)。将新指派与“地面真值”指派进行比较,以测量当色码未在三个芯片上分开就会被错误分类的液滴的百分比(图38C和图38D)。在此处演示的工作中,滑动距离过滤器的半径设定为在测试数据集中实现至少99.5%的正确分类,对应于去除6%的液滴。

沿第4颜色维度的表征:将第4种荧光染料的五种浓度在两个芯片之间分派(芯片1:0、7、20μM;芯片2:3、12μM)(图38E)。将来自指派给芯片1的染料强度的液滴(3UV强度x210个色码=620个乳液)汇集并加载到标准芯片上。芯片2以相似的方式制备,但混合乳液较少(2UV强度x 210个色码=420个乳液)。对芯片成像(需注意,在色码表征实验中没有进行合并),并且将每个液滴以计算方式指派给一个UV强度分区。芯片1和芯片2的实验结果用作“地面真值”指派。然后将来自芯片1和芯片2的数据以计算方式组合,这有效地增加沿第4颜色维度的UV强度分区的强度,将液滴重新指派给这个更拥挤的空间中的UV强度分区(图38E)。最后,应用滑动距离过滤器去除强度分区边缘或强度分区之间的液滴,并将液滴重新指派给UV强度分区(图38E)。将新指派与“地面真值”指派进行比较,以测量当UV强度未在三个芯片上分开就会被错误分类的液滴的百分比(图38E)。由于在未过滤的情况下第4颜色维度中的分类足够高(>99.5%准确度),因此未对实验数据应用第4颜色维度中的过滤。

微孔阵列统计:可以在一个芯片上执行的测试的数量取决于每个芯片的生产性液滴对的数量以及进行准确识别所需的每次测试的重复次数。

首先,考虑影响每个芯片的生产性液滴对数量的因素:标准芯片的微孔阵列包含42,000个微孔。根据经验观察,加载效率为约70%,另外约10%的微孔因色码过滤而弃用(参见下文)。最后,随机液滴配对产生约50%的生产性液滴对(一个液滴包含扩增样品,一个液滴包含检测混合物)。总体而言,每个芯片上约10,000-14,000个液滴对产生可用的数据。mChip微孔阵列包含约177,000个微孔,产生约65,000个可用的液滴对/芯片。

其次,考虑影响制作准确识别芯片所需的每次测试重复次数的因素:绝大多数阳性检测反应具有高于背景的高信号和少量重复间变异,并且色码分类非常好(过滤后>99.5%的准确度,参见图38A至图38G),表明所需每次测试重复次数可能非常低。作为正确识别高于背景的信号所需的重复次数的实验测量,对CARMEN-Cas13寨卡病毒检测数据(图22A至图22E以及材料和方法)进行先导分析,结果揭示在>99.9%的先导样品中最少3次重复才能正确识别高于背景的信号。

应该注意的是,进行准确识别所需的重复次数随应用程序类型变化。对于接近二进制读出的核酸检测,3次重复就足够了。然而,对于依赖于区分两个crRNA与给定靶标的相对反应速率的SNP辨别,先导分析表明需要10-15次重复(数据未显示)。另外,对于定量应用,可能需要多次重复以产生在地面真值的所需容差(例如5%)内的结果。

最后,使用上文确定的值论述了如何计算可在一个芯片上执行的测试的数量。微孔阵列中的液滴配对是随机的;因此,每次测试的重复次数分布是泊松分布。用户可将每次测试的平均重复次数(泊松分布的平均值)设置得更高或更低,以控制由于采样不足而导致测试丢失的概率。举例来说,使用每次测试平均12次重复,由于缺少重复(<3次重复)而导致任何测试无法解释的概率为2,000分之一。对于标准芯片(约12,000个生产性液滴对),每次测试平均12次重复允许每个芯片进行1,000次测试,其中每个芯片的丢失率远低于1(2000分之一)。对于产生约65,000个液滴对的mChip,每个芯片执行5,000次测试产生每次测试14次重复的平均值,并将丢失概率降低到10,000分之一(每个芯片低于1)。在必须为每一测试提供结果的情况下,诸如临床诊断,可进一步提高平均重复水平,以确保每一测试的采样率都很高,且由于采样不足而导致的丢失率非常低。

在汇集过程中控制液滴之间的溶质交换:先前已描述过液滴-微孔平台中小分子交换的动力学8。小分子可能会分配到表面活性剂胶束中,并在汇集步骤期间在液滴之间交换,该过程持续时间<10min。汇集期间荧光染料的交换可忽略不计,并且不会影响色码分类8。一旦液滴加载到微孔阵列中,PDMS微孔的涂聚对二甲苯壁会阻止进一步交换8。有利的是,大的亲水分子或带电分子的扩散在该系统中不是问题,因为小分子可以借之以离开液滴的表面活性剂依赖性机制既不期望也未观察到使蛋白质或核酸逃逸。事实上,基于相似油、表面活性剂和缓冲液的用于超灵敏核酸检测的市售系统(例如数字液滴PCR)已经非常完善。

实验设计的灵活性:芯片上的测试次数是样品数和检测混合物数的乘积,该数可根据用户的需要确定(例如10个样品x 100个检测混合物,或100个样品x 10个检测混合物)。值得注意的是,当测试矩阵近似近似正方形:样品数和检测混合物数都很高(例如>10)时,CARMEN会大放异彩。要以常规方式进行这样的实验,液体处理(无论是手动还是机器人)是复杂且耗时的,试剂消耗成本高(参见下文成本分析),并且测试可能受到样品限制。CARMEN使用小型化和液滴自组织来规避这些问题(参见正文)。对于仅需要高样品通量的用例(许多样品x 1个检测混合物),CARMEN显著降低了成本(见下文),但实验设置是线性的(样品x 1),因此多通道移液器同样具有时间效率。对于仅需要多重检测的用例(1个样品x许多检测混合物),如果灵敏度足以满足应用,用户可考虑宏基因组测序,而CARMEN可能是需要高灵敏度和广泛多重检测的理想选择。

色码分析:色码分类是稳健的(图38A至图38G)。在创建和表征一组色码后,将这些色码在冰箱外用于每个实验,无需额外校准。将每个色码归一化为包含三色空间(AlexaFluor 647、594和555)的三种荧光染料的总和,使系统对荧光成像伪影稳健,并且很容易出现离散的色码簇。每个簇代表具有已知内容物的液滴组(例如来自检测混合物4的液滴)。通过引入液滴色码与其色码簇中心的最大距离阈值(即距离阈值,参见材料和方法),滤除颜色空间中的不确定点。在一个色码簇开始与另一个色码簇重叠的罕见情况下,只有两个冲突的簇会受到影响(并且几乎总是可以被解决,尽管会丢失重复),而其余色码不受影响。此类冲突色码可以在未来的实验中被省略,而不会对整体组产生任何不利影响,用户也不必重新创建整个色码组。

由于色码错误分类而导致的假阴性和假阳性:如果测试有足够多的重复被错误分类,那么测试的结果可能会改变。测试的荧光值是所有重复的中值;为了使阳性测试的中位数下降到背景(即变为假阴性),大多数重复将必须是错误分类的液滴对,没有高于背景的信号(暗液滴对)。由于检测矩阵稀疏,错误分类的液滴对是暗液滴对的几率很高(在人类相关病毒小组测试中为99%)。与假阳性相比,这大大增加了假阴性的几率。对于假阴性,假设液滴错误分类率为0.005(参见下文和图38A至图38G),液滴对被错误分类的概率为0.01。对于5个重复,大多数重复被错误分类的几率为0.01x0.01x0.01x(5选3)=1/100,000。增加到7个重复将几率提高到<2百万分之一。因此,在确保准确识别至关重要的情况下,诸如临床诊断,可以增加重复次数以显著降低由于液滴错误分类而导致错误识别测试的几率。

成本和样品消耗分析:CARMEN-Cas13的一个关键优势是它使Cas13检测反应小型化,从而减少了每次测试试剂和样品的消耗。使用常规大体积(数10微升)测试(诸如SHERLOCK、DETECTR、qPCR、ELISA和LAMP),针对数百个靶标测试数十个样品时,试剂和耗材成本占主导。因此,当针对许多靶标测试许多样品时,申请人试图量化由CARMEN赋予的相对于这些方法的成本优势。

为了分析与CARMEN-Cas13相关的成本,申请人首先仅考虑检测试剂的成本,然后考虑额外的成本(塑料包括阵列、液滴产生和色码)。

CARMEN-Cas13通常将每次测试的检测体积减少>400倍(从执行4次重复标准20ul检测反应的92微升到执行平均10个重复液滴对的CARMEN-Cas13测试少于0.2微升)。相对于SHERLOCK,这使得成本降低>300倍,因为申请人在CARMEN-Cas13中使用了4x高浓度的荧光切割报告子(参见表11)。考虑到每个芯片额外的固定成本加上颜色编码及乳化样品的成本,CARMEN-Cas13每次测试的成本比等效SHERLOCK测试的成本便宜>100倍(参见表11)。

表11.关于CARMEN-Cas13的消耗品成本计算.

CARMEN的设备成本较高,但并不比其他多重核酸检测方法高很多,未来可能会得到改进。与许多其他使用荧光读出(qPCR,FISH)的方法一样,CARMEN-Cas13需要在4-5个通道中灵敏地检测荧光。CARMEN-Cas13还需要一些自动成像功能,以方便从微孔阵列获取数据。多模式酶标仪或qPCR机的成本约为$30,000,而适用于CARMEN的显微镜的成本约为$50,000(额外的成本来自CARMEN的成像要求)。这两者都比通常用于高通量宏基因组测序(例如HiSeq、NextSeq、NovaSeq)的Illumina测序仪便宜得多。

除了荧光读出设备,CARMEN还需要液滴产生设备。虽然商用机器Bio-Rad QX200($31,000)可用于液滴产生,但通过使用定制制造的压力歧管可以大幅降低液滴产生的设备需求,成本约为$2,000。因此,液滴产生硬件是CARMEN技术总成本的一个次要组成部分。

虽然劳动力成本难以量化,但CARMEN-Cas13每次测试所需的劳动力量低于RT-qPCR、ELISA或LAMP等低重测定。尽管设置、成像和分析单个mChip需要例如大约8人-小时,但每个芯片约5,000次测试相当于>50个完整384孔板(每次测试包含3-4个技术重复,这是在基于板的测定中达到统计功效所需的数量)。因此,每个完整384孔板等效物所需的时间小于10人-分钟;在申请人手中,设置一个完整384孔板至少需要一个小时;从解冻试剂开始,到测定开始时结束。此外,CARMEN-Cas13的方案比用于下一代测序的文库制备更简单,需要更少的步骤和更少的时间来完成。

应该注意的是,在比较执行CARMEN-Cas13与其他测定的成本时,需要考虑实验的规模。具体地说,许多相关成本与芯片数量成比,或与扩增样品数量和Cas13检测混合物数量之和呈线性关系。因此,CARMEN-Cas13的一个不太有利的用例是测试1个样品的数百种潜在病毒:由于固定成本,相对于在标准微量滴定板中执行相同的实验,节省的成本会更小。当同时测试多个样品时,成本会大幅下降,因为向特定芯片添加新样品的边际成本仅为几美元。CARMEN的组合性质进一步降低了测试许多样品是否存在许多靶标的成本。应该注意的是,在每次测试试剂成本较低的限制下,样品处理可能会占总成本的主导地位,因为样品成本随样品数量而不是正在执行的测试数量而变化。因此,为了能够以比CARMEN-Cas13更高的通量进行样品测试,需要显著降低与样品收集和处理相关的成本和劳动力。

最后,对患者样品进行数十或数百次SHERLOCK、DETECTR、qPCR、ELISA或LAMP测定需要非常大的样品量(数十毫升血液、唾液或尿液),而这通常是无法获得的。对于CARMEN,每一PCR汇集物最多使用2微升提取的RNA,对于人类相关病毒小组中的15个PCR汇集物,总共最多使用30微升。这需要总样品输入量为几百微升的体液(取决于所用提取试剂盒的类型)。简而言之,尽管对每个样品执行的测试数量显著增加,但CARMEN的总体输入样品量要求与其他方法没有显著差异。因此,除了降低试剂成本之外,CARMEN-Cas13还减少了样品消耗,从而能够运行更多测试并降低样品采集和处理成本。

人类相关病毒小组

选择用于测试的最佳crRNA:由于合成数百个合成DNA和RNA寡核苷酸的成本很高,申请人没有通过实验测试整个人类相关病毒小组设计。物种中绝大多数(143)需要单个crRNA来覆盖90%的已知序列(图39A至图39G),因此A[[;ocamts决定为每个物种测试单个crRNA。在一组中有多个crRNA的情况下,选择其序列与该物种的多数共有序列最匹配的crRNA。基于使用crRNA组对甲型流感进行亚亚型分型的结果(图42A至图42C),很可能按照设计使用完整的crRNA组来完全覆盖每个物种中90%的已知序列。申请人的条形码和多重化方案将能够适应这一点,由于检测混合物数量的增加,样品通量会适度下降。

交叉污染:测试大规模多重病毒检测小组的一个实际问题是交叉污染,尤其是预乳化。CARMEN-Cas13系统的极高灵敏度意味着即使是微量交叉污染也可能导致广泛的假阳性结果。在申请人的测试中没有观察到广泛的交叉反应性,但是在crRNA与意想不到的合成靶标之间存在一些交叉反应性实例。通过比对crRNA和合成靶序列来研究所有交叉反应性实例。基于此分析,这些实例中有一小部分(4-5个)可能是序列介导的,在版本2的重新设计中进行了修改。其余交叉反应性的实例可能是由于以下原因造成的交叉污染:

1.绝大多数非序列介导的交叉反应性出现在相邻孔之间,表明这可能是由于稀释合成靶标期间或设置扩增反应期间的交叉污染所致。

2.交叉反应性可能是由于DNA或RNA合成期间发生的交叉污染所致。人类相关病毒小组的寡核苷酸是在96孔板中以商业方式平行合成的。已观察到用作下一代测序的条形码化接头的共合成寡核苷酸具有低频率的交叉污染37

序列覆盖率:除了交叉反应性,序列覆盖率也是设计的一个重要方面。人类相关病毒小组被设计来覆盖每个物种至少90%的已知序列,但是由于以下原因,实际覆盖率可能更高或更低。

1.crRNA和引物被设计为覆盖小组中每个物种至少90%的已知序列,但它们也可能检测到5%-10%的已知序列,这些序列不应该被设计覆盖。

2.申请人设定了crRNA与其靶标之间1个错配的严格阈值。根据错配的位置,仍可能存在大量的切割活性;截短的间隔区对于核酸检测非常活跃7

3.对于某些物种,没有足够的序列数据可用于设计准确的诊断;因此申请人将小组限制于具有≥10个可用基因组序列的物种。

相似的考虑也适用于流感亚型分型小组。

最后,序列覆盖率和分析灵敏度是不同但相关的考虑因素,它们有助于测定灵敏度:给定的crRNA以一定的分析灵敏度(检测高于背景的序列的能力)靶向基因组内的特定序列。为了提高测定灵敏度,用户可添加更多的crRNA,以便能够检测病原体核酸的其他片段(增加序列覆盖率)或提高单个crRNA的性能。当样品可能仅携带一部分已知病毒基因组(由于降解、突变等)时,用以增加序列覆盖率的多重crRNA特别有效。

未知样品的测试:在此研究中,申请人测试了169个已知的合成靶标与人类相关病毒小组中169个物种中每个物种的多数共有序列,使用单一引物汇集物来扩增每个靶标(基于设计)。对于未知样品,将使用所有15个汇集物对每个样品进行扩增,然后在检测之前合并这些汇集物,或者单独运行它们。

以下结果是可能的:

1.人们可能会用单一crRNA观察到选择性识别,并为此感到高兴。

2.如果观察到交叉反应性,则可重新运行出现交叉反应性的单个汇集物。在这些情况下,不应假设存在共感染,除非有事先信息表明可能共感染。

3.弱反应性可以通过使用阳性对照或重新测试样品来增加结果的置信度来解释。

4.可能由于以下原因观察不到阳性结果:(1)病原体序列在设计未覆盖的已知序列的5%-10%中;(2)病毒滴度过低无法检测;或者(3)样品可能被降解。

以下参考文献与实施例2相关:

1.Bosch,I.et al.Rapid antigen tests for dengue virus serotypes andZika virus in patient serum.Sci.Transl.Med.9,(2017).

2.Popowitch,E.B.,O’Neill,S.S.&Miller,M.B.Comparison of the BiofireFilmArray RP,Genmark eSensor RVP,Luminex xTAG RVPvl,and Luminex xTAG RVP fastmultiplex assays for detection of respiratory viruses.J.Clin.Microbiol.51,1528-1533(2013).

3.Du,Y.et al.Coupling Sensitive Nucleic Acid Amplification withCommercial Pregnancy Test Strips.Angew.Chem.Int.Ed Engl.56,992-996(2017).

4.Wang,D.et al.Microarray-based detection and genotyping of viral pathogens.Proc.Natl.Acad.Sci.U.S.A.99,15687-15692(2002).

5.Houldcroft,C.J.,Beale,M.A.&Breuer,J.Clinical and biologicalinsights from viral genome sequencing.Nat.Rev.Microbiol.15,183-192(2017).

6.Palacios,G.et al.Panmicrobial oligonucleotide array for diagnosisof infectious diseases.Emerg.Infect.Dis.13,73-81(2007).

7.Gootenberg,J.S.et al.Nucleic acid detection with CRISPR-Cas13a/C2c2.Science 356,438-442(2017).

8.Kulesa,A.,Kehe,J.,Hurtado,J.E.,Tawde,P.&Blainey,P.C.Combinatorialdrug discovery in nanoliter droplets.Proc.Natl.Acad.Sci.U.S.A.115,6685-6690(2018).

9.Chertow,D.S.Next-generation diagnostics with CRISPR.Science 360,381-382(2018).

10.Kocak,D.D.&Gersbach,C.A.From CRISPR scissors to virussensors.Nature 557,168-169(2018).

11.US Food&Drug Administration.Available at:www.fda.gov.(Accessed:lst November 2018)

12.Brister,J.R.,Rodney Brister,J.,Ako-adjei,D.,Bao,Y.&Blinkova,O.NCBI Viral Genomes Resource.Nucleic Acids Res.43,D571-D577(2014).

13.Briese,T.et al.Virome Capture Sequencing Enables Sensitive ViralDiagnosis and Comprehensive Virome Analysis.MBio 6,e01491-15(2015).

14.Allicock,O.M et al.BacCapSeq:a Platform for Diagnosis andCharacterization of Bacterial Infections.MBio 9,(2018).

15.Chen,J.S.et al.CRISPR-Cas12a target binding unleashesindiscriminate single-stranded DNase activity.Science 360,436-439(2018).

16.Gootenberg,J.S.et al.Multiplexed and portable nucleic aciddetection platform with Casl3,Cas12a,and Csm6.Science 360,439-444(2018).

17.Myhrvold,C.et al.Field-deployable viral diagnostics using CRISPR-Cas13.Science 360,444-448(2018).

18.Macosko,E.Z.et al.Highly Parallel Genome-wide Expression Profilingof Individual Cells Using Nanoliter Droplets.Cell 161,1202-1214(2015).

19.Quake,S.Solving the Tyranny of Pipetting.arXiv(2018).

20.Ismagilov,R.F.,Ng,J.M.,Kenis,P.J.&Whitesides,G.M.Microfluidicarrays of fluid-fluid diffusional contacts as detection elements andcombinatorial tools.Anal.Chem.73,5207-5213(2001).

21.Zahn,H.et al.Scalable whole-genome single-cell library preparationwithout preamplification.Nat.Methods 14,167-173(2017).

22.Hassibi,A.et al.Multiplexed identification,quantification andgenotyping of infectious agents using a semiconductorbiochip.Nat.Biotechnol.36,738-745(2018).

23.Dunbar,S.A.Applications of Luminex xMAP technology for rapid,high-throughput multiplexed nucleic acid detection.Clin.Chim.Acta 363,71-82(2006).

24.Nguyen,H.Q.et al.Programmable Microfluidic Synthesis of Over OneThousand Uniquely Identifiable Spectral Codes.Adv Opt Mater 5,(2017).

25.Zhao,Y.et al.Microfluidic generation of multifunctional quantumdot barcode particles,J.Am.Chem.Soc.133,8790-8793(2011).

26.Dunbar,S.A.&Li,D.Introduction to Luminex xMAP Technology andApplications for Biological Analvsis in China.Asia Pacific Biotech News 14,26-30(2010).

27.Untergasser,A.et al.Primer3--new capabilities andinterfaces.Nucleic Acids Res.40,e115-e115(2012).

28.Bodaghi,S.et al.Could human papillomaviruses be spread throughblood?J.Clin.Microbiol.43,5428-5434(2005).

29.Moen,E.M.,Huang,L.&Grinde,B.Molecular epidemiology of TTV-likemini virus in Norway.Arch.Virol.147,181-185(2002).

30.Gupta,R.K.et al.HIV-1 drug resistance before initiation or re-initiation of first-line antiretroviral therapy in low-income and middle-income countries:a systematic review and meta-regression analysis.LancetInfect.Dis.18,346-355(2018).

31.Wensing,A.M.et al.2017 Update of the Drug Resistance Mutations inHIV-1.Top.Antivir.Med.24,132-133(2017).

32.K.Katoh,D.M.Standley,MAFFT multiple sequence alignment softwareversion 7:improvements in performance and usability.Mol.Biol.Evol.30,772-780(2013).

33.H.Li,Aligning sequence reads,clone sequences and assembly contigswith BWA-MEM(2013),(available at http://arxiv.org/abs/1303.3997).

34.J.Quick et al.,Multiplex PCR method for MinION and Illuminasequencing of Zika and other virus genomes directly from clinicalsamples.Nat.Protoc.12,1261-1276(2017).

35.S.-Y.Rhee et al.,Human immunodeficiency virus reversetranscriptase and protease sequence database.Nucleic Acids Res.31,298-303(2003).

36.J.Kehe et al.,Massively parallel screening of synthetic microbialcommunities.PNAS.In Press.

37.M.A.Quail et al.,SASI-Seq:sample assurance Spike-Ins,and highlydifferentiating 384 barcoding for Illumina sequencing.BMC Genomics.15(2014),doi:10.1186/1471-2164-15-110.

实施例3:区域特异性检测小组

在此项目中,将为洪都拉斯流行的病毒种和株开发一个诊断小组。同时,申请人将与洪都拉斯国立自治大学(UNAH)合作,部署现有的基于Cas13的寨卡病毒检测和登革热血清分型测定,对患者样品进行测试。将在UNAH处部署硬件用于基于Cas13的多重诊断,并培训合作者使用该技术。这些目标的成功实现将产生并验证一种基于CRISPR的多重检测技术,用于在一个有许多地方性病毒的国家进行疾病监测。这项工作将是迈向一个世界的关键第一步,在这个世界里,每一位进入医院的感染者都会得到分子诊断,接受改善的患者护理,并通过提供有关病毒流行的丰富数据组而为公共卫生工作作出贡献。

第一个目标是开发一个基于Cas-13的病毒诊断小组,用于洪都拉斯。利用先前的基于Cas13的病毒诊断(Myhrvold*,Freije*,等人Science 2018)和用于纳升液滴中微型化生化分析的高度多重微孔阵列(Kulesa*,Kehe*等人PNAS 2018)将使用微孔阵列中的液滴提供多重扩增和多重检测。

申请人将设计、实施和验证一个诊断小组,该诊断小组由多重扩增引物和crRNA组成,靶向一组20-30种已知在洪都拉斯传播的病毒病原体。该小组还将包括一些迄今尚未在洪都拉斯发现的高风险病毒病原体,但是这些病毒病原体如果被发现,将对公共卫生产生重大影响。就在去年,这种大规模的测定开发在成本和时间上都还令人望而却步,但微孔阵列技术使Cas13检测测定的开发和性能得以规模化。相信该小组将是第一个全面、针对特定国家的病毒诊断小组。目标将是开发一个覆盖至少20种目标病毒的多重小组,每一测定的检测限为每微升100个拷贝,并且无可检测交叉反应性,实现与Myhrvold*,Freije*,等人Science 2018中描述的方法相当的灵敏度,这允许以低至每微升1个拷贝的浓度检测患者样品中的病毒。在第二个目标中,申请人将在洪都拉斯部署基于Cas13的检测技术,包括全面的多重病毒小组。最初的实验将侧重于在洪都拉斯部署标准的SHERLOCK测定,以确保底层的Cas13技术以高灵敏度检测传播的寨卡病毒和登革热病毒(第1-8个月)。对于多重化小组,该计划最初在博德进行测定(第1-8个月),然后将它们带到洪都拉斯(第9-12个月),以赶上流行病季节的开始(通常在2月开始)。硬件设置的组装将在第5-8个月内在博德进行,以确保申请人的系统拥有与现有显微镜硬件相似的灵敏度和特异性。

第二个目标将受益于在洪都拉斯部署基于Cas13的寨卡病毒和登革热病毒诊断的现有工作;一项前导研究正在进行中。实现这一目标将使传统的和基于CRISPR的多重诊断在洪都拉斯得到广泛示范,并在全世界范围内率先使用基于CRISPR的诊断用于病毒监测。

虽然潜在的设计挑战包括病毒与病毒之间的可变灵敏度以及病毒种之间的交叉反应性,但本文所公开的利用微孔阵列的方法允许一个测定测试周期只需一两天,因此在本项目中可以快速优化测定。预计将使用诊断小组检测未充分研究的病毒,分析数十个样品(50-100个)。然而,未充分研究的病毒在多大程度上可以观察到,这是一个有待研究的问题。有利的是,本文所公开的方法将开发和使用微孔阵列中的液滴,带有自动载物台的4色荧光显微镜将在博德组装和测试,并部署到洪都拉斯。所述方法允许使用简洁的显微镜,所述显微镜实现对微孔阵列中的液滴进行成像所需的荧光灵敏度和空间分辨率,从而在降低成本的同时最大限度地提高硬件稳健性。

***

在不脱离本发明的范围和精神的情况下,本发明所述的方法、药物组合物和药盒的各种修改和变型对于本领域技术人员而言是显而易见的。尽管已结合具体实施方案描述了本发明,但是应当理解,本发明能够进行进一步修改,并且所要求保护的本发明不应该不当地受到这些具体实施方案的限制。实际上,对于本领域技术人员而言显而易见的用于实施本发明的所述模式的各种变型旨在落入本发明的范围内。本申请旨在覆盖本发明的任何变型、用途或改型,这些变型、用途或改型总体遵循本发明的原理且包括在本发明所属领域内已知习惯性实践内的与本公开内容有所偏离的内容,并且可以在陈述之前应用于本文的基本特征。

446页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基因疗法DNA载体及其应用

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!