具有改变的PAM特异性的CPF1(CAS12a)的变体

文档序号:1539145 发布日期:2020-02-14 浏览:24次 >En<

阅读说明:本技术 具有改变的PAM特异性的CPF1(CAS12a)的变体 (Variants of CPF1(CAS12a) with altered PAM specificity ) 是由 J·K·乔昂格 B·克莱因斯蒂弗 A·苏萨 于 2018-04-23 设计创作,主要内容包括:具有改善的靶向范围和增强的中靶活性的工程化的普氏菌属和弗朗西斯氏菌属源的CRISPR 1(Cpf1)核酸酶,以及它们在基因组工程化、表观基因组工程化、碱基编辑、基因组靶向、基因组编辑和体外诊断中的用途。(Engineered CRISPR1(Cpf1) nucleases of provenance and francisella origin with improved targeting range and enhanced on-target activity, and their use in genome engineering, epigenome engineering, base editing, genome targeting, genome editing and in vitro diagnostics.)

具有改变的PAM特异性的CPF1(CAS12a)的变体

优先权声明

本申请要求2017年4月21日提交的美国专利申请系列号No.62/488,426,以及2018年1月11日提交的美国专利申请系列号No.62/616,066的权益。上述的全部内容通过引用并入本文。

联邦政府赞助的研究或开发

本发明是在美国国立卫生研究院授予的拨款号No.GM105378和GM118158的政府支持下完成的。美国政府在本发明中享有一定的权利。

技术领域

本发明至少部分地涉及具有改变和改进的目标特异性的、工程化的普氏菌属(Prevotella)和弗朗西斯氏菌属(Francisella)CRISPR 1(CRISPR from Prevotella andFrancisella 1,Cpf1)核酸酶,以及它们在基因组工程、表观基因组工程、基因组靶向、基因组编辑和体外诊断中的用途。

背景技术

CRISPR-Cas Cpf1核酸酶(也称为Cas12a核酸酶)最近被描述为基因组编辑应用中作为对Cas9核酸酶的替代(Zetsche等人.Cell 163,759-771(2015);Shmakov等人,MolCell.2015 Nov 5;60(3):385-97;Kleinstiver等人,Nat Biotechnol.2016 Aug;34(8):869-74;Kim等人,Nat Biotechnol.2016 Aug;34(8):863-8)。Cpf1核酸酶拥有许多潜在有益的性质,包括但不限于:识别富T前间区序列邻近基序(T-rich protospacer-adjacentmotif,PAM)序列,与野生型化脓性链球菌(Streptococcus pyogenes)Cas9(SpCas9)相比在人类细胞中相对更大的基因组广度的特异性,简化了多个位点的同时靶向(多重化)的加工pre-crRNA的核糖核酸内切酶活性,产生5'DNA突出端的DNA核酸内切酶活性(而不是SpCas9观察到的平端的双链断裂),以及在距离PAM的最远端切割前间区序列的DNA序列(与用SpCas9和SaCas9观察到的在前间区序列的PAM近端切割相比)。迄今为止,来自氨基酸球菌种(Acidaminococcus sp.)BV3L6、毛螺旋菌科细菌(Lachnospiraceae bacterium)ND2006和土拉弗朗西斯氏菌新杀手亚种(Francisella tularensis subsp.novicida)U112的Cpf1直系同源基因(分别为AsCpf1、LbCpf1和FnCpf1)是已被描述为在人类细胞中强健地起作用的仅有的直系同源基因。虽然有这些能力,与SpCas9相比,Cpf1核酸酶没有那么快地用于基因组编辑。一种可能的原因是需要更长的PAM,与SpCas9的每8bp一次相比,其将靶向限制到大约每43bp的随机DNA序列中一次。

在此我们通过利用结构导向的工程化方法来产生不仅具有大幅扩展的靶向范围、还具有实质上改进的中靶活性的AsCpf1变体解决了这种靶向范围限制。除了作为用于基因组编辑的核酸酶的改进的效力和多面性之外,我们证实了这些变体还可以用于其他应用,包括多重核酸酶靶向、表观基因组编辑,C-T碱基编辑和Cpf1介导的DNA检测,都是野生型AsCpf1以前不可能达到的水平。

发明内容

本文描述的是一系列AsCpf1、FnCpf1和LbCpf1变体,与它们的野生型对应物相比识别更广范围的PAM,从而提高了可以通过这类RNA-指导核酸酶靶向的位点的范围。此外,在识别和修饰带有典型的TTTN PAM的目标位点方面,这些变体比野生型Cpf1核酸酶表现更好。本文描述的变体的增强的活性改善了AsCpf1用于基因组编辑、表观基因组编辑、碱基编辑和体外DNA检测的活性。

因而,本文提供的是分离的、来自氨基酸球菌种BV3L6的、普氏菌属和弗朗西斯氏菌属源的CRISPR 1(Cpf1)蛋白(AsCpf1),其包含与SEQ ID NO:2的氨基酸序列至少80%相同并在以下位置中的一处或多处具有突变的序列:SEQ ID NO:2的E174、S170、K548、N551、T167、T539、N552、M604和/或K607。

在某些实施方案中,所述分离的Cpf1蛋白包含E174R处的突变,任选地在S170R、K548、N551、T167、T539、S542、N552、M604和/或K607处具有一个或多个额外的突变。在某些实施方案中,所述分离的Cpf1蛋白包括S170R的突变,任选地在E174R、K548、N551、T167、T539、S542、N552、M604和/或K607处具有一个或多个额外的突变。

在某些实施方案中,所述分离的Cpf1蛋白包括S542处的突变。

在某些实施方案中,所述分离的Cpf1蛋白包括突变S542Q、S542K或S542R。

在某些实施方案中,所述分离的Cpf1蛋白包括与SEQ ID NO:2的氨基酸序列至少95%相同的序列。

在某些实施方案中,所述分离的Cpf1蛋白包括一个或多个以下突变:E174R、S170R、K548R、S170K、E174K、T167A、T539K、T539R、K548V、N551R、N552R、M604A、K607Q、K607R、K607S和/或K607H。

在某些实施方案中,所述分离的Cpf1蛋白包括以下突变:SEQ ID NO:2的S170R/E174R、E174R/K548R、S170R/K548R、E174R/S542R、S170R/S542R、E174R/S542R/K548R、E174R/N551R、S170R/N551R、S542R/K548R、S542R/N551R、S542R/N552R、K548R/N551R、S170R/S542R/K607R、E174R/S542R/K607R、E174R/S542R/K607H、E174R/S542R/K548R/N551R、S170R/S542R/K548V/N552R、E174R/S542R/K548V/N552R、S170R/S542R/K607R或E174R/S542R/K607R。

在某些实施方案中,所述分离的Cpf1蛋白包含降低核酸酶活性的一个或多个突变,例如选自由D908、E993、R1226、D1235和/或D1263处的突变组成的组,优选选自由D908A、E993A、R1226A、D1235A和/或D1263A组成的组。

在某些实施方案中,所述分离的Cpf1蛋白包含在N282、N178、S186、N278、R301、T315、S376、N515、K523、K524、K603、K965、Q1013、Q1014和/或K1054中的一处或多处,优选N282、T315、N515或N278处的突变,优选地其中所述突变提高所述蛋白的特异性。在某些实施方案中,所述分离的Cpf1蛋白包括选自由N282A、T315A、N515A或N278A组成的组的突变。

本文还提供的是分离的、来自毛螺旋菌科细菌ND2006的、普氏菌属和弗朗西斯氏菌属源的CRISPR 1(Cpf1)蛋白(LbCpf1),其包含与SEQ ID NO:11至少80%相同的序列,在以下位置中的一处或多处具有:SEQ ID NO:11的T152、D156、G532和/或K538。

在某些实施方案中,所述分离的Cpf1蛋白包括与SEQ ID NO:11的氨基酸序列至少95%相同的序列。

在某些实施方案中,所述分离的Cpf1蛋白包括一个或多个以下突变:T152R、T152K、D156R、D156K、G532R和/或K538R。

在某些实施方案中,所述分离的Cpf1蛋白包括以下突变:D156R/G532R/K538R。

在某些实施方案中,所述分离的Cpf1蛋白包含降低核酸酶活性的一个或多个突变,所述突变例如选自由D832、E925、R1138、D1148和/或D1180处的突变组成的组,优选地选自由D832A、E925A、R1138A、D1148A和/或D1180A组成的组。

在某些实施方案中,所述分离的Cpf1蛋白包含S202、N274、N278、K290、K367、K532、K609、K915、Q962、K963、K966、K1002和/或S1003中的一处或多处的突变,优选地其中所述突变提高所述蛋白的特异性。在某些实施方案中,所述分离的Cpf1蛋白包括一个或多个以下突变:S202A、N274A、N278A、K290A、K367A、K532A、K609A、K915A、Q962A、K963A、K966A、K1002A和/或S1003A。

本文还提供的是分离的、来自土拉弗朗西斯氏菌的、普氏菌属和弗朗西斯氏菌属源的CRISPR 1(Cpf1)蛋白(FnCpf1),其包含与SEQ ID NO:4至少80%相同并在以下位置中的一处或多处具有突变的序列:SEQ ID NO:4的K180、E184、N607、K613、D616、N617和/或K671。

在某些实施方案中,所述分离的Cpf1蛋白包括与SEQ ID NO:4的氨基酸序列至少95%相同的序列。

在某些实施方案中,所述分离的Cpf1蛋白包括一个或多个以下突变:K180R、E184R、N607R、K613R、K613V、D616R、N617R、K671H和K671R。

在某些实施方案中,所述分离的Cpf1蛋白包括以下突变:N607R/K613R、N607R/K613V、N607R/K613V/D616R或N607R/K613R/D616R。

在某些实施方案中,所述分离的Cpf1蛋白包含降低核酸酶活性的一个或多个突变,所述突变例如选自由D917、E1006、R1218、D1227和/或D1255处的突变组成的组,优选地选自由D917A、E1006A、R1218A、D1227A和/或D1255A组成的组。

本文还提供的融合蛋白,其包含经任选的间插接头与异源功能结构域融合的本文描述的Cpf1蛋白,其中所述接头不干扰所述融合蛋白的活性。

在某些实施方案中,所述异源功能结构域是转录激活结构域,例如,称为VP64的四聚VP16融合物、Rta、NF-κB p65或VPR(一种VP64、p65、Rta融合蛋白)。

在某些实施方案中,所述异源功能结构域是转录沉默子或转录阻遏结构域。在某些实施方案中,所述转录阻遏结构域是克鲁贝尔相关盒(Krueppel-associated box,KRAB)结构域、ERF阻遏蛋白结构域(ERD)或mSin3A相互作用结构域(SID)。在某些实施方案中,所述转录沉默子是异染色质蛋白1(Heterochromatin Protein 1,HP1)。

在某些实施方案中,所述异源功能结构域是修饰DNA甲基化状态的酶,例如,DNA甲基转移酶(DNMT)或TET蛋白,例如,TET1。

在某些实施方案中,所述异源功能结构域是修饰组蛋白亚单位的酶,例如,组蛋白乙酰基转移酶(HAT)、组蛋白脱乙酰酶(HDAC)、组蛋白甲基转移酶(HMT)、或组蛋白脱甲基酶。

在某些实施方案中,所述异源功能结构域是修饰胞嘧啶DNA碱基的脱氨酶,例如,来自载脂蛋白B mRNA编辑酶的胞苷脱氨酶,脱氨酶的催化多肽样(APOBEC)家族,包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D/E、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4,活化诱导的胞苷脱氨酶(AID)、胞嘧啶脱氨酶1(CDA1)和CDA2,以及作用于tRNA的胞嘧啶脱氨酶(CDAT)。

在某些实施方案中,所述异源功能结构域是修饰腺苷DNA碱基的脱氨酶,例如,所述脱氨酶是腺苷脱氨酶1(ADA1)、ADA2;作用于RNA的腺苷脱氨酶1(ADAR1)、ADAR2、ADAR3;作用于tRNA的腺苷脱氨酶1(ADAT1)、ADAT2、ADAT3;和天然发生的或工程化的tRNA特异性腺苷脱氨酶(TadA)。

在某些实施方案中,所述异源功能结构域是抑制或增强内源DNA修复或碱基切除修复(BER)途径的酶、结构域或肽,例如,尿嘧啶DNA糖基化酶抑制剂(UGI),其抑制尿嘧啶DNA糖基化酶(UDG,也称为尿嘧啶N-糖基化酶,或UNG)介导的尿嘧啶切除以启动BER;或DNA末端结合蛋白,例如,来自噬菌体Mu的Gam。

在某些实施方案中,所述异源功能结构域是生物系链(biological tether),例如,MS2、Csy4或λN蛋白。

在某些实施方案中,所述异源功能结构域是FokI。

本文还提供的是编码本文描述的Cpf1变体蛋白和融合蛋白的分离的核酸。

此外,本文提供的是包含所述核酸的载体。在某些实施方案中,所述分离的核酸编码分离的、来自氨基酸球菌种BV3L6的、普氏菌属和弗朗西斯氏菌属源的CRISPR 1(Cpf1)蛋白(AsCpf1),所述蛋白在以下位置中的一处或多处具有突变:SEQ ID NO:2的T167、S170、E174、T539、K548、N551、N552、M604和/或K607,并且与一个或多个调节结构域可操作地连接,用于表达分离的、来自氨基酸球菌种BV3L6的、普氏菌属和弗朗西斯氏菌属源的CRISPR1(Cpf1)蛋白(AsCpf1),所述蛋白在以下位置中的一处或多处具有突变:SEQ ID NO:2的T167、S170、E174、T539、K548、N551、N552、M604和/或K607。

在某些实施方案中,所述分离的核酸编码分离的、来自毛螺旋菌科细菌ND2006的、普氏菌属和弗朗西斯氏菌属源的CRISPR 1(Cpf1)蛋白,所述蛋白在以下位置中的一处或多处具有突变:SEQ ID NO:11的T152、D156、G532和/或K538,并且与一个或多个调节结构域可操作地连接,用于表达分离的、来自毛螺旋菌科细菌ND2006的、普氏菌属和弗朗西斯氏菌属源的CRISPR 1(Cpf1)蛋白(LbCpf1),所述蛋白在以下位置中的一处或多处具有突变:SEQID NO:11的T152、D156、G532和/或K538。

在某些实施方案中,所述分离的核酸编码分离的、来自土拉弗朗西斯氏菌的、普氏菌属和弗朗西斯氏菌属源的CRISPR 1(Cpf1)蛋白(FnCpf1),所述蛋白包含与SEQ ID NO:4至少80%相同并在以下位置中的一处或多处具有突变的序列:SEQ ID NO:4的K180、E184、N607、K613、D616、N617和/或K671,并且与一个或多个调节结构域可操作地连接,用于表达分离的、来自土拉弗朗西斯氏菌的、普氏菌属和弗朗西斯氏菌属源的CRISPR 1(Cpf1)蛋白(FnCpf1),所述蛋白包含与SEQ ID NO:4至少80%相同并在以下位置中的一处或多处具有突变的序列:SEQ ID NO:4的K180、E184、N607、K613、D616、N617和/或K671。

本文还提供的是宿主细胞,优选哺乳动物宿主细胞,其包含本文描述的所述核酸,并且任选地表达本文描述的蛋白或融合蛋白。

此外,本文提供的是改变细胞的基因组的方法,所述方法包括在所述细胞中表达、或使所述细胞接触:本文描述的分离的蛋白或融合蛋白以及至少一种指导RNA,所述指导RNA具有与所述细胞的基因组的选定部分互补的区域,即,其中所述互补的区域邻近于与所述蛋白或融合蛋白相应的PAM序列,例如,如表B中所示。在某些实施方案中,所述分离的蛋白或融合蛋白包含一个或多个核定位序列、细胞穿透肽序列和/或亲和标签。在某些实施方案中,所述细胞是干细胞。在某些实施方案中,所述细胞是胚胎干细胞、间充质干细胞、或诱导多能干细胞;是在活的动物中的;或是在胚胎中的。

还提供的是改变双链DNA(dsDNA)分子的方法,所述方法包括使所述dsDNA分子接触本文描述的分离的蛋白或融合蛋白以及指导RNA,所述指导RNA具有与所述dsDNA分子的选定部分互补的区域,即,其中所述互补的区域邻近于与所述蛋白或融合蛋白相应的PAM序列,例如,如表B中所示。在某些实施方案中,所述dsDNA分子是在体外的。

还提供的是在体外检测样品中的目标ssDNA或dsDNA的方法。所述方法包括使所述样品接触(i)权利要求1-43的分离的蛋白或融合蛋白,(ii)具有与所述目标ssDNA或dsDNA分子的选定部分互补的区域的指导RNA;和(iii)标记的检测子DNA,其中所述分离的蛋白或融合蛋白在结合所述目标ssDNA或dsDNA时切割所述检测子DNA;并且测量由所述标记的检测子DNA的切割产生的可检测信号,从而检测所述目标ssDNA或dsDNA。

在某些实施方案中,测量所述标记的检测子DNA包括检测金纳米颗粒、荧光团、荧光偏振、胶体相转变/分散、电化学信号和基于半导体的信号中的一种或多种。

在某些实施方案中,所述标记的检测子DNA在被切割之前产生一定量的可检测信号,当所述标记的检测子DNA被切割时所述可检测信号的量降低。在某些实施方案中,所述标记的检测子DNA在被切割之前产生第一可检测信号,当所述标记的检测子DNA被切割时产生第二可检测信号。

在某些实施方案中,所述标记的检测子DNA包含淬灭剂/fluor对(pair)或FRET对。

除非另外定义,本文使用的所有技术和科学术语具有本发明所属技术领域的普通技术人员通常所理解的相同含义。本文描述用于本发明的方法和材料;也可以使用本领域已知的其他适合的方法和材料。所述材料、方法和实施例仅是说明性的,而不意图是限制性的。本文提及的所有公开物、专利申请、专利、序列、数据库条目和其他参考文献以其全部内容并入以作参考。在冲突的情况下,以本说明书、包括定义为准。

根据以下的详细说明和附图以及根据权利要求,本发明的其他特征和益处将是明显的。

附图说明

图1:Cpf1和SpCas9核酸酶的代表性的目标位点。AsCpf1和LbCpf1识别目标位点间隔子的5'末端的TTTN PAM序列,而SpCas9识别间隔子的3'末端的NGG PAM。有义序列:SEQID NO:1。

图2:野生型AsCpf1和LbCpf1核酸酶的PAM识别分布。使用靶向具有典型TTTN PAM的位点、或具有携带单碱基差异的非典型PAM的位点的crRNA,在基于人类细胞的EGFP破坏测定中测定了野生型AsCpf1和LbCpf1识别目标位点的能力。由于缺乏EGFP报告基因中的目标位点,除了ATTN和TTAN之外,检查了每种非典型PAM的三个位点。

图3:野生型AsCpf1对于具有典型PAM和携带两个和三个碱基差异的非典型PAM的位点的PAM识别分布。使用靶向具有指定PAM的位点的crRNA,在基于人类细胞的EGFP破坏测定中测定了AsCpf1识别和破坏目标位点的能力。由于缺乏EGFP报告基因中的目标位点,除了ATTN和TTAN之外,在可能的情况下,检查了每种非典型PAM的三个位点。误差条表示s.e.m.,n=3,否则n=1。

图4:AsCpf1和LbCpf1对典型和非典型(单碱基差异)PAM位点的PAM识别轮廓。使用靶向具有典型TTTN PAM或具有携带单碱基差异的非典型PAM的位点的crRNA,在U2OS人类细胞中测定了野生型AsCpf1和LbCpf1识别和破坏内源目标位点的能力。在可能的情况下,检查了每种非典型PAM的三个位点。误差条表示s.e.m.,n=2或3,否则n=1。

图5A-5H:通过物理上靠近PAM DNA碱基的残基的合理突变(rational mutation),改变AsCpf1 PAM识别特异性。使用人类细胞EGFP破坏测定,或通过定量人类U2OS细胞中内源基因位点处诱导的***或删除突变(indel)频率,使用靶向携带典型TTTN或非典型PAM位点的位点的crRNA,评估了野生型AsCpf1和携带单突变或双突变的变体的活性。野生型AsCpf1与以下比较:(A)T167/T539变体,使用靶向EGFP中的位点的crRNA;(B)S170和E174变体,使用靶向EGFP中的位点的crRNA;(C和D)S542变体,使用靶向EGFP中的位点(子图C)或内源人类基因位点(子图D)的crRNA;(E)N551和N552变体,使用靶向EGFP中的位点的crRNA;(F)K607变体,使用靶向EGFP中的位点的crRNA;(G和H)S542/K607变体,使用靶向EGFP中的位点(子图G)和内源人类基因位点(子图H)的crRNA。

图6A-6B:野生型AsCpf1和AsCpf1-S542R变体的PAM识别分布。使用靶向携带典型TTTN PAM、或具有单碱基差异(子图A)、双碱基或三碱基差异(子图B)的非典型PAM的位点的crRNA,在基于人类细胞的EGFP破坏测定中测定了这些核酸酶的活性。由于EGFP报告基因中缺乏足够目标位点,除了ATTN和TTAN之外,在可能的情况下,检查了每种非典型PAM的三个位点。n=1。

图7A-7B:野生型AsCpf1和AsCpf1-S542R变体对内源人类基因目标位点的PAM识别分布。使用靶向携带典型TTTN PAM、或具有单碱基差异(子图A)、双碱基或三碱基差异(子图B)的非典型PAM的位点的crRNA,在人类U2OS细胞中评估了核酸酶诱变内源基因目标位点的能力。在可能的情况下,检查了每种非典型PAM的三个位点。

图8A-8C:在位置靠近PAM DNA碱基的残基处携带额外突变的、合理设计的AsCpf1变体的PAM识别分布。在子图A、B和C中显示的独立实验中,使用基于人类细胞的EGFP报告子分析试验了单氨基酸取代、以及双氨基酸取代或三氨基酸取代的组合,来评估它们识别携带典型TTTN或非典型PAM位点的目标位点的能力。

图9A-9B:野生型AsCpf1和AsCpf1变体的PAM。(A)野生型AsCpf1的活性与携带单个S542R取代或E174R、S542R和K548R取代组合的变体的活性相比较。使用靶向携带典型TTTNPAM或具有单碱基差异的PAM的位点的crRNA,使用基于人类细胞的EGFP破坏测定试验了这些核酸酶的活性。(B)还使用靶向具有典型TTTN PAM或带有双碱基或三碱基差异的PAM的位点的crRNA,使用基于人类细胞的EGFP报告子分析,将野生型AsCpf1的活性与E174R/S542R/K548R变体进行比较。在可能的情况下,检查了每种非典型PAM的三个位点。误差条表示s.e.m.,n=2或3,否则n=1。

图10A-10B:野生型LbCpf1和AsCpf1变体的PAM识别分布的比较。野生型LbCpf1修饰内源人类基因目标位点的能力与AsCpf1 E174R/S542R/K548R变体进行比较。这个实验使用的crRNA靶向携带典型TTTN PAM和具有单碱基差异的PAM(子图A)、或具有双碱基或三碱基差异的PAM(子图B)的位点。

图11A-11C:野生型AsCpf1和各种AsCpf1变体的PAM识别分布。使用靶向携带典型TTTN PAM、或具有单碱基、双碱基或三碱基差异的PAM的位点的crRNA,将野生型AsCpf1的活性与AsCpf1 PAM变体的活性进行比较。(A)使用基于人类细胞的EGFP破坏测定、或(B)通过评估内源人类基因目标位点处的突变频率(通过T7EI核酸内切酶分析来判断)进行比较。(C)使用靶向携带典型TTTN PAM或携带单碱基、双碱基或三碱基差异的PAM的内源人类基因位点的crRNA,比较了两种AsCpf1 PAM变体的突变活性。

图12A-12B:野生型LbCpf1和工程化的LbCpf1变体的PAM识别分布。(A)使用靶向携带典型TTTN PAM或具有单碱基差异的PAM的位点的crRNA,使用基于人类细胞的EGFP破坏测定,野生型LbCpf1和携带各种单氨基酸取代的变体的活性。(B)还使用靶向携带典型TTTNPAM或具有单碱基差异的PAM的位点的crRNA,使用基于人类细胞的EGFP破坏测定,将野生型LbCpf1的活性与LbCpf1-D156R/G532R/K538R变体进行比较。n=1。

图13A-13C:野生型FnCpf1和工程化的LbCpf1变体的PAM识别分布。(A)使用靶向携带典型TTN PAM或具有单碱基差异的PAM的位点的crRNA,使用基于人类细胞的EGFP破坏测定,野生型FnCpf1的活性。(B)使用靶向携带TTTN PAM的位点的crRNA,野生型FnCpf1、AsCpf1和LbCpf1针对内源人类细胞目标位点的活性。(C)使用靶向携带典型TTTN PAM或具有单碱基差异的PAM的位点的crRNA,使用基于人类细胞的EGFP破坏测定,比较野生型FnCpf1与工程化的FnCpf1 PAM变体的活性。n=1。

图14A-14C:本申请中描述的AsCpf1变体与其他工作中公开的不同的AsCpf1变体的PAM识别分布的比较。(A,B)使用靶向携带典型TTTN PAM或具有单碱基或双碱基差异的PAM的位点的crRNA,使用基于人类细胞的EGFP破坏测定,将许多我们的工程化AsCpf1 PAM识别变体与S542R/K548V/N552R(子图A)和S542R/K607R(子图B)PAM识别变体的活性进行比较。(C)使用靶向具有典型TTTN PAM、或有单碱基、双碱基或三碱基差异的PAM的位点的crRNA,通过检测这些核酸酶诱变内源人类基因位点的能力,进行了我们的AsCpf1变体与S542R/K607R变体的额外比较。

图15A-15G:具有扩展的目标范围的AsCas12a变体的工程化和表征。(A),携带氨基酸取代的AsCas12a变体对人类细胞中内源位点的修饰。通过T7E1分析评估活性;显示平均值、s.e.m.和单独的数据点,n≥3。(B),通过PAM测定分析(PAMDA)评估的,野生型AsCas12a和E174R/S542R/K548R变体的PAM偏好分布。log10速率常数(k)是四个重复的平均值,每两个针对两种不同的间隔子序列(参见图21D)。(C),E174R/S542R和E174R/S542R/K548RAsCas12a对非典型PAM的平均活性图,其中黑色线条代表每种PAM分类的12~20个位点(点)的平均值(也参见图23A、23B和23D)。(D),野生型、E174R/S542R和E174R/S542R/K548RAsCas12a对于20个编码非典型PAM的位点(针对VTTN、TTCN和TATN分类的各PAM)的活性概述(也参见图19A、23A和23B;所有位点编号为‘1’)。(E),AsCas12a、E174R/S542R变体和eAsCas12a对TTTN PAM的平均活性图,其中黑色线条代表每种PAM分类的5~8个位点(点)的平均值(参见图23G)。(F),eAsCas12a(E174R/S542R/K548R)的各种可靶向和不可靶向的PAM的人类细胞活性和PAMDA速率常数(k)的概述的叠加图。显示了通过T7E1分析确定的人类细胞活性的箱须图。层级(tier)1PAM展现了人类细胞中大于20%的平均靶向并且PAMDA k大于0.01,而满足细胞中大于10%平均靶向的最低阈值、PAMDA k大于0.005的PAM被认为是层级2PAM。(G),与野生型AsCas12a相比,AsCas12a变体允许的靶向范围方面的改善的计算,通过在指定的序列特征内对完整PAM序列进行枚举并对元素大小进行归一化来确定。TSS,转录起始位点;每个AsCas12a变体可靶向的PAM序列是:野生型,TTTV;eAsCas12a,参见针对PAM层级的子图F和扩展数据图23I;RVR,TATV;RR,TYCV。

图16A-16E:AsCas12a变体的增强的活性。(A),Cas12a直系同源体和变体对编码PAMDA位点1靶点的线性化质粒底物的时程体外切割反应的定量,在37℃、32℃和25℃下进行(分别为左、中和右图)。使用一相指数衰减方程拟合曲线;误差条代表s.e.m,n=3。(B-D),野生型和变体AsCas12a核酸酶对于编码TTTN PAM(子图B)、TATN PAM(子图C)和TYCNPAM(子图D)的位点的活性概述(也分别参见图24A-C)。(E),每种NNNN PAM的PAMDA测定的速率常数的散点图,以比较AsCas12a变体的PAM偏好(RVR对比eRVR,左图;RR对比eRR,右图)。编码以下取代的变体:eAsCas12a,E174R/S542R/K548R;RVR,S542R/K548V/N552R;eRVR,E174R/S542R/K548V/N552R;RR,S542R/K607R;eRR,E174R/S542R/K607R。

图17A-17H:eAsCas12a特异性的表征和改善。(A),AsCas12a、eAsCas12a和eAsCas12a-HF1的GUIDE-seq基因组广度特异性分布,每一个与靶向具有TTTV PAM的位点的crRNA配对。脱靶位点中的错配位置是高亮的;还在序列的右侧显示了GUIDE-Seq读取结果计数;黄色圆圈表示仅被不对称的GUIDE-Seq读取结果支持的脱靶位点;绿色圆圈表示早先对LbCas12a鉴定的脱靶位点(Kleinstiver等人,Nat Biotechnol.,2016,34:869-74);平均PAMDA ks>0.005的eAsCas12a的非典型PAM中可选的核苷酸没有作为错配进行标色或高亮。SEQ ID NO:449-477为按照出现顺序。(B),子图A中检查的位点中,AsCas12a变体的GUIDE-seq检测的脱靶位点数量的直方图。(C),每个NNNN PAM的PAMDA测定的速率常数的散点图,以比较eAsCas12a和eAsCas12a-HF1的PAM偏好。(D),eAsCas12a和eAsCas12a-HF1对于靶向具有非典型PAM的位点的crRNA的GUIDE-Seq基因组广度特异性分布。对子图a描述了图例;eAsCas12a-HF1没有对CTTA-1、CTTC-2或TATC-1进行评估。SEQ ID NO:478-530为按照出现顺序。(E),在子图a中检测的位点中,eAsCas12a和eAsCas12a-HF1的GUIDE-seq检测的脱靶位点数量的直方图;na,未评估。(F),通过针对中靶位点观察到的计数将脱靶GUIDE-Seq读取结果计数归一化来计算的脱靶效率比。(G,H),野生型、eAsCas12a和eAsCas12a-HF1对于编码TTTN PAM(子图G)或非典型PAM(子图H)的位点的中靶活性概述(也分别参见图25I和25J)。

图18A-18K:eAsCas12a对于多重靶向、基因激活和碱基编辑的应用。(A-C),AsCas12a、eAsCas12a和LbCas12a的多重中靶修饰效率的比较,当使用TTTV PAM靶向的crRNA阵列进行编程时,所述crRNA阵列编码3个独立的crRNA,从聚合酶III启动子(U6,子图A和B)或聚合酶II启动子(CAG,子图C)表达。使用相同的基因组DNA样品,通过T7E1分析评估了三个独立的基因座处的活性;显示平均值、s.e.m.和单独的数据点,n=3。(D),当使用集中的crRNA质粒、或表达靶向附近的(~100bp)基因组的位点(genomic loci)的两个crRNA的多重crRNA阵列时,编辑效率的评估。通过T7E1分析评估活性;显示平均值、s.e.m.和单独的数据点,n=4。(E-G),使用靶向典型PAM位点(子图E)和非典型PAM位点(子图F和G)的三种crRNA的库,使用dCas12a-VPR(1.1)融合物对内源人类基因的激活(参见图26A)。通过RT-qPCR评估的活性和RNA的倍数变化相对于HPRT1水平进行归一化;显示了三个生物学重复的三个技术重复的平均值、s.e.m.和单独的数据点(n=9)。(H),具有不同的NLS和接头组成的dCas12a碱基编辑(BE)构建体的示意图。(I),通过靶向深度测序评估的,对于八个不同目标位点的dCas12a-BEs所指导的胞嘧啶到胸腺嘧啶(C到T)转换效率。在-5~+25窗口内检查了三个生物学重复的C到T编辑的平均百分比;对于每个目标位点,这个窗口中所有的C用绿色突出显示;目标位点内C的位置在热图底部标出。SEQ ID NO.531-538为按照出现的顺序。(J),使用dCas12a-BEs,对于所有八个目标位点在20nt目标位点间隔子序列内C到T编辑效率的集合概述。(K),对于每个dCas12a-BE实验(八个目标位点和三个重复),含有***或删除突变(indel)的测序读取结果的百分比倍数变化的概述,相对于对照样品(LbBE1.4和空的U6质粒)中观察到的***或删除突变百分比进行归一化。VPR,合成的VP64-p65-Rta激活结构域(Chavez等人,Nat Methods.,2015,12:326-8);NLS(sv),SV40核定位信号;NLS(nuc),核质蛋白的核定位信号;rAPO1,大鼠APOBEC1;gs,甘氨酸-丝氨酸肽接头;UGI,尿嘧啶糖基化酶抑制剂。

图19A-19B:人类细胞中Cas12a直系同源体的活性。(A),靶向人类细胞中携带TTTN或VTTN PAM的内源位点的Cas12a直系同源体的活性。修饰百分比通过T7E1分析评估;显示平均值、s.e.m.和单独的数据点,n=3。(B),Cas12a直系同源体针对具有NTTN PAM序列的24个位点的活性的概述(显示了来自子图a的数据的平均活性)。

图20A-20D:AsCas12a变体的工程化和表征。(A),与crRNA配对的、与编码原型TTTVPAM的推定的目标位点相互作用的Cas12a示意图和结构示意图。在结构示意图中,靠近PAMDNA碱基的氨基酸残基以绿色突出显示;图像产自PDBID:5B43(Yamano等人,Cell.2016May5;165(4):949-62)),在PyMOL(v 1.8.6.0)中进行可视化。(B,C),当针对人类细胞中携带典型(子图B)或非典型(子图C)PAM的内源位点试验时,携带单个氨基酸取代的AsCas12a变体的活性。修饰百分比通过T7E1分析评估;显示平均值、s.e.m.和单独的数据点,n=3。(D),对于携带典型和非典型PAM的位点,与野生型AsCas12a相比AsCas12a变体的平均活性的倍数变化。与野生型AsCas12a的活性相比较的倍数变化根据图15A中的百分比修饰数据计算。

图21A-21H:体外PAM表征分析的优化。(A),纯化的Cas12a直系同源体和AsCas12a变体的代表性的SDS-PAGE凝胶图像;s.m,大小标准(size marker)以kDa计。(B),用作体外切割反应的底物、携带PAM和间隔子的组合的线性化质粒的示意图。SEQ ID NOs.539-540.(C),野生型AsCas12a(左图)和E174R/S542R/K548R变体(右图)对子图b中说明的底物的时程体外切割反应分布。使用一相指数衰减方程拟合曲线;误差条代表s.e.m,n=3。(D),PAM测定分析(PAMDA)的示意图。带有代替PAM的8个随机化核苷酸的线性化质粒文库使用Cas12a核糖核蛋白(RNP)复合物进行体外切割反应。在各个时间点停止等分试样的反应,随后用作PCR的模板。带有不完全可靶向PAM的底物进行扩增和测序,以允许定量从起始文库开始随时间的PAM消耗率。(E),野生型AsCas12a(左图)和E174R/S542R/K548R变体(右图)的重复中PAMDA速率常数(k)之间的相关性。(F),两个间隔子序列的来自平均PAMDA值的速率常数之间的相关性。(G),野生型和E174R/S542R/K548R AsCas12a的PAMDA速率常数的直方图。(H),编码标明的PAM序列的底物随时间的消耗分布。使用一相指数衰减方程拟合曲线;误差条代表s.e.m,n=4。

图22A-22C:eAsCas12a衍生变体的PAM特异性的解卷积(deconvolution)。(A),野生型AsCas12a、E174R/S542R/K548R变体和所有中间的单取代和双取代变体的PAM偏好分布,通过PAMDA评估。log10速率常数(k)是四个重复的平均值,每两个针对两种不同的间隔子序列(参见图21A-21H)。(B),E174R/S542R和E174R/S542R/K548R变体对于所有128种NNYNPAM的PAM偏好分布的比较。(C),Cas12a直系同源体的比对,其具有在这项研究中使用红色边界突出的、对于改变PAM偏好重要的残基。(SEQ ID NO:541-442)。

图23A-23I:eAsCas12a的改善的靶向范围的评估。(A,B),E174R/S542R和E174R/S542R/K548R AsCas12a对人类细胞中携带非典型VTTN和TTCN PAM(子图a)或TATN PAM(子图b)的内源位点的活性比较。(C),野生型AsCas12a对于具有TTCN或TATN PAM的位点的活性。(D,E),E174R/S542R/K548R变体对于具有TGTV PAM的位点(子图D)或其他具有各种非典型PAM的位点(子图E)的活性。(F),人类细胞中子图A-E中试验的PAM的PAMDA速率常数和平均修饰之间的相关性。灰色阴影的方框表示0.005(或10-2.25)的任意的PAMDA速率常数阈值,其大略地预示人类细胞中的活性。(G),野生型、E174R/S542R和E174R/S542R/K548RAsCas12a对于具有TTTN PAM的位点的活性比较。(H),AsCas12a、E174R/S542R变体和eAsCas12a对于编码TTTN PAM的26个位点的平均活性的概述(也参见图23G)。(I),eAsCas12a可靶向的PAM的概述。PAM的层级:1,高置信度PAM(平均k>0.01,平均修饰百分比>13%);2,中等置信度PAM(平均k>0.005,平均修饰百分比>10%);3,低活性或不一致的PAM(平均修饰百分比<10%,或平均k与修饰百分比之间不一致)。对于所有的子图,修饰百分比通过T7E1分析进行评估;显示平均值、s.e.m.和单独的数据点,n≥3)。

图24A-24E:增强的Cas12a PAM变体的活性。(A-C),AsCas12a变体对具有TTTN PAM(子图A)、TATN PAM(子图B)和TYCN PAM(子图C)的内源位点修饰活性的比较。修饰百分比通过T7E1分析评估;显示平均值、s.e.m.和单独的数据点,n=3。(D),通过PAMDA评估的,原始的和增强的RVR和RR AsCas12a变体的PAM偏好分布。log10速率常数是四个重复的平均值,每两个针对两种不同的间隔子序列(参见图21A-21H)。(E),RVR/eRVR(上图)和RR/eRR(底图)变体对于所有128种NNYN PAM的PAM偏好分布的比较。AsCas12a变体编码以下取代:eAsCas12a,E174R/S542R/K548R;RVR,S542R/K548V/N552R;eRVR,E174R/S542R/K548V/N552R;RR,S542R/K607R;eRR,E174R/S542R/K607R。

图25A-25K:AsCas12a和eAsCas12a的特异性的评估和改善。(A),GUIDE-Seq方法的示意图。(B,C),AsCas12a核酸酶对于GUIDE-Seq样品的中靶诱变(子图b)和GUIDE-SeqdsODN标签整合(子图c)活性的比较。修饰百分比和标签整合分别通过T7E1和RFLP分析进行评估;显示平均值、s.e.m.和单独的数据点,n=3。(D),AsCas12a核酸酶的GUIDE-Seq dsODN标签整合与总体诱变的比率;数据来自子图b和c。(E),当使用完全匹配中靶位点、或编码单个核苷酸错配的crRNA时,野生型AsCas12a或携带单取代的变体的活性。修饰百分比通过T7E1分析评估;显示平均值、s.e.m.和单独的数据点,n=3。SEQ ID NOs.553-554。(F),如子图e中评估的、携带单个氨基酸取代的eAsCas12a变体的活性。修饰百分比通过T7E1分析评估;显示平均值、s.e.m.和单独的数据点,n=3。(G),通过PAMDA评估的eAsCas12a和eAsCas12a-HF1的PAM偏好分布。log10速率常数是四个重复的平均值,每两个针对两种不同的间隔子序列(参见图21A-21H)。(H),eAsCas12a和eAsCas12a-HF1对于所有128种NNYN PAM的PAM偏好分布的比较。(I,J),AsCas12a、eAsCas12a和eAsCas12a-HF1对于带有TTTN PAM(子图i)或非典型的VTTV、TATV和TTCVPAM(子图j)的中靶活性评估。修饰百分比通过T7E1分析评估;显示平均值、s.e.m.和单独的数据点,n=3。(K),Cas12a直系同源体和变体对PAMDA位点1底物的时程体外切割反应,在37℃、32℃和25℃下进行(分别为左、中和右图)。使用一相指数衰减方程拟合曲线;误差条代表n=3的s.e.m。AsCas12a变体编码以下取代:eAsCas12a,E174R/S542R/K548R;eAsCas12a-HF1,E174R/N282A/S542R/K548R。

图26A-26F:使用Cas12a融合物的基因激活。(A),VRP激活结构域融合至DNase失活的Cas12a(dCas12a)直系同源体和变体的示意图。(B),大略地涵盖VEGFA转录起始位点(TSS)上游700bp的序列窗口的例示,标明了SpCas9和Cas12a的目标位点。(C,D),dCas12a-VPR和dSpCas9-VPR架构(分别使用crRNA或sgRNA对)的活性比较;crRNA靶向VEGFA启动子中具有TTTV PAM(子图C)或TTCV PAM(子图D)的位点。与含有deAs-VPR(1.3)的对照转染和模拟crRNA质粒相比,通过VEGFA产生方面的改变来评估的活性;显示平均值、s.e.m.和单独的数据点,n=4。(E,F),使用三个或两个(分别为子图e和f)crRNA或sgRNA的库,对于一系列具有dCas12a-VPR融合物的典型和非典型PAM的位点,通过dCas12a-VPR(1.1)或dSpCas9-VPR融合蛋白的VEGFA激活;显示平均值、s.e.m.和单独的数据点,n≥3。VPR,合成的VP64-p65-Rta激活结构域(Chavez等人,Nat Methods.,2015,12:326-8);NLS(sv),SV40核定位信号;NLS(nuc),核质蛋白的核定位信号;HA,人类流感血细胞凝集素标签;gs,甘氨酸-丝氨酸肽接头。

图27A-D:使用Cas12a的碱基编辑。(A),在8个目标位点的20nt间隔子中的所有C之中,与未处理的对照相比在C到T编辑方面的倍数变化。(B),前面的(5')碱基的身份对胞嘧啶到胸腺嘧啶(C到T)的转换的影响。对于涵盖每个目标位点的-14~+30区域的窗口(4ntPAM的上游另外10nt,以及20nt间隔子序列下游的10nt)中的所有的C,对八个目标位点的C到T编辑效率(参见图18I)进行标绘。(C),五个目标位点中六个选定的胞嘧啶处的编辑纯度的分析。相对于每个BE构建体的位置上所有的非C出现的总和,标绘每个非C身份的分数。(D),通过确定-14~+30窗口内编码***或删除突变的等位基因的百分比,不计算仅有取代的等位基因,对每个BE/crRNA对计算了Cas12a-BE的***或删除突变(indel)活性。

图28A-28B:使用AsCas12和eAsCas12a的DNA检测。(A),通过DNase诱导的报告分子荧光,使用野生型AsCas12a的时程DNA检测。评估了用不同的活性和失活底物进行编程时的活性。(B),eAsCas12a和eAsCas12a-HF1(分别为顶部和底部子图)随时间的DNA-检测活性。评估了用携带典型PAM、非典型PAM和非可靶向序列的底物编程时的活性。使用λex=485nm和λem=528nm,每60秒采集荧光的测量值,持续三小时。

具体实施方式

迄今为止表征的Cpf1酶识别位于间隔子序列的5'的富T PAM(图1)。AsCpf1和LbCpf1都被报道识别形式TTTN的PAM,但是强烈地偏向TTTV(其中,V=A、C或G)。预计TTTVPAM序列在随机DNA的每43个碱基中大约出现一次,潜在地限制了AsCpf1和LbCpf1用于基因组编辑的靶向范围(和有用性)。工程化核酸酶的靶向范围对于需要DNA双链断裂(DSB)的精确靶向或放置的应用是特别重要的,包括但不限于:1)在小的遗传元件例如短的开放阅读框(ORF)、转录因子结合位点、微肽、miRNA等中产生***或删除突变(indel);2)同源介导修复(HDR),其中DSB与所需序列改变的接近程度可以显著地影响修复效率,3)通过将SNP变异置于前间区序列或PAM之内而实现的等位基因特异性编辑;4)通过引入成对的DSB来产生限定长度的基因组删除或转位;5)进行基因或基因调节元件的饱和诱变;和6)使用与DNA修饰酶融合的工程化的RNA指导核酸酶或切口酶进行碱基编辑。考虑到提高的靶向范围的这些清晰的优点,我们试图改变或松弛AsCpf1和LbCpf1的PAM特异性,以改善它们识别更多样范围的DNA序列的能力。

在此我们证明了,在PAM邻近氨基酸残基之处或附近的取代可以改变AsCpf1和LbCpf1两者的PAM偏好,产生可以识别非相关PAM序列的这些核酸酶的变体,从而提高这种平台的靶向范围。这些工程化的CRISPR-Cas12a变体具有显著改善的性质,同时展现了扩大的靶向范围和增强的靶向活性。就我们所知,这是可以改进CRISPR核酸酶的中靶活性的氨基酸取代的首次描述。eAsCas12a的增强的性质提供了相对于当前可用的Cas12a直系同源体和变体的主要优点,展现了靶向范围方面大于8倍的改进,同时还允许更强力的多重编辑、基因激活、DNA检测和碱基编辑应用,效率是野生型AsCas12a早先不能实现的。eAsCas12a碱基编辑技术的发展扩展了基因组中可靶向碱基的范围,并且这样做几乎没有附带***或删除突变的证据。重要地,eAsCas12a的靶向范围与早先描述的工程化的SpCas9核酸酶是可比较的,为需要扩大的PAM识别的Cas12a应用(例如,在限定的或小的基因组窗口内的靶向,多重基因组或表观基因组编辑,聚焦的编码或非编码crRNA-铺瓦(tiling)筛选,或设想复杂的组合文库筛选时)提供了更大的目标位点密度。本文描述的变体包括eAsCas12a的改进的性质使得它们成为迄今为止描述的最广泛可靶向的和活性的Cas12a酶之一。

Cpf1

成簇规律间隔的短回文重复(CRISPR)系统编码细菌适应性免疫所必需的、RNA指导的内切核酸酶(Wright等人,Cell 164,29-44(2016))。CRISPR相关(Cas)核酸酶可以容易地进行编程来切割目标DNA序列,用于各种生物体中的基因组编辑2-5。这些核酸酶的一个类别,称为Cas9蛋白,与两个短的RNA复合:crRNA和反式激活crRNA(tracrRNA)7,8。最常用的Cas9直系同源体,SpCas9,使用在其5'末端具有与目标DNA位点的“前间区序列”区域互补的20个核苷酸(nt)的crRNA。高效的切割还需要SpCas9识别前间区序列邻近基序(PAM)。crRNA和tracrRNA通常组合成单个~100-nt的指导RNA(gRNA)7,9-11,其指导SpCas9的DNA切割活性。已经使用许多不同的方法表征了与不同的gRNA配对的SpCas9核酸酶的基因组广度的特异性12-15。还已经工程化了具有实质上改善的基因组广度特异性的SpCas9变体16,17

近来,已经鉴定出称为Cpf1的Cas蛋白,其也可以进行编程来切割目标DNA序列1,18-20。不同于SpCas9,Cpf1仅需要单个42-nt crRNA,其在它的3'末端具有与目标DNA序列的前间区序列互补的23nt1。此外,虽然SpCas9识别前间区序列3’的NGG PAM序列,AsCpf1和LbCp1识别位于前间区序列5'的TTTN PAM 1。AsCpf1和LbCpf1的早期实验显示,这些核酸酶可以被编程来编辑人类细胞中的目标位点1,但是仅在少量位点上对其进行了试验。近期的研究展现了,在人类细胞中AsCpf1和LbCpf1都具有稳健的中靶活性和高基因组广度的特异性(参见,例如,Kleinstiver&Tsai等人,Nature Biotechnology 2016;和Kim等人,NatBiotechnol.2016)。也参见US20160208243。

本发现为工程化的AsCpf1和LbCpf1变体提供支持,其在本文中一起称为“变体”或“所述变体”。

本文描述的所有变体可以快速地掺入现有的和广泛使用的载体,例如,通过简单的定点诱变。

因而,本文提供的是AsCpf1变体。AsCpf1野生型蛋白质序列如下:

AsCpf1-V型CRISPR相关蛋白Cpf1[氨基酸球菌种BV3L6],NCBI参考序列:WP_021736722.1

Figure BDA0002333406860000211

本文描述的AsCpf1变体可以包括SEQ ID NO:2的氨基酸序列,例如,至少包含SEQID NO:2的氨基酸1-1307,在表1中的一个或多个位置处具有突变(即,用不同的氨基酸例如,丙氨酸、甘氨酸或丝氨酸(除非其中所述天然氨基酸是丝氨酸)替换天然氨基酸),例如,在以下位置:SEQ ID NO:2的T167、S170、E174、T539、K548、N551、N552、M604和/或K607(或例如SEQ ID NO:9的与之类似的位置)。在某些实施方案中,所述AsCpf1变体与SEQ ID NO:2的氨基酸序列至少80%,例如至少85%、90%或95%相同,例如,在被替换的SEQ ID NO:2的残基的高达5%、10%、15%或20%处有差异,例如除了本文描述的突变之外,具有保守性突变。在优选的实施方案中,所述变体保持了亲本(parent)的期望的活性,例如核酸酶活性(除非其中所述亲本是切口酶或死的Cpf1),和/或与指导RNA和目标DNA相互作用的能力。

本文还提供的是LbCpf1变体。LbCpf1野生型蛋白质序列如下:

LbCpf1-V型CRISPR相关蛋白Cpf1[毛螺旋菌科细菌ND2006],GenBank Acc No.WP_051666128.1

Figure BDA0002333406860000221

本文描述的LbCpf1变体可以包括SEQ ID NO:3的氨基酸序列,例如,至少包含SEQID NO:3的氨基酸23-1246,在以下位置中的一处或多处具有突变(即,用不同的氨基酸例如,丙氨酸、甘氨酸或丝氨酸替换天然氨基酸):SEQ ID NO:11的T152、D156、G532和/或K538(或与之类似的位置,例如,SEQ ID NO:3的T170、D174、G550和/或K556);SEQ ID NO:3的氨基酸19-1246与SEQ ID NO:11的1-1228相同(SEQ ID NO:11的氨基酸1-1228在本文中也称为LbCPF1(-18))。在某些实施方案中,所述LbCpf1变体与SEQ ID NO:3的氨基酸序列至少80%,例如至少85%、90%或95%相同,例如,在被替换的SEQ ID NO:3的残基的高达5%、10%、15%或20%处有差异,例如除了本文描述的突变之外,具有保守性突变。在优选的实施方案中,所述变体保持了亲本的期望的活性,例如核酸酶活性(除非其中所述亲本是切口酶或死的Cpf1),和/或与指导RNA和目标DNA相互作用的能力。本工作实施例中使用的LbCpf1的形式起始于MSKLEK基序,省略了上文方框中的前18个氨基酸,如Zetsche等人Cell163,759-771(2015)中所描述的。

本文还提供的是FnCpf1变体。FnCpf1野生型蛋白质序列如下:

FnCpf1-V型CRISPR相关蛋白Cpf1[土拉弗朗西斯氏菌],GenBank Acc No.WP_003040289.1

Figure BDA0002333406860000231

本文描述的FnCpf1变体可以包括SEQ ID NO:4的氨基酸序列,在以下位置中的一处或多处具有突变(即,用不同的氨基酸例如,丙氨酸、甘氨酸或丝氨酸替换天然的氨基酸):SEQ ID NO:4的K180、E184、N607、K613、D616、N617和/或K671。在某些实施方案中,所述FnCpf1变体与SEQ ID NO:4的氨基酸序列至少80%,例如至少85%、90%或95%相同,例如,在被替换的SEQ ID NO:4的残基的高达5%、10%、15%或20%处有差异,例如除了本文描述的突变之外,具有保守性突变。在优选的实施方案中,所述变体保持了亲本的期望的活性,例如核酸酶活性(除非其中所述亲本是切口酶或死的Cpf1),和/或与指导RNA和目标DNA相互作用的能力。

为了确定两个核酸序列的同一性百分比,为了最佳比较的目的将序列比对(例如,可以在第一和第二氨基酸或核酸序列之一或两者中引入空位用于最佳的比对,并且出于比较的目的可以忽视非同源的序列)。出于比较目的而比对的参考序列的长度是参考序列长度的至少80%,在某些实施方案中是至少90%或100%。然后比较相应的氨基酸位置或核苷酸位置处的核苷酸。当第一序列中的位置被与第二序列中相应位置相同的核苷酸占据时,则该分子在该位置是同一的(即,如本文使用的,核酸“同一性”等同于核酸“同源性”)。两个序列之间的同一性百分比是序列共有的同一的位置的数量的函数,考虑了为了两个序列的最佳比对需要引入的空位的数量、每个空位的长度。按照本领域技术技术范围内的各种方式确定两个多肽或核酸序列之间的同一性百分比,例如,使用公众可获得的计算机软件,例如,Smith Waterman Alignment(Smith,T.F.和M.S.Waterman(1981)J Mol Biol 147:195-7);已合并到GeneMatcher PlusTM中的“BestFit”(Smith和Waterman,Advances in AppliedMathematics,482-489(1981)),Schwarz和Dayhof(1979)Atlas of Protein Sequence andStructure,Dayhof,M.O.,编著,pp 353-358;BLAST程序(Basic Local Alignment SearchTool;(Altschul,S.F.,W.Gish,等人(1990)J Mol Biol215:403-10),BLAST-2、BLAST-P、BLAST-N、BLAST-X、WU-BLAST-2、ALIGN、ALIGN-2、CLUSTAL或Megalign(DNASTAR)软件。此外,本领域技术人员可以确定用于衡量比对的合适参数,包括在被比较的序列全长上实现最大比对所需的任何算法。一般地,对于蛋白质或核酸,比较的长度可以是任何长度,达到或包括全长(例如,5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或100%)。出于本组合物和方法的目的,序列全长的至少80%进行比对。

为了本发明的目的,序列的比较和两个序列之间同一性百分比的确定可以使用Blossum 62评分矩阵、使用空位罚分12、空位延伸罚分4以及移框缺口罚分5来完成。

保守性取代一般包括以下组内的取代:甘氨酸,丙氨酸;缬氨酸,异亮氨酸,亮氨酸;天冬氨酸,谷氨酸,天冬酰胺,谷氨酰胺;丝氨酸,苏氨酸;赖氨酸,精氨酸;和苯丙氨酸,酪氨酸。

在某些实施方案中,所述突变体具有代替野生型氨基酸的丙氨酸。在某些实施方案中,所述突变体具有精氨酸或赖氨酸(或天然氨基酸)以外的任何氨基酸。

在某些实施方案中,所述Cpf1变体还包括表A中列出的以下突变之一,其降低或破坏Cpf1的核酸酶活性:

表A

Figure BDA0002333406860000251

参见,例如,Yamano等人,Cell.2016 May 5;165(4):949-62;Fonfara等人,Nature.2016 Apr 28;532(7600):517-21;Dong等人,Nature.2016 Apr 28;532(7600):522-6;和Zetsche等人,Cell.2015 Oct 22;163(3):759-71。注意,“LbCpf1(+18)”是指SEQID NO:3的全部氨基酸序列1-1246,而LbCpf1是指Zetsche等人中LbCpf1的序列,本文也显示为SEQ ID NO:11的氨基酸1-1228和SEQ ID NO:3的氨基酸19-1246。

因而,在某些实施方案中,对于AsCpf1,催化活性破坏突变在D908和E993处进行,例如D908A和E993A;对于LbCpf1,催化活性破坏突变在D832和E925处进行,例如D832A和E925A。

在某些实施方案中,所述Cpf1变体还包括提高特异性的突变(即,诱导实质上更少的脱靶效应),例如,WO2018/022634中描述的。例如,LbCpf1变体蛋白可以包括一个、两个、三个、四个、五个、六个或全部七个以下位置处的一个或多个突变:S202、N274、N278、K290、K367、K532、K609、K915、Q962、K963、K966、K1002和/或S1003,例如,S202A、N274A、N278A、K290A、K367A、K532A、K609A、K915A、Q962A、K963A、K966A、K1002A和/或S1003A。AsCpf1变体蛋白可以包括一个、两个、三个、四个、五个或六个以下位置处的一个或多个突变:N178、N278、N282、R301、T315、S376、N515、K523、K524、K603、K965、Q1013和/或K1054,例如,N178A、N278A、N282A、R301A、T315A、S376A、N515A、K523A、K524A、K603A、K965A、Q1013A和/或K1054A。在某些实施方案中,所述AsCpf1变体包括N282A、T315A、N515A或N278A的突变。

本文还提供的是编码所述Cpf1变体的分离的核酸;载体,其包含任选地与一个或多个调节结构域可操作连接的分离的核酸,以用于表达所述变体蛋白;以及宿主细胞,例如哺乳动物宿主细胞,其包含所述核酸并任选地表达所述变体蛋白。

本文描述的变体可以用于改变细胞的基因组;所述方法一般包括在所述细胞中表达所述变体蛋白,以及具有与所述细胞的基因组的选定部分互补的区域的指导RNA。选择性地改变细胞的基因组的方法是本领域已知的,参见,例如,US 8,993,233;US 20140186958;US 9,023,649;WO/2014/099744;WO 2014/089290;WO2014/144592;WO144288;WO2014/204578;WO2014/152432;WO2115/099850;US8,697,359;US20160024529;US20160024524;US20160024523;US20160024510;US20160017366;US20160017301;US20150376652;US20150356239;US20150315576;US20150291965;US20150252358;US20150247150;US20150232883;US20150232882;US20150203872;US20150191744;US20150184139;US20150176064;US20150167000;US20150166969;US20150159175;US20150159174;US20150093473;US20150079681;US20150067922;US20150056629;US20150044772;US20150024500;US20150024499;US20150020223;;US20140356867;US20140295557;US20140273235;US20140273226;US20140273037;US20140189896;US20140113376;US20140093941;US20130330778;US20130288251;US20120088676;US20110300538;US20110236530;US20110217739;US20110002889;US20100076057;US20110189776;US20110223638;US20130130248;US20150050699;US20150071899;US20150045546;US20150031134;US20150024500;US20140377868;US20140357530;US20140349400;US20140335620;US20140335063;US20140315985;US20140310830;US20140310828;US20140309487;US20140304853;US20140298547;US20140295556;US20140294773;US20140287938;US20140273234;US20140273232;US20140273231;US20140273230;US20140271987;US20140256046;US20140248702;US20140242702;US20140242700;US20140242699;US20140242664;US20140234972;US20140227787;US20140212869;US20140201857;US20140199767;US20140189896;US20140186958;US20140186919;US20140186843;US20140179770;US20140179006;US20140170753;WO/2008/108989;WO/2010/054108;WO/2012/164565;WO/2013/098244;WO/2013/176772;Makarova等人,"Evolution and classification of the CRISPR-Cas systems"9(6)Nature ReviewsMicrobiology 467-477(1-23)(Jun.2011);Wiedenheft等人,"RNA-guided geneticsilencing systems in bacteria and archaea"482Nature 331-338(Feb.16,2012);Gasiunas等人,"Cas9-crRNA ribonucleoprotein complex mediates specific DNAcleavage for adaptive immunity in bacteria"109(39)Proceedings of theNationalAcademy of Sciences USA E2579-E2586(Sep.4,2012);Jinek等人,"A ProgrammableDual-RNA-Guided DNA Endonuclease in Adaptive Bacterial Immunity"337Science816-821(Aug.17,2012);Carroll,"ACRISPR Approach to Gene Targeting"20(9)Molecular Therapy 1658-1660(Sep.2012);2012年5月25日提交的美国申请No.61/652,086;Al-Attar等人,Clustered Regularly Interspaced Short Palindromic Repeats(CRISPRs):The Hallmark of an Ingenious Antiviral Defense Mechanism inProkaryotes,Biol Chem.(2011)vol.392,Issue 4,pp.277-289;Hale等人,EssentialFeatures and Rational Design of CRISPR RNAs That Function With the Cas RAMPModule Complex to Cleave RNAs,Molecular Cell,(2012)vol.45,Issue 3,292-302。

本文描述的变体蛋白可以用于代替或补充上述参考文献中描述的任何Cas9或Cpf1蛋白,或与其中描述的类似突变体组合,与适合于选定Cpf1的指导RNA一起使用,即,与靶向不同于野生型PAM的目标序列的指导RNA一起使用,例如,具有根据以下表B的PAM序列的指导RNA。

Figure BDA0002333406860000281

Figure BDA0002333406860000301

本文描述的变体还可以用于体外检测样品中的目标ssDNA或dsDNA的方法,例如US20170362644;East-Seletsky等人,Nature.2016 Oct 13;538(7624):270–273;Gootenberg等人,Science.2017 Apr 28;356(6336):438–442;Gootenberg等人,Science10.1126/science.aaq0179(2018);Chen等人,Science.2018 Feb 15.pii:eaar6245;Science.2018 Feb 15.pii:eaaq0179;和WO2017219027A1中描述的。在这些方法中,所述变体与它的靶点的结合诱导针对其他靶点的非特异性DNase活性。所述方法包括使已知或怀疑包括目标ssDNA或dsDNA的样品接触融合蛋白(或多个融合蛋白)、与该融合蛋白一起工作的相关的指导RNA、以及标记的检测子DNA(例如,3-30nt、3-20、5-20、5-15或其他适合的长度的报告子ssDNA)。当融合蛋白结合它的靶点时,非特异性DNase活性切割检测子DNA,产生信号。测量来自标记的检测子DNA的信号的方法是本领域已知的,可以包括,例如,检测金纳米颗粒、荧光团、荧光偏振、胶体相转变/分散、电化学信号和基于半导体的信号中的一种或多种。在某些实施方案中,标记的检测子DNA在被切割之前产生一定量的可检测信号,当标记的检测子DNA被切割时可检测信号的量降低。可选地,标记的检测子DNA在被切割之前可以产生第一可检测信号,当标记的检测子DNA被切割时产生第二可检测信号。在某些实施方案中,标记的检测子DNA包含淬灭剂/fluor对。在某些实施方案中,还包括Csm6,一种辅助CRISPR相关酶。

此外,本文描述的变体可以用于本领域已知的融合蛋白中代替野生型Cas9或其他Cas9突变体(例如,dCas9或Cas9切口酶),例如US 8,993,233;US 20140186958;US 9,023,649;WO/2014/099744;WO 2014/089290;WO2014/144592;WO144288;WO2014/204578;WO2014/152432;WO2115/099850;US8,697,359;US2010/0076057;US2011/0189776;US2011/0223638;US2013/0130248;WO/2008/108989;WO/2010/054108;WO/2012/164565;WO/2013/098244;WO/2013/176772;US20150050699;US 20150071899和WO 2014/124284中描述的具有异源功能结构域的融合蛋白。例如,所述变体,优选地包含一个或多个核酸酶-降低或杀灭突变,可以在Cpf1的N或C末端融合至转录激活结构域(例如,来自单纯性疱疹病毒的VP16结构域(Sadowski等人,1988,Nature,335:563-564)或VP64的转录激活结构域;来自细胞转录因子NF-κB的p65结构域(Ruben等人,1991,Science,251:1490-93);或融合于dCas9的三联效应子,其由串联连接的激活子VP64、p65和Rta(VPR)组成,Chavez等人,NatMethods.2015Apr;12(4):326-8)或其他异源功能结构域(例如,转录阻遏蛋白(例如,KRAB、ERD、SID和其它的蛋白,例如,ets2阻遏因子(ERF)阻遏蛋白结构域(ERD)的氨基酸473-530,KOX1的KRAB结构域的氨基酸1-97,或Mad mSIN3相互作用结构域(SID)的氨基酸1-36;参见Beerli等人,PNAS USA 95:14628-14633(1998))或沉默子,例如异染色质蛋白1(HP1,也称为swi6),例如,HP1α或HP1β;可以募集长的非编码RNA(lncRNA)的蛋白或肽,其与固定的RNA结合序列融合,例如,被MS2衣壳蛋白、核糖核酸内切酶Csy4或λN蛋白结合的那些;碱基编辑子(修饰DNA甲基化状态的酶(例如,DNA甲基转移酶(DNMT)或TET蛋白);或者也可以使用本领域已知的修饰组蛋白亚单位的酶(例如,组蛋白乙酰基转移酶(HAT),组蛋白脱乙酰基酶(HDAC),组蛋白甲基转移酶(例如,用于赖氨酸或精氨酸残基的甲基化),或组蛋白脱甲基酶(例如,用于赖氨酸或精氨酸残基的脱甲基化)。这样的结构域的许多序列是本领域已知的,例如,催化DNA中甲基化的胞嘧啶的羟基化的结构域。示范性的蛋白包括十-十一-转位(TET)1-3家族,是将DNA中的5-甲基胞嘧啶(5-mC)转换成5-羟基甲基胞嘧啶(5-hmC)的酶。

人类TET1-3的序列是本领域已知的,在下表中显示:

Figure BDA0002333406860000321

*变体(1)代表更长的转录产物,并且编码更长的同种型(a)。与变体1相比,变体(2)在5'UTR和3'UTR以及编码序列上不同。与同种型a相比,产生的同种型(b)是较短的,并具有不同的C-末端。

在某些实施方案中,可以包括所述催化结构域的全长序列的全部或部分,例如,包含富半胱氨酸延伸的催化模块以及由7个高度保守的外显子编码的2OGFeDO结构域,例如,包含氨基酸1580-2052的Tet1催化结构域,包含氨基酸1290-1905的Tet2,和包含氨基酸966-1678的Tet3。参见,例如,Iyer等人,Cell Cycle.2009 Jun 1;8(11):1698-710.Epub2009 Jun 27的图1,其中的比对说明了所有三种Tet蛋白的关键催化残基,以及全长序列的其他补充材料(可从ftp站点ftp.ncbi.nih.gov/pub/aravind/DONS/supplementary_material_DONS.html获得)(参见,例如,seq 2c);在某些实施方案中,所述序列包括Tet1的氨基酸1418-2136或Tet2/3中的相应区域。

其他催化模块可以来自Iyer等人,2009中鉴定的蛋白。

在某些实施方案中,所述异源功能结构域是碱基编辑子,例如,修饰胞嘧啶DNA碱基的脱氨酶,例如,来自载脂蛋白B mRNA编辑酶的胞苷脱氨酶,脱氨酶的催化性多肽样(APOBEC)家族,包括APOBEC1、APOBEC2、APOBEC3A、APOBEC3B、APOBEC3C、APOBEC3D/E、APOBEC3F、APOBEC3G、APOBEC3H、APOBEC4(参见,例如,Yang等人,J Genet Genomics.2017Sep 20;44(9):423-437);活化诱导的胞苷脱氨酶(AID),例如,活化诱导的胞苷脱氨酶(AICDA),胞嘧啶脱氨酶1(CDA1)和CDA2,以及作用于tRNA的胞嘧啶脱氨酶(CDAT)。下表提供了示范性的序列;也可以使用其他序列。

Figure BDA0002333406860000331

*来自酿酒酵母(Saccharomyces cerevisiae)S288C

在某些实施方案中,所述异源功能结构域是修饰腺苷DNA碱基的脱氨酶,例如,所述脱氨酶是腺苷脱氨酶1(ADA1)、ADA2;作用于RNA的腺苷脱氨酶1(ADAR1)、ADAR2、ADAR3(参见,例如,Savva等人,Genome Biol.2012 Dec 28;13(12):252);作用于tRNA的腺苷脱氨酶1(ADAT1)、ADAT2、ADAT3(参见Keegan等人,RNA.2017Sep;23(9):1317-1328以及Schaub和Keller,Biochimie.2002Aug;84(8):791-803);以及天然发生的或工程化的tRNA特异性腺苷脱氨酶(TadA)(参见,例如,Gaudelli等人,Nature.2017 Nov 23;551(7681):464-471)(NP_417054.2(大肠杆菌(Escherichia coli)str.K-12substr.MG1655);参见,例如Wolf等人,EMBO J.2002Jul 15;21(14):3841-51)。下表提供了示范性的序列;也可以使用其他序列。

Figure BDA0002333406860000341

在某些实施方案中,所述异源功能结构域是抑制或增强内源DNA修复或碱基切除修复(BER)途径的酶、结构域或肽,例如,胸腺嘧啶DNA糖基化酶(TDG;GenBank Acc Nos.NM_003211.4(核酸)和NP_003202.3(蛋白))或尿嘧啶DNA糖基化酶(UDG,也称为尿嘧啶N-糖基化酶,或UNG;GenBank Acc Nos.NM_003362.3(核酸)和NP_003353.1(蛋白),或抑制UNG介导的尿嘧啶切除以启动BER的尿嘧啶DNA糖基化酶抑制剂(UGI)(参见,例如Mol等人,Cell 82,701–708(1995);Komor等人,Nature.2016 May 19;533(7603)),或DNA末端结合蛋白,例如Gam,其是一种来自噬菌体的蛋白质,结合游离的DNA末端、抑制DNA修复酶、并引起更精确的编辑(更少的非预期碱基编辑;Komor等人,Sci Adv.2017 Aug 30;3(8):eaao4774)。

在某些实施方案中,可以使用所述蛋白的全部或部分,例如,至少是保持了酶的预期功能的催化结构域。

在某些实施方案中,所述异源功能结构域是生物系链,包含MS2衣壳蛋白、核糖核酸内切酶Csy4或λN蛋白的全部或部分(例如,来自它们的DNA结合结构域)。这些蛋白可以用于将含有特定茎-环结构的RNA分子募集到dCpf1gRNA靶向序列指定的位置。例如,与MS2衣壳蛋白、核糖核酸内切酶Csy4或λN融合的dCpf1变体可以用于募集长的非编码RNA(lncRNA)例如XIST或HOTAIR;参见,例如,Keryer-Bibens等人,Biol.Cell 100:125–138(2008),其与所述Csy4、MS2或λN结合序列连接。可选地,Csy4、MS2或λN蛋白结合序列可以连接到另一蛋白,例如上文的Keryer-Bibens等人中描述的,所述蛋白可以使用本文描述的方法和组合物靶向dCpf1变体结合位点。在某些实施方案中,Csy4是无催化活性的。在某些实施方案中,Cpf1变体,优选地dCpf1变体,融合至如US 8,993,233;US 20140186958;US 9,023,649;WO/2014/099744;WO 2014/089290;WO2014/144592;WO144288;WO2014/204578;WO2014/152432;WO2115/099850;US8,697,359;US2010/0076057;US2011/0189776;US2011/0223638;US2013/0130248;WO/2008/108989;WO/2010/054108;WO/2012/164565;WO/2013/098244;WO/2013/176772;US20150050699;US 20150071899和WO 2014/204578中描述的FokI。

在某些实施方案中,所述融合蛋白包括所述Cpf1变体和所述异源功能结构域之间的接头。可以用于这些融合蛋白(或串联结构的融合蛋白之间)的接头可以包括不干扰所述融合蛋白的功能的任何序列。在优选的实施方案中,所述接头是短的,例如,2-20个氨基酸,并且一般是柔性的(即,包含高自由度的氨基酸,例如,甘氨酸、丙氨酸和丝氨酸)。在某些实施方案中,所述接头包含由GGGS(SEQ ID NO:12)或GGGGS(SEQ ID NO:13)组成的一个或多个单元,例如,GGGS(SEQ ID NO:12)或GGGGS(SEQ ID NO:13)单元的两个、三个、四个或多个重复。也可以使用其他接头序列。

在某些实施方案中,所述变体蛋白包括促进向细胞内空间递送的细胞穿透肽序列,例如,HIV衍生的TAT肽、穿透素(penetratin)、转运蛋白(transportan)或hCT衍生的细胞穿透性肽,参见,例如Caron等人,(2001)Mol Ther.3(3):310-8;Langel,Cell-Penetrating Peptides:Processes and Applications(CRC Press,Boca Raton FL2002);El-Andaloussi等人,(2005)Curr Pharm Des.11(28):3597-611;和Deshayes等人,(2005)Cell Mol Life Sci.62(16):1839-49。

细胞穿透肽(CPP)是短肽,其促进各种各样的生物分子跨越细胞膜移动进入细胞质或其他细胞器,例如线粒体和核。可以通过CPP递送的分子的实例包括治疗药物、质粒DNA、寡核苷酸、siRNA、肽-核酸(PNA)、蛋白、肽、纳米颗粒和脂质体。CPP一般是30个氨基酸或更少,来源于天然或非天然发生的蛋白或嵌合序列,含有高相对丰度的正电荷氨基酸,例如赖氨酸或精氨酸,或者交替模式的极性和非极性氨基酸。本领域中常用的CPP包括Tat(Frankel等人,(1988)Cell.55:1189-1193,Vives等人,(1997)J.Biol.Chem.272:16010-16017)、穿透素(Derossi等人,(1994)J.Biol.Chem.269:10444-10450)、聚精氨酸肽序列(Wender等人,(2000)Proc.Natl.Acad.Sci.USA 97:13003-13008,Futaki等人,(2001)J.Biol.Chem.276:5836-5840)和转运蛋白(Pooga等人,(1998)Nat.Biotechnol.16:857-861)。

CPP可以通过共价或非共价策略与它们的货物连接。共价连接CPP和它的货物的方法是本领域已知的,例如,化学交联(Stetsenko等人,(2000)J.Org.Chem.65:4900-4909,Gait等人(2003)Cell.Mol.Life.Sci.60:844-853)或克隆融合蛋白(Nagahara等人,(1998)Nat.Med.4:1449-1453)。货物与包含极性和非极性结构域的短的两亲性CPP之间的非共价偶联通过静电和疏水性相互作用来建立。

本领域中已经利用CPP来向细胞递送潜在治疗性的生物分子。实例包括用于免疫抑制的连接到聚精氨酸的环孢霉素(Rothbard等人,(2000)Nature Medicine 6(11):1253-1257)、用于抑制肿瘤发生的、与CPP连接的针对周期蛋白B1的siRNA,称为MPG(Crombez等人,(2007)Biochem Soc.Trans.35:44-46),与CPP连接的肿瘤抑制物p53肽以降低癌细胞生长(Takenobu等人,(2002)Mol.Cancer Ther.1(12):1043-1049,Snyder等人,(2004)PLoSBiol.2:E36),以及与Tat融合的Ras的显性阴性形式或磷酸肌醇3激酶(PI3K)以治疗哮喘(Myou等人,(2003)J.Immunol.171:4399-4405)。

本领域已经利用CPP将造影剂转运到细胞内用于成像和生物传感应用。例如,附着到Tat的绿色荧光蛋白(GFP)已经用于标记癌细胞(Shokolenko等人,(2005)DNA Repair 4(4):511-518)。缀合至量子点的Tat已经用于成功地跨越血脑屏障,用于大鼠脑的可视化(Santra等人,(2005)Chem.Commun.3144-3146)。CPP还与磁共振成象技术组合用于细胞成像(Liu等人,(2006)Biochem.and Biophys.Res.Comm.347(1):133-140)。还参见Ramsey和Flynn,Pharmacol Ther.2015 Jul 22.pii:S0163-7258(15)00141-2。

在某些实施方案中,可选地或另外地,所述变体蛋白可以包括核定位序列,例如,SV40大T抗原NLS(PKKKRRV(SEQ ID NO:16))和核质蛋白NLS(KRPAATKKAGQAKKKK(SEQ IDNO:7))。其他NLS是本领域已知的,参见,例如,Cokol等人,EMBO Rep.2000 Nov 15;1(5):411–415;Freitas和Cunha,Curr Genomics.2009 Dec;10(8):550–557。

在某些实施方案中,所述变体包括对配体例如GST、FLAG或六组氨酸序列具有高亲和性的部分。这样的亲和标签可以便于重组变体蛋白的纯化。

对于其中将变体蛋白递送给细胞的方法,所述蛋白可以使用本领域已知的任何方法产生,例如,通过体外翻译,或在合适的宿主细胞中从编码所述变体蛋白的核酸表达;生产蛋白的许多方法是本领域已知的。例如,所述蛋白可以在酵母、大肠杆菌(E.coli)、昆虫细胞系、植物、转基因动物或培养的哺乳动物细胞中产生并从中纯化;参见,例如,Palomares等人,“Production of Recombinant Proteins:Challenges and Solutions,”Methods Mol Biol.2004;267:15-52。此外,所述变体蛋白可以连接到便于转移入细胞的部分,例如,脂质纳米颗粒,任选地使用一旦蛋白处于细胞之内就被切割的接头。参见,例如LaFountaine等人,Int J Pharm.2015 Aug 13;494(1):180-194。

表达系统

为了使用本文描述的Cpf1变体,可期望从编码它们的核酸中表达它们。这可以以多种方式进行。例如,编码Cpf1变体的核酸可以克隆到中间载体中,用于转化入原核或真核细胞用于复制和/或表达。中间载体一般是原核生物载体,例如,质粒,或穿梭载体、或昆虫载体,用于编码所述Cpf1变体的核酸的保存或操作,用于生产Cpf1变体。编码Cpf1变体的核酸还可以克隆到表达载体中,用于向植物细胞、动物细胞,优选哺乳动物细胞或人类细胞、真菌细胞、细菌细胞或原生动物细胞施用。

为了获得表达,一般将编码Cpf1变体的序列亚克隆到含有指导转录的启动子的表达载体中。适合的细菌和真核启动子是本领域公知的,例如,在Sambrook等人,MolecularCloning,A Laboratory Manual(第3版,2001);Kriegler,Gene Transfer andExpression:A Laboratory Manual(1990);和Current Protocols in Molecular Biology(Ausubel等人编辑,2010)中描述。用于表达工程化的蛋白的细菌表达系统可以获自例如大肠杆菌、芽胞杆菌属物种(Bacillus sp.)和沙门氏菌属(Salmonella)(Palva等人,1983,Gene 22:229-235)。用于这类表达系统的试剂盒是商购可得的。用于哺乳动物细胞、酵母和昆虫细胞的真核表达系统是本领域公知的,也是商购可得的。

用于指导核酸表达的启动子取决于具体的应用。例如,强组成型启动子一般用于融合蛋白的表达和纯化。相比之下,当Cpf1变体将被体内施用而用于基因调节时,可以使用组成型或诱导型启动子,取决于Cpf1变体的具体运用。此外,用于Cpf1变体施用的优选的启动子可以是弱启动子,例如,HSVTK或具有类似活性的启动子。启动子还可以包括响应于反式激活的元件,例如,低氧响应元件、Gal4响应元件、lac阻遏物响应元件和小分子控制系统,例如四环素调节系统和RU-486系统(参见,例如,Gossen&Bujard,1992,Proc.Natl.Acad.Sci.USA,89:5547;Oligino等人,1998,Gene Ther.,5:491-496;Wang等人,1997,Gene Ther.,4:432-441;Neering等人,1996,Blood,88:1147-55;和Rendahl等人,1998,Nat.Biotechnol.,16:757-761)。

除了启动子之外,表达载体一般地含有转录单位或表达盒,其含有核酸在原核或真核宿主细胞中表达所需的所有其他元件。因而典型的表达盒含有启动子,其可操作地连接至,例如,编码所述Cpf1变体的核酸序列,以及例如转录产物的高效多聚腺苷酸化、转录终止、核糖体结合位点或翻译终止所需的任何信号。所述盒的其他元件可以包括,例如,增强子和异源剪接的内含子信号。

针对所述Cpf1变体的预期用途选择用于将遗传信息转运入细胞的具体表达载体,例如,在植物、动物、细菌、真菌、原生动物等中表达。标准的细菌表达载体包括质粒,例如基于pBR322的质粒、pSKF、pET23D和商购可得的标签-融合物表达系统例如GST和LacZ。

含有来自真核生物病毒的调节元件的表达载体常常用于真核表达载体中,例如,SV40载体、***状瘤病毒载体和来自Epstein-Barr病毒的载体。其他示范性的真核载体包括pMSG、pAV009/A+、pMTO10/A+、pMAMneo-5、杆状病毒pDSVE,和任何其他载体,所述载体容许蛋白质在SV40早期启动子、SV40晚期启动子、金属硫蛋白启动子、鼠类乳腺肿瘤病毒启动子、劳氏肉瘤病毒启动子、多角体蛋白(polyhedrin)启动子或其他显示了真核细胞中的表达有效性的启动子的指导下表达。

用于表达所述Cpf1变体的载体可以包括RNA Pol III启动子以驱动指导RNA的表达,例如,H1、U6或7SK启动子。这些人类启动子容许Cpf1变体在质粒转染之后在哺乳动物细胞中表达。

某些表达系统具有用于选择稳定转染的细胞系的标志物,例如,胸苷激酶、潮霉素B磷酸转移酶和二氢叶酸还原酶。高产量表达系统也是适合的,例如,在昆虫细胞中使用杆状病毒载体,以及在多角体蛋白启动子或其他强杆状病毒启动子的指导下的gRNA编码序列。

一般包括在表达载体中的元件还包括在大肠杆菌中起作用的复制子,编码抗生素抗性的基因以允许选择带有重组质粒的细菌,处在质粒的非关键区域中的独特的限制性位点,以容许重组序列的***。

使用标准的转染方法来产生表达大量蛋白的细菌、哺乳动物、酵母或昆虫细胞系,然后使用标准技术进行纯化(参见,例如,Colley等人,1989,J.Biol.Chem.,264:17619-22;Guide to Protein Purification,in Methods in Enzymology,vol.182(Deutscher编辑,1990))。根据标准技术进行真核和原核细胞的转化(参见,例如,Morrison,1977,J.Bacteriol.132:349-351;Clark-Curtiss&Curtiss,Methods in Enzymology 101:347-362(Wu等人,编辑,1983)。

可以使用向宿主细胞中引入外源核苷酸序列的任何已知的操作。这些包括利用磷酸钙转染、聚凝胺、原生质体融合、电穿孔、核染、脂质体、显微注射、裸DNA、质粒载体、病毒载体,游离的和整合的,以及任何其他公知的方法将克隆的基因组DNA、cDNA、合成的DNA或其他外源遗传材料导入宿主细胞中(参见,例如,上文的Sambrook等人)。仅仅必需的是,所使用的具体的遗传工程操作能够向能表达所述Cpf1变体的宿主细胞中成功地导入至少一种基因。

本发明还包括载体和包含载体的细胞。

本文还提供包含本文描述的变体的组合物和试剂盒。在某些实施方案中,所述试剂盒包括融合蛋白和相关的指导RNA(即,结合所述蛋白并将它导向适合该蛋白的目标序列的指导RNA)。在某些实施方案中,所述试剂盒还包括标记的检测子DNA,例如,用于检测目标ssDNA或dsDNA的方法中。标记的检测子DNA是本领域已知的,例如,在US20170362644;East-Seletsky等人,Nature.2016 Oct 13;538(7624):270–273;Gootenberg等人,Science.2017Apr 28;356(6336):438–442和WO2017219027A1中描述,可以包括包含荧光共振能量转移(FRET)对或淬灭剂/fluor对或这两者的标记的检测子DNA。所述试剂盒还可以包括一种或多种另外的试剂,例如,另外的酶(例如,RNA聚合酶)和缓冲液,例如,用于本文描述的方法。

实施例

在以下实施例中进一步描述本发明,其不限制本发明的范围,本发明的范围在权利要求中描述。

方法

除非另有说明,以下的材料和方法用于下文的实施例。

质粒和寡核苷酸

实施例1B、4B和5-8中使用的crRNA的目标位点序列和寡核苷酸序列可以分别从表2A-2D和3A-3D获得。野生型AsCas12a、LbCas12a、FnCas12a和MbCas12a的人类表达质粒(分别为SQT1659、SQT1665、AAS1472、AAS2134)通过将来自质粒pY010、pY016、pY004和pY014(Addgene质粒69982、69988、69976和69986;Feng Zhang赠送)的核酸酶开放阅读框亚克隆至pCAG-CFP(Addgene质粒11179;Connie Cepko赠送)的NotI和AgeI位点中来产生。通过将As、Fn和MbCas12a的人类密码子优化的开放阅读框、以及细菌密码子优化的LbCas12a开放阅读框(来自Addgene质粒79008;Jin Soo Kim赠送)分别克隆到pET28b-Cas9(Addgene质粒47327;Alex Schier赠送)NcoI和FseI位点中来产生BPK3541、RTW656、RTW660和RTW645。所有的Cas12a变体、激活子构建体和碱基编辑子融合物通过标准的分子克隆和等温组装来产生。通过将与间隔子序列双螺旋相应的寡核苷酸退火并连接至BsmBI消化的BPK3079、BPK3082、BPK4446和BPK4449中,分别产生用于Cas12a crRNA的人类细胞表达质粒,用于As、Lb、Fn和MbCas12a crRNA的U6启动子驱动的转录。用于体外切割反应的底物质粒通过将目标位点克隆到pUC19的NheI和HindIII位点中产生。通过将与间隔子序列双螺旋相应的寡核苷酸退火并连接到BsaI消化的MSP3491、MSP3495、RTW763和RTW767中,分别产生用于Cas12acrRNA的体外转录的质粒,用于As、Lb、Fn和MbCas12a crRNA的T7启动子驱动的转录。

表2A.用于核酸酶实验的Cas12a crRNA

Figure BDA0002333406860000411

Figure BDA0002333406860000421

Figure BDA0002333406860000431

Figure BDA0002333406860000441

Figure BDA0002333406860000451

表2B.用于基因激活实验的Cas12a crRNA

Figure BDA0002333406860000491

C,编码;T,模板;

Figure BDA0002333406860000495

对于模板链指导,从TSS到PAM的-4位置测量,或对于编码链指导,到间隔子的第20个nt

表2C:用于VEGFA基因激活实验的SpCas9 sgRNA

Figure BDA0002333406860000492

Figure BDA0002333406860000496

对于编码链指导,从TSS到PAM的-3位置测量,或对于模板链到间隔子的第20个nt

表2D:用于碱基编辑子实验的Cas12a crRNA

Figure BDA0002333406860000493

表3A.本研究中使用的寡核苷酸-用于T7E1和RFLP实验

Figure BDA0002333406860000501

表3B.本研究中使用的寡核苷酸-用于PAM测定分析(PAMDA)和其他体外切割实验

Figure BDA0002333406860000502

Figure BDA0002333406860000511

表3C.本研究中使用的寡核苷酸—用于激活子RT-qPCR实验

Figure BDA0002333406860000512

表3D.本研究中使用的寡核苷酸—用于碱基编辑子深度测序实验

Figure BDA0002333406860000513

Figure BDA0002333406860000521

细胞培养条件

人类U2OS(来自Toni Cathomen,Freiburg)和HEK293细胞(Invitrogen)分别在补充有10%热活灭FBS、1%青霉素和链霉素以及2mM GlutaMax的高级杜氏改良伊格尔培养基(A-DMEM)和DMEM中培养(例外是用于RT-qPCR分析实验而培养的HEK293细胞使用含有0.1%青霉素和链霉素、缺乏GlutaMax的培养基)。所有细胞培养试剂购自Life Technologies,细胞在5%CO2中在37℃下生长。每两周分析培养基上清液中支原体的存在,细胞系身份通过STR分布来确认(ATCC)。除非另有陈述,阴性对照转染包括Cas12a表达和U6-null质粒。

通过T7E1或深度测序的基因和碱基编辑评估

对于核酸酶和碱基编辑子实验,Cas12a和crRNA表达质粒(分别为500ng和250ng)使用4D-Nucleofector核转染仪(Lonza)用SE细胞系核转染(Cell Line Nucleofector)试剂盒通过DN-100程序电穿孔到大约2×105个U2OS细胞中。使用Agencourt DNAdvance核酸分离试剂盒(Beckman Coulter),或通过常规切割和顺磁性珠子提取,在核染后大约72或120小时提取基因组DNA(gDNA)(分别用于核酸酶或碱基编辑实验)。顺磁性珠子按照早先描述的类似地制备(Rohland等人,Genome Res.,2012,22:939-46)(GE Healthcare Sera-MagSpeedBeads(Fisher Scientific),在0.1×TE中洗涤,悬浮在20%PEG-8000(w/v)、1.5MNaCl、10mM Tris-HCl pH 8、1mM EDTA pH 8和0.05%Tween20中)。对于细胞切割,除去培养基上清液,进行500μL PBS洗涤,细胞在55℃下用200μL裂解缓冲液(100mM Tris HCl pH8.0,200mM NaCl,5mM EDTA,0.05%SDS,1.4mg/ml蛋白酶K(NEB)和12.5mM DTT)处理12-20小时。为了提取gDNA,溶胞产物与165μL顺磁性珠子组合,彻底混合,孵育5分钟,在磁性平板上分离,用70%EtOH洗涤3次,容许干燥5分钟,在65μL洗脱缓冲液(1.2mM Tris-HCl pH8.0)中洗脱。基因组基因座使用100ng gDNA作为模板和表3中列出的引物,用Phusion HotStart Flex DNA聚合酶(New England Biolabs;NEB)通过PCR扩增。在QIAxcel毛细管电泳仪(Qiagen)上分析之后,使用顺磁性珠子纯化PCR产物。

对于核酸酶实验,内源人类目标位点的修饰百分比通过T7核酸内切酶(T7EI)分析进行测定,与早先描述的类似(Reyon等人,Nat Biotechnol.,2012,30:460-5)。简要地说,将200ng纯化的PCR产物变性、退火,并在37℃下用10U T7EI(NEB)消化25分钟。使用顺磁性珠子纯化消化物,使用QIAxcel进行分析来估计目标位点修饰。

对于碱基编辑实验,基本上如早先描述的(Kleinstiver等人,Nature,2016,529:490-5)进行靶向深度测序。使用KAPA HTP文库制备试剂盒(KAPA BioSystems)从纯化并集中的PCR产物中产生双重索引的Tru-seq文库,在Illumina MiSeq测序仪上测序。样品测序的平均读取结果计数为55,000,最小8,500个读取结果。使用CRISPResso的修改版本(Pinello等人,Nat Biotechnol.,2016,34:695-7)分析核苷酸取代以及***或删除突变(indel),进行另外的常规分析来检查在涵盖每个目标位点的-14~+30区域的44nt窗口(4nt PAM上游的另外10nt,以及20nt间隔子序列下游的10nt)中的***或删除突变百分比(定义为[修饰的读取结果-仅取代的读取结果]/总读取结果*100)。

GUIDE-seq

如早先描述的(Tsai等人,Nat Biotechnol.,2015,33:187-197)进行GUIDE-Seq实验。简要地说,如上文描述的对U2OS细胞进行电穿孔,但是包括100pmol的双链寡聚脱氧核苷酸(dsODN)GUIDE-Seq标签。分别进行限制片段长度多态性(RFLP)分析(如早先描述的进行,Kleinstiver等人,Nature,2015,523:481-5)和T7E1分析(如上所述)来评估GUIDE-Seq标签整合和中靶修饰百分比。使用Illumina MiSeq测序仪对GUIDE-seq文库进行测序,在下游数据处理之前使用guideseq(Tsai等人,Nat Biotechnol.,2016,34:483)v1.1以75bp窗口并允许达到9个错配对数据进行分析。使用SAMTools鉴定了高置信度、细胞类型特异性的单核苷酸多态性(SNP)。

基因激活实验

对于使用靶向VEGFA启动子的crRNA或sgRNA的实验,每孔1.6×105个HEK293细胞接种到24孔平板中,大约24小时之后用编码Cas12a或Cas9激活子的质粒以及crRNA或sgRNA的库(分别750ng和250ng)、1.5μL TransIT-LT1(Mirus)和Opti-MEM达到总体积50μL进行转染。转染后22小时改变细胞培养基,在转染后44小时采集培养基上清液的等分试样,以使用人类VEGFQuantikine ELISA试剂盒(R&D Systems)确定VEGFA浓度。

对于使用靶向AR、HBB或NPY1R启动子的crRNA的实验,每孔8.6×104个HEK293细胞接种到12孔平板中,大约24小时之后用750ng Cas12a激活子表达质粒、250ng crRNA质粒库、3μL TransIT-LT1(Mirus)和100μL Opti-MEM转染。转染后72小时使用NucleoSpin RNAPlus试剂盒(Clontech)从转染的细胞提取总RNA。使用250ng纯化的RNA使用High-CapacityRNA-to-cDNA试剂盒(ThermoFisher)进行cDNA合成,3μL 1:20稀释的cDNA使用Fast SYBRGreen Master Mix(ThermoFisher)和表3中列出的引物通过定量逆转录PCR(RT-qPCR)进行扩增。在LightCycler480(Roche)上使用以下循环程序进行RT-qPCR反应:95℃初始变性20秒,随后是95℃3秒和60℃30秒的45个循环。如果样品扩增在35个循环之后没有达到检测阈值,由于极低水平表达的转录产物典型的Ct(阈值循环)波动,Ct值被认为是35。将相对于阴性对照实验(Cas12a激活子和空的crRNA质粒)的基因表达水平归一化为HPRT1的表达。

Cas12a蛋白的表达和纯化

编码Cas12a-SV40NLS-6xHis融合蛋白的质粒转化入Rosetta 2(DE3)大肠杆菌,将单个菌落接种到含有50mg/L卡那霉素和25mg/L氯霉素(Kan/Cm)的25mL LB培养基中,之后在25℃下生长16小时。然后将起始培养物1:100稀释到含有Kan/Cm的150mL LB培养基中,在37℃下生长直到OD600达到0.4。培养物然后用0.2mM异丙基β-D-硫代半乳糖苷进行诱导,之后在18℃下摇动23小时。通过1200g下离心15分钟从50mL的培养物中收获细胞团粒,悬浮在含有20mM Hepes(羟乙基哌嗪乙硫磺酸)pH 7.5、100mM KCl、5mM MgCl2、5%甘油、1mM DTT、Sigmafast蛋白酶抑制物(Sigma-Aldrich)和0.1%Triton X-100的1mL裂解缓冲液中。细胞悬浮液装入1mL AFA纤维milliTUBE(Covaris),根据以下条件使用E220evolution聚焦超声发生器(Covaris)进行裂解:峰值强度功率150W,每次猝发200个循环,占空比为10%,在5℃下处理20分钟。细胞溶胞产物在21,000g和4℃下离心20分钟,上清液与等体积的结合缓冲液(裂解缓冲液+10mM咪唑)混合,添加到在结合缓冲液中预平衡的400μL HisPur Ni-NTA树脂(Thermo Fisher Scientific),在4℃下摇动8小时。结合了蛋白的树脂用1mL洗涤缓冲液(20mM Hepes pH 7.5,500mM KCl,5mM MgCl2,5%甘油,25mM咪唑和0.1%Triton X-100)洗涤三次,用1mL结合缓冲液洗涤一次,然后使用500μL洗脱缓冲液(20mM Hepes pH 7.5,100mM KCl,5mM MgCl2,10%甘油和500mM咪唑)进行三次连续洗脱。将选择洗脱物集中,使用Spectra/Por 4标准级纤维素透析袋(Standard Cellulose Dialysis Tubing)(Spectrum Chemical Manufacturing Corp)在三个连续的1:500缓冲液交换中进行透析,前两次在透析缓冲液(300mM NaCl,10mM Tris-HCl pH 7.4,0.1mM EDTA和1mM DTT)中,最后一次在含有20%甘油的透析缓冲液中。然后用Amicon Ultra-0.5mL离心式过滤器(Centrifugal Filter Units)(Millipore Sigma)浓缩蛋白,用具有80%甘油的等体积的透析缓冲液稀释,在-20℃下保存。

体外切割反应

37℃下使用T7 RiboMAX快速大量RNA制备试剂盒(Express Large Scale RNAProduction kit)(Promega)从大约1μg HindIII线性化的crRNA转录质粒中体外转录Cas12a crRNA16小时。通过添加1μL RQ1 DNase在37℃下降解DNA模板15分钟,随后用miRNeasy Mini试剂盒(Qiagen)纯化RNA。体外切割反应由裂解缓冲液(10mM Hepes pH7.5,150mM NaCl和5mM MgCl2)中25nM PvuI线性化的底物质粒、300nM crRNA和200nM纯化的Cas12a蛋白组成,在37℃下进行,除非另有陈述。温度耐受性分析的质粒底物编码具有TTTA PAM的PAMDA位点2间隔子。制备切割反应主混合物,然后等分为每时间点5μL体积,在热循环仪中孵育,通过添加10μL终止缓冲液(0.5%SDS,50mM EDTA)来停止。使用顺磁性珠子纯化停止的等分试样,通过QIAxcel ScreenGel软件(v1.4)定量切割百分比。

PAM测定分析

编码具有随机序列的目标位点的质粒文库使用Klenoq(-exo)(NEB)进行克隆,以填入两个独立的寡聚物的底链,所述寡聚物带有两个不同间隔子序列5'的10nt随机序列(表3)。双链产物使用EcoRI消化,连接到EcoRI和SphI消化的p11-lacY-wtx1中(Addgene质粒69056;Huimin Zhao赠送)。连接物转化入电感受态XL1 Blue大肠杆菌中,在9mL SOC中在37℃下回收1小时,然后在具有100mg/L羧苄西林的150mL LB培养基中生长16小时。基于观察到的转化体的数量,每个文库的复杂度估计为大于106

如上所述进行随机PAM质粒文库的切割反应,等分试样在3、6、12、24和48分钟时停止。使用磁性珠子纯化反应,大约1-5ng用作模板,用于未切割的分子的PCR扩增,使用Phusion Hot Start Flex DNA聚合酶(NEB)15个循环。在PCR反应期间,将4nt唯一的分子索引(UMI)添加到PAM的上游,以允许时间点样品的去多重化,还从未消化的质粒产生产物,以确定文库中的初始PAM表示。使用QuantiFluor dsDNA系统(Promega)定量纯化的PCR产物,归一化,集中,用于使用KAPA HTP PCR-free文库制备试剂盒(KAPA BioSystems)用Illumina双重索引的衔接子进行文库制备。使用Universal KAPA Illumina Library qPCR定量试剂盒(KAPA Biosystems)对文库进行定量,使用300-cycle v2试剂盒(Illumina)在Illumina MiSeq测序仪上测序。

使用常规的Python脚本分析测序读取结果,以估计给定蛋白对每种PAM的切割速率。通过Phred评分(≥Q30)过滤配对的末端读取结果,然后以时间点UMI、PAM和间隔子序列完美匹配的要求进行合并。对于所有时间点、蛋白和间隔子,对每4nt和5nt PAM产生计数。然后对于测序深度中的样品间差异(inter-sample difference)校正PAM计数,转换成原始质粒文库中该PAM的初始表示(通过未消化的对照确定的)的分数,然后归一化,以说明由于切割的底物的消耗而造成的随时间的未切割底物提高的分数表示(通过在所有时间点中选择具有最高平均计数的5个PAM来代表不可切割的底物的分布)。然后通过线性最小二乘回归将每种PAM随时间的消耗拟合于指数衰减模型(y(t)=Ae^(-kt),其中y(t)是归一化的PAM计数,t是时间(分钟),k是速率常数,A是常数)。

靶向范围计算

使用GENCODE's Release 27GTF文件,在各种注释的基因组元件上评估野生型和变体AsCas12a核酸酶的靶向范围。在涵盖所有转录起始位点(TSS)上游1kb的区域内、所有基因的第一个外显子内、以及所有注释的miRNA内,对可靶向的4nt PAM的完全出现进行枚举。GTF文件中每个元件的参数值是:Exon1,feature-type exon,exon_number 1,gene_type protein_coding;TSS,feature-type transcript,gene_type protein_codingormiRNA;miRNA,feature-type gene,gene_type miRNA。对于每个元件,通过长度对PAM计数进行归一化,通过boxplot可视化。PAM鉴定和枚举脚本将根据要求提供。Cas12a核酸酶可靶向的PAM包括:TTTV,野生型AsCas12a;TTYN、RTTC、CTTV、TATM、CTCC、TCCC、TACA(层级1)和RTTS、TATA、TGTV、ANCC、CVCC、TGCC、GTCC、TTAC(层级2)PAM,eAsCas12a(参见图1g和扩展数据图5h);TATV,AsCas12a-RVR;和TYCV,AsCas12a-RR。

DNA检测分析

通过在4℃下孵育500nM纯化的AsCas12a蛋白和750nM化学合成的crRNA(IDT)5分钟形成Cas12a-crRNA RNP复合物。所有反应在10mM Hepes pH 7.5、150mM NaCl和5mMMgCl2中进行。接下来,RNP稀释到100nM并与250nM线性化的活化质粒DNA在15μL的总体积中混合,所述质粒DNA带有与典型(TTTA)或非典型(CTTA或ACCT)PAM匹配的目标位点或不相关的目标位点(阴性对照)。容许反应在37℃下进行30分钟,之后在4℃下孵育。对于荧光检测,然后将10μL的RNP/目标-DNA反应与等体积的100nM常规荧光淬灭报告子(IDT)在小体积384孔黑色平板(Corning)中混合。检测反应在37℃下进行3小时,使用Synergy HTX微量培养板读取器(BTX)用λex=485nm和λem=528nm每60秒进行测量。

序列

以下的实施例中使用以下构建体。

BPK3079:U6-AsCas12a-crRNA-BsmBI盒(cassette)

U6启动子为黑色,AsCas12a crRNA为斜体,U6转录所需的鸟嘌呤为粗体,间隔子进入盒是小写字母,BsmBI位点是

Figure BDA0002333406860000581

U6终止子

Figure BDA0002333406860000582

Figure BDA0002333406860000583

Figure BDA0002333406860000584

BPK3082:U6-LbCas12a-crRNA-BsmBI盒

U6启动子为绿色,LbCas12a crRNA为斜体有色,U6转录所需的鸟嘌呤为粗体,间隔子进入盒是小写字母,BsmBI位点是

Figure BDA0002333406860000591

U6终止子

Figure BDA0002333406860000593

Figure BDA0002333406860000594

BPK4446:U6-FnCas12a-crRNA-BsmBI盒

U6启动子为黑色,FnCas12a crRNA为斜体有色,U6转录所需的鸟嘌呤为粗体,间隔子进入盒是小写字母,BsmBI位点是

Figure BDA0002333406860000595

U6终止子

Figure BDA0002333406860000596

Figure BDA0002333406860000598

BPK4449:U6-MbCas12a-crRNA-BsmBI盒

U6启动子为黑色,MbCas12a crRNA为斜体有色,U6转录所需的鸟嘌呤为粗体,间隔子进入盒是小写字母,BsmBI位点是

Figure BDA0002333406860000599

U6终止子

Figure BDA00023334068600005912

MSP3491:T7-AsCas12a-crRNA-BsaIcassette

T7启动子为黑色,T7转录所需的鸟嘌呤为粗体,AsCas12a crRNA为斜体,间隔子进入盒是小写字母,BsaI位点是

Figure BDA00023334068600005913

用于线性化的DraI的限制位点(tttaaa)是粗体小写字母,HindIII

Figure BDA00023334068600005916

Figure BDA00023334068600005917

MSP3495:T7-LbCas12a-crRNA-BsaI盒

T7启动子为黑色,T7转录所需的鸟嘌呤为粗体,LbCas12acrRNA为斜体,间隔子进入盒是小写字母,BsaI位点是用于线性化的DraI的限制位点(tttaaa)是粗体小写字母,HindIII

Figure BDA00023334068600005919

Figure BDA00023334068600005921

Figure BDA00023334068600005922

pCAG-人类AsCpf1-NLS-3xHA的核苷酸序列

人类密码子优化的AsCpf1为普通字体(NTs 1-3921),NLS为小写字母(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21),3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ IDNO:5)为粗体

Figure BDA0002333406860000601

Figure BDA0002333406860000611

AsCpf1-NLS-3xHA的氨基酸序列

AsCpf1为普通字体(AAs 1-1306),NLS(krpaatkkagqakkkk,SEQ ID NO:7)为小写字母,3xHA标签(YPYDVPDYAYPYDVPDYAYPYDVPDYA,SEQ ID NO:8)为粗体

Figure BDA0002333406860000612

SQT1659:pCAG-hAsCas12a-NLS-3xHA

人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ ID NO:5)为粗体

Figure BDA0002333406860000631

AAS826:pCAG-hAsCas12a(E174R/S542R)-NLS-3xHA

人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,修饰的密码子(E174R/S542R)

Figure BDA0002333406860000632

Figure BDA0002333406860000633

核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ ID NO:5)为粗体

Figure BDA0002333406860000634

Figure BDA0002333406860000641

AAS848:pCAG-heAsCas12a(E174R/S542R/K548R)-NLS-3xHA

人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,eAsCas12a的修饰的密码子(E174R/S542R/K548R)核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ ID NO:5)为粗体

Figure BDA0002333406860000652

AAS1815:pCAG-heAsCas12a-HF1(E174R/N282A/S542R/K548R)-NLS-3xHA

人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,修饰的密码子(E174R/N282A/S542R/K548R)

Figure BDA0002333406860000662

核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ ID NO:5)为粗体

Figure BDA0002333406860000663

BPK3541:pET-28b-hAsCas12a-NLS-6xHis

人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000681

***的甘氨酸是

Figure BDA0002333406860000682

核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,6xHis为粗体

Figure BDA0002333406860000683

Figure BDA0002333406860000691

RTW645:pET-28b-bLbCas12a-NLS-6xHis

细菌密码子优化的毛螺旋菌科细菌ND2006 Cas12a(LbCas12a)为黑色,***的甘氨酸为

Figure BDA0002333406860000692

Figure BDA0002333406860000693

核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,6xHis为粗体

Figure BDA0002333406860000694

Figure BDA0002333406860000701

AAS1885:pET-28b-heAsCas12a(E174R/S542R/K548R)-NLS-6xHis

人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,eAsCas12a的修饰的密码子(E174R/S542R/K548R)为

Figure BDA0002333406860000702

小写字母,具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000703

Figure BDA0002333406860000704

***的甘氨酸为

Figure BDA0002333406860000705

核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,6xHis为粗体

Figure BDA0002333406860000711

Figure BDA0002333406860000721

AAS1880:pET-28b-hAsCas12a(E174R/S542R)-NLS-6xHis

人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,修饰的密码子(E174R/S542R)为

Figure BDA0002333406860000722

Figure BDA0002333406860000723

小写字母,具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000724

***的甘氨酸为

Figure BDA0002333406860000725

核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,6xHis为粗体

Figure BDA0002333406860000727

Figure BDA0002333406860000731

AAS1935:pET-28b-heAsCas12a-HF1(E174R/N282A/S542R/K548R)-NLS-6xHis

人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,eAsCas12a-HF1的修饰的密码子(E174R/N282A/S542R/K548R)为具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000733

Figure BDA0002333406860000734

***的甘氨酸为

Figure BDA0002333406860000735

核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,6xHis为粗体

Figure BDA0002333406860000736

Figure BDA0002333406860000741

Figure BDA0002333406860000751

SQT1665 pCAG-人类LbCpf1-NLS-3xHA的核苷酸序列

人类密码子优化的LbCpf1为正常自体,(nts 1-3684),NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ IDNO:5)为粗体,接头序列为斜体

Figure BDA0002333406860000752

Figure BDA0002333406860000761

LbCpf1-NLS-3xHA的氨基酸序列

LbCpf1为正常文本(AAs 1-1228),NLS(krpaatkkagqakkkk,SEQ ID NO:7)为小写字母,3xHA标签(YPYDVPDYAYPYDVPDYAYPYDVPDYA,SEQ ID NO:8)为粗体

Figure BDA0002333406860000762

Figure BDA0002333406860000771

AAS1472 pCAG-人类FnCpf1-NLS-3xHA的核苷酸序列

人类密码子优化的FnCpf1为正常字体,nts 1-3900),NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ IDNO:5)为粗体

Figure BDA0002333406860000772

Figure BDA0002333406860000781

FnCpf1-NLS-3xHA的氨基酸序列

FnCpf1为正常文本(AAs 1-1300),NLS(krpaatkkagqakkkk,SEQ ID NO:7)为小写字母,3xHA标签(YPYDVPDYAYPYDVPDYAYPYDVPDYA,SEQ ID NO:8)为粗体

Figure BDA0002333406860000782

Figure BDA0002333406860000791

AAS2134:pCAG-hMbCas12a-NLS-3xHA

人类密码子优化的牛眼莫拉氏菌(Moraxella bovoculi)237Cas12a(MbCas12a)为黑色,核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ ID NO:5)为粗体

Figure BDA0002333406860000792

Figure BDA0002333406860000801

(RTW876)pCAG-人类-dAsCpf1(D908A)-NLS(核质蛋白)-3xHA-VPR的核苷酸序列

人类密码子优化的dAsCpf1(D908A)为正常字体(NTs 1-3921),核质蛋白NLS为小写字母(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21),3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ ID NO:5)为粗体,VPR为

Figure BDA0002333406860000821

dAsCpf1(D908A)-NLS(核质蛋白)-3xHA-VPR的氨基酸序列

AsCpf1为正常字体(AAs 1-1306),NLS(核质蛋白)(krpaatkkagqakkkk,SEQ IDNO:7)为小写字母,3xHA标签(YPYDVPDYAYPYDVPDYAYPYDVPDYA,SEQ ID NO:8)为粗体,VPR为

Figure BDA0002333406860000822

Figure BDA0002333406860000823

Figure BDA0002333406860000831

(RTW776)pCAG-人类-dAsCpf1(D908A)三重变体(E174R/S542R/K548R)-NLS(核质蛋白)-3xHA-VPR的核苷酸序列

人类密码子优化的dAsCpf1(D908A)为正常字体(NTs 1-3921),核质蛋白NLS为小写字母(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21),3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ ID NO:5)为粗体,VPR为

Figure BDA0002333406860000832

Figure BDA0002333406860000833

Figure BDA0002333406860000841

Figure BDA0002333406860000851

dAsCpf1(D908A)三重变体(E174R/S542R/K548R)-NLS(核质蛋白)-3xHA-VPR的氨基酸序列

AsCpf1为正常字体(AAs 1-1307),NLS(核质蛋白)(krpaatkkagqakkkk,SEQ IDNO:7)为小写字母,3xHA标签(YPYDVPDYAYPYDVPDYAYPYDVPDYA,SEQ ID NO:8)为粗体,VPR为

Figure BDA0002333406860000852

Figure BDA0002333406860000853

Figure BDA0002333406860000861

RTW1017:pCAG-2xNLS-hdeAsCas12a(E174R/S542R/K548R/D908A)-NLS-gs-3xHA-gs-VPR(deAs-VPR(1.2))人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,DNase失活用修饰的密码子(D908A)eAsCas12a(E174R/S542R/K548R)为具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000864

***的甘氨酸为

Figure BDA0002333406860000865

核质蛋白NLS(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21)为小写字母,接头序列为斜体,3xHA标签(YPYDVPDYAYPYDVPDYAYPYDVPDYA,SEQ ID NO:8)为粗体,SV40 NLS为斜体小写字母,VP64-p65-RTA(VPR)为

Figure BDA0002333406860000866

Figure BDA0002333406860000867

Figure BDA0002333406860000871

Figure BDA0002333406860000881

RTW1130:pCAG-hdeAsCas12a(E174R/S542R/K548R/D908A)-gs-NLS-gs-VPR(deAs-VPR(1.3))人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,DNase失活用修饰的密码子(D908A)eAsCas12a(E174R/S542R/K548R)为

Figure BDA0002333406860000882

具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000883

接头序列为斜体,SV40NLS为斜体小写字母,VP64-p65-RTA(VPR)为

Figure BDA0002333406860000886

Figure BDA0002333406860000891

Figure BDA0002333406860000901

RTW1319:pCAG-2xNLS-hdeAsCas12a(E174R/S542R/K548R/D908A)-gs-NLS-gs-VPR(deAs-VPR(1.4))

人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,DNase失活用修饰的密码子(D908A)eAsCas12a(E174R/S542R/K548R)为

Figure BDA0002333406860000902

具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000903

Figure BDA0002333406860000904

***的甘氨酸为

Figure BDA0002333406860000905

接头序列为斜体,3xHA标签(YPYDVPDYAYPYDVPDYAYPYDVPDYA,SEQ ID NO:8)为粗体,SV40 NLS为斜体小写字母,VP64-p65-RTA(VPR)为

Figure BDA0002333406860000906

Figure BDA0002333406860000921

RTW1351:pCAG-rAPOBEC1-gs-XTEN-gs-hdAsCas12a(D908A)-NLS-gs-UGI-NLS(AsBE1.1)

大鼠APOBEC1(rAPOBEC1)为粗体大写字母,***的甘氨酸为

Figure BDA0002333406860000922

甘氨酸/丝氨酸接头为斜体,XTEN接头为斜体小写字母,人类密码子优化的氨基酸球菌种BV3L6Cas12a(AsCas12a)为黑色,DNase失活用修饰的密码子(D908A)AsCas12a为

Figure BDA0002333406860000923

具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000924

核质蛋白NLS为粗体小写字母,UGI为SV40NLS为

Figure BDA0002333406860000926

Figure BDA0002333406860000927

Figure BDA0002333406860000931

Figure BDA0002333406860000941

RTW1295:pCAG-rAPOBEC1-gs-XTEN-gs-hdLbCas12a(D832A)-NLS-gs-UGI-NLS(LbBE1.1)

大鼠APOBEC1(rAPOBEC1)为粗体大写字母,***的甘氨酸为

Figure BDA0002333406860000942

甘氨酸/丝氨酸接头为斜体,XTEN接头为小写字母斜体,人类密码子优化的毛螺旋菌科细菌ND2006Cas12a(LbCas12a)为黑色,用于DNase失活用修饰的密码子(D832A)LbCas12a为

Figure BDA0002333406860000943

具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000944

核质蛋白NLS为粗体小写字母,UGI为

Figure BDA0002333406860000945

SV40 NLS为

Figure BDA0002333406860000947

RTW1352:

pCAG-rAPOBEC1-gs-XTEN-gs-hdeAsCas12a(E174R/S542R/K548R/D908A)-NLS-gs-UGI-NLS(eAsBE1.1)大鼠APOBEC1(rAPOBEC1)为粗体大写字母,***的甘氨酸为

Figure BDA0002333406860000967

甘氨酸/丝氨酸接头为斜体,XTEN接头为小写字母斜体,人类密码子优化的氨基酸球菌种BV3L6 Cas12a(AsCas12a)为黑色,DNase失活用修饰的密码子(D908A)eAsCas12a(E174R/S542R/K548R)为

Figure BDA0002333406860000961

具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000962

核质蛋白NLS为粗体小写字母,UGI为

Figure BDA0002333406860000964

SV40NLS为

Figure BDA0002333406860000966

Figure BDA0002333406860000971

RTW1348:

pCAG-2xNLS-rAPOBEC1-gs-XTEN-gs-hdeAsCas12a(E174R/S542R/K548R/D908A)-NLS-gs-UGI-NLS(eAsBE1.2)

大鼠APOBEC1(rAPOBEC1)为粗体大写字母,***的甘氨酸为SV40NLS为

Figure BDA0002333406860000973

Figure BDA0002333406860000974

甘氨酸/丝氨酸接头为斜体,XTEN接头为斜体小写字母,人类密码子优化的氨基酸球菌种BV3L6Cas12a(AsCas12a)为黑色,失活用修饰的密码子(D908A)eAsCas12a(E174R/S542R/K548R)为

Figure BDA0002333406860000975

Figure BDA0002333406860000976

具有沉默突变以移除NcoI位点的密码子为

Figure BDA0002333406860000977

核质蛋白NLS为粗体小写字母,UGI为

Figure BDA0002333406860000981

Figure BDA0002333406860000991

RTW1296:

pCAG-rAPOBEC1-gs-XTEN-gs-hdeAsCas12a(E174R/S542R/K548R/D908A)-gs-UGI-NLS(eAsBE1.3)

Rat APOBEC1(rAPOBEC1)为粗体大写字母,***的甘氨酸为

Figure BDA0002333406860000992

甘氨酸/丝氨酸接头为斜体,XTEN接头为斜体小写字母,人类密码子优化的氨基酸球菌种BV3L6Cas12a(AsCas12a)为黑色,DNase失活用修饰的密码子(D908A)eAsCas12a(E174R/S542R/K548R)为

Figure BDA0002333406860000993

具有沉默突变以移除NcoI位点的密码子为粗体下划线黑色的,UGI为

Figure BDA0002333406860000994

SV40NLS为

Figure BDA0002333406860000996

Figure BDA0002333406860001011

(JG1211)pCAG-人-dLbCpf1(D832A)-NLS(核质蛋白)-3xHA-VPR的核苷酸序列

人类密码子优化的dLbCpf1(D832A)为正常字体(NTs 1-3921),核质蛋白NLS为小写字母(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21),3xHA标签(TACCCATACGATGTTCCAGATTACGCTTATCCCTACGACGTGCCTGATTATGCATACCCATATGATGTCCCCGACTATGCC,SEQ ID NO:5)为粗体,VPR

Figure BDA0002333406860001012

Figure BDA0002333406860001013

Figure BDA0002333406860001021

Figure BDA0002333406860001031

dLbCpf1(D832A)-NLS(核质蛋白)-3xHA-VPR的氨基酸序列

LbCpf1为正常字体(AAs 1-1228),NLS(核质蛋白)(krpaatkkagqakkkk,SEQ IDNO:7)为小写字母,3xHA标签(YPYDVPDYAYPYDVPDYAYPYDVPDYA,SEQ ID NO:8)为粗体,VPR

Figure BDA0002333406860001032

Figure BDA0002333406860001033

(RTW1008)pCAG-NLS(SV40)x2-rAPOBEC1-gsXTENgs接头-人类-dAsCpf1(D908A)-NLS(核质蛋白)-GS接头-UGI-NLS(SV40)的核苷酸序列

人类密码子优化的dAsCpf1(D908A)为正常字体(NTs 844-4764),rAPOBEC1为粗体(NTs 67-750),核质蛋白NLS为小写字母(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21),SV40 NLS为小写字母(ccaaagaaaaagaggaaagtc,cctaaaaagaaacgaaaggtt,或cccaagaagaagaggaaagtc,分别为SEQ ID NOs:19、20或22),gsXTENgs接头(tctggtggttcttctggtggttctagcggcagcgagactcccgggacctcagagtccgccacacccgaaagttccggagggagtagcggcggg,SEQ ID NO:23)为小写字母,UGI为

Figure BDA0002333406860001043

Figure BDA0002333406860001051

Figure BDA0002333406860001061

NLS(SV40)x2-rAPOBEC1-gsXTENgs接头-人类-dAsCpf1(D908A)-NLS(核质蛋白)-GS接头-UGI-NLS(SV40)的氨基酸序列

AsCpf1为正常字体(AAs x-xxxx),rAPOBEC1为粗体(AAs 23-250),NLS(核质蛋白)(krpaatkkagqakkkk,SEQ ID NO:7)为小写字母,SV40 NLS为小写字母(pkkkrkv,SEQ IDNO:24),gsXTENgs接头(sggssggssgsetpgtsesatpessggssgg,SEQ ID NO:25)为小写字母,UGI

Figure BDA0002333406860001062

Figure BDA0002333406860001063

(RTW1028)pCAG-NLS(SV40)x2-rAPOBEC1-gsXTENgs接头-人类-dAsCpf1(D908A)三重变体(E174R/S542R/K548R)-NLS(核质蛋白)-GS接头-UGI-NLS(SV40)的核苷酸序列

人类密码子优化的dAsCpf1(D908A)为正常字体(NTs 844-4764),rAPOBEC1为粗体(NTs 67-750),核质蛋白NLS为小写字母(aaaaggccggcggccacgaaaaaggccggccaggcaaaaaagaaaaag,SEQ ID NO:21),SV40 NLS为小写字母(ccaaagaaaaagaggaaagtc,cctaaaaagaaacgaaaggtt,或cccaagaagaagaggaaagtc,分别为SEQ ID NOs:19、20或22),gsXTENgs接头(tctggtggttcttctggtggttctagcggcagcgagactcccgggacctcagagtccgccacacccgaaagttccggagggagtagcggcggg,SEQ ID NO:23)为小写字母,UGI

Figure BDA0002333406860001071

Figure BDA0002333406860001072

Figure BDA0002333406860001081

NLS(SV40)x2-rAPOBEC1-gsXTENgs接头-人类-dAsCpf1(D908A)三重变体(E174R/S542R/K548R)-NLS(核质蛋白)-GS接头-UGI-NLS(SV40)的氨基酸序列

AsCpf1为正常字体(AAs x-xxxx),rAPOBEC1为粗体(AAs 23-250),NLS(核质蛋白)(krpaatkkagqakkkk,SEQ ID NO:7)为小写字母,SV40 NLS为小写字母(pkkkrkv,SEQ IDNO:24),gsXTENgs接头(sggssggssgsetpgtsesatpessggssgg,SEQ ID NO:25)为小写字母,UGI为

Figure BDA0002333406860001091

实施例1.具有改变的PAM特异性的AsCpf1的变体

为了试图改变Cpf1核酸酶的靶向范围,我们首先检查了AsCpf1和LbCpf1的现有的晶体结构(Dong,Nature 2016;Yamano,Cell 2016)。在其他观察结果中,这些结构证明PAM特异性由静电相互作用与间接碱基读数的组合所介导。因此我们猜测,在空间上接近PAM碱基的DNA碱基的残基处某些氨基酸取代的组合可能产生具有改变的或松弛的PAM识别偏好的变体。为了试验这一点,我们检查了PAM附近跨越残基G131-L137、S161-S181、N534-I555、Y595-T616、L628-F632和S685-I693的AsCpf1的区域(表1)。我们聚焦于其三维位置满足以下至少一个指标的参考AsCpf1序列中的氨基酸:1)空间上接近PAM DNA碱基(目标链或非目标链上),2)位置在DNA大沟或小沟之内,和/或3)残基的位置使得用带正电的替代物例如精氨酸、赖氨酸或组氨酸取代现有氨基酸预期可以提高侧链与磷酸二酯骨架的接近性(以及推测的相互作用)。由于含有crRNA的晶体结构和含有PAM的DNA仅可用于AsCpf1,因此根据三种同源基因之间的序列比对鉴定了LbCpf1和FnCpf1中的同源位置(表1)。

表1:AsCpf1和LbCpf1中突变以产生改变的PAM识别特异性变体的候选残基的比较。使用或不使用FnCpf1进行比对。

Figure BDA0002333406860001101

Figure BDA0002333406860001111

Figure BDA0002333406860001121

在初始实验中,通过试验这些核酸酶在人类细胞中针对可选择的PAM目标位点的活性,所述目标位点在这些酶的初始表征中限定的TTTN基序内具有碱基差异(Zetsche,Cell 2015),我们首先试图仔细定义野生型AsCpf1和LbCpf1的PAM偏好。使用我们的充分确立的基于人类细胞的EGFP破坏测定,我们首先试验了AsCpf1和LbCpf1诱变带有典型TTTN或非典型PAM的各种目标位点的能力,所述非典型PAM携带TTT基序内一系列不同的单碱基错配。我们确定了,虽然AsCpf1和LbCpf1都可以耐受PAM中的非典型碱基,但LbCpf1的识别是更加混杂的(图2)。在我们的使用可选择的CTTN、GTTN和TTCN PAM的EGFP破坏测定中,两种Cpf1酶都有效地和一致地靶向位点。(EGFP破坏测定测量EGFP表达的损失,作为基因组编辑核酸酶在EGFP序列内位点靶向的替代(Reyon,Nature Biotechnology 2012)。我们还检查了AsCpf1识别EGFP中含有更加趋异的PAM序列的位点的能力,所述PAM序列在TTTNPAM的TTT序列中具有两个或三个碱基差异。除了针对含有CCCN、CCTN、GATN、GCTN和TCCN PAM的位点的某些轻微的和可变的活性之外,我们发现野生型AsCpf1核酸酶没有有效地靶向任何这些可选择的PAM(图3)。

然而,由于EGFP破坏测定中观察到的活性可能代表核酸酶介导的基因破坏与DNA结合介导的转录阻遏(没有切割)的组合,我们试验了AsCpf1和LbCpf1对内源人类基因目标位点的活性,所述内源人类基因目标位点含有相对于典型PAM具有单碱基差异的可选择的PAM序列,因为这项分析的读出结果真实地定量基因破坏事件(图4)。我们发现,虽然在我们的EGFP破坏测定中对于带有特定非典型PAM位点的位点用AsCpf1和LbCpf1观察到适度的活性,我们在带有这些可选择的PAM序列的内源基因位点上没有观察到***或删除突变的可比较的诱导。这个结果表明,虽然野生型AsCpf1和LbCpf1核酸酶可以有效地结合具有单碱基差异的可选择的PAM序列,在某些情况下它们不能有效地切割这些位点。

考虑到野生型Cpf1核酸酶切割非TTTN PAM的有限能力,我们试图对可以靶向并破坏带有这些可选择的PAM的位点的Cpf1变体进行工程化。在初始实验中,我们试图工程化具有松弛的PAM识别特异性的Cpf1核酸酶。我们使用EGFP破坏测定来快速地鉴定和筛选AsCpf1中可以改变PAM识别的单氨基酸取代,原因是考虑到上文描述的基于EGFP的测定的限制,我们最终将需要验证我们鉴定的任意变体在人类细胞中切割实际的内源基因中的位点的能力。为了试验AsCpf1的理论性取代是否可以改变PAM特异性的假说,我们专注于试验以下位置处的氨基酸取代的作用:T167、S170、E174、T539、S542、K548、N551、N552、M604和K607。

注意的是,随后的PAM编号基于以T4T3T2N1编号的TTTN PAM,每个AsCpf1变体的初始试验仅检查了所有可能的PAM的小的子集,对于变体的组合随后进行更为扩展的试验。

T167/T539:基于AsCpf1的共晶结构中T539对PAM的T4的接近性,我们预想T539K/T167A或T539R/T167A的并发取代可以通过以下来允许PAM的第四位置处G的碱基特异性识别:1)T539取代为K或R允许鸟嘌呤的碱基特异性读出;和/或2)T167A取代减轻了T539残基改变所诱导的其他干扰或不利的接触。相对于野生型AsCpf1,T539K/T167A和T539R/T167A变体都在EGFP破坏测定中对于带有GTTN PAM的位点显示了改善的活性,对于带有典型TTTNPAM的位点的活性仅有最小的或仅仅适度的降低。

S170/E174:两个残基都位于DNA大沟之内,S170靠近PAM的T2,E174位置靠近PAM的T2或N1位置,并靠近目标链DNA骨架。我们预想,这些位置处的精氨酸取代可以松弛PAM特异性,允许创造对DNA骨架的非特异性接触,或潜在地建立TTGN或TTTG PAM的碱基特异性识别。在EGFP破坏测定中S170R和E174R变体都提高了典型TTTN PAM处的活性,同时还提高了对携带GTTN PAM的位点的活性(图5B)。我们还显示了,S170R和E174R变体都赋予了靶向CTTN和TTCN PAM位点的提高的能力(图8C)。

S542:该残基位于大沟中非常接近PAM的T3和T2碱基。因此,我们猜测S542K或S542R突变可以通过以下来起到松弛PAM特异性的作用:1)在PAM结合界面中提供额外的非特异性能量以容纳非典型碱基,和/或2)产生可以潜在地识别非目标链上的G3或G2的碱基特异性接触,或可能是目标链上的G3或G2,其将是PAM的非目标链上的C3或C2。我们的假说将预测,在S542上携带取代的变体可以预计允许识别带有TGTN、TTGN、TCTN或TTCN PAM的位点。使用EGFP报告子分析,我们发现,具有S542K或S542R取代(而不是具有S542Q取代)的AsCpf1变体展现了对具有非典型TTCN PAM的目标位点的提高的活性(图5C)。感兴趣的是,当试验它们切割和诱变内源人类基因靶点的能力时,携带S542Q、S542K或S542R突变的AsCpf1变体都显示了对携带TTTN PAM的目标位点诱导***或删除突变的提高的能力(图5D),但是仅S542K和S542R变体显示了对携带非典型TTCN PAM的目标位点的提高的活性(图5D)。还在图7中进一步检查了这些变体对其他非典型PAM的识别(见下文)。

K548:该残基位于非PAM DNA链的A4和A3附近,并且靠近目标链DNA的骨架。因此我们猜测该位置处的取代可能潜在地提高针对具有非典型CTTN、TCTN或CCTN PAM的目标位点的活性。我们发现,引入K548R突变看起来自身没有对PAM特异性赋予实质上的改变,但是确实在位置S542、N551和N552的其他取代的环境下有助于松弛PAM识别(参见下文图9)。

N551/N552:残基N551和N552都位于目标和非目标DNA链骨架之间的大沟中,但是N552还非常靠近非PAM DNA链的A3,并且靠近目标链DNA骨架。而N551R取代看起来没有不利影响,或在一种情况下可能稍微改善了对具有非典型GTTN PAM序列的目标位点的AsCpf1活性(不影响具有典型TTTN PAM的位点的识别),N552R取代看起来取消了对具有TTTN或GTTNPAM的目标位点的活性(图5E)。我们还研究了N551R和N552R取代与S542R突变的组合以及其他突变组合(参见下文的图8B和图11)。

M604/K607:残基M604位于靠近PAM的N1位置以及非PAM目标DNA链的A2核苷酸的DNA小沟中。残基K607也位于小沟中,与(PAM的)T3和T2以及非PAM DNA链的A3形成网络。单独的K607处的多种不同取代看起来负面影响AsCpf1的活性(图5f),但是将K607H取代与S542R突变组合产生了具有针对带有典型TTTN或非典型TTCN PAM的位点的提高的活性(在图5g和5h中,分别通过EGFP破坏测定或通过内源人类基因目标位点诱变来判断)。类似地,当使用EGFP破坏测定进行分析时,M604A取代与S542R取代组合改善了针对带有典型TTTN或非典型TTCN PAM的目标位点的活性(图5g)。

为了进一步试验由引入S542R突变产生的松弛的PAM特异性表型,我们比较了野生型AsCpf1和AsCpf1-S542R针对带有相对于典型序列具有单碱基差异的PAM的EGFP中的目标位点的EGFP破坏活性(包括我们推测可被S542R变体识别的四种非典型PAM)(图6A)。在这些实验中,我们观察到AsCpf1-S542R变体针对携带多种非典型PAM位点的目标位点的提高的活性(包括我们的碱基特异性接触模型所推测的四种之外的PAM(表明PAM结合亲和力的一般性改善和相关的PAM特异性的松弛)。为了进一步检查S542突变体扩展AsCpf1靶向范围的潜力,我们在一系列具有PAM的EGFP目标位点上比较了野生型AsCpf1和S542R变体,所述PAM带有相对于典型位点的2个或3个碱基差异(图6B)。在所有位点上S542R突变体维持了与野生型AsCpf1观察到的至少相同的活性水平,并显著地改善了针对许多带有两个或三个取代的PAM的位点的活性(在某些情况下,数倍)(图6B)。我们的EGFP破坏测定的结果表明,AsCpf1-S542R变体可以识别带有以下PAM的位点:TTTN、CTTN、GTTN、TCTN、TGTN、TTAN、TTCN、ATCN、CCCN、CCTN、GCTN、GGTN、TCCN和TGCN。我们接下来在携带具有一个(图7A)或者2个或3个碱基取代(图7B)的PAM的内源人类基因目标位点上试验了S542R变体。这些实验再一次揭示了,S542R变体可以切割广泛的错配PAM基序,但是这些位点的谱没有我们在EGFP破坏测定中观察到的那么广。基于我们使用这些内源人类基因目标位点的实验的结果,我们断定,AsCpf1-S542R变体可以切割带有以下PAM的位点:TTTN、ATTN、CTTN、GTTN、TCTN、TTCN、CCCN和TCCN。

S542处的单取代可以扩展AsCpf1的PAM识别特异性的观察结果表明,通过向该变体添加单个或多个突变有可能进一步提高靶向范围。如图5中所显示的和上文详细描述的,我们发现,S170、E174、K548、N551和K607(单独或组合)处的氨基酸取代产生了稍微改变的PAM识别特异性。因而,我们设法研究这些位置与S542R突变一起的其他取代组合是否可以进一步改善AsCpf1的靶向范围。首先,我们确定了,相对于单独的S542R取代,包括S542R/K548R、S542R/N551R和K548R/N551R的取代组合在大多数情况下可以改善对带有典型TTTN或非典型GTTN PAM的目标位点的活性(图8A)。接下来,使用EGFP破坏测定,我们确定对于具有更多样化的PAM序列的更大数量的目标位点:1)带有单个的S170R或E174R取代的变体对于许多目标位点可以超越S542R取代,2)对于一系列不同的目标位点,E174R/S542R、S542R/K548R和S542R/N551R变体表现与单独的S542R一样好或更好,和3)针对带有典型TTTN和非典型CTTN、GTTN、TATN、TCTN、TGTN、TTAN、TTCN和TTGN PAM位点的一系列目标位点,在我们试验的一大批AsCpf1变体之中,E174R/S542R/K548R三取代变体表现了最高的活性水平(图8B和8C)。

在携带具有单碱基差异的PAM的EGFP目标位点上AsCpf1E174R/S542R/K548R变体与野生型AsCpf1和AsCpf1-S542R变体的进一步比较(图9A)揭示了,E174R/S542R/K548R变体对所试验的几乎所有具有各种PAM位点的目标位点具有比野生型AsCpf1和S542更高的EGFP破坏活性。此外,对于具有携带两个或三个错配的PAM的一系列EGFP位点,当E174R/S542R/K548R变体与野生型AsCpf1进行比较时,观察到对于许多这些目标位点在EGFP破坏方面实质上的提高(图9B)。E174R/S542R/K548R三取代变体还显示了与S542R变体相比总体上更高的活性和针对更广范围的变体PAM(比较图9B和图6B),包括带有以下PAM的位点的高效识别:TTTN、CTTN、GTTN、TATN、TCTN、TGTN、TTAN、TTCN、TTGN、AGTN、ATCN、CATN、CCCN、CCTN、CGTN、CTAN、CTCN、GATN、GCTN、GGTN、GTCN、TACN、TCCN和TGCN。

由于上文提到的EGFP破坏测定对于评估Cpf1核酸酶活性的限制,我们接下来评估了我们的AsCpf1 E174R/S542R/K548R变体针对带有具有单碱基差异(图10A)或两个或三个碱基差异(图10B)的PAM的一系列内源人类基因目标位点的活性。这些结果证明,AsCpf1E174R/S542R/K548R可以有效地切割携带以下PAM的位点:TTTN、ATTN、CTTN、GTTN、TATN、TCTN、TGTN、TTCN、ATCN、CCCN、CCTN、CTCN、GCTN、GGTN、TCCN和TGCN。重要的是注意到,AsCpf1-E174R/S542R/K548R没有对具有所有可能的PAM的目标位点进行试验。显然,携带大部分这些可选PAM的目标位点甚至不能被野生型LbCpf1切割,而野生型LbCpf1具有比野生型AsCpf1更为松弛的PAM偏好(图2和4)。此外,对于可以被野生型LbCpf1切割的变体PAM位点,根据***或删除突变诱导效率来判断,我们观察到AsCpf1-E174R/S542R/K548R变体一致地超越野生型LbCpf1。感兴趣的是,AsCpf1-E174R/S542R/K548R变体也展现了针对典型TTTN PAM位点的改善的活性,甚至展现了对用AsCpf1或LbCpf1早先不能靶向的TTTN-6位点的实质上的活性(图10A和10B)。TTTN-6位点携带PAM的第一个位置上的T(TTTTPAM),表明三取代AsCpf1变体可以改善针对携带PAM的第一位置中的T的位点的活性。因而,相对于野生型AsCpf1和LbCpf1核酸酶,AsCpf1-E174R/S542R/K548R变体实质上改善了Cpf1平台对于具有非典型PAM的位点的靶向范围,并且总体上也显示了对具有典型PAM的位点的改善的活性。

接下来,为了尝试进一步松弛我们的AsCpf1 PAM变体的PAM特异性和/或改善在任何给定的PAM下的活性量级,我们对E174R/S542R/K548R变体添加了更多的氨基酸取代。首先,我们添加了N551R或N552R取代,从而分别产生四取代变体E174R/S542R/K548R/N551R和E174R/S542R/K548R/N552R。这两种四取代变体与野生型AsCpf1和E174R/S542R/K548R变体的比较揭示了,通过EGFP破坏测定或通过它们诱导内源人类基因目标位点中的***或删除突变的能力来判断,E174R/S542R/K548R/N551R变体可以改善带有携带单个、两个或三个差异的各种非典型PAM的位点上的基因破坏活性(分别为图11A和11B)。相反,E174R/S542R/K548R/N552R四取代变体在这些相同的实验中不显示改善的活性,在很多情况下实际上取消活性(图11A和11B)。为了进一步比较E174R/S542R/K548R和E174R/S542R/K548R/N551R变体的PAM识别特异性,我们检查了它们对含有典型或非典型(单碱基差异)PAM的扩展的更大数量的内源人类基因目标位点的活性。我们观察到两种变体对大部分位点的可比较的活性,少数情况下一种或另一种变体展现了稍微改善的活性(图11C)。

实施例1B.具有改变的PAM特异性和改善的中靶活性的AsCas12a变体的进一步表征

先前在人类细胞中表征Cas12a直系同源体揭示了,对于具有TTTV PAM的位点,As和LbCas12a一致地是更有效的核酸酶(Kim等人,Nat Biotechnol.,2016,34:863-8),Fn和MbCas12a可能拥有NTTN的松弛的PAM偏好(Zetsche等人,Cell,2015,163:759-71)。为更加彻底地评估每种直系同源体的活性和PAM偏好,在人类细胞中使用靶向带有TTTN或VTTNPAM的位点的两组十二个crRNA检查了它们的基因组编辑活性(图19A)。我们观察到对于TTTN PAM位点在四种直系同源体之间类似的基因破坏,然而观察到靶点特异性差异。此外,与As和LbCas12a相比时,Fn和Mb可以更有效地靶向VTTN PAM,但是与先前的报道一致的是,它们对VTTN位点的平均活性过低而不能将这些PAM表征为真实的靶点(图19A和19B)。这些结果支持了早先的观察,即针对带有TTTV PAM的位点Cas12a核酸酶大都是有效的(Kim等人,NatBiotechnol.,2016,34:863-8),迄今为止表征的天然发生的Cas12a直系同源体都没有显示克服了人类细胞中这种限制性的PAM需求。

为了扩展Cas12a核酸酶的靶向范围并扩大有用性,我们利用AsCas12a三元复合物的结构研究(Yamano等人,Cell.2016May 5;165(4):949-62)来工程化能够识别典型和非典型PAM两者的单一变体。鉴定了空间上紧密接近PAMDNA碱基的残基(图20A),我们猜测这些残基的取代可以通过产生新的碱基相互作用或非特异性相互作用来改变或松弛PAM识别。我们首先在人类细胞中针对编码典型和非典型PAM的位点试验了在这些位置上编码单取代的变体的活性。与野生型AsCas12a相比,四种单取代变体(S170R、E174R、S542R、K548R)展现了对于典型的TTTA或TTTC PAM位点的优越的活性,同时还允许对具有非典型CTTA或TTCCPAM的位点的更有效的靶向(分别为图20B和20C)。

人类细胞中这些取代的组合试验揭示了与野生型AsCas12a相比对四种携带非典型PAM(ATTC、CTTA、GTTC和TTCC)的其他位点的活性的实质上提高,并重现了对典型TTTGPAM位点的改善的活性的观察结果(图15A)。当组合E174R和S542R取代时观察到一些活性方面最突出的提高和靶向范围的扩大,与AsCas12a相比,E174R/S542R和E174R/S542R/K548R变体展现了对非典型PAM位点的4倍至32倍之间的改善的活性,以及对典型PAM位点的几乎2倍增强的活性(图20D)。因而,我们选择这两者变体用于进一步的表征。

为了全面地剖析我们的AsCas12a变体的扩展的PAM偏好,我们优化了无偏差体外高通量PAM测定分析(PAMDA;图21A-21H)。我们首先纯化并分析了野生型和E174R/S542R/K548R AsCas12a(图21A)。在编码具有各种可靶向和非可靶向PAM的两个不同间隔子序列的质粒底物上验证了这些Cas12a核酸酶的体外切割活性,证实了早先在人类细胞分析中观察到的活性改善(图21B和21C)。我们然后通过构建编码这两个间隔子序列、但是带有随机的8-mer序列来代替PAM的两个独立的质粒文库,使该工作流程进行PAMDA(图21D)。使用AsCas12a/crRNA核糖核蛋白(RNP)复合物对这两种线性化的质粒文库进行时程切割反应,随后PCR扩增并测序未切割的底物,来计算可靶向PAM的消耗速率(图21D)。在独立的PAMDA实验之间,对于重复和间隔子之间的大多数间隔子近4nt PAM序列,观察到PAM比速率常数(k;群体中PAM随时间的消耗)之间的强相关性(分别为图21E和21F)。对于野生型和E174R/S542R/K548R AsCas12a,可能的256种4nt PAM的每一个的log10k值计数的分箱(binning)提示了处在-2.25log10k范围内的真实PAM识别和靶向的近似阈值(图21G)。对来自相同PAM/间隔子组合的PAMDA数据的消耗曲线的分析显示了一致的切割分布,所述PAM/间隔子组合用于优化使用静态PAM底物的体外分析(图21H)。

为了进行PAMDA,纯化的Cas12a核酸酶与crRNA复合,来查询带有随机8nt序列代替PAM的质粒文库,允许计算所述群体中可靶向PAM的消耗的体外速率常数(k)。如所预计的,野生型AsCas12a对所有可能的4nt PAM序列的平均log10k值的曲线揭示了,靶向仅对具有TTTV PAM的位点是有效的(图15B)。反之,E174R/S542R/K548R变体展现了显著扩大的PAM类别靶向,包括TTTN和TTCN(TTYN);ATTV、CTTV和GTTV(VTTV);TATV和TGTV(TRTV);以及许多其他PAM(图15B)。重要的是,该分析也支持了我们的观察结果,即,变体维持了典型TTTV PAM的有力的识别。

接下来,为了对每种取代赋予的靶向范围改善获得更完整的了解,我们对产生E174R/S542R/K548R所必需的单取代和双取代中间变体进行PAMDA(图22A)。与我们的人类细胞分析数据(图15A)一致,该分析揭示了,E174R/S542R变体也展现了对广大范围的PAM的改善的活性。比较的E174R/S542R和E174R/S542R/K548R对于NNYN PAM的平均log10k PAMDA值证明两种变体都具有扩展的靶向范围(图22B),表明E174R和S542R取代是造成大部分扩大的靶向范围的原因。感兴趣的是,这些残基的身份不是Cas12a直系同源体间共有的,但是存在于侧翼氨基酸严格保守的区域中(图22C)。

为了进一步研究人类细胞中E174R/S542R和E174R/S542R/K548R变体展现的靶向范围改善,我们表征了它们对于PAMDA鉴定为可靶向或非可靶向的位点的活性,包括75个VTTN和TTCN位点,其带有现在每种变体都可接近的PAM(VTTT作为阴性对照;图23A),以及17个具有TATN PAM的位点,其中TATV位点应当仅被E174R/S542R/K548R有效地靶向(图23B)。通过所述变体的PAMDA结果所预测的,我们观察到E174R/S542R和E174R/S542R/K548R对具有VTTV和TTCN PAM的位点的一致且稳健的靶向,其对VTTT位点的修饰无效,并观察到E174R/S542R/K548R变体仅对TATV位点的有效靶向(图15C、23A和23B)。重要地,与野生型AsCas12a相比,两种变体在靶向这些非典型PAM位点方面都是更有效得多的(图15D、19A和23C)。由于E174R/S542R/K548R变体的PAMDA结果表明它还可以潜在地识别超出我们已试验的那些的扩展的PAM范围,我们检查了人类细胞中15个带有TGTVPAM的位点以及83个其他位点,其携带处在-2.25的平均log10(k)PAMDA阈值之处或附近的可选择的PAM(分别为图23D和23E)。我们观察到带有这些另外的非典型PAM的许多位点的稳健的修饰,以及大多数PAM的平均人类细胞活性和PAMDA ks之间的强相关性(图23F)。

来自PAMDA的另一个观察结果是,E174R/S542R和E174R/S542R/K548R变体现在可以靶向野生型AsCas12a早先不能接近的TTTT PAM(图22A)。为测定这些变体是否可以有效地靶向具有非典型TTTT PAM的位点,同时还维持对典型TTTV PAM的活性,我们比较了它们在人类细胞中对25种另外的TTTN位点的活性(图23G)。与我们较早的发现(图15A)一致,我们观察到在修饰携带每种TTTV PAM的位点方面大约2倍的提高,以及对编码TTTT PAM的位点的大大改善的靶向(图15E)。这些结果表明,携带E174R和S542R的组合的变体不仅显著地改善靶向范围,还可令人惊讶地增强了对具有TTTNPAM的位点的靶向(图23H)。

总体上,E174R/S542R/K548R变体,此后称为增强的AsCas12a(eAsCas12A),允许靶向范围的显著扩展和中靶活性的改善。现在eAsCas12a可接近的PAM可以基于PAMDA和人类细胞数据之间的一致性分类到置信度层级中(图15F和23I)。我们观察到人类细胞中的平均修饰百分比与体外测定的平均PAMDA ks之间的强相关性(图23F),表明PAMDA是人类细胞中可靶向和非可靶向PAM的合理预示。值得考虑的是,所述PAMDA数据产自编码两种独立的间隔子序列的文库,因而可能的是,从这些文库观察到的PAM偏好分布不代表所有间隔子序列的PAM排序(虽然我们确实观察到检查的两种间隔子文库之间良好的相关性,图21F)。

因而,我们将对于所有检查的位点在人类细胞中满足大于20%平均靶向的严格阈值并且PAMDAk大于0.01的PAM分类为“层级1”PAM(TTYN、CTTV、RTTC、TATM、CTCC、TCCC和TACA),将满足细胞中大于10%的平均靶向的中度靶向阈值并且PAMDAk大于0.005的PAM分类为“层级2”PAM(RTTS、TATA、TGTV、ANCC、CVCC、TGCC、GTCC、TTAC)(图23I)。不一致的PAM(人类细胞数据与PAMDA数据之间的弱相关性)以及在人类细胞中的平均修饰小于10%的被分类为“层级3”PAM,考虑到我们当前的数据,不推荐用于大多数基因组编辑应用。对于靶向范围不是限制性的并且效率是主要目标的应用,我们建议根据它们的PAMDA以及人类细胞排序优先考虑层级1或2中的PAM(图23I)。

总之,eAsCas12a和其他AsCas12a变体将靶向改善了超过8倍,允许基因组的编码区和非编码区的更高分辨率的靶向(图15G)。

eAsCas12a的改善的中靶活性

在靶向范围之外,基因组编辑核酸酶的另一个关键性质是强力的中靶活性。因此我们设法更好地了解哪些取代有助于我们用eAsCas12a观察到的增强的靶向效率,就我们所知,还没有描述过提高CRISPR核酸酶的编辑效率的氨基酸取代。因而,我们首先确定了eAsCas12a或其衍生变体是否可以在如早先对野生型AsCas12a描述的更低的温度下还原DNA切割缺陷(Moreno-Mateos等人,Nat Commun.,2017,8:2024)。在37℃、32℃和25℃下的比较性体外切割反应揭示了,eAsCas12a几乎消除了在AsCas12a和LbCas12a之间观察到的温度依赖性切割差异,表型恢复很大程度上归因于E174R和S542R取代(图16A)。

Cas12a核酸酶的独特性质是它们从聚-crRNA转录产物中加工单个crRNA的能力(Fonfara等人,Nature,2016,532:517-21),简化了细胞中的多重靶向(Zetsche等人,NatBiotechnol.,2017,35:31-34;Tak等人,Nat Methods,2017,14:1163-1166)。为了评估eAsCas12a的活性增强是否可以延及多重靶向,我们比较了用聚-crRNA阵列编程时As、eAs和LbCas12a的活性,所述聚-crRNA阵列各自编码靶向人类细胞中独立基因的三个crRNA(图18A-18C)。大多数情况下,我们观察到当聚-crRNA阵列从RNA聚合酶-III启动子表达时eAsCas12a的优越靶向性,推测是由于eAsCas12a对具有典型PAM的位点的增强的活性(图18A和18B)。当聚-crRNA从RNA聚合酶II启动子表达时也观察到多重靶向的这种改善,扩展了多重编辑应用的范围(图18C)。我们还设计了编码两组邻近靶向的crRNA的多重阵列以产生小的基因组删除。从聚-crRNA转录产物表达crRNA对,或者将单个crRNA质粒的库转染到细胞中,我们再次观察到eAsCas12a的改善的多重靶向性(图18D)。

实施例4提供了额外的证据来支持E174R取代增强中靶活性的观察结果。

实施例2.具有改变的PAM特异性的LbCpf1的变体

由于AsCpf1和LbCpf1在围绕PAM的蛋白质-DNA接触附近的残基之间享有高度同源性(基于三维晶体结构和初步序列比对,参见表1),我们构造了LbCpf1 PAM变体,其将带有与我们在AsCpf1中突变的位置相应残基处的残基。当与它们对应的AsCpf1变体(图5)相比较时,LbCpf1中位置T152、D156、G532和K538处的单取代(其相应于AsCpf1中的残基S170、E174、S542和K548)仅揭示了针对具有非典型PAM的位点在EGFP破坏活性方面的中度提高(图12A)。然而,在EGFP破坏测定中与野生型LbCpf1相比,三取代LbCpf1-D156R/G532R/K538R变体(类似于AsCpf1-E174R/S542R/K548R)展现了靶向具有非典型PAM的位点方面稍微更大幅度的提高(图12B)。

实施例3.具有改变的PAM特异性的FnCpf1的变体

之前的报道已经暗示FnCpf1在人类细胞中不工作或具有不良的活性(Zetsche,Cell 2015;Kim,Nature Biotechnology 2016)。由于AsCpf1和FnCpf1享有高度的同源性,我们首先设法试验野生型FnCpf1是否实际上在人类细胞中起作用,然后我们是否可以松弛早先报道的TTN的PAM特异性(Zetsche,Cell 2015)。

为了检查FnCpf1在人类细胞中的活性,我们在我们的人类细胞EGFR破坏测定中试验了其针对含有NTTN、TNTN和TTNN形式的PAM的目标位点的活性(图13A)。我们的结果揭示了,野生型FnCpf1实际上可以在人类细胞中介导针对NTTN位点的稳健的EGFP破坏,针对TCTN和TTCN位点具有一定的可检测活性(图13A)。接下来,我们在携带TTTN PAM的10个不同的内源目标位点上将FnCpf1的内源基因破坏活性与AsCpf1和LbCpf1进行比较。在很多情况下,我们观察到FnCpf1与AsCpf1和LbCpf1可比较的活性,证明FnCpf1实际上在人类细胞中强健地起作用(图13B)。

由于FnCpf1在人类细胞中起作用,我们设法确定,通过在导致PAM特异性改变的AsCpf1的同源位置的残基处产生携带取代的FnCpf1变体,是否可以产生FnCpf1 PAM变体(表1)。在我们检查的取代之中,K180R、N607R和D616R的单取代在TTTN、TNTN和NTTN PAM位点处产生相对于野生型AsCpf1的活性提高(图13C)。另外,K671H突变可以提高针对TCTNPAM位点的活性。我们还观察到,携带取代组合的变体,包括N607R/K613R、N607R/K613V、N607R/K613V/D616R或N607R/K613R/D616R,在TTTN、CTTN、GTTN、TATN、TCTN、TCTN、TTAN或TTCN形式的某些PAM处相对于野生型FnCpf1的活性改善(图13C)。

实施例4.具有改变的PAM特异性的其他AsCpf1变体

Gao等人近来公开了具有改变的PAM特异性的其他Cpf1变体(Gao等人,“Engineered Cpf1 Enzymes with Altered PAM Specificities,”bioRxiv 091611;doi:https://doi.org/10.1101/091611)。这些变体以及它们声称的对典型和/或非典型PAM的活性如下:

1)AsCpf1-S542R/K548V/N552R-针对TATV PAM位点起作用

2)AsCpf1-S542R/K607R-针对TYCV PAM位点最佳地起作用,但是展现了针对典型的TTTV位点的活性损失。

为了针对S542R/K548V/N552R变体评估本文描述的三取代或四取代AsCpf1变体(分别为E174R/S542R/K548R和E174R/S542R/K548R/N551R),我们对携带典型的TTTN、TATN(据报道被S542R/K548V/N552R变体识别)和具有单碱基或双碱基差异的PAM的目标位点使用EGFP破坏测定比较这三种变体的活性(图14A)。对于所有试验的位点,我们观察到在TTTV、TATN和其他非典型的CTTN、GTTN、TCTN、TGTN、TTAN、TTCN、TTGN和TCCN PAM处我们的三取代和四取代变体优于S542R/K548V/N552R变体(图14A)。接下来,基于我们早先的观察结果,即S170R或E174R取代当与其他取代组合时可以提高AsCpf1变体的活性,我们研究了向S542R/K548V/N552R变体添加这些取代之一是否也可以改善其活性。在将S170R/S542R/K548V/N552R和E174R/S542R/K548V/N552R四取代变体与亲本S542R/K548V/N552R比较时,我们观察到添加S170R或E174R取代实质上改善了活性(E174R的作用大于S170R,而添加S170R也产生改善;图14A)。

对于携带典型TTTN PAM序列、或具有单碱基差异的PAM的EGFP中的许多目标位点,我们还比较了我们的三取代和四取代AsCpf1变体(分别为E174R/S542R/K548R和E174R/S542R/K548R/N551R)相对于S542R/K607R变体的活性。对于所有这些位点,当与S542R/607R变体比较时,我们的三取代和四取代变体(E174R/S542R/K548R和E174R/S542R/K548R/N551R)具有大约相等的或更高水平的EGFP破坏活性(图14B)。S542R/K607R仅在具有TCCNPAM的目标位点上优于我们的三重和四重变体。因此,我们向S542R/K607R变体添加S170R或E174R取代以产生三取代的S170R/S542R/K607R和E174R/S542R/K607R变体。在所有试验的位点上,这些额外的三取代变体与S542R/K607R变体相比表现同样好或者更好,值得注意的是在具有TCCNPAM的位点上也表现良好(图14B)。最后,我们在携带非典型PAM(PAM中有1、2或3个碱基差异)的U2OS细胞中的一系列内源人类基因目标位点处比较了我们的三取代变体之一(E174R/S542R/K548R)与S542R/K607R变体。除了携带NCCC PAM的位点之外在所有试验的位点上,我们的E174R/S542R/K548R变体与S542R/K607R变体相比表现同样好或更好(图14C)。对于S542R/K607R变体展示了更高的基因破坏活性的NCCC PAM位点,我们比较了该变体与我们的S170R/S542R/K607R、E174R/S542R/K607R和E174R/S542R/K607H变体,并观察到在所有情况下,我们的三取代变体之一优于S542R/K607H变体(图14C)。

实施例4B.改善AsCas12a PAM变体的中靶活性

由于我们的结果表明,E174R和S542R产生人类细胞中eAsCas12a的活性增强,我们猜测在早先描述的已经编码S542R的AsCas12a变体中包含E174R也可以改善它们的活性。因而,E174R取代与RVR(S542R/K548V/N552R)和RR(S542R/K607R)变体组合来创造这些核酸酶的增强形式(分别为eRVR和eRR)。比较eAsCas12a、RVR、eRVR、RR和eRR变体在人类细胞中针对具有TTTN PAM的11个位点的活性(图24A),揭示了虽然早先公开的RVR和RR变体具有与野生型AsCas12a相比类似的或更弱的活性,添加E174R来创造eRVR和eRR变体引起了它们的活性方面大于2倍的提高(虽然仍然低于eAsCas12a;图16B)。这些结果强化了该观察结果,即携带E174R和S542R的组合的变体可以改善中靶活性。

接下来,由于我们对eAsCas12a的PAMDA评估揭示了识别早先报道为RVR和RR变体可接近的初始PAM(分别为TATV和TYCV PAM;图15B),在人类细胞中这些位点处,我们比较了eAsCas12a与这些核酸酶的公开的和增强的形式。对于12个TATN位点(图24B),我们注意到eAsCas12a展示了与RVR变体大约相等的活性(图16C)。感兴趣的是,向RVR添加E174R引起活性的2倍改善,表明对于靶向TATN位点是主要目标的应用,eRVR是最佳的变体(图16C)。然后我们在人类细胞中29个携带TYCN PAM的位点上评估了eAsCas12a、RR和eRR(图24C)。对于18个TTCN位点eAsCas12a展现了与RR相比更高的修饰,而含有E174R的eRR变体具有与eAsCas12a可比较的活性(图16D)。在11个TCCN位点上进一步比较这些变体揭示了,虽然在具有TCCNPAM的位点上RR变体是相比eAsCas12a更有效的核酸酶,含有E174R的eRR变体再一次产生了对于所有TCCN位点最稳健的修饰(图16D)。

为了确定通过添加E174R是否已经改变了增强的eRVR和eRR变体的靶向范围,我们将PAMDA应用于RVR、RR和它们的增强变体(图24D)。与我们的人类细胞数据一致,我们观察到,eRVR和eRR核酸酶具有与它们的亲本RVR和RR变体类似的靶向范围,但是通过添加E174R取代改善了它们的中靶效力(图16E和24E)。总之,这些结果证明,E174R和S542R取代不仅改善靶向范围,它们还可以改善AsCas12a核酸酶的中靶活性。

实施例5.增强eAsCas12a的基因组广度特异性

考虑到相比野生型AsCas12a,eAsCas12a展现了增强的活性和松弛的PAM识别,我们设法比较这些核酸酶的特异性,因为它们辨别中靶和脱靶位点的能力对于研究和治疗应用都是关键的。就此来说,我们和其他人早先已经显示,野生型Cas12a核酸酶拥有稳健的基因组广度特异性,并且相对不耐受错配的脱靶位点,所述脱靶位点在间隔子的紧邻PAM近端、中间和PAM远端区域中带有单个或两个错配(Kleinstiver等人,Nat Biotechnol.,2016,34:869-74;Kim等人,Nat Biotechnol.,2016,34:863-8;WO2018/022634)。因此,我们使用了通过测序(GUIDE-seq)方法而可行的基因组广度的DSB无偏鉴定(Tsai等人,NatBiotechnol.,2015,33:187-197),来比较As和eAsCas12a在四个具有TTTV PAM的位点上的基因组广度特异性(图25A-25D)。野生型AsCas12a通过GUIDE-Seq检测到少数脱靶,对于eAsCas12a我们观察到脱靶数量的提高(图17A和17B)。对eAsCas12a观察到的许多脱靶是早先使用LbCas12a的GUIDE-seq实验中已经鉴定出的(Kleinstiver等人,Nat Biotechnol.,2016,34:869-74),在已知耐受核苷酸取代的位置中含有错配(Kleinstiver等人,NatBiotechnol.,2016,34:869-74;Kim等人,Nat Biotechnol.,2016,34:863-8),或编码现在可靶向的非典型PAM(图17A)。

为了研究定向进化方法是否可以用于改善eAsCas12a的保真度,我们检查了AsCas12a中预计造成与DNA的非特异性接触的残基处氨基酸取代的影响。我们分析了九种不同的推测的高保真度(HF)取代的单错配耐受性(包括早先描述的K949A变体),观察到虽然某些取代改善了AsCas12a对于两个位点的单错配耐受性分布,许多取代也降低了使用匹配的crRNA时的活性(图25E)。我们将最有前景的取代与eAsCas12a组合,观察到eAsCas12a的N282A形式(命名为eAsCas12a-HF1)产生了在单错配不耐受性方面最希望的改善,并且维持了中靶活性(图25F)。使用PAMDA评估eAsCas12a和eAsCas12a-HF1揭示了几乎相同的PAM偏好分布(图25G和25H),表明N282A HF突变不改变PAM识别或靶向范围(图17C)。

接下来,为了确定eAsCas12a-HF1是否可以改善基因组广度特异性,我们使用同样的四个早先检查的TTTV PAM靶向的crRNA进行GUIDE-Seq。与eAsCas12a相比,我们观察到对于4种crRNA中的3种,在用eAsCas12a-HF1检测到脱靶的位置观察到数量和频率的降低(图17A和17B),其中它们的特异性分布现在更加接近于野生型AsCas12a所观察到的。进行了其他GUIDE-Seq实验,对于具有非典型PAM的位点比较eAsCas12a和eAsCas12a-HF1(图17D和25B-25D),我们再次观察到与eAsCas12a相比使用eAsCas12a-HF1时脱靶的数量和频率降低(分别为图17E和17F)

我们然后比较了对于典型和非典型PAM位点eAsCas12a和eAsCas12a-HF1的中靶活性(分别为图25I和25J),来检查N282A取代是否影响靶向效率。我们观察到对于8个TTTNPAM位点的类似的基因修饰(再一次相对于野生型AsCas12a提高了近3倍的效率;图17G),以及在15个携带非典型PAM的位点上eAsCas12a与eAsCas12a-HF1之间可比较的活性(图17H)。此外,评估温度耐受性的体外切割分析揭示了在37℃、32℃和25℃下eAsCas12a、eAsCas12a-HF1和LbCas12a之间相似的切割分布(图25K)。总之,这些结果证明,eAsCas12a-HF1可以改善基因组广度特异性,同时维持重要的靶向范围、提高的活性以及温度耐受性性质。

实施例6.利用eAsCas12a的增强的性质用于基因激活和表观基因组编辑应用

CRISPR-Cas12a的另一个卓越的适配是用于表观基因组编辑,其中已经显示DNase失活的Cas12a(dCas12a)与异源效应子的融合物调节基因表达。我们早先证明了,与人类细胞中等价的dAsCas12a融合物相比,与合成的VPR反式-激活结构域(VP64、p65和Rta的组合;Chavez等人,Nat Methods.,2015,12:326-8)的dLbCas12a融合物介导更强力的基因激活(Tak等人,Nat Methods,2017,14:1163-1166)。为了研究与LbCas12a效应子相比eAsCas12a是否可以改善表观基因组编辑,我们首先设计并试验了不同结构的与VPR的dAs、deAs和dLbCas12a融合物(图26A)。比较它们对VEGFA启动子近端的典型TTTV和非典型TTCV PAM的活性,建立了最佳的dCas12a-VPR融合物结构(版本1.1;图26B-26D),还揭示了在使用靶向典型或非典型位点的crRNA时,相对于dAs与dLbCas12a融合物,deAs-VPR效应子促成了更大的VEGFA生产(图26E)。在比较deAs-VPR与原型dSpCas9-VPR融合物的实验中(靶向独立但附近的位点),我们用deAs-VPR观察到可比较的或更好的基因激活(图26B-C和26E-F)。

使用靶向三种其他内源基因(NPY1R、HBB和AR)的启动子中的位点的dAs、deAs和dLb-VPR融合物的额外实验再一次揭示了在使用典型PAM(图18E)或非典型PAM靶向的crRNA(图18F和18G)时deAs-VPR的最强力的基因激活。deAs-VPR融合物实现了10至10,000倍之间的基因激活,经常地优于dAs或dLbCas12a-VPR超过10-100倍。

总的来说,当靶向典型的TTTV PAM位点时,与公开的dLbCas12a-VPR融合物相比,与VPR的deAsCas12a融合物可以以相等的或更高的效率介导稳健的基因激活,并且通过靶向仅可用这种eAsCas12a变体接近的非典型PAM位点,还提供了新的能力来激活基因。这些结果重现了eAsCas12a的增强的活性和改善的靶向范围,并提供了强力的和广泛可靶向的基因激活技术,其也可以适用于其他表观基因组编辑应用。

实施例7.用于碱基编辑应用的AsCas12a和LbCas12a的变体

近年来已经使用工程化的SpCas9碱基编辑子(BE)构建体展现了进行精确的单碱基编辑事件的能力(参见,例如,Komor等人,Nature.2016 May 19;533(7603):420-4;Nishida等人,Science.2016 Sep 16;353(6305);Kim等人,Nat Biotechnol.2017 Apr;35(4):371-376;Komor等人,Sci Adv.2017 Aug 30;3(8):eaao4774;和Gaudelli等人,Nature.2017 Nov 23;551(7681):464-471),其利用了SpCas9-gRNA形成的R-环形成,其导致非目标DNA链的ssDNA可接近性。因此异源的胞苷或腺嘌呤脱氨酶的酶结构域与SpCas9的融合可以作用于暴露的ssDNA链,分别引起C到T或A到G的有效导入。由于细胞碱基切除修复(BER)采用尿嘧啶DNA糖基化酶(UDG;也称为尿嘧啶N-糖基化酶,或UNG)来切下尿嘧啶碱基,由于胞苷的脱氨基化产生尿嘧啶中间物,这种内源的过程可以有效地逆转胞苷BE产生的编辑。因此,为了改善胞苷BE的效率,异源效应子结构域例如尿嘧啶糖基化酶抑制剂(UGI)也可以融合到SpCas9以抑制UDG,破坏BER的起始并提高胞苷BE的有效性。

由于我们早先的观察表明,eAsCas12a(E174R/S542R/K548R)拥有增强的活性,因此我们想知道eAsCas12a是否可以允许开发推测的AsCas12a碱基-编辑子(AsBEs)。为了试验这种假说,我们克隆了四种不同的DNase失活的eAsBE结构(BE-1.1-1.4;图18H),其包括rAPOBEC1的N-末端融合物、D908A取代以取消核酸酶介导的DNA水解活性、以及UGI的C-末端融合物,并使用八种不同的crRNA将它们的活性与野生型AsBE1.1和1.4进行比较。对于8个位点的7个中的所有的C,我们用AsBEs观察到最小的(<1%)C到T编辑(图18I)。感兴趣的是,对于同样的八个位点,eAsBE融合物展现了远大于绝对水平的C到T转换(2-34%的编辑;图18I和18J),相对于AsBEs显著改善编辑(图27A)。两种相当的LbBE结构的评估(范围在2-19%的C到T编辑)揭示了相对于eAsBEs可比较水平的C到T编辑(图18I和18J)。对于所有构建体,编辑效率根据目标位点和BE结构而不同(图18I),类似于使用SpCas9BEs的观察结果,C的5'存在G看起来阻抑C到T编辑(图27B)。对于高效率编辑的位置,使用Cas12a-BEs观察到希望的编辑纯度(优势的C到T,作为主要产物)(图27C)。Cas12a-BEs观察到低水平的***或删除突变,推测是由于它们的DNase活性的失活(图18K和图27D)。总之,这些结果证明,eAsCas12a的活性增强允许以早先用AsBEs不可实现的水平、以及以与LbBEs可比较的效力进行C到T编辑,并且扩展了CRISPR碱基编辑试剂的潜力。

实施例8.用于DNA检测的AsCas12a变体

近年来描述的CRISPR-Cas12a核酸酶的其他应用基于该观察结果,即Cas12a分子展现了靶点编程的非特异性DNase活性(Chen等人,Science,2018,doi:10.1126/science.aar6245),这种性质已经用于溶液中特定DNA分子的敏感检测(Chen等人,Science,2018,doi:10.1126/science.aar6245;Gootenberg等人,Science,2018,doi:10.1126/science.aaq0179)。当Cas12a-crRNA复合物结合目标DNA时,催化性的RuvC DNase活性位点采取超活性构象,其不加区别地消化附近的DNA。合成的淬灭荧光团DNA-报告分子可以添加到溶液中,方便Cas12a-DNase活性的定量,其将释放荧光报告子(East-Seletsky,Nature,2016,538:270-273)。因而,eAsCas12a的扩展的靶向范围和改善的活性,通过增强敏感性、便于检测具有非典型PAM的DNA分子、或通过允许检测用于诊断目的的变体等位基因,可潜在地改善DNA检测方法。

因此,我们设法评价野生型AsCas12a和eAsCas12a的附带的反式-DNase活性,来评估我们的工程化变体与DNA检测工作流程的相容性。我们在体外组装了Cas12-crRNA复合物,用活化性(匹配报告分子)或非活化性(对照)DNA底物对它们编程,之后添加报告分子。我们还改变了活化性DNA底物上编码的PAM,以确定eAsCas12a的扩展的靶向范围是否在这种体外分析中再现。在用野生型AsCas12a进行的实验中,在存在编码典型TTTA PAM位点的匹配底物的情况下,我们观察到稳健的检测,以及在用携带非典型ACCT PAM的底物编程时,观察到大大降低的活性(图28A)。接下来,eAsCas12a和eAsCas12-HF1都展现了在TTTA PAM底物上与野生型AsCas12a相比可比较水平的检测(图28B),但是也可以稳健地检测非典型的CTTA PAM底物(考虑到eAsCas12a的扩展的PAM偏好分布所预计的)(图15B)。令人惊讶地,eAsCas12a酶也能检测携带非可靶向ACCT PAM的DNA底物(图28B),暗示在对于原型目标DNA切割的PAM要求或者非特异性反式-DNase活性方面的潜在差异。这些结果证明,eAsCas12a和eAsCas12a-HF1都是用于DNA检测的强力的工程化核酸酶,其提供了相对于野生型AsCas12a的靶向范围和潜在特异性的优点。

其他实施方案

要理解的是虽然已经连同其详细说明一起描述了本发明,以上的描述意图说明而不是限制本发明的范围,本发明的范围由附随的权利要求的范围所定义。其他方面、优点和改变在所附权利要求的范围之内。

216页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:通过使用ABC转运体序列来增加植物生长和产量

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!