具有ruvc结构域的酶

文档序号:1909396 发布日期:2021-11-30 浏览:18次 >En<

阅读说明:本技术 具有ruvc结构域的酶 (Enzymes with RUVC domains ) 是由 布莱恩·托马斯 克利斯多佛·布朗 罗斯·坎托尔 奥德拉·德沃托 克里斯蒂娜·布特弗尔德 利 于 2020-02-14 设计创作,主要内容包括:本公开提供具有区别性结构域特征的核酸内切酶,以及使用此类酶或其变体的方法。(The present disclosure provides endonucleases having discriminatory domain characteristics, as well as methods of using such enzymes or variants thereof.)

具有RUVC结构域的酶

交叉引用

本申请要求2019年2月14日提交的题为“MG6 ENZYMES WITH RUVC DOMAINS”的美国临时申请号62/805,893的权益,将其通过引用完整并入本文。

背景技术

Cas酶及其相关的成簇规则间隔短回文重复(CRISPR)指导核糖核酸(RNA)似乎是原核免疫系统的普遍(约45%的细菌,约84%的古细菌)组分,用于保护此类微生物通过CRISPR-RNA指导的核酸切割来对抗非自身核酸,例如传染性病毒和质粒。虽然编码CRISPRRNA元件的脱氧核糖核酸(DNA)元件在结构和长度上可以相对保守,但它们的CRISPR相关(Cas)蛋白高度多样化,包含广泛多种核酸相互作用结构域。虽然早在1987年就已观察到CRISPR DNA元件,但CRISPR/Cas复合物的可编程核酸内切酶切割能力直到最近才被认识到,导致在各种DNA操作和基因编辑应用中使用重组CRISPR/Cas系统。

序列表

本申请包含序列表,所述序列表已以ASCII格式电子提交,并通过引用整体并入本文。创建于2020年2月14日的所述ASCII副本被命名为55921-708_601_SL.txt,并且大小是786KB。

发明内容

在一些方面,本公开提供了工程改造的核酸酶系统,其包含:(a)包含RuvC_III结构域和HNH结构域的核酸内切酶,其中所述核酸内切酶源自未培养的微生物,并且其中所述核酸内切酶是2类II型Cas核酸内切酶;以及(b)工程改造的指导核糖核酸结构,其被构造成与所述核酸内切酶形成复合物,所述复合物包含:(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;(ii)tracr核糖核酸序列,其被构造成与所述核酸内切酶结合。在一些实施方案中,RuvC_III结构域包含与SEQ ID NO:45-88或SEQ ID NO:246-262中任一个具有至少70%、至少75%、至少80%或至少90%序列同一性的序列。在一些方面,本公开提供了工程改造的核酸酶系统,其包含:(a)包含与SEQ ID NO:45-88或SEQ ID NO:246-262中任一个具有至少75%序列同一性的RuvC_III结构域的核酸内切酶;以及(b)工程改造的指导核糖核酸结构,其被构造成与所述核酸内切酶形成复合物,所述复合物包含:(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;(ii)tracr核糖核酸序列,其被构造成与所述核酸内切酶结合。在一些方面,本公开提供了工程改造的核酸酶系统,其包含:(a)被构造成与包含SEQ ID NO:149-158的前间区序列邻近基序(protospacer adjacentmotif,PAM)序列结合的核酸内切酶,其中所述核酸内切酶是2类II型Cas核酸内切酶;以及(b)工程改造的指导核糖核酸结构,其被构造成与所述核酸内切酶形成复合物,所述复合物包含:(i)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;(ii)tracr核糖核酸序列,其被构造成与所述核酸内切酶结合。在一些实施方案中,核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas 12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas 13d核酸内切酶。在一些实施方案中,核酸内切酶与Cas9核酸内切酶具有小于80%同一性。在一些实施方案中,核酸内切酶进一步包含HNH结构域。在一些实施方案中,tracr核糖核酸序列包含与选自SEQ ID NO:138-148或SEQ ID NO:280中任一个的约60至90个连续核苷酸具有至少80%序列同一性的序列。在一些方面,本公开提供了工程改造的核酸酶系统,其包含,(a)工程改造的指导核糖核酸结构,其包含:指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;和tracr核糖核酸序列,其被构造成与核酸内切酶结合,其中所述tracr核糖核酸序列包含与选自SEQ ID NO:138-148或SEQ ID NO:280中任一个的约60至90个连续核苷酸具有至少80%序列同一性的序列;以及(b)2类II型Cas核酸内切酶,其被构造成与工程改造的指导核糖核酸结合。在一些实施方案中,核酸内切酶被构造成与选自包含SEQ ID NO:149-158的组的前间区序列邻近基序(PAM)序列结合。在一些实施方案中,工程改造的指导核糖核酸结构包含至少两个核糖核酸多核苷酸。在一些实施方案中,工程改造的指导核糖核酸结构包含一个包含指导核糖核酸序列和tracr核糖核酸序列的核糖核酸多核苷酸。在一些实施方案中,指导核糖核酸序列与原核、细菌、真核、真菌、植物、哺乳动物或人基因组序列互补。在一些实施方案中,指导核糖核酸序列的长度为15-23个核苷酸。在一些实施方案中,核酸内切酶包含一个或多个核定位序列(NLS),其在核酸内切酶的N末端或C末端的近端。在一些实施方案中,NLS包含选自SEQ ID NO:180-195的序列。在一些实施方案中,工程改造的核酸酶系统进一步包含单链或双链DNA修复模板,其从5’至3’包含:包含靶脱氧核糖核酸序列5’的至少20个核苷酸的序列的第一同源臂,至少10个核苷酸的合成DNA序列,以及包含靶序列3’的至少20个核苷酸的序列的第二同源臂。在一些实施方案中,第一同源臂或第二同源臂包含至少40、80、120、150、200、300、500或1,000个核苷酸的序列。在一些实施方案中,所述系统进一步包含Mg2+源。在一些实施方案中,核酸内切酶和tracr核糖核酸序列源自同一门内的不同细菌物种。在一些实施方案中,核酸内切酶源自属于皮杆菌属(Dermabacter)的细菌。在一些实施方案中,核酸内切酶源自属于疣微菌门(Phylum Verrucomicrobia)、暂定异域菌门(Phylum Candidatus Peregrinibacteria)或暂定黑水仙菌门(Phylum Candidatus Melainabacteria)的细菌。在一些实施方案中,HNH结构域包含与SEQ ID NO:89-132或SEQ ID NO:263-279中任一个具有至少70%或至少80%同一性的序列。在一些实施方案中,核酸内切酶包含SEQ ID NO:1-44或SEQ ID NO:229-245或与其具有至少55%同一性的变体。在一些实施方案中,核酸内切酶包含与选自SEQ IDNO:46或SEQ ID NO:46-47的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:90或SEQ ID NO:90-91的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶包含至少1个、至少2个、至少3个、至少4个或至少5个选自SEQ ID NO:214-221的肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ IDNO:2或SEQ ID NO:2-3的序列至少70%、80%或90%相同的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:138或SEQ ID NO:133的序列至少70%、80%或90%相同的序列。在一些实施方案中,指导RNA结构包含含有发夹的tracr核糖核酸序列,所述发夹包含至少8个、至少10个或至少12个碱基配对的核糖核苷酸。在一些实施方案中,核酸内切酶被构造成与包含选自SEQ ID NO:149和SEQ ID NO:154的序列的PAM结合。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:46至少70%、80%或90%相同的序列;(b)指导RNA结构包含与SEQ ID NO:133或SEQ ID NO:138至少70%、80%或90%相同的序列;(c)核酸内切酶被构造成与包含SEQ ID NO:149或SEQ ID NO:154的PAM结合。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:48或SEQ ID NO:48-71的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:92或SEQ ID NO:92-115的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶包含SEQ ID NO:222。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:4或SEQ ID NO:4-27的序列至少70%、80%或90%相同的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:139、SEQ IDNO:139-143或SEQ ID NO:134的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶被构造成与包含SEQ ID NO:150或SEQ ID NO:155的PAM结合。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:48至少70%、80%或90%相同的序列;(b)指导RNA结构包含与SEQ ID NO:134或SEQ ID NO:139至少70%、80%或90%相同的序列;以及(c)核酸内切酶被构造成与包含SEQ ID NO:150或SEQ ID NO:155的PAM结合。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:72、SEQ ID NO:72-83和SEQ ID NO:246-253的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:116、SEQ ID NO:116-127和SEQ ID NO:263-270的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶包含至少1个、至少2个、至少3个、至少4个或至少5个选自SEQ IDNO:223-225的肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:28、SEQ IDNO:28-39和SEQ ID NO:229-236的序列至少70%、80%或90%相同的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:144、SEQ ID NO:144-146和SEQ ID NO:135的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶被构造成与包含选自SEQ ID NO:151和SEQ ID NO:156的序列的PAM结合。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:72至少70%、80%或90%相同的序列;(b)指导RNA结构包含与SEQ ID NO:135或SEQ ID NO:144至少70%、80%或90%相同的序列;以及(c)核酸内切酶被构造成与包含SEQ ID NO:151或SEQ ID NO:156的PAM结合。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:84、SEQ ID NO:84-86和SEQ ID NO:254-262的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:128、SEQ ID NO:128-130和SEQ ID NO:271-279的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:40、SEQ ID NO:40-42和SEQ ID NO:237-245的序列至少70%、80%或90%相同的序列。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:147、SEQID NO:280或SEQ ID NO:136的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶被构造成与包含选自SEQ ID NO:152和SEQ ID NO:157的序列的PAM结合。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:84至少70%、80%或90%相同的序列;(b)指导RNA结构包含与SEQ ID NO:136或SEQ ID NO:147至少70%、80%或90%相同的序列;以及(c)核酸内切酶被构造成与包含SEQ ID NO:152或SEQ ID NO:157的PAM结合。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:87或SEQ ID NO:87-88的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:131或SEQ ID NO:131-132的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶包含至少1个、至少2个、至少3个、至少4个或至少5个选自SEQ ID NO:226-228的肽基序。在一些实施方案中,核酸内切酶包含与选自SEQ ID NO:43或SEQ ID NO:43-44的序列至少70%、80%或90%相同的序列。在一些实施方案中,指导RNA结构包含含有至少两个发夹的tracr核糖核酸序列,所述发夹包含少于5个碱基配对的核糖核苷酸。在一些实施方案中,指导RNA结构包含与选自SEQ ID NO:148或SEQ ID NO:137的序列至少70%、80%或90%相同的序列。在一些实施方案中,核酸内切酶被构造成与包含选自SEQ ID NO:153和SEQ ID NO:158的序列的PAM结合。在一些实施方案中:(a)核酸内切酶包含与SEQ ID NO:87至少70%、80%或90%相同的序列;(b)指导RNA结构包含与SEQ ID NO:137或SEQ ID NO:148至少70%、80%或90%相同的序列;以及(c)核酸内切酶被构造成与包含SEQ ID NO:153或SEQ ID NO:158的PAM结合。在一些实施方案中,序列同一性由BLASTP、CLUSTALW、MUSCLE、MAFFT或Smith-Waterman同源性搜索算法确定。在一些实施方案中,序列同一性通过BLASTP同源性搜索算法(其使用3的字长(W)、10的期望(E)的参数和BLOSUM62评分矩阵(设置缺口(存在时)罚分为11,延伸为1)并使用条件型组成得分矩阵调整)来确定。

在一些方面,本公开提供了工程改造的指导核糖核酸多核苷酸,其包含:(a)DNA靶向区段,其包含与靶DNA分子中的靶序列互补的核苷酸序列;(b)蛋白质结合区段,其包含杂交以形成双链RNA(dsRNA)双链体的两个互补核苷酸段,其中所述两个互补核苷酸段通过居间核苷酸共价连接到彼此,并且其中所述工程改造的指导核糖核酸多核苷酸能够与包含与SEQ ID NO:45-88或SEQ ID NO:246-262中任一个具有至少75%序列同一性的RuvC_III结构域的核酸内切酶形成复合物并将所述复合物靶向靶DNA分子的靶序列。在一些实施方案中,DNA靶向区段位于所述两个互补核苷酸段的5'。在一些实施方案中:(a)蛋白质结合区段包含与选自SEQ ID NO:138的序列具有至少70%、至少80%或至少90%同一性的序列;(b)蛋白质结合区段包含与选自SEQ ID NO:139或SEQ ID NO:139-143的序列具有至少70%、至少80%或至少90%同一性的序列;(c)蛋白质结合区段包含与选自SEQ ID NO:144或SEQ IDNO:144-146的序列具有至少70%、至少80%或至少90%同一性的序列;(d)蛋白质结合区段包含与选自SEQ ID NO:147的序列具有至少70%、至少80%或至少90%同一性的序列;或(e)蛋白质结合区段包含与选自SEQ ID NO:148的序列具有至少70%、至少80%或至少90%同一性的序列。在一些实施方案中:(a)指导核糖核酸多核苷酸包含含有发夹的tracr核糖核酸,所述发夹包含至少8个、至少10个或至少12个碱基配对的核糖核苷酸;或(b)指导核糖核酸多核苷酸包含含有至少两个发夹的tracr核糖核酸序列,所述发夹包含少于5个碱基配对的核糖核苷酸。

在一些方面,本公开提供了编码上述工程改造的指导核糖核酸多核苷酸的脱氧核糖核酸多核苷酸。

在一些方面,本公开提供了包含优化用于在生物体中表达的工程改造的核酸序列的核酸,其中所述核酸编码包含RuvC_III结构域和HNH结构域的核酸内切酶,其中所述核酸内切酶是2类II型Cas核酸内切酶,并且其中所述核酸内切酶源自未培养的微生物。

在一些方面,本公开提供了包含优化用于在生物体中表达的工程改造的核酸序列的核酸,其中所述核酸编码包含与SEQ ID NO:45-88中任一个具有至少70%序列同一性的RuvC_III结构域的核酸内切酶。在一些实施方案中,核酸内切酶包含与SEQ ID NO:89-132中任一个具有至少70%或至少80%序列同一性的HNH结构域。在一些实施方案中,核酸内切酶包含SEQ ID NO:170-179或与其具有至少70%序列同一性的变体。在一些实施方案中,核酸内切酶包含编码核酸内切酶的N末端或C末端的近端的一个或多个核定位序列(NLS)的序列。在一些实施方案中,NLS包含选自SEQ ID NO:180-195的序列。在一些实施方案中,生物体是原核的、细菌的、真核的、真菌的、植物的、哺乳动物的、啮齿动物的或人的。在一些实施方案中,生物体是大肠杆菌,并且:(a)核酸序列与SEQ ID NO:170具有至少70%、80%或90%同一性;(b)核酸序列与选自SEQ ID NO:171-172的序列具有至少70%、80%或90%同一性;(c)核酸序列与SEQ ID NO:173具有至少70%、80%或90%同一性;(d)核酸序列与SEQID NO:174具有至少70%、80%或90%同一性;或(e)核酸序列与SEQ ID NO:175具有至少70%、80%或90%同一性。在一些实施方案中,生物体是人,并且:(a)核酸序列与SEQ IDNO:176具有至少70%、80%或90%同一性;(b)核酸序列与SEQ ID NO:177具有至少70%、80%或90%同一性;(c)核酸序列与SEQ ID NO:178具有至少70%、80%或90%同一性;或(d)核酸序列与SEQ ID NO:179具有至少70%、80%或90%同一性。

在一些方面,本公开提供包含核酸序列的载体,所述核酸编码包含RuvC_III结构域和HNH结构域的2类II型Cas核酸内切酶,其中所述核酸内切酶源自未培养的微生物。

在一些方面,本公开提供包含本文所述的任何核酸的载体。在一些实施方案中,核酸进一步包含编码工程改造的指导核糖核酸结构的核酸,所述工程改造的指导核糖核酸结构被构造成与核酸内切酶形成复合物,所述复合物包含:(a)指导核糖核酸序列,其被构造成与靶脱氧核糖核酸序列杂交;和(b)tracr核糖核酸序列,其被构造成与所述核酸内切酶结合。在一些实施方案中,载体是质粒、小环、CELiD、腺相关病毒(AAV)衍生的病毒体或慢病毒。

在一些方面,本公开提供了包含本文所述的任何载体的细胞。

在一些方面,本公开提供了制造核酸内切酶的方法,所述方法包括培养本文所述的任何细胞。

在一些方面,本公开提供了用于对双链脱氧核糖核酸多核苷酸进行结合、切割、标记或修饰的方法,所述方法包括:(a)使所述双链脱氧核糖核酸多核苷酸与2类II型Cas核酸内切酶接触,所述2类II型Cas核酸内切酶与工程改造的指导核糖核酸结构复合,所述工程改造的指导核糖核酸结构被构造成与所述核酸内切酶和所述双链脱氧核糖核酸多核苷酸结合;其中所述双链脱氧核糖核酸多核苷酸包含前间区序列邻近基序(PAM);并且其中所述PAM包含选自SEQ ID NO:149-153或SEQ ID NO:154-158的序列。在一些实施方案中,双链脱氧核糖核酸多核苷酸包含第一链和第二链,所述第一链包含与工程改造的指导核糖核酸结构的序列互补的序列,所述第二链包含PAM。在一些实施方案中,PAM与跟工程改造的指导核糖核酸结构的序列互补的序列的3’末端直接相邻。在一些实施方案中,2类II型Cas核酸内切酶不是Cas9核酸内切酶、Cas14核酸内切酶、Cas12a核酸内切酶、Cas12b核酸内切酶、Cas12c核酸内切酶、Cas12d核酸内切酶、Cas12e核酸内切酶、Cas13a核酸内切酶、Cas13b核酸内切酶、Cas13c核酸内切酶或Cas 13d核酸内切酶。在一些实施方案中,2类II型Cas核酸内切酶源自未培养的微生物。在一些实施方案中,双链脱氧核糖核酸多核苷酸是真核、植物、真菌、哺乳动物、啮齿动物或人双链脱氧核糖核酸多核苷酸。在一些实施方案中:(a)PAM包含SEQ ID NO:149或SEQ ID NO:154;(b)PAM包含SEQ ID NO:150或SEQ ID NO:155;(c)PAM包含SEQ ID NO:151或SEQ ID NO:156;(d)PAM包含SEQ ID NO:152或SEQ ID NO:157;或(e)PAM包含SEQ ID NO:153或SEQ ID NO:158。

在一些方面,本公开提供了修饰靶核酸基因座的方法,所述方法包括将本文描述的任何工程改造的核酸酶系统递送至靶核酸基因座,其中核酸内切酶被构造成与所述工程改造的指导核糖核酸结构形成复合物,并且其中所述复合物被构造成使得在所述复合物与所述靶核酸基因座结合后,所述复合物修饰所述靶核酸基因座。在一些实施方案中,修饰靶核酸基因座包括对靶核酸基因座结合、切口、切割或标记。在一些实施方案中,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。在一些实施方案中,靶核酸包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。在一些实施方案中,靶核酸基因座是在体外。在一些实施方案中,靶核酸基因座是在细胞内。在一些实施方案中,细胞是原核细胞、细菌细胞、真核细胞、真菌细胞、植物细胞、动物细胞、哺乳动物细胞、啮齿动物细胞、灵长类细胞或人细胞。在一些实施方案中,将工程改造的核酸酶系统递送至靶核酸基因座包括递送本文所述的任何核酸或本文所述的任何载体。在一些实施方案中,将工程改造的核酸酶系统递送至靶核酸基因座包括递送包含编码核酸内切酶的开放阅读框的核酸。在一些实施方案中,核酸包含启动子,编码核酸内切酶的开放阅读框可操作地连接至所述启动子。在一些实施方案中,将工程改造的核酸酶系统递送至靶核酸基因座包括递送含有编码核酸内切酶的开放阅读框的加帽mRNA。在一些实施方案中,将工程改造的核酸酶系统递送至靶核酸基因座包括递送翻译的多肽。在一些实施方案中,将工程改造的核酸酶系统递送至靶核酸基因座包括递送对与核糖核酸(RNA)pol III启动子可操作连接的工程改造的指导核糖核酸结构进行编码的脱氧核糖核酸(DNA)。在一些实施方案中,核酸内切酶在靶基因座处或靶基因座的近端诱导单链断裂或双链断裂。

从以下详细说明中,本公开的其他方面和优点对于本领域技术人员将变得显而易见,其中仅示出和描述了本公开的说明性实施方案。如将认识到的,本公开能够具有其他和不同的实施方案,并且所有这些在不脱离本公开的情况下其若干细节能够在各个明显方面进行修改。因此,应该认为附图和说明本质上都是示例性的,而不是限制性的。

援引并入

本说明书中提到的所有出版物、专利和专利申请均通过引用并入本文,其程度如同每个单独的出版物、专利或专利申请被明确地并单独地指出通过引用的方式并入一样。如果通过引用合并的出版物和专利或专利申请与说明书中包含的公开内容相矛盾时,说明书旨在取代和/或优先于任何此类矛盾的材料。

附图说明

本发明的新颖特征在所附的权利要求书中具体阐述。通过参考以下阐述其中利用了本发明的原理的说明性实施方案以及附图(在此也为“图”)的详细描述,可以更好地理解本发明的特征和优点,在附图中:

图1描绘了不同类别的CRISPR/Cas基因座的典型结构。

图2描绘了天然II类/II型crRNA/tracrRNA对的架构,与其中两者连接的杂合sgRNA相比。

图3描绘了显示编码来自MG6家族的酶的CRISPR基因座的结构的示意图。

图4A、图4B和图4C描绘了本公开的酶(MG6-1)与来自金黄色葡萄球菌的Cas9(SEQID NO:196)的基于结构的比对。

图5A、图5B、图5C、图5D、图5E、图5F、图5G、图5H、图5I、图5J和图5K描绘了MG6家族酶MG6-1至MG6-6(SEQ ID NO:28-33)的基于结构的比对。

图6、图7、图8和图9描绘了琼脂糖凝胶,其显示了在含有各种MG家族核酸酶及其相应tracrRNA或sgRNA的TXTL提取物存在下PAM载体文库裂解的结果。

图10描绘了使用MG6-3连同其相应的sgRNA,大肠杆菌基因组DNA的细胞裂解。显示的是用MG6-3以及靶或非靶间隔子(顶部)转化的细胞稀释系列;底部分图显示定量数据,其中右侧条表示非靶sgRNA,左侧条表示靶sgRNA。

图11描述了MG7-1与其相应的sgRNA(其包含22个核苷酸的靶向序列)的复合物对DNA的体外切割,表明MG7-1/sgRNA组合有效切割DNA。

图12描绘了使用MG7-1连同其相应的sgRNA,大肠杆菌基因组DNA的细胞裂解。显示的是用MG7-1以及靶或非靶间隔子(顶部)转化的细胞稀释系列;底部分图显示定量数据,其中右侧条表示非靶sgRNA,左侧条表示靶sgRNA。

图13描绘了通过用如实施例13中所述的MG7-1连同其包含靶向人类基因组中不同位置的各种不同靶向序列的相应sgRNA转染HEK细胞产生的细胞插入缺失标记(indel)形成。

图14描绘了使用MG16-1连同其相应的sgRNA,大肠杆菌基因组DNA的细胞裂解。显示的是用MG16-1以及靶或非靶间隔子(顶部)转化的细胞稀释系列;底部分图显示定量数据,其中右侧条表示非靶sgRNA,左侧条表示靶sgRNA。

图15和图16描绘了本文描述的MG酶的相应sgRNA的预测结构(例如,如实施例7中预测的)。

图17、图18和图19描绘了如本文所述(例如,如实施例6中所述)通过NGS衍生的PAM序列的seqLogo表示。

序列表的简要说明

随此提交的序列表提供了用于本公开的方法、组合物和系统中的示例性多核苷酸和多肽序列。以下是其中的序列的示例性描述。

MG1

SEQ ID NO:1显示了MG1核酸酶的全长肽序列。

SEQ ID NO:45显示了上述MG1核酸酶的RuvC_III结构域的肽序列。

SEQ ID NO:89显示了上述MG1核酸酶的HNH结构域的肽。

MG2

SEQ ID NO:2显示了MG2核酸酶的全长肽序列。

SEQ ID NO:46显示了上述MG2核酸酶的RuvC_III结构域的肽序列。

SEQ ID NO:90显示了上述MG2核酸酶的HNH结构域的肽。

SEQ ID NO:138显示了源自与上述MG2核酸酶相同的基因座的MG2 tracrRNA的核苷酸序列。

SEQ ID NO:133显示了经工程改造以与MG2核酸酶一起起作用的sgRNA的核苷酸序列。

SEQ ID NO:170显示了大肠杆菌密码子优化的MG2核酸酶的编码序列的核苷酸序列。

SEQ ID NO:176显示了人密码子优化的MG2核酸酶的编码序列的核苷酸序列。

MG4

SEQ ID NO:4-27显示了MG4核酸酶的全长肽序列。

SEQ ID NO:48-71显示了上述MG4核酸酶的RuvC_III结构域的肽序列。

SEQ ID NO:92-115显示了上述MG4核酸酶的HNH结构域的肽。

SEQ ID NO:139-143显示了源自与上述MG4核酸酶相同的基因座的MG4 tracrRNA的核苷酸序列。

SEQ ID NO:134显示了经工程改造以与MG4核酸酶一起起作用的sgRNA的核苷酸序列。

SEQ ID NO:171-172显示了大肠杆菌密码子优化的MG4核酸酶的编码序列的核苷酸序列。

MG6

SEQ ID NO:28-39和229-236显示了MG6核酸酶的全长肽序列。

SEQ ID NO:72-83和246-253显示了上述MG6核酸酶的RuvC_III结构域的肽序列。

SEQ ID NO:116-127和263-270显示了上述MG6核酸酶的HNH结构域的肽。

SEQ ID NO:144-146显示了源自与上述MG6核酸酶相同的基因座的MG6 tracrRNA的核苷酸序列。

SEQ ID NO:135显示了经工程改造以与MG6核酸酶一起起作用的sgRNA的核苷酸序列。

SEQ ID NO:173显示了大肠杆菌密码子优化的MG6核酸酶的编码序列的核苷酸序列。

SEQ ID NO:177显示了人密码子优化的MG6核酸酶的编码序列的核苷酸序列。

MG7

SEQ ID NO:40-42和237-245显示了MG7核酸酶的全长肽序列。

SEQ ID NO:84-86和254-262显示了上述MG7核酸酶的RuvC_III结构域的肽序列。

SEQ ID NO:128-130和271-279显示了上述MG7核酸酶的HNH结构域的肽。

SEQ ID NO:147和280显示了源自与上述MG7核酸酶相同的基因座的MG7 tracrRNA的核苷酸序列。

SEQ ID NO:136显示了经工程改造以与MG7核酸酶一起起作用的sgRNA的核苷酸序列。

SEQ ID NO:174显示了大肠杆菌密码子优化的MG7核酸酶的编码序列的核苷酸序列。

SEQ ID NO:178显示了人密码子优化的MG7核酸酶的编码序列的核苷酸序列。

MG16

SEQ ID NO:43-44显示了MG16核酸酶的全长肽序列。

SEQ ID NO:87-88显示了上述MG16核酸酶的RuvC_III结构域的肽序列。

SEQ ID NO:131-132显示了上述MG16核酸酶的HNH结构域的肽。

SEQ ID NO:148显示了源自与上述MG16核酸酶相同的基因座的MG16 tracrRNA的核苷酸序列。

SEQ ID NO:137显示了经工程改造以与MG16核酸酶一起起作用的sgRNA的核苷酸序列。

SEQ ID NO:175显示了大肠杆菌密码子优化的MG16核酸酶的编码序列。

SEQ ID NO:179显示了人密码子优化的MG16核酸酶的编码序列。

具体实施方式

虽然已经示出和在本文所述了本发明的各种实施方案,对本领域技术人员将是显而易见的是,仅通过举例的方式来提供这样的实施方案。在不脱离本发明的情况下,本领域技术人员可进行许多变型、改变和替代。应当理解,可以采用本文所述的本发明实施方案的各种替代方案。

每当术语“至少”、“大于”或“大于或等于”在两个或更多个数值系列中的第一个数值之前时,术语“至少”、“大于”或“大于或等于”适用于该系列数值中的每个数值。例如,大于或等于1、2或3等同于大于或等于1,大于或等于2,或大于或等于3。

当术语“不大于”、“小于”或“小于或等于”在两个或更多个数值系列中的第一个数值之前时,术语“不大于”、“小于”或“小于或等于”适用于该系列数值中的每个数值。例如,小于或等于3、2或1等同于小于或等于3,小于或等于2,或小于或等于1。

除非另有说明,否则本文公开的一些方法的实践使用免疫学、生物化学、化学、分子生物学、微生物学、细胞生物学、基因组学和重组DNA的技术。参见例如Sambrook和Green,Molecular Cloning:A Laboratory Manual,第4版(2012);the series CurrentProtocols in Molecular Biology(F.M.Ausubel等人编辑);the series Methods InEnzymology(Academic Press,Inc.),PCR 2:A Practical Approach(M.J.MacPherson、B.D.Hames和G.R.Taylor编辑(1995)),Harlow和Lane编辑(1988)Antibodies,ALaboratory Manual,and Culture of Animal Cells:A Manual of Basic Technique andSpecialized Applications,第6版(R.I.Freshney编辑(2010))(通过引用完全并入本文)。

如本文所使用的,单数形式“一个/种(a/an)”和“所述(the)”也旨在包括复数形式,除非上下文另外明确指出。此外,如果在详细的说明书和/或权利要求中使用术语“包括”、“具有”、“带有”或其变体,则这些术语旨在以类似于术语“包含”的方式是包括性的。

术语“约”或“大约”意指由本领域普通技术人员确定的特定值在可接受的误差范围之内,这将部分地取决于该值是怎样测定或确定的,即受到测量系统的限制。例如,根据本领域的实践,“约”可以意指在一个或超过一个标准差内。可替代地,“约”可表示给定值的多达20%、多达15%、多达10%、多达5%或多达1%的范围。

如本文所用,“细胞”通常是指生物细胞。细胞可以是活生物体的基本结构、功能和/或生物学单位。细胞可以源自具有一个或多个细胞的任何生物体。一些非限制性示例包括:原核细胞、真核细胞、细菌细胞、古细菌细胞、单细胞真核生物的细胞、原生动物细胞、来自植物的细胞(例如来自植物作物、水果、蔬菜、谷物、大豆、玉米、玉蜀黍、小麦、种子、西红柿、稻、木薯、甘蔗、南瓜、干草、土豆、棉花、大麻、烟草、开花植物、松柏植物、裸子植物、蕨类、石松科、角苔纲、苔类植物、藓类的细胞)、藻类细胞(例如,布朗葡萄藻(Botryococcusbraunii)、莱茵衣藻(Chlamydomonas reinhardtii)、Nannochloropsis gaditana、蛋白核小球藻(Chlorella pyrenoidosa)、展枝马尾藻(Sargassum patens)、微劳马尾藻(C.Agardh)等)、海藻(例如海带)、真菌细胞(例如酵母细胞、来自蘑菇的细胞)、动物细胞、来自无脊椎动物(例如果蝇、刺胞动物、棘皮动物、线虫等)的细胞、来自脊椎动物(例如鱼、两栖动物、爬行动物、鸟类、哺乳动物)的细胞,来自哺乳动物(例如猪、牛、山羊、绵羊、啮齿动物、大鼠、小鼠、非人灵长类动物、人等)的细胞,等等。有时细胞并非源自天然生物体(例如,细胞可以是合成的,有时称为人工细胞)。

如本文所用,术语“核苷酸”通常是指碱基-糖-磷酸酯组合。核苷酸可包括合成的核苷酸。核苷酸可包括合成的核苷酸类似物。核苷酸可以是核酸序列的单体单元(例如,脱氧核糖核酸(DNA)和核糖核酸(RNA))。术语核苷酸可包括核糖核苷三磷酸、三磷酸腺苷(ATP)、尿苷三磷酸(UTP)、三磷酸胞嘧啶(CTP)、三磷酸鸟苷(GTP)和脱氧核糖核苷三磷酸,例如dATP、dCTP、dITP、dUTP、dGTP、dTTP或其衍生物。此类衍生物可包括例如[αS]dATP、7-脱氮-dGTP和7-脱氮-dATP,以及赋予含有它们的核酸分子核酸酶抗性的核苷酸衍生物。如本文所用,术语核苷酸可指双脱氧核糖核苷三磷酸(ddNTP)及其衍生物。双脱氧核糖核苷三磷酸的说明性示例可包括但不限于ddATP、ddCTP、ddGTP、ddITP和ddTTP。核苷酸可以是未标记的或可检测地标记的,例如使用包含光学可检测部分(例如,荧光团)的部分。也可以用量子点进行标记。可检测标记可以包括例如放射性同位素、荧光标记、化学发光标记、生物发光标记和酶标记。核苷酸的荧光标记可包括但不限于荧光素、5-羧基荧光素(FAM)、2'7'-二甲氧基-4'5-二氯-6-羧基荧光素(JOE)、罗丹明、6-羧基罗丹明(R6G)、N,N,N,’N’-四甲基-6-羧基罗丹明(TAMRA)、6-羧基-X-罗丹明(ROX)、4-(4'二甲基氨基苯基偶氮)苯甲酸(DABCYL)、级联蓝、俄勒冈绿、德克萨斯红、花青和5-(2'-氨基乙基)氨基萘-1-磺酸(EDANS)。经荧光标记的核苷酸的具体示例可以包括[R6G]dUTP、[TAMRA]dUTP、[R110]dCTP、[R6G]dCTP、[TAMRA]dCTP、[JOE]ddATP、[R6G]ddATP、[FAM]ddCTP、[R110]ddCTP、[TAMRA]ddGTP、[ROX]ddTTP、[dR6G]ddATP、[dR110]ddCTP、[dTAMRA]ddGTP和[dROX]ddTTP(可从Perkin Elmer,Foster City,Calif获得);FluoroLink脱氧核苷酸、FluoroLink Cy3-dCTP、FluoroLink Cy5-dCTP、FluoroLink FluorX-dCTP、FluoroLink Cy3-dUTP和FluoroLinkCy5-dUTP(可从Amersham,Arlington Heights,Ill.获得);荧光素-15-dATP、荧光素-12-dUTP、四甲基-罗丹明-6-dUTP、IR770-9-dATP、荧光素-12-ddUTP、荧光素-12-UTP和荧光素-15-2'-dATP(可从Boehringer Mannheim,Indianapolis,Ind.获得);和染色体标记的核苷酸、BODIPY-FL-14-UTP、BODIPY-FL-4-UTP、BODIPY-TMR-14-UTP、BODIPY-TMR-14-dUTP、BODIPY-TR-14-UTP、BODIPY-TR-14-dUTP、级联蓝-7-UTP、级联蓝-7-dUTP、荧光素-12-UTP、荧光素-12-dUTP、俄勒冈绿488-5-dUTP、罗丹明绿-5-UTP、罗丹明绿-5-dUTP、四甲基罗丹明-6-UTP、四甲基罗丹明-6-dUTP、德克萨斯红-5-UTP、德克萨斯红-5-dUTP和德克萨斯红-12-dUTP(可从Molecular Probes,Eugene,Oreg.获得)。核苷酸也可以通过化学修饰进行标记或标志。化学修饰的单核苷酸可以是生物素-dNTP。生物素化dNTP的一些非限制性示例可包括生物素-dATP(例如,bio-N6-ddATP、生物素-14-dATP)、生物素-dCTP(例如,生物素-11-dCTP、生物素-14-dCTP)和生物素-dUTP(例如,生物素-11-dUTP、生物素-16-dUTP、生物素-20-dUTP)。

术语“多核苷酸”、“寡核苷酸”和“核酸”可互换使用,一般指任何长度的核苷酸的聚合形式,脱氧核糖核苷酸或核糖核苷酸或其类似物,无论是单链、双链或多链的形式。多核苷酸对于细胞可以是外源的或内源的。多核苷酸可以存在于无细胞环境中。多核苷酸可以是基因或其片段。多核苷酸可以是DNA。多核苷酸可以是RNA。多核苷酸可以具有任何三维结构并且可以执行任何功能。多核苷酸可包含一种或多种类似物(例如,改变的骨架、糖或核碱基)。如果存在,可以在聚合物组装之前或之后赋予对核苷酸结构的修饰。类似物的一些非限制性示例包括:5-溴尿嘧啶、肽核酸、xeno核酸、吗啉化合物、锁核酸、二醇核酸、苏糖核酸、双脱氧核苷酸、蛹虫草菌素、7-脱氮-GTP、荧光团(例如,连接至糖的罗丹明或荧光素)、含硫醇的核苷酸、生物素连接的核苷酸、荧光碱基类似物、CpG岛、甲基-7-鸟苷、甲基化的核苷酸、肌苷、硫尿苷、假尿苷、二氢尿苷、辫苷以及怀俄苷。多核苷酸的非限制性示例包括基因或基因片段的编码或非编码区、由连锁分析定义的基因座、外显子、内含子、信使RNA(mRNA)、转移RNA(tRNA)、核糖体RNA(rRNA)、短干扰RNA(siRNA)、短发夹RNA(shRNA)、微RNA(miRNA)、核酶、cDNA、重组多核苷酸、分支多核苷酸、质粒、载体、任何序列的分离DNA、任何序列的分离RNA、无细胞多核苷酸(包括无细胞DNA(cfDNA)和无细胞RNA(cfRNA))、核酸探针和引物。核苷酸的序列可以被非核苷酸组分中断。

术语“转染”或“转染的”通常是指通过非病毒方法或基于病毒的方法将核酸引入细胞。核酸分子可以是编码完整蛋白质或其功能部分的基因序列。参见,例如,Sambrook等人,1989,Molecular Cloning:A Laboratory Manual,18.1-18.88.。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用以一般指由一个或多个肽键连接的至少两个氨基酸残基的聚合物。该术语并不意味着特定长度的聚合物,也不旨在暗示或区分肽是使用重组技术、化学或酶促合成产生的,还是天然存在的。该术语适用于天然存在的氨基酸聚合物以及包含至少一个经修饰氨基酸的氨基酸聚合物。在一些情况下,聚合物可以被非氨基酸中断。该术语包括任何长度的氨基酸链,包括全长蛋白质和具有或不具有二级和/或三级结构(例如结构域)的蛋白质。该术语还包括已被修饰的氨基酸聚合物,例如,通过二硫键形成、糖基化、脂化、乙酰化、磷酸化、氧化和任何其他操作(例如与标记组分缀合)。如本文所用,术语“氨基酸”通常指天然和非天然氨基酸,包括但不限于经修饰的氨基酸和氨基酸类似物。经修饰的氨基酸可以包括天然氨基酸和非天然氨基酸,它们已经被化学修饰以包括氨基酸上不天然存在的基团或化学部分。氨基酸类似物可以指氨基酸衍生物。术语“氨基酸”包括D-氨基酸和L-氨基酸。

如本文所用,“非天然”通常可指在天然核酸或蛋白质中未发现的核酸或多肽序列。非天然可以指亲和标签。非天然可以指融合。非天然可以指包含突变、插入和/或缺失的天然存在的核酸或多肽序列。非天然序列可表现出和/或编码活性(例如,酶活性、甲基转移酶活性、乙酰转移酶活性、激酶活性、泛素化活性等),所述活性也可由与非天然序列融合的核酸和/或多肽序列表现。非天然核酸或多肽序列可以通过基因工程与天然存在的核酸或多肽序列(或其变体)连接以产生嵌合核酸和/或编码嵌合核酸和/或多肽的多肽序列。

如本文所用,术语“启动子”通常是指控制基因转录或表达的调控DNA区域,并且其可以位于RNA转录起始处的核苷酸或核苷酸区域附近或与之重叠。启动子可包含结合蛋白质因子的特定DNA序列,通常称为转录因子,其促进RNA聚合酶与导致基因转录的DNA的结合。“基础启动子”,也称为“核心启动子”,通常可以指包含促进可操作连接的多核苷酸转录表达的所有基础必需元件的启动子。真核基础启动子通常(但不一定)包含TATA盒和/或CAAT盒。

如本文所用,术语“表达”通常指核酸序列或多核苷酸从DNA模板转录(例如转录为mRNA或其他RNA转录物)的过程和/或转录的mRNA随后被翻译成肽、多肽或蛋白质的过程。转录物和编码的多肽可统称为“基因产物”。如果多核苷酸源自基因组DNA,则表达可包括mRNA在真核细胞中的剪接。

如本文所用,“可操作地连接”、“可操作的连接”、“可操作连接的”或其语法等价物通常是指遗传元件例如启动子、增强子、聚腺苷酸化序列等的并列,其中所述元件是处于一种允许他们以预期方式运作的关系中。例如,如果调节元件有助于启动编码序列的转录,则包含启动子和/或增强子序列的调节元件与编码区可操作地连接。调节元件和编码区之间可以存在中间残基,只要维持这种功能关系。

如本文所用,“载体”通常是指包含多核苷酸或与多核苷酸缔合且可用于介导多核苷酸向细胞递送的大分子或大分子缔合。载体的示例包括质粒、病毒载体、脂质体和其他基因递送载体。载体通常包含遗传元件,例如调节元件,其与基因可操作地连接以促进基因在靶标中的表达。

如本文所用,“表达盒”和“核酸盒”可互换使用,通常是指一起表达或可操作地连接用于表达的核酸序列或元件的组合。在一些情况下,表达盒是指调节元件和它们可操作地连接用于表达的一个或多个基因的组合。

DNA或蛋白质序列的“功能片段”通常是指保留与全长DNA或蛋白质序列的生物学活性基本相似的生物学活性(功能性或结构性)的片段。DNA序列的生物学活性可以是它以已知归因于全长序列的方式影响表达的能力。

如本文所用,关于蛋白质的“工程改造的”通常是指非天然存在的蛋白质或核酸,包括但不限于源自天然存在的蛋白质的蛋白质,或其中天然存在的蛋白质已被修饰或重新编程以具有特定特性。工程改造的系统包括至少一个工程改造的组分。

如本文所用,“合成的”和“人工的”可互换使用以指与天然存在的人蛋白质具有低序列同一性(例如,小于50%的序列同一性、小于25%的序列同一性、小于10%的序列同一性,小于5%的序列同一性,小于1%的序列同一性)的蛋白质或其结构域。例如,VPR和VP64结构域是合成的反式激活结构域。

如本文所用,术语“tracrRNA”或“tracr序列”通常可以指与野生型示例性tracrRNA序列(例如,来自化脓性链球菌金黄色葡萄球菌等的tracrRNA)具有至少约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%或100%序列同一性和/或序列相似性的核酸。tracrRNA可指与野生型示例性tracrRNA序列(例如,来自化脓性链球菌金黄色葡萄球菌等的tracrRNA)具有至多约5%、10%、20%、30%、40%、50%、60%、70%、80%、90%或100%序列同一性和/或序列相似性的核酸。tracrRNA可指tracrRNA的修饰形式,其可包含核苷酸变化,例如缺失、插入或置换、变体、突变或嵌合体。tracrRNA可以指与野生型示例性tracrRNA(例如,来自化脓性链球菌金黄色葡萄球菌等的tracrRNA)序列在一段至少6个连续核苷酸上具有至少约60%同一性的核酸。例如,tracrRNA序列可以与野生型示例性tracrRNA(例如,来自化脓性链球菌金黄色葡萄球菌等的tracrRNA)序列在一段至少6个连续核苷酸上至少约60%相同、至少约65%相同、至少约70%相同、至少约75%相同、至少约80%相同、至少约85%相同、至少约90%相同、至少约95%相同、至少约98%相同、至少约99%相同或100%相同。

如本文所用,“指导核酸”通常可指可与另一核酸杂交的核酸。指导核酸可以是RNA。指导核酸可以是DNA。指导核酸可以被编程以位点特异性地结合核酸序列。待靶向的核酸或靶核酸可包含核苷酸。指导核酸可包含核苷酸。靶核酸的一部分可以与指导核酸的一部分互补。双链靶多核苷酸的与指导核酸互补并杂交的链可称为互补链。双链靶多核苷酸的与互补链互补且因此可能不与指导核酸互补的链可称为非互补链。指导核酸可以包含多核苷酸链并且可以称为“单指导核酸”。指导核酸可以包含两条多核苷酸链并且可以称为“双指导核酸”。如果没有另外说明,术语“指导核酸”可以是包含性的,指单指导核酸和双指导核酸两者。指导核酸可包含可称为“核酸靶向区段”或“核酸靶向序列”的区段。核酸靶向区段可包含可称为“蛋白质结合区段”或“蛋白质结合序列”或“Cas蛋白质结合区段”的子区段。

在两个或更多个核酸或多肽序列的上下文中,术语“序列同一性”或“同一性百分比”通常是指当在局部或全局比较窗口上进行比较和比对以获得最大对应时,如使用序列比较算法所测量,相同或具有特定百分比的相同氨基酸残基或核苷酸两个(例如,在成对比对中)或更多个(例如,在多序列比对中)序列。多肽序列的合适序列比较算法包括,例如BLASTP(使用3的字长(W)、10的期望(E)的参数和BLOSUM62评分矩阵(设置缺口罚分(存在时)为11,延伸为1)并针对长度超过30个残基的多肽序列使用条件型组成得分矩阵调整);BLASTP,其使用2的字长(W)、1000000的期望(E)的参数和PAM30评分矩阵(对于少于30个残基的序列,设置缺口罚分针对开放缺口为9,针对延伸缺口为1)(这些是可从https://blast.ncbi.nlm.nih.gov获得的BLAST套件中BLASTP的默认参数);CLUSTALW,具有的参数为;Smith-Waterman同源搜索算法,具有以下参数:匹配为2,不匹配为-1,缺口为-1;带有默认参数的MUSCLE;MAFFT,具有以下参数:重树(retree)为2,最大迭代次数为1000;具有默认参数的Novafold。如本文所用,术语“RuvC_III结构域”通常是指RuvC核酸内切酶结构域的第三个不连续区段(RuvC核酸酶结构域由三个不连续区段RuvC_I、RuvC_II和RuvC_III组成)。

概述

具有独特功能和结构的新型Cas酶的发现可能提供进一步破坏脱氧核糖核酸(DNA)编辑技术、提高速度、特异性、功能性和易用性的潜力。相对于微生物中成簇规则间隔短回文重复(CRISPR)系统的预测普遍性和微生物物种的绝对多样性,文献中存在相对较少的功能经表征的CRISPR/Cas酶。这部分是因为在实验室条件下可能不容易培养大量微生物物种。来自代表大量微生物物种的自然环境生态位的宏基因组测序有可能大幅增加已知的新CRISPR/Cas系统的数量,并加速新寡核苷酸编辑功能的发现。2016年从天然微生物群落的宏基因组分析中发现了CasX/CasY CRISPR系统,证明了这种方法的成果最近示例。

CRISPR/Cas系统是RNA指导的核酸酶复合物,已被描述为用作微生物中的适应性免疫系统。在其自然环境中,CRISPR/Cas系统出现在CRISPR(成簇规则间隔短回文重复)操纵子或基因座中,通常包括两个部分:(i)由同样短的间隔序列隔开的一系列短重复序列(30-40bp),其编码基于RNA的靶向元件;和(ii)编码Cas的ORF,其编码由基于RNA的靶向元件引导的核酸酶多肽以及辅助蛋白/酶。特定靶核酸序列的有效核酸酶靶向通常需要(i)靶(靶种子)的前6-8个核酸与crRNA指导物之间的互补杂交;以及(ii)在靶种子限定的附近内存在前间区序列邻近基序(PAM)序列(PAM通常是宿主基因组中不常见的序列)。根据系统的确切功能和组织,CRISPR-Cas系统通常根据共享的功能特征和进化相似性分为2类、5种类型和16种亚型。

I类CRISPR-Cas系统具有大的多亚单位效应物复合物,包括I、III和IV型。

就组分而言,I型CRISPR-Cas系统被认为具有中等复杂性。在I型CRISPR-Cas系统中,RNA靶向元件阵列被转录为长前体crRNA(pre-crRNA),其在重复元件处进行加工以释放短的、成熟的crRNA,当核酸靶后面是合适的称为前间区序列邻近基序(PAM)的短共有序列时crRNA可将核酸酶复合物引导至核酸靶。这种加工通过称为级联的大型核酸内切酶复合物的内切核糖核酸酶亚基(Cas6)发生,该复合物还包含crRNA引导的核酸酶复合物的蛋白质组分的核酸酶(Cas3)。CasI核酸酶主要作为DNA核酸酶起作用。

III型CRISPR系统的特征可能在于存在称为Cas10的中央核酸酶,以及包含Csm或Cmr蛋白亚基的重复相关神秘蛋白(RAMP)。与I型系统一样,成熟的crRNA是使用Cas6样酶从pre-crRNA加工而来。与I型和II型系统不同,III型系统似乎靶向并切割DNA-RNA双链体(例如用作RNA聚合酶模板的DNA链)。

IV型CRISPR-Cas系统具有效应物复合物,该复合物由以下组成:高度还原的大亚基核酸酶(csf1)、Cas5(csf3)和Cas7(csf2)组的RAMP蛋白的两个基因,在一些情况下,预测的小亚基的基因;此类系统常见于内源性质粒上。

II类CRISPR-Cas系统通常具有单多肽多结构域核酸酶效应物,并且包括II、V和VI型。

就组分而言,II型CRISPR-Cas系统被认为是最简单的。在II型CRISPR-Cas系统中,将CRISPR阵列加工成成熟的crRNA不需要存在特殊的核酸内切酶亚基,而是需要具有与阵列重复序列互补的区域的小型反式编码crRNA(tracrRNA);tracrRNA与其相应的效应物核酸酶(Cas9)和重复序列相互作用以形成前体dsRNA结构,该结构被内源性RNAse III切割以产生装载有tracrRNA和crRNA的成熟Cas9酶。Cas II核酸酶被称为DNA核酸酶。Cas9效应物具有特征结构,其由以下组成:采用RNaseH折叠的RuvC样核酸内切酶结构域和插入RuvC样核酸酶结构域的折叠内的无关HNH核酸酶结构域。RuvC样结构域负责切割靶(例如,crRNA互补)DNA链,而HNH结构域负责切割置换的DNA链。

V型CRISPR-Cas系统的特征是核酸酶效应物(Cas12)结构类似于II/Cas9型(包含RuvC样结构域)的结构。与II型相似,大多数(但不是全部)V型CRISPR系统使用tracrRNA将pre-crRNA加工成成熟的crRNA,然而,与需要RNAse III将pre-crRNA切割成多个crRNA的II型系统不同,V型系统能够使用效应物核酸酶本身(Cas12)来切割pre-crRNA。与II型CRISPR-Cas系统一样,V型CRISPR-Cas系统也被称为DNA核酸酶。与II型CRISPR-Cas系统不同,一些V型酶(例如,Cas12a)似乎具有稳健的单链非特异性脱氧核糖核酸酶活性,该活性由双链靶序列的第一crRNA定向切割激活。

VI型CRIPSR-Cas系统的独特之处在于它们似乎是迄今为止被称为RNA指导的RNA核酸内切酶的仅有类别。VI型系统(Cas13)的单个多肽效应物包含两个HEPN核糖核酸酶结构域,而不是RuvC样结构域。与II型和V型系统不同,VI型系统似乎也不需要tracrRNA来将pre-crRNA加工成crRNA。然而,与V型系统类似,一些VI型系统(例如,C2C2)似乎具有稳健的单链非特异性核酸酶(核糖核酸酶)活性,该活性由靶RNA的第一crRNA定向切割激活。

由于其更简单的架构,II类CRISPR-Cas已被最广泛地用于工程改造和开发为设计者核酸酶/基因组编辑应用。

可以在Jinek等人(Science.2012年8月17日;337(6096):816-21,通过引用将其全部并入本文)中找到这种系统在体外使用的早期改适之一。Jinek研究首先描述了以下系统,该系统涉及(i)从化脓性链球菌SF370中分离出的重组表达的、纯化的全长Cas9(例如II类、II型Cas酶),(ii)纯化的成熟的约42nt crRNA,其带有与需要切割的靶DNA序列互补的约20nt 5’序列,然后是3’tracr结合序列(整个crRNA是从携带T7启动子序列的合成DNA模板体外转录);(iii)从携带T7启动子序列的合成DNA模板体外转录的纯化的tracrRNA,和(iv)Mg2+。Jinek后来描述了一种改进的工程改造的系统,其中(ii)的crRNA通过接头(例如GAAA)连接到(iii)的5’末端,以形成能够通过自身将Cas9引导至靶的单一融合的合成指导RNA(sgRNA)(比较图2的上部和下部分图)。

Mali等人(Science.2013年2月15日;339(6121):823–826.),其通过引用完全并入本文,后来通过提供编码以下的DNA载体将该系统适用于哺乳动物中:(i)ORF,其在合适的哺乳动物启动子下编码密码子优化的Cas9(例如,II类,II型Cas酶),具有C末端核定位序列(例如,SV40 NLS)和合适的聚腺苷酸化信号(例如,TK pA信号);和(ii)ORF,其在合适的聚合酶III启动子(例如U6启动子)下编码sgRNA(具有以G开头的5’序列,随后是连接至3’tracr结合序列的20nt互补靶核酸序列、接头和tracrRNA序列)。

MG1酶

一方面,本公开提供包含(a)核酸内切酶的工程改造的核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型、II类Cas核酸内切酶。核酸内切酶可包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:45或其功能变体具有至少约70%序列同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQ ID NO:45或其功能变体中任一个具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%同一性。核酸内切酶可包含与SEQ ID NO:45或其功能变体基本上相同的RuvC_III结构域。

核酸内切酶可包含与SEQ ID NO:89或其功能变体具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可包含与SEQ ID NO:89或其功能变体至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%相同的HNH结构域。核酸内切酶可包含与SEQ ID NO:89或其功能变体基本上相同的HNH结构域。

在一些情况下,核酸内切酶可包含与SEQ ID NO:1或其功能变体具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的变体。在一些情况下,核酸内切酶可以与SEQ ID NO:1或其功能变体基本上相同。

在一些情况下,核酸内切酶可包含具有一个或多个核定位序列(NLS)的变体。NLS可以在所述核酸内切酶的N末端或C末端的近端。NLS可以被附加到SEQ ID NO:1或其功能变体的N末端或C末端,或附加到与SEQ ID NO:1具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的变体的N末端或C末端。NLS可以是SV40大T抗原NLS。NLS可以是c-mycNLS。NLS可包含与SEQ ID NO:180-195中任一个具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:180-195中任一个基本上相同的序列。NLS可以包含下表1中的任何序列,或其组合:

表1:可以与本公开的Cas效应物一起使用的示例NLS序列

在一些情况下,核酸内切酶可以是重组的(例如,通过合适的方法例如在大肠杆菌中表达然后表位标签纯化来克隆、表达和纯化)。

在一些情况下,序列同一性可由BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或Smith-Waterman同源性搜索算法确定。序列同一性可以通过BLASTP算法(其使用3的字长(W)、10的期望(E)的参数,并使用BLOSUM62评分矩阵(设置缺口(存在时)罚分为11,延伸为1)并使用条件型组成得分矩阵调整)来确定。

在一些情况下,上述系统可包含(b)至少一种工程改造的合成指导核糖核酸(sgRNA),其能够与核酸内切酶形成复合物,带有与所期望的切割序列互补的5’靶向区域。在一些情况下,5’靶向区域可包含与核酸内切酶兼容的PAM序列。在一些情况下,靶向区域的最5’核苷酸可以是G。在一些情况下,5’靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为分开的核糖核酸(RNA)或单个核糖核酸(RNA)提供。指导RNA可包含靶向区域3’的crRNA tracrRNA结合序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区3’的4-核苷酸接头。sgRNA可以包含,从5’到3’:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。

在一些情况下,tracr序列可以具有特定的序列。tracr序列可具有天然tracrRNA序列的至少约80%至至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸。

在一些情况下,上述系统可包含两种不同的sgRNA或指导RNA,它们靶向第一区域和第二区域以在靶DNA基因座中切割,其中第二区域位于第一区域的3’。在一些情况下,上述系统可包含单链或双链DNA修复模板,其从5’到3’包含:第一同源臂(其包含第一区域5’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列),至少约10个核苷酸的合成DNA序列,和第二同源臂(其包含第二区域3’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列)。

另一方面,本公开提供了一种修饰靶核酸基因座的方法。所述方法可以包括将本文公开的任何非天然系统(包括本文公开的酶和至少一种合成的指导RNA(sgRNA))递送至靶核酸基因座。酶可与至少一种sgRNA形成复合物,并且在复合物与靶核酸基因座结合后,可修饰靶核酸基因座。将酶递送至所述基因座可包括用所述系统或编码所述系统的核酸转染细胞。将核酸酶递送至所述基因座可包括用所述系统或编码该系统的核酸电穿孔细胞。将核酸酶递送至所述基因座可以包括将系统在缓冲液中与包含目的基因座的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以在细胞内。靶核酸基因座可以在体外。靶核酸基因座可以在真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古细菌细胞或植物细胞。所述酶可以在目的靶基因座处或近端诱导单链或双链断裂。

在靶核酸基因座可以在细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,所述RuvC_III结构域与SEQ ID NO:1或其功能变体具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。在一些情况下,核酸包含启动子,编码核酸内切酶的开放阅读框可操作地连接至所述启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为包含编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程改造的sgRNA可以作为脱氧核糖核酸(DNA)提供,所述脱氧核糖核酸(DNA)包含对与核糖核酸(RNA)pol III启动子可操作地连接的所述至少一种工程改造的sgRNA进行编码的基因序列。在一些情况下,生物体可以是真核生物。在一些情况下,生物体可以是真菌。在一些情况下,生物体可以是人。

在一些情况下,本公开可提供包含本文公开的系统或本文所述的核酸的表达盒。在一些情况下,表达盒或核酸可以作为载体提供。在一些情况下,可以在细胞中提供表达盒、核酸或载体。

MG2酶

一方面,本公开提供包含(a)核酸内切酶的工程改造的核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型、II类Cas核酸内切酶。核酸内切酶可包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:46或其功能变体具有至少约70%序列同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQ ID NO:46或其功能变体具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQID NO:46基本上相同。

核酸内切酶可包含与SEQ ID NO:90或其功能变体具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可包含与SEQ ID NO:90或其功能变体至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%相同的HNH结构域。核酸内切酶可包含与SEQ ID NO:90或其功能变体基本上相同的HNH结构域。

在一些情况下,核酸内切酶可包含与SEQ ID NO:2或其功能变体具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的变体。在一些情况下,核酸内切酶可以与SEQ ID NO:2或其功能变体基本上相同。

在一些情况下,核酸内切酶可包含具有一个或多个核定位序列(NLS)的变体。NLS可以在所述核酸内切酶的N末端或C末端的近端。NLS可以被附加到SEQ ID NO:2的N末端或C末端或与SEQ ID NO:2具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的功能变体的N末端或C末端。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可包含与SEQ ID NO:180-195中任一个或其功能变体具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:180-195中任一个或其功能变体基本上相同的序列。NLS可以包含表1中的任何序列,或其组合:

在一些情况下,序列同一性可由BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或Smith-Waterman同源性搜索算法确定。序列同一性可以通过BLASTP算法(其使用3的字长(W)、10的期望(E)的参数,并使用BLOSUM62评分矩阵(设置缺口(存在时)罚分为11,延伸为1)并使用条件型组成得分矩阵调整)来确定。

在一些情况下,上述系统可包含(b)至少一种工程改造的合成指导核糖核酸(sgRNA),其能够与核酸内切酶形成复合物,带有与所期望的切割序列互补的5’靶向区域。在一些情况下,5’靶向区域可包含与核酸内切酶兼容的PAM序列。在一些情况下,靶向区域的最5’核苷酸可以是G。在一些情况下,5’靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为分开的核糖核酸(RNA)或单个核糖核酸(RNA)提供。指导RNA可包含靶向区域3’的crRNA tracrRNA结合序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区3’的4-核苷酸接头。sgRNA可以包含,从5’到3’:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。

在一些情况下,tracr序列可以具有特定的序列。tracr序列可具有天然tracrRNA序列的至少约80%至至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸。tracr序列可与SEQ ID NO:138或其功能变体的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85个或至少约90)个连续核苷酸具有至少约80%序列同一性。在一些情况下,tracrRNA可以与SEQ IDNO:138或其功能变体的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本上相同。tracrRNA可包含SEQ ID NO:138。

在一些情况下,能够与核酸内切酶形成复合物的至少一种工程改造的合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:133或其功能变体具有至少约80%同一性的序列。sgRNA可包含与SEQ ID NO:133或其功能变体具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:133或其功能变体基本上相同的序列。

在一些情况下,上述系统可包含两种不同的sgRNA,它们靶向第一区域和第二区域以在靶DNA基因座中切割,其中第二区域位于第一区域的3’。在一些情况下,上述系统可包含单链或双链DNA修复模板,其从5’到3’包含:第一同源臂(其包含第一区域5’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列),至少约10个核苷酸的合成DNA序列,和第二同源臂(其包含第二区域3’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列)。

另一方面,本公开提供了一种修饰目的靶核酸基因座的方法。所述方法可以包括将本文公开的任何非天然系统(包括本文公开的酶和至少一种合成的指导RNA(sgRNA))递送至靶核酸基因座。酶可与至少一种sgRNA形成复合物,并且在复合物与目的靶核酸基因座结合后,可修饰目的靶核酸基因座。将酶递送至所述基因座可包括用所述系统或编码所述系统的核酸转染细胞。将核酸酶递送至所述基因座可包括用所述系统或编码该系统的核酸电穿孔细胞。将核酸酶递送至所述基因座可以包括将系统在缓冲液中与包含目的基因座的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以在细胞内。靶核酸基因座可以在体外。靶核酸基因座可以在真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古细菌细胞或植物细胞。所述酶可以在目的靶基因座处或近端诱导单链或双链断裂。

在靶核酸基因座可以在细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,所述RuvC_III结构域与SEQ ID NO:46或其功能变体具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。在一些情况下,核酸包含启动子,编码核酸内切酶的开放阅读框可操作地连接至所述启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为包含编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程改造的sgRNA可以作为脱氧核糖核酸(DNA)提供,所述脱氧核糖核酸(DNA)包含对与核糖核酸(RNA)pol III启动子可操作地连接的所述至少一种工程改造的sgRNA进行编码的基因序列。在一些情况下,生物体可以是真核生物。在一些情况下,生物体可以是真菌。在一些情况下,生物体可以是人。

MG4酶

一方面,本公开提供包含(a)核酸内切酶的工程改造的核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型、II类Cas核酸内切酶。核酸内切酶可包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:48-71中任一个或其功能变体具有至少约70%序列同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQ ID NO:48-71中任一个或其功能变体具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQ ID NO:48-71中任一个或其功能变体基本上相同。

核酸内切酶可以包含与SEQ ID NO:92-115中任一个或其功能变体具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可包含与SEQ ID NO:92-115中任一个或其功能变体至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:92-115中任一个或其功能变体基本上相同的HNH结构域。

在一些情况下,核酸内切酶可包含与SEQ ID NO:4-27中任一个或其功能变体具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的变体。在一些情况下,核酸内切酶可以与SEQ ID NO:4-27中任一个或其功能变体基本上相同。

在一些情况下,核酸内切酶可包含具有一个或多个核定位序列(NLS)的变体。NLS可以在所述核酸内切酶的N末端或C末端的近端。NLS可以被附加到SEQ ID NO:4-27中任一个的N末端或C末端或与SEQ ID NO:4-27中任一个具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的功能变体的N末端或C末端。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可包含与SEQ ID NO:180-195中任一个或其功能变体具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ IDNO:180-195中任一个或其功能变体基本上相同的序列。NLS可以包含表1中的任何序列,或其组合。

在一些情况下,序列同一性可由BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或Smith-Waterman同源性搜索算法确定。序列同一性可以通过BLASTP算法(其使用3的字长(W)、10的期望(E)的参数,并使用BLOSUM62评分矩阵(设置缺口(存在时)罚分为11,延伸为1)并使用条件型组成得分矩阵调整)来确定。

在一些情况下,上述系统可包含(b)至少一种工程改造的合成指导核糖核酸(sgRNA),其能够与核酸内切酶形成复合物,带有与所期望的切割序列互补的5’靶向区域。在一些情况下,5’靶向区域可包含与核酸内切酶兼容的PAM序列。在一些情况下,靶向区域的最5’核苷酸可以是G。在一些情况下,5’靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为分开的核糖核酸(RNA)或单个核糖核酸(RNA)提供。指导RNA可包含靶向区域3’的crRNA tracrRNA结合序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区3’的4-核苷酸接头。sgRNA可以包含,从5’到3’:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。

在一些情况下,tracr序列可以具有特定的序列。tracr序列可具有天然tracrRNA序列的至少约80%至至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸。tracr序列可与SEQ ID NO:139-143中任一个或其功能变体的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85个或至少约90)个连续核苷酸具有至少约80%序列同一性。在一些情况下,tracrRNA可以与SEQ ID NO:139-143中任一个或其功能变体的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本相同。tracrRNA可以包含SEQ ID NO:139-143中任一个。

在一些情况下,能够与核酸内切酶形成复合物的至少一种工程改造的合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:134或其功能变体具有至少约80%同一性的序列。sgRNA可包含与SEQ ID NO:134或其功能变体具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:134或其功能变体基本上相同的序列。

在一些情况下,上述系统可包含两种不同的sgRNA或指导RNA,它们靶向第一区域和第二区域以在靶DNA基因座中切割,其中第二区域位于第一区域的3’。在一些情况下,上述系统可包含单链或双链DNA修复模板,其从5’到3’包含:第一同源臂(其包含第一区域5’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列),至少约10个核苷酸的合成DNA序列,和第二同源臂(其包含第二区域3’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列)。

另一方面,本公开提供了一种修饰目的靶核酸基因座的方法。所述方法可以包括将本文公开的任何非天然系统(包括本文公开的酶和至少一种合成的指导RNA(sgRNA))递送至靶核酸基因座。酶可与至少一种sgRNA形成复合物,并且在复合物与目的靶核酸基因座结合后,可修饰目的靶核酸基因座。将酶递送至所述基因座可包括用所述系统或编码所述系统的核酸转染细胞。将核酸酶递送至所述基因座可包括用所述系统或编码该系统的核酸电穿孔细胞。将核酸酶递送至所述基因座可以包括将系统在缓冲液中与包含目的基因座的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以在细胞内。靶核酸基因座可以在体外。靶核酸基因座可以在真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古细菌细胞或植物细胞。所述酶可以在目的靶基因座处或近端诱导单链或双链断裂。

在靶核酸基因座可以在细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,所述RuvC_III结构域与SEQ ID NO:48-71中任一个或其功能变体具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。在一些情况下,核酸包含启动子,编码核酸内切酶的开放阅读框可操作地连接至所述启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为包含编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程改造的sgRNA可以作为脱氧核糖核酸(DNA)提供,所述脱氧核糖核酸(DNA)包含对与核糖核酸(RNA)pol III启动子可操作地连接的所述至少一种工程改造的sgRNA进行编码的基因序列。在一些情况下,生物体可以是真核生物。在一些情况下,生物体可以是真菌。在一些情况下,生物体可以是人。

MG6酶

一方面,本公开提供包含(a)核酸内切酶的工程改造的核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型、II类Cas核酸内切酶。核酸内切酶可包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:72-83或246-253中任一个或其功能变体具有至少约70%序列同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQ ID NO:72-83或246-253中任一个或其功能变体具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQ ID NO:72-83或246-253中任一个或其功能变体基本相同。

核酸内切酶可以包含与SEQ ID NO:116-127或263-270中任一个或其功能变体具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可包含与SEQ ID NO:116-127或263-270中任一个或其功能变体至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%相同的HNH结构域。核酸内切酶可以包含与SEQ IDNO:116-127或263-270中任一个或其功能变体基本上相同的HNH结构域。

在一些情况下,核酸内切酶可包含与SEQ ID NO:28-39或229-236中任一个或其功能变体具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的变体。在一些情况下,核酸内切酶可以与SEQ ID NO:28-39或229-236中任一个或其功能变体基本上相同。

在一些情况下,核酸内切酶可包含具有一个或多个核定位序列(NLS)的变体。NLS可以在所述核酸内切酶的N末端或C末端的近端。NLS可以被附加到SEQ ID NO:28-39或229-236中任一个的N末端或C末端或与SEQ ID NO:28-39或229-236中任一个具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的功能变体的N末端或C末端。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可包含与SEQ ID NO:180-195中任一个或其功能变体具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:180-195中任一个或其功能变体基本上相同的序列。NLS可以包含表1中的任何序列,或其组合。

在一些情况下,序列同一性可由BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或Smith-Waterman同源性搜索算法确定。序列同一性可以通过BLASTP算法(其使用3的字长(W)、10的期望(E)的参数,并使用BLOSUM62评分矩阵(设置缺口(存在时)罚分为11,延伸为1)并使用条件型组成得分矩阵调整)来确定。

在一些情况下,上述系统可包含(b)至少一种工程改造的合成指导核糖核酸(sgRNA),其能够与核酸内切酶形成复合物,带有与所期望的切割序列互补的5’靶向区域。在一些情况下,5’靶向区域可包含与核酸内切酶兼容的PAM序列。在一些情况下,靶向区域的最5’核苷酸可以是G。在一些情况下,5’靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为分开的核糖核酸(RNA)或单个核糖核酸(RNA)提供。指导RNA可包含靶向区域3’的crRNA tracrRNA结合序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区3’的4-核苷酸接头。sgRNA可以包含,从5’到3’:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。

在一些情况下,tracr序列可以具有特定的序列。tracr序列可具有天然tracrRNA序列的至少约80%至至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸。tracr序列可与SEQ ID NO:144-146中任一个或其功能变体的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85个或至少约90)个连续核苷酸具有至少约80%序列同一性。在一些情况下,tracrRNA可以与SEQ ID NO:144-146中任一个或其功能变体的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本相同。tracrRNA可以包含SEQ ID NO:144-146中任一个。

在一些情况下,能够与核酸内切酶形成复合物的至少一种工程改造的合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:135或其功能变体具有至少约80%同一性的序列。sgRNA可包含与SEQ ID NO:135或其功能变体具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:135或其功能变体基本上相同的序列。

在一些情况下,上述系统可包含两种不同的sgRNA或指导RNA,它们靶向第一区域和第二区域以在靶DNA基因座中切割,其中第二区域位于第一区域的3’。在一些情况下,上述系统可包含单链或双链DNA修复模板,其从5’到3’包含:第一同源臂(其包含第一区域5’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列),至少约10个核苷酸的合成DNA序列,和第二同源臂(其包含第二区域3’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列)。

另一方面,本公开提供了一种修饰目的靶核酸基因座的方法。所述方法可以包括将本文公开的任何非天然系统(包括本文公开的酶和至少一种合成的指导RNA(sgRNA))递送至靶核酸基因座。酶可与至少一种sgRNA形成复合物,并且在复合物与目的靶核酸基因座结合后,可修饰目的靶核酸基因座。将酶递送至所述基因座可包括用所述系统或编码所述系统的核酸转染细胞。将核酸酶递送至所述基因座可包括用所述系统或编码该系统的核酸电穿孔细胞。将核酸酶递送至所述基因座可以包括将系统在缓冲液中与包含目的基因座的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以在细胞内。靶核酸基因座可以在体外。靶核酸基因座可以在真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古细菌细胞或植物细胞。所述酶可以在目的靶基因座处或近端诱导单链或双链断裂。

在靶核酸基因座可以在细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,所述RuvC_III结构域与SEQ ID NO:72-83或246-253中任一个或其功能变体具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。在一些情况下,核酸包含启动子,编码核酸内切酶的开放阅读框可操作地连接至所述启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为包含编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程改造的sgRNA可以作为脱氧核糖核酸(DNA)提供,所述脱氧核糖核酸(DNA)包含对与核糖核酸(RNA)pol III启动子可操作地连接的所述至少一种工程改造的sgRNA进行编码的基因序列。在一些情况下,生物体可以是真核生物。在一些情况下,生物体可以是真菌。在一些情况下,生物体可以是人。

MG7酶

一方面,本公开提供包含(a)核酸内切酶的工程改造的核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型、II类Cas核酸内切酶。核酸内切酶可包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:84-86或254-262中任一个或其功能变体具有至少约70%序列同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQ ID NO:84-86或254-262中任一个或其功能变体具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQ ID NO:84-86或254-262中任一个或其功能变体基本相同。

核酸内切酶可以包含与SEQ ID NO:128-130或271-279中任一个或其功能变体具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可包含与SEQ ID NO:128-130或271-279中任一个或其功能变体至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%相同的HNH结构域。核酸内切酶可以包含与SEQ IDNO:128-130或271-279中任一个或其功能变体基本上相同的HNH结构域。

在一些情况下,核酸内切酶可包含与SEQ ID NO:40-42或237-245中任一个或其功能变体具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的变体。在一些情况下,核酸内切酶可以与SEQ ID NO:40-42或237-245中任一个或其功能变体基本上相同。

在一些情况下,核酸内切酶可包含具有一个或多个核定位序列(NLS)的变体。NLS可以在所述核酸内切酶的N末端或C末端的近端。NLS可以被附加到SEQ ID NO:40-42或237-245中任一个的N末端或C末端或与SEQ ID NO:40-42或237-245中任一个具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的功能变体的N末端或C末端。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可包含与SEQ ID NO:180-195中任一个或其功能变体具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ ID NO:180-195中任一个或其功能变体基本上相同的序列。NLS可以包含表1中的任何序列,或其组合。

在一些情况下,序列同一性可由BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或Smith-Waterman同源性搜索算法确定。序列同一性可以通过BLASTP算法(其使用3的字长(W)、10的期望(E)的参数,并使用BLOSUM62评分矩阵(设置缺口(存在时)罚分为11,延伸为1)并使用条件型组成得分矩阵调整)来确定。

在一些情况下,上述系统可包含(b)至少一种工程改造的合成指导核糖核酸(sgRNA),其能够与核酸内切酶形成复合物,带有与所期望的切割序列互补的5’靶向区域。在一些情况下,5’靶向区域可包含与核酸内切酶兼容的PAM序列。在一些情况下,靶向区域的最5’核苷酸可以是G。在一些情况下,5’靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为分开的核糖核酸(RNA)或单个核糖核酸(RNA)提供。指导RNA可包含靶向区域3’的crRNA tracrRNA结合序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区3’的4-核苷酸接头。sgRNA可以包含,从5’到3’:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。

在一些情况下,tracr序列可以具有特定的序列。tracr序列可具有天然tracrRNA序列的至少约80%至至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸。tracr序列可与SEQ ID NO:147或280中任一个或其功能变体的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85个或至少约90)个连续核苷酸具有至少约80%序列同一性。在一些情况下,tracrRNA可以与SEQ ID NO:147或280中任一个或其功能变体的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本相同。tracrRNA可以包含SEQ ID NO:147或280中任一个。

在一些情况下,能够与核酸内切酶形成复合物的至少一种工程改造的合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:136或其功能变体具有至少约80%同一性的序列。sgRNA可包含与SEQ ID NO:136或其功能变体具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:136或其功能变体基本上相同的序列。

在一些情况下,上述系统可包含两种不同的sgRNA或指导RNA,它们靶向第一区域和第二区域以在靶DNA基因座中切割,其中第二区域位于第一区域的3’。在一些情况下,上述系统可包含单链或双链DNA修复模板,其从5’到3’包含:第一同源臂(其包含第一区域5’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列),至少约10个核苷酸的合成DNA序列,和第二同源臂(其包含第二区域3’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列)。

另一方面,本公开提供了一种修饰目的靶核酸基因座的方法。所述方法可以包括将本文公开的任何非天然系统(包括本文公开的酶和至少一种合成的指导RNA(sgRNA))递送至靶核酸基因座。酶可与至少一种sgRNA形成复合物,并且在复合物与目的靶核酸基因座结合后,可修饰目的靶核酸基因座。将酶递送至所述基因座可包括用所述系统或编码所述系统的核酸转染细胞。将核酸酶递送至所述基因座可包括用所述系统或编码该系统的核酸电穿孔细胞。将核酸酶递送至所述基因座可以包括将系统在缓冲液中与包含目的基因座的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以在细胞内。靶核酸基因座可以在体外。靶核酸基因座可以在真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古细菌细胞或植物细胞。所述酶可以在目的靶基因座处或近端诱导单链或双链断裂。

在靶核酸基因座可以在细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,所述RuvC_III结构域与SEQ ID NO:84-86或254-262中任一个或其功能变体具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。在一些情况下,核酸包含启动子,编码核酸内切酶的开放阅读框可操作地连接至所述启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为包含编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程改造的sgRNA可以作为脱氧核糖核酸(DNA)提供,所述脱氧核糖核酸(DNA)包含对与核糖核酸(RNA)pol III启动子可操作地连接的所述至少一种工程改造的sgRNA进行编码的基因序列。在一些情况下,生物体可以是真核生物。在一些情况下,生物体可以是真菌。在一些情况下,生物体可以是人。

MG16酶

一方面,本公开提供包含(a)核酸内切酶的工程改造的核酸酶系统。在一些情况下,核酸内切酶是Cas核酸内切酶。在一些情况下,核酸内切酶是II型、II类Cas核酸内切酶。核酸内切酶可包含RuvC_III结构域,其中所述RuvC_III结构域与SEQ ID NO:87-88中任一个或其功能变体具有至少约70%序列同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQ ID NO:87-88中任一个或其功能变体具有至少约20%、至少约25%、至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%同一性。在一些情况下,核酸内切酶可包含RuvC_III结构域,其中该RuvC_III结构域与SEQ ID NO:87-88中任一个或其功能变体基本上相同。

核酸内切酶可以包含与SEQ ID NO:131-132中任一个或其功能变体具有至少约70%同一性的HNH结构域。在一些情况下,核酸内切酶可包含与SEQ ID NO:131-132中任一个或其功能变体至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%相同的HNH结构域。核酸内切酶可以包含与SEQ ID NO:131-132中任一个或其功能变体基本上相同的HNH结构域。

在一些情况下,核酸内切酶可包含与SEQ ID NO:43-44中任一个或其功能变体具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的变体。在一些情况下,核酸内切酶可以与SEQ ID NO:43-44中任一个或其功能变体基本上相同。

在一些情况下,核酸内切酶可包含具有一个或多个核定位序列(NLS)的变体。NLS可以在所述核酸内切酶的N末端或C末端的近端。NLS可以被附加到SEQ ID NO:43-44中任一个的N末端或C末端或与SEQ ID NO:43-44中任一个具有至少约30%、至少约35%、至少约40%、至少约45%、至少约50%、至少约55%、至少约60%、至少约65%、至少约70%、至少约75%、至少约80%、至少约85%、至少约90%、至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的功能变体的N末端或C末端。NLS可以是SV40大T抗原NLS。NLS可以是c-myc NLS。NLS可包含与SEQ ID NO:180-195中任一个或其功能变体具有至少约80%、至少约85%、至少约90%、至少约95%、至少约99%同一性的序列。NLS可以包含与SEQ IDNO:180-195中任一个或其功能变体基本上相同的序列。NLS可以包含表1中的任何序列,或其组合。

在一些情况下,序列同一性可由BLASTP、CLUSTALW、MUSCLE、MAFFT、Novafold或Smith-Waterman同源性搜索算法确定。序列同一性可以通过BLASTP算法(其使用3的字长(W)、10的期望(E)的参数,并使用BLOSUM62评分矩阵(设置缺口(存在时)罚分为11,延伸为1)并使用条件型组成得分矩阵调整)来确定。

在一些情况下,上述系统可包含(b)至少一种工程改造的合成指导核糖核酸(sgRNA),其能够与核酸内切酶形成复合物,带有与所期望的切割序列互补的5’靶向区域。在一些情况下,5’靶向区域可包含与核酸内切酶兼容的PAM序列。在一些情况下,靶向区域的最5’核苷酸可以是G。在一些情况下,5’靶向区域的长度可以是15-23个核苷酸。指导序列和tracr序列可以作为分开的核糖核酸(RNA)或单个核糖核酸(RNA)提供。指导RNA可包含靶向区域3’的crRNA tracrRNA结合序列。指导RNA可以包含tracrRNA序列,其前面是crRNAtracrRNA结合区3’的4-核苷酸接头。sgRNA可以包含,从5’到3’:能够与细胞中的靶序列杂交的非天然指导核酸序列;和tracr序列。在一些情况下,非天然指导核酸序列和tracr序列共价连接。

在一些情况下,tracr序列可以具有特定的序列。tracr序列可具有天然tracrRNA序列的至少约80%至至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸。tracr序列可与SEQ ID NO:148或其功能变体的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85个或至少约90)个连续核苷酸具有至少约80%序列同一性。在一些情况下,tracrRNA可以与SEQ IDNO:148或其功能变体的至少约60-100(例如,至少约60、至少约65、至少约70、至少约75、至少约80、至少约85或至少约90)个连续核苷酸基本相同。tracrRNA可包含SEQ ID NO:148。

在一些情况下,能够与核酸内切酶形成复合物的至少一种工程改造的合成指导核糖核酸(sgRNA)可以包含与SEQ ID NO:137或其功能变体具有至少约80%同一性的序列。sgRNA可包含与SEQ ID NO:137或其功能变体具有至少约80%、至少约85%、至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约至少约95%、至少约96%、至少约97%、至少约98%或至少约99%同一性的序列。sgRNA可以包含与SEQ ID NO:137或其功能变体基本上相同的序列。

在一些情况下,上述系统可包含两种不同的sgRNA或指导RNA,它们靶向第一区域和第二区域以在靶DNA基因座中切割,其中第二区域位于第一区域的3’。在一些情况下,上述系统可包含单链或双链DNA修复模板,其从5’到3’包含:第一同源臂(其包含第一区域5’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列),至少约10个核苷酸的合成DNA序列,和第二同源臂(其包含第二区域3’的至少约20(例如,至少约40、80、120、150、200、300、500或1kb)个核苷酸的序列)。

另一方面,本公开提供了一种修饰目的靶核酸基因座的方法。所述方法可以包括将本文公开的任何非天然系统(包括本文公开的酶和至少一种合成的指导RNA(sgRNA))递送至靶核酸基因座。酶可与至少一种sgRNA形成复合物,并且在复合物与目的靶核酸基因座结合后,可修饰目的靶核酸基因座。将酶递送至所述基因座可包括用所述系统或编码所述系统的核酸转染细胞。将核酸酶递送至所述基因座可包括用所述系统或编码该系统的核酸电穿孔细胞。将核酸酶递送至所述基因座可以包括将系统在缓冲液中与包含目的基因座的核酸一起孵育。在一些情况下,靶核酸基因座包含脱氧核糖核酸(DNA)或核糖核酸(RNA)。靶核酸基因座可包含基因组DNA、病毒DNA、病毒RNA或细菌DNA。靶核酸基因座可以在细胞内。靶核酸基因座可以在体外。靶核酸基因座可以在真核细胞或原核细胞内。细胞可以是动物细胞、人细胞、细菌细胞、古细菌细胞或植物细胞。所述酶可以在目的靶基因座处或近端诱导单链或双链断裂。

在靶核酸基因座可以在细胞内的情况下,酶可以作为含有编码具有RuvC_III结构域的酶的开放阅读框的核酸提供,所述RuvC_III结构域与SEQ ID NO:87-88中任一个或其功能变体具有至少约75%(例如,至少约90%、至少约91%、至少约92%、至少约93%、至少约94%、至少约95%、至少约96%、至少约97%、至少约98%、至少约99%)同一性。在一些情况下,核酸包含启动子,编码核酸内切酶的开放阅读框可操作地连接至所述启动子。启动子可以是CMV、EF1a、SV40、PGK1、Ubc、人β肌动蛋白、CAG、TRE或CaMKIIa启动子。核酸内切酶可以作为包含编码所述核酸内切酶的所述开放阅读框的加帽mRNA提供。核酸内切酶可以作为翻译的多肽提供。至少一种工程改造的sgRNA可以作为脱氧核糖核酸(DNA)提供,所述脱氧核糖核酸(DNA)包含对与核糖核酸(RNA)pol III启动子可操作地连接的所述至少一种工程改造的sgRNA进行编码的基因序列。在一些情况下,生物体可以是真核生物。在一些情况下,生物体可以是真菌。在一些情况下,生物体可以是人。

实施例

实施例1.–新蛋白质的宏基因组分析

从沉积物和土壤中收集宏基因组样品。使用Zymobiomics DNA微量制备型试剂盒提取脱氧核糖核酸(DNA),并在Illumina2500上测序。在采集样本的情况下,在征得业主同意的情况下采集。隐马尔可夫模型是基于已知的Cas蛋白序列(包括II型Cas效应物蛋白)生成的,这些模型用于搜索宏基因组数据。通过与已知蛋白质的比对,进一步针对预测活性筛选通过搜索鉴定的新颖效应物蛋白。这种宏基因组工作流程产生了本文所述的II类、II型CRISPR核酸内切酶的MG1、MG2、MG4、MG6、MG7和MG16家族。

实施例2.–发现CRISPR系统的MG6家族

对来自实施例1的宏基因组分析的数据的分析揭示了先前未描述的推定CRISPR系统的新簇,所述系统包括六个成员(MG6-1、MG6-2、MG6-3、MG6-4、MG6-5和MG6-6)。系统的这个新家族的操纵子结构如图3所示。这些新酶及其相关子结构域的相应蛋白质和核酸序列在随附的序列表中提供。基于它们相对于其他基因的位置,在操纵子中鉴定了推定的tracrRNA序列,并在随附的序列表中提供。Shmakov等人(Mol Cell.2015年11月5日;60(3):385-97.)(其全部内容通过引用并入)所述的这些序列与Cas9的详细结构域级比对在图4A-4C中描绘。MG6-1到MG6-6的详细结构域级比对显示在图5A-5K中。

对数据集中MG6-1、MG6-2、MG6-3、MG6-4、MG6-5和MG6-6的另外比较揭示了具有相似结构的另外蛋白质序列,呈现为SEQ NO:34-39。

实施例3.–预示性——确定前间区序列邻近基序。

实验按照Karvelis等人Methods.2017年5月15日;121-122:3-8(其全部内容通过引用并入于此)的任何实施例进行,以鉴定本文描述的新颖酶的前间区序列邻近基序(PAM)序列特异性,以允许最佳合成序列靶向。

在一个实施例中(体内筛选),携带编码本文所述的任何酶和前间区序列靶向指导RNA的质粒的细胞用含有抗生素抗性基因和侧接随机化PAM序列的前间区序列的质粒文库共转化。含有功能性PAM的质粒被酶切割,导致细胞死亡。从存活细胞中分离出的抗酶切质粒池的深度测序显示了一组耗减的质粒,这些质粒含有功能性的允许切割的PAM。

在另一个实施例(体外筛选)中,DNA质粒或串联重复形式的PAM文库受到体外或细胞裂解物内组装的RNP复合物(例如包括酶、tracrRNA和crRNA或酶和杂合sgRNA)的切割。由成功切割事件产生的游离DNA末端由衔接子连接捕获,然后对PAM侧产物进行PCR扩增。对扩增的功能性PAM文库进行深度测序,并鉴定许可DNA切割的PAM。

实施例4.–预示性——如本文所述的合成CRISPR系统在哺乳动物细胞中用于基因组编辑的用途

制备了DNA/RNA序列,其编码(i)ORF,其在细胞相容性启动子下编码密码子优化的酶,具有细胞相容性C端核定位序列(例如人细胞中的SV40 NLS)和合适的聚腺苷酸化信号(例如在人细胞的情况下TK pA信号);和(ii)ORF,其在合适的聚合酶III启动子(例如哺乳动物细胞中的U6启动子)下编码sgRNA(具有以G开头的5’序列,随后是靶向基因组DNA的20nt互补靶向核酸序列,随后是通过实施例3鉴定的相应兼容PAM和3’tracr结合序列、接头和tracrRNA序列)。在一些实施方案中,这些序列在相同或不同的质粒载体上制备,通过合适的技术将质粒载体转染到真核细胞中。在一些实施方案中,这些序列被制备为分开的DNA序列,其被转染或显微注射到细胞中。在一些实施方案中,这些序列被制备为合成的RNA或体外转录的RNA,其被转染或显微注射到细胞中。在一些实施方案中,这些序列被翻译成蛋白质并被转染或显微注射到细胞中。

无论选择哪种转染方法,(i)和(ii)被引入细胞。允许经过一段时间的孵育,以便酶和/或sgRNA可以转录和/或翻译成活性形式。孵育期后,分析(例如,通过测序)靶向序列附近的基因组DNA。作为酶介导的切割和非同源末端连接的结果,插入缺失标记被引入到靶向序列附近的基因组DNA中。

在一些实施方案中,(i)和(ii)被引入具有第三修复核苷酸的细胞中,所述第三修复核苷酸编码位于切割位点侧翼的大小为25bp或更大的基因组区域,这将促进同源定向修复。包含在这些侧翼序列中的可能是单个碱基对突变、功能基因片段、用于表达的外源或天然基因,或组成生化途径的几个基因。

实施例5.–预示性——如本文所述的合成CRISPR系统的体外用途

将本文所述的任何酶克隆到含有纯化标签的合适的大肠杆菌表达质粒中,并在大肠杆菌中重组表达并使用重组标签进行纯化。通过合适的固相RNA合成方法合成RNA,所述RNA包含5’G后跟20nt靶向序列和PAM序列、兼容crRNA的tracrRNA结合区、GAAA接头和兼容的tracrRNA。重组酶和sgRNA在含有Mg2+(例如,20mM HEPES pH 7.5、100mM KCl、5mMMgCl2、1mM TCEPDTT、5%甘油)的合适裂解缓冲液中混合,反应通过引入包括与靶向序列和PAM序列互补的序列的靶DNA开始。DNA的切割通过合适的测定(例如,琼脂糖凝胶电泳,然后是溴化乙锭(或类似作用的DNA嵌入剂)染色和UV可视化)进行监测。

实施例6.–(通用方案)本文描述的核酸内切酶的PAM序列鉴定/确认

PAM序列是通过测序质粒来确定的,所述质粒包含随机生成的PAM序列,这些序列可以被在基于大肠杆菌裂解物的表达系统(myTXTL,Arbor Biosciences)中表达的推定核酸内切酶切割。在该系统中,大肠杆菌密码子优化的核苷酸序列在T7启动子的控制下从PCR片段转录和翻译。在同一反应中转录具有T7启动子下的tracr序列和由T7启动子后跟重复-间隔子-重复序列组成的最小CRISPR阵列的第二PCR片段。在TXTL系统中成功表达核酸内切酶和tracr序列,然后进行CRISPR阵列处理,提供了活性体外CRISPR核酸酶复合物。

包含与最小阵列中的间隔子序列匹配的间隔子序列随后是8N混合碱基(推定的PAM序列)的靶质粒的文库与TXTL反应的输出一起孵育。1-3小时后,停止反应并通过DNA净化试剂盒(例如Zymo DCC、AMPure XP珠、QiaQuick等)回收DNA。将衔接子序列平端连接到具有已经被核酸内切酶切割的活性PAM序列的DNA上,而未切割的DNA无法连接。然后用对文库和衔接子序列特异的引物通过PCR扩增包含活性PAM序列的DNA片段。PCR扩增产物在凝胶上解析以鉴定与切割事件对应的扩增子。切割反应的扩增区段也被用作制备NGS文库的模板。对这个生成的文库(其是起始8N文库的一个子集)进行测序揭示了包含针对活性CRISPR复合物的正确PAM的序列。对于使用单个RNA构建体的PAM测试,重复相同的程序,不同之处在于将体外转录的RNA与质粒文库一起添加,并省略了tracr/最小CRISPR阵列模板。对于制备NGS文库情况下的核酸内切酶,seqLogo(参见例如Huber等人Nat Methods.2015年2月;12(2):115-21)表示被构建并显示在图17、18和19中。用于构建这些表示的seqLogo模块采用DNA序列基序(例如PAM序列)的位置权重矩阵,并绘制由Schneider和Stephens(参见例如Schneider等人Nucleic Acids Res.1990年10月25日;18(20):6097-100)引入的相应序列标志。在seqLogo表示中表示序列的字符已针对比对序列(例如PAM序列)中的每个位置堆叠在彼此的顶部。每个字母的高度与其出现的频率成正比,并且字母已经被分选,所以最常见的在最上面。

实施例7.–(通用方案)tracrRNA和sgRNA结构的RNA折叠

使用Andronescu等人Bioinformatics.2007年7月1日;23(13):i19-28(其全部内容通过引用并入)的方法计算了37℃下指导RNA序列的折叠结构。本文所述的示例性sgRNA的预测结构如图15和16所示。

实施例8.–(通用方案)MG CRISPR复合物的体外切割效率

在蛋白酶缺陷型大肠杆菌B菌株中,核酸内切酶从可诱导T7启动子表达为带有His标签的融合蛋白。表达带有His标签的蛋白的细胞通过超声裂解,带有His标签的蛋白通过Ni-NTA亲和层析在AKTA Avant FPLC(GE Lifescience)上的HisTrap FF柱(GELifescience)上纯化。洗脱液在丙烯酰胺凝胶(Bio-Rad)上通过SDS-PAGE解析并用InstantBlue Ultrafast考马斯亮蓝(Sigma-Aldrich)染色。使用ImageLab软件(Bio-Rad)对蛋白质条带进行密度测定来确定纯度。将纯化的核酸内切酶透析到由50mM Tris-HCl、300mM NaCl、1mM TCEP、5%甘油构成的储存缓冲液(pH7.5)中并储存于-80℃。

通过DNA合成构建含有间隔子序列和PAM序列(例如如实施例6中确定的)的靶DNA。当PAM具有简并碱基时,选择具有代表性的单个PAM进行测试。靶DNA包含通过PCR扩增来自质粒的2200bp的线性DNA,其中PAM和间隔子距离一个末端700bp定位。成功的切割产生700和1500bp的片段。靶DNA、体外转录的单个RNA和纯化的重组蛋白在裂解缓冲液(10mM Tris、100mM NaCl、10mM MgCl2)中与过量蛋白质和RNA混合并孵育5分钟至3小时,通常为1小时。通过加入RNAse A来终止反应并孵育60分钟。然后在1.2%TAE琼脂糖凝胶上解析反应,并在ImageLab软件中量化切割的靶DNA的分数。

实施例9.–(通用方案)测试大肠杆菌中MG CRISPR复合物的基因组切割活性

大肠杆菌缺乏有效修复双链DNA断裂的能力。因此,基因组DNA的切割可能是致命的事件。利用这一现象,通过在靶菌株中重组表达核酸内切酶和tracrRNA,在其基因组DNA中整合间隔子/靶和PAM序列,在大肠杆菌中测试了核酸内切酶活性。

在该测定中,PAM序列对被测试的核酸内切酶具有特异性,如通过实施例6中所述的方法所确定的。基于tracrRNA的序列和预测结构确定sgRNA序列。从重复的5’末端开始,选择8-12bp(通常为10bp)的重复-反重复配对。重复的剩余3’末端和tracrRNA的5’末端被替换为四环。通常,四环是GAAA,但也可以使用其他四环,特别是如果预测GAAA序列会干扰折叠。在这些情况下,使用了TTCG四环。

PAM序列整合到其基因组DNA中的工程改造的菌株用编码核酸内切酶的DNA进行转化。然后使转化体成为化学感受态,并用50ng的对靶序列特异(“中靶”)或对靶标非特异(“脱靶”)的单指导RNA进行转化。热激后,在37℃下,在SOC中恢复转化2小时。然后通过在诱导培养基上生长的5倍稀释系列确定核酸酶效率。从稀释系列一式三份量化菌落。

实施例10.–(通用方案)测试哺乳动物细胞中MG CRISPR复合物的基因组切割活性

为了证实哺乳动物细胞中的靶向和切割活性,MG Cas核酸内切酶在两种哺乳动物表达载体中进行了测试:(a)一种带有C末端SV40NLS和2A-GFP标签,和(b)一种没有GFP标签,带有两个SV40NLS序列,一个在N末端,一个在C末端。在一些情况下,编码核酸内切酶的核苷酸序列经过密码子优化以在哺乳动物细胞中表达。

将带有靶向序列的相应单指导RNA序列(sgRNA)克隆到第二哺乳动物表达载体中。将这两种质粒共转染到HEK293T细胞中。将表达质粒和sgRNA靶向质粒共转染到HEK293T细胞中后72小时,提取DNA并用于制备NGS文库。NHEJ百分比是通过靶位点测序中的插入缺失标记来测量的,以证明该酶在哺乳动物细胞中的靶向效率。至少选择了10个不同的靶位点来测试每种蛋白质的活性。

实施例11.–MG4家族成员的表征

PAM特异性,tracrRNA/sgRNA验证

使用如实施例6中所述的myTXTL系统证实MG4家族核酸内切酶系统的靶向核酸内切酶活性。在该测定中,切割的靶质粒的PCR扩增产生在凝胶中迁移约170bp的产物,如图6-9中所示。观察到MG4-2的扩增产物(双指导物:见凝胶2泳道9,单指导物:见凝胶10泳道7)(SEQ ID NO:4)。对PCR产物的测序揭示了下表2中详述的这些核酸内切酶的活性PAM序列特异性。

表2:MG4酶的PAM序列特异性和相关数据

实施例12.–MG6家族成员的表征

PAM特异性,tracrRNA/sgRNA验证

使用如实施例6中所述的myTXTL系统证实MG6家族成员的靶向核酸内切酶活性。在该测定中,切割的靶质粒的PCR扩增产生在凝胶中迁移约170bp的产物,如图6-9中所示。观察到MG6-3的扩增产物(双指导物:见凝胶1泳道2,单指导物:见凝胶2泳道13)(SEQ ID NO:28)。对PCR产物的测序揭示了下表3中详述的这些核酸内切酶的活性PAM序列特异性。

表3:MG6酶的PAM序列特异性和相关数据

细菌细胞中的靶向核酸内切酶活性

用PAM序列GAATAAGG如实施例9中使用22个核苷酸的靶向序列测试MG6-3核酸内切酶系统(蛋白质SEQ ID NO:28;sgRNA SEQ ID NO:135)的体内活性。转化的大肠杆菌以连续稀释的方式铺板(plate),结果(显示在上部分图中的大肠杆菌系列稀释和在下部分图中的定量生长,其中右侧条表示非靶向sgRNA,左侧条表示靶向sgRNA)呈现在图10中。与表达非靶sgRNA的大肠杆菌相比,表达中靶sgRNA的大肠杆菌的生长显著减少表明基因组DNA被MG6-3核酸内切酶系统特异性切割。

实施例13.–MG7家族成员的表征

PAM特异性,tracrRNA/sgRNA验证

使用如实施例6中所述的myTXTL系统证实MG7家族核酸内切酶系统的靶向核酸内切酶活性。在该测定中,切割的靶质粒的PCR扩增产生在凝胶中迁移约170bp的产物,如图6-9中所示。观察到MG7-1的扩增产物(双指导物:见凝胶5泳道10;单指导物:见凝胶3泳道7)(SEQ ID NO:40)。对PCR产物的测序揭示了下表4中详述的这些核酸内切酶的活性PAM序列特异性:

表4:MG7酶的PAM序列特异性和相关数据

体外靶向核酸内切酶活性

用PAM序列TAGTCGGG使用实施例8的方法和22个核苷酸的靶向序列测试MG7-1核酸内切酶系统(蛋白质SEQ ID NO:40;sgRNA SEQ ID NO:136)的体外活性。使用了上面报道的单指导序列(SEQ ID NO:136)。结果如图11所示,该图描绘了凝胶,其展示了MG7-1与靶向或非靶向的相应sgRNA或化脓性链球菌sgRNA组合的DNA切割。数据表明22个核苷酸的靶向序列与MG7-1/sgRNA系统一起是起作用的。

细菌细胞中的靶向核酸内切酶活性

用PAM序列TAGTCGGG如在实施例9中使用22个核苷酸的靶向序列测试MG7-1核酸内切酶系统(蛋白质SEQ ID NO:40)的体内活性。转化的大肠杆菌以系列稀释的方式铺板,结果(显示在上部分图中的大肠杆菌系列稀释和在下部分图中的定量生长,其中右侧条表示非靶向sgRNA,左侧条表示靶向sgRNA)呈现在图12中。与表达非靶sgRNA的大肠杆菌相比,表达中靶sgRNA的大肠杆菌的生长显著减少表明大肠杆菌细胞中基因组DNA被MG7-1核酸内切酶系统特异性切割。哺乳动物细胞中的靶向核酸内切酶活性

实施例10的方法用于证明哺乳动物细胞中的靶向和切割活性。将编码MG7-1(蛋白质SEQ ID NO:40)序列的开放阅读框克隆到哺乳动物表达载体中。测试了三种载体,一种带有C末端SV40 NLS和2A-GFP标签(大肠杆菌MG105-BB);一种没有GFP标签,带有2个NLS序列,一个在N末端,一个在C末端(大肠杆菌pMG5-BB);以及一种带有克隆到2-NLS质粒骨架(MG7-1hs)中的针对人表达而优化的密码子。该实验的结果如图13所示。将核酸内切酶表达载体与用于表达包含选自表7的指导序列的相应sgRNA的第二载体共转染到HEK293T细胞中。共转染后72小时,提取DNA并用于制备NGS文库。通过在靶位点附近出现内部缺失(NHEJ残迹)来检测切割活性。结果如图15所示。

表7:MG7-1哺乳动物靶向序列

实施例14.–MG16家族成员的表征

PAM特异性,tracrRNA/sgRNA验证

使用如实施例6中所述的myTXTL系统证实MG16家族核酸内切酶系统的靶向核酸内切酶活性。在该测定中,切割的靶质粒的PCR扩增产生在凝胶中迁移约170bp的产物,如图6-9中所示。观察到MG16-1的扩增产物(双指导物:见凝胶2泳道4;单指导物:见凝胶3泳道10)(SEQ ID NO:43)。对PCR产物的测序揭示了下表8中详述的这些核酸内切酶的活性PAM序列特异性。

表8:MG16酶的PAM序列特异性和相关数据

细菌细胞中的靶向核酸内切酶活性

用PAM序列TGGACCTG如实施例9中使用22个核苷酸的靶向序列测试MG16-1核酸内切酶系统(蛋白质SEQ ID NO:43;sgRNA SEQ ID NO:137)的体内活性。转化的大肠杆菌以连续稀释的方式铺板,结果(显示在上部分图中的大肠杆菌系列稀释和在下部分图中的定量生长,其中右侧条表示非靶向sgRNA,左侧条表示靶向sgRNA)呈现在图14中。与表达非靶sgRNA的大肠杆菌相比,表达中靶sgRNA的大肠杆菌的生长显著减少表明大肠杆菌细胞中基因组DNA被MG 16-1核酸内切酶系统特异性切割。

实施例15.–MG2家族成员的表征

PAM特异性,tracrRNA/sgRNA验证

使用如实施例6中所述的myTXTL系统证实MG2家族成员的靶向核酸内切酶活性。在该测定中,切割的靶质粒的PCR扩增产生在凝胶中迁移约170bp的产物,如图6-9中所示。在图6-9所示的测定中,成功切割文库的活性蛋白质会在凝胶中产生约170bp的条带。观察到MG2-4的扩增产物(双指导物:见凝胶1泳道7,单指导物:凝胶8泳道8和凝胶8泳道9)(SEQ IDNO:2)。对PCR产物的测序揭示了下表9中详述的这些核酸内切酶的活性PAM序列特异性。

表9:MG2酶的PAM序列特异性和相关数据

虽然已经示出并在本文所述了本发明的优选实施方案,对本领域技术人员将是显而易见的是,仅通过举例的方式来提供这样的实施方案。并不旨在将本发明限制为说明书中提供的具体实施例。虽然参考前述说明书已经描述了本发明,但是本文的实施方案的描述和说明并不意味着以限制性含义来解释。在不脱离本发明的情况下,本领域技术人员现在将清楚许多变型、改变和替代。此外,应当理解,本发明的所有方面不限于本文所述的具体描述、配置或相对比例,这取决于多种条件和变量。应当理解,在实践本发明时可以采用本文所述的本发明实施方案的各种替代方案。因此,预期本发明还应涵盖任何此类替代方案、修改、变型或等同物。所附权利要求旨在限定本发明内容的范围,并且由此覆盖这些权利要求的范围内的方法和结构及其等同物。

74页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:具有RUVC结构域的酶

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!