用于RNA向导的基因调节和编辑的正交Cas9蛋白

文档序号：1459365 发布日期：2020-02-21 浏览：19次 >En<

阅读说明：本技术 用于RNA向导的基因调节和编辑的正交Cas9蛋白 (Orthogonal Cas9 proteins for RNA-guided gene regulation and editing ) 是由乔治·M·丘奇凯文·埃斯弗特普拉尚特·马利于 2014-07-08 设计创作，主要内容包括：提供了用于RNA向导的基因调节和编辑的正交Cas9蛋白。提供了调控细胞中的靶核酸的表达的方法,包括使用多重正交Cas9蛋白同时和独立调节相应的基因或者同时和独立编辑相应的基因。(Orthogonal Cas9 proteins for RNA guided gene regulation and editing are provided. Methods of modulating expression of a target nucleic acid in a cell are provided, including simultaneously and independently modulating or simultaneously and independently editing a corresponding gene using multiple orthogonal Cas9 proteins.)

相关申请数据

本申请要求于2013年7月10日提交的第61/844,844号的美国临时专利申请的优先权，并且该申请的全部内容针对所有目的通过引用结合于此。

政府权益声明

本发明在国立卫生研究院的授权号P50 HG005550以及能源部的DE-FG02-02ER63445下获得政府支持。政府对本发明享有一定权利。

背景技术

细菌和古细菌(archaeal)CRISPR-Cas系统凭借与Cas蛋白复合的短向导RNA引导存在于侵袭外来核酸内的互补序列的降解。参见Deltcheva,E.et al.CRISPR RNAmaturation by trans-encoded small RNA and host factor RNase III.Nature 471,602-607(201 1)；Gasiunas,G.,Barrangou,R.,Horvath,P.&Siksnys,V.Cas9-crRNAribonucleoprotein complex mediates specific DNA cleavage for adaptiveimmunity in bacteria.Proceedings of the National Academy of Sciences of theUnited States of America 109,E2579-2586(2012)；Jinek,M.et al.A programmabledual-RNA-guided DNA endonuclease in adaptive bacterial immunity.Science 337,816-821(2012)；Sapranauskas,R.et al.The Streptococcus thermophilus CRISPR/Cassystem provides immunity in Escherichia coli.Nucleic acids research 39,9275-9282(2011)；和Bhaya,D.,Davison,M.&Barrangou,R.CRISPR-Cas systems in bacteriaand archaea:versatile small RNAs for adaptive defense and regulation.Annualreview of genetics 45,273-297(2011)。最近化脓性链球菌(S.pyogenes)II型CRISPR系统的体外重构证实了融合至通常反式编码tracrRNA(“反式激活的CRISPR RNA”)的crRNA(“CRISPR RNA”)足以引导Cas9蛋白序列特异性裂解匹配crRNA的靶DNA序列。表达与靶位点同源的gRNA导致Cas9的招募(recruitment)和靶DNA的降解。参见H.Deveau et al.,Phageresponse to CRISPR-encoded resistance in Streptococcus thermophilus.Journalof Bacteriology 190,1390(Feb,2008)。

发明内容

本公开的方面涉及向导RNA、DNA结合蛋白和双链DNA靶序列的复合物。根据某些方面，本公开范围内的DNA结合蛋白包括与向导RNA以及与将复合物引导至双链DNA序列的向导RNA形成复合物的蛋白质，其中，复合物结合至DNA序列。本公开的该方面可以称为RNA和DNA结合蛋白至双链DNA或与双链DNA的共定位。以这种方式，可以将DNA结合蛋白-向导RNA复合物用于将转录调节蛋白或结构域定位于靶DNA处从而调节靶DNA的表达。根据一个方面，两个或更多个或多种正交RNA(orthogonal RNA)向导的DNA结合蛋白或一组正交RNA向导的DNA结合蛋白可用于同时和独立调节细胞中DNA中的基因。根据一个方面，两个或更多个或多种正交RNA向导的DNA结合蛋白或一组正交RNA向导的DNA结合蛋白可用于同时和独立编辑细胞中DNA中的基因。应当理解的是，在引用DNA结合蛋白或RNA向导的DNA结合蛋白时，这种引用包括正交DNA结合蛋白或正交RNA向导的DNA结合蛋白。这种正交DNA结合蛋白或正交RNA向导的DNA结合蛋白可以具有核酸酶活性，它们可以具有切口酶(nickase)活性或它们可以是核酸酶无效的(nuclease null)。

根据某些方面，提供了调控细胞中靶核酸的表达的方法，该方法包括将编码互补于DNA(脱氧核糖核酸)的一种或多种RNA(核糖核酸)的第一外来核酸(foreign nucleicacid)引入至细胞中，其中，DNA包括靶核酸，将编码结合至DNA并由一种或多种RNA向导的RNA向导的核酸酶无效DNA结合蛋白(nuclease-null DNA binding protein)的第二外来核酸引入至细胞中，将编码转录调节蛋白或结构域的第三外来核酸引入至细胞中，其中，一种或多种RNA、RNA向导的核酸酶无效DNA结合蛋白和转录调节蛋白或结构域表达，其中，一种或多种RNA、RNA向导的核酸酶无效DNA结合蛋白和转录调节蛋白或结构域共定位至DNA，并且其中，转录调节蛋白或结构域调节靶核酸的表达。

根据一个方面，编码RNA向导的核酸酶无效DNA结合蛋白的外来核酸进一步编码融合至RNA向导的核酸酶无效DNA结合蛋白的转录调节蛋白或结构域。根据一个方面，编码一种或多种RNA的外来核酸进一步编码RNA结合结构域的靶并且编码转录调节蛋白或结构域的外来核酸进一步编码融合至转录调节蛋白或结构域的RNA结合结构域。

根据一个方面，细胞是真核细胞。根据一个方面，细胞是酵母细胞、植物细胞或动物细胞。根据一个方面，细胞是哺乳动物细胞。

根据一个方面，RNA在约10至约500个核苷酸之间。根据一个方面，RNA在约20至约100个核苷酸之间。

根据一个方面，转录调节蛋白或结构域是转录激活因子(transcriptionalactivator)。根据一个方面，转录调节蛋白或结构域上调靶核酸的表达。根据一个方面，转录调节蛋白或结构域上调靶核酸的表达以治疗疾病或有害状况(detrimentalcondition)。根据一个方面，靶核酸与疾病或有害状况相关。根据一个方面，转录调节蛋白或结构域是转录抑制因子(transcriptional repressor)。根据一个方面，转录调节蛋白或结构域下调靶核酸的表达。根据一个方面，转录调节蛋白或结构域下调靶核酸的表达以治疗疾病或有害状况。根据一个方面，靶核酸与疾病或有害状况相关。

根据一个方面，一种或多种RNA是向导RNA(guide RNA)。根据一个方面，一种或多种RNA是tracrRNA-crRNA融合体。

根据一个方面，DNA是基因组DNA、线粒体DNA、病毒DNA或外源DNA。

根据某些方面，提供了调控(modulate)细胞中的靶核酸的表达的方法，包括将编码互补于DNA(脱氧核糖核酸)的一种或多种RNA(核糖核酸)的第一外来核酸引入至细胞中，其中，DNA包括靶核酸，将编码II型CRISPR系统的RNA向导的核酸酶无效DNA结合蛋白(结合至DNA并由一种或多种RNA向导)的第二外来核酸引入至细胞中，将编码转录调节蛋白或结构域的第三外来核酸引入至细胞中，其中，一种或多种RNA、II型CRISPR系统的RNA向导的核酸酶无效DNA结合蛋白和转录调节蛋白或结构域表达，其中，一种或多种RNA、II型CRISPR系统的RNA向导的核酸酶无效DNA结合蛋白和转录调节蛋白或结构域共定位至DNA，并且其中，转录调节蛋白或结构域调节靶核酸的表达。

根据一个方面，编码II型CRISPR系统的RNA向导的核酸酶无效DNA结合蛋白的外来核酸进一步编码融合至II型CRISPR系统的RNA向导的核酸酶无效DNA结合蛋白的转录调节蛋白或结构域。根据一个方面，编码一种或多种RNA的外来核酸进一步编码RNA结合结构域的靶并且编码转录调节蛋白或结构域的外来核酸进一步编码融合至转录调节蛋白或结构域的RNA结合结构域。

根据一个方面，细胞是真核细胞。根据一个方面，细胞是酵母细胞、植物细胞或动物细胞。根据一个方面，细胞是哺乳动物细胞。

根据一个方面，RNA在约10至约500个核苷酸之间。根据一个方面，RNA在约20至约100个核苷酸之间。

根据一个方面，转录调节蛋白或结构域是转录激活因子。根据一个方面，转录调节蛋白或结构域上调靶核酸的表达。根据一个方面，转录调节蛋白或结构域上调靶核酸的表达以治疗疾病或有害状况。根据一个方面，靶核酸与疾病或有害状况相关。

根据一个方面，一种或多种RNA是向导RNA。根据一个方面，一种或多种RNA是tracrRNA-crRNA融合体。

根据一个方面，DNA是基因组DNA、线粒体DNA、病毒DNA或外源DNA。

根据某些方面，提供了调控细胞中靶核酸的表达的方法，包括将编码互补于DNA(脱氧核糖核酸)的一种或多种RNA(核糖核酸)的第一外来核酸引入至细胞中，其中，DNA包括靶核酸，将编码结合至DNA并由一种或多种RNA向导的核酸酶无效Cas9蛋白的第二外来核酸引入至细胞中，将编码转录调节蛋白或结构域的第三外来核酸引入至细胞中，其中，一种或多种RNA、核酸酶无效Cas9蛋白和转录调节蛋白或结构域表达，其中，一种或多种RNA、核酸酶无效Cas9蛋白和转录调节蛋白或结构域共定位至DNA，并且其中，转录调节蛋白或结构域调节靶核酸的表达。

根据一个方面，编码核酸酶无效Cas9蛋白的外来核酸进一步编码融合至核酸酶无效Cas9蛋白的转录调节蛋白或结构域。根据一个方面，编码一种或多种RNA的外来核酸进一步编码RNA结合结构域的靶并且编码转录调节蛋白或结构域的外来核酸进一步编码融合至转录调节蛋白或结构域的RNA结合结构域。

根据一个方面，细胞是真核细胞。根据一个方面，细胞是酵母细胞、植物细胞或动物细胞。根据一个方面，细胞是哺乳动物细胞。

根据一个方面，RNA在约10至约500个核苷酸之间。根据一个方面，RNA在约20至约100个核苷酸之间。

根据一个方面，一种或多种RNA是向导RNA。根据一个方面，一种或多种RNA是tracrRNA-crRNA融合体。

根据一个方面，DNA是基因组DNA、线粒体DNA、病毒DNA或外源DNA。

根据一个方面，提供了包含以下的细胞：编码互补于DNA的一种或多种RNA的第一外来核酸，其中，该DNA包括靶核酸，编码RNA向导的核酸酶无效DNA结合蛋白的第二外来核酸，和编码转录调节蛋白或结构域的第三外来核酸，其中，一种或多种RNA、RNA向导的核酸酶无效DNA结合蛋白和转录调节蛋白或结构域是用于靶核酸的共定位复合物(co-localization complex)的成员。

根据一个方面，细胞是真核细胞。根据一个方面，细胞是酵母细胞、植物细胞或动物细胞。根据一个方面，细胞是哺乳动物细胞。

根据一个方面，RNA在约10至约500个核苷酸之间。根据一个方面，RNA在约20至约100个核苷酸之间。

根据一个方面，一种或多种RNA是向导RNA。根据一个方面，一种或多种RNA是tracrRNA-crRNA融合体。

根据一个方面，DNA是基因组DNA、线粒体DNA、病毒DNA或外源DNA。

根据某些方面，RNA向导的核酸酶无效DNA结合蛋白是II型CRISPR系统的RNA向导的核酸酶无效DNA结合蛋白。根据某些方面，RNA向导的核酸酶无效DNA结合蛋白是核酸酶无效Cas9蛋白。

根据一个方面，提供了改变细胞中的DNA靶核酸的方法，包括将编码两种或更多种RNA的第一外来核酸引入至细胞中，每种RNA互补于DNA靶核酸的相邻位点，将编码至少一种RNA向导的DNA结合蛋白切口酶的第二外来核酸引入至细胞中，该DNA结合蛋白切口酶可以是正交RNA向导的DNA结合蛋白切口酶并且由两种或更多种RNA向导，其中，两种或更多种RNA和至少一种RNA向导的DNA结合蛋白切口酶表达，并且其中，至少一种RNA向导的DNA结合蛋白切口酶与两种或更多种RNA共定位至DNA靶核酸并切割(nick)DNA靶核酸，得到两个或更多个相邻的切口。

根据一个方面，提供了改变细胞中的DNA靶核酸的方法，其包括将编码两种或更多种RNA的第一外来核酸引入至细胞中，每种RNA互补于DNA靶核酸中的相邻位点，将编码II型CRISPR系统的至少一种RNA向导的DNA结合蛋白切口酶(由两种或更多种RNA向导)的第二外来核酸引入至细胞中，其中，两种或更多种RNA和II型CRISPR系统的至少一种RNA向导的DNA结合蛋白切口酶表达，并且其中，II型CRISPR系统的至少一种RNA向导的DNA结合蛋白切口酶与两种或更多种RNA共定位至DNA靶核酸并切割DNA靶核酸，得到两个或更多个相邻切口。

根据一个方面，提供了改变细胞中的DNA靶核酸的方法，其包括将编码两种或更多种RNA的第一外来核酸引入至细胞中，每种RNA互补于DNA靶核酸中的相邻位点，将编码具有一个非活性(inactive)核酸酶结构域并由两种或更多种RNA向导的至少一种Cas9蛋白切口酶的第二外来核酸引入至细胞中，其中，两种或更多种RNA和至少一种Cas9蛋白切口酶表达，并且其中，该至少一种Cas9蛋白切口酶与两种或更多种RNA共定位至DNA靶核酸并切割DNA靶核酸，得到两个或更多个相邻切口。

根据改变DNA靶核酸的方法，两个或更多个相邻切口在双链DNA的相同链上。根据一个方面，两个或更多个相邻切口在双链DNA的相同链上并导致同源重组。根据一个方面，两个或更多个相邻切口在双链DNA的不同链上。根据一个方面，两个或更多个相邻切口在双链DNA的不同链上并创建(形成，create)双链断裂。根据一个方面，两个或更多个相邻切口在双链DNA的不同链上并创建双链断裂，得到非同源性末端接合(nonhomologous endjoining)。根据一个方面，两个或更多个相邻切口在双链DNA的不同链上并相对彼此偏移。根据一个方面，两个或更多个相邻切口在双链DNA的不同链上并相对彼此偏移以及创建双链断裂。根据一个方面，两个或更多个相邻切口在双链DNA的不同链上并相对彼此偏移以及创建双链断裂，得到非同源性末端接合。根据一个方面，方法进一步包括将编码供体核酸序列的第三外来核酸引入至细胞中，其中，两个或更多个切口导致靶核酸与供体核酸序列的同源重组。

根据一个方面，提供了改变细胞中的DNA靶核酸的方法，包括将编码两种或更多种RNA的第一外来核酸引入至细胞中，每种RNA互补于DNA靶核酸的相邻位点，将编码至少一种RNA向导的DNA结合蛋白切口酶并由两种或更多种RNA向导的第二外来核酸引入至细胞中，并且其中，两种或更多种RNA和至少一种RNA向导的DNA结合蛋白切口酶表达，并且其中，至少一种RNA向导的DNA结合蛋白切口酶与两种或更多种RNA共定位至DNA靶核酸并切割DNA靶核酸，得到两个或更多个相邻切口，并且其中，两个或更多个相邻切口在双链DNA的不同链上并创建双链断裂，导致靶核酸片段化(fragmentation)，从而防止靶核酸表达。

根据一个方面，提供了改变细胞中的DNA靶核酸的方法，包括将编码两种或更多种RNA的第一外来核酸引入至细胞中，每种RNA互补于DNA靶核酸的相邻位点，将编码II型CRISPR系统的至少一种RNA向导的DNA结合蛋白切口酶并由两种或更多种RNA向导的第二外来核酸引入至细胞中，并且其中，两种或更多种RNA和II型CRISPR系统的至少一种RNA向导DNA结合蛋白切口酶表达，并且其中，II型CRISPR系统的至少一种RNA向导的DNA结合蛋白切口酶与两种或更多种RNA共定位至DNA靶核酸并切割DNA靶核酸，得到两个或更多个相邻切口，并且其中，两个或更多个相邻切口在双链DNA的不同链上并创建双链断裂，导致靶核酸片段化，从而防止靶核酸表达。

根据一个方面，提供了改变细胞中的DNA靶核酸的方法，包括将编码两种或更多种RNA的第一外来核酸引入至细胞中，每种RNA互补于DNA靶核酸的相邻位点，将编码具有一个非活性核酸酶结构域并由两种或更多种RNA向导的至少一种Cas9蛋白切口酶的第二外来核酸引入至细胞中，并且其中，两种或更多种RNA和至少一种Cas9蛋白切口酶表达，并且其中，至少一种Cas9蛋白切口酶与两种或更多种RNA共定位至DNA靶核酸并切割DNA靶核酸，得到两个或更多个相邻切口，并且其中，两个或更多个相邻切口在双链DNA的不同链上并创建双链断裂，导致靶核酸片段化，从而防止靶核酸表达。

根据一个方面，提供了包含以下的细胞：编码两种或更多种RNA的第一外来核酸，每种RNA互补于DNA靶核酸的相邻位点，和编码至少一种RNA向导的DNA结合蛋白切口酶的第二外来核酸，并且其中，两种或更多种RNA和至少一种RNA向导的DNA结合蛋白切口酶是用于DNA靶核酸的共定位复合物的成员。

根据一个方面，RNA向导的DAN结合蛋白切口酶是II型CRISPR系统的RNA向导的DNA结合蛋白切口酶。根据一个方面，RNA向导的DNA结合蛋白切口酶是具有一个非活性核酸酶结构域的Cas9蛋白切口酶。

根据一个方面，细胞是真核细胞。根据一个方面，细胞是酵母细胞、植物细胞或动物细胞。根据一个方面，细胞是哺乳动物细胞。

根据一个方面，RNA包含约10至约500个之间的核苷酸。根据一个方面，RNA包含约20至约100个之间的核苷酸。

根据一个方面，靶核酸与疾病或有害状况相关。

根据一个方面，两种或更多种RNA是向导RNA。根据一个方面，两种或更多种RNA是tracrRNA-crRNA融合体。

根据一个方面，DNA靶核酸是基因组DNA、线粒体DNA、病毒DNA或外源DNA。

根据一个方面，方法可以包括同时使用正交RNA向导的DNA结合蛋白切口酶、正交RNA向导的DNA结合蛋白核酸酶、正交RNA向导的核酸酶无效DNA结合蛋白。因此，在相同细胞(同一细胞)中，可以进行通过切割(切口，nicking)或剪切(cutting)DNA创建的改变和翻译介导(translational mediation)。进一步地，还可以使用本领域技术人员已知的将核酸引入至细胞的方法(诸如电穿孔)将一个或多个或多种外源供体核酸添加至细胞中，并且可以通过重组，诸如同源重组或本领域技术人员已知的其他机制将一个或多个或多种外源供体核酸引入至细胞的DNA中。因此，使用本文描述的多种正交RNA向导的DNA结合蛋白允许通过切割或剪切改变单一细胞，允许将供体核酸引入至细胞的DNA中以及允许转录调节基因。

通过以下实施方式及其附图的描述和权利要求，本发明的某些实施方式的进一步特征和优势将变得更加充分地明显。

附图说明

通过以下结合附图的示例性实施方式的详细描述将更完全地理解本实施方式的上述及其他特征和优势，其中：

图1A和图1B是RNA向导的转录激活的示意图。图1C是报告子构建体的设计。图1D示出了表明通过荧光激活细胞分选(FACS)和免疫荧光测定(IF)两者测定的Cas9N-VP64融合体显示RNA向导的转录激活的数据。图1E示出了通过FACS和IF的测定数据，表明在Cas9N、MS2-VP64和带有适当的MS2适体结合位点的gRNA存在下来自报告子构建体的gRNA序列特异性转录激活。图1F描绘了表明通过单种gRNA和多种gRNA的转录诱导的数据。

图2A描绘了用于评估Cas9-gRNA复合物和TALE靶向蓝图(landscape)的方法。图2B描绘了表明Cas9-gRNA复合物在它的靶序列中平均耐受1-3个突变的数据。图2C描绘了表明Cas9-gRNA复合物对除定位至PAM序列的那些之外的点突变极度不敏感的数据。图2D描绘了热绘图数据(热图数据，heat plot data)，表明引入2碱基错配显著削弱Cas9-gRNA复合物的活性。图2E描绘了表明18-mer(18聚体)TALE显示在它的靶序列中平均耐受1-2个突变的数据。图2F描绘了表明18-mer TALE与Cas9-gRNA复合物类似、对在它的靶中错配的单碱基非常不敏感的数据。图2G描绘了热绘图数据，表明引入2碱基错配显著削弱18-mer TALE的活性。

图3A描绘了向导RNA设计的示意图。图3B描绘示出了用于导致5'突出部分的偏移切口的非同源性末端接合和导致5'突出部分的偏移切口的百分率的数据。图3C描绘了示出靶向导致5'突出部分的偏移切口和导致5'突出部分的偏移切口的百分率的数据。

图4A是RuvC PDB ID:4EP4(蓝色)位置D7中的金属配位残基的示意图(左)，包含配位Mg离子(灰色球体)的PDB IDs:3M7K(橙色)和4H9D(青色)的HNH核酸内切酶结构域和3M7K(紫色)的DNA的示意图(中)以及分析的突变体的列表(右)。图4B描绘了示出Cas9突变体m3和m4还有它们各自与VP64的融合体的不可检测的核酸酶活性的数据。图4C是图4B中的数据的高分辨率检查。

图5A是确定Cas9-gRNA活性的同源重组测定的示意图。图5B描绘了随机序列***的向导RNA和同源重组的百分率。

图6A是用于OCT4基因的向导RNA的示意图。图6B描绘了用于启动子-荧光素酶报告子构建体的转录激活。图6C描绘了通过内源基因的qPCR的转录激活。

图7A是用于REX1基因的向导RNA的示意图。图7B描绘了用于启动子-荧光素酶报告子构建体的转录激活。图7C描绘了通过内源基因的qPCR的转录激活。

图8A示意性描绘了用于计算归一化(标准化，normalized)表达水平的高水平特异性分析处理流程。图8B描绘了用偏倚构建体文库(biased construct library)内生成的错配数的结合位点的百分比分布数据。左：理论分布。右：由实际TALE构建体文库观察到的分布。图8C描绘了根据错配数的聚集至结合位点的标签计数的百分比分布数据。左：由阳性对照样品观察到的分布。右：由其中诱导非对照TALE的样品观察到的分布。

图9A描绘了用于分析示出在它的靶序列中耐受1-3个突变的Cas9-gRNA复合物的靶向蓝图的数据。图9B描绘了用于分析示出对点突变(除了定位至PAM序列的那些)不敏感的Cas9-gRNA复合物的靶向蓝图的数据。图9C描绘了用于分析示出引入2碱基错配显著消弱活性的Cas9-gRNA复合物的靶向蓝图的热绘图数据。图9D描绘了来自核酸酶介导的HR测定的数据，确定用于化脓性链球菌Cas9的预测PAM是NGG也是NAG。

图10A描绘了来自核酸酶介导的HR测定的数据，确定18-mer TALE容许它的靶序列中的多重突变。图10B描绘了分析3种不同大小(18-mer、14-mer和10-mer)的TALE的靶向蓝图的数据。图10C描绘了示出近单碱基错配分辨率(near single-base mismatchresolution)的10-mer TALE的数据。图10D描绘了示出近单碱基错配分辨率的10-mer TALE的热绘图数据。

图11A描绘了设计的向导RNA。图11B描绘了用于多种向导RNA的非同源性末端接合的百分率。

图12A-12F描绘了假定的正交Cas9蛋白的比较和表征。图12A：SP、ST1、NM和TD的重复序列。着色碱基以指示保守程度。图12B：用于表征大肠杆菌(E.coli)中的Cas9蛋白的质粒。图12C：当间隔区和前间隔区(protospacer)由于Cas9剪切匹配时，来自库的功能PAM消耗。图12D：当靶向质粒间隔区和文库前间隔区不匹配时，Cas9不会剪切。图12D：从未剪切或耗尽非功能PAM。图12F：确认PAM的选择方案。用具有对应的前间隔区的两个文库中的一个转化表达Cas9蛋白和两种含间隔区靶向质粒中的一种的细胞并使其经历抗生素选择。使存活的未裂解的质粒经历深度测序(deep sequencing)。通过比较匹配的对错配的前间隔区文库内的每个序列的相对丰度量化Cas9介导的PAM消耗。

图13A-13F描绘了来自文库的功能前间隔区邻近基序(PAM)被Cas9蛋白的消耗。相对于其中间隔区和前间隔区不匹配的对照条件，绘制在用于匹配的间隔区-前间隔区对的每个位置处的每个碱基的log频率。结果反映基于两个不同前间隔区序列(图13D)的NM(图13A)、STl(图13B)和TD(图13C)的文库平均消耗。单独绘制对每种Cas9蛋白的每个前间隔区的特定序列的消耗(图13E-13F)。

图14A-14B描绘了由NM介导的转录抑制。图14A：用于量化抑制的报告子质粒。图14B：用于匹配和错配间隔区-前间隔区对的归一化细胞荧光。误差条代表五个重复(replicate)的标准偏差。

图15描绘了大肠杆菌中的crRNA的正交识别。用带有匹配或错配前间隔区和适当PAM的质粒挑战具有Cas9和crRNA的全部组合的细胞。接种(涂布)足够的细胞以由匹配间隔区和前间隔区配对而可靠获得集落(colony)和用于计算倍数消耗(fold depletion)的总集落数。

图16A-16B描绘了人类细胞中Cas9介导的基因编辑。图16A：用于量化基因编辑效率的同源重组测定。前间隔区内Cas9介导的双链断裂使用供体模板刺激中断GFP盒的修复，产生具有完整GFP的细胞。使用三种不同的模板以提供用于每种Cas9的正确PAM。通过流式细胞仪量化荧光细胞。图16B：细胞分选产生与它们各自的sgRNA中的每个组合的NM、STl和TD。在每组上显示用于每种Cas9的前间隔区和PAM序列。在每个图的右上角指出修复效率。

图17A-17B描绘了人类细胞中的转录激活。图17A：驱动tdTomato的基本启动子(最小启动子，minimal promoter)为特征的转录激活的报告子构建体。将前间隔区和PAM序列置于基本启动子的上游。结合至前间隔区的核酸酶无效Cas9-VP64融合蛋白导致转录激活和增强的荧光。图17B：用Cas9激活因子和sgRNA的所有组合转染细胞并荧光可视化tdTomato。仅当每种Cas9与它自己的sgRNA配对时，转录激活发生。

具体实施方式

可以通过角标涉及本文列出的支持性参考文献。应当理解的是，角标是指参考文献如同其被完全阐述以支持具体的陈述内容。

通过将病毒片段或质粒DNA合并至CRISPR基因座并利用转录的crRNA引导核酸酶以降解同源序列，细菌和古细菌的CRISPR-Cas系统带来获得性免疫^1,2。在II型CRISPR系统中，Cas9核酸酶与crRNA和tracrRNA(反式激活的crRNA)的三元复合物结合并裂解匹配crRNA间隔子且还包含短前间隔区序列邻近基序(PAM)的dsDNA前间隔区序列^3,4。融合crRNA和tracrRNA产生足以靶向Cas9的单向导RNA(sgRNA)⁴。

作为RNA向导的核酸酶和切口酶，Cas9适用于多种有机体中的靶向基因编辑^5-9和选择¹⁰。尽管争论这些成功可变化，但是因为定位蛋白质和RNA至附近任何组dsDNA序列的能力提供了用于控制生物系统的极大通用性，核酸酶无效Cas9变体可用于调节目的^11-17。从通过细菌中的启动子和5'-UTR阻碍¹⁸的靶基因抑制开始，通过人类细胞中的VP64¹⁹补充将Cas9介导的调节延伸至转录激活。根据某些方面，可以与转录激活因子、抑制因子、荧光蛋白标记、染色体缚结体(chromosome tethers)和多种本领域技术人员已知的其他工具使用本文描述的DNA结合蛋白，包括正交RNA向导的DNA结合蛋白，诸如正交Cas9蛋白。根据这个方面，使用正交Cas9允许使用转录激活因子、抑制因子、荧光蛋白标记、染色体缚结体和多种本领域技术人员已知的其他工具中的任一种或全部进行基因修饰。因此，本公开的方面涉及使用正交Cas9蛋白用于多重RNA向导的转录激活、抑制和基因编辑。

本公开的实施方式涉及表征和表明细菌和人类细胞中的多个Cas9蛋白之间的正交性(orthogonality)。可以多个或成组使用这种正交RNA向导的DNA结合蛋白来同时和独立调节转录、标记或编辑单种细胞的DNA中的多个基因。

根据一个方面，在单一家族的CRISPR系统内确认多个正交Cas9蛋白。虽然明显相关，但是来自化脓性链球菌、脑膜炎奈瑟氏球菌(N.meningitidis)、嗜热链球菌(S.thermophilus)和齿垢密螺旋体(T.denticola)在长度上在3.25至4.6kb范围内并识别完全不同的PAM序列。

本公开的实施方式是基于DNA结合蛋白以调节靶核酸的方式共定位转录调节蛋白或结构域至DNA的用途。本领域技术人员很容易知道将这种DNA结合蛋白结合至DNA用于各种目的。这种DNA结合蛋白可以是天然存在的。包括在本公开范围内的DNA结合蛋白包括可由RNA(本文是指向导RNA)向导的那些。根据这个方面，向导RNA和RNA向导的DNA结合蛋白在DNA上形成共定位复合物。根据某些方面，DNA结合蛋白可以是核酸酶无效的DNA结合蛋白。根据这个方面，核酸酶无效DNA结合蛋白可以起因于改变或修饰具有核酸酶活性的DNA结合蛋白。具有核酸酶活性的这类DNA结合蛋白对于本领域的那些技术人员而言是已知的，并且包括天然存在的具有核酸酶活性的DNA结合蛋白，如例如存在于II型CRISPR系统中的Cas9蛋白。这种Cas9蛋白和II型CRISPR系统在本领域是有据可查的。参见Makarova et al.,Nature Reviews,Microbiology,Vol.9,June 201 1,pp.467-477，包括所有补充信息，通过引用将其全部内容结合于此。

根据某些方面，提供了确认两个或更多个或多种或一组正交DNA结合蛋白的方法，诸如正交RNA向导的DNA结合蛋白，诸如II型CRISPR系统的正交RNA向导的DNA结合蛋白，诸如正交cas9蛋白，每种可以是有核酸酶活性的或核酸酶无效的。根据某些方面，两个或更多个或多种或一组正交DNA结合蛋白可以与对应的向导RNA使用以同时和独立调节基因或编辑细胞内的核酸。根据某些方面，可以将核酸引入至编码两个或更多个或多种或一组正交DNA结合蛋白、对应的向导RNA和两个或更多个或多种或一组对应的转录调节因子或结构域的细胞。以这种方式，许多基因可以是相同细胞中用于调节或编辑的并行靶。编辑基因组DNA的方法是本领域技术人员熟知的。

具有核酸酶活性的示例性DNA结合蛋白起切割(nick)或剪切双链DNA的功能。这种核酸酶活性可起因于具有表现出核酸酶活性的一种或多种多肽序列的DNA结合蛋白。这种示例性DNA结合蛋白可以具有两个单独的核酸酶结构域，每个结构域负责剪切或切割双链DNA的特定链。本领域技术人员已知的具有核酸酶活性的示例性多肽序列包括McrA-HNH核酸酶相关结构域和RuvC样核酸酶结构域。因此，示例性的DNA结合蛋白是自然中包含一种或多种McrA-HNH核酸酶相关结构域和RuvC样核酸酶结构域的那些。根据某些方面，改变或在其他情况下修饰DNA结合蛋白来失活核酸酶活性。这种改变或修饰包括改变一种或多种氨基酸来失活核酸酶活性或核酸酶结构域。这种修饰包括除去表现出核酸酶活性的一种或多种多肽序列(即，核酸酶结构域)，使得表现出核酸酶活性的一种或多种多肽序列(即，结构域)不存在于DNA结合蛋白中。基于本公开，失活核酸酶活性的其他修饰对本领域技术人员将是显而易见的。因此，核酸酶无效DNA结合蛋白包括修饰以失活核酸酶活性或除去多肽序列的多肽序列或失活核酸酶活性的序列。尽管已经失活了核酸酶活性，但是核酸酶无效DNA结合蛋白保留了结合DNA的能力。因此，DNA结合蛋白包括用于DNA结合所需的一种或多种多肽序列并可以缺少表现出核酸酶活性的一种或多种或全部核酸酶序列。因此，DNA结合蛋白包括用于DNA结合所需的一种或多种多肽序列并可以具有表现出失活的核酸酶活性的一种或多种或全部核酸酶序列。

根据一个方面，可以修饰或改变具有两个或更多个核酸酶结构域的DNA结合蛋白来失活除一个之外的所有核酸酶结构域。在DNA结合蛋白仅剪切或切割双链DNA的一条链的意义上，这种修饰或改变的DNA结合蛋白称作DNA结合蛋白切口酶。当由RNA引导至DNA时，DNA结合蛋白切口酶称作RNA向导的DNA结合蛋白切口酶。

示例性的DNA结合蛋白是缺少核酸酶活性的II型CRISPR系统的RNA向导的DNA结合蛋白。示例性的DNA结合蛋白是核酸酶无效Cas9蛋白。示例性的DNA结合蛋白是Cas9蛋白切口酶。

在化脓性链球菌(S.pyogenes)中，Cas9通过蛋白中的以下两种催化结构域介导的过程在前间隔区-邻近基序(PAM，protospacer-adjacent motif)上游生成3bp钝头(平头，blunt-ended)双链断裂：裂解DNA的互补链的HNH结构域和裂解非互补链的RuvC样结构域。参见Jinke et al.,Science 337,816-821(2012)，通过引用将其全部内容结合于此。已知Cas9蛋白存在于许多II型CRISPR系统中，该系统包括以下对Makarova et al.,NatureReviews,Microbiology,Vol.9,June 201 1,pp.467-477的补充信息中所定义的：甲烷球菌属C7(Methanococcus maripaludis C7)；白喉棒杆菌(Corynebacterium diphtheriae)；有效棒杆菌(Corynebacterium efficiens)YS-314；谷氨酸棒杆菌(Corynebacteriumglutamicum)ATCC 13032 Kitasato；谷氨酸棒杆菌(Corynebacterium glutamicum)ATCC13032 Bielefeld；谷氨酸棒杆菌(Corynebacterium glutamicum)R；kroppenstedtii棒杆菌(Corynebacterium kroppenstedtii)DSM 44385；脓肿分枝杆菌(Mycobacteriumadscessus)ATCC 19977；诺卡菌(Nocardia farcinica)IFM10152；红串红球菌(Rhodococcus erythropolis)PR4；jostii红球菌(Rhodococcus jostii)RHAl；混浊红球菌(Rhodococcus opacus)B4 uid36573；解纤维热酸菌(Acidothermus cellulolyticus)11B；氯酚节杆菌(Arthrobacter chlorophenolicus)A6；Kribbella flavida DSM 17836uid43465；弯曲高温单孢菌(Thermomonospora curvata)DSM 43183；齿双歧杆菌(Bifidobacterium dentium)Bdl；长双歧杆菌(Bifidobacterium longum)DJO10A；Slackiaheliotrinireducens DSM 20476；Persephonella marina EX HI；脆弱拟杆菌(Bacteroides fragilis)NCTC 9434；黄褐二氧化碳嗜纤维菌(Capnocytophaga ochracea)DSM 7271；嗜冷黄杆菌(Flavobacterium psychrophilum)JIP02 86；肠道细菌(Akkermansia muciniphila)ATCC BAA 835；castenholzii玫瑰弯菌(Roseiflexuscastenholzii)DSM 13941；玫瑰弯菌(Roseiflexus)RSI；集胞藻属(Synechocystis)PCC6803；Elusimicrobium minutum Pei191；未培养的白蚁群1细菌种系型Rs D17(Termitegroup 1bacterium phylotype Rs D17)；产琥珀酸丝状杆菌(Fibrobacter succinogenes)S85；蜡样芽孢杆菌(Bacillus cereus)ATCC 10987；无害利斯特菌(Listeria innocua)；干酪乳杆菌(Lactobacillus casei)；鼠李糖乳杆菌(Lactobacillus rhamnosus)GG；唾液乳杆菌(Lactobacillus salivarius)UCC118；无乳链球菌(Streptococcus agalactiae)A909；无乳链球菌(Streptococcus agalactiae)NEM316；无乳链球菌(Streptococcusagalactiae)2603；似马停乳链球菌(Streptococcus dysgalactiae equisimilis)GGS124；马链球菌兽疫亚种(Streptococcus equi zooepidemicus)MGCS10565；解没食子酸链球菌(Streptococcus gallolyticus)UCN34 uid46061；Streptococcus gordonii Challissubst CH1；变异链球菌(Streptococcus mutans)NN2025 uid46353；变异链球菌(Streptococcus mutans)；化脓性链球菌(Streptococcus pyogenes)M1 GAS；化脓性链球菌(Streptococcus pyogenes)MGAS5005；化脓性链球菌(Streptococcus pyogenes)MGAS2096；化脓性链球菌(Streptococcus pyogenes)MGAS9429；化脓性链球菌(Streptococcus pyogenes)MGAS 10270；化脓性链球菌(Streptococcus pyogenes)MGAS6180；化脓性链球菌(Streptococcus pyogenes)MGAS315；化脓性链球菌(Streptococcus pyogenes)SSI-1；化脓性链球菌(Streptococcus pyogenes)MGAS10750；化脓性链球菌(Streptococcus pyogenes)NZ131；链球菌嗜热菌(Streptococcusthermophiles)CNRZ1066；链球菌嗜热菌(Streptococcus thermophiles)LMD-9；链球菌嗜热菌(Streptococcus thermophiles)LMG 18311；肉毒杆菌(Clostridium botulinum)A3Loch Maree；肉毒杆菌(Clostridium botulinum)B Eklund 17B；肉毒杆菌(Clostridiumbotulinum)Ba4 657；肉毒杆菌(Clostridium botulinum)F Langeland；解纤维梭菌(Clostridium cellulolyticum)H10；大芬戈尔德菌(Finegoldia magna)ATCC 29328；直肠真杆菌(Eubacterium rectale)ATCC 33656；鸡毒支原体(Mycoplasma gallisepticum)；运动支原体(Mycoplasma mobile)163K；穿通支原体(Mycoplasma penetrans)；滑液囊支原体(Mycoplasma synoviae)53；念珠状链杆菌(Streptobacillus moniliformis)DSM 12112；慢生根瘤菌(Bradyrhizobium)BTAil；汉氏硝化细菌(Nitrobacter hamburgensis)X14；沼泽红假单孢菌(Rhodopseudomonas palustris)BisB18；沼泽红假单孢菌(Rhodopseudomonas palustris)BisB5；食清洁剂细小棒菌(Parvibaculumlavamentivorans)DS-1；Dinoroseobacter shibae DFL 12；Gluconacetobacterdiazotrophicus Pal 5FAPERJ；Gluconacetobacter diazotrophicus Pal 5JGI；固氮螺菌(Azospirillum)B510 uid46085；深红红螺菌(Rhodospirillum rubrum)ATCC 11170；双氯苯胺(Diaphorobacter)TPSY uid29975；Verminephrobacter eiseniae EF01-2；脑膜炎双球菌(Neisseria meningitides)053442；脑膜炎双球菌(Neisseria meningitides)αl4；脑膜炎双球菌(Neisseria meningitides)Z2491；需盐脱硫弧菌(Desulfovibriosalexigens)DSM 2638；空肠弯曲杆菌德莱亚种(Campylobacter jejuni doylei)269 97；空肠弯曲杆菌(Campylobacter jejuni)81116；空肠弯曲杆菌(Campylobacter jejuni)；弯曲杆菌(Campylobacter lari)RM2100；肝螺杆菌(Helicobacter hepaticus)；产琥珀酸沃廉菌(Wolinella succinogenes)；Tolumonas auensis DSM 9187；假别单孢菌(Pseudoalteromonas atlantica)T6c；Shewanella pealeana ATCC 700345；Legionellapneumophila Paris；产琥珀酸放线杆菌(Actinobacillus succinogenes)130Z；多杀巴斯德菌(Pasteurella multocida)；Francisella tularensis novicida U112；土拉杆菌欧亚变种(Francisella tularensis holarctica)；土拉杆菌(Francisella tularensis)FSC198；土拉杆菌(Francisella tularensis tularensis)；土拉杆菌(Francisellatularensis)WY96-3418；和齿垢密螺旋体(Treponema denticola)ATCC 35405。因此，本公开的方面涉及II型CRISPR系统中存在的Cas9蛋白，其呈现为核酸酶无效或其呈现为本文所描述的切口酶。

本领域的技术人员在文献中可以将Cas9蛋白称为Csnl。在以下示出了作为本文中所描述的试验的主体的化脓性链球菌(S.pyogenes)Cas9蛋白序列。参见Deltcheva etal.,Nature 471,602-607(2011)，通过引用将其全部内容结合于此。

根据本文描述的RNA向导的基因组调节方法的某些方面，改变Cas9来降低、基本上(substantially)降低或消除核酸酶活性。这种Cas9可以是正交Cas9，诸如当设想多于一种Cas9蛋白时。在该上下文中，可以在本文描述的方法中使用两个或更多个或多种或一组正交Cas9蛋白。根据一个方面，通过改变RuvC核酸酶结构域或HNH核酸酶结构域降低、基本降低或消除Cas9核酸酶活性。根据一个方面，失活RuvC核酸酶结构域。根据一个方面，失活HNH核酸酶结构域。根据一个方面，失活RuvC核酸酶结构域和HNH核酸酶结构域。根据另一方面，提供了RuvC核酸酶结构域和HNH核酸酶结构域失活的Cas9蛋白。根据另一方面，在RuvC核酸酶结构域和HNH核酸酶结构域失活的情况下，提供了核酸酶无效Cas9蛋白。根据另一方面，提供了Cas9切口酶，其中，RuvC核酸酶结构域或HNH核酸酶结构域失活，从而致使剩余的核酸酶结构域具有核酸酶活性。以这种方式，仅剪切或切割双链DNA的一条链。

根据另一方面，提供了核酸酶无效Cas9蛋白，其中，改变或者不然除去Cas9中的一种或多种氨基酸以提供核酸酶无效Cas9蛋白。根据一个方面，氨基酸包括D10和H840。参见Jinke et al.,Science 337,816-821(2012)。根据另一方面，氨基酸包括D839和N863。根据一个方面，用降低、基本消除或消除了核酸酶活性的氨基酸取代D10、H840、D839和H863中的一种或多种或全部。根据一个方面，用丙氨酸取代D10、H840、D839和H863中的一种或多种或全部。根据一个方面，用降低、基本消除或消除核酸酶活性的氨基酸(诸如丙氨酸)取代D10、H840、D839和H863中的一种或多种或全部的Cas9蛋白称作核酸酶无效Cas9或Cas9N并表现出降低的或消除的核酸酶活性，或核酸酶活性在检测水平内不存在或基本不存在。根据这个方面，使用已知的测定法检测不到用于Cas9N的核酸酶活性，即，低于已知测定法的检测水平。

根据一个方面，核酸酶无效Cas9蛋白包括保留蛋白质结合至DNA并由RNA向导的能力的同系物(homolog)和直系同源物(ortholog)。根据一个方面，核酸酶无效Cas9蛋白包括对来自化脓性链球菌并用丙氨酸取代D10、H840、D839和H863中的一种或多种或全部的天然存在的Cas9阐述的序列以及以下蛋白质序列：所述蛋白质序列与其同源至少30％、40％、50％、60％、70％、80％、90％、95％、98％或99％且是DNA结合蛋白，诸如RNA向导的DNA结合蛋白。

根据一个方面，核酸酶无效Cas9蛋白包含针对来自化脓性链球菌的天然存在的Cas9(除了RuvC核酸酶结构域和HNH核酸酶结构域的蛋白质序列)阐述的序列，还有与其具有至少30％、40％、50％、60％、70％、80％、90％、95％、98％或99％同源性并且是DNA结合蛋白(诸如RNA向导的DNA结合蛋白)的序列。以这种方式，本公开的方面包括担负DNA结合，例如与向导RNA共定位并结合至DNA的蛋白质序列和与其同源的蛋白质序列，并且不需要包括用于RuvC核酸酶结构域和HNH核酸酶结构域的蛋白质序列(在不需要用于DNA结合的程度上)，因为这些结构域可以是失活的或从天然存在的Cas9蛋白的蛋白序列中除去，以产生核酸酶无效Cas9蛋白。

出于本公开的目的，图4A描绘了在已知蛋白质结构中与Cas9同源的金属配位残基。基于在Cas9序列中的位置标记残基。左：在Mg离子配位位置突出标记了RuvC结构，PDBID：4EP4(蓝色)位置D7，对应于Cas9序列中的D10。中：来自PDB ID：3M7K(橙色)和4H9D(青色)的HNH核酸内切酶结构域的结构，包括来自3M7K(紫色)的配位Mg离子(灰色球体)和DNA。作为棒示出了3M7K和4H9D位置D53和N77中的残基D92和N113，其具有与Cas9氨基酸D839和N863同源的序列。右：制作并用于分析核酸酶活性的突变体列表：Cas9野生型；Cas9_m1，丙氨酸取代D10；Cas9_m2，丙氨酸取代D10以及丙氨酸取代H840；Cas9_m3，丙氨酸取代D10，丙氨酸取代H840，以及丙氨酸取代D839；以及Cas9_m4，丙氨酸取代D10，丙氨酸取代H840，丙氨酸取代D839，以及丙氨酸取代N863。

如图4B所示，在靶基因座处深度测序时，Cas9突变体：m3和m4还有它们各自与VP64的融合体示出不可检测的核酸酶活性。该图示出相对基因组位置的突变频率，红色线划分gRNA靶。图4C是图4B中的数据的更高分辨率检查并确证突变蓝图示出与未修饰基因座可比较的曲线。

根据一个方面，提供了工程Cas9-gRNA系统，其通过将转录激活结构域附接(缚结，tether)至核酸酶无效Cas9或向导RNA允许人类细胞中RNA向导的基因组调节。根据本公开的一个方面，一种或多种转录调节蛋白或结构域(这些术语可互换使用)加入不然连接至核酸酶缺陷的Cas9或一种或多种向导RNA(gRNA)。转录调节结构域对应于靶基因座。因此，本公开的方面包括用于将转录调节结构域定位至靶向基因座的方法和材料，其是通过融合、连接或加入这种结构域至Cas9N或至gRNA。

根据一个方面，提供了能够转录激活的Cas9N融合蛋白。根据一个方面，加入(join)、融合、连接VP64激活结构域(参见Zhang et al.,Nature Biotechnology 29,149-153(2011)，通过引用将其全部内容结合于此)，不然将其附接至Cas9N的C端。根据一个方法，通过Cas9N蛋白将转录调节结构域提供至靶基因组DNA的位点。根据一个方法，在细胞内与一种或多种RNA一起提供融合至转录调节结构域的Cas9N。Cas9N与融合至其的转录调节结构域结合在靶基因组DNA上或附近。一种或多种向导RNA结合在靶基因组DNA上或附近。转录调节结构域调节靶基因的表达。根据一个特定方面，当与靶向启动子附近的序列的gRNA结合时，Cas9N-VP64融合体激活报告子构建体的转录，从而显示RNA向导的转录激活。

根据一个方面，提供了能够转录激活的gRNA融合蛋白。根据一个方面，加入、融合、连接VP64激活结构域，不然将其附接至gRNA。根据一个方法，通过gRNA将转录调节结构域提供至靶基因组DNA的位点。根据一个方法，在细胞内与Cas9N蛋白一起提供融合至转录调节结构域的gRNA。Cas9N结合在靶基因组DNA上或附近。一种或多种向导RNA与融合至其的转录调节蛋白或结构域结合在靶基因组DNA上或附近。转录调节结构域调节靶基因的表达。根据一个特定方面，Cas9N蛋白和融合有转录调节结构域的gRNA激活报告子构建体的转录，从而显示RNA向导的转录激活。

通过将随机序列***至gRNA并测定Cas9功能确认gRNA的哪些区域耐受修饰从而构建能够转录调节的gRNA缚结体(tether)。带有在嵌合gRNA的crRNA部分的5'端或tracrRNA部分的3'端的随机序列***的gRNA保留功能，而***至嵌合gRNA的tracrRNA骨架(支架，scaffold)部分导致功能缺失。参见总结了gRNA对随机碱基***的灵活性的图5A-5B。图5A是确定Cas9-gRNA活性的同源重组(HR)测定的示意图。如图5B所示，带有在嵌合gRNA的crRNA部分的5'端或tracrRNA部分的3'端的随机序列***的gRNA保留功能，而***至嵌合gRNA的tracrRNA骨架部分导致功能缺失。通过红色核苷酸指出gRNA序列中的***点。不希望受科学理论的约束，在5'端随机***碱基时增加的活性可能是由于较长gRNA的半衰期增加。

为了将VP64附接至gRNA，将结合MS2噬菌体外壳蛋白(MS2bacteriophase coat-protein)的RNA茎环的两个拷贝附加至gRNA的3'端。参见Fusco et al.,Current Biology:CB13,161-167(2003)，通过引用将其全部内容结合于此。这些嵌合gRNA与Cas9N和MS2-VP64融合蛋白一起表达。在所有3种组分存在下，观察到来自报告子构建体的序列特异性转录激活。

图1A是RNA向导的转录激活的示意图。如图1A所示，为了生成能够转录激活的Cas9N融合蛋白，将VP64激活结构域直接附接至Cas9N的C端。如图1B所示，为了生成能够转录激活的gRNA缚结体，将结合MS2噬菌体外壳蛋白的RNA茎环的两个拷贝附加至gRNA的3'端。这些嵌合gRNA与Cas9N和MS2-VP64融合蛋白一起表达。图1C示出了用于测定转录激活的报告子构建体的设计。两种报告子带有不同的gRNA靶位点，并共有对照TALE-TF靶位点。如图1D所示，根据荧光激活细胞分选(FACS)和免疫荧光测定(IF)测定的，Cas9N-VP64融合体显示RNA向导的转录激活。确切地，当对照TALE-TF激活两种报告子时，Cas9N-VP64以gRNA序列特异性方式激活报告子。如图1E所示，通过FACS和IF两者仅观察到，在所有3种组分：Cas9N、MS2-VP64和带有适当的MS2适体结合位点的gRNA存在下，来自报告子构建体的gRNA序列特异性转录激活。

根据某些方面，提供了用于使用Cas9N、一种或多种gRNA和转录调节蛋白或结构域调节内源基因的方法。根据一个方面，内源基因可以是任何希望的基因，在本文中称作靶基因。根据一个示例性的方面，用于调节的靶基因包括ZFP42(REX1)和POU5F1(OCT4)，两者都是涉及维持多能性的紧密调节基因。如图1F所示，设计靶向转录起始位点(将DNase高敏位点突出标记为绿色)上游的DNA的～5kb链段(stretch)的10个gRNA用于REXl基因。使用启动子-荧光素酶报告子构建体(参见Takahashi et al.,Cell 131 861-872(2007)，通过引用将其全部内容结合于此)或直接通过内源基因的qPCR测定转录激活。

图6A-6C涉及使用Cas9N-VP64的RNA向导的OCT4调节。如图6A所示，设计靶向转录起始位点上游的DNA的～5kb链段的21个gRNA用于OCT4基因。将DNase高敏位点(hypersensitive site)突出标记为绿色。图6B示出了使用启动子-荧光素酶报告子构建体的转录激活。图6C示出了直接通过内源基因的qPCR的转录激活。引入单种gRNA适当地刺激转录，而多种gRNA协同作用以刺激稳健的多倍的转录激活。

图7A-7C涉及使用Cas9N、MS2-VP64和gRNA+2X-MS2适体的RNA向导的REX1调节。如图7A所示，设计靶向转录起始位点上游的DNA的～5kb链段的10个gRNA用于REX1基因。将DNase高敏位点突出标记为绿色。图7B示出了使用启动子-荧光素酶报告子构建体的转录激活。图7C示出了直接通过内源基因的qPCR的转录激活。引入单种gRNA适当地刺激转录，而多种gRNA协同作用以刺激稳健的多倍的转录激活。在一个方面，gRNA上不存在2X-MS2适体不会导致转录激活。参见Maeder et al.,Nature Methods 10,243-245(2013)和Perez-Pinera et al.,Nature Methods10,239-242(2013)，通过引用将其每个的全部内容结合于此。

因此，方法涉及具有Cas9N蛋白和转录调节蛋白或结构域的多重向导RNA调节靶基因的表达的用途。

Cas9和gRNA附接(缚结，tethering)方法两者是有效的，前者显示高～1.5-2倍的效能。该区别可能是由于相对于3组分复合物组件，对于2组分的要求。然而，原则上gRNA附接方法使不同的效应物结构域能够被不同的gRNA招募，只要每种gRNA使用不同的RNA-蛋白质相互作用对。参见Karyer-Bibens et al.,Biology of the Cell/Under the Auspicesof the European Cell Biology Organization 100,125-138(2.008)，通过引用将其全部内容结合于此。根据本公开的一个方面，可以使用特定的向导RNA和通用的Cas9N蛋白(即，用于不同靶基因的相同或类似的Cas9N蛋白)调节不同的靶基因。根据一个方面，提供了使用相同或类似的Cas9N多重基因调节的方法。

本公开的方法还涉及使用本文所描述的Cas9N蛋白和向导RNA编辑靶基因来提供人类细胞的多重基因和表观遗传工程。由于Cas9-gRNA靶向是一个问题(参见Jiang etal.,Nature Biotechnology 31,233-239(2013)，通过引用将其全部内容结合于此)，提供了方法用于深入询问Cas9针对非常大的靶序列变化区间的亲和性。因此，本公开的方面提供了人类细胞中Cas9靶向的直接高通过量读取，同时避免由dsDNA切口毒性引入的复杂化和用天然核酸酶活性Cas9特异性测试招致的诱变修复。

本公开的进一步方面总体上涉及使用DNA结合蛋白或系统用于转录调节靶基因。基于本公开，本领域的技术人员将容易确认示例性的DNA结合系统。由于具有天然存在的Cas9蛋白，这种DNA结合系统不需要具有任何核酸酶活性。因此，这种DNA结合系统不需要失活核酸酶活性。一个示例性的DNA结合系统是TALE。根据一个方面，使用图2A所示的方法评估TALE特异性。设计了其中文库的每个元素包含驱动dTomato荧光蛋白的基本启动子的构建体文库。在转录起始位点m的下游，***24bp(A/C/G)随机转录本标签，同时将两个TF结合位点置于启动子的上游：一个是被所有文库元素共有的恒定DNA序列，以及第二个是带有结合位点的“偏倚”文库的可变特征，其被工程化为横跨存在许多远离靶序列的突变的组合的大量序列集合，将可编程的DNA靶向复合物设计为结合所述靶序列。使用工程化为在每个位置处带有核苷酸频率的简并寡核苷酸实现此目的，使得靶序列核苷酸看起来以79％频率且核苷酸彼此以7％频率出现。参见Patwardhan et al.,Nature Biotechnology 30,265-270(2012)，通过引用将其全部内容结合于此。然后测序报告子文库以显示24bp dTomato转录本标签和它们对应的文库元素中的“偏倚”靶位点之间的关联。转录本标签的高多样性确信不同靶之间共有标签是极度稀少的，同时靶序列的偏倚构建意味着具有少量突变的位点相比于具有更多突变的位点与更多的标签相关联。接下来，用工程化以结合共有DNA位点的对照TF或工程化以结合靶位点的靶TF刺激dTomato报告子基因的转录。通过在刺激的细胞上执行RNAseq在每个样品中测量每种表达转录本标签的丰度，然后使用之前建立的关联表返回映射至它们对应的结合位点。预期对照TF同等刺激所有文库成员，因为它的结合位点被所有文库元素共有，同时预期靶TF偏向表达成员的分布至它优先靶向的那些。通过针对靶TF得到的标签数除以针对对照TF得到的那些，将该假定用在步骤5中来计算每个结合位点的归一化表达水平。

如图2B所示，Cas9-gRNA复合物的靶向蓝图显示在它的靶序列中其平均耐受1-3个突变。如图2C所示，Cas9-gRNA复合物还对除定位至PAM序列的那些之外的点突变极度不敏感。应当注意的是，该数据显示用于化脓性链球菌Cas9的预测PAM不仅是NGG还是NAG。如图2D所示，引入2碱基错配显著消弱Cas9-gRNA复合物的活性，然而仅是当这些定位至较接近gRNA靶序列的3'端的8-10个碱基时(在热绘图中，从5'端开始将靶序列位置标记为1-23)。

使用本文描述的转录特异性测定法确定另一广泛使用的基因组编辑工具TALE结构域的耐突变性。如图2E所示，针对18-mer(18聚体)TALE的TALE脱靶数据显示其在它的靶序列中可以平均耐受1-2个突变，并在它的靶中不能激活大部分的3碱基错配变体。如图2F所示，18-mer TALE与Cas9-gRNA复合物类似，对在它的靶中错配的单碱基极度不敏感。如图2G所示，引入2碱基错配显著削弱18-mer TALE的活性。TALE活性对较接近它的靶序列的5'端的错配更敏感(在热绘图中，从5'端开始将靶序列位置标记为1-18)。

使用核酸酶测定中的靶向试验确定结果，核酸酶测定是图10A-10D涉及评估具有不同大小的TALE的靶向蓝图的主旨。如图10A所示，使用核酸酶介导的HR测定，确定18-merTALE在它的靶序列中耐受多个突变。如图10B所示，使用图2A描述的方法，分析具有3种不同大小(18-mer、14-mer和10-mer)的TALE的靶向蓝图。较短的TALE(14-mer和10-mer)逐渐对它们的靶向更具特异性，但是也降低其活性接近一个数量级。如图10C和10D所示，10-merTALE示出接近单碱基错配分辨率，针对带有2个错配的靶几乎失去所有活性(在热绘图中，从5'端开始将靶序列位置标记为1-10)。合起来，这些数据意味着设计较短的TALE在基因组工程应用中可以产生更高的特异性，同时对TALE核酸酶应用中FokI二聚的要求对避免脱靶影响是必要的。参见Kim et al.,Proceedings of the National Academy of Sciencesof the United States of America 93,1 156-1 160(1996)和Pattanayak et al.,Nature Methods 8,765-770(201 1)，通过引用将其每个中的全部内容结合于此。

图8A-8C涉及用于计算来自试验数据的实施例示出的归一化表达水平的高水平特异性分析处理流程。如图8A所示，通过结合位点序列和将被结合至报告子基因转录本的24bp随机序列标签的偏倚分布生成构建体文库(上)。高度简并转录的标签使得它们应当多对一映射至Cas9或TALE结合序列。测序(第3水平，左)构建体库以确定哪些标签与结合位点共同出现，得到结合位点对转录标签的关联表(第4水平，左)。可以使用文库条形码(library barcode)一次测序针对不同结合位点建立的多个构建体文库(此处通过亮蓝色和亮黄色指出，水平1-4，左)。然后将构建体文库转染到细胞群中且在细胞群样品中诱导一组不同的Cas9/gRNA或TALE转录因子(第2水平，右)。总是用靶向构建体内固定结合位点序列的固定TALE激活因子诱导一个样品(上水平，绿色方框)；这一样品用作阳性对照(绿色样品，也以+标记指示)。然后测序并分析由诱导样品中的报告子mRNA生成的cDNA以得到针对样品中每个标签的标签数(第3和4水平，右)。与构建体文库测序一样，通过附加样品条形码一起测序和分析包括阳性对照的多个样品。此处，亮红色指出通过阳性对照(绿色)测序并分析了的一个非对照样品。因为仅转录的标签且没有构建体结合位点在每个读取中出现，所以然后将由构建体文库测序得到的结合位点对标签关联表用于记录由每个样品中的每个结合位点表达的标签总数(第5水平)。然后通过用在阳性对照样品中得到的记录除它们，将针对每个非阳性对照样品的记录转换至归一化的表达水平。在图2B和2E以及在图9A和图9B中提供了多个错配的归一化表达水平的图实例。没有包括在整个过程流程中的是针对错误标签、针对与构建体文库无关的标签和针对与多个结合位点看起来共有的标签的几个过滤水平。图8B由偏倚构建体文库内生成的多个错配的结合位点的百分比的实例分布。左：理论分布。右：由实际的TALE构建体文库观察到的分布。图8C描绘了多个错配的聚集至结合位点的标签数的百分比实例分布。左：由阳性对照样品观察到的分布。右：由诱导非对照TALE的样品观察到的分布。由于阳性对照TALE结合至构建体中的固定位点，汇集的标签数的分布密切反映了图8B中的结合位点的分布，而对于非对照TALE样品，分布偏向左侧，因为具有较少错配的位点诱导较高的表达水平。下：通过用针对对照TF得到的那些除针对靶TF得到的标签数计算这些之间的相对富集度，显示对靶位点中突变数的平均表达水平。

通过使用不同Cas9-gRNA复合物生成的特异性数据进一步再确认这些结果。如图9A所示，不同的Cas9-gRNA复合物在它的靶序列中耐受1-3个突变。如图9B所示，Cas9-gRNA复合物还对除定位至PAM序列的那些之外的点突变极度不敏感。然而如图9C所示，引入2碱基错配显著削弱活性(在热绘图中，从5'端开始将靶序列位置标记为1-23)。如图9D所示，使用核酸酶介导的HR测定确定针对化脓性链球菌Cas9的预测PAM是NGG以及还有NAG。

根据某些方面，根据本文描述的方法结合特异性提高。因为多种复合物之间的协同性是通过Cas9N-VP64的靶基因激活的一个因素，所以由于单个脱靶结合事件应当具有最小化影响，Cas9N的转录调节应用是天然相当特异性的。根据一个方面，在基因组编辑方法中使用偏移切口。大部分的切口很少导致NHEJ事件，(参见Certo et al.,Nature Methods8,671-676(201 1)，通过引用将其全部内容结合于此)，因此最小化脱靶切口的影响。相反，诱导偏移切口来生成双链断裂(DSB)在诱导基因破坏中是高度有效的。根据某些方面，5'突出部分生成与3'突出部分相对的更显著的NHEJ事件。类似地，3'突出部分相对于NHEJ有利于HR，尽管当生成5'突出部分时，HR事件的总数显著较低。因此，提供了将切口用于同源重组以及将偏移切口用于生成双链断裂以最小化脱靶Cas9-gRNA活性的影响的方法。

图3A-3C涉及多重偏移切割以及用于降低向导RNA脱靶结合的方法。如图3A所示，将交通灯报告子(traffic light reporter)用于同时测定引入靶切口或断裂时的HR和NHEJ事件。通过HDR路径解决的DNA裂解事件，修复了GFP序列，而诱变NHEJ造成移码(frameshift)，呈现框架外的GFP和框架内的下游mCherry序列。对于测定，设计覆盖DNA的200bp的14个gRNA：7个靶向正义链(sense strand)(U1-7)以及7个反义链(D1-7)。使用切割互补链的Cas9D10A突变体、两种不同方式组合的gRNA来诱导一定范围内的编程的5'或3'突出部分(指出了14个gRNA的切割位点)。如图3B所示，诱导偏移切口来生成双链断裂(DSB)在诱导基因破坏中是高度有效的。应注意的是，导致5'突出部分的偏移切口产生与3'突出部分相对的更多NHEJ事件。如图3C所示，生成3'突出部分还有利于HR对NHEJ事件的比率，但是当生成5'突出部分时，HR事件的总数显著较低。

图11A-11B涉及Cas9D10A切口酶介导的NHEJ。如图11A所示，将交通灯报告子用于测定引入靶切口或双链断裂时的NHEJ事件。简单来说，在引入DNA裂解事件时，如果断裂经历诱变NHEJ，那么GFP移至框架外(框外)且框架内呈现下游mCherry序列，产生红色荧光。设计覆盖DNA的200bp链段的14个gRNA：7个靶向正义链(U1-7)以及7个反义链(D1-7)。如图11B所示，观察到与导致跨越所有靶的DSB和稳固NHEJ的野生型Cas9不同，大多数的切口(使用Cas9D10A突变体)很少导致NHEJ事件。所有14个位点位于DNA的邻近200bp链段内并观察到超过10倍的靶向效率的差异。

根据某些方面，本文描述了调控细胞中的靶核酸的表达的方法，包括将一个或多个、两个或更多个或多种外来核酸引入至细胞中。引入至细胞的外来核酸编码一种向导RNA或多种向导RNA、核酸酶无效Cas9蛋白或结构域和转录调节蛋白或结构域。向导RNA、核酸酶无效Cas9蛋白和转录调节蛋白或结构域一起称作共定位复合物，因为在向导RNA、核酸酶无效Cas9蛋白和转录调节蛋白或结构域结合至DNA并调节靶核酸的表达的意义上，本领域技术人员理解该术语。根据某些另外的方面，引入至细胞的外来核酸编码一种向导RNA或多种向导RNA和Cas9蛋白切口酶。向导RNA和Cas9蛋白切口酶一起称作共定位复合物，因为在向导RNA和Cas9蛋白切口酶结合至DNA并切割靶核酸的意义上，本领域技术人员理解该术语。

根据本公开内容的细胞包括任何按照本文中所描述的可以将外源核酸引入并且将其表达的细胞。应当理解的是，本文所描述的本公开的基本构思不受细胞类型的限制。根据本公开内容的细胞包括真核细胞、原核细胞、动物细胞、植物细胞、真菌细胞、古细菌细胞、真细菌细胞等。细胞包括诸如酵母细胞、植物细胞、和动物细胞的真核细胞。特定细胞包括哺乳动物细胞。进一步地，细胞包括对调节靶核酸有益或希望的任何细胞。这些细胞可以包括缺乏特定蛋白的表达导致疾病或有害状况的那些。这些疾病或有害状况是本领域技术人员容易知道的。根据本公开，可以通过本文描述的方法和导致靶核酸和对应的特定蛋白的表达上调的转录激活因子，靶向担负特定蛋白表达的核酸。以这种方式，本文描述的方法提供了治疗性处理。

靶核酸包括本文所描述的共定位复合物对其调节或切割可以有用的任何核酸序列。靶核酸包括基因。出于本公开内容的目的，如双链DNA的DNA可以包括靶核酸以及可以结合或以其他方式与DNA共定位在靶核酸或邻近或接近靶核酸的共定位复合物，并且其方式使得共定位复合物可以在靶核酸上具有期望的效果。这种靶核酸可以包括内源(或天然存在的)核酸和外源(或外来)核酸。基于本公开，技术人员将能够容易识别或设计共定位至包含靶核酸的DNA的导向gRNA和Cas9蛋白。技术人员将进一步地能够识别同样地共定位至包含靶核酸的DNA的转录调节蛋白或结构域。DNA包括基因组DNA、线粒体DNA、病毒DNA或外源DNA。

为了这种引入，可以使用本领域技术人员已知的任何方法将外来核酸(即，不是细胞的天然核酸组成部分的那些)引入至细胞中。这样的方法包括转染、转导、病毒转导、微注射、脂转染(lipofection)、核转染(nucleofection)、纳米颗粒轰击、转化、接合等。使用容易确定的文献来源，本领域的技术人员将容易地理解并改编这种方法。

作为转录激活因子的转录调节蛋白或结构域包含VP16和VP64以及其他本领域技术人员基于本公开容易确认的那些。

疾病和有害状况(detrimental condition)是由异常缺失特定蛋白的表达表征的那些。可以通过上调特定蛋白治疗这些疾病或有害状况。因此，提供了治疗疾病或有害状况的方法，其中，本文描述的共定位复合物关联在其他情况下结合至包含靶核酸的DNA，且共定位复合物的转录激活因子上调靶核酸的表达。例如，可以使用上调PRDM16和促进褐色脂肪分化并提高新陈代谢吸收的其他基因来治疗新陈代谢综合征或肥胖症。在自身免疫和心血管疾病中激活抗炎基因是有用的。在治疗癌症中激活肿瘤抑制基因是有用的。基于本公开，本领域的技术人员将容易确认这些疾病和有害状况。

给出以下实施例来代表本公开。这些实施例不应解释为限制本公开内容的范围，鉴于本公开、附图和所附的权利要求，这些和其他等同实施方式将是显而易见的。

实施例I

Cas9突变体

搜索与具有已知结构的Cas9同源的序列来确定Cas9中可以消除它的RuvC和HNH结构域的自然活性的候选突变。使用HHpred(www.toolkit.tuebingen.mpg.de/hhpred)，针对全部的蛋白质资料库(full Protein Data Bank)(2013年1月)查询Cas9的全部序列。该搜索返回与Cas9的HNH结构域具有明显序列同源性的两种不同HNH核酸内切酶；PacI和推断的核酸内切酶(分别是PDB ID:3M7K和4H9D)。检查这些蛋白质以发现镁离子配位中涉及的残基。然后在与Cas9的序列比对中，确定对应的残基。确定在每个结构中对齐到Cas9中的相同氨基酸类型的两个Mg配位侧链。它们是3M7K D92和N113以及4H9D D53和N77。这些残基对应于Cas9 D839和N863。还报告了PacI残基D92和N113突变为丙氨酸致使核酸酶催化失效。基于该分析，形成Cas9突变体D839A和N863A。另外，HHpred还预测了Cas9和嗜热栖热菌(Thermus thermophilus)RuvC(PDB ID:4EP4)的N端之间的同源性。这种序列比对覆盖之前报告的消除Cas9中RuvC结构域的功能的突变D10A。为了确认这是适当的突变，如前所述确定金属结合残基。在4EP4中，D7有助于配位镁离子。该位置具有对应于Cas9 D10的序列同源性，确定该突变有助于除去金属结合以及因此来自Cas9 RuvC结构域的催化活性。

实施例II

质粒构建

使用Quikchange试剂盒(Agilent technologies)生成Cas9突变体。靶gRNA表达构建体或者是(1)作为来自IDT的单个gBlock直接排序并克隆至pCR-BluntII-TOPO载体(Invitrogen)；或者是(2)由Genewiz定制合成；或者是(3)使用寡核苷酸的Gibson装配组装至gRNA克隆载体(质粒#41824)。通过将带有终止密码子和适当片段的GFP序列融合PCR组装至来自Addgene的EGIP慢病毒载体(质粒#26777)构建包含断裂GFP的用于HR报告子测定的载体。然后将这些慢病毒载体用于建立GFP报告子稳定系。使用标准方案构建该研究中使用的TALEN。参见Sanjana et al.,Nature Protocols 7,171-192(2012)，通过引用将其全部内容结合于此。使用标准PCR融合方案步骤进行Cas9N和MS2 VP64融合。由Addgene得到用于OCT4和REXl的启动子荧光素酶构建体(质粒#17221和质粒#17222)。

实施例III

细胞培养和转染

HEK 293T细胞培养在Dulbecco's改良的Eagle's培养基(DMEM，Invitrogen)高葡萄糖中，其中补充有10％胎牛血清(FBS，Invitrogen)、青霉素/链霉素(pen/strep，Invitrogen)和非必需氨基酸(NEAA，Invitrogen)。在湿度培养箱中在37℃和5％CO₂下维持细胞。

包括核酸酶测定的转染如下：按照制造商的方案使用Lipofectamine 2000用2μgCas9质粒、2μg gRNA和/或2μg DNA供体质粒转染0.4×10⁶个细胞。转染3天后收获细胞，并且要么通过FACS分析，要么使用DNAeasy试剂盒(Qiagen)提取～1X 10⁶细胞的基因组DNA用于直接测定基因组切口。对于这些，进行PCR以扩增具有源自细胞的基因组DNA的靶向区域并且通过具有覆盖>200000读取的MiSeq Personal Sequencer(Illumina)深度测序扩增子。分析测序数据以评估NHEJ效率。

对于包括转录激活测定的转染：用(1)2μg Cas9N-VP64质粒、2μg gRNA和/或0.25μg报告子构建体；或(2)2μg Cas9N质粒、2μg MS2-VP64、2μg gRNA-2XMS2适体和/或0.25μg报告子构建体转染0.4×10⁶个细胞。转染24-48小时后得到细胞并使用FACS或免疫荧光方法测定；或提取它们的总RNA并随后通过RT-PCR分析这些。此处使用Invitrogen用于OCT4和REX1的标准taqman探针，针对GAPDH进行每个样品的归一化。

对于包括用于Cas9-gRNA复合物和TALE的特异性曲线的转录激活测定的转染：用(1)2μg Cas9N-VP64质粒、2μg gRNA和0.25μg报告子文库；或(2)2μg TALE-TF质粒和0.25μg的报告子文库；或(3)2μg对照TF质粒和0.25μg报告子文库转染0.4×10⁶个细胞。转染24小时后得到细胞(以避免饱和模式的报告子刺激)。使用RNAeasy-plus试剂盒(Qiagen)进行总的RNA提取，并使用Superscript-III(Invitrogen)进行标准RT-pcr。通过靶向pcr扩增转录本标签生成用于下一代测序的文库。

实施例IV

用于计算Cas9-TF和TALE-TF报告子表达水平的计算机和序列分析

图8A中描绘了用于该过程的高水平逻辑流程，并在此处给出另外的细节。对于构建体文库组成的细节，参见图8A(水平1)和8B。

测序：为了Cas9试验，作为Illumina MiSeq上的150bp重叠配对末端读取得到构建体文库(图8A，水平3，左)和报告子基因cDNA序列(图8A，水平3，右)，同时为了TALE试验，作为Illumina HiSeq上的51bp非重叠配对末端读取得到对应序列。

构建体文库序列处理：比对：为了Cas9试验，使用novoalign V2.07.17(www.novocraft.com/main/index/php)来比对配对读取于对应于侧接8bp文库条形码对的234bp构建体的一组250bp参考序列(参见图8A，第3水平，左)。在提供给novoalign的参考序列中，将23bp简并Cas9结合位点区域和24bp简并转录本标签区域(参见图8A，第一水平)指定为Ns，同时明确提供了构建体文库条形码。对于TALE试验，除了参考序列长度是203bp以及简并结合位点区域长度是18bp对23bp，使用相同的步骤。有效性检验：Novoalign输出用于包含的文件，其中，每个读取对的左侧和右侧读取单独比对至参考序列。仅二者唯一比对至参考序列的读取对经历另外的有效性条件，且仅保留通过所有这些条件的读取对。有效性条件包括：(i)两个构建体文库条形码中的每个必须比对至少4位置至参考序列条形码，并且两个条形码必须是用于相同构建体文库的条形码对，(ii)比对至参考序列的N区域的所有碱基必须被novoalign称为As、Cs、Gs或Ts。应注意的是，对于Cas9或TALE试验，左侧和右侧读取都不在参考N区域重叠，使得必须不会发生这些N碱基的模糊novoalign调用的可能性，(iii)同样，没有称为novoalign的***或缺失发生在这些区域，(iv)在转录标签区域必须没有Ts出现(由于这些随机序列仅由As、Cs和Gs生成)。将违反这些条件中的任一种的读取对收集在拒绝读取对文件中。使用用户perl脚本实施这些有效性检验。

诱导样品报告子基因cDNA序列处理：比对：首先将SeqPrep(从www.github.com/jstjohn/SeqPrep上下载)用于合并重叠读取对至79bp共有片段，之后将novoalign(以上版本)用于比对作为未配对单个读取的这些79bp共有片段至一组参考序列(参见图8A，第3水平，右)，其中，(对于构建体文库测序)将24bp简并转录标签指定为Ns，同时明确提供样品条形码。TALE和Cas9 cDNA序列区域都对应于侧接8bp样品条形码序列对的cDNA的相同63bp区域。有效性检验：应用与构建体文库测序相同的条件(参见以上)，除了(a)此处，由于先前SeqPrep合并读取对，有效性处理不必要过滤读取对中唯一比对的两个对，但是仅过滤合并读取的唯一比对，(b)仅读取cDNA序列中出现的转录标签，使得有效性处理仅应用参考序列的这些标签区域且不会应用至单独的结合位点区域。

结合位点对转录本标签关联的表汇编：将用户perl用于由有效的构建体文库序列生成这些表格(图8A，第4水平，左)。尽管由A、C和G碱基组成的24bp标签序列应当必要地在构建体文库中是唯一的(共享概率＝～2.8e-11)，结合位点对标签关联的早期分析显示不可忽略部分的标签序列事实上由多个结合序列共享，可能主要由结合序列中的序列错误组合导致或用于生成构建体文库的寡核苷酸中的寡核苷酸合成错误导致。如果由于条形码错配不清楚可能来自哪个构建体文库的话，除了标签共享，在有效读取对中发现的与结合位点相关的标签也可以在构建体文库读取对拒绝文件中发现。最终，标签序列本身可能包含序列错误。为了处理这些错误源，通过三个属性分类标签：(i)安全与不安全，其中，不安全意思是标签可以在构建体文库拒绝读取对文件中找到；共有与非共有，其中，共有意思是发现标签与多个结合位点序列相关，以及2+与仅1，其中，2+意思是标签在有效构建体文库序列中至少出现两次从而推断很少可能包含序列错误。合并这三种标准产生与每个结合位点相关的8类标签，最可靠的(但最不丰富的)类别仅包含安全的、非共有的2+标签；以及最不可靠的(但最丰富的)类别包含不考虑安全、共有或出现次数的所有标签。

计算归一化表达水平：将用户perl编码用于实施图8A、水平5-6中指出的步骤。首先，使用先前针对构建体文库计算的结合位点对转录本标签表格，汇集针对每个结合位点的对每个诱导样品得到的标签数(参见图8C)。对于每个样品，然后用针对阳性对照样品汇集的标签数除针对每个结合位点汇集的标签数以生成归一化表达水平。与这些计算相关的其他考虑包括：

1.对于每个样品，在检验有效的cDNA基因序列中发现在结合位点对转录本标签关联表格中不可能发现的“新型”标签的子集。在随后的计算中忽略这些标签。

2.针对以上在结合位点对转录本标签关联表格中描述的八类标签的每种进行以上描述的标签数的汇集。因为通常使构建体文库中的结合位点偏倚为生成类似于中心序列的序列，但是越来越罕见地偏向错配数增加的序列，所以将总体上具有几个错配的结合位点聚集至大量的标签，而将具有更多错配的结合位点聚集至较小数目。因此，尽管一般希望使用最可靠标签类别，但是评估具有两个或更多个错配的结合位点可能是基于每结合位点小数量的标签，使得即使标签本身更可信赖，可靠数和比值在统计学上也不太可靠。在这种情况下，使用所有标签。对该考虑的一些补偿由对n个错配位置单独汇集的标签数随错配位置的组合数增长(等于

)，从而明显随n增加的事实得到；因此对不同n个错配汇集的标签数的平均值(图2B、2E和图9A、10B所示)是基于对于n≥2的统计学非常大的一组汇集标签数。

3.最后，建立至TALE构建体文库的结合位点是18bp并且基于这些18bp序列赋予标签关联，但是用编程结合至18bp构建体结合位点区域内的中心14bp或10bp区域的TALE进行这些试验。在计算针对这些TALE的表达水平中，基于关联表格中18bp结合位点的对应区域将标签汇集至结合位点，使得忽略该区域外的结合位点错配。

实施例V

载体和菌株构建

从NCBI获得嗜热链球菌、脑膜炎奈瑟氏球菌和齿垢密螺旋体(T.denticola)的Cas9序列并使用JCAT(www.jcat.de)²⁷进行人密码子优化，并修饰其以促进大肠杆菌中DNA的合成和表达。通过分级重叠PCR(hierarchical overlap PCR)和等温组装(isothermalassembly)加入500bp gBlock(Integrated DNA Technologies,Coralville IA)²⁴。将得到的全长产物亚克隆至细菌和人类表达载体。通过标准方法由这些模板构建核酸酶无效Cas9盒(NM：D16A D587A H588A N611A，SP：D10A D839A H840A N863A，STl：D9A D598A H599AN622A，TD：D13A D878A H879A N902A)。

实施例VI

细菌质粒

使用中等强度的proC组成型启动子由cloDF13/aadA质粒骨架在细菌中表达Cas9。作为gBlock合成包含来自天然细菌基因座的启动子和终止子的tracrRNA盒并将其***至每种载体的Cas9编码序列的下游用于稳固的tracrRNA生产。当预期tracrRNA盒在相反方向另外包含启动子时，则***λtl终止子来防止cas9转录干扰。细菌靶向质粒是基于具有强J23100启动子，随后是先前使用SP确定功能的两个20碱基对间隔区序列(图13D)中的一个的pl5A/cat骨架。间隔区序列紧接着是图12A中描绘的三个36碱基对重复序列中的一个。YFP报告子载体是基于具有驱动GFP的pR启动子以及EYFP编码序列之前的T7 g10 RBS的pSCl01/kan骨架，前间隔区1和AAAAGATT PAM***至5'UTR中的非模板链。用于细菌中的正交测试的底物质粒与文库质粒(参见以下)相同但是具有以下PAM：GAAGGGTT(NM)，GGGAGGTT(SP)，GAAGAATT(ST1)，AAAAAGGG(TD)。

实施例VII

哺乳动物载体

哺乳动物Cas9表达载体是基于具有C端SV40 NLS的pcDNA3.3-TOPO。通过比对crRNA重复与tracrRNA并融合5'crRNA重复至3'tracrRNA设计用于每种Cas9的sgRNA，从而得到用于Cas9相互作用的稳定的茎²⁵。通过将455bp gBlock克隆至pCR-BluntII-TOPO载体骨架生成sgRNA表达构建体。间隔区与用于先前工作⁸的那些相同。用之前描述的那些修饰用于断裂GFP HR报告子测定的慢病毒载体以包含用于每种Cas9并用于建立稳定的GFP报告子系的适当PAM序列。

构建由融合至VP64激活因子的核酸酶无效Cas9蛋白和带有由基本启动子驱动的tdTomato的对应报告子构建体组成的RNA向导的转录激活。

实施例VIII

文库构建和转化

通过使用编码随后是8个随机碱基的两个前间隔区序列中的一个的引物(IDT，Coralville，IA)扩增pZE21载体(ExpressSys，Ruelzheim，Germany)构建前间隔区文库并通过标准等温方法组装²⁴。最初将文库组装体转化至NEBTurbo细胞(New England Biolabs，Ipswich MA)，根据稀释平板法产生每库>1E8个克隆，并通过Midiprep(Qiagen，CarlsbadCA)纯化。用200ng每种文库转化包含Cas9表达质粒(DS-NMcas，DS-STlcas或DS-TDcas)和靶向质粒(PM-NM！spl，PM-NM！sp2，PM-STl！spl，PM-ST1！sp2，PM-TD！spl或PM-TD！sp2)的电感受态NEBTurbo细胞并在用包含放线壮观霉素(spectinomycin)(50μg/mL)、氯霉素(30μg/mL)和卡那霉素(50μg/mL)的介质稀释之前在37℃下恢复(recover)2小时。涂布连续稀释液来评估转化后的文库大小。所有文库超过～1E7个克隆，指示65536随机PAM序列的完全覆盖。

实施例IX

高通量测序

在12小时抗生素选择之后，通过离心柱(spin column)(Qiagen，Carlsbad CA)收获文库DNA。用条形码引物和由重叠25bp配对末端读取得到的序列在Illumina MiSeq上扩增完整的PAM。MiSeq产生18411704总读取或9205852个配对末端读取(paired-end read)，每个文库的平均质量得分>34。合并并过滤配对末端读取用于彼此、它们的前间隔区和质粒骨架的完美比对。整理合并过滤的剩余7652454个读取以除去质粒骨架和前间隔区序列，然后用于生成用于每个PAM文库的位置权重矩阵(position weight matrix)。每个文库组合收到至少450000个高质量读取。

实施例X

序列处理

为了计算每个候选PAM的倍数消耗，我们采用两种脚本过滤数据。pattemProp(usage：python pattemProp.py[PAM]file.fastq)返回匹配指出的PAM的每个1碱基衍生物的读取的数目和部分。patternProp3返回相对于文库的读取总数的匹配每个1碱基衍生物的读取部分。将详述每个计算的PAM的消耗比值的电子数据表(spreadsheet)用于确认所有1碱基衍生物中的最小倍数消耗，并从而分类PAM。

实施例XI

细菌中的抑制和正交性测定

通过用两种对应的靶向质粒中的每种转化NM表达质粒和YFP报告子质粒测定Cas9介导的抑制。挑取具有匹配或错配间隔区和前间隔区的集落(克隆)并使其在96孔板上生长。使用Synergy Neo微板读取仪(BioTek，Winooski VT)测量495/528nm处的荧光和600nm处的吸光度。

通过制备带有Cas9和靶向质粒的所有组合的电感受态NEBTurbo细胞并用带有适当的用于每种Cas9的PAM的匹配或错配底物质粒转化它们从而进行正交性测试。涂布足够的细胞和稀释液以确保甚至对于校正的Cas9+靶向+匹配前间隔区组合出现至少一些集落，集落通常由于Cas9或crRNA的突变失活而出现。计数集落并对每个计算倍数消耗。

实施例XII

细胞培养和转染

HEK 293T细胞培养在Dulbecco's改良的Eagle's培养基(DMEM，Invitrogen)高葡萄糖，补充有10％胎牛血清(FBS，Invitrogen)、青霉素/链霉素(pen/strep，Invitrogen)和非必需氨基酸(NEAA，Invitrogen)。在湿度培养箱中在37℃和5％CO₂下维持细胞。

包括核酸酶测定的转染如下：按照制造商的方案使用Lipofectamine 2000用2μgCas9质粒、2μg gRNA和/或2μg DNA供体质粒转染0.4×10⁶个细胞。转染3天后得到细胞，并且要么通过FACS分析，要么使用DNAeasy试剂盒(Qiagen)提取～1X10⁶细胞的基因组DNA用于直接测定基因组切口。

包括转录激活测定的转染如下：用2μg Cas9_N-VP64质粒、2μg gRNA和/或0.25μg报告子构建体转染0.4×10⁶个细胞。转染24-48小时后收获细胞并使用FACS或免疫荧光方法测定；或提取它们的总RNA并随后通过RT-PCR分析。

实施例XIII

选择推断的正交Cas9蛋白

通过crRNA中的36碱基对重复序列主要确定Cas9 RNA结合和sgRNA特异性。检查已知的Cas9基因用于它们相邻CRISPR基因座中的高度发散式重复(highly divergentrepeat)。选择化脓性链球菌(酿脓链球菌，Streptococcus pyogenes)和嗜热链球菌(Streptococcus thermophilus)CRISPRl Cas9蛋白(SP和ST1)^6,22以及来自脑膜炎奈瑟氏球菌(NM)和齿垢密螺旋体(Treponema denticola)(TD)的另两种Cas9蛋白，其基因座具有彼此之间以及与SP和ST1的那些存在至少13个核苷酸区别的重复(图12A)。

实施例XIV

PAM表征

Cas9蛋白将仅靶向侧接有对感兴趣的Cas9特异性的3'PAM序列的dsDNA序列。在四种Cas9变体中，仅SP具有试验表征的PAM，而ST1 PAM和最近的NM PAM是生物信息学推导的。SP由于它的NGG的短PAM可容易靶向¹⁰，而分别因为NNAGAAW和NNNNGATT的PAM，ST1和NM靶向较不容易靶向^22,23。生物信息学方法由于间隔区获取步骤，推断出比用于效应物裂解经验所需的更严格的对Cas9活性的PAM要求。因为PAM序列是逃逸噬菌体(escape phage)中最常见的突变靶，所以获取的PAM中的冗余将阻碍耐性。采用基于文库的方法来使用高通量测序全面表征细菌中的这些序列。

由合成片段组装编码ST1、NM和TD的基因并将其与它们相关的tracrRNA一起克隆至细菌表达质粒中(图12B)。选择两种SP功能的间隔区用于结合至六种靶向质粒。每种靶向质粒编码组成型表达的crRNA，其中，两种间隔区中的一种之后是对Cas9蛋白特异性的36碱基对重复序列(图12B)。通过PCR和组装生成包含两种前间隔区中的一种之后是所有可能的8碱基对PAM序列的质粒文库²⁴。将每个文库电穿孔至具有Cas9表达和靶向质粒的大肠杆菌细胞，用于Cas9蛋白、间隔区和前间隔区的总共12种组合。通过条形码PCR选择性扩增并通过MiSeq测序存活的文库质粒以区分功能PAM序列和非功能PAM，仅当间隔区和前间隔区匹配时，功能PAM序列消耗(图12C-12D)，非功能PAM永远不会消耗(图12D-12E)。为了图形描绘每个位置每种核苷酸的重要性，绘制了用于匹配的间隔区-前间隔区对的每个碱基相对于对应的错配情况的log相对频率(图13A-13F)。

NM和ST1识别没有之前生物信息预测严格但更复杂的PAM，证明对间隔区获取的要求比对效应物裂解的那些更严格。NM主要要求距离前间隔区的3'端有五个碱基定位的单个G核苷酸(图13A)，而ST1和TD都要求至少三个特异性碱基(图5b)。位置分选结果允许量化每个前间隔区文库的任何PAM序列的消耗(图13D-13F)。对几乎所有的PAM，所有三种酶裂解前间隔区2比前间隔区1更有效，ST1表现出大约10倍的不均等性。然而，在这种相互作用中还存在相当的PAM依赖性变化。例如，NM大约同等地裂解前间隔区1和2，当它们之后是匹配TNNNGNNN的序列时，但是当PAM匹配ANNNGNNN时，裂解前间隔区2有效10倍。

结果突出了对于给定的Cas9定义单种可接受的PAM的难度。不仅活性水平取决于前间隔区序列，而且不利的PAM碱基的特定组合可以显著降低活性，甚至当满足主要的碱基要求时也如此。我们最初将PAM识别为以下模式：经历用较低活性前间隔区1的>100倍平均消耗和用一种固定的另外碱基的所有衍生物的>50倍消耗(表1，纯文本)。虽然推断这些水平足以抵抗细菌中的靶，但是有害突变的具体组合显著降低活性。例如，NM仅4倍消耗匹配NCCAGGTN的序列。限定要求>500倍消耗匹配序列和>200倍消耗一种碱基衍生物的更严格的阈值用于要求高亲和性的应用(表1，粗体)。

表1

实施例XV

细菌中的转录调节

已经表明SP的核酸酶无效变体在细菌中抑制靶基因，效率取决于靶前间隔区和PAM的位置¹⁸。因为NM的PAM比SP的PAM出现更频繁，所以核酸酶无效变型类似地能够靶向抑制。通过同源并失活以生成推断的核酸酶无效NM的序列确认RuvC和HNH核酸酶结构域的催化残基。为了创建合适的报告子，用适当的PAM将前间隔区1***至YFP报告子质粒的5'UTR内的非模板链(图14A)。将这些构建体与先前使用的两种NM靶向质粒中的每种一起共同转化至大肠杆菌并测量了它们的比较荧光。具有匹配间隔区和前间隔区的细胞表现出比对应的错配情况弱～22倍的荧光(图14B)。这些结果证明NM可以起容易靶向的抑制因子的作用来控制细菌中的转录，显著增加可以经受Cas9介导的抑制的内源基因的数目。

实施例XVI

细菌中的正交性

针对Cas9蛋白的完全不同的crRNA重复序列，选择一组Cas9蛋白。为了验证事实上它们是正交的，用包含间隔区2的所有四种靶向质粒共同转化每种Cas9表达质粒。通过转化包含前间隔区1或前间隔区2和合适的PAM的底物质粒挑战这些细胞。仅当每种Cas9与它自己的crRNA配对时观察到质粒消耗，表明所有四种构建体在细菌中的确是正交的(图15)。

实施例XVII

人类细胞中的基因组编辑

然后将这些Cas9变体用于设计人类细胞。通过检查crRNA和tracrRNA之间的互补区域²⁵并通过茎-环将两个序列融合在与为SP创建的sgRNA的那些相似的多个融合节点，由两种较小Cas9同源物NM和STl的对应crRNA和tracrRNA构建单一向导RNA(sgRNA)。在多个连续尿嘧啶造成表达系统中的Pol III终止的特定情况中，多个单碱基突变体生成。总是包括完整的3'tracrRNA序列，因为截短已知是不利的⁸。使用之前描述的同源重组测定在293细胞中与它们对应的Cas9蛋白一起测定所有sgRNA的活性⁸。简单来说，针对每种Cas9蛋白构建基因组整合的非荧光GFP报告子系，其中，GFP编码序列被编码终止密码子和具有功能PAM的前间隔区序列的***中断。用编码Cas9蛋白和对应的sgRNA以及能够在核酸酶诱导的同源重组时恢复荧光的修复供体的表达载体转染报告子系(图16A)。以与SP诱导的水平可比较的水平观察ST1和NM介导的编辑。具有5个连续尿嘧啶的STl sgRNA有效作用，表明PolIII终止没有在足以消弱活性的水平上发生。全长crRNA-tracrRNA融合体在所有情况中是活性的并且可用于嵌合sgRNA设计。NM和ST1两者都能够在人类细胞中使用嵌合的向导RNA有效编辑基因。

实施例XVIII

哺乳动物细胞中的Cas9正交性

已经发现人类细胞中用于NM和ST1活性的高度有效的sgRNA，验证了三种蛋白质都不能被其他的sgRNA向导。将相同的同源重组测定用于测量与三种sgRNA中的每种组合的NM、SP和ST1的比较效率。确定所有三种Cas9蛋白彼此是完全正交的，证明它们在相同细胞内能够靶向不同的和不重叠的序列组(图16B)。为了对比正交靶向中sgRNA和PAM的功能，用SP和ST1以及它们各自的sgRNA测试了多种下游PAM序列。由于通过用于对应Cas9的特异性sgRNA亲和性几乎完全确定了正交性，所以要求匹配sgRNA和有效PAM两者用于活性。

实施例XIX

人类细胞中的转录激活

NM和ST1在人类细胞中介导转录激活。将核酸酶无效的NM和ST1基因在C端融合至VP64激活因子以产生SP激活因子之后模拟的推断的RAN向导的激活因子。用于激活的报告子构建体由在tdTomato编码区域的上游***有适当PAM的前间隔区组成。共转染表达RNA向导的转录激活因子、sgRNA和适当的报告子的载体，并通过FACS测量转录激活的程度(图17A)。在每种情况中，观察到通过所有三种Cas9变体的稳固的转录激活(图17B)。每种Cas9激活因子仅在与它对应的sgRNA配对时刺激转录。

实施例XX

讨论

使用用于全面的PAM表征的两个不同前间隔区允许探查支配前间隔区和PAM识别的复杂性。差异性前间隔区裂解效率在多种Cas9蛋白中表现出一致的趋势，尽管悬殊幅度在直系同源物之间显著变化。这种模式表明在D环形成和稳定化作用中的序列依赖性区别决定了每种前间隔区的基本靶向效率，但是另外的Cas9或重复依赖性因子也起作用。类似地，许多因素妨碍用单序列基序描述PAM识别的效果。与主要的PAM识别决定簇相邻的单个碱基可以合并以显著降低总亲和性。实际上，某些PAM看起来与间隔区或前间隔区非线性相互作用来决定总活性。此外，完全不同的细胞型的不同活性可能要求不同的亲和性水平。最后，试验识别的PAM比由生物信息学分析推断的那些要求较少的碱基，表明间隔区获取要求与效应物裂解的那些不同。

这种区别对脑膜炎奈瑟氏球菌的Cas9蛋白最为显著，其相对于它的生物信息学预测和化脓性链球菌的目前受欢迎的Cas9具有较少的PAM要求。其发现显著扩大至可以被Cas9蛋白容易靶向的许多序列。在长度3.25kbp上，其还比SP小850bp，这在基因递送能力限制时是显著优势。最值得注意的是，NM和ST1两者都足够小来固定至用于治疗应用的AAV载体，而NM可以代表用于设计为改变PAM识别或特异性的引导演变努力的更合适的开始点。

通过引用将以下参考文献的全部内容结合于此用于所有目的。

参考文献

1.Bhaya,D.，Davison，M.&Barrangou，R.CRISPR-Cas systems in bacteria andarchaea：versatile small RNAs for adaptive defense and regulation.Annualreview of genetics 45,273-297(2011).

2.Wiedenheft，B.,Sternberg,S.H.&Doudna，J.A.RNA-guided geneticsilencing systems in bacteria and archaea.Nature 482,331-338(2012).

3.Gasiunas,G.,Barrangou,R.,Horvath,P.&Siksnys,V.Cas9-crRNAribonucleoprotein complex mediates specific DNA cleavage for adaptiveimmunity in bacteria.Proceedings of the National Academy of Sciences of theUnited States of America 109,E2579-2586(2012).

4.Jinek,M.et al.A programmable dual-RNA-guided DNA endonuclease inadaptive bacterial immunity.Science 337,816-821(2012).

5.Cho,S.W.,Kim,S.，Kim，J.M.&Kim，J.S.Targeted genome engineering inhuman cells with the Cas9 RNA-guided endonuclease.Nature biotechnology 31,230-232(2013).

6.Cong,L.et al.Multiplex genome engineering using CRISPR/Cassystems.Science 339,819-823(2013).

7.Ding,Q.et al.Enhanced efficiency of human pluripotent stem cellgenome editing through replacing TALENs with CRISPRs.Cell stem cell 12,393-394(2013).

8.Mali,P.et al.RNA-guided human genome engineering via Cas9.Science339,823-826(2013).

9.Wang,H.et al.One-Step Generation of Mice Carrying Mutations inMultiple Genes by CRISPR/Cas-Mediated Genome Engineering.Cell 153,910-918(2013).

10.Jiang,W.,Bikard,D.,Cox,D.,Zhang,F.&Marraffini,L.A.RNA-guidedediting of bacterial genomes using CRISPR-Cas systems.Nature biotechnology31,233-239(2013).

11.Boch,J.et al.Breaking the code of DNA binding specificity of TAL-type III effectors.Science 326,1509-1512(2009).

12.Gaj,T.,Gersbach,C.A.&Barbas,C.F.，3rd ZFN，TALEN，and CRISPR/Cas-based methods for genome engineering.Trends in biotechnology(2013).

13.Hockemeyer，D.et al.Efficient targeting of expressed and silentgenes in human ESCs and iPSCs using zinc-finger nucleases.Naturebiotechnology 27,851-857(2009).

14.Kim,Y.G.,Cha,J.&Chandrasegaran,S.Hybrid restriction enzymes：zincfinger fusions to Fok I cleavage domain.Proceedings of the National Academyof Sciences of the United States of America 93,1156-1160(1996).

15.Moscou,M.J.&Bogdanove,A.J.A simple cipher governs DNA recognitionby TAL effectors.Science 326,1501(2009).

16.Porteus,M.H.&Carroll,D.Gene targeting using zinc fingernucleases.Nature biotechnology 23，967-973(2005).

17.Urnov，F.D.et al.Highly efficient endogenous human gene correctionusing designed zinc-finger nucleases.Nature 435，646-651(2005).

18.Qi,L.S.et al.Repurposing CRISPR as an RNA-guided platform forsequence-specific control of gene expression.Cell 152,1173-1183(2013).

19.Beerli，R.R.，Dreier，B.&Barbas，C.F.,3rd Positive and negativeregulation of endogenous genes by designed transcription factors.Proceedingsof the National Academy of Sciences of the United States of America 97,1495-1500(2000).

20.Podgornaia,A.I.&Laub,M.T.Determinants of specificity in two-component signal transduction.Current opinion in microbiology 16,156-162(2013).

21.Purnick,P.E.&Weiss,R.The second wave of synthetic biology：frommodules to systems.Nature reviews.Molecular cell biology 10,410-422(2009).

22.Horvath,P.et al.Diversity,activity,and evolution of CRISPR lociinStreptococcus thermophilus.Journal of bacteriology 190,1401-1412(2008).

23.Zhang,Y.et al.Processing-Independent CRISPR RNAs Limit NaturalTransformation in Neisseria meningitidis.Molecular cell 50,488-503(2013).

24.Gibson,D.G.et al.Enzymatic assembly of DNA molecules up to severalhundred kilobases.Nature methods 6,343-345(2009).

25.Deltcheva,E.et al.CRISPR RNA maturation by trans-encoded small RNAand host factor RNase III.Nature 471,602-607(2011).

26.Bondy-Denomy，J.，Pawluk，A.,Maxwell,K.L.&Davidson，A.R.Bacteriophagegenes that inactivate the CRISPR/Cas bacterial immune system.Nature 493，429-432(2013).

27.Grote，A.et al.JCat：a novel tool to adapt codon usage of a targetgene to its potential expression host.Nucleic acids research 33，W526-531(2005).

47页详细技术资料下载

用于RNA向导的基因调节和编辑的正交Cas9蛋白

相关技术

网友询问留言