使用空肠弯曲杆菌crispr/cas系统衍生的rna引导的工程化核酸酶的基因编辑

文档序号:1961370 发布日期:2021-12-14 浏览:21次 >En<

阅读说明:本技术 使用空肠弯曲杆菌crispr/cas系统衍生的rna引导的工程化核酸酶的基因编辑 (Gene editing using Campylobacter jejuni CRISPR/CAS system-derived RNA-guided engineered nucleases ) 是由 金殷智 金奭中 于 2015-08-06 设计创作,主要内容包括:本文提供的公开涉及空肠弯曲杆菌(Campylobacter jejuni)CRISPR/CAS系统衍生的RNA引导的工程核酸酶(RGEN)及使用其的方法。(The disclosure provided herein relates to Campylobacter jejuni (Campylobacter jejuni) CRISPR/CAS system-derived RNA-guided engineered nucleases (RGENs) and methods of using the same.)

使用空肠弯曲杆菌CRISPR/CAS系统衍生的RNA引导的工程化 核酸酶的基因编辑

本发明申请是2015年8月6日申请的申请号为201580052262.5(使用空肠弯曲杆菌CRISPR/CAS系统衍生的RNA引导的工程化核酸酶的基因编辑)的发明申请的分案申请。

技术领域

本发明涉及空肠弯曲杆菌(Campylobacter jejuni)CRISPR/CAS系统衍生的RNA引导的工程化核酸酶(RGEN)及使用其的方法。

背景技术

工程化核酸酶可以用于通过在基因组中的期望位置处产生位点特异性双链断裂来有效地操作活细胞或整个生物体中的基因(Nat Rev Genet,2014.15(5):第321-34页)。工程化核酸酶,其包含为II型限制性酶定制的DNA结合结构域和核酸酶结构域,在生物技术和医学领域以及各种其他工业中具有广谱的基因组工程应用。最近,基于CRISPR/CAS9细菌适应性免疫系统开发了更有效的RGEN平台。

RGEN靶向的序列限于原间隔序列邻近基序(PAM),其是紧接在由Cas9核酸酶靶向的DNA序列之后的DNA序列。PAM序列先前在CRISPR细菌适应性免疫系统中不是可重编程的。规范PAM包含序列5'-NGG-3',并且与源自化脓性链球菌的CAS9核酸酶的RGEN相连。因此,GG基序是RGEN进行DNA识别的先决条件。为了扩增用作PAM的序列,已经尝试用通用的PAM从不同的细菌物种中分离RGEN。事实上,已经发现不同的PAM与嗜热链球菌(Streptococcusthermophilus)(PAM:NNAGAAW)和脑膜炎奈瑟球菌(Neisseria meningitidis)(PAM:NNNNGATT)的CAS9蛋白相关,拓宽了确定RGEN靶位点的选择范围。

发明内容

技术问题

如本文所述,对来自化脓性链球菌(Streptococcus pyogenes)以外的细菌的RGEN的开发的深入和彻底的研究已经导致发现来源于空肠弯曲杆菌(Campylobacter jejuni,C.jejuni)的Cas蛋白特异性识别NNNNRYAC序列,其可以在靶向目标DNA中作为PAM使用。此外,可以对引导RNA进行工程化以使DNA最优化,从而导致有效的基因组编辑、转录调节和目标DNA的分离。

技术解决方案

因此,一方面,本发明提供了用于靶向包含SEQ ID NO:1的PAM序列的DNA序列的方法,所述方法包括将识别SEQ ID NO:1的PAM序列的Cas蛋白,或编码Cas蛋白的核酸导入细胞。

在另一方面,本发明提供了分离的引导RNA,其包含能够与邻近SEQ ID NO:1的PAM序列的感兴趣的目标DNA序列的互补链形成双链体(形成碱基对或杂交)的序列,或包含其的组合物。

在另一方面,本文提供的公开内容提供了CRISPR-CAS系统,其包含:(i)引导RNA,其包含能够与邻近NNNNRYAC(SEQ ID NO:1)的PAM序列的靶DNA序列形成双链体的序列,或编码引导RNA的DNA,和(ii)识别NNNNRYAC序列(SEQ ID NO:1)的Cas蛋白,或编码Cas蛋白的核酸。

在另一方面,本文提供的公开内容提供了重组病毒载体,其包含(i)用于引导RNA的表达盒,其包含能够与邻近PAM序列NNNNRYAC(SEQ ID NO:1)的靶DNA序列形成双链体的序列,和(ii)识别PAM序列NNNNRYAC(SEQ ID NO:1)的Cas蛋白的表达盒。

在另一方面,本公开提供了分离的引导RNA,其包含长度为21-23bp、能够与靶DNA序列的互补链形成双链体的序列,或包含其的组合物。

在另一方面,本公开提供了分离的引导RNA,其包含:包含能够与靶DNA序列的互补链形成双链体的序列的第一区域和包含茎环结构的第二区域,所述茎环结构以长度为13-18bp的茎为特征,或包含分离的引导RNA的组合物。

在另一方面,本公开提供了分离的引导RNA,其包含:包含能够与靶DNA序列的互补链形成双链体的序列的第一区域和包含茎环结构的第二区域,所述茎环结构以长度为5-10bp的环为特征,或包含分离的引导RNA的组合物。

在另一方面,本公开提供了在细胞中基因组编辑的方法,其包括将分离的引导RNA或编码分离的引导RNA的DNA,和Cas蛋白或编码Cas蛋白的核酸,导入细胞。

在另一方面,本公开提供了裂解细胞中靶DNA的方法,其包括将分离的引导RNA或编码分离的引导RNA的DNA和Cas蛋白或编码Cas蛋白的核酸导入细胞。

在另一方面,本公开提供了制备引导RNA的靶DNA识别序列的方法,包括:(i)鉴定给定序列中PAM序列NNNNRYAC(SEQ ID NO:1)的存在;和(ii)如果在步骤(i)中鉴定到PAM序列的存在,则将位于PAM序列NNNNRYAC(SEQ ID NO:1)上游的序列确定为可被引导RNA识别。

在另一方面,本公开提供了分离目标DNA的方法,包括:(i)将引导RNA或编码引导RNA的DNA连同失活Cas蛋白或编码失活的核酸Cas蛋白导入细胞中,以允许引导RNA和失活Cas蛋白与包含靶DNA序列的目标DNA形成复合物;和(ii)从样品中分离复合物。

在另一方面,本公开提供了用于包含靶DNA序列的目标DNA中的Cas介导的基因表达调节的方法,包括将特异性识别靶DNA序列的分离的引导RNA或编码引导RNA的DNA,和与转录效应子(transcription effector)结构域融合的失活Cas蛋白或编码失活Cas蛋白的核酸导入细胞。

有益效果

如上所述,在一些实施方案中,CRISPR/Cas系统可以有效地用于靶向靶DNA,从而实现基因组编辑、转录调节和目标DNA的分离。

附图说明

图1描绘了空肠弯曲杆菌Cas9表达载体的示意图。载体被设计为使得人源化Cas9蛋白在CMV启动子的调控下表达,并且在C端区域具有核定位信号(NLS)和HA标签。

图2A、图2B描绘了在内源人AAVS1靶位点中空肠弯曲杆菌RGEN诱导的突变的实验。图2A显示使用T7E1测定法检测RGEN驱动的染色体突变。星号(*)表示预期被T7E1切割的DNA条带。使用HEK293野生型(wt)gDNA作为阴性对照(-)。将先前证实的RGEN用作阳性对照(+)。图2B显示hAAVS1突变体克隆的DNA序列。与嵌合RNA互补的靶序列区域以粗体显示。用CAS9识别的PAM序列加下划线。图2B的WT序列由SEQ ID NO:4表示,(-2,x1)序列由SEQ ID NO:5表示,(-1,x1)序列由SEQ ID NO:6表示。

图3A和图3B显示了在内源小鼠ROSA26(mROSA)靶位点中的空肠弯曲杆菌RGEN诱导的突变的实验。图3A显示使用T7E1测定法检测RGEN驱动的染色体突变。星号(*)表示预期被T7E1切割的DNA条带。使用NIH3T3wt gDNA作为阴性对照(-)。将先前证实的RGEN用作阳性对照(+)。图3B显示mROSA突变体克隆的DNA序列。与嵌合RNA互补的靶序列区域以粗体显示。空肠弯曲杆菌CAS9识别的PAM序列加下划线。图3B的WT序列由SEQ ID NO:7表示,(-1,x1)序列由SEQ ID NO:8表示,并且(+1,x1)序列由SEQ ID NO:9表示。

图4显示突变体空肠弯曲杆菌sgRNA结构在内源性AAVS1靶位点中诱导的某些突变。使用T7E1测定检测RGEN驱动的染色体突变。星号(*)表示预期被T7E1切割的DNA条带。将HEK293wt gDNA用作阴性对照(-)。将先前证实的RGEN用作阳性对照(+)。

图5A至5C说明了sgRNA的间隔序列长度的优化。图5A显示了各种sgRNA结构。在sgRNA的间隔序列的5'末端的紧邻上游的附加核苷酸加下划线,其中小写字母表示关于靶序列的错配的核苷酸。PAM序列加框。在图5A中,靶序列由SEQ ID NO:10表示,GX19由SEQ IDNO:11表示,GX20由SEQ ID NO:12表示,GX21由SEQ ID NO:13表示,GX22由SEQ ID NO:14表示,GX23由SEQ ID NO:15表示,GGX20由SEQ ID NO:16表示,GGGX20由SEQ ID NO:17表示。图5B显示了sgRNA的靶位点,其中hAAVS-CJ1、hAAVS-NRG1、hAAVS-NRG3和hAAVS-NRG5的序列分别由SEQ ID NO:18、19、20和21表示。图5C显示了sgRNA构建体诱导RGEN介导的突变的效率。简言之,构建sgRNA以具有不同长度的间隔序列(19-23bp)和在间隔序列的紧邻上游存在的不同数目的附加G(鸟嘌呤)残基。图1中所示的每个sgRNA 5A被设计用于人类AAVS1位点的4个靶位点(图5B),并被递送到人293细胞。随后,在细胞中鉴定由NHEJ诱导的突变。在该实施方案中,通过PCR扩增靶位点,并使用miSEQ(Illumine)通过深度测序分析以检测突变。总体上,当识别序列长度为21-23bp时或与在空肠弯曲杆菌或其他物种中使用的GX19或GX20相比,在5'端提供2或3个另外的G残基时,基因组编辑(突变)频率增加。

图6是显示空肠弯曲杆菌CRISPR/CAS9的活性的图,其中将AAVS1-CJ1位点插入替代性报告载体(surrogate reporter)。相对于在PAM位点检测到的ACAC序列的活性(100),当在每个位置取代不同的核苷酸时计算活性。在第一个位置,G以及A保证高活性。T和C在第二位置有效。然而,仅A和C分别在第三和第四位置表现出活性。因此,至少在一些实施方案中,推断NNNN-A/G-C/T-C-A(或NNNNRYAC,SEQ ID NO:1,其中A/G=R,C/T=Y)是最佳PAM序列。

图7显示了通过Digenome-Seq分析开发的hAAVS1-CJ1sgRNA的潜在脱靶序列的共有标记。

图8显示了空肠弯曲杆菌Cas9的PAM序列的测试结果。分析NNNNRYAC(SEQ ID NO:1)的七个靶位点的突变效率。hAAVS1-RYN1-7:sgRNA/Cas9处理的细胞中每个位点的突变率,WT1-7:模拟处理的细胞的基因组DNA中每个位点的突变率。

图9是显示空肠弯曲杆菌CRISPR/CAS9表达AAV载体的结构的示意图。

图10显示了在Rosa26位点中由空肠弯曲杆菌CRISPR/CAS9AAV(腺相关病毒)进行的基因组编辑。简言之,用携带不同MOI(感染复数)的Rosa26-sgRNA和空肠弯曲杆菌Cas9的重组AAV载体感染C2C12细胞。在感染后3、5、7、10和14天,分离基因组DNA,并通过深度测序分析突变率。

具体实施方式

本发明的一个实施方案提供了靶向目标DNA序列的方法,包括将Cas蛋白或编码它的核酸导入细胞。

具体地,根据一个方面,本公开提供了用于靶向包含SEQ ID NO:1的PAM(原体间隔序列临近基序)序列的DNA序列的方法,包括将识别SEQ ID NO:1的PAM序列NNNNRYAC的Cas蛋白或编码Cas蛋白的核酸导入细胞。在SEQ ID NO:1中,根据IUPAC命名法,“N”是指任何核苷酸,例如选自A、C、G和T;“R”是指嘌呤(A/G);“Y”是指嘧啶(C/T)。

在本公开的一个方面,所述方法可以进一步包括引入包含能够与邻近SEQ ID NO:1的PAM序列的目标DNA(靶DNA)的互补链形成双链体的序列的引导RNA:引导RNA可以与识别SEQ ID NO:1的PAM序列的Cas蛋白或编码Cas蛋白的核酸同时或依次导入。

如本文所用,术语“靶向”意图包括将Cas蛋白与目标DNA序列结合,伴随或不伴随DNA切割。

稍后将描述的术语适用于本公开的所有实施例,并且可以组合使用。

Cas蛋白可以在与CRISPR RNA(crRNA)和反式激活的crRNA(tracrRNA)形成复合物后表现其活性。Cas蛋白可以表现出内切核酸酶或切口酶活性。

与Cas蛋白或编码Cas蛋白的基因相关的信息可以在众所周知的数据库中找到,例如NCBI(National Center for Biotechnology Information)的GenBank。根据一个实施方案,Cas蛋白可以是Cas9蛋白。在另一个实施方案中,Cas蛋白可以是来源于(衍生自)弯曲杆菌属的蛋白,并且可以特别是来源于空肠弯曲杆菌。更具体地,Cas9蛋白可以源自空肠弯曲杆菌。在本公开的一些实施方案中,Cas蛋白可以包含由SEQ ID NO:22表示的氨基酸序列,或者可以与SEQ ID NO:22的氨基酸序列同源,保留其内在活性。例如,但不限于,本公开内容所涵盖的Cas蛋白及其同源序列可以与SEQ ID NO:22的序列具有至少50%、60%、70%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99%的序列同一性。

此外,如本公开内容的某些实施方案中所使用的Cas蛋白意图包括可以作为与引导RNA以及天然蛋白合作的活化的内切核酸酶或切口酶的任何变体。活化的内切核酸酶或切口酶可以切割靶DNA,或者能够用切割功能进行基因组编辑。对于失活的变体,其功能可用于调节转录或分离目标DNA。

Cas9蛋白变体可以是来自用不同氨基酸取代催化性天冬氨酸或组氨酸残基的Cas9的衍生物、变体或突变体。例如,不同的氨基酸可以是丙氨酸,但不限于此。

具体地,Cas蛋白,例如源自空肠弯曲杆菌的Cas9蛋白位置8处的催化性天冬氨酸(D)或位置559处的组氨酸残基(H)可以用不同于野生型氨基酸序列的氨基酸替换。在一些实施方案中,SEQ ID NO.22的序列的位置8处的催化性天冬氨酸(D)或位置559处的组氨酸残基(H)被不同的氨基酸取代。例如,不同的氨基酸可以是但不限于丙氨酸。通过将突变导入天然Cas9核酸酶的一个活性位点而制备的Cas9核酸酶变体可以作为与引导RNA结合的切口酶。当与一个引导RNA分子结合时,两个切口酶分子可以切割目标DNA双链体的两条链,从而产生双链断裂(DSB)。因此,这样的变型也属于本公开所涵盖的RGEN的范围。

如本文所用,术语“失活Cas蛋白”是指Cas核酸酶,其功能是完全或部分失活的。失活Cas蛋白可以缩写为dCas。Cas可以是Cas9蛋白。此外,它可以源自弯曲杆菌属,特别是来自空肠弯曲杆菌。任何方法可用于制备失活的Cas9核酸酶,只要其消除核酸酶活性。例如,可以通过将突变导入Cas9核酸酶的两个上述活性位点中来构建dCAS9蛋白。dCAS9然后可以作为与指导DNA的DNA结合复合物,而缺乏DNA切割功能。此外,dCAS9蛋白可以具有除位置8的天冬氨酸(D)和位置559的组氨酸(H)以外的取代基。例如,在一些实施方案中,dCAS9蛋白可以具有除SEQ ID NO:22序列的位置8的天冬氨酸(D)和位置559的组氨酸(H)以外的取代基。取代基可以是但不限于丙氨酸。

如本文所用,术语“切割”是指核苷酸分子的共价主链的断裂。

在本公开的一些实施方案中,Cas蛋白可以是重组蛋白。

与例如细胞、核酸、蛋白质或载体结合使用的术语“重组体”,是指通过导入异源核酸或蛋白或者通过改变天然核酸或蛋白质而被修饰的细胞、核酸、蛋白质或载体,或衍生自这种修饰的细胞。因此,例如,可以基于人密码子表通过重构编码Cas蛋白的核酸序列(即,编码Cas蛋白的序列)来产生重组Cas蛋白。

在本公开的一些实施方案中,Cas蛋白或编码其的核酸可以是允许在细胞核内有活性的形式。

在本公开的一些实施方案中,分离的Cas蛋白可以是易于导入细胞的形式。例如,Cas蛋白可以与细胞穿透肽或蛋白转导结构域连接。蛋白转导结构域可以是但不限于聚精氨酸或HIV衍生的TAT蛋白。本公开包括本领域熟知的细胞穿透肽或蛋白质转导结构域的各种实例。

在本公开的一些实施方案中,Cas蛋白或编码其的核酸可以进一步包含用于通过核转运将蛋白或核酸转运到细胞核中的核定位信号(NSL)。此外,编码Cas蛋白的核酸可以进一步包含核定位信号(NLS)序列。因此,编码Cas蛋白的核酸可以作为表达盒的组分存在,所述表达盒可以包含但不限于NLS序列以及调节元件,例如启动子。

在本公开的一些实施方案中,Cas蛋白可以与有助于分离和/或纯化的标签连接。作为非限制性实例,取决于目的,可以使用小肽标签,例如His标签、Flag标签、S标签等,谷胱甘肽S-转移酶(GST)标签或麦芽糖结合蛋白(MBP)标签。

在本公开的一些实施方案中,当Cas蛋白与靶DNA特异性引导RNA相关联时,Cas蛋白可以统称为RGEN(RNA-引导工程核酸酶)。如本文所用,术语“RGEN”是指具有靶DNA特异性引导RNA和Cas蛋白的核酸酶。

为了应用于细胞,根据本公开的一些实施方案,RGEN可以具有靶DNA特异性引导RNA或编码引导RNA的DNA;以及分离的Cas蛋白或编码Cas蛋白的核酸。在这点上,引导RNA或编码引导RNA的DNA可以与Cas蛋白或编码Cas蛋白的核酸同时或依次应用于细胞。

在本公开的一个方面,用于递送至细胞的RGEN包括1)靶DNA特异性引导RNA和分离的Cas蛋白,或2)编码引导RNA的DNA或编码Cas蛋白的核酸。以1)形式的递送被指定为“RNP递送”。

分离的引导RNA的实例可以包括但不限于体外转录的RNA。

在本公开的一些实施方案中,引导RNA编码DNA(编码引导RNA的DNA)和Cas蛋白编码核酸本身可被用作分离的核酸。或者,但不限于,它们可存在于具有用于表达引导RNA和/或Cas蛋白的表达盒的载体中。

合适的载体的实例包括病毒载体、质粒载体和农杆菌载体。病毒载体可以例举但不限于AAV(腺相关病毒)。

在本公开的一些实施方案中,非限制性地,引导RNA编码DNA和Cas蛋白编码核酸可以分别存在于各个载体中或一起存在于单个载体中。

本主题的前述应用实施例可以应用于如本说明书中所描述的更多示例性实施例。另外,稍后将描述的应用实施例可以与其他构成元件组合应用。

如本文所使用的,术语“引导RNA”可以指对靶DNA具有特异性的RNA(即,靶DNA特异性RNA),其可以与Cas蛋白偶联以将Cas蛋白引导至靶DNA。

此外,至少在一些实施方案中,引导RNA可以被设计为对于待切割的某个靶标是特异性的。

在本公开的一些实施方案中,引导RNA可以是由两种RNA组成的双RNA,即,crRNA和tracrRNA。在其他实施方案中,引导RNA可以是sgRNA,其包含或由含有与能够与靶DNA的互补链形成双链体的靶DNA互补的序列的第一区域和含有负责与Cas蛋白相互作用的序列的第二区域组成。更具体地,引导RNA可以是通过融合crRNA和tracrRNA的各个必要部分而合成的sgRNA(单引导RNA或单链引导RNA)。

在本公开的一些实施方案中,能够与引导RNA中的靶DNA序列的互补链形成双链体的序列可以在长度上不限于17至23bp,18至23bp,19至23bp,特别是20至23bp,更特别是21至23bp。长度可以应用于双RNA和sgRNA,更具体地应用于sgRNA。

在本公开内容的一些实施方案中,引导RNA可以在能够与靶DNA的互补链形成双链体的序列的5'端之前包含一至三个,更特别是两个或三个附加核苷酸序列。核苷酸选自A、T、G、C及其组合。引导RNA可以包含一至三个连续的鸟嘌呤(G)残基,更优选地,两个或三个连续的G残基作为附加核苷酸。这不限于应用于双RNA和sgRNA,更优选应用于sgRNA。

在本公开的一些实施方案中,sgRNA可以包含与靶DNA序列互补的区域(称为“间隔序列”,“靶DNA识别序列”,“碱基配对区”等)和发夹结构用于结合Cas蛋白。

在本公开的一些实施方案中,sgRNA可以包含与靶DNA序列互补的区域,用于结合Cas蛋白的发夹结构和终止子序列。这些元件可以是但不限于沿5'至3'方向顺序排列。

在本公开的一些实施方案中,可以使用任何形式的引导RNA,只要其含有crRNA和tracrRNA的各自的必要部分和与靶DNA互补的区域即可。

在本公开的一些实施方案中,crRNA可与靶DNA杂交。

在本公开的一些实施方案中,RGEN可以由Cas蛋白和双RNA,或Cas蛋白和sgRNA组成。或者,RGEN可以包含编码Cas蛋白的各自的核酸和sgRNA作为构成元件,但不限于此。

在本公开的一些实施方案中,引导RNA(例如crRNA或sgRNA)可以含有与靶DNA序列互补的序列,并且可以包含位于crRNA或sgRNA上游,特别是在sgRNA或双RNA的crRNA的5'端的一个或多个附加核苷酸。附加核苷酸可以是但不限于鸟嘌呤(G)残基。

在本公开的一些实施方案中,引导RNA可以包含能够与邻近PAM(原间隔序列邻近基序)序列NNNNRYAC(SEQ ID NO:1)的靶DNA序列的互补链形成双链体(即形成碱基对或杂交)的序列。

在本公开的一些实施方案中,引导RNA可以包含能够与靶DNA序列的互补架构形成双链体的第一区域和包含以长度为13-18bp的茎为特征的茎-环结构的第二区域。在某些实施方案中,茎可包含SEQ ID NO:2(5'-GUUUUAGUCCCUUGUG-3')的核苷酸序列及其互补序列。

在本公开的一些实施方案中,引导RNA可以包含能够与靶DNA序列的互补链形成双链体的第一区域和包含以5-10bp长度的环为特征的茎-环结构的第二区域。该环可以包含SEQ ID NO:3(5'-AUAUUCAA-3')的核苷酸序列。

在本公开的一些实施方案中,上文或稍后描述的Cas蛋白和引导RNA,特别是sgRNA,可以是非天然存在的或被工程化的那些。另外,针对每个主题描述的因素可以组合在一起以用于应用。

在本公开的一些实施方案中,RGEN的细胞内导入可以通过但不限于(1)递送在细菌过度表达后纯化的Cas9蛋白和识别在细胞中体外转录后制备的特异性HLA靶序列的sgRNA(单引导的RNA)来实现,,或(2)将携带Cas9基因和sgRNA的质粒递送到细胞中用于表达或转录来实现。

此外,可以通过本领域已知的各种方法,例如但不限于电穿孔或使用脂质体、病毒载体、纳米颗粒或PTD(蛋白转运结构域)融合蛋白的技术将包含在本公开内容范围内的蛋白质、RNA或质粒DNA导入细胞中。

在一些实施方案中,本公开的方法可用于切割包含SEQ ID NO:1的PAM序列的靶DNA,更具体地,用于编辑基因组。在本文中,Cas蛋白可以是具有核酸酶或切口酶活性的活性形式。

在某些实施方案中,Cas蛋白可以是失活(灭活)形式。在这种情况下,本公开的方法以包含SEQ ID NO:1的PAM序列的靶DNA序列不被切割,但与Cas蛋白相关联的方式进行。

此外,在一些其他实施方案中,Cas蛋白,更特别地,失活Cas蛋白,可以进一步包含转录效应子结构域。详细地,失活Cas蛋白可以与(但不限于)激活剂、阻遏物等连接。

给定转录效应结构域,至少在一些实施方案中,该方法可以应用于Cas介导的包含转录调节或表观遗传调节的基因表达调节。

根据另一方面,本公开提供了分离的引导RNA,其包含能够与邻近PAM(原间隔序列邻近基序)NNNNRYAC(SEQ ID NO:1)的靶DNA序列的互补链形成双链体的序列。分离的引导RNA可以是非天然存在的或人工工程化的RNA。

各个元件如上所述。

在本公开的一些实施方案中,引导RNA可以是单引导RNA,其中能够与靶DNA的互补链形成双链体的序列的长度可以在17至23bp,18至23bp,19至23bp,特别是20至23bp,更特别是21至23bp,但不限于此。

此外,引导RNA,至少在一些实施方案中,可以包含正好在靶DNA的互补链的5'端的上游的一至三个连续的鸟嘌呤(G)残基,但不限于此。另外,上述对附加核苷酸的描述也可以适用于该实施方案。

此外,根据本公开的另一方面提供了组合物,其包含引导RNA,所述引导RNA包含能够与邻近PAM(原间隔序列邻近基序)序列NNNNRYAC(SEQ ID NO:1)的靶DNA序列的互补链形成双链体的序列,或编码引导RNA的DNA。

在至少一些实施方案中,各组分如上所述。

在本公开的一些实施方案中,组合物可以进一步包含识别序列NNNNRYAC(SEQ IDNO:1)的Cas蛋白或编码Cas蛋白的核酸。

此外,在某些实施方案中,组合物可用于基因组编辑。

此外,在一些实施方案中,组合物可以包含:(i)引导RNA,其包含能够与邻近PAM(原间隔序列邻近基序)NNNNRYAC(SEQ ID NO:1)的靶DNA序列的互补链形成双链体的序列或编码引导RNA的DNA;和(ii)失活Cas蛋白(dCas)或编码dCas的核酸。

在一个实施方案中,失活Cas蛋白可以进一步包含转录效应结构域。

在本公开的一些实施方案中,组合物可用于分离包含靶DNA序列的目标DNA。在这点上,失活Cas蛋白可以用可用于分离和纯化的标签标记,但不限于此。标签可以如上所述。

在本公开的一些实施方案中,组合物可用于Cas-介导的基因表达调节,所述基因表达调节包括转录调节或表观遗传调节。

在本公开的一些实施方案中,靶DNA可以存在于分离的细胞中,例如真核细胞。真核细胞的实例包括酵母,真菌,原生动物,来自植物、高等植物、昆虫或两栖动物的细胞,以及哺乳动物细胞例如CHO、HeLa、HEK293和COS-1细胞。不限于,本领域通常使用培养细胞(体外)、移植细胞、原代细胞培养(体外和离体)、体内细胞和包括人细胞的哺乳动物细胞。

根据另一方面,本公开提供了CRISPR-CAS系统,其包含(i)引导RNA,其包含能够与邻近PAM(原间隔序列-临近基序)NNNNRYAC(SEQ ID NO:1)的靶DNA序列形成双链体的序列,或编码引导RNA的DNA;和(ii)识别PAM序列NNNNRYAC(SEQ ID NO:1)的Cas蛋白或编码Cas蛋白的核酸。

各个因素如上所述。这些因子可以是非天然存在的或工程化的。

本公开的另一方面涉及重组病毒载体,其包含(i)用于引导RNA的表达盒,其包含能够与邻近PAM(原间隔序列-临近基序)NNNNRYAC(SEQ ID NO:1)的靶DNA序列形成双链体的序列,和(ii)识别NNNNRYAC(SEQ ID NO:1)的PAM序列的Cas蛋白的表达盒。

各个因素如上所述。这些因子可以是非天然存在的或工程化的。

病毒载体,至少在一些实施方案中,可以是AAV(腺相关病毒)来源的。

本公开的另一方面涉及分离的引导RNA,其包含长度为21-23bp的序列,其能够与靶DNA序列的互补链形成双链体。

引导RNA如上所定义。引导RNA可以是非天然存在的或工程化的。

本公开的另一方面涉及包含引导RNA或编码引导RNA的DNA的组合物。

各个因素如上所述。这些因子可以是非天然存在的或工程化的。

组合物,至少在一些实施方案中,可以包含识别PAM序列NNNNRYAC(SEQ ID NO:1)的Cas蛋白或编码Cas蛋白的核酸。

此外,在一些实施方案中,组合物可以包含识别NNNNRYAC序列(SEQ ID NO:1)的失活Cas或编码失活Cas蛋白的核酸。

在一些实施方案中,失活Cas蛋白可以进一步包含转录效应子结构域。

根据另一方面,本公开提供了分离的引导RNA,其包含第一区域和第二区域,所述第一区域包含能够与靶DNA序列的互补链形成双链体的序列,所述第二区域包含茎环结构,其以长度为13-18bp的茎为特征。

各个因素如上所定义。这些因子可以是非天然存在的或工程化的。

在某些实施方案中,茎可包含SEQ ID NO:2(5'-GUUUUAGUCCCUUGUG-3')的核苷酸序列及其互补序列。

根据另外的方面,本公开提供了分离的引导RNA,其包含第一区域和第二区域,所述第一区域包含能够与靶DNA序列的互补链形成双链体的序列,所述第二区域包含茎环结构,其特征在于长度为5-10bp的环。

各个因子如上所定义。这些因子可以是非天然存在的或工程化的。

在某些实施方案中,环可包含SEQ ID NO:3(5'-AUAUUCAA-3')的核苷酸序列。

根据另一方面,本公开提供了包含引导RNA以及Cas蛋白或编码Cas蛋白的核酸的组合物。

各个因子如上所定义。这些因子可以是非天然存在的或工程化的。

本公开的又另一方面提供了用于在细胞中进行基因组编辑的方法,包括向细胞中引入分离的引导RNA或编码分离的引导RNA的DNA以及Cas蛋白或编码Cas蛋白的核酸。

各个因子如上所定义。这些因子可以是非天然存在的或工程化的。

本公开的另一方面提供了用于切割细胞中靶DNA的方法,包括将分离的引导RNA或编码分离的引导RNA的DNA与Cas蛋白或编码Cas蛋白的核酸一起导入细胞中。

各个因子如上所定义。这些因子可以是非天然存在的或工程化的。

在某些实施方案中,引导RNA或编码引导RNA的DNA可以与Cas蛋白或编码Cas蛋白的核酸同时或依次导入细胞。

本公开的又一方面提供了用于制备引导RNA的靶DNA识别序列(即,负责识别靶DNA的引导RNA中的序列)的方法,其包括:(i)识别给定序列中PAM序列NNNNRYAC(SEQ ID NO:1)的存在;和(ii)如果在步骤(i)中鉴定到所述PAM序列的存在,则将正好位于所述PAM序列NNNNRYAC(SEQ ID NO:1)上游的序列确定为可被引导RNA识别。

各个因子如上所定义。这些因子可以是非天然存在的或工程化的。

在本公开的一些实施方案中,位于PAM序列上游的序列可以但不限于在从17到23bp,从18到23bp,从19到23bp,更特别地从20到23bp,甚至更特别是21到23bp的长度范围内。

本公开的另一方面提供了分离目标DNA的方法,包括:(i)将引导RNA或编码引导RNA的DNA与失活Cas蛋白或编码失活Cas蛋白的核酸一起导入细胞中,从而允许引导RNA和失活Cas蛋白与包含靶DNA序列的目标DNA形成复合物;和(ii)从样品中分离复合物。

各个因子如上所定义。这些因子可以是非天然存在的或工程化的。

至少在一些实施方案中,失活Cas蛋白可以识别PAM(原体间隔临近基序)序列NNNNRYAC(SEQ ID NO:1)。

在某些实施方案中,用于分离目标DNA的方法可以通过允许特异性结合目标DNA的引导RNA(gRNA)和失活Cas蛋白(dCas)以及目标DNA来形成dCas-gRNA-目标DNA复合物;并从样品中分离复合物来进行。

在一些实施方案中,可以使用公知的检测方法例如PCR扩增等来鉴定目标DNA。

在一些实施方案中,分离方法可以适于不通过在DNA、gRNA和dCas之间的共价键形成交联的体外无细胞DNA。

此外,在一些实施方案中,分离方法可以进一步包括从复合物中分离目标DNA。

在一些实施方案中,失活Cas蛋白可以与亲和标签连接以用于分离目标DNA。亲和标签可以选自His标签、Flag标签、S标签、GST(谷胱甘肽S-转移酶)标签、MBP(麦芽糖结合蛋白)标签、CBP(几丁质结合蛋白)标签、Avi标签、钙调蛋白标签、聚谷氨酸标签、E标签、HA标签、myc标签、SBP标签、softag 1、softag 3、strep标签、TC标签、Xpress标签、BCCP(生物素羧基载体蛋白)标签和GFP(绿色荧光蛋白)标签,但不限于此。

在一些实施方案中,失活Cas蛋白可以是缺乏DNA切割活性的Cas蛋白。

在一些实施方案中,可以使用能够结合所使用的标签的亲和柱或磁珠来实现目标DNA的分离。例如,当His标签用于分离目标DNA时,可以使用能够结合His标签的金属亲和柱或磁珠。磁珠可以包括但不限于Ni-NTA磁珠。

在一些实施方案中,可以使用核糖核酸酶和蛋白酶从复合物中分离目标DNA。

在用于分离目标DNA的方法的一些实施方案中,可从含有两种或更多种不同基因型DNA的混合物的分离的样品中分离某种基因型DNA或两种或更多种不同的目标DNA。当所述方法包括分离两种或更多种不同的目标DNA时,可以使用分别对两种或更多种不同的目标DNA特异性的引导RNA来分离两种或更多种目标DNA。

在某些实施方案中,引导RNA可以是单引导RNA(sgRNA),或包含crRNA和tracrRNA的双RNA。引导RNA可以是分离的RNA,或可以在质粒中被编码。

在某些实施方案中,分离方法可以通过以下步骤执行:将引导RNA(gRNA)特异性结合到1)目标DNA和2)失活Cas蛋白(dCas)以与目标DNA形成dCas-gRNA-DNA复合物;并从所述样品中分离所述复合物。

本公开的另一方面提供了用于在包括靶DNA序列的目标DNA中的Cas介导的基因表达调节的方法,所述方法包括:将特异性识别靶DNA的分离的引导RNA或编码引导RNA的DNA,连同与转录效应子结构域融合的失活Cas蛋白或编码失活Cas蛋白的核酸一起导入细胞。

各个因子如上所定义。这些因子可以是非天然存在的或工程化的。

实施例

提供以下实施例是为了说明本公开的一些方面,并且它们不应被解释为以任何方式限制本公开的范围。

空肠弯曲杆菌CRISPR/CAS9系统

实施例1:使用空肠弯曲杆菌CRISPR/CAS9的基因组编辑

本发明人成功地从空肠弯曲杆菌中分离了RGEN。为了鉴定关于基因组编辑的空肠弯曲杆菌CRISPR/CAS9衍生的RGEN的特征,合成了针对人密码子优化的空肠弯曲杆菌CAS9基因(表1),然后插入哺乳动物表达载体中构建空肠弯曲杆菌CAS9表达盒,其中HA-标记的NLS-连接的Cas基因处于CMV启动子的调节下(图1)。

表1空肠弯曲杆菌Cas9蛋白的氨基酸序列

空肠弯曲杆菌CRISPR/CAS9系统的天然引导RNA由tracrRNA和靶特异性crRNA组成。考虑到引导RNA本身用作两种RNA分子或作为其中crRNA和tracrRNA彼此融合的单一引导RNA(sgRNA)的概念,本发明人设计并构建了用于空肠弯曲杆菌sgRNA(C.jejuni sgRNA)的表达质粒(表2)。

表2

然后,基于空肠弯曲杆菌CRISPR/CAS9系统的PAM序列(NNNACA)选择人AAVS1和小鼠Rosa-26的潜在靶位点(表3)。

表3

sgRNAs 靶序列 序列ID号
人AAVS1_C.Jejuni ATATAAGGTGGTCCCAGCTC<u>GGGGACA</u> 24
小鼠Rosa26_C.Jejuni ATTCCCCTGCAGGACAACGC<u>CCACACA</u> 25

为了检查空肠弯曲杆菌RGEN是否可以用于哺乳动物细胞中内源基因的靶向断裂,分析使用T7内切核酸酶I(T7E1)从转染的细胞中分离的基因组DNA,T7内切核酸酶I是一种错配敏感性内切核酸酶,其特异性识别和切割由野生型和突变体DNA序列杂交形成的异源双链。使用的引物序列如下(表4)。

表4

引物 序列 序列ID号
人AAVS1-F TGCTTCTCCTCTTGGGAAGT 26
人AAVS1-R CCCCGTTCTCCTGTGGATTC 27
小鼠Rosa26-F ACGTTTCCGACTTGAGTTGC 28
小鼠Rosa26-R CCCAGCTACAGCCTCGATTT 29

结果,仅在将CAS9蛋白和引导RNA一起导入的细胞中检测到突变(可互换的为取代或变异)。根据基于相对DNA条带强度测量,发现突变频率是RNA-剂量依赖性的(图2A)。此外,PCR扩增产物的DNA测序分析证实在内源位点诱导RGEN介导的突变。在靶位点观察到了插入/缺失(indel)和微同源性(microhomology),其特征在于易错的非同源末端连接(NHEJ)修复(图2B)。通过直接测序(=2个突变体克隆/12个克隆)测量的突变频率为16.7%。

同样,当小鼠Rosa26空肠弯曲杆菌RGEN被递送到小鼠NHI3T3细胞中时,根据通过T7E1测定法所测量,在小鼠Rosa26位点有效诱导突变(图3A)。此外,PCR扩增产物的DNA测序分析揭示了在内源基因位点的空肠弯曲杆菌RGEN介导的突变的诱导(图3B)。通过直接测序(2个突变体克隆/9个克隆)测量,发现突变频率为22.2%。

实施例2:sgRNA的结构修饰

预期空肠弯曲杆菌crRNA:tracrRNA复合物将包含比来自其他细菌物种的环结构更短的环结构,设计修饰的茎或环结构以结构稳定实施例1中构建的空肠弯曲杆菌RGENsgRNA(表5)。

表5

在表5中,标准茎部分以粗体和下划线显示。

当导入修饰的sgRNA以靶向通过正常sgRNA结构成功诱导突变的人类AAVS1空肠弯曲杆菌RGEN的靶位点时,观察到相似的突变频率(图4)。在这点上,使用的引物序列如表4所示。

实施例3:sgRNA间隔长度的优化

在文献中报道了识别靶序列的空肠弯曲杆菌crRNA的间隔序列的长度为20bp。为了确定哪个间隔长度是最佳的,如表6所示,使用具有各种长度的间隔序列和在5'末端具有附加核苷酸的sgRNA突变体结构对人AAVS1位点上的空肠弯曲杆菌Cas9的4个靶位点进行基因组编辑测试(图5A至图5C)。对于本实验中使用的方法,参考Genome Res.2014Jan;24(1):132-41。

表6

目标位点

sgRNA 序列(20bp-SPACERnnnnACA) 序列ID号
人AAVS1-CJ1 ATATAAGGTGGTCCCAGCTCggggACA 32
人AAVS1-NRG1 GTAGAGGCGGCCACGACCTGgtgaACA 33
人AAVS1-NRG3 TCACAAAGGGAGTTTTCCACacggACA 34
人AAVS1-NRG5 TAGGCAGATTCCTTATCTGGtgacACA 35

将sgRNA表达载体递送到293-细胞三天后,分离基因组DNA并通过深度测序分析突变效率。结果示于图5C中。可以看出,当间隔序列的长度为21-23bp时,检测到高效率。此外,即使当在20bp长间隔序列的sgRNA的5'末端添加2-3个附加G残基时,也观察到基因组编辑的改善。

表7

这里,F*表示正向引物,R.**表示反向引物。

实施例4:空肠弯曲杆菌Cas9 PAM序列分析

在本公开中,基于现有文献中的数据,空肠弯曲杆菌Cas9的PAM序列被推断为包含“NNNNACA”,并进行实验。对于为五个基因组位点构建的34个空肠弯曲杆菌CRISPR/CAS9系统,只有三个显示出活性。特别地,覆盖三个活性系统中的位点的序列的另外的分析显示,在所有三个位点中,在PAM序列(NNNNACA)之后立即鉴定核苷酸“C”(表8)。

表8

基于该结果,推断PAM序列包含“NNNNACAC”。当“ACAC”的每个位点的核苷酸被A/T/G/C取代时,分析空肠弯曲杆菌Cas9的活性以鉴定空肠弯曲杆菌RGEN的PAM序列。为此,利用替代性报告载体。结果,空肠弯曲杆菌被鉴定为包含“NNNNRYAC(SEQ ID NO:1)”的PAM序列(图6,其中R是嘌呤残基(A或G),Y是嘧啶残基(C/T))。该实验使用Nat Methods.2011Oct 9;8(11):941-3中描述的替代性报告载体进行。

实施例5:空肠弯曲杆菌CRISPR/CAS9的特异性和PAM序列的测定

使用Digenome-seq(本发明人开发并提交专利保护的CRISPR/CAS9脱靶测定)在基因组水平分析AAVS1-CJ1位点中的空肠弯曲杆菌CRISPR/CAS9的切割位点。使用NatMethods.2015Mar;12(3):237-43中描述的方法进行实验。

通过Digenome-Seq,确定了其中AAVS1-CJ1 CRISPR/CAS9似乎被切割的41个位点(表9中的基因组位置)。共有序列获自41个位点的切割位点序列的比对,并验证与实施例4中鉴定的一致的PAM。

此外,为了检查是否实际将脱靶突变导入通过Digenome-Seq获得的潜在脱靶中,来自其中递送AAVS1-CJ1 CRISPR工程化核酸酶的293-细胞的基因组DNA进行深度测序40个潜在脱靶位点。如表9所示,没有观察到显著的突变。

表9

此外,从在体外显示裂解的41个位点的序列的整个比对获得了共有序列。与先前的结果一致,实际上观察到PAM为NNNNRYAC(SEQ ID NO:1)。

实施例6:PAM的前两个核苷酸的退化

在实施例5中发现空肠弯曲杆菌的PAM序列是“NNNNRYAC”以及“NNNNACAC”,显示在前两个位置的退化。为了证实简并性,分别构建人AAVS1位点的空肠弯曲杆菌的7个PAM靶序列的sgRNA,其在前两个位置携带G或T残基(表10),并分析HEK293细胞中的突变效率。

表10

在七个构建的sgRNA中,发现六个诱导突变,证明在PAM序列的前两个位置处的退化(图8)。因此,这种退化增加了PAM序列的频率,允许改善空肠弯曲杆菌的基因组编辑的准确性。

实施例7:使用AAV通过空肠弯曲杆菌CRISPR/CAS9递送进行基因组编辑

在其中基因组编辑可应用的有希望的领域中的代表是用于基因和细胞治疗的基因组编辑技术。基因组编辑对治疗的实际应用需要临床可应用的载体,用于在体外或体内有效地将工程化的核酸酶和供体DNA递送至靶细胞。两种最广泛使用的工程化核酸酶平台,TALEN和RGEN由于其大尺寸限于应用于已建立的基因治疗载体。相比之下,本公开的空肠弯曲杆菌RGEN由迄今开发的RGEN中的最小的CAS9蛋白和sgRNA组成。由于其小尺寸,空肠弯曲杆菌RGEN可以允许大规模基因治疗载体用于基因组操作。例如,作为基因治疗的最重要载体之一的AAV(腺相关病毒)对由其携带的DNA的大小施加严格的限制,因此难以应用于源自化脓性链球菌(S.pyogenes)、嗜热链球菌(S.thermophilus)或脑膜炎奈瑟氏球菌(N.meningitidis)的RGEN,或目前使用的工程化核酸酶平台TALEN。相比之下,空肠弯曲杆菌RGEN可以应用于AAV载体。

在本公开中,通过实际的AAV递送对空肠弯曲杆菌Cas9的操作进行了检查。为此,构建携带空肠弯曲杆菌Cas9表达盒和sgRNA表达盒的AAV载体(图9),并用于产生AAV。在用AAV感染后,定量分析小鼠C2C12细胞的突变(图10)。可以看出,以AAV剂量和时间依赖性方式在靶位点诱导突变。特别地,在高MOI(100)感染4周后,在靶位点以90%或更高的效率诱导突变。

因此,空肠弯曲杆菌RGEN被证明在培养的细胞中有效地进行基因组编辑。此外,空肠弯曲杆菌CRISPR/CAS9系统的PAM序列实际上确定,因为在先前研究中提出的序列被发现不是完美的。此外,空肠弯曲杆菌RGEN可由于其元件的小尺寸而被装载到单一病毒中,因此可用于有效的基因组编辑。

使用dCAS9:gRNA复合物富集靶DNA

此外,使用由化脓性链球菌来源的、失活的Cas9蛋白和引导RNA组成的RGEN(dCas9:gRNA复合物)分离和富集靶DNA。

在这方面,dCas9蛋白用六个连续的His残基标记,使得其可以使用Ni-NTA磁珠来纯化,用于选择性结合His标签。此外,dCas蛋白-sgRNA复合物可用于靶DNA的选择性纯化,因为复合物可以特异性结合某一DNA序列,但缺乏核酸酶活性。

测试由引导RNA和失活的Cas核酸酶组成的RGEN(dCas9:gRNA复合物)分离靶DNA的能力。为此,首先,用限制酶(SpeI,XmaI,XhoI)消化质粒pUC19,得到长度分别为4134bp、2570bp和1263bp的质粒DNA片段。

对于用限制酶消化的每个质粒DNA片段,合成两种不同的sgRNA(4134bp_sg#1,4134bp_sg#2,2570bp_sg#1,2570bp_sg#2,1263bp_sg#1,和1263bp_sg#2)。使用对应于靶DNA的sgRNA,单独或组合(4134bp_sg#1+2,2570bp_sg#1+2,和1263bp_sg#1+2)进行纯化程序。sgRNA的核苷酸序列列于下表11中。

表11

*除了U代替T,sgRNA的核苷酸序列与靶DNA的核苷酸序列相同。

将总共200μl含有DNA:dCas9蛋白:sgRNA(摩尔比为1:20:100)的混合物溶液在37℃温育1.5小时。然后,将溶液与50μl与His标签特异性结合的Ni-NTA磁珠混合,并用200μl洗涤缓冲液洗涤两次,随后用200μl洗脱缓冲液纯化dCas9-sgRNA-靶DNA复合物缓冲液(Bioneer,K-7200)。

然后,将洗脱液在37℃下用0.2mg/ml核糖核酸酶A(Amresco,E866)孵育2小时,然后在55℃下用0.2mg/ml蛋白酶K孵育45分钟,以除去sgRNA和dCas9蛋白。单独的靶DNA在乙醇中沉淀。

结果,对于单独的靶DNA,无论是单独的还是两个结合地使用sgRNAs,所需的靶DNA都可以从通过大小消化的三个DNA片段中分离出来。此外,当多种靶DNA用sgRNA的组合纯化时,例如对于两种不同的靶DNA总共4种不同的sgRNA(对于每种靶DNA有2种sgRNA),靶DNA与相应的sgRNA结合并因此纯化。结果表明,每个靶DNA可以以95%或更高的纯度被分离。

此外,纯化技术适用于识别本公开的PAM(原间隔序列邻近基序)序列NNNNRYAC(SEQ ID NO:1)的Cas蛋白。

基于上述描述,本领域技术人员应当理解,在不脱离本发明的技术思想或必要特征的情况下,可以在实施本发明时采用本发明实施例的各种替代方案,在所附权利要求中限定。在这点上,上述示例仅用于说明性目的,并且本发明不旨在受这些示例的限制。本发明的范围应当被理解为包括从以下权利要求或等同概念的含义和范围导出的所有修改或修改形式。

序列表

<110> 基因工具股份有限公司(TOOLGEN INCORPORATED)

基础科学研究院(INSTITUTE FOR BASIC SCIENCE)

<120> 使用空肠弯曲杆菌CRISPR/CAS系统衍生的RNA引导的工程化核酸酶的基因编辑

<130> 20211076MY

<150> US 62/033,852

<151> 2014-08-06

<160> 88

<170> SIPOSequenceListing 1.0

<210> 1

<211> 8

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

33页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:从蝇蛆中分离蛆激酶的方法及应用

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!