基于激活诱导性胞苷脱氨酶的诱导突变蛋白的制备和用途

文档序号:1308574 发布日期:2020-08-11 浏览:40次 >En<

阅读说明:本技术 基于激活诱导性胞苷脱氨酶的诱导突变蛋白的制备和用途 (Preparation and application of induced mutant protein based on activation-induced cytidine deaminase ) 是由 贺雄雷 刘黎 叶畅 刘科辉 邓善俊 于 2020-04-13 设计创作,主要内容包括:本发明提供了一种激活诱导性胞苷脱氨酶的突变蛋白,其是对hsAID进行了如下突变:T82I,K10E,K34E,E156G,181*,S38,H130,V152,R174,T100。本发明还提供了一种单碱基定点编辑蛋白,所述蛋白包括本发明的激活诱导性胞苷脱氨酶的突变蛋白和DNA特异结合蛋白,所述激活诱导性胞苷脱氨酶的突变蛋白和DNA特异结合蛋白经连接序列依次相连。本发明还提供了一种单碱基定点编辑系统,所述系统包括所述的单碱基定点编辑蛋白和靶向高突变序列。本发明所述的诱导突变蛋白系统相比现有的基于激活诱导性胞苷脱氨酶(AID)的单碱基编辑系统,分子量更小,突变效率更高。(The invention provides a mutant protein for activating induced cytidine deaminase, which carries out the following mutations on hsAID: T82I, K10E, K34E, E156G, 181, S38, H130, V152, R174, T100. The invention also provides a single-base fixed-point editing protein, which comprises the mutant protein of the activation-induced cytidine deaminase and the DNA specific binding protein, wherein the mutant protein of the activation-induced cytidine deaminase and the DNA specific binding protein are sequentially connected through a connecting sequence. The invention also provides a single-base fixed-point editing system, which comprises the single-base fixed-point editing protein and a targeted high-mutation sequence. Compared with the existing single base editing system based on activation induced cytidine deaminase (AID), the induced mutein system provided by the invention has the advantages of smaller molecular weight and higher mutation efficiency.)

基于激活诱导性胞苷脱氨酶的诱导突变蛋白的制备和用途

技术领域

本发明属于基因编辑技术领域,具体涉及基于激活诱导性胞苷脱氨酶的诱导突变蛋白的制备和用途。

背景技术

诱导性胞苷脱氨酶(Activationinduced cytosine deaminase,AICDA,or AID)是一类DNA编辑酶,在体细胞超高突变(SHM),基因转换(gene conversion)和B淋巴细胞中的类别转换重组(Class Switch Recombination.CSR)中发挥重要功能,通过对Ig可变区(V)和Ig开关区(S)DNA进行脱氨,大大增加了免疫组库的多样性。

它的工作原理大致如下:首先,它将胞嘧啶(C)替换为尿嘧啶(U),随后在下一轮DNA复制中,这种尿嘧啶(U)被转化为胸腺嘧啶(T)。如果细胞内修复机制检测到DNA中尿嘧啶(U)的存在,也有一定概率触发碱基的移除,从而产生C→G或C→A的突变。DNA脱氨酶通过脱氨作用,实现胞嘧啶到胸腺嘧啶的转化,从而引发了DNA的突变(C→T)。

自从CRISPR/Cas9系统诞生以来,高效的基因编辑逐渐成为可能。Cas9在一个短的RNA分子(guide RNA,gRNA)的指导下定位到一个特异性的DNA区域,在该靶向位点,Cas9核酸内切酶诱导双链断裂,然后通过同源重组修复机制(HDR)以插入和缺失(indels)的形式进行初步修复。但同源重组修复介导的精准基因编辑效率有限,限制了该技术的广泛应用,因此精确的基因编辑,例如单碱基的改变,依旧是CRISPR技术面临的巨大挑战。

后来,研究者发现将碱基脱氨酶(如胞苷脱氨酶APOBEC1及腺苷脱氨酶TadA变体)与CRISPR/Cas系统整合开发出的单碱基编辑系统,可在不切断DNA双链的情况下精准引入C/G-T/A及A/T-G/C点突变,从而实现高效精准的基因编辑。这个基因编辑系统仍然是由RNA引导的,但是它不会在目标位点引起双链断裂。相反,胞苷脱氨酶将胞嘧啶碱基转化为尿苷,然后由易错机制修复,从而导致各种点突变。并且,当尿嘧啶-DNA糖基化酶途径被抑制时,该系统还可以实现更具体和期望的点突变,如C-T或G-A转换。基因编辑方面的这一进展非常重要,因为人类三分之二的基因疾病是由单碱基改变引起的。理论上讲,单碱基编辑系统可用于数百种遗传病的治疗,具有极大的临床应用潜力。

基于B细胞特异性激活诱导的胞苷脱氨酶(AID)的单碱基编辑系统CRISPR-Cas9-AID更是其中很重要的一类单碱基编辑技术。

现有的AID的突变效率不够高;基于CRISPR/Cas9系统和AID的单碱基编辑系统,分子量大,不易于运输到靶向DNA片段,且对部分物种的转基因应用产生限制;CRISPR/Cas9系统具有较高的脱靶(Off Target)效应。

发明内容

本发明主要解决的技术问题是提供了一个基于激活诱导性胞苷脱氨酶(AID)的诱导突变蛋白系统,并命名为“高效的单碱基定点编辑蛋白”(HighefficiencyBase Editor,简称为HBE)。该系统能特异性地靶向DNA,并且高效率地诱导DNA突变。同时,本发明还提供该系统在小鼠中的制备与应用。

为实现上述目的,本发明采取的技术方案为:

第一方面本发明提供了一种激活诱导性胞苷脱氨酶的突变蛋白,该突变蛋白是对hsAID进行了如下突变:T82I,K10E,K34E,E156G,181*,S38,H130,V152,R174,T100获得。

进一步地,所述突变蛋白的核苷酸序列如SEQ ID NO:1所示。

第二方面本发明提供了一种单碱基定点编辑蛋白(记为:HBE),所述蛋白包括如上所述的激活诱导性胞苷脱氨酶的突变蛋白、DNA特异结合蛋白和核定位信号,所述激活诱导性胞苷脱氨酶的突变蛋白和DNA特异结合蛋白经连接序列依次相连,核定位信号位于所述单碱基定点编辑蛋白的C端。

进一步地,所述DNA特异结合蛋白为归巢核酸内切酶。

进一步地,所述归巢核酸内切酶包括iScel、iTevl、iSmaMl、piScel、iPpol、piPful、iHmul、iCrel、iCeul、iAnil。

进一步地,所述DNA特异结合蛋白的核苷酸序列如SEQ ID NO:2所示。

进一步地,还包括UGI蛋白结构域,所述UGI蛋白结构域位于所述DNA特异结合蛋白之后,所述核定位信号之前。

本发明的单碱基定点编辑蛋白(HBE)中的关键元件AID10、dISceI、UGI、SV40通过连接序列进行串联构成具有单碱基定点编辑功能的蛋白,连接序列可根据表达系统或宿主细胞的需要进行调整。在实施例中本发明分别提供了适用于酵母系统、果蝇、斑马鱼及小鼠中的HBE蛋白,这几种HBE蛋白中的关键元件AID10、dISceI、UGI、SV40保持一致,不同的是其连接序列,在酵母系统中连接AID10和dISceI的序列为6×(GGGGS);在果蝇中连接序列为XTEN、6×(GGGGS);在斑马鱼及小鼠系统中连接序列为6×(GGGGS)、GS-rich-linker和HA。由此证明,连接序列可根据表达系统进行调节。因此,实施例中本发明获得适用于酵母系统、果蝇、斑马鱼及小鼠中的HBE蛋白,其核苷酸序列分别如SEQ ID NO:3~5所示。

第三方面本发明提供了一种单碱基定点编辑系统,所述系统包括如上所述的单碱基定点编辑蛋白和靶向高突变序列。

进一步地,所述的靶向高突变序列(HyperMutation Fragment,简称为HMF)核苷酸序列如SEQ ID NO:6和SEQ ID NO:7。

第四方面本发明提供了单碱基定点编辑系统在基因编辑中的应用,尤其是单碱基定位突变中的应用。

本发明的有益效果:本发明所述的诱导突变蛋白系统相比现有的基于激活诱导性胞苷脱氨酶(AID)的单碱基编辑系统,分子量更小,突变效率更高。

附图说明

图1为脱氨酶基因家族的进化树上示意图。

图2为通过酵母点板实验筛选不同脱氨酶的结果示意图。

图3为不同脱氨酶致突变效率的比较结果示意图(纵坐标表示不同脱氨酶,横坐标表示突变率)。

图4为通过酵母点板实验筛选hsAID的变体结果示意图。

图5为hsAID的突变体AID5的蛋白突变位点以及3D结构示意图。

图6为通过酵母点板实验比较AID5和AID10致突变效率的示意图。

图7为hsAID的突变体AID10的蛋白突变位点以及3D结构示意图。

图8为DNA结合蛋白的筛选结果示意图(纵坐标表示不同DNA结合蛋白,横坐标表示表示突变率)。

图9为酵母中单碱基定点编辑蛋白(HBE)序列图谱及蛋白3D结构示意图。

图10为果蝇中的HBE蛋白序列图谱。

图11为斑马鱼及小鼠中的HBE蛋白序列图谱。

图12为靶向高突变序列(HMF)的设计及优化流程图。

图13为小鼠H11转基因位点中tet-SLOTH系统的图谱。

图14为tet-SLOTH小鼠的品系构建示意图。

图15为小鼠Rosa26位点中lox-SLOTH系统的图谱。

图16为lox-SLOTH小鼠的品系构建示意图。

图17为Dox诱导条件下tet-SLOTH系统中HBE基因的表达示意图。

图18为小鼠系统中HMF3k片段上突变事件数目的统计图。

具体实施方式

为了更加简洁明了的展示本发明的技术方案、目的和优点,下面结合具体实施例及其附图对本发明做进一步的详细描述。

实施例1激活诱导性胞苷脱氨酶(AID)的设计及优化

1、筛选高突变率的AID

通过序列比对获取脱氨酶基因家族的序列,按其在进化树上的结构分成几个大类(图1)。并在每个主要的分支上选取具有代表性的脱氨酶,用于下游的筛选实验。

脱氨酶基因通过密码子优化后整合入诱导表达载体(pGA),在酵母平台中完成突变效率的测定。结果从图2可以看出,表达不同脱氨酶的GIL104酵母在SC-Arg-/CAN+平板上均出现抗性克隆,说明脱氨酶基因成功表达。实验中每个样品各有36个独立的点板重复,每个点板重复的酵母细胞数为8×106,另外由于克隆数目较多,hsAID样品点板前稀释了10倍,即为8×105

通过计算抗性克隆的数目,对每种脱氨酶的突变效率进行估计。从分析结果(图3)可以看出,hsAID蛋白具有最高的突变效率。hsAID为人源的“免疫系统的激活诱导性胞苷脱氨酶”(Activation-induced cytosine deaminase,AICDA,or AID),参与体细胞超高突变(SHM),基因转换(gene conversion)和B淋巴细胞中的类别转换重组(CSR),通过对Ig-可变区(V)和Ig-开关区(S)DNA进行脱氨,大大增加了免疫组库的多样性。

因此,后续的实验以hsAID为起始,进行了AID蛋白的改造和优化。

2、改造及优化AID获得诱变蛋白(mutator)

采用半理性设计(Semi-rational design)的策略。借助生物信息学方法,基于同源蛋白序列比对、三维结构或已有知识,选取多个氨基酸残基作为改造靶点,结合有效密码子的理性选用,通过构建高质量突变体文库,选取了K10E、K34E、T82I、F115E、E156G和R174E共6个氨基酸位点的替换进行测试。另外根据AID蛋白域的注释,蛋白C端介导了免疫基因位点的类型转换重组(class switch recombination),因此推断去除AID蛋白的C端能够提升目标序列的稳定性,提升突变效率。

在相同酵母筛选平台中对这些位点的组合进行测试,观测脱氨酶突变效率能否获得提升。实验及分析流程参考材料与方法7.2.7与材料与方法7.3.1。测试结果如图4所示,K10E、K34E、T82I、E156G对突变效率的提升较为明显,其中T82I提升效果最为显著。同时,181*提前终止的变体也使突变效率均获得较大的提升。

如图5所示,从蛋白3D结构上看,五个突变位点中K10E,K34E,E156G,181*的氨基酸残基均位于蛋白表面,而T82I位蛋白结构内部。但是从效果上看,T82I突变带来的提升最为明显,可能是因为从极性氨基酸(Thr)到疏水氨基酸(Ile)的突变,影响了蛋白的整体结构,导致催化效率产生了全局性的提升。得到了突变效率提升的优化后的脱氨酶蛋白,将其命名为AID5。在下文的描述中“激活诱导性胞苷脱氨酶”(mutator)被简称为“诱变蛋白”(targeter)。

实施例2DNA特异结合蛋白的筛选以及优化

AID蛋白在体内之所以能定向的诱导特定位点(locus)的高突变,是因为有大量的辅助因子和复杂的时空调控机制。如果只是单一的过量表达AID蛋白,一方面突变率无法达到较高的水平,另一方面会在基因组所有位置随机产生的突变,引发突变负荷(mutationburden)。所以,“靶向记录”系统的工作,还需DNA特异结合蛋白(binding protein)的辅助。“诱变蛋白”(mutator)通过DNA特异结合蛋白的牵引,定点的作用于基因组中特定的区域。在下文的描述中“DNA特异结合蛋白”被简称为“定位蛋白”(targeter)。

目前广泛使用的DNA特异结合蛋白可以分为三大类:锌指蛋白,TALENs蛋白,CRISPR/Cas蛋白。其中,锌指蛋白的识别序列短,扩展性差,一般情况下,一个蛋白结构域只识别特定的3个碱基(nucleotide triplets),所以需要串联多个蛋白结构域实现对特异序列的识别。TALENs蛋白每个结构单元特异识别单一碱基,依靠结构单元的组合,可以实现任意序列的识别。但是,TALENs蛋白编码DNA中会有大量的重复序列,容易发生重组,不利于稳定转基因品系的构建。CRISPR/Cas是目前最为广泛接受的技术,依靠特异的引导RNA(gRNA)即可实现特定DNA序列的结合,改造方便。但作为定位蛋白同样有若干不足:蛋白结构大(~160kDa),作为结合蛋白会产生空间位阻力效应,影响了连接基团的功能;基因序列长(~4kb)对部分物种的转基因应用产生限制;蛋白结合能力较强,降低了单链打开的可能性,导致脱氨酶的有效突变窗口缩短。

“归巢核酸内切酶”属于大范围核酸酶(Meganucleases),识别的DNA序列长度在14~40bp之间,在基因组中十分罕见。通过外源表达归巢核酸内切酶,可以特异性地激活同源重组修复。I-SceI是在酵母中发现的归巢核酸内切酶,其识别序列(5’-TAGGGATAACAGGGTAAT-3’)长达18bp,且特异性极高其蛋白肽链长度为234aa,空间结构小。对I-SceI的切割活性位点进行突变(D44N与D145A)后,可以去除蛋白的切割活性,但保留DNA结合的能力。因此失活的i-SceI(记为:d-iSceI)可以作为特异性的DNA结合蛋白,其核苷酸序列如SEQ ID NO:2所示。因此,选用i-SceI进行后续实验。

实施例3单碱基定点编辑蛋白(HBE)的制备(酵母系统)

通过对“诱变蛋白”(mutator)和“定位蛋白”(targeter)的筛选及优化,初步获得了靶向记录系统中“记录蛋白”中最核心的两部分。利用柔性肽链将两个部分连接起来,即可获得记录蛋白的原型。再通过对融合蛋白进行整体优化,及添加其他增强原件,即可获得“高效的单碱基定点编辑蛋白”(High-efficiency BaseEditor,简称为HBE)。

进一步优化和筛选AID蛋白:以实施例1中的AID5蛋白为模板,通过易错PCR获得AID蛋白的突变文库,最终文库中,每个分子带有~4个碱基替换的突变。胶回收后,AID文库被构建入pGA诱导载体中,文库大小~105。质粒文库通过醋酸锂转化方法,转化到GIL104酵母菌株中,并通过SC-Leu-/GLU+琼脂平板筛选阳性克隆。随机挑取~3000个酵母单克隆,接种到SC-Leu-/GAL+液体培养基中诱导表达AID蛋白。每个单克隆均在96孔板中独立诱导,并将pGA-AID5的菌株设置为对照组。点板实验与上述的实验方法相同。

根据点板的结果筛选出抗性克隆数目高于对照组(AID5)的突变体,以酵母菌落PCR的方式扩增AID突变体的序列,用于Sanger测序。由于文库筛选的方法仅出自单一的实验重复,突变效率的估计受到了波动效应的影响。因此,扩增基因被重新构建到pGA的载体中,进行第二轮的点板筛选。在第二轮的筛选中,每个克隆均设置20个平行的诱导实验。最后对第二轮筛选中的点板结果进行波动分析,找到了一个突变效率略微上升的突变体(图6)。从Sanger测序的结果得出,这个变体中新获得了另外5个错义突变(图7b),加上原有的5个突变,共包含了10个氨基酸替换(图7a)。该变体被命名为AID10。进一步对AID10的突变位点空间位置进行分析,可以看出,其中S38,H130,V152,R174均位于蛋白表面,T100对应的残基位于蛋白3D结构的内部。其核苷酸序列如SEQ ID NO:1所示。

进一步优化和筛选DNA特异结合蛋白:为了替换筛选更优的结合蛋白,另外对归巢内切酶家族的其他蛋白同样进行切割位点的失活,连接上AID10蛋白后,同样作为DNA结合蛋白进行测试。测试菌株为CAN基因下游整合了对应的结合序列的GIL104酵母。点板实验及波动分析的流程与之前的类似。

从波动分析结果(图8)可以发现,以不同的归巢内切酶作为结合结构域,均有不错的突变效率。这意味着,后续的应用中可以正交地(orthogonal)采用若干结合结构域和结合序列,从而降低标记序列的重复性,并提升突变的密度。其中iSceI蛋白有略微的优势,因此后续的实验均采用了iSceI作为HBE中的结合元件。

由于蛋白的核定位是HBE作用于DNA的前提。AID蛋白的N端带有人源核定位信号,但在跨物种的应用中,人源的定位信号效果可能会相对较差。因此在下游的应用中,在HBE蛋白的C端,还加上了SV40核定位信号。SV40定位信号来源于病毒SV40的大T抗原(序列:PKKKRKV),经验证在多个物种中均能有较好的定位效果。

胞嘧啶突变为尿嘧啶后,体内的DNA尿嘧啶羰基化酶(uracil-DNAglycosylase,Ung),能识别该DNA的异常并对其进行修复。尿嘧啶糖基化酶抑制基团(Uracil Glyco-sylase Inhibitor,Ugi)是在枯草芽孢杆菌的噬菌体(Bacillus subtilis bacteriophagePBS2)中发现的,该蛋白能够和Ung蛋白形成复合结构,从而削弱了脱氨突变的修复的能力。因此,在HBE蛋白中添加UGI蛋白结构域,提升脱氨酶诱变的效率。最终应用到谱系的HBE蛋白结构如图9所示。本实施例最终获得适用于酵母系统的HBE蛋白,其核苷酸序列如SEQ IDNO:3所示。

实施例4制备果蝇中的HBE蛋白

果蝇中的HBE蛋白在GAL4-UAS系统的调控下,实现时空可控表达(图10)。N端到C端分别是hsp70启动子,AID10,XTEN蛋白连接,d-iSceI,6×(GGGGS)蛋白连接,UGI和SV40核定位信号。基因的表达由上游的UAS序列驱动(5×GAL4binding sites),并由下游的SV40polyA信号终止。其核苷酸序列如SEQ ID NO:4所示。

实施例5制备斑马鱼及小鼠中的HBE蛋白

斑马鱼的HBE蛋白与果蝇中构造一致(图11a),N端到C端分别是AID10,XTEN蛋白连接,d-iSceI,6×(GGGGS)蛋白连接,UGI和SV40核定位信号。HBE蛋白通过可自剪切的FMDV2A与mCherry蛋白连接。HBE和mCherry共同转录及翻译,蛋白成熟后二者被剪切开。因此,可以用mCherry的亮度来表征HBE蛋白的浓度。基因的表达由上游的UAS序列驱动(5×GAL4binding sites),并由下游的SV40polyA信号终止。Gal4-VP16蛋白(图11b)可以特异的结合UAS序列,诱导基因的表达。相似地,Gal4-VP16蛋白通过FMDV 2A与EGFP连接,EGFP的亮度表征Gal4-VP16的表达量。其核苷酸序列如SEQ ID NO:5所示。

实施例6靶向高突变序列(HMF)的设计及优化

通过人工设计及优化,获得具有靶向性的记录蛋白(HBE)后,还需要解决靶向序列的问题。一方面,由于i-SceI识别序列是固定的,其识别的序列在高等模式生物的基因组中并不存在,因此需要引入外源靶向序列。而引入外源靶向序列,其长度又必将受到限制。另一方面,因为脱氨酶诱导突变具有序列偏好性,所以需要设计具有针对性的突变热点(hotspot)。

因此,在本实施例中设计了适用于高等模式生物的靶向序列,其设计及优化过程如图12所示,包括三个步骤:

1)根据已知的突变位点,训练打分算法,设计并筛选出“靶向高突变序列”(HyperMutation Fragment,简称为HMF)。(in silico)

2)将序列导入表达HBE蛋白的系统中,并通过高通量测序数据分析靶向序列的突变率。(酵母)

3)根据分析结果设计靶向序列。(in silico)

最终得到的靶向高突变序列如下:

Forward iSceI binding motif:5’TAGGGATAACAGGGTAAT3’(SEQ IDNO:6);

Reverse iSceI binding motif:5’ATTACCCTGTTATCCCTA3’(SEQ ID NO:7).

将上述靶向高突变序列用于酵母,测试其靶向性,结果如下:

>HMF1(368bp)

CAGGTGGGTAAGCAAACTGGTTCCAATGCTGGCACCTAGGCTTGCCAGCATGCTTAGGTAGGTTGGTGCCCAGGTGAGCTTAGGAACTAGCTTGCCAACTAGCCTGCTGGTACACCTGTGCCTGCTAGCATGCCGGTTAGTACCCAGGTAAGCCTACCAGTTAGCTATTACCCTGTTATCCCTATACGTAGGGATAACAGGGTAATAGCTAGTAGGCTTACTAACTTACTAACCGGTTTACTCCAATGCCAGCCAGCCTAGGAGTTTGCCTACTAGCTTGCTAGTAGGTTCAGGTGAGCTAGCTAACCAGCAAGTTGGTATACCAACCAGTTAGTAAGCATGCTGGTAAGCCAGTAAACCTGCTGGCT

>HMF2(752bp)

TACTCCAATAGGCCAAGGCATTGGCCTACAGGTGGGCTAGCAAGCAAGCCTACTCAGGTGAGCTAGCTTACCTACTAGCTGGCTAACCAGCTAGCAAACCAGCAGGTAAGTTCACCTGGGCATAGGTACTGGTACAGGTGTAGGAACCAACTGGCAGGTAGGTAGGTAATTACCCTGTTATCCCTATCAGTAGGGATAACAGGGTAATAGCAAACCGGTTAGTTTACCTAGGTGCCCACCTGAGCACCTAAGCTCAGGTGAGCCGGCTAGCTAGCTGGTTTACCTTGGAGCTTGCCTACTCAGGTGAGCCTGCCAACCTACTAGCCAGTTGGTTTGCCGGTAGGTTAACCAGTTGGCAAGCCTGCCCACCTGCAGGTGCAATTCCAGGTGGGTAAGCAAACTGGTTCCAATGCTGGCACCTAGGCTTGCCAGCATGCTTAGGTAGGTTGGTGCCCAGGTGAGCTTAGGAACTAGCTTGCCAACTAGCCTGCTGGTACACCTGTGCCTGCTAGCATGCCGGTTAGTACCCAGGTAAGCCTACCAGTTAGCTATTACCCTGTTATCCCTATACGTAGGGATAACAGGGTAATAGCTAGTAGGCTTACTAACTTACTAACCGGTTTACTCCAATGCCAGCCAGCCTAGGAGTTTGCCTACTAGCTTGCTAGTAGGTTCAGGTGAGCTAGCTAACCAGCAAGTTGGTATACCAACCAGTTAGTAAGCATGCTGGTAAGCCAGTAAACCTGCTGGCT

将上述靶向高突变序列用于果蝇、斑马鱼或小鼠,测试其靶向性,结果如下:>HMF3k(2940bp)

AGCTTACTAACCAGCCAACTAGCTGGCTAGCAGGTAAACCTGCCAGCCTGCCGGCTCAGGTGAGCCAGTTAGTAGGCAAGTAAGCTCACCTGTAGGGGCTTTGGAGCAGGTATTGGAGTACAGGTGTAGGTTGGAGTTAGCCAGTAGGTTCACCTGATTACCCTGTTATCCCTACAGGTGAGCAGGCTAGCAAGTAGGTTCCAATGCCGGCTGGTAAGCATACCAACTCCAAAGTTCACCTGCAGGTGTAGGTACCTAGGCACCTGCACCTGGGCATAGGTGCTCCTAAGCTAGCAAACCGGTACCTATACTCAGGTGAGCTAGCAAGCTCAGGTGTAGGGATAACAGGGTAATAGCTAACCTACTAGTTGGCTAACCCCAACCAATACTTAGGAGCTGGCAGGCTAGTTTACTAGCTCAGGTGCAGGTGAGTAAGTACACCTGTGCCAGTAAGCACCTAAGCCAACCAGCCCAGGTGAGCCAACTTGCTGGCAAACCTACTGGTATACCATTACCCTGTTATCCCTAAGCTGGTAAGCTTACCCCTATACTCACCTGTGCCAGCCCAGGTGAGCAAGTTGGTATACCCACCTGCAGGTGAGTAGGCTAGTAAGCTAGCTAGTATGCTAGCTGGTTAGTTTGCCGGCTGGCTCCAAAACTAGTTGGTTGGCTCAGGTGTGCCGGTTTAGGGATAACAGGGTAATTGCTCCTACAGGTGAGTAGGCTTACCAGCTCAGGTGAGCAAGCTTGCTCCAATAGGTAGGTTGGAGCATGCCAGTTAGCTTTGGAGCTCAGGTGAGTTTGCCAGTAGGTAAACTAGTATACTTGCTAGCTGGCAAGCCGGTTAGTAGGCTCCTAATTACCCTGTTATCCCTACCAAAACCTGCCCCTAAGCTAGTATAGGAGCCGGTTAGCCAACCAGTACCAACCTAAGCACACCTGAGCTAGCAAACTAGTACCTATACTTGCCAGCAGGCTAGCTTACCAGTAAGTAGGCACAGGTGTGCCCCTAAGCCAGCTGGCAAGCTTAGGGATAACAGGGTAATGGCTGGCTTGCCAGCAGGTTTACCAACTAACCTAGGAACCAACTAACTTGCTCCAAAGCAAGCAAACTCACCTGGGCATGCCCCTAAGCTAGTAAACCCAGGTGAGCAGGTAGGTAAGTTTACCAGCCAACTTACCCAGGTGAACCAGTTCACCTGATTACCCTGTTATCCCTATGCTAGCATACTTGCTTGCCGGCATGCTTGCTAGTACCAAAACTAGCTGGTTGGCACAGGTGGGCTTGCTTAGGCACCTGAGCAGGCAGGCTAGTACCTAAGCCAACCGGCAAGTAAGTTAGTAGGCTCCAAAGTTCAGGTGTTGGAGTTAACTTAGG GATAACAGGGTAATAGTAGGTAGGTTAGCTGGTTAGTAAGCTTGCCTTGGAGCTTGCTAGTTTGCTAGTTTACCAACTAACCGGCAAGTTAACTTTGGCACCTGTTGGTAGGCCTAAGCTTGCCAGCCCACCTGAACCTGCCCAGGTGGGCACACCTGAGTATGCCTTGGATTACCCTGTTATCCCTAAGCACACCTGAGCAAGCTAGTACAGGTGCACCTGCAGGTGCCTACACCTGGGTAGGCTAACTCACCTGTGCCTGCCTGCTGGCACACCTGAACTGGTTGGCACCTATGCCAGCTTGCCAACCGGCTTAGGTAGGTACCAGCCGGTATACTAGCTAACTAACCTAGGGATAACAGGGTAATCACCTGAGTAAACCCCTAGGTAAGTACAGGTGTACCAGCTGGTTGGTTCCAACCTAAGCTTTGGTTGGTGCCGGCTGGTTTACCGGTATACTCCAACACCTGAGCTGGTACCTAGGCTTACTCACCTGCAGGTGGGCTGGTACCTATGCCAACCAACCATTACCCTGTTAT CCCTACACCTGTTGGAGCTTTGGCACCTGAGCACACCTGGGCTGGCATGCTTAGGCACCTGGGTAGGCTTAGGCAGGTGAGCAGGCTAGCTGGTAGGTTAGCCGGTACACCTGAGTTTACTCAGGTGCCTAAGCTGGTTTAGGAGCTGGTATAGGGGCATTGGAGCATAGGGATAACAGGGTAATGGCTGGCAGGTTAACCAACTAACCAACTCCTAAGCCGGTAGGCTAGCTAGCATACCTGCTAGCCCCAACACCTGTACCAGCAGGCAAGCTGGCTCCTAAACTAGTACAGGTGAACCTGCCGGCTAGCTAGCTTAGGGGCTAGCCAGTAGGTTATTACCCTGTTATCCCTAAGCTAGCCTGCCAGCTCCTATGCTAGTTAGCAAGCTGGTAGGCTGGCTAGCCTGCCTACTTACCGGTTGGTAGGTAAACCCACCTGAGCATGCCGGTATGCCTAGGGGCTTGCCTGCCAGCCAACCTAGGTGCTGGCACCTATGCCTACTTAGGGATAACAGGGTAATAACTGGCTCCAACACCTGTACTAGCAAGCTTGCCAGCAAGTATAGGCACCTGAGCTAACTAGCTTAGGAACCCACCTGGGCATAGGAACCAGCTAGTTAGCTCCAAAGCTAACCCCTAGGTTGGTTTGCCAGCACACCTGTACTTACCCACCTGTACTATTACCCTGTTA TCCCTAATTAACTCCTAAGCCCACCTGTACCAACCAGTAGGCATTGGAGTTGGCTGGTACCTAGGCTGGCTAGCCAGCTGGTAAGCAAGCAAGTTTACCCAGGTGGGCTCCTACAGGTGAGCTCCTAAGCTCACCTGGGTACCAAGGCTGGCAAGCAAGCCTAGGGATAACAGGGTAATAGCTGGCTAGTTGGTAGGCTAGCTTAGGGGCTGGCTAACCAGCAGGTAAGTAAGCACCAAAGCAGGTTGGTAAACCTTGGCAGGTGAGTTGGCTAGCTTTGGAACTAGCCAGTTTACCTAGGAACTAGTTCCTAAGCTAGTAGGTTAGTA

实施例7本发明构建的单碱基定点编辑系统诱导突变效果的验证

(一)tet-SLOTH小鼠的品系构建

小鼠的HBE蛋白(mHBE)经过了密码子优化,并增加HA蛋白标签。从N端到C端分别是:AID10,3×(GGGGS)linker,d-iSceI,10aa GS rich linker,HA蛋白标签和SV40核定位信号。mHBE连接在Tet启动子和β--globin polyA终止信号之间;HMF3k标记序列两端加上了可用于在小鼠基因组中进行特异性的扩增序列,并放置于mHBE表达框的下游,二者共同组成了tet-SLOTH系统。系统通过Cas9介导的转基因技术,定点地整合到小鼠的H11(Hipp11)位点的Eif4enif1和Drg1基因之间。H11基因座位于小鼠11号染色体,已被证实可用于外源基因的稳定和高效表达。转基因位点经过DNA印迹(Southern blot)方法鉴定,确认为单一拷贝。小鼠H11转基因位点中tet-SLOTH系统的图谱如图13所示。

tet-SLOTH的小鼠与rtTA品系的小鼠(JAX ID:006965)交配后,在tet--SLOTH+/rtTA+的子代中,稳定表达的rtTA蛋白在强力霉素(Doxycycline,Dox)的作用下,与HBE上游的Tet启动子结合,并诱导HBE蛋白的表达。通过控制小鼠Dox的摄入,即可对SLOTH系统的开关进行调控,如图14所示。

(二)lox-SLOTH小鼠的品系构建

与tet-SLOTH品系的小鼠类似,lox-SLOTH系统由mHBE和HMF3k两部分组成。mHBE蛋白连接在chickenβ-actin启动子和polyA终止信号之间,并在启动子和mHBE基因之间插入了两端带有LoxP重组位点的3个串联重复的终止信号。系统单拷贝地整合到小鼠的Rosa26位点。Rosa26位点位于小鼠6号染色体,是小鼠转基因系统最常用的安全区域(safeharbor),整合进Rosa26位点的外源基因能稳定地表达。小鼠Rosa26转基因位点中lox-SLOTH系统的图谱如图15所示。lox-SLOTH的小鼠与Cre的小鼠交配后,在子代中,Cre蛋白介导LoxP位点之间的终止信号被移除,lox-SLOTH系统开启,如图16所示。

为了验证该诱导突变系统在小鼠中能否正常的工作,选用tet-SLOTH的转基因小鼠品系,设计了以下实验:tet-SLOTH位点纯合的小鼠与rtTA杂合的小鼠交配,子代基因型分别为:tet-SLOTH+/rtTA+和tet-SLOTH+/rtTA-。从交配前3天开始,以饲料摄取的形式给母鼠喂养Dox(2mg/day),胎鼠能够通过胎盘吸收Dox从而激活HBE的表达。通过比较两种基因型子代的存活率及表型,可以判断系统对小鼠发育是否有影响。从子代(F1)数目上看,tet-SLOTH+/rtTA+和tet-SLOTH+/rtTA-并没有明显差异,在发育上也未见异常。

选取E14和P1两个时间点,PCR鉴定获得tet-SLOTH+/rtTA+的个体后,分别进行全转录组测序。首先,分离小鼠后肢进行RNA提取;接着每个样品取1μg的总RNA进行转录组测序文库的构建;最后,利用Illumina NovaSeq平台进行高通量测序。单一样品数据量均大于8Gb,测序长度为PE150。测序数据的分析步骤分别为:1)以fastp进行测序数据的质量控制,过滤平均质量低于Q35的序列。2)利用位点的图谱(图13)及其序列,在小鼠参考基因组(Musmusculus,GRCm38)的基础上,建立序列比对的索引及注释文件。3)通过STAR进行RNAseq数据的比对。4)计算每个基因的有效测序读数及基因长度(subread/featureCount)。如图17所示,在不同的发育时间点,Dox均可诱导tet-SLOTH转基因小鼠中HBE基因的表达,HBE的表达量相对较高,且在小鼠发育过程中有稳定的表达水平。这意味着,与之前的工作不同,SLOTH系统的标记效率是恒定的,能够更好地还原细胞发育历史的时间节点。

为了比较HMF3k单一分子上的突变,分别对每个小鼠个体中不同的器官类型进行扩增,通过TOPO克隆试剂盒进行单克隆化,随机挑选单克隆进行Sanger测序。从图18可以看出,在HBE-的对照组中,HMF3k标记序列上几乎未观测到突变;而在HBE+的实验组中,单位标记序列上平均带有4.3个突变。证明了该系统能在小鼠中正常地发挥功能,成功的诱导突变。

以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。因此,本发明专利的保护范围应以所附权利要求为准。

SEQUENCE LISTING

<110> 中山大学

<120> 基于激活诱导性胞苷脱氨酶的诱导突变蛋白的制备和用途

<130> 2.20

<160> 7

<170> PatentIn version 3.3

<210> 1

<211> 630

<212> DNA

<213> 人工序列

<400> 1

aagcttatgc ccaagaaaaa gcgcaaggtg gacagcctct tgatgaaccg gaggaagttt 60

ctttaccaat tcaaaaatgt ccgctgggct aagggtcggc gtgagaccta cctgtgctac 120

gtagtgaaga ggcgtgacag tgctacatcc ttttcactgg actttggtta tcttcgcaat 180

aagaacggct gccacgtgga attgctcttc ctccgctaca tctcggactg ggacctagac 240

cctggccgct gctaccgcgt cacctggttc acctcctgga gcccctgcta cgactgtgcc 300

cgacatgtgg ccgactttct gcgagggaac cccaacctca gtctgaggat cttcaccgcg 360

cgcctctact tctgtgagga ccgcaaggct gagcccgagg ggctgcggcg gctgcaccgc 420

gccggggtgc aaatagccat catgaccttc aaagattatt tttactgctg gaatactttt 480

gtagaaaacc acgaaagaac tttcaaagcc tgggaagggc tgcatgaaaa ttcagttcgt 540

ctctccagac agcttcggcg catccttttg cccctgtatg aggttgatga cttacgagac 600

gcatttcgta ctttgggact ttaatctaga 630

<210> 2

<211> 717

<212> DNA

<213> 人工序列

<400> 2

ggatccaaaa acatcaaaaa aaaccaggta atgaacctgg gtccgaactc taaactgctg 60

aaagaataca aatcccagct gatcgaactg aacatcgaac agttcgaagc aggtatcggt 120

ctgatcctgg gtaatgctta catccgttct cgtgatgaag gtaaaaccta ctgtatgcag 180

ttcgagtgga aaaacaaagc atacatggac cacgtatgtc tgctgtacga tcagtgggta 240

ctgtccccgc cgcacaaaaa agaacgtgtt aaccacctgg gtaacctggt aatcacctgg 300

ggcgcccaga ctttcaaaca ccaagctttc aacaaactgg ctaacctgtt catcgttaac 360

aacaaaaaaa ccatcccgaa caacctggtt gaaaactacc tgaccccgat gtctctggca 420

tactggttca tggatgctgg tggtaaatgg gattacaaca aaaactctac caacaaatcg 480

atcgtactga acacccagtc tttcactttc gaagaagtag aatacctggt taagggtctg 540

cgtaacaaat tccaactgaa ctgttacgta aaaatcaaca aaaacaaacc gatcatctac 600

atcgattcta tgtcttacct gatcttctac aacctgatca aaccgtacct gatcccgcag 660

atgatgtaca aactgccgaa cactatctcc tccgaaactt tcctgaaatg agaattc 717

<210> 3

<211> 1293

<212> DNA

<213> 人工序列

<400> 3

atggacagcc tcttgatgaa ccggagggag tttctttacc aattcaaaaa tgtccgctgg 60

gctaagggtc ggcgtgagac ctacctgtgc tacgtagtgg agaggcgtga cagtgctaca 120

tccttttcac tggactttgg ttatcttcgc aataagaacg gctgccacgt ggaattgctc 180

ttcctccgct acatctcgga ctgggaccta gaccctggcc gctgctaccg cgtcacctgg 240

ttcatctcct ggagcccctg ctacgactgt gcccgacatg tggccgactt tctgcgaggg 300

aaccccaacc tcagtctgag gatcttcacc gcgcgcctct acttctgtga ggaccgcaag 360

gctgagcccg aggggctgcg gcggctgcac cgcgccgggg tgcaaatagc catcatgacc 420

ttcaaagatt atttttactg ctggaatact tttgtagaaa accatggaag aactttcaaa 480

gcctgggaag ggctgcatga aaattcagtt cgtctctcca gacagcttcg gcgcatcctt 540

ggtggaggtg gttctggtgg tggaggttct ggtggtggtg gatccatgaa aaacatcaaa 600

aaaaaccagg taatgaacct gggtccgaac tctaaactgc tgaaagaata caaatcccag 660

ctgatcgaac tgaacatcga acagttcgaa gcaggtatcg gtctgatcct gggtaatgct 720

tacatccgtt ctcgtgatga aggtaaaacc tactgtatgc agttcgagtg gaaaaacaaa 780

gcatacatgg accacgtatg tctgctgtac gatcagtggg tactgtcccc gccgcacaaa 840

aaagaacgtg ttaaccacct gggtaacctg gtaatcacct ggggcgccca gactttcaaa 900

caccaagctt tcaacaaact ggctaacctg ttcatcgtta acaacaaaaa aaccatcccg 960

aacaacctgg ttgaaaacta cctgaccccg atgtctctgg catactggtt catggatgct 1020

ggtggtaaat gggattacaa caaaaactct accaacaaat cgatcgtact gaacacccag 1080

tctttcactt tcgaagaagt agaatacctg gttaagggtc tgcgtaacaa attccaactg 1140

aactgttacg taaaaatcaa caaaaacaaa ccgatcatct acatcgattc tatgtcttac 1200

ctgatcttct acaacctgat caaaccgtac ctgatcccgc agatgatgta caaactgccg 1260

aacactatct cctccgaaac tttcctgaaa taa 1293

<210> 4

<211> 1661

<212> DNA

<213> 人工序列

<400> 4

atggacagcc tcttgatgaa ccggagggag tttctttacc aattcaaaaa tgtccgctgg 60

gctaagggtc ggcgtgagac ctacctgtgc tacgtagtgg agaggcgtga ctgtgctaca 120

tccttttcac tggactttgg ttatcttcgc aataagaacg gctgccacgt ggaattgctc 180

ttcctccgct acatctcgga ctgggaccta gaccctggcc gctgctaccg cgtcacctgg 240

ttcatctcct ggagcccctg ctacgactgt gcccgacatg tggccgactt tctgcgaggg 300

aaccccaacc tcagtctgag gatcttcgcc gcgcgcctct acttctgtga ggaccgcaag 360

gctgagcccg aggggctgcg gcggctgcgc cgcgccgggg tgcaaatagc catcatgacc 420

ttcaaagatt atttttactg ctggaatact tttgcagaaa accatggaag aactttcaaa 480

gcctgggaag ggctgcatga aaattcagtt cgtctctccg gacagcttcg gcgcatcctt 540

agcggcagcg agactcccgg gacctcagag tccgccacac ccgaaagtaa aaacatcaaa 600

aaaaaccagg taatgaacct gggtccgaac tctaaactgc tgaaagaata caaatcccag 660

ctgatcgaac tgaacatcga acagttcgaa gcaggtatcg gtctgatcct gggtaatgct 720

tacatccgtt ctcgtgatga aggtaaaacc tactgtatgc agttcgagtg gaaaaacaaa 780

gcatacatgg accacgtatg tctgctgtac gatcagtggg tactgtcccc gccgcacaaa 840

aaagaacgtg ttaaccacct gggtaacctg gtaatcacct ggggcgccca gactttcaaa 900

caccaagctt tcaacaaact ggctaacctg ttcatcgtta acaacaaaaa aaccatcccg 960

aacaacctgg ttgaaaacta cctgaccccg atgtctctgg catactggtt catggatgtg 1020

gtggtaaatg ggattacaac aaaaactcta ccaacaaatc gatcgtactg aacacccagt 1080

ctttcacttt cgaagaagta gaatacctgg ttaagggtct gcgtaacaaa ttccaactga 1140

actgttacgt aaaaatcaac aaaaacaaac cgatcatcta catcgattct atgtcttacc 1200

tgatcttcta caacctgatc aaaccgtacc tgatcccgca gatgatgtac aaactgccga 1260

acactatctc ctccgaaact ttcctgaaag gtggaggtgg ttctggtgga ggtggttctg 1320

gtggtggatc tggaggcggt gggtccggag gtggcggttc gggcggaggt ggatccacta 1380

acctgtccga catcatcgag aaggagactg gcaagcagct ggtgatccag gagtctattc 1440

tgatgctgcc agaggaggtg gaagaggtga tcggcaacaa gccagagtct gatatcctgg 1500

tgcacactgc ctacgacgag tccactgacg aaaacgtgat gctgctgact tccgatgccc 1560

cagaatacaa gccatgggcc ctggtgattc aggactccaa cggcgagaac aagatcaaga 1620

tgctgtctgg tggttctccc aagaagaaga ggaaagtcta a 1661

<210> 5

<211> 1638

<212> DNA

<213> 人工序列

<400> 5

atggacagcc tccttatgaa ccggcgagag ttcttgtatc aatttaaaaa cgttcgatgg 60

gcaaagggac ggcgggagac ttacctttgc tatgttgtgg agcggcgaga ttgcgccacc 120

tctttctctc ttgacttcgg ctatctccga aacaagaatg gatgtcacgt agaacttttg 180

tttcttcggt atataagtga ctgggacctt gatccaggac gatgctaccg cgttacctgg 240

ttcatctcat ggagcccctg ttatgactgc gccaggcatg ttgctgactt tctgagaggg 300

aatccaaacc tctccctccg cattttcgct gctaggctgt atttttgtga ggatcggaag 360

gcagaaccag agggtctcag gcgattgcgc cgggctggag tacaaatcgc tattatgaca 420

tttaaggact acttttattg ctggaacact ttcgctgaaa atcatggtag aacctttaaa 480

gcctgggagg ggcttcacga gaactcagtc cgattgtcag gtcaactcag gcgcatactg 540

ggaggaggtg gttccggcgg tgggggcagt ggcggaggtg gttctatgaa gaatatcaag 600

aaaaatcagg taatgaattt gggtcctaac agtaagttgc tcaaggaata caagtcccaa 660

ctgattgagc tgaacattga acaattcgaa gccggaattg gcttgatact cggcaatgct 720

tatatcagga gtagagatga agggaaaact tattgcatgc aattcgagtg gaaaaataag 780

gcctatatgg atcacgtgtg tctcctttat gaccaatggg tactgtcacc tccacataag 840

aaagagaggg ttaatcatct tggtaatctc gttatcacat ggggagcaca aactttcaaa 900

catcaggcat ttaacaaatt ggcaaacttg tttattgtga acaataaaaa gactataccc 960

aacaatttgg tcgagaacta tcttacccct atgtctttgg cctactggtt catggacgca 1020

ggcggcaaat gggattacaa caaaaatagt acaaacaaaa gtattgtact taacacacag 1080

tcctttacat tcgaagaggt agaatatttg gtcaaaggac ttaggaacaa gtttcaactg 1140

aattgttacg ttaaaataaa taaaaataag cctatcatat acatagactc tatgtcttac 1200

ctgattttct acaacttgat aaagccctac ctcattcccc aaatgatgta taaactccca 1260

aatactattt cttccgagac cttcctgaaa tctggtggtt ctggaggatc tggtggttct 1320

actaatctgt cagatattat tgaaaaggag accggtaagc aactggttat ccaggaatcc 1380

atcctcatgc tcccagagga ggtggaagaa gtcattggga acaagccgga aagcgatata 1440

ctcgtgcaca ccgcctacga cgagagcacc gacgagaatg tcatgcttct gactagcgac 1500

gcccctgaat acaagccttg ggctctggtc atacaggata gcaacggtga gaacaagatt 1560

aagatgctct ctggtggttc ttacccatac gatgttccag attacgctgc agctcccaag 1620

aagaagagga aagtctaa 1638

<210> 6

<211> 18

<212> DNA

<213> 人工序列

<400> 6

tagggataac agggtaat 18

<210> 7

<211> 18

<212> DNA

<213> 人工序列

<400> 7

attaccctgt tatcccta 18

25页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:褐藻胶裂解酶ALB02668及基因、重组质粒、工程菌株和在拮抗病原微生物中的应用

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!