差异代理技术在a·g碱基替换细胞富集中的应用

文档序号:1609395 发布日期:2020-01-10 浏览:18次 >En<

阅读说明:本技术 差异代理技术在a·g碱基替换细胞富集中的应用 (Application of differential proxy technology in enrichment of A.G base substitution cells ) 是由 杨进孝 赵久然 张成伟 徐雯 武莹 吕欣欣 于 2019-09-30 设计创作,主要内容包括:本发明公开了差异代理技术在A·G碱基替换细胞富集中的应用。本发明的差异代理技术载体包括靶向目标基因靶点序列的esgRNA、靶向功能丧失的筛选剂抗性基因靶点序列的sgRNA、A·G碱基替换系统和功能丧失的筛选剂抗性基因;A·G碱基替换系统在靶向功能丧失的筛选剂抗性基因靶点序列的sgRNA的向导下,可通过对所述功能丧失的筛选剂抗性基因靶点序列进行A·G碱基替换使所述功能丧失的筛选剂抗性基因功能恢复。本发明实现了细胞水平上A·G碱基替换细胞富集,大大提高A·G碱基替换效率。(The invention discloses an application of a differential agent technology in enrichment of A.G base-substituted cells. The differential agent technology vector comprises esgRNA of a target gene target sequence, sgRNA of a screening agent resistance gene target sequence with target function loss, an A.G base replacement system and a screening agent resistance gene with function loss; the A.G base substitution system can restore the function of the selection agent resistance gene with the loss of function by carrying out A.G base substitution on the selection agent resistance gene target sequence with the loss of function under the guidance of sgRNA of the selection agent resistance gene target sequence with the loss of function. The invention realizes the enrichment of A.G base substitution cells on the cell level and greatly improves the A.G base substitution efficiency.)

差异代理技术在A·G碱基替换细胞富集中的应用

技术领域

本发明涉及生物技术领域,具体涉及差异代理技术在A·G碱基替换细胞富集中的应用。

背景技术

CRISPR-Cas9技术已经成为强有力的基因组编辑手段,被广泛应用到很多组织和细胞中。 CRISPR/Cas9 protein-RNA复合物通过向导RNA(guide RNA)定位于靶点上,切割产生DNA 双链断裂(dsDNA break,DSB),而后生物体会本能的启动DNA修复机制修复DSB。修复机制 一般有两种,一种是非同源末端连接(non-homologous end joining,NHEJ),另一种是同源 重组(homology-directed repair,HDR)。通常情况下NHEJ占大多数,因此修复产生的随机 的indels(insertions or deletions)比精确修复高很多。对于碱基精确替换,因为HDR 效率低以及需要DNA模板,所以使用HDR实现碱基精确替换的应用受到很大的限制。

2017年,David Liu实验室报道了一种新型的腺嘌呤碱基编辑器(adenine baseeditors, ABE)。通过七轮进化,研究者将来源于大肠杆菌的tRNA腺嘌呤脱氨酶(tRNAadenosine deaminase,ecTadA)融合在Cas9 nickase(Cas9n)的5’端,在细胞内能够直接实现对单 个碱基A(Adenine,A)到G(Guanine,G)的替换,而不再通过产生DSB和启动HDR修复,大大提高了A替换为G的碱基编辑效率。具体过程为:当含有基因组靶向序列的sgRNA与ecTadA&ecTadA&Cas9n结合时,复合体定位到靶点,ecTadA催化非配对的单链DNA上的A发生腺嘌呤脱氨反应变成肌苷(Inosine,I),在DNA修复的过程中,I会被视为G,Cas9n会 在切割配对的DNA链的磷酸二酯键,引入一个胞嘧啶C(Cytosine,)与I配对。最终在接下 来的修复过程中产生C-G配对,从而实现了A到G的转换。

目前,在植物中通过报告基因介导的细胞富集技术富集A·G碱基替换细胞的研究非常有 限,目前尚无利用转化过程中使用筛选标记在细胞水平上实现A·G碱基替换细胞的富集,进 而提高A·G碱基替换效率的报道。

发明内容

本发明的目的是提供差异代理技术在A·G碱基替换的细胞富集中的应用,本发明的差异 代理技术能够在细胞水平上实现A·G碱基替换细胞的富集,进而提高目标靶点的A·G碱基 替换效率。

为了实现上述目的,本发明首先提供了一种成套试剂,所述成套试剂包括sgRNA或与所 述sgRNA相关的生物材料、A·G碱基替换系统和功能丧失的筛选剂抗性基因或与所述功能丧 失的筛选剂抗性基因相关的生物材料;

所述sgRNA由靶向目标基因靶点序列的esgRNA和靶向所述功能丧失的筛选剂抗性基因靶 点序列的sgRNA组成;

所述靶向目标基因靶点序列的esgRNA结构如下:所述目标基因靶点序列转录的RNA-esgRNA骨架;

所述靶向所述功能丧失的筛选剂抗性基因靶点序列的sgRNA结构如下:所述功能丧失的 筛选剂抗性基因靶点序列转录的RNA-sgRNA骨架;

所述A·G碱基替换系统包括Cas9核酸酶或与所述Cas9核酸酶相关的生物材料和腺嘌呤 脱氨酶或与所述腺嘌呤脱氨酶相关的生物材料;

所述A·G碱基替换系统在靶向所述功能丧失的筛选剂抗性基因靶点序列的sgRNA的向导 下,可通过对所述功能丧失的筛选剂抗性基因靶点序列进行A·G碱基替换使所述功能丧失的 筛选剂抗性基因功能恢复;

所述sgRNA骨架为S1)或S2)或S3):

S1)将序列1第2418-2493位中的T替换为U得到的RNA分子;

S2)将S1)所示的RNA分子经过一个或几个核苷酸的取代和/或缺失和/或添加且具有相 同功能的RNA分子;

S3)与S1)或S2)限定的核苷酸序列具有75%或75%以上同一性且具有相同功能的RNA 分子;

所述esgRNA骨架为T1)或T2)或T3):

T1)将序列1第617-702位中的T替换为U得到的RNA分子;

T2)将T1)所示的RNA分子经过一个或几个核苷酸的取代和/或缺失和/或添加且具有相 同功能的RNA分子;

T3)与T1)或T2)限定的核苷酸序列具有75%或75%以上同一性且具有相同功能的RNA 分子。

上述成套试剂中,靶向所述目标基因靶点序列的个数可为一个或两个或多个;靶向所述 功能丧失的筛选剂抗性基因靶点序列的个数可为一个或两个或多个。所述靶点序列大小可为 15-25bp,进一步可为18-22bp,更进一步可为20bp。

所述功能丧失的筛选剂抗性基因满足如下条件:所述功能丧失的筛选剂抗性基因功能或 活性丧失,且通过对所述功能丧失的筛选剂抗性基因靶点序列进行A·G碱基替换后可使所述 功能丧失的筛选剂抗性基因功能恢复。所述功能丧失的筛选剂抗性基因靶点序列可为功能丧 失的筛选剂抗性基因序列上的靶点序列(位于功能丧失的筛选剂抗性基因序列内部),也可为 额外添加在功能丧失的筛选剂抗性基因序列内部或5’端或3’端的靶点序列。当为了使功能 丧失的筛选剂抗性基因在进行A·G碱基替换后可恢复功能而在其序列上额外添加了靶点靶序 列(记作代理靶点靶序列)时,所述功能丧失的筛选剂抗性基因序列不仅包括功能丧失的筛 选剂抗性基因本身,还包括代理靶点靶序列以及如果需要,为了保证添加代理靶点靶序列后 筛选剂抗性基因能够在正常读码框内翻译再额外添加的一个或两个或多个碱基。

进一步的,所述功能丧失的筛选剂抗性基因可为将筛选剂抗性基因的起始密码子(如ATG) 删除,且在筛选剂抗性基因5’端添加代理靶点靶序列后得到的序列。所述代理靶点靶序列 满足如下条件即可:通过A·G碱基替换系统对所述代理靶点靶序列进行A·G碱基替换后可 使所述功能丧失的筛选剂抗性基因功能恢复。代理靶点靶序列依次由功能丧失的筛选剂抗性 基因靶点序列和PAM序列组成。需要注意的是,为了保证添加代理靶点靶序列后,去除起始 密码子的筛选剂抗性基因能够在正常读码框内翻译,可在代理靶点靶序列和去除起始密码子 的筛选剂抗性基因之间再添加一个或两个或多个碱基。

在本发明的一个具体实施例中,所述代理靶点序列为序列5。所述功能丧失的筛选剂抗 性基因靶点序列为序列5第1-20位。所述A·G碱基替换系统在靶向所述代理靶点序列的sgRNA 的向导下,可通过对所述代理靶点序列进行A·G碱基替换,使代理靶点序列第6位碱基A 突变为碱基G,形成ATG,进而使筛选标记基因功能恢复。需要注意的是,为了保证添加代 理靶点序列后,去除起始密码子的筛选剂抗性基因能够在正常读码框内翻译,此处在代理靶 点序列和去除起始密码子的筛选剂抗性基因之间又添加了一个碱基C。

更进一步的,所述筛选剂抗性基因可为现有技术中常见的筛选剂抗性基因,如Bar/PAT 草铵膦-N-乙酰转移酶基因、PMI 6-磷酸甘露糖异构酶基因、EPSPS 5-烯醇丙酮莽草酸-3-磷 酸合成酶基因等。在本发明的一个具体实施例中,所述筛选剂抗性基因为潮霉素抗性基因。

上述成套试剂中,所述Cas9核酸酶包括不同来源的Cas9核酸酶或其变体、dead失活酶 (dead Cas9,dCas9)或其变体、nickase切刻酶(Cas9 nickase,Cas9n)或其变体。所述不同来源的Cas9核酸酶或其变体包括来源于细菌的Cas9(如SaCas9、SaCas9-KKH等),Cas9-PAM变体(如xCas9、NG Cas9、Cas9-VQR、Cas9-VRER等),Cas9高保真酶变体(如HypaCas9、 eSpCas9(1.1)、Cas9-HF1等)等。在本发明的一个具体实施例中,所述Cas9核酸酶为Cas9n, 具体为SpCas9n蛋白质。在本发明的另一个具体实施例中,所述Cas9核酸酶为Cas9n,具体 为HypaCas9n蛋白质。

所述腺嘌呤脱氨酶可为不同来源的腺嘌呤脱氨酶,如来源于大肠杆菌的ecTadA蛋白质、 或来源于植物内源的腺嘌呤脱氨酶(如水稻内源OsTadA,拟南芥来源AtTadA等)。在本发明 的一个具体实施例中,所述腺嘌呤脱氨酶为来源于大肠杆菌的ecTadA蛋白质。

进一步的,所述SpCas9n蛋白质为A1)或A2)或A3):

A1)氨基酸序列是序列3所示的蛋白质;

A2)将序列表中序列3所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和 /或添加且具有相同功能的蛋白质;

A3)在A1)或A2)的N端或/和C端连接标签得到的融合蛋白质;

与所述SpCas9n相关的生物材料为B1)至B5)中的任一种:

B1)编码所述SpCas9n的核酸分子;

B2)含有B1)所述核酸分子的表达盒;

B3)含有B1)所述核酸分子的重组载体、或含有B2)所述表达盒的重组载体;

B4)含有B1)所述核酸分子的重组微生物、或含有B2)所述表达盒的重组微生物、或含 有B3)所述重组载体的重组微生物;

B5)含有B1)所述核酸分子的转基因细胞系、或含有B2)所述表达盒的转基因细胞系;

所述ecTadA蛋白质为E1)或E2)或E3):

E1)氨基酸序列是序列2所示的蛋白质;

E2)将序列表中序列2所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和 /或添加且具有相同功能的蛋白质;

E3)在E1)或E2)的N端或/和C端连接标签得到的融合蛋白质;

与所述ecTadA蛋白质相关的生物材料为F1)至F5)中的任一种:

F1)编码所述ecTadA蛋白质的核酸分子;

F2)含有F1)所述核酸分子的表达盒;

F3)含有F1)所述核酸分子的重组载体、或含有F2)所述表达盒的重组载体;

F4)含有F1)所述核酸分子的重组微生物、或含有F2)所述表达盒的重组微生物、或含 有F3)所述重组载体的重组微生物;

F5)含有F1)所述核酸分子的转基因细胞系、或含有F2)所述表达盒的转基因细胞系;

与所述功能丧失的筛选剂抗性基因相关的生物材料为K1)至K4)中的任一种:

K1)含有所述功能丧失的筛选剂抗性基因的表达盒;

K2)含有所述功能丧失的筛选剂抗性基因的重组载体、或含有K1)所述表达盒的重组载 体;

K3)含有所述功能丧失的筛选剂抗性基因的重组微生物、或含有K1)所述表达盒的重组 微生物、或含有K2)所述重组载体的重组微生物;

K4)含有所述功能丧失的筛选剂抗性基因的转基因细胞系、或含有K1)所述表达盒的转 基因细胞系。

为了使A1)、E1)中的蛋白质便于纯化,可在由序列表中序列2或序列3所示的 氨基酸序列组成的蛋白质的氨基末端或羧基末端连接上如下表所示的标签。

表、标签的序列

标签 残基 序列
Poly-Arg 5-6(通常为5个) RRRRR
Poly-His 2-10(通常为6个) HHHHHH
FLAG 8 DYKDDDDK
Strep-tag II 8 WSHPQFEK
c-myc 10 EQKLISEEDL

上述A2)、E2)中的蛋白质,为与序列2或序列3所示蛋白质的氨基酸序列具有75%或75%以上同一性且具有相同功能的蛋白质。所述具有75%或75%以上同一性为具有75%、具 有80%、具有85%、具有90%、具有95%、具有96%、具有97%、具有98%或具有99%的同一性。

上述A2)、E2)中的蛋白质可人工合成,也可先合成其编码基因,再进行生物表达得到。

上述A2)、E2)中的蛋白质的编码基因可通过将序列1的第4205-4705位(编码序列2所示的蛋白质)、序列1的第5396-9496位(编码序列3所示的蛋白质)所示的DNA序列中 缺失一个或几个氨基酸残基的密码子,和/或进行一个或几个碱基对的错义突变,和/或在其 5′端和/或3′端连接上表所示的标签的编码序列得到。

更进一步的,B1)所述核酸分子为b1)或b2)或b3):

b1)序列表中序列1第5396-9496位所示的cDNA分子或DNA分子;

b2)与b1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述SpCas9n的cDNA 分子或DNA分子;

b3)在严格条件下与b1)或b2)限定的核苷酸序列杂交,且编码所述SpCas9n的cDNA分子或DNA分子;

F1)所述核酸分子为f1)或f2)或f3):

f1)序列表中序列1第4205-4705位所示的cDNA分子或DNA分子;

f2)与f1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述ecTadA的cDNA 分子或DNA分子;

f3)在严格条件下与f1)或f2)限定的核苷酸序列杂交,且编码所述ecTadA的cDNA分 子或DNA分子;

K1)所述功能丧失的筛选剂抗性基因为序列1第12278-13324位所示的DNA分子。

其中,所述核酸分子可以是DNA,如cDNA、基因组DNA或重组DNA;所述核酸分子也可以是RNA,如mRNA或hnRNA等。

本领域普通技术人员可以很容易地采用已知的方法,例如定向进化和点突变的方法,对 本发明的编码所述SpCas9n或所述ecTadA的核苷酸序列进行突变。那些经过人工修饰的,具 有与本发明的所述SpCas9n或所述ecTadA的核苷酸序列75%或者更高同一性的核苷酸,只要 编码所述SpCas9n或所述ecTadA且具有相同功能,均是衍生于本发明的核苷酸序列并且等同 于本发明的序列。

这里使用的术语“同一性”指与天然核酸序列的序列相似性。“同一性”包括与本发明的 编码序列2或3所示的氨基酸序列组成的蛋白质的核苷酸序列具有75%或更高,或85%或更高, 或90%或更高,或95%或更高同一性的核苷酸序列。同一性可以用肉眼或计算机软件进行评价。 使用计算机软件,两个或多个序列之间的同一性可以用百分比(%)表示,其可以用来评价相 关序列之间的同一性。

所述严格条件是在2×SSC,0.1%SDS的溶液中,在68℃下杂交并洗膜2次,每次5min, 又于0.5×SSC,0.1%SDS的溶液中,在68℃下杂交并洗膜2次,每次15min;或,0.1×SSPE (或0.1×SSC)、0.1%SDS的溶液中,65℃条件下杂交并洗膜。

上述75%或75%以上同一性,可为80%、85%、90%或95%以上的同一性。

B2)所述的含有编码SpCas9n蛋白质的核酸分子的表达盒(SpCas9n基因表达盒),是指 能够在宿主细胞中表达SpCas9n蛋白质的DNA,该DNA不但可包括启动SpCas9n基因转录的 启动子,还可包括终止SpCas9n基因转录的终止子。进一步,所述表达盒还可包括增强子序 列。可用现有的表达载体构建含有所述SpCas9n基因表达盒的重组载体。

F2)所述的含有编码ecTadA蛋白质的核酸分子的表达盒(ecTadA基因表达盒),是指能 够在宿主细胞中表达ecTadA蛋白质的DNA,该DNA不但可包括启动ecTadA基因转录的启动 子,还可包括终止ecTadA基因转录的终止子。进一步,所述表达盒还可包括增强子序列。更 进一步,所述表达盒中可含有一个或两个编码ecTadA蛋白质的核酸分子。可用现有的表达载 体构建含有所述ecTadA基因表达盒的重组载体。

所述载体可为质粒、黏粒、噬菌体或病毒载体。在本发明的具体实施例中,所述重组载 体具体为DisSUGs-1重组表达载体、DisSUGs-2重组表达载体或DisSUGs-3重组表达载体。

所述DisSUGs-1重组表达载体的序列为序列1。所述DisSUGs-1重组表达载体含有四个 靶点序列,序列见表1。

所述DisSUGs-2重组表达载体的序列为将序列1中的前三个靶点序列依次分别替换为 如下三个靶点序列:DEP1-T2、ACC、NRT1.1B-T4,且保持其他序列不变后得到的序列。对 应的靶序列信息见表1。

所述DisSUGs-3重组表达载体的序列为将序列1中的前三个靶点序列依次分别替换为 如下三个靶点序列:SPL14、WRKY45、DELLA,且保持其他序列不变后得到的序列。对应的 靶序列信息见表1。

所述微生物可为酵母、细菌、藻或真菌。其中,所述细菌可为农杆菌,如农杆菌EHA105。 在本发明的具体实施例中,所述重组微生物具体为含有所述DisSUGs-1重组表达载体或所述 DisSUGs-2重组表达载体或所述DisSUGs-3重组表达载体的农杆菌EHA105。

所述转基因细胞系不包括繁殖材料。

上述成套试剂具有如下用途:

M1)富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞;

M2)制备富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞的产品;

M3)提高生物体或生物细胞基因组靶点序列的A·G碱基替换效率;

M4)制备提高生物体或生物细胞基因组靶点序列的A·G碱基替换效率的产品;

M5)生物体或生物细胞基因组靶点序列中的A·G碱基替换;

M6)制备生物体或生物细胞靶点序列中的A·G碱基替换的产品。

上述sgRNA或与所述sgRNA相关的生物材料也属于本发明的保护范围。

为了实现上述目的,本发明还提供了上述成套试剂或上述sgRNA或与所述sgRNA相关的 生物材料的新用途。

本发明提供了上述成套试剂或上述sgRNA或与所述sgRNA相关的生物材料在M1)-M6) 任一种中的应用:

M1)富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞;

M2)制备富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞的产品;

M3)提高生物体或生物细胞基因组靶点序列的A·G碱基替换效率;

M4)制备提高生物体或生物细胞基因组靶点序列的A·G碱基替换效率的产品;

M5)生物体或生物细胞基因组靶点序列中的A·G碱基替换;

M6)制备生物体或生物细胞靶点序列中的A·G碱基替换的产品。

为了实现上述目的,本发明还提供了N1)或N2)或N3)所述的方法:

N1)富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞的方法或提高生物 体或生物细胞基因组靶点序列A·G碱基替换效率的方法,包括如下步骤:将上述Cas9核酸 酶的编码基因、转录靶向目标基因靶点序列的esgRNA的DNA分子、转录靶向所述功能丧失的 筛选剂抗性基因靶点序列的sgRNA的DNA分子、腺嘌呤脱氨酶的编码基因和功能丧失的筛选 剂抗性基因导入生物体或生物细胞内,使所述Cas9核酸酶、所述sgRNA、所述腺嘌呤脱氨酶 均得到表达;所述Cas9核酸酶和所述腺嘌呤脱氨酶在靶向所述功能丧失的筛选剂抗性基因靶 点序列的sgRNA的向导下,可通过对所述功能丧失的筛选剂抗性基因靶点序列进行A·G碱基 替换使所述功能丧失的筛选剂抗性基因功能恢复,进而富集筛选剂抗性基因发生A·G碱基替 换的细胞,从而实现富集生物体或生物细胞基因组目标基因靶点序列发生A·G碱基替换的细 胞或提高生物体或生物细胞基因组目标基因靶点序列的A·G碱基替换效率;

N2)富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞的方法或提高生物 体或生物细胞基因组靶点序列A·G碱基替换效率的方法,包括如下步骤:将上述Cas9核酸 酶、靶向目标基因靶点序列的esgRNA、靶向所述功能丧失的筛选剂抗性基因靶点序列的 sgRNA、腺嘌呤脱氨酶和功能丧失的筛选剂抗性基因导入生物体或生物细胞内;所述Cas9核 酸酶和所述腺嘌呤脱氨酶在靶向所述功能丧失的筛选剂抗性基因靶点序列的sgRNA的向导 下,可通过对所述功能丧失的筛选剂抗性基因靶点序列进行A·G碱基替换使所述功能丧失的 筛选剂抗性基因功能恢复,进而富集筛选剂抗性基因发生A·G碱基替换的细胞,从而实现富 集生物体或生物细胞基因组目标基因靶点序列发生A·G碱基替换的细胞或提高生物体或生物 细胞基因组目标基因靶点序列的A·G碱基替换效率;

N3)生物突变体的制备方法,包括如下步骤:按照N1)或N2)所述的方法对生物体的基 因组进行编辑,获得生物突变体;所述生物突变体为发生A·G碱基替换的生物体。

上述方法中,所述N1)中,所述Cas9核酸酶的编码基因、所述转录靶向目标基因靶点 序列的esgRNA的DNA分子、所述转录靶向所述功能丧失的筛选剂抗性基因靶点序列的sgRNA 的DNA分子和所述腺嘌呤脱氨酶的编码基因通过含有所述Cas9核酸酶的编码基因的表达盒、 所述转录靶向目标基因靶点序列的esgRNA的DNA分子的表达盒、所述转录靶向所述功能丧失 的筛选剂抗性基因靶点序列的sgRNA的DNA分子的表达盒、所述腺嘌呤脱氨酶的编码基因的 表达盒的重组载体导入生物体或生物细胞内。上述各个表达盒可通过同一个重组表达载体导 入生物体或生物细胞内,也可通过两个或者多个重组表达载体共同导入生物体或生物细胞内。

在本发明的具体实施例中,上述各个表达盒通过同一个重组表达载体导入生物体或生物 细胞内。该重组表达载体中腺嘌呤脱氨酶编码基因的表达盒含有两个腺嘌呤脱氨酶的编码基 因。所述重组表达载体具体为上述DisSUGs-1重组表达载体或上述DisSUGs-2重组表达载体 或上述DisSUGs-3重组表达载体。

上述成套试剂或应用或方法中,所述A·G碱基替换为碱基A突变为碱基G。所述碱基A 可为位于所述靶点序列中任意位置的碱基A。

上述成套试剂或应用或方法中,所述生物体为P1)或P2)或P3)或P4):

P1)植物或动物;

P2)单子叶植物或双子叶植物;

P3)禾本科植物;

P4)水稻(如日本晴水稻);

所述生物细胞为Q1)或Q2)或Q3)或Q4):

Q1)植物细胞或动物细胞;

Q2)单子叶植物细胞或双子叶植物细胞;

Q3)禾本科植物细胞;

Q4)水稻细胞(如日本晴水稻细胞)。

本发明的差异代理技术原理如下:将优化的esgRNA应用于A·G碱基替换的细胞富集 技术中,使用优化的esgRNA编辑基因组内源目标基因靶点序列,使用sgRNA编辑报告基因 的代理靶点序列,进一步提高内源目标基因靶点序列的A·G碱基替换效率。

所述A·G碱基替换的细胞富集技术原理如下:以失活的筛选剂抗性基因为报告基因,建 立一种A·G碱基替换的细胞富集技术,使得报告基因上发生了A·G碱基替换的细胞能够在 含有筛选剂的培养基中生长出来,没有发生A·G碱基替换的细胞不能够在含有筛选剂的培养 基中生长。在此报告基因的基础上,如果同时对内源目标基因靶点进行A·G碱基替换编辑, 在含有筛选剂的培养基中生长出来的细胞有更大的概率发生内源目标基因靶点的A·G碱基替 换,从而实现对内源目标基因靶点发生A·G碱基替换的细胞的富集,进而提高内源目标基因 靶点的A·G碱基替换效率。

本发明具有以下优点:

1、有多种不同类型的基因可以作为报告基因,在植物中进行A·G碱基替换的细胞富集。 由于各种作物的遗传转化方法(如农杆菌转化法、基因枪转化法)都有相对成熟、稳定的筛 选体系,使用转化用筛选剂对应的抗性基因作为报告基因进行基因组内源突变细胞的富集, 比其余的如荧光报告基因、内源除草剂抗性基因等,更具有广谱性、通用性。

2、技术设计简便,其中的代理靶点以及设计形式可以更广泛的应用到更多的筛选剂对应 的抗性基因中,以满足不同作物的不同转化筛选体系的需求。

3、本发明的差异代理技术对基于不同的脱氨酶介导的碱基编辑器或者是不同的Cas9酶 介导的碱基编辑器的细胞富集技术均适用,均可实现细胞水平上A·G碱基替换细胞富集,大 大提高A·G碱基替换效率。

附图说明

图1为差异代理技术载体DisSUGs的结构示意图。

图2为差异代理技术富集A·G碱基替换的细胞的工作原理示意图。

图3为差异代理技术与普通技术在水稻抗性愈伤中对靶点的A·G碱基替换效率比较。

具体实施方式

下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本 发明,而不是为了限制本发明的范围。下述实施例中的实验方法,如无特殊说明,均为常 规方法。下述实施例中所用的材料、试剂、仪器等,如无特殊说明,均可从商业途径得到。下述实施例中,如无特殊说明,序列表中各核苷酸序列的第1位均为相应DNA/RNA的5′末 端核苷酸,末位均为相应DNA/RNA的3′末端核苷酸。

引物对T1由引物T1-F:5’-ctgtcttcggctggtctggg-3’和引物T1-R: 5’-tgccaagcacatcaaacaagtaaa-3’组成,用于扩增靶点ALS-T4。

引物对T2由引物T2-F:5’-tctagactgtagtggtgataac-3’和引物T2-R: 5’-tttcttctttctgattaatggcc-3’组成,用于扩增靶点CDC48-T3。

引物对T3由引物T3-F:5’-aatccaccaccaatccaatcc-3’和引物T3-R: 5’-caccatggcgtcgtcgtccg-3’组成,用于扩增靶点AAT。

引物对T4由引物T4-F:5’-tcagcctgcagtactgaattatc-3’和引物T4-R: 5’-gggcctaagtgtgacatacaag-3’组成,用于扩增靶点DEP1-T2。

引物对T5由引物T5-F:5’-gcattgctggacttcaacc-3’和引物T5-R: 5’-caaaccgtatcgcaatctgag-3’组成,用于扩增靶点ACC。

引物对T6由引物T6-F:5’-agcatatatagcaagccaggttg-3’和引物T6-R: 5’-aataagccactgtgttatgtacgc-3’组成,用于扩增靶点NRT1.1B-T4。

引物对T7由引物T7-F:5’-gatgtgttgtttgttgcgattc-3’和引物T7-R: 5’-agtgggcatgatggctagg-3’组成,用于扩增靶点SPL14。

引物对T8由引物T8-F:5’-ctacagggtcacctacatcgg-3’和引物T8-R: 5’-tgagacgacacatcaacaagg-3’组成,用于扩增靶点WRKY45。

引物对T9由引物T9-F:5’-gaagcgcgagtaccaagaag-3’和引物T9-R: 5’-atccgcttggtgtccctc-3’组成,用于扩增靶点DELLA。

以下实施例中,A·G碱基替换是指靶点序列中任何位置的A突变为G。

A·G碱基替换效率=发生A·G碱基替换的阳性抗性愈伤数/分析的总阳性抗性愈伤数 ×100%。

日本晴水稻:参考文献:梁卫红,王高华,杜京尧,等.硝普钠及其光解产物对日本晴水 稻幼苗生长和5种激素标记基因表达的影响[J].河南师范大学学报(自然版), 2017(2):48-52.;公众可以从北京市农林科学院获得。

恢复培养基:含有200mg/L特美汀的N6固体培养基。

筛选培养基:含有50mg/L潮霉素的N6固体培养基。

实施例1、EcTadA&ecTadA&Cas9n介导的A·G碱基替换的差异代理技术的建立

一、EcTadA&ecTadA&Cas9n介导的A·G碱基替换的差异代理技术载体的建立

将EcTadA&ecTadA&Cas9n(ABE)介导的A·G碱基替换的普通技术载体命名为sgRNA-GT。

将EcTadA&ecTadA&Cas9n(ABE)介导的A·G碱基替换的差异代理技术载体命名为DisSUGs。

sgRNA-GT和DisSUGs载体的示意图均如图1所示。

差异代理技术载体与普通技术载体区别在于:

1)差异代理技术载体对普通技术载体中的筛选剂抗性基因进行改造使其功能丧失,且 在sgRNA部分加入了相应的代理靶点序列。以筛选剂抗性基因为潮霉素抗性基因Hygromycin为例:普通技术载体中的筛选剂抗性基因为完整的潮霉素抗性基因Hygromycin。差异代理技术载体中的筛选剂抗性基因为功能丧失的潮霉素抗性基因Hygromycin(Hygromycin-ATG),功能丧失的潮霉素抗性基因Hygromycin为将完整的潮霉素抗性基因Hygromycin去掉ATG,且在5’端添加代理靶点靶序列后得到的序列。其中,代 理靶点靶序列如下:ctcatagcactcaatgcggtTGG(大写字母碱基为PAM序列)。

2)差异代理技术使用优化的esgRNA编辑基因组内源靶点序列,使用sgRNA编辑筛选 剂抗性基因的代理靶点序列。

二、EcTadA&ecTadA&Cas9n介导的A·G碱基替换的差异代理技术的工作原理

A·G碱基替换的差异代理技术的工作原理如图2所示。以筛选剂抗性基因为潮霉素抗 性基因Hygromycin为例:在差异代理技术中,由于潮霉素抗性基因Hygromycin去掉ATG 后,抗性功能丧失,在潮霉素筛选培养基中,植物无法长出抗性愈伤,当差异代理技术中 的A·G碱基替换系统(EcTadA&ecTadA&Cas9n)在sgRNA向导下将代理靶点序列中的A6突变为G6(第6位碱基A突变为碱基G),形成ATG后,能够使潮霉素抗性基因Hygromycin 正常表达,抗性功能恢复,进而使植物在潮霉素筛选培养基中长出抗性愈伤。由于长出抗 性愈伤的细胞已经发生了A·G碱基替换,那么此细胞对应的内源基因发生A·G碱基替换 的效率相对会更高,从而达到富集A·G碱基替换细胞的目的,实现提高植物内源靶点的 A·G碱基替换效率。

实施例2、EcTadA&ecTadA&Cas9n介导的差异代理技术载体的构建及其在水稻基因组编 辑中的应用

一、重组表达载体的构建

本实施例中的重组表达载体分为如下两种:DisSUGs重组表达载体、sgRNA-GT重组表 达载体。两种重组表达载体各元件结构示意图如图1所示。各载体均为环状质粒。

根据含有的靶序列不同,每种重组表达载体又各自分成三种,共有如下六种重组表达 载体:DisSUGs-1重组表达载体、DisSUGs-2重组表达载体、DisSUGs-3重组表达载体、sgRNA-GT-1重组表达载体、sgRNA-GT-2重组表达载体、sgRNA-GT-3重组表达载体。

人工合成上述六种重组表达载体,六种重组表达载体的具体结构描述分别如下:

DisSUGs-1重组表达载体的序列为序列表中的序列1。序列1的第131-596位为OsU6a 启动子的核苷酸序列,第712-1044位为OsU6b启动子的核苷酸序列,第1160-1901位为OsU6c 启动子的核苷酸序列,第2017-2397位为OsU3启动子的核苷酸序列;第597-616位、第 1045-1064位、第1902-1921位分别为ALS-T4、CDC48-T3、AAT三个靶点序列,第2398-2417位为报告基因代理靶点序列;第617-702位、第1065-1150位、第1922-2007位为esgRNA核 苷酸序列,第2418-2493位为sgRNA核苷酸序列。序列1的第2511-4224位为OsUbq3启动子 的核苷酸序列,第4234-4734位、第4831-5328位均为ecTadA编码序列,均编码序列2所 示的ecTadA蛋白质;序列1的第5425-9525位为SpCas9n蛋白质的编码序列,编码序列3所 示的SpCas9n蛋白质;序列1的第9682-10014位为OsUbq3的3’UTR序列;序列1的第 10015-10267位为Nos终止子的核苷酸序列;序列1的第10308-12300位为ZmUbi1启动子的 核苷酸序列,第12307-12329位为代理靶点靶序列,第12331-13353位为去掉起始密码子的 潮霉素磷酸转移酶的核苷酸序列,第13380-13595位为CaMV35S终止子的核苷酸序列。 DisSUGs-1重组表达载体中四个靶点序列见表1,靶点分别为ALS-T4、CDC48-T3、AAT、ST1152 代理靶点。

DisSUGs-2重组表达载体的序列为将序列1中的前三个靶点序列依次分别替换为如下 三个靶点序列:DEP1-T2、ACC、NRT1.1B-T4,且保持其他序列不变后得到的序列。对应的 靶序列信息见表1。

DisSUGs-3重组表达载体的序列为将序列1中的前三个靶点序列依次分别替换为如下 三个靶点序列:SPL14、WRKY45、DELLA,且保持其他序列不变后得到的序列。对应的靶序 列信息见表1。

sgRNA-GT-1重组表达载体的序列为将序列1第12307-13353位替换为序列4所示的完 整的潮霉素磷酸转移酶核苷酸序列,且保持其他序列不变后得到的序列。

sgRNA-GT-2重组表达载体的序列为将sgRNA-GT-1重组表达载体中的前三个靶点序列依 次分别替换为如下三个靶点序列:DEP1-T2、ACC、NRT1.1B-T4,且保持其他序列不变后得 到的序列。对应的靶序列信息见表1。

sgRNA-GT-3重组表达载体的序列为将sgRNA-GT-1重组表达载体中的前三个靶点序列依 次分别替换为如下三个靶点序列:SPL14、WRKY45、DELLA,且保持其他序列不变后得到的 序列。对应的靶序列信息见表1。

各载体的esgRNA或sgRNA的靶点核苷酸序列及相应的PAM序列如表1所示。

表1

Figure BDA0002222283680000101

二、水稻阳性抗性愈伤的获得

将步骤一获得的DisSUGs-1载体、DisSUGs-2载体、DisSUGs-3载体、sgRNA-GT-1载体、 sgRNA-GT-2和sgRNA-GT-3载体分别按照如下步骤1-8进行操作:

1、将载体导入农杆菌EHA105(上海唯地生物技术有限公司的产品,CAT#:AC1010),得 到重组农杆菌。

2、采用培养基(含50μg/ml卡那霉素和25μg/ml利福平的YEP培养基)培养重组农杆菌,28℃,150rpm震荡培养至OD600为1.0-2.0,室温条件下,10000rpm离心1min,用侵染液(将N6液体培养基中的糖替换为葡萄糖和蔗糖,葡萄糖和蔗糖在侵染液中的浓度分别为10g/L和 20g/L)重悬菌体并稀释至OD600为0.2,得到农杆菌侵染液。

3、水稻品种日本晴成熟种子去壳脱粒,置于100mL三角瓶中,加入70%(v/v)乙醇水 溶液浸泡30sec,再置于25%(v/v)次氯酸钠水溶液中,120rpm震荡灭菌30min,无菌水冲洗3次,用滤纸吸干水分,然后将种子胚朝下置于N6固体培养基上,28℃暗培养4-6周,得 到水稻愈伤。

4、完成步骤3后,将水稻愈伤浸泡置于农杆菌侵染液甲(农杆菌侵染液甲为向农杆菌侵 染液中加入乙酰丁香酮得到的液体,乙酰丁香酮的添加量满足乙酰丁香酮与农杆菌侵染液的 体积比为25μl:50ml)中浸泡10min,然后,放在铺有两层灭菌滤纸的培养皿(内含约200ml 不含农杆菌的侵染液)上,21℃暗培养1天。

5、取步骤4得到的水稻愈伤放入恢复培养基上,25-28℃暗培养3天。

6、取步骤5得到的水稻愈伤,置于筛选培养基上,28℃暗培养2周。

7、取步骤6得到的水稻愈伤,再次置于筛选培养基上,28℃暗培养2周,得到水稻抗性 愈伤。

8、分别提取20-24块水稻抗性愈伤的基因组DNA并以其作为模板,采用引物F(5’ -attatgtagcttgtgcgtttcg-3’)和引物R(5’-gatgaagagcttatcgacgt-3’)组成的引物对进行PCR扩增,得到PCR扩增产物;将该PCR扩增产物进行琼脂糖凝胶电泳,然后进行如下判断:如果PCR扩增产物中含有约1150bp的DNA片段,则相应的水稻抗性愈伤为水稻阳性抗性愈伤;如果PCR扩增产物中不含有约1150bp的DNA片段,则相应的水稻抗性愈伤不为水稻阳性抗性愈伤。

三、结果分析

1、每载体分别取步骤二所获得的20-24块水稻阳性抗性愈伤的基因组DNA作为模板(独立 侵染两次,获得平均值和方差),对于ALS-T4靶点,采用引物对T1进行PCR扩增,得到PCR扩增 产物;对于CDC48-T3靶点,采用引物对T2进行PCR扩增,得到PCR扩增产物;对于AAT靶点,采 用引物对T3进行PCR扩增,得到PCR扩增产物;对于DEP1-T2靶点,采用引物对T4进行PCR扩增, 得到PCR扩增产物;对于ACC靶点,采用引物对T5进行PCR扩增,得到PCR扩增产物;对于 NRT1.1B-T4靶点,采用引物对T6进行PCR扩增,得到PCR扩增产物;对于SPL14靶点,采用引物 对T7进行PCR扩增,得到PCR扩增产物;对于WRKY45靶点,采用引物对T8进行PCR扩增,得到PCR 扩增产物;对于DELLA靶点,采用引物对T9进行PCR扩增,得到PCR扩增产物。

2、将步骤1得到的PCR扩增产物进行Sanger测序及分析。测序结果只针对各靶点区进行分 析。分别统计各载体各靶点的发生A·G碱基替换的水稻阳性抗性愈伤数,计算得出A·G碱基 替换效率,结果见图3。

结果表明:通过使用差异代理技术,在水稻抗性愈伤中,ALS-T4靶点中第5位碱基的A·G 碱基替换效率从34%增加到93%;CDC48-T3靶点第5位碱基的A·G碱基替换效率从36%增加 到80%,第9位碱基的A·G碱基替换效率从0%增加到25%;AAT靶点第6位碱基的A·G碱基 替换效率从22%增加到53%;DEP1-T2的第4位碱基的A·G碱基替换效率由21%增加到63%; NRT1.1B-T4靶点的第8位碱基的A·G碱基替换效率从0%增加到9%;SPL14靶点第5位碱基 的A·G碱基替换效率从20%增加到90%,第7位碱基的A·G碱基替换效率从18%增加到88%; DELLA靶点的第6位碱基的A·G碱基替换效率从31%增加到95%。综上,通过使用差异代理 技术大部分靶点的A·G碱基替换效率提升至普通技术的2.5-3倍。

以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围, 以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本 发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总 之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。

序列表

<110>北京市农林科学院

<120>差异代理技术在A·G碱基替换细胞富集中的应用

<160>5

<170>PatentIn version 3.5

<210>1

<211>20001

<212>DNA

<213>人工序列(Artificial Sequence)

<400>1

ggtggcagga tatattgtgg tgtaaacatg gcactagcct caccgtcttc gcagacgagg 60

ccgctaagtc gcagctacgc tctcaacggc actgactagg tagtttaaac gtgcacttaa 120

ttaaggtacc tggaatcggc agcaaaggat tttttcctgt agttttccca caaccatttt 180

ttaccatccg aatgatagga taggaaaaat atccaagtga acagtattcc tataaaattc 240

ccgtaaaaag cctgcaatcc gaatgagccc tgaagtctga actagccggt cacctgtaca 300

ggctatcgag atgccataca agagacggta gtaggaacta ggaagacgat ggttgattcg 360

tcaggcgaaa tcgtcgtcct gcagtcgcat ctatgggcct ggacggaata ggggaaaaag 420

ttggccggat aggagggaaa ggcccaggtg cttacgtgcg aggtaggcct gggctctcag 480

cacttcgatt cgttggcacc ggggtaggat gcaatagaga gcaacgttta gtaccacctc 540

gcttagctag agcaaactgg actgccttat atgcgcgggt gctggcttgg ctgccgcctc 600

atgaacattc aggagcgttt cagagctatg ctggaaacag catagcaagt tgaaataagg 660

ctagtccgtt atcaacttga aaaagtggca ccgagtcggt gctttttttt ttgcaagaac 720

gaactaagcc ggacaaaaaa aaaaggagca catatacaaa ccggttttat tcatgaatgg 780

tcacgatgga tgatggggct cagacttgag ctacgaggcc gcaggcgaga gaagcctagt 840

gtgctctctg cttgtttggg ccgtaacgga ggatacggcc gacgagcgtg tactaccgcg 900

cgggatgccg ctgggcgctg cgggggccgt tggatgggga tcggtgggtc gcgggagcgt 960

tgaggggaga caggtttagt accacctcgc ctaccgaaca atgaagaacc caccttataa 1020

ccccgcgcgc tgccgcttgt gttgtagcac ccatgacaat gacagtttca gagctatgct 1080

ggaaacagca tagcaagttg aaataaggct agtccgttat caacttgaaa aagtggcacc 1140

gagtcggtgc tttttttttc tcattagcgg tatgcatgtt ggtagaagtc ggagatgtaa 1200

ataattttca ttatataaaa aaggtacttc gagaaaaata aatgcatacg aattaattct 1260

ttttatgttt tttaaaccaa gtatatagaa tttattgatg gttaaaattt caaaaatatg 1320

acgagagaaa ggttaaacgt acggcatata cttctgaaca gagagggaat atggggtttt 1380

tgttgctccc aacaattctt aagcacgtaa aggaaaaaag cacattatcc acattgtact 1440

tccagagata tgtacagcat tacgtaggta cgttttcttt ttcttcccgg agagatgata 1500

caataatcat gtaaacccag aatttaaaaa atattcttta ctataaaaat tttaattagg 1560

gaacgtatta ttttttacat gacacctttt gagaaagagg gacttgtaat atgggacaaa 1620

tgaacaattt ctaagaaatg ggcatatgac tctcagtaca atggaccaaa ttccctccag 1680

tcggcccagc aatacaaagg gaaagaaatg agggggccca caggccacgg cccacttttc 1740

tccgtggtgg ggagatccag ctagaggtcc ggcccacaag tggcccttgc cccgtgggac 1800

ggtgggattg cagagcgcgt gggcggaaac aacagtttag taccacctcg ctcacgcaac 1860

gacgcgacca cttgcttata agctgctgcg ctgaggctca gcaaggatcc cagccccgtg 1920

agtttcagag ctatgctgga aacagcatag caagttgaaa taaggctagt ccgttatcaa 1980

cttgaaaaag tggcaccgag tcggtgcttt ttttttagga atctttaaac atacgaacag 2040

atcacttaaa gttcttctga agcaacttaa agttatcagg catgcatgga tcttggagga 2100

atcagatgtg cagtcaggga ccatagcaca agacaggcgt cttctactgg tgctaccagc 2160

aaatgctgga agccgggaac actgggtacg ttggaaacca cgtgtgatgt gaaggagtaa 2220

gataaactgt aggagaaaag catttcgtag tgggccatga agcctttcag gacatgtatt 2280

gcagtatggg ccggcccatt acgcaattgg acgacaacaa agactagtat tagtaccacc 2340

tcggctatcc acatagatca aagctggttt aaaagagttg tgcagatgat ccgtggcctc 2400

atagcactca atgcggtgtt ttagagctag aaatagcaag ttaaaataag gctagtccgt 2460

tatcaacttg aaaaagtggc accgagtcgg tgcttttttt ttttaagctt acaaattcgg 2520

gtcaaggcgg aagccagcgc gccaccccac gtcagcaaat acggaggcgc ggggttgacg 2580

gcgtcacccg gtcctaacgg cgaccaacaa accagccaga agaaattaca gtaaaaaaaa 2640

agtaaattgc actttgatcc accttttatt acctaagtct caatttggat cacccttaaa 2700

cctatctttt caatttgggc cgggttgtgg tttggactac catgaacaac ttttcgtcat 2760

gtctaacttc cctttcagca aacatatgaa ccatatatag aggagatcgg ccgtatacta 2820

gagctgatgt gtttaaggtc gttgattgca cgagaaaaaa aaatccaaat cgcaacaata 2880

gcaaatttat ctggttcaaa gtgaaaagat atgtttaaag gtagtccaaa gtaaaactta 2940

tagataataa aatgtggtcc aaagcgtaat tcactcaaaa aaaatcaacg agacgtgtac 3000

caaacggaga caaacggcat cttctcgaaa tttcccaacc gctcgctcgc ccgcctcgtc 3060

ttcccggaaa ccgcggtggt ttcagcgtgg cggattctcc aagcagacgg agacgtcacg 3120

gcacgggact cctcccacca cccaaccgcc ataaatacca gccccctcat ctcctctcct 3180

cgcatcagct ccacccccga aaaatttctc cccaatctcg cgaggctctc gtcgtcgaat 3240

cgaatcctct cgcgtcctca aggtacgctg cttctcctct cctcgcttcg tttcgattcg 3300

atttcggacg ggtgaggttg ttttgttgct agatccgatt ggtggttagg gttgtcgatg 3360

tgattatcgt gagatgttta ggggttgtag atctgatggt tgtgatttgg gcacggttgg 3420

ttcgataggt ggaatcgtgg ttaggttttg ggattggatg ttggttctga tgattggggg 3480

gaatttttac ggttagatga attgttggat gattcgattg gggaaatcgg tgtagatctg 3540

ttggggaatt gtggaactag tcatgcctga gtgattggtg cgatttgtag cgtgttccat 3600

cttgtaggcc ttgttgcgag catgttcaga tctactgttc cgctcttgat tgagttattg 3660

gtgccatggg ttggtgcaaa cacaggcttt aatatgttat atctgttttg tgtttgatgt 3720

agatctgtag ggtagttctt cttagacatg gttcaattat gtagcttgtg cgtttcgatt 3780

tgatttcata tgttcacaga ttagataatg atgaactctt ttaattaatt gtcaatggta 3840

aataggaagt cttgtcgcta tatctgtcat aatgatctca tgttactatc tgccagtaat 3900

ttatgctaag aactatatta gaatatcatg ttacaatctg tagtaatatc atgttacaat 3960

ctgtagttca tctatataat ctattgtggt aatttctttt tactatctgt gtgaagatta 4020

ttgccactag ttcattctac ttatttctga agttcaggat acgtgtgctg ttactaccta 4080

tctgaataca tgtgtgatgt gcctgttact atctttttga atacatgtat gttctgttgg 4140

aatatgtttg ctgtttgatc cgttgttgtg tccttaatct tgtgctagtt cttaccctat 4200

ctgtttggtg attatttctt gcagtacgta agcatgtccg aggtggagtt ctcccacgag 4260

tactggatga ggcacgcact caccctcgca aagagggcat gggacgagag ggaggtgcct 4320

gtgggagcag tgctcgtgca caacaacagg gtgatcggag agggatggaa caggcctatc 4380

ggaaggcacg accctaccgc acacgcagag atcatggcac tcaggcaggg aggcctcgtg 4440

atgcagaact acaggctcat cgacgccacc ctctacgtga ccctcgagcc ttgcgtgatg 4500

tgcgcaggag ccatgatcca ctccaggatc ggaagggtgg tgttcggagc aagggacgca 4560

aagaccggag cagccggctc cctcatggac gtgctccacc acccgggcat gaaccacagg 4620

gtggagatca ccgagggaat cctcgcagac gagtgcgcag ccctcctctc cgacttcttc 4680

aggatgagga ggcaggagat caaggcccag aagaaggccc agtcctccac cgactccggc 4740

ggctcatcag gcggctcctc cggctccgag acaccgggca cctccgagtc cgccaccccg 4800

gagtcctccg gcggctcctc cggcggctcc tccgaggtgg agttctccca cgagtactgg 4860

atgaggcacg cactcaccct cgcaaagagg gcaagggacg agagggaggt gcctgtggga 4920

gcagtgctcg tgctcaacaa cagggtgatc ggagagggat ggaacagggc aatcggcctc 4980

cacgacccta ccgcacacgc agagatcatg gcactcaggc agggaggcct cgtgatgcag 5040

aactacaggc tcatcgacgc caccctctac gtgaccttcg agccttgcgt gatgtgcgca 5100

ggagccatga tccactccag gatcggcagg gtggtgttcg gcgtgaggaa cgcaaagacc 5160

ggagcagcag gctccctcat ggacgtgctc cactacccgg gcatgaacca cagggtggag 5220

atcaccgagg gaatcctcgc agacgagtgc gcagccctcc tctgctactt cttcaggatg 5280

ccgaggcagg tgttcaacgc ccagaagaag gcccagtcct ccaccgactc cggcggctca 5340

tcaggcggct cctccggctc cgagacaccg ggcacctccg agtccgccac cccggagtcc 5400

tccggcggct cctccggcgg ctccgacaag aagtactcca tcggcctcgc catcggcacc 5460

aacagcgtcg gctgggcggt gatcaccgac gagtacaagg tcccgtccaa gaagttcaag 5520

gtcctgggca acaccgaccg ccactccatc aagaagaacc tcatcggcgc cctcctcttc 5580

gactccggcg agacggcgga ggcgacccgc ctcaagcgca ccgcccgccg ccgctacacc 5640

cgccgcaaga accgcatctg ctacctccag gagatcttct ccaacgagat ggcgaaggtc 5700

gacgactcct tcttccaccg cctcgaggag tccttcctcg tggaggagga caagaagcac 5760

gagcgccacc ccatcttcgg caacatcgtc gacgaggtcg cctaccacga gaagtacccc 5820

actatctacc accttcgtaa gaagcttgtt gactctactg ataaggctga tcttcgtctc 5880

atctaccttg ctctcgctca catgatcaag ttccgtggtc acttccttat cgagggtgac 5940

cttaaccctg ataactccga cgtggacaag ctcttcatcc agctcgtcca gacctacaac 6000

cagctcttcg aggagaaccc tatcaacgct tccggtgtcg acgctaaggc gatcctttcc 6060

gctaggctct ccaagtccag gcgtctcgag aacctcatcg cccagctccc tggtgagaag 6120

aagaacggtc ttttcggtaa cctcatcgct ctctccctcg gtctgacccc taacttcaag 6180

tccaacttcg acctcgctga ggacgctaag cttcagctct ccaaggatac ctacgacgat 6240

gatctcgaca acctcctcgc tcagattgga gatcagtacg ctgatctctt ccttgctgct 6300

aagaacctct ccgatgctat cctcctttcg gatatcctta gggttaacac tgagatcact 6360

aaggctcctc tttctgcttc catgatcaag cgctacgacg agcaccacca ggacctcacc 6420

ctcctcaagg ctcttgttcg tcagcagctc cccgagaagt acaaggagat cttcttcgac 6480

cagtccaaga acggctacgc cggttacatt gacggtggag ctagccagga ggagttctac 6540

aagttcatca agccaatcct tgagaagatg gatggtactg aggagcttct cgttaagctt 6600

aaccgtgagg acctccttag gaagcagagg actttcgata acggctctat ccctcaccag 6660

atccaccttg gtgagcttca cgccatcctt cgtaggcagg aggacttcta ccctttcctc 6720

aaggacaacc gtgagaagat cgagaagatc cttactttcc gtattcctta ctacgttggt 6780

cctcttgctc gtggtaactc ccgtttcgct tggatgacta ggaagtccga ggagactatc 6840

accccttgga acttcgagga ggttgttgac aagggtgctt ccgcccagtc cttcatcgag 6900

cgcatgacca acttcgacaa gaacctcccc aacgagaagg tcctccccaa gcactccctc 6960

ctctacgagt acttcacggt ctacaacgag ctcaccaagg tcaagtacgt caccgagggt 7020

atgcgcaagc ctgccttcct ctccggcgag cagaagaagg ctatcgttga cctcctcttc 7080

aagaccaacc gcaaggtcac cgtcaagcag ctcaaggagg actacttcaa gaagatcgag 7140

tgcttcgact ccgtcgagat cagcggcgtt gaggaccgtt tcaacgcttc tctcggtacc 7200

taccacgatc tcctcaagat catcaaggac aaggacttcc tcgacaacga ggagaacgag 7260

gacatcctcg aggacatcgt cctcactctt actctcttcg aggataggga gatgatcgag 7320

gagaggctca agacttacgc tcatctcttc gatgacaagg ttatgaagca gctcaagcgt 7380

cgccgttaca ccggttgggg taggctctcc cgcaagctca tcaacggtat cagggataag 7440

cagagcggca agactatcct cgacttcctc aagtctgatg gtttcgctaa caggaacttc 7500

atgcagctca tccacgatga ctctcttacc ttcaaggagg atattcagaa ggctcaggtg 7560

tccggtcagg gcgactctct ccacgagcac attgctaacc ttgctggttc ccctgctatc 7620

aagaagggca tccttcagac tgttaaggtt gtcgatgagc ttgtcaaggt tatgggtcgt 7680

cacaagcctg agaacatcgt catcgagatg gctcgtgaga accagactac ccagaagggt 7740

cagaagaact cgagggagcg catgaagagg attgaggagg gtatcaagga gcttggttct 7800

cagatcctta aggagcaccc tgtcgagaac acccagctcc agaacgagaa gctctacctc 7860

tactacctcc agaacggtag ggatatgtac gttgaccagg agctcgacat caacaggctt 7920

tctgactacg acgtcgacca cattgttcct cagtctttcc ttaaggatga ctccatcgac 7980

aacaaggtcc tcacgaggtc cgacaagaac aggggtaagt cggacaacgt cccttccgag 8040

gaggttgtca agaagatgaa gaactactgg aggcagcttc tcaacgctaa gctcattacc 8100

cagaggaagt tcgacaacct cacgaaggct gagaggggtg gcctttccga gcttgacaag 8160

gctggtttca tcaagaggca gcttgttgag acgaggcaga ttaccaagca cgttgctcag 8220

atcctcgatt ctaggatgaa caccaagtac gacgagaacg acaagctcat ccgcgaggtc 8280

aaggtgatca ccctcaagtc caagctcgtc tccgacttcc gcaaggactt ccagttctac 8340

aaggtccgcg agatcaacaa ctaccaccac gctcacgatg cttaccttaa cgctgtcgtt 8400

ggtaccgctc ttatcaagaa gtaccctaag cttgagtccg agttcgtcta cggtgactac 8460

aaggtctacg acgttcgtaa gatgatcgcc aagtccgagc aggagatcgg caaggccacc 8520

gccaagtact tcttctactc caacatcatg aacttcttca agaccgagat caccctcgcc 8580

aacggcgaga tccgcaagcg ccctcttatc gagacgaacg gtgagactgg tgagatcgtt 8640

tgggacaagg gtcgcgactt cgctactgtt cgcaaggtcc tttctatgcc tcaggttaac 8700

atcgtcaaga agaccgaggt ccagaccggt ggcttctcca aggagtctat ccttccaaag 8760

agaaactcgg acaagctcat cgctaggaag aaggattggg accctaagaa gtacggtggt 8820

ttcgactccc ctactgtcgc ctactccgtc ctcgtggtcg ccaaggtgga gaagggtaag 8880

tcgaagaagc tcaagtccgt caaggagctc ctcggcatca ccatcatgga gcgctcctcc 8940

ttcgagaaga acccgatcga cttcctcgag gccaagggct acaaggaggt caagaaggac 9000

ctcatcatca agctccccaa gtactctctt ttcgagctcg agaacggtcg taagaggatg 9060

ctggcttccg ctggtgagct ccagaagggt aacgagcttg ctcttccttc caagtacgtg 9120

aacttcctct acctcgcctc ccactacgag aagctcaagg gttcccctga ggataacgag 9180

cagaagcagc tcttcgtgga gcagcacaag cactacctcg acgagatcat cgagcagatc 9240

tccgagttct ccaagcgcgt catcctcgct gacgctaacc tcgacaaggt cctctccgcc 9300

tacaacaagc accgcgacaa gcccatccgc gagcaggccg agaacatcat ccacctcttc 9360

acgctcacga acctcggcgc ccctgctgct ttcaagtact tcgacaccac catcgacagg 9420

aagcgttaca cgtccaccaa ggaggttctc gacgctactc tcatccacca gtccatcacc 9480

ggtctttacg agactcgtat cgacctttcc cagcttggtg gtgatgacga tgacaaaatg 9540

gcaccgaaga aaaaaaggaa ggtcggcggc tccccgaaga aaaaaaggaa ggtcggcggc 9600

tccccgaaga aaaaaaggaa ggtcggcggc tccccgaaga aaaaaaggaa ggtcggaatc 9660

catggcgttc catagactag ttcagccagt ttggtggagc tgccgatgtg cctggtcgtc 9720

ccgagcctct gttcgtcaag tatttgtggt gctgatgtct acttgtgtct ggtttaatgg 9780

accatcgagt ccgtatgata tgttagtttt atgaaacagt ttcctgtggg acagcagtat 9840

gctttatgaa taagttggat ttgaacctaa atatgtgctc aatttgctca tttgcatctc 9900

attcctgttg atgttttatc tgagttgcaa gtttgaaaat gctgcatatt cttattaaat 9960

cgtcatttac ttttatctta atgagctttg caatggccta tgggatataa aagagatcgt 10020

tcaaacattt ggcaataaag tttcttaaga ttgaatcctg ttgccggtct tgcgatgatt 10080

atcatataat ttctgttgaa ttacgttaag catgtaataa ttaacatgta atgcatgacg 10140

ttatttatga gatgggtttt tatgattaga gtcccgcaat tatacattta atacgcgata 10200

gaaaacaaaa tatagcgcgc aaactaggat aaattatcgc gcgcggtgtc atctatgtta 10260

ctagatcggc gcctgtccgg gcgcgcctgg tggatcgtcc gcctaggctg cagtgcagcg 10320

tgacccggtc gtgcccctct ctagagataa tgagcattgc atgtctaagt tataaaaaat 10380

taccacatat tttttttgtc acacttgttt gaagtgcagt ttatctatct ttatacatat 10440

atttaaactt tactctacga ataatataat ctatagtact acaataatat cagtgtttta 10500

gagaatcata taaatgaaca gttagacatg gtctaaagga caattgagta ttttgacaac 10560

aggactctac agttttatct ttttagtgtg catgtgttct cctttttttt tgcaaatagc 10620

ttcacctata taatacttca tccattttat tagtacatcc atttagggtt tagggttaat 10680

ggtttttata gactaatttt tttagtacat ctattttatt ctattttagc ctctaaatta 10740

agaaaactaa aactctattt tagttttttt atttaataat ttagatataa aatagaataa 10800

aataaagtga ctaaaaatta aacaaatacc ctttaagaaa ttaaaaaaac taaggaaaca 10860

tttttcttgt ttcgagtaga taatgccagc ctgttaaacg ccgtcgacga gtctaacgga 10920

caccaaccag cgaaccagca gcgtcgcgtc gggccaagcg aagcagacgg cacggcatct 10980

ctgtcgctgc ctctggaccc ctctcgagag ttccgctcca ccgttggact tgctccgctg 11040

tcggcatcca gaaattgcgt ggcggagcgg cagacgtgag ccggcacggc aggcggcctc 11100

ctcctcctct cacggcaccg gcagctacgg gggattcctt tcccaccgct ccttcgcttt 11160

cccttcctcg cccgccgtaa taaatagaca ccccctccac accctctttc cccaacctcg 11220

tgttgttcgg agcgcacaca cacacaacca gatctccccc aaatccaccc gtcggcacct 11280

ccgcttcaag gtacgccgct cgtcctcccc ccccccccct ctctaccttc tctagatcgg 11340

cgttccggtc catggttagg gcccggtagt tctacttctg ttcatgtttg tgttagatcc 11400

gtgtttgtgt tagatccgtg ctgctagcgt tcgtacacgg atgcgacctg tacgtcagac 11460

acgttctgat tgctaacttg ccagtgtttc tctttgggga atcctgggat ggctctagcc 11520

gttccgcaga cgggatcgat ttcatgattt tttttgtttc gttgcatagg gtttggtttg 11580

cccttttcct ttatttcaat atatgccgtg cacttgtttg tcgggtcatc ttttcatgct 11640

tttttttgtc ttggttgtga tgatgtggtc tggttgggcg gtcgttctag atcggagtag 11700

aattctgttt caaactacct ggtggattta ttaattttgg atctgtatgt gtgtgccata 11760

catattcata gttacgaatt gaagatgatg gatggaaata tcgatctagg ataggtatac 11820

atgttgatgc gggttttact gatgcatata cagagatgct ttttgttcgc ttggttgtga 11880

tgatgtggtg tggttgggcg gtcgttcatt cgttctagat cggagtagaa tactgtttca 11940

aactacctgg tgtatttatt aattttggaa ctgtatgtgt gtgtcataca tcttcatagt 12000

tacgagttta agatggatgg aaatatcgat ctaggatagg tatacatgtt gatgtgggtt 12060

ttactgatgc atatacatga tggcatatgc agcatctatt catatgctct aaccttgagt 12120

acctatctat tataataaac aagtatgttt tataattatt ttgatcttga tatacttgga 12180

tgatggcata tgcagcagct atatgtggat ttttttagcc ctgccttcat acgctattta 12240

tttgcttggt actgtttctt ttgtcgatgc tcaccctgtt gtttggtgtt acttctgcag 12300

gagctcctca tagcactcaa tgcggttggc aaaaagcctg aactcaccgc gacgtctgtc 12360

gagaagtttc tgatcgaaaa gttcgacagc gtctccgacc tgatgcagct ctcggagggc 12420

gaagaatctc gtgctttcag cttcgatgta ggagggcgtg gatatgtcct gcgggtaaat 12480

agctgcgccg atggtttcta caaagatcgt tatgtttatc ggcactttgc atcggccgcg 12540

ctcccgattc cggaagtgct tgacattggg gagtttagcg agagcctgac ctattgcatc 12600

tcccgccgtt cacagggtgt cacgttgcaa gacctgcctg aaaccgaact gcccgctgtt 12660

ctacaaccgg tcgcggaggc tatggatgcg atcgctgcgg ccgatcttag ccagacgagc 12720

gggttcggcc cattcggacc gcaaggaatc ggtcaataca ctacatggcg tgatttcata 12780

tgcgcgattg ctgatcccca tgtgtatcac tggcaaactg tgatggacga caccgtcagt 12840

gcgtccgtcg cgcaggctct cgatgagctg atgctttggg ccgaggactg ccccgaagtc 12900

cggcacctcg tgcacgcgga tttcggctcc aacaatgtcc tgacggacaa tggccgcata 12960

acagcggtca ttgactggag cgaggcgatg ttcggggatt cccaatacga ggtcgccaac 13020

atcttcttct ggaggccgtg gttggcttgt atggagcagc agacgcgcta cttcgagcgg 13080

aggcatccgg agcttgcagg atcgccacga ctccgggcgt atatgctccg cattggtctt 13140

gaccaactct atcagagctt ggttgacggc aatttcgatg atgcagcttg ggcgcagggt 13200

cgatgcgacg caatcgtccg atccggagcc gggactgtcg ggcgtacaca aatcgcccgc 13260

agaagcgcgg ccgtctggac cgatggctgt gtagaagtac tcgccgatag tggaaaccga 13320

cgccccagca ctcgtccgag ggcaaagaaa tagagtagat gccgaccggg atctgtcgat 13380

cgacaagctc gagtttctcc ataataatgt gtgagtagtt cccagataag ggaattaggg 13440

ttcctatagg gtttcgctca tgtgttgagc atataagaaa cccttagtat gtatttgtat 13500

ttgtaaaata cttctatcaa taaaatttct aattcctaaa accaaaatcc agtactaaaa 13560

tccagatccc ccgaattaat tcggcgttaa ttcagcctgc aggacgcgtt taattaagtg 13620

cacgcggccg cctacttagt caagagcctc gcacgcgact gtcacgcggc caggatcgcc 13680

tcgtgagcct cgcaatctgt acctagtgtt taaactatca gtgtttgaca ggatatattg 13740

gcgggtaaac ctaagagaaa agagcgttta ttagaataac ggatatttaa aagggcgtga 13800

aaaggtttat ccgttcgtcc atttgtatgt gcatgccaac cacagggttc ccctcgggat 13860

caaagtactt tgatccaacc cctccgctgc tatagtgcag tcggcttctg acgttcagtg 13920

cagccgtctt ctgaaaacga catgtcgcac aagtcctaag ttacgcgaca ggctgccgcc 13980

ctgccctttt cctggcgttt tcttgtcgcg tgttttagtc gcataaagta gaatacttgc 14040

gactagaacc ggagacatta cgccatgaac aagagcgccg ccgctggcct gctgggctat 14100

gcccgcgtca gcaccgacga ccaggacttg accaaccaac gggccgaact gcacgcggcc 14160

ggctgcacca agctgttttc cgagaagatc accggcacca ggcgcgaccg cccggagctg 14220

gccaggatgc ttgaccacct acgccctggc gacgttgtga cagtgaccag gctagaccgc 14280

ctggcccgca gcacccgcga cctactggac attgccgagc gcatccagga ggccggcgcg 14340

ggcctgcgta gcctggcaga gccgtgggcc gacaccacca cgccggccgg ccgcatggtg 14400

ttgaccgtgt tcgccggcat tgccgagttc gagcgttccc taatcatcga ccgcacccgg 14460

agcgggcgcg aggccgccaa ggcccgaggc gtgaagtttg gcccccgccc taccctcacc 14520

ccggcacaga tcgcgcacgc ccgcgagctg atcgaccagg aaggccgcac cgtgaaagag 14580

gcggctgcac tgcttggcgt gcatcgctcg accctgtacc gcgcacttga gcgcagcgag 14640

gaagtgacgc ccaccgaggc caggcggcgc ggtgccttcc gtgaggacgc attgaccgag 14700

gccgacgccc tggcggccgc cgagaatgaa cgccaagagg aacaagcatg aaaccgcacc 14760

aggacggcca ggacgaaccg tttttcatta ccgaagagat cgaggcggag atgatcgcgg 14820

ccgggtacgt gttcgagccg cccgcgcacg tctcaaccgt gcggctgcat gaaatcctgg 14880

ccggtttgtc tgatgccaag ctggcggcct ggccggccag cttggccgct gaagaaaccg 14940

agcgccgccg tctaaaaagg tgatgtgtat ttgagtaaaa cagcttgcgt catgcggtcg 15000

ctgcgtatat gatgcgatga gtaaataaac aaatacgcaa ggggaacgca tgaaggttat 15060

cgctgtactt aaccagaaag gcgggtcagg caagacgacc atcgcaaccc atctagcccg 15120

cgccctgcaa ctcgccgggg ccgatgttct gttagtcgat tccgatcccc agggcagtgc 15180

ccgcgattgg gcggccgtgc gggaagatca accgctaacc gttgtcggca tcgaccgccc 15240

gacgattgac cgcgacgtga aggccatcgg ccggcgcgac ttcgtagtga tcgacggagc 15300

gccccaggcg gcggacttgg ctgtgtccgc gatcaaggca gccgacttcg tgctgattcc 15360

ggtgcagcca agcccttacg acatatgggc caccgccgac ctggtggagc tggttaagca 15420

gcgcattgag gtcacggatg gaaggctaca agcggccttt gtcgtgtcgc gggcgatcaa 15480

aggcacgcgc atcggcggtg aggttgccga ggcgctggcc gggtacgagc tgcccattct 15540

tgagtcccgt atcacgcagc gcgtgagcta cccaggcact gccgccgccg gcacaaccgt 15600

tcttgaatca gaacccgagg gcgacgctgc ccgcgaggtc caggcgctgg ccgctgaaat 15660

taaatcaaaa ctcatttgag ttaatgaggt aaagagaaaa tgagcaaaag cacaaacacg 15720

ctaagtgccg gccgtccgag cgcacgcagc agcaaggctg caacgttggc cagcctggca 15780

gacacgccag ccatgaagcg ggtcaacttt cagttgccgg cggaggatca caccaagctg 15840

aagatgtacg cggtacgcca aggcaagacc attaccgagc tgctatctga atacatcgcg 15900

cagctaccag agtaaatgag caaatgaata aatgagtaga tgaattttag cggctaaagg 15960

aggcggcatg gaaaatcaag aacaaccagg caccgacgcc gtggaatgcc ccatgtgtgg 16020

aggaacgggc ggttggccag gcgtaagcgg ctgggttgtc tgccggccct gcaatggcac 16080

tggaaccccc aagcccgagg aatcggcgtg acggtcgcaa accatccggc ccggtacaaa 16140

tcggcgcggc gctgggtgat gacctggtgg agaagttgaa ggccgcgcag gccgcccagc 16200

ggcaacgcat cgaggcagaa gcacgccccg gtgaatcgtg gcaagcggcc gctgatcgaa 16260

tccgcaaaga atcccggcaa ccgccggcag ccggtgcgcc gtcgattagg aagccgccca 16320

agggcgacga gcaaccagat tttttcgttc cgatgctcta tgacgtgggc acccgcgata 16380

gtcgcagcat catggacgtg gccgttttcc gtctgtcgaa gcgtgaccga cgagctggcg 16440

aggtgatccg ctacgagctt ccagacgggc acgtagaggt ttccgcaggg ccggccggca 16500

tggccagtgt gtgggattac gacctggtac tgatggcggt ttcccatcta accgaatcca 16560

tgaaccgata ccgggaaggg aagggagaca agcccggccg cgtgttccgt ccacacgttg 16620

cggacgtact caagttctgc cggcgagccg atggcggaaa gcagaaagac gacctggtag 16680

aaacctgcat tcggttaaac accacgcacg ttgccatgca gcgtacgaag aaggccaaga 16740

acggccgcct ggtgacggta tccgagggtg aagccttgat tagccgctac aagatcgtaa 16800

agagcgaaac cgggcggccg gagtacatcg agatcgagct agctgattgg atgtaccgcg 16860

agatcacaga aggcaagaac ccggacgtgc tgacggttca ccccgattac tttttgatcg 16920

atcccggcat cggccgtttt ctctaccgcc tggcacgccg cgccgcaggc aaggcagaag 16980

ccagatggtt gttcaagacg atctacgaac gcagtggcag cgccggagag ttcaagaagt 17040

tctgtttcac cgtgcgcaag ctgatcgggt caaatgacct gccggagtac gatttgaagg 17100

aggaggcggg gcaggctggc ccgatcctag tcatgcgcta ccgcaacctg atcgagggcg 17160

aagcatccgc cggttcctaa tgtacggagc agatgctagg gcaaattgcc ctagcagggg 17220

aaaaaggtcg aaaaggtctc tttcctgtgg atagcacgta cattgggaac ccaaagccgt 17280

acattgggaa ccggaacccg tacattggga acccaaagcc gtacattggg aaccggtcac 17340

acatgtaagt gactgatata aaagagaaaa aaggcgattt ttccgcctaa aactctttaa 17400

aacttattaa aactcttaaa acccgcctgg cctgtgcata actgtctggc cagcgcacag 17460

ccgaagagct gcaaaaagcg cctacccttc ggtcgctgcg ctccctacgc cccgccgctt 17520

cgcgtcggcc tatcgcggcc gctggccgct caaaaatggc tggcctacgg ccaggcaatc 17580

taccagggcg cggacaagcc gcgccgtcgc cactcgaccg ccggcgccca catcaaggca 17640

ccctgcctcg cgcgtttcgg tgatgacggt gaaaacctct gacacatgca gctcccggag 17700

acggtcacag cttgtctgta agcggatgcc gggagcagac aagcccgtca gggcgcgtca 17760

gcgggtgttg gcgggtgtcg gggcgcagcc atgacccagt cacgtagcga tagcggagtg 17820

tatactggct taactatgcg gcatcagagc agattgtact gagagtgcac catatgcggt 17880

gtgaaatacc gcacagatgc gtaaggagaa aataccgcat caggcgctct tccgcttcct 17940

cgctcactga ctcgctgcgc tcggtcgttc ggctgcggcg agcggtatca gctcactcaa 18000

aggcggtaat acggttatcc acagaatcag gggataacgc aggaaagaac atgtgagcaa 18060

aaggccagca aaaggccagg aaccgtaaaa aggccgcgtt gctggcgttt ttccataggc 18120

tccgcccccc tgacgagcat cacaaaaatc gacgctcaag tcagaggtgg cgaaacccga 18180

caggactata aagataccag gcgtttcccc ctggaagctc cctcgtgcgc tctcctgttc 18240

cgaccctgcc gcttaccgga tacctgtccg cctttctccc ttcgggaagc gtggcgcttt 18300

ctcatagctc acgctgtagg tatctcagtt cggtgtaggt cgttcgctcc aagctgggct 18360

gtgtgcacga accccccgtt cagcccgacc gctgcgcctt atccggtaac tatcgtcttg 18420

agtccaaccc ggtaagacac gacttatcgc cactggcagc agccactggt aacaggatta 18480

gcagagcgag gtatgtaggc ggtgctacag agttcttgaa gtggtggcct aactacggct 18540

acactagaag gacagtattt ggtatctgcg ctctgctgaa gccagttacc ttcggaaaaa 18600

gagttggtag ctcttgatcc ggcaaacaaa ccaccgctgg tagcggtggt ttttttgttt 18660

gcaagcagca gattacgcgc agaaaaaaag gatctcaaga agatcctttg atcttttcta 18720

cggggtctga cgctcagtgg aacgaaaact cacgttaagg gattttggtc atgcattcta 18780

ggtactaaaa caattcatcc agtaaaatat aatattttat tttctcccaa tcaggcttga 18840

tccccagtaa gtcaaaaaat agctcgacat actgttcttc cccgatatcc tccctgatcg 18900

accggacgca gaaggcaatg tcataccact tgtccgccct gccgcttctc ccaagatcaa 18960

taaagccact tactttgcca tctttcacaa agatgttgct gtctcccagg tcgccgtggg 19020

aaaagacaag ttcctcttcg ggcttttccg tctttaaaaa atcatacagc tcgcgcggat 19080

ctttaaatgg agtgtcttct tcccagtttt cgcaatccac atcggccaga tcgttattca 19140

gtaagtaatc caattcggct aagcggctgt ctaagctatt cgtataggga caatccgata 19200

tgtcgatgga gtgaaagagc ctgatgcact ccgcatacag ctcgataatc ttttcagggc 19260

tttgttcatc ttcatactct tccgagcaaa ggacgccatc ggcctcactc atgagcagat 19320

tgctccagcc atcatgccgt tcaaagtgca ggacctttgg aacaggcagc tttccttcca 19380

gccatagcat catgtccttt tcccgttcca catcataggt ggtcccttta taccggctgt 19440

ccgtcatttt taaatatagg ttttcatttt ctcccaccag cttatatacc ttagcaggag 19500

acattccttc cgtatctttt acgcagcggt atttttcgat cagttttttc aattccggtg 19560

atattctcat tttagccatt tattatttcc ttcctctttt ctacagtatt taaagatacc 19620

ccaagaagct aattataaca agacgaactc caattcactg ttccttgcat tctaaaacct 19680

taaataccag aaaacagctt tttcaaagtt gttttcaaag ttggcgtata acatagtatc 19740

gacggagccg attttgaaac cgcggtgatc acaggcagca acgctctgtc atcgttacaa 19800

tcaacatgct accctccgcg agatcatccg tgtttcaaac ccggcagctt agttgccgtt 19860

cttccgaata gcatcggtaa catgagcaaa gtctgccgcc ttacaacggc tctcccgctg 19920

acgccgtccc ggactgatgg gctgcctgta tcgagtggtg attttgtgcc gagctgccgg 19980

tcggggagct gttggctggc t 20001

<210>2

<211>167

<212>PRT

<213>人工序列(Artificial Sequence)

<400>2

Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu

1 5 10 15

Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala

20 25 30

Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro

35 40 45

Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg

50 55 60

Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu

65 70 75 80

Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His

85 90 95

Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly

100 105 110

Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His

115 120 125

Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu

130 135 140

Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys

145 150 155 160

Lys Ala Gln Ser Ser Thr Asp

165

<210>3

<211>1367

<212>PRT

<213>人工序列(Artificial Sequence)

<400>3

Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly

1 5 10 15

Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys

20 25 30

Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly

35 40 45

Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys

50 55 60

Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr

65 70 75 80

Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe

85 90 95

Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His

100 105 110

Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His

115 120 125

Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser

130 135 140

Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met

145 150 155 160

Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp

165 170 175

Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn

180 185 190

Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys

195 200 205

Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu

210 215 220

Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu

225 230 235 240

Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp

245 250 255

Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp

260 265 270

Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu

275 280 285

Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile

290 295 300

Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met

305 310 315 320

Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala

325 330 335

Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp

340 345 350

Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln

355 360 365

Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly

370 375 380

Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys

385 390 395 400

Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly

405 410 415

Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu

420 425 430

Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro

435 440 445

Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met

450 455 460

Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val

465 470 475 480

Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn

485 490 495

Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu

500 505 510

Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr

515 520 525

Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys

530 535 540

Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val

545 550 555 560

Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser

565 570 575

Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr

580 585 590

Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn

595 600 605

Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu

610 615 620

Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His

625 630 635 640

Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr

645 650 655

Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys

660 665 670

Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala

675 680 685

Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys

690 695 700

Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His

705 710 715 720

Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile

725 730 735

Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg

740 745 750

His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr

755 760 765

Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu

770 775 780

Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val

785 790 795 800

Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln

805 810 815

Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu

820 825 830

Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp

835 840 845

Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly

850 855 860

Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn

865 870 875 880

Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe

885 890 895

Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys

900 905 910

Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys

915 920 925

His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu

930 935 940

Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys

945 950 955 960

Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu

965 970 975

Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val

980 985 990

Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val

995 1000 1005

Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys

1010 1015 1020

Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr

1025 1030 1035

Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn

1040 1045 1050

Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr

1055 1060 1065

Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg

1070 1075 1080

Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu

1085 1090 1095

Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg

1100 1105 1110

Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys

1115 1120 1125

Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu

1130 1135 1140

Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser

1145 1150 1155

Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe

1160 1165 1170

Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu

1175 1180 1185

Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe

1190 1195 1200

Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu

1205 1210 1215

Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn

1220 1225 1230

Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro

1235 1240 1245

Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His

1250 1255 1260

Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg

1265 1270 1275

Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr

1280 1285 1290

Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile

1295 1300 1305

Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe

1310 1315 1320

Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr

1325 1330 1335

Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly

1340 1345 1350

Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp

1355 1360 1365

<210>4

<211>1026

<212>DNA

<213>人工序列(Artificial Sequence)

<400>4

atgaaaaagc ctgaactcac cgcgacgtct gtcgagaagt ttctgatcga aaagttcgac 60

agcgtctccg acctgatgca gctctcggag ggcgaagaat ctcgtgcttt cagcttcgat 120

gtaggagggc gtggatatgt cctgcgggta aatagctgcg ccgatggttt ctacaaagat 180

cgttatgttt atcggcactt tgcatcggcc gcgctcccga ttccggaagt gcttgacatt 240

ggggagttta gcgagagcct gacctattgc atctcccgcc gttcacaggg tgtcacgttg 300

caagacctgc ctgaaaccga actgcccgct gttctacaac cggtcgcgga ggctatggat 360

gcgatcgctg cggccgatct tagccagacg agcgggttcg gcccattcgg accgcaagga 420

atcggtcaat acactacatg gcgtgatttc atatgcgcga ttgctgatcc ccatgtgtat 480

cactggcaaa ctgtgatgga cgacaccgtc agtgcgtccg tcgcgcaggc tctcgatgag 540

ctgatgcttt gggccgagga ctgccccgaa gtccggcacc tcgtgcacgc ggatttcggc 600

tccaacaatg tcctgacgga caatggccgc ataacagcgg tcattgactg gagcgaggcg 660

atgttcgggg attcccaata cgaggtcgcc aacatcttct tctggaggcc gtggttggct 720

tgtatggagc agcagacgcg ctacttcgag cggaggcatc cggagcttgc aggatcgcca 780

cgactccggg cgtatatgct ccgcattggt cttgaccaac tctatcagag cttggttgac 840

ggcaatttcg atgatgcagc ttgggcgcag ggtcgatgcg acgcaatcgt ccgatccgga 900

gccgggactg tcgggcgtac acaaatcgcc cgcagaagcg cggccgtctg gaccgatggc 960

tgtgtagaag tactcgccga tagtggaaac cgacgcccca gcactcgtcc gagggcaaag 1020

aaatag 1026

<210>5

<211>23

<212>DNA

<213>人工序列(Artificial Sequence)

<400>5

ctcatagcac tcaatgcggt tgg 23

32页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种甘薯湖北曲叶病毒侵染性克隆及其构建方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!