差异代理技术在a·g碱基替换细胞富集中的应用
阅读说明:本技术 差异代理技术在a·g碱基替换细胞富集中的应用 (Application of differential proxy technology in enrichment of A.G base substitution cells ) 是由 杨进孝 赵久然 张成伟 徐雯 武莹 吕欣欣 于 2019-09-30 设计创作,主要内容包括:本发明公开了差异代理技术在A·G碱基替换细胞富集中的应用。本发明的差异代理技术载体包括靶向目标基因靶点序列的esgRNA、靶向功能丧失的筛选剂抗性基因靶点序列的sgRNA、A·G碱基替换系统和功能丧失的筛选剂抗性基因;A·G碱基替换系统在靶向功能丧失的筛选剂抗性基因靶点序列的sgRNA的向导下,可通过对所述功能丧失的筛选剂抗性基因靶点序列进行A·G碱基替换使所述功能丧失的筛选剂抗性基因功能恢复。本发明实现了细胞水平上A·G碱基替换细胞富集,大大提高A·G碱基替换效率。(The invention discloses an application of a differential agent technology in enrichment of A.G base-substituted cells. The differential agent technology vector comprises esgRNA of a target gene target sequence, sgRNA of a screening agent resistance gene target sequence with target function loss, an A.G base replacement system and a screening agent resistance gene with function loss; the A.G base substitution system can restore the function of the selection agent resistance gene with the loss of function by carrying out A.G base substitution on the selection agent resistance gene target sequence with the loss of function under the guidance of sgRNA of the selection agent resistance gene target sequence with the loss of function. The invention realizes the enrichment of A.G base substitution cells on the cell level and greatly improves the A.G base substitution efficiency.)
技术领域
本发明涉及生物技术领域,具体涉及差异代理技术在A·G碱基替换细胞富集中的应用。
背景技术
CRISPR-Cas9技术已经成为强有力的基因组编辑手段,被广泛应用到很多组织和细胞中。 CRISPR/Cas9 protein-RNA复合物通过向导RNA(guide RNA)定位于靶点上,切割产生DNA 双链断裂(dsDNA break,DSB),而后生物体会本能的启动DNA修复机制修复DSB。修复机制 一般有两种,一种是非同源末端连接(non-homologous end joining,NHEJ),另一种是同源 重组(homology-directed repair,HDR)。通常情况下NHEJ占大多数,因此修复产生的随机 的indels(insertions or deletions)比精确修复高很多。对于碱基精确替换,因为HDR 效率低以及需要DNA模板,所以使用HDR实现碱基精确替换的应用受到很大的限制。
2017年,David Liu实验室报道了一种新型的腺嘌呤碱基编辑器(adenine baseeditors, ABE)。通过七轮进化,研究者将来源于大肠杆菌的tRNA腺嘌呤脱氨酶(tRNAadenosine deaminase,ecTadA)融合在Cas9 nickase(Cas9n)的5’端,在细胞内能够直接实现对单 个碱基A(Adenine,A)到G(Guanine,G)的替换,而不再通过产生DSB和启动HDR修复,大大提高了A替换为G的碱基编辑效率。具体过程为:当含有基因组靶向序列的sgRNA与ecTadA&ecTadA&Cas9n结合时,复合体定位到靶点,ecTadA催化非配对的单链DNA上的A发生腺嘌呤脱氨反应变成肌苷(Inosine,I),在DNA修复的过程中,I会被视为G,Cas9n会 在切割配对的DNA链的磷酸二酯键,引入一个胞嘧啶C(Cytosine,)与I配对。最终在接下 来的修复过程中产生C-G配对,从而实现了A到G的转换。
目前,在植物中通过报告基因介导的细胞富集技术富集A·G碱基替换细胞的研究非常有 限,目前尚无利用转化过程中使用筛选标记在细胞水平上实现A·G碱基替换细胞的富集,进 而提高A·G碱基替换效率的报道。
发明内容
本发明的目的是提供差异代理技术在A·G碱基替换的细胞富集中的应用,本发明的差异 代理技术能够在细胞水平上实现A·G碱基替换细胞的富集,进而提高目标靶点的A·G碱基 替换效率。
为了实现上述目的,本发明首先提供了一种成套试剂,所述成套试剂包括sgRNA或与所 述sgRNA相关的生物材料、A·G碱基替换系统和功能丧失的筛选剂抗性基因或与所述功能丧 失的筛选剂抗性基因相关的生物材料;
所述sgRNA由靶向目标基因靶点序列的esgRNA和靶向所述功能丧失的筛选剂抗性基因靶 点序列的sgRNA组成;
所述靶向目标基因靶点序列的esgRNA结构如下:所述目标基因靶点序列转录的RNA-esgRNA骨架;
所述靶向所述功能丧失的筛选剂抗性基因靶点序列的sgRNA结构如下:所述功能丧失的 筛选剂抗性基因靶点序列转录的RNA-sgRNA骨架;
所述A·G碱基替换系统包括Cas9核酸酶或与所述Cas9核酸酶相关的生物材料和腺嘌呤 脱氨酶或与所述腺嘌呤脱氨酶相关的生物材料;
所述A·G碱基替换系统在靶向所述功能丧失的筛选剂抗性基因靶点序列的sgRNA的向导 下,可通过对所述功能丧失的筛选剂抗性基因靶点序列进行A·G碱基替换使所述功能丧失的 筛选剂抗性基因功能恢复;
所述sgRNA骨架为S1)或S2)或S3):
S1)将序列1第2418-2493位中的T替换为U得到的RNA分子;
S2)将S1)所示的RNA分子经过一个或几个核苷酸的取代和/或缺失和/或添加且具有相 同功能的RNA分子;
S3)与S1)或S2)限定的核苷酸序列具有75%或75%以上同一性且具有相同功能的RNA 分子;
所述esgRNA骨架为T1)或T2)或T3):
T1)将序列1第617-702位中的T替换为U得到的RNA分子;
T2)将T1)所示的RNA分子经过一个或几个核苷酸的取代和/或缺失和/或添加且具有相 同功能的RNA分子;
T3)与T1)或T2)限定的核苷酸序列具有75%或75%以上同一性且具有相同功能的RNA 分子。
上述成套试剂中,靶向所述目标基因靶点序列的个数可为一个或两个或多个;靶向所述 功能丧失的筛选剂抗性基因靶点序列的个数可为一个或两个或多个。所述靶点序列大小可为 15-25bp,进一步可为18-22bp,更进一步可为20bp。
所述功能丧失的筛选剂抗性基因满足如下条件:所述功能丧失的筛选剂抗性基因功能或 活性丧失,且通过对所述功能丧失的筛选剂抗性基因靶点序列进行A·G碱基替换后可使所述 功能丧失的筛选剂抗性基因功能恢复。所述功能丧失的筛选剂抗性基因靶点序列可为功能丧 失的筛选剂抗性基因序列上的靶点序列(位于功能丧失的筛选剂抗性基因序列内部),也可为 额外添加在功能丧失的筛选剂抗性基因序列内部或5’端或3’端的靶点序列。当为了使功能 丧失的筛选剂抗性基因在进行A·G碱基替换后可恢复功能而在其序列上额外添加了靶点靶序 列(记作代理靶点靶序列)时,所述功能丧失的筛选剂抗性基因序列不仅包括功能丧失的筛 选剂抗性基因本身,还包括代理靶点靶序列以及如果需要,为了保证添加代理靶点靶序列后 筛选剂抗性基因能够在正常读码框内翻译再额外添加的一个或两个或多个碱基。
进一步的,所述功能丧失的筛选剂抗性基因可为将筛选剂抗性基因的起始密码子(如ATG) 删除,且在筛选剂抗性基因5’端添加代理靶点靶序列后得到的序列。所述代理靶点靶序列 满足如下条件即可:通过A·G碱基替换系统对所述代理靶点靶序列进行A·G碱基替换后可 使所述功能丧失的筛选剂抗性基因功能恢复。代理靶点靶序列依次由功能丧失的筛选剂抗性 基因靶点序列和PAM序列组成。需要注意的是,为了保证添加代理靶点靶序列后,去除起始 密码子的筛选剂抗性基因能够在正常读码框内翻译,可在代理靶点靶序列和去除起始密码子 的筛选剂抗性基因之间再添加一个或两个或多个碱基。
在本发明的一个具体实施例中,所述代理靶点序列为序列5。所述功能丧失的筛选剂抗 性基因靶点序列为序列5第1-20位。所述A·G碱基替换系统在靶向所述代理靶点序列的sgRNA 的向导下,可通过对所述代理靶点序列进行A·G碱基替换,使代理靶点序列第6位碱基A 突变为碱基G,形成ATG,进而使筛选标记基因功能恢复。需要注意的是,为了保证添加代 理靶点序列后,去除起始密码子的筛选剂抗性基因能够在正常读码框内翻译,此处在代理靶 点序列和去除起始密码子的筛选剂抗性基因之间又添加了一个碱基C。
更进一步的,所述筛选剂抗性基因可为现有技术中常见的筛选剂抗性基因,如Bar/PAT 草铵膦-N-乙酰转移酶基因、PMI 6-磷酸甘露糖异构酶基因、EPSPS 5-烯醇丙酮莽草酸-3-磷 酸合成酶基因等。在本发明的一个具体实施例中,所述筛选剂抗性基因为潮霉素抗性基因。
上述成套试剂中,所述Cas9核酸酶包括不同来源的Cas9核酸酶或其变体、dead失活酶 (dead Cas9,dCas9)或其变体、nickase切刻酶(Cas9 nickase,Cas9n)或其变体。所述不同来源的Cas9核酸酶或其变体包括来源于细菌的Cas9(如SaCas9、SaCas9-KKH等),Cas9-PAM变体(如xCas9、NG Cas9、Cas9-VQR、Cas9-VRER等),Cas9高保真酶变体(如HypaCas9、 eSpCas9(1.1)、Cas9-HF1等)等。在本发明的一个具体实施例中,所述Cas9核酸酶为Cas9n, 具体为SpCas9n蛋白质。在本发明的另一个具体实施例中,所述Cas9核酸酶为Cas9n,具体 为HypaCas9n蛋白质。
所述腺嘌呤脱氨酶可为不同来源的腺嘌呤脱氨酶,如来源于大肠杆菌的ecTadA蛋白质、 或来源于植物内源的腺嘌呤脱氨酶(如水稻内源OsTadA,拟南芥来源AtTadA等)。在本发明 的一个具体实施例中,所述腺嘌呤脱氨酶为来源于大肠杆菌的ecTadA蛋白质。
进一步的,所述SpCas9n蛋白质为A1)或A2)或A3):
A1)氨基酸序列是序列3所示的蛋白质;
A2)将序列表中序列3所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和 /或添加且具有相同功能的蛋白质;
A3)在A1)或A2)的N端或/和C端连接标签得到的融合蛋白质;
与所述SpCas9n相关的生物材料为B1)至B5)中的任一种:
B1)编码所述SpCas9n的核酸分子;
B2)含有B1)所述核酸分子的表达盒;
B3)含有B1)所述核酸分子的重组载体、或含有B2)所述表达盒的重组载体;
B4)含有B1)所述核酸分子的重组微生物、或含有B2)所述表达盒的重组微生物、或含 有B3)所述重组载体的重组微生物;
B5)含有B1)所述核酸分子的转基因细胞系、或含有B2)所述表达盒的转基因细胞系;
所述ecTadA蛋白质为E1)或E2)或E3):
E1)氨基酸序列是序列2所示的蛋白质;
E2)将序列表中序列2所示的氨基酸序列经过一个或几个氨基酸残基的取代和/或缺失和 /或添加且具有相同功能的蛋白质;
E3)在E1)或E2)的N端或/和C端连接标签得到的融合蛋白质;
与所述ecTadA蛋白质相关的生物材料为F1)至F5)中的任一种:
F1)编码所述ecTadA蛋白质的核酸分子;
F2)含有F1)所述核酸分子的表达盒;
F3)含有F1)所述核酸分子的重组载体、或含有F2)所述表达盒的重组载体;
F4)含有F1)所述核酸分子的重组微生物、或含有F2)所述表达盒的重组微生物、或含 有F3)所述重组载体的重组微生物;
F5)含有F1)所述核酸分子的转基因细胞系、或含有F2)所述表达盒的转基因细胞系;
与所述功能丧失的筛选剂抗性基因相关的生物材料为K1)至K4)中的任一种:
K1)含有所述功能丧失的筛选剂抗性基因的表达盒;
K2)含有所述功能丧失的筛选剂抗性基因的重组载体、或含有K1)所述表达盒的重组载 体;
K3)含有所述功能丧失的筛选剂抗性基因的重组微生物、或含有K1)所述表达盒的重组 微生物、或含有K2)所述重组载体的重组微生物;
K4)含有所述功能丧失的筛选剂抗性基因的转基因细胞系、或含有K1)所述表达盒的转 基因细胞系。
为了使A1)、E1)中的蛋白质便于纯化,可在由序列表中序列2或序列3所示的 氨基酸序列组成的蛋白质的氨基末端或羧基末端连接上如下表所示的标签。
表、标签的序列
标签
残基
序列
Poly-Arg
5-6(通常为5个)
RRRRR
Poly-His
2-10(通常为6个)
HHHHHH
FLAG
8
DYKDDDDK
Strep-tag II
8
WSHPQFEK
c-myc
10
EQKLISEEDL
上述A2)、E2)中的蛋白质,为与序列2或序列3所示蛋白质的氨基酸序列具有75%或75%以上同一性且具有相同功能的蛋白质。所述具有75%或75%以上同一性为具有75%、具 有80%、具有85%、具有90%、具有95%、具有96%、具有97%、具有98%或具有99%的同一性。
上述A2)、E2)中的蛋白质可人工合成,也可先合成其编码基因,再进行生物表达得到。
上述A2)、E2)中的蛋白质的编码基因可通过将序列1的第4205-4705位(编码序列2所示的蛋白质)、序列1的第5396-9496位(编码序列3所示的蛋白质)所示的DNA序列中 缺失一个或几个氨基酸残基的密码子,和/或进行一个或几个碱基对的错义突变,和/或在其 5′端和/或3′端连接上表所示的标签的编码序列得到。
更进一步的,B1)所述核酸分子为b1)或b2)或b3):
b1)序列表中序列1第5396-9496位所示的cDNA分子或DNA分子;
b2)与b1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述SpCas9n的cDNA 分子或DNA分子;
b3)在严格条件下与b1)或b2)限定的核苷酸序列杂交,且编码所述SpCas9n的cDNA分子或DNA分子;
F1)所述核酸分子为f1)或f2)或f3):
f1)序列表中序列1第4205-4705位所示的cDNA分子或DNA分子;
f2)与f1)限定的核苷酸序列具有75%或75%以上同一性,且编码所述ecTadA的cDNA 分子或DNA分子;
f3)在严格条件下与f1)或f2)限定的核苷酸序列杂交,且编码所述ecTadA的cDNA分 子或DNA分子;
K1)所述功能丧失的筛选剂抗性基因为序列1第12278-13324位所示的DNA分子。
其中,所述核酸分子可以是DNA,如cDNA、基因组DNA或重组DNA;所述核酸分子也可以是RNA,如mRNA或hnRNA等。
本领域普通技术人员可以很容易地采用已知的方法,例如定向进化和点突变的方法,对 本发明的编码所述SpCas9n或所述ecTadA的核苷酸序列进行突变。那些经过人工修饰的,具 有与本发明的所述SpCas9n或所述ecTadA的核苷酸序列75%或者更高同一性的核苷酸,只要 编码所述SpCas9n或所述ecTadA且具有相同功能,均是衍生于本发明的核苷酸序列并且等同 于本发明的序列。
这里使用的术语“同一性”指与天然核酸序列的序列相似性。“同一性”包括与本发明的 编码序列2或3所示的氨基酸序列组成的蛋白质的核苷酸序列具有75%或更高,或85%或更高, 或90%或更高,或95%或更高同一性的核苷酸序列。同一性可以用肉眼或计算机软件进行评价。 使用计算机软件,两个或多个序列之间的同一性可以用百分比(%)表示,其可以用来评价相 关序列之间的同一性。
所述严格条件是在2×SSC,0.1%SDS的溶液中,在68℃下杂交并洗膜2次,每次5min, 又于0.5×SSC,0.1%SDS的溶液中,在68℃下杂交并洗膜2次,每次15min;或,0.1×SSPE (或0.1×SSC)、0.1%SDS的溶液中,65℃条件下杂交并洗膜。
上述75%或75%以上同一性,可为80%、85%、90%或95%以上的同一性。
B2)所述的含有编码SpCas9n蛋白质的核酸分子的表达盒(SpCas9n基因表达盒),是指 能够在宿主细胞中表达SpCas9n蛋白质的DNA,该DNA不但可包括启动SpCas9n基因转录的 启动子,还可包括终止SpCas9n基因转录的终止子。进一步,所述表达盒还可包括增强子序 列。可用现有的表达载体构建含有所述SpCas9n基因表达盒的重组载体。
F2)所述的含有编码ecTadA蛋白质的核酸分子的表达盒(ecTadA基因表达盒),是指能 够在宿主细胞中表达ecTadA蛋白质的DNA,该DNA不但可包括启动ecTadA基因转录的启动 子,还可包括终止ecTadA基因转录的终止子。进一步,所述表达盒还可包括增强子序列。更 进一步,所述表达盒中可含有一个或两个编码ecTadA蛋白质的核酸分子。可用现有的表达载 体构建含有所述ecTadA基因表达盒的重组载体。
所述载体可为质粒、黏粒、噬菌体或病毒载体。在本发明的具体实施例中,所述重组载 体具体为DisSUGs-1重组表达载体、DisSUGs-2重组表达载体或DisSUGs-3重组表达载体。
所述DisSUGs-1重组表达载体的序列为序列1。所述DisSUGs-1重组表达载体含有四个 靶点序列,序列见表1。
所述DisSUGs-2重组表达载体的序列为将序列1中的前三个靶点序列依次分别替换为 如下三个靶点序列:DEP1-T2、ACC、NRT1.1B-T4,且保持其他序列不变后得到的序列。对 应的靶序列信息见表1。
所述DisSUGs-3重组表达载体的序列为将序列1中的前三个靶点序列依次分别替换为 如下三个靶点序列:SPL14、WRKY45、DELLA,且保持其他序列不变后得到的序列。对应的 靶序列信息见表1。
所述微生物可为酵母、细菌、藻或真菌。其中,所述细菌可为农杆菌,如农杆菌EHA105。 在本发明的具体实施例中,所述重组微生物具体为含有所述DisSUGs-1重组表达载体或所述 DisSUGs-2重组表达载体或所述DisSUGs-3重组表达载体的农杆菌EHA105。
所述转基因细胞系不包括繁殖材料。
上述成套试剂具有如下用途:
M1)富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞;
M2)制备富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞的产品;
M3)提高生物体或生物细胞基因组靶点序列的A·G碱基替换效率;
M4)制备提高生物体或生物细胞基因组靶点序列的A·G碱基替换效率的产品;
M5)生物体或生物细胞基因组靶点序列中的A·G碱基替换;
M6)制备生物体或生物细胞靶点序列中的A·G碱基替换的产品。
上述sgRNA或与所述sgRNA相关的生物材料也属于本发明的保护范围。
为了实现上述目的,本发明还提供了上述成套试剂或上述sgRNA或与所述sgRNA相关的 生物材料的新用途。
本发明提供了上述成套试剂或上述sgRNA或与所述sgRNA相关的生物材料在M1)-M6) 任一种中的应用:
M1)富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞;
M2)制备富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞的产品;
M3)提高生物体或生物细胞基因组靶点序列的A·G碱基替换效率;
M4)制备提高生物体或生物细胞基因组靶点序列的A·G碱基替换效率的产品;
M5)生物体或生物细胞基因组靶点序列中的A·G碱基替换;
M6)制备生物体或生物细胞靶点序列中的A·G碱基替换的产品。
为了实现上述目的,本发明还提供了N1)或N2)或N3)所述的方法:
N1)富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞的方法或提高生物 体或生物细胞基因组靶点序列A·G碱基替换效率的方法,包括如下步骤:将上述Cas9核酸 酶的编码基因、转录靶向目标基因靶点序列的esgRNA的DNA分子、转录靶向所述功能丧失的 筛选剂抗性基因靶点序列的sgRNA的DNA分子、腺嘌呤脱氨酶的编码基因和功能丧失的筛选 剂抗性基因导入生物体或生物细胞内,使所述Cas9核酸酶、所述sgRNA、所述腺嘌呤脱氨酶 均得到表达;所述Cas9核酸酶和所述腺嘌呤脱氨酶在靶向所述功能丧失的筛选剂抗性基因靶 点序列的sgRNA的向导下,可通过对所述功能丧失的筛选剂抗性基因靶点序列进行A·G碱基 替换使所述功能丧失的筛选剂抗性基因功能恢复,进而富集筛选剂抗性基因发生A·G碱基替 换的细胞,从而实现富集生物体或生物细胞基因组目标基因靶点序列发生A·G碱基替换的细 胞或提高生物体或生物细胞基因组目标基因靶点序列的A·G碱基替换效率;
N2)富集生物体或生物细胞基因组靶点序列发生A·G碱基替换的细胞的方法或提高生物 体或生物细胞基因组靶点序列A·G碱基替换效率的方法,包括如下步骤:将上述Cas9核酸 酶、靶向目标基因靶点序列的esgRNA、靶向所述功能丧失的筛选剂抗性基因靶点序列的 sgRNA、腺嘌呤脱氨酶和功能丧失的筛选剂抗性基因导入生物体或生物细胞内;所述Cas9核 酸酶和所述腺嘌呤脱氨酶在靶向所述功能丧失的筛选剂抗性基因靶点序列的sgRNA的向导 下,可通过对所述功能丧失的筛选剂抗性基因靶点序列进行A·G碱基替换使所述功能丧失的 筛选剂抗性基因功能恢复,进而富集筛选剂抗性基因发生A·G碱基替换的细胞,从而实现富 集生物体或生物细胞基因组目标基因靶点序列发生A·G碱基替换的细胞或提高生物体或生物 细胞基因组目标基因靶点序列的A·G碱基替换效率;
N3)生物突变体的制备方法,包括如下步骤:按照N1)或N2)所述的方法对生物体的基 因组进行编辑,获得生物突变体;所述生物突变体为发生A·G碱基替换的生物体。
上述方法中,所述N1)中,所述Cas9核酸酶的编码基因、所述转录靶向目标基因靶点 序列的esgRNA的DNA分子、所述转录靶向所述功能丧失的筛选剂抗性基因靶点序列的sgRNA 的DNA分子和所述腺嘌呤脱氨酶的编码基因通过含有所述Cas9核酸酶的编码基因的表达盒、 所述转录靶向目标基因靶点序列的esgRNA的DNA分子的表达盒、所述转录靶向所述功能丧失 的筛选剂抗性基因靶点序列的sgRNA的DNA分子的表达盒、所述腺嘌呤脱氨酶的编码基因的 表达盒的重组载体导入生物体或生物细胞内。上述各个表达盒可通过同一个重组表达载体导 入生物体或生物细胞内,也可通过两个或者多个重组表达载体共同导入生物体或生物细胞内。
在本发明的具体实施例中,上述各个表达盒通过同一个重组表达载体导入生物体或生物 细胞内。该重组表达载体中腺嘌呤脱氨酶编码基因的表达盒含有两个腺嘌呤脱氨酶的编码基 因。所述重组表达载体具体为上述DisSUGs-1重组表达载体或上述DisSUGs-2重组表达载体 或上述DisSUGs-3重组表达载体。
上述成套试剂或应用或方法中,所述A·G碱基替换为碱基A突变为碱基G。所述碱基A 可为位于所述靶点序列中任意位置的碱基A。
上述成套试剂或应用或方法中,所述生物体为P1)或P2)或P3)或P4):
P1)植物或动物;
P2)单子叶植物或双子叶植物;
P3)禾本科植物;
P4)水稻(如日本晴水稻);
所述生物细胞为Q1)或Q2)或Q3)或Q4):
Q1)植物细胞或动物细胞;
Q2)单子叶植物细胞或双子叶植物细胞;
Q3)禾本科植物细胞;
Q4)水稻细胞(如日本晴水稻细胞)。
本发明的差异代理技术原理如下:将优化的esgRNA应用于A·G碱基替换的细胞富集 技术中,使用优化的esgRNA编辑基因组内源目标基因靶点序列,使用sgRNA编辑报告基因 的代理靶点序列,进一步提高内源目标基因靶点序列的A·G碱基替换效率。
所述A·G碱基替换的细胞富集技术原理如下:以失活的筛选剂抗性基因为报告基因,建 立一种A·G碱基替换的细胞富集技术,使得报告基因上发生了A·G碱基替换的细胞能够在 含有筛选剂的培养基中生长出来,没有发生A·G碱基替换的细胞不能够在含有筛选剂的培养 基中生长。在此报告基因的基础上,如果同时对内源目标基因靶点进行A·G碱基替换编辑, 在含有筛选剂的培养基中生长出来的细胞有更大的概率发生内源目标基因靶点的A·G碱基替 换,从而实现对内源目标基因靶点发生A·G碱基替换的细胞的富集,进而提高内源目标基因 靶点的A·G碱基替换效率。
本发明具有以下优点:
1、有多种不同类型的基因可以作为报告基因,在植物中进行A·G碱基替换的细胞富集。 由于各种作物的遗传转化方法(如农杆菌转化法、基因枪转化法)都有相对成熟、稳定的筛 选体系,使用转化用筛选剂对应的抗性基因作为报告基因进行基因组内源突变细胞的富集, 比其余的如荧光报告基因、内源除草剂抗性基因等,更具有广谱性、通用性。
2、技术设计简便,其中的代理靶点以及设计形式可以更广泛的应用到更多的筛选剂对应 的抗性基因中,以满足不同作物的不同转化筛选体系的需求。
3、本发明的差异代理技术对基于不同的脱氨酶介导的碱基编辑器或者是不同的Cas9酶 介导的碱基编辑器的细胞富集技术均适用,均可实现细胞水平上A·G碱基替换细胞富集,大 大提高A·G碱基替换效率。
附图说明
图1为差异代理技术载体DisSUGs的结构示意图。
图2为差异代理技术富集A·G碱基替换的细胞的工作原理示意图。
图3为差异代理技术与普通技术在水稻抗性愈伤中对靶点的A·G碱基替换效率比较。
具体实施方式
下面结合具体实施方式对本发明进行进一步的详细描述,给出的实施例仅为了阐明本 发明,而不是为了限制本发明的范围。下述实施例中的实验方法,如无特殊说明,均为常 规方法。下述实施例中所用的材料、试剂、仪器等,如无特殊说明,均可从商业途径得到。下述实施例中,如无特殊说明,序列表中各核苷酸序列的第1位均为相应DNA/RNA的5′末 端核苷酸,末位均为相应DNA/RNA的3′末端核苷酸。
引物对T1由引物T1-F:5’-ctgtcttcggctggtctggg-3’和引物T1-R: 5’-tgccaagcacatcaaacaagtaaa-3’组成,用于扩增靶点ALS-T4。
引物对T2由引物T2-F:5’-tctagactgtagtggtgataac-3’和引物T2-R: 5’-tttcttctttctgattaatggcc-3’组成,用于扩增靶点CDC48-T3。
引物对T3由引物T3-F:5’-aatccaccaccaatccaatcc-3’和引物T3-R: 5’-caccatggcgtcgtcgtccg-3’组成,用于扩增靶点AAT。
引物对T4由引物T4-F:5’-tcagcctgcagtactgaattatc-3’和引物T4-R: 5’-gggcctaagtgtgacatacaag-3’组成,用于扩增靶点DEP1-T2。
引物对T5由引物T5-F:5’-gcattgctggacttcaacc-3’和引物T5-R: 5’-caaaccgtatcgcaatctgag-3’组成,用于扩增靶点ACC。
引物对T6由引物T6-F:5’-agcatatatagcaagccaggttg-3’和引物T6-R: 5’-aataagccactgtgttatgtacgc-3’组成,用于扩增靶点NRT1.1B-T4。
引物对T7由引物T7-F:5’-gatgtgttgtttgttgcgattc-3’和引物T7-R: 5’-agtgggcatgatggctagg-3’组成,用于扩增靶点SPL14。
引物对T8由引物T8-F:5’-ctacagggtcacctacatcgg-3’和引物T8-R: 5’-tgagacgacacatcaacaagg-3’组成,用于扩增靶点WRKY45。
引物对T9由引物T9-F:5’-gaagcgcgagtaccaagaag-3’和引物T9-R: 5’-atccgcttggtgtccctc-3’组成,用于扩增靶点DELLA。
以下实施例中,A·G碱基替换是指靶点序列中任何位置的A突变为G。
A·G碱基替换效率=发生A·G碱基替换的阳性抗性愈伤数/分析的总阳性抗性愈伤数 ×100%。
日本晴水稻:参考文献:梁卫红,王高华,杜京尧,等.硝普钠及其光解产物对日本晴水 稻幼苗生长和5种激素标记基因表达的影响[J].河南师范大学学报(自然版), 2017(2):48-52.;公众可以从北京市农林科学院获得。
恢复培养基:含有200mg/L特美汀的N6固体培养基。
筛选培养基:含有50mg/L潮霉素的N6固体培养基。
实施例1、EcTadA&ecTadA&Cas9n介导的A·G碱基替换的差异代理技术的建立
一、EcTadA&ecTadA&Cas9n介导的A·G碱基替换的差异代理技术载体的建立
将EcTadA&ecTadA&Cas9n(ABE)介导的A·G碱基替换的普通技术载体命名为sgRNA-GT。
将EcTadA&ecTadA&Cas9n(ABE)介导的A·G碱基替换的差异代理技术载体命名为DisSUGs。
sgRNA-GT和DisSUGs载体的示意图均如图1所示。
差异代理技术载体与普通技术载体区别在于:
1)差异代理技术载体对普通技术载体中的筛选剂抗性基因进行改造使其功能丧失,且 在sgRNA部分加入了相应的代理靶点序列。以筛选剂抗性基因为潮霉素抗性基因Hygromycin为例:普通技术载体中的筛选剂抗性基因为完整的潮霉素抗性基因Hygromycin。差异代理技术载体中的筛选剂抗性基因为功能丧失的潮霉素抗性基因Hygromycin(Hygromycin-ATG),功能丧失的潮霉素抗性基因Hygromycin为将完整的潮霉素抗性基因Hygromycin去掉ATG,且在5’端添加代理靶点靶序列后得到的序列。其中,代 理靶点靶序列如下:ctcatagcactcaatgcggtTGG(大写字母碱基为PAM序列)。
2)差异代理技术使用优化的esgRNA编辑基因组内源靶点序列,使用sgRNA编辑筛选 剂抗性基因的代理靶点序列。
二、EcTadA&ecTadA&Cas9n介导的A·G碱基替换的差异代理技术的工作原理
A·G碱基替换的差异代理技术的工作原理如图2所示。以筛选剂抗性基因为潮霉素抗 性基因Hygromycin为例:在差异代理技术中,由于潮霉素抗性基因Hygromycin去掉ATG 后,抗性功能丧失,在潮霉素筛选培养基中,植物无法长出抗性愈伤,当差异代理技术中 的A·G碱基替换系统(EcTadA&ecTadA&Cas9n)在sgRNA向导下将代理靶点序列中的A6突变为G6(第6位碱基A突变为碱基G),形成ATG后,能够使潮霉素抗性基因Hygromycin 正常表达,抗性功能恢复,进而使植物在潮霉素筛选培养基中长出抗性愈伤。由于长出抗 性愈伤的细胞已经发生了A·G碱基替换,那么此细胞对应的内源基因发生A·G碱基替换 的效率相对会更高,从而达到富集A·G碱基替换细胞的目的,实现提高植物内源靶点的 A·G碱基替换效率。
实施例2、EcTadA&ecTadA&Cas9n介导的差异代理技术载体的构建及其在水稻基因组编 辑中的应用
一、重组表达载体的构建
本实施例中的重组表达载体分为如下两种:DisSUGs重组表达载体、sgRNA-GT重组表 达载体。两种重组表达载体各元件结构示意图如图1所示。各载体均为环状质粒。
根据含有的靶序列不同,每种重组表达载体又各自分成三种,共有如下六种重组表达 载体:DisSUGs-1重组表达载体、DisSUGs-2重组表达载体、DisSUGs-3重组表达载体、sgRNA-GT-1重组表达载体、sgRNA-GT-2重组表达载体、sgRNA-GT-3重组表达载体。
人工合成上述六种重组表达载体,六种重组表达载体的具体结构描述分别如下:
DisSUGs-1重组表达载体的序列为序列表中的序列1。序列1的第131-596位为OsU6a 启动子的核苷酸序列,第712-1044位为OsU6b启动子的核苷酸序列,第1160-1901位为OsU6c 启动子的核苷酸序列,第2017-2397位为OsU3启动子的核苷酸序列;第597-616位、第 1045-1064位、第1902-1921位分别为ALS-T4、CDC48-T3、AAT三个靶点序列,第2398-2417位为报告基因代理靶点序列;第617-702位、第1065-1150位、第1922-2007位为esgRNA核 苷酸序列,第2418-2493位为sgRNA核苷酸序列。序列1的第2511-4224位为OsUbq3启动子 的核苷酸序列,第4234-4734位、第4831-5328位均为ecTadA编码序列,均编码序列2所 示的ecTadA蛋白质;序列1的第5425-9525位为SpCas9n蛋白质的编码序列,编码序列3所 示的SpCas9n蛋白质;序列1的第9682-10014位为OsUbq3的3’UTR序列;序列1的第 10015-10267位为Nos终止子的核苷酸序列;序列1的第10308-12300位为ZmUbi1启动子的 核苷酸序列,第12307-12329位为代理靶点靶序列,第12331-13353位为去掉起始密码子的 潮霉素磷酸转移酶的核苷酸序列,第13380-13595位为CaMV35S终止子的核苷酸序列。 DisSUGs-1重组表达载体中四个靶点序列见表1,靶点分别为ALS-T4、CDC48-T3、AAT、ST1152 代理靶点。
DisSUGs-2重组表达载体的序列为将序列1中的前三个靶点序列依次分别替换为如下 三个靶点序列:DEP1-T2、ACC、NRT1.1B-T4,且保持其他序列不变后得到的序列。对应的 靶序列信息见表1。
DisSUGs-3重组表达载体的序列为将序列1中的前三个靶点序列依次分别替换为如下 三个靶点序列:SPL14、WRKY45、DELLA,且保持其他序列不变后得到的序列。对应的靶序 列信息见表1。
sgRNA-GT-1重组表达载体的序列为将序列1第12307-13353位替换为序列4所示的完 整的潮霉素磷酸转移酶核苷酸序列,且保持其他序列不变后得到的序列。
sgRNA-GT-2重组表达载体的序列为将sgRNA-GT-1重组表达载体中的前三个靶点序列依 次分别替换为如下三个靶点序列:DEP1-T2、ACC、NRT1.1B-T4,且保持其他序列不变后得 到的序列。对应的靶序列信息见表1。
sgRNA-GT-3重组表达载体的序列为将sgRNA-GT-1重组表达载体中的前三个靶点序列依 次分别替换为如下三个靶点序列:SPL14、WRKY45、DELLA,且保持其他序列不变后得到的 序列。对应的靶序列信息见表1。
各载体的esgRNA或sgRNA的靶点核苷酸序列及相应的PAM序列如表1所示。
表1
二、水稻阳性抗性愈伤的获得
将步骤一获得的DisSUGs-1载体、DisSUGs-2载体、DisSUGs-3载体、sgRNA-GT-1载体、 sgRNA-GT-2和sgRNA-GT-3载体分别按照如下步骤1-8进行操作:
1、将载体导入农杆菌EHA105(上海唯地生物技术有限公司的产品,CAT#:AC1010),得 到重组农杆菌。
2、采用培养基(含50μg/ml卡那霉素和25μg/ml利福平的YEP培养基)培养重组农杆菌,28℃,150rpm震荡培养至OD600为1.0-2.0,室温条件下,10000rpm离心1min,用侵染液(将N6液体培养基中的糖替换为葡萄糖和蔗糖,葡萄糖和蔗糖在侵染液中的浓度分别为10g/L和 20g/L)重悬菌体并稀释至OD600为0.2,得到农杆菌侵染液。
3、水稻品种日本晴成熟种子去壳脱粒,置于100mL三角瓶中,加入70%(v/v)乙醇水 溶液浸泡30sec,再置于25%(v/v)次氯酸钠水溶液中,120rpm震荡灭菌30min,无菌水冲洗3次,用滤纸吸干水分,然后将种子胚朝下置于N6固体培养基上,28℃暗培养4-6周,得 到水稻愈伤。
4、完成步骤3后,将水稻愈伤浸泡置于农杆菌侵染液甲(农杆菌侵染液甲为向农杆菌侵 染液中加入乙酰丁香酮得到的液体,乙酰丁香酮的添加量满足乙酰丁香酮与农杆菌侵染液的 体积比为25μl:50ml)中浸泡10min,然后,放在铺有两层灭菌滤纸的培养皿(内含约200ml 不含农杆菌的侵染液)上,21℃暗培养1天。
5、取步骤4得到的水稻愈伤放入恢复培养基上,25-28℃暗培养3天。
6、取步骤5得到的水稻愈伤,置于筛选培养基上,28℃暗培养2周。
7、取步骤6得到的水稻愈伤,再次置于筛选培养基上,28℃暗培养2周,得到水稻抗性 愈伤。
8、分别提取20-24块水稻抗性愈伤的基因组DNA并以其作为模板,采用引物F(5’ -attatgtagcttgtgcgtttcg-3’)和引物R(5’-gatgaagagcttatcgacgt-3’)组成的引物对进行PCR扩增,得到PCR扩增产物;将该PCR扩增产物进行琼脂糖凝胶电泳,然后进行如下判断:如果PCR扩增产物中含有约1150bp的DNA片段,则相应的水稻抗性愈伤为水稻阳性抗性愈伤;如果PCR扩增产物中不含有约1150bp的DNA片段,则相应的水稻抗性愈伤不为水稻阳性抗性愈伤。
三、结果分析
1、每载体分别取步骤二所获得的20-24块水稻阳性抗性愈伤的基因组DNA作为模板(独立 侵染两次,获得平均值和方差),对于ALS-T4靶点,采用引物对T1进行PCR扩增,得到PCR扩增 产物;对于CDC48-T3靶点,采用引物对T2进行PCR扩增,得到PCR扩增产物;对于AAT靶点,采 用引物对T3进行PCR扩增,得到PCR扩增产物;对于DEP1-T2靶点,采用引物对T4进行PCR扩增, 得到PCR扩增产物;对于ACC靶点,采用引物对T5进行PCR扩增,得到PCR扩增产物;对于 NRT1.1B-T4靶点,采用引物对T6进行PCR扩增,得到PCR扩增产物;对于SPL14靶点,采用引物 对T7进行PCR扩增,得到PCR扩增产物;对于WRKY45靶点,采用引物对T8进行PCR扩增,得到PCR 扩增产物;对于DELLA靶点,采用引物对T9进行PCR扩增,得到PCR扩增产物。
2、将步骤1得到的PCR扩增产物进行Sanger测序及分析。测序结果只针对各靶点区进行分 析。分别统计各载体各靶点的发生A·G碱基替换的水稻阳性抗性愈伤数,计算得出A·G碱基 替换效率,结果见图3。
结果表明:通过使用差异代理技术,在水稻抗性愈伤中,ALS-T4靶点中第5位碱基的A·G 碱基替换效率从34%增加到93%;CDC48-T3靶点第5位碱基的A·G碱基替换效率从36%增加 到80%,第9位碱基的A·G碱基替换效率从0%增加到25%;AAT靶点第6位碱基的A·G碱基 替换效率从22%增加到53%;DEP1-T2的第4位碱基的A·G碱基替换效率由21%增加到63%; NRT1.1B-T4靶点的第8位碱基的A·G碱基替换效率从0%增加到9%;SPL14靶点第5位碱基 的A·G碱基替换效率从20%增加到90%,第7位碱基的A·G碱基替换效率从18%增加到88%; DELLA靶点的第6位碱基的A·G碱基替换效率从31%增加到95%。综上,通过使用差异代理 技术大部分靶点的A·G碱基替换效率提升至普通技术的2.5-3倍。
以上对本发明进行了详述。对于本领域技术人员来说,在不脱离本发明的宗旨和范围, 以及无需进行不必要的实验情况下,可在等同参数、浓度和条件下,在较宽范围内实施本 发明。虽然本发明给出了特殊的实施例,应该理解为,可以对本发明作进一步的改进。总 之,按本发明的原理,本申请欲包括任何变更、用途或对本发明的改进,包括脱离了本申请中已公开范围,而用本领域已知的常规技术进行的改变。按以下附带的权利要求的范围,可以进行一些基本特征的应用。
序列表
<110>北京市农林科学院
<120>差异代理技术在A·G碱基替换细胞富集中的应用
<160>5
<170>PatentIn version 3.5
<210>1
<211>20001
<212>DNA
<213>人工序列(Artificial Sequence)
<400>1
ggtggcagga tatattgtgg tgtaaacatg gcactagcct caccgtcttc gcagacgagg 60
ccgctaagtc gcagctacgc tctcaacggc actgactagg tagtttaaac gtgcacttaa 120
ttaaggtacc tggaatcggc agcaaaggat tttttcctgt agttttccca caaccatttt 180
ttaccatccg aatgatagga taggaaaaat atccaagtga acagtattcc tataaaattc 240
ccgtaaaaag cctgcaatcc gaatgagccc tgaagtctga actagccggt cacctgtaca 300
ggctatcgag atgccataca agagacggta gtaggaacta ggaagacgat ggttgattcg 360
tcaggcgaaa tcgtcgtcct gcagtcgcat ctatgggcct ggacggaata ggggaaaaag 420
ttggccggat aggagggaaa ggcccaggtg cttacgtgcg aggtaggcct gggctctcag 480
cacttcgatt cgttggcacc ggggtaggat gcaatagaga gcaacgttta gtaccacctc 540
gcttagctag agcaaactgg actgccttat atgcgcgggt gctggcttgg ctgccgcctc 600
atgaacattc aggagcgttt cagagctatg ctggaaacag catagcaagt tgaaataagg 660
ctagtccgtt atcaacttga aaaagtggca ccgagtcggt gctttttttt ttgcaagaac 720
gaactaagcc ggacaaaaaa aaaaggagca catatacaaa ccggttttat tcatgaatgg 780
tcacgatgga tgatggggct cagacttgag ctacgaggcc gcaggcgaga gaagcctagt 840
gtgctctctg cttgtttggg ccgtaacgga ggatacggcc gacgagcgtg tactaccgcg 900
cgggatgccg ctgggcgctg cgggggccgt tggatgggga tcggtgggtc gcgggagcgt 960
tgaggggaga caggtttagt accacctcgc ctaccgaaca atgaagaacc caccttataa 1020
ccccgcgcgc tgccgcttgt gttgtagcac ccatgacaat gacagtttca gagctatgct 1080
ggaaacagca tagcaagttg aaataaggct agtccgttat caacttgaaa aagtggcacc 1140
gagtcggtgc tttttttttc tcattagcgg tatgcatgtt ggtagaagtc ggagatgtaa 1200
ataattttca ttatataaaa aaggtacttc gagaaaaata aatgcatacg aattaattct 1260
ttttatgttt tttaaaccaa gtatatagaa tttattgatg gttaaaattt caaaaatatg 1320
acgagagaaa ggttaaacgt acggcatata cttctgaaca gagagggaat atggggtttt 1380
tgttgctccc aacaattctt aagcacgtaa aggaaaaaag cacattatcc acattgtact 1440
tccagagata tgtacagcat tacgtaggta cgttttcttt ttcttcccgg agagatgata 1500
caataatcat gtaaacccag aatttaaaaa atattcttta ctataaaaat tttaattagg 1560
gaacgtatta ttttttacat gacacctttt gagaaagagg gacttgtaat atgggacaaa 1620
tgaacaattt ctaagaaatg ggcatatgac tctcagtaca atggaccaaa ttccctccag 1680
tcggcccagc aatacaaagg gaaagaaatg agggggccca caggccacgg cccacttttc 1740
tccgtggtgg ggagatccag ctagaggtcc ggcccacaag tggcccttgc cccgtgggac 1800
ggtgggattg cagagcgcgt gggcggaaac aacagtttag taccacctcg ctcacgcaac 1860
gacgcgacca cttgcttata agctgctgcg ctgaggctca gcaaggatcc cagccccgtg 1920
agtttcagag ctatgctgga aacagcatag caagttgaaa taaggctagt ccgttatcaa 1980
cttgaaaaag tggcaccgag tcggtgcttt ttttttagga atctttaaac atacgaacag 2040
atcacttaaa gttcttctga agcaacttaa agttatcagg catgcatgga tcttggagga 2100
atcagatgtg cagtcaggga ccatagcaca agacaggcgt cttctactgg tgctaccagc 2160
aaatgctgga agccgggaac actgggtacg ttggaaacca cgtgtgatgt gaaggagtaa 2220
gataaactgt aggagaaaag catttcgtag tgggccatga agcctttcag gacatgtatt 2280
gcagtatggg ccggcccatt acgcaattgg acgacaacaa agactagtat tagtaccacc 2340
tcggctatcc acatagatca aagctggttt aaaagagttg tgcagatgat ccgtggcctc 2400
atagcactca atgcggtgtt ttagagctag aaatagcaag ttaaaataag gctagtccgt 2460
tatcaacttg aaaaagtggc accgagtcgg tgcttttttt ttttaagctt acaaattcgg 2520
gtcaaggcgg aagccagcgc gccaccccac gtcagcaaat acggaggcgc ggggttgacg 2580
gcgtcacccg gtcctaacgg cgaccaacaa accagccaga agaaattaca gtaaaaaaaa 2640
agtaaattgc actttgatcc accttttatt acctaagtct caatttggat cacccttaaa 2700
cctatctttt caatttgggc cgggttgtgg tttggactac catgaacaac ttttcgtcat 2760
gtctaacttc cctttcagca aacatatgaa ccatatatag aggagatcgg ccgtatacta 2820
gagctgatgt gtttaaggtc gttgattgca cgagaaaaaa aaatccaaat cgcaacaata 2880
gcaaatttat ctggttcaaa gtgaaaagat atgtttaaag gtagtccaaa gtaaaactta 2940
tagataataa aatgtggtcc aaagcgtaat tcactcaaaa aaaatcaacg agacgtgtac 3000
caaacggaga caaacggcat cttctcgaaa tttcccaacc gctcgctcgc ccgcctcgtc 3060
ttcccggaaa ccgcggtggt ttcagcgtgg cggattctcc aagcagacgg agacgtcacg 3120
gcacgggact cctcccacca cccaaccgcc ataaatacca gccccctcat ctcctctcct 3180
cgcatcagct ccacccccga aaaatttctc cccaatctcg cgaggctctc gtcgtcgaat 3240
cgaatcctct cgcgtcctca aggtacgctg cttctcctct cctcgcttcg tttcgattcg 3300
atttcggacg ggtgaggttg ttttgttgct agatccgatt ggtggttagg gttgtcgatg 3360
tgattatcgt gagatgttta ggggttgtag atctgatggt tgtgatttgg gcacggttgg 3420
ttcgataggt ggaatcgtgg ttaggttttg ggattggatg ttggttctga tgattggggg 3480
gaatttttac ggttagatga attgttggat gattcgattg gggaaatcgg tgtagatctg 3540
ttggggaatt gtggaactag tcatgcctga gtgattggtg cgatttgtag cgtgttccat 3600
cttgtaggcc ttgttgcgag catgttcaga tctactgttc cgctcttgat tgagttattg 3660
gtgccatggg ttggtgcaaa cacaggcttt aatatgttat atctgttttg tgtttgatgt 3720
agatctgtag ggtagttctt cttagacatg gttcaattat gtagcttgtg cgtttcgatt 3780
tgatttcata tgttcacaga ttagataatg atgaactctt ttaattaatt gtcaatggta 3840
aataggaagt cttgtcgcta tatctgtcat aatgatctca tgttactatc tgccagtaat 3900
ttatgctaag aactatatta gaatatcatg ttacaatctg tagtaatatc atgttacaat 3960
ctgtagttca tctatataat ctattgtggt aatttctttt tactatctgt gtgaagatta 4020
ttgccactag ttcattctac ttatttctga agttcaggat acgtgtgctg ttactaccta 4080
tctgaataca tgtgtgatgt gcctgttact atctttttga atacatgtat gttctgttgg 4140
aatatgtttg ctgtttgatc cgttgttgtg tccttaatct tgtgctagtt cttaccctat 4200
ctgtttggtg attatttctt gcagtacgta agcatgtccg aggtggagtt ctcccacgag 4260
tactggatga ggcacgcact caccctcgca aagagggcat gggacgagag ggaggtgcct 4320
gtgggagcag tgctcgtgca caacaacagg gtgatcggag agggatggaa caggcctatc 4380
ggaaggcacg accctaccgc acacgcagag atcatggcac tcaggcaggg aggcctcgtg 4440
atgcagaact acaggctcat cgacgccacc ctctacgtga ccctcgagcc ttgcgtgatg 4500
tgcgcaggag ccatgatcca ctccaggatc ggaagggtgg tgttcggagc aagggacgca 4560
aagaccggag cagccggctc cctcatggac gtgctccacc acccgggcat gaaccacagg 4620
gtggagatca ccgagggaat cctcgcagac gagtgcgcag ccctcctctc cgacttcttc 4680
aggatgagga ggcaggagat caaggcccag aagaaggccc agtcctccac cgactccggc 4740
ggctcatcag gcggctcctc cggctccgag acaccgggca cctccgagtc cgccaccccg 4800
gagtcctccg gcggctcctc cggcggctcc tccgaggtgg agttctccca cgagtactgg 4860
atgaggcacg cactcaccct cgcaaagagg gcaagggacg agagggaggt gcctgtggga 4920
gcagtgctcg tgctcaacaa cagggtgatc ggagagggat ggaacagggc aatcggcctc 4980
cacgacccta ccgcacacgc agagatcatg gcactcaggc agggaggcct cgtgatgcag 5040
aactacaggc tcatcgacgc caccctctac gtgaccttcg agccttgcgt gatgtgcgca 5100
ggagccatga tccactccag gatcggcagg gtggtgttcg gcgtgaggaa cgcaaagacc 5160
ggagcagcag gctccctcat ggacgtgctc cactacccgg gcatgaacca cagggtggag 5220
atcaccgagg gaatcctcgc agacgagtgc gcagccctcc tctgctactt cttcaggatg 5280
ccgaggcagg tgttcaacgc ccagaagaag gcccagtcct ccaccgactc cggcggctca 5340
tcaggcggct cctccggctc cgagacaccg ggcacctccg agtccgccac cccggagtcc 5400
tccggcggct cctccggcgg ctccgacaag aagtactcca tcggcctcgc catcggcacc 5460
aacagcgtcg gctgggcggt gatcaccgac gagtacaagg tcccgtccaa gaagttcaag 5520
gtcctgggca acaccgaccg ccactccatc aagaagaacc tcatcggcgc cctcctcttc 5580
gactccggcg agacggcgga ggcgacccgc ctcaagcgca ccgcccgccg ccgctacacc 5640
cgccgcaaga accgcatctg ctacctccag gagatcttct ccaacgagat ggcgaaggtc 5700
gacgactcct tcttccaccg cctcgaggag tccttcctcg tggaggagga caagaagcac 5760
gagcgccacc ccatcttcgg caacatcgtc gacgaggtcg cctaccacga gaagtacccc 5820
actatctacc accttcgtaa gaagcttgtt gactctactg ataaggctga tcttcgtctc 5880
atctaccttg ctctcgctca catgatcaag ttccgtggtc acttccttat cgagggtgac 5940
cttaaccctg ataactccga cgtggacaag ctcttcatcc agctcgtcca gacctacaac 6000
cagctcttcg aggagaaccc tatcaacgct tccggtgtcg acgctaaggc gatcctttcc 6060
gctaggctct ccaagtccag gcgtctcgag aacctcatcg cccagctccc tggtgagaag 6120
aagaacggtc ttttcggtaa cctcatcgct ctctccctcg gtctgacccc taacttcaag 6180
tccaacttcg acctcgctga ggacgctaag cttcagctct ccaaggatac ctacgacgat 6240
gatctcgaca acctcctcgc tcagattgga gatcagtacg ctgatctctt ccttgctgct 6300
aagaacctct ccgatgctat cctcctttcg gatatcctta gggttaacac tgagatcact 6360
aaggctcctc tttctgcttc catgatcaag cgctacgacg agcaccacca ggacctcacc 6420
ctcctcaagg ctcttgttcg tcagcagctc cccgagaagt acaaggagat cttcttcgac 6480
cagtccaaga acggctacgc cggttacatt gacggtggag ctagccagga ggagttctac 6540
aagttcatca agccaatcct tgagaagatg gatggtactg aggagcttct cgttaagctt 6600
aaccgtgagg acctccttag gaagcagagg actttcgata acggctctat ccctcaccag 6660
atccaccttg gtgagcttca cgccatcctt cgtaggcagg aggacttcta ccctttcctc 6720
aaggacaacc gtgagaagat cgagaagatc cttactttcc gtattcctta ctacgttggt 6780
cctcttgctc gtggtaactc ccgtttcgct tggatgacta ggaagtccga ggagactatc 6840
accccttgga acttcgagga ggttgttgac aagggtgctt ccgcccagtc cttcatcgag 6900
cgcatgacca acttcgacaa gaacctcccc aacgagaagg tcctccccaa gcactccctc 6960
ctctacgagt acttcacggt ctacaacgag ctcaccaagg tcaagtacgt caccgagggt 7020
atgcgcaagc ctgccttcct ctccggcgag cagaagaagg ctatcgttga cctcctcttc 7080
aagaccaacc gcaaggtcac cgtcaagcag ctcaaggagg actacttcaa gaagatcgag 7140
tgcttcgact ccgtcgagat cagcggcgtt gaggaccgtt tcaacgcttc tctcggtacc 7200
taccacgatc tcctcaagat catcaaggac aaggacttcc tcgacaacga ggagaacgag 7260
gacatcctcg aggacatcgt cctcactctt actctcttcg aggataggga gatgatcgag 7320
gagaggctca agacttacgc tcatctcttc gatgacaagg ttatgaagca gctcaagcgt 7380
cgccgttaca ccggttgggg taggctctcc cgcaagctca tcaacggtat cagggataag 7440
cagagcggca agactatcct cgacttcctc aagtctgatg gtttcgctaa caggaacttc 7500
atgcagctca tccacgatga ctctcttacc ttcaaggagg atattcagaa ggctcaggtg 7560
tccggtcagg gcgactctct ccacgagcac attgctaacc ttgctggttc ccctgctatc 7620
aagaagggca tccttcagac tgttaaggtt gtcgatgagc ttgtcaaggt tatgggtcgt 7680
cacaagcctg agaacatcgt catcgagatg gctcgtgaga accagactac ccagaagggt 7740
cagaagaact cgagggagcg catgaagagg attgaggagg gtatcaagga gcttggttct 7800
cagatcctta aggagcaccc tgtcgagaac acccagctcc agaacgagaa gctctacctc 7860
tactacctcc agaacggtag ggatatgtac gttgaccagg agctcgacat caacaggctt 7920
tctgactacg acgtcgacca cattgttcct cagtctttcc ttaaggatga ctccatcgac 7980
aacaaggtcc tcacgaggtc cgacaagaac aggggtaagt cggacaacgt cccttccgag 8040
gaggttgtca agaagatgaa gaactactgg aggcagcttc tcaacgctaa gctcattacc 8100
cagaggaagt tcgacaacct cacgaaggct gagaggggtg gcctttccga gcttgacaag 8160
gctggtttca tcaagaggca gcttgttgag acgaggcaga ttaccaagca cgttgctcag 8220
atcctcgatt ctaggatgaa caccaagtac gacgagaacg acaagctcat ccgcgaggtc 8280
aaggtgatca ccctcaagtc caagctcgtc tccgacttcc gcaaggactt ccagttctac 8340
aaggtccgcg agatcaacaa ctaccaccac gctcacgatg cttaccttaa cgctgtcgtt 8400
ggtaccgctc ttatcaagaa gtaccctaag cttgagtccg agttcgtcta cggtgactac 8460
aaggtctacg acgttcgtaa gatgatcgcc aagtccgagc aggagatcgg caaggccacc 8520
gccaagtact tcttctactc caacatcatg aacttcttca agaccgagat caccctcgcc 8580
aacggcgaga tccgcaagcg ccctcttatc gagacgaacg gtgagactgg tgagatcgtt 8640
tgggacaagg gtcgcgactt cgctactgtt cgcaaggtcc tttctatgcc tcaggttaac 8700
atcgtcaaga agaccgaggt ccagaccggt ggcttctcca aggagtctat ccttccaaag 8760
agaaactcgg acaagctcat cgctaggaag aaggattggg accctaagaa gtacggtggt 8820
ttcgactccc ctactgtcgc ctactccgtc ctcgtggtcg ccaaggtgga gaagggtaag 8880
tcgaagaagc tcaagtccgt caaggagctc ctcggcatca ccatcatgga gcgctcctcc 8940
ttcgagaaga acccgatcga cttcctcgag gccaagggct acaaggaggt caagaaggac 9000
ctcatcatca agctccccaa gtactctctt ttcgagctcg agaacggtcg taagaggatg 9060
ctggcttccg ctggtgagct ccagaagggt aacgagcttg ctcttccttc caagtacgtg 9120
aacttcctct acctcgcctc ccactacgag aagctcaagg gttcccctga ggataacgag 9180
cagaagcagc tcttcgtgga gcagcacaag cactacctcg acgagatcat cgagcagatc 9240
tccgagttct ccaagcgcgt catcctcgct gacgctaacc tcgacaaggt cctctccgcc 9300
tacaacaagc accgcgacaa gcccatccgc gagcaggccg agaacatcat ccacctcttc 9360
acgctcacga acctcggcgc ccctgctgct ttcaagtact tcgacaccac catcgacagg 9420
aagcgttaca cgtccaccaa ggaggttctc gacgctactc tcatccacca gtccatcacc 9480
ggtctttacg agactcgtat cgacctttcc cagcttggtg gtgatgacga tgacaaaatg 9540
gcaccgaaga aaaaaaggaa ggtcggcggc tccccgaaga aaaaaaggaa ggtcggcggc 9600
tccccgaaga aaaaaaggaa ggtcggcggc tccccgaaga aaaaaaggaa ggtcggaatc 9660
catggcgttc catagactag ttcagccagt ttggtggagc tgccgatgtg cctggtcgtc 9720
ccgagcctct gttcgtcaag tatttgtggt gctgatgtct acttgtgtct ggtttaatgg 9780
accatcgagt ccgtatgata tgttagtttt atgaaacagt ttcctgtggg acagcagtat 9840
gctttatgaa taagttggat ttgaacctaa atatgtgctc aatttgctca tttgcatctc 9900
attcctgttg atgttttatc tgagttgcaa gtttgaaaat gctgcatatt cttattaaat 9960
cgtcatttac ttttatctta atgagctttg caatggccta tgggatataa aagagatcgt 10020
tcaaacattt ggcaataaag tttcttaaga ttgaatcctg ttgccggtct tgcgatgatt 10080
atcatataat ttctgttgaa ttacgttaag catgtaataa ttaacatgta atgcatgacg 10140
ttatttatga gatgggtttt tatgattaga gtcccgcaat tatacattta atacgcgata 10200
gaaaacaaaa tatagcgcgc aaactaggat aaattatcgc gcgcggtgtc atctatgtta 10260
ctagatcggc gcctgtccgg gcgcgcctgg tggatcgtcc gcctaggctg cagtgcagcg 10320
tgacccggtc gtgcccctct ctagagataa tgagcattgc atgtctaagt tataaaaaat 10380
taccacatat tttttttgtc acacttgttt gaagtgcagt ttatctatct ttatacatat 10440
atttaaactt tactctacga ataatataat ctatagtact acaataatat cagtgtttta 10500
gagaatcata taaatgaaca gttagacatg gtctaaagga caattgagta ttttgacaac 10560
aggactctac agttttatct ttttagtgtg catgtgttct cctttttttt tgcaaatagc 10620
ttcacctata taatacttca tccattttat tagtacatcc atttagggtt tagggttaat 10680
ggtttttata gactaatttt tttagtacat ctattttatt ctattttagc ctctaaatta 10740
agaaaactaa aactctattt tagttttttt atttaataat ttagatataa aatagaataa 10800
aataaagtga ctaaaaatta aacaaatacc ctttaagaaa ttaaaaaaac taaggaaaca 10860
tttttcttgt ttcgagtaga taatgccagc ctgttaaacg ccgtcgacga gtctaacgga 10920
caccaaccag cgaaccagca gcgtcgcgtc gggccaagcg aagcagacgg cacggcatct 10980
ctgtcgctgc ctctggaccc ctctcgagag ttccgctcca ccgttggact tgctccgctg 11040
tcggcatcca gaaattgcgt ggcggagcgg cagacgtgag ccggcacggc aggcggcctc 11100
ctcctcctct cacggcaccg gcagctacgg gggattcctt tcccaccgct ccttcgcttt 11160
cccttcctcg cccgccgtaa taaatagaca ccccctccac accctctttc cccaacctcg 11220
tgttgttcgg agcgcacaca cacacaacca gatctccccc aaatccaccc gtcggcacct 11280
ccgcttcaag gtacgccgct cgtcctcccc ccccccccct ctctaccttc tctagatcgg 11340
cgttccggtc catggttagg gcccggtagt tctacttctg ttcatgtttg tgttagatcc 11400
gtgtttgtgt tagatccgtg ctgctagcgt tcgtacacgg atgcgacctg tacgtcagac 11460
acgttctgat tgctaacttg ccagtgtttc tctttgggga atcctgggat ggctctagcc 11520
gttccgcaga cgggatcgat ttcatgattt tttttgtttc gttgcatagg gtttggtttg 11580
cccttttcct ttatttcaat atatgccgtg cacttgtttg tcgggtcatc ttttcatgct 11640
tttttttgtc ttggttgtga tgatgtggtc tggttgggcg gtcgttctag atcggagtag 11700
aattctgttt caaactacct ggtggattta ttaattttgg atctgtatgt gtgtgccata 11760
catattcata gttacgaatt gaagatgatg gatggaaata tcgatctagg ataggtatac 11820
atgttgatgc gggttttact gatgcatata cagagatgct ttttgttcgc ttggttgtga 11880
tgatgtggtg tggttgggcg gtcgttcatt cgttctagat cggagtagaa tactgtttca 11940
aactacctgg tgtatttatt aattttggaa ctgtatgtgt gtgtcataca tcttcatagt 12000
tacgagttta agatggatgg aaatatcgat ctaggatagg tatacatgtt gatgtgggtt 12060
ttactgatgc atatacatga tggcatatgc agcatctatt catatgctct aaccttgagt 12120
acctatctat tataataaac aagtatgttt tataattatt ttgatcttga tatacttgga 12180
tgatggcata tgcagcagct atatgtggat ttttttagcc ctgccttcat acgctattta 12240
tttgcttggt actgtttctt ttgtcgatgc tcaccctgtt gtttggtgtt acttctgcag 12300
gagctcctca tagcactcaa tgcggttggc aaaaagcctg aactcaccgc gacgtctgtc 12360
gagaagtttc tgatcgaaaa gttcgacagc gtctccgacc tgatgcagct ctcggagggc 12420
gaagaatctc gtgctttcag cttcgatgta ggagggcgtg gatatgtcct gcgggtaaat 12480
agctgcgccg atggtttcta caaagatcgt tatgtttatc ggcactttgc atcggccgcg 12540
ctcccgattc cggaagtgct tgacattggg gagtttagcg agagcctgac ctattgcatc 12600
tcccgccgtt cacagggtgt cacgttgcaa gacctgcctg aaaccgaact gcccgctgtt 12660
ctacaaccgg tcgcggaggc tatggatgcg atcgctgcgg ccgatcttag ccagacgagc 12720
gggttcggcc cattcggacc gcaaggaatc ggtcaataca ctacatggcg tgatttcata 12780
tgcgcgattg ctgatcccca tgtgtatcac tggcaaactg tgatggacga caccgtcagt 12840
gcgtccgtcg cgcaggctct cgatgagctg atgctttggg ccgaggactg ccccgaagtc 12900
cggcacctcg tgcacgcgga tttcggctcc aacaatgtcc tgacggacaa tggccgcata 12960
acagcggtca ttgactggag cgaggcgatg ttcggggatt cccaatacga ggtcgccaac 13020
atcttcttct ggaggccgtg gttggcttgt atggagcagc agacgcgcta cttcgagcgg 13080
aggcatccgg agcttgcagg atcgccacga ctccgggcgt atatgctccg cattggtctt 13140
gaccaactct atcagagctt ggttgacggc aatttcgatg atgcagcttg ggcgcagggt 13200
cgatgcgacg caatcgtccg atccggagcc gggactgtcg ggcgtacaca aatcgcccgc 13260
agaagcgcgg ccgtctggac cgatggctgt gtagaagtac tcgccgatag tggaaaccga 13320
cgccccagca ctcgtccgag ggcaaagaaa tagagtagat gccgaccggg atctgtcgat 13380
cgacaagctc gagtttctcc ataataatgt gtgagtagtt cccagataag ggaattaggg 13440
ttcctatagg gtttcgctca tgtgttgagc atataagaaa cccttagtat gtatttgtat 13500
ttgtaaaata cttctatcaa taaaatttct aattcctaaa accaaaatcc agtactaaaa 13560
tccagatccc ccgaattaat tcggcgttaa ttcagcctgc aggacgcgtt taattaagtg 13620
cacgcggccg cctacttagt caagagcctc gcacgcgact gtcacgcggc caggatcgcc 13680
tcgtgagcct cgcaatctgt acctagtgtt taaactatca gtgtttgaca ggatatattg 13740
gcgggtaaac ctaagagaaa agagcgttta ttagaataac ggatatttaa aagggcgtga 13800
aaaggtttat ccgttcgtcc atttgtatgt gcatgccaac cacagggttc ccctcgggat 13860
caaagtactt tgatccaacc cctccgctgc tatagtgcag tcggcttctg acgttcagtg 13920
cagccgtctt ctgaaaacga catgtcgcac aagtcctaag ttacgcgaca ggctgccgcc 13980
ctgccctttt cctggcgttt tcttgtcgcg tgttttagtc gcataaagta gaatacttgc 14040
gactagaacc ggagacatta cgccatgaac aagagcgccg ccgctggcct gctgggctat 14100
gcccgcgtca gcaccgacga ccaggacttg accaaccaac gggccgaact gcacgcggcc 14160
ggctgcacca agctgttttc cgagaagatc accggcacca ggcgcgaccg cccggagctg 14220
gccaggatgc ttgaccacct acgccctggc gacgttgtga cagtgaccag gctagaccgc 14280
ctggcccgca gcacccgcga cctactggac attgccgagc gcatccagga ggccggcgcg 14340
ggcctgcgta gcctggcaga gccgtgggcc gacaccacca cgccggccgg ccgcatggtg 14400
ttgaccgtgt tcgccggcat tgccgagttc gagcgttccc taatcatcga ccgcacccgg 14460
agcgggcgcg aggccgccaa ggcccgaggc gtgaagtttg gcccccgccc taccctcacc 14520
ccggcacaga tcgcgcacgc ccgcgagctg atcgaccagg aaggccgcac cgtgaaagag 14580
gcggctgcac tgcttggcgt gcatcgctcg accctgtacc gcgcacttga gcgcagcgag 14640
gaagtgacgc ccaccgaggc caggcggcgc ggtgccttcc gtgaggacgc attgaccgag 14700
gccgacgccc tggcggccgc cgagaatgaa cgccaagagg aacaagcatg aaaccgcacc 14760
aggacggcca ggacgaaccg tttttcatta ccgaagagat cgaggcggag atgatcgcgg 14820
ccgggtacgt gttcgagccg cccgcgcacg tctcaaccgt gcggctgcat gaaatcctgg 14880
ccggtttgtc tgatgccaag ctggcggcct ggccggccag cttggccgct gaagaaaccg 14940
agcgccgccg tctaaaaagg tgatgtgtat ttgagtaaaa cagcttgcgt catgcggtcg 15000
ctgcgtatat gatgcgatga gtaaataaac aaatacgcaa ggggaacgca tgaaggttat 15060
cgctgtactt aaccagaaag gcgggtcagg caagacgacc atcgcaaccc atctagcccg 15120
cgccctgcaa ctcgccgggg ccgatgttct gttagtcgat tccgatcccc agggcagtgc 15180
ccgcgattgg gcggccgtgc gggaagatca accgctaacc gttgtcggca tcgaccgccc 15240
gacgattgac cgcgacgtga aggccatcgg ccggcgcgac ttcgtagtga tcgacggagc 15300
gccccaggcg gcggacttgg ctgtgtccgc gatcaaggca gccgacttcg tgctgattcc 15360
ggtgcagcca agcccttacg acatatgggc caccgccgac ctggtggagc tggttaagca 15420
gcgcattgag gtcacggatg gaaggctaca agcggccttt gtcgtgtcgc gggcgatcaa 15480
aggcacgcgc atcggcggtg aggttgccga ggcgctggcc gggtacgagc tgcccattct 15540
tgagtcccgt atcacgcagc gcgtgagcta cccaggcact gccgccgccg gcacaaccgt 15600
tcttgaatca gaacccgagg gcgacgctgc ccgcgaggtc caggcgctgg ccgctgaaat 15660
taaatcaaaa ctcatttgag ttaatgaggt aaagagaaaa tgagcaaaag cacaaacacg 15720
ctaagtgccg gccgtccgag cgcacgcagc agcaaggctg caacgttggc cagcctggca 15780
gacacgccag ccatgaagcg ggtcaacttt cagttgccgg cggaggatca caccaagctg 15840
aagatgtacg cggtacgcca aggcaagacc attaccgagc tgctatctga atacatcgcg 15900
cagctaccag agtaaatgag caaatgaata aatgagtaga tgaattttag cggctaaagg 15960
aggcggcatg gaaaatcaag aacaaccagg caccgacgcc gtggaatgcc ccatgtgtgg 16020
aggaacgggc ggttggccag gcgtaagcgg ctgggttgtc tgccggccct gcaatggcac 16080
tggaaccccc aagcccgagg aatcggcgtg acggtcgcaa accatccggc ccggtacaaa 16140
tcggcgcggc gctgggtgat gacctggtgg agaagttgaa ggccgcgcag gccgcccagc 16200
ggcaacgcat cgaggcagaa gcacgccccg gtgaatcgtg gcaagcggcc gctgatcgaa 16260
tccgcaaaga atcccggcaa ccgccggcag ccggtgcgcc gtcgattagg aagccgccca 16320
agggcgacga gcaaccagat tttttcgttc cgatgctcta tgacgtgggc acccgcgata 16380
gtcgcagcat catggacgtg gccgttttcc gtctgtcgaa gcgtgaccga cgagctggcg 16440
aggtgatccg ctacgagctt ccagacgggc acgtagaggt ttccgcaggg ccggccggca 16500
tggccagtgt gtgggattac gacctggtac tgatggcggt ttcccatcta accgaatcca 16560
tgaaccgata ccgggaaggg aagggagaca agcccggccg cgtgttccgt ccacacgttg 16620
cggacgtact caagttctgc cggcgagccg atggcggaaa gcagaaagac gacctggtag 16680
aaacctgcat tcggttaaac accacgcacg ttgccatgca gcgtacgaag aaggccaaga 16740
acggccgcct ggtgacggta tccgagggtg aagccttgat tagccgctac aagatcgtaa 16800
agagcgaaac cgggcggccg gagtacatcg agatcgagct agctgattgg atgtaccgcg 16860
agatcacaga aggcaagaac ccggacgtgc tgacggttca ccccgattac tttttgatcg 16920
atcccggcat cggccgtttt ctctaccgcc tggcacgccg cgccgcaggc aaggcagaag 16980
ccagatggtt gttcaagacg atctacgaac gcagtggcag cgccggagag ttcaagaagt 17040
tctgtttcac cgtgcgcaag ctgatcgggt caaatgacct gccggagtac gatttgaagg 17100
aggaggcggg gcaggctggc ccgatcctag tcatgcgcta ccgcaacctg atcgagggcg 17160
aagcatccgc cggttcctaa tgtacggagc agatgctagg gcaaattgcc ctagcagggg 17220
aaaaaggtcg aaaaggtctc tttcctgtgg atagcacgta cattgggaac ccaaagccgt 17280
acattgggaa ccggaacccg tacattggga acccaaagcc gtacattggg aaccggtcac 17340
acatgtaagt gactgatata aaagagaaaa aaggcgattt ttccgcctaa aactctttaa 17400
aacttattaa aactcttaaa acccgcctgg cctgtgcata actgtctggc cagcgcacag 17460
ccgaagagct gcaaaaagcg cctacccttc ggtcgctgcg ctccctacgc cccgccgctt 17520
cgcgtcggcc tatcgcggcc gctggccgct caaaaatggc tggcctacgg ccaggcaatc 17580
taccagggcg cggacaagcc gcgccgtcgc cactcgaccg ccggcgccca catcaaggca 17640
ccctgcctcg cgcgtttcgg tgatgacggt gaaaacctct gacacatgca gctcccggag 17700
acggtcacag cttgtctgta agcggatgcc gggagcagac aagcccgtca gggcgcgtca 17760
gcgggtgttg gcgggtgtcg gggcgcagcc atgacccagt cacgtagcga tagcggagtg 17820
tatactggct taactatgcg gcatcagagc agattgtact gagagtgcac catatgcggt 17880
gtgaaatacc gcacagatgc gtaaggagaa aataccgcat caggcgctct tccgcttcct 17940
cgctcactga ctcgctgcgc tcggtcgttc ggctgcggcg agcggtatca gctcactcaa 18000
aggcggtaat acggttatcc acagaatcag gggataacgc aggaaagaac atgtgagcaa 18060
aaggccagca aaaggccagg aaccgtaaaa aggccgcgtt gctggcgttt ttccataggc 18120
tccgcccccc tgacgagcat cacaaaaatc gacgctcaag tcagaggtgg cgaaacccga 18180
caggactata aagataccag gcgtttcccc ctggaagctc cctcgtgcgc tctcctgttc 18240
cgaccctgcc gcttaccgga tacctgtccg cctttctccc ttcgggaagc gtggcgcttt 18300
ctcatagctc acgctgtagg tatctcagtt cggtgtaggt cgttcgctcc aagctgggct 18360
gtgtgcacga accccccgtt cagcccgacc gctgcgcctt atccggtaac tatcgtcttg 18420
agtccaaccc ggtaagacac gacttatcgc cactggcagc agccactggt aacaggatta 18480
gcagagcgag gtatgtaggc ggtgctacag agttcttgaa gtggtggcct aactacggct 18540
acactagaag gacagtattt ggtatctgcg ctctgctgaa gccagttacc ttcggaaaaa 18600
gagttggtag ctcttgatcc ggcaaacaaa ccaccgctgg tagcggtggt ttttttgttt 18660
gcaagcagca gattacgcgc agaaaaaaag gatctcaaga agatcctttg atcttttcta 18720
cggggtctga cgctcagtgg aacgaaaact cacgttaagg gattttggtc atgcattcta 18780
ggtactaaaa caattcatcc agtaaaatat aatattttat tttctcccaa tcaggcttga 18840
tccccagtaa gtcaaaaaat agctcgacat actgttcttc cccgatatcc tccctgatcg 18900
accggacgca gaaggcaatg tcataccact tgtccgccct gccgcttctc ccaagatcaa 18960
taaagccact tactttgcca tctttcacaa agatgttgct gtctcccagg tcgccgtggg 19020
aaaagacaag ttcctcttcg ggcttttccg tctttaaaaa atcatacagc tcgcgcggat 19080
ctttaaatgg agtgtcttct tcccagtttt cgcaatccac atcggccaga tcgttattca 19140
gtaagtaatc caattcggct aagcggctgt ctaagctatt cgtataggga caatccgata 19200
tgtcgatgga gtgaaagagc ctgatgcact ccgcatacag ctcgataatc ttttcagggc 19260
tttgttcatc ttcatactct tccgagcaaa ggacgccatc ggcctcactc atgagcagat 19320
tgctccagcc atcatgccgt tcaaagtgca ggacctttgg aacaggcagc tttccttcca 19380
gccatagcat catgtccttt tcccgttcca catcataggt ggtcccttta taccggctgt 19440
ccgtcatttt taaatatagg ttttcatttt ctcccaccag cttatatacc ttagcaggag 19500
acattccttc cgtatctttt acgcagcggt atttttcgat cagttttttc aattccggtg 19560
atattctcat tttagccatt tattatttcc ttcctctttt ctacagtatt taaagatacc 19620
ccaagaagct aattataaca agacgaactc caattcactg ttccttgcat tctaaaacct 19680
taaataccag aaaacagctt tttcaaagtt gttttcaaag ttggcgtata acatagtatc 19740
gacggagccg attttgaaac cgcggtgatc acaggcagca acgctctgtc atcgttacaa 19800
tcaacatgct accctccgcg agatcatccg tgtttcaaac ccggcagctt agttgccgtt 19860
cttccgaata gcatcggtaa catgagcaaa gtctgccgcc ttacaacggc tctcccgctg 19920
acgccgtccc ggactgatgg gctgcctgta tcgagtggtg attttgtgcc gagctgccgg 19980
tcggggagct gttggctggc t 20001
<210>2
<211>167
<212>PRT
<213>人工序列(Artificial Sequence)
<400>2
Met Ser Glu Val Glu Phe Ser His Glu Tyr Trp Met Arg His Ala Leu
1 5 10 15
Thr Leu Ala Lys Arg Ala Trp Asp Glu Arg Glu Val Pro Val Gly Ala
20 25 30
Val Leu Val His Asn Asn Arg Val Ile Gly Glu Gly Trp Asn Arg Pro
35 40 45
Ile Gly Arg His Asp Pro Thr Ala His Ala Glu Ile Met Ala Leu Arg
50 55 60
Gln Gly Gly Leu Val Met Gln Asn Tyr Arg Leu Ile Asp Ala Thr Leu
65 70 75 80
Tyr Val Thr Leu Glu Pro Cys Val Met Cys Ala Gly Ala Met Ile His
85 90 95
Ser Arg Ile Gly Arg Val Val Phe Gly Ala Arg Asp Ala Lys Thr Gly
100 105 110
Ala Ala Gly Ser Leu Met Asp Val Leu His His Pro Gly Met Asn His
115 120 125
Arg Val Glu Ile Thr Glu Gly Ile Leu Ala Asp Glu Cys Ala Ala Leu
130 135 140
Leu Ser Asp Phe Phe Arg Met Arg Arg Gln Glu Ile Lys Ala Gln Lys
145 150 155 160
Lys Ala Gln Ser Ser Thr Asp
165
<210>3
<211>1367
<212>PRT
<213>人工序列(Artificial Sequence)
<400>3
Asp Lys Lys Tyr Ser Ile Gly Leu Ala Ile Gly Thr Asn Ser Val Gly
1 5 10 15
Trp Ala Val Ile Thr Asp Glu Tyr Lys Val Pro Ser Lys Lys Phe Lys
20 25 30
Val Leu Gly Asn Thr Asp Arg His Ser Ile Lys Lys Asn Leu Ile Gly
35 40 45
Ala Leu Leu Phe Asp Ser Gly Glu Thr Ala Glu Ala Thr Arg Leu Lys
50 55 60
Arg Thr Ala Arg Arg Arg Tyr Thr Arg Arg Lys Asn Arg Ile Cys Tyr
65 70 75 80
Leu Gln Glu Ile Phe Ser Asn Glu Met Ala Lys Val Asp Asp Ser Phe
85 90 95
Phe His Arg Leu Glu Glu Ser Phe Leu Val Glu Glu Asp Lys Lys His
100 105 110
Glu Arg His Pro Ile Phe Gly Asn Ile Val Asp Glu Val Ala Tyr His
115 120 125
Glu Lys Tyr Pro Thr Ile Tyr His Leu Arg Lys Lys Leu Val Asp Ser
130 135 140
Thr Asp Lys Ala Asp Leu Arg Leu Ile Tyr Leu Ala Leu Ala His Met
145 150 155 160
Ile Lys Phe Arg Gly His Phe Leu Ile Glu Gly Asp Leu Asn Pro Asp
165 170 175
Asn Ser Asp Val Asp Lys Leu Phe Ile Gln Leu Val Gln Thr Tyr Asn
180 185 190
Gln Leu Phe Glu Glu Asn Pro Ile Asn Ala Ser Gly Val Asp Ala Lys
195 200 205
Ala Ile Leu Ser Ala Arg Leu Ser Lys Ser Arg Arg Leu Glu Asn Leu
210 215 220
Ile Ala Gln Leu Pro Gly Glu Lys Lys Asn Gly Leu Phe Gly Asn Leu
225 230 235 240
Ile Ala Leu Ser Leu Gly Leu Thr Pro Asn Phe Lys Ser Asn Phe Asp
245 250 255
Leu Ala Glu Asp Ala Lys Leu Gln Leu Ser Lys Asp Thr Tyr Asp Asp
260 265 270
Asp Leu Asp Asn Leu Leu Ala Gln Ile Gly Asp Gln Tyr Ala Asp Leu
275 280 285
Phe Leu Ala Ala Lys Asn Leu Ser Asp Ala Ile Leu Leu Ser Asp Ile
290 295 300
Leu Arg Val Asn Thr Glu Ile Thr Lys Ala Pro Leu Ser Ala Ser Met
305 310 315 320
Ile Lys Arg Tyr Asp Glu His His Gln Asp Leu Thr Leu Leu Lys Ala
325 330 335
Leu Val Arg Gln Gln Leu Pro Glu Lys Tyr Lys Glu Ile Phe Phe Asp
340 345 350
Gln Ser Lys Asn Gly Tyr Ala Gly Tyr Ile Asp Gly Gly Ala Ser Gln
355 360 365
Glu Glu Phe Tyr Lys Phe Ile Lys Pro Ile Leu Glu Lys Met Asp Gly
370 375 380
Thr Glu Glu Leu Leu Val Lys Leu Asn Arg Glu Asp Leu Leu Arg Lys
385 390 395 400
Gln Arg Thr Phe Asp Asn Gly Ser Ile Pro His Gln Ile His Leu Gly
405 410 415
Glu Leu His Ala Ile Leu Arg Arg Gln Glu Asp Phe Tyr Pro Phe Leu
420 425 430
Lys Asp Asn Arg Glu Lys Ile Glu Lys Ile Leu Thr Phe Arg Ile Pro
435 440 445
Tyr Tyr Val Gly Pro Leu Ala Arg Gly Asn Ser Arg Phe Ala Trp Met
450 455 460
Thr Arg Lys Ser Glu Glu Thr Ile Thr Pro Trp Asn Phe Glu Glu Val
465 470 475 480
Val Asp Lys Gly Ala Ser Ala Gln Ser Phe Ile Glu Arg Met Thr Asn
485 490 495
Phe Asp Lys Asn Leu Pro Asn Glu Lys Val Leu Pro Lys His Ser Leu
500 505 510
Leu Tyr Glu Tyr Phe Thr Val Tyr Asn Glu Leu Thr Lys Val Lys Tyr
515 520 525
Val Thr Glu Gly Met Arg Lys Pro Ala Phe Leu Ser Gly Glu Gln Lys
530 535 540
Lys Ala Ile Val Asp Leu Leu Phe Lys Thr Asn Arg Lys Val Thr Val
545 550 555 560
Lys Gln Leu Lys Glu Asp Tyr Phe Lys Lys Ile Glu Cys Phe Asp Ser
565 570 575
Val Glu Ile Ser Gly Val Glu Asp Arg Phe Asn Ala Ser Leu Gly Thr
580 585 590
Tyr His Asp Leu Leu Lys Ile Ile Lys Asp Lys Asp Phe Leu Asp Asn
595 600 605
Glu Glu Asn Glu Asp Ile Leu Glu Asp Ile Val Leu Thr Leu Thr Leu
610 615 620
Phe Glu Asp Arg Glu Met Ile Glu Glu Arg Leu Lys Thr Tyr Ala His
625 630 635 640
Leu Phe Asp Asp Lys Val Met Lys Gln Leu Lys Arg Arg Arg Tyr Thr
645 650 655
Gly Trp Gly Arg Leu Ser Arg Lys Leu Ile Asn Gly Ile Arg Asp Lys
660 665 670
Gln Ser Gly Lys Thr Ile Leu Asp Phe Leu Lys Ser Asp Gly Phe Ala
675 680 685
Asn Arg Asn Phe Met Gln Leu Ile His Asp Asp Ser Leu Thr Phe Lys
690 695 700
Glu Asp Ile Gln Lys Ala Gln Val Ser Gly Gln Gly Asp Ser Leu His
705 710 715 720
Glu His Ile Ala Asn Leu Ala Gly Ser Pro Ala Ile Lys Lys Gly Ile
725 730 735
Leu Gln Thr Val Lys Val Val Asp Glu Leu Val Lys Val Met Gly Arg
740 745 750
His Lys Pro Glu Asn Ile Val Ile Glu Met Ala Arg Glu Asn Gln Thr
755 760 765
Thr Gln Lys Gly Gln Lys Asn Ser Arg Glu Arg Met Lys Arg Ile Glu
770 775 780
Glu Gly Ile Lys Glu Leu Gly Ser Gln Ile Leu Lys Glu His Pro Val
785 790 795 800
Glu Asn Thr Gln Leu Gln Asn Glu Lys Leu Tyr Leu Tyr Tyr Leu Gln
805 810 815
Asn Gly Arg Asp Met Tyr Val Asp Gln Glu Leu Asp Ile Asn Arg Leu
820 825 830
Ser Asp Tyr Asp Val Asp His Ile Val Pro Gln Ser Phe Leu Lys Asp
835 840 845
Asp Ser Ile Asp Asn Lys Val Leu Thr Arg Ser Asp Lys Asn Arg Gly
850 855 860
Lys Ser Asp Asn Val Pro Ser Glu Glu Val Val Lys Lys Met Lys Asn
865 870 875 880
Tyr Trp Arg Gln Leu Leu Asn Ala Lys Leu Ile Thr Gln Arg Lys Phe
885 890 895
Asp Asn Leu Thr Lys Ala Glu Arg Gly Gly Leu Ser Glu Leu Asp Lys
900 905 910
Ala Gly Phe Ile Lys Arg Gln Leu Val Glu Thr Arg Gln Ile Thr Lys
915 920 925
His Val Ala Gln Ile Leu Asp Ser Arg Met Asn Thr Lys Tyr Asp Glu
930 935 940
Asn Asp Lys Leu Ile Arg Glu Val Lys Val Ile Thr Leu Lys Ser Lys
945 950 955 960
Leu Val Ser Asp Phe Arg Lys Asp Phe Gln Phe Tyr Lys Val Arg Glu
965 970 975
Ile Asn Asn Tyr His His Ala His Asp Ala Tyr Leu Asn Ala Val Val
980 985 990
Gly Thr Ala Leu Ile Lys Lys Tyr Pro Lys Leu Glu Ser Glu Phe Val
995 1000 1005
Tyr Gly Asp Tyr Lys Val Tyr Asp Val Arg Lys Met Ile Ala Lys
1010 1015 1020
Ser Glu Gln Glu Ile Gly Lys Ala Thr Ala Lys Tyr Phe Phe Tyr
1025 1030 1035
Ser Asn Ile Met Asn Phe Phe Lys Thr Glu Ile Thr Leu Ala Asn
1040 1045 1050
Gly Glu Ile Arg Lys Arg Pro Leu Ile Glu Thr Asn Gly Glu Thr
1055 1060 1065
Gly Glu Ile Val Trp Asp Lys Gly Arg Asp Phe Ala Thr Val Arg
1070 1075 1080
Lys Val Leu Ser Met Pro Gln Val Asn Ile Val Lys Lys Thr Glu
1085 1090 1095
Val Gln Thr Gly Gly Phe Ser Lys Glu Ser Ile Leu Pro Lys Arg
1100 1105 1110
Asn Ser Asp Lys Leu Ile Ala Arg Lys Lys Asp Trp Asp Pro Lys
1115 1120 1125
Lys Tyr Gly Gly Phe Asp Ser Pro Thr Val Ala Tyr Ser Val Leu
1130 1135 1140
Val Val Ala Lys Val Glu Lys Gly Lys Ser Lys Lys Leu Lys Ser
1145 1150 1155
Val Lys Glu Leu Leu Gly Ile Thr Ile Met Glu Arg Ser Ser Phe
1160 1165 1170
Glu Lys Asn Pro Ile Asp Phe Leu Glu Ala Lys Gly Tyr Lys Glu
1175 1180 1185
Val Lys Lys Asp Leu Ile Ile Lys Leu Pro Lys Tyr Ser Leu Phe
1190 1195 1200
Glu Leu Glu Asn Gly Arg Lys Arg Met Leu Ala Ser Ala Gly Glu
1205 1210 1215
Leu Gln Lys Gly Asn Glu Leu Ala Leu Pro Ser Lys Tyr Val Asn
1220 1225 1230
Phe Leu Tyr Leu Ala Ser His Tyr Glu Lys Leu Lys Gly Ser Pro
1235 1240 1245
Glu Asp Asn Glu Gln Lys Gln Leu Phe Val Glu Gln His Lys His
1250 1255 1260
Tyr Leu Asp Glu Ile Ile Glu Gln Ile Ser Glu Phe Ser Lys Arg
1265 1270 1275
Val Ile Leu Ala Asp Ala Asn Leu Asp Lys Val Leu Ser Ala Tyr
1280 1285 1290
Asn Lys His Arg Asp Lys Pro Ile Arg Glu Gln Ala Glu Asn Ile
1295 1300 1305
Ile His Leu Phe Thr Leu Thr Asn Leu Gly Ala Pro Ala Ala Phe
1310 1315 1320
Lys Tyr Phe Asp Thr Thr Ile Asp Arg Lys Arg Tyr Thr Ser Thr
1325 1330 1335
Lys Glu Val Leu Asp Ala Thr Leu Ile His Gln Ser Ile Thr Gly
1340 1345 1350
Leu Tyr Glu Thr Arg Ile Asp Leu Ser Gln Leu Gly Gly Asp
1355 1360 1365
<210>4
<211>1026
<212>DNA
<213>人工序列(Artificial Sequence)
<400>4
atgaaaaagc ctgaactcac cgcgacgtct gtcgagaagt ttctgatcga aaagttcgac 60
agcgtctccg acctgatgca gctctcggag ggcgaagaat ctcgtgcttt cagcttcgat 120
gtaggagggc gtggatatgt cctgcgggta aatagctgcg ccgatggttt ctacaaagat 180
cgttatgttt atcggcactt tgcatcggcc gcgctcccga ttccggaagt gcttgacatt 240
ggggagttta gcgagagcct gacctattgc atctcccgcc gttcacaggg tgtcacgttg 300
caagacctgc ctgaaaccga actgcccgct gttctacaac cggtcgcgga ggctatggat 360
gcgatcgctg cggccgatct tagccagacg agcgggttcg gcccattcgg accgcaagga 420
atcggtcaat acactacatg gcgtgatttc atatgcgcga ttgctgatcc ccatgtgtat 480
cactggcaaa ctgtgatgga cgacaccgtc agtgcgtccg tcgcgcaggc tctcgatgag 540
ctgatgcttt gggccgagga ctgccccgaa gtccggcacc tcgtgcacgc ggatttcggc 600
tccaacaatg tcctgacgga caatggccgc ataacagcgg tcattgactg gagcgaggcg 660
atgttcgggg attcccaata cgaggtcgcc aacatcttct tctggaggcc gtggttggct 720
tgtatggagc agcagacgcg ctacttcgag cggaggcatc cggagcttgc aggatcgcca 780
cgactccggg cgtatatgct ccgcattggt cttgaccaac tctatcagag cttggttgac 840
ggcaatttcg atgatgcagc ttgggcgcag ggtcgatgcg acgcaatcgt ccgatccgga 900
gccgggactg tcgggcgtac acaaatcgcc cgcagaagcg cggccgtctg gaccgatggc 960
tgtgtagaag tactcgccga tagtggaaac cgacgcccca gcactcgtcc gagggcaaag 1020
aaatag 1026
<210>5
<211>23
<212>DNA
<213>人工序列(Artificial Sequence)
<400>5
ctcatagcac tcaatgcggt tgg 23
- 上一篇:一种医用注射器针头装配设备
- 下一篇:一种甘薯湖北曲叶病毒侵染性克隆及其构建方法