VI-E型和VI-F型CRISPR-Cas系统及用途

文档序号:900156 发布日期:2021-02-26 浏览:1次 >En<

阅读说明:本技术 VI-E型和VI-F型CRISPR-Cas系统及用途 (VI-E type and VI-F type CRISPR-Cas system and application ) 是由 杨辉 胥春龙 周英思 肖庆全 于 2020-05-11 设计创作,主要内容包括:本发明提供了新型CRISPR/Cas组合物及它们在靶向核酸中的用途。具体而言,本发明提供了非天然存在或经工程化改造的RNA靶向系统,这些系统含有一个靶向RNA的新型Cas13e或Cas13f效应蛋白,以及至少一种靶向核酸组分,例如一个向导RNA(gRNA)或crRNA。所述新型Cas效应蛋白是已知的Cas效应蛋白中最小的一种,大小约为800个氨基酸,因此特别适合用于小容量载体(例如AAV载体)中进行递送。(The present invention provides novel CRISPR/Cas compositions and their use in targeting nucleic acids. In particular, the invention provides non-naturally occurring or engineered RNA targeting systems comprising a novel Cas13e or Cas13f effector protein targeting RNA, and at least one targeting nucleic acid component, such as a guide RNA (grna) or crRNA. The novel Cas effector protein is the smallest of the known Cas effector proteins, is about 800 amino acids in size, and is therefore particularly suitable for delivery in small volume vectors (e.g., AAV vectors).)

VI-E型和VI-F型CRISPR-Cas系统及用途

背景技术

成簇的规则间隔短回文重复序列(clustered regularly interspaced shortpalindromic repeats,CRISPR)是在细菌和古细菌等原核生物的基因组中发现的DNA序列家族。根据目前认识,CRISPR被认为来源于入侵原核生物内的噬菌体的DNA片段,当原核生物受到相似噬菌体再次感染时,CRISPR被用于检测和破坏这些噬菌体的DNA。

成簇的规则间隔的短回文重复序列关联蛋白系统(CRISPR-associated systems)是一组同源基因,或称为Cas基因,其中一部分可以编码具有解旋酶和核酸酶活性的Cas蛋白。Cas蛋白是一种利用CRISPR序列(crRNA)衍生RNA作为向导序列、对与crRNA互补的多核苷酸(例如DNA)特定链进行识别与切割的酶。

CRISPR-Cas系统共同构成了一个原始的原核“免疫系统”,使原核获得对外源致病遗传元件(如存在于质粒等染色体外DNA与噬菌体中的致病遗传元件)或对外源DNA编码的外源RNA的抵抗力或获得性免疫。

CRISPR/Cas系统是一种自然界中广泛存在对外源遗传物质的原核防御机制,存在于约50%的测序细菌基因组和近90%的古细菌序列中。这种原始的原核系统经研究和开发,形成了被称为CRISPR-Cas技术的基础,该技术可广泛应用于在包括人类在内的众多真核生物中,实现基础生物学研究、生物技术产品研发、疾病治疗等各类应用。

CRISPR-Cas原核系统内由种类极其丰富的蛋白质效应子、非编码元件、基因座结构组成,目前已有一些通过对它进行人工设计和改造产生出重要生物技术的案例。

许多不同系统中的CRISPR基因座结构已得到研究。在这些系统中,基因组DNA中的CRISPR阵列通常包含一个富含AT的前导序列,连着由独特间隔区序列分隔开来的短DR序列。这些CRISPR DR序列的大小范围在23-55bps内,通常大小为28-37bps。其中一些DR序列互为反向重复序列,即意味着RNA中形成了一个二级结构,例如茎环结构(常称“发卡结构”),其他序列则体现为非结构化。不同CRISPR阵列中间隔区大小不一,大小范围在21-72bps内,通常大小为32-38bps。一个CRISPR阵列中的重复间隔区序列通常少于50个单位。

这种CRISPR重复间隔区阵列旁边通常会出现一些成小簇的cas基因。目前为止所发现的93种cas基因可根据其编码蛋白的序列相似性被分成35个家族,其中的11个家族形成了所谓的cas核心,其中包括Cas1至Cas9的蛋白质家族。一个完整的CRISPR-Cas基因座至少有一个属于cas核心的基因。

CRISPR-Cas系统可分为两大类:第1类CRISPR-Cas系统利用多种Cas蛋白组成的复合物来降解外源核酸,第2类则利用单个的大Cas效应蛋白来降解外源核酸。第2类CRISPR-Cas系统由单亚基效应子组成,可作为一个更简单的组件集合使用在工程化改造和应用转化中,因此,第2类系统已成为新型基因编辑的发现,改造和优化的重要来源。

第1类CRISPR-Cas系统又可分为I、III、IV型,第2类可分为II、V、VI类型,以上6个类型还可细分为19个亚型。大多数CRISPR-Cas系统具有Cas1蛋白。许多原核生物同时具有多个CRISPR-Cas系统,表明这些CRISPR-Cas系统相互之间可共存,而且可能共享某些组件。

Cas9是最早从酿脓链球菌中发现的最具代表性的Cas蛋白之一,它属于2类家族的II亚型。来源于化脓性链球菌(Streptococcus pyogenes)的spCas9是目前最常用的Cas9。Cas9是一种DNA核酸内切酶,由一个与靶DNA序列互补的crRNA小分子、一个单独的反式激活CRISPR RNA(tracrRNA)共同激活。crRNA由一个负责使蛋白质与crRNA结合的同向重复(DR)序列与一个间隔区序列组成。间隔区序列可以被人工设计为与任何核酸靶序列形成互补的序列。通过这种方式,CRISPR系统可以通过人工设计crRNA的间隔区序列来靶向DNA或RNA靶标。crRNA与tracrRNA融合,形成了单个向导RNA(sgRNA)以更好地发挥作用。sgRNA与Cas9结合后会与其靶DNA结合,并引导Cas9对靶DNA进行切割。其他物种中也已经发现了相应的Cas9效应蛋白,如嗜热链球菌(S.thermophilus)CRISPR系统中的Cas9,其用途也是相似的。上述这些CRISPR/Cas9系统广泛存在于许多真核生物中,包括面包酵母(酿酒酵母,Saccharomyces cerevisiae)、条件致病菌病原体白色念珠菌(Candida albicans)、斑马鱼(Danio rerio)、果蝇(Drosophila melanogaster)、蚂蚁(Harpegnathos saltator、Ooceraea biroi)、蚊(埃及伊蚊,Aedes aegypti)、线虫(秀丽隐杆线虫,Caenorhabditiselegans)、植物、小鼠、猴子和人类胚胎。

近期发现的另一个Cas效应蛋白是Cas12a(以前称为Cpf1)。Cas12a与C2c1和C2c3都属于2类V型Cas蛋白,这些蛋白缺乏HNH核酸酶,但具有RuvC核酸酶活性。Cas12a是最初在弗朗西斯菌新孢子虫(Francisella novicida)发现的,又称为Cpf1,它的原始名称反映了它的CRISPR-Cas亚型在Prevotella和Francisella谱系中普遍存在。Cas12a表现出与Cas9的几个主要区别,包括:Cas12a对双链DNA切割后产生黏性末端,而Cas9切割双链DNA后产生平末端,这与“富含T”的PAM序列有关,而且只需要CRISPR RNA(crRNA),不需要需tracrRNA即可成功靶向。Ca相比Cas9的gRNA,Cas12a的小型crRNA更适合用于多重基因组编辑。此外,Cas12a留下的5’突出的黏性末端可用于DNA连接,比传统的限制性内切酶克隆更具靶标特异性。最后,Cas12a的切割位置在其PAM位点下游的18-23个碱基对处,这意味着在产生双链断裂(DSB)后,产生NHEJ途径的DNA修复后并不会破坏核酸酶识别序列,因此Cas12a能够进行多轮的DNA切割,而不像Cas9切割过程中仅能进行一次切割。Cas9切割序列仅在PAM位点上游的第3个碱基对,而且NHEJ途径通常造成插入缺失突变来破坏识别序列,因此无法再进行多轮切割。从理论上讲,反复进行多轮DNA切割可以增加所需基因组编辑发生的机会。

而不久前识别出的几种2类VI型Cas蛋白,包括Cas13(也称为C2c2),Cas13b、Cas13c、Cas13d,都是RNA引导的RNA酶(即这些Cas蛋白使用crRNA识别靶RNA序列而非像Cas9和Cas12a一样识别靶DNA序列)。总体而言,与传统的RNAi和CRISPRi技术相比,CRISPR/Cas13系统可实现更高的RNA降解,同时显示出了与RNAi相比更少的脱靶切割。

目前所鉴定出的这些Cas13蛋白的其中一个缺点是体积相对较大。Cas13a、Cas13b、Cas13c均具有超过1100个的氨基酸残基,因此难以将他们的编码序列(约3.3kb)与sgRNA一起,再加上任何所需的启动子序列和翻译调控序列共同包装入某些小容量的基因治疗载体中。例如,目前最安全的基于腺相关病毒(adeno associated virus,AAV)的基因治疗载体,包装容量约仅有4.7kb。尽管目前所发现的最小Cas13蛋白Cas13d仅有约920个氨基酸(即约2.8kb编码序列),且理论上可以包装入AAV载体中,但它在单碱基编辑基因治疗中作用有限,因为这种治疗需要依靠具有单碱基编辑功能的基于Cas13d融合蛋白,例如dCas13d-ADAR2DD(其编码序列约为3.9kb)。

此外,当前已知的Cas13蛋白/系统在被基于crRNA的靶序列识别激活时,均具有非特异性RNA酶活性。这种活性在Cas13a和Cas13b中显示特别强烈,在Cas13d中也可以检测到存在。虽然在核酸检测方法中可以有利使用此属性,但这些Cas13蛋白的非特异性RNA酶活性构成了其在基因治疗用途上的巨大潜在危险。

发明内容

本发明提供了一种成簇的规则间隔的短回文重复序列(CRISPR)-Cas的复合物,包括:(1)一个RNA引导序列,包含一个能够与靶RNA杂交的间隔区序列与一个与间隔去序列3'的同向重复(DR)序列;(2)一种成簇的规则间隔的短回文重复序列相关蛋白(Cas),具有SEQID NO:1-7中任一项的氨基酸序列,或所述Cas蛋白的衍生物或功能片段;所述Cas蛋白,Cas蛋白的衍生物,Cas蛋白的功能片段能够:(i)结合RNA与向导序列;(ii)靶向靶RNA,在靶向靶RNA过程中间隔区序列与天然存在的噬菌体核酸不是100%互补。

在一些实施方案中,所述DR序列具有与SEQ ID NO:8-14中任一项的二级结构基本相同的二级结构。

在一些实施方案中,所述DR序列由SEQ ID NO:8-14中任何一项编码。

在一些实施方案中,所述靶RNA由真核DNA编码。

在一些实施方案中,所述真核DNA是非人类哺乳动物DNA、非人类灵长类DNA、人类DNA、植物DNA、昆虫DNA、鸟类DNA、爬行动物DNA、啮齿动物DNA、鱼DNA、蠕虫/线虫DNA、酵母DNA。

在一些实施方案中,所述靶RNA是mRNA。

在一些实施方案中,所述间隔区序列在15-55个核苷酸之间,或25-35个核苷酸之间,或约30个核苷酸之间。

在一些实施方案中,所述间隔区序列与靶RNA 90-100%互补。

在一些实施方案中,所述衍生物包含SEQ ID NO:1-7中任意一项的一个或多个残基的保守氨基酸替换。

在一些实施方案中,所述衍生物仅包含保守氨基酸替换。。

在一些实施方案中,所述衍生物在HEPN结构域或RXXXXH基序中具有与SEQ ID NO:1-7中任意一项野生型Cas相同的序列。

在一些实施方案中,所述衍生物能够结合已与靶RNA杂交的RNA向导序列,但是由于Cas的RNase催化位点突变而不具备RNase催化活性。

在一些实施方案中,所述衍生物的N端缺失不超过210个残基,和/或C端缺失不超过180个残基。

在一些实施方案中,所述衍生物N端缺失约180个残基,和/或C端缺失约150个残基。

在一些实施方案中,所述衍生物还包含一个RNA碱基编辑结构域。

在一些实施方案中,所述RNA碱基编辑结构域是一个腺苷脱氨酶,例如双链RNA特异性腺苷脱氨酶(如ADAR1或ADAR2);载脂蛋白B mRNA编辑酶;催化多肽样(APOBEC);或活化诱导的胞苷脱氨酶(AID)。

在一些实施方案中,所述ADAR具有E488Q/T375G双重突变,或ADAR2DD。

在一些实施方案中,所述碱基编辑结构域会进一步与RNA结合结构域融合,如MS2。

在一些实施方案中,所述衍生物还包含RNA甲基转移酶或RNA脱甲基酶、RNA剪接修饰因子、定位因子、翻译修饰因子。

在一些实施方案中,所述Cas、衍生物或功能片段包含核定位信号序列(NLS)或核输出信号(NES)。

在一些实施方案中,所述靶向靶RNA导致靶RNA的修饰。

在一些实施方案中,所述靶RNA的修饰是靶RNA的切割。

在一些实施方案中,所述靶RNA的修饰是腺苷(A)去氨基化为肌苷(I)。

在一些实施方案中,本发明的CRISPR-Cas复合物还包含一个靶RNA,所述靶RNA含有一个能够与间隔区序列杂交的序列。

本发明的另一方面提供了一种融合蛋白,包含(1)本发明的Cas、其衍生物或其功能片段,与(2)一个异源功能域。

在一些实施方案中,所述异源功能结构域包含:一个核定位信号(NLS)、一个报告蛋白或检测标记(例如GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、一个定位信号、一个蛋白质靶向部分、一个DNA结合结构域(例如MBP、Lex A DBD、Gal4 DBD)、一个表位标签(例如His、myc、V5、FLAG、HA、VSV-G,、Trx等)、一个转录激活域(例如VP64或VPR)、一个转录抑制域(例如KRAB或SID部分)、一个核酸酶(例如FokI)、一个脱氨基域(例如ADAR1、ADAR2、APOBEC、AID或TAD)、一个甲基酶、一个脱甲基酶、一个转录释放因子、一个HDAC、一个具有ssRNA裂解活性的多肽、一个具有dsRNA裂解活性的多肽,具有ssDNA裂解活性的多肽、一个具有dsDNA裂解活性的多肽、一个DNA连接酶或RNA连接酶,或任何它们的组合。

在一些实施方案中,所述异源功能结构域融合在融合蛋白的N端、C端或内部。

本发明的另一方面提供了一种缀合物,其包含(1)本发明的Cas、其衍生物、或其功能片段,缀合于(2)一个异源功能结构域活性部分。

在一些实施方案中,所述异源功能结构域活性部分包含:一个核定位信号(NLS)、一个报告蛋白或检测标记(例如GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、一个定位信号、一个蛋白质靶向部分、一个DNA结合结构域(例如MBP、Lex A DBD、Gal4 DBD)、一个表位标签(例如His、myc、V5、FLAG、HA、VSV-G、Trx等)、一个转录激活域(例如VP64或VPR)、一个转录抑制域(例如KRAB或SID效应区)、一个核酸酶(例如FokI)、一个脱氨基域(例如ADAR1、ADAR2、APOBEC、AID或TAD)、一个甲基酶、一个脱甲基酶、一个转录释放因子、一个HDAC、一个具有ssRNA裂解活性的多肽、一个具有dsRNA裂解活性的多肽、一个具有ssDNA裂解活性的多肽、一个具有dsDNA裂解活性的多肽、一个DNA连接酶或RNA连接酶,或任何它们的组合。

在一些实施方案中,所述异源功能部分相对于所述Cas、其衍生物、或其功能片段,在N端、C端、或内部缀合。

本发明的另一方面提供了编码SEQ ID NO:1-7中的任意一项或其衍生物、其功能片段、其融合蛋白的多核苷酸,条件是所述多核苷酸非SEQ ID NO:15-21中的任何一个。

在一些实施方案中,为在一个细胞中表达,所述多核苷酸进行了密码子优化。

在一些实施方案中,所述细胞是真核细胞。

本发明的另一方面提供了一个非天然存在的多核苷酸,所述多核苷酸包含SEQ IDNO:8-14中任一项的一个衍生物,其中所述衍生物(i)与SEQ ID NO:8-14中的任一个相比,具有一个或多个(例如1、2、3、4、5、6、7、8、9或10)个核苷酸的添加、缺失、或取代;(ii)与SEQID NO:8-14中任何一个具有至少20%、30%、40%、50%、60%、70%、80%、90%、95%或97%的序列同一性;(iii)在严格条件下与SEQ ID NO:8-14任意一个,或与(i)和(ii)中的任意一个杂交;或,(iv)作为(i)-(iii)中任意一条的互补,条件是所述衍生物非SEQ IDNO:8-14中的任何一个,并且所述衍生物编码或本身即是一个RNA,所述RNA与SEQ ID NO:8-14所编码的任意RNA基本保持相同的二级结构。

在一些实施方案中,所述衍生物用作本发明的Cas、其衍生物、或其功能片段中任一项的DR序列。

本发明的另一方面提供了一种载体,所述载体包含本发明的多核苷酸。

在一些实施方案中,所述多核苷酸可实现连接至启动子和任意增强子。

在一些实施方案中,所述启动子是组成型启动子、诱导型启动子、广谱表达型启动子、或组织特异性启动子。

在一些实施方案中,所述载体是质粒。

在一些实施方案中,所述载体是逆转录病毒载体、噬菌体载体、腺病毒载体、单纯疱疹病毒(HSV)载体、AAV载体、或慢病毒载体。

在一些实施方案中,所述AAV载体是以下血清型的重组AAV载体:血清型AAV1、AAV2、AAV4、AAV5、AAV6、AAV7、AAVrh74、AAV8、AAV9、AAV10、AAV 11、AAV 12或AAV 13。

本发明的另一方面提供了一种递送系统,其包含(1)一个递送载体,和(2)本发明的CRISPR-Cas复合物、本发明的融合蛋白、本发明的缀合物、本发明的多核苷酸或本发明的载体。

在一些实施方案中,所述递送载体是纳米颗粒、脂质体、外来体、微囊泡或基因枪。

本发明的另一方面提供了一种细胞或这种细胞的后代,其包含本发明的CRISPR-Cas复合物、本发明的融合蛋白、本发明的缀合物、发明的多核苷酸或本发明的载体。

在一些实施方案中,所述细胞或其后代是真核细胞(例如非人哺乳动物细胞、人类细胞或植物细胞)或原核细胞(例如细菌细胞)。

Another aspect of the invention provides a non-human multicellulareukaryote comprising the cell of the invention.

本发明的另一方面提供了一种非人类多细胞真核生物,其包含本发明的细胞。

在一些实施方案中,所述非人类多细胞真核生物是一种人类遗传疾病的动物模型(例如啮齿动物或灵长类动物)。

本发明的另一方面提供了一种修饰靶RNA的方法,所述方法包括使所述靶RNA与本发明的CRISPR-Cas复合物接触,其中间隔区序列与靶RNA的至少15个核苷酸互补;其中的Cas、衍生物或功能片段与RNA向导序列结合形成复合物;其中复合物与靶RNA结合;其中复合物与靶RNA结合时,Cas、衍生物或功能片段修饰靶RNA。

在一些实施方案中,所述靶RNA的修饰方式是被所述Cas蛋白切割。

在一些实施方案中,所述靶RNA的修饰方式是一种衍生物的脱氨作用,这种衍生物含有双链RNA特异性腺苷脱氨酶。

在一些实施方案中,所述靶RNA是mRNA、tRNA、rRNA、非编码RNA、lncRNA或核RNA。

在一些实施方案中,当所述复合物与所述靶RNA结合时,Cas、衍生物和功能片段不表现出实质的(或可检测的)附带RNase活性。

在一些实施方案中,所述靶RNA在细胞内。

在一些实施方案中,所述细胞是癌细胞。

在一些实施方案中,所述细胞被感染剂感染。

在一些实施方案中,所述传染原是一种病毒、朊病毒、原生动物、真菌或寄生虫。

在一些实施方案中,所述CRISPR-Cas复合物由一种第一多核苷酸与一种第二多核苷酸进行编码:所述第一多核苷酸是编码SEQ ID NO:1-7中的任一项的或其衍生物或功能片段的核苷酸;所述第二多核苷酸包含了SEQ ID NO:8-14中任意一项与一个序列,所述序列编码了一个能够结合靶RNA的间隔RNA,其中的第一和第二多核苷酸被引入细胞中。

在一些实施方案中,所述第一和第二多核苷酸通过相同的载体被引入细胞。

在一些实施方案中,所述方法引起以下一种或多种情况:(i)体外或体内诱导细胞衰老;(ii)体外或体内细胞周期阻滞;(iii)体外或体内细胞生长抑制和/或细胞生长抑制;(iv)体外或体外无能诱导;(v)体外或体外诱导凋亡;(vi)在体外或体外诱导坏死。

本发明的另一方面提供了一种在有需要的受试者中治疗病症或疾病的方法,所述方法包括:给予所述受试者一种组合物,其含有本发明的CRISPR-Cas复合物或编码该复合物的多核苷酸;其中间隔区序列与疾病或病症相关的靶RNA中至少15个核苷酸互补;其中所述Cas蛋白、Cas蛋白衍生物或Cas蛋白功能片段与所述RNA向导序列结合形成复合物;其中复合物与靶RNA结合;且当复合物与靶RNA结合时,所述Cas蛋白、Cas蛋白衍生物或Cas蛋白功能片段对靶RNA进行切割,达到治疗受试者的病症或疾病的目的。

在一些实施方案中,所述病症或疾病是癌症或传染性疾病。

在一些实施方案中,所述癌症是威尔姆斯肿瘤、尤因肉瘤、神经内分泌肿瘤、成胶质细胞瘤、神经母细胞瘤、黑素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、子宫颈癌、子宫内膜癌、食道癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、神经胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性骨髓性白血病、慢性淋巴细胞性白血病、慢性粒细胞性白血病、霍奇金淋巴瘤、非霍奇金淋巴瘤或膀胱癌。

在一些实施方案中,所述方法是体外方法、体内方法或离体方法。

本发明的另一方面提供了通过本发明的方法获得的细胞或其后代,其中所述细胞和后代包含非天然存在的修饰(例如,细胞的转录RNA中的非天然存在的修饰)/后代)。

本发明的另一方面提供了一种检测靶RNA存在的方法,所述方法包括使用一种组合物接触靶RNA,所述组合物包含本发明的一种融合蛋白,或本发明的一种缀合物,或一种编码所述融合蛋白的多核苷酸,其中所述融合蛋白或缀合物包含可检测标记(例如可通过荧光、RNA印迹或FISH检测的标签)与一种能够与靶RNA结合的复合间隔区序列。

本发明的另一方面提供了一种真核细胞,其包含一种簇状的规则间隔的短回文重复序列(CRISPR)-Cas复合物,所述CRISPR-Cas复合物包含:(1)一个RNA引导序列,其包含一个能够与靶RNA杂交的间隔区序列与一个间隔序列的同向重复(DR)序列3';(2)一个CRISPR相关蛋白(Cas),其具有SEQ ID NO:1-7中任一项的氨基酸序列,或所述Cas的一个衍生物或功能片段;其中所述Cas、所述Cas的衍生物和功能片段能够(i)与RNA向导序列结合,和(ii)靶向靶RNA。

对本文所述的本发明中任何一个实施方案,包括仅在实施例或权利要求中描述或仅在以下一个方面/部分中描述的实施方案,应该作如下理解:除非明确否认或组合形式不当,所述实施方案可以与本发明的任何其他一个或多个实施方案进行组合。

附图说明

图1是Cas13e和Cas13f家族具有代表性成员的基因组基因座的示意图(未按比例)。示意图展示了Cas编码序列(一头尖端的长条),连着多组相邻的同向重复序列(DR)(短条)与间隔区序列(菱形)。

图2展示了与相应Cas13e和Cas13f蛋白关联的DR序列的预测的二级结构。它们的编码序列从左到右分别由SEQ ID NO:8-14表示。

图3展示了本发明新发现的Cas13e和Cas13f效应蛋白,以及此前发现的相关Cas13a、Cas13b、Cas13c和Cas13d的效应蛋白系统树。

图4展示了Cas13a-Cas13f蛋白的结构域结构,显示了Cas蛋白每个代表性成员上两个RXXXXH基序的总体大小和位置。

图5展示了Cas13e.1效应蛋白的预测3D结构。

图6是三个质粒的示意图,它们编码了(1)Cas13e效应蛋白,(2)向导RNA(gRNA)的编码序列,该向导序列可以产生一个与mCherry mRNA互补、可以与Cas13e效应蛋白形成复合物的向导RNA,和(3)所述mCherry报告基因可以分别转染到细胞中表达各自的基因产物,导致报告mCherry mRNA降解。

图7显示了与mCherry mRNA互补的引导RNA可敲低mCherry mRNA,在荧光显微镜下可观察到mCherry表达降低。作为阴性对照,不与mCherry mRNA杂交/结合的非靶向(NT)向导RNA未能敲低mCherry表达。

图8显示了图6实验中mCherry表达的敲低达到约75%。

图9展示了Cas13e正在利用在3'端有DR序列的向导RNA(与在5'端有DR序列的向导RNA相比)。

图10显示了间隔区序列长度与特异性(向导RNA依赖性)RNase对靶标RNA活性之间的相关性,相对于非靶标(NT)对照。

图11显示了间隔序列长度与非特异性(非向导RNA依赖性)RNase对靶标RNA活性之间的相关性,相对于非靶标(NT)对照。

图12显示dCas13e.1-ADAR2DD融合物具有RNA碱基编辑活性。具体来说共有三个质粒,编码(1)一个与单碱基RNA编辑器ADAR2DD融合的dCas13e蛋白(RNase死亡),(2)一个向导RNA(gRNA)的编码序列,它可以产生与一个突变mCherry mRNA互补的向导RNA,该突变mCherry mRNA具有G-to-A点突变且可以与dCas13e效应蛋白形成复合物,以及(3)带突变的mCherry报告基因,编码具有G-to-A点突变的mCherry mRNA的,分别被转染至一个细胞以表达其各自的基因产物。由于点突变,突变的mCherry mRNA通常不能产生荧光mCherry蛋白。向导RNA与突变mCherry mRNA结合后,融合的ADAR2DD碱基编辑器将A转换为I(G等量),从而恢复mRNA编码荧光mCherry蛋白的能力。

图13展示了成功的RNA碱基编辑使mCherry的表达恢复。在图12的实验中,单独的编码突变体mCherry(mCherry*)的质粒无法表达荧光mCherry。单独的编码dCas13e-ADAR2DD碱基编辑器的质粒也无法表达荧光mCherry。单独的编码gRNA-1或gRNA-2的质粒(也表达GFP报告基因)也无法表达荧光mCherry,虽然GFP表达显著。然而,当三个质粒全都转染到同一细胞中时,可观察到显著的荧光mCherry表达(GFP报告基因也同时表达)。

图14展示了突变mCherry基因的相关片段,它具有提前终止密码子TAG;以及所述两个gRNA的一个序列,它能够与dCas13e-ADAR2DD RNA碱基编辑器复合;以及“校正”的TGG密码子。

图15的示意图(未按比例绘制)展示了dCas13e.1蛋白的C端截短版本与ADAR2DDRNA碱基编辑器(显示为“ADAR2”)融合的过程。

图16显示了对于图15中的一系列dCas13e.1的C端截短突变体和ADAR2构建的RNA碱基编辑器将mCherry突变体转化回野生型mCherry的百分比结果,。

图17的示意图(未按比例绘制)展示了dCas13e.1蛋白的一系列C端截短和任意N端截短版本与ADAR2DD RNA碱基编辑器融合的过程。

图18显示了对于图17中某些Cas13e.1的C端和N端截短版本与ADAR2DD构建的RNA碱基编辑器将mCherry突变体转化回野生型mCherry的百分比结果。

图19展示了一系列质粒,它们编码:Cas13a、Cas13b、Cas13d、Cas13e.1、Cas13f.1以及mCherry报道基因,并展示了靶向ANXA4的gRNA编码序列或非靶向gRNA作为对照。

图20显示了Cas13e.1、Cas13f.1、Cas13a、Cas13d对ANXA4表达的有效敲低。

具体实施方式

概述

本文所述的发明提供了第2类VI型新型Cas效应蛋白,在本文中有时被称为Cas13e和Cas13f。本发明的新型Cas13蛋白比先前发现的Cas13效应蛋白(Cas13a-Cas13d)要小得多,其crRNA编码序列可以轻易包装入小容量基因治疗载体中,例如AAV载体。此外,与Cas13a、Cas13b和Cas13d效应子蛋白相比,新发现地Cas13e和Cas13f效应蛋白在敲除RNA靶序列方面更有效,并且在RNA单碱基编辑中有更高效率,同时在被基于crRNA的靶标识别激活后,表现出可忽略的非特异性RNA酶活性,此外它的间隔区序列长度在一个狭窄(如约30个核苷酸)的范围内。因此,所述新型Cas蛋白非常适合基因疗法。

因此,在第一方面,本发明提供了Cas13e和Cas13f,例如具有SEQ ID NO:1-7的氨基酸序列,或直系同源物、同系物、各种衍生物(在下文描述)、其功能片段(在下文描述),其中上述直系同源物、同源物、衍生物、功能性片段保持了SEQ ID NO:1-7中的任何一种蛋白质的至少一种功能。此类功能包括但不限于:与本发明中的向导RNA/crRNA(在下文描述)结合形成复合物的能力、RNA酶活性,以及在与靶RNA至少部分互补的crRNA向导下能够在特定位点结合与切割靶RNA的能力。

在一些实施方案中,本发明的Cas13e或Cas13f效应蛋白可以是:(i)SEQ ID NO:1-7中任何一个;(ii)一个衍生物,其含有一个或多个SEQ ID NO:1-7中任何一个氨基酸(例如1、2、3、4、5、6、7、8、9或10个残基)的添加、缺失和/或取代(例如保守取代);(iii)一个衍生物,至少具有与约与SEQ ID NO:1-7中任意一个80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%或99的氨基酸序列同一性。

在一些实施方案中,Cas13e和Cas13f效应蛋白、其直系同源物、同系物、衍生物和功能片段不是天然存在的,例如可能与天然存在的序列相比至少有一个氨基酸的差异。

在一个相关方面,本发明提供了加成衍生物Cas13e和Cas13f效应蛋白,它们基于SEQ ID NO:1-7中任何一个或其上述直系同源物、同系物、衍生物和功能片段,包含另一个共价或非共价连接的蛋白质或多肽或其他分子(例如检测试剂或药物/化学部分)。此类其他蛋白质/多肽/其他分子可以通过如化学偶联、基因融合或其他非共价连接(如生物素-链霉亲和素结合)进行连接。此类衍生蛋白质不影响原始蛋白质的功能,如与本发明中向导RNA/crRNA(在下文描述)结合形成复合物的能力、RNA酶活性以及以及在与靶RNA至少部分互补的crRNA向导下能够在特定位点结合与切割靶RNA的能力。

此类衍生可用于例如添加核定位信号(NLS,例如SV40大T抗原NLS),增强受试Cas13e和Cas13f效应蛋白进入细胞核的能力。此类衍生也可以用于添加靶向分子或靶向部分,将受试Cas13e和Cas13f效应蛋白引导至特定细胞或亚细胞位置。此类衍生也可用于添加可检测标记,促进受试Cas13e和Cas13f效应蛋白的检测、监测或纯化。此类衍生也可用于添加脱氨酶部分(例如含有腺嘌呤或胞嘧啶脱氨活性的部分),促进RNA碱基的编辑。

所述衍生可以通过将上述添加部分添加至受试Cas13e和Cas13f效应蛋白的N端或C端,或添加至内部(例如内部融合或通过内部氨基酸侧链键合)。

在第二个相关方面,本发明提供了受试Cas13e和Cas13f效应蛋白的缀合物,它们基于SEQ ID NO:1-7中任何一个或其上述直系同源物、同系物、衍生物和功能片段,与如其他蛋白质或多肽、可检测标记或以上组合这些部分缀合。此类缀合部分可包括但不限于:定位信号、报告基因(例如GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、标记(如FITC或DAPI这种荧光染料)、NLS、靶向部分、DNA结合域(例如MBP、Lex A DBD、Gal4 DBD)、抗原决定簇标签(例如Hismyc、V5、FLAG、HA、VSV-G、Trx等)、转录激活域(例如VP64或VPR)、转录抑制域(例如KRAB或SID部分)、核酸酶(如FokI)、脱氨基域(例如ADAR1,ADAR2,APOBEC,AID或TAD)、甲基化酶、脱甲基酶、转录释放因子、HDAC、ssRNA裂解活性、dsRNA裂解活性、ssDNA裂解活性、dsDNA裂解活性、DNA或RNA连接酶、以上任意组合等。

例如,所述缀合物可以包括一个或多个NLS,此类NLS可以在N端、C端、内部或以上几处附近。所述连接可以通过氨基酸(例如D或E,或S或T)、氨基酸衍生物(例如Ahx、β-Ala、GABA或Ava)或PEG连接实现。

在一些实施方案中,缀合不影响原始蛋白的功能,例如与本发明中向导RNA/crRNA(在下文描述)结合形成复合物的能力、RNA酶活性,以及在与靶RNA至少部分互补的crRNA向导下能够在特定位点结合与切割靶RNA的能力。

在相关的第三方面,本发明提供了受试Cas13e和Cas13f效应蛋白的融合物,它们基于SEQ ID NO:1-7中任何一个或其上述直系同源物、同系物、衍生物和功能片段与下述部分融合:如定位信号、报告基因(例如GST、HRP、CAT、GFP、HcRed、DsRed、CFP、YFP、BFP)、NLS、蛋白质靶向部分、DNA结合域(如MBP、Lex A DBD、Gal4DBD)、表位标签(例如His、myc、V5、FLAG、HA、VSV-G、Trx等)、转录激活域(如VP64或VPR)、转录抑制域(例如KRAB或SID部分)、核酸酶(如FokI)、脱氨结构域(如ADAR1、ADAR2、APOBEC、AID或TAD)、甲基化酶、脱甲基酶、转录释放因子、HDAC、ssRNA裂解活性、dsRNA裂解活性、ssDNA裂解活性、dsDNA裂解活性、DNA或RNA连接酶、以上任何组合等

例如,所述融合物可以包括一个或多个NLS,此类NLS可以在N端、C端、内部附近。在一些实施方案中,缀合不影响原始蛋白的功能,例如与本发明中向导RNA/crRNA(在下文描述)结合形成复合物的能力、RNA酶活性,以及在与靶RNA至少部分互补的crRNA向导下能够在特定位点结合与切割靶RNA的能力。

在第四方面,本发明提供了一种分离的多核苷酸,其包含:(i)SEQ ID NO:8-14中任何一个;(ii)一种多核苷酸,与SEQ ID NO:8-14中任一个相比有1、2、3、4或5个核苷酸缺失、添加和/或取代;(iii)与SEQ ID NO:8-14中任何一个具有至少80%、85%、90%、95%序列同一性的一种多核苷酸;(iv)一种多核苷酸,在严格条件下可与(i)-(iii)的多核苷酸中的任何一种或其互补序列杂交;(v)(i)-(iii)的任何多核苷酸的互补序列。

(ii)-(iv)中的任何多核苷酸都保持了原始SEQ ID NO:8-14的功能,所述功能为编码受试Cas13e或Cas13f系统中crRNA的同向重复(DR)序列。

本文所用的“同向重复序列”可以指CRISPR基因座中的DNA编码序列,或指crRNA中由其编码的RNA。因此,在关于RNA分子的上下文中,若提及SEQ ID NO:8-14中任何一个时(如crRNA),每个T应被理解为代表一个U。

因此,在一些实施方案中,分离的多核苷酸是DNA,它对受试Cas13e和Cas13f系统crRNA的DR序列编码。

在一些其他实施方案中,分离的多核苷酸是RNA,它是受试Cas13e和Cas13f系统crRNA的DR序列。

在第五方面,本发明提供一种复合物,包含:(i)蛋白质组合物,其可以是受试Cas13e或Cas13f效应蛋白,或直系同源物、同系物、衍生物、缀合物、其功能片段、其缀合物、其融合体中的任何一种;(ii)一种多核苷酸组合物,它含有一个本发明第四方面所述的分离的多核苷酸(例如DR序列)、一个与靶RNA至少一部分互补的间隔区序列。在一些实施方案中,DR序列位于间隔区序列的3'末端。

在一些实施方案中,多核苷酸组合物是受试Cas13e或Cas13f系统的向导RNA/crRNA,它不包含tracrRNA。

在一些实施方案中,为了与具有RNase活性的Cas13e和Cas13f效应蛋白、其同系物、直系同源物、衍生物、融合物、缀合物或功能片段一起使用,所述间隔区序列至少为约10个核苷酸,或在10-60、15-50、20-50、25-40、25-50或19-50个核苷酸之间。在一些实施方案中,为了与不具有RNase活性的Cas13e和Cas13f效应蛋白、其同系物、直系同源物、衍生物、融合体、缀合物或功能片段一起使用,但能够结合向导RNA、与向导RNA互补的靶RNA,所述间隔区序列至少为约10个核苷酸,或在约10-200、15-180、20-150、25-125、30-110、35-100、40-80、45-60、50-55或约50个核苷酸之间。

在一些实施方案中,所述DR序列在15-36、20-36、22-36或约36个核苷酸之间。在一些实施方案中,向导RNA中的DR序列具有与SEQ ID NO:8-14中任一项RNA版本基本相同的二级结构(包括茎状、凸起和环状结构)。

在一些实施方案中,向导RNA的长度比上述任何间隔区序列要长约36个核苷酸,例如在45-96、55-86、60-86、62-86或63-86个核苷酸之间。

在第六方面,本发明提供了一种分离的多核苷酸,包含:(i)一种多核苷酸,它编码SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白中任何一个,或其直系同源物、同系物、衍生物、功能片段、融合体;和(ii)SEQ ID NO:8-14中任一项的多核苷酸;或(iii)包含(i)和(ii)的多核苷酸。

在一些实施方案中,所述多核苷酸不是天然形成/天然存在的,如除SEQ ID NO:15-21外

在一些实施方案中,多核苷酸被进行了密码子优化以在原核生物中表达。在一些实施方案中,多核苷酸被进行了密码子优化以在真核生物如人类或人类细胞中表达。

在第七方面,本发明提供了一种载体,它包含或涵盖第六方面所述的任何多核苷酸的。所述载体可以是克隆载体或表达载体。所述载体可以是质粒、噬菌粒或粘粒,此处仅举几例。在一些实施方案中,所述载体可在以下情况被用于表达多核苷酸:在哺乳动物细胞例如人类细胞中、SEQ ID NO:1-7的任一种Cas13e或Cas13f效应蛋白中、或其直系同源物、同系物、衍生物、功能性蛋白片段、融合物中;或第四方面所述的任何多核苷酸中;或第五方面所述的任何复合物中。

在第八方面,本发明提供了一种宿主细胞,它包含本发明第四或第六方面所述的多核苷酸,和/或第七方面所述载体。所述宿主细胞可以是原核生物,例如大肠杆菌,或者是来自真核生物的细胞,例如酵母、昆虫、植物、动物(例如人和小鼠这种哺乳动物)。所述宿主细胞可以是分离的原代细胞(例如用于离体治疗的骨髓细胞),也可以是已建立的细胞系,例如肿瘤细胞系、293T细胞或干细胞、iPC等。

在一个相关方面,本发明提供了一种真核细胞,它包含簇状的规则间隔的短回文重复序列(CRISPR)-Cas复合物,所述CRISPR-Cas复合物包括:(1)一个RNA向导序列,它含有能够与靶RNA杂交的间隔区序列,以及一个间隔区序列的3'同向重复序列(DR);(2)一种CRISPR相关蛋白(Cas),它具有SEQ ID NO:1-7中任一项的氨基酸序列,或所述Cas的衍生物或功能片段;其中所述Cas、所述Cas的衍生物和功能片段能够(i)结合至RNA向导序列和(ii)靶向靶RNA。

在第九方面,本发明提供了一种组合物,它包含:(i)第一(蛋白质)组合物,选自SEQ ID NO:1-7中任一种Cas13e或Cas13f效应蛋白,或其直系同源物、同系物、衍生物、缀合物、功能片段、融合物;(ii)第二种(核苷酸)组合物,它包含了一个含有一个向导RNA/crRNA的RNA,特别是间隔区序列或所述RNA的编码序列。所述向导RNA可以包含一个DR序列,以及一个可以与靶RNA互补或杂交的间隔区序列。所述向导RNA可以与(i)中的第一(蛋白质)组合物形成复合物。在一些实施方案中,所述DR序列可以是本发明第四方面所述多核苷酸。在一些实施方案中,所述DR序列可以位于向导RNA的3'末端。在一些实施方案中,所述组合物(例如(i)和/或(ii)中的组合物)是非天然存在的,或由天然存在的组合物改造而成的。在一些实施方案中,所述组合物的至少一种组分是非天然存在的或由组合物的天然存在的组分改性而成的。在一些实施方案中,所述靶序列是一个来自原核生物或真核生物的RNA,例如非天然存在的RNA。所述靶RNA可以存在于细胞内部,例如细胞质中或细胞器内部。在一些实施方案中,所述蛋白质组合物可具有一个NLS,该NLS可位于其N端、C端或内部。

在第十方面,本发明提供了一个包含一个或多个本发明第七方面所述载体的组合物,所述的一个或多个载体包含:(i)一个第一多核苷酸,它编码SEQ ID NO:1-7中任何一种Cas13e或Cas13f效应蛋白、或其直系同源物、同系物、衍生物、功能片段、融合物;操作上可任意连接至第一级调控元件;(ii)一个第二多核苷酸,它编码本发明中的向导RNA,操作上可任意连接至第二级调控元件。第一和第二多核苷酸可以在不同的载体上或在相同的载体上。所述向导RNA可以与由第一多核苷酸编码的蛋白质产物形成复合物,并且包含一个DR序列(如第四方面所述的任何DR序列)、一个可以与靶RNA结合/互补的间隔区序列。在一些实施方案中,所述第一调节元件是一个启动子,例如诱导型启动子。在一些实施方案中,第二调节元件是一个启动子,例如诱导型启动子。在一些实施方案中,所述组合物(例如(i)和/或(ii))是非天然存在的或由天然存在的组合物改性而成的。在一些实施方案中,所述组合物的至少一种组分是非天然存在的或由组合物的天然存在的组分改性的。在一些实施方案中,所述靶序列是来自原核生物或真核生物的RNA,例如非天然存在的RNA。所述靶RNA可以存在于细胞内部,例如细胞质中或细胞器内部。在一些实施方案中,所述蛋白质组合物可具有一个NLS,该NLS可位于其N端、C端或内部。

在一些实施方案中,所述载体是一个质粒。在一些实施方案中,所述载体是一个病毒载体,它基于逆转录病毒、无复制能力的逆转录病毒、腺病毒、无复制能力的腺病毒或AAV。在一些实施方案中,所述载体可以在宿主细胞中自我复制(如具有细菌复制起点序列)。在一些实施方案中,所述载体可以整合入宿主基因组并随后复制。在一些实施方案中,所述载体是一个克隆载体。在一些实施方案中,所述载体是一个表达载体。

本发明还提供了一种递送组合物,用于递送本发明第一至第三方面所述的任何SEQ ID NO:1-7的Cas13e或Cas13f效应蛋白,或其直系同源物、同系物、衍生物、缀合物,功能片段、融合体;本发明的第四和/或第六方面所述多核苷酸;本发明第五方面所述复合物;本发明第七方面所述载体;本发明的第八方面所述细胞,以及本发明第九和/或第十方面所述的组合物。递送可以是通过本领域中任何已知的递送方法,如转染、脂质转染、电穿孔、基因枪、显微注射、超声处理、磷酸钙转染、阳离子转染、病毒载体递送等,通过使用媒介物,如脂质体、纳米颗粒、外来体、微泡、基因枪,或一种或多种病毒载体。

本发明还提供了一种试剂盒,其包含以下任一种或多种:本发明第一至第三方面所述的SEQ ID NO:1-7中任何一种Cas13e或Cas13f效应蛋白,或其直系同源物、同系物、衍生物、缀合物、功能片段、融合物;本发明的第四和/或第六方面所述多核苷酸;本发明第五方面所述复合物;本发明第七方面所述载体;本发明第八方面所述细胞,以及本发明的第九和/或第十方面所述组合物。在一些实施方案中,试剂盒可能还包括一份说明书,关于如何使用试剂盒的组分,和/或如何从第三方处获得附加组分与试剂盒的组分一起使用。所述试剂盒的任何组分都可以存储在任意合适的容器中。

以上内容即为对本发明的总体描述,以下单独部分将对本发明的各个方面进行更详细的描述。然而,对本发明的描述应作如下理解:为了简化和减少冗余,本发明的某些实施方案仅在一个部分进行描述,或仅在权利要求或实施例中描述。因此,还应作如下理解:除非特别声明否认或组合形式不当,本发明的任何一个实施方案,包括仅在一个方面、一个部分或仅在权利要求或实施例中描述的实施方案,都可以与本发明中所述任何其他实施方案进行组合。

1.新型2类VI型CRISPR RNA引导的RNase及其衍生物

一方面,本文描述的发明提供了两个新型CRISPR第2类VI型效应蛋白家族,它们具有两个严格保守的RX4-6H(RXXXXH)基序,是高级真核生物和原核生物核苷酸结合(HEPN)结构域的特征。此前已发现类似的含有两个HEPN结构域的CRISPR第2类VI型效应蛋白,包括例如CRISPR Cas13a(C2c2)、Cas13b、Cas13c、Cas13d。

HEPN结构域已被证明为RNase结构域,并具有结合与切割靶RNA分子的能力。所述靶RNA可以是RNA的任何合适形式,包括但不限于mRNA、tRNA、核糖体RNA、非编码RNA、lncRNA(长非编码RNA)、核RNA。例如,在一些实施方案中,所述Cas蛋白对开放阅读框(ORF)的编码链上的RNA靶标进行识别与切割。

在一个实施方案中,本文公开提供了两个家族的CRISPR第2类VI型效应蛋白,在本文中通常称为VI-E和VI-F型CRISPR-Cas效应蛋白、Cas13e或Cas13f。将VI-E、VI-F的CRISPR-Cas效应蛋白与其他系统的效应蛋白相比较,会发现VI-E、VI-F的CRISPR-Cas效应蛋白显著更小(例如约少20%的氨基酸),甚至比此前发现最小的VI-D/Cas13d效应蛋白(参见图4)要小,且与上述其他效应蛋白在一对一序列比对中序列相似性小于30%(参见图3),包括系统发育最相近的缘种Cas13b。

T这两个新发现的CRISPR第2类VI型效应蛋白家族可用于多种应用,且尤其适合在治疗中运用,因为这些效应蛋白要显著小于其他效应蛋白(如CRISPR Cas13a、Cas13b、Cas13c、Cas13d),因此编码效应蛋白的核酸及它们的引导RNA编码序列可以被包装到有大小限制的递送系统中(如AAV载体)。此外,所述Cas效应蛋白被异性RNA酶活性激活时,一定长度范围内的间隔区序列(如约30个核苷酸范围内,参见图11)不存在可检测的附带/非特异性RNase活性,使得这些Cas效应蛋较不容易发生(或者免于)目标细胞中广义上的脱靶RNA消化的潜在危险,而这种目标细胞并不应被破坏。另一方面,在一些其他特定间隔区长度(例如约30个核苷酸)内,这些Cas效应蛋白存在显著的附带RNase活性,因此受试Cas效应蛋白也应用于需要附带RNase活性的用途中。

在细菌中,VI-E和VI-F型CRISPR-Cas系统在CRISPR阵列邻近的范围内,含有一个单独的效应蛋白(长度分别约为775个残基和790个残基)(见图1)。所述CRISPR阵列含有一些长度通常为36个核苷酸的同向重复(DR)序列,所述DR序列通常在序列和二级结构上都保守良好(参见图2)。

本文提供的数据表明,所述crRNA是从5'末端开始加工的,因此所述DR序列最终会位于成熟crRNA的3'末端。

Cas13e和Cas13f CRISPR阵列中包含的间隔区序列,最常见长度是30个核苷酸,大部分长度在29至30个核苷酸之间,但间隔区序列的长度可以在一个很大的范围内。例如,为了用于功能性Cas13e或Cas13f效应蛋白或其同系物、直系同源物、衍生物、融合物、缀合物或功能片段,间隔区长度可以介于10-60个核苷酸、20-50个核苷酸、25-45个核苷酸、25-35个核苷酸之间,或大约为27、28、29、30、31、32或33个核苷酸。但是,如果时用于上述任何一种dCas版本,间隔区长度可以介于10-200个核苷酸、20-150个核苷酸、25-100个核苷酸、25-85个核苷酸、35-75个核苷酸、45-60个核苷酸之间,或大约为46、47、48、49、50、51、52、53、54或55个核苷酸。

下表中提供了VI-E和VI-F型CRISPR-Cas效应蛋白的序列。

在上述序列中,每个效应蛋白中的两个RX4-6H(RXXXXH)基序用双下划线标示。在Cas13e.1中,由于RR和HH序列位于基序的两侧,因此C端基序可能有两种可能。在一个或两个这样的结构域上产生的突变,可能会产生Cas13e和Cas13f效应蛋白、其同系物、直系同源物、融合物、缀合物、衍生物或功能片段的RNase失活版本(或称“dCas”),同时基本上保持其与向导RNA、与向导RNA互补的靶RNA结合的能力。

下面列出了所述Cas效应蛋白相应的DR编码序列:

Cas13e.1 GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:8)
Cas13e.2 GCTGAAGAAGCCTCCGATTTGAGAGGTGATTACAGC(SEQ ID NO:9)
Cas13f.1 GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:10)
Cas13f.2 GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:11)
Cas13f.3 GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:12)
Cas13f.4 GCTGTGATGGGCCTCAATTTGTGGGGAAGTAACAGC(SEQ ID NO:13)
Cas13f.5 GCTGTGATAGGCCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:14)

Since the secondary structures of the DR sequences,including thelocation and size of the step,bulge,and loop structures,are likely moreimportant than the specific nucleotide sequences that form such secondarystructures,alternative or derivative DR sequences can also be used in thesystems and methods of the invention,so long as these derivative oralternative DR sequences have a secondary structure that substantiallyresembles the secondary structure of an RNA encoded by any one of SEQ ID NO:8-14.For example,the derivative DR sequence may have±1or 2base pair(s)in oneor both stems(see FIG.2),have±1,2,or 3bases in either or both of the singlestrands in the bulge,and/or have±1,2,3,or 4bases in the loop region.

由于DR序列的颈环二级结构可能比形成此类二级结构的特定核苷酸序列更重要,因此本发明的系统和方法中,也可使用这些DR系列的二级结构、取代物或衍生物,只要这些衍生物或DR序列取代物的二级结构与由SEQ ID NO:8-14中任何一个编码的RNA的二级结构基本类似。例如,衍生DR序列在一个或两个茎结构中可具有±1或2个碱基对(见图2),在凸起结构的一个或两个单链上可具有±1、2或3个碱基,和/或在环状结构域中具有±1、2、3或4个碱基。

在一些实施方案中,VI-E和VI-F型CRISPR-Cas效应蛋白含有一个具有氨基酸序列的“衍生物”,所述氨基酸序列与上述SEQ ID NO:1-7中任一项的氨基酸序列至少约80%的序列同一(如81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%)。此类衍生Cas效应蛋白与SEQ ID NO:1-7中任一项在蛋白质序列上具有显著同一性,与SEQ ID NOs:1-7的Cas拥有至少一种相同功能(见下文),如与一个包含至少一个SEQ ID NO:8-14中DR序列的crRNA结合并形成复合物的能力。例如,Cas13e.1衍生物可分别与SEQ ID NO:1、2、3、4、5、6或具有85%的氨基酸序列同一性,并同时保留与一个crRNA结合并形成复合物的能力,该crRNA具有SEQ ID NO:8、9、10、11、12、13或14中的一个DR序列。

在一些实施方案中,所述衍生物含由保守基酸残基取代。在一些实施方案中,该衍生物仅包含保守氨基酸残基取代(即所述衍生物中的所有氨基酸取代都是保守取代,并且不存在不保守取代)。

在一些实施方案中,所述衍生物在SEQ ID NO:1-7任何一种野生型序列中的插入或缺失不超过1、2、3、4、5、6、7、8、9或10个氨基酸。只要野生型序列保留至少一种功能,所述插入和/或缺失可以聚集在一起,或在整个序列上分开。这样的功能可包括结合向导RNA/crRNA的能力、RNase活性、结合和/或切割与向导RNA/crRNA互补的靶RNA的能力。在一些实施方案中,RXXXXH基序中不存在插入和/或缺失,或在RXXXXH基序附近5、10、15或20个残基以内不存在。

在一些实施方案中,所述衍生物保留了结合向导RNA/crRNA的能力。

在一些实施方案中,所述衍生物保留了由向导RNA/crRNA激活的RNase活性。

在一些实施方案中,在结合的向导RNA/crRNA的存在下,其与靶RNA的至少一部分序列互补,所述衍生物保留了结合靶RNA和/或切割靶RNA的能力。

在其他实施方案中,由于一些原因,例如RNA向导的RNase中一个或多个催化残基的突变,所述衍生物已经完全或部分丧失了由向导rRNA/crRNA激活的RNase活性。此类衍生物有时被称为dCas,如dCas13e.1等。

T因此在一些实施方案中,所述衍生物可通过修饰降低核酸酶/RNase活性,如相比野生型蛋白质核酸酶至少失活50%、60%、70%、80%、90%、95%、97%或100%。核酸酶活性可以通过本领域已知的几种方法来降低,例如将突变引入蛋白质的核酸酶(催化)结构域。在一些实施方案中,发现了一些核酸酶活性的催化残基,而且这些酸残基可以被不同的氨基酸残基(例甘氨酸或丙氨酸)取代以降低核酸酶活性。在一些实施方案中,上述氨基酸取代是保守氨基酸取代。在一些实施方案中,上述氨基酸取代是非保守氨基酸取代。

在一些实施方案中,上述修饰含有在至少一个HEPN结构域中的一个或多个突变(例如氨基酸缺失、插入或取代)。在一些实施方案中,在至少一个HEPN结构域中存在1、2、3、4、5、6、7、8、9或更多个氨基酸取代。例如,在一些实施方案中,上述的一个或多个突变包含一个在氨基酸残基处的取代(如丙氨酸取代),该取代与SEQ ID NO:1的R84、H89,、R739、H744、R740、H745,或SEQ ID NO:2的R97、H102、R770、H775,或SEQ ID NO:3的R77、H82、R764、H769,或SEQ ID NO:4的R79、H84、R766A、H771,或SEQ ID NO:5的R79、H84、R766、H771,或SEQID NO:6的R89、H94、R773、H778,或SEQ ID NO:7的R89、H94、R777、H782。

在一些实施方案中,所述的一个或多个突变,或两个或多个突变,可以位于一个效应蛋白的催化活性结构域中,该效应蛋白含有一个HEPN结构域或一个与HEPN结构域同源的催化活性结构域。在一些实施方案中,该效应蛋白包含以下一个或多个突变:R84A、H89A、R739A、H744A、R740A、H745A(其中氨基酸位置对应Cas13e.1的氨基酸位置)。本领域的专业人员能够理解,不同的Cas13e和Cas13f蛋白中的相应氨基酸位置可以通过突变达到相同效果。在一些实施方案中,所述的一种或多种突变完全或部分消除了蛋白质的催化活性(如切割速率改变、特异性改变等)。

其他残基突变(催化)实施例包括:Cas13e.2的R97A、H102A、R770A、H775A,或Cas13f.1的R77A、H82A、R764A、H769A,或Cas13f.2的R79A、H84A、R766A、H771A,或Cas13f.3的R79A、H84A、R766A、H771A,或Cas13f.4的R89A、H94A、R773A、H778A,或Cas13f.5的R89A、H94A、R777A、H782A。在一些实施方案中,本文任何R残基和/或H残基可以被G、V或I而非A取代。

与缺少该种突变的相应野生型蛋白相比,存在上述突变中的至少一种,会产生一种RNase活性降低或减低的衍生物。

在一些实施方案中,本文所述的效应蛋白是“失活”效应蛋白,例如失活的Cas13e或Cas13f效应蛋白(即dCas13e和dCas13f)。在一些实施方案中,所述效应蛋白在HEPN结构域1(N端)中有一个或多个突变。在一些实施方案中,效应蛋白在HEPN结构域2(C端)中具有一个或多个突变。在一些实施方案中,效应蛋白在HEPN结构域1和HEPN结构域2中具有一个或多个突变。

所述失活的Cas或其衍生物或功能片段,可与一个或多个异源/功能结构域融合或缔合(例如通过融合蛋白、接头肽、“GS”接头等)。这些功能域可以具有各种活性,例如甲基化酶活性、脱甲基酶活性、转录激活活性、转录抑制活性、转录释放因子活性、组蛋白修饰活性、RNA切割活性、DNA切割活性、核酸结合活性、碱基编辑活性,以及切换活动(如光诱导)。在一些实施方案中,所述功能结构域是Krüppel相关盒(即KRAB)、SID(如SID4X)、VP64、VPR、VP16、Fok1、P65、HSF1、MyoD1或作用于RNA的腺苷脱氨酶,如ADAR1、ADAR2、APOBEC、胞苷脱氨酶(AID)、TAD、小型SOG、APEX和生物素APEX。

在一些实施方案中,所述功能域是基础编辑域,例如ADAR1(包括其野生型或ADAR1DD版本,带有或不带有E1008Q)、ADAR2(包括其野生型或ADAR2DD版本,带有或不带有一个或多个E488Q突变)、APOBEC或AID。

在一些实施方案中,所述功能域可以包含一个或多个核定位信号(NLS)域。所述一个或多个异源功能域可包含至少两个或多个NLS域。所述一个或多个NLS结构域可位于效应蛋白(例如Cas13e/Cas13f效应蛋白)的末端、邻近或中间,而且如果有两个或多个NLS,则两者都可位于效应蛋白(例如Cas13e/Cas13f效应蛋白)的末端、附近或邻近。

在一些实施方案中,至少一个或多个异源功能结构域可以位于或靠近效应蛋白的氨基末端,和/或其中至少一个或多个异源功能域位于或靠近效应蛋白的羧基末端。所述一个或多个异源功能域可以与该效应蛋白融合。所述一个或多个异源功能域可以与该效应蛋白融合在一起。所述一个或多个异源功能结构域可以通过接头部分连接至效应蛋白。

在一些实施方案中,存在多个(例如2、3、4、5、6、7、8或更多个)相同或不同的功能域。

在一些实施方案中,所述功能结构域(如碱基编辑域)进一步与结合至RNA的结构域(例如MS2)融合。

在一些实施方案中,所述功能域与一个接头序列(如柔性接头序列或刚性接头序列)缔合或融合。下表提供了接头序列和功能域序列的实施例。

人工改造的VI-E和VI-F CRISPR Cas效应蛋白变体中的基序和功能域的氨基酸序列

所述一个或多个功能域在失活的Cas蛋白上的位置。这种位置可以使得所述功能域有正确的空间定向,从而对靶标产生的附带的功能效应。例如,如果所述功能结构域是转录激活子(如VP16、VP64或p65),转录激活子则被放置于能能够影响靶标转录的空间定向上。同理,一个定位转录抑制子会被放置于能够影响靶标转录的定位上,一个核酸酶(如Fok1)会被放置于能够切割或部分切割靶标的定位上。在一些实施方案中,所述功能结构域位于Cas/dCas的N端。在一些实施方案中,所述功能结构域位于Cas/dCas的C端。在一些实施方案中,所述的灭活CRISPR相关蛋白(dCas)经过修饰,修饰后的该dCas在N端包含第一功能域并在C端包含第二功能域。

关于失活的CRISPR相关蛋白与一个或多个功能域融合的各种实例及方法,已在如国际公开号WO 2017/219027中进行描述,本文此处以引用全文的方式并入该文献,尤其是关于本文所描述的特征的部分。

在一些实施方案中,VI-E和VI-F型CRISPR-Cas效应蛋白包括上述SEQ ID NO:1-7中任一项的氨基酸序列。在一些实施方案中,VI-E型和VI-F型CRISPR-Cas效应蛋白不包括以上SEQ ID NO:1-7中任一个的天然存在的氨基酸序列。

在一些实施方案中,可以不使用全长的野生型效应蛋白(SEQ ID NO:1-7)或衍生的VI-E和VI-F型Cas效应蛋白,而使用它们的“功能片段”。

本文所用的一个“功能片段”,指的是SEQ ID NO:1-7中任一项的野生型蛋白质的片段或其衍生物,它的序列少于全长序列。所述功能片段中的缺失残基可以在N末端、C末端和/或内部。所述功能片段保留了至少一种野生型VI-E或VI-F Cas的功能,或至少一种其衍生物的功能。因此,功能片段是专门针对所讨论的功能所定义的。例如,一个功能片段,其功能是结合crRNA和靶RNA的能力,它可能不是一个关于RNA酶功能的功能片段,因为在Cas两端丢失RXXXXH基序可能不会影响其结合crRNA和靶RNA的能力,但可能会破坏RNase的活性。

在一些实施方案中,与全长序列SEQ ID NO:1-7相比,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段在N端缺少约30、60、90、120、150或约180个残基。

在一些实施方案中,与全长序列SEQ ID NO:1-7相比,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段在C端缺少约30、60、90、120或约150个残基。

在一些实施方案中,与全长序列SEQ ID NO:1-7相比,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段在N端缺少约30、60、90、120、150或约180个残基,并且在C端缺少约30、60、90、120或约150个残基。

在一些实施方案中,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段具有RNase活性,例如由向导RNA/crRNA激活的特异性RNase活性。

在一些实施方案中,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段不具有实质性/可检测的附带RNase活性。

此处“附带RNase活性”是指在第2类VI型某些RNA向导的其他RNase(例如Cas13a)中观察到的非特异性RNase活性。例如,一种包含Cas13a的复合物通过与靶核酸(例如靶RNA)结合被激活后,会发生构象变化,进而导致所述复合物充当一个非特异性RNase,对附近RNA分子(例如ssRNA或dsRNA分子)进行裂解和/或降解(即“附带”效应)。

在一些实施方案中,包含(但不限于)一个cRNA与所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段的一种复合物,在靶标识别后不显示附带的RNase活性。这种“无附带”的实施方案可以包含野生型或工程化/衍生的效应蛋白,或其它们的功能片段。

在一些实施方案中,所述VI-E或VI-F型CRISPR-Cas效应蛋白或其衍生物或其功能片段对靶RNA进行识别和切割,无需与原型间隔区(即原型间隔区相邻基序“PAM”或原型间隔区侧翼序列“PFS”要求)的额外要求。

本公开还提供了本文所述的CRISPR关联蛋白的一个分裂形式(例如一种VI-E或VI-F型CRISPR-Cas效应蛋白)。所述CRISPR关联蛋白的分裂形式可有利于递送。在一些实施方案中,CRISPR关联蛋白被分为酶的两部分,这两部分一起基本包含具有功能的CRISPR关联蛋白。

所述分裂可以通过不影响催化域的方式完成。所述CRISPR关联蛋白可以充当一个核酸酶或灭活的酶,其本质是一个催化活性很少或没有催化活性(如由于其催化结构域的突变)的RNA结合蛋白。分裂酶在例如Wright等人的《分裂Cas9酶复合物的合理设计》,Proc.Nat'l.Acad.Sci.112(10):2984-2989,2015中有所描述,此处引用全文并入本文。

例如,在一些实施方案中,所述核酸酶叶和α-螺旋叶表达为分开的多肽。尽管这些叶不会自行相互作用,但crRNA却将它们招募为三元复合物,该复合物概括了全长CRISPR关联蛋白的活性,且催化位点特异性DNA切割。可以使用一个经修饰的crRNA开发诱导型二聚化系统,因该crRNA可通过防止二聚化消除分裂酶的活性。

在一些实施方案中,该分裂的CRISPR关联蛋白可以融合至一个二聚化伴侣,如通过采用雷帕霉素敏感的二聚化结构域的方式。这能够产生可化学诱导的CRISPR关联蛋白,实现暂时控制所述蛋白的活性。因此,可以将CRISPR关联蛋白分成两个片段使其变成可化学诱导,且雷帕霉素敏感的二聚化结构域可用于所述蛋白的受控重组。

所述分裂点通常是分子设计并克隆到所述构建体中的。在此过程中,可将突变引入CRISPR关联的分裂蛋白中,去除非功能性结构域。

在一些实施方案中,上述分裂的CRISPR关联蛋白的两个部分或片段(即N端和C端片段)可以形成一个完整的CRISPR关联蛋白,其包含野生型CRISPR关联蛋白例如至少70%、至少80%、至少90%、至少95%或至少99%的序列。

本文所述的CRISPR关联蛋白质(如VI-E或VI-F型CRISPR-Cas效应蛋白)可以被设计成自激活或自灭活。例如,可以将靶序列引入CRISPR关联蛋白的编码构建体中。因此,CRISPR关联蛋白可以切割靶序列,还可以编码所述蛋白质的构建体,使得它们的表达自我失活。构建自我灭活的CRISPR系统的方法在例如Epstein和Schaffer的Mol.Ther.24:S50,2016中进行了描述,此处引用全文并入本文。

在一些其他实施方案中,另外一个crRNA在弱启动子(如7SK启动子)的控制下表达,该crRNA可以靶向编码所述CRISPR关联蛋白质的核酸序列,以防止和/或阻断其表达(例如通过防止核酸的转录和/或翻译)。一种细胞若含有表达CRISPR关联蛋白的载体、上述crRNA以及靶向编码CRISPR关联蛋白核酸的crRNA,这种细胞的转染会有效阻断编码CRISPR关联蛋白的核酸,降低CRISPR关联蛋白的水平,从而限制基因组编辑活性。

在一些实施方案中,上述CRISPR关联蛋白的基因组编辑活性,可以通过哺乳动物细胞中的内源RNA签名(例如miRNA)来调节。在编码CRISPR关联蛋白mRNA的5'-UTR中使用miRNA互补序列,可以形成一个CRISPR关联蛋白的开关,这些开关会选择性地、有效地响应靶细胞中的miRNA。因此,这些开关可以通过感测异种细胞群体内的内源性miRNA活性,实现对基因组编辑的差异控制。因此,这种开关系统为细胞类的选择性基因组编辑和细胞工程提供一个基于细胞内miRNA信息的框架(参见如Hirosawa等人的Nucl.Acids Res.45(13):e118,2017)。

所述CRISPR关联蛋白(如VI-E和VI-F型CRISPR-Cas效应蛋白)可被诱导表达,如可以为光诱导或化学诱导表达。这种机制能够允许CRISPR关联蛋白中的功能域的激活。光诱导性可以通过本领域已知的各种方法来实现,例如设计一种分裂CRISPR关联蛋白中使用CRY2 PHR/CIBN配对的融合复合物(参见如Konermann等人的《哺乳动物内源转录和表观遗传状态的光学控制》,Nature 500:7463,2013.)。

化学诱导性可以通过各种方法实现,如设计一个融合复合物,该融合分裂的CRISPR关联蛋白使用FKBP/FRB(FK506结合蛋白/FKBP雷帕霉素结合域)配对。在形成此融合复合物中必须使用雷帕霉素,从而实现激活CRISPR关联蛋白(参见如Zetsche等人的《用于诱导型基因组编辑和转录调节的Split-Cas9结构》,Nature Biotech.33:2:139-42,2015)。

此外,所述CRISPR关联蛋白的表达可以通过诱导型启动子(如四环素或强力霉素控制的转录激活,即Tet-On和Tet-Off表达系统)、激素诱导型基因表达系统(如蜕皮激素诱导型基因表达系统)以及阿拉伯糖诱导的基因表达系统进行调节。当以RNA的形式进行传递时,靶向RNA的效应蛋白其表达可以通过一个核糖开关进行调节,这个开关可以感应一个如四环素的小分子(参见例如Goldfless等人所著《使用合成RNA对真核生物的直接和特异性化学控制——蛋白质相互作用》,Nucl.Acids Res.40:9:e64-e64,2012)。

各种关于诱导型CRISPR关联蛋白、诱导型CRISPR系统的实施方案已有描述,请参见美国专利第8,871,445号、美国专利公开第2016/0208243号、国际专利公开第WO2016/205764号,此处引用以上全文并入本文。

在一些实施方案中,所述CRISPR关联蛋白含有至少一个(例如1、2、3、4、5、6、7、8、9或10个)附着在N端或C端的核定位信号(NLS)。例如,所述NLS的某些中包含一个源自如下项目的NLS序列(此处不穷举):含有氨基酸序列PKKKRKV的T抗原的NLS;核纤溶酶的NLS(如含有序列KRPAATKKAGQAKKKK的核糖蛋白双部分NLS);含有氨基酸序列PAAKRVKLD或RQRRNELKRSP的c-myc NLS;含有序列NQSSNFGPMKGGNFGGRSSGPYGGGGQYFAKPRNQGGY的hRNPA1M9 NLS;importin-alpha中IBB功能域的RMRIZFKNKGKDTAELRRRRVEVSVELRK序列;肌瘤T蛋白的VSRKRPRP and PPKKARED序列;人类p53的PQPKKKPL序列;小鼠c-abl IV的SALIKKKKKMAP序列;流感病毒NS1的DRLRR和PKQKKRK序列;肝炎病毒δ抗原的RKLKKKIKKL序列;小鼠Mx1蛋白的REKKKFLKRR序列;人类聚(ADP-核糖)聚合酶的KRKGDEVDGVDEVAKKKSKK序列;与人类糖皮质激素受体的RKCLQAGMNLEARKTKK序列。在一些实施方案中,CRISPR关联蛋白包含有至少一个(例如1、2、3、4、5、6、7、8、9或10个)附着在N端或C端的核输出信号(NES)。在一个较为理想的实施方案中,该CRISPR关联蛋白的C端和/或N端附着了一个NLS或NES,这种情况下该蛋白在真核细胞中(如人类细胞)可实现最佳表达及最佳靶向效果。

在一些实施方案中,本文所述的CRISPR关联蛋白进行了一个或多个氨基酸残基处的突变,以改变一种或多种功能活性。

例如,在一些实施方案中,所述CRISPR关联蛋白进行了一个或多个氨基酸残基处的突变,以改变其解旋酶活性。

在一些实施方案中,所述CRISPR关联蛋白质进行了一个或多个氨基酸残基处的突变,以改变其核酸酶活性(如核酸内切酶活性或核酸外切酶活性)。

在一些实施方案中,所述CRISPR关联蛋白进行了一个或多个氨基酸残基处的突变,以改变其与向导RNA功能性结合的能力。

在一些实施方案中,所述CRISPR关联蛋白进行了一个或多个氨基酸残基处的突变,以改变其与靶核酸功能性缔合的能力。

在一些实施方案中,本文描述的CRISPR关联蛋白能够切割靶RNA分子。

在一些实施方案中,所述CRISPR关联蛋白进行了一个或多个氨基酸残基处的突变,以改变其切割活性。例如在一些实施方案中,CRISPR关联蛋白可能存在一种或多种突变,使得酶不能切割靶核酸。

在一些实施方案中,所述CRISPR关联蛋白能够切割:与向导RNA杂交的链互补的靶核酸链。

在一些实施方案中,本文所述的CRISPR关联蛋白可被工程化改造为缺失一个或多个氨基酸残基,这种方式可以在保留一种或多种所需的功能活性(如核酸酶活性、与向导RNA功能性相互作用的能力)的同时缩小酶的大小。在与有负载限制的递送系统组合时,利用这种截短的CRISPR关联蛋白具有一定优势。

在一些实施方案中,本文所述的CRISPR关联蛋白可以与一种或多种肽标签融合,所述肽标签包括His标签、GST标签、V5-标签、FLAG标签、HA标签、SV-G标签、Trx标签或myc标签。

在一些实施方案中,本文所述的CRISPR关联蛋白可以与一个可检测的部分融合,例如GST、荧光蛋白(如GFP、HcRed、DsRed、CFP、YFP或BFP)或酶(如HRP或CAT)。

在一些实施方案中,本文所述的CRISPR关联蛋白可以与MBP、结合LexA DNA的结构域或Gal4 DNA结合结构域融合。

在一些实施方案中,本文所述的CRISPR关联蛋白可与可检测的标记连接或缀合,例如荧光染料(包括FITC和DAPI)。

在本文任何实施方案中,本文所述的CRISPR关联蛋白与上述的另一部分的连接可以在CRISPR关联蛋白的N端或C端,有时甚至通过共价化学键在内部连接。上述连接可通过本领域已知的任何化学连接来实现,例如肽连接、PEG连接、或通过氨基酸侧链如D、E、S、T或氨基酸衍生物(Ahx、β-Ala、GABA或Ava)进行连接。

2.多核苷酸

本发明还提供了编码对本文所述蛋白和向导RNA(例如crRNA)编码的核酸(如CRISPR关联蛋白或辅助蛋白)。

在一些实施方案中,所述核酸是一种合成核酸。在一些实施方案中,所述核酸是一个DNA分子。在一些实施方案中,所述核酸是一个RNA分子(如编码所述Cas、其衍生物或其功能片段的mRNA分子)。在一些实施方案中,上述mRNA被加帽、聚腺苷酸化、被5-甲基胞嘧啶核苷取代、被伪尿苷取代,或以上任意组合。

在一些实施方案中,所述核酸(如DNA)在操作上可连接至调节元件(如启动子),以便控制核酸的表达。在一些实施方案中,上述启动子是组成型启动子。在一些实施方案中,上述启动子是诱导型启动子。在一些实施方案中,上述启动子是细胞特异性启动子。在一些实施方案中,上述启动子是生物体特异性启动子。

合适的启动子是本领域已知的启动子,包括如pol I启动子、pol II启动子、polIII启动子、T7启动子、U6启动子、H1启动子、逆转录病毒劳斯肉瘤病毒LTR启动子、巨细胞病毒(CMV)启动子、SV40启动子、二氢叶酸还原酶启动子和β-肌动蛋白启动子。例如,U6启动子可用于调节本文所述向导RNA分子表达。

在一些实施方案中,所述一种或多种核酸存在于一个载体中(如病毒载体或噬菌体)。该载体可以是一个克隆载体或表达载体。该载体可以是一个质粒、噬菌粒、粘粒等。该载体可以包括一种或多种调节元件,让这种载体得以在目的细胞(例如细菌细胞或哺乳动物细胞)中复制。在一些实施方案中,该载体含有一个核酸,该核酸编码本文所述的CRISPR关联(Cas)系统一个单个组分。在一些实施方案中,该载体包括多个核酸,每个核酸编码本文所述的CRISPR关联(Cas)系统的一个组分。

一方面,本文公开提供了与本文所述的核酸序列至少50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%相同的核酸序列,即对所述Cas蛋白、衍生物、功能片段或向导RNA/crRNA编码的核酸序列,包括SEQ ID NO:8-14的DR序列。

在另一方面,本文公开还提供了一些核酸序列,它们编码了与本文所述的氨基酸序列至少50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%与相同的氨基酸序列,例如SEQ ID NO:1-7序列。

在一些实施方案中,所述核酸序列含有至少一部分与本文所述的序列相同(例如至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸,如连续或不连续核苷酸)。在一些实施方案中,所述核酸序列具有至少一部分与本文描述的序列不同(例如至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个核苷酸,如连续或非连续核苷酸)。

在相关的实施方案中,本发明提供了一些氨基酸序列,它们与本文所述序列有至少一部分相同(例如至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15 20、30、40、50、60、70、80、90或100个氨基酸残基,如连续或不连续氨基酸残基)。在一些实施方案中,上述氨基酸序列与本文描述的序列有至少一部分不同(如至少1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、20、30、40、50、60、70、80、90或100个氨基酸残基,如连续或非连续氨基酸残基)。

为了确定两个氨基酸序列或两个核酸序列的同一性百分比,将这些序列进行比对以达到最佳比较目的(如为达到最佳比对效果,可以在第一和/或第二氨基酸或核酸序列中引入缺口,以及出于比较可以忽略非同源序列)。通常,以比较为目的,进行比对的参考序列长度应至少为参考序列长度的80%,且在一些实施方案中,进行比对的参考序列长度至少为参考序列长度的90%、95%或100%。

然后,对相应氨基酸位置或核苷酸位置的氨基酸残基或核苷酸进行了比较。当第一序列与第二个序列的同一置被被相同的氨基酸残基或核苷酸所占据,这两个分子则在所述位置相同。两个序列之间同一性的百分比是这两个序列共有相同位置的数目的函数,这已将缺口数和每个缺口的长度考虑在内,若要实现两个序列的最佳比对需要引入这两个因素。为用于本公开中,可以使用Blossum 62评分矩阵进行序列之间的比较和确定两个序列同一性的百分比,Blossum 62评分矩阵的间隙罚分为12、延伸间隙罚分为4、移码间隙罚分为5。

本文所述的蛋白质(如CRISPR关联蛋白或辅助蛋白)可被递送,或被用作核酸分子或多肽。

在一些实施方案中,对编码CRISPR关联蛋白、其衍生物或功能片段的核酸分子进行了密码子优化,以在宿主细胞或生物中表达。该宿主细胞可以包括已建立的细胞系(例如293T细胞)或分离的原代细胞。可对上述核酸通过密码子优化,使其得以用于任何目的生物,尤其是人类细胞或细菌。例如,该可对核酸进行密码子优化以用于任何原核生物(如大肠杆菌)或任何真核生物如人类,以及其他非人类真核生物,包括酵母、蠕虫、昆虫、植物和藻类(包括粮食作物、水稻、玉米、蔬菜、水果、树木、草)、脊椎动物、鱼类、非人类哺乳动物(例如小鼠、大鼠、兔子、狗、鸟类(例如鸡)、牲畜(奶牛或牛、猪、马、绵羊、山羊等)或非人类灵长类动物)。密码子用途表格可以在如“密码子使用数据库”(“Codon Usage Database”)www.kazusa.orjp/codon/中找到,且这些表格可以进行多种方式的修改。请参见Nakamura等的Nucl.Acids Res.28:292,2000,此处引用全文并入本文。使在特定宿主细胞中表达的密码子特定序列优化计算机算法也可在如Gene Forge(Aptagen;Jacobus,Pa.)处获得。

优化密码子序列的一个实施例请参见WO 2014/093622(PCT/US2013/074667)中SaCas9人类密码子优化序列,在此处讨论的是真核生物(例如人类)中表达的经优化序列(即为了在人类中表达而进行优化),或本文讨论的另一种真核生物、动物或哺乳动物。尽管这个实施例较为理想,但应理解为其他实施例也是可行的,而且除此之外,已知存在为人类以外宿主物种或为用于特定器官而实现的密码子优化实施例。通常,密码子优化是指修饰一个核酸序列以实现在目标宿主细胞中更好表达,通过用所述宿主细胞基因中更频繁或最频繁使用的密码子,替换原序列至少一个密码子(例如等于或大于约1、2、3、4、5、10、15、20、25、50或更多密码子),同时保持其天然的氨基酸序列。许多物种对特定氨基酸的某些密码子表现出特定偏倚。密码子偏倚(生物之间密码子使用的差异)通常与信使RNA(mRNA)的翻译效率相关,而信使RNA(mRNA)的翻译效率又被认为尤其取决于被翻译密码子的特性以及特定转移RNA(tRNA)分子的可用性。选定tRNA在一个细胞中的主导通常反映了肽合成中那些最常使用的密码子。因此,可以基于密码子优化来定制基因,实现在目标生物中的最佳基因表达。密码子用途表格可以在如“密码子使用数据库”(“Codon Usage Database”)www.kazusa.orjp/codon/中获得,且这些表格可进行多种方式的修改。请参见Nakamura,Y.,等人《来自国际DNA序列数据库的密码子使用表》,Nucl.Acids Res.28:292(2000)。使在特定宿主细胞中表达的密码子特定序列优化计算机算法也可在如Gene Forge(Aptagen;Jacobus,Pa.)处获得。在一些实施方案中,编码Cas的序列中一个或多个密码子(例如1、2、3、4、5、10、15、20、25、50或更多,或所有密码子)对应所述在一个特定氨基酸中最频繁使用的密码子。

3.RNA向导或crRNA

在一些实施方案中,本文所述的CRISPR系统至少含有RNA向导(例如一个gRNA或crRNA)。

多个RNA向导的结构是在本领域中已知的结构(参见如国际公开号WO2014/093622和WO 2015/070083,此处引用以上全文并入本文)。

在一些实施方案中,本文描述的CRISPR系统包括多个RNA向导(例如1、2、3、4、5、6、7、8或更多个RNA向导)。

在一些实施方案中,所述RNA向导包括一个crRNA。在一些实施方案中,所述RNA向导包括一个crRNA但不包括tracrRNA。

Sequences for guide RNAs from multiple CRISPR systems are generallyknown in the art,see,for example,Grissa et al.(Nucleic Acids Res.35(webserver issue):W52-7,2007;Grissa et al.,BMC Bioinformatics 8:172,2007;Grissaet al.,Nucleic Acids Res.36(web server issue):W145-8,2008;and Moller andLiang,PeerJ 5:e3788,2017;the CRISPR database at:crispr.i2bc.paris-saclayfr/crispr/BLAST/CRISPRsBlast.php;and MetaCRAST available at:github.com/molleraj/MetaCRAST).All incorporated herein by reference.

来自几个CRISPR系统的向导RNA的序列在基本上是在本领域中已知的,参例如Grissa等人(Nucleic Acids Res.35:W52-7,2007;Grissa et al.,BMC Bioinformatics8:172,2007;Grissa et al.,Nucleic Acids Res.36(web server issue):W145-8,2008;and Moller and Liang,PeerJ 5:e3788,2017;the CRISPR database at:crispr.i2bc.paris-saclayfr/crispr/BLAST/CRISPRsBlast.php;and MetaCRASTavailable at:github.com/molleraj/MetaCRAST).。所有以上内容均以引用方式并入本文。

在一些实施方案中,该crRNA包括一个同向重复(DR)序列和一个间隔区序列。在一些实施方案中,该crRNA包含或由一个同向重复序列组成或基本组成,该同向重复序列连接至一个向导序列或间隔序列,理想情况连接至间隔序列的3'末端。

通常,所述Cas蛋白与该成熟的crRNA形成一个复合物,间隔物序列将该复合物引导至与靶RNA序列特异性结合,该靶RNA与间隔物序列互补和/或与间隔物序列杂交。所得复合物包含上述Cas蛋白和与靶RNA结合的该成熟crRNA。

Cas13e和Cas13f系统的同向重复序列通常保守良好,尤其在末端,Cas13e的GCTG和Cas13f在5'端有一个GCTGT,在3'端与Cas13e的一个CAGC和CAS13f的ACAGC反向互补。这种保守意味着RNA茎-环结构的强碱基配对,该结构可能会与基因座中的蛋白质相互作用。

在一些实施方案中,当在RNA中,所述同向重复序列包含一般二级结构5'-S1a-Ba-S2a-L-S2b-Bb-S1b-3',其中片段S1a和S1b是反向互补序列,并形成一个在Cas13e中有4个核苷酸、在Cas13f中有5个核苷酸的第一茎(S1);片段Ba和Bb互补碱基配对,并形成一个对称或几乎对称的凸起结构(B),片段Ba和Bb分别在Cas13e中有5个核苷酸,分别在Cas13f中有5(Ba)和4(Bb)或6(Ba)和5(Bb)个核苷酸;片段S2a和S2b是反向互补序列,并形成一个在Cas13e中有5个碱基对、在Cas13f中有6个或5个碱基对的第二茎(S2);L是一个Cas13e中的8个核苷酸环与Cas13f中的5个核苷酸环。请见图2。

在一些实施方案中,S1a在Cas13e中具有GCUG的序列,在Cas13f中具有GCUGU的序列。

在一些实施方案中,S2a在Cas13e中具有GCCCC序列,在Cas13f中具A/G CCUC G/A序列(其中可能第一个A或G不存在)。

在一些实施方案中,所述同向重复序列包含或由SEQ ID NO:8-14的核酸序列组成。

本文所用的“同向重复序列”可以指所述CRISPR基因座中的DNA编码序列,或指crRNA是由它编码RNA。因此,在关于RNA分子的上下文中,若提及SEQ ID NO:8-14中任何一个时(如crRNA),每个T应理解为代表一个U。

在一些实施方案中,所述同向重复序列含有或由一种核酸序列组成,该核酸序列缺失、插入或取代可达1、2、3、4、5、6、7或8个SEQ ID NO:8-14的核苷酸。在一些实施方案中,所述同向重复序列包含或由一种核酸序列组成,该核酸序列与SEQ ID NO:8-14(如由于SEQID NO:8-14中核苷酸的缺失、插入或取代)具有至少80%、85%、90%、95%或97%的序列同一性。在一些实施方案中,该同向重复序列包含或由一种核酸序列组成,该核酸序列与SEQID NO:8-14中的任一个不同,但可以与SEQ ID NO:8-14中任何一个的互补序列在严格的杂交条件下进行杂交,或可以在生理条件下结合SEQ ID NO:8-14中任何一个的互补序列。

在一些实施方案中,上述缺失、插入或取代不会改变SEQ ID NO:8-14的整体二级结构(例如所述茎状、凸起和环状结构与原始的茎状、凸起和环状相对位置和/或大小没有明显偏离)。例如,缺失、插入或取代可能发生在凸起或环状结构与区域,使得凸起结构的整体对称性在很大程度上保持相同。缺失、插入或取代可能发生在茎状结构中,使得茎状结构的长度不会明显偏离原始长度(如在两个茎中的分别添加或缺失一个碱基对,产生总共4个碱基的变化)。

在一些实施方案中,所述缺失、插入或取代会产生一个衍生DR序列,它在一个或两个茎状结构中可以有±1或2个碱基对(见图2)、在凸起结构的一个或两个单链中具有±1、2或3个碱基、和/或在环状结构区中有±1、2、3或4个碱基。

在一些实施方案中,所述缺失、插入或取代会产生一个衍生的DR序列,它在一个或两个茎状结构中可以有±1或2个碱基对(见图2)、在凸起结构的一个或两个单链中有±1、2或3个碱基、和/或在环状结构区中有±1、2、3或4个碱基。

在一些实施方案中,上述同向重复序列若与任何一个与SEQ ID NO:8-14中任何一个不同,均保留了在Cas13e或Cas13f蛋白中作为同向重复序列的功能,正如SEQ ID NO:8-14的DR序列。

在一些实施方案中,所述同向重复序列含有或由一种核酸组成,这种核酸具有SEQID NO:8-14中任意一项的核酸序列,并截短了起始的3、4、5、6、7或8个3'核苷酸。

在一些实施方案中,所述Cas蛋白包含SEQ ID NO:1的氨基酸序列,且所述crRNA含有一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:8的核酸序列组成。

在一些实施方案中,所述Cas蛋白包含SEQ ID NO:2的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:9的核酸序列组成。

在一些实施方案中,所述Cas蛋白包含SEQ ID NO:3的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:10的核酸序列组成。

在一些实施方案中,所述Cas蛋白包含SEQ ID NO:4的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:11的核酸序列组成。

在一些实施方案中,所述Cas蛋白包含SEQ ID NO:5的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:12的核酸序列组成。

在一些实施方案中,所述Cas蛋白包含SEQ ID NO:6的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:13的核酸序列组成。

在一些实施方案中,所述Cas蛋白包含SEQ ID NO:7的氨基酸序列,且所述crRNA包含一个同向重复序列,其中该同向重复序列包含或由SEQ ID NO:14的核酸序列组成。

在经典的CRISPR系统中,向导序列(例如crRNA)与其对应的靶序列之间的互补程度可以是约50%、60%、75%、80%、85%、90%、95%、97.5%、99%或100%。在一些实施方案中,这种互补程度是90-100%。

所述向导RNA长度可约为5、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、75、100、125、150、175、200或更多个核苷酸。例如,为了用于一个功能性Cas13e或Cas13f效应蛋白或其同系物、直系同源物、衍生物、融合物、缀合物或功能片段,所诉间隔区长度可以介于10-60个核苷酸、20-50个核苷酸、25-45个核苷酸、25-35个核苷酸之间,或约为27、28、29、30、31、32或33个核苷酸。然而,若要使用在以上任意一项的dCas版本中,所述间隔区长度可为10-200个核苷酸、20-150个核苷酸、25-100个核苷酸、25-85个核苷酸、35-75个核苷酸、45-60个核苷酸之间,或大为46、47、48、49、50、51、52、53、54或55个核苷酸。

为减少脱靶相互作用,如为了减少向导与低互补性靶序列的相互作用,可以在CRISPR系统引入突变,使CRISPR系统能够区分靶序列和脱靶序列,这些靶序列和脱靶序列有大于80%、85%、90%或95%的互补性。在一些实施方案中,这种互补程度是80%-95%,如约83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%或95%(例如,可以区分一个有18个核苷酸的靶标与一个有1、2或3个错配的18个核苷酸的脱靶标)。因此,在一些实施方案中,一个向导序列与其对应的靶序列的互补程度大于94.5%、95%、95.5%、96%、96.5%、97%、97.5%、98%、98.5%、99%、99.5%或99.9%。在一些实施方案中,互补程度为100%。

在本领域中已知,有足够的互补性能够发挥作用则不需要完全互补性。可以通过引入错配来调节切割效率,例如引入一种或多种错配,如在间隔区序列和靶序列之间(包括沿着间隔区/靶标的错配的位置)引入1或2个错配。若一个错配(如双错配)位于越靠近中心的位置(即不在3'或5'末端),对切割效率的影响越大。因此,可以将错配引入沿着该间隔区序列的位置来调节切割效率。例如,如果期望实现少于100%的靶标切割(如在细胞群体中),则可以将1或2个间隔区与靶序列之间的错配引入间隔序列中。

经证明,VI型CRISPR-Cas效应蛋白可使用多个RNA向导,使得这些效应蛋白、包括这些效应蛋白的系统和复合物能够靶向多种核酸。在一些实施方案中,本文所述的CRISPR系统包含多个(例如2、3、4、5、6、7、8、9、10、15、20、30、40、或更多个)RNA向导。在一些实施方案中,本文描述的CRISPR系统包括一个RNA单链或一个编码单链RNA的核酸,其中所述这些RNA向导串联排列。该RNA单链可包括一个RNA向导的多个相同拷贝、不同RNA向导的多个不同拷贝,或以上二者。本文所述的VI-E和VI-F型CRISPR-Cas效应蛋白的加工能力使这些效应蛋白能够靶向多种靶核酸(例如靶RNA)而不丧失活性。在一些实施方案中,这种VI-E和VI-F CRISPR-Cas效应蛋白可以与多个被引导向不同靶RNA的RNA向导复合递送。在一些实施方案中,所述VI-E和VI-F型CRISPR-Cas效应蛋白可以与多个RNA向导共同递送,每个RNA向导都是不同靶核酸的特异性RNA向导。CRISPR关联蛋白的多路复用的方法已经在如美国专利No.9,790,490B2和No.EP 3009511B1中进行描述,此处引用上述全文并明确并入本文。

所述crRNA的间隔区长度范围可在约10-60个核苷酸之间,例如15-50个核苷酸、20-50个核苷酸、25-50个核苷酸或19-50个核苷酸。在一些实施方案中,向导RNA的间隔区长度为至少16个核苷酸、至少17个核苷酸、至少18个核苷酸、至少19个核苷酸、至少20个核苷酸、至少21个核苷酸或至少22个核苷酸。在一些实施方案中,所述间隔区长度为15-17个核苷酸(如15、16或17个核苷酸)、17-20个核苷酸(例如17、18、19或20个核苷酸)、20-24个核苷酸(例如20、21、22、23或24个核苷酸),23至25个核苷酸(例如23、24或25个核苷酸),24至27个核苷酸,27至30个核苷酸、30-45个核苷酸(例如30、31、32、33、34、35、36、37、38、39、40、41、42、43、44或45个核苷酸)、30或35至40个核苷酸、41-45个核苷酸、45-50个核苷酸(例如45、46、47、48、49或50个核苷酸),或更长。在一些实施方案中,所述间隔区长度为约15至约42个核苷酸。

在一些实施方案中,所述向导RNA的同向重复序列长度是15-36个核苷酸、至少16个核苷酸、16-20个核苷酸(例如16、17、18、19或20个核苷酸)、20-30个核苷酸(例如20、21、22、23、24、25、26、27、28、29或30个核苷酸)、30-40个核苷酸(例如30、31、32、33、34、35,36、37、38、39或40个核苷酸)、或约36个核苷酸(例如33、34、35、36、37、38或39个核苷酸)。在一些实施方案中,所述向导RNA的同向重复长度是36个核苷酸。

在一些实施方案中,crRNA/向导RNA的总长度比任何一个上述间隔区序列的长度约长36个核苷酸。例如,crRNA/向导RNA的总长度可以在45-86个核苷酸或60-86个核苷酸,62-86个核苷酸或63-86个核苷酸之间。

所述crRNA序列可通过以下方式进行修饰:形成一个crRNA和CRISPR关联蛋白复合物并使之成功与靶标结合,但与此同时不允许有成功的核酸酶活性(即没有核酸酶活性/没有造成插入缺失)。这些经过修饰的向导序列被称为“死亡crRNA”、“死亡向导”或“死亡向导序列”。这些死亡向导或死亡向导序列的核酸酶活性可以是催化失活或构象失活。这些死亡向导序列通常短于可进行活性RNA切割的相应向导序列。在一些实施方案中,所述死亡向导比具有核酸酶活性的相应向导RNA短5%、10%、20%、30%、40%或50%。向导RNA的死亡向导序列的长度可为13-15个核苷酸(如长度为13、14或15个核苷酸)、15-19个核苷酸、或17-18个核苷酸(如17个核苷酸)。

因此,本公开的一方面提供了非天然存在或工程改造的CRISPR系统,它们包括一个如本文所述的功能性CRISPR关联蛋白和一个crRNA,该crRNA包含一个死亡crRNA序列使该crRNA能够与靶标序列杂交,使得所述CRISPR系统能够被引导至细胞中的一个目的基因组位点而不具有可检测的核酸酶活性(例如RNase活性)。

例如,国际公开No.WO 2016/094872中对死亡向导进行了详细描述,此处引用全文并入本文。

向导RNA(例如crRNA)可生成作为诱导系统的组分。由于系统的可诱导性,可实现对基因编辑或基因表达的时空控制。在一些实施方案中,对可诱导系统使用电磁辐射、声能、化学能和/或热能等方式刺激。

在一些实施方案中,可通过以下方式对向导RNA(例如crRNA)的转录进行调节:诱导型启动子如四环素或强力霉素控制的转录激活(Tet-On和Tet-Off表达系统)、激素诱导型基因表达系统(例如蜕皮激素)或阿拉伯糖诱导型基因表达系统。一些其他诱导系统的实施例包括:小分子双杂交转录激活系统(FKBP、ABA等)、光诱导系统(植物色素、LOV结构域或隐花色素)或光诱导转录效应子(LITE)。这些诱导系统已在如WO2016205764及美国专利第8,795,965号中进行描述,此处引用以上全文并入本文。

化学修饰可应用于所述crRNA的磷酸骨架、糖和/或碱基。骨干修饰(如硫代磷酸酯)修饰磷酸主链上的电荷,并帮助寡核苷酸的递送和核酸酶抗性(参见如Eckstein的《硫代磷酸酯、治疗性寡核苷酸的基本成分》,Nucl.Acid Ther.,24,pp.374-387,2014);糖的修饰,例如2'-O-甲基(2'-OMe)、2'-F、锁核酸(LNA)的修饰,可增强碱基配对和核酸酶抗性(参见如Allerson等人的《与未修饰的小干扰RNA相比,2'-全修饰的寡核苷酸双链体具有更好的体外效能和稳定性》,J.Med.Chem.48.4:901-904,2005)。经化学修饰的碱基,例如2-硫尿苷或N6-甲基腺苷,可以使得碱基配对变强或变弱(参见如,Bramsen等人《通过化学工程开发治疗级小分子干扰RNA》,Front.Genet.,2012Aug.20;3:154)。此外,RNA可以在5'和3'末端与各种功能部分缀合,包括荧光染料、聚乙二醇或蛋白质。

多种修饰可应用于化学合成的crRNA分子。例如,用2'-OMe修饰寡核苷酸可以提高核酸酶抗性,从而改变Watson-Crick碱基配对的结合能。此外,2'-OMe修饰可影响寡核苷酸与细胞中转染试剂、蛋白质或与其他任何分子的相互作用。这些修饰的效果可经实证检验获得。

在一些实施方案中,所述crRNA包含一种或多种硫代磷酸酯修饰。在一些实施方案中,为增强碱基配对和/或增加核酸酶抗性,所述crRNA包括一种或多种被锁定的核酸。

可以在如《用于CRISPR-Cas9基因组编辑的化学合成的向导RNA的多功能性》(Kelley等,J.Biotechnol.233:74-83,2016)、WO 2016205764、美国专利第8,795,965B2号中找到这些化学修饰的总结。此处引入以上全文并入本文。

本文所述的RNA向导(例如crRNA)的序列和长度可被优化。在一些实施方案中,可通过鉴定加工过的crRNA(即成熟的crRNA)或研究crRNA四环的实证长度来确定RNA向导的最佳长度。

这些crRNA还可包含一个或多个适体序列。适体是具有一个特定三维结构且可以结合至特定靶分子的一种寡核苷酸或肽分子。适体可以是基因效应子、基因激活子或基因阻遏子。在一些实施方案中,所述适体可以对一个蛋白质具有特异性,该蛋白又招募和/或结合、对特定的基因效应蛋白、基因激活子或基因阻抑子具有特异性。所述基因效应蛋白、基因激活子或基因阻抑子可以融合蛋白的形式存在。在一些实施方案中,所述向导RNA有两个或更多个适体序列对同样的适体蛋白具有特异性。在一些实施方案中,两个或更多个适体序列对不同的适体蛋白具有特异性。适体蛋白可包括如MS2、PP7、Qβ、F2、GA、fr、JP501、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φkCb5、φkCb8r、φkCb12r、φkCb23r、7s、PRR1。因此,在一些实施方案中,适体选自与本文所述任何一个适体蛋白特异性结合的结合蛋白。在一些实施方案中,该适体序列是一个结合环(5’-ggcccAACAUGAGGAUCACCCAUGUCUGCAGgggcc-3’)。在一些实施方案中,该适体序列是一个QBeta结合环(5’-ggcccAUGCUGUCUAAGACAGCAUgggcc-3’)。在一些实施方案中,该适体序列是一个PP7结合环(5’-ggcccUAAGGGUUUAUAUGGAAACCCUUAgggcc-3’)。对适体的详细描述可以在如《用于通用Cas9功能性的指南RNA工程》(Nowak等人,Nucl.Acid.Res.,44(20):9555-9564,2016)、WO 2016205764中找到,此处引用以上全文并入本文。

在一些实施方案中,所述方法利用了经化学修饰的向导RNA。向导RNA化学修饰的实施例包括但不限于在一个或多个末端核苷酸处掺入2'-O-甲基(M)、2'-O-甲基3'-硫代磷酸酯(MS)或2'-O-甲基3'-thioPACE(MSP)。与未经修饰的向导RNA相比,经过化学修饰的向导RNA可具有更高稳定性和活性,靶上特异性与脱靶特异性无法预测。参见,Hendel所著NatBiotechnol.33(9):985-9,2015,此处引用全文并入本文。化学修饰的向导RNA还可以包括但不限于一种RNA,它含有硫代磷酸酯键以及锁核酸(LNA)核苷酸,这种核苷酸在2'和4'碳之间有一个亚甲基桥。

本发明还包括递送多种核酸组分的方法,其中每种核酸组分对不同的目标靶基因座具有特异性,修饰多个目标靶基因座。所述复合物的核酸组分可包含一种或多种蛋白质结合RNA适体。上述一种或多种适体可能能够与一个噬菌体外壳蛋白结合。所述噬菌体外壳蛋白可以选自Qβ、F2、GA、fr、JP501、MS2、M12、R17、BZ13、JP34、JP500、KU1、M11、MX1、TW18、VK、SP、FI、ID2、NL95、TW19、AP205、φCb5、φCb8r、φCb12r、φCb23r、7s与PRR1。在一些实施方案中,所述噬菌体外壳蛋白是MS2。

3.靶RNA

所述靶RNA可以是任何目的RNA分子,包括天然存在的RNA分子与工程化RNA分子。所述靶RNA可以是一个mRNA、tRNA、核糖体RNA(rRNA)、microRNA(miRNA)、干扰RNA(siRNA)、核酶、核糖开关、卫星RNA、微开关、微酶或病毒RNA。

在一些实施方案中,所述靶核酸与一种病症或疾病(例如传染病或癌症)关联。

因此,在一些实施方案中,本文所述的系统可用于靶向这些病症或疾病核酸来治疗这些病症或疾病。例如,与病症或疾病关联的靶核酸可以是在一个患病细胞(如癌细胞或肿瘤细胞)中过量表达的RNA分子。所述靶核酸还可以是毒性RNA和/或突变的RNA(例如有一个剪接缺陷或突变的mRNA分子)。所述靶核酸也可以是对一种特定微生物(例如病原细菌)具有特异性的RNA。

4.复合体和细胞

本发明的一方面提供了一种CRISPR/Cas13e或CRISPR/Cas13f复合物,它包含(1)任何本文所述的Cas13e/Cas13f效应蛋白、其同系物、直系同源物、融合物、衍生物、缀合物或其功能片段,和(2)任何本文所述的向导RNA,每个RNA均包含一个被设计为与一个靶RNA至少部分互补的间隔区序列,以及一个与所述Cas13e/Cas13f效应蛋白、其同系物、直系同源物、融合物、衍生物、缀合物或功能性片段相容的DR序列。

在一些实施方案中,该复合物还包含与向导RNA结合的靶RNA。

在一些实施方案中,该复合物不是天然存在/天然产生的。例如,所述复合物中至少一种成分不是天然存在/天然产生的。在一些实施方案中,所述Cas13e/Cas13f效应蛋白、其同系物、直系同源物、融合物、衍生物、缀合物或功能片段不是天然存在/天然产生的,如存在至少一种氨基酸突变(缺失、插入和/或取代)。在一些实施方案中,所述DR序列不是天然存在/天然产生的,即非SEQ ID NO:8-14中的任何一个,如该序列与野生型序列相比,存在至少一个核苷酸碱基的添加、缺失和/或取代。在一些实施方案中,所述间隔区序列不是天然存在的,因为它不存在于任何原核生物野生型CRISPR基因座中存在的间隔区序列,或由这种间隔区序列编码,而上述CRISPR基因座中存在受试Cas13e或Cas13f。当间隔序列与天然存在的细菌噬菌体核酸不是100%互补时,它可能为非天然存在的序列。

本发明在一个相关方面还提供了一个含有任何本发明中复合物的细胞。

在一些实施方案中,该细胞是一个原核生物。

在一些实施方案中,该细胞是真核生物。当该细胞是真核生物时,真核细胞中的复合物可以是一个原核生物中天然存在的Cas13e/Cas13f复合物,从中可分离出Cas13e/Cas13f。

5.使用CRISPR系统的方法

本文所述的CRISPR系统具有多种用途,包括修饰多种细胞类型中的靶多核苷酸或核酸(例如删除、插入、转运、失活或活化)。所述CRISPR系统可广泛应用于如:DNA/RNA检测(例如特定的高灵敏度酶报告分子解锁,即SHERLOCK)、核酸跟踪与标记、富集测定(从背景中提取所需序列)、控制干扰RNA或miRNA、检测循环肿瘤DNA、准备下一代文库、药物筛选、疾病诊断和预后、各种遗传性疾病的治疗等方面。

DNA/RNA检测

一方面,本文所述的CRISPR系统可用于DNA或RNA检测。如实施例中所示,当间隔区序列为约30个核苷酸,被其向导RNA依赖的特异性RNase活性激活时,本发明的Cas13e和Cas13f蛋白显示出非特异性/附带的RNase活性。因此,本发明CRISPR相关联蛋白可以被CRISPR RNA(crRNA)重新编程,提供一个特异性RNA感测平台。通过选择特定的间隔序列长度,CRISPR关联蛋白会在其RNA靶标被识别时激活,从而参与附近非靶向RNA的“附带”切割。这种crRNA编程的附带切割活性使得该CRISPR系统可以触发程序性细胞死亡或标记RNA的非特异性降解,从而检测特定RNA的存在。

所述SHERLOCK方法(特定的高灵敏度酶报告分子解锁)提供了一种渺摩尔级(attomolar)敏感性的体外核酸检测平台,该平台通过核酸扩增和报告RNA的附带切割,实现实时检测靶标。将不同等温放大步骤进行组合可用于进行信号检测。例如重组酶聚合酶扩增(RPA)可以与T7转录结合,将扩增的DNA转化为RNA后进行检测。以下组合称为SHERLOCK:RPA扩增、用T7 RNA聚合酶将扩增的DNA转录为RNA、用附带RNA切割介导释放的报告基因信号来检测靶RNA。在SHERLOCK中使用CRISPR的方法在如Gootenberg等人《使用CRISPR-Cas13a/C2c2检测核酸》(Science,2017Apr.28;356(6336):438-442)中作了详细描述,此处引用全文并入本文。

本文所述CRISPR关联蛋白可用于Northern blot分析,Northern blot分析通过电泳对RNA样品按大小进行分离。所述CRISPR关联蛋白可用于与目标RNA序列进行特异性结合并对齐进行检测。所述CRISPR关联蛋白还可与荧光蛋白(例如GFP)融合,并用于追踪活细胞中的RNA定位。具体来说可以让CRISPR关联蛋白可以失活而不再如上所述一样切割RNA。因此,所诉CRISPR关联蛋白可用于确定RNA或特定剪接变体的定位、确定mRNA转录物的水平、上调或下调转录物水平,及进行疾病特异性的诊断。所述CRISPR关联蛋白可用于可视化(活)细胞中的RNA,如利用荧光显微镜或流式细胞术(如荧光激活细胞分选,即FACS),实现细胞的高通量筛选、细胞分选后回收活细胞。关于如何检测DNA和RNA的详细描述可以在如国际公开号WO 2017/070605中找到,此处引用全文体并入本文。

在一些实施方案中,本文所述的CRISPR系统可用于多重错误鲁棒性荧光原位杂交(MERFISH)。所述方法在如Chen等人的《在单细胞中空间分辨的、高度多重化的RNA谱图》(Science,2015Apr.24;348(6233):aaa6090,)中有所描述,此处引用全文体并入本文。

检测和定量样品中RNA的特异性可以有广泛的应用,包括应用在诊断上。在一些实施方案中,所述方法包括使样品与以下物质接触:i)一个RNA向导(例如crRNA)和/或对所述RNA向导进行编码的核酸,其中所述RNA向导由一个同向重复序列和一个能够与靶RNA杂交的间隔区序列组成;(ii)一个VI-E或VI-F型CRISPR-Cas效应蛋白(Cas13e或Cas13f)和/或一个编码效应蛋白的核酸;(iii)一个被标记的检测子RNA;其中所述效应蛋白可与RNA向导结合形成一个复合物;其中上述RNA向导可与靶RNA杂交;其中上述复合物与靶RNA结合后,所述效应蛋白表现出附带的RNase活性并切割标记的检测子RNA;和b)测量一个可检测信号,该信号由标记检测RNA产生切割所产生,其中上述测量可对样品中单链靶RNA进行检测。在一些实施方案中,本文所述的CRISPR系统可用于检测样品(例如临床样品、细胞或细胞裂解液)中的靶RNA。间隔区序列具有特定选择的长度(如约30个核苷酸)时,当本文所述的VI-E和/或VI-F CRISPR-Cas效应蛋白与一个靶核酸结合,所述效应蛋白的附带RNase活性被激活。当所述效应蛋白与目标靶RNA结合后,会通过切割标记的检测子RNA来产生一个信号(例如一个增强/减弱的信号),从而完成对样品中的靶RNA的定性和定量检测。在一些实施方案中,所述方法还包括比较可检测信号与参考信号,以确定样品中靶RNA的量。在一些实施方案中通过以下方式测量:金纳米粒子检测、荧光偏振、胶体相变/分散、电化学检测、基于半导体的感测。在一些实施方案中,被标记的检测子RNA包括荧光发射染料对、荧光共振能量转移(FRET)对或猝灭剂/荧光对。在一些实施方案中,效应蛋白切割被标记的检测子RNA时,被标记的检测子RNA产生的可检测信号的量会减少或增加。在一些实施方案中,被标记的检测子RNA在被效应蛋白切割之前产生第一可检测信号,并在被效应蛋白切割之后产生第二可检测信号。在一些实施方案中,当被标记的检测子RNA被效应蛋白切割时产生一个可检测的信号。在一些实施方案中,被标记的检测子RNA包含经修饰的核碱基、修经饰的糖部分、经修饰的核酸键,或以上组合。在一些实施方案中,所述方法包括对一个样品中多个(例如2、3、4、5、6、7、8、9、10、15、20、30、40、或更多个)独立靶RNA的多通道检测,通过使用多个VI-E和/或VI-F CRISPR-Cas(Cas13e和/或Cas13f)系统以区分样品中多个靶RNA,每个系统都包含一个不同的直系同源效应蛋白和相应的RNA向导。在一些实施方案中,所述方法包括使用VI-E和/或VI-F CRISPR-Cas型系统的多个实例,对一个样品中多个独立的靶RNA进行多通道检测,每个实例均包含一个直系同源效应蛋白和可区分的附带RNase底物。使用CRISPR关联蛋白检测样品中RNA的方法在如美国专利公开第2017/0362644号中有所描述,此处引用全文本并入本文。

核酸追踪和标记

细胞过程取决于蛋白质、RNA和DNA之间分子相互作用的网络,要了解细胞过程,关键是要准确检测蛋白质与DNA、蛋白质与RNA之间的相互作用。体外邻近标记技术采用了一个与报道基团(例如可光活化的基团)组合的亲和标记,以在体外标记目的蛋白或RNA附近的多肽和RNA。紫外线照射后,可光活化的基团会与在被标记分子附近的蛋白和其他分子蛋白质发生反应并对它们进行标记。发生相互作用的被标记分子可以随后被回收和鉴定。所述CRISPR关联蛋白可以用于如将探针靶向选定的RNA序列。这些应用还可以应用于动物模型,对疾病或难以培养的细胞类型进行体内成像。追踪和标记核酸的方法在如美国专利第8,795,965号、WO 2016205764、WO 2017070605有所描述,在此引用全文并入本文。

RNA的分离、纯化、富集和/或消耗

本文所述的CRISPR系统(例如CRISPR关联蛋白)可用于分离和/或纯化RNA。可将CRISPR关联蛋白融合一个亲和标记上,该亲和标记可用于分离和/或纯化RNA-CRISPR关联蛋白复合物。这些可用于如细胞中的基因表达谱分析。

在一些实施方案中,CRISPR关联蛋白可用于靶向特定的非编码RNA(ncRNA)而阻断其活性。在一些实施方案中,CRISPR关联蛋白可用于特异性富集一种特定RNA(包括但不限于增加稳定性等),或者特异性消耗一个特定RNA(例如特定的剪接变体、同工型)。

这些方法如在美国专利第8,795,965号、WO 2016205764、WO 2017070605中有所描述,在此引用全文并入本文。

高通量筛选

本文所述的CRISPR系统可用于制备下一代测序(NGS)文库。例如,为了创建一个成本效益高的NGS文库,CRISPR系统可用于破坏靶基因的编码序列,CRISPR关联蛋白转染的克隆页同时可以用下一代测序(如在离子激流PGM系统上)筛选。关于如何制备NGS文库的详细描述,可参见如Bell等人《使用下一代测序技术检测CRISPR-Cas9诱导的突变的高通量筛选策略》(BMC Genomics,15.1(2014):1002,),此处引用全文并入本文。

工程化改造微生物

微生物(例如大肠杆菌、酵母和微藻)被广泛用于合成生物学中。合成生物学的发展具有包括各种临床应用在内的广泛用途。例如,CRISPR系统可被编程用于分裂毒性结构域的蛋白质,实现靶向细胞死亡,例如使用与癌症相关的RNA作为靶转录物。另外,涉及蛋白质与蛋白质相互作用的途径,可以在合成的生物系统中受到适当效应子(如激酶或酶的融合复合物)的影响。

在一些实施方案中,靶向噬菌体序列的crRNA可被引入微生物中。因此,本公开内容还提供了噬菌体感染接种微生物(如生产菌株)的方法。

在一些实施方案中,本文提供的CRISPR系统可用于工程改造微生物,如用来提高产量或提高发酵效率。例如,本文描述的CRISPR系统可用于工程化改造酵母,将工程化改造后的酵母用于可发酵糖,生产生物燃料或可燃生物聚合物;或将工程化改造酵母用于降解来源于农业废物的植物木质纤维素,成为可发酵糖的来源。具体来说,本文描述的方法可用于修饰生产生物燃料所需的内源基因的表达,和/或修饰可干扰生物燃料合成的内源基因。这些工程化改造微生物的方法在如Verwaal等人《CRISPR/Cpf1实现酿酒酵母的快速简单的基因组编辑》(Yeast doi:10.1002/yea.3278,2017)、Hlavova等人《为生物技术改进微藻——从遗传学到合成生物学》(Biotechnol.Adv.,33:1194-203,2015)中有所描述,此处引用以上两篇全文并入本文。

在一些实施方案中,本文提供的CRISPR系统可用于诱导细胞(如微生物、工程化后的微生物)的死亡或休眠。这些方法可用于诱导多种细胞类型的休眠或死亡,包括原核和细胞真核细胞,包括但不限于哺乳动物细胞(如癌细胞或组织培养细胞)、原生动物、真菌细胞、病毒、受胞内细菌感染的细胞、受胞内原生动物感染的细胞、受pr病毒感染的细胞、细菌(如致病性和非致病性细菌)、原生动物、单细胞和多细胞寄生虫。例如在合成生物学领域中,非常需要一种控制工程化改造微生物(如细菌)的机制,以防止它们的繁殖或传播。本文所述的系统可用作“杀灭开关”,用以调节和/或防止工程化微生物的繁殖或传播。此外,目前在本领域中需要找到替代抗生素治疗的方式。本文描述的系统还可以用于杀死或控制特定微生物种群(如细菌种群)。例如,本文描述的系统可包括一个RNA向导(如crRNA),可以靶向一个属、种或株特异性的核酸(例如RNA)且可以被递送至细胞。与该靶核酸复合并结合后,所述VI-E和/或VI-F CRISPR-Cas效应蛋白的附带RNase活性被激活,导致微该生物内非靶RNA裂解,最终导致休眠或死亡。在一些实施方案中,所述方法包括让该细胞与本文所述的系统接触,该系统包括一个VI-E和/或VI-F型CRISPR-Cas效应蛋白或一个编码该效应蛋白的核酸,以及一个RNA向导(如crRNA)或一个编码RNA向导的核酸,其中该间隔区序列与靶核酸(如属特异性、株特异性或种特异性RNA向导)的中至少15个核苷酸互补(如16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、35、40、45、45、50或更多个核苷酸)。在不希望受到任何特定理论束缚的情况下,所述VI-E和/或VI-F CRISPR-Cas效应蛋白对非靶RNA的切割可能诱导程序性细胞死亡、细胞毒性、凋亡、坏死、程序性坏死、细胞死亡、细胞周期停滞、细胞无反应、细胞生长减少或细胞增殖减少。例如在细菌中,通过所述VI-E和/或VI-FCRISPR-Cas效应蛋白对非靶RNA的切割,可以产生抑菌的或杀菌结果。

植物中的应用

本文所述的CRISPR系统在植物中具有多种用途。在一些实施方案中,该CRISPR系统可以用于工程化改造植物的基因组(例如提高产量、制备具有所需的翻译后修饰的产物,或引入基因实现工业化生产作物)。在一些实施方案中,CRISPR系统可用于将所需性状引入植物(如在对基因组进行或不进行遗传修饰的情况下),或调节植物细胞或整个植物中内源基因的表达。

在一些实施方案中,该CRISPR系统可用于鉴定、编辑和/或使编码特定蛋白的基因沉默,如过敏原蛋白(如花生、大豆、小扁豆、豌豆、豆角、绿豆中的过敏原蛋白)。关于如何鉴定、编辑和/或使编码蛋白质的基因沉默的详细描述可在如Nicolaou等人《花生和豆类过敏的分子诊断》(Curr.Opin.Allergy Clin.Immunol.11(3):222-8,2011)与WO2016205764A1中找到,此处对以上两篇全文作整体引用并入本文。

基因驱动

基因驱动是一个特定基因或一组特定基因的遗传受到有利偏倚的现象。本文所述的CRISPR系统可用于构建基因驱动。例如,可以将CRISPR系统设计为靶向并破坏一个基因的特定等位基因,使细胞通过复制第二个等位基因来修复序列。上述复制使第一等位基因被转换为第二等位基因,从而增加第二等位基因传递给后代的机会。例如,在Hammond等人《冈比亚按蚊疟疾蚊子载体中靶向雌性繁殖的CRISPR-Cas9基因驱动系统》(Nat.Biotechnol.34(1):78-83,2016)中,描述了如何使用本文所述的CRISPR系统来构建基因驱动的详细方法。此处整体引用以上全文并入本文。

混合筛选

如本文所述,CRISPR混合筛选是一个可以鉴定某些生物学机制中基因的有效工具,如细胞增殖、药物抗性、病毒感染中的基因。使用本文所述的由向导RNA(gRNA)编码的载体文库大量转导细胞,并且在施加选择性攻击之前和之后测量gRNA的分布。汇集的CRISPR筛选对于影响细胞存活和增殖的机制非常有效,并且可以扩展以测量单个基因的活性(例如,通过使用工程报告基因细胞系)。一次仅靶向一个基因的阵列式CRISPR筛选使得使用RNA序列作为读数成为可能。在一些实施方案中,本文所述的CRISPR系统可以用于单细胞CRISPR筛选中。关于汇集的CRISPR筛选的详细描述可以在例如Datlinger等人的“具有单细胞转录组读出的汇集的CRISPR筛选”中找到。方法。14(3):297-301,2017,通过引用将其全文并入本文。

饱和诱变(扑灭)

本文所述的CRISPR系统可用于原位饱和诱变。在一些实施方案中,合并的向导RNA文库可用于对特定基因或调节元件进行原位饱和诱变。这样的方法可以揭示这些基因或调节元件(例如增强子)的关键的最小特征和离散的脆弱性。这些方法描述于例如Canver等人,“通过Cas9介导的原位饱和诱变进行的BCL11A增强子剥离”,Nature 527(7577):192-7,2015中,其通过引用整体并入本文。

RNA相关应用

本文所述的CRISPR系统可具有多种与RNA相关的应用,例如调节基因表达,降解RNA分子,抑制RNA表达,筛选RNA或RNA产物,确定lincRNA或非编码RNA的功能,诱导细胞休眠,诱导细胞周期停滞,减少细胞生长和/或细胞增殖,诱导细胞无反应,诱导细胞凋亡,诱导细胞坏死,诱导细胞死亡和/或诱导程序性细胞死亡。这些应用的详细描述可以在例如WO2016/205764 A1中找到,其通过引用整体并入本文。在不同的实施方案中,本文所述的方法可以在体外,体内或离体进行。

例如,本文所述的CRISPR系统可以用于一个患有疾病或病症的受试者,用以靶向和诱导处于患病状态的细胞(例如癌细胞或被感染因子感染的细胞)细胞中的死亡。例如在一些实施方案中,本文所述的CRISPR系统可用于靶向并诱导癌细胞中的细胞死亡,所述癌细胞来自患有威尔姆斯氏肿瘤、尤因肉瘤、神经内分泌肿瘤、成胶质细胞瘤、神经母细胞瘤、黑色素瘤、皮肤癌、乳腺癌、结肠癌、直肠癌、前列腺癌、肝癌、肾癌、胰腺癌、肺癌、胆道癌、宫颈癌、子宫内膜癌、食道癌、胃癌、头颈癌、甲状腺髓样癌、卵巢癌、神经胶质瘤、淋巴瘤、白血病、骨髓瘤、急性淋巴细胞白血病、急性骨髓性白血病、慢性淋巴细胞性白血病、慢性骨髓性白血病、霍奇金淋巴瘤、非霍奇金淋巴瘤或膀胱癌的受试者。

调节基因表达

本文所述的CRISPR系统可用于调节基因表达。所述CRISPR系统可与合适的向导RNA一起通过控制RNA加工来靶向基因表达。控制RNA加工可包括:RNA加工反应如RNA剪接(如选择性剪接)、病毒复制、tRNA生物合成。RNA靶向蛋白与合适的向导RNA结合也可用于控制RNA激活(即RNAa)。RNA激活是一种由小型的RNA向导且依赖Argonaute(Ago)的基因调控现象,其中,被启动子靶向的短双链RNA(dsRNA)在转录/表观水平上诱导靶基因的表达。RNAa可促进基因表达,因此可以通过破坏或减少RNAa的方式来实现对基因表达的控制。在一些实施方案中,这种方法包括使用靶向CRISPR的RNA作为取代物,取代如干扰核糖核酸(例如siRNA、shRNA或dsRNA)。调节基因表达的方法在如WO 2016205764中有所描述,此处作整体引用并入本文。

控制RNA干扰

控制干扰RNA或microRNA(miRNA)可以帮助减少脱靶效应,这种控制通过降低体内或体外干扰RNA或miRNA的寿命来实现。在一些实施方案中,所述靶RNA可以包括干扰RNA,即参与RNA干扰途径的RNA,例如小发夹RNA(shRNA)、小干扰(siRNA)等。在一些实施方案中,所述靶RNA包括如miRNA或双链RNA(dsRNA)。

在一些实施方案中,如果RNA靶向蛋白和合适的向导RNA被选择性表达(如空间或时间上受到一个被调控的启动子控制,如组织或细胞周期特异性启动子和/或增强子),这可用于细胞或系统(体内或体外)的保护,免受所述细胞中RNA干扰(RNAi)。这可以用于不需要RNAi的邻近组织或细胞中,或用于比较CRISPR关联蛋白及合适的crRNA表达或不表达的细胞或组织(即其中RNAi分别受控或不受控)。该RNA靶向蛋白可用于控制或结合含有RNA或由RNA组成的分子,如核酶、核糖体或核糖开关。在一些实施方案中,所述向导RNA可以将RNA靶向蛋白招募到这些分子中,使得这些RNA靶向蛋白能够与它们结合。上述方法在如WO2016205764和WO 2017070605中有所描述,此处对这两项内容作整体引用并入本文。

修饰核糖开关及控制代谢调控

核糖开关是信使RNA的调控片段,它们通过与小分子结合来调控基因表达。这种机制使细胞能够感知这些小分子的细胞内浓度。特定的核糖开关常通过改变其邻近基因的转录、翻译或剪接来调节这些基因。因此,在一些实施方案中,可以通过所述RNA靶向蛋白与合适的向导RNA结合来靶向核糖开关,达到控制核糖开关活性的目的。这可以通过切割或结合至核糖开关来实现。使用CRISPR系统控制核糖开关的方法在如WO2016205764和WO2017070605中已进行描述,此处对这两项内容作整体引用并入本文。

RNA修饰

在一些实施方案中,本文所述的CRISPR关联蛋白可与碱基编辑域融合,如ADAR1、ADAR2、APOBEC或激活诱导的胞苷脱氨酶(AID),用于修饰一个RNA序列(如mRNA)。在一些实施方案中,CRISPR关联蛋白包括一个或多个突变(如在催化结构域中),使得该CRISPR关联蛋白不能切割RNA。

I在一些实施方案中,该CRISPR关联蛋白可与一个RNA结合融合多肽一起使用,所述融合多肽包含一个碱基编辑结构域(如ADAR1、ADAR2、APOBEC或AID),该结构域与一个RNA结合结构域融合,如MS2(也称为MS2外壳蛋白)、Qbeta(也称为Qbeta外壳蛋白)或PP7(也称为PP7外壳蛋白)。所述RNA结合结构域MS2、Qbeta和PP7的氨基酸序列如下:

MS2(MS2外壳蛋白)

MASNFTQFVLVDNGGTGDVTVAPSNFANGVAEWISSNSRSQAYKVTCSVRQSSAQKRKYTIKVEVPKVATQTVGGVELPVAAWRSYLNMELTIPIFATNSDCELIVKAMQGLLKDGNPIPSAIAANSGIY

Qbeta(Qbeta外壳蛋白)

MAKLETVTLGNIGKDGKQTLVLNPRGVNPTNGVASLSQAGAVPALEKRVTVSVSQPSRNRKNYKVQVKIQNPTACTANGSCDPSVTRQAYADVTFSFTQYSTDEERAFVRTELAALLASPLLIDAIDQLNPAY

PP7(PP7外壳蛋白)

MSKTIVLSVGEATRTLTEIQSTADRQIFEEKVGPLVGRLRLTASLRQNGAKTAYRVNLKLDQADVVDCSTSVCGELPKVRYTQVWSHDVTIVANSTEASRKSLYDLTKSLVVQATSEDLVVNLVPLGR

在一些实施方案中,所述RNA结合结构域可以与一个本文描述的系统中的crRNA上的特定序列(如适体序列)或二级结构基序结合(如当该crRNA在一个效应子-crRNA复合物中时),从而招募RNA结合融合多肽(有一个碱基编辑域)至该效应子复合物中。例如在一些实施方案中,所述CRISPR系统包括一个CRISPR关联蛋白、一个有适体序列(如MS2结合环、QBeta结合环或PP7结合环)的crRNA、一个RNA结合融合多肽,该多肽有一个与适体序列特异性结合的碱基编辑域。在所述系统中,CRISPR关联蛋白与含有适体序列的crRNA形成一个复合物。此外,该RNA结合融合多肽(通过适体序列)与crRNA结合,形成可以修饰靶RNA的三方复合物。

使用CRISPR系统进行碱基编辑的方法在如国际公开号WO 2017/219027中进行了描述,此处将全文引用并入本文,尤其是关于RNA修饰的讨论部分。

RNA剪接

在一些实施方案中,本文所述的灭活CRISPR关联蛋白(如一个在催化结构域中有一个或多个突变的CRISPR关联蛋白)可用于靶向并结合RNA转录物上特定的剪接位点。灭活的CRISPR关联蛋白与RNA结合,可在空间上抑制剪接体与转录物的相互作用,从而能够改变特定转录物同工型的产生频率。用这种方法可以跳过外显子来治疗疾病,可以在成熟蛋白中跳过发生突变的外显子。使用CRISPR系统改变剪接的方法在如在国际公开号WO 2017/219027中已进行描述,此处将全文引用并入本文特,尤其是关于RNA剪接的讨论部分。

治疗应用

本文所述的CRISPR系统可以进行多种治疗应用,这些治疗应用可基于以下一种或多种CRISPR/Cas13e或Cas13f系统在体外和体内的能力:诱导细胞衰老、诱导细胞周期停滞、抑制细胞生长和/或增殖、诱导细胞凋亡、诱导坏死等。

在一些实施方案中,本文所述的新型CRISPR系统可以用于治疗各种疾病和病症,如遗传疾病(如单基因疾病)、可通过核酸酶活性治疗的疾病(例如用于靶向Pcsk9、杜兴氏肌营养不良症即DMD、靶向BCL11a)以及各种癌症等。

在一些实施方案中,本文所述的CRISPR系统可用于编辑靶核酸以对其进行修饰(例如通过一个或多个核酸残基插入、缺失或突变)。例如在一些实施方案中,本文所述的CRISPR系统包含一个外源供体模板核酸(如DNA分子或RNA分子),其中包含我们所需的核酸序列。在本文所述的CRISPR系统解决诱导的切割时,细胞的分子机制会利用外源供体模板核酸修复和/或解决切割。或者,细胞的分子机制可以利用内源性模板来修复和/或完成切割事件。在一些实施方案中,本文所述的CRISPR系统可用于改变靶核酸,形成插入、缺失和/或点突变。在一些实施方案中,所述插入是无疤痕的插入(即把一个想要插入的核酸序列插入靶核酸中,使得在解决切割事件时不会意外插入额外的核酸序列)。所述供体模板核酸可以是双链或单链核酸分子(例如DNA或RNA)。设计外源供体模板核酸的方法在如国际公开号WO 2016/094874 A1中已进行描述,此处明确引用全文并入本文。

一方面,本文所述的CRISPR系统可用于治疗RNA、毒性RNA和/或突变RNA的过度表达(例如有剪接缺陷或截短)所引起的疾病。例如,毒性RNA的表达可能与脑、心脏或骨骼肌中的核内含物形成、迟发性变性变化有关。在一些实施方案中,所述疾病是强直性肌营养不良。在强直性肌营养不良症中,毒性RNA的主要致病作用是螯合结合蛋白并损害选择性剪接的调控,参见如Osborne等人《RNA主导型疾病》(Hum.Mol.Genet.,2009Apr.15;18(8):1471-81)遗传学家还特别关注强直性肌营养不良症(或称肌营养不良症,DM),因为它可产生极多的临床特征。我们所说的经典DM,现称DM 1型(DM1),是由DMPK(编码胞质蛋白激酶的基因)的3'-非翻译区(UTR)中CTG重复序列的扩增引起的。本文所述的CRISPR系统可靶向过量表达的RNA或毒性RNA,如DMPK基因,或可靶向任何DM1骨骼肌、心脏或大脑中的错误调节的选择性剪接。

本文所述的CRISPR系统还可靶向反式突变,这种突变可以影响会引起多种疾病的依赖RNA的功能,例如普拉德·威利综合征、脊髓性肌萎缩(SMA)和先天性角化病。Cooper等人的《RNA与疾病》(Cell,136.4(2009):777-793)与WO 2016/205764 A1中总结了使用本文所述的CRISPR系统可治疗的疾病列表。此处引用全文并入本文。该领域的专业人员将了解如何使用该新型CRISPR系统来治疗以上疾病。

本文所述的CRISPR系统还可以用于治疗各种Tau蛋白病变(tauopathies),包括例如原发性和继发性Tau病变,如与年龄相关的原发性Tau病变(PART)/神经原纤维缠结(NFT)主导的老年性痴呆(其中的NFT与阿尔茨海默病(AD)中的NFT相似但无斑块)、普吉斯痴呆(慢性创伤性脑病)、进行性核上性麻痹。在如WO 2016205764中提供了一个Tau病变的列表并描述了治疗这些疾病的方法,此处引用全文并入本文。

本文所述的CRISPR系统也可用于靶向一些能够破坏顺式作用剪接密码的突变,这种间接密码可引起剪接缺陷和疾病,这种疾病包括,如SMN1基因缺失导致的运动神经元退化性疾病(如脊髓性肌萎缩症)、杜兴氏肌营养不良症(DMD)、额颞叶痴呆、17号染色体相关的帕金森氏症(FTDP-17)、囊性纤维化。

本文所述的CRISPR系统还可用于抗病毒活性,尤其是RNA病毒。所述CRISPR关联蛋白可以使用选择的合适向导RNA来靶向病毒RNA序列,通过这种方式来靶向病毒RNA。

本文所述的CRISPR系统还可用于治疗受试者(如人类受试者)的癌症。例如,可对本文所述的CRISPR关联蛋白进行编程以,使用crRNA来靶向一个异常的(如包含点突变或交替剪接)并在癌细胞中发现的RNA分子,实现诱导癌细胞中的细胞死亡(例如凋亡)。

本文所述的CRISPR系统还可用于治疗受试者(如人类受试者)的自身免疫疾病或病症。例如,可对本文所述的与CRISPR关联蛋白进行被编,用crRNA来靶向一个异常的(如包一个含点突变或被选择性剪接)、存在引起自身免疫疾病或病症的细胞中的RNA分子。

此外,本文所述的CRISPR系统也可以用于治疗受试者的传染病。例如,可对本文所述的CRISPR关联蛋白进行编程,用crRNA来靶向一个由感染因子(如细菌、病毒、寄生虫或原生动物)表达的RNA分子,来靶向和诱导感染因子细胞的细胞死亡。所述CRISPR系统也可用于治疗受到细胞内感染因子感染的宿主细胞受试者的疾病。对CRISPR关联蛋白进行编程来靶向感染因子基因编码的RNA分子,通过这种方式可以靶向受感染因子感染的细胞,并诱导其细胞死亡。

此外,体外RNA感应测定可用于检测特定的RNA底物。本文所述CRISPR关联蛋白可用于传感活细胞中基于RNA的物质。该应用的一些实施包括感测疾病特异性RNA的诊断方法。

本文描述的CRISPR系统的治疗应用的在如美国专利第No.8,795,965号、EP3009511、WO 2016205764、WO 2017070605中进行了详细描述,此处引用以上几项全文并入本文。

细胞及其后代

在一些实施方案中,本发明的方法可用于将本文所述的CRISPR系统引入一个细胞中,使得该细胞和/或其后代改变一种或多种细胞产物,如抗体、淀粉、乙醇或任何其他想要改变的产物。这种细胞及其后代包括在本发明的范围内。

在一些实施方案中,本文描述的方法和/或CRISPR系统会修饰细胞的一种或多种RNA产物的翻译和/或转录。例如,这种修饰可以增加RNA产物的转录/翻译/表达。在其他实施方案中,这种修饰可降低RNA产物的转录/翻译/表达。

在一些实施方案中,所述细胞是原核细胞。

在一些实施方案中,所述细胞是真核细胞,例如哺乳动物细胞,包括人类细胞(人类原代细胞或已建立的人类细胞系)。在一些实施方案中,所述细胞为非人类哺乳动物细胞,例如来自非人类灵长类动物(如猴子)、奶牛/公牛/家牛、绵羊、山羊、猪、马、狗、猫、啮齿动物(如兔子、小、大鼠、仓鼠)等。在一些实施方案中,所述细胞来自鱼(如鲑鱼)、鸟(如禽鸟,包括小鸡、鸭、鹅)、爬行动物、贝类(如牡蛎、蛤、龙虾、虾)、昆虫、蠕虫、酵母等。在一些实施方案中,所述细胞来自植物,如单子叶植物或双子叶植物。在一些实施方案中,上述植物是粮食作物,例如大麦、木薯、棉花、花生、玉米、小米、油棕果、土豆、豆类、油菜籽或低芥酸菜子、大米、黑麦、高粱、大豆、甘蔗、糖甜菜、向日葵和小麦。在一些实施方案中,上述植物是谷物(大麦、玉米、小米、大米、黑麦、高粱和小麦)。在一些实施方案中,上述植物是块茎(木薯和土豆)。在一些实施方案中,上述植物是糖料作物(甜菜和甘蔗)。在一些实施方案中,上述植物是含油作物(大豆、花生、油菜籽或低芥酸菜子、向日葵和油棕果)。在一些实施方案中,上述植物是纤维作物(棉花)。在一些实施方案中,上述植物是树(如桃树或油桃树、苹果或梨树、坚果树(如杏仁或核桃树或开心果树)或柑橘属树(例如橙子、葡萄柚或柠檬树)、草、蔬菜、水果或藻类。在一些实施方案中,上述植物是茄属植物;芸苔属(Brassica)植物;莴苣属(Lactuca)植物;菠菜属(Spinacia)植物;辣椒属(Capsicum)植物;棉花、烟草、芦笋、胡萝卜、卷心菜、西兰花、花椰菜、番茄、茄子、胡椒、生菜、菠菜、草莓、蓝莓、覆盆子、黑莓、葡萄、咖啡、可可等。

在一个相关方面,本文提供了经修饰的细胞或其后代,修饰方法是本发明中使用所述CRISPR系统的方法。

在一些实施方案中,所述细胞在体外、体内或离体进行修饰。

在一些实施方案中,所述细胞是一个干细胞。

6.递送

根据本公开及本领域中的知识,本文所描述的CRISPR系统或其任何组分(其Cas蛋白、衍生物、功能片段或各种融合或加合物,以及向导RNA/crRNA)、其核酸分子、和/或编码或提供其组分的核酸分子,可以使用本领域任何合适的方式,通过各种递送系统进行递送(如通过质粒、病毒递送载体等载体)。此类方法包括(但不限于)电穿孔、脂质转染、显微注射、转染、超声处理、基因枪等。

在一些实施方案中,可以使用合适的载体(如质粒或病毒载体)来递送CRISPR关联蛋白和/或任何所述RNA(如向导RNA或crRNA)和/或辅助蛋白,如使用腺相关病毒(即AAV)、慢病毒、腺病毒、逆转录病毒载体、其他病毒载体,或以上载体的组合。所述蛋白与一种或多种crRNA可以被包装入一种或多种载体中,如质粒或病毒载体。如要应用于细菌中,可以利用一个噬菌体,将对所述CRISPR系统中任何组分进行编码的核酸递送至细菌内。这种噬菌体的实施例包括但不限于T4噬菌体、Mu、λ噬菌体、T5噬菌体、T7噬菌体、T3噬菌体、Φ29、M13、MS2、Qβ、ΦX174。

在一些实施方案中,将载体(如质粒或病毒载体)递送至目标组织,是通过例如肌内注射、静脉内施用、透皮施用、鼻内施用、口服施用或粘膜施用等方式。这种递送可以是单剂量或多剂量的。本领域专业人员应理解,本文所述的递送实际剂量,受多种因素印象可能产生很大的变化,受到如载体的选择、靶细胞、生物体、组织、待治疗对象的总体情况、所追求的转换/修改程度、施用途径、施用模式、所追求的转换/修改的类型等影响。

在一些实施方案中,所述递送通过腺病毒完成,可以使用单剂量包含至少1×105个腺病毒颗粒(也称为颗粒单位,pu)的腺病毒。在一些实施方案中,理想剂量为至少约1×106个颗粒、至少约1×107个颗粒、至少约1×108个颗粒、至少约1×109个颗粒的腺病毒。所述递送方法和剂量在如WO 2016205764A1和美国专利第8,454,972 B2号中有作描述,此处引用以上两项全文并入本文。

在一些实施方案中,所述递送是通过质粒完成。剂量可以是能够引起应答的足够数量的质粒。在某些情况下,质粒组合物中质粒DNA的适合数量可以为约0.1至约2mg。质粒通常将包括(i)一个启动子;(ii)一个序列,该序列编码一个靶向核酸的CRISPR关联蛋白和/或一个辅助蛋白,这些蛋白在操作上可分别连接至一个启动子(例如相同的启动子或不同的启动子);(iii)一个可选择的标记;(iv)一个复制起点;(v)一个在(ii)下游并与之有效连接的转录终止子。所述质粒还可以编码一个CRISPR复合物的RNA组分,但其中的一种或多种组分也可在不同的载体上被编码。施用频率是在医学或兽医从业者(例如医师、兽医)或本领域专业人员的能力范围内的。

在另一个实施方案中,所述递送是通过脂质体或脂质转染制剂等完成的,这些脂质体或脂质转染制剂可以由本领域专业人员已知的方法来制备。所述方法在如WO2016205764和美国专利第5,593,972号、第5,589,466号、第5,580,859号中进行了描述,此处对以上每一项的全文进行引用并入本文。

在一些实施方案中,所述递送是通过纳米颗粒或外来体完成的。例如,外来体被证实为在递送RNA中尤其有用。

除此之外,还有一些通过细胞穿透肽(CPP)将新型CRISPR系统一个或多个组件引入细胞的方法。在一些实施方案中,一个细胞穿透肽与所述CRISPR关联蛋白连接。在一些实施方案中,CRISPR关联蛋白和/或向导RNA与一种或多种CPP偶联,从而将这些CPP有效转运到细胞内(如植物原生质体)。在一些实施方案中,CRISPR关联蛋白和/或向导RNA由与一种或多种环状或非环状DNA分子编码以实现细胞递送,这些DNA分子与一种或多种CPP偶联。

CPP是源于蛋白质或嵌合序列、少于35个氨基酸的短肽,能够以受体独立的方式跨细胞膜转运生物分子。CPP可以为阳离子肽、具有疏水序列的肽、两亲性肽、具有富集脯氨酸与抗微生物序列的肽、嵌合肽或二分体肽。CPP的示例包括:Tat(一种1型HIV病毒复制所需的核转录激活蛋白)、渗透肽、卡波西成纤维细胞生长因子(FGF)信号肽序列、整联蛋白β3信号肽序列、聚精氨酸肽Arg序列、鸟嘌呤富集分子转运蛋白、甜箭肽。CPP及其使用方法在如等人《细胞穿透肽的预测》(Methods Mol.Biol.,2015;1324:39-58)、Ramakrishna等人《由穿透细胞、肽介导的Cas9蛋白及向导RNA的递送实现的基因破坏》(Genome Res.,2014June;24(6):1020-7)、WO 2016205764A1中已进行描述,此处引用以上每一项的全文并入本文。

使用本文所述CRISPR系统的各种递送方法页在如美国专利第8,795,965号、EP300951、WO 2016205764、WO 2017070605中进行了描述,此处引用以上每一项的全文并入本文。

7.试剂盒

本发明的另一方面提供了一个试剂盒,这个试剂盒包含了本文所述受试CRISPR/Cas系统中两种或以上任何组分,所述组分例如Cas13e和Cas13f蛋白、衍生物、其功能片段或各种融合物或加合物、向导RNA/crRNA、它们的复合物、包含以上各项的载体或包含以上各项的宿主。

在一些实施方案中,该试剂盒还包括了如何使用其中组分的说明书,和/或如何与在别处获得的其他组分组合使用的说明书。

在一些实施方案中,该试剂盒还包含一个或多个核苷酸,这些核苷酸有些可响应将RNA编码序列插入一个载体的核苷酸,而上述编码序列在操作上可以连接至该载体中一个或多个控制元件。

在一些实施方案中,该试剂盒还包含一种或多种缓冲液,这种缓冲液可用于溶解任何组分,和/或为一种或多种组分提供合适的反应条件。所述缓冲剂可包括一种或多种以下缓冲剂:PBS、HEPES、Tris、MOPS、Na2CO3、NaHCO3、NaB或以上任意组合。在一些实施方案中,上述反应条件包括适当的pH值,例如一个碱性pH值。在一些实施方案中,所述pH值在7-10之间。

在一些实施方案中,该试剂盒中任何一种或多种组分可以存储在合适的容器中。

实施例

实施例1:新型Cas13e和Cas13f系统的鉴定

我们利用一个计算流程通过挖掘基因组和宏基因组数据对第2类CRISPR-Cas系统进行了扩充。所用基因组和宏基因组序列是从NCBI(Benson等人,2013;Pruitt等人,2012)、NCBI全基因组测序(WGS)、DOE JGI集成微生物基因组(Markowitz等人,2012)等数据库下载所得。对所有重叠群上大于5kb长的蛋白进行了预测(Prodigal匿名模式,Hyatt等人,2010)以及去重复(即去除相同的蛋白序列),以构建完整的蛋白数据库。大于600个残基的蛋白被视为大蛋白(LP)。由于目前鉴定出的Cas13蛋白大小大多数大于900个残基,为降低计算的复杂性,在后续步骤中仅考虑了大蛋白。

然后,使用Pidle-CR(参见Edgar《PILER-CR:快速、准确地鉴定CRISPR重复序列》BMC Bioinformatics 8:18,2007)的所有默认参数来鉴定CRISPR阵列。距离CRISPR阵列±10kb内的非冗余大蛋白的序列编码ORF被分组为几个CRISPR邻近大蛋白编码簇,且被编码的LP被定义为Cas-LP。

首先,用BLASP对Cas-LP进行成对的比对,得到Evalue<1E-10的BLASTP比对结果。然后,根据BLASTP结果,用MCL将Cas-LP进一步分类成簇,创建Cas蛋白家族。

然后,用BLASTP将Cas-LP与所有LP进行比对,获得Evalue<1E-10的BLASP比对结果。根据BLASTP比对结果进一步扩展Cas-LPs家族,所得到的Cas-LP家族用于进一步分析,保留扩增不超过一倍的Cas-LP蛋白家族。

我们用蛋白家族数据库Pfam(Finn等人,2014)、NR数据库、NCBI中的Cas蛋白来对候选Cas蛋白进行功能注释,过滤掉有已知功能的蛋白。然后用MAFFT对每种候选Cas效应蛋白进行多序列比对(Katoh和Standley,2013)。然后用JPred和HHpred分析这些蛋白质中的保守区域,来鉴定具有两个保守RXXXXH基序的候选Cas蛋白/家族。

上述分析鉴定出了七个新的Cas13效应蛋白,它们属于两个新的Cas13家族,这两个家族与所有以前鉴定的第2类CRISPR-Cas系统都不同,包括新Cas13e家族中的Cas13e.1(SEQ ID NO:1)、Cas13e.2(SEQ ID NO:2),以及新Cas13f家族中的Cas13f.1(SEQ ID NO:3)、Cas13f.2(SEQ ID NO:4)、Cas13f.3(SEQ ID NO:5)、Cas13f.4(SEQ ID NO:6)、Cas13f.5(SEQ ID NO:7)。

MAQVSKQTSKKRELSIDEYQGARKWCFTIAFNKALVNRDKNDGLFVESLLRHEKYSKHDWYDEDTRALIKCSTQAANAKAEALRNYFSHYRHSPGCLTFTAEDELRTIMERAYERAIFECRRRETEVIIEFPSLFEGDRITTAGVVFFVSFFVERRVLDRLYGAVSGLKKNEGQYKLTRKALSMYCLKDSRFTKAWDKRVLLFRDILAQLGRIPAEAYEYYHGEQGDKKRANDNEGTNPKRHKDKFIEFALHYLEAQHSEICFGRRHIVREEAGAGDEHKKHRTKGKVVVDFSKKDEDQSYYISKNNVIVRIDKNAGPRSYRMGLNELKYLVLLSLQGKGDDAIAKLYRYRQHVENILDVVKVTDKDNHVFLPRFVLEQHGIGRKAFKQRIDGRVKHVRGVWEKKKAATNEMTLHEKARDILQYVNENCTRSFNPGEYNRLLVCLVGKDVENFQAGLKRLQLAERIDGRVYSIFAQTSTINEMHQVVCDQILNRLCRIGDQKLYDYVGLGKKDEIDYKQKVAWFKEHISIRRGFLRKKFWYDSKKGFAKLVEEHLESGGGQRDVGLDKKYYHIDAIGRFEGANPALYETLARDRLCLMMAQYFLGSVRKELGNKIVWSNDSIELPVEGSVGNEKSIVFSVSDYGKLYVLDDAEFLGRICEYFMPHEKGKIRYHTVYEKGFRAYNDLQKKCVEAVLAFEEKVVKAKKMSEKEGAHYIDFREILAQTMCKEAEKTAVNKVRRAFFHHHLKFVIDEFGLFSDVMKKYGIEKEWKFPVK*(SEQ ID NO:1)

MKVENIKEKSKKAMYLINHYEGPKKWCFAIVLNRACDNYEDNPHLFSKSLLEFEKTSRKDWFDEETRELVEQADTEIQPNPNLKPNTTANRKLKDIRNYFSHHYHKNECLYFKNDDPIRCIMEAAYEKSKIYIKGKQIEQSDIPLPELFESSGWITPAGILLLASFFVERGILHRLMGNIGGFKDNRGEYGLTHDIFTTYCLKGSYSIRAQDHDAVMFRDILGYLSRVPTESFQRIKQPQIRKEGQLSERKTDKFITFALNYLEDYGLKDLEGCKACFARSKIVREQENVESINDKEYKPHENKKKVEIHFDQSKEDRFYINRNNVILKIQKKDGHSNIVRMGVYELKYLVLMSLVGKAKEAVEKIDNYIQDLRDQLPYIEGKNKEEIKEYVRFFPRFIRSHLGLLQINDEEKIKARLDYVKTKWLDKKEKSKELELHKKGRDILRYINERCDRELNRNVYNRILELLVSKDLTGFYRELEELKRTRRIDKNIVQNLSGQKTINALHEKVCDLVLKEIESLDTENLRKYLGLIPKEEKEVTFKEKVDRILKQPVIYKGFLRYQFFKDDKKSFVLLVEDALKEKGGGCDVPLGKEYYKIVSLDKYDKENKTLCETLAMDRLCLMMARQYYLSLNAKLAQEAQQIEWKKEDSIELIIFTLKNPDQSKQSFSIRFSVRDFTKLYVTDDPEFLARLCSYFFPVEKEIEYHKLYSEGINKYTNLQKEGIEAILELEKKLIERNRIQSAKNYLSFNEIMNKSGYNKDEQDDLKKVRNSLLHYKLIFEKEHLKKFYEVMRGEGIEKKWSLIV*(SEQ ID NO:2)

MNGIELKKEEAAFYFNQAELNLKAIEDNIFDKERRKTLLNNPQILAKMENFIFNFRDVTKNAKGEIDCLLLKLRELRNFYSHYVHKRDVRELSKGEKPILEKYYQFAIESTGSENVKLEIIENDAWLADAGVLFFLCIFLKKSQANKLISGISGFKRNDDTGQPRRNLFTYFSIREGYKVVPEMQKHFLLFSLVNHLSNQDDYIEKAHQPYDIGEGLFFHRIASTFLNISGILRNMKFYTYQSKRLVEQRGELKREKDIFAWEEPFQGNSYFEINGHKGVIGEDELKELCYAFLIGNQDANKVEGRITQFLEKFRNANSVQQVKDDEMLKPEYFPANYFAESGVGRIKDRVLNRLNKAIKSNKAKKGEIIAYDKMREVMAFINNSLPVDEKLKPKDYKRYLGMVRFWDREKDNIKREFETKEWSKYLPSNFWTAKNLERVYGLAREKNAELFNKLKADVEKMDERELEKYQKINDAKDLANLRRLASDFGVKWEEKDWDEYSGQIKKQITDSQKLTIMKQRITAGLKKKHGIENLNLRITIDINKSRKAVLNRIAIPRGFVKRHILGWQESEKVSKKIREAECEILLSKEYEELSKQFFQSKDYDKMTRINGLYEKNKLIALMAVYLMGQLRILFKEHTKLDDITKTTVDFKISDKVTVKIPFSNYPSLVYTMSSKYVDNIGNYGFSNKDKDKPILGKIDVIEKQRMEFIKEVLGFEKYLFDDKIIDKSKFADTATHISFAEIVEELVEKGWDKDRLTKLKDARNKALHGEILTGTSFDETKSLINELKK*(SEQ ID NO:3)

MSPDFIKLEKQEAAFYFNQTELNLKAIESNILDKQQRMILLNNPRILAKVGNFIFNFRDVTKNAKGEIDCLLFKLEELRNFYSHYVHTDNVKELSNGEKPLLERYYQIAIQATRSEDVKFELFETRNENKITDAGVLFFLCMFLKKSQANKLISGISGFKRNDPTGQPRRNLFTYFSAREGYKALPDMQKHFLLFTLVNYLSNQDEYISELKQYGEIGQGAFFNRIASTFLNISGISGNTKFYSYQSKRIKEQRGELNSEKDSFEWIEPFQGNSYFEINGHKGVIGEDELKELCYALLVAKQDINAVEGKIMQFLKKFRNTGNLQQVKDDEMLEIEYFPASYFNESKKEDIKKEILGRLDKKIRSCSAKAEKAYDKMKEVMEFINNSLPAEEKLKRKDYRRYLKMVRFWSREKGNIEREFRTKEWSKYFSSDFWRKNNLEDVYKLATQKNAELFKNLKAAAEKMGETEFEKYQQINDVKDLASLRRLTQDFGLKWEEKDWEEYSEQIKKQITDRQKLTIMKQRVTAELKKKHGIENLNLRITIDSNKSRKAVLNRIAIPRGFVKKHILGWQGSEKISKNIREAECKILLSKKYEELSRQFFEAGNFDKLTQINGLYEKNKLTAFMSVYLMGRLNIQLNKHTELGNLKKTEVDFKISDKVTEKIPFSQYPSLVYAMSRKYVDNVDKYKFSHQDKKKPFLGKIDSIEKERIEFIKEVLDFEEYLFKNKVIDKSKFSDTATHISFKEICDEMGKKGCNRNKLTELNNARNAALHGEIPSETSFREAKPLINELKK*(SEQ ID NO:4)

MSPDFIKLEKQEAAFYFNQTELNLKAIESNIFDKQQRVILLNNPQILAKVGDFIFNFRDVTKNAKGEIDCLLLKLRELRNFYSHYVYTDDVKILSNGERPLLEKYYQFAIEATGSENVKLEIIESNNRLTEAGVLFFLCMFLKKSQANKLISGISGFKRNDPTGQPRRNLFTYFSVREGYKVVPDMQKHFLLFVLVNHLSGQDDYIEKAQKPYDIGEGLFFHRIASTFLNISGILRNMEFYIYQSKRLKEQQGELKREKDIFPWIEPFQGNSYFEINGNKGIIGEDELKELCYALLVAGKDVRAVEGKITQFLEKFKNADNAQQVEKDEMLDRNNFPANYFAESNIGSIKEKILNRLGKTDDSYNKTGTKIKPYDMMKEVMEFINNSLPADEKLKRKDYRRYLKMVRIWDSEKDNIKREFESKEWSKYFSSDFWMAKNLERVYGLAREKNAELFNKLKAVVEKMDEREFEKYRLINSAEDLASLRRLAKDFGLKWEEKDWQEYSGQIKKQISDRQKLTIMKQRITAELKKKHGIENLNLRITIDSNKSRKAVLNRIAVPRGFVKEHILGWQGSEKVSKKTREAKCKILLSKEYEELSKQFFQTRNYDKMTQVNGLYEKNKLLAFMVVYLMERLNILLNKPTELNELEKAEVDFKISDKVMAKIPFSQYPSLVYAMSSKYADSVGSYKFENDEKNKPFLGKIDTIEKQRMEFIKEVLGFEEYLFEKKIIDKSEFADTATHISFDEICNELIKKGWDKDKLTKLKDARNAALHGEIPAETSFREAKPLINGLKK*(SEQ ID NO:5)

MNIIKLKKEEAAFYFNQTILNLSGLDEIIEKQIPHIISNKENAKKVIDKIFNNRLLLKSVENYIYNFKDVAKNARTEIEAILLKLVELRNFYSHYVHNDTVKILSNGEKPILEKYYQIAIEATGSKNVKLVIIENNNCLTDSGVLFLLCMFLKKSQANKLISSVSGFKRNDKEGQPRRNLFTYYSVREGYKVVPDMQKHFLLFALVNHLSEQDDHIEKQQQSDELGKGLFFHRIASTFLNESGIFNKMQFYTYQSNRLKEKRGELKHEKDTFTWIEPFQGNSYFTLNGHKGVISEDQLKELCYTILIEKQNVDSLEGKIIQFLKKFQNVSSKQQVDEDELLKREYFPANYFGRAGTGTLKEKILNRLDKRMDPTSKVTDKAYDKMIEVMEFINMCLPSDEKLRQKDYRRYLKMVRFWNKEKHNIKREFDSKKWTRFLPTELWNKRNLEEAYQLARKENKKKLEDMRNQVRSLKENDLEKYQQINYVNDLENLRLLSQELGVKWQEKDWVEYSGQIKKQISDNQKLTIMKQRITAELKKMHGIENLNLRISIDTNKSRQTVMNRIALPKGFVKNHIQQNSSEKISKRIREDYCKIELSGKYEELSRQFFDKKNFDKMTLINGLCEKNKLIAFMVIYLLERLGFELKEKTKLGELKQTRMTYKISDKVKEDIPLSYYPKLVYAMNRKYVDNIDSYAFAAYESKKAILDKVDIIEKQRMEFIKQVLCFEEYIFENRIIEKSKFNDEETHISFTQIHDELIKKGRDTEKLSKLKHARNKALHGEIPDGTSFEKAKLLINEIKK*(SEQ ID NO:6)

MNAIELKKEEAAFYFNQARLNISGLDEIIEKQLPHIGSNRENAKKTVDMILDNPEVLKKMENYVFNSRDIAKNARGELEALLLKLVELRNFYSHYVHKDDVKTLSYGEKPLLDKYYEIAIEATGSKDVRLEIIDDKNKLTDAGVLFLLCMFLKKSEANKLISSIRGFKRNDKEGQPRRNLFTYYSVREGYKVVPDMQKHFLLFTLVNHLSNQDEYISNLRPNQEIGQGGFFHRIASKFLSDSGILHSMKFYTYRSKRLTEQRGELKPKKDHFTWIEPFQGNSYFSVQGQKGVIGEEQLKELCYVLLVAREDFRAVEGKVTQFLKKFQNANNVQQVEKDEVLEKEYFPANYFENRDVGRVKDKILNRLKKITESYKAKGREVKAYDKMKEVMEFINNCLPTDENLKLKDYRRYLKMVRFWGREKENIKREFDSKKWERFLPRELWQKRNLEDAYQLAKEKNTELFNKLKTTVERMNELEFEKYQQINDAKDLANLRQLARDFGVKWEEKDWQEYSGQIKKQITDRQKLTIMKQRITAALKKKQGIENLNLRITTDTNKSRKVVLNRIALPKGFVRKHILKTDIKISKQIRQSQCPIILSNNYMKLAKEFFEERNFDKMTQINGLFEKNVLIAFMIVYLMEQLNLRLGKNTELSNLKKTEVNFTITDKVTEKVQISQYPSLVFAINREYVDGISGYKLPPKKPKEPPYTFFEKIDAIEKERMEFIKQVLGFEEHLFEKNVIDKTRFTDTATHISFNEICDELIKKGWDENKIIKLKDARNAALHGKIPEDTSFDEAKVLINELKK*(SEQ ID NO:7)

在相应前crRNA序列中,编码同向重复(DR)序列的DNA分别为SEQ ID NO:8-14。

GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:8)

GCTGAAGAAGCCTCCGATTTGAGAGGTGATTACAGC(SEQ ID NO:9)

GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:10)

GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:11)

GCTGTGATAGACCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:12)

GCTGTGATGGGCCTCAATTTGTGGGGAAGTAACAGC(SEQ ID NO:13)

GCTGTGATAGGCCTCGATTTGTGGGGTAGTAACAGC(SEQ ID NO:14)

Cas13e.1、Cas13e.2、Cas13f.1、Cas13f.2、Cas13f.3、Cas13f.4、Cas13f.5蛋白质的天然(野生型)DNA编码序列,分别为SEQ ID NO:15-21。

ATGGCGCAAGTGTCAAAGCAGACTTCGAAAAAGAGAGAGTTGTCTATCGATGAATATCAAGGTGCTCGGAAATGGTGTTTTACGATTGCCTTCAACAAGGCTCTTGTGAATCGAGATAAGAACGACGGGCTTTTTGTCGAGTCGCTGTTACGCCATGAAAAGTATTCAAAGCACGACTGGTACGATGAGGATACACGCGCTTTGATCAAGTGTAGCACACAAGCGGCCAATGCGAAGGCCGAGGCGTTAAGAAACTATTTCTCCCACTATCGACATTCGCCCGGGTGTCTGACATTTACAGCAGAAGATGAGTTGCGGACAATCATGGAAAGGGCGTATGAGCGGGCGATCTTTGAATGCAGGAGACGCGAAACTGAAGTGATCATCGAGTTTCCCAGCCTGTTCGAAGGCGACCGGATCACTACGGCGGGGGTTGTGTTTTTCGTTTCGTTCTTTGTTGAACGGCGGGTGCTGGATCGTTTGTACGGTGCGGTAAGTGGGCTTAAGAAAAACGAAGGACAGTACAAGCTGACTCGGAAGGCGCTTTCGATGTATTGCCTGAAAGACAGTCGTTTCACGAAGGCGTGGGACAAACGCGTGCTGCTTTTCAGGGATATACTCGCGCAGCTTGGACGCATCCCTGCGGAGGCGTATGAATACTACCACGGAGAGCAGGGCGACAAGAAAAGAGCAAACGACAATGAGGGGACGAATCCGAAACGCCATAAAGACAAGTTCATCGAGTTTGCACTGCATTATCTGGAGGCGCAACACAGTGAGATATGCTTCGGGCGGCGACACATTGTCAGGGAGGAGGCCGGGGCAGGCGACGAACACAAAAAGCACAGGACCAAAGGCAAGGTAGTTGTCGACTTTTCAAAAAAAGACGAAGATCAGTCATACTATATCAGTAAGAACAATGTTATCGTCAGGATTGATAAGAATGCCGGGCCTCGGAGTTATCGCATGGGGCTTAACGAATTGAAATACCTTGTATTGCTTAGCCTTCAGGGAAAGGGCGACGATGCGATTGCAAAACTGTACAGGTATCGGCAGCATGTGGAGAACATTCTGGATGTAGTGAAGGTCACAGATAAGGATAATCACGTCTTCCTGCCGCGATTTGTGCTGGAGCAACATGGGATTGGCAGGAAAGCTTTTAAGCAAAGAATAGACGGCAGAGTAAAGCATGTTCGAGGGGTGTGGGAAAAGAAGAAGGCGGCGACCAACGAGATGACACTTCACGAGAAGGCGCGGGACATTCTTCAATACGTAAATGAAAATTGCACGAGGTCTTTCAATCCCGGCGAGTACAACCGGCTGCTGGTGTGTCTGGTTGGCAAGGATGTTGAGAATTTTCAGGCGGGACTGAAACGCCTGCAACTGGCCGAGCGAATCGACGGGCGGGTATATTCAATTTTTGCGCAGACCTCCACAATAAACGAGATGCATCAGGTGGTGTGTGATCAGATTCTCAACAGACTTTGCCGAATCGGCGATCAGAAGCTCTACGATTATGTGGGGCTTGGGAAGAAGGATGAAATAGATTACAAGCAGAAGGTTGCATGGTTCAAGGAGCATATTTCTATCCGCAGGGGTTTCTTGCGCAAGAAGTTCTGGTATGACAGCAAGAAGGGATTCGCGAAGCTTGTGGAAGAGCATTTGGAAAGCGGCGGCGGACAGAGGGACGTTGGGCTGGATAAAAAGTATTATCATATTGATGCGATTGGGCGATTCGAGGGTGCTAATCCAGCCTTGTATGAAACGCTGGCGCGAGACCGTTTGTGTCTGATGATGGCGCAATACTTCCTGGGGAGTGTACGCAAGGAATTGGGTAATAAAATTGTGTGGTCGAATGATAGCATCGAGTTGCCCGTGGAGGGCTCAGTGGGTAACGAAAAAAGCATCGTCTTCTCAGTGAGTGATTACGGCAAGTTATATGTGTTGGATGACGCTGAGTTTCTTGGGCGGATATGTGAGTACTTTATGCCGCACGAAAAAGGGAAGATACGGTATCATACAGTTTACGAAAAAGGGTTTAGGGCATATAATGATCTGCAGAAGAAATGTGTCGAGGCGGTGCTGGCGTTTGAAGAGAAGGTTGTCAAAGCCAAAAAGATGAGCGAGAAGGAAGGGGCGCATTATATTGATTTTCGTGAGATACTGGCACAAACAATGTGTAAAGAGGCGGAGAAGACCGCCGTGAATAAGGTGCGTAGAGCGTTTTTCCATCATCATTTAAAGTTTGTGATAGATGAATTTGGGTTGTTTAGTGATGTTATGAAGAAATATGGAATTGAAAAGGAGTGGAAGTTTCCTGTTAAATGA(SEQ ID NO:15)

ATGAAGGTTGAAAATATTAAAGAAAAAAGCAAAAAAGCAATGTATTTAATCAACCATTATGAGGGACCCAAAAAATGGTGTTTTGCAATAGTTCTGAATAGGGCATGTGATAATTACGAGGACAATCCACACTTGTTTTCCAAATCACTTTTGGAATTTGAAAAAACAAGTCGAAAAGATTGGTTTGACGAAGAAACACGAGAGCTTGTTGAGCAAGCAGATACAGAAATACAGCCAAATCCTAACCTGAAACCTAATACAACAGCTAACCGAAAACTCAAAGATATAAGAAACTATTTTTCGCATCATTATCACAAGAACGAATGCCTGTATTTTAAGAACGATGATCCCATACGCTGCATTATGGAAGCGGCGTATGAAAAATCTAAAATTTATATCAAAGGAAAGCAGATTGAGCAAAGCGATATACCATTGCCCGAATTGTTTGAAAGCAGCGGTTGGATTACACCGGCGGGGATTTTGTTACTGGCATCCTTTTTTGTTGAACGAGGGATTCTACATCGCTTGATGGGAAATATCGGAGGATTTAAAGATAATCGAGGCGAATACGGTCTTACACACGATATTTTTACCACCTATTGTCTTAAGGGTAGTTATTCAATTCGGGCGCAGGATCATGATGCGGTAATGTTCAGAGATATTCTCGGCTATCTGTCACGAGTTCCCACTGAGTCATTTCAGCGTATCAAGCAACCTCAAATACGAAAAGAAGGCCAATTAAGTGAAAGAAAGACGGACAAATTTATAACATTTGCACTAAATTATCTTGAGGATTATGGGCTGAAAGATTTGGAAGGCTGCAAAGCCTGTTTTGCCAGAAGTAAAATTGTAAGGGAACAAGAAAATGTTGAAAGCATAAATGATAAGGAATACAAACCTCACGAGAACAAAAAGAAAGTTGAAATTCACTTCGATCAGAGCAAAGAAGACCGATTTTATATTAATCGCAATAACGTTATTTTGAAGATTCAGAAGAAAGATGGACATTCCAACATAGTTAGGATGGGAGTATATGAACTTAAATATCTCGTTCTTATGAGTTTAGTGGGAAAAGCAAAAGAAGCAGTTGAAAAAATTGACAACTATATCCAGGATTTGCGAGACCAGTTGCCTTACATAGAGGGGAAAAATAAGGAAGAGATTAAAGAATACGTCAGGTTCTTTCCACGATTTATACGTTCTCACCTCGGTTTACTACAGATTAACGATGAAGAAAAGATAAAAGCTCGATTAGATTATGTTAAGACCAAGTGGTTAGATAAAAAGGAAAAATCGAAAGAGCTTGAACTTCATAAAAAAGGACGGGACATCCTCAGGTATATCAACGAGCGATGTGATAGAGAGCTTAACAGGAATGTATATAACCGTATTTTAGAGCTCCTGGTCAGCAAAGACCTCACTGGTTTTTATCGTGAGCTTGAAGAACTAAAAAGAACAAGGCGGATAGATAAAAATATTGTCCAGAATCTTTCTGGGCAAAAAACCATTAATGCACTGCATGAAAAGGTCTGTGATCTGGTGCTGAAGGAAATCGAAAGTCTCGATACAGAAAATCTCAGGAAATATCTTGGATTGATACCCAAAGAAGAAAAAGAGGTCACTTTCAAAGAAAAGGTCGATAGGATTTTGAAACAGCCAGTTATTTACAAAGGGTTTCTGAGATACCAATTCTTCAAAGATGACAAAAAGAGTTTTGTCTTACTTGTTGAAGACGCATTGAAGGAAAAAGGAGGAGGTTGTGATGTTCCTCTTGGGAAAGAGTATTATAAAATCGTGTCACTTGATAAGTATGATAAAGAAAATAAAACCCTGTGTGAAACTCTGGCGATGGATAGGCTTTGCCTTATGATGGCAAGACAATATTATCTCAGTCTGAATGCAAAACTTGCACAGGAAGCTCAGCAAATCGAATGGAAGAAAGAAGATAGTATAGAATTGATTATTTTCACCTTAAAAAATCCCGATCAATCAAAGCAGAGTTTTTCTATACGGTTTTCGGTCAGAGATTTTACGAAGTTGTATGTAACGGATGATCCTGAATTTCTGGCCCGGCTTTGTTCCTACTTTTTCCCAGTTGAAAAAGAGATTGAATATCACAAGCTCTATTCAGAAGGGATAAATAAATACACAAACCTGCAAAAAGAGGGAATCGAAGCAATACTCGAGCTTGAAAAAAAGCTTATTGAACGAAATCGGATTCAATCTGCAAAAAATTATCTCTCATTTAATGAGATAATGAATAAAAGCGGTTATAATAAAGATGAGCAGGATGATCTAAAGAAGGTGCGAAATTCTCTTTTGCATTATAAGCTTATCTTTGAGAAAGAACATCTCAAGAAGTTCTATGAGGTTATGAGAGGAGAAGGGATAGAGAAAAAGTGGTCTTTAATAGTATGA(SEQ ID NO:16)

ATGAATGGCATTGAATTAAAAAAAGAAGAAGCAGCATTTTATTTTAATCAGGCAGAGCTTAATTTAAAAGCCATAGAAGACAATATTTTTGATAAAGAAAGACGAAAGACTCTGCTTAATAATCCACAGATACTTGCCAAAATGGAAAATTTCATTTTCAATTTCAGAGATGTAACAAAAAATGCAAAAGGGGAAATTGACTGCTTGCTGTTGAAACTAAGAGAGCTGAGAAACTTTTACTCGCATTATGTCCACAAACGAGATGTAAGAGAATTAAGCAAGGGCGAGAAACCTATACTTGAAAAGTATTACCAATTTGCGATTGAATCAACCGGAAGTGAAAATGTTAAACTTGAGATAATAGAAAACGACGCGTGGCTTGCAGATGCCGGTGTGTTGTTTTTCTTATGTATTTTTTTGAAGAAATCTCAGGCAAATAAGCTTATAAGCGGTATCAGCGGTTTTAAAAGAAACGATGATACCGGTCAGCCGAGAAGGAATTTATTTACCTATTTCAGTATAAGGGAGGGATACAAGGTTGTTCCGGAAATGCAGAAACATTTCCTTTTGTTTTCTCTTGTTAATCATCTCTCTAATCAAGATGATTATATTGAAAAAGCGCATCAGCCATACGATATAGGCGAGGGTTTATTTTTTCATCGAATAGCTTCTACATTTCTTAATATAAGTGGGATTTTAAGAAATATGAAATTCTATACCTATCAGAGTAAAAGGTTAGTAGAGCAGCGGGGAGAACTCAAACGAGAAAAGGATATTTTTGCGTGGGAAGAACCGTTTCAAGGAAATAGTTATTTTGAAATAAATGGTCATAAAGGAGTAATCGGTGAAGATGAATTGAAGGAACTATGTTATGCATTTCTGATTGGCAATCAAGATGCTAATAAAGTGGAAGGCAGGATTACACAATTTCTAGAAAAGTTTAGAAATGCGAACAGTGTGCAACAAGTTAAAGATGATGAAATGCTAAAACCAGAGTATTTTCCTGCAAATTATTTTGCTGAATCAGGCGTCGGAAGAATAAAGGATAGAGTGCTTAATCGTTTGAATAAAGCGATTAAAAGCAATAAGGCCAAGAAAGGAGAGATTATAGCATACGATAAGATGAGAGAGGTTATGGCGTTCATAAATAATTCTCTGCCGGTAGATGAAAAATTGAAACCAAAAGATTACAAACGATATCTGGGAATGGTTCGTTTCTGGGACAGGGAAAAAGATAACATAAAGCGGGAGTTCGAGACAAAAGAATGGTCTAAATATCTTCCATCTAATTTCTGGACGGCAAAAAACCTTGAAAGGGTCTATGGTCTGGCAAGAGAGAAAAACGCAGAATTATTCAATAAACTAAAAGCGGATGTAGAAAAAATGGACGAACGGGAACTTGAGAAGTATCAGAAGATAAATGATGCAAAGGATTTGGCAAATTTACGCCGGCTTGCAAGCGACTTTGGTGTGAAGTGGGAAGAAAAAGACTGGGATGAGTATTCAGGACAGATAAAAAAACAAATTACAGACAGCCAGAAACTAACAATAATGAAGCAGCGGATAACCGCAGGACTAAAGAAAAAGCACGGCATAGAAAATCTTAACCTGAGAATAACTATCGACATCAATAAAAGCAGAAAGGCAGTTTTGAACAGAATTGCGATTCCGAGGGGTTTTGTAAAAAGGCATATTTTAGGATGGCAAGAGTCTGAGAAGGTATCGAAAAAGATAAGAGAGGCAGAATGCGAAATTCTGCTGTCGAAAGAATACGAAGAACTATCGAAACAATTTTTCCAAAGCAAAGATTATGACAAAATGACACGGATAAATGGCCTTTATGAAAAAAACAAACTTATAGCCCTGATGGCAGTTTATCTAATGGGGCAATTGAGAATCCTGTTTAAAGAACACACAAAACTTGACGATATTACGAAAACAACTGTGGATTTCAAAATATCTGATAAGGTGACGGTAAAAATCCCCTTTTCAAATTATCCTTCGCTCGTTTATACAATGTCCAGTAAGTATGTTGATAATATAGGGAATTATGGATTTTCCAACAAAGATAAAGACAAGCCGATTTTAGGTAAGATTGATGTAATAGAAAAACAGCGAATGGAATTTATAAAAGAGGTTCTTGGTTTTGAAAAATATCTTTTTGATGATAAAATAATAGATAAAAGCAAATTTGCTGATACAGCGACTCATATAAGTTTTGCAGAAATAGTTGAGGAGCTTGTTGAAAAAGGATGGGACAAAGACAGACTGACAAAACTTAAAGATGCAAGAAATAAAGCCCTGCATGGTGAAATACTGACGGGAACCAGCTTTGATGAAACAAAATCATTGATAAACGAATTAAAAAAATGA(SEQ I D NO:17)

ATGTCCCCAGATTTCATCAAATTAGAAAAACAGGAAGCAGCTTTTTACTTTAATCAGACAGAGCTTAATTTAAAAGCCATAGAAAGCAATATTTTAGACAAACAACAGCGAATGATTCTGCTTAATAATCCACGGATACTTGCCAAAGTAGGAAATTTCATTTTCAATTTCAGAGATGTAACAAAAAATGCAAAAGGAGAAATAGACTGTCTGCTATTTAAACTGGAAGAGCTAAGAAACTTTTACTCGCATTATGTTCATACCGACAATGTAAAGGAATTGAGTAACGGAGAAAAACCCCTACTGGAAAGATATTATCAAATCGCTATTCAGGCAACCAGGAGTGAGGATGTTAAGTTCGAATTGTTTGAAACAAGAAACGAGAATAAGATTACGGATGCCGGTGTATTGTTTTTCTTATGTATGTTTTTAAAAAAATCACAGGCAAACAAGCTTATAAGCGGTATCAGCGGCTTCAAAAGAAATGATCCAACAGGCCAGCCGAGAAGAAACTTATTTACCTATTTCAGTGCAAGAGAAGGATATAAGGCTTTGCCTGATATGCAGAAACATTTTCTTCTTTTTACTCTGGTTAATTATTTGTCGAATCAGGATGAGTATATCAGCGAGCTTAAACAATATGGAGAGATTGGTCAAGGAGCCTTTTTTAATCGAATAGCTTCAACATTTTTGAATATCAGCGGGATTTCAGGAAATACGAAATTCTATTCGTATCAAAGTAAAAGGATAAAAGAGCAGCGAGGCGAACTCAATAGCGAAAAGGACAGCTTTGAATGGATAGAGCCTTTCCAAGGAAACAGCTATTTTGAAATAAATGGGCATAAAGGAGTAATCGGCGAAGACGAATTAAAAGAACTTTGTTATGCATTGTTGGTTGCCAAGCAAGATATTAATGCCGTTGAAGGCAAAATTATGCAATTCCTGAAAAAGTTTAGAAATACTGGCAATTTGCAGCAAGTTAAAGATGATGAAATGCTGGAAATAGAATATTTTCCCGCAAGTTATTTTAATGAATCAAAAAAAGAGGACATAAAGAAAGAGATTCTTGGCCGGCTGGATAAAAAGATTCGCTCCTGCTCTGCAAAGGCAGAAAAAGCCTATGATAAGATGAAAGAGGTGATGGAGTTTATAAATAATTCTCTGCCGGCAGAGGAAAAATTGAAACGCAAAGATTATAGAAGATATCTAAAGATGGTTCGTTTCTGGAGCAGAGAAAAAGGCAATATAGAGCGGGAATTTAGAACAAAGGAATGGTCAAAATATTTTTCATCTGATTTTTGGCGGAAGAACAATCTTGAAGATGTGTACAAACTGGCAACACAAAAAAACGCTGAACTGTTCAAAAATCTAAAAGCGGCAGCAGAGAAAATGGGTGAAACGGAATTTGAAAAGTATCAGCAGATAAACGATGTAAAGGATTTGGCAAGTTTAAGGCGGCTTACGCAAGATTTTGGTTTGAAGTGGGAAGAAAAGGACTGGGAGGAGTATTCCGAGCAGATAAAAAAACAAATTACGGACAGGCAGAAACTGACAATAATGAAACAAAGGGTTACGGCTGAACTAAAGAAAAAGCACGGCATAGAAAATCTTAATCTGAGAATAACCATCGACAGCAATAAAAGCAGAAAGGCGGTTTTGAACAGAATAGCAATTCCAAGAGGATTTGTAAAAAAACATATTTTAGGCTGGCAGGGATCTGAGAAGATATCGAAAAATATAAGGGAAGCAGAATGCAAAATTCTGCTATCGAAAAAATATGAAGAGTTATCAAGGCAGTTTTTTGAAGCCGGTAATTTCGATAAGCTGACGCAGATAAATGGTCTTTATGAAAAGAATAAACTTACAGCTTTTATGTCAGTATATTTGATGGGTCGGTTGAATATTCAGCTTAATAAGCACACAGAACTTGGAAATCTTAAAAAAACAGAGGTGGATTTTAAGATATCTGATAAGGTGACTGAAAAAATACCGTTTTCTCAGTATCCTTCGCTTGTCTATGCGATGTCTCGCAAATATGTTGACAATGTGGATAAATATAAATTTTCTCATCAAGATAAAAAGAAGCCATTTTTAGGTAAAATTGATTCAATTGAAAAAGAACGTATTGAATTCATAAAAGAGGTTCTCGATTTTGAAGAGTATCTTTTTAAAAATAAGGTAATAGATAAAAGCAAATTTTCCGATACAGCGACTCATATTAGCTTTAAGGAAATATGTGATGAAATGGGTAAAAAAGGATGTAACCGAAACAAACTAACCGAACTTAACAACGCAAGGAACGCAGCCCTGCATGGTGAAATACCGTCGGAGACCTCTTTTCGTGAAGCAAAACCGTTGATAAATGAATTGAAAAAATGA(SEQ ID NO:18)

ATGTCCCCAGATTTCATCAAATTAGAAAAACAAGAAGCAGCTTTTTACTTTAATCAGACAGAGCTTAATTTAAAAGCCATAGAAAGCAATATTTTCGACAAACAACAGCGAGTGATTCTGCTTAATAATCCACAGATACTTGCCAAAGTAGGAGATTTTATTTTCAATTTCAGAGATGTAACAAAAAACGCAAAAGGAGAAATAGACTGTTTGCTATTGAAACTAAGAGAGCTGAGAAACTTTTACTCACACTATGTCTATACCGATGACGTGAAGATATTGAGTAACGGCGAAAGACCTCTGCTGGAAAAATATTATCAATTTGCGATTGAAGCAACCGGAAGTGAAAATGTTAAACTTGAAATAATAGAAAGCAACAACCGACTTACGGAAGCGGGCGTGCTGTTTTTCTTGTGTATGTTTTTGAAAAAGTCTCAGGCAAATAAGCTTATAAGCGGTATCAGCGGTTTTAAAAGAAATGACCCGACAGGTCAGCCGAGAAGGAATTTATTTACCTACTTCAGTGTAAGGGAGGGATACAAGGTTGTGCCGGATATGCAGAAACATTTTCTTTTGTTTGTTCTTGTCAATCATCTCTCTGGTCAGGATGATTATATTGAAAAGGCGCAAAAGCCATACGATATAGGCGAGGGTTTATTTTTTCATCGAATAGCTTCTACATTTCTTAATATCAGTGGGATTTTAAGAAATATGGAATTCTATATTTACCAGAGCAAAAGACTAAAGGAGCAGCAAGGAGAGCTCAAACGTGAAAAGGATATTTTTCCATGGATAGAGCCTTTCCAGGGAAATAGTTATTTTGAAATAAATGGTAATAAAGGAATAATCGGCGAAGATGAATTGAAAGAGCTTTGTTATGCGTTGCTGGTTGCAGGAAAAGATGTCAGAGCCGTCGAAGGTAAAATAACACAATTTTTGGAAAAGTTTAAAAATGCGGACAATGCTCAGCAAGTTGAAAAAGATGAAATGCTGGACAGAAACAATTTTCCCGCCAATTATTTCGCCGAATCGAACATCGGCAGCATAAAGGAAAAAATACTTAATCGTTTGGGAAAAACTGATGATAGTTATAATAAGACGGGGACAAAGATTAAACCATACGACATGATGAAAGAGGTAATGGAGTTTATAAATAATTCTCTTCCGGCAGATGAAAAATTGAAACGCAAAGATTACAGAAGATATCTAAAGATGGTTCGTATCTGGGACAGTGAGAAAGATAATATAAAGCGGGAGTTTGAAAGCAAAGAATGGTCAAAATATTTTTCATCTGATTTCTGGATGGCAAAAAATCTTGAAAGGGTCTATGGGTTGGCAAGAGAGAAAAACGCCGAATTATTCAATAAGCTAAAAGCGGTTGTGGAGAAAATGGACGAGCGGGAATTTGAGAAGTATCGGCTGATAAATAGCGCAGAGGATTTGGCAAGTTTAAGACGGCTTGCGAAAGATTTTGGCCTGAAGTGGGAAGAAAAGGACTGGCAAGAGTATTCTGGGCAGATAAAAAAACAAATTTCTGACAGGCAGAAACTGACAATAATGAAACAAAGGATTACGGCTGAACTAAAGAAAAAGCACGGCATAGAAAATCTCAATCTTAGAATAACCATCGACAGCAATAAAAGCAGAAAGGCAGTTTTGAACAGAATCGCAGTTCCAAGAGGTTTTGTGAAAGAGCATATTTTAGGATGGCAGGGGTCTGAGAAGGTATCGAAAAAGACAAGAGAAGCAAAGTGCAAAATTCTGCTCTCGAAAGAATATGAAGAATTATCAAAGCAATTTTTCCAAACCAGAAATTACGACAAGATGACGCAGGTAAACGGTCTTTACGAAAAGAATAAACTCTTAGCATTTATGGTCGTTTATCTTATGGAGCGGTTGAATATCCTGCTTAATAAGCCCACAGAACTTAATGAACTTGAAAAAGCAGAGGTGGATTTCAAGATATCTGATAAGGTGATGGCCAAAATCCCGTTTTCACAGTATCCTTCGCTTGTGTACGCGATGTCCAGCAAATATGCTGATAGTGTAGGCAGTTATAAATTTGAGAATGATGAAAAAAACAAGCCGTTTTTAGGCAAGATCGATACAATAGAAAAACAACGAATGGAGTTTATAAAAGAAGTCCTTGGTTTTGAAGAGTATCTTTTTGAAAAGAAGATAATAGATAAAAGCGAATTTGCCGACACAGCGACTCATATAAGTTTTGATGAAATATGTAATGAGCTTATTAAAAAAGGATGGGATAAAGACAAACTAACCAAACTTAAAGATGCCAGGAACGCGGCCCTGCATGGCGAAATACCGGCGGAGACCTCTTTTCGTGAAGCAAAACCGTTGATAAATGGATTGAAAAAATGA(SEQ ID NO:19)

ATGAACATCATTAAATTAAAAAAAGAAGAAGCTGCGTTTTATTTTAATCAGACGATCCTCAATCTTTCAGGGCTTGATGAAATTATTGAAAAACAAATTCCGCACATAATCAGCAACAAGGAAAATGCAAAGAAAGTGATTGATAAGATTTTCAATAACCGCTTATTATTAAAAAGTGTGGAGAATTATATCTACAACTTTAAAGATGTGGCTAAAAACGCAAGAACTGAAATTGAGGCTATATTGTTGAAATTAGTAGAGCTACGTAATTTTTACTCACATTACGTTCATAATGATACCGTCAAGATACTAAGTAACGGTGAAAAACCTATACTGGAAAAATATTATCAAATTGCTATAGAAGCAACCGGAAGTAAAAATGTTAAACTTGTAATCATAGAAAACAACAACTGTCTCACGGATTCTGGCGTGCTGTTTTTGCTGTGTATGTTCTTAAAAAAATCACAGGCAAACAAGCTTATAAGTTCCGTTAGTGGTTTTAAAAGGAATGATAAAGAAGGACAACCGAGAAGAAATCTATTCACTTATTATAGTGTGAGGGAGGGATATAAGGTTGTGCCTGATATGCAGAAGCATTTCCTTCTATTCGCTCTGGTCAATCATCTATCTGAGCAGGATGATCATATTGAGAAGCAGCAGCAGTCAGACGAGCTCGGTAAGGGTTTGTTTTTCCATCGTATAGCTTCGACTTTTTTAAACGAGAGCGGCATCTTCAATAAAATGCAATTTTATACATATCAGAGCAACAGGCTAAAAGAGAAAAGAGGAGAACTCAAACACGAAAAGGATACCTTTACATGGATAGAGCCTTTTCAAGGCAATAGTTATTTTACGTTAAATGGACATAAGGGAGTGATTAGTGAAGATCAATTGAAGGAGCTTTGTTACACAATTTTAATTGAGAAGCAAAACGTTGATTCCTTGGAAGGTAAAATTATACAATTTCTCAAAAAATTTCAGAATGTCAGCAGCAAGCAGCAAGTTGACGAAGATGAATTGCTTAAAAGAGAATATTTCCCTGCAAATTACTTTGGCCGGGCAGGAACAGGGACCCTAAAAGAAAAGATTCTAAACCGGCTTGATAAGAGGATGGATCCTACATCTAAAGTGACGGATAAAGCTTATGACAAAATGATTGAAGTGATGGAATTTATCAATATGTGCCTTCCGTCTGATGAGAAGTTGAGGCAAAAGGATTATAGACGATACTTAAAGATGGTTCGTTTCTGGAATAAGGAAAAGCATAACATTAAGCGCGAGTTTGACAGTAAAAAATGGACGAGGTTTTTGCCGACGGAATTGTGGAATAAAAGAAATCTAGAAGAAGCCTATCAATTAGCACGGAAAGAGAACAAAAAGAAACTTGAAGATATGAGAAATCAAGTACGAAGCCTTAAAGAAAATGACCTTGAAAAATATCAGCAGATTAATTACGTTAATGACCTGGAGAATTTAAGGCTTCTGTCACAGGAGTTAGGTGTGAAATGGCAGGAAAAGGACTGGGTTGAATATTCCGGGCAGATAAAGAAGCAGATATCAGACAATCAGAAACTTACAATCATGAAACAAAGGATTACCGCTGAACTAAAGAAAATGCACGGCATCGAGAATCTTAATCTTAGAATAAGCATTGACACGAATAAAAGCAGGCAGACGGTTATGAACAGGATAGCTTTGCCCAAAGGTTTTGTGAAGAATCATATCCAGCAAAATTCGTCTGAGAAAATATCGAAAAGAATAAGAGAGGATTATTGTAAAATTGAGCTATCGGGAAAATATGAAGAACTTTCAAGGCAATTTTTTGATAAAAAGAATTTCGATAAGATGACACTGATAAACGGCCTTTGTGAAAAGAACAAACTTATCGCATTTATGGTTATCTATCTTTTGGAGCGGCTTGGATTTGAATTAAAGGAGAAAACAAAATTAGGCGAGCTTAAACAAACAAGGATGACATATAAAATATCCGATAAGGTAAAAGAAGATATCCCGCTTTCCTATTACCCCAAGCTTGTGTATGCAATGAACCGAAAATATGTTGACAATATCGATAGTTATGCATTTGCGGCTTACGAATCCAAAAAAGCTATTTTGGATAAAGTGGATATCATAGAAAAGCAACGTATGGAATTTATCAAACAAGTTCTCTGTTTTGAGGAATATATTTTCGAAAATAGGATTATCGAAAAAAGCAAATTTAATGACGAGGAGACTCATATAAGTTTTACACAAATACATGATGAGCTTATTAAAAAAGGACGGGACACAGAAAAACTCTCTAAACTCAAACATGCAAGGAATAAAGCCTTGCACGGCGAGATTCCTGATGGGACTTCTTTTGAAAAAGCAAAGCTATTGATAAATGAAATCAAAAAATGA(SEQ ID NO:20)

ATGAATGCTATCGAACTAAAAAAAGAGGAAGCAGCATTTTATTTTAATCAGGCAAGACTCAACATTTCAGGACTTGATGAAATTATTGAAAAGCAGTTACCACATATAGGTAGTAACAGGGAGAATGCGAAAAAAACTGTTGATATGATTTTGGATAATCCCGAAGTCTTGAAGAAGATGGAAAATTATGTCTTTAACTCACGAGATATAGCAAAGAACGCAAGAGGTGAACTTGAAGCATTGTTGTTGAAATTAGTAGAACTGCGTAATTTTTATTCACATTATGTTCATAAAGATGATGTTAAGACATTGAGTTACGGAGAAAAACCTTTACTGGATAAATATTATGAAATTGCGATTGAAGCGACCGGAAGTAAAGATGTCAGACTTGAGATAATAGATGATAAAAATAAGCTTACAGATGCCGGTGTGCTTTTTTTATTGTGTATGTTTTTGAAAAAATCAGAGGCAAACAAACTTATCAGTTCAATCAGGGGCTTTAAAAGAAACGATAAAGAAGGCCAGCCGAGAAGAAATCTATTCACTTACTACAGTGTCAGAGAGGGATATAAGGTTGTGCCTGATATGCAGAAACATTTTCTTTTATTCACACTGGTTAACCATTTGTCAAATCAGGATGAATACATCAGTAATCTTAGGCCGAATCAAGAAATCGGCCAAGGGGGATTTTTCCATAGAATAGCATCAAAATTTTTGAGCGATAGCGGGATTTTACATAGTATGAAATTCTACACCTACCGGAGTAAAAGACTAACAGAACAACGGGGGGAGCTTAAGCCGAAAAAAGATCATTTTACATGGATAGAGCCTTTTCAGGGAAACAGTTATTTTTCAGTGCAGGGCCAAAAAGGAGTAATTGGTGAAGAGCAATTAAAGGAGCTTTGTTATGTATTGCTGGTTGCCAGAGAAGATTTTAGGGCCGTTGAGGGCAAAGTTACACAATTTCTGAAAAAGTTTCAGAATGCTAATAACGTACAGCAAGTTGAAAAAGATGAAGTGCTGGAAAAAGAATATTTTCCTGCAAATTATTTTGAAAATCGAGACGTAGGCAGAGTAAAGGATAAGATACTTAATCGTTTGAAAAAAATCACTGAAAGCTATAAAGCTAAAGGGAGGGAGGTTAAAGCCTATGACAAGATGAAAGAGGTAATGGAGTTTATAAATAATTGCCTGCCAACAGATGAAAATTTGAAACTCAAAGATTACAGAAGATATCTGAAAATGGTTCGTTTCTGGGGCAGGGAAAAGGAAAATATAAAGCGGGAATTTGACAGTAAAAAATGGGAGAGGTTTTTGCCAAGAGAACTCTGGCAGAAAAGAAACCTCGAAGATGCGTATCAACTGGCAAAAGAGAAAAACACCGAGTTATTCAATAAATTGAAAACAACTGTTGAGAGAATGAACGAACTGGAATTCGAAAAGTATCAGCAGATAAACGACGCAAAAGATTTGGCAAATTTAAGGCAACTGGCGCGGGACTTCGGCGTGAAGTGGGAAGAAAAGGACTGGCAAGAGTATTCGGGGCAGATAAAAAAACAAATTACAGACAGGCAAAAACTTACAATAATGAAACAAAGGATTACTGCTGCATTGAAGAAAAAGCAAGGCATAGAAAATCTTAATCTTAGGATAACAACCGACACCAATAAAAGCAGAAAGGTGGTATTGAACAGAATAGCGCTACCTAAAGGTTTTGTAAGGAAGCATATCTTAAAAACAGATATAAAGATATCAAAGCAAATAAGGCAATCACAATGTCCTATTATACTGTCAAACAATTATATGAAGCTGGCAAAGGAATTCTTTGAGGAGAGAAATTTTGATAAGATGACGCAGATAAACGGGCTATTTGAGAAAAATGTACTTATAGCGTTTATGATAGTTTATCTGATGGAACAACTGAATCTTCGACTTGGTAAGAATACGGAACTTAGCAATCTTAAAAAAACGGAGGTTAATTTTACGATAACCGACAAGGTAACGGAAAAAGTCCAGATTTCGCAGTATCCATCGCTTGTTTTCGCCATAAACAGAGAATATGTTGATGGAATCAGCGGTTATAAGTTACCGCCCAAAAAACCGAAAGAGCCTCCGTATACTTTCTTCGAGAAAATAGACGCAATAGAAAAAGAACGAATGGAATTCATAAAACAGGTCCTCGGTTTCGAAGAACATCTTTTTGAGAAGAATGTAATAGACAAAACTCGCTTTACTGATACTGCGACTCATATAAGTTTTAATGAAATATGTGATGAGCTTATAAAAAAAGGATGGGACGAAAACAAAATAATAAAACTTAAAGATGCGAGGAATGCAGCATTGCATGGTAAGATACCGGAGGATACGTCTTTTGATGAAGCGAAAGTACTGATAAATGAATTAAAAAAATGA(SEQ ID NO:21)

我们对七个Cas13e和Cas13f蛋白(即Cas13e.1、Cas13e.2、Cas13f.1、Cas13f.2、Cas13f.3、Cas13f.4、Cas13f.5)的进行人类密码子优化,用于进一步的功能实验。这些密码子优化的编码序列分别是SEQ ID NO:22-28。

ATGGCCCAGGTGAGCAAGCAGACCTCCAAGAAGAGGGAGCTGAGCATCGACGAGTACCAGGGCGCCCGGAAGTGGTGCTTCACCATTGCCTTCAACAAGGCCCTGGTGAACCGGGACAAGAACGACGGCCTGTTCGTGGAAAGCCTGCTGAGACACGAGAAGTACAGCAAGCACGACTGGTACGACGAAGATACCCGGGCCCTGATCAAGTGCAGCACCCAGGCCGCCAACGCCAAGGCTGAAGCCCTGCGGAACTACTTCAGTCACTACCGGCATAGCCCTGGCTGCCTGACCTTCACCGCCGAGGACGAACTGCGGACCATCATGGAGAGAGCCTATGAGCGGGCCATCTTCGAGTGCAGAAGAAGAGAGACAGAGGTGATCATCGAGTTTCCCAGCCTGTTCGAGGGCGACCGGATCACCACCGCCGGCGTGGTGTTTTTCGTGAGCTTTTTCGTGGAAAGAAGAGTGCTGGATCGGCTGTATGGAGCCGTGTCCGGCCTGAAGAAGAATGAGGGACAGTACAAGCTGACCCGGAAGGCCCTGAGCATGTACTGCCTGAAGGACAGCAGATTCACCAAGGCCTGGGATAAGCGGGTGCTGCTGTTCAGAGACATCCTGGCCCAGCTGGGAAGAATCCCCGCCGAGGCCTACGAGTACTACCACGGCGAGCAGGGTGATAAGAAGAGAGCTAACGACAATGAGGGCACAAATCCCAAGCGGCACAAGGACAAGTTCATCGAATTTGCACTGCACTACCTGGAAGCCCAGCACAGCGAGATCTGCTTCGGCAGACGCCACATCGTGCGGGAAGAGGCCGGCGCCGGCGATGAGCACAAGAAGCACCGGACCAAGGGAAAGGTGGTGGTGGACTTCAGCAAGAAGGACGAGGACCAGAGCTACTATATCTCCAAGAACAACGTGATCGTGCGGATCGACAAGAACGCCGGCCCTAGAAGCTACCGGATGGGCCTGAACGAGCTGAAGTACCTCGTGCTGCTGAGCCTGCAGGGGAAGGGCGACGATGCCATCGCCAAGCTGTACAGATACAGACAGCACGTGGAGAACATCCTGGATGTGGTGAAGGTGACCGATAAGGATAACCACGTGTTCCTGCCCCGCTTCGTGCTGGAGCAGCACGGCATCGGCAGAAAGGCCTTCAAGCAGCGGATCGATGGACGGGTGAAGCACGTGCGGGGCGTGTGGGAGAAGAAGAAGGCCGCCACCAATGAAATGACCCTGCACGAGAAGGCCAGAGACATCCTGCAGTACGTGAACGAAAACTGCACCCGGTCCTTCAACCCTGGCGAATACAACAGACTGCTGGTGTGCCTGGTGGGCAAGGACGTGGAGAACTTTCAGGCCGGCCTGAAGCGGCTGCAGCTGGCCGAAAGGATCGATGGCCGGGTGTACTCCATCTTCGCCCAGACCAGCACCATCAATGAGATGCACCAGGTGGTGTGCGACCAGATCCTGAACCGGCTGTGCAGAATCGGCGACCAGAAGCTGTACGATTACGTGGGACTGGGCAAGAAGGACGAAATCGACTACAAGCAGAAGGTGGCCTGGTTCAAGGAGCACATCAGCATCCGGAGAGGATTCCTGAGAAAGAAGTTCTGGTACGATAGCAAGAAGGGATTCGCAAAGCTGGTGGAGGAACACCTGGAGTCCGGCGGCGGCCAGCGCGACGTGGGCCTGGACAAGAAGTACTACCACATCGACGCCATCGGCAGATTCGAGGGCGCCAACCCCGCCCTGTACGAGACCCTGGCCAGAGATCGGCTGTGCCTCATGATGGCCCAGTACTTCCTGGGCAGCGTGAGAAAGGAACTGGGCAACAAGATTGTGTGGAGCAACGACAGCATCGAACTGCCTGTGGAAGGCTCTGTGGGAAATGAGAAGAGCATCGTGTTCTCCGTGTCTGACTACGGCAAGCTGTACGTGCTGGACGATGCCGAATTCCTGGGCCGGATCTGCGAATACTTCATGCCCCACGAAAAGGGCAAGATCCGGTACCACACAGTGTACGAAAAGGGCTTTAGAGCATACAACGACCTGCAGAAGAAGTGCGTGGAGGCCGTGCTGGCTTTCGAAGAGAAGGTGGTGAAGGCCAAGAAGATGAGCGAGAAGGAAGGCGCCCACTACATCGACTTCCGGGAGATCCTGGCCCAGACCATGTGCAAGGAGGCCGAGAAGACCGCAGTGAACAAGGTGAGACGCGCCTTCTTCCACCACCACCTGAAGTTCGTGATTGACGAGTTCGGCCTGTTCAGCGACGTGATGAAGAAGTACGGCATCGAGAAGGAATGGAAGTTCCCTGTCAAGTAA(SEQ ID NO:22)

ATGAAGGTGGAGAACATCAAGGAAAAGTCCAAGAAGGCTATGTATCTGATCAACCACTATGAAGGCCCTAAGAAGTGGTGCTTCGCCATCGTGCTGAATAGGGCCTGCGACAACTATGAGGATAACCCCCACCTGTTCAGCAAGAGCCTGCTGGAATTTGAAAAGACCAGCAGAAAGGACTGGTTCGACGAGGAGACCAGGGAACTGGTGGAGCAGGCCGACACCGAGATCCAGCCCAACCCCAACCTGAAGCCTAACACCACCGCCAACAGAAAGCTGAAGGACATCCGGAACTACTTCAGCCACCACTACCACAAGAATGAGTGCCTGTACTTCAAGAACGACGACCCTATCCGGTGCATCATGGAGGCAGCCTACGAGAAGTCCAAGATCTACATCAAGGGCAAGCAGATTGAGCAGTCCGACATCCCCCTCCCTGAGCTGTTTGAGTCTAGCGGCTGGATCACCCCAGCCGGCATCCTGCTGCTGGCCAGCTTCTTTGTGGAGAGAGGCATTCTGCACAGACTGATGGGCAACATCGGCGGCTTCAAGGACAACCGGGGCGAATACGGACTGACCCACGATATCTTCACCACCTACTGCCTGAAGGGCAGCTACTCCATCAGAGCCCAGGACCACGACGCCGTGATGTTCAGAGACATCCTGGGCTACCTGAGCAGAGTGCCGACCGAGAGCTTTCAGCGCATCAAGCAGCCACAGATCAGAAAGGAGGGGCAGCTGAGCGAGCGGAAGACAGACAAGTTTATCACCTTCGCCCTGAACTACCTGGAAGATTATGGACTGAAGGATCTGGAAGGCTGCAAGGCCTGCTTCGCCCGGAGCAAGATCGTGAGAGAGCAGGAGAACGTGGAAAGCATCAATGACAAGGAGTACAAGCCTCACGAAAACAAGAAGAAGGTGGAAATCCACTTCGATCAGTCTAAGGAAGACCGGTTCTACATCAACCGGAACAACGTGATCCTGAAGATCCAGAAGAAGGACGGCCACAGCAACATCGTGAGAATGGGCGTGTACGAGCTGAAGTATCTGGTGCTGATGTCCCTGGTGGGCAAGGCCAAGGAAGCCGTGGAGAAGATCGACAACTACATCCAGGATCTGAGAGACCAGCTGCCCTACATCGAGGGCAAGAACAAGGAAGAAATCAAGGAGTACGTGAGATTCTTCCCCAGATTCATCAGATCCCACCTGGGCCTGCTGCAGATTAACGATGAGGAGAAGATCAAGGCCCGGCTGGACTATGTGAAGACAAAGTGGCTGGACAAGAAGGAGAAGTCCAAGGAGCTGGAGCTGCACAAGAAGGGCCGGGATATCCTGCGGTACATCAACGAGCGGTGCGACCGGGAGCTGAACCGGAACGTGTACAACCGGATCCTGGAGCTGCTGGTGAGCAAGGACCTGACCGGCTTCTACCGGGAGCTGGAGGAGCTGAAGCGGACCAGACGGATCGATAAGAACATTGTGCAGAACCTGTCCGGCCAGAAGACCATCAACGCCCTGCACGAAAAGGTGTGCGATCTCGTGCTGAAGGAGATCGAGAGCCTGGACACCGAGAACCTGCGGAAGTACCTGGGCCTGATCCCCAAGGAGGAGAAGGAAGTGACCTTTAAGGAGAAGGTGGACAGGATCCTGAAGCAGCCGGTGATCTACAAGGGCTTCCTGCGGTACCAGTTCTTCAAGGACGACAAGAAGAGCTTCGTGCTGCTGGTGGAAGACGCCCTGAAGGAGAAGGGAGGCGGCTGCGACGTGCCCCTGGGCAAGGAGTACTACAAGATCGTGTCCCTGGACAAGTATGACAAGGAAAATAAGACCCTGTGCGAGACCCTGGCAATGGATAGACTGTGCCTGATGATGGCCCGGCAGTATTACCTGAGCCTGAACGCCAAGCTGGCCCAGGAGGCCCAGCAGATCGAATGGAAGAAGGAGGATAGCATTGAGCTGATCATCTTCACACTGAAGAATCCTGACCAGTCCAAGCAGAGCTTCTCCATCCGGTTCAGCGTGCGGGACTTCACCAAGCTGTACGTGACCGACGACCCCGAATTCCTGGCCCGGCTGTGCAGCTACTTCTTCCCCGTGGAGAAGGAGATCGAATACCACAAGCTGTACTCTGAAGGCATTAACAAGTACACCAACCTGCAGAAGGAGGGGATCGAAGCCATCCTGGAGCTGGAGAAGAAGCTGATCGAAAGAAACCGGATCCAGTCCGCCAAGAACTACCTGAGCTTTAACGAAATCATGAACAAGAGCGGCTACAACAAGGATGAGCAGGATGACCTGAAGAAGGTGAGGAACTCCCTGCTGCACTACAAGCTGATCTTCGAAAAGGAGCACCTGAAGAAGTTCTATGAAGTGATGCGGGGCGAGGGAATCGAGAAGAAGTGGTCCCTGATCGTGTAA(SEQ IDNO:23)

ATGAATGGCATCGAGCTGAAGAAGGAAGAAGCCGCCTTCTACTTCAATCAGGCCGAGCTGAACCTGAAGGCCATTGAGGACAACATCTTCGACAAGGAGAGACGGAAGACACTGCTGAACAACCCCCAGATCCTGGCCAAGATGGAGAACTTTATCTTCAATTTCCGGGACGTGACCAAGAACGCCAAGGGCGAAATCGACTGCCTGCTGCTGAAGCTGAGAGAGCTGCGGAACTTTTACAGCCACTACGTGCACAAGCGGGACGTCAGAGAACTGAGCAAGGGCGAGAAGCCGATCCTGGAGAAGTACTACCAGTTCGCCATCGAATCCACCGGCTCTGAGAACGTGAAGCTCGAAATCATCGAAAACGACGCCTGGCTGGCCGACGCCGGCGTGCTGTTCTTCCTGTGCATCTTCCTGAAGAAGAGCCAGGCAAACAAGCTGATCAGCGGCATCAGCGGCTTCAAGAGAAACGACGACACCGGCCAGCCTCGGAGAAACCTGTTCACCTACTTCTCCATCCGGGAGGGCTACAAGGTGGTGCCCGAAATGCAGAAGCACTTCCTGCTGTTCTCCCTGGTGAACCACCTGAGCAACCAGGACGATTATATCGAAAAGGCCCACCAGCCCTACGACATCGGCGAGGGCCTCTTCTTCCACCGGATTGCCAGCACCTTCCTGAACATCTCCGGAATCCTGAGAAACATGAAGTTCTACACCTATCAGAGCAAGAGACTGGTGGAGCAGAGAGGCGAGCTGAAGCGGGAAAAGGACATCTTCGCCTGGGAAGAACCGTTTCAGGGCAATTCCTACTTTGAGATCAACGGCCACAAGGGCGTGATTGGCGAAGACGAGCTGAAGGAGCTGTGCTACGCCTTCCTGATCGGCAACCAGGACGCCAACAAGGTGGAGGGCCGGATCACCCAGTTCCTGGAGAAGTTCAGAAACGCCAACAGCGTGCAGCAGGTGAAGGACGACGAGATGCTGAAGCCTGAATATTTCCCCGCCAACTACTTTGCCGAGAGCGGCGTGGGCCGGATCAAGGACCGGGTGCTGAACAGACTGAACAAGGCCATCAAGAGCAACAAGGCCAAGAAGGGCGAGATCATCGCCTATGACAAGATGAGAGAAGTGATGGCTTTCATCAATAACTCTCTGCCCGTGGACGAGAAGCTGAAGCCCAAGGATTACAAGAGATACCTGGGCATGGTGAGATTCTGGGATAGAGAAAAGGACAATATCAAGCGCGAGTTCGAAACGAAGGAGTGGAGCAAGTATCTGCCCTCCAACTTCTGGACCGCCAAGAACCTGGAGAGAGTGTACGGACTGGCCCGGGAAAAGAACGCAGAGCTGTTTAACAAGCTGAAGGCCGACGTGGAGAAGATGGACGAAAGAGAGCTGGAAAAGTATCAGAAGATCAACGACGCCAAGGATCTGGCCAACCTGCGGCGGCTGGCCAGCGACTTCGGAGTGAAGTGGGAGGAGAAGGATTGGGACGAGTACTCCGGCCAGATCAAGAAGCAGATCACAGATTCCCAGAAGCTGACCATCATGAAGCAGAGAATCACAGCCGGCCTGAAGAAGAAGCACGGCATCGAAAACCTGAACCTGAGGATCACCATCGACATCAACAAGTCCAGAAAGGCCGTGCTGAATCGGATCGCCATCCCCAGAGGATTTGTGAAGCGGCACATCCTGGGCTGGCAGGAATCCGAGAAGGTGAGCAAGAAGATCAGAGAAGCCGAATGCGAGATTCTGCTGAGCAAGGAGTACGAGGAGCTGAGCAAGCAGTTCTTTCAGAGCAAGGACTACGACAAGATGACCCGCATCAACGGCCTGTACGAGAAGAATAAGCTGATCGCCCTGATGGCCGTGTATCTGATGGGGCAGCTGAGAATCCTGTTCAAGGAGCACACCAAGCTGGACGACATCACCAAGACCACCGTGGATTTCAAGATCAGCGACAAGGTGACCGTGAAGATCCCCTTCTCCAACTATCCCTCCCTGGTGTACACCATGAGCAGCAAGTACGTGGACAATATCGGCAACTACGGCTTCAGCAACAAGGACAAGGATAAGCCCATTCTGGGCAAGATCGACGTGATCGAGAAGCAGCGGATGGAGTTTATCAAGGAGGTGCTGGGATTCGAGAAGTACCTGTTTGACGATAAGATCATCGACAAGAGCAAGTTCGCCGACACCGCCACCCACATCAGCTTTGCCGAAATCGTGGAAGAACTGGTGGAGAAGGGCTGGGACAAGGACCGGCTGACGAAGCTGAAGGATGCCCGGAACAAGGCCCTGCACGGCGAGATCCTGACCGGCACCAGCTTCGACGAGACAAAGTCCCTGATCAACGAGCTGAAGAAGTAA(SEQ I D NO:24)

ATGAGCCCTGATTTCATCAAGCTGGAGAAGCAGGAAGCAGCCTTCTACTTTAACCAGACCGAGCTGAACCTGAAGGCCATCGAATCCAATATCCTGGATAAGCAGCAGAGAATGATCCTGCTGAACAACCCCAGAATCCTGGCCAAGGTGGGCAACTTCATCTTCAATTTCCGGGACGTGACCAAGAACGCAAAGGGCGAAATCGACTGCCTGCTGTTCAAGCTGGAGGAACTGCGGAACTTCTACAGCCACTACGTGCACACCGATAACGTGAAGGAACTGTCCAACGGAGAGAAGCCTCTGCTGGAGCGGTACTACCAGATCGCCATCCAGGCCACAAGAAGCGAGGACGTGAAGTTCGAGCTGTTCGAGACCAGGAACGAGAACAAGATCACCGACGCAGGCGTGCTGTTCTTCCTGTGCATGTTCCTGAAGAAGAGCCAGGCTAATAAGCTGATTTCCGGCATCAGCGGCTTCAAGCGGAACGACCCCACCGGCCAGCCCAGACGGAACCTCTTTACCTACTTCTCTGCCCGGGAGGGCTACAAGGCCCTGCCTGACATGCAGAAGCACTTCCTGCTGTTCACCCTGGTGAACTACCTGAGCAACCAGGACGAGTACATCTCCGAGCTGAAGCAGTACGGAGAGATCGGACAGGGAGCCTTCTTCAACAGAATCGCCAGCACCTTCCTGAACATCAGCGGCATCAGCGGCAACACCAAGTTCTACAGCTACCAGAGCAAGAGAATCAAGGAGCAGCGGGGCGAACTGAACAGCGAAAAGGACAGCTTCGAGTGGATCGAGCCCTTTCAGGGCAACTCTTATTTTGAGATCAACGGCCACAAGGGCGTGATCGGCGAAGACGAGCTGAAGGAGCTGTGCTACGCCCTGCTGGTGGCCAAGCAGGACATCAATGCCGTGGAGGGAAAGATCATGCAGTTCCTGAAGAAGTTCAGGAACACCGGCAACCTGCAGCAGGTGAAGGACGACGAGATGCTGGAAATCGAGTACTTTCCCGCCAGCTACTTCAACGAGAGCAAGAAGGAGGACATCAAGAAGGAGATCCTGGGCAGACTGGACAAGAAGATCCGGTCCTGCAGCGCCAAGGCCGAGAAGGCCTACGACAAGATGAAGGAGGTGATGGAGTTTATCAATAACAGCCTGCCCGCCGAGGAGAAGCTGAAGAGGAAGGACTACCGCAGATACCTGAAGATGGTGAGATTCTGGTCCAGAGAAAAGGGCAACATCGAGAGAGAGTTCAGAACCAAGGAGTGGTCCAAGTACTTCAGCAGCGACTTCTGGAGAAAGAACAATCTGGAGGATGTGTACAAGCTGGCCACCCAGAAGAACGCCGAGCTGTTCAAGAATCTGAAGGCCGCCGCCGAGAAGATGGGCGAAACAGAATTCGAAAAGTACCAGCAGATCAACGATGTGAAGGACCTGGCCAGCCTGAGACGGCTGACCCAGGATTTCGGCCTGAAGTGGGAGGAGAAGGATTGGGAGGAGTACAGCGAACAGATCAAGAAGCAGATCACCGACCGGCAGAAGCTGACAATCATGAAGCAGCGGGTGACCGCCGAGCTGAAGAAGAAGCACGGCATCGAGAATCTGAACCTCAGAATTACCATCGATTCCAACAAGAGCAGAAAGGCCGTGCTGAACAGAATCGCCATTCCCCGGGGCTTCGTGAAGAAGCACATTCTGGGCTGGCAGGGCAGCGAAAAGATCAGCAAGAATATCCGGGAGGCCGAGTGCAAGATCCTGCTGTCCAAGAAGTATGAGGAGCTGTCTCGGCAGTTCTTTGAGGCTGGCAACTTCGACAAGCTGACCCAGATCAACGGCCTGTACGAAAAGAATAAGCTGACCGCCTTCATGTCCGTCTACCTGATGGGCAGACTGAACATCCAGCTGAACAAGCACACGGAGCTGGGAAATCTGAAGAAGACCGAGGTGGACTTCAAGATTTCCGACAAGGTGACAGAAAAGATCCCCTTCTCCCAGTACCCTAGCCTGGTGTACGCTATGAGCCGGAAGTACGTGGACAACGTGGACAAGTACAAGTTCAGCCACCAGGACAAGAAGAAGCCCTTCCTGGGCAAGATCGACAGCATCGAAAAGGAGAGAATCGAATTCATCAAGGAGGTGCTGGACTTCGAAGAGTACCTGTTTAAGAACAAGGTGATCGACAAGAGCAAGTTCAGCGATACCGCCACCCATATCTCTTTCAAGGAAATCTGCGACGAGATGGGCAAGAAGGGCTGCAACCGCAACAAGCTGACCGAGCTGAATAACGCTAGAAACGCCGCACTGCACGGAGAAATCCCCAGCGAGACCAGCTTCCGGGAGGCCAAGCCCCTGATCAACGAACTGAAGAAGTAA(SEQ ID NO:25)

ATGAGCCCTGACTTCATCAAGCTGGAAAAGCAGGAAGCCGCCTTCTACTTTAATCAGACCGAGCTGAACCTGAAGGCCATCGAGAGCAACATCTTCGACAAGCAGCAGCGGGTGATCCTGCTGAATAACCCCCAGATCCTGGCCAAGGTGGGCGACTTCATCTTCAACTTCCGGGACGTGACCAAGAACGCCAAGGGAGAAATCGACTGCCTGCTGCTGAAGCTGCGGGAGCTGAGAAACTTCTACAGCCACTATGTGTACACCGACGACGTGAAGATCCTGAGCAACGGCGAGAGGCCCCTGCTGGAGAAGTACTACCAGTTTGCCATCGAGGCCACCGGATCTGAGAATGTGAAGCTGGAGATCATCGAGAGCAACAACCGGCTGACCGAAGCGGGCGTGCTGTTCTTCCTGTGCATGTTCCTGAAGAAGAGCCAGGCCAACAAGCTGATTTCCGGCATCTCCGGATTCAAGCGCAACGACCCTACCGGACAGCCTCGGCGGAACCTGTTCACCTACTTTAGCGTGCGGGAGGGCTACAAGGTGGTGCCCGACATGCAGAAGCACTTCCTGCTGTTCGTGCTGGTGAACCACCTGTCCGGCCAGGATGACTATATTGAGAAGGCCCAGAAGCCCTACGACATCGGCGAAGGCCTGTTCTTCCACAGAATCGCCAGCACCTTTCTCAACATCAGCGGCATCCTGAGAAACATGGAATTCTACATCTACCAGAGCAAGCGGCTGAAGGAGCAGCAGGGAGAGCTGAAGAGAGAGAAGGACATCTTCCCTTGGATCGAGCCTTTCCAGGGCAACAGCTACTTTGAGATCAACGGAAACAAGGGCATCATCGGCGAGGACGAACTGAAGGAACTGTGCTACGCCCTGCTGGTGGCCGGCAAGGACGTGAGAGCCGTGGAAGGAAAGATCACCCAGTTCCTGGAGAAGTTCAAGAACGCCGATAACGCCCAGCAGGTGGAGAAGGATGAAATGCTGGACCGGAACAACTTCCCTGCCAATTACTTTGCCGAAAGCAACATCGGCAGCATCAAGGAAAAGATCCTGAATAGACTGGGCAAGACCGACGACTCCTACAACAAGACCGGCACCAAGATCAAGCCCTACGACATGATGAAGGAGGTGATGGAGTTCATCAATAATTCTCTGCCCGCCGATGAGAAGCTGAAGCGGAAGGACTACCGGAGATACCTGAAGATGGTCCGGATCTGGGACAGCGAAAAGGACAATATCAAGCGGGAGTTTGAGAGCAAGGAATGGAGCAAGTATTTCAGCAGCGACTTCTGGATGGCCAAGAACCTGGAAAGAGTGTACGGCCTGGCCAGGGAAAAGAACGCCGAGCTGTTTAACAAGCTGAAGGCCGTGGTGGAGAAGATGGACGAGCGGGAGTTCGAAAAGTACCGGCTGATCAACAGCGCCGAAGACCTGGCCAGCCTGCGGAGACTGGCCAAGGACTTCGGCCTGAAGTGGGAGGAGAAGGACTGGCAGGAGTATTCTGGCCAGATCAAGAAGCAGATCTCCGACAGACAGAAGCTGACAATTATGAAGCAGCGGATCACAGCCGAACTGAAGAAGAAGCACGGAATCGAGAACCTGAATCTGCGGATCACCATCGACAGCAACAAGTCCAGAAAGGCCGTGCTGAACCGGATCGCCGTGCCCCGGGGCTTCGTGAAGGAACACATCCTGGGCTGGCAAGGCTCTGAAAAGGTGAGCAAGAAGACCAGAGAAGCCAAGTGCAAGATCCTGCTGAGCAAGGAGTACGAGGAACTGAGCAAGCAGTTCTTTCAGACACGGAATTACGACAAGATGACCCAGGTGAACGGCCTGTACGAGAAGAACAAGCTGCTGGCCTTCATGGTGGTGTACCTGATGGAGAGACTGAACATCCTGCTGAACAAGCCCACAGAGCTGAACGAACTGGAAAAGGCCGAAGTGGACTTCAAGATCTCCGACAAGGTGATGGCCAAGATCCCTTTCTCTCAGTACCCCAGCCTGGTGTATGCAATGAGCTCCAAGTACGCCGACAGCGTGGGCTCTTACAAGTTCGAAAACGACGAGAAGAACAAGCCCTTTCTGGGCAAGATCGACACAATCGAGAAGCAGAGAATGGAGTTCATCAAGGAGGTGCTGGGCTTCGAGGAATACCTGTTCGAGAAGAAGATCATCGATAAGAGCGAATTCGCCGACACCGCCACCCACATCAGCTTCGACGAGATCTGCAACGAGCTGATCAAGAAGGGCTGGGACAAGGACAAGCTGACCAAGCTGAAGGACGCCCGGAACGCCGCCCTGCACGGCGAGATCCCCGCCGAGACCAGCTTCCGGGAGGCCAAGCCCCTGATTAACGGCCTGAAGAAGTAA(SEQ ID NO:26)

ATGAACATCATCAAGCTGAAGAAGGAGGAAGCCGCCTTTTACTTTAACCAGACAATCCTGAATCTGAGCGGCCTGGACGAGATCATCGAGAAGCAGATCCCCCACATCATCTCCAATAAGGAAAACGCCAAGAAGGTGATTGATAAGATCTTCAATAACAGACTGCTGCTGAAGAGCGTGGAAAACTATATCTACAACTTCAAGGACGTGGCCAAGAACGCCCGGACCGAAATCGAAGCCATCCTGCTGAAGCTGGTGGAGCTGAGAAACTTCTACTCCCACTACGTGCACAACGACACCGTGAAGATCCTGTCCAATGGCGAGAAGCCCATCCTGGAAAAGTACTACCAGATCGCCATCGAAGCCACCGGCTCTAAGAACGTGAAGCTGGTCATTATCGAAAACAACAACTGCCTGACCGACTCCGGCGTGCTGTTCCTGCTGTGCATGTTCCTGAAGAAGAGCCAGGCCAACAAGCTGATTAGCAGCGTGAGCGGCTTTAAGCGGAACGACAAGGAAGGCCAGCCCAGAAGGAACCTCTTTACTTACTATAGCGTGAGGGAAGGCTACAAGGTGGTGCCAGACATGCAGAAGCACTTCCTGCTGTTCGCCCTGGTCAACCACCTGTCCGAGCAGGACGACCACATCGAGAAGCAGCAGCAGAGCGACGAGCTGGGCAAGGGCCTGTTCTTCCACAGAATCGCCAGCACATTCCTGAATGAAAGCGGCATCTTCAACAAGATGCAGTTTTACACCTACCAGAGCAATCGGCTGAAGGAGAAGCGGGGCGAGCTGAAGCACGAGAAGGACACCTTCACCTGGATCGAGCCTTTCCAGGGAAACAGCTACTTCACCCTGAACGGGCACAAGGGCGTGATCAGCGAGGATCAGCTGAAGGAACTGTGCTACACAATCCTGATCGAGAAGCAGAACGTGGACAGCCTGGAGGGCAAGATCATTCAGTTCCTGAAGAAGTTTCAGAACGTGTCTAGCAAGCAGCAGGTGGATGAGGACGAGCTGCTGAAGCGGGAATACTTCCCCGCCAACTACTTCGGCCGGGCCGGCACCGGCACCCTGAAGGAGAAGATCCTGAACCGGCTGGACAAGCGGATGGACCCCACCAGCAAGGTGACCGACAAGGCCTATGACAAGATGATCGAGGTGATGGAGTTCATCAACATGTGCCTGCCCAGCGACGAGAAGCTGCGGCAGAAGGATTACCGGAGATATCTGAAGATGGTCAGATTCTGGAACAAGGAGAAGCACAACATCAAGAGAGAATTCGACAGCAAGAAGTGGACCAGATTCCTGCCCACCGAGCTGTGGAATAAGCGGAACCTGGAGGAAGCCTACCAGCTGGCCCGGAAGGAGAACAAGAAGAAGCTGGAGGACATGAGGAATCAGGTGAGGAGCCTGAAGGAGAACGACCTGGAGAAGTACCAGCAGATCAACTATGTGAACGACCTGGAAAACCTGCGGCTGCTGTCCCAAGAGCTGGGCGTGAAGTGGCAGGAGAAGGACTGGGTGGAATACAGCGGCCAGATCAAGAAGCAGATCAGCGATAACCAGAAGCTGACAATCATGAAGCAGAGAATCACCGCCGAGCTGAAGAAGATGCACGGCATCGAGAACCTGAACCTGAGAATCAGCATCGACACCAACAAGTCCCGGCAGACTGTGATGAACAGAATTGCCCTGCCCAAGGGCTTCGTGAAGAACCACATTCAGCAGAACAGCAGCGAGAAGATCAGCAAGAGAATCAGAGAGGACTACTGCAAGATCGAGCTGTCCGGCAAGTACGAAGAGCTGAGCAGACAGTTTTTCGACAAGAAGAACTTTGACAAGATGACCCTGATCAACGGACTGTGCGAGAAGAATAAGCTCATCGCCTTCATGGTGATTTACCTGCTGGAGCGGCTGGGCTTCGAGCTGAAGGAGAAGACCAAGCTGGGCGAGCTGAAGCAGACCCGGATGACATATAAGATCAGCGACAAGGTGAAGGAGGACATCCCCCTCTCCTACTACCCCAAGCTGGTGTACGCCATGAATCGGAAGTATGTGGACAACATCGATAGCTACGCCTTCGCCGCCTACGAGTCTAAGAAGGCCATCCTGGACAAGGTGGACATCATTGAGAAGCAGAGAATGGAATTCATCAAGCAGGTGCTGTGCTTCGAGGAATACATCTTCGAGAACAGAATCATCGAGAAGAGCAAGTTCAACGATGAGGAGACCCACATCAGCTTCACCCAGATCCACGACGAACTGATCAAGAAGGGCAGAGATACCGAAAAGCTGAGCAAGCTGAAGCACGCCAGAAACAAGGCCCTGCACGGCGAGATCCCCGACGGGACCAGCTTTGAGAAGGCCAAGCTGCTGATCAACGAAATCAAGAAGTAA(SEQ ID NO:27)

ATGAACGCCATCGAGCTGAAGAAGGAAGAGGCCGCCTTCTACTTCAACCAGGCCAGACTGAACATCTCTGGCCTGGACGAAATCATCGAGAAGCAACTGCCACACATCGGCTCTAACAGAGAGAACGCCAAGAAGACTGTGGACATGATCCTGGATAACCCCGAGGTGCTGAAGAAGATGGAAAACTACGTGTTCAACTCCCGCGATATTGCCAAGAATGCCCGGGGCGAGCTGGAGGCCCTGCTGCTGAAGCTGGTCGAGCTGAGAAACTTCTATAGCCACTACGTGCACAAGGACGACGTCAAGACACTGAGCTACGGTGAGAAGCCTCTGCTGGATAAGTACTACGAGATCGCCATCGAAGCCACCGGATCCAAGGACGTGCGGCTGGAGATCATTGACGACAAGAATAAGCTGACCGACGCCGGAGTGCTGTTCCTGCTGTGCATGTTCCTGAAGAAGAGCGAGGCTAACAAGCTGATTTCCAGCATCCGGGGCTTCAAGAGGAACGACAAGGAGGGCCAGCCTAGAAGAAACCTGTTCACCTACTACAGCGTGAGAGAGGGCTATAAGGTGGTGCCCGACATGCAGAAGCACTTTCTGCTGTTCACCCTGGTGAACCACCTGTCCAATCAGGACGAGTACATCTCCAACCTGCGCCCAAACCAGGAAATCGGCCAGGGCGGATTTTTCCACCGGATCGCCAGCAAGTTCCTGAGCGACAGCGGAATCCTGCACAGCATGAAGTTCTACACATACAGATCCAAGCGGCTGACCGAGCAGCGGGGAGAGCTGAAGCCCAAGAAGGACCACTTTACATGGATCGAGCCTTTCCAGGGCAATTCCTACTTCAGCGTGCAGGGCCAGAAGGGCGTGATCGGAGAGGAGCAGCTCAAGGAGCTGTGCTACGTGCTGCTGGTGGCCCGGGAGGACTTCAGAGCCGTGGAGGGCAAGGTGACCCAGTTCCTGAAGAAGTTCCAGAATGCCAATAACGTGCAGCAGGTGGAGAAGGACGAGGTGCTGGAAAAGGAGTACTTCCCCGCCAACTACTTTGAGAACCGGGACGTGGGAAGAGTCAAGGACAAGATCCTGAACAGACTGAAGAAGATCACCGAGAGTTATAAGGCCAAGGGTAGAGAGGTGAAGGCCTACGACAAGATGAAGGAAGTGATGGAGTTCATCAACAACTGCCTGCCCACCGATGAAAACCTGAAGCTGAAGGACTACCGGCGGTACCTGAAGATGGTGAGATTCTGGGGCAGAGAGAAGGAAAACATCAAGCGGGAGTTCGACTCCAAGAAGTGGGAGCGCTTTCTCCCCCGGGAGCTGTGGCAGAAGAGAAACCTGGAGGACGCCTACCAGCTCGCCAAGGAGAAGAACACAGAGCTGTTCAACAAGCTGAAGACCACCGTGGAGAGAATGAACGAACTGGAGTTCGAGAAGTACCAGCAGATCAATGACGCCAAGGACCTGGCCAACCTGAGACAGCTGGCCAGAGACTTTGGAGTGAAGTGGGAGGAAAAGGACTGGCAGGAATACTCTGGACAGATCAAGAAGCAGATCACCGACCGGCAGAAGCTGACCATCATGAAGCAGCGGATCACCGCCGCCCTGAAGAAGAAGCAGGGAATCGAAAACCTGAACCTGAGAATCACAACAGATACGAATAAGAGCAGGAAGGTGGTGCTGAACCGGATCGCACTGCCCAAGGGATTCGTCAGAAAGCACATCCTGAAGACCGACATCAAGATCAGCAAGCAGATCCGGCAGAGCCAGTGCCCTATCATCCTGTCTAACAACTACATGAAGCTGGCCAAGGAGTTCTTTGAAGAGCGGAACTTCGATAAGATGACCCAGATCAATGGCCTGTTCGAGAAGAACGTGCTGATCGCCTTCATGATCGTGTACCTGATGGAGCAGCTGAACCTGAGACTGGGCAAGAACACCGAGCTGTCCAACCTGAAGAAGACCGAGGTGAACTTTACCATCACCGACAAGGTGACCGAGAAGGTGCAAATCTCCCAGTACCCCAGCCTGGTGTTCGCCATTAACCGGGAGTACGTGGACGGCATCAGCGGCTACAAGCTGCCCCCCAAGAAGCCCAAGGAACCTCCCTACACCTTCTTCGAAAAGATCGACGCCATCGAAAAGGAGCGGATGGAATTCATCAAGCAGGTGCTGGGCTTCGAGGAGCACCTCTTCGAAAAGAACGTGATCGACAAGACCCGGTTTACCGACACCGCCACCCACATCAGCTTCAATGAGATCTGCGATGAGCTGATCAAGAAGGGCTGGGACGAAAACAAGATCATCAAGCTGAAGGATGCACGGAACGCTGCCCTGCACGGCAAGATCCCTGAAGATACCTCCTTTGACGAAGCCAAGGTGCTGATCAACGAACTGAAGAAGTAA(SEQ ID NO:28)

所述的七个CRISPR/Cas13e和Cas13f的基因座结构请见图1。

我们用RNAfold对pre-crRNA中的七个DR序列进行了RNA二级结构的进一步分析。结果请见图2。所有DR序列明显都拥有非常保守的二级结构。

例如,在Cas13e家族中,每个DR序列都形成一个二级结构,这个二级结构由4个碱基对的茎(5’-GCUG-3’)组成,紧接着一个5+5个核苷酸的对称凸起(不包括上述4个茎核苷酸),随后是一个5个碱基对的茎(5’-GCC C/U C-3’),末端是一个8个碱基的环状结构(5’-CGAUUUGU-3’,不包括上述2个茎核苷酸)。

同样,在Cas13f家族中,除Cas13f.4是一个例外,每个DR序列均形成一个如下的二级结构:5个碱基对的茎(5'GCUGU3'),紧接着的一个大致对称的5+4个核苷酸的突起(不包括上述4个茎核苷酸),接着一个6个碱基对的茎(5’A/G CCUCG3’),末端是一个5个碱基的环(5’AUUUG3’,不包括上述2个茎核苷酸)。唯一一个例外是Cas13f.4的DR序列,Cas13f.4的DR序列在第二步少了1个碱基对,第一个凸起结构中多了2个额外的碱基,形成了一个大致对称的6+5凸起。

用MAFFT对Cas13e和Cas13f蛋白以与先前鉴定的Cas13a、Cas13b、Cas13c和Cas13d家族的蛋白进行多序列比对,结果显示Cas13e和Cas13f蛋白在系统树上相对最接近Cas13b蛋白(见图3)。

此外,关于RXXXXH基序相对于Cas蛋白N端和C端的位置,与Cas13a、Cas13c、Cas13d相比,Cas13e和Cas13f蛋白的RXXXXH基序更接近其N端和C端,Cas13b蛋白的RXXXXH基序较没有那么接近其N端和C端(参见图4)。

我们用I-TASSER预测Cas13e蛋白质的3D结构,再用PyMOL对预测的结构进行可视化。尽管所述两个RXXXXH基序非常靠近Cas13e.1的N端和C端,但它们在3D结构中非常相近(见图5)。

实施例2 Cas13e是一个效应RNA酶

为了验证新发现的Cas13e蛋白是否是一个具有RNA核酸酶活性的CRISPR/Cas系统,首先对细菌中编码Cas13e.1的DNA序列进行密码子优化,使其适合于在人类细胞中过表达(SEQ ID NO:22),然后将密码子优化的Cas13e.1克隆到带有绿色荧光蛋白(GFP)基因的质粒中。同时,将靶向报告基因(mCherry)mRNA的向导RNA(gRNA)的编码序列克隆到GFP的质粒中。gRNA包含一个靶向mCherry的间隔序列和位于其两侧的同向重复序列(SEQ ID NO:29)。GFP和mCherry基因的序列分别为SEQ ID NO:30-31。

GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGCGGTCTTCGATATTCAAGCGTCGGAAGACCTGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:29)

ATGGTGAGCAAGGGCGAGGAGGATAACATGGCCATCATCAAGGAGTTCATGCGCTTCAAGGTGCACATGGAGGGCTCCGTGAACGGCCACGAGTTCGAGATCGAGGGCGAGGGCGAGGGCCGCCCCTACGAGGGCACCCAGACCGCCAAGCTGAAGGTGACCAAGGGTGGCCCCCTGCCCTTCGCCTGGGACATCCTGTCCCCTCAGTTCATGTACGGCTCCAAGGCCTACGTGAAGCACCCCGCCGACATCCCCGACTACTTGAAGCTGTCCTTCCCCGAGGGCTTCAAGTGGGAGCGCGTGATGAACTTCGAGGACGGCGGCGTGGTGACCGTGACCCAGGACTCCTCCCTGCAGGACGGCGAGTTCATCTACAAGGTGAAGCTGCGCGGCACCAACTTCCCCTCCGACGGCCCCGTAATGCAGAAGAAGACCATGGGCTGGGAGGCCTCCTCCGAGCGGATGTACCCCGAGGACGGCGCCCTGAAGGGCGAGATCAAGCAGAGGCTGAAGCTGAAGGACGGCGGCCACTACGACGCTGAGGTCAAGACCACCTACAAGGCCAAGAAGCCCGTGCAGCTGCCCGGCGCCTACAACGTCAACATCAAGTTGGACATCACCTCCCACAACGAGGACTACACCATCGTGGAACAGTACGAACGCGCCGAGGGCCGCCACTCCACCGGCGGCATGGACGAGCTGTACAAGTAA(SEQ ID NO:30)

ATGGTGAGCAAGGGCGAGGAGCTGTTCACCGGGGTGGTGCCCATCCTGGTCGAGCTGGACGGCGACGTAAACGGCCACAAGTTCAGCGTGTCCGGCGAGGGCGAGGGCGATGCCACCTACGGCAAGCTGACCCTGAAGTTCATCTGCACCACCGGCAAGCTGCCCGTGCCCTGGCCCACCCTCGTGACCACCCTGACCTACGGCGTGCAGTGCTTCAGCCGCTACCCCGACCACATGAAGCAGCACGACTTCTTCAAGTCCGCCATGCCCGAAGGCTACGTCCAGGAGCGCACCATCTTCTTCAAGGACGACGGCAACTACAAGACCCGCGCCGAGGTGAAGTTCGAGGGCGACACCCTGGTGAACCGCATCGAGCTGAAGGGCATCGACTTCAAGGAGGACGGCAACATCCTGGGGCACAAGCTGGAGTACAACTACAACAGCCACAACGTCTATATCATGGCCGACAAGCAGAAGAACGGCATCAAGGTGAACTTCAAGATCCGCCACAACATCGAGGACGGCAGCGTGCAGCTCGCCGACCACTACCAGCAGAACACCCCCATCGGCGACGGCCCCGTGCTGCTGCCCGACAACCACTACCTGAGCACCCAGTCCGCCCTGAGCAAAGACCCCAACGAGAAGCGCGATCACATGGTCCTGCTGGAGTTCGTGACCGCCGCCGGGATCACTCTCGGCATGGACGAGCTGTACAAGTGA(SEQ ID NO:31)

根据常见哺乳动物细胞的培养方法,将人HEK293T细胞种在24孔组织培养板上中,并使用3000和P3000TM试剂进行3质粒共转染,同时导入编码Cas13e.1蛋白、靶向mCherry的gRNA和mCherry报告基因的质粒。阴性对照实验中使用的是一个编码不靶向mCherry的gRNA(NT)的对照质粒。Cas13e.1和gRNA的质粒中存在一个GFP编码序列,因此可以使用GFP的表达作为转染成功/转染效率的参照。请参见图6中的示意图。然后,将转染后的HEK293T细胞在37℃的温度5%CO2的条件下培养约24小时,然后在荧光显微镜下对其进行检测和分析。

如图7所示,在明视野显微镜下,靶向mCherry的gRNA转染的细胞与非靶向(NT)gRNA转染的对照细胞具有相同的生长和形态,且两者中的GFP表达基本相同。然而,流式细胞术分析发现,mCherry荧光信号强度显著降低,降低高达75%(见图8)。这表明Cas13e可以利用靶向mCherry的gRNA有效降低mCherry的mRNA水平,从而降低mCherry蛋白的表达。

实施例3 sgRNA对Cas13e的有效引导

在理论上,由于CRISPR/Cas13e系统中crRNA前体在成熟过程中可以产生两种结构的crRNA,即同向重复序列(DR)+间隔区(5’DR)或间隔区+同向重复序列(3’DR),因此设计本实验来确定Cas13e结合哪种结构的crRNA行使功能。

通过使用实施例2类似的三质粒共转染实验方法,发现只有3'DR方向(即间隔区+同向重复序列)才能显著地敲低mCherry水平。这表明Cas13e结合具有间隔区+同向重复序列的成熟crRNA结构发挥功能。见图9。

同向重复序列(DR)+间隔区(5’DR)或间隔区+同向重复序列(3’DR)的SgRNA序列分别为SEQ ID NO:32和SEQ ID NO:33。

GCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGCGGTCTTCGATATTCAAGCGTCGGAAGACCT(SEQ ID NO:32)

GGTCTTCGATATTCAAGCGTCGGAAGACCTGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:33)

实施例4 间隔区序列长度对Cas13e.1特异性活性和附带活性的影响

为了研究间隔区序列长度对Cas13e.1的特异性和非特异性的核酸酶活性的影响,本实验设计了一套靶向mCherry报告基因的sgRNA,它们的间隔区序列长度分别为20nt、25nt、30nt、35nt、40nt、45nt或50nt(SEQ ID NO:34-40)。

TTGGTGCCGCGCAGCTTCAC(SEQ ID NO:34)

TTGGTGCCGCGCAGCTTCACCTTGT(SEQ ID NO:35)

TTGGTGCCGCGCAGCTTCACCTTGTAGATG(SEQ ID NO:36)

TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTC(SEQ ID NO:37)

TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGT(SEQ ID NO:38)

TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGTCCTGC(SEQ ID NO:39)

TTGGTGCCGCGCAGCTTCACCTTGTAGATGAACTCGCCGTCCTGCAGGGA(SEQ ID NO:40)

通过使用实例2类似的三质粒共转染实验方法,利用流式细胞术分析转染48小时后细胞中mCherry和GFP报告蛋白的敲低效率,mCherry和GFP的敲低效率分别代表Cas13e的特异性和非特异性的核酸酶活性。

mCherry和GFP敲低实验的结果发现Cas13e.1具有高的特异性活性,其间隔区长度在约30nt至约50nt之间。结果见图10。同时,当间隔物长度为约30nt时,Cas13e.1具有最高的非特异性活性。结果见图11。

实施例5 用dCas13e.1-ADAR2DD融合物进行单碱基RNA编辑

为了测试Cas13e是否可用于RNA单碱基编辑,我们通过突变两个RXXXXH基序来消除其核酸酶活性来制备核酸酶失活的Cas13e.1(dCas13e.1)。然后,将含有E488Q和T375G双重突变的高保真ADAR2dd突变体融合在dCas13e.1的C端,由此便创建了一个实现A向G定点突变的RNA单碱基编辑器,将其命名为dCas13e.1-ADAR2dd*(eABE)。参见SEQ ID NO:41中的编码序列。

ATGCCCAAGAAGAAGCGGAAGGTGGCCCAGGTGAGCAAGCAGACCTCCAAGAAGAGGGAGCTGAGCATCGACGAGTACCAGGGCGCCCGGAAGTGGTGCTTCACCATTGCCTTCAACAAGGCCCTGGTGAACCGGGACAAGAACGACGGCCTGTTCGTGGAAAGCCTGCTGAGACACGAGAAGTACAGCAAGCACGACTGGTACGACGAAGATACCCGGGCCCTGATCAAGTGCAGCACCCAGGCCGCCAACGCCAAGGCTGAAGCCCTGGCGAACTACTTCAGTGCTTACCGGCATAGCCCTGGCTGCCTGACCTTCACCGCCGAGGACGAACTGCGGACCATCATGGAGAGAGCCTATGAGCGGGCCATCTTCGAGTGCAGAAGAAGAGAGACAGAGGTGATCATCGAGTTTCCCAGCCTGTTCGAGGGCGACCGGATCACCACCGCCGGCGTGGTGTTTTTCGTGAGCTTTTTCGTGGAAAGAAGAGTGCTGGATCGGCTGTATGGAGCCGTGTCCGGCCTGAAGAAGAATGAGGGACAGTACAAGCTGACCCGGAAGGCCCTGAGCATGTACTGCCTGAAGGACAGCAGATTCACCAAGGCCTGGGATAAGCGGGTGCTGCTGTTCAGAGACATCCTGGCCCAGCTGGGAAGAATCCCCGCCGAGGCCTACGAGTACTACCACGGCGAGCAGGGTGATAAGAAGAGAGCTAACGACAATGAGGGCACAAATCCCAAGCGGCACAAGGACAAGTTCATCGAATTTGCACTGCACTACCTGGAAGCCCAGCACAGCGAGATCTGCTTCGGCAGACGCCACATCGTGCGGGAAGAGGCCGGCGCCGGCGATGAGCACAAGAAGCACCGGACCAAGGGAAAGGTGGTGGTGGACTTCAGCAAGAAGGACGAGGACCAGAGCTACTATATCTCCAAGAACAACGTGATCGTGCGGATCGACAAGAACGCCGGCCCTAGAAGCTACCGGATGGGCCTGAACGAGCTGAAGTACCTCGTGCTGCTGAGCCTGCAGGGGAAGGGCGACGATGCCATCGCCAAGCTGTACAGATACAGACAGCACGTGGAGAACATCCTGGATGTGGTGAAGGTGACCGATAAGGATAACCACGTGTTCCTGCCCCGCTTCGTGCTGGAGCAGCACGGCATCGGCAGAAAGGCCTTCAAGCAGCGGATCGATGGACGGGTGAAGCACGTGCGGGGCGTGTGGGAGAAGAAGAAGGCCGCCACCAATGAAATGACCCTGCACGAGAAGGCCAGAGACATCCTGCAGTACGTGAACGAAAACTGCACCCGGTCCTTCAACCCTGGCGAATACAACAGACTGCTGGTGTGCCTGGTGGGCAAGGACGTGGAGAACTTTCAGGCCGGCCTGAAGCGGCTGCAGCTGGCCGAAAGGATCGATGGCCGGGTGTACTCCATCTTCGCCCAGACCAGCACCATCAATGAGATGCACCAGGTGGTGTGCGACCAGATCCTGAACCGGCTGTGCAGAATCGGCGACCAGAAGCTGTACGATTACGTGGGACTGGGCAAGAAGGACGAAATCGACTACAAGCAGAAGGTGGCCTGGTTCAAGGAGCACATCAGCATCCGGAGAGGATTCCTGAGAAAGAAGTTCTGGTACGATAGCAAGAAGGGATTCGCAAAGCTGGTGGAGGAACACCTGGAGTCCGGCGGCGGCCAGCGCGACGTGGGCCTGGACAAGAAGTACTACCACATCGACGCCATCGGCAGATTCGAGGGCGCCAACCCCGCCCTGTACGAGACCCTGGCCAGAGATCGGCTGTGCCTCATGATGGCCCAGTACTTCCTGGGCAGCGTGAGAAAGGAACTGGGCAACAAGATTGTGTGGAGCAACGACAGCATCGAACTGCCTGTGGAAGGCTCTGTGGGAAATGAGAAGAGCATCGTGTTCTCCGTGTCTGACTACGGCAAGCTGTACGTGCTGGACGATGCCGAATTCCTGGGCCGGATCTGCGAATACTTCATGCCCCACGAAAAGGGCAAGATCCGGTACCACACAGTGTACGAAAAGGGCTTTAGAGCATACAACGACCTGCAGAAGAAGTGCGTGGAGGCCGTGCTGGCTTTCGAAGAGAAGGTGGTGAAGGCCAAGAAGATGAGCGAGAAGGAAGGCGCCCACTACATCGACTTCCGGGAGATCCTGGCCCAGACCATGTGCAAGGAGGCCGAGAAGACCGCAGTGAACAAGGTGGCGGCTGCCTTCTTCGCTGCGCACCTGAAGTTCGTGATTGACGAGTTCGGCCTGTTCAGCGACGTGATGAAGAAGTACGGCATCGAGAAGGAATGGAAGTTCCCTGTCAAGCCCAAGAAGAAGCGGAAGGTGGGTGGAGGCGGAGGTTCTGGGGGAGGAGGTAGTGGCGGTGGTGGTTCAGGAGGCGGCGGAAGCCAGCTGCATTTACCGCAGGTTTTAGCTGACGCTGTCTCACGCCTGGTCCTGGGTAAGTTTGGTGACCTGACCGACAACTTCTCCTCCCCTCACGCTCGCAGAAAAGTGCTGGCTGGAGTCGTCATGACAACAGGCACAGATGTTAAAGATGCCAAGGTGATAAGTGTTTCTACAGGAGGCAAATGTATTAATGGTGAATACATGAGTGATCGTGGCCTTGCATTAAATGACTGCCATGCAGAAATAATATCTCGGAGATCCTTGCTCAGATTTCTTTATACACAACTTGAGCTTTACTTAAATAACAAAGATGATCAAAAAAGATCCATCTTTCAGAAATCAGAGCGAGGGGGGTTTAGGCTGAAGGAGAATGTCCAGTTTCATCTGTACATCAGCACCTCTCCCTGTGGAGATGCCAGAATCTTCTCACCACATGAGCCAATCCTGGAAGAACCAGCAGATAGACACCCAAATCGTAAAGCAAGAGGACAGCTACGGACCAAAATAGAGTCTGGTCAGGGGACGATTCCAGTGCGCTCCAATGCGAGCATCCAAACGTGGGACGGGGTGCTGCAAGGGGAGCGGCTGCTCACCATGTCCTGCAGTGACAAGATTGCACGCTGGAACGTGGTGGGCATCCAGGGATCACTGCTCAGCATTTTCGTGGAGCCCATTTACTTCTCGAGCATCATCCTGGGCAGCCTTTACCACGGGGACCACCTTTCCAGGGCCATGTACCAGCGGATCTCCAACATAGAGGACCTGCCACCTCTCTACACCCTCAACAAGCCTTTGCTCAGTGGCATCAGCAATGCAGAAGCACGGCAGCCAGGGAAGGCCCCCAACTTCAGTGTCAACTGGACGGTAGGCGACTCCGCTATTGAGGTCATCAACGCCACGACTGGGAAGGATGAGCTGGGCCGCGCGTCCCGCCTGTGTAAGCACGCGTTGTACTGTCGCTGGATGCGTGTGCACGGCAAGGTTCCCTCCCACTTACTACGCTCCAAGATTACCAAGCCCAACGTGTACCATGAGTCCAAGCTGGCGGCAAAGGAGTACCAGGCCGCCAAGGCGCGTCTGTTCACAGCCTTCATCAAGGCGGGGCTGGGGGCCTGGGTGGAGAAGCCCACCGAGCAGGACCAGTTCTCACTCACGTACCCATACGACGTACCAGATTACGCTTAA(SEQ ID NO:41)

为了能直观检测eABE的编辑活性,我们在野生型mCherry编码序列中制造一个终止密码子(TAG)来破坏完整mCherry的翻译(请参见SEQ ID NO:42中的加粗双下划线的序列),因此在TAG突变没有修复前,突变的mCherry*基因无法产生有荧光的蛋白,只有在eABE将A编辑为G才会恢复mCherry的正常翻译,从而产生有荧光的蛋白。示意图见图12和图14。在设计针对TAG突变位点的crRNA后,将编码eABE的pCX530质粒、sgRNA(crRNA)的pCX537(gRNA-1)/Cx538(gRNA-2)质粒和mCherry*报告质粒pCX337共转染到HEK293T细胞中。将转染的HEK293T细胞在37℃、5%CO2的条件下培养24小时,然后用流式细胞术分离出恢复mCherry荧光表达的细胞,并提取RNA进行逆转录和PCR扩增及测序分析。参见图12的说明。流式细胞术的分析结果请见图13。

流式和测序结果表明,gRNA-1(SEQ ID NO:43)和gRNA-2(SEQ ID NO:44)均成功校正了引入的TAG终止密码子,恢复mCherry正常翻译表达。

ATGGTGAGCAAGGGCGAGGAGGATAACATGGCCATCATCAAGGAGTTCATGCGCTTCAAGGTGCACATGGAGGGCTCCGTGAACGGCCACGAGTTCGAGATCGAGGGCGAGGGCGAGGGCCGCCCCTACGAGGGCACCCAGACCGCCAAGCTGAAGGTGACCAAGGGTGGCCCCCTGCCCTTCGCCTGGGACATCCTGTCCCCTCAGTTCATGTACGGCTCCAAGGCCTACGTGAAGCACCCCGCCGACATCCCCGACTACTTGAAGCTGTCCTTCCCCGAGGGCTTCAAGTAGGAGCGCGTGATGAACTTCGAGGACGGCGGCGTGGTGACCGTGACCCAGGACTCCTCCCTGCAGGACGGCGAGTTCATCTACAAGGTGAAGCTGCGCGGCACCAACTTCCCCTCCGACGGCCCCGTAATGCAGAAGAAGACCATGGGCTGGGAGGCCTCCTCCGAGCGGATGTACCCCGAGGACGGCGCCCTGAAGGGCGAGATCAAGCAGAGGCTGAAGCTGAAGGACGGCGGCCACTACGACGCTGAGGTCAAGACCACCTACAAGGCCAAGAAGCCCGTGCAGCTGCCCGGCGCCTACAACGTCAACATCAAGTTGGACATCACCTCCCACAACGAGGACTACACCATCGTGGAACAGTACGAACGCGCCGAGGGCCGCCACTCCACCGGCGGCATGGACGAGCTGTACAAGTAA(SEQ ID NO:42)

caagtagtcggggatgtcggcggggtgcttcacCtaggccttggagccgtGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:43)

cggggatgtcggcggggtgcttcacCtaggccttggagccgtacatgaacGCTGGAGCAGCCCCCGATTTGTGGGGTGATTACAGC(SEQ ID NO:44)

实施例6 使用缩短的dCas13e.1-ADAR2DD Fusion的单碱基RNA编辑

为了构建迷你版的eABE单碱基编辑器,通过截短dCas13e.1制备了一系列的突变体,首先对dCas13e.1的C端开始以30氨基酸为步长进行截短,这样便产生了C端缺失30、60、90、120和150个残基的五个突变体,然后分别与高保真ADAR2dd*进行融合构建截短版eABE,将这些eABE的构建质粒分别命名为Vysz-19(“V19”)至Vysz15(“V15”)(见图15),在这些质粒中,融合基因均从CMV启动子(pCMV)和增强子(eCMV)后的内含子开始转录表达。截短的eABE的两端均融合了核定位序列(NLS),ADAR2dd*融合在截短的dCas13e.1的C端,并使用polyA终止转录。同时,这些质粒还带有一个单独由EFS启动的GFP表达原件来指示细胞转染阳性的细胞。

实验结果发现,随着dCas13e的C端缺失长度逐渐增加,上述的截短版eABE的编辑活性却有所升高,其中,C端150个氨基酸缺失的编辑器V19表现出最高的碱基编辑活性。请见图16。然而,当C端截短长度达180个氨基酸时,碱基编辑活性几乎完全丧失,这表明dCas13e.1的最长可容忍的缺失长度在150-180个残基之间。

在C端缺失150氨基酸的突变体基础上,我们接着构建了一系列N端缺失的突变体。共生成了7个这样的N端缺失突变体,它们分别在N端有30、60、90、120、150、180和210个残基缺失。请见图17。图18的结果显示,同时含有N端180个残基和C端150个残基缺失的突变体具有最佳的碱基编辑活性,原长775a.a.的Cas13e.1蛋白在截短330个残基后变成一个仅有445a.a.的迷你版dCas13e.1,而且与ADAR2dd*融合后的eABE具有最佳的编辑活性。

实施例7 用不同Cas13蛋白比较哺乳动物内源性mRNA的敲除效率

本实验表明,Cas13e和Cas13f蛋白(尤其是Cas13f.1)在敲除哺乳动物内源性靶mRNA方面非常有效,优于先前鉴定的Cas13蛋白。

具体而言,我们构建了五个质粒,每个质粒表达一种Cas13蛋白,即Cas13e.1(SEQID NO:22)、Cas13f.1(SEQ ID NO:23)、LwaCas13a(SEQ ID NO:45)、PspCas13b(SEQ ID ID:46)、RxCas13d(SEQ ID NO:47)。每个质粒还编码其mCherry报告基因,以及每个Cas13蛋白的相应sgRNA/crRNA的编码序列,该编码序列位于两个天然DR序列的侧翼。这些sgRNA被设计为具有靶向ANXA4 mRNA的间隔区序列。参见SEQ ID NO:48-50。作为阴性对照,我们还构建了5个其他质粒,每个质粒编码非靶向的sgRNA/crRNA,而非编码靶向ANXA4的sgRNA/crRNA(即“对照NT构建体”)。请见图19。

ATGCCCAAGAAGAAGCGGAAGGTGGGATCCATGAAAGTGACCAAGGTCGATGGCATCAGCCACAAGAAGTACATCGAAGAGGGCAAGCTCGTGAAGTCCACCAGCGAGGAAAACCGGACCAGCGAGAGACTGAGCGAGCTGCTGAGCATCCGGCTGGACATCTACATCAAGAACCCCGACAACGCCTCCGAGGAAGAGAACCGGATCAGAAGAGAGAACCTGAAGAAGTTCTTTAGCAACAAGGTGCTGCACCTGAAGGACAGCGTGCTGTATCTGAAGAACCGGAAAGAAAAGAACGCCGTGCAGGACAAGAACTATAGCGAAGAGGACATCAGCGAGTACGACCTGAAAAACAAGAACAGCTTCTCCGTGCTGAAGAAGATCCTGCTGAACGAGGACGTGAACTCTGAGGAACTGGAAATCTTTCGGAAGGACGTGGAAGCCAAGCTGAACAAGATCAACAGCCTGAAGTACAGCTTCGAAGAGAACAAGGCCAACTACCAGAAGATCAACGAGAACAACGTGGAAAAAGTGGGCGGCAAGAGCAAGCGGAACATCATCTACGACTACTACAGAGAGAGCGCCAAGCGCAACGACTACATCAACAACGTGCAGGAAGCCTTCGACAAGCTGTATAAGAAAGAGGATATCGAGAAACTGTTTTTCCTGATCGAGAACAGCAAGAAGCACGAGAAGTACAAGATCCGCGAGTACTATCACAAGATCATCGGCCGGAAGAACGACAAAGAGAACTTCGCCAAGATTATCTACGAAGAGATCCAGAACGTGAACAACATCAAAGAGCTGATTGAGAAGATCCCCGACATGTCTGAGCTGAAGAAAAGCCAGGTGTTCTACAAGTACTACCTGGACAAAGAGGAACTGAACGACAAGAATATTAAGTACGCCTTCTGCCACTTCGTGGAAATCGAGATGTCCCAGCTGCTGAAAAACTACGTGTACAAGCGGCTGAGCAACATCAGCAACGATAAGATCAAGCGGATCTTCGAGTACCAGAATCTGAAAAAGCTGATCGAAAACAAACTGCTGAACAAGCTGGACACCTACGTGCGGAACTGCGGCAAGTACAACTACTATCTGCAAGTGGGCGAGATCGCCACCTCCGACTTTATCGCCCGGAACCGGCAGAACGAGGCCTTCCTGAGAAACATCATCGGCGTGTCCAGCGTGGCCTACTTCAGCCTGAGGAACATCCTGGAAACCGAGAACGAGAACGATATCACCGGCCGGATGCGGGGCAAGACCGTGAAGAACAACAAGGGCGAAGAGAAATACGTGTCCGGCGAGGTGGACAAGATCTACAATGAGAACAAGCAGAACGAAGTGAAAGAAAATCTGAAGATGTTCTACAGCTACGACTTCAACATGGACAACAAGAACGAGATCGAGGACTTCTTCGCCAACATCGACGAGGCCATCAGCAGCATCAGACACGGCATCGTGCACTTCAACCTGGAACTGGAAGGCAAGGACATCTTCGCCTTCAAGAATATCGCCCCCAGCGAGATCTCCAAGAAGATGTTTCAGAACGAAATCAACGAAAAGAAGCTGAAGCTGAAAATCTTCAAGCAGCTGAACAGCGCCAACGTGTTCAACTACTACGAGAAGGATGTGATCATCAAGTACCTGAAGAATACCAAGTTCAACTTCGTGAACAAAAACATCCCCTTCGTGCCCAGCTTCACCAAGCTGTACAACAAGATTGAGGACCTGCGGAATACCCTGAAGTTTTTTTGGAGCGTGCCCAAGGACAAAGAAGAGAAGGACGCCCAGATCTACCTGCTGAAGAATATCTACTACGGCGAGTTCCTGAACAAGTTCGTGAAAAACTCCAAGGTGTTCTTTAAGATCACCAATGAAGTGATCAAGATTAACAAGCAGCGGAACCAGAAAACCGGCCACTACAAGTATCAGAAGTTCGAGAACATCGAGAAAACCGTGCCCGTGGAATACCTGGCCATCATCCAGAGCAGAGAGATGATCAACAACCAGGACAAAGAGGAAAAGAATACCTACATCGACTTTATTCAGCAGATTTTCCTGAAGGGCTTCATCGACTACCTGAACAAGAACAATCTGAAGTATATCGAGAGCAACAACAACAATGACAACAACGACATCTTCTCCAAGATCAAGATCAAAAAGGATAACAAAGAGAAGTACGACAAGATCCTGAAGAACTATGAGAAGCACAATCGGAACAAAGAAATCCCTCACGAGATCAATGAGTTCGTGCGCGAGATCAAGCTGGGGAAGATTCTGAAGTACACCGAGAATCTGAACATGTTTTACCTGATCCTGAAGCTGCTGAACCACAAAGAGCTGACCAACCTGAAGGGCAGCCTGGAAAAGTACCAGTCCGCCAACAAAGAAGAAACCTTCAGCGACGAGCTGGAACTGATCAACCTGCTGAACCTGGACAACAACAGAGTGACCGAGGACTTCGAGCTGGAAGCCAACGAGATCGGCAAGTTCCTGGACTTCAACGAAAACAAAATCAAGGACCGGAAAGAGCTGAAAAAGTTCGACACCAACAAGATCTATTTCGACGGCGAGAACATCATCAAGCACCGGGCCTTCTACAATATCAAGAAATACGGCATGCTGAATCTGCTGGAAAAGATCGCCGATAAGGCCAAGTATAAGATCAGCCTGAAAGAACTGAAAGAGTACAGCAACAAGAAGAATGAGATTGAAAAGAACTACACCATGCAGCAGAACCTGCACCGGAAGTACGCCAGACCCAAGAAGGACGAAAAGTTCAACGACGAGGACTACAAAGAGTATGAGAAGGCCATCGGCAACATCCAGAAGTACACCCACCTGAAGAACAAGGTGGAATTCAATGAGCTGAACCTGCTGCAGGGCCTGCTGCTGAAGATCCTGCACCGGCTCGTGGGCTACACCAGCATCTGGGAGCGGGACCTGAGATTCCGGCTGAAGGGCGAGTTTCCCGAGAACCACTACATCGAGGAAATTTTCAATTTCGACAACTCCAAGAATGTGAAGTACAAAAGCGGCCAGATCGTGGAAAAGTATATCAACTTCTACAAAGAACTGTACAAGGACAATGTGGAAAAGCGGAGCATCTACTCCGACAAGAAAGTGAAGAAACTGAAGCAGGAAAAAAAGGACCTGTACATCCGGAACTACATTGCCCACTTCAACTACATCCCCCACGCCGAGATTAGCCTGCTGGAAGTGCTGGAAAACCTGCGGAAGCTGCTGTCCTACGACCGGAAGCTGAAGAACGCCATCATGAAGTCCATCGTGGACATTCTGAAAGAATACGGCTTCGTGGCCACCTTCAAGATCGGCGCTGACAAGAAGATCGAAATCCAGACCCTGGAATCAGAGAAGATCGTGCACCTGAAGAATCTGAAGAAAAAGAAACTGATGACCGACCGGAACAGCGAGGAACTGTGCGAACTCGTGAAAGTCATGTTCGAGTACAAGGCCCTGGAATGA(SEQ ID NO:45)

ATGCCCAAGAAGAAGCGGAAGGTGGTCGACAACATCCCCGCTCTGGTGGAAAACCAGAAGAAGTACTTTGGCACCTACAGCGTGATGGCCATGCTGAACGCTCAGACCGTGCTGGACCACATCCAGAAGGTGGCCGATATTGAGGGCGAGCAGAACGAGAACAACGAGAATCTGTGGTTTCACCCCGTGATGAGCCACCTGTACAACGCCAAGAACGGCTACGACAAGCAGCCCGAGAAAACCATGTTCATCATCGAGCGGCTGCAGAGCTACTTCCCATTCCTGAAGATCATGGCCGAGAACCAGAGAGAGTACAGCAACGGCAAGTACAAGCAGAACCGCGTGGAAGTGAACAGCAACGACATCTTCGAGGTGCTGAAGCGCGCCTTCGGCGTGCTGAAGATGTACAGGGACCTGACCAACCACTACAAGACCTACGAGGAAAAGCTGAACGACGGCTGCGAGTTCCTGACCAGCACAGAGCAACCTCTGAGCGGCATGATCAACAACTACTACACAGTGGCCCTGCGGAACATGAACGAGAGATACGGCTACAAGACAGAGGACCTGGCCTTCATCCAGGACAAGCGGTTCAAGTTCGTGAAGGACGCCTACGGCAAGAAAAAGTCCCAAGTGAATACCGGATTCTTCCTGAGCCTGCAGGACTACAACGGCGACACACAGAAGAAGCTGCACCTGAGCGGAGTGGGAATCGCCCTGCTGATCTGCCTGTTCCTGGACAAGCAGTACATCAACATCTTTCTGAGCAGGCTGCCCATCTTCTCCAGCTACAATGCCCAGAGCGAGGAACGGCGGATCATCATCAGATCCTTCGGCATCAACAGCATCAAGCTGCCCAAGGACCGGATCCACAGCGAGAAGTCCAACAAGAGCGTGGCCATGGATATGCTCAACGAAGTGAAGCGGTGCCCCGACGAGCTGTTCACAACACTGTCTGCCGAGAAGCAGTCCCGGTTCAGAATCATCAGCGACGACCACAATGAAGTGCTGATGAAGCGGAGCAGCGACAGATTCGTGCCTCTGCTGCTGCAGTATATCGATTACGGCAAGCTGTTCGACCACATCAGGTTCCACGTGAACATGGGCAAGCTGAGATACCTGCTGAAGGCCGACAAGACCTGCATCGACGGCCAGACCAGAGTCAGAGTGATCGAGCAGCCCCTGAACGGCTTCGGCAGACTGGAAGAGGCCGAGACAATGCGGAAGCAAGAGAACGGCACCTTCGGCAACAGCGGCATCCGGATCAGAGACTTCGAGAACATGAAGCGGGACGACGCCAATCCTGCCAACTATCCCTACATCGTGGACACCTACACACACTACATCCTGGAAAACAACAAGGTCGAGATGTTTATCAACGACAAAGAGGACAGCGCCCCACTGCTGCCCGTGATCGAGGATGATAGATACGTGGTCAAGACAATCCCCAGCTGCCGGATGAGCACCCTGGAAATTCCAGCCATGGCCTTCCACATGTTTCTGTTCGGCAGCAAGAAAACCGAGAAGCTGATCGTGGACGTGCACAACCGGTACAAGAGACTGTTCCAGGCCATGCAGAAAGAAGAAGTGACCGCCGAGAATATCGCCAGCTTCGGAATCGCCGAGAGCGACCTGCCTCAGAAGATCCTGGATCTGATCAGCGGCAATGCCCACGGCAAGGATGTGGACGCCTTCATCAGACTGACCGTGGACGACATGCTGACCGACACCGAGCGGAGAATCAAGAGATTCAAGGACGACCGGAAGTCCATTCGGAGCGCCGACAACAAGATGGGAAAGAGAGGCTTCAAGCAGATCTCCACAGGCAAGCTGGCCGACTTCCTGGCCAAGGACATCGTGCTGTTTCAGCCCAGCGTGAACGATGGCGAGAACAAGATCACCGGCCTGAACTACCGGATCATGCAGAGCGCCATTGCCGTGTACGATAGCGGCGACGATTACGAGGCCAAGCAGCAGTTCAAGCTGATGTTCGAGAAGGCCCGGCTGATCGGCAAGGGCACAACAGAGCCTCATCCATTTCTGTACAAGGTGTTCGCCCGCAGCATCCCCGCCAATGCCGTCGAGTTCTACGAGCGCTACCTGATCGAGCGGAAGTTCTACCTGACCGGCCTGTCCAACGAGATCAAGAAAGGCAACAGAGTGGATGTGCCCTTCATCCGGCGGGACCAGAACAAGTGGAAAACACCCGCCATGAAAACCCTGGGCAGAATCTACAGCGAGGATCTGCCCGTGGAACTGCCCAGACAGATGTTCGACAATGAGATCAAGTCCCACCTGAAGTCCCTGCCACAGATGGAAGGCATCGACTTCAACAATGCCAACGTGACCTATCTGATCGCCGAGTACATGAAGAGAGTGCTGGACGACGACTTCCAGACCTTCTACCAGTGGAACCGCAACTACCGGTACATGGACATGCTTAAGGGCGAGTACGACAGAAAGGGCTCCCTGCAGCACTGCTTCACCAGCGTGGAAGAGAGAGAAGGCCTCTGGAAAGAGCGGGCCTCCAGAACAGAGCGGTACAGAAAGCAGGCCAGCAACAAGATCCGCAGCAACCGGCAGATGAGAAACGCCAGCAGCGAAGAGATCGAGACAATCCTGGATAAGCGGCTGAGCAACAGCCGGAACGAGTACCAGAAAAGCGAGAAAGTGATCCGGCGCTACAGAGTGCAGGATGCCCTGCTGTTTCTGCTGGCCAAAAAGACCCTGACCGAACTGGCCGATTTCGACGGCGAGAGGTTCAAACTGAAAGAAATCATGCCCGACGCCGAGAAGGGAATCCTGAGCGAGATCATGCCCATGAGCTTCACCTTCGAGAAAGGCGGCAAGAAGTACACCATCACCAGCGAGGGCATGAAGCTGAAGAACTACGGCGACTTCTTTGTGCTGGCTAGCGACAAGAGGATCGGCAACCTGCTGGAACTCGTGGGCAGCGACATCGTGTCCAAAGAGGATATCATGGAAGAGTTCAACAAATACGACCAGTGCAGGCCCGAGATCAGCTCCATCGTGTTCAACCTGGAAAAGTGGGCCTTCGACACATACCCCGAGCTGTCTGCCAGAGTGGACCGGGAAGAGAAGGTGGACTTCAAGAGCATCCTGAAAATCCTGCTGAACAACAAGAACATCAACAAAGAGCAGAGCGACATCCTGCGGAAGATCCGGAACGCCTTCGATCACAACAATTACCCCGACAAAGGCGTGGTGGAAATCAAGGCCCTGCCTGAGATCGCCATGAGCATCAAGAAGGCCTTTGGGGAGTACGCCATCATGAAGGGATCCCTTCAATGA(SEQ ID NO:46)

ATGCCTAAAAAGAAAAGAAAGGTGGGTTCTGGTATCGAGAAGAAGAAGAGCTTCGCCAAGGGCATGGGAGTGAAGAGCACCCTGGTGTCCGGCTCTAAGGTGTACATGACCACATTTGCTGAGGGAAGCGACGCCAGGCTGGAGAAGATCGTGGAGGGCGATAGCATCAGATCCGTGAACGAGGGAGAGGCTTTCAGCGCCGAGATGGCTGACAAGAACGCTGGCTACAAGATCGGAAACGCCAAGTTTTCCCACCCAAAGGGCTACGCCGTGGTGGCTAACAACCCACTGTACACCGGACCAGTGCAGCAGGACATGCTGGGACTGAAGGAGACACTGGAGAAGAGGTACTTCGGCGAGTCCGCCGACGGAAACGATAACATCTGCATCCAGGTCATCCACAACATCCTGGATATCGAGAAGATCCTGGCTGAGTACATCACAAACGCCGCTTACGCCGTGAACAACATCTCCGGCCTGGACAAGGATATCATCGGCTTCGGAAAGTTTTCTACCGTGTACACATACGACGAGTTCAAGGATCCAGAGCACCACCGGGCCGCTTTTAACAACAACGACAAGCTGATCAACGCCATCAAGGCTCAGTACGACGAGTTCGATAACTTTCTGGATAACCCCAGGCTGGGCTACTTCGGACAGGCTTTCTTTTCTAAGGAGGGCAGAAACTACATCATCAACTACGGAAACGAGTGTTACGACATCCTGGCCCTGCTGAGCGGACTGAGGCACTGGGTGGTGCACAACAACGAGGAGGAGTCTCGGATCAGCCGCACCTGGCTGTACAACCTGGACAAGAACCTGGATAACGAGTACATCTCCACACTGAACTACCTGTACGACAGGATCACCAACGAGCTGACAAACAGCTTCTCCAAGAACTCTGCCGCTAACGTGAACTACATCGCTGAGACCCTGGGCATCAACCCAGCTGAGTTCGCTGAGCAGTACTTCAGATTTTCCATCATGAAGGAGCAGAAGAACCTGGGCTTCAACATCACAAAGCTGAGAGAAGTGATGCTGGACAGAAAGGATATGTCCGAGATCAGGAAGAACCACAAGGTGTTCGATTCTATCAGAACCAAGGTGTACACAATGATGGACTTTGTGATCTACAGGTACTACATCGAGGAGGATGCCAAGGTGGCCGCTGCCAACAAGAGCCTGCCCGACAACGAGAAGTCTCTGAGCGAGAAGGATATCTTCGTGATCAACCTGAGAGGCTCCTTTAACGACGATCAGAAGGACGCTCTGTACTACGATGAGGCCAACAGGATCTGGAGAAAGCTGGAGAACATCATGCACAACATCAAGGAGTTCCGGGGAAACAAGACCCGCGAGTACAAGAAGAAGGACGCTCCAAGGCTGCCTAGGATCCTGCCTGCTGGAAGGGACGTGAGCGCCTTCAGCAAGCTGATGTACGCCCTGACAATGTTTCTGGACGGAAAGGAGATCAACGATCTGCTGACCACACTGATCAACAAGTTCGACAACATCCAGTCTTTTCTGAAAGTGATGCCTCTGATCGGCGTGAACGCTAAGTTCGTGGAGGAGTACGCCTTCTTTAAGGACAGCGCCAAGATCGCTGATGAGCTGCGGCTGATCAAGTCCTTTGCCAGGATGGGAGAGCCAATCGCTGACGCTAGGAGAGCTATGTACATCGATGCCATCCGGATCCTGGGAACCAACCTGTCTTACGACGAGCTGAAGGCTCTGGCCGACACCTTCAGCCTGGATGAGAACGGCAACAAGCTGAAGAAGGGCAAGCACGGAATGCGCAACTTCATCATCAACAACGTGATCAGCAACAAGCGGTTTCACTACCTGATCAGATACGGCGACCCAGCTCACCTGCACGAGATCGCTAAGAACGAGGCCGTGGTGAAGTTCGTGCTGGGACGGATCGCCGATATCCAGAAGAAGCAGGGCCAGAACGGAAAGAACCAGATCGACCGCTACTACGAGACCTGCATCGGCAAGGATAAGGGAAAGTCCGTGTCTGAGAAGGTGGACGCTCTGACCAAGATCATCACAGGCATGAACTACGACCAGTTCGATAAGAAGAGATCTGTGATCGAGGACACCGGAAGGGAGAACGCCGAGAGAGAGAAGTTTAAGAAGATCATCAGCCTGTACCTGACAGTGATCTACCACATCCTGAAGAACATCGTGAACATCAACGCTAGATACGTGATCGGCTTCCACTGCGTGGAGCGCGATGCCCAGCTGTACAAGGAGAAGGGATACGACATCAACCTGAAGAAGCTGGAGGAGAAGGGCTTTAGCTCCGTGACCAAGCTGTGCGCTGGAATCGACGAGACAGCCCCCGACAAGAGGAAGGATGTGGAGAAGGAGATGGCCGAGAGAGCTAAGGAGAGCATCGACTCCCTGGAGTCTGCTAACCCTAAGCTGTACGCCAACTACATCAAGTACTCCGATGAGAAGAAGGCCGAGGAGTTCACCAGGCAGATCAACAGAGAGAAGGCCAAGACCGCTCTGAACGCCTACCTGAGGAACACAAAGTGGAACGTGATCATCCGGGAGGACCTGCTGCGCATCGATAACAAGACCTGTACACTGTTCCGGAACAAGGCTGTGCACCTGGAGGTGGCTCGCTACGTGCACGCCTACATCAACGACATCGCCGAGGTGAACTCCTACTTTCAGCTGTACCACTACATCATGCAGAGGATCATCATGAACGAGAGATACGAGAAGTCTAGCGGCAAGGTGTCTGAGTACTTCGACGCCGTGAACGATGAGAAGAAGTACAACGATAGACTGCTGAAGCTGCTGTGCGTGCCTTTCGGATACTGTATCCCACGGTTTAAGAACCTGAGCATCGAGGCCCTGTTCGACCGCAACGAGGCTGCCAAGTTTGATAAGGAGAAGAAGAAGGTGAGCGGCAACTCCTGA(SEQ ID NO:47)

ATGGCCCTTCGCAGCTCTTGCACGTCATAC(SEQ ID NO:48)

TTAGGCAGCCCTCATCAGTGCCGGCTCCCT(SEQ ID NO:49)

GGCCAGGATCTCAATTAGGCAGCCCTCATC(SEQ ID NO:50)

如实施例4中所述,5个Cas13/sgRNA编码质粒被转染到HEK293细胞中。培养24小时后,通过流式细胞术分离出表达mCherry的细胞,然后用RT-PCR确定ANXA4mRNA的表达来评估敲低效率,与Cas13/NT编码质粒转染的对照细胞相比较。

图20显示,Cas13b仅具有少量ANXA4 mRNA敲低,而Cas13e.1、Cas13f.1、Cas13d分别具有超过80%的靶标ANXA4 mRNA敲低。其中Cas13e.1显示具有最强的敲低效率。

序列表

<110> 中国科学院脑科学与智能技术卓越创新中心

<120> VI-E型和VI-F型CRISPR-Cas系统及用途

<130> 202656

<150> PCT/CN2020/077211

<151> 2020-02-28

<160> 50

<170> SIPOSequenceListing 1.0

<210> 1

<211> 775

<212> PRT

<213> 宏基因组(metagenomic)

<400> 1

Met Ala Gln Val Ser Lys Gln Thr Ser Lys Lys Arg Glu Leu Ser Ile

1 5 10 15

Asp Glu Tyr Gln Gly Ala Arg Lys Trp Cys Phe Thr Ile Ala Phe Asn

20 25 30

Lys Ala Leu Val Asn Arg Asp Lys Asn Asp Gly Leu Phe Val Glu Ser

35 40 45

Leu Leu Arg His Glu Lys Tyr Ser Lys His Asp Trp Tyr Asp Glu Asp

50 55 60

Thr Arg Ala Leu Ile Lys Cys Ser Thr Gln Ala Ala Asn Ala Lys Ala

65 70 75 80

Glu Ala Leu Arg Asn Tyr Phe Ser His Tyr Arg His Ser Pro Gly Cys

85 90 95

Leu Thr Phe Thr Ala Glu Asp Glu Leu Arg Thr Ile Met Glu Arg Ala

100 105 110

Tyr Glu Arg Ala Ile Phe Glu Cys Arg Arg Arg Glu Thr Glu Val Ile

115 120 125

Ile Glu Phe Pro Ser Leu Phe Glu Gly Asp Arg Ile Thr Thr Ala Gly

130 135 140

Val Val Phe Phe Val Ser Phe Phe Val Glu Arg Arg Val Leu Asp Arg

145 150 155 160

Leu Tyr Gly Ala Val Ser Gly Leu Lys Lys Asn Glu Gly Gln Tyr Lys

165 170 175

Leu Thr Arg Lys Ala Leu Ser Met Tyr Cys Leu Lys Asp Ser Arg Phe

180 185 190

Thr Lys Ala Trp Asp Lys Arg Val Leu Leu Phe Arg Asp Ile Leu Ala

195 200 205

Gln Leu Gly Arg Ile Pro Ala Glu Ala Tyr Glu Tyr Tyr His Gly Glu

210 215 220

Gln Gly Asp Lys Lys Arg Ala Asn Asp Asn Glu Gly Thr Asn Pro Lys

225 230 235 240

Arg His Lys Asp Lys Phe Ile Glu Phe Ala Leu His Tyr Leu Glu Ala

245 250 255

Gln His Ser Glu Ile Cys Phe Gly Arg Arg His Ile Val Arg Glu Glu

260 265 270

Ala Gly Ala Gly Asp Glu His Lys Lys His Arg Thr Lys Gly Lys Val

275 280 285

Val Val Asp Phe Ser Lys Lys Asp Glu Asp Gln Ser Tyr Tyr Ile Ser

290 295 300

Lys Asn Asn Val Ile Val Arg Ile Asp Lys Asn Ala Gly Pro Arg Ser

305 310 315 320

Tyr Arg Met Gly Leu Asn Glu Leu Lys Tyr Leu Val Leu Leu Ser Leu

325 330 335

Gln Gly Lys Gly Asp Asp Ala Ile Ala Lys Leu Tyr Arg Tyr Arg Gln

340 345 350

His Val Glu Asn Ile Leu Asp Val Val Lys Val Thr Asp Lys Asp Asn

355 360 365

His Val Phe Leu Pro Arg Phe Val Leu Glu Gln His Gly Ile Gly Arg

370 375 380

Lys Ala Phe Lys Gln Arg Ile Asp Gly Arg Val Lys His Val Arg Gly

385 390 395 400

Val Trp Glu Lys Lys Lys Ala Ala Thr Asn Glu Met Thr Leu His Glu

405 410 415

Lys Ala Arg Asp Ile Leu Gln Tyr Val Asn Glu Asn Cys Thr Arg Ser

420 425 430

Phe Asn Pro Gly Glu Tyr Asn Arg Leu Leu Val Cys Leu Val Gly Lys

435 440 445

Asp Val Glu Asn Phe Gln Ala Gly Leu Lys Arg Leu Gln Leu Ala Glu

450 455 460

Arg Ile Asp Gly Arg Val Tyr Ser Ile Phe Ala Gln Thr Ser Thr Ile

465 470 475 480

Asn Glu Met His Gln Val Val Cys Asp Gln Ile Leu Asn Arg Leu Cys

485 490 495

Arg Ile Gly Asp Gln Lys Leu Tyr Asp Tyr Val Gly Leu Gly Lys Lys

500 505 510

Asp Glu Ile Asp Tyr Lys Gln Lys Val Ala Trp Phe Lys Glu His Ile

515 520 525

Ser Ile Arg Arg Gly Phe Leu Arg Lys Lys Phe Trp Tyr Asp Ser Lys

530 535 540

Lys Gly Phe Ala Lys Leu Val Glu Glu His Leu Glu Ser Gly Gly Gly

545 550 555 560

Gln Arg Asp Val Gly Leu Asp Lys Lys Tyr Tyr His Ile Asp Ala Ile

565 570 575

Gly Arg Phe Glu Gly Ala Asn Pro Ala Leu Tyr Glu Thr Leu Ala Arg

580 585 590

Asp Arg Leu Cys Leu Met Met Ala Gln Tyr Phe Leu Gly Ser Val Arg

595 600 605

Lys Glu Leu Gly Asn Lys Ile Val Trp Ser Asn Asp Ser Ile Glu Leu

610 615 620

Pro Val Glu Gly Ser Val Gly Asn Glu Lys Ser Ile Val Phe Ser Val

625 630 635 640

Ser Asp Tyr Gly Lys Leu Tyr Val Leu Asp Asp Ala Glu Phe Leu Gly

645 650 655

Arg Ile Cys Glu Tyr Phe Met Pro His Glu Lys Gly Lys Ile Arg Tyr

660 665 670

His Thr Val Tyr Glu Lys Gly Phe Arg Ala Tyr Asn Asp Leu Gln Lys

675 680 685

Lys Cys Val Glu Ala Val Leu Ala Phe Glu Glu Lys Val Val Lys Ala

690 695 700

Lys Lys Met Ser Glu Lys Glu Gly Ala His Tyr Ile Asp Phe Arg Glu

705 710 715 720

Ile Leu Ala Gln Thr Met Cys Lys Glu Ala Glu Lys Thr Ala Val Asn

725 730 735

Lys Val Arg Arg Ala Phe Phe His His His Leu Lys Phe Val Ile Asp

740 745 750

Glu Phe Gly Leu Phe Ser Asp Val Met Lys Lys Tyr Gly Ile Glu Lys

755 760 765

Glu Trp Lys Phe Pro Val Lys

770 775

<210> 2

<211> 805

<212> PRT

<213> 宏基因组(metagenomic)

<400> 2

Met Lys Val Glu Asn Ile Lys Glu Lys Ser Lys Lys Ala Met Tyr Leu

1 5 10 15

Ile Asn His Tyr Glu Gly Pro Lys Lys Trp Cys Phe Ala Ile Val Leu

20 25 30

Asn Arg Ala Cys Asp Asn Tyr Glu Asp Asn Pro His Leu Phe Ser Lys

35 40 45

Ser Leu Leu Glu Phe Glu Lys Thr Ser Arg Lys Asp Trp Phe Asp Glu

50 55 60

Glu Thr Arg Glu Leu Val Glu Gln Ala Asp Thr Glu Ile Gln Pro Asn

65 70 75 80

Pro Asn Leu Lys Pro Asn Thr Thr Ala Asn Arg Lys Leu Lys Asp Ile

85 90 95

Arg Asn Tyr Phe Ser His His Tyr His Lys Asn Glu Cys Leu Tyr Phe

100 105 110

Lys Asn Asp Asp Pro Ile Arg Cys Ile Met Glu Ala Ala Tyr Glu Lys

115 120 125

Ser Lys Ile Tyr Ile Lys Gly Lys Gln Ile Glu Gln Ser Asp Ile Pro

130 135 140

Leu Pro Glu Leu Phe Glu Ser Ser Gly Trp Ile Thr Pro Ala Gly Ile

145 150 155 160

Leu Leu Leu Ala Ser Phe Phe Val Glu Arg Gly Ile Leu His Arg Leu

165 170 175

Met Gly Asn Ile Gly Gly Phe Lys Asp Asn Arg Gly Glu Tyr Gly Leu

180 185 190

Thr His Asp Ile Phe Thr Thr Tyr Cys Leu Lys Gly Ser Tyr Ser Ile

195 200 205

Arg Ala Gln Asp His Asp Ala Val Met Phe Arg Asp Ile Leu Gly Tyr

210 215 220

Leu Ser Arg Val Pro Thr Glu Ser Phe Gln Arg Ile Lys Gln Pro Gln

225 230 235 240

Ile Arg Lys Glu Gly Gln Leu Ser Glu Arg Lys Thr Asp Lys Phe Ile

245 250 255

Thr Phe Ala Leu Asn Tyr Leu Glu Asp Tyr Gly Leu Lys Asp Leu Glu

260 265 270

Gly Cys Lys Ala Cys Phe Ala Arg Ser Lys Ile Val Arg Glu Gln Glu

275 280 285

Asn Val Glu Ser Ile Asn Asp Lys Glu Tyr Lys Pro His Glu Asn Lys

290 295 300

Lys Lys Val Glu Ile His Phe Asp Gln Ser Lys Glu Asp Arg Phe Tyr

305 310 315 320

Ile Asn Arg Asn Asn Val Ile Leu Lys Ile Gln Lys Lys Asp Gly His

325 330 335

Ser Asn Ile Val Arg Met Gly Val Tyr Glu Leu Lys Tyr Leu Val Leu

340 345 350

Met Ser Leu Val Gly Lys Ala Lys Glu Ala Val Glu Lys Ile Asp Asn

355 360 365

Tyr Ile Gln Asp Leu Arg Asp Gln Leu Pro Tyr Ile Glu Gly Lys Asn

370 375 380

Lys Glu Glu Ile Lys Glu Tyr Val Arg Phe Phe Pro Arg Phe Ile Arg

385 390 395 400

Ser His Leu Gly Leu Leu Gln Ile Asn Asp Glu Glu Lys Ile Lys Ala

405 410 415

Arg Leu Asp Tyr Val Lys Thr Lys Trp Leu Asp Lys Lys Glu Lys Ser

420 425 430

Lys Glu Leu Glu Leu His Lys Lys Gly Arg Asp Ile Leu Arg Tyr Ile

435 440 445

Asn Glu Arg Cys Asp Arg Glu Leu Asn Arg Asn Val Tyr Asn Arg Ile

450 455 460

Leu Glu Leu Leu Val Ser Lys Asp Leu Thr Gly Phe Tyr Arg Glu Leu

465 470 475 480

Glu Glu Leu Lys Arg Thr Arg Arg Ile Asp Lys Asn Ile Val Gln Asn

485 490 495

Leu Ser Gly Gln Lys Thr Ile Asn Ala Leu His Glu Lys Val Cys Asp

500 505 510

Leu Val Leu Lys Glu Ile Glu Ser Leu Asp Thr Glu Asn Leu Arg Lys

515 520 525

Tyr Leu Gly Leu Ile Pro Lys Glu Glu Lys Glu Val Thr Phe Lys Glu

530 535 540

Lys Val Asp Arg Ile Leu Lys Gln Pro Val Ile Tyr Lys Gly Phe Leu

545 550 555 560

Arg Tyr Gln Phe Phe Lys Asp Asp Lys Lys Ser Phe Val Leu Leu Val

565 570 575

Glu Asp Ala Leu Lys Glu Lys Gly Gly Gly Cys Asp Val Pro Leu Gly

580 585 590

Lys Glu Tyr Tyr Lys Ile Val Ser Leu Asp Lys Tyr Asp Lys Glu Asn

595 600 605

Lys Thr Leu Cys Glu Thr Leu Ala Met Asp Arg Leu Cys Leu Met Met

610 615 620

Ala Arg Gln Tyr Tyr Leu Ser Leu Asn Ala Lys Leu Ala Gln Glu Ala

625 630 635 640

Gln Gln Ile Glu Trp Lys Lys Glu Asp Ser Ile Glu Leu Ile Ile Phe

645 650 655

Thr Leu Lys Asn Pro Asp Gln Ser Lys Gln Ser Phe Ser Ile Arg Phe

660 665 670

Ser Val Arg Asp Phe Thr Lys Leu Tyr Val Thr Asp Asp Pro Glu Phe

675 680 685

Leu Ala Arg Leu Cys Ser Tyr Phe Phe Pro Val Glu Lys Glu Ile Glu

690 695 700

Tyr His Lys Leu Tyr Ser Glu Gly Ile Asn Lys Tyr Thr Asn Leu Gln

705 710 715 720

Lys Glu Gly Ile Glu Ala Ile Leu Glu Leu Glu Lys Lys Leu Ile Glu

725 730 735

Arg Asn Arg Ile Gln Ser Ala Lys Asn Tyr Leu Ser Phe Asn Glu Ile

740 745 750

Met Asn Lys Ser Gly Tyr Asn Lys Asp Glu Gln Asp Asp Leu Lys Lys

755 760 765

Val Arg Asn Ser Leu Leu His Tyr Lys Leu Ile Phe Glu Lys Glu His

770 775 780

Leu Lys Lys Phe Tyr Glu Val Met Arg Gly Glu Gly Ile Glu Lys Lys

785 790 795 800

Trp Ser Leu Ile Val

805

<210> 3

<211> 790

<212> PRT

<213> 宏基因组(metagenomic)

<400> 3

Met Asn Gly Ile Glu Leu Lys Lys Glu Glu Ala Ala Phe Tyr Phe Asn

1 5 10 15

Gln Ala Glu Leu Asn Leu Lys Ala Ile Glu Asp Asn Ile Phe Asp Lys

20 25 30

Glu Arg Arg Lys Thr Leu Leu Asn Asn Pro Gln Ile Leu Ala Lys Met

35 40 45

Glu Asn Phe Ile Phe Asn Phe Arg Asp Val Thr Lys Asn Ala Lys Gly

50 55 60

Glu Ile Asp Cys Leu Leu Leu Lys Leu Arg Glu Leu Arg Asn Phe Tyr

65 70 75 80

Ser His Tyr Val His Lys Arg Asp Val Arg Glu Leu Ser Lys Gly Glu

85 90 95

Lys Pro Ile Leu Glu Lys Tyr Tyr Gln Phe Ala Ile Glu Ser Thr Gly

100 105 110

Ser Glu Asn Val Lys Leu Glu Ile Ile Glu Asn Asp Ala Trp Leu Ala

115 120 125

Asp Ala Gly Val Leu Phe Phe Leu Cys Ile Phe Leu Lys Lys Ser Gln

130 135 140

Ala Asn Lys Leu Ile Ser Gly Ile Ser Gly Phe Lys Arg Asn Asp Asp

145 150 155 160

Thr Gly Gln Pro Arg Arg Asn Leu Phe Thr Tyr Phe Ser Ile Arg Glu

165 170 175

Gly Tyr Lys Val Val Pro Glu Met Gln Lys His Phe Leu Leu Phe Ser

180 185 190

Leu Val Asn His Leu Ser Asn Gln Asp Asp Tyr Ile Glu Lys Ala His

195 200 205

Gln Pro Tyr Asp Ile Gly Glu Gly Leu Phe Phe His Arg Ile Ala Ser

210 215 220

Thr Phe Leu Asn Ile Ser Gly Ile Leu Arg Asn Met Lys Phe Tyr Thr

225 230 235 240

Tyr Gln Ser Lys Arg Leu Val Glu Gln Arg Gly Glu Leu Lys Arg Glu

245 250 255

Lys Asp Ile Phe Ala Trp Glu Glu Pro Phe Gln Gly Asn Ser Tyr Phe

260 265 270

Glu Ile Asn Gly His Lys Gly Val Ile Gly Glu Asp Glu Leu Lys Glu

275 280 285

Leu Cys Tyr Ala Phe Leu Ile Gly Asn Gln Asp Ala Asn Lys Val Glu

290 295 300

Gly Arg Ile Thr Gln Phe Leu Glu Lys Phe Arg Asn Ala Asn Ser Val

305 310 315 320

Gln Gln Val Lys Asp Asp Glu Met Leu Lys Pro Glu Tyr Phe Pro Ala

325 330 335

Asn Tyr Phe Ala Glu Ser Gly Val Gly Arg Ile Lys Asp Arg Val Leu

340 345 350

Asn Arg Leu Asn Lys Ala Ile Lys Ser Asn Lys Ala Lys Lys Gly Glu

355 360 365

Ile Ile Ala Tyr Asp Lys Met Arg Glu Val Met Ala Phe Ile Asn Asn

370 375 380

Ser Leu Pro Val Asp Glu Lys Leu Lys Pro Lys Asp Tyr Lys Arg Tyr

385 390 395 400

Leu Gly Met Val Arg Phe Trp Asp Arg Glu Lys Asp Asn Ile Lys Arg

405 410 415

Glu Phe Glu Thr Lys Glu Trp Ser Lys Tyr Leu Pro Ser Asn Phe Trp

420 425 430

Thr Ala Lys Asn Leu Glu Arg Val Tyr Gly Leu Ala Arg Glu Lys Asn

435 440 445

Ala Glu Leu Phe Asn Lys Leu Lys Ala Asp Val Glu Lys Met Asp Glu

450 455 460

Arg Glu Leu Glu Lys Tyr Gln Lys Ile Asn Asp Ala Lys Asp Leu Ala

465 470 475 480

Asn Leu Arg Arg Leu Ala Ser Asp Phe Gly Val Lys Trp Glu Glu Lys

485 490 495

Asp Trp Asp Glu Tyr Ser Gly Gln Ile Lys Lys Gln Ile Thr Asp Ser

500 505 510

Gln Lys Leu Thr Ile Met Lys Gln Arg Ile Thr Ala Gly Leu Lys Lys

515 520 525

Lys His Gly Ile Glu Asn Leu Asn Leu Arg Ile Thr Ile Asp Ile Asn

530 535 540

Lys Ser Arg Lys Ala Val Leu Asn Arg Ile Ala Ile Pro Arg Gly Phe

545 550 555 560

Val Lys Arg His Ile Leu Gly Trp Gln Glu Ser Glu Lys Val Ser Lys

565 570 575

Lys Ile Arg Glu Ala Glu Cys Glu Ile Leu Leu Ser Lys Glu Tyr Glu

580 585 590

Glu Leu Ser Lys Gln Phe Phe Gln Ser Lys Asp Tyr Asp Lys Met Thr

595 600 605

Arg Ile Asn Gly Leu Tyr Glu Lys Asn Lys Leu Ile Ala Leu Met Ala

610 615 620

Val Tyr Leu Met Gly Gln Leu Arg Ile Leu Phe Lys Glu His Thr Lys

625 630 635 640

Leu Asp Asp Ile Thr Lys Thr Thr Val Asp Phe Lys Ile Ser Asp Lys

645 650 655

Val Thr Val Lys Ile Pro Phe Ser Asn Tyr Pro Ser Leu Val Tyr Thr

660 665 670

Met Ser Ser Lys Tyr Val Asp Asn Ile Gly Asn Tyr Gly Phe Ser Asn

675 680 685

Lys Asp Lys Asp Lys Pro Ile Leu Gly Lys Ile Asp Val Ile Glu Lys

690 695 700

Gln Arg Met Glu Phe Ile Lys Glu Val Leu Gly Phe Glu Lys Tyr Leu

705 710 715 720

Phe Asp Asp Lys Ile Ile Asp Lys Ser Lys Phe Ala Asp Thr Ala Thr

725 730 735

His Ile Ser Phe Ala Glu Ile Val Glu Glu Leu Val Glu Lys Gly Trp

740 745 750

Asp Lys Asp Arg Leu Thr Lys Leu Lys Asp Ala Arg Asn Lys Ala Leu

755 760 765

His Gly Glu Ile Leu Thr Gly Thr Ser Phe Asp Glu Thr Lys Ser Leu

770 775 780

Ile Asn Glu Leu Lys Lys

785 790

<210> 4

<211> 792

<212> PRT

<213> 宏基因组(metagenomic)

<400> 4

Met Ser Pro Asp Phe Ile Lys Leu Glu Lys Gln Glu Ala Ala Phe Tyr

1 5 10 15

Phe Asn Gln Thr Glu Leu Asn Leu Lys Ala Ile Glu Ser Asn Ile Leu

20 25 30

Asp Lys Gln Gln Arg Met Ile Leu Leu Asn Asn Pro Arg Ile Leu Ala

35 40 45

Lys Val Gly Asn Phe Ile Phe Asn Phe Arg Asp Val Thr Lys Asn Ala

50 55 60

Lys Gly Glu Ile Asp Cys Leu Leu Phe Lys Leu Glu Glu Leu Arg Asn

65 70 75 80

Phe Tyr Ser His Tyr Val His Thr Asp Asn Val Lys Glu Leu Ser Asn

85 90 95

Gly Glu Lys Pro Leu Leu Glu Arg Tyr Tyr Gln Ile Ala Ile Gln Ala

100 105 110

Thr Arg Ser Glu Asp Val Lys Phe Glu Leu Phe Glu Thr Arg Asn Glu

115 120 125

Asn Lys Ile Thr Asp Ala Gly Val Leu Phe Phe Leu Cys Met Phe Leu

130 135 140

Lys Lys Ser Gln Ala Asn Lys Leu Ile Ser Gly Ile Ser Gly Phe Lys

145 150 155 160

Arg Asn Asp Pro Thr Gly Gln Pro Arg Arg Asn Leu Phe Thr Tyr Phe

165 170 175

Ser Ala Arg Glu Gly Tyr Lys Ala Leu Pro Asp Met Gln Lys His Phe

180 185 190

Leu Leu Phe Thr Leu Val Asn Tyr Leu Ser Asn Gln Asp Glu Tyr Ile

195 200 205

Ser Glu Leu Lys Gln Tyr Gly Glu Ile Gly Gln Gly Ala Phe Phe Asn

210 215 220

Arg Ile Ala Ser Thr Phe Leu Asn Ile Ser Gly Ile Ser Gly Asn Thr

225 230 235 240

Lys Phe Tyr Ser Tyr Gln Ser Lys Arg Ile Lys Glu Gln Arg Gly Glu

245 250 255

Leu Asn Ser Glu Lys Asp Ser Phe Glu Trp Ile Glu Pro Phe Gln Gly

260 265 270

Asn Ser Tyr Phe Glu Ile Asn Gly His Lys Gly Val Ile Gly Glu Asp

275 280 285

Glu Leu Lys Glu Leu Cys Tyr Ala Leu Leu Val Ala Lys Gln Asp Ile

290 295 300

Asn Ala Val Glu Gly Lys Ile Met Gln Phe Leu Lys Lys Phe Arg Asn

305 310 315 320

Thr Gly Asn Leu Gln Gln Val Lys Asp Asp Glu Met Leu Glu Ile Glu

325 330 335

Tyr Phe Pro Ala Ser Tyr Phe Asn Glu Ser Lys Lys Glu Asp Ile Lys

340 345 350

Lys Glu Ile Leu Gly Arg Leu Asp Lys Lys Ile Arg Ser Cys Ser Ala

355 360 365

Lys Ala Glu Lys Ala Tyr Asp Lys Met Lys Glu Val Met Glu Phe Ile

370 375 380

Asn Asn Ser Leu Pro Ala Glu Glu Lys Leu Lys Arg Lys Asp Tyr Arg

385 390 395 400

Arg Tyr Leu Lys Met Val Arg Phe Trp Ser Arg Glu Lys Gly Asn Ile

405 410 415

Glu Arg Glu Phe Arg Thr Lys Glu Trp Ser Lys Tyr Phe Ser Ser Asp

420 425 430

Phe Trp Arg Lys Asn Asn Leu Glu Asp Val Tyr Lys Leu Ala Thr Gln

435 440 445

Lys Asn Ala Glu Leu Phe Lys Asn Leu Lys Ala Ala Ala Glu Lys Met

450 455 460

Gly Glu Thr Glu Phe Glu Lys Tyr Gln Gln Ile Asn Asp Val Lys Asp

465 470 475 480

Leu Ala Ser Leu Arg Arg Leu Thr Gln Asp Phe Gly Leu Lys Trp Glu

485 490 495

Glu Lys Asp Trp Glu Glu Tyr Ser Glu Gln Ile Lys Lys Gln Ile Thr

500 505 510

Asp Arg Gln Lys Leu Thr Ile Met Lys Gln Arg Val Thr Ala Glu Leu

515 520 525

Lys Lys Lys His Gly Ile Glu Asn Leu Asn Leu Arg Ile Thr Ile Asp

530 535 540

Ser Asn Lys Ser Arg Lys Ala Val Leu Asn Arg Ile Ala Ile Pro Arg

545 550 555 560

Gly Phe Val Lys Lys His Ile Leu Gly Trp Gln Gly Ser Glu Lys Ile

565 570 575

Ser Lys Asn Ile Arg Glu Ala Glu Cys Lys Ile Leu Leu Ser Lys Lys

580 585 590

Tyr Glu Glu Leu Ser Arg Gln Phe Phe Glu Ala Gly Asn Phe Asp Lys

595 600 605

Leu Thr Gln Ile Asn Gly Leu Tyr Glu Lys Asn Lys Leu Thr Ala Phe

610 615 620

Met Ser Val Tyr Leu Met Gly Arg Leu Asn Ile Gln Leu Asn Lys His

625 630 635 640

Thr Glu Leu Gly Asn Leu Lys Lys Thr Glu Val Asp Phe Lys Ile Ser

645 650 655

Asp Lys Val Thr Glu Lys Ile Pro Phe Ser Gln Tyr Pro Ser Leu Val

660 665 670

Tyr Ala Met Ser Arg Lys Tyr Val Asp Asn Val Asp Lys Tyr Lys Phe

675 680 685

Ser His Gln Asp Lys Lys Lys Pro Phe Leu Gly Lys Ile Asp Ser Ile

690 695 700

Glu Lys Glu Arg Ile Glu Phe Ile Lys Glu Val Leu Asp Phe Glu Glu

705 710 715 720

Tyr Leu Phe Lys Asn Lys Val Ile Asp Lys Ser Lys Phe Ser Asp Thr

725 730 735

Ala Thr His Ile Ser Phe Lys Glu Ile Cys Asp Glu Met Gly Lys Lys

740 745 750

Gly Cys Asn Arg Asn Lys Leu Thr Glu Leu Asn Asn Ala Arg Asn Ala

755 760 765

Ala Leu His Gly Glu Ile Pro Ser Glu Thr Ser Phe Arg Glu Ala Lys

770 775 780

Pro Leu Ile Asn Glu Leu Lys Lys

785 790

<210> 5

<211> 792

<212> PRT

<213> 宏基因组(metagenomic)

<400> 5

Met Ser Pro Asp Phe Ile Lys Leu Glu Lys Gln Glu Ala Ala Phe Tyr

1 5 10 15

Phe Asn Gln Thr Glu Leu Asn Leu Lys Ala Ile Glu Ser Asn Ile Phe

20 25 30

Asp Lys Gln Gln Arg Val Ile Leu Leu Asn Asn Pro Gln Ile Leu Ala

35 40 45

Lys Val Gly Asp Phe Ile Phe Asn Phe Arg Asp Val Thr Lys Asn Ala

50 55 60

Lys Gly Glu Ile Asp Cys Leu Leu Leu Lys Leu Arg Glu Leu Arg Asn

65 70 75 80

Phe Tyr Ser His Tyr Val Tyr Thr Asp Asp Val Lys Ile Leu Ser Asn

85 90 95

Gly Glu Arg Pro Leu Leu Glu Lys Tyr Tyr Gln Phe Ala Ile Glu Ala

100 105 110

Thr Gly Ser Glu Asn Val Lys Leu Glu Ile Ile Glu Ser Asn Asn Arg

115 120 125

Leu Thr Glu Ala Gly Val Leu Phe Phe Leu Cys Met Phe Leu Lys Lys

130 135 140

Ser Gln Ala Asn Lys Leu Ile Ser Gly Ile Ser Gly Phe Lys Arg Asn

145 150 155 160

Asp Pro Thr Gly Gln Pro Arg Arg Asn Leu Phe Thr Tyr Phe Ser Val

165 170 175

Arg Glu Gly Tyr Lys Val Val Pro Asp Met Gln Lys His Phe Leu Leu

180 185 190

Phe Val Leu Val Asn His Leu Ser Gly Gln Asp Asp Tyr Ile Glu Lys

195 200 205

Ala Gln Lys Pro Tyr Asp Ile Gly Glu Gly Leu Phe Phe His Arg Ile

210 215 220

Ala Ser Thr Phe Leu Asn Ile Ser Gly Ile Leu Arg Asn Met Glu Phe

225 230 235 240

Tyr Ile Tyr Gln Ser Lys Arg Leu Lys Glu Gln Gln Gly Glu Leu Lys

245 250 255

Arg Glu Lys Asp Ile Phe Pro Trp Ile Glu Pro Phe Gln Gly Asn Ser

260 265 270

Tyr Phe Glu Ile Asn Gly Asn Lys Gly Ile Ile Gly Glu Asp Glu Leu

275 280 285

Lys Glu Leu Cys Tyr Ala Leu Leu Val Ala Gly Lys Asp Val Arg Ala

290 295 300

Val Glu Gly Lys Ile Thr Gln Phe Leu Glu Lys Phe Lys Asn Ala Asp

305 310 315 320

Asn Ala Gln Gln Val Glu Lys Asp Glu Met Leu Asp Arg Asn Asn Phe

325 330 335

Pro Ala Asn Tyr Phe Ala Glu Ser Asn Ile Gly Ser Ile Lys Glu Lys

340 345 350

Ile Leu Asn Arg Leu Gly Lys Thr Asp Asp Ser Tyr Asn Lys Thr Gly

355 360 365

Thr Lys Ile Lys Pro Tyr Asp Met Met Lys Glu Val Met Glu Phe Ile

370 375 380

Asn Asn Ser Leu Pro Ala Asp Glu Lys Leu Lys Arg Lys Asp Tyr Arg

385 390 395 400

Arg Tyr Leu Lys Met Val Arg Ile Trp Asp Ser Glu Lys Asp Asn Ile

405 410 415

Lys Arg Glu Phe Glu Ser Lys Glu Trp Ser Lys Tyr Phe Ser Ser Asp

420 425 430

Phe Trp Met Ala Lys Asn Leu Glu Arg Val Tyr Gly Leu Ala Arg Glu

435 440 445

Lys Asn Ala Glu Leu Phe Asn Lys Leu Lys Ala Val Val Glu Lys Met

450 455 460

Asp Glu Arg Glu Phe Glu Lys Tyr Arg Leu Ile Asn Ser Ala Glu Asp

465 470 475 480

Leu Ala Ser Leu Arg Arg Leu Ala Lys Asp Phe Gly Leu Lys Trp Glu

485 490 495

Glu Lys Asp Trp Gln Glu Tyr Ser Gly Gln Ile Lys Lys Gln Ile Ser

500 505 510

Asp Arg Gln Lys Leu Thr Ile Met Lys Gln Arg Ile Thr Ala Glu Leu

515 520 525

Lys Lys Lys His Gly Ile Glu Asn Leu Asn Leu Arg Ile Thr Ile Asp

530 535 540

Ser Asn Lys Ser Arg Lys Ala Val Leu Asn Arg Ile Ala Val Pro Arg

545 550 555 560

Gly Phe Val Lys Glu His Ile Leu Gly Trp Gln Gly Ser Glu Lys Val

565 570 575

Ser Lys Lys Thr Arg Glu Ala Lys Cys Lys Ile Leu Leu Ser Lys Glu

580 585 590

Tyr Glu Glu Leu Ser Lys Gln Phe Phe Gln Thr Arg Asn Tyr Asp Lys

595 600 605

Met Thr Gln Val Asn Gly Leu Tyr Glu Lys Asn Lys Leu Leu Ala Phe

610 615 620

Met Val Val Tyr Leu Met Glu Arg Leu Asn Ile Leu Leu Asn Lys Pro

625 630 635 640

Thr Glu Leu Asn Glu Leu Glu Lys Ala Glu Val Asp Phe Lys Ile Ser

645 650 655

Asp Lys Val Met Ala Lys Ile Pro Phe Ser Gln Tyr Pro Ser Leu Val

660 665 670

Tyr Ala Met Ser Ser Lys Tyr Ala Asp Ser Val Gly Ser Tyr Lys Phe

675 680 685

Glu Asn Asp Glu Lys Asn Lys Pro Phe Leu Gly Lys Ile Asp Thr Ile

690 695 700

Glu Lys Gln Arg Met Glu Phe Ile Lys Glu Val Leu Gly Phe Glu Glu

705 710 715 720

Tyr Leu Phe Glu Lys Lys Ile Ile Asp Lys Ser Glu Phe Ala Asp Thr

725 730 735

Ala Thr His Ile Ser Phe Asp Glu Ile Cys Asn Glu Leu Ile Lys Lys

740 745 750

Gly Trp Asp Lys Asp Lys Leu Thr Lys Leu Lys Asp Ala Arg Asn Ala

755 760 765

Ala Leu His Gly Glu Ile Pro Ala Glu Thr Ser Phe Arg Glu Ala Lys

770 775 780

Pro Leu Ile Asn Gly Leu Lys Lys

785 790

<210> 6

<211> 799

<212> PRT

<213> 宏基因组(metagenomic)

<400> 6

Met Asn Ile Ile Lys Leu Lys Lys Glu Glu Ala Ala Phe Tyr Phe Asn

1 5 10 15

Gln Thr Ile Leu Asn Leu Ser Gly Leu Asp Glu Ile Ile Glu Lys Gln

20 25 30

Ile Pro His Ile Ile Ser Asn Lys Glu Asn Ala Lys Lys Val Ile Asp

35 40 45

Lys Ile Phe Asn Asn Arg Leu Leu Leu Lys Ser Val Glu Asn Tyr Ile

50 55 60

Tyr Asn Phe Lys Asp Val Ala Lys Asn Ala Arg Thr Glu Ile Glu Ala

65 70 75 80

Ile Leu Leu Lys Leu Val Glu Leu Arg Asn Phe Tyr Ser His Tyr Val

85 90 95

His Asn Asp Thr Val Lys Ile Leu Ser Asn Gly Glu Lys Pro Ile Leu

100 105 110

Glu Lys Tyr Tyr Gln Ile Ala Ile Glu Ala Thr Gly Ser Lys Asn Val

115 120 125

Lys Leu Val Ile Ile Glu Asn Asn Asn Cys Leu Thr Asp Ser Gly Val

130 135 140

Leu Phe Leu Leu Cys Met Phe Leu Lys Lys Ser Gln Ala Asn Lys Leu

145 150 155 160

Ile Ser Ser Val Ser Gly Phe Lys Arg Asn Asp Lys Glu Gly Gln Pro

165 170 175

Arg Arg Asn Leu Phe Thr Tyr Tyr Ser Val Arg Glu Gly Tyr Lys Val

180 185 190

Val Pro Asp Met Gln Lys His Phe Leu Leu Phe Ala Leu Val Asn His

195 200 205

Leu Ser Glu Gln Asp Asp His Ile Glu Lys Gln Gln Gln Ser Asp Glu

210 215 220

Leu Gly Lys Gly Leu Phe Phe His Arg Ile Ala Ser Thr Phe Leu Asn

225 230 235 240

Glu Ser Gly Ile Phe Asn Lys Met Gln Phe Tyr Thr Tyr Gln Ser Asn

245 250 255

Arg Leu Lys Glu Lys Arg Gly Glu Leu Lys His Glu Lys Asp Thr Phe

260 265 270

Thr Trp Ile Glu Pro Phe Gln Gly Asn Ser Tyr Phe Thr Leu Asn Gly

275 280 285

His Lys Gly Val Ile Ser Glu Asp Gln Leu Lys Glu Leu Cys Tyr Thr

290 295 300

Ile Leu Ile Glu Lys Gln Asn Val Asp Ser Leu Glu Gly Lys Ile Ile

305 310 315 320

Gln Phe Leu Lys Lys Phe Gln Asn Val Ser Ser Lys Gln Gln Val Asp

325 330 335

Glu Asp Glu Leu Leu Lys Arg Glu Tyr Phe Pro Ala Asn Tyr Phe Gly

340 345 350

Arg Ala Gly Thr Gly Thr Leu Lys Glu Lys Ile Leu Asn Arg Leu Asp

355 360 365

Lys Arg Met Asp Pro Thr Ser Lys Val Thr Asp Lys Ala Tyr Asp Lys

370 375 380

Met Ile Glu Val Met Glu Phe Ile Asn Met Cys Leu Pro Ser Asp Glu

385 390 395 400

Lys Leu Arg Gln Lys Asp Tyr Arg Arg Tyr Leu Lys Met Val Arg Phe

405 410 415

Trp Asn Lys Glu Lys His Asn Ile Lys Arg Glu Phe Asp Ser Lys Lys

420 425 430

Trp Thr Arg Phe Leu Pro Thr Glu Leu Trp Asn Lys Arg Asn Leu Glu

435 440 445

Glu Ala Tyr Gln Leu Ala Arg Lys Glu Asn Lys Lys Lys Leu Glu Asp

450 455 460

Met Arg Asn Gln Val Arg Ser Leu Lys Glu Asn Asp Leu Glu Lys Tyr

465 470 475 480

Gln Gln Ile Asn Tyr Val Asn Asp Leu Glu Asn Leu Arg Leu Leu Ser

485 490 495

Gln Glu Leu Gly Val Lys Trp Gln Glu Lys Asp Trp Val Glu Tyr Ser

500 505 510

Gly Gln Ile Lys Lys Gln Ile Ser Asp Asn Gln Lys Leu Thr Ile Met

515 520 525

Lys Gln Arg Ile Thr Ala Glu Leu Lys Lys Met His Gly Ile Glu Asn

530 535 540

Leu Asn Leu Arg Ile Ser Ile Asp Thr Asn Lys Ser Arg Gln Thr Val

545 550 555 560

Met Asn Arg Ile Ala Leu Pro Lys Gly Phe Val Lys Asn His Ile Gln

565 570 575

Gln Asn Ser Ser Glu Lys Ile Ser Lys Arg Ile Arg Glu Asp Tyr Cys

580 585 590

Lys Ile Glu Leu Ser Gly Lys Tyr Glu Glu Leu Ser Arg Gln Phe Phe

595 600 605

Asp Lys Lys Asn Phe Asp Lys Met Thr Leu Ile Asn Gly Leu Cys Glu

610 615 620

Lys Asn Lys Leu Ile Ala Phe Met Val Ile Tyr Leu Leu Glu Arg Leu

625 630 635 640

Gly Phe Glu Leu Lys Glu Lys Thr Lys Leu Gly Glu Leu Lys Gln Thr

645 650 655

Arg Met Thr Tyr Lys Ile Ser Asp Lys Val Lys Glu Asp Ile Pro Leu

660 665 670

Ser Tyr Tyr Pro Lys Leu Val Tyr Ala Met Asn Arg Lys Tyr Val Asp

675 680 685

Asn Ile Asp Ser Tyr Ala Phe Ala Ala Tyr Glu Ser Lys Lys Ala Ile

690 695 700

Leu Asp Lys Val Asp Ile Ile Glu Lys Gln Arg Met Glu Phe Ile Lys

705 710 715 720

Gln Val Leu Cys Phe Glu Glu Tyr Ile Phe Glu Asn Arg Ile Ile Glu

725 730 735

Lys Ser Lys Phe Asn Asp Glu Glu Thr His Ile Ser Phe Thr Gln Ile

740 745 750

His Asp Glu Leu Ile Lys Lys Gly Arg Asp Thr Glu Lys Leu Ser Lys

755 760 765

Leu Lys His Ala Arg Asn Lys Ala Leu His Gly Glu Ile Pro Asp Gly

770 775 780

Thr Ser Phe Glu Lys Ala Lys Leu Leu Ile Asn Glu Ile Lys Lys

785 790 795

<210> 7

<211> 803

<212> PRT

<213> 宏基因组(metagenomic)

<400> 7

Met Asn Ala Ile Glu Leu Lys Lys Glu Glu Ala Ala Phe Tyr Phe Asn

1 5 10 15

Gln Ala Arg Leu Asn Ile Ser Gly Leu Asp Glu Ile Ile Glu Lys Gln

20 25 30

Leu Pro His Ile Gly Ser Asn Arg Glu Asn Ala Lys Lys Thr Val Asp

35 40 45

Met Ile Leu Asp Asn Pro Glu Val Leu Lys Lys Met Glu Asn Tyr Val

50 55 60

Phe Asn Ser Arg Asp Ile Ala Lys Asn Ala Arg Gly Glu Leu Glu Ala

65 70 75 80

Leu Leu Leu Lys Leu Val Glu Leu Arg Asn Phe Tyr Ser His Tyr Val

85 90 95

His Lys Asp Asp Val Lys Thr Leu Ser Tyr Gly Glu Lys Pro Leu Leu

100 105 110

Asp Lys Tyr Tyr Glu Ile Ala Ile Glu Ala Thr Gly Ser Lys Asp Val

115 120 125

Arg Leu Glu Ile Ile Asp Asp Lys Asn Lys Leu Thr Asp Ala Gly Val

130 135 140

Leu Phe Leu Leu Cys Met Phe Leu Lys Lys Ser Glu Ala Asn Lys Leu

145 150 155 160

Ile Ser Ser Ile Arg Gly Phe Lys Arg Asn Asp Lys Glu Gly Gln Pro

165 170 175

Arg Arg Asn Leu Phe Thr Tyr Tyr Ser Val Arg Glu Gly Tyr Lys Val

180 185 190

Val Pro Asp Met Gln Lys His Phe Leu Leu Phe Thr Leu Val Asn His

195 200 205

Leu Ser Asn Gln Asp Glu Tyr Ile Ser Asn Leu Arg Pro Asn Gln Glu

210 215 220

Ile Gly Gln Gly Gly Phe Phe His Arg Ile Ala Ser Lys Phe Leu Ser

225 230 235 240

Asp Ser Gly Ile Leu His Ser Met Lys Phe Tyr Thr Tyr Arg Ser Lys

245 250 255

Arg Leu Thr Glu Gln Arg Gly Glu Leu Lys Pro Lys Lys Asp His Phe

260 265 270

Thr Trp Ile Glu Pro Phe Gln Gly Asn Ser Tyr Phe Ser Val Gln Gly

275 280 285

Gln Lys Gly Val Ile Gly Glu Glu Gln Leu Lys Glu Leu Cys Tyr Val

290 295 300

Leu Leu Val Ala Arg Glu Asp Phe Arg Ala Val Glu Gly Lys Val Thr

305 310 315 320

Gln Phe Leu Lys Lys Phe Gln Asn Ala Asn Asn Val Gln Gln Val Glu

325 330 335

Lys Asp Glu Val Leu Glu Lys Glu Tyr Phe Pro Ala Asn Tyr Phe Glu

340 345 350

Asn Arg Asp Val Gly Arg Val Lys Asp Lys Ile Leu Asn Arg Leu Lys

355 360 365

Lys Ile Thr Glu Ser Tyr Lys Ala Lys Gly Arg Glu Val Lys Ala Tyr

370 375 380

Asp Lys Met Lys Glu Val Met Glu Phe Ile Asn Asn Cys Leu Pro Thr

385 390 395 400

Asp Glu Asn Leu Lys Leu Lys Asp Tyr Arg Arg Tyr Leu Lys Met Val

405 410 415

Arg Phe Trp Gly Arg Glu Lys Glu Asn Ile Lys Arg Glu Phe Asp Ser

420 425 430

Lys Lys Trp Glu Arg Phe Leu Pro Arg Glu Leu Trp Gln Lys Arg Asn

435 440 445

Leu Glu Asp Ala Tyr Gln Leu Ala Lys Glu Lys Asn Thr Glu Leu Phe

450 455 460

Asn Lys Leu Lys Thr Thr Val Glu Arg Met Asn Glu Leu Glu Phe Glu

465 470 475 480

Lys Tyr Gln Gln Ile Asn Asp Ala Lys Asp Leu Ala Asn Leu Arg Gln

485 490 495

Leu Ala Arg Asp Phe Gly Val Lys Trp Glu Glu Lys Asp Trp Gln Glu

500 505 510

Tyr Ser Gly Gln Ile Lys Lys Gln Ile Thr Asp Arg Gln Lys Leu Thr

515 520 525

Ile Met Lys Gln Arg Ile Thr Ala Ala Leu Lys Lys Lys Gln Gly Ile

530 535 540

Glu Asn Leu Asn Leu Arg Ile Thr Thr Asp Thr Asn Lys Ser Arg Lys

545 550 555 560

Val Val Leu Asn Arg Ile Ala Leu Pro Lys Gly Phe Val Arg Lys His

565 570 575

Ile Leu Lys Thr Asp Ile Lys Ile Ser Lys Gln Ile Arg Gln Ser Gln

580 585 590

Cys Pro Ile Ile Leu Ser Asn Asn Tyr Met Lys Leu Ala Lys Glu Phe

595 600 605

Phe Glu Glu Arg Asn Phe Asp Lys Met Thr Gln Ile Asn Gly Leu Phe

610 615 620

Glu Lys Asn Val Leu Ile Ala Phe Met Ile Val Tyr Leu Met Glu Gln

625 630 635 640

Leu Asn Leu Arg Leu Gly Lys Asn Thr Glu Leu Ser Asn Leu Lys Lys

645 650 655

Thr Glu Val Asn Phe Thr Ile Thr Asp Lys Val Thr Glu Lys Val Gln

660 665 670

Ile Ser Gln Tyr Pro Ser Leu Val Phe Ala Ile Asn Arg Glu Tyr Val

675 680 685

Asp Gly Ile Ser Gly Tyr Lys Leu Pro Pro Lys Lys Pro Lys Glu Pro

690 695 700

Pro Tyr Thr Phe Phe Glu Lys Ile Asp Ala Ile Glu Lys Glu Arg Met

705 710 715 720

Glu Phe Ile Lys Gln Val Leu Gly Phe Glu Glu His Leu Phe Glu Lys

725 730 735

Asn Val Ile Asp Lys Thr Arg Phe Thr Asp Thr Ala Thr His Ile Ser

740 745 750

Phe Asn Glu Ile Cys Asp Glu Leu Ile Lys Lys Gly Trp Asp Glu Asn

755 760 765

Lys Ile Ile Lys Leu Lys Asp Ala Arg Asn Ala Ala Leu His Gly Lys

770 775 780

Ile Pro Glu Asp Thr Ser Phe Asp Glu Ala Lys Val Leu Ile Asn Glu

785 790 795 800

Leu Lys Lys

<210> 8

<211> 36

<212> DNA

<213> 宏基因组(metagenomic)

<400> 8

gctggagcag cccccgattt gtggggtgat tacagc 36

<210> 9

<211> 36

<212> DNA

<213> 宏基因组(metagenomic)

<400> 9

gctgaagaag cctccgattt gagaggtgat tacagc 36

<210> 10

<211> 36

<212> DNA

<213> 宏基因组(metagenomic)

<400> 10

gctgtgatag acctcgattt gtggggtagt aacagc 36

<210> 11

<211> 36

<212> DNA

<213> 宏基因组(metagenomic)

<400> 11

gctgtgatag acctcgattt gtggggtagt aacagc 36

<210> 12

<211> 36

<212> DNA

<213> 宏基因组(metagenomic)

<400> 12

gctgtgatag acctcgattt gtggggtagt aacagc 36

<210> 13

<211> 36

<212> DNA

<213> 宏基因组(metagenomic)

<400> 13

gctgtgatgg gcctcaattt gtggggaagt aacagc 36

<210> 14

<211> 36

<212> DNA

<213> 宏基因组(metagenomic)

<400> 14

gctgtgatag gcctcgattt gtggggtagt aacagc 36

<210> 15

<211> 2328

<212> DNA

<213> 宏基因组(metagenomic)

<400> 15

atggcgcaag tgtcaaagca gacttcgaaa aagagagagt tgtctatcga tgaatatcaa 60

ggtgctcgga aatggtgttt tacgattgcc ttcaacaagg ctcttgtgaa tcgagataag 120

aacgacgggc tttttgtcga gtcgctgtta cgccatgaaa agtattcaaa gcacgactgg 180

tacgatgagg atacacgcgc tttgatcaag tgtagcacac aagcggccaa tgcgaaggcc 240

gaggcgttaa gaaactattt ctcccactat cgacattcgc ccgggtgtct gacatttaca 300

gcagaagatg agttgcggac aatcatggaa agggcgtatg agcgggcgat ctttgaatgc 360

aggagacgcg aaactgaagt gatcatcgag tttcccagcc tgttcgaagg cgaccggatc 420

actacggcgg gggttgtgtt tttcgtttcg ttctttgttg aacggcgggt gctggatcgt 480

ttgtacggtg cggtaagtgg gcttaagaaa aacgaaggac agtacaagct gactcggaag 540

gcgctttcga tgtattgcct gaaagacagt cgtttcacga aggcgtggga caaacgcgtg 600

ctgcttttca gggatatact cgcgcagctt ggacgcatcc ctgcggaggc gtatgaatac 660

taccacggag agcagggcga caagaaaaga gcaaacgaca atgaggggac gaatccgaaa 720

cgccataaag acaagttcat cgagtttgca ctgcattatc tggaggcgca acacagtgag 780

atatgcttcg ggcggcgaca cattgtcagg gaggaggccg gggcaggcga cgaacacaaa 840

aagcacagga ccaaaggcaa ggtagttgtc gacttttcaa aaaaagacga agatcagtca 900

tactatatca gtaagaacaa tgttatcgtc aggattgata agaatgccgg gcctcggagt 960

tatcgcatgg ggcttaacga attgaaatac cttgtattgc ttagccttca gggaaagggc 1020

gacgatgcga ttgcaaaact gtacaggtat cggcagcatg tggagaacat tctggatgta 1080

gtgaaggtca cagataagga taatcacgtc ttcctgccgc gatttgtgct ggagcaacat 1140

gggattggca ggaaagcttt taagcaaaga atagacggca gagtaaagca tgttcgaggg 1200

gtgtgggaaa agaagaaggc ggcgaccaac gagatgacac ttcacgagaa ggcgcgggac 1260

attcttcaat acgtaaatga aaattgcacg aggtctttca atcccggcga gtacaaccgg 1320

ctgctggtgt gtctggttgg caaggatgtt gagaattttc aggcgggact gaaacgcctg 1380

caactggccg agcgaatcga cgggcgggta tattcaattt ttgcgcagac ctccacaata 1440

aacgagatgc atcaggtggt gtgtgatcag attctcaaca gactttgccg aatcggcgat 1500

cagaagctct acgattatgt ggggcttggg aagaaggatg aaatagatta caagcagaag 1560

gttgcatggt tcaaggagca tatttctatc cgcaggggtt tcttgcgcaa gaagttctgg 1620

tatgacagca agaagggatt cgcgaagctt gtggaagagc atttggaaag cggcggcgga 1680

cagagggacg ttgggctgga taaaaagtat tatcatattg atgcgattgg gcgattcgag 1740

ggtgctaatc cagccttgta tgaaacgctg gcgcgagacc gtttgtgtct gatgatggcg 1800

caatacttcc tggggagtgt acgcaaggaa ttgggtaata aaattgtgtg gtcgaatgat 1860

agcatcgagt tgcccgtgga gggctcagtg ggtaacgaaa aaagcatcgt cttctcagtg 1920

agtgattacg gcaagttata tgtgttggat gacgctgagt ttcttgggcg gatatgtgag 1980

tactttatgc cgcacgaaaa agggaagata cggtatcata cagtttacga aaaagggttt 2040

agggcatata atgatctgca gaagaaatgt gtcgaggcgg tgctggcgtt tgaagagaag 2100

gttgtcaaag ccaaaaagat gagcgagaag gaaggggcgc attatattga ttttcgtgag 2160

atactggcac aaacaatgtg taaagaggcg gagaagaccg ccgtgaataa ggtgcgtaga 2220

gcgtttttcc atcatcattt aaagtttgtg atagatgaat ttgggttgtt tagtgatgtt 2280

atgaagaaat atggaattga aaaggagtgg aagtttcctg ttaaatga 2328

<210> 16

<211> 2418

<212> DNA

<213> 宏基因组(metagenomic)

<400> 16

atgaaggttg aaaatattaa agaaaaaagc aaaaaagcaa tgtatttaat caaccattat 60

gagggaccca aaaaatggtg ttttgcaata gttctgaata gggcatgtga taattacgag 120

gacaatccac acttgttttc caaatcactt ttggaatttg aaaaaacaag tcgaaaagat 180

tggtttgacg aagaaacacg agagcttgtt gagcaagcag atacagaaat acagccaaat 240

cctaacctga aacctaatac aacagctaac cgaaaactca aagatataag aaactatttt 300

tcgcatcatt atcacaagaa cgaatgcctg tattttaaga acgatgatcc catacgctgc 360

attatggaag cggcgtatga aaaatctaaa atttatatca aaggaaagca gattgagcaa 420

agcgatatac cattgcccga attgtttgaa agcagcggtt ggattacacc ggcggggatt 480

ttgttactgg catccttttt tgttgaacga gggattctac atcgcttgat gggaaatatc 540

ggaggattta aagataatcg aggcgaatac ggtcttacac acgatatttt taccacctat 600

tgtcttaagg gtagttattc aattcgggcg caggatcatg atgcggtaat gttcagagat 660

attctcggct atctgtcacg agttcccact gagtcatttc agcgtatcaa gcaacctcaa 720

atacgaaaag aaggccaatt aagtgaaaga aagacggaca aatttataac atttgcacta 780

aattatcttg aggattatgg gctgaaagat ttggaaggct gcaaagcctg ttttgccaga 840

agtaaaattg taagggaaca agaaaatgtt gaaagcataa atgataagga atacaaacct 900

cacgagaaca aaaagaaagt tgaaattcac ttcgatcaga gcaaagaaga ccgattttat 960

attaatcgca ataacgttat tttgaagatt cagaagaaag atggacattc caacatagtt 1020

aggatgggag tatatgaact taaatatctc gttcttatga gtttagtggg aaaagcaaaa 1080

gaagcagttg aaaaaattga caactatatc caggatttgc gagaccagtt gccttacata 1140

gaggggaaaa ataaggaaga gattaaagaa tacgtcaggt tctttccacg atttatacgt 1200

tctcacctcg gtttactaca gattaacgat gaagaaaaga taaaagctcg attagattat 1260

gttaagacca agtggttaga taaaaaggaa aaatcgaaag agcttgaact tcataaaaaa 1320

ggacgggaca tcctcaggta tatcaacgag cgatgtgata gagagcttaa caggaatgta 1380

tataaccgta ttttagagct cctggtcagc aaagacctca ctggttttta tcgtgagctt 1440

gaagaactaa aaagaacaag gcggatagat aaaaatattg tccagaatct ttctgggcaa 1500

aaaaccatta atgcactgca tgaaaaggtc tgtgatctgg tgctgaagga aatcgaaagt 1560

ctcgatacag aaaatctcag gaaatatctt ggattgatac ccaaagaaga aaaagaggtc 1620

actttcaaag aaaaggtcga taggattttg aaacagccag ttatttacaa agggtttctg 1680

agataccaat tcttcaaaga tgacaaaaag agttttgtct tacttgttga agacgcattg 1740

aaggaaaaag gaggaggttg tgatgttcct cttgggaaag agtattataa aatcgtgtca 1800

cttgataagt atgataaaga aaataaaacc ctgtgtgaaa ctctggcgat ggataggctt 1860

tgccttatga tggcaagaca atattatctc agtctgaatg caaaacttgc acaggaagct 1920

cagcaaatcg aatggaagaa agaagatagt atagaattga ttattttcac cttaaaaaat 1980

cccgatcaat caaagcagag tttttctata cggttttcgg tcagagattt tacgaagttg 2040

tatgtaacgg atgatcctga atttctggcc cggctttgtt cctacttttt cccagttgaa 2100

aaagagattg aatatcacaa gctctattca gaagggataa ataaatacac aaacctgcaa 2160

aaagagggaa tcgaagcaat actcgagctt gaaaaaaagc ttattgaacg aaatcggatt 2220

caatctgcaa aaaattatct ctcatttaat gagataatga ataaaagcgg ttataataaa 2280

gatgagcagg atgatctaaa gaaggtgcga aattctcttt tgcattataa gcttatcttt 2340

gagaaagaac atctcaagaa gttctatgag gttatgagag gagaagggat agagaaaaag 2400

tggtctttaa tagtatga 2418

<210> 17

<211> 2373

<212> DNA

<213> 宏基因组(metagenomic)

<400> 17

atgaatggca ttgaattaaa aaaagaagaa gcagcatttt attttaatca ggcagagctt 60

aatttaaaag ccatagaaga caatattttt gataaagaaa gacgaaagac tctgcttaat 120

aatccacaga tacttgccaa aatggaaaat ttcattttca atttcagaga tgtaacaaaa 180

aatgcaaaag gggaaattga ctgcttgctg ttgaaactaa gagagctgag aaacttttac 240

tcgcattatg tccacaaacg agatgtaaga gaattaagca agggcgagaa acctatactt 300

gaaaagtatt accaatttgc gattgaatca accggaagtg aaaatgttaa acttgagata 360

atagaaaacg acgcgtggct tgcagatgcc ggtgtgttgt ttttcttatg tatttttttg 420

aagaaatctc aggcaaataa gcttataagc ggtatcagcg gttttaaaag aaacgatgat 480

accggtcagc cgagaaggaa tttatttacc tatttcagta taagggaggg atacaaggtt 540

gttccggaaa tgcagaaaca tttccttttg ttttctcttg ttaatcatct ctctaatcaa 600

gatgattata ttgaaaaagc gcatcagcca tacgatatag gcgagggttt attttttcat 660

cgaatagctt ctacatttct taatataagt gggattttaa gaaatatgaa attctatacc 720

tatcagagta aaaggttagt agagcagcgg ggagaactca aacgagaaaa ggatattttt 780

gcgtgggaag aaccgtttca aggaaatagt tattttgaaa taaatggtca taaaggagta 840

atcggtgaag atgaattgaa ggaactatgt tatgcatttc tgattggcaa tcaagatgct 900

aataaagtgg aaggcaggat tacacaattt ctagaaaagt ttagaaatgc gaacagtgtg 960

caacaagtta aagatgatga aatgctaaaa ccagagtatt ttcctgcaaa ttattttgct 1020

gaatcaggcg tcggaagaat aaaggataga gtgcttaatc gtttgaataa agcgattaaa 1080

agcaataagg ccaagaaagg agagattata gcatacgata agatgagaga ggttatggcg 1140

ttcataaata attctctgcc ggtagatgaa aaattgaaac caaaagatta caaacgatat 1200

ctgggaatgg ttcgtttctg ggacagggaa aaagataaca taaagcggga gttcgagaca 1260

aaagaatggt ctaaatatct tccatctaat ttctggacgg caaaaaacct tgaaagggtc 1320

tatggtctgg caagagagaa aaacgcagaa ttattcaata aactaaaagc ggatgtagaa 1380

aaaatggacg aacgggaact tgagaagtat cagaagataa atgatgcaaa ggatttggca 1440

aatttacgcc ggcttgcaag cgactttggt gtgaagtggg aagaaaaaga ctgggatgag 1500

tattcaggac agataaaaaa acaaattaca gacagccaga aactaacaat aatgaagcag 1560

cggataaccg caggactaaa gaaaaagcac ggcatagaaa atcttaacct gagaataact 1620

atcgacatca ataaaagcag aaaggcagtt ttgaacagaa ttgcgattcc gaggggtttt 1680

gtaaaaaggc atattttagg atggcaagag tctgagaagg tatcgaaaaa gataagagag 1740

gcagaatgcg aaattctgct gtcgaaagaa tacgaagaac tatcgaaaca atttttccaa 1800

agcaaagatt atgacaaaat gacacggata aatggccttt atgaaaaaaa caaacttata 1860

gccctgatgg cagtttatct aatggggcaa ttgagaatcc tgtttaaaga acacacaaaa 1920

cttgacgata ttacgaaaac aactgtggat ttcaaaatat ctgataaggt gacggtaaaa 1980

atcccctttt caaattatcc ttcgctcgtt tatacaatgt ccagtaagta tgttgataat 2040

atagggaatt atggattttc caacaaagat aaagacaagc cgattttagg taagattgat 2100

gtaatagaaa aacagcgaat ggaatttata aaagaggttc ttggttttga aaaatatctt 2160

tttgatgata aaataataga taaaagcaaa tttgctgata cagcgactca tataagtttt 2220

gcagaaatag ttgaggagct tgttgaaaaa ggatgggaca aagacagact gacaaaactt 2280

aaagatgcaa gaaataaagc cctgcatggt gaaatactga cgggaaccag ctttgatgaa 2340

acaaaatcat tgataaacga attaaaaaaa tga 2373

<210> 18

<211> 2379

<212> DNA

<213> 宏基因组(metagenomic)

<400> 18

atgtccccag atttcatcaa attagaaaaa caggaagcag ctttttactt taatcagaca 60

gagcttaatt taaaagccat agaaagcaat attttagaca aacaacagcg aatgattctg 120

cttaataatc cacggatact tgccaaagta ggaaatttca ttttcaattt cagagatgta 180

acaaaaaatg caaaaggaga aatagactgt ctgctattta aactggaaga gctaagaaac 240

ttttactcgc attatgttca taccgacaat gtaaaggaat tgagtaacgg agaaaaaccc 300

ctactggaaa gatattatca aatcgctatt caggcaacca ggagtgagga tgttaagttc 360

gaattgtttg aaacaagaaa cgagaataag attacggatg ccggtgtatt gtttttctta 420

tgtatgtttt taaaaaaatc acaggcaaac aagcttataa gcggtatcag cggcttcaaa 480

agaaatgatc caacaggcca gccgagaaga aacttattta cctatttcag tgcaagagaa 540

ggatataagg ctttgcctga tatgcagaaa cattttcttc tttttactct ggttaattat 600

ttgtcgaatc aggatgagta tatcagcgag cttaaacaat atggagagat tggtcaagga 660

gcctttttta atcgaatagc ttcaacattt ttgaatatca gcgggatttc aggaaatacg 720

aaattctatt cgtatcaaag taaaaggata aaagagcagc gaggcgaact caatagcgaa 780

aaggacagct ttgaatggat agagcctttc caaggaaaca gctattttga aataaatggg 840

cataaaggag taatcggcga agacgaatta aaagaacttt gttatgcatt gttggttgcc 900

aagcaagata ttaatgccgt tgaaggcaaa attatgcaat tcctgaaaaa gtttagaaat 960

actggcaatt tgcagcaagt taaagatgat gaaatgctgg aaatagaata ttttcccgca 1020

agttatttta atgaatcaaa aaaagaggac ataaagaaag agattcttgg ccggctggat 1080

aaaaagattc gctcctgctc tgcaaaggca gaaaaagcct atgataagat gaaagaggtg 1140

atggagttta taaataattc tctgccggca gaggaaaaat tgaaacgcaa agattataga 1200

agatatctaa agatggttcg tttctggagc agagaaaaag gcaatataga gcgggaattt 1260

agaacaaagg aatggtcaaa atatttttca tctgattttt ggcggaagaa caatcttgaa 1320

gatgtgtaca aactggcaac acaaaaaaac gctgaactgt tcaaaaatct aaaagcggca 1380

gcagagaaaa tgggtgaaac ggaatttgaa aagtatcagc agataaacga tgtaaaggat 1440

ttggcaagtt taaggcggct tacgcaagat tttggtttga agtgggaaga aaaggactgg 1500

gaggagtatt ccgagcagat aaaaaaacaa attacggaca ggcagaaact gacaataatg 1560

aaacaaaggg ttacggctga actaaagaaa aagcacggca tagaaaatct taatctgaga 1620

ataaccatcg acagcaataa aagcagaaag gcggttttga acagaatagc aattccaaga 1680

ggatttgtaa aaaaacatat tttaggctgg cagggatctg agaagatatc gaaaaatata 1740

agggaagcag aatgcaaaat tctgctatcg aaaaaatatg aagagttatc aaggcagttt 1800

tttgaagccg gtaatttcga taagctgacg cagataaatg gtctttatga aaagaataaa 1860

cttacagctt ttatgtcagt atatttgatg ggtcggttga atattcagct taataagcac 1920

acagaacttg gaaatcttaa aaaaacagag gtggatttta agatatctga taaggtgact 1980

gaaaaaatac cgttttctca gtatccttcg cttgtctatg cgatgtctcg caaatatgtt 2040

gacaatgtgg ataaatataa attttctcat caagataaaa agaagccatt tttaggtaaa 2100

attgattcaa ttgaaaaaga acgtattgaa ttcataaaag aggttctcga ttttgaagag 2160

tatcttttta aaaataaggt aatagataaa agcaaatttt ccgatacagc gactcatatt 2220

agctttaagg aaatatgtga tgaaatgggt aaaaaaggat gtaaccgaaa caaactaacc 2280

gaacttaaca acgcaaggaa cgcagccctg catggtgaaa taccgtcgga gacctctttt 2340

cgtgaagcaa aaccgttgat aaatgaattg aaaaaatga 2379

<210> 19

<211> 2379

<212> DNA

<213> 宏基因组(metagenomic)

<400> 19

atgtccccag atttcatcaa attagaaaaa caagaagcag ctttttactt taatcagaca 60

gagcttaatt taaaagccat agaaagcaat attttcgaca aacaacagcg agtgattctg 120

cttaataatc cacagatact tgccaaagta ggagatttta ttttcaattt cagagatgta 180

acaaaaaacg caaaaggaga aatagactgt ttgctattga aactaagaga gctgagaaac 240

ttttactcac actatgtcta taccgatgac gtgaagatat tgagtaacgg cgaaagacct 300

ctgctggaaa aatattatca atttgcgatt gaagcaaccg gaagtgaaaa tgttaaactt 360

gaaataatag aaagcaacaa ccgacttacg gaagcgggcg tgctgttttt cttgtgtatg 420

tttttgaaaa agtctcaggc aaataagctt ataagcggta tcagcggttt taaaagaaat 480

gacccgacag gtcagccgag aaggaattta tttacctact tcagtgtaag ggagggatac 540

aaggttgtgc cggatatgca gaaacatttt cttttgtttg ttcttgtcaa tcatctctct 600

ggtcaggatg attatattga aaaggcgcaa aagccatacg atataggcga gggtttattt 660

tttcatcgaa tagcttctac atttcttaat atcagtggga ttttaagaaa tatggaattc 720

tatatttacc agagcaaaag actaaaggag cagcaaggag agctcaaacg tgaaaaggat 780

atttttccat ggatagagcc tttccaggga aatagttatt ttgaaataaa tggtaataaa 840

ggaataatcg gcgaagatga attgaaagag ctttgttatg cgttgctggt tgcaggaaaa 900

gatgtcagag ccgtcgaagg taaaataaca caatttttgg aaaagtttaa aaatgcggac 960

aatgctcagc aagttgaaaa agatgaaatg ctggacagaa acaattttcc cgccaattat 1020

ttcgccgaat cgaacatcgg cagcataaag gaaaaaatac ttaatcgttt gggaaaaact 1080

gatgatagtt ataataagac ggggacaaag attaaaccat acgacatgat gaaagaggta 1140

atggagttta taaataattc tcttccggca gatgaaaaat tgaaacgcaa agattacaga 1200

agatatctaa agatggttcg tatctgggac agtgagaaag ataatataaa gcgggagttt 1260

gaaagcaaag aatggtcaaa atatttttca tctgatttct ggatggcaaa aaatcttgaa 1320

agggtctatg ggttggcaag agagaaaaac gccgaattat tcaataagct aaaagcggtt 1380

gtggagaaaa tggacgagcg ggaatttgag aagtatcggc tgataaatag cgcagaggat 1440

ttggcaagtt taagacggct tgcgaaagat tttggcctga agtgggaaga aaaggactgg 1500

caagagtatt ctgggcagat aaaaaaacaa atttctgaca ggcagaaact gacaataatg 1560

aaacaaagga ttacggctga actaaagaaa aagcacggca tagaaaatct caatcttaga 1620

ataaccatcg acagcaataa aagcagaaag gcagttttga acagaatcgc agttccaaga 1680

ggttttgtga aagagcatat tttaggatgg caggggtctg agaaggtatc gaaaaagaca 1740

agagaagcaa agtgcaaaat tctgctctcg aaagaatatg aagaattatc aaagcaattt 1800

ttccaaacca gaaattacga caagatgacg caggtaaacg gtctttacga aaagaataaa 1860

ctcttagcat ttatggtcgt ttatcttatg gagcggttga atatcctgct taataagccc 1920

acagaactta atgaacttga aaaagcagag gtggatttca agatatctga taaggtgatg 1980

gccaaaatcc cgttttcaca gtatccttcg cttgtgtacg cgatgtccag caaatatgct 2040

gatagtgtag gcagttataa atttgagaat gatgaaaaaa acaagccgtt tttaggcaag 2100

atcgatacaa tagaaaaaca acgaatggag tttataaaag aagtccttgg ttttgaagag 2160

tatctttttg aaaagaagat aatagataaa agcgaatttg ccgacacagc gactcatata 2220

agttttgatg aaatatgtaa tgagcttatt aaaaaaggat gggataaaga caaactaacc 2280

aaacttaaag atgccaggaa cgcggccctg catggcgaaa taccggcgga gacctctttt 2340

cgtgaagcaa aaccgttgat aaatggattg aaaaaatga 2379

<210> 20

<211> 2400

<212> DNA

<213> 宏基因组(metagenomic)

<400> 20

atgaacatca ttaaattaaa aaaagaagaa gctgcgtttt attttaatca gacgatcctc 60

aatctttcag ggcttgatga aattattgaa aaacaaattc cgcacataat cagcaacaag 120

gaaaatgcaa agaaagtgat tgataagatt ttcaataacc gcttattatt aaaaagtgtg 180

gagaattata tctacaactt taaagatgtg gctaaaaacg caagaactga aattgaggct 240

atattgttga aattagtaga gctacgtaat ttttactcac attacgttca taatgatacc 300

gtcaagatac taagtaacgg tgaaaaacct atactggaaa aatattatca aattgctata 360

gaagcaaccg gaagtaaaaa tgttaaactt gtaatcatag aaaacaacaa ctgtctcacg 420

gattctggcg tgctgttttt gctgtgtatg ttcttaaaaa aatcacaggc aaacaagctt 480

ataagttccg ttagtggttt taaaaggaat gataaagaag gacaaccgag aagaaatcta 540

ttcacttatt atagtgtgag ggagggatat aaggttgtgc ctgatatgca gaagcatttc 600

cttctattcg ctctggtcaa tcatctatct gagcaggatg atcatattga gaagcagcag 660

cagtcagacg agctcggtaa gggtttgttt ttccatcgta tagcttcgac ttttttaaac 720

gagagcggca tcttcaataa aatgcaattt tatacatatc agagcaacag gctaaaagag 780

aaaagaggag aactcaaaca cgaaaaggat acctttacat ggatagagcc ttttcaaggc 840

aatagttatt ttacgttaaa tggacataag ggagtgatta gtgaagatca attgaaggag 900

ctttgttaca caattttaat tgagaagcaa aacgttgatt ccttggaagg taaaattata 960

caatttctca aaaaatttca gaatgtcagc agcaagcagc aagttgacga agatgaattg 1020

cttaaaagag aatatttccc tgcaaattac tttggccggg caggaacagg gaccctaaaa 1080

gaaaagattc taaaccggct tgataagagg atggatccta catctaaagt gacggataaa 1140

gcttatgaca aaatgattga agtgatggaa tttatcaata tgtgccttcc gtctgatgag 1200

aagttgaggc aaaaggatta tagacgatac ttaaagatgg ttcgtttctg gaataaggaa 1260

aagcataaca ttaagcgcga gtttgacagt aaaaaatgga cgaggttttt gccgacggaa 1320

ttgtggaata aaagaaatct agaagaagcc tatcaattag cacggaaaga gaacaaaaag 1380

aaacttgaag atatgagaaa tcaagtacga agccttaaag aaaatgacct tgaaaaatat 1440

cagcagatta attacgttaa tgacctggag aatttaaggc ttctgtcaca ggagttaggt 1500

gtgaaatggc aggaaaagga ctgggttgaa tattccgggc agataaagaa gcagatatca 1560

gacaatcaga aacttacaat catgaaacaa aggattaccg ctgaactaaa gaaaatgcac 1620

ggcatcgaga atcttaatct tagaataagc attgacacga ataaaagcag gcagacggtt 1680

atgaacagga tagctttgcc caaaggtttt gtgaagaatc atatccagca aaattcgtct 1740

gagaaaatat cgaaaagaat aagagaggat tattgtaaaa ttgagctatc gggaaaatat 1800

gaagaacttt caaggcaatt ttttgataaa aagaatttcg ataagatgac actgataaac 1860

ggcctttgtg aaaagaacaa acttatcgca tttatggtta tctatctttt ggagcggctt 1920

ggatttgaat taaaggagaa aacaaaatta ggcgagctta aacaaacaag gatgacatat 1980

aaaatatccg ataaggtaaa agaagatatc ccgctttcct attaccccaa gcttgtgtat 2040

gcaatgaacc gaaaatatgt tgacaatatc gatagttatg catttgcggc ttacgaatcc 2100

aaaaaagcta ttttggataa agtggatatc atagaaaagc aacgtatgga atttatcaaa 2160

caagttctct gttttgagga atatattttc gaaaatagga ttatcgaaaa aagcaaattt 2220

aatgacgagg agactcatat aagttttaca caaatacatg atgagcttat taaaaaagga 2280

cgggacacag aaaaactctc taaactcaaa catgcaagga ataaagcctt gcacggcgag 2340

attcctgatg ggacttcttt tgaaaaagca aagctattga taaatgaaat caaaaaatga 2400

<210> 21

<211> 2412

<212> DNA

<213> 宏基因组(metagenomic)

<400> 21

atgaatgcta tcgaactaaa aaaagaggaa gcagcatttt attttaatca ggcaagactc 60

aacatttcag gacttgatga aattattgaa aagcagttac cacatatagg tagtaacagg 120

gagaatgcga aaaaaactgt tgatatgatt ttggataatc ccgaagtctt gaagaagatg 180

gaaaattatg tctttaactc acgagatata gcaaagaacg caagaggtga acttgaagca 240

ttgttgttga aattagtaga actgcgtaat ttttattcac attatgttca taaagatgat 300

gttaagacat tgagttacgg agaaaaacct ttactggata aatattatga aattgcgatt 360

gaagcgaccg gaagtaaaga tgtcagactt gagataatag atgataaaaa taagcttaca 420

gatgccggtg tgcttttttt attgtgtatg tttttgaaaa aatcagaggc aaacaaactt 480

atcagttcaa tcaggggctt taaaagaaac gataaagaag gccagccgag aagaaatcta 540

ttcacttact acagtgtcag agagggatat aaggttgtgc ctgatatgca gaaacatttt 600

cttttattca cactggttaa ccatttgtca aatcaggatg aatacatcag taatcttagg 660

ccgaatcaag aaatcggcca agggggattt ttccatagaa tagcatcaaa atttttgagc 720

gatagcggga ttttacatag tatgaaattc tacacctacc ggagtaaaag actaacagaa 780

caacgggggg agcttaagcc gaaaaaagat cattttacat ggatagagcc ttttcaggga 840

aacagttatt tttcagtgca gggccaaaaa ggagtaattg gtgaagagca attaaaggag 900

ctttgttatg tattgctggt tgccagagaa gattttaggg ccgttgaggg caaagttaca 960

caatttctga aaaagtttca gaatgctaat aacgtacagc aagttgaaaa agatgaagtg 1020

ctggaaaaag aatattttcc tgcaaattat tttgaaaatc gagacgtagg cagagtaaag 1080

gataagatac ttaatcgttt gaaaaaaatc actgaaagct ataaagctaa agggagggag 1140

gttaaagcct atgacaagat gaaagaggta atggagttta taaataattg cctgccaaca 1200

gatgaaaatt tgaaactcaa agattacaga agatatctga aaatggttcg tttctggggc 1260

agggaaaagg aaaatataaa gcgggaattt gacagtaaaa aatgggagag gtttttgcca 1320

agagaactct ggcagaaaag aaacctcgaa gatgcgtatc aactggcaaa agagaaaaac 1380

accgagttat tcaataaatt gaaaacaact gttgagagaa tgaacgaact ggaattcgaa 1440

aagtatcagc agataaacga cgcaaaagat ttggcaaatt taaggcaact ggcgcgggac 1500

ttcggcgtga agtgggaaga aaaggactgg caagagtatt cggggcagat aaaaaaacaa 1560

attacagaca ggcaaaaact tacaataatg aaacaaagga ttactgctgc attgaagaaa 1620

aagcaaggca tagaaaatct taatcttagg ataacaaccg acaccaataa aagcagaaag 1680

gtggtattga acagaatagc gctacctaaa ggttttgtaa ggaagcatat cttaaaaaca 1740

gatataaaga tatcaaagca aataaggcaa tcacaatgtc ctattatact gtcaaacaat 1800

tatatgaagc tggcaaagga attctttgag gagagaaatt ttgataagat gacgcagata 1860

aacgggctat ttgagaaaaa tgtacttata gcgtttatga tagtttatct gatggaacaa 1920

ctgaatcttc gacttggtaa gaatacggaa cttagcaatc ttaaaaaaac ggaggttaat 1980

tttacgataa ccgacaaggt aacggaaaaa gtccagattt cgcagtatcc atcgcttgtt 2040

ttcgccataa acagagaata tgttgatgga atcagcggtt ataagttacc gcccaaaaaa 2100

ccgaaagagc ctccgtatac tttcttcgag aaaatagacg caatagaaaa agaacgaatg 2160

gaattcataa aacaggtcct cggtttcgaa gaacatcttt ttgagaagaa tgtaatagac 2220

aaaactcgct ttactgatac tgcgactcat ataagtttta atgaaatatg tgatgagctt 2280

ataaaaaaag gatgggacga aaacaaaata ataaaactta aagatgcgag gaatgcagca 2340

ttgcatggta agataccgga ggatacgtct tttgatgaag cgaaagtact gataaatgaa 2400

ttaaaaaaat ga 2412

<210> 22

<211> 2328

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(2328)

<223> Human codon-optimized coding sequences

<400> 22

atggcccagg tgagcaagca gacctccaag aagagggagc tgagcatcga cgagtaccag 60

ggcgcccgga agtggtgctt caccattgcc ttcaacaagg ccctggtgaa ccgggacaag 120

aacgacggcc tgttcgtgga aagcctgctg agacacgaga agtacagcaa gcacgactgg 180

tacgacgaag atacccgggc cctgatcaag tgcagcaccc aggccgccaa cgccaaggct 240

gaagccctgc ggaactactt cagtcactac cggcatagcc ctggctgcct gaccttcacc 300

gccgaggacg aactgcggac catcatggag agagcctatg agcgggccat cttcgagtgc 360

agaagaagag agacagaggt gatcatcgag tttcccagcc tgttcgaggg cgaccggatc 420

accaccgccg gcgtggtgtt tttcgtgagc tttttcgtgg aaagaagagt gctggatcgg 480

ctgtatggag ccgtgtccgg cctgaagaag aatgagggac agtacaagct gacccggaag 540

gccctgagca tgtactgcct gaaggacagc agattcacca aggcctggga taagcgggtg 600

ctgctgttca gagacatcct ggcccagctg ggaagaatcc ccgccgaggc ctacgagtac 660

taccacggcg agcagggtga taagaagaga gctaacgaca atgagggcac aaatcccaag 720

cggcacaagg acaagttcat cgaatttgca ctgcactacc tggaagccca gcacagcgag 780

atctgcttcg gcagacgcca catcgtgcgg gaagaggccg gcgccggcga tgagcacaag 840

aagcaccgga ccaagggaaa ggtggtggtg gacttcagca agaaggacga ggaccagagc 900

tactatatct ccaagaacaa cgtgatcgtg cggatcgaca agaacgccgg ccctagaagc 960

taccggatgg gcctgaacga gctgaagtac ctcgtgctgc tgagcctgca ggggaagggc 1020

gacgatgcca tcgccaagct gtacagatac agacagcacg tggagaacat cctggatgtg 1080

gtgaaggtga ccgataagga taaccacgtg ttcctgcccc gcttcgtgct ggagcagcac 1140

ggcatcggca gaaaggcctt caagcagcgg atcgatggac gggtgaagca cgtgcggggc 1200

gtgtgggaga agaagaaggc cgccaccaat gaaatgaccc tgcacgagaa ggccagagac 1260

atcctgcagt acgtgaacga aaactgcacc cggtccttca accctggcga atacaacaga 1320

ctgctggtgt gcctggtggg caaggacgtg gagaactttc aggccggcct gaagcggctg 1380

cagctggccg aaaggatcga tggccgggtg tactccatct tcgcccagac cagcaccatc 1440

aatgagatgc accaggtggt gtgcgaccag atcctgaacc ggctgtgcag aatcggcgac 1500

cagaagctgt acgattacgt gggactgggc aagaaggacg aaatcgacta caagcagaag 1560

gtggcctggt tcaaggagca catcagcatc cggagaggat tcctgagaaa gaagttctgg 1620

tacgatagca agaagggatt cgcaaagctg gtggaggaac acctggagtc cggcggcggc 1680

cagcgcgacg tgggcctgga caagaagtac taccacatcg acgccatcgg cagattcgag 1740

ggcgccaacc ccgccctgta cgagaccctg gccagagatc ggctgtgcct catgatggcc 1800

cagtacttcc tgggcagcgt gagaaaggaa ctgggcaaca agattgtgtg gagcaacgac 1860

agcatcgaac tgcctgtgga aggctctgtg ggaaatgaga agagcatcgt gttctccgtg 1920

tctgactacg gcaagctgta cgtgctggac gatgccgaat tcctgggccg gatctgcgaa 1980

tacttcatgc cccacgaaaa gggcaagatc cggtaccaca cagtgtacga aaagggcttt 2040

agagcataca acgacctgca gaagaagtgc gtggaggccg tgctggcttt cgaagagaag 2100

gtggtgaagg ccaagaagat gagcgagaag gaaggcgccc actacatcga cttccgggag 2160

atcctggccc agaccatgtg caaggaggcc gagaagaccg cagtgaacaa ggtgagacgc 2220

gccttcttcc accaccacct gaagttcgtg attgacgagt tcggcctgtt cagcgacgtg 2280

atgaagaagt acggcatcga gaaggaatgg aagttccctg tcaagtaa 2328

<210> 23

<211> 2418

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(2418)

<223> Human codon-optimized coding sequences

<400> 23

atgaaggtgg agaacatcaa ggaaaagtcc aagaaggcta tgtatctgat caaccactat 60

gaaggcccta agaagtggtg cttcgccatc gtgctgaata gggcctgcga caactatgag 120

gataaccccc acctgttcag caagagcctg ctggaatttg aaaagaccag cagaaaggac 180

tggttcgacg aggagaccag ggaactggtg gagcaggccg acaccgagat ccagcccaac 240

cccaacctga agcctaacac caccgccaac agaaagctga aggacatccg gaactacttc 300

agccaccact accacaagaa tgagtgcctg tacttcaaga acgacgaccc tatccggtgc 360

atcatggagg cagcctacga gaagtccaag atctacatca agggcaagca gattgagcag 420

tccgacatcc ccctccctga gctgtttgag tctagcggct ggatcacccc agccggcatc 480

ctgctgctgg ccagcttctt tgtggagaga ggcattctgc acagactgat gggcaacatc 540

ggcggcttca aggacaaccg gggcgaatac ggactgaccc acgatatctt caccacctac 600

tgcctgaagg gcagctactc catcagagcc caggaccacg acgccgtgat gttcagagac 660

atcctgggct acctgagcag agtgccgacc gagagctttc agcgcatcaa gcagccacag 720

atcagaaagg aggggcagct gagcgagcgg aagacagaca agtttatcac cttcgccctg 780

aactacctgg aagattatgg actgaaggat ctggaaggct gcaaggcctg cttcgcccgg 840

agcaagatcg tgagagagca ggagaacgtg gaaagcatca atgacaagga gtacaagcct 900

cacgaaaaca agaagaaggt ggaaatccac ttcgatcagt ctaaggaaga ccggttctac 960

atcaaccgga acaacgtgat cctgaagatc cagaagaagg acggccacag caacatcgtg 1020

agaatgggcg tgtacgagct gaagtatctg gtgctgatgt ccctggtggg caaggccaag 1080

gaagccgtgg agaagatcga caactacatc caggatctga gagaccagct gccctacatc 1140

gagggcaaga acaaggaaga aatcaaggag tacgtgagat tcttccccag attcatcaga 1200

tcccacctgg gcctgctgca gattaacgat gaggagaaga tcaaggcccg gctggactat 1260

gtgaagacaa agtggctgga caagaaggag aagtccaagg agctggagct gcacaagaag 1320

ggccgggata tcctgcggta catcaacgag cggtgcgacc gggagctgaa ccggaacgtg 1380

tacaaccgga tcctggagct gctggtgagc aaggacctga ccggcttcta ccgggagctg 1440

gaggagctga agcggaccag acggatcgat aagaacattg tgcagaacct gtccggccag 1500

aagaccatca acgccctgca cgaaaaggtg tgcgatctcg tgctgaagga gatcgagagc 1560

ctggacaccg agaacctgcg gaagtacctg ggcctgatcc ccaaggagga gaaggaagtg 1620

acctttaagg agaaggtgga caggatcctg aagcagccgg tgatctacaa gggcttcctg 1680

cggtaccagt tcttcaagga cgacaagaag agcttcgtgc tgctggtgga agacgccctg 1740

aaggagaagg gaggcggctg cgacgtgccc ctgggcaagg agtactacaa gatcgtgtcc 1800

ctggacaagt atgacaagga aaataagacc ctgtgcgaga ccctggcaat ggatagactg 1860

tgcctgatga tggcccggca gtattacctg agcctgaacg ccaagctggc ccaggaggcc 1920

cagcagatcg aatggaagaa ggaggatagc attgagctga tcatcttcac actgaagaat 1980

cctgaccagt ccaagcagag cttctccatc cggttcagcg tgcgggactt caccaagctg 2040

tacgtgaccg acgaccccga attcctggcc cggctgtgca gctacttctt ccccgtggag 2100

aaggagatcg aataccacaa gctgtactct gaaggcatta acaagtacac caacctgcag 2160

aaggagggga tcgaagccat cctggagctg gagaagaagc tgatcgaaag aaaccggatc 2220

cagtccgcca agaactacct gagctttaac gaaatcatga acaagagcgg ctacaacaag 2280

gatgagcagg atgacctgaa gaaggtgagg aactccctgc tgcactacaa gctgatcttc 2340

gaaaaggagc acctgaagaa gttctatgaa gtgatgcggg gcgagggaat cgagaagaag 2400

tggtccctga tcgtgtaa 2418

<210> 24

<211> 2373

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(2373)

<400> 24

atgaatggca tcgagctgaa gaaggaagaa gccgccttct acttcaatca ggccgagctg 60

aacctgaagg ccattgagga caacatcttc gacaaggaga gacggaagac actgctgaac 120

aacccccaga tcctggccaa gatggagaac tttatcttca atttccggga cgtgaccaag 180

aacgccaagg gcgaaatcga ctgcctgctg ctgaagctga gagagctgcg gaacttttac 240

agccactacg tgcacaagcg ggacgtcaga gaactgagca agggcgagaa gccgatcctg 300

gagaagtact accagttcgc catcgaatcc accggctctg agaacgtgaa gctcgaaatc 360

atcgaaaacg acgcctggct ggccgacgcc ggcgtgctgt tcttcctgtg catcttcctg 420

aagaagagcc aggcaaacaa gctgatcagc ggcatcagcg gcttcaagag aaacgacgac 480

accggccagc ctcggagaaa cctgttcacc tacttctcca tccgggaggg ctacaaggtg 540

gtgcccgaaa tgcagaagca cttcctgctg ttctccctgg tgaaccacct gagcaaccag 600

gacgattata tcgaaaaggc ccaccagccc tacgacatcg gcgagggcct cttcttccac 660

cggattgcca gcaccttcct gaacatctcc ggaatcctga gaaacatgaa gttctacacc 720

tatcagagca agagactggt ggagcagaga ggcgagctga agcgggaaaa ggacatcttc 780

gcctgggaag aaccgtttca gggcaattcc tactttgaga tcaacggcca caagggcgtg 840

attggcgaag acgagctgaa ggagctgtgc tacgccttcc tgatcggcaa ccaggacgcc 900

aacaaggtgg agggccggat cacccagttc ctggagaagt tcagaaacgc caacagcgtg 960

cagcaggtga aggacgacga gatgctgaag cctgaatatt tccccgccaa ctactttgcc 1020

gagagcggcg tgggccggat caaggaccgg gtgctgaaca gactgaacaa ggccatcaag 1080

agcaacaagg ccaagaaggg cgagatcatc gcctatgaca agatgagaga agtgatggct 1140

ttcatcaata actctctgcc cgtggacgag aagctgaagc ccaaggatta caagagatac 1200

ctgggcatgg tgagattctg ggatagagaa aaggacaata tcaagcgcga gttcgaaacg 1260

aaggagtgga gcaagtatct gccctccaac ttctggaccg ccaagaacct ggagagagtg 1320

tacggactgg cccgggaaaa gaacgcagag ctgtttaaca agctgaaggc cgacgtggag 1380

aagatggacg aaagagagct ggaaaagtat cagaagatca acgacgccaa ggatctggcc 1440

aacctgcggc ggctggccag cgacttcgga gtgaagtggg aggagaagga ttgggacgag 1500

tactccggcc agatcaagaa gcagatcaca gattcccaga agctgaccat catgaagcag 1560

agaatcacag ccggcctgaa gaagaagcac ggcatcgaaa acctgaacct gaggatcacc 1620

atcgacatca acaagtccag aaaggccgtg ctgaatcgga tcgccatccc cagaggattt 1680

gtgaagcggc acatcctggg ctggcaggaa tccgagaagg tgagcaagaa gatcagagaa 1740

gccgaatgcg agattctgct gagcaaggag tacgaggagc tgagcaagca gttctttcag 1800

agcaaggact acgacaagat gacccgcatc aacggcctgt acgagaagaa taagctgatc 1860

gccctgatgg ccgtgtatct gatggggcag ctgagaatcc tgttcaagga gcacaccaag 1920

ctggacgaca tcaccaagac caccgtggat ttcaagatca gcgacaaggt gaccgtgaag 1980

atccccttct ccaactatcc ctccctggtg tacaccatga gcagcaagta cgtggacaat 2040

atcggcaact acggcttcag caacaaggac aaggataagc ccattctggg caagatcgac 2100

gtgatcgaga agcagcggat ggagtttatc aaggaggtgc tgggattcga gaagtacctg 2160

tttgacgata agatcatcga caagagcaag ttcgccgaca ccgccaccca catcagcttt 2220

gccgaaatcg tggaagaact ggtggagaag ggctgggaca aggaccggct gacgaagctg 2280

aaggatgccc ggaacaaggc cctgcacggc gagatcctga ccggcaccag cttcgacgag 2340

acaaagtccc tgatcaacga gctgaagaag taa 2373

<210> 25

<211> 2379

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(2379)

<223> Human codon-optimized coding sequences

<400> 25

atgagccctg atttcatcaa gctggagaag caggaagcag ccttctactt taaccagacc 60

gagctgaacc tgaaggccat cgaatccaat atcctggata agcagcagag aatgatcctg 120

ctgaacaacc ccagaatcct ggccaaggtg ggcaacttca tcttcaattt ccgggacgtg 180

accaagaacg caaagggcga aatcgactgc ctgctgttca agctggagga actgcggaac 240

ttctacagcc actacgtgca caccgataac gtgaaggaac tgtccaacgg agagaagcct 300

ctgctggagc ggtactacca gatcgccatc caggccacaa gaagcgagga cgtgaagttc 360

gagctgttcg agaccaggaa cgagaacaag atcaccgacg caggcgtgct gttcttcctg 420

tgcatgttcc tgaagaagag ccaggctaat aagctgattt ccggcatcag cggcttcaag 480

cggaacgacc ccaccggcca gcccagacgg aacctcttta cctacttctc tgcccgggag 540

ggctacaagg ccctgcctga catgcagaag cacttcctgc tgttcaccct ggtgaactac 600

ctgagcaacc aggacgagta catctccgag ctgaagcagt acggagagat cggacaggga 660

gccttcttca acagaatcgc cagcaccttc ctgaacatca gcggcatcag cggcaacacc 720

aagttctaca gctaccagag caagagaatc aaggagcagc ggggcgaact gaacagcgaa 780

aaggacagct tcgagtggat cgagcccttt cagggcaact cttattttga gatcaacggc 840

cacaagggcg tgatcggcga agacgagctg aaggagctgt gctacgccct gctggtggcc 900

aagcaggaca tcaatgccgt ggagggaaag atcatgcagt tcctgaagaa gttcaggaac 960

accggcaacc tgcagcaggt gaaggacgac gagatgctgg aaatcgagta ctttcccgcc 1020

agctacttca acgagagcaa gaaggaggac atcaagaagg agatcctggg cagactggac 1080

aagaagatcc ggtcctgcag cgccaaggcc gagaaggcct acgacaagat gaaggaggtg 1140

atggagttta tcaataacag cctgcccgcc gaggagaagc tgaagaggaa ggactaccgc 1200

agatacctga agatggtgag attctggtcc agagaaaagg gcaacatcga gagagagttc 1260

agaaccaagg agtggtccaa gtacttcagc agcgacttct ggagaaagaa caatctggag 1320

gatgtgtaca agctggccac ccagaagaac gccgagctgt tcaagaatct gaaggccgcc 1380

gccgagaaga tgggcgaaac agaattcgaa aagtaccagc agatcaacga tgtgaaggac 1440

ctggccagcc tgagacggct gacccaggat ttcggcctga agtgggagga gaaggattgg 1500

gaggagtaca gcgaacagat caagaagcag atcaccgacc ggcagaagct gacaatcatg 1560

aagcagcggg tgaccgccga gctgaagaag aagcacggca tcgagaatct gaacctcaga 1620

attaccatcg attccaacaa gagcagaaag gccgtgctga acagaatcgc cattccccgg 1680

ggcttcgtga agaagcacat tctgggctgg cagggcagcg aaaagatcag caagaatatc 1740

cgggaggccg agtgcaagat cctgctgtcc aagaagtatg aggagctgtc tcggcagttc 1800

tttgaggctg gcaacttcga caagctgacc cagatcaacg gcctgtacga aaagaataag 1860

ctgaccgcct tcatgtccgt ctacctgatg ggcagactga acatccagct gaacaagcac 1920

acggagctgg gaaatctgaa gaagaccgag gtggacttca agatttccga caaggtgaca 1980

gaaaagatcc ccttctccca gtaccctagc ctggtgtacg ctatgagccg gaagtacgtg 2040

gacaacgtgg acaagtacaa gttcagccac caggacaaga agaagccctt cctgggcaag 2100

atcgacagca tcgaaaagga gagaatcgaa ttcatcaagg aggtgctgga cttcgaagag 2160

tacctgttta agaacaaggt gatcgacaag agcaagttca gcgataccgc cacccatatc 2220

tctttcaagg aaatctgcga cgagatgggc aagaagggct gcaaccgcaa caagctgacc 2280

gagctgaata acgctagaaa cgccgcactg cacggagaaa tccccagcga gaccagcttc 2340

cgggaggcca agcccctgat caacgaactg aagaagtaa 2379

<210> 26

<211> 2379

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(2379)

<223> Human codon-optimized coding sequences

<400> 26

atgagccctg acttcatcaa gctggaaaag caggaagccg ccttctactt taatcagacc 60

gagctgaacc tgaaggccat cgagagcaac atcttcgaca agcagcagcg ggtgatcctg 120

ctgaataacc cccagatcct ggccaaggtg ggcgacttca tcttcaactt ccgggacgtg 180

accaagaacg ccaagggaga aatcgactgc ctgctgctga agctgcggga gctgagaaac 240

ttctacagcc actatgtgta caccgacgac gtgaagatcc tgagcaacgg cgagaggccc 300

ctgctggaga agtactacca gtttgccatc gaggccaccg gatctgagaa tgtgaagctg 360

gagatcatcg agagcaacaa ccggctgacc gaagcgggcg tgctgttctt cctgtgcatg 420

ttcctgaaga agagccaggc caacaagctg atttccggca tctccggatt caagcgcaac 480

gaccctaccg gacagcctcg gcggaacctg ttcacctact ttagcgtgcg ggagggctac 540

aaggtggtgc ccgacatgca gaagcacttc ctgctgttcg tgctggtgaa ccacctgtcc 600

ggccaggatg actatattga gaaggcccag aagccctacg acatcggcga aggcctgttc 660

ttccacagaa tcgccagcac ctttctcaac atcagcggca tcctgagaaa catggaattc 720

tacatctacc agagcaagcg gctgaaggag cagcagggag agctgaagag agagaaggac 780

atcttccctt ggatcgagcc tttccagggc aacagctact ttgagatcaa cggaaacaag 840

ggcatcatcg gcgaggacga actgaaggaa ctgtgctacg ccctgctggt ggccggcaag 900

gacgtgagag ccgtggaagg aaagatcacc cagttcctgg agaagttcaa gaacgccgat 960

aacgcccagc aggtggagaa ggatgaaatg ctggaccgga acaacttccc tgccaattac 1020

tttgccgaaa gcaacatcgg cagcatcaag gaaaagatcc tgaatagact gggcaagacc 1080

gacgactcct acaacaagac cggcaccaag atcaagccct acgacatgat gaaggaggtg 1140

atggagttca tcaataattc tctgcccgcc gatgagaagc tgaagcggaa ggactaccgg 1200

agatacctga agatggtccg gatctgggac agcgaaaagg acaatatcaa gcgggagttt 1260

gagagcaagg aatggagcaa gtatttcagc agcgacttct ggatggccaa gaacctggaa 1320

agagtgtacg gcctggccag ggaaaagaac gccgagctgt ttaacaagct gaaggccgtg 1380

gtggagaaga tggacgagcg ggagttcgaa aagtaccggc tgatcaacag cgccgaagac 1440

ctggccagcc tgcggagact ggccaaggac ttcggcctga agtgggagga gaaggactgg 1500

caggagtatt ctggccagat caagaagcag atctccgaca gacagaagct gacaattatg 1560

aagcagcgga tcacagccga actgaagaag aagcacggaa tcgagaacct gaatctgcgg 1620

atcaccatcg acagcaacaa gtccagaaag gccgtgctga accggatcgc cgtgccccgg 1680

ggcttcgtga aggaacacat cctgggctgg caaggctctg aaaaggtgag caagaagacc 1740

agagaagcca agtgcaagat cctgctgagc aaggagtacg aggaactgag caagcagttc 1800

tttcagacac ggaattacga caagatgacc caggtgaacg gcctgtacga gaagaacaag 1860

ctgctggcct tcatggtggt gtacctgatg gagagactga acatcctgct gaacaagccc 1920

acagagctga acgaactgga aaaggccgaa gtggacttca agatctccga caaggtgatg 1980

gccaagatcc ctttctctca gtaccccagc ctggtgtatg caatgagctc caagtacgcc 2040

gacagcgtgg gctcttacaa gttcgaaaac gacgagaaga acaagccctt tctgggcaag 2100

atcgacacaa tcgagaagca gagaatggag ttcatcaagg aggtgctggg cttcgaggaa 2160

tacctgttcg agaagaagat catcgataag agcgaattcg ccgacaccgc cacccacatc 2220

agcttcgacg agatctgcaa cgagctgatc aagaagggct gggacaagga caagctgacc 2280

aagctgaagg acgcccggaa cgccgccctg cacggcgaga tccccgccga gaccagcttc 2340

cgggaggcca agcccctgat taacggcctg aagaagtaa 2379

<210> 27

<211> 2400

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(2400)

<223> Human codon-optimized coding sequences

<400> 27

atgaacatca tcaagctgaa gaaggaggaa gccgcctttt actttaacca gacaatcctg 60

aatctgagcg gcctggacga gatcatcgag aagcagatcc cccacatcat ctccaataag 120

gaaaacgcca agaaggtgat tgataagatc ttcaataaca gactgctgct gaagagcgtg 180

gaaaactata tctacaactt caaggacgtg gccaagaacg cccggaccga aatcgaagcc 240

atcctgctga agctggtgga gctgagaaac ttctactccc actacgtgca caacgacacc 300

gtgaagatcc tgtccaatgg cgagaagccc atcctggaaa agtactacca gatcgccatc 360

gaagccaccg gctctaagaa cgtgaagctg gtcattatcg aaaacaacaa ctgcctgacc 420

gactccggcg tgctgttcct gctgtgcatg ttcctgaaga agagccaggc caacaagctg 480

attagcagcg tgagcggctt taagcggaac gacaaggaag gccagcccag aaggaacctc 540

tttacttact atagcgtgag ggaaggctac aaggtggtgc cagacatgca gaagcacttc 600

ctgctgttcg ccctggtcaa ccacctgtcc gagcaggacg accacatcga gaagcagcag 660

cagagcgacg agctgggcaa gggcctgttc ttccacagaa tcgccagcac attcctgaat 720

gaaagcggca tcttcaacaa gatgcagttt tacacctacc agagcaatcg gctgaaggag 780

aagcggggcg agctgaagca cgagaaggac accttcacct ggatcgagcc tttccaggga 840

aacagctact tcaccctgaa cgggcacaag ggcgtgatca gcgaggatca gctgaaggaa 900

ctgtgctaca caatcctgat cgagaagcag aacgtggaca gcctggaggg caagatcatt 960

cagttcctga agaagtttca gaacgtgtct agcaagcagc aggtggatga ggacgagctg 1020

ctgaagcggg aatacttccc cgccaactac ttcggccggg ccggcaccgg caccctgaag 1080

gagaagatcc tgaaccggct ggacaagcgg atggacccca ccagcaaggt gaccgacaag 1140

gcctatgaca agatgatcga ggtgatggag ttcatcaaca tgtgcctgcc cagcgacgag 1200

aagctgcggc agaaggatta ccggagatat ctgaagatgg tcagattctg gaacaaggag 1260

aagcacaaca tcaagagaga attcgacagc aagaagtgga ccagattcct gcccaccgag 1320

ctgtggaata agcggaacct ggaggaagcc taccagctgg cccggaagga gaacaagaag 1380

aagctggagg acatgaggaa tcaggtgagg agcctgaagg agaacgacct ggagaagtac 1440

cagcagatca actatgtgaa cgacctggaa aacctgcggc tgctgtccca agagctgggc 1500

gtgaagtggc aggagaagga ctgggtggaa tacagcggcc agatcaagaa gcagatcagc 1560

gataaccaga agctgacaat catgaagcag agaatcaccg ccgagctgaa gaagatgcac 1620

ggcatcgaga acctgaacct gagaatcagc atcgacacca acaagtcccg gcagactgtg 1680

atgaacagaa ttgccctgcc caagggcttc gtgaagaacc acattcagca gaacagcagc 1740

gagaagatca gcaagagaat cagagaggac tactgcaaga tcgagctgtc cggcaagtac 1800

gaagagctga gcagacagtt tttcgacaag aagaactttg acaagatgac cctgatcaac 1860

ggactgtgcg agaagaataa gctcatcgcc ttcatggtga tttacctgct ggagcggctg 1920

ggcttcgagc tgaaggagaa gaccaagctg ggcgagctga agcagacccg gatgacatat 1980

aagatcagcg acaaggtgaa ggaggacatc cccctctcct actaccccaa gctggtgtac 2040

gccatgaatc ggaagtatgt ggacaacatc gatagctacg ccttcgccgc ctacgagtct 2100

aagaaggcca tcctggacaa ggtggacatc attgagaagc agagaatgga attcatcaag 2160

caggtgctgt gcttcgagga atacatcttc gagaacagaa tcatcgagaa gagcaagttc 2220

aacgatgagg agacccacat cagcttcacc cagatccacg acgaactgat caagaagggc 2280

agagataccg aaaagctgag caagctgaag cacgccagaa acaaggccct gcacggcgag 2340

atccccgacg ggaccagctt tgagaaggcc aagctgctga tcaacgaaat caagaagtaa 2400

<210> 28

<211> 2412

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(2412)

<223> Human codon-optimized coding sequences

<400> 28

atgaacgcca tcgagctgaa gaaggaagag gccgccttct acttcaacca ggccagactg 60

aacatctctg gcctggacga aatcatcgag aagcaactgc cacacatcgg ctctaacaga 120

gagaacgcca agaagactgt ggacatgatc ctggataacc ccgaggtgct gaagaagatg 180

gaaaactacg tgttcaactc ccgcgatatt gccaagaatg cccggggcga gctggaggcc 240

ctgctgctga agctggtcga gctgagaaac ttctatagcc actacgtgca caaggacgac 300

gtcaagacac tgagctacgg tgagaagcct ctgctggata agtactacga gatcgccatc 360

gaagccaccg gatccaagga cgtgcggctg gagatcattg acgacaagaa taagctgacc 420

gacgccggag tgctgttcct gctgtgcatg ttcctgaaga agagcgaggc taacaagctg 480

atttccagca tccggggctt caagaggaac gacaaggagg gccagcctag aagaaacctg 540

ttcacctact acagcgtgag agagggctat aaggtggtgc ccgacatgca gaagcacttt 600

ctgctgttca ccctggtgaa ccacctgtcc aatcaggacg agtacatctc caacctgcgc 660

ccaaaccagg aaatcggcca gggcggattt ttccaccgga tcgccagcaa gttcctgagc 720

gacagcggaa tcctgcacag catgaagttc tacacataca gatccaagcg gctgaccgag 780

cagcggggag agctgaagcc caagaaggac cactttacat ggatcgagcc tttccagggc 840

aattcctact tcagcgtgca gggccagaag ggcgtgatcg gagaggagca gctcaaggag 900

ctgtgctacg tgctgctggt ggcccgggag gacttcagag ccgtggaggg caaggtgacc 960

cagttcctga agaagttcca gaatgccaat aacgtgcagc aggtggagaa ggacgaggtg 1020

ctggaaaagg agtacttccc cgccaactac tttgagaacc gggacgtggg aagagtcaag 1080

gacaagatcc tgaacagact gaagaagatc accgagagtt ataaggccaa gggtagagag 1140

gtgaaggcct acgacaagat gaaggaagtg atggagttca tcaacaactg cctgcccacc 1200

gatgaaaacc tgaagctgaa ggactaccgg cggtacctga agatggtgag attctggggc 1260

agagagaagg aaaacatcaa gcgggagttc gactccaaga agtgggagcg ctttctcccc 1320

cgggagctgt ggcagaagag aaacctggag gacgcctacc agctcgccaa ggagaagaac 1380

acagagctgt tcaacaagct gaagaccacc gtggagagaa tgaacgaact ggagttcgag 1440

aagtaccagc agatcaatga cgccaaggac ctggccaacc tgagacagct ggccagagac 1500

tttggagtga agtgggagga aaaggactgg caggaatact ctggacagat caagaagcag 1560

atcaccgacc ggcagaagct gaccatcatg aagcagcgga tcaccgccgc cctgaagaag 1620

aagcagggaa tcgaaaacct gaacctgaga atcacaacag atacgaataa gagcaggaag 1680

gtggtgctga accggatcgc actgcccaag ggattcgtca gaaagcacat cctgaagacc 1740

gacatcaaga tcagcaagca gatccggcag agccagtgcc ctatcatcct gtctaacaac 1800

tacatgaagc tggccaagga gttctttgaa gagcggaact tcgataagat gacccagatc 1860

aatggcctgt tcgagaagaa cgtgctgatc gccttcatga tcgtgtacct gatggagcag 1920

ctgaacctga gactgggcaa gaacaccgag ctgtccaacc tgaagaagac cgaggtgaac 1980

tttaccatca ccgacaaggt gaccgagaag gtgcaaatct cccagtaccc cagcctggtg 2040

ttcgccatta accgggagta cgtggacggc atcagcggct acaagctgcc ccccaagaag 2100

cccaaggaac ctccctacac cttcttcgaa aagatcgacg ccatcgaaaa ggagcggatg 2160

gaattcatca agcaggtgct gggcttcgag gagcacctct tcgaaaagaa cgtgatcgac 2220

aagacccggt ttaccgacac cgccacccac atcagcttca atgagatctg cgatgagctg 2280

atcaagaagg gctgggacga aaacaagatc atcaagctga aggatgcacg gaacgctgcc 2340

ctgcacggca agatccctga agatacctcc tttgacgaag ccaaggtgct gatcaacgaa 2400

ctgaagaagt aa 2412

<210> 29

<211> 102

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(102)

<223> gRNA

<400> 29

gctggagcag cccccgattt gtggggtgat tacagcggtc ttcgatattc aagcgtcgga 60

agacctgctg gagcagcccc cgatttgtgg ggtgattaca gc 102

<210> 30

<211> 711

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(711)

<223> GFP reporter genes

<400> 30

atggtgagca agggcgagga ggataacatg gccatcatca aggagttcat gcgcttcaag 60

gtgcacatgg agggctccgt gaacggccac gagttcgaga tcgagggcga gggcgagggc 120

cgcccctacg agggcaccca gaccgccaag ctgaaggtga ccaagggtgg ccccctgccc 180

ttcgcctggg acatcctgtc ccctcagttc atgtacggct ccaaggccta cgtgaagcac 240

cccgccgaca tccccgacta cttgaagctg tccttccccg agggcttcaa gtgggagcgc 300

gtgatgaact tcgaggacgg cggcgtggtg accgtgaccc aggactcctc cctgcaggac 360

ggcgagttca tctacaaggt gaagctgcgc ggcaccaact tcccctccga cggccccgta 420

atgcagaaga agaccatggg ctgggaggcc tcctccgagc ggatgtaccc cgaggacggc 480

gccctgaagg gcgagatcaa gcagaggctg aagctgaagg acggcggcca ctacgacgct 540

gaggtcaaga ccacctacaa ggccaagaag cccgtgcagc tgcccggcgc ctacaacgtc 600

aacatcaagt tggacatcac ctcccacaac gaggactaca ccatcgtgga acagtacgaa 660

cgcgccgagg gccgccactc caccggcggc atggacgagc tgtacaagta a 711

<210> 31

<211> 720

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(720)

<223> mCherry reporter genes

<400> 31

atggtgagca agggcgagga gctgttcacc ggggtggtgc ccatcctggt cgagctggac 60

ggcgacgtaa acggccacaa gttcagcgtg tccggcgagg gcgagggcga tgccacctac 120

ggcaagctga ccctgaagtt catctgcacc accggcaagc tgcccgtgcc ctggcccacc 180

ctcgtgacca ccctgaccta cggcgtgcag tgcttcagcc gctaccccga ccacatgaag 240

cagcacgact tcttcaagtc cgccatgccc gaaggctacg tccaggagcg caccatcttc 300

ttcaaggacg acggcaacta caagacccgc gccgaggtga agttcgaggg cgacaccctg 360

gtgaaccgca tcgagctgaa gggcatcgac ttcaaggagg acggcaacat cctggggcac 420

aagctggagt acaactacaa cagccacaac gtctatatca tggccgacaa gcagaagaac 480

ggcatcaagg tgaacttcaa gatccgccac aacatcgagg acggcagcgt gcagctcgcc 540

gaccactacc agcagaacac ccccatcggc gacggccccg tgctgctgcc cgacaaccac 600

tacctgagca cccagtccgc cctgagcaaa gaccccaacg agaagcgcga tcacatggtc 660

ctgctggagt tcgtgaccgc cgccgggatc actctcggca tggacgagct gtacaagtga 720

<210> 32

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(66)

<223> SgRNA

<400> 32

gctggagcag cccccgattt gtggggtgat tacagcggtc ttcgatattc aagcgtcgga 60

agacct 66

<210> 33

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(66)

<223> SgRNA

<400> 33

ggtcttcgat attcaagcgt cggaagacct gctggagcag cccccgattt gtggggtgat 60

tacagc 66

<210> 34

<211> 20

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(20)

<223> SgRNA

<400> 34

ttggtgccgc gcagcttcac 20

<210> 35

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_

<222> (1)..(25)

<223> SgRNA

<400> 35

ttggtgccgc gcagcttcac cttgt 25

<210> 36

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(30)

<223> SgRNA

<400> 36

ttggtgccgc gcagcttcac cttgtagatg 30

<210> 37

<211> 35

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(35)

<223> SgRNA

<400> 37

ttggtgccgc gcagcttcac cttgtagatg aactc 35

<210> 38

<211> 40

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(40)

<400> 38

ttggtgccgc gcagcttcac cttgtagatg aactcgccgt 40

<210> 39

<211> 45

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(45)

<223> SgRNA

<400> 39

ttggtgccgc gcagcttcac cttgtagatg aactcgccgt cctgc 45

<210> 40

<211> 50

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(50)

<223> SgRNA

<400> 40

ttggtgccgc gcagcttcac cttgtagatg aactcgccgt cctgcaggga 50

<210> 41

<211> 3615

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(3615)

<223> dCas13e.1-ADAR2DD

<400> 41

atgcccaaga agaagcggaa ggtggcccag gtgagcaagc agacctccaa gaagagggag 60

ctgagcatcg acgagtacca gggcgcccgg aagtggtgct tcaccattgc cttcaacaag 120

gccctggtga accgggacaa gaacgacggc ctgttcgtgg aaagcctgct gagacacgag 180

aagtacagca agcacgactg gtacgacgaa gatacccggg ccctgatcaa gtgcagcacc 240

caggccgcca acgccaaggc tgaagccctg gcgaactact tcagtgctta ccggcatagc 300

cctggctgcc tgaccttcac cgccgaggac gaactgcgga ccatcatgga gagagcctat 360

gagcgggcca tcttcgagtg cagaagaaga gagacagagg tgatcatcga gtttcccagc 420

ctgttcgagg gcgaccggat caccaccgcc ggcgtggtgt ttttcgtgag ctttttcgtg 480

gaaagaagag tgctggatcg gctgtatgga gccgtgtccg gcctgaagaa gaatgaggga 540

cagtacaagc tgacccggaa ggccctgagc atgtactgcc tgaaggacag cagattcacc 600

aaggcctggg ataagcgggt gctgctgttc agagacatcc tggcccagct gggaagaatc 660

cccgccgagg cctacgagta ctaccacggc gagcagggtg ataagaagag agctaacgac 720

aatgagggca caaatcccaa gcggcacaag gacaagttca tcgaatttgc actgcactac 780

ctggaagccc agcacagcga gatctgcttc ggcagacgcc acatcgtgcg ggaagaggcc 840

ggcgccggcg atgagcacaa gaagcaccgg accaagggaa aggtggtggt ggacttcagc 900

aagaaggacg aggaccagag ctactatatc tccaagaaca acgtgatcgt gcggatcgac 960

aagaacgccg gccctagaag ctaccggatg ggcctgaacg agctgaagta cctcgtgctg 1020

ctgagcctgc aggggaaggg cgacgatgcc atcgccaagc tgtacagata cagacagcac 1080

gtggagaaca tcctggatgt ggtgaaggtg accgataagg ataaccacgt gttcctgccc 1140

cgcttcgtgc tggagcagca cggcatcggc agaaaggcct tcaagcagcg gatcgatgga 1200

cgggtgaagc acgtgcgggg cgtgtgggag aagaagaagg ccgccaccaa tgaaatgacc 1260

ctgcacgaga aggccagaga catcctgcag tacgtgaacg aaaactgcac ccggtccttc 1320

aaccctggcg aatacaacag actgctggtg tgcctggtgg gcaaggacgt ggagaacttt 1380

caggccggcc tgaagcggct gcagctggcc gaaaggatcg atggccgggt gtactccatc 1440

ttcgcccaga ccagcaccat caatgagatg caccaggtgg tgtgcgacca gatcctgaac 1500

cggctgtgca gaatcggcga ccagaagctg tacgattacg tgggactggg caagaaggac 1560

gaaatcgact acaagcagaa ggtggcctgg ttcaaggagc acatcagcat ccggagagga 1620

ttcctgagaa agaagttctg gtacgatagc aagaagggat tcgcaaagct ggtggaggaa 1680

cacctggagt ccggcggcgg ccagcgcgac gtgggcctgg acaagaagta ctaccacatc 1740

gacgccatcg gcagattcga gggcgccaac cccgccctgt acgagaccct ggccagagat 1800

cggctgtgcc tcatgatggc ccagtacttc ctgggcagcg tgagaaagga actgggcaac 1860

aagattgtgt ggagcaacga cagcatcgaa ctgcctgtgg aaggctctgt gggaaatgag 1920

aagagcatcg tgttctccgt gtctgactac ggcaagctgt acgtgctgga cgatgccgaa 1980

ttcctgggcc ggatctgcga atacttcatg ccccacgaaa agggcaagat ccggtaccac 2040

acagtgtacg aaaagggctt tagagcatac aacgacctgc agaagaagtg cgtggaggcc 2100

gtgctggctt tcgaagagaa ggtggtgaag gccaagaaga tgagcgagaa ggaaggcgcc 2160

cactacatcg acttccggga gatcctggcc cagaccatgt gcaaggaggc cgagaagacc 2220

gcagtgaaca aggtggcggc tgccttcttc gctgcgcacc tgaagttcgt gattgacgag 2280

ttcggcctgt tcagcgacgt gatgaagaag tacggcatcg agaaggaatg gaagttccct 2340

gtcaagccca agaagaagcg gaaggtgggt ggaggcggag gttctggggg aggaggtagt 2400

ggcggtggtg gttcaggagg cggcggaagc cagctgcatt taccgcaggt tttagctgac 2460

gctgtctcac gcctggtcct gggtaagttt ggtgacctga ccgacaactt ctcctcccct 2520

cacgctcgca gaaaagtgct ggctggagtc gtcatgacaa caggcacaga tgttaaagat 2580

gccaaggtga taagtgtttc tacaggaggc aaatgtatta atggtgaata catgagtgat 2640

cgtggccttg cattaaatga ctgccatgca gaaataatat ctcggagatc cttgctcaga 2700

tttctttata cacaacttga gctttactta aataacaaag atgatcaaaa aagatccatc 2760

tttcagaaat cagagcgagg ggggtttagg ctgaaggaga atgtccagtt tcatctgtac 2820

atcagcacct ctccctgtgg agatgccaga atcttctcac cacatgagcc aatcctggaa 2880

gaaccagcag atagacaccc aaatcgtaaa gcaagaggac agctacggac caaaatagag 2940

tctggtcagg ggacgattcc agtgcgctcc aatgcgagca tccaaacgtg ggacggggtg 3000

ctgcaagggg agcggctgct caccatgtcc tgcagtgaca agattgcacg ctggaacgtg 3060

gtgggcatcc agggatcact gctcagcatt ttcgtggagc ccatttactt ctcgagcatc 3120

atcctgggca gcctttacca cggggaccac ctttccaggg ccatgtacca gcggatctcc 3180

aacatagagg acctgccacc tctctacacc ctcaacaagc ctttgctcag tggcatcagc 3240

aatgcagaag cacggcagcc agggaaggcc cccaacttca gtgtcaactg gacggtaggc 3300

gactccgcta ttgaggtcat caacgccacg actgggaagg atgagctggg ccgcgcgtcc 3360

cgcctgtgta agcacgcgtt gtactgtcgc tggatgcgtg tgcacggcaa ggttccctcc 3420

cacttactac gctccaagat taccaagccc aacgtgtacc atgagtccaa gctggcggca 3480

aaggagtacc aggccgccaa ggcgcgtctg ttcacagcct tcatcaaggc ggggctgggg 3540

gcctgggtgg agaagcccac cgagcaggac cagttctcac tcacgtaccc atacgacgta 3600

ccagattacg cttaa 3615

<210> 42

<211> 711

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(711)

<223> mutated mCherry

<400> 42

atggtgagca agggcgagga ggataacatg gccatcatca aggagttcat gcgcttcaag 60

gtgcacatgg agggctccgt gaacggccac gagttcgaga tcgagggcga gggcgagggc 120

cgcccctacg agggcaccca gaccgccaag ctgaaggtga ccaagggtgg ccccctgccc 180

ttcgcctggg acatcctgtc ccctcagttc atgtacggct ccaaggccta cgtgaagcac 240

cccgccgaca tccccgacta cttgaagctg tccttccccg agggcttcaa gtaggagcgc 300

gtgatgaact tcgaggacgg cggcgtggtg accgtgaccc aggactcctc cctgcaggac 360

ggcgagttca tctacaaggt gaagctgcgc ggcaccaact tcccctccga cggccccgta 420

atgcagaaga agaccatggg ctgggaggcc tcctccgagc ggatgtaccc cgaggacggc 480

gccctgaagg gcgagatcaa gcagaggctg aagctgaagg acggcggcca ctacgacgct 540

gaggtcaaga ccacctacaa ggccaagaag cccgtgcagc tgcccggcgc ctacaacgtc 600

aacatcaagt tggacatcac ctcccacaac gaggactaca ccatcgtgga acagtacgaa 660

cgcgccgagg gccgccactc caccggcggc atggacgagc tgtacaagta a 711

<210> 43

<211> 86

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(86)

<223> gRNA

<400> 43

caagtagtcg gggatgtcgg cggggtgctt cacctaggcc ttggagccgt gctggagcag 60

cccccgattt gtggggtgat tacagc 86

<210> 44

<211> 86

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(86)

<223> gRNA

<400> 44

cggggatgtc ggcggggtgc ttcacctagg ccttggagcc gtacatgaac gctggagcag 60

cccccgattt gtggggtgat tacagc 86

<210> 45

<211> 3489

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(3489)

<223> LwaCas13a

<400> 45

atgcccaaga agaagcggaa ggtgggatcc atgaaagtga ccaaggtcga tggcatcagc 60

cacaagaagt acatcgaaga gggcaagctc gtgaagtcca ccagcgagga aaaccggacc 120

agcgagagac tgagcgagct gctgagcatc cggctggaca tctacatcaa gaaccccgac 180

aacgcctccg aggaagagaa ccggatcaga agagagaacc tgaagaagtt ctttagcaac 240

aaggtgctgc acctgaagga cagcgtgctg tatctgaaga accggaaaga aaagaacgcc 300

gtgcaggaca agaactatag cgaagaggac atcagcgagt acgacctgaa aaacaagaac 360

agcttctccg tgctgaagaa gatcctgctg aacgaggacg tgaactctga ggaactggaa 420

atctttcgga aggacgtgga agccaagctg aacaagatca acagcctgaa gtacagcttc 480

gaagagaaca aggccaacta ccagaagatc aacgagaaca acgtggaaaa agtgggcggc 540

aagagcaagc ggaacatcat ctacgactac tacagagaga gcgccaagcg caacgactac 600

atcaacaacg tgcaggaagc cttcgacaag ctgtataaga aagaggatat cgagaaactg 660

tttttcctga tcgagaacag caagaagcac gagaagtaca agatccgcga gtactatcac 720

aagatcatcg gccggaagaa cgacaaagag aacttcgcca agattatcta cgaagagatc 780

cagaacgtga acaacatcaa agagctgatt gagaagatcc ccgacatgtc tgagctgaag 840

aaaagccagg tgttctacaa gtactacctg gacaaagagg aactgaacga caagaatatt 900

aagtacgcct tctgccactt cgtggaaatc gagatgtccc agctgctgaa aaactacgtg 960

tacaagcggc tgagcaacat cagcaacgat aagatcaagc ggatcttcga gtaccagaat 1020

ctgaaaaagc tgatcgaaaa caaactgctg aacaagctgg acacctacgt gcggaactgc 1080

ggcaagtaca actactatct gcaagtgggc gagatcgcca cctccgactt tatcgcccgg 1140

aaccggcaga acgaggcctt cctgagaaac atcatcggcg tgtccagcgt ggcctacttc 1200

agcctgagga acatcctgga aaccgagaac gagaacgata tcaccggccg gatgcggggc 1260

aagaccgtga agaacaacaa gggcgaagag aaatacgtgt ccggcgaggt ggacaagatc 1320

tacaatgaga acaagcagaa cgaagtgaaa gaaaatctga agatgttcta cagctacgac 1380

ttcaacatgg acaacaagaa cgagatcgag gacttcttcg ccaacatcga cgaggccatc 1440

agcagcatca gacacggcat cgtgcacttc aacctggaac tggaaggcaa ggacatcttc 1500

gccttcaaga atatcgcccc cagcgagatc tccaagaaga tgtttcagaa cgaaatcaac 1560

gaaaagaagc tgaagctgaa aatcttcaag cagctgaaca gcgccaacgt gttcaactac 1620

tacgagaagg atgtgatcat caagtacctg aagaatacca agttcaactt cgtgaacaaa 1680

aacatcccct tcgtgcccag cttcaccaag ctgtacaaca agattgagga cctgcggaat 1740

accctgaagt ttttttggag cgtgcccaag gacaaagaag agaaggacgc ccagatctac 1800

ctgctgaaga atatctacta cggcgagttc ctgaacaagt tcgtgaaaaa ctccaaggtg 1860

ttctttaaga tcaccaatga agtgatcaag attaacaagc agcggaacca gaaaaccggc 1920

cactacaagt atcagaagtt cgagaacatc gagaaaaccg tgcccgtgga atacctggcc 1980

atcatccaga gcagagagat gatcaacaac caggacaaag aggaaaagaa tacctacatc 2040

gactttattc agcagatttt cctgaagggc ttcatcgact acctgaacaa gaacaatctg 2100

aagtatatcg agagcaacaa caacaatgac aacaacgaca tcttctccaa gatcaagatc 2160

aaaaaggata acaaagagaa gtacgacaag atcctgaaga actatgagaa gcacaatcgg 2220

aacaaagaaa tccctcacga gatcaatgag ttcgtgcgcg agatcaagct ggggaagatt 2280

ctgaagtaca ccgagaatct gaacatgttt tacctgatcc tgaagctgct gaaccacaaa 2340

gagctgacca acctgaaggg cagcctggaa aagtaccagt ccgccaacaa agaagaaacc 2400

ttcagcgacg agctggaact gatcaacctg ctgaacctgg acaacaacag agtgaccgag 2460

gacttcgagc tggaagccaa cgagatcggc aagttcctgg acttcaacga aaacaaaatc 2520

aaggaccgga aagagctgaa aaagttcgac accaacaaga tctatttcga cggcgagaac 2580

atcatcaagc accgggcctt ctacaatatc aagaaatacg gcatgctgaa tctgctggaa 2640

aagatcgccg ataaggccaa gtataagatc agcctgaaag aactgaaaga gtacagcaac 2700

aagaagaatg agattgaaaa gaactacacc atgcagcaga acctgcaccg gaagtacgcc 2760

agacccaaga aggacgaaaa gttcaacgac gaggactaca aagagtatga gaaggccatc 2820

ggcaacatcc agaagtacac ccacctgaag aacaaggtgg aattcaatga gctgaacctg 2880

ctgcagggcc tgctgctgaa gatcctgcac cggctcgtgg gctacaccag catctgggag 2940

cgggacctga gattccggct gaagggcgag tttcccgaga accactacat cgaggaaatt 3000

ttcaatttcg acaactccaa gaatgtgaag tacaaaagcg gccagatcgt ggaaaagtat 3060

atcaacttct acaaagaact gtacaaggac aatgtggaaa agcggagcat ctactccgac 3120

aagaaagtga agaaactgaa gcaggaaaaa aaggacctgt acatccggaa ctacattgcc 3180

cacttcaact acatccccca cgccgagatt agcctgctgg aagtgctgga aaacctgcgg 3240

aagctgctgt cctacgaccg gaagctgaag aacgccatca tgaagtccat cgtggacatt 3300

ctgaaagaat acggcttcgt ggccaccttc aagatcggcg ctgacaagaa gatcgaaatc 3360

cagaccctgg aatcagagaa gatcgtgcac ctgaagaatc tgaagaaaaa gaaactgatg 3420

accgaccgga acagcgagga actgtgcgaa ctcgtgaaag tcatgttcga gtacaaggcc 3480

ctggaatga 3489

<210> 46

<211> 3312

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(3312)

<223> PspCas13b

<400> 46

atgcccaaga agaagcggaa ggtggtcgac aacatccccg ctctggtgga aaaccagaag 60

aagtactttg gcacctacag cgtgatggcc atgctgaacg ctcagaccgt gctggaccac 120

atccagaagg tggccgatat tgagggcgag cagaacgaga acaacgagaa tctgtggttt 180

caccccgtga tgagccacct gtacaacgcc aagaacggct acgacaagca gcccgagaaa 240

accatgttca tcatcgagcg gctgcagagc tacttcccat tcctgaagat catggccgag 300

aaccagagag agtacagcaa cggcaagtac aagcagaacc gcgtggaagt gaacagcaac 360

gacatcttcg aggtgctgaa gcgcgccttc ggcgtgctga agatgtacag ggacctgacc 420

aaccactaca agacctacga ggaaaagctg aacgacggct gcgagttcct gaccagcaca 480

gagcaacctc tgagcggcat gatcaacaac tactacacag tggccctgcg gaacatgaac 540

gagagatacg gctacaagac agaggacctg gccttcatcc aggacaagcg gttcaagttc 600

gtgaaggacg cctacggcaa gaaaaagtcc caagtgaata ccggattctt cctgagcctg 660

caggactaca acggcgacac acagaagaag ctgcacctga gcggagtggg aatcgccctg 720

ctgatctgcc tgttcctgga caagcagtac atcaacatct ttctgagcag gctgcccatc 780

ttctccagct acaatgccca gagcgaggaa cggcggatca tcatcagatc cttcggcatc 840

aacagcatca agctgcccaa ggaccggatc cacagcgaga agtccaacaa gagcgtggcc 900

atggatatgc tcaacgaagt gaagcggtgc cccgacgagc tgttcacaac actgtctgcc 960

gagaagcagt cccggttcag aatcatcagc gacgaccaca atgaagtgct gatgaagcgg 1020

agcagcgaca gattcgtgcc tctgctgctg cagtatatcg attacggcaa gctgttcgac 1080

cacatcaggt tccacgtgaa catgggcaag ctgagatacc tgctgaaggc cgacaagacc 1140

tgcatcgacg gccagaccag agtcagagtg atcgagcagc ccctgaacgg cttcggcaga 1200

ctggaagagg ccgagacaat gcggaagcaa gagaacggca ccttcggcaa cagcggcatc 1260

cggatcagag acttcgagaa catgaagcgg gacgacgcca atcctgccaa ctatccctac 1320

atcgtggaca cctacacaca ctacatcctg gaaaacaaca aggtcgagat gtttatcaac 1380

gacaaagagg acagcgcccc actgctgccc gtgatcgagg atgatagata cgtggtcaag 1440

acaatcccca gctgccggat gagcaccctg gaaattccag ccatggcctt ccacatgttt 1500

ctgttcggca gcaagaaaac cgagaagctg atcgtggacg tgcacaaccg gtacaagaga 1560

ctgttccagg ccatgcagaa agaagaagtg accgccgaga atatcgccag cttcggaatc 1620

gccgagagcg acctgcctca gaagatcctg gatctgatca gcggcaatgc ccacggcaag 1680

gatgtggacg ccttcatcag actgaccgtg gacgacatgc tgaccgacac cgagcggaga 1740

atcaagagat tcaaggacga ccggaagtcc attcggagcg ccgacaacaa gatgggaaag 1800

agaggcttca agcagatctc cacaggcaag ctggccgact tcctggccaa ggacatcgtg 1860

ctgtttcagc ccagcgtgaa cgatggcgag aacaagatca ccggcctgaa ctaccggatc 1920

atgcagagcg ccattgccgt gtacgatagc ggcgacgatt acgaggccaa gcagcagttc 1980

aagctgatgt tcgagaaggc ccggctgatc ggcaagggca caacagagcc tcatccattt 2040

ctgtacaagg tgttcgcccg cagcatcccc gccaatgccg tcgagttcta cgagcgctac 2100

ctgatcgagc ggaagttcta cctgaccggc ctgtccaacg agatcaagaa aggcaacaga 2160

gtggatgtgc ccttcatccg gcgggaccag aacaagtgga aaacacccgc catgaaaacc 2220

ctgggcagaa tctacagcga ggatctgccc gtggaactgc ccagacagat gttcgacaat 2280

gagatcaagt cccacctgaa gtccctgcca cagatggaag gcatcgactt caacaatgcc 2340

aacgtgacct atctgatcgc cgagtacatg aagagagtgc tggacgacga cttccagacc 2400

ttctaccagt ggaaccgcaa ctaccggtac atggacatgc ttaagggcga gtacgacaga 2460

aagggctccc tgcagcactg cttcaccagc gtggaagaga gagaaggcct ctggaaagag 2520

cgggcctcca gaacagagcg gtacagaaag caggccagca acaagatccg cagcaaccgg 2580

cagatgagaa acgccagcag cgaagagatc gagacaatcc tggataagcg gctgagcaac 2640

agccggaacg agtaccagaa aagcgagaaa gtgatccggc gctacagagt gcaggatgcc 2700

ctgctgtttc tgctggccaa aaagaccctg accgaactgg ccgatttcga cggcgagagg 2760

ttcaaactga aagaaatcat gcccgacgcc gagaagggaa tcctgagcga gatcatgccc 2820

atgagcttca ccttcgagaa aggcggcaag aagtacacca tcaccagcga gggcatgaag 2880

ctgaagaact acggcgactt ctttgtgctg gctagcgaca agaggatcgg caacctgctg 2940

gaactcgtgg gcagcgacat cgtgtccaaa gaggatatca tggaagagtt caacaaatac 3000

gaccagtgca ggcccgagat cagctccatc gtgttcaacc tggaaaagtg ggccttcgac 3060

acataccccg agctgtctgc cagagtggac cgggaagaga aggtggactt caagagcatc 3120

ctgaaaatcc tgctgaacaa caagaacatc aacaaagagc agagcgacat cctgcggaag 3180

atccggaacg ccttcgatca caacaattac cccgacaaag gcgtggtgga aatcaaggcc 3240

ctgcctgaga tcgccatgag catcaagaag gcctttgggg agtacgccat catgaaggga 3300

tcccttcaat ga 3312

<210> 47

<211> 2934

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<221> misc_feature

<222> (1)..(2934)

<223> RxCas13d

<400> 47

atgcctaaaa agaaaagaaa ggtgggttct ggtatcgaga agaagaagag cttcgccaag 60

ggcatgggag tgaagagcac cctggtgtcc ggctctaagg tgtacatgac cacatttgct 120

gagggaagcg acgccaggct ggagaagatc gtggagggcg atagcatcag atccgtgaac 180

gagggagagg ctttcagcgc cgagatggct gacaagaacg ctggctacaa gatcggaaac 240

gccaagtttt cccacccaaa gggctacgcc gtggtggcta acaacccact gtacaccgga 300

ccagtgcagc aggacatgct gggactgaag gagacactgg agaagaggta cttcggcgag 360

tccgccgacg gaaacgataa catctgcatc caggtcatcc acaacatcct ggatatcgag 420

aagatcctgg ctgagtacat cacaaacgcc gcttacgccg tgaacaacat ctccggcctg 480

gacaaggata tcatcggctt cggaaagttt tctaccgtgt acacatacga cgagttcaag 540

gatccagagc accaccgggc cgcttttaac aacaacgaca agctgatcaa cgccatcaag 600

gctcagtacg acgagttcga taactttctg gataacccca ggctgggcta cttcggacag 660

gctttctttt ctaaggaggg cagaaactac atcatcaact acggaaacga gtgttacgac 720

atcctggccc tgctgagcgg actgaggcac tgggtggtgc acaacaacga ggaggagtct 780

cggatcagcc gcacctggct gtacaacctg gacaagaacc tggataacga gtacatctcc 840

acactgaact acctgtacga caggatcacc aacgagctga caaacagctt ctccaagaac 900

tctgccgcta acgtgaacta catcgctgag accctgggca tcaacccagc tgagttcgct 960

gagcagtact tcagattttc catcatgaag gagcagaaga acctgggctt caacatcaca 1020

aagctgagag aagtgatgct ggacagaaag gatatgtccg agatcaggaa gaaccacaag 1080

gtgttcgatt ctatcagaac caaggtgtac acaatgatgg actttgtgat ctacaggtac 1140

tacatcgagg aggatgccaa ggtggccgct gccaacaaga gcctgcccga caacgagaag 1200

tctctgagcg agaaggatat cttcgtgatc aacctgagag gctcctttaa cgacgatcag 1260

aaggacgctc tgtactacga tgaggccaac aggatctgga gaaagctgga gaacatcatg 1320

cacaacatca aggagttccg gggaaacaag acccgcgagt acaagaagaa ggacgctcca 1380

aggctgccta ggatcctgcc tgctggaagg gacgtgagcg ccttcagcaa gctgatgtac 1440

gccctgacaa tgtttctgga cggaaaggag atcaacgatc tgctgaccac actgatcaac 1500

aagttcgaca acatccagtc ttttctgaaa gtgatgcctc tgatcggcgt gaacgctaag 1560

ttcgtggagg agtacgcctt ctttaaggac agcgccaaga tcgctgatga gctgcggctg 1620

atcaagtcct ttgccaggat gggagagcca atcgctgacg ctaggagagc tatgtacatc 1680

gatgccatcc ggatcctggg aaccaacctg tcttacgacg agctgaaggc tctggccgac 1740

accttcagcc tggatgagaa cggcaacaag ctgaagaagg gcaagcacgg aatgcgcaac 1800

ttcatcatca acaacgtgat cagcaacaag cggtttcact acctgatcag atacggcgac 1860

ccagctcacc tgcacgagat cgctaagaac gaggccgtgg tgaagttcgt gctgggacgg 1920

atcgccgata tccagaagaa gcagggccag aacggaaaga accagatcga ccgctactac 1980

gagacctgca tcggcaagga taagggaaag tccgtgtctg agaaggtgga cgctctgacc 2040

aagatcatca caggcatgaa ctacgaccag ttcgataaga agagatctgt gatcgaggac 2100

accggaaggg agaacgccga gagagagaag tttaagaaga tcatcagcct gtacctgaca 2160

gtgatctacc acatcctgaa gaacatcgtg aacatcaacg ctagatacgt gatcggcttc 2220

cactgcgtgg agcgcgatgc ccagctgtac aaggagaagg gatacgacat caacctgaag 2280

aagctggagg agaagggctt tagctccgtg accaagctgt gcgctggaat cgacgagaca 2340

gcccccgaca agaggaagga tgtggagaag gagatggccg agagagctaa ggagagcatc 2400

gactccctgg agtctgctaa ccctaagctg tacgccaact acatcaagta ctccgatgag 2460

aagaaggccg aggagttcac caggcagatc aacagagaga aggccaagac cgctctgaac 2520

gcctacctga ggaacacaaa gtggaacgtg atcatccggg aggacctgct gcgcatcgat 2580

aacaagacct gtacactgtt ccggaacaag gctgtgcacc tggaggtggc tcgctacgtg 2640

cacgcctaca tcaacgacat cgccgaggtg aactcctact ttcagctgta ccactacatc 2700

atgcagagga tcatcatgaa cgagagatac gagaagtcta gcggcaaggt gtctgagtac 2760

ttcgacgccg tgaacgatga gaagaagtac aacgatagac tgctgaagct gctgtgcgtg 2820

cctttcggat actgtatccc acggtttaag aacctgagca tcgaggccct gttcgaccgc 2880

aacgaggctg ccaagtttga taaggagaag aagaaggtga gcggcaactc ctga 2934

<210> 48

<211> 30

<212> DNA

<213> 智人(Homo sapiens)

<400> 48

atggcccttc gcagctcttg cacgtcatac 30

<210> 49

<211> 30

<212> DNA

<213> 智人(Homo sapiens)

<400> 49

ttaggcagcc ctcatcagtg ccggctccct 30

<210> 50

<211> 30

<212> DNA

<213> 智人(Homo sapiens)

<400> 50

ggccaggatc tcaattaggc agccctcatc 30

132页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种混合均匀的微生物科技用生物发酵工艺

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!