用于将抗体编码序列插入到安全港基因座中的方法和组合物

文档序号:1908985 发布日期:2021-11-30 浏览:26次 >En<

阅读说明:本技术 用于将抗体编码序列插入到安全港基因座中的方法和组合物 (Methods and compositions for inserting antibody coding sequences into safe harbor loci ) 是由 苏珊娜·哈特福德 王成 国春·龚 克里斯托斯·基拉特索斯 布莱恩·扎姆布罗维兹 乔治·D. 于 2020-04-02 设计创作,主要内容包括:提供了用于在动物体内将如广泛中和抗体等抗原结合蛋白的编码序列整合到如白蛋白基因座等安全港基因座中的方法和组合物。(Methods and compositions are provided for integrating the coding sequence of an antigen binding protein, such as a broadly neutralizing antibody, into a safe harbor locus, such as the albumin locus, in an animal.)

用于将抗体编码序列插入到安全港基因座中的方法和组合物

相关申请的交叉引用

本申请要求于2019年4月3日提交的美国申请第62/828,518号和于2019年8月16日提交的美国申请第62/887,885号的权益,所述美国申请中的每一个出于所有目的通过引用整体并入本文。

通过EFS WEB作为文本文件提交的序列表的引用

写入文件544998SEQLIST.txt中的序列表为186千字节,创建于2020年4月2日,并且特此通过引用并入。

背景技术

中和抗体在抗菌和抗病毒免疫中发挥至关重要的作用,并且有助于预防或调节细菌或病毒疾病。免疫系统在感染或主动接种疫苗后产生的抗体往往集中在细菌或病毒表面容易接近的环上,所述环通常具有大的序列和构象变异性。然而,细菌或病毒种群可以迅速躲避这些抗体,并且这些抗体会激发蛋白质中对功能不重要的部分。尽管广泛中和抗体可以克服这些问题,但这些抗体通常出现得太晚而无法提供有效的疾病保护,并且使用此类抗体进行治疗只能提供短暂的保护。

发明内容

提供了包括整合到安全港基因座中的抗原结合蛋白的编码序列的动物,以及用于在动物体内将抗原结合蛋白的编码序列整合到安全港基因座中的方法。类似地,提供了包括整合到安全港基因座中的抗原结合蛋白的编码序列的细胞、基因组或基因,以及用于在细胞、基因组或基因体外或体内将抗原结合蛋白的编码序列整合到安全港基因座中的方法。一方面,提供了用于在动物体内将抗原结合蛋白编码序列插入到安全港基因座中的方法。一些此类方法包括将靶向安全港基因座中的靶位点的核酸酶试剂和包括抗原结合蛋白编码序列的外源供体核酸引入到动物中,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因座中以产生经修饰的安全港基因座。一些此类方法包括将以下引入到动物中:(a)靶向安全港基因座中的靶位点的核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸;以及(b)包括抗原结合蛋白编码序列的外源供体核酸,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因座中以产生经修饰的安全港基因座。同样地,提供了用于在细胞体外或体内将抗原结合蛋白编码序列插入到安全港基因座中的方法。一些此类方法包括将靶向安全港基因座中的靶位点的核酸酶试剂和包括抗原结合蛋白编码序列的外源供体核酸引入到细胞中,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因座中以产生经修饰的安全港基因座。一些此类方法包括将以下引入到细胞中:(a)靶向安全港基因座中的靶位点的核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸;以及(b)包括抗原结合蛋白编码序列的外源供体核酸,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因座中以产生经修饰的安全港基因座。另一方面,提供了核酸酶试剂和包括抗原结合蛋白编码序列的外源供体核酸,其用于将抗原结合蛋白编码序列插入到受试者(例如,动物或细胞体内)的安全港基因座中,其中核酸酶试剂靶向并切割安全港基因座中的靶位点,并且其中外源供体核酸插入到安全港基因座中。另一方面,提供了核酸酶试剂或对核酸酶试剂进行编码的一种或多种核酸以及包括抗原结合蛋白编码序列的外源供体核酸,其用于将抗原结合蛋白编码序列插入到受试者(例如,动物或细胞体内)的安全港基因座中,其中核酸酶试剂靶向并切割安全港基因座中的靶位点,并且其中外源供体核酸插入到安全港基因座中。一些此类方法可以包括将靶向安全港基因座中的靶位点的核酸酶试剂和包括抗原结合蛋白编码序列的外源供体核酸引入到动物或细胞中,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因座中以产生经修饰的安全港基因座。一些此类方法可以包括将以下引入到动物或细胞中:(a)靶向安全港基因座中的靶位点的核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸;以及(b)包括抗原结合蛋白编码序列的外源供体核酸,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因座中以产生经修饰的安全港基因座。另一方面,提供了核酸酶试剂和包括抗原结合蛋白编码序列的外源供体核酸,其用于治疗或有效预防(预防)受试者(例如,动物)的疾病,其中核酸酶试剂靶向并切割受试者的安全港基因座中的靶位点,其中外源供体核酸插入到安全港基因座中,并且其中抗原结合蛋白在受试者中表达并靶向与疾病相关的抗原。另一方面,提供了核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及包括抗原结合蛋白编码序列的外源供体核酸,其用于治疗或有效预防(预防)受试者(例如,动物)的疾病,其中核酸酶试剂靶向并切割受试者的安全港基因座中的靶位点,其中外源供体核酸插入到安全港基因座中,并且其中抗原结合蛋白在受试者中表达并靶向与疾病相关的抗原。一些此类方法可以包括将靶向安全港基因座中的靶位点的核酸酶试剂和包括抗原结合蛋白编码序列的外源供体核酸引入到动物中,其中抗原结合蛋白靶向与疾病相关的抗原,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因座中以产生经修饰的安全港基因座,并且由此抗原结合蛋白在动物中表达并结合与疾病相关的抗原。一些此类方法可以包括将以下引入到动物中:(a)靶向安全港基因座中的靶位点的核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸;以及(b)包括抗原结合蛋白编码序列的外源供体核酸,其中抗原结合蛋白靶向与疾病相关的抗原,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因座中以产生经修饰的安全港基因座,并且由此抗原结合蛋白在动物中表达并结合与疾病相关的抗原。

在一些此类方法中,抗原结合蛋白靶向疾病相关抗原。在一些此类方法中,动物中的抗原结合蛋白对动物的疾病具有预防或治疗作用。另一方面,提供了治疗或有效预防患有或有风险患有疾病的动物的疾病的方法。一些此类方法可以包括将靶向安全港基因座中的靶位点的核酸酶试剂和包括抗原结合蛋白编码序列的外源供体核酸引入到动物中,其中抗原结合蛋白靶向与疾病相关的抗原,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因座中以产生经修饰的安全港基因座,并且由此抗原结合蛋白在动物中表达并结合与疾病相关的抗原。一些此类方法可以包括将以下引入到动物中:(a)靶向安全港基因座中的靶位点的核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸;以及(b)包括抗原结合蛋白编码序列的外源供体核酸,其中抗原结合蛋白靶向与疾病相关的抗原,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因座中以产生经修饰的安全港基因座,并且由此抗原结合蛋白在动物中表达并结合与疾病相关的抗原。

在一些此类方法中,插入的抗原结合蛋白编码序列可操作地连接到安全港基因座中的内源启动子。在一些此类方法中,经修饰的安全港基因座对包括内源分泌信号和抗原结合蛋白的嵌合蛋白进行编码。

在一些此类方法中,安全港基因座是白蛋白基因座。任选地,抗原结合蛋白编码序列插入到白蛋白基因座的第一内含子中。

在一些此类方法中,抗原结合蛋白编码序列插入到动物的一个或多个肝细胞中的安全港基因座中。

在一些此类方法中,核酸酶试剂是锌指核酸酶(ZFN)、转录激活子样效应物核酸酶(TALEN)或成簇规律间隔短回文重复序列(CRISPR)相关(Cas)蛋白和向导RNA(gRNA)。任选地,核酸酶试剂是Cas蛋白和gRNA,其中Cas蛋白是Cas9蛋白,并且其中gRNA包括:(a)靶向靶位点的CRISPR RNA(crRNA),其中靶位点紧接着侧接有前间区序列邻近基序(PAM)序列;以及(b)反式激活CRISPR RNA(tracrRNA)。任选地,至少一种gRNA包括前三个5'和3'端RNA残基处的2'-O-甲基类似物和3'硫代磷酸酯核苷酸间键。

在一些此类方法中,抗原结合蛋白编码序列通过非同源末端接合插入。在一些此类方法中,外源供体核酸不包括同源臂。在一些此类方法中,抗原结合蛋白编码序列通过同源定向修复插入。在一些此类方法中,外源供体核酸是单链的。在一些此类方法中,外源供体核酸是双链的。

在一些此类方法中,外源供体核酸中的抗原结合蛋白编码序列每一侧上侧接有核酸酶试剂的靶位点,其中核酸酶试剂切割侧接抗原结合蛋白编码序列的靶位点。任选地,如果抗原结合蛋白编码序列以正确取向插入到安全港基因座中,则安全港基因座中的靶位点不再存在,但如果抗原结合蛋白编码序列以相反取向插入到安全港基因座中,则安全港基因座中的靶位点被重新形成。任选地,外源供体核酸通过腺相关病毒(AAV)介导的递送进行递送,并且侧接抗原结合蛋白编码序列的靶位点的切割去除AAV的反向末端重复序列。

在一些此类方法中,抗原结合蛋白是抗体、抗体的抗原结合片段、多特异性抗体、scFV、双-scFV、双抗体、三抗体、四抗体、V-NAR、VHH、VL、F(ab)、F(ab)2、双可变结构域抗原结合蛋白、单可变结构域抗原结合蛋白、双特异性T细胞衔接蛋白或戴维斯体(Davisbody)。在一些此类方法中,抗原结合蛋白不是单链抗原结合蛋白。任选地,抗原结合蛋白包括重链和单独的轻链,任选地其中重链编码序列包括VH、DH和JH区段,并且轻链编码序列包括VL和JL基因区段。在一些此类方法中,重链编码序列位于抗原结合蛋白编码序列中的轻链编码序列的上游。任选地,抗原结合蛋白编码序列包括轻链编码序列上游的外源分泌信号序列。在一些此类方法中,轻链编码序列位于抗原结合蛋白编码序列中的重链编码序列的上游。任选地,抗原结合蛋白编码序列包括重链编码序列上游的外源分泌信号序列。在一些此类方法中,外源分泌信号序列是ROR1分泌信号序列。

在一些此类方法中,抗原结合蛋白编码序列对由2A肽或内部核糖体进入位点(IRES)连接的重链和轻链进行编码。任选地,重链和轻链由2A肽连接。任选地,2A肽是T2A肽。

在一些此类方法中,疾病相关抗原是癌症相关抗原。在一些此类方法中,疾病相关抗原是传染病相关抗原,如细菌抗原。任选地,细菌抗原是铜绿假单胞菌(Pseudomonasaeruginosa)PcrV抗原。在一些此类方法中,疾病相关抗原是病毒抗原。任选地,病毒抗原是流感抗原或寨卡病毒(Zika)抗原。

在一些此类方法中,病毒抗原是流感血凝素抗原。任选地,抗原结合蛋白包括包含三个轻链CDR的轻链和包含三个重链CDR的重链,其中:(I)轻链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:18中所示的序列至少90%相同的序列,并且重链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:20中所示的序列至少90%相同的序列,任选地其中三个轻链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:76-78中所示的序列至少90%相同的序列,并且三个重链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:79-81中所示的序列至少90%相同的序列;或者(II)经修饰的安全港基因座包括与SEQ ID NO:120中所示的序列至少90%相同的编码序列;或者(III)轻链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:126中所示的序列至少90%相同的序列,并且重链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:128中所示的序列至少90%相同的序列,任选地其中三个轻链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:129-131中所示的序列至少90%相同的序列,并且三个重链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:132-134中所示的序列至少90%相同的序列;或者(IV)经修饰的安全港基因座包括与SEQ ID NO:146中所示的序列至少90%相同的编码序列。

在一些此类方法中,病毒抗原是寨卡病毒包膜(Env)抗原。任选地,抗原结合蛋白包括包含三个轻链CDR的轻链和包含三个重链CDR的重链,其中:(I)轻链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:3中所示的序列至少90%相同的序列,并且重链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:5中所示的序列至少90%相同的序列,任选地其中三个轻链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ IDNO:64-66中所示的序列至少90%相同的序列,并且三个重链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:67-69中所示的序列至少90%相同的序列;或者(II)经修饰的安全港基因座包括与SEQ ID NO:115中所示的序列至少90%相同的编码序列。任选地,抗原结合蛋白包括包含三个轻链CDR的轻链和包含三个重链CDR的重链,其中:(I)轻链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:13中所示的序列至少90%相同的序列,并且重链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:15中所示的序列至少90%相同的序列,任选地其中三个轻链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:70-72中所示的序列至少90%相同的序列,并且三个重链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:73-75中所示的序列至少90%相同的序列;或者(II)经修饰的安全港基因座包括与SEQ ID NO:116-119中的任一项所示的序列至少90%相同的编码序列。

在一些此类方法中,疾病相关抗原是细菌抗原。

在一些此类方法中,抗原结合蛋白是中和抗原结合蛋白或中和抗体。任选地,抗原结合蛋白是广泛中和抗原结合蛋白或广泛中和抗体。

在一些此类方法中,核酸酶试剂和外源供体核酸被引入单独的递送媒剂中。在一些此类方法中,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体核酸被引入单独的递送媒剂中。在一些此类方法中,核酸酶试剂和外源供体核酸被一起引入相同的递送媒剂中。在一些此类方法中,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体核酸被一起引入相同的递送媒剂中。在一些此类方法中,核酸酶试剂和外源供体核酸被同时引入。在一些此类方法中,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体核酸被同时引入。在一些此类方法中,核酸酶试剂和外源供体核酸被顺序地引入。在一些此类方法中,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体核酸被顺序地引入。在一些此类方法中,核酸酶试剂和外源供体核酸以单剂量引入。在一些此类方法中,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体核酸以单剂量引入。在一些此类方法中,核酸酶试剂和/或外源供体核酸以多剂量引入。在一些此类方法中,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸和/或外源供体核酸以多剂量引入。在一些此类方法中,核酸酶试剂和外源供体核酸通过静脉内注射进行递送。在一些此类方法中,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体核酸通过静脉内注射进行递送。

在一些此类方法中,核酸酶试剂和外源供体核酸通过脂质纳米颗粒介导的递送或通过腺相关病毒(AAV)介导的递送引入。任选地,核酸酶试剂和外源供体核酸两者均通过AAV介导的递送引入。任选地,核酸酶试剂和外源供体核酸通过多种不同的AAV载体(例如,通过两种不同的AAV载体)引入。任选地,AAV是AAV8或AAV2/8。在一些此类方法中,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体核酸通过脂质纳米颗粒介导的递送或通过腺相关病毒(AAV)介导的递送引入。任选地,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体核酸两者均通过AAV介导的递送引入。任选地,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体核酸通过多种不同的AAV载体(例如,通过两种不同的AAV载体)引入。任选地,AAV是AAV8或AAV2/8。在一些此类方法中,核酸酶试剂通过脂质纳米颗粒介导的递送引入。任选地,脂质纳米颗粒包括摩尔比为50:38.5:10:1.5的Dlin-MC3-DMA(MC3)、胆固醇、DSPC和PEG-DMG。在一些此类方法中,脂质纳米颗粒中的核酸酶试剂是成簇规律间隔短回文重复序列(CRISPR)相关9(Cas9)蛋白和向导RNA(gRNA)。任选地,Cas9呈mRNA形式,并且gRNA呈RNA形式。在一些此类方法中,核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸通过脂质纳米颗粒介导的递送引入。任选地,脂质纳米颗粒包括摩尔比为50:38.5:10:1.5的Dlin-MC3-DMA(MC3)、胆固醇、DSPC和PEG-DMG。在一些此类方法中,核酸酶试剂是成簇规律间隔短回文重复序列(CRISPR)相关9(Cas9)蛋白和向导RNA(gRNA)。任选地,脂质纳米颗粒中的Cas9呈mRNA形式,并且脂质纳米颗粒中的gRNA呈RNA形式。

在一些此类方法中,外源供体核酸通过AAV介导的递送引入。任选地,AAV是单链AAV(ssAAV)。任选地,AAV是自身互补型AAV(scAAV)。任选地,AAV是AAV8或AAV2/8。

在一些此类方法中,核酸酶试剂包括通过脂质纳米颗粒介导的递送引入的成簇规律间隔短回文重复序列(CRISPR)相关9(Cas9)编码mRNA和向导RNA(gRNA),并且外源供体核酸通过AAV8介导的递送或AAV2/8介导的递送引入。在一些此类方法中,核酸酶试剂包括成簇规律间隔短回文重复序列(CRISPR)相关9(Cas9)编码DNA和向导RNA(gRNA)编码DNA,其中Cas9编码DNA通过AAV8介导的递送引入第一AAV8中或者通过AAV2/8介导的递送引入第一AAV2/8中,并且gRNA编码DNA和外源供体核酸通过AAV8介导的递送引入第二AAV8中或者通过AAV2/8介导的递送引入第二AAV2/8中。在一些此类方法中,核酸酶试剂包括成簇规律间隔短回文重复序列(CRISPR)相关9(Cas9)和向导RNA(gRNA),其中所述方法包括通过脂质纳米颗粒介导的递送引入gRNA和对Cas9进行编码的mRNA,以及通过AAV8介导的递送或AAV2/8介导的递送引入外源供体核酸。在一些此类方法中,核酸酶试剂包括成簇规律间隔短回文重复序列(CRISPR)相关9(Cas9)和向导RNA(gRNA),其中所述方法包括通过AAV8介导的递送将对Cas9进行编码的DNA引入第一AAV8中或者通过AAV2/8介导的递送将其引入第一AAV2/8中,以及通过AAV8介导的递送将外源供体核酸和对gRNA进行编码的DNA引入第二AAV8中或者通过AAV2/8介导的递送将其引入第二AAV2/8中。

在一些此类方法中,抗原结合蛋白在动物中的表达导致在引入核酸酶试剂和外源供体序列后约2周、约4周或约8周的血浆水平为至少约2.5、至少约5、至少约10、至少约100、至少约200μg/mL、至少约300μg/mL、至少约400μg/mL或至少约500μg/mL。在一些此类方法中,抗原结合蛋白在动物中的表达导致在引入核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体序列后约2周、约4周、约8周、约12周或约16周的血浆水平为至少约2.5μg/mL、至少约5μg/mL、至少约10μg/mL、至少约100μg/mL、至少约200μg/mL、至少约300μg/mL、至少约400μg/mL、至少约500μg/mL、至少约600μg/mL、至少约700μg/mL、至少约800μg/mL、至少约900μg/mL或至少约1000μg/mL。

在一些此类方法中,动物是非人动物。任选地,动物是非人哺乳动物。任选地,非人哺乳动物是大鼠或小鼠。在一些此类方法中,动物是人。

在一些此类方法中,核酸酶试剂是成簇规律间隔短回文重复序列(CRISPR)相关9(Cas9)蛋白和向导RNA(gRNA),其中核酸酶试剂和外源供体序列通过脂质纳米颗粒介导的递送、腺相关病毒8(AAV8)介导的递送或AAV2/8介导的递送进行递送,其中抗原结合蛋白编码序列通过动物的一个或多个肝细胞中的非同源末端接合插入到内源白蛋白基因座的第一内含子中,其中所插入的抗原结合蛋白编码序列可操作地连接到内源白蛋白启动子,其中经修饰的白蛋白基因座对包括内源白蛋白分泌信号和抗原结合蛋白的嵌合蛋白进行编码,其中抗原结合蛋白靶向病毒抗原或细菌抗原,其中抗原结合蛋白是广泛中和抗体,并且其中抗原结合蛋白编码序列对由2A肽连接的重链和单独的轻链进行编码。任选地,重链编码序列位于抗原结合蛋白编码序列中的轻链编码序列的上游,其中抗原结合蛋白编码序列包括轻链编码序列上游的外源分泌信号序列,并且其中外源分泌信号序列是ROR1分泌信号序列。

在一些此类方法中,核酸酶试剂是成簇规律间隔短回文重复序列(CRISPR)相关9(Cas9)蛋白和向导RNA(gRNA),核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体序列通过脂质纳米颗粒介导的递送、腺相关病毒8(AAV8)介导的递送或AAV2/8介导的递送进行递送,抗原结合蛋白编码序列通过动物的一个或多个肝细胞中的非同源末端接合插入到内源白蛋白基因座的第一内含子中,插入的抗原结合蛋白编码序列可操作地连接到内源白蛋白启动子,经修饰的白蛋白基因座对包括内源白蛋白分泌信号和抗原结合蛋白的嵌合蛋白进行编码,抗原结合蛋白靶向病毒抗原或细菌抗原,抗原结合蛋白是广泛中和抗体,并且抗原结合蛋白编码序列对由2A肽连接的重链和单独的轻链进行编码。任选地,重链编码序列位于抗原结合蛋白编码序列中的轻链编码序列的上游,其中抗原结合蛋白编码序列包括轻链编码序列上游的外源分泌信号序列,并且其中外源分泌信号序列是ROR1分泌信号序列。

另一方面,提供了通过以上方法中的任何方法产生的动物。另一方面,提供了通过以上方法中的任何方法产生的细胞、经修饰的基因组或经修饰的安全港基因。另一方面,提供了包括整合到安全港基因座中的外源抗原结合蛋白编码序列的动物、细胞或基因组。

在一些此类动物、细胞或基因组中,插入的抗原结合蛋白编码序列可操作地连接到安全港基因座中的内源启动子。在一些此类动物、细胞或基因组中,经修饰的安全港基因座对包括内源分泌信号和抗原结合蛋白的嵌合蛋白进行编码。

在一些此类动物、细胞或基因组中,安全港基因座是白蛋白基因座。任选地,抗原结合蛋白编码序列插入到白蛋白基因座的第一内含子中。

在一些此类动物、细胞或基因组中,抗原结合蛋白编码序列插入到动物的一个或多个肝细胞中的安全港基因座中。

在一些此类动物、细胞或基因组中,抗原结合蛋白是抗体、抗体的抗原结合片段、多特异性抗体、scFV、双-scFV、双抗体、三抗体、四抗体、V-NAR、VHH、VL、F(ab)、F(ab)2、双可变结构域抗原结合蛋白、单可变结构域抗原结合蛋白、双特异性T细胞衔接蛋白或戴维斯体。任选地,抗原结合蛋白不是单链抗原结合蛋白。任选地,抗原结合蛋白包括重链和单独的轻链,任选地其中重链编码序列包括VH、DH和JH区段,并且轻链编码序列包括VL和JL基因区段。在一些此类动物、细胞或基因组中,重链编码序列位于抗原结合蛋白编码序列中的轻链编码序列的上游。任选地,抗原结合蛋白编码序列包括轻链编码序列上游的外源分泌信号序列。在一些此类动物、细胞或基因组中,轻链编码序列位于抗原结合蛋白编码序列中的重链编码序列的上游。任选地,抗原结合蛋白编码序列包括重链编码序列上游的外源分泌信号序列。在一些此类动物、细胞或基因组中,外源分泌信号序列是ROR1分泌信号序列。

在一些此类动物、细胞或基因组中,抗原结合蛋白编码序列对由2A肽或内部核糖体进入位点(IRES)连接的重链和轻链进行编码。任选地,重链和轻链由2A肽连接。任选地,2A肽是T2A肽。

在一些此类动物、细胞或基因组中,抗原结合蛋白靶向疾病相关抗原。在一些此类动物、细胞或基因组中,抗原结合蛋白在动物中的表达对动物的疾病具有预防或治疗作用。在一些此类动物、细胞或基因组中,疾病相关抗原是癌症相关抗原。在一些此类动物、细胞或基因组中,疾病相关抗原是传染病相关抗原。任选地,疾病相关抗原是病毒抗原。任选地,病毒抗原是流感抗原或寨卡病毒(Zika)抗原。

在一些此类动物、细胞或基因组中,病毒抗原是流感血凝素抗原。任选地,抗原结合蛋白包括包含三个轻链CDR的轻链和包含三个重链CDR的重链,其中:(I)轻链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:18中所示的序列至少90%相同的序列,并且重链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:20中所示的序列至少90%相同的序列,任选地其中三个轻链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:76-78中所示的序列至少90%相同的序列,并且三个重链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:79-81中所示的序列至少90%相同的序列;或者(II)经修饰的安全港基因座包括与SEQ ID NO:120中所示的序列至少90%相同的编码序列;或者(III)轻链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:126中所示的序列至少90%相同的序列,并且重链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:128中所示的序列至少90%相同的序列,任选地其中三个轻链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:129-131中所示的序列至少90%相同的序列,并且三个重链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:132-134中所示的序列至少90%相同的序列;或者(IV)经修饰的安全港基因座包括与SEQID NO:146中所示的序列至少90%相同的编码序列。

在一些此类动物、细胞或基因组中,病毒抗原是寨卡病毒包膜(Env)抗原。任选地,抗原结合蛋白包括包含三个轻链CDR的轻链和包含三个重链CDR的重链,其中:(I)轻链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:3中所示的序列至少90%相同的序列,并且重链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:5中所示的序列至少90%相同的序列,任选地其中三个轻链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:64-66中所示的序列至少90%相同的序列,并且三个重链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:67-69中所示的序列至少90%相同的序列;或者(II)经修饰的安全港基因座包括与SEQ ID NO:115中所示的序列至少90%相同的编码序列。在一些此类动物、细胞或基因组中,抗原结合蛋白包括包含三个轻链CDR的轻链和包含三个重链CDR的重链,其中:(I)轻链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:13中所示的序列至少90%相同的序列,并且重链包括以下、基本上由以下组成或由以下组成:与SEQ ID NO:15中所示的序列至少90%相同的序列,任选地其中三个轻链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:70-72中所示的序列至少90%相同的序列,并且三个重链CDR包括以下、基本上由以下组成或由以下组成:分别与SEQ ID NO:73-75中所示的序列至少90%相同的序列;或者(II)经修饰的安全港基因座包括与SEQ ID NO:116-119中的任一项所示的序列至少90%相同的编码序列。

在一些此类动物、细胞或基因组中,疾病相关抗原是细菌抗原。任选地,细菌抗原是铜绿假单胞菌PcrV抗原。

在一些此类动物、细胞或基因组中,抗原结合蛋白是中和抗原结合蛋白或中和抗体。任选地,抗原结合蛋白是广泛中和抗原结合蛋白或广泛中和抗体。

在一些此类动物、细胞或基因组中,抗原结合蛋白在动物中的表达导致在引入核酸酶试剂和外源供体序列后约2周、约4周或约8周的血浆水平为至少约2.5μg/mL、至少约5μg/mL、至少约10μg/mL、至少约100μg/mL、至少约200μg/mL、至少约300μg/mL、至少约400μg/mL或至少约500μg/mL。在一些此类动物、细胞或基因组中,抗原结合蛋白在动物中的表达导致在引入核酸酶试剂和外源供体序列后约2周、约4周、约8周、约12周或约16周的血浆水平为至少约2.5μg/mL、至少约5μg/mL、至少约10μg/mL、至少约100μg/mL、至少约200μg/mL、至少约300μg/mL、至少约400μg/mL、至少约500μg/mL、至少约600μg/mL、至少约700μg/mL、至少约800μg/mL、至少约900μg/mL或至少约1000μg/mL。在一些此类动物、细胞或基因组中,抗原结合蛋白在动物中的表达导致在引入核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体序列后约2周、约4周或约8周的血浆水平为至少约2.5μg/mL、至少约5μg/mL、至少约10μg/mL、至少约100μg/mL、至少约200μg/mL、至少约300μg/mL、至少约400μg/mL或至少约500μg/mL。在一些此类动物、细胞或基因组中,抗原结合蛋白在动物中的表达导致在引入核酸酶试剂或对核酸酶试剂进行编码的一个或多个核酸以及外源供体序列后约2周、约4周、约8周、约12周或约16周的血浆水平为至少约2.5μg/mL、至少约5μg/mL、至少约10μg/mL、至少约100μg/mL、至少约200μg/mL、至少约300μg/mL、至少约400μg/mL、至少约500μg/mL、至少约600μg/mL、至少约700μg/mL、至少约800μg/mL、至少约900μg/mL或至少约1000μg/mL。

在一些此类动物、细胞或基因组中,动物是非人动物。任选地,动物是非人哺乳动物。任选地,非人哺乳动物是大鼠或小鼠。在一些此类动物、细胞或基因组中,动物是人。

在一些此类动物、细胞或基因组中,抗原结合蛋白编码序列插入到动物的一个或多个肝细胞中的内源白蛋白基因座的第一内含子中,其中所插入的抗原结合蛋白编码序列可操作地连接到内源白蛋白启动子,其中经修饰的白蛋白基因座对包括内源白蛋白分泌信号和抗原结合蛋白的嵌合蛋白进行编码,其中抗原结合蛋白靶向病毒抗原或细菌抗原,其中抗原结合蛋白是广泛中和抗体,并且其中抗原结合蛋白编码序列对由2A肽连接的重链和单独的轻链进行编码。任选地,重链编码序列位于抗原结合蛋白编码序列中的轻链编码序列的上游,其中抗原结合蛋白编码序列包括轻链编码序列上游的外源分泌信号序列,并且其中外源分泌信号序列是ROR1分泌信号序列。

另一方面,提供了包括用于插入到安全港基因座中的抗原结合蛋白编码序列的外源供体核酸。另一方面,提供了包括整合到安全港基因中的抗原结合蛋白的编码序列的安全港基因。另一方面,提供了用于产生经修饰的安全港基因的方法,所述方法包括使安全港基因与靶向安全港基因中的靶位点的核酸酶试剂和包括抗原结合蛋白编码序列的外源供体核酸接触,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到安全港基因中以产生经修饰的安全港基因。另一方面,提供了用于产生经修饰的安全港基因的方法,所述方法包括使安全港基因与包括抗原结合蛋白编码序列的外源供体核酸接触,其中抗原结合蛋白编码序列插入到安全港基因中以产生经修饰的安全港基因。

附图说明

图1(未按比例)示出了将抗体基因插入到内源白蛋白基因座的第一内含子中的通用示意图。SD是指剪接供体位点,SA是指来自小鼠白蛋白基因的第一内含子的剪接受体位点,LC是指(例如,抗寨卡病毒REGN4504的)抗体轻链,HC是指(例如,抗寨卡病毒REGN4504的)抗体重链,mAlbss是指由内源白蛋白基因的外显子1编码的白蛋白分泌信号肽,ss是指小鼠Ror1信号肽;sWPRE是指土拨鼠肝炎病毒转录后调节元件,PolyA是指SV40 polyA序列,并且2A是指来自猪捷申病毒-1的2A自切割肽(P2A)。

图2示出了用于测试在通过脂质纳米颗粒(LNP)将Cas9 mRNA和白蛋白靶向gRNA(向导RNA 1第1版(N-Cap)或第2版)递送到小鼠肝脏和递送AAV2/8AlbSA 4504抗寨卡病毒抗体供体序列(由P2A自切割肽连接的轻链和重链)后将抗寨卡病毒抗体插入到小鼠白蛋白基因座的第一内含子中的实验设计。

图3示出了在共注射包括Cas9 mRNA和白蛋白靶向gRNA(向导RNA 1第1版(N-Cap)或第2版)的LNP与AAV2/8AlbSA 4504抗寨卡病毒抗体供体序列后7天(第1周)、14天(第2周)和28天(第4周)通过ELISA测量的REGN4504抗寨卡病毒抗体(整合型AAV)在来自小鼠的血浆样品中的表达。y轴示出了hIgG浓度。

图4示出了在注射Cas9-gRNA LNP和AAV2/8AlbSA 4504抗寨卡病毒抗体供体序列后四周抽取的血浆样品中的寨卡病毒中和测定结果。还示出了阳性对照抗体(REGN4504抗寨卡病毒抗体)的结果。

图5示出了由整合型AAV产生的抗体的蛋白质印迹分析。#15是注射了具有Cas9mRNA和向导RNA 1v1的LNP的小鼠之一。#17是注射了具有Cas9 mRNA和向导RNA 1v2的LNP的小鼠之一。

图6示出了同源非依赖性靶向插入介导的单向AAV-REGN4446靶向插入到小鼠白蛋白基因座的内含子1中的示意图。hU6 gRNA1是由人U6启动子驱动的向导RNA 1v1的表达盒。SA是指来自小鼠白蛋白基因的第一内含子的剪接受体,HC是指抗寨卡病毒REGN4446的重链,弗林蛋白酶(furin)是指弗林蛋白酶切割位点,2A是指2A自切割肽(测试了来自口蹄疫病毒18(F2A)、猪捷申病毒-1(P2A)和明脉扁刺蛾病毒(T2A)的2A),Ss是指信号序列(此实例中测试了小鼠白蛋白信号序列和小鼠Ror1信号序列),LC是指抗寨卡病毒REGN4446的轻链,WPRE是指土拨鼠肝炎病毒转录后调节元件,并且PolyA是指牛生长激素polyA序列。AAV被注射到Cas9就绪小鼠中。

图7示出了用于测试在通过如图6中所示的AAV2/8将白蛋白靶向gRNA(gRNA 1v1)抗寨卡病毒(REGN4446)抗体供体序列递送到Cas9就绪小鼠后将抗寨卡病毒抗体(REGN4446)插入到小鼠白蛋白基因座的第一内含子中的实验设计。病毒经静脉内注射到Cas9就绪小鼠中。在第10天、第28天和第56天收集血清用于抗体滴度、结合和功能测定。在第70天杀死小鼠用于插入率和mRNA水平测量。

图8示出了在注射对白蛋白靶向gRNA(gRNA 1v1)进行编码的AAV和各种抗寨卡病毒(REGN4446)抗体供体序列后的第10天、第28天和第56天4446抗寨卡病毒抗体(整合型AAV)在来自Cas9就绪小鼠的血浆样品中的表达。示出了附加型AAV(CMV和CASI)和整合型AAV(F2A/Albss、P2A/Albss、T2A/Albss和T2A/RORss)的结果。

图9示出了从附加型AAV(CMV LC T2A RORss HC;CASI HC T2A RORss LC)或整合型AAV(gRNA1v1 HC T2A RORss LC)表达的抗体的蛋白质印迹分析。

图10示出了从附加型AAV(CMV LC T2A RORss HC;CASI HC T2A RORss LC)或整合型AAV(gRNA1v1 HC F2A Albss LC;gRNA1 HC P2A Albss LC;gRNA1 HC T2A Albss LC;gRNA1 HC T2A RORss Lc;和gRNA1 HC T2A LC)表达的抗体的结合能力(与寨卡病毒包膜蛋白的结合)。还示出了阳性对照抗体(REGN4446抗寨卡病毒抗体)的结果。

图11示出了从附加型AAV(CMV LC T2A RORss HC;CASI HC T2A RORss LC)或整合型AAV(gRNA1v1 HC F2A Albss LC;gRNA1 HC P2A Albss LC;gRNA1 HC T2A Albss LC;gRNA1 HC T2A RORss LC;和gRNA1 HC T2ALC)表达的抗体的中和测定结果(寨卡病毒感染)。还示出了阳性对照抗体(REGN4446抗寨卡病毒抗体)的结果。

图12A示出了在注射附加型AAV(CMV LC T2A RORss HC;CASI HC T2A RORss LC)或整合型AAV(F2A/Albss;P2A/Albss;T2A/Albss;和T2A/RORss)后Cas9就绪小鼠的肝脏的插入缺失率。

图12B示出了通过TAQMAN qPCR测量的从Cas9就绪小鼠的肝脏中的附加型AAV(CMVLC T2A RORss HC;CASI HC T2A RORss LC)或整合型AAV(F2A/Albss;P2A/Albss;T2A/Albss;和T2A/RORss)表达的抗体(mAlb-REGN4446)的mRNA水平。

图13示出了携带Cas9表达盒和gRNA表达盒两者的AAV的基因组结构。

图14示出了在注射携带由四种不同启动子驱动的tRNAGln gRNA(靶向靶基因1)和Cas9的AAV2/8病毒之前和之后(注射后35天)的血清靶蛋白1水平。

图15示出了注射了一种携带Cas9并且另一种携带gRNA和插入模板的两种AAV的小鼠体内的抗体水平。该图示出了在注射一种对白蛋白靶向gRNA(gRNA1 v1)和抗寨卡病毒(REGN4446)抗体供体序列(T2A/RORss)进行编码并且另一种携带由SerpinAP启动子驱动的Cas9序列的两种AAV后的第11天和第28天4446抗寨卡病毒抗体(整合型AAV)在来自C57BL/6小鼠的血清样品中的表达。示出了每只小鼠在两种不同病毒基因组水平(双低和双高)下的附加型AAV(CASI HC T2A RORss LC)和整合型AAV的结果。在仅向导组中,没有递送携带Cas9序列的AAV,因此没有发生整合。

图16示出了从附加型AAV或整合型AAV(双AAV实验)表达的中和测定结果(寨卡病毒感染)。

图17示出了用于测试在通过脂质纳米颗粒(LNP)将Cas9 mRNA和白蛋白靶向gRNA(gRNA1v1)递送到小鼠肝脏和递送AAV2/8AlbSA 3263抗HA抗体供体序列(由P2A自切割肽连接的轻链和重链)后将抗HA(流感血凝素)抗体插入到小鼠白蛋白基因座的第一内含子中的实验设计。

图18示出了注射后第11天、第28天、第42天、第56天和第118天注射了一种携带Cas9并且另一种携带gRNA和插入模板的两种AAV的小鼠中小鼠血清的循环抗体水平。示出了附加型表达和Cas9介导的整合的比较。来自C57BL/6小鼠实验的结果在左侧分图中示出,并且来自BALB/c小鼠实验的结果在右侧分图中示出。

图19示出了从附加型AAV或整合型AAV(双AAV实验)表达的抗体的结合能力(与寨卡病毒包膜蛋白的结合)。实心圆圈和菱形表示C57BL/6小鼠中的实验,并且空心圆圈和菱形表示BALB/c小鼠中的实验。还示出了将阳性对照抗体(REGN4446抗寨卡病毒抗体)掺入到初始小鼠血清中的结果。

图20示出了用于测试将抗寨卡病毒抗体插入到小鼠白蛋白基因座的第一内含子中的实验设计,其包含对滴度、结合、抗体质量和中和的测定。还示出了在此实验中共同递送的两个AAV的基因组结构。

图21示出了在C57BL/6小鼠和BALB/c小鼠中从附加型AAV或整合型AAV(双AAV实验)表达的抗体的中和测定结果(寨卡病毒感染)。还示出了将阳性对照抗体(REGN4446抗寨卡病毒抗体)掺入到初始小鼠血清中的结果。

图22示出了从附加型AAV或整合型AAV(双AAV实验)表达的抗体的体内寨卡病毒激发实验设计。

图23示出了在寨卡病毒激发前一天用以下处理的小鼠中的hIgG血清水平:(1)PBS(盐水);(2)AAV2/8,用于附加地表达脱靶对照抗体(CAG HC T2A RORss LC)(非寨卡病毒mAB);(3)低剂量(1.0E+11VG/小鼠)或(4)高剂量(5.0E+11VG/小鼠)的AAV2/8,用于附加地表达REGN4446抗寨卡病毒抗体(CASI HC_T2A_RORss_LC)(分别为附加型-低剂量和附加型-高剂量);(5)低剂量(5E+11VG/小鼠/载体)或(6)高剂量(1E+12Vg/小鼠/载体)的两种AAV,一种携带gRNA1和REGN4446 mAb表达盒(HC_T2A_RORss_LC)并且第二种携带由serpinAP启动子驱动的Cas9盒(分别为插入型-低和插入型-高);或(7)200μg CHO纯化REGN4446抗寨卡病毒mAB(CHO纯化)。

图24A示出了具有与图23中的组相同但还包含未感染的对照的寨卡病毒激发实验的结果(存活百分比)。

图24B示出了与图24A相同的数据,但是按滴度重新排列。图顶部的表格中的数值是用寨卡病毒激发前一天测量的以μg/mL为单位的单克隆抗体水平,并且编码是递送mAB模板的AAV类型(单AAV用于附加型表达或双AAV用于Cas9介导的整合,并且低剂量或高剂量用于任一种)。

图25示出了用以下处理的小鼠中的hIgG血清水平:(1)PBS(盐水);(2)REGN4446抗寨卡病毒(CASI HC_T2A_RORss_LC)(附加型-第5天-抗寨卡病毒);(3)H1H29339P抗PcrV(CAG HC_T2A_RORss_LC)(附加型-第5天-抗PcrV);(4)H1H11829N2抗HA(CAG LC_T2A_RORss_HC)(附加型-第5天-抗HA);(5)H1H29339P抗PcrV(HC_T2A_RORss_LC)(插入型-第12天-抗PcrV);或(6)H1H11829N2抗HA(LC_T2A_RORss_HC)(插入型-第12天-抗HA)。附加型AAV实验在C57BL/6小鼠中进行,并且插入实验在Cas9就绪小鼠中进行。

图26示出了从附加型AAV(CAG HC_T2A_RORss_LC)或整合型AAV(HC_T2A_RORss_LC)表达的抗PcrV抗体的结合能力(与PcrV蛋白结合)。还示出了经纯化的阳性对照抗体(H1H29339P抗PcrV抗体)的结果。附加型抗寨卡病毒抗体用作阴性对照。

图27示出了细胞毒性测定结果。铜绿假单胞菌菌株6077PcrV介导的细胞毒性作用由从附加型AAV(CAG HC_T2A_RORss_LC)或整合型AAV(HC_T2A_RORss_LC)表达的抗PcrV抗体中和。示出了在PBS或初始小鼠血清中稀释的CHO纯化抗PcrV抗体的结果以供比较。从附加型AAV(CASI HC_T2A_RORss_LC)表达的抗寨卡病毒抗体用作阴性对照。

图28示出了从附加型AAV(CAG LC_T2A_RORss_HC)或整合型AAV(LC_T2A_RORss_HC)表达的抗体的结合能力(与HA蛋白结合)。还示出了经纯化的阳性对照抗体(H1H11829N2抗HA抗体)的结果。附加型抗寨卡病毒抗体用作阴性对照。

图29示出了中和测定结果。流感毒株H1N1 A/PR/8/1934由从附加型AAV(CAG LC_T2A_RORss_HC)或整合型AAV(LC_T2A_RORss_HC)表达的抗HA抗体中和。还示出了经纯化的阳性对照抗体(H1H11829N2抗HA抗体)的结果。经纯化的抗Feld1抗体和血清单独用作阴性对照。

图30示出了从附加型AAV或整合型AAV(双AAV实验)表达的抗体的体内假单胞菌激发实验设计。

图31示出了在用以下处理小鼠前九天(在用假单胞菌激发前7天)注射了AAV的C57BL/6和BALB/c小鼠的hIgG滴度:(1)PBS;(2)AAV2/8,用于附加地表达同种型对照抗体H1H11829N2抗HA(CAG LC_T2A_RORss_HC)(抗HA);(3)低剂量(1.0E+10VG/小鼠)或(4)高剂量(1.0E+11VG/小鼠)的AAV2/8,用于附加地表达H1H29339P抗PcrV抗体(CAG HC_T2A_RORss_LC)(分别为附加型-低和附加型-高),(5)低剂量(1E+11VG/小鼠/载体)或(6)高剂量(1E+12Vg/小鼠/载体)的两种AAV,一种携带gRNA1和H1H29339P抗PcrV mAb表达盒(HC_T2A_RORss_LC)并且第二种携带由serpinAP启动子驱动的Cas9盒(分别为插入型-低和插入型-高),或(7)低剂量(0.2mg/kg)或(8)高剂量(1.0mg/kg)的CHO纯化的H1H29339P抗PcrV mAB(分别为0.2mpk CHO和1.0mpk CHO)。

图32A示出了C57BL/6小鼠中具有图31中的附加型-低(CAG低)、附加型-高(CAG高)、插入型-低(KI低)和插入型-高(KI高)组并且还包含未感染对照、无保护仅细菌对照和无保护同种型对照的假单胞菌激发实验的结果(存活百分比)。

图32B示出了BALB/c小鼠中具有图31中的附加型-低(CAG低)、附加型-高(CAG高)、插入型-低(KI低)和插入型-高(KI高)组并且还包含未感染对照、无保护仅细菌对照和无保护同种型对照的假单胞菌激发实验的结果(存活百分比)。

定义

本文可互换使用的术语“蛋白质”、“多肽”、和“肽”包含任何长度的聚合形式的氨基酸,包含编码氨基酸和非编码氨基酸以及经化学或生物化学修饰或衍生的氨基酸。这些术语还包含已经修饰的聚合物,如具有经修饰的肽主链的多肽。术语“结构域”是指具有特定功能或结构的蛋白质或多肽的任何部分。

本文可互换使用的术语“核酸”和“多核苷酸”包含任何长度的聚合形式的核苷酸,包含核糖核苷酸、脱氧核糖核苷酸或其类似物或经修饰的版本。所述核苷酸包含单链、双链和多链DNA或RNA、基因组DNA、cDNA、DNA-RNA杂交体和包括嘌呤碱基、嘧啶碱基或其它天然的、经化学修饰的、经生物化学修饰的、非天然的或衍生的核苷酸碱基的聚合物。

术语“基因组整合的”是指已被引入到细胞中使得核苷酸序列整合到细胞的基因组中的核酸。可以使用任何方案用于将核酸稳定地掺入到细胞的基因组中。

术语“表达载体”或“表达构建体”或“表达盒”是指含有期望编码序列的重组核酸,所述期望编码序列可操作地连接到在特定宿主细胞或生物体中表达可操作地连接的编码序列所必需的适当核酸序列。在原核生物中表达所必需的核酸序列通常包含启动子、操纵子(任选的)和核糖体结合位点以及其它序列。众所周知,真核细胞利用启动子、增强子以及终止信号和多聚腺苷酸化信号,但是在不牺牲必要表达的情况下可以删除一些元素并添加其它元素。

术语“靶向载体”是指可以通过同源重组、非同源末端接合介导的连结或任何其它重组方式引入到细胞基因组中的靶位置的重组核酸。

术语“病毒载体”是指包含至少一种病毒来源元素并包含足以或允许包装成病毒载体颗粒的元素的重组核酸。载体和/或颗粒可以用于在体外、离体或在体内将DNA、RNA或其它核酸转移到细胞中的目的。许多形式的病毒载体是已知的。

关于细胞、组织(例如,肝脏样品)、蛋白质和核酸的术语“分离”包含相对于其它细菌、病毒、细胞或通常可能原位存在的其它组分而言相对纯化的细胞、组织(例如,肝脏样品)、蛋白质和核酸,直至并包含细胞、组织(例如,肝脏样品)、蛋白质和核酸的基本上纯的制剂。术语“分离”还包含不具有天然存在的对应物、已经被化学合成并且因此基本上未被其它细胞、组织(例如,肝脏样品)、蛋白质和核酸污染或者已经从其天然伴随的大多数其它组分(例如,细胞组分)(例如,其它细胞蛋白,多核苷酸或细胞组分)中分离或纯化细胞、组织(例如,肝脏样品)、蛋白质和核酸。

术语“野生型”包含具有如在正常(与突变、患病、改变等相比)状态或情况下发现的结构和/或活性的实体。野生型基因和多肽通常以多种不同形式(例如,等位基因)存在。

术语“内源序列”是指天然存在于细胞或动物体内的核酸序列。例如,动物的内源白蛋白序列是指天然存在于动物的白蛋白基因座处的自然白蛋白序列。

“外源”分子或序列包含通常不以所述形式存在于细胞中的分子或序列。正常存在包含关于细胞的特定发育阶段和环境条件的存在。例如,外源分子或序列可以包含细胞内对应的内源序列的突变版本,如内源序列的人源化版本,或者可以包含与细胞内的内源序列相对应但形式不同(即,不在染色体内)的序列。相比之下,内源分子或序列包含在特定环境条件下在特定发育阶段在特定细胞中通常以所述形式存在的分子或序列。

当在核酸或蛋白质的上下文中使用时,术语“异源”指示核酸或蛋白质包括至少两个在同一分子中不天然存在的区段。例如,当关于核酸区段或蛋白质区段使用时,术语“异源”指示核酸或蛋白质包括在自然界中未发现彼此之间有相同关系(例如,连接在一起)的两个或更多个子序列。作为一个实例,核酸载体的“异源”区域是在自然界中未发现与另一分子相关联的另一个核酸分子内或与其相连的核酸区段。例如,核酸载体的异源区域可以包含侧接有在自然界中未发现与编码序列相关联的序列的编码序列。同样地,蛋白质的“异源”区域是在自然界中未发现与其它肽分子相关联的另一个肽分子(例如,融合蛋白或带有标签的蛋白质)内或与其相连的氨基酸区段。类似地,核酸或蛋白质可以包括异源标记或异源分泌或定位序列。

“密码子优化”利用密码子的简并性,如通过指定氨基酸的三碱基对密码子组合的多样性所展示的,并且通常包含通过用宿主细胞的基因中更频繁或最频繁使用的密码子替换自然序列的至少一个密码子同时保持自然氨基酸序列来修饰核酸序列以在特定宿主细胞中增强表达的过程。例如,可以修饰对Cas9蛋白进行编码的核酸以取代与天然存在的核酸序列相比在包含细菌细胞、酵母细胞、人细胞、非人细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、仓鼠细胞或任何其它宿主细胞的给定原核或真核细胞中具有更高使用频率的密码子。密码子使用表例如在“密码子使用数据库”中很容易获得。这些表可以通过多种方式进行调整。参见Nakamura等人(2000)《核酸研究(Nucleic Acids Research)》28:292,所述文献出于所有目的通过引用整体并入本文。还可获得用于在特定宿主中表达的特定序列的密码子优化的计算机算法(参见例如《基因伪造(Gene Forge)》)。

术语“基因座”是指基因(或重要序列)、DNA序列、多肽编码序列的具体位置,或生物体基因组的染色体上的位置。例如,“白蛋白基因座”可以指白蛋白基因、白蛋白DNA序列、白蛋白编码序列的具体位置或白蛋白在已经被鉴定为这种序列所在的生物体基因组的染色体上位置。“白蛋白基因座”可以包括白蛋白基因的调节元件,包含例如增强子、启动子、5'和/或3'非翻译区(UTR)或其组合。

术语“基因”是指染色体中的DNA序列,所述染色体如果天然存在可以含有至少一个编码区和至少一个非编码区。染色体中编码产物(例如但不限于RNA产物和/或多肽产物)的DNA序列可以包含被非编码内含子中断的编码区和在5'和3'端两者上邻近编码区定位使得基因对应于全长mRNA的序列(包含5'和3'非翻译序列)。另外,其它非编码序列,包含调节序列(例如但不限于启动子、增强子和转录因子结合位点)、聚腺苷酸化信号、内部核糖体进入位点、沉默子、绝缘序列和基质附着区可以存在于基因中。这些序列可以接近基因的编码区(例如但不限于在10kb内)或位于远处位点,并且这些序列会影响基因的转录和翻译水平或速率。

术语“等位基因”是指基因的变体形式。一些基因具有多种不同的形式,其位于染色体上的相同位置或遗传位点。二倍体生物在每个基因座处有两个等位基因。每对等位基因表示具体基因座的基因型。如果在特定基因座处有两个相同的等位基因,则基因型被描述为纯合的,如果两个等位基因不同,则基因型被描述为杂合的。

“启动子”是DNA的调节区域,其通常包括能够指导RNA聚合酶II在特定多核苷酸序列的适当转录起始位点处引发RNA合成的TATA盒。启动子可以另外包括影响转录起始速率的其它区域。本文所公开的启动子序列调节可操作地连接的多核苷酸的转录。启动子可以在本文所公开的细胞类型(例如,真核细胞、非人哺乳动物细胞、人细胞、啮齿动物细胞、多能细胞、单细胞阶段胚胎、分化细胞或其组合)中的一种或多种细胞类型中具有活性。启动子可以是例如组成型活性启动子、条件型启动子、诱导型启动子、时间受限启动子(例如,发育调节启动子)或空间受限启动子(例如,细胞特异性或组织特异性启动子)。启动子的实例可以例如在WO 2013/176772中找到,所述文献出于所有目的通过引用整体并入本文。

组成型启动子是在所有发育阶段的所有组织或特定组织中都具有活性的启动子。组成型启动子的实例包含人巨细胞病毒即刻早期(hCMV)启动子、小鼠巨细胞病毒即刻早期(mCMV)启动子、人延伸因子1α(hEF1α)启动子、小鼠延伸因子1α(mEF1α)启动子、小鼠磷酸甘油酸激酶(PGK)启动子、鸡β肌动蛋白杂合(CAG或CBh)启动子、SV40早期启动子和β2微管蛋白启动子。

诱导型启动子的实例包含例如化学调节启动子和物理调节启动子。化学调节启动子包含例如醇调节启动子(例如,醇脱氢酶(alcA)基因启动子)、四环素调节启动子(例如,四环素反应性启动子、四环素操纵子序列(tetO)、tet-On启动子或tet-Off启动子)、类固醇调节启动子(例如,大鼠糖皮质激素受体、雌激素受体启动子或蜕皮激素受体启动子)或金属调节启动子(例如,金属蛋白启动子)。物理调节启动子包含例如温度调节启动子(例如,热休克启动子)和光调节启动子(例如,光诱导型启动子或光抑制型启动子)。

组织特异性启动子可以是例如神经元特异性启动子、神经胶质特异性启动子、肌肉细胞特异性启动子、心脏细胞特异性启动子、肾细胞特异性启动子、骨细胞特异性启动子、内皮细胞特异性启动子或免疫细胞特异性启动子(例如,B细胞启动子或T细胞启动子)。

发育调节启动子包含例如仅在胚胎发育阶段或仅在成体细胞中具有活性的启动子。

“可操作的连接”或“可操作地连接”包含将两种或多种组分(例如,启动子和另一种序列元件)并置使得两种组分正常发挥功能,并使得至少一种组分能够介导施加在至少一种其它组分上的功能。例如,如果启动子响应于存在或不存在一种或多种转录调节因子而控制编码序列的转录水平,则可以将所述启动子可操作地连接到编码序列。可操作的连接可以包含此类彼此邻接或以反式作用的序列(例如,调节序列可以在一定距离处起作用以控制编码序列的转录)。

核酸的“互补性”意指一条核酸链中的核苷酸序列由于其核碱基的取向而与相对核酸链上的另一序列形成氢键。DNA中的互补碱基通常是A与T和C与G。在RNA中,所述互补碱基通常是C与G和U与A。互补可以是完全互补,也可以是基本互补/充分互补。两个核酸之间的完全互补意指两个核酸可以形成双链体,其中双链体中的每个碱基通过沃森-克里克(Watson-Crick)配对与互补碱基键合。“基本”或“充分”互补意指一条链中的序列与相对链中的序列不完整和/或不完全互补,但两条链上的碱基之间发生充分键合以在设定杂交条件(例如,盐浓度和温度)下形成稳定的杂交复合物。此类条件可以通过使用序列和标准数学计算来预测杂交链的Tm(熔融温度),或者通过使用常规方法通过Tm经验确定来预测。Tm包含两条核酸链之间形成的杂交复合物群体50%变性(即,双链核酸分子群体半解离成单链)时的温度。在低于Tm的温度下,有利于杂交复合物的形成,而在高于Tm的温度下,有利于杂交复合物中的链的熔融或分离。可以通过使用例如Tm=81.5+0.41(%G+C)来估计在1MNaCl水溶液中具有已知G+C含量的核酸的Tm,但是其它已知的Tm计算考虑了核酸结构特性。

杂交要求两个核酸含有互补序列,但是碱基之间有可能错配。两个核酸之间杂交的适当条件取决于核酸的长度和互补程度,这些变量是众所周知的。两个核苷酸序列之间的互补程度越大,具有这些序列的核酸杂交体的熔融温度(Tm)的值就越大。对于具有较短互补段(例如,在35个或更少、30个或更少、25个或更少、22个或更少、20个或更少或18个或更少的核苷酸上互补)的核酸之间的杂交,错配位置变得尤为重要(参见Sambrook等人,同上,11.7-11.8)。通常,可杂交核酸的长度为至少约10个核苷酸。可杂交核酸的说明性最小长度包含至少约15个核苷酸、至少约20个核苷酸、至少约22个核苷酸、至少约25个核苷酸和至少约30个核苷酸。此外,可以根据如互补区域的长度和互补程度等因素根据需要调整温度和洗涤溶液盐浓度。

多核苷酸序列不必与其可特异性杂交的靶核酸具有100%互补性。此外,多核苷酸可以在一个或多个区段上杂交,使得中间或邻近区段不参与杂交事件(例如,环结构或发夹结构)。多核苷酸(例如,gRNA)可以与其所靶向的靶核酸序列内的靶区域具有至少70%、至少80%、至少90%、至少95%、至少99%或100%的序列互补性。例如,20个核苷酸中有18个核苷酸与靶区域互补并因此特异性杂交的gRNA将表示90%互补。在此实例中,剩余的非互补核苷酸可以与互补核苷酸聚集或穿插在一起,并且不必彼此邻接或与互补核苷酸邻接。

核酸内特定核酸序列段之间的互补百分比可以通过以下常规地确定:使用BLAST程序(基本局部比对搜索工具)和PowerBLAST程序(Altschul等人(1990)《分子生物学杂志(J.Mol.Biol.)》215:403-410;Zhang和Madden(1997)《基因组研究(Genome Res.)》7:649-656)或使用Gap程序(威斯康星州麦迪逊大学研究园(University Research Park,MadisonWis.),遗传学计算机组,Unix第8版,威斯康星序列分析包),所述程序使用默认设置,使用史密斯-沃特曼(Smith and Waterman)算法(《应用数学进展(Adv.Appl.Math.)》,1981,2,482-489)。

本文所提供的方法和组合物采用多种不同的组分。贯穿说明书的一些组分可以具有活性变体和片段。此类组分包含例如Cas蛋白、CRISPR RNA、tracrRNA和向导RNA。这些组分中的每种组分的生物活性在本文别处进行描述。术语“功能性”是指蛋白质或核酸(或其片段或变体)表现出生物活性或功能的先天能力。此类生物活性或功能可以包含例如Cas蛋白与向导RNA和靶DNA序列结合的能力。与原始分子相比,功能性片段或变体的生物学功能可以相同或实际上可以改变(例如,关于其特异性或选择性或功效)但保留分子的基本生物学功能。

术语“变体”是指与群体中最普遍的序列不同的核苷酸序列(例如,相差一个核苷酸)或与群体中最普遍的序列不同的蛋白质序列(例如,相差一个氨基酸)。

当提及蛋白质时,术语“片段”意指比全长蛋白质更短或具有更少氨基酸的蛋白质。当提及核酸时,术语“片段”意指比全长核酸更短或具有更少核苷酸的核酸。当提及蛋白质片段时,片段可以是例如N端片段(即,去除蛋白质的C末端的一部分)、C端片段(即,去除蛋白质的N末端的一部分)或内部片段(即,去除蛋白质的N末端和C末端中的每个末端的一部分)。当提及核酸片段时,片段可以是例如5'片段(即,去除核酸的3'端的一部分)、3'片段(即,去除核酸的5'端的一部分)或内部片段(即,去除核酸的5'端和3'端中的每个段的一部分)。

在两个多核苷酸或多肽序列的上下文中,“序列同一性”或“同一性”是指当在指定的比较窗口上针对最大对应性进行比对时两个序列中相同的残基。当提及蛋白质的序列同一性的百分比时,不相同的残基位置通常因保守性氨基酸取代而不同,其中氨基酸残基被具有相似化学性质(例如,电荷或疏水性)的其它氨基酸残基取代,并且因此不改变分子的功能性质。当序列的保守性取代不同时,可以将百分比序列同一性向上调整以校正取代的保守性质。因此类保守性取代而不同的序列被视为具有“序列相似性”或“相似性。”用于进行这种调整的方法是众所周知的。通常,这涉及将保守性取代计为部分错配而不是完全错配,从而增加百分比序列同一性。因此,例如,当相同氨基酸的所得评分为1,非保守性取代的所得评分为零时,保守性取代的所得评分介于零与1之间。例如,通过在项目PC/GENE(加利福尼亚州山景城的Intelligenetics公司(Intelligenetics,Mountain View,California))中的实施方式计算保守性取代的评分。

“序列同一性的百分比”包含指通过在比较窗口上比较两个最佳比对序列确定的值(完全匹配残基的最大数量),其中在比较窗口中的多核苷酸序列部分与参考序列(不包括添加物或缺失部分)相比可以包括添加物或缺失部分(即缺口),以实现两个序列的最佳比对。通过确定在两个序列中出现相同核酸碱基或氨基酸残基的位置数计算百分比来得到匹配位置数,用匹配位置数除以比较窗口中的位置总数,并将结果乘以100以得到序列同一性的百分比。除非另有说明(例如较短的序列包含连接的异源序列),否则所述比较窗口为两个所比较序列中较短序列的全长。

除非另有说明,否则序列同一性/相似性值包含使用以下参数使用第10版GAP获得的值:使用GAP权重50和长度权重3以及nwsgapdna.cmp评分矩阵的核苷酸序列的同一性百分比和相似性百分比;使用GAP权重8和长度权重2以及BLOSUM62评分矩阵的氨基酸序列的同一性百分比和相似性百分比;或其任何等效程序。“等效程序”包含当与第10版GAP生成的对应比对进行比较时针对所讨论的任何两个序列产生具有相同核苷酸或氨基酸残基匹配和相同百分比序列同一性的比对的任何序列比较程序。

术语“保守性氨基酸取代”是指用具有相似大小、电荷或极性的不同氨基酸取代序列中正常存在的氨基酸。保守性取代的实例包含用如异亮氨酸、缬氨酸或亮氨酸等非极性(疏水性)残基取代另一种非极性残基。同样地,保守性取代的实例包含用一种极性(亲水性)残基取代另一种极性残基,如精氨酸与赖氨酸之间的极性残基、谷氨酰胺与天冬酰胺之间的极性残基或甘氨酸与丝氨酸之间的极性残基。另外,用如赖氨酸、精氨酸或组氨酸等碱性残基取代另一种碱性残基或者用一种如天冬氨酸或谷氨酸等酸性残基取代另一种酸性残基是保守性取代的另外的实例。非保守性取代的实例包含用如异亮氨酸、缬氨酸、亮氨酸、丙氨酸或甲硫氨酸等非极性(疏水性)氨基酸残基取代如半胱氨酸、谷氨酰胺、谷氨酸或赖氨酸等极性(亲水性)残基和/或用极性残基取代非极性残基。典型的氨基酸分类总结在下表1中。

表1.氨基酸分类。

“同源”序列(例如,核酸序列)包含与已知参考序列相同或基本上类似的序列,使得其例如与已知参考序列至少50%、至少55%、至少60%、至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少96%、至少97%、至少98%、至少99%或100%相同。同源序列可以包含例如直系同源序列和旁系同源序列。例如,同源基因通常通过物种形成事件(直系同源基因)或遗传复制事件(旁系同源基因)从共同的祖先DNA序列衍生而来。“直系同源”基因包含不同物种中通过物种形成从共同的祖先基因进化而来的基因。直系同源物通常在进化过程中保留相同的功能。“旁系同源”基因包含通过基因组内的复制相关的基因。旁系同源物可以在进化过程中进化出新的功能。

术语“体外”包含人工环境以及在人工环境(例如,试管或分离的细胞或细胞系)内发生的过程或反应。术语“体内”包含自然环境(例如,细胞、生物体或身体)以及在自然环境内发生的过程或反应。术语“离体”包含已从个体体内取出的细胞以及在此类细胞内发生的过程或反应。

术语“报告基因”是指具有对基因产物(通常是酶)进行编码的序列的核酸,当包括可操作地连接到内源或异源启动子和/或增强子元件的报告基因序列的构建体被引入到含有(或者可以使其含有)激活启动子和/或增强子元件所必需的因子的细胞中时,所述核酸易于且可定量地进行测定。报告基因的实例包含但不限于对β-半乳糖苷酶(lacZ)进行编码的基因、细菌氯霉素乙酰转移酶(cat)基因、萤火虫荧光素酶基因、对β-葡萄糖醛酸酶(GUS)进行编码的基因和对荧光蛋白进行编码的基因。“报告蛋白”是指由报告基因编码的蛋白质。

如本文所使用的,术语“荧光报告蛋白”意指可基于荧光检测的报告蛋白,其中荧光可以直接来自报告蛋白、报告蛋白在荧光底物上的活性,或者具有与荧光标记的化合物结合的亲和力的蛋白。荧光蛋白的实例包含绿色荧光蛋白(例如,GFP、GFP-2、tagGFP、turboGFP、eGFP、祖母绿、Azami绿、单体Azami绿、CopGFP、AceGFP和ZsGreenl)、黄色荧光蛋白(例如,YFP、eYFP、柠檬黄、Venus、YPet、PhiYFP和ZsYellowl)、蓝色荧光蛋白(例如,BFP、eBFP、eBFP2、石青、mKalamal、GFPuv、天蓝色和T-天蓝色)、青色荧光蛋白(例如,CFP、eCFP、蔚蓝色、CyPet、AmCyanl和Midoriishi-青)、红色荧光蛋白(例如,RFP、mKate、mKate2、mPlum、DsRed单体、mCherry、mRFP1、DsRed-表达、DsRed2、DsRed-单体、HcRed-Tandem、HcRedl、AsRed2、eqFP611、mRaspberry、mStrawberry和Jred)、橙色荧光蛋白(例如,mOrange、mKO、Kusabira-橙、单体Kusabira-橙、mTangerine和tdTomato),以及可以通过流式细胞术方法检测到其在细胞中的存在的任何其它合适的荧光蛋白。

响应于双链断裂(DSB)的修复主要通过两个保守的DNA修复途径发生:同源重组(HR)和非同源末端接合(NHEJ)。参见Kasparek和Humphrey(2011)《细胞与发育生物学研讨会(Semin.Cell Dev.Biol.)》22(8):886-897,所述文献出于所有目的通过引用整体并入本文。同样地,由外源供体核酸介导的靶核酸的修复可以包含两种多核苷酸之间的任何遗传信息交换过程。

术语“重组”包含两个多核苷酸之间的任何遗传信息交换过程,并且可以通过任何机制发生。重组可以通过同源定向修复(HDR)或同源重组(HR)发生。HDR或HR包含可能要求核苷酸序列同源性的核酸修复形式,使用“供体”分子作为模板来修复“靶”分子(即,经历双链断裂的分子),并引导遗传信息从供体到靶标的转移。不希望受任何特定理论的束缚,这种转移可以涉及在断裂的靶与供体之间形成的异源双链DNA的错配校正和/或合成依赖性链退火(synthesis-dependent strand annealing),其中供体用于重新合成将成为靶的一部分的遗传信息和/或相关过程。在一些情况下,供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分整合到靶DNA中。参见Wang等人(2013)《细胞(Cell)》153:910-918;Mandalos等人(2012)《公共科学图书馆·综合(PLoS ONE)》7:e45768:1-9;以及Wang等人(2013)《自然生物技术(Nat Biotechnol.)》31:530-532,所述文献中的每个文献出于所有目的通过引用整体并入本文。

非同源末端接合(NHEJ)包含在不需要同源模板的情况下通过将断裂端直接彼此连接或与外源序列连接来修复核酸中的双链断裂。通过NHEJ连接非连续序列通常会导致双链断裂位点附近的缺失、插入或易位。例如,NHEJ还可以通过断裂端与外源供体核酸端的直接连接(即,基于NHEJ的捕获)导致外源供体核酸的靶向整合。当同源定向修复(HDR)途径不易使用时(例如,在非分裂细胞、原代细胞和基于同源性的DNA修复执行较差的细胞中),此类NHEJ介导的靶向整合可以优选用于外源供体核酸的插入)。另外,与同源定向修复相反,不需要关于侧接切割位点的较大序列同一性区域的知识,这在尝试靶向插入到具有基因组序列知识有限的基因组的生物体中时可能是有益的。整合可以通过连接外源供体核酸与经切割的基因组序列之间的平端来进行,或者通过使用外源供体核酸连接粘性端(即,具有5'或3'突出端)来进行,所述外源供体核酸侧接有突出端,所述突出端与由经切割的基因组序列中的核酸酶试剂产生的那些物质相容。参见例如US 2011/020722、WO 2014/033644、WO2014/089290和Maresca等人(2013)《基因组研究(Genome Res.)》23(3):539-546,所述文献中的每个文献出于所有目的通过引用整体并入本文。如果平端被连接,则可能需要靶和/或供体切除来产生片段连接所需的微同源区域,这可能在靶序列中产生不期望的改变。

“包括”或“包含”一个或多个所列举的要素的组合物或方法可以包含其它未具体列举的要素。例如,“包括”或“包含”蛋白质的组合物可以单独含有蛋白质或与其它成分组合的蛋白质。过渡短语“基本上由……组成”意指权利要求的范围应被解释为涵盖权利要求中所列举的特定要素以及不会实质上影响所要求保护的发明的基本和新颖特性的那些要素。因此,当在本发明的权利要求中使用时,术语“基本上由……组成”不旨在被解释为等同于“包括”。

“任选的”或“任选地”意指随后描述的事件或情形可以发生也可以不发生,并且描述包含事件或情形发生的情况以及事件或情形不发生的情况。

数值范围的指定包含所述范围内或定义所述范围的所有整数以及由所述范围内的整数定义的所有子范围。

除非上下文另有说明,否则术语“约”涵盖所述值±5的值。

术语“和/或”是指并且涵盖关联的所列项中的一个或多个所列项的任何和所有可能组合以及在以替代性方案(“或”)解释时组合的缺少。

术语“或”是指特定列表中的任何一个成员,并且还包含所述列表成员的任何组合。

除非上下文另外明确指明,否则本文中的单数形式“一个(a)”、“一种(an)”和“所述(the)”包含复数个提及物。例如,术语“一种蛋白质”或“至少一种蛋白质”可以包含多种蛋白质,包含其混合物。

统计学上显著意指p≤0.05。

具体实施方式

I.概述

中和抗体在抗菌和抗病毒免疫中发挥至关重要的作用,并且有助于预防或调节细菌或病毒疾病。此类抗体通过中和细胞的生物学效应来保护细胞免受抗原或感染体的侵害。

主动接种疫苗通常被认为是对抗病毒性疾病的最佳方法,并且可以类似地用于对抗细菌性疾病。主动免疫是指将本体暴露于抗原以产生适应性免疫应答的过程。反应需要数天/数周才能形成,但可以持续数年。被动免疫是指从外源提供预先形成的特异性抗体以防止感染的过程。然而,因为个体的自身免疫系统没有受到刺激,所以不会产生免疫记忆。因此,被动免疫提供即时但短暂的保护。保护持续数天到数月而不是数年。被动免疫与接种疫苗相比可以具有一些优势。具体地,由于新的耐药微生物、对药物疗法无反应的疾病以及免疫系统受损而无法对常规疫苗产生反应的个体的出现,被动免疫已成为一种有吸引力的方法。

免疫系统在感染或主动接种疫苗后产生的抗体往往集中在细菌或病毒表面容易接近的环上,所述环通常具有大的序列和构象变异性。这个问题有两个原因:细菌或病毒种群可以迅速躲避这些抗体,并且这些抗体会激发蛋白质中对功能不重要的部分。例如,开发针对像HIV等一些病毒的有效疫苗的障碍是此类病毒变异并进化成许多准种的非凡能力。广泛中和抗体——被称为“广泛”是因为其激发细菌或病毒的许多菌株或准种,并且“中和”是因为其激发细菌或病毒的关键功能位点并阻止感染——可以克服这些问题。然而,但这些抗体通常出现得太晚而无法提供有效的疾病保护,并且使用此类抗体进行治疗只能提供短暂的保护。

本文提供了用于在动物体内将如广泛中和抗体等抗原结合蛋白的编码序列整合到如白蛋白基因座等安全港基因座中的方法和组合物。抗原结合蛋白编码序列可以包括整合到同一安全港基因座中以产生不是单链抗原结合蛋白的抗原结合蛋白的重链编码序列和单独的轻链编码序列。同样地,本文提供了用于在动物体内将如广泛中和抗体等抗原结合蛋白的编码序列整合到任何基因组基因座中的方法和组合物。抗原结合蛋白编码序列可以包括整合到同一基因组基因座中以产生不是单链抗原结合蛋白的抗原结合蛋白的重链编码序列和单独的轻链编码序列。此类方法导致高水平的抗体表达,所述高水平的抗体表达达到许多疾病包含传染病的治疗窗并且与通常在每个细胞中保持多个拷贝的附加型载体所达到的表达水平相当。如本文所公开的方法中的编码序列的整合优于非整合附加型载体,因为由于非复制附加体通过细胞分裂逐渐和快速稀释,转基因保留对于非复制附加型载体可能是有问题的。在细胞分裂过程中,AAV DNA通过细胞分裂被稀释,因此需要施用更多的病毒来维持治疗反应。这些随后的暴露可能会导致病毒的快速中和,并且因此降低宿主反应。然而,当使用本文所公开的整合方法时不会出现这些问题。通过本文所公开的方法实现的抗体表达水平可以保护动物免受如病毒和细菌等传染原的感染或治疗此类传染原的感染。然而,所述方法和组合物不限于靶向病毒或细菌抗原的治疗性抗体并且还涵盖其它治疗性抗体。

II.用于将抗原结合蛋白编码序列插入到安全港基因座中的方法

本文提供了用于在细胞或动物体内将抗原结合蛋白编码序列插入到安全港基因座中的方法。还提供了用于在细胞体外或离体将抗原结合蛋白编码序列插入到安全港基因座中的方法。同样地,本文提供了用于在细胞或动物体内将抗原结合蛋白编码序列插入到基因组基因座中的方法。还提供了用于在细胞体外或离体将抗原结合蛋白编码序列插入到基因组基因座中的方法。还提供了核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一个或多个核酸)和包括抗原结合蛋白编码序列的外源供体核酸,其用于将抗原结合蛋白编码序列插入到受试者(例如,动物或细胞体内)的基因组基因座或安全港基因座中,其中核酸酶试剂靶向并切割基因组基因座或安全港基因座中的靶位点,并且其中外源供体核酸插入到基因组基因座或安全港基因座中。还提供了包括抗原结合蛋白编码序列的外源供体核酸,其用于将抗原结合蛋白编码序列插入到受试者(例如,动物或细胞体内)的基因组基因座或安全港基因座中,其中外源供体核酸插入到基因组基因座或安全港基因座中。还提供了核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一个或多个核酸)和包括抗原结合蛋白编码序列的外源供体核酸,其用于治疗或有效预防(预防)受试者(例如,动物)的疾病,其中核酸酶试剂靶向并切割受试者的基因组基因座或安全港基因座中的靶位点,其中外源供体核酸插入到基因组基因座或安全港基因座中,并且其中抗原结合蛋白在受试者中表达并靶向与疾病相关的抗原。还提供了包括抗原结合蛋白编码序列的外源供体核酸,其用于治疗或有效预防(预防)受试者(例如,动物)的疾病,其中外源供体核酸插入到基因组基因座或安全港基因座中,并且其中抗原结合蛋白在受试者中表达并靶向与疾病相关的抗原。此类方法可以包括例如将靶向基因组基因座或安全港基因座中的靶位点的核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一个或多个核酸)和包括抗原结合蛋白编码序列的外源供体核酸引入到动物或细胞中。核酸酶试剂可以切割靶位点,并且抗原结合蛋白编码序列插入到基因组基因座或安全港基因座中以产生经修饰的基因组基因座或安全港基因座。可替代地,此类方法可以包括将包括抗原结合蛋白编码序列的外源供体核酸引入到动物或细胞中。抗原结合蛋白编码序列(例如,通过同源重组或任何其它重组或插入机制)插入到基因组基因座或安全港基因座中以产生经修饰的基因组基因座或安全港基因座。还提供了用于将抗原结合蛋白编码序列插入到基因组基因座或安全港基因中或者将抗原结合蛋白编码序列插入到基因组中的基因组基因座或安全港基因座中的方法。此类方法可以包括例如使基因组基因或安全港基因或基因组基因座或安全港基因座与靶向基因组基因/基因座或安全港基因/基因座中的靶位点的核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一个或多个核酸)和包括抗原结合蛋白编码序列的外源供体核酸接触,其中核酸酶试剂切割靶位点,并且抗原结合蛋白编码序列插入到基因组基因/基因座或安全港基因/基因座中以产生经修饰的基因组基因/基因座或安全港基因/基因座。可替代地,此类方法可以包括使基因组基因/基因座或安全港基因/基因座与包括抗原结合蛋白编码序列的外源供体核酸接触,其中抗原结合蛋白编码序列插入到基因组基因/基因座或安全港基因/基因座中以产生经修饰的基因组基因/基因座或安全港基因/基因座。任选地,可以使用靶向基因组基因/基因座或安全港基因/基因座中的不同靶位点的两种或更多种核酸酶试剂。经修饰的基因组基因/基因座或安全港基因/基因座对于抗原结合蛋白编码序列可以是杂合的或纯合的。

任选地,此类方法可以进一步包括评估抗原结合蛋白在动物中的表达和/或活性。此类方法的实例在本文别处公开,如抗原结合蛋白(和编码序列)的实例、核酸酶试剂的类型、外源供体核酸的类型、基因组基因座或安全港基因座的类型以及可以用于此类方法的动物的类型。在一些方法中,在注射核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体序列后约1周、约2周、约3周、约4周、约5周、约6周、约7周、约8周、约9周、约10周、约1个月、约2个月、约3个月、约4个月、约5个月或约6个月的时间点,抗原结合蛋白在来自动物的血清或血浆样品中的表达为至少约500、至少约1000、至少约1500、至少约2000、至少约2500、至少约3000、至少约3500、至少约4000、至少约4500、至少约5000、至少约5500、至少约6000、至少约6500、至少约7000、至少约7500、至少约8000、至少约8500、至少约9000、至少约9500、至少约10000、至少约20000、至少约30000、至少约40000、至少约50000、至少约60000、至少约70000、至少约80000、至少约90000、至少约100000、至少约110000、至少约120000、至少约130000、至少约140000、至少约150000、至少约200000、至少约250000、至少约300000、至少约350000、至少约400000、至少约500000、至少约600000、至少约700000、至少约800000、至少约900000或至少约1000000ng/mL(即,至少约0.5、至少约1、至少约1.5、至少约2、至少约2.5、至少约3、至少约3.5、至少约4、至少约4.5、至少约5、至少约5.5、至少约6、至少约6.5、至少约7、至少约7.5、至少约8、至少约8.5、至少约9、至少约9.5、至少约10、至少约20、至少约30、至少约40、至少约50、至少约60、至少约70、至少约80、至少约90、至少约100、至少约110、至少约120、至少约130、至少约140、至少约150、至少约200、至少约250、至少约300、至少约350、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900或至少约1000μg/mL)。例如,在注射后约2周、约4周、约8周、约9周、约10周、约11周、约12周、约13周、约14周、约15周、约16周、约17周、约18周、约19周、约20周、约1个月、约2个月、约3个月、约4个月、约5个月或约6个月,表达可以是至少约2500、至少约5000、至少约10000、至少约100000、至少约400000、至少约500000、至少约600000、至少约700000、至少约800000、至少约900000或至少约1000000ng/mL(即,至少约2.5、至少约5、至少约10、至少约100、至少约400、至少约500、至少约600、至少约700、至少约800、至少约900、至少约1000、至少约1100、至少约1200、至少约1300、至少约1400或至少约1500μg/mL)。在抗原结合蛋白或抗体靶向细菌或病毒抗原的一些方法中,在注射核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体序列后约1周、约2周、约3周、约4周、约5周、约6周、约7周、约8周、约9周、约10周、约1个月、约2个月、约3个月、约4个月、约5个月或约6个月的时间点,传染性百分比与阴性对照样品的传染性相比降低到小于约95%、小于约90%、小于约85%、小于约80%、小于约75%、小于约70%、小于约65%、小于约55%、小于约50%、小于约45%、小于约40%、小于约35%、小于约30%、小于约25%(例如,如在中和测定中确定的)。例如,在注射后约2周时,传染性可以降低到小于约65%、小于约60%或小于约55%。

核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体序列可以以任何形式(例如,用于向导RNA的DNA或RNA;用于Cas蛋白的DNA、RNA或蛋白质)通过任何递送方法(例如,AAV、LNP或HDD)和本文别处公开的任何施用途径引入。在一个具体实例中,核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)通过脂质纳米颗粒(LNP)介导的递送进行递送,并且外源供体核酸通过腺相关病毒(AAV)介导的递送(例如,AAV8介导的递送或AAV2/8介导的递送)进行递送。例如,核酸酶试剂可以是CRISPR/Cas9,并且靶向基因组基因座或安全港基因座(例如,白蛋白的内含子1)的Cas9 mRNA和gRNA可以通过LNP介导的递送进行递送,并且外源供体核酸可以通过AAV8介导的递送或AAV2/8介导的递送进行递送。在另一个具体实例中,核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体核酸两者均通过AAV介导的递送(例如,通过两个单独的AAV,如两个单独的AAV8或AAV2/8)进行递送。例如,第一AAV(例如,AAV8或AAV2/8)可以携带Cas9表达盒,并且第二AAV(例如,AAV8或AAV2/8)可以携带gRNA表达盒和外源供体核酸。可替代地,第一AAV(例如,AAV8或AAV2/8)可以携带Cas9表达盒和gRNA表达盒,并且第二AAV(例如,AAV8或AAV2/8)可以携带外源供体核酸。可以使用不同的启动子来驱动gRNA的表达,如U6启动子或小tRNAGln。同样地,可以使用不同的启动子来驱动Cas9表达。在一些方法中,使用小启动子使得Cas9编码序列可以适应于AAV构建体。此类启动子的实例包含Efs、SV40或包括肝脏特异性增强子(例如,来自HBV病毒的E2或来自SerpinA基因的SerpinA)和核心启动子的合成启动子(例如,本文所公开的E2P合成启动子或SerpinAP合成启动子)。

抗原结合蛋白编码序列可以插入动物中的特定类型的细胞中。用于将核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体序列引入到动物中的方法和媒剂可以影响靶向动物中的哪种类型的细胞。在一些方法中,例如,抗原结合蛋白编码序列插入到肝细胞中的基因组基因座或安全港基因座中。用于将核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体序列引入到动物中的方法和媒剂(包含靶向肝脏的方法和载体,如脂质纳米颗粒介导的递送和AAV8介导的递送或AAV2/8介导的递送)在本文别处更详细地公开。

将抗原结合蛋白编码序列靶向插入到基因组基因座或安全港基因座中,并且特别是白蛋白安全港基因座,具有多种优势。这种方法导致稳定的修饰,以允许抗原结合蛋白编码序列的稳定、长期表达。关于白蛋白安全港基因座,此类方法能够利用自然白蛋白增强子/启动子的高转录活性。对于体内基因靶向,可能无法积极地选择校正的细胞,并且靶向有限数量的细胞通常可能无法产生足够的分泌蛋白来校正疾病表型。肝脏定向基因转移具有吸引力,因为即使只靶向一小部分肝细胞,肝脏也能够将大量蛋白质分泌到血液中。

抗原结合蛋白编码序列可以可操作地连接到外源供体核酸中的外源启动子。可以使用的启动子类型的实例在本文别处公开。可替代地,抗原结合蛋白序列可以包括无启动子基因,并且插入的抗原结合蛋白编码序列可以可操作地连接到基因组基因座或安全港基因座中的内源启动子。内源启动子的使用是有利的,因为其不需要在外源供体序列中包含启动子,从而允许例如在AAV中包装通常可能无法高效包装的较大转基因。例如,插入的抗原结合蛋白编码序列可以插入到内源白蛋白基因座中并可操作地连接到内源白蛋白启动子以主要在肝组织中产生高表达水平。

任选地,在插入抗原结合蛋白编码序列后,基因组基因座或安全港基因座处的一些或全部内源基因可以被表达。可替代地,在一些实施例中,内源基因组基因或安全港基因均不能表达。作为一个实例,经修饰的基因组基因座或安全港基因座可以对包括内源分泌信号和抗原结合蛋白的嵌合蛋白进行编码。例如,可以靶向白蛋白基因座的第一内含子,因为白蛋白基因的第一外显子对从最终蛋白质产物切割的分泌肽进行编码。在这种情况下,携带剪接受体和抗原结合蛋白编码序列的无启动子抗原结合蛋白盒将支持抗原结合蛋白的表达和分泌。白蛋白外显子1与整合的抗原结合蛋白编码序列之间的剪接产生嵌合mRNA和蛋白质,包含可操作地连接到抗原结合蛋白序列的内源性分泌肽。

外源供体序列中的抗原结合蛋白编码序列可以通过任何方式插入到基因组基因座或安全港基因座中。响应于双链断裂(DSB)的修复主要通过两个保守的DNA修复途径发生:同源重组(HR)和非同源末端接合(NHEJ)。参见Kasparek和Humphrey(2011)《细胞与发育生物学研讨会》22:886-897,所述文献出于所有目的通过引用整体并入本文。同样地,由外源供体核酸介导的靶核酸的修复可以包含两种多核苷酸之间的任何遗传信息交换过程。

术语“重组”包含两个多核苷酸之间的任何遗传信息交换过程,并且可以通过任何机制发生。重组可以通过同源定向修复(HDR)或同源重组(HR)发生。HDR或HR包含可能要求核苷酸序列同源性的核酸修复形式,使用“供体”分子作为模板来修复“靶”分子(即,经历双链断裂的分子),并引导遗传信息从供体到靶标的转移。不希望受任何特定理论的束缚,这种转移可以涉及在断裂的靶与供体之间形成的异源双链DNA的错配校正和/或合成依赖性链退火(synthesis-dependent strand annealing),其中供体用于重新合成将成为靶的一部分的遗传信息和/或相关过程。在一些情况下,供体多核苷酸、供体多核苷酸的一部分、供体多核苷酸的拷贝或供体多核苷酸的拷贝的一部分整合到靶DNA中。参见Wang等人(2013)《细胞》153:910-918;Mandalos等人(2012)《公共科学图书馆·综合》7:e45768:1-9;以及Wang等人(2013)《自然生物技术》31:530-532,所述文献中的每个文献出于所有目的通过引用整体并入本文。

NHEJ包含在不需要同源模板的情况下通过将断裂端直接彼此连接或与外源序列连接来修复核酸中的双链断裂。通过NHEJ连接非连续序列通常会导致双链断裂位点附近的缺失、插入或易位。例如,NHEJ还可以通过断裂端与外源供体核酸端的直接连接(即,基于NHEJ的捕获)导致外源供体核酸的靶向整合。当同源定向修复(HDR)途径不易使用时(例如,在非分裂细胞、原代细胞和基于同源性的DNA修复执行较差的细胞中),此类NHEJ介导的靶向整合可以优选用于外源供体核酸的插入)。另外,与同源定向修复相反,不需要关于侧接切割位点的较大序列同一性区域的知识,这在尝试靶向插入到具有基因组序列知识有限的基因组的生物体中时可能是有益的。整合可以通过连接外源供体核酸与经切割的基因组序列之间的平端来进行,或者通过使用外源供体核酸连接粘性端(即,具有5'或3'突出端)来进行,所述外源供体核酸侧接有突出端,所述突出端与由经切割的基因组序列中的核酸酶试剂产生的那些物质相容。参见例如US 2011/020722、WO 2014/033644、WO 2014/089290和Maresca等人(2013)《基因组研究》23(3):539-546,所述文献中的每个文献出于所有目的通过引用整体并入本文。如果平端被连接,则可能需要靶和/或供体切除来产生片段连接所需的微同源区域,这可能在靶序列中产生不期望的改变。

在具体实例中,外源供体核酸可以通过同源非依赖性靶向整合(例如,定向的同源非依赖性靶向整合)插入。例如,外源供体核酸中的抗原结合蛋白编码序列每一侧上侧接有核酸酶试剂的靶位点(例如,与基因组基因座或安全港基因座中的靶位点相同的靶位点,以及用于切割基因组基因座或安全港基因座中的靶位点的相同核酸酶试剂)。然后核酸酶试剂可以切割侧接抗原结合蛋白编码序列的靶位点。在具体实例中,外源供体核酸通过AAV介导的递送进行递送,并且侧接抗原结合蛋白编码序列的靶位点的切割可以去除AAV的反向末端重复序列(ITR)。由于重复的序列,ITR的存在会妨碍测序工作,因此去除ITR可以更容易地评估成功的靶向。在一些方法中,如果抗原结合蛋白编码序列以正确取向插入到基因组基因座或安全港基因座中,则基因组基因座或安全港基因座中的靶位点(例如,包含侧接的前间区序列邻近基序的gRNA靶序列)不再存在,但如果抗原结合蛋白编码序列以相反取向插入到基因组基因座或安全港基因座中,则基因组基因座或安全港基因座中的靶位点被重新形成。这有助于确保抗原结合蛋白编码序列以正确的表达取向插入。

A.CRISPR/Cas核酸酶和其它核酸酶试剂

1.CRISPR/Cas系统

本文所公开的方法和组合物可以利用成簇规律间隔短回文重复序列(CRISPR)/CRISPR相关(Cas)系统或此类系统的组分来修饰细胞内的基因组(例如,基因组中的基因组基因座或安全港基因座,如白蛋白基因座)。CRISPR/Cas系统包含转录物和其它参与Cas基因表达或指导其活动的元件。CRISPR/Cas系统可以是例如I型、II型、III型系统或V型系统(例如,V-A亚型或V-B亚型)。本文所公开的方法和组合物可以通过利用CRISPR复合物(包括与Cas蛋白复合的向导RNA(gRNA))来采用CRISPR/Cas系统,用于核酸的定点结合或切割。

在本文所公开的组合物和方法中使用的CRISPR/Cas系统可以是非天然存在的。“非天然存在的”系统包含指示人类参与的任何事物,如系统的一个或多个组分从其天然存在的状态改变或突变,至少基本上不含至少一种与其在自然界中天然相关的其它组分,或者与至少一种与其不天然相关的其它成分相关。例如,一些CRISPR/Cas系统采用包括天然不会同时存在的gRNA和Cas蛋白的非天然存在的CRISPR复合物,采用不会天然存在的Cas蛋白,或采用不会天然存在的gRNA。

a.Cas蛋白

Cas蛋白通常包括至少一个可以与向导RNA相互作用的RNA识别或结合结构域。Cas蛋白还可以包括核酸酶结构域(例如,DNase结构域或RNase结构域)、DNA结合结构域、解旋酶结构域、蛋白质-蛋白质相互作用结构域、二聚化结构域和其它结构域。一些此类结构域(例如,DNase结构域)可以来自自然Cas蛋白。可以添加其它此类结构域以制作经修饰的Cas蛋白。核酸酶结构域对包含核酸分子共价键的断裂的核酸切割具有催化活性。切割可以产生平端或交错端,并且切割可以是单链的或双链的。例如,野生型Cas9蛋白通常会产生平端切割产物。可替代地,野生型Cpf1蛋白(例如,FnCpf1)可以产生具有5个核苷酸5'突出端的切割产物,其中切割发生在来自非靶向链上的PAM序列的第18个碱基对之后和靶向链上的第23个碱基之后。Cas蛋白可以具有完全切割活性以在靶基因组基因座处产生双链断裂(例如,具有平端的双链断裂),或者其可以是在靶基因组基因座处产生单链断裂的切口酶。

Cas蛋白的实例包含Cas1、Cas1B、Cas2、Cas3、Cas4、Cas5、Cas5e(CasD)、Cas6、Cas6e、Cas6f、Cas7、Cas8a1、Cas8a2、Cas8b、Cas8c、Cas9(Csn1或Csx12)、Cas10、Cas10d、CasF、CasG、CasH、Csy1、Csy2、Csy3、Cse1(CasA)、Cse2(CasB)、Cse3(CasE)、Cse4(CasC)、Csc1、Csc2、Csa5、Csn2、Csm2、Csm3、Csm4、Csm5、Csm6、Cmr1、Cmr3、Cmr4、Cmr5、Cmr6、Csb1、Csb2、Csb3、Csx17、Csx14、Csx10、Csx16、CsaX、Csx3、Csx1、Csx15、Csf1、Csf2、Csf3、Csf4和Cu1966,以及其同系物或修饰版本。

示例性Cas蛋白是Cas9蛋白或源自Cas9蛋白的蛋白质。Cas9蛋白来自II型CRISPR/Cas系统,并且通常共享具有保守结构的四个关键基序。基序1、2和4是RuvC样基序,并且基序3是HNH基序。示例性Cas9蛋白来自酿脓链球菌(Streptococcus pyogenes)、嗜热链球菌(Streptococcus thermophilus)、链球菌属(Streptococcus sp.)、金黄色葡萄球菌(Staphylococcus aureus)、达松维尔拟诺卡氏菌(Nocardiopsis dassonvillei)、始旋链霉菌(Streptomyces pristinaespiralis)、绿色产色链霉菌(Streptomycesviridochromogenes)、绿色产色链霉菌、玫瑰链孢囊菌(Streptosporangium roseum)、玫瑰链孢囊菌、酸热脂环酸芽孢杆菌(Alicyclobacillus acidocaldarius)、假蕈状芽孢杆菌(Bacillus pseudomycoides)、亚硒酸杆菌(Bacillus selenitireducens)、唐松草微小杆菌(Exiguobacterium sibiricum)、德氏乳杆菌(Lactobacillus delbrueckii)、唾液乳杆菌(Lactobacillus salivarius)、海洋微颤菌(Microscilla marina)、伯克霍尔德氏菌(Burkholderiales bacterium)、食萘极地单胞菌(Polaromonas naphthalenivorans)、极地单胞菌属(Polaromonas sp.)、瓦氏鳄球藻(Crocosphaera watsonii)、蓝杆藻属(Cyanothece sp.)、铜绿微囊藻(Microcystis aeruginosa)、聚球藻属(Synechococcussp.)、阿拉伯糖醋盐杆菌(Acetohalobium arabaticum)、丹氏制氨菌(Ammonifexdegensii)、热解纤维素菌(Caldicelulosiruptor becscii)、金矿菌(CandidatusDesulforudis)、肉毒杆菌(Clostridium botulinum)、艰难梭菌(Clostridiumdifficile)、大芬戈尔德菌(Finegoldia magna)、嗜热盐碱厌氧菌(Natranaerobiusthermophilus)、嗜热丙酸厌氧肠状菌(Pelotomaculum thermopropionicum)、喜温嗜酸硫杆菌(Acidithiobacillus caldus)、嗜酸氧化亚铁硫杆菌(cidithiobacillusferrooxidans)、酒色闪杆菌(Allochromatium vinosum)、海杆菌属(Marinobacter sp.)、嗜盐硝化球菌(Nitrosococcus halophilus)、瓦氏亚硝化球菌(Nitrosococcus watsoni)、游海假交替单胞菌(Pseudoalteromonas haloplanktis)、消旋纤线杆菌(Ktedonobacterracemifer)、调查甲烷盐菌(Methanohalobium evestigatum)、多变鱼腥藻(Anabaenavariabilis)、泡沫节球藻(Nodularia spumigena)、念珠藻属(Nostoc sp.)、极大节旋藻(Arthrospira maxima)、钝项节旋藻(Arthrospira platensis)、节旋藻属(Arthrospirasp.)、鞘丝藻属(Lyngbya sp.)、原型微鞘藻(Microcoleus chthonoplastes)、颤藻属(Oscillatoria sp.)、运动石袍菌(Petrotoga mobilis)、非洲栖热腔菌(Thermosiphoafricanus)、深海单细胞蓝藻(Acaryochloris marina)、脑膜炎奈瑟氏菌(Neisseriameningitidis)或空肠弯曲杆菌(Campylobacterjejuni)。Cas9家族成员的另外的实例在WO2014/131833中描述,所述文献出于所有目的通过引用整体并入本文。来自酿脓链球菌的Cas9(SpCas9)(所分配的SwissProt登录号为Q99ZW2)是示例性Cas9蛋白。示例性SpCas9蛋白序列在SEQ ID NO:62中示出(由SEQ ID NO:61中所示的DNA序列编码)。示例性SpCas9mRNA序列在SEQ ID NO:63中示出。来自金黄色葡萄球菌的Cas9(SaCas9)(所分配的UniProt登录号为J7RUA5)是另一种示例性Cas9蛋白。来自空肠弯曲杆菌的Cas9(CjCas9)(所分配的UniProt登录号为Q0P897)是另一种示例性Cas9蛋白。参见例如Kim等人(2017)《自然通讯(Nat.Comm.)》8:14500,所述文献出于所有目的通过引用整体并入本文。SaCas9小于SpCas9,并且CjCas9小于SaCas9和SpCas9两者。来自脑膜炎奈瑟氏菌的Cas9(Nme2Cas9)是另一种示例性Cas9蛋白。参见例如Edraki等人(2019)《分子细胞(Mol.Cell)》73(4):714-726,所述文献出于所有目的通过引用整体并入本文。来自嗜热链球菌的Cas9蛋白(例如,由CRISPR1基因座编码的嗜热链球菌LMD-9Cas9(St1Cas9)或来自CRISPR3基因座的嗜热链球菌Cas9(St3Cas9))是其它示例性Cas9蛋白。来自新凶手弗朗西丝菌(Francisellanovicida)的Cas9(FnCas9)或识别替代PAM(E1369R/E1449H/R1556A取代)的RHA新凶手弗朗西丝菌Cas9变体是其它示例性Cas9蛋白。这些和其它示例性Cas9蛋白例如在Cebrian-Serrano和Davies(2017)《哺乳动物基因组(Mamm.Genome)》28(7):247-261中综述,所述文献出于所有目的通过引用整体并入本文。

Cas蛋白的另一个实例是Cpf1(来自普雷沃氏菌(Prevotella)和弗朗西斯氏菌1的CRISPR)蛋白。Cpf1是含有与Cas9对应结构域同源的RuvC样核酸酶结构域以及Cas9表征性富精氨酸簇的对应物的大蛋白质(约1300个氨基酸)。然而,Cpf1缺乏存在于Cas9蛋白中的HNH核酸酶结构域,并且RuvC样结构域在Cpf1序列中是连续的,与Cas9相比,其含有包含HNH结构域的长插入物。参见例如Zetsche等人(2015)《细胞》163(3):759-771,所述文献出于所有目的通过引用整体并入本文。示例性Cpf1蛋白来自土拉弗朗西斯菌(Francisellatularensis)1、土拉弗朗西丝菌新凶手亚种(Francisella tularensis subsp.novicida)、易北河普雷沃氏菌(Prevotella albensis)、毛螺菌科细菌(Lachnospiraceae bacterium)MC20171、解蛋白丁酸弧菌(Butyrivibrio proteoclasticus)、异域菌门细菌(Peregrinibacteria bacterium)GW2011_GWA2_33_10、俭菌超门细菌(Parcubacteriabacterium)GW2011_GWC2_44_17、史密斯氏菌属(Smithella sp.)SCADC、氨基酸球菌属(Acidaminococcus sp.)BV3L6、毛螺菌科细菌(Lachnospiraceae bacterium)MA2020、候选白蚁甲烷支原体(Candidatus Methanoplasma termitum)、挑剔真杆菌(Eubacteriumeligens)、牛眼莫拉氏菌(Moraxella bovoculi)237、稻田氏钩端螺旋体(Leptospirainadai)、毛螺菌科细菌(Lachnospiraceae bacterium)ND2006、狗口腔卟啉单胞菌(Porphyromonas crevioricanis)3、解糖胨普雷沃氏菌(Prevotella disiens)和猕猴卟啉单胞菌(Porphyromonas macacae)。来自新凶手弗朗西丝菌U112的Cpf1(FnCpf1;所分配的UniProt登录号为A0Q7Q2)是示例性Cpf1蛋白。

Cas蛋白可以是野生型蛋白(即,自然界中存在的蛋白)、经修饰的Cas蛋白(即,Cas蛋白变体)或者野生型或经修饰的Cas蛋白的片段。关于野生型或经修饰的Cas蛋白的催化活性,Cas蛋白也可以是活性变体或片段。关于催化活性,活性变体或片段可以与野生型或经修饰的Cas蛋白或其部分具有至少80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性,其中活性变体保留在期望切割位点切割的能力并且因此保留切口诱导活性或双链断裂诱导活性。对切口诱导活性或双链断裂诱导活性的测定是已知的,并且通常测量Cas蛋白在含有切割位点的DNA底物上的整体活性和特异性。

经修饰的Cas蛋白的一个实例是经修饰的SpCas9-HF1蛋白,其是具有设计成减少非特异性DNA接触的改变(N497A/R661A/Q695A/Q926A)的酿脓链球菌Cas9的高保真变体。参见例如Kleinstiver等人(2016)《自然(Nature)》529(7587):490-495,所述文献出于所有目的通过引用整体并入本文。经修饰的Cas蛋白的另一个实例是设计成减少脱靶效应的经修饰的eSpCas9变体(K848A/K1003A/R1060A)。参见例如Slaymaker等人(2016)《科学(Science)》351(6268):84-88,所述文献出于所有目的通过引用整体并入本文。其它SpCas9变体包含K855A和K810A/K1003A/R1060A。这些和其它经修饰的Cas蛋白例如在Cebrian-Serrano和Davies(2017)《哺乳动物基因组》28(7):247-261中综述,所述文献出于所有目的通过引用整体并入本文。经修饰的Cas9蛋白的另一个实例是xCas9,其是可以识别更大范围的PAM序列的SpCas9变体。参见例如Hu等人(2018)《自然》556:57-63,所述文献出于所有目的通过引用整体并入本文。

可以对Cas蛋白进行修饰以增加或减少核酸结合亲和力、核酸结合特异性和酶活性中的一种或多种。还可以对Cas蛋白进行修饰以改变蛋白质的任何其它活性或特性,如稳定性。例如,Cas蛋白的一个或多个核酸酶结构域可以是经修饰的、缺失的或失活的,或者可以截断Cas蛋白以去除对蛋白质功能不必要的结构域或优化(例如,增强或减少)Cas蛋白的活性或性质。

Cas蛋白可以包括至少一个核酸酶结构域,如DNase结构域。例如,野生型Cpf1蛋白通常包括可能是二聚体构型的切割靶DNA的两条链的RuvC样结构域。Cas蛋白还可以包括至少两个核酸酶结构域,如DNase结构域。例如,野生型Cas9蛋白通常包括RuvC样核酸酶结构域和HNH样核酸酶结构域。RuvC和HNH结构域可以各自切割不同的双链DNA链,以在DNA中形成双链断裂。参见例如Jinek等人(2012)《科学》337(6096):816-821,所述文献出于所有目的通过引用整体并入本文。

核酸酶结构域中的一个或多个或所有核酸酶结构域可以缺失或突变,使得其不再具有功能或具有降低的核酸酶活性。例如,如果Cas9蛋白中的核酸酶结构域之一缺失或突变,则所得Cas9蛋白可以被称为切口酶,并且可以在双链靶DNA内产生单链断裂但不会产生双链断裂(即,其可以切割互补链或非互补链,但不能切割两者)。如果两个核酸酶结构域都缺失或突变,则所得Cas蛋白(例如,Cas9)切割双链DNA(例如,核酸酶无效或核酸酶失活的Cas蛋白,或催化死亡的Cas蛋白(dCas))的两条链的能力将降低。将Cas9转化为切口酶的突变的实例是来自酿脓链球菌的Cas9的RuvC结构域中的D10A(在Cas9的位置10处天冬氨酸转化为丙氨酸)突变。同样地,来自酿脓链球菌的Cas9的HNH结构域中的H939A(在氨基酸位置839处组氨酸转化为丙氨酸)、H840A(在氨基酸位置840处组氨酸转化为丙氨酸)或N863A(在氨基酸位置N863处天冬酰胺转化为丙氨酸)可以将Cas9转化为切口酶。将Cas9转化为切口酶的突变的其它实例包含嗜热链球菌对Cas9的对应突变。参见例如Sapranauskas等人(2011)《核酸研究》39(21):9275-9282和WO 2013/141680,所述文献中的每个文献出于所有目的通过引用整体并入本文。可以使用如定点诱变、PCR介导的诱变或总基因合成等方法产生此类突变。产生切口酶的其它突变的实例可以例如在WO 2013/176772和WO 2013/142578中找到,所述文献中的每个文献出于所有目的通过引用整体并入本文。如果Cas蛋白中的所有核酸酶结构域都缺失或突变(例如,Cas9蛋白中的两个核酸酶结构域都缺失或突变),则所得Cas蛋白(例如,Cas9)切割双链DNA(例如,核酸酶无效或核酸酶失活的Cas蛋白)的两条链的能力将降低。一个具体实例是D10A/H840A酿脓链球菌Cas9双突变体或者当与酿脓链球菌Cas9最佳比对时来自另一物种的Cas9中的对应双突变体。另一个具体实例是D10A/N863A酿脓链球菌Cas9双突变体或者当与酿脓链球菌Cas9最佳比对时来自另一物种的Cas9中的对应双突变体。

xCas9催化结构域中的失活突变的实例与以上针对SpCas9所述的相同。金黄色葡萄球菌Cas9蛋白催化结构域中的失活突变的实例也是已知的。例如,金黄色葡萄球菌Cas9酶(SaCas9)可以包括位置N580处的取代(例如,N580A取代)和位置D10处的取代(例如,D10A取代),用于产生核酸酶失活的Cas蛋白。参见例如WO 2016/106236,所述文献出于所有目的通过引用整体并入本文。Nme2Cas9催化结构域中的失活突变的实例也是已知的(例如,D16A和H588A的组合)。St1Cas9催化结构域中的失活突变的实例也是已知的(例如,D9A、D598A、H599A和N622A的组合)。St3Cas9催化结构域中的失活突变的实例也是已知的(例如,D10A和N870A的组合)。CjCas9催化结构域中的失活突变的实例也是已知的(例如,D8A和H559A的组合)。FnCas9和RHA FnCas9催化结构域中的失活突变的实例也是已知的(例如,N995A)。

Cpf1蛋白催化结构域中的失活突变的实例也是已知的。参考来自新凶手弗朗西丝菌U112(FnCpf1)、氨基酸球菌属BV3L6(AsCpf1)、毛螺菌科细菌ND2006(LbCpf1)和牛眼莫拉氏菌237(MbCpf1 Cpf1)的Cpf1蛋白,此类突变可以包含AsCpf1的位置908、993或1263处或Cpf1直系同源物中的对应位置处或者LbCpf1的位置832、925、947或1180处或Cpf1直系同源物中的对应位置处的突变。此类突变可以包含例如AsCpf1的突变D908A、E993A和D1263A或Cpf1直系同源物中的对应突变或者LbCpf1的突变D832A、E925A、D947A和D1180A或Cpf1直系同源物中的对应突变中的一个或多个突变。参见例如US 2016/0208243,所述文献出于所有目的通过引用整体并入本文。

Cas蛋白也可以作为融合蛋白可操作地连接到异源多肽。例如,Cas蛋白可以与切割结构域或表观遗传修饰结构域融合。参见WO 2014/089290,所述文献出于所有目的通过引用整体并入本文。Cas蛋白也可以与异源多肽融合,从而提高或降低稳定性。融合结构域或异源多肽可以定位在N端、C端或Cas蛋白内部。

作为一个实例,Cas蛋白可以与提供亚细胞定位的一种或多种异源多肽融合。此类异源多肽可以包含例如一种或多种核定位信号(NLS),如用于靶向细胞核的单组分SV40NLS和/或双组分α-输入蛋白NLS、用于靶向线粒体的线粒体定位信号、ER保留信号等。参见例如Lange等人(2007)《生物化学杂志(J.Biol.Chem.)》282(8):5101-5105,所述文献出于所有目的通过引用整体并入本文。此类亚细胞定位信号可以定位在N端、C端或Cas蛋白内的任何位置。NLS可以包括碱性氨基酸段,并且可以是单组分序列或双组份序列。任选地,Cas蛋白可以包括两个或更多个NLS,包含N端处的NLS(例如,α-输入蛋白NLS或单组分NLS)和C端处的NLS(例如,SV40 NLS或双组分NLS)。Cas蛋白还可以包括N端处的两个或更多个NLS和/或C端处的两个或更多个NLS。

Cas蛋白还可以可操作地连接到细胞穿透结构域或蛋白质转导结构域。例如,细胞穿透结构域可以源自HIV-1TAT蛋白、来自人乙型肝炎病毒的TLM细胞穿透基序、MPG、Pep-1、VP22、来自单纯性疱疹病毒的细胞穿透肽或聚精氨酸肽序列。参见例如WO 2014/089290和WO 2013/176772,所述文献中的每个文献出于所有目的通过引用整体并入本文。细胞穿透结构域可以定位在N端、C端或Cas蛋白内的任何位置。

Cas蛋白还可以可操作地连接到异源多肽,以便于追踪或纯化如荧光蛋白、纯化标签或表位标签。荧光蛋白的实例包含绿色荧光蛋白(例如,GFP、GFP-2、tagGFP、turboGFP、eGFP、祖母绿、Azami绿、单体Azami绿、CopGFP、AceGFP、ZsGreenl)、黄色荧光蛋白(例如,YFP、eYFP、柠檬黄、Venus、YPet、PhiYFP、ZsYellowl)、蓝色荧光蛋白(例如,eBFP、eBFP2、石青、mKalamal、GFPuv、天蓝色、T-天蓝色)、青色荧光蛋白(例如,eCFP、蔚蓝色、CyPet、AmCyanl、Midoriishi-青)、红色荧光蛋白(例如,mKate、mKate2、mPlum、DsRed单体、mCherry、mRFP1、DsRed-表达、DsRed2、DsRed-单体、HcRed-Tandem、HcRedl、AsRed2、eqFP611、mRaspberry、mStrawberry、Jred)、橙色荧光蛋白(例如,mOrange、mKO、Kusabira-橙、单体Kusabira-橙、mTangerine、tdTomato),以及任何其它合适的荧光蛋白。标签的实例包含谷胱甘肽-S-转移酶(GST)、几丁质结合蛋白(CBP)、麦芽糖结合蛋白、硫氧还蛋白(TRX)、聚(NANP)、串联亲和纯化(TAP)标签、myc、AcV5、AU1、AU5、E、ECS、E2、FLAG、血凝素(HA)、nus、Softag 1、Softag 3、Strep、SBP、Glu-Glu、HSV、KT3、S、S1、T7、V5、VSV-G、组氨酸(His)、生物素羧基载体蛋白(BCCP)和钙调蛋白。

Cas蛋白还可以与标记的核酸或供体序列栓系。这种栓系(即,物理连接)可以通过共价相互作用或非共价相互作用来实现,并且栓系可以是直接的(例如,通过直接融合或化学缀合,这可以通过蛋白质上的半胱氨酸或赖氨酸残基的修饰或内含子修饰来实现),或者可以通过如链霉亲和素或适配子等一个或多个中间接头或衔接子分子来实现。参见例如Pierce等人(2005)《药物化学短评(Mini Rev.Med.Chem.)》5(1):41-55;Duckworth等人(2007)《应用化学-英文国际版(Angew.Chem.Int.Ed.Engl.)》46(46):8819-8822;Schaeffer和Dixon(2009)《澳大利亚化学杂志(Australian J.Chem.)》62(10):1328-1332;Goodman等人(2009)《生物化学(Chembiochem.)》10(9):1551-1557;以及Khatwani等人(2012)《生物有机化学与医药化学(Bioorg.Med.Chem.)》20(14):4532-4539,所述文献中的每个文献出于所有目的通过引用整体并入本文。用于合成蛋白质-核酸缀合物的非共价策略包含生物素-链霉亲和素和镍-组氨酸方法。可以通过使用多种化学反应连接适当功能化的核酸和蛋白质来合成共价蛋白质-核酸缀合物。这些化学反应中的一些化学反应涉及将寡核苷酸直接连接到蛋白质表面上的氨基酸残基(例如,赖氨酸胺或半胱氨酸硫醇),而其它更复杂的方案需要蛋白质的翻译后修饰或者催化或反应蛋白结构域的参与。用于蛋白质与核酸共价连接的方法可以包含例如寡核苷酸与蛋白质赖氨酸或半胱氨酸残基的化学交联、表达的蛋白质连接、化学酶法和光适体的使用。标记的核酸或供体序列可以栓系到Cas蛋白内的C端、N端或内部区域。在一个实例中,标记的核酸或供体序列栓系到Cas蛋白的C端或N端。同样地,Cas蛋白可以栓系到标记的核酸或供体序列内的5'端、3'端或内部区域。也就是说,标记的核酸或供体序列可以以任何取向和极性拴系。例如,Cas蛋白可以栓系到标记的核酸或供体序列的5'端或3'端。

Cas蛋白可以以任何形式提供。例如,Cas蛋白可以以蛋白质的形式提供,如与gRNA复合的Cas蛋白。可替代地,Cas蛋白可以以编码Cas蛋白的核酸形式提供,如RNA(例如,信使RNA(mRNA))或DNA。任选地,对Cas蛋白进行编码的核酸可以是密码子优化的,以在特定细胞或生物体中高效翻译成蛋白质。例如,可以修饰对Cas蛋白进行编码的核酸以取代与天然存在的多核苷酸序列相比在细菌细胞、酵母细胞、人细胞、非人细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞或任何其它所关注的宿主细胞中具有更高使用频率的密码子。当对Cas蛋白进行编码的核酸被引入到细胞中时,Cas蛋白可以在细胞中瞬时地、有条件地或组成性地表达。

可以修饰作为mRNA提供的Cas蛋白以提高稳定性和/或免疫原性性质。可以对mRNA内的一种或多种核苷进行修饰。对mRNA核碱基进行化学修饰的实例包含假尿苷、1-甲基-假尿苷和5-甲基-胞苷。例如,可以使用含有N1-甲基假尿苷的封端的和聚腺苷酸化Cas mRNA。同样地,可以通过使用同义密码子耗尽尿苷来修饰Cas mRNA。

对Cas蛋白进行编码的核酸可以稳定地整合在细胞的基因组中,并可操作地连接到在细胞中具有活性的启动子。可替代地,对Cas蛋白进行编码的核酸可以可操作地连接到表达构建体中的启动子。表达构建体包含能够指导基因或其它所关注核酸序列(例如,Cas基因)的表达并且可以将此类所关注核酸序列转移到靶细胞的任何核酸构建体。例如,对Cas蛋白进行编码的核酸可以在包括对gRNA进行编码的DNA的载体中。可替代地,其可以在与包括对gRNA进行编码的DNA的载体分离的载体或质粒中。可以在表达构建体中使用的启动子包含例如在真核细胞、人细胞、非人细胞、哺乳动物细胞、非人哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、多能细胞、胚胎干(ES)细胞、成体干细胞、发育受限的祖细胞、诱导多能干(iPS)细胞或单细胞阶段胚胎中的一个或多个中具有活性的启动子。此类启动子可以是例如条件型启动子、诱导型启动子、组成型启动子或组织特异性启动子。任选地,启动子可以是在一个方向上驱动Cas蛋白的表达并且在另一个方向上驱动向导RNA的表达的双向启动子。此类双向启动子可以由以下组成:(1)含有3个外部控制元件:远侧序列元件(DSE)、近侧端序列元件(PSE)和TATA框的完整的、常规的、单向的Pol III启动子;(2)包含在相反取向上与DSE的5'端融合PSE和TATA盒的第二基本Pol III启动子。例如,在H1启动子中,DSE邻近PSE和TATA框,并且可以通过产生杂合启动子使启动子双向化,其中通过源自U6启动子的附加PSE和TATA盒来控制反向转录。参见例如US 2016/0074535,所述文献出于所有目的通过引用整体并入本文。使用双向启动子同时表达对Cas蛋白和向导RNA进行编码的基因允许生成紧凑表达盒以促进递送。

可以使用不同的启动子来驱动Cas表达或Cas9表达。在一些方法中,使用小启动子使得Cas或Cas9编码序列可以适应于AAV构建体。此类启动子的实例包含Efs、SV40或包括肝脏特异性增强子(例如,来自HBV病毒的E2或来自SerpinA基因的SerpinA)和核心启动子的合成启动子(例如,E2P合成启动子或SerpinAP合成启动子)。

b.向导RNA

“向导RNA”或“gRNA”是与Cas蛋白(例如,Cas9蛋白)结合并将Cas蛋白靶向靶DNA内的具体位置的RNA分子。向导RNA可以包括两个区段:“DNA靶向区段”和“蛋白质结合区段”。“区段”包含分子的一部分或区域,如RNA中的连续核苷酸段。一些gRNA,如用于Cas9的那些,可以包括两个单独的RNA分子:“激活子-RNA”(例如,tracrRNA)和“靶向子-RNA”(例如,CRISPR RNA或crRNA)。其它gRNA是单个RNA分子(单个RNA多核苷酸),其也可以被称为“单分子gRNA”、“单向导RNA”或“sgRNA”。参见例如WO2013/176772、WO 2014/065596、WO 2014/089290、WO 2014/093622、WO 2014/099750、WO2013/142578和WO 2014/131833,所述文献中的每个文献出于所有目的通过引用整体并入本文。例如,对于Cas9,单向导RNA可以包括(例如,通过接头)融合到tracrRNA的crRNA。例如,对于Cpf1,只需要一个crRNA就可以实现与靶序列的结合。术语“向导RNA”和“gRNA”包含双分子(即,模块化)gRNA和单分子gRNA两者。

示例性双分子gRNA包括crRNA样(“CRISPR RNA”或“靶向子-RNA”或“crRNA”或“crRNA重复序列”)分子和对应的tracrRNA样(“反式作用CRISPR RNA”或“激活子RNA”或“tracrRNA”)分子。crRNA包括gRNA的DNA靶向区段(单链)和形成gRNA的蛋白质结合区段的dsRNA双链体一半的核苷酸段。定位在DNA靶向区段下游(3')的crRNA尾的实例包括以下、基本上由以下组成或由以下组成:GUUUUAGAGCUAUGCU(SEQ ID NO:51)。本文所公开的DNA靶向区段中的任何区段可以与SEQ ID NO:51的5'端连接以形成crRNA。

对应的tracrRNA(激活子-RNA)包括形成gRNA的蛋白质结合区段的dsRNA双链体另一半的核苷酸段。crRNA的核苷酸段与tracrRNA的核苷酸段互补并且杂交,以形成gRNA的蛋白质结合结构域的dsRNA双链体。如此,可以说每个crRNA具有对应的tracrRNA。示例性tracrRNA序列包括以下、基本上由以下组成或由以下组成:AGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUU(SEQ ID NO:52)、AAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU(SEQ ID NO:121)或GUUGGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(SEQ ID NO:122)。

在需要crRNA和tracrRNA两者的系统中,crRNA和对应的tracrRNA杂交以形成gRNA。在仅需要crRNA的系统中,crRNA可以是gRNA。crRNA另外提供与靶DNA的互补链杂交的单链DNA靶向区段。如果用于细胞内修饰,则给定crRNA或tracrRNA分子的确切序列可以被设计成对将使用RNA分子的物种具有特异性。参见例如Mali等人(2013)《科学》339(6121):823-826;Jinek等人(2012)《科学》337(6096):816-821;Hwang等人(2013)《自然生物技术》31(3):227-229;Jiang等人(2013)《自然生物技术》31(3):233-239;以及Cong等人(2013)《科学》339(6121):819-823,所述文献中的每个文献出于所有目的通过引用整体并入本文。

给定gRNA的DNA靶向区段(crRNA)包括与靶DNA的互补链上的序列互补的核苷酸序列,如以下更详细描述的。gRNA的DNA靶向区段通过杂交(即,碱基配对)以序列特异性方式与靶DNA相互作用。如此,DNA靶向区段的核苷酸序列可能会有所不同,并确定将会与gRNA和靶DNA相互作用的靶DNA内的位置。可以修饰主题gRNA的DNA靶向区段以与靶DNA内的任何期望序列杂交。天然存在的crRNA根据CRISPR/Cas系统和生物体的不同而有所不同,但通常含有21到72个核苷酸长度的靶向区段,侧接有长度为21至46个核苷酸的两个直接重复序列(DR)(参见例如WO 2014/131833,所述文献出于所有目的通过引用整体并入本文)。在酿脓链球菌的情况下,DR的长度为36个核苷酸并且靶向区段的长度为30个核苷酸。定位在3'处的DR与对应的tracrRNA互补并杂交,进而与Cas蛋白结合。

DNA靶向区段的长度可以为例如至少约12个、15个、17个、18个、19个、20个、25个、30个、35个或40个核苷酸。此类DNA靶向区段的长度可以为例如约12个到约100个、约12个到约80个、约12个到约50个、约12个到约40个、约12个到约30个、约12个到约25个或约12个到约20个核苷酸。例如,DNA靶向区段可以为约15个到约25个核苷酸(例如,约17个到约20个核苷酸或约17个、18个、19个或20个核苷酸)。参见例如US2016/0024523,所述文献出于所有目的通过引用整体并入本文。对于来自酿脓链球菌的Cas9,典型的DNA靶向区段的长度在16个与20个核苷酸之间或者17个与20个核苷酸之间。对于来自金黄色葡萄球菌的Cas9,典型的DNA靶向区段的长度在21个与23个核苷酸之间。对于Cpf1,典型的DNA靶向区段的长度为至少16个核苷酸或至少18个核苷酸。

TracrRNA可以呈任何形式(例如,全长tracrRNA或活化部分tracrRNA)并具有不同长度。其可以包含初级转录物或经处理的形式。例如,tracrRNA(作为单向导RNA的一部分,或作为双分子gRNA的一部分的单独分子)可以包括以下、基本上由以下组成或由以下组成:野生型tracrRNA序列的全部或一部分(例如,野生型tracrRNA序列的约或大于约20个、26个、32个、45个、48个、54个、63个、67个、85个或更多个核苷酸)。来自酿脓链球菌的野生型tracrRNA序列的实例包含171-核苷酸、89-核苷酸、75-核苷酸和65-核苷酸版本。参见例如Deltcheva等人(2011)《自然》471(7340):602-607;WO 2014/093661,所述文献中的每个文献出于所有目的通过引用整体并入本文。单向导RNA(sgRNA)内的tracrRNA的实例包含在+48、+54、+67和+85版本的sgRNA中发现的tracrRNA区段,其中“+n”指示野生型tracrRNA的至多+n个核苷酸包含在sgRNA中。参见US 8,697,359,所述文献出于所有目的通过引用整体并入本文。

向导RNA的DNA靶向区段与靶DNA的互补链之间的互补性百分比可以为至少60%(例如,至少65%、至少70%、至少75%、至少80%、至少85%、至少90%、至少95%、至少97%、至少98%、至少99%或100%)。DNA靶向区段与靶DNA的互补链之间的互补性百分比在约20个连续核苷酸上可以为至少60%。作为实例,DNA靶向区段与靶DNA的互补链之间的互补性百分比在靶DNA的互补链的5'端处的14个连续核苷酸上可以为100%,并且在剩余部分上低至0%。在这种情况下,可以认为DNA靶向区段的长度为14个核苷酸。作为另一个实例,DNA靶向区段与靶DNA的互补链之间的互补性百分比在靶DNA的互补链的5'端处的七个连续核苷酸上可以为100%,并且在剩余部分上低至0%。在这种情况下,可以认为DNA靶向区段的长度为7个核苷酸。在一些向导RNA中,DNA靶向区段内的至少17个核苷酸与靶DNA的互补链互补。例如,DNA靶向区段的长度可以为20个核苷酸,并且可以包括与靶DNA的互补链的1个、2个或3个错配。在一个实例中,错配不与对应于前间区序列邻近基序(PAM)序列的互补链的区域(即,PAM序列的反向互补序列)邻近(例如,错配位于向导RNA的DNA靶向区段的5'端,或者错配与对应于PAM序列的互补链的区域相距至少2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个或19个碱基对)。

gRNA的蛋白质结合区段可以包括两个彼此互补的核苷酸段。蛋白质结合区段的互补核苷酸杂交以形成双链RNA双链体(dsRNA)。主题gRNA的蛋白质结合区段与Cas蛋白相互作用,并且gRNA通过DNA靶向区段将结合的Cas蛋白引导到靶DNA内的具体核苷酸序列。

单向导RNA可以包括DNA靶向区段和支架序列(即,向导RNA的蛋白质结合序列或Cas结合序列)。例如,此类向导RNA可以具有连接到3'支架序列的5'DNA靶向区段。示例性支架序列包括以下、基本上由以下组成或由以下组成:GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCU(第1版;SEQ ID NO:53);GUUGGAACCAUUCAAAACAGCAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(第2版;SEQ ID NO:54);GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(第3版;SEQ ID NO:55);GUUUAAGAGCUAUGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGC(版本4;SEQ ID NO:56);以及GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUUU(第5版;SEQ ID NO:57);GUUUUAGAGCUAGAAAUAGCAAGUUAAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUU(第6版;SEQ ID NO:123);或GUUUAAGAGCUAUGCUGGAAACAGCAUAGCAAGUUUAAAUAAGGCUAGUCCGUUAUCAACUUGAAAAAGUGGCACCGAGUCGGUGCUUUUUU(第7版;SEQ ID NO:124)。靶向本文所公开的向导RNA靶序列中的任何序列的向导RNA可以包含例如与向导RNA的3'端上的示例性向导RNA支架序列中的任何序列融合的向导RNA的5'端上的DNA靶向区段。也就是说,本文所公开的DNA靶向区段中的任何区段可以与以上支架序列中的任一个支架序列的5'端连接以形成单个向导RNA(嵌合向导RNA)。

向导RNA可以包含提供另外的期望特征的修饰或序列(例如,经修饰的或经调节的稳定性;亚细胞靶向;用荧光标记追踪;蛋白质或蛋白质复合物的结合位点;等等)。此类修饰的实例包含例如5'封端(例如,7-甲基鸟苷酸封端(m7G));3'聚腺苷酸化尾部(即,3'poly(A)尾部);核糖开关序列(例如,允许蛋白质和/或蛋白质复合物调节稳定性和/或调节可及性);稳定性控制序列;形成dsRNA双链体(即,发夹)的序列;将RNA靶向亚细胞位置(例如,细胞核、线粒体、叶绿体等)的修饰或序列;提供追踪(例如,与荧光分子直接缀合、与促进荧光检测的部分缀合、允许荧光检测的序列等)的修饰或序列;为蛋白质(例如,作用于DNA的蛋白质,包含转录激活子、转录抑制子、DNA甲基转移酶、DNA去甲基化酶、组蛋白乙酰转移酶、组蛋白去乙酰化酶等)提供结合位点的修饰或序列;以及其组合。修饰的其它实例包含工程化茎环双链体结构、工程化凸起区域、茎环双链体结构的工程化发夹3'或其任何组合。参见例如US 2015/0376586,所述文献出于所有目的通过引用整体并入本文。凸起可以是由crRNA样区域和最小tracrRNA样区域构成的双链体内的核苷酸的未配对区域。凸起可以在双链体的一侧包括未配对的5'-XXXY-3',其中X是任何嘌呤并且Y可以是可以与相反链上的核苷酸形成摆动对的核苷酸,以及双链体的另一侧上的未配对的核苷酸区域。

未经修饰的核酸可以易于降解。外源核酸还可以诱导先天免疫应答。修饰可以有助于引入稳定性并降低免疫原性。向导RNA可以包括经修饰的核苷和经修饰的核苷酸,包含例如以下中的一种或多种:(1)磷酸二酯主链键中的非连接磷酸氧基中的一者或两者和/或连接磷酸氧基中的一个或多个的改变或替换;(2)核糖糖的成分的改变或替换,如核糖糖上的2'羟基的改变或替换;(3)用脱磷酸接头替换磷酸部分;(4)天然存在的核碱基的修饰或替换;(5)磷酸核糖主链的替换或修饰;(6)寡核苷酸的3'端或5'端的修饰(例如,末端磷酸基团的去除、修饰或替换或部分的缀合);以及(7)糖的修饰。其它可能的向导RNA修饰包含尿嘧啶或聚尿嘧啶束的修饰或替换。参见例如WO 2015/048577和US 2016/0237455,所述文献中的每个文献出于所有目的通过引用整体并入本文。可以对如Cas mRNA等Cas编码核酸进行类似的修饰。例如,可以通过使用同义密码子耗尽尿苷来修饰Cas mRNA。

作为一个实例,向导RNA的5'或3'端处的核苷酸可以包含硫代磷酸酯键(例如,碱基可以具有经修饰的磷酸酯基团,即硫代磷酸酯基团)。例如,向导RNA可以在向导RNA的5'或3'端处的2个、3个或4个末端核苷酸之间包含硫代磷酸酯键。作为另一个实例,向导RNA的5'和/或3'端的核苷酸可以具有2'-O-甲基修饰。例如,向导RNA可以在向导RNA的5'和/或3'端(例如,5'端)的2个、3个或4个末端核苷酸处包含2'-O-甲基修饰。参见例如WO 2017/173054A1和Finn等人(2018)《细胞报告(Cell Rep.)》22(9):2227-2235,所述文献中的每个文献出于所有目的通过引用整体并入本文。在一个具体实例中,向导RNA包括前三个5'和3'端RNA残基处的2'-O-甲基类似物和3'硫代磷酸酯核苷酸间键。在另一个具体实例中,向导RNA被修饰,使得所有不与Cas9蛋白相互作用的2'OH基团被2'-O-甲基类似物替换,并且与Cas9蛋白的相互作用最小的向导RNA的尾部区域用5'和3'硫代磷酸酯核苷酸间键修饰。另外,DNA靶向区段在某些碱基上也有2'-氟修饰。参见例如Yin等人(2017)《自然生物技术》35(12):1179-1187,所述文献出于所有目的通过引用整体并入本文。经修饰的向导RNA的其它实例例如在WO 2018/107028 A1中提供,所述文献出于所有目的通过引用整体并入本文。例如,此类化学修饰可以为向导RNA提供更高的稳定性和免受核酸外切酶影响的保护性,使其在细胞内的存留时间比未经修饰的向导RNA更长。例如,此类化学修饰还可以防止先天的细胞内免疫应答,所述先天的细胞内免疫应答可以主动降解RNA或触发导致细胞死亡的免疫级联反应。

向导RNA可以以任何形式提供。例如,gRNA可以以RNA的形式提供,作为两个分子(单独的crRNA和tracrRNA)或作为一个分子(sgRNA),并且任选地以与Cas蛋白的复合物的形式提供。gRNA还可以以对gRNA进行编码的DNA的形式提供。对gRNA进行编码的DNA可以对单个RNA分子(sgRNA)或单独的RNA分子(例如,单独的crRNA和tracrRNA)进行编码。在后一种情况下,对gRNA进行编码的DNA可以作为一个DNA分子或作为分别对crRNA和tracrRNA进行编码的单独的DNA分子提供。

当gRNA以DNA的形式提供时,gRNA可以在细胞中瞬时地、有条件地或组成性地表达。对gRNA进行编码的DNA可以稳定地整合到细胞的基因组中,并且可操作地连接到在细胞中具有活性的启动子。可替代地,对gRNA进行编码的DNA可以可操作地连接到表达构建体中的启动子。例如,对gRNA进行编码的DNA可以在包括异源核酸的载体中,如对Cas蛋白进行编码的核酸。可替代地,其可以在与包括对Cas蛋白进行编码的核酸的载体分离的载体或质粒中。可以在此类表达构建体中使用的启动子包含例如在真核细胞、人细胞、非人细胞、哺乳动物细胞、非人哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、多能细胞、胚胎干(ES)细胞、成体干细胞、发育受限的祖细胞、诱导多能干(iPS)细胞或单细胞阶段胚胎中的一个或多个中具有活性的启动子。此类启动子可以是例如条件型启动子、诱导型启动子、组成型启动子或组织特异性启动子。此类启动子还可以是例如双向启动子。合适的启动子的具体实例包含RNA聚合酶III启动子,如人U6启动子、大鼠U6聚合酶III启动子或小鼠U6聚合酶III启动子。在另一个实例中,小tRNA Gln可以用于驱动向导RNA的表达。

可替代地,可以通过各种其它方法制备gRNA。例如,可以使用例如T7 RNA聚合酶通过体外转录来制备gRNA(参见例如WO 2014/089290和WO 2014/065596,所述文献中的每个文献出于所有目的通过引用整体并入本文)。向导RNA还可以是通过化学合成制备的合成产生的分子。例如,向导RNA可以化学合成为在前三个5'和3'端RNA残基处包含2'-O-甲基类似物和3'硫代磷酸酯核苷酸间键。

向导RNA(或对向导RNA进行编码的核酸)可以在包括一种或多种向导RNA(例如,1种、2种、3种、4种或更多种向导RNA)和增加向导RNA稳定性(例如,延长在给定储存条件(例如,-20℃、4℃或环境温度)下降解产物保持在阈值以下的时间,如低于起始核酸或蛋白质重量的0.5%;或增加体内稳定性)的载体的组合物中。此类载体的非限制性实例包含聚乳酸(PLA)微球体、聚(D,L-乳酸-乙醇酸共聚物)(PLGA)微球体、脂质体、胶束、反胶束、脂质螺旋体和脂质微管。此类组合物可以进一步包括Cas蛋白,如Cas9蛋白或对Cas蛋白进行编码的核酸。

c.向导RNA靶序列

向导RNA的靶DNA包含存在于DNA中的核酸序列,所述核酸序列将与gRNA的DNA靶向区段结合,前提是存在足够的结合条件。合适的DNA/RNA结合条件包含通常存在于细胞中的生理条件。其它合适的DNA/RNA结合条件(例如,无细胞系统中的条件)在本领域是已知的(参见例如《分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual)》,第3版(Sambrook等人,港湾实验室出版社(Harbor Laboratory Press 2001)),所述文献出于所有目的通过引用整体并入本文)。与gRNA互补并杂交的靶DNA链可以被称为“互补链”,并且与“互补链”互补(并且因此不与Cas蛋白或gRNA互补)的靶DNA链可以被称为“非互补链”或“模板链”。

靶DNA包含与向导RNA杂交的互补链上的序列和非互补链上的对应序列(例如,与前间区序列邻近基序(PAM)邻近)。除非另有说明,否则如本文所使用的术语“向导RNA靶序列”具体指与向导RNA在互补链上杂交(即,反向互补)的序列对应的非互补链上的序列。也就是说,向导RNA靶序列是指与PAM邻近(例如,在Cas9的情况下在PAM的上游或5')的非互补链上的序列。向导RNA靶序列等同于向导RNA的DNA靶向区段,但具有胸腺嘧啶而不是尿嘧啶。作为一个实例,SpCas9酶的向导RNA靶序列可以指非互补链上的5'-NGG-3'PAM上游的序列。向导RNA被设计成与靶DNA的互补链互补,其中向导RNA的DNA靶向区段与向导DNA的互补链之间的杂交促进了CRISPR复合物的形成。如果有足够的互补性来引起杂交并促进CRISPR复合物的形成,则不一定需要完全互补。如果向导RNA在本文中被称为靶向向导RNA靶序列,则意味着向导RNA与靶DNA的互补链序列杂交,所述互补链序列是非互补链上的向导RNA靶序列的反向互补序列。

靶DNA或向导RNA靶序列可以包括任何多核苷酸,并且可以定位在例如细胞的细胞核或细胞质中或者细胞的细胞器如线粒体或叶绿体内。靶DNA或向导RNA靶序列可以是细胞内源或外源的任何核酸序列。向导RNA靶序列可以是编码基因产物(例如,蛋白质)的序列或非编码序列(例如,调节序列)或者可以包含两者。

Cas蛋白对靶DNA的位点特异性结合和切割可以在由(i)向导RNA与靶DNA的互补链之间的碱基配对互补性和(ii)在靶DNA的非互补链中被称为前间区序列邻近基序(PAM)的短基序决定的位置处发生。PAM可以侧接向导RNA靶序列。任选地,向导RNA靶序列的3'端上可以侧接有PAM(例如,对于Cas9)。可替代地,向导RNA靶序列的5'端上可以侧接有PAM(例如,对于Cpf1)。例如,Cas蛋白的切割位点可以在PAM序列上游或下游(例如,在向导RNA靶序列内)约1到约10或约2到约5个碱基对(例如,3个碱基对)处。在SpCas9的情况下,PAM序列(即,在非互补链上)可以是5'-N1GG-3',其中N1是任何DNA核苷酸,并且其中PAM是靶DNA的非互补链上的向导RNA靶序列的紧接着的3'。如此,对应于互补链上的PAM的序列(即,反向互补序列)将是5'-CCN2-3',其中N2是任何DNA核苷酸,并且是向导RNA的DNA靶向区段在靶DNA的互补链上杂交的序列的紧接着的5'。在一些这种情况下,N1和N2可以互补,并且N1-N2碱基对可以是任何碱基对(例如,N1=C和N2=G;N1=G和N2=C;N1=A和N2=T;或N1=T和N2=A)。在来自金黄色葡萄球菌的Cas9的情况下,PAM可以是NNGRRT或NNGRR,其中N可以是A、G、C或T,并且R可以是G或A。在来自空肠弯曲菌的Cas9的情况下,PAM可以是例如NNNNACAC或NNNNRYAC,其中N可以是A、G、C或T,并且R可以是G或A。在一些情况下(例如,对于FnCpf1),PAM序列可以位于5'端上游并且具有序列5'-TTN-3'。

向导RNA靶序列的实例是紧接在由SpCas9蛋白识别的NGG基序之前的20个核苷酸的DNA序列。例如,向导RNA靶序列加PAM的两个实例是GN19NGG(SEQ ID NO:58)或N20NGG(SEQID NO:59)。参见例如WO 2014/165825,所述文献出于所有目的通过引用整体并入本文。5'端处的鸟嘌呤可以促进细胞中RNA聚合酶的转录。向导RNA靶序列加PAM的其它实例可以包含5'端处的两个鸟嘌呤核苷酸(例如,GGN20NGG;SEQ ID NO:60)以促进T7聚合酶的体外高效转录。参见例如WO 2014/065596,所述文献出于所有目的通过引用整体并入本文。其它向导RNA靶序列加PAM可以具有长度为4-22个核苷酸的SEQ ID NO:58-60,包含5'G或GG和3'GG或NGG。又其它向导RNA靶序列加PAM可以具有长度为14与20个核苷酸之间的SEQ ID NO:58-60。

靶向白蛋白基因的向导RNA可以靶向例如白蛋白基因的第一内含子或与白蛋白基因的第一内含子邻近的序列(例如,在白蛋白基因的第一外显子或第二外显子中)。

与靶DNA杂交的CRISPR复合物的形成可以导致靶DNA的一条或两条链在对应于向导RNA靶序列(即,靶DNA的非互补链上的向导RNA靶序列和与向导RNA杂交的互补链上的反向互补序列)的区域内或附近发生切割。例如,切割位点可以在向导RNA靶序列内(例如,在相对于PAM序列的限定位置处)。“切割位点”包含Cas蛋白产生单链断裂或双链断裂的靶DNA的位置。切割位点可以仅在一条链上(例如,当使用切口酶时)或者在双链DNA的两条链上。切割位点可以在两条链上的相同位置处(产生平端;例如Cas9)或者可以在每条链上的不同位点处(产生交错端(即,突出端);例如,Cpf1)。例如,可以通过使用两种Cas蛋白产生交错端,所述两种蛋白的每一种在不同链上的不同切割位点处产生单链断裂,由此产生双链断裂。例如,第一切口酶可以在双链DNA(dsDNA)的第一链上产生单链断裂,并且第二切口酶可以在dsDNA的第二链上产生单链断裂,使得产生突出序列。在一些情况下,第一链上的切口酶的向导RNA靶序列或切割位点与第二链上的切口酶的向导RNA靶序列或切割位点相隔至少2个、3个、4个、5个、6个、7个、8个、9个、10个、15个、20个、25个、30个、40个、50个、75个、100个、250个、500个或1,000个碱基对。

2.其它核酸酶试剂和核酸酶试剂的靶序列

可以在本文所公开的方法和组合物中使用在期望靶序列中诱导切口或双链断裂的任何核酸酶试剂。可以采用天然存在的或自然的核酸酶试剂,只要所述核酸酶试剂在期望靶序列处诱导切口或双链断裂即可。可替代地,可以采用经修饰的或工程化的核酸酶试剂。“工程化核酸酶试剂”包含从其自然形式工程化(修饰或衍生)以特异性识别和诱导期望靶序列中的切口或双链断裂的核酸酶。因此,工程化核酸酶试剂可以源自自然的、天然存在的核酸酶试剂,或者可以人工产生或合成。例如,工程化核酸酶可以在靶序列中诱导切口或双链断裂,其中靶序列不是可以被自然(非工程化或非修饰的)核酸酶试剂识别的序列。核酸酶试剂的修饰可以仅仅是蛋白质切割剂中的一个氨基酸或核酸切割剂中的一个核苷酸。在靶序列或其它DNA处产生切口或双链断裂在本文中可以被称为“切断(cutting)”或“切割(cleaving)”靶序列或其它DNA。

还提供了示例性靶序列的活性变体和片段。此类活性变体可以与给定靶序列具有至少65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性,其中活性变体保留生物活性并因此能够以序列特异性方式被核酸酶试剂识别和切割。通过核酸酶试剂测量靶序列双链断裂的测定在本领域是已知的(例如,qPCR测定,Frendewey等人(2010)《酶学方法(Methods in Enzymology)》476:295-307,所述文献出于所有目的通过引用整体并入本文)。

核酸酶试剂的靶序列可以定位在靶基因座中或附近的任何位置。靶序列可以定位在基因的编码区内,或者在影响基因表达的调节区内。核酸酶试剂的靶序列可以定位在内含子、外显子、启动子、增强子、调节区或任何非蛋白质编码区中。可替代地,靶序列可以定位在对选择标志物进行编码的多核苷酸内。这种位置可以定位在选择标志物的编码区内或调节区内,这会影响选择标志物的表达。因此,核酸酶试剂的靶序列可以定位在选择标志物的内含子、启动子、增强子、调节区或对选择标志物进行编码的多核苷酸的任何非蛋白质编码区中。靶序列处的切口或双链断裂会破坏选择标志物的活性,并且用于测定功能选择标志物存在与否的方法是已知的。

一种类型的核酸酶试剂是转录激活子样效应物核酸酶(TALEN)。TAL效应物核酸酶是一类序列特异性核酸酶,其可以用于在原核或真核生物基因组中的具体靶序列处使双链断裂。通过将自然或工程化转录激活子样(TAL)效应物或其功能部分与例如FokI等核酸内切酶的催化结构域融合来产生TAL效应物核酸酶。独特的模块化TAL效应物DNA结合结构域允许具有潜在地任何给定DNA识别特异性的蛋白质的设计。因此,TAL效应物核酸酶的DNA结合结构域可以被工程化为识别具体的DNA靶位点,并且因此用于在期望靶序列处使双链断裂。参见WO 2010/079430;Morbitzer等人(2010)《美国国家科学院院刊(Proc.Natl.Acad.Sci.U.S.A.)》107(50):21617-21622;Scholze和Boch(2010)《毒力(Virulence)》1:428-432;Christian等人《遗传学(Genetics)》(2010)186:757-761;Li等人(2010)《核酸研究》(2010)doi:10.1093/nar/gkq704;以及Miller等人(2011)《自然生物技术》29:143-148,所述文献中的每个文献出于所有目的通过引用整体并入本文。

合适的TAL核酸酶的实例和用于制备合适的TAL核酸酶的方法公开于例如US2011/0239315 A1、US 2011/0269234 A1、US 2011/0145940 A1、US 2003/0232410 A1、US2005/0208489 A1、US 2005/0026157 A1、US 2005/0064474 A1、US 2006/0188987 A1和US2006/0063231 A1中,所述文献中的每个文献出于所有目的通过引用整体并入本文。在各个实施例中,TAL效应物核酸酶被工程化为在例如所关注的基因座或所关注的基因组基因座中的靶核酸序列中或附近切断,其中靶核酸序列位于将由靶向载体修饰的序列处或附近。适合与本文所提供的各种方法和组合物一起使用的TAL核酸酶包含那些专门设计成在将由如本文所述的靶向载体修饰的靶核酸序列处或附近结合的核酸酶。

在一些TALEN中,TALEN的每个单体包括通过两个高变残基识别单个碱基对的33-35个TAL重复序列。在一些TALEN中,核酸酶试剂是包括可操作地连接到如FokI核酸内切酶等独立核酸酶的基于TAL重复序列的DNA结合结构域的嵌合蛋白。例如,核酸酶试剂可以包括第一基于TAL重复序列的DNA结合结构域和第二基于TAL重复序列的DNA结合结构域,其中第一和第二基于TAL重复序列的DNA结合结构域中的每一个可操作地连接到FokI核酸酶,其中第一和第二基于TAL重复序列的DNA结合结构域识别由不同长度(12-20bp)的间隔序列隔开的靶DNA序列的每条链中的两个连续靶DNA序列,并且其中FokI核酸酶亚基发生二聚化以产生在靶序列处使双链断裂的活性核酸酶。

在本文所公开的各种方法和组合物中采用的核酸酶试剂可以进一步包括锌指核酸酶(ZFN)。在一些ZFN中,ZFN的每个单体包括3个或更多个基于锌指的DNA结合结构域,其中每个基于锌指的DNA结合结构域与3bp亚位点结合。在其它ZFN中,ZFN是包括可操作地连接到如FokI核酸内切酶等独立核酸酶的基于锌指的DNA结合结构域的嵌合蛋白。例如,核酸酶试剂可以包括第一ZFN和第二ZFN,其中第一ZFN和第二ZFN中的每一个可操作地连接到FokI核酸酶亚基,其中第一和第二ZFN识别由约5-7bp间隔区隔开的靶DNA序列的每条链中的两个连续靶DNA序列,并且其中FokI核酸酶亚基发生二聚化以产生使双链断裂的活性核酸酶。参见例如US20060246567;US20080182332;US20020081614;US20030021776;WO/2002/057308A2;US20130123484;US20100291048;WO/2011/017293A2;以及Gaj等人(2013)《生物技术趋势(Trends Biotechnol.)》31(7):397-405,所述文献中的每个文献出于所有目的通过引用整体并入本文。

还提供了核酸酶试剂的活性变体和片段(即,工程化核酸酶试剂)。此类活性变体可以与自然核酸酶试剂具有至少65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或更多的序列同一性,其中活性变体保留在期望靶序列处切断的能力,并且因此保留切口或双链断裂诱导活性。例如,本文所述的核酸酶试剂中的任何核酸酶试剂可以由自然核酸内切酶序列修饰,并设计成在自然核酸酶试剂未识别的靶序列处识别和诱导切口或双链断裂。因此,一些工程化核酸酶具有在不同于对应自然核酸酶试剂靶序列的靶序列处诱导切口或双链断裂的特异性。对切口或双链断裂诱导活性的测定是已知的,并且通常测量核酸内切酶在含有靶序列的DNA底物上的整体活性和特异性。

核酸酶试剂可以通过本领域已知的任何方式引入到细胞中。对核酸酶试剂进行编码的多肽可以被直接引入到细胞中。可替代地,对核酸酶试剂进行编码的多核苷酸可以被引入到细胞中。当对核酸酶试剂进行编码的多核苷酸被引入到细胞中时,核酸酶试剂可以在细胞内瞬时地、有条件地或组成性地表达。因此,对核酸酶试剂进行编码的多核苷酸可以包含在表达盒中并且可操作地连接到条件型启动子、诱导型启动子、组成型启动子或组织特异性启动子。此类所关注的启动子在本文别处进一步详细讨论。可替代地,核酸酶试剂作为对核酸酶试剂进行编码的mRNA被引入到细胞中。

对核酸酶试剂进行编码的多核苷酸可以稳定地整合在细胞的基因组中,并且可操作地连接到在细胞中具有活性的启动子。可替代地,对核酸酶试剂进行编码的多核苷酸可以在靶向载体中(例如,包括插入多核苷酸的靶向载体,或者在从包括插入多核苷酸的靶向载体中分离出的载体或质粒中)。

当通过引入对核酸酶试剂进行编码的多核苷酸向细胞提供核酸酶试剂时,可以修饰这种对核酸酶试剂进行编码的多核苷酸以取代与对核酸酶试剂进行编码的天然存在的多核苷酸序列相比在所关注的细胞中具有更高使用频率的密码子。例如,可以修饰对核酸酶试剂进行编码的多核苷酸以取代与天然存在的多核多核苷酸序列相比在包含细菌细胞、酵母细胞、人细胞、非人细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞或任何其它所关注的宿主细胞的给定所关注原核或真核细胞中具有更高使用频率的密码子。

术语“核酸酶试剂的靶序列”包含核酸酶试剂在其中诱导切口或双链断裂的DNA序列。核酸酶试剂的靶序列可以是细胞内源的(或自然的),或者靶序列可以是细胞外源的。细胞外源性靶序列并非天然存在于细胞的基因组中。靶序列还可以对于期望定位在靶基因座处的所关注的多核苷酸是外源的。在一些情况下,靶序列在宿主细胞的基因组中仅存在一次。

靶序列的长度可以变化,并且包含例如对于锌指核酸酶(ZFN)对约30-36bp(即,对于每个ZFN约15-18bp)、对于转录激活子样效应物核酸酶(TALEN)约36bp或对于CRISPR/Cas9向导RNA约20bp的靶序列。

B.外源供体核酸和抗原结合蛋白编码序列

1.外源供体核酸

本文所公开的方法和组合物利用外源供体核酸在用如Cas蛋白等核酸酶试剂切割靶基因组基因座后修饰靶基因组基因座(例如,基因组基因座或安全港基因座)。

在此类方法中,Cas蛋白切割靶基因组基因座以产生单链断裂(切口)或双链断裂,并且切割或切口基因座由外源供体核酸通过非同源末端接合(NHEJ)介导的连接或同源定向修复来修复。任选地,用外源供体核酸进行修复去除或破坏了核酸酶靶序列,使得已经靶向的等位基因不能被核酸酶试剂重新靶向。

外源供体核酸可以靶向如白蛋白基因座等基因组基因座或安全港基因座中的任何序列。一些外源供体核酸包括同源臂。其它外源供体核酸不包括同源臂。外源供体核酸能够通过同源定向修复插入到基因组基因座或安全港基因座中,和/或其能够通过非同源末端接合插入到基因组基因座或安全港基因座中。在一个实例中,外源供体核酸(例如,靶向载体)可以靶向白蛋白基因座的内含子1、内含子12或内含子13。例如,外源供体核酸可以靶向白蛋白基因的内含子1。

外源供体核酸可以包括脱氧核糖核酸(DNA)或核糖核酸(RNA),其可以是单链或双链的,并且其可以呈线性或环状形式。例如,外源供体核酸可以是单链寡脱氧核苷酸(ssODN)。参见例如Yoshimi等人(2016)《自然通讯》7:10431,所述文献出于所有目的通过引用整体并入本文。外源供体核酸可以是裸核酸或者可以通过如AAV等病毒递送。在具体实例中,外源供体核酸可以通过AAV递送并且能够通过非同源末端接合插入到基因组基因座或安全港基因座中(例如,外源供体核酸可以是不包括同源臂的核酸)。

示例性外源供体核酸的长度在约50个核苷酸到约5kb之间或约50个核苷酸到约3kb之间。可替代地,外源供体核酸的长度可以在约1kb到约1.5kb、约1.5kb到约2kb、约2kb到约2.5kb、约2.5kb到约3kb、约3kb到约3.5kb、约3.5kb到约4kb、约4kb到约4.5kb或约4.5kb到约5kb之间。可替代地,外源供体核酸的长度可以为例如不超过5kb、4.5kb、4kb、3.5kb、3kb或2.5kb。

在一个实例中,外源供体核酸是长度在约80个核苷酸与约3kb之间的ssODN。此类ssODN可以在5'端和/或3'端处具有与由核酸酶试剂介导的切割在靶基因组基因座处产生的一个或多个突出端互补的同源臂或短单链区域,例如,每个突出端的长度在约40个核苷酸与约60个核苷酸之间。此类ssODN还可以具有例如各自的长度在约30个核苷酸与100个核苷酸之间的同源臂或互补区。同源臂或互补区可以是对称的(例如,长度为各自40个核苷酸或各自60个核苷酸),或者其可以是不对称的(例如,一个同源臂或互补区的长度为36个核苷酸,并且一个同源臂或互补区的长度为91个核苷酸)。

外源供体核酸可以包含提供另外的期望特征的修饰或序列(例如,经修饰的或经调节的稳定性;用荧光标记跟踪或检测;蛋白质或蛋白质复合物的结合位点;等等)。外源供体核酸可以包括一种或多种荧光标记、纯化标签、表位标签或其组合。例如,外源供体核酸可以包括一个或多个荧光标记(例如,荧光蛋白或其它荧光团或染料),如至少1个、至少2个、至少3个、至少4个或至少5个荧光标记。示例性荧光标记包含荧光团,如荧光素(例如,6-羧基荧光素(6-FAM))、德克萨斯红(Texas Red)、HEX、Cy3、Cy5、Cy5.5、太平洋蓝、5-(和-6)-羧基四甲基罗丹明(TAMRA)和Cy7。多种荧光染料可商购获得,用于标记寡核苷酸(例如,来自整合DNA技术公司(Integrated DNA Technologies))。此类荧光标记(例如,内部荧光标记)可以用于例如检测已经直接整合到经切割的靶核酸中的外源供体核酸,所述经切割的靶核酸具有与外源供体核酸的端相容的突出端。标签或标记可以位于外源供体核酸的5'端、3'端或内部。例如,外源供体核酸可以在5'端与来自整合DNA技术公司(5'700)的IR700荧光团缀合。

本文所公开的外源供体核酸还包括核酸插入物,所述核酸插入物包含要在靶基因组基因座处整合的DNA区段(即,抗原结合蛋白的编码序列)。核酸插入物在靶基因组基因座处的整合会导致所关注的核酸序列到靶基因组基因座的添加或所关注核酸序列在靶基因组基因座处的替换(即,缺失和插入)。一些外源供体核酸被设计成在靶基因组基因座处插入核酸插入物而在靶基因组基因座处没有任何对应的缺失。其它外源供体核酸被设计成在靶基因组基因座处删除所关注的核酸序列并用核酸插入物将其替换。

被删除和/或替换的靶基因组基因座处的核酸插入物或对应的核酸可以具有各种长度。被删除和/或替换的靶基因组基因座处的示例性核酸插入物或对应的核酸的长度在约1个核苷酸到约5kb之间或在约1个核苷酸到约3kb核苷酸之间。例如,被删除和/或替换的靶基因组基因座处的核酸插入物或对应的核酸的长度可以在约1个到约100个、约100个到约200个、约200个到约300个、约300个到约400个、约400个到约500个、约500个到约600个、约600个到约700个、约700个到约800个、约800个到约900个或约900个到约1,000个核苷酸之间。同样地,被删除和/或替换的靶基因组基因座处的核酸插入物或对应的核酸的长度可以在约1kb到约1.5kb、约1.5kb到约2kb、约2kb到约2.5kb、约2.5kb到约3kb、约3kb到约3.5kb、约3.5kb到约4kb、约4kb到约4.5kb、约4.5kb到约5kb之间或更长。

被删除和/或替换的靶基因组基因座处的核酸插入物或对应的核酸可以是如外显子等编码区、如内含子等非编码区、非翻译区或调节区(例如,启动子、增强子或转录抑制子结合元件)或其任何组合。

核酸插入物还可以包括条件等位基因。条件等位基因可以是多功能等位基因,如US2011/0104799中所述,所述文献出于所有目的通过引用整体并入本文。例如,条件等位基因可以包括:(a)相对于基因转录在有义取向上的启动序列;(b)在有义或反义取向上的药物选择盒(DSC);(c)在反义取向上的所关注核苷酸序列(NSI);以及(d)在相反取向上的条件反转模块(COIN,其利用外显子分裂内含子和可逆基因捕获样模块)。参见例如US2011/0104799。条件等位基因可以进一步包括可重组单元,所述可重组单元在暴露于第一重组酶后重组以形成条件等位基因,所述条件等位基因(i)缺少启动序列和DSC;并且(ii)含有有义取向上的NSI和反义取向上的COIN。参见例如US 2011/0104799。

核酸插入物还可以包括对选择标志物进行编码的多核苷酸。可替代地,核酸插入物可能缺少对选择标志物进行编码的多核苷酸。选择标志物可以包含在选择盒中。任选地,选择盒可以是自删除盒。参见例如US 8,697,851和US 2013/0312129,所述文献中的每个文献出于所有目的通过引用整体并入本文。作为实例,自删除盒可以包括可操作地连接到小鼠Prm1启动子的Crei基因(包括对Cre重组酶进行编码的由内含子分开的两个外显子)和可操作地连接到人泛素启动子的新霉素抗性基因。通过采用Prm1启动子,可以在F0动物的雄性生殖细胞中特异性地删除自删除盒。示例性选择标志物包含新霉素磷酸转移酶(neor)、潮霉素B磷酸转移酶(hygr)、嘌呤霉素-N-乙酰转移酶(puror)、杀稻瘟菌素-S脱氨酶(bsrr)、黄嘌呤/鸟嘌呤磷酸核糖转移酶(gpt)或单纯疱疹病毒胸苷激酶(HSV-k)或其组合。对选择标志物进行编码的多核苷酸可以可操作地连接到在被靶向的细胞中具有活性的启动子。启动子的实例在本文别处描述。

核酸插入物还可以包括报告基因。示例性报告基因包含对以下进行编码的基因:荧光素酶、β-半乳糖苷酶、绿色荧光蛋白(GFP)、增强型绿色荧光蛋白(eGFP)、青色荧光蛋白(CFP)、黄色荧光蛋白(YFP)、增强型黄色荧光蛋白(eYFP)、蓝色荧光蛋白(BFP)、增强型蓝色荧光蛋白(eBFP)、DsRed、ZsGreen、MmGFP、mPlum、mCherry、tdTomato、mStrawberry、J-Red、mOrange、mKO、mCitrine、Venus、YPet、祖母绿、CyPet、Cerulean、T-天蓝色和碱性磷酸酶。此类报告基因可以可操作地连接到在被靶向的细胞中具有活性的启动子。启动子的实例在本文别处描述。

核酸插入物还可以包括一种或多种表达盒或缺失盒。给定的盒可以包括所关注的核苷酸序列、对选择标志物进行编码的多核苷酸和报告基因中的一种或多种,以及影响表达的各种调节组分。可以包含的可选择标志物和报告基因的实例在本文别处详细讨论。

核酸插入物可以包括侧接有位点特异性重组靶序列的核酸。可替代地,核酸插入物可以包括一个或多个位点特异性重组靶序列。尽管整个核酸插入物可以侧接有此类位点特异性重组靶序列,但核酸插入物内的任何所关注的区域或个体多核苷酸也可以侧接有此类位点。可以侧接核酸插入物或核酸插入物中的任何所关注的多核苷酸的位点特异性重组靶序列可以包含例如loxP、lox511、lox2272、lox66、lox71、loxM2、lox5171、FRT、FRT11、FRT71、attp、att、FRT、rox或其组合。在一个实例中,位点特异性重组位点侧接对核酸插入物中包含的选择标志物和/或报告基因进行编码的多核苷酸。在靶向基因座处整合核酸插入物后,可以去除位点特异性重组位点之间的序列。任选地,可以使用两种外源供体核酸,每种外源供体核酸具有包括位点特异性重组位点的核酸插入物。外源供体核酸可以靶向侧接所关注的核酸的5'和3'区域。在将两个核酸插入物整合到靶基因组基因座中后,可以去除两个插入的位点特异性重组位点之间的所关注的核酸。

核酸插入物还可以包括一个或多个限制性核酸内切酶(即,限制酶)的限制位点,所述限制性核酸内切酶包含I型、II型、III型和IV型核酸内切酶。I型和III型限制性核酸内切酶识别具体的识别位点,但通常在离核酸酶结合位点可变的位置处进行切割,所述核酸酶结合位点可能与切割位点(识别位点)相距数百个碱基对。在II型系统中,限制活性独立于任何甲基化酶活性,并且切割通常发生在结合位点内或附近的具体位点处。大多数II型酶切断回文序列,然而IIa型酶识别非回文识别位点并在识别位点外部进行切割,IIb型酶用识别位点外部的两个位点切断序列两次,并且IIs型酶识别不对称识别位点并在一侧上以及在距识别位点约1-20个核苷酸的限定距离处进行切割。IV型限制酶靶向甲基化DNA。限制酶例如在REBASE数据库中进一步描述和分类(rebase.neb.com网页;Roberts等人,(2003)《核酸研究》31:418-420;Roberts等人,(2003)《核酸研究》31:1805-1812;以及Belfort等人(2002)《移动DNA II(Mobile DNA II)》,第761-783页,Craigie等人编辑(华盛顿特区ASM出版社))。

a.用于非同源末端接合介导的插入的供体核酸

一些外源供体核酸能够通过非同源末端接合插入到基因组基因座或安全港基因座中。在一些情况下,此类外源供体核酸不包括同源臂。例如,此类外源供体核酸可以在用核酸酶试剂切割后插入到平端双链断裂中。在具体实例中,外源供体核酸可以通过AAV递送并且能够通过非同源末端接合插入到基因组基因座或安全港基因座中(例如,外源供体核酸可以是不包括同源臂的核酸)。

在具体实例中,外源供体核酸可以通过同源非依赖性靶向整合插入。例如,外源供体核酸中的抗原结合蛋白编码序列每一侧上侧接有核酸酶试剂的靶位点(例如,与基因组基因座或安全港基因座中的靶位点相同的靶位点,以及用于切割基因组基因座或安全港基因座中的靶位点的相同核酸酶试剂)。然后核酸酶试剂可以切割侧接抗原结合蛋白编码序列的靶位点。在具体实例中,外源供体核酸通过AAV介导的递送进行递送,并且侧接抗原结合蛋白编码序列的靶位点的切割可以去除AAV的反向末端重复序列(ITR)。在一些方法中,如果抗原结合蛋白编码序列以正确取向插入到基因组基因座或安全港基因座中,则基因组基因座或安全港基因座中的靶位点(例如,包含侧接的前间区序列邻近基序的gRNA靶序列)不再存在,但如果抗原结合蛋白编码序列以相反取向插入到基因组基因座或安全港基因座中,则基因组基因座或安全港基因座中的靶位点被重新形成。这有助于确保抗原结合蛋白编码序列以正确的表达取向插入。

其它外源供体核酸可以在5'端和/或3'端处具有与由核酸酶试剂介导的切割在靶基因组基因座处产生的一个或多个突出端互补的短单链区域。例如,一些外源供体核酸在5'端和/或3'端处具有与由核酸酶介导的切割在靶基因组基因座的5'和/或3'靶序列处产生的一个或多个突出端互补的短单链区域。一些此类外源供体核酸仅在5'端或仅在3'端处具有互补区。例如,一些此类外源供体核酸仅在与靶基因组基因座的5'靶序列处产生的突出端互补的5'端处或者仅在与靶基因组基因座的3'靶序列处产生的突出端互补3'端处具有互补区。其它此类外源供体核酸在5'和3'端两者处都有互补区。例如,其它此类外源供体核酸在5'和3'端两者处都有由核酸酶介导的切割在靶基因组基因座处产生的互补区(例如,分别与第一突出端和第二突出端互补)。例如,如果外源供体核酸是双链的,则单链互补区可以从供体核酸的顶部链的5'端和供体核酸的底部链的5'端延伸,从而在每端产生5'突出端。可替代地,单链互补区可以从供体核酸的顶部链的3'端和模板的底部链的3'端延伸,从而产生3'突出端。

互补区可以具有足以促进外源供体核酸与靶核酸之间的连接的任何长度。示例性互补区的长度在约1个到约5个核苷酸之间、在约1个到约25个核苷酸之间或在约5个到约150个核苷酸之间。例如,互补区的长度可以为至少约1个、2个、3个、4个、5个、6个、7个、8个、9个、10个、11个、12个、13个、14个、15个、16个、17个、18个、19个、20个、21个、22个、23个、24个或25个核苷酸。可替代地,互补区的长度可以为约5个到约10个、约10个到约20个、约20个到约30个、约30个到约40个、约40个到约50个、约50个到约60个、约60个到约70个、约70个到约80个、约80个到约90个、约90个到约100个、约100个到约110个、约110个到约120个、约120个到约130个、约130个到约140个、约140个到约150个核苷酸或更长。

此类互补区可以与由两对切口酶产生的突出端互补。通过使用切割相反的DNA链以产生第一双链断裂的第一切口酶和第二切口酶以及切割相反的DNA链以产生第二双链断裂的第三切口酶和第四切口酶,可以产生具有交错端的两个双链断裂。例如,Cas蛋白可以用于切割与第一、第二、第三和第四向导RNA对应的第一、第二、第三和第四向导RNA靶序列。第一和第二向导RNA靶序列可以被定位成产生第一切割位点,使得第一和第二切口酶在第一和第二DNA链上产生的切口产生双链断裂(即,第一切割位点包括第一和第二向导RNA靶序列内的切口)。同样地,第三和第四向导RNA靶序列可以被定位成产生第二切割位点,使得第三和第四切口酶在第一和第二DNA链上产生的切口产生双链断裂(即,第二切割位点包括第三和第四向导RNA靶序列内的切口)。第一和第二向导RNA靶序列和/或第三和第四向导RNA靶序列内的切口可以是产生突出端的偏移切口。偏移窗口可以为例如至少约5bp、10bp、20bp、30bp、40bp、50bp、60bp、70bp、80bp、90bp、100bp或更多。参见Ran等人(2013)《细胞》154:1380-1389;Mali等人(2013)《自然生物技术》31:833-838;以及Shen等人(2014)《自然方法(Nat.Methods)》11:399-404,所述文献中的每个文献出于所有目的通过引用整体并入本文。在这种情况下,双链外源供体核酸可以被设计成具有单链互补区,所述单链互补区与由第一和第二向导RNA靶序列内的切口以及第三和第四向导RNA靶序列内的切口产生的突出端互补。然后此类外源供体核酸可以通过非同源末端接合介导的连接插入。

b.通过同源导向修复插入的供体核酸

一些外源供体核酸包括同源臂。如果外源供体核酸还包括核酸插入物,则同源臂可以侧接核酸插入物。为了便于参考,同源臂在本文中被称为5'和3'(即,上游和下游)同源臂。此术语涉及同源臂与外源供体核酸内的核酸插入物的相对位置。5'和3'同源臂对应于靶基因组基因座内的区域,所述区域在本文中分别被称为“5'靶序列”和“3'靶序列”。

当同源臂和靶序列彼此共享足够水平的序列同一性时,则这两个区域彼此“对应(correspond或corresponding)”以充当同源重组反应的底物。术语“同源性”包含与对应序列相同或共享序列同一性的DNA序列。给定靶序列与外源供体核酸中存在的对应同源臂之间的序列同一性可以是允许发生同源重组的任何程度的序列同一性。例如,外源供体核酸(或其片段)的同源臂与靶序列(或其片段)所共享的序列同一性的量可以是至少50%、55%、60%、65%、70%、75%、80%、81%、82%、83%、84%、85%、86%、87%、88%、89%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%或100%序列同一性,使得序列经历同源重组。此外,同源臂与对应的靶序列之间对应的同源区域可以具有足以促进同源重组的任何长度。示例性同源臂的长度在约25个核苷酸到约2.5kb之间、约25个核苷酸到约1.5kb之间或约25个到约500个核苷酸之间。例如,给定同源臂(或同源臂中的每个同源臂)和/或对应的靶序列可以包括具有以下长度的对应同源区域:约25个到约30个、约30个到约40个、约40个到约50个、约50个到约60个、约60个到约70个、约70个到约80个、约80个到约90个、约90个到约100个、约100个到约150个、约150个到约200个、约200个到约250个、约250个到约300个、约300个到约350个、约350个到约400个、约400个到约450个或约450个到约500个核苷酸之间,使得同源臂具有足以与靶核酸内对应的靶序列经历同源重组的同源性。可替代地,给定同源臂(或每个同源臂)和/或对应的靶序列可以包括长度为以下的对应同源区域:约0.5kb到约1kb、约1kb到约1.5kb、约1.5kb到约2kb或约2kb到约2.5kb。例如,同源臂各自的长度可以为约750个核苷酸。同源臂可以是对称的(每个臂的长度大约相同)也可以是不对称的(一个臂比另一个臂长)。

当CRISPR/Cas系统或其它核酸酶试剂与外源供体核酸结合使用时,5'和3'靶序列可以定位在足够接近核酸酶切割位点的位置(例如,在足够接近向导RNA靶序列的位置内),以在核酸酶切割位点或核酸酶切割位点处的单链断裂(切口)或双链断裂后促进靶序列与同源臂之间同源重组事件的发生。术语“核酸酶切割位点”包含由核酸酶试剂(例如,与向导RNA复合的Cas9蛋白)在其中产生切口或双链断裂的DNA序列。靶基因座内对应于外源供体核酸的5'和3'同源臂的靶序列“定位在足够接近”核酸酶切割位点的位置,如果这样的距离是为了在核酸酶切割位点处的单链断裂或双链断裂后促进5'和3'靶序列与同源臂之间同源重组事件的发生。因此,对应于外源供体核酸的5'和/或3'同源臂的靶序列可以例如在给定核酸酶切割位点的至少1个核苷酸内,或在给定核酸酶切割位点的至少10个核苷酸到约1,000个核苷酸内。作为实例,核酸酶切割位点可以紧邻靶序列的至少一个或两个靶序列。

对应于外源供体核酸的同源臂和核酸酶切割位点的靶序列的空间关系可以变化。例如,靶序列可以定位到核酸酶切割位点的5',靶序列可以定位到核酸酶切割位点的3',或者靶序列可以侧接核酸酶切割位点。

2.抗原结合蛋白

本文所公开的外源供体核酸包括抗原结合蛋白的编码序列。如本文所公开的“抗原结合蛋白”包含与抗原结合的任何蛋白质。抗原结合蛋白的实例包含抗体、抗体的抗原结合片段、多特异性抗体(例如,双特异性抗体)、scFV、双-scFV、双抗体、三抗体、四抗体、V-NAR、VHH、VL、F(ab)、F(ab)2、DVD(双可变结构域抗原结合蛋白)、SVD(单可变结构域抗原结合蛋白)、双特异性T细胞衔接蛋白(BiTE)或戴维斯体(美国专利第8,586,713号,所述文献出于所有目的通过引用整体并入本文)。

术语“抗体”包含包括通过二硫键相互连接的四个多肽链、两个重(H)链和两个轻(L)链的免疫球蛋白分子。每个重链包括重链可变结构域和重链恒定区(CH)。重链恒定区包括三个结构域:CH1、CH2和CH3。每个轻链包括轻链可变结构域和轻链恒定区(CL)。重链和轻链可变结构域可以进一步细分为穿插有被称为构架区(FR)的更保守区域的被称为互补性决定区(CDR)的高变区。每个重链和轻链可变结构域包括三个CDR和四个FR,其从氨基端到羧基端按以下顺序布置:FR1、CDR1、FR2、CDR2、FR3、CDR3、FR4(重链CDR可以缩写为HCDR1、HCDR2和HCDR3;轻链CDR可以缩写为LCDR1、LCDR2和LCDR3)。术语“高亲和力”抗体是指相对于其靶表位KD约为10-9M或更低(例如,约1×10-9M、1×10-10M、1×10-11M或约1×10-12M)的抗体。在一个实施例中,KD通过表面等离子体共振,例如,BIACORETM来测量;在另一个实施例中,KD通过ELISA来测量。

抗原结合蛋白或抗体可以是例如中和抗原结合蛋白或抗体或者广泛中和抗原结合蛋白或抗体。中和抗体是通过中和细胞的生物学效应来保护细胞免受抗原或感染体侵害的抗体。广泛中和抗体(bNAb)会影响特定细菌或病毒的多个菌株。例如,广泛中和抗体可以集中在保守的功能靶上,从而激发保守细菌或病毒蛋白上的脆弱位点(例如,流感病毒蛋白血凝素上的脆弱位点)。免疫系统在感染或接种疫苗后产生的抗体往往集中在细菌或病毒表面容易接近的环上,所述环通常具有大的序列和构象变异性。这个问题有两个原因:细菌或病毒种群可以迅速躲避这些抗体,并且这些抗体会激发蛋白质中对功能不重要的部分。广泛中和抗体——被称为“广泛”是因为其激发细菌或病毒的许多菌株,并且“中和”是因为其激发细菌或病毒的关键功能位点并阻止感染——可以克服这些问题。然而不幸的是,这些抗体通常出现得太晚而无法提供有效的疾病保护。

本文所公开的抗原结合蛋白可以靶向任何抗原。术语“抗原”是指一种物质,无论是整个分子还是分子内的结构域,其能够引发对所述物质具有结合特异性的抗体的产生。术语抗原还包含在野生型宿主生物体中不会通过自我识别引发抗体产生但可以通过适当的基因工程在宿主动物中引发这种反应以破坏免疫耐受的物质。

作为一个实例,靶向抗原可以是疾病相关抗原。术语“疾病相关抗原”是指其存在与特定疾病的发生或进展相关的抗原。例如,抗原可以在疾病相关蛋白(即,其表达与疾病的发生或进展相关的蛋白)中。任选地,疾病相关蛋白可以是在特定类型的疾病中表达但在健康成人组织中通常不表达的蛋白质(即,具有疾病特异性表达或疾病限制性表达的蛋白质)。然而,疾病相关蛋白不必具有疾病特异性或疾病限制性表达。

作为一个实例,疾病相关抗原可以是癌症相关抗原。术语“癌症相关抗原”是指其存在与一种或多种癌症的发生或进展相关的抗原。例如,抗原可以在癌症相关蛋白(即,其表达与一种或多种癌症的发生或进展相关的蛋白)中。例如,癌症相关型蛋白可以是致癌蛋白(即,具有可能有助于癌症进展的活性的蛋白质,如调节细胞生长的蛋白质),或者其可以是肿瘤抑制蛋白(即,通常用于如通过细胞周期的负调节或通过促进细胞凋亡来减轻癌症形成的可能性的蛋白质)。任选地,癌症相关蛋白可以是在特定类型的癌症中表达但在健康成人组织中通常不表达的蛋白质(即,具有癌症特异性表达、癌症限制性表达、肿瘤特异性表达或肿瘤限制性表达的蛋白质)。然而,癌症相关蛋白不必具有癌症特异性、癌症限制性、肿瘤特异性或肿瘤限制性表达。被认为具有癌症特异性或癌症限制性的蛋白质的实例是癌睾丸抗原或癌胚胎抗原。癌睾丸抗原(CTA)是肿瘤相关抗原的大家族,其在不同组织学来源的人类肿瘤中表达但在除男性生殖细胞之外的正常组织中不表达。在癌症中,这些发育抗原可以重新表达,并且可以作为免疫激活基因座。癌胚胎抗原(OFA)是通常仅在胎儿发育期间存在但在患有某些类型癌症的成年人中发现的蛋白质。

作为另一个实例,疾病相关抗原可以是传染病相关抗原。术语“传染病相关抗原”是指其存在与特定传染病的发生或进展相关的抗原。例如,抗原可以在传染病相关蛋白(即,其表达与传染病的发生或进展相关的蛋白质)中。任选地,传染病相关蛋白可以是在特定类型的传染病中表达但在健康成人组织中通常不表达的蛋白质(即,具有传染病特异性表达或传染病限制性表达的蛋白质)。然而,传染病相关蛋白不必具有传染病特异性或传染病限制性表达。例如,抗原可以是病毒抗原或细菌抗原。此类抗原包含例如被免疫系统识别并能够触发免疫应答的病毒或细菌(例如,病毒蛋白或细菌蛋白)表面上的分子结构。

病毒抗原的实例包含由寨卡病毒或流行性感冒(流感)病毒表达的蛋白质内的抗原。寨卡病毒是一种主要通过受感染的伊蚊(埃及伊蚊和白纹伊蚊)叮咬传播给人类的病毒。怀孕期间感染寨卡病毒会引起小头畸形和其它严重的脑部缺陷。例如,寨卡病毒抗原可以是但不限于寨卡病毒包膜(Env)蛋白内的抗原。流感病毒是一种引起被称为流行性感冒(俗称“流感”)的传染病的病毒。三种类型的流感病毒会影响人,其被称为A型、B型和C型。流感抗原可以是但不限于血凝素蛋白内的抗原。病毒抗原和细菌抗原还包含其它病毒和其它细菌上的抗原。靶向流感血凝素的抗体的实例例如在WO 2016/100807中提供,所述文献出于所有目的通过引用整体并入本文。

细菌抗原的实例包含由铜绿假单胞菌表达的蛋白质内的抗原(例如,III型毒力系统易位蛋白质PcrV内的抗原)。铜绿假单胞菌是一种在危重个体中引起致命的急性肺部感染的机会性细菌病原体。其发病机制与III型分泌系统(TTSS)赋予的细菌毒力相关,铜绿假单胞菌通过所述分泌系统引起肺上皮坏死并扩散到循环中,从而导致菌血症、败血症和死亡。TTSS允许铜绿假单胞菌直接将细胞毒素易位到真核细胞中,从而诱导细胞死亡。铜绿假单胞菌V抗原PcrV是耶尔森菌(Yersinia)V抗原LcrV的同源物,是TTS毒素易位不可或缺的促成因素。

术语“表位”是指抗原结合蛋白(例如,抗体)所结合的抗原上的位点。表位可以由连续氨基酸或通过一种或多种蛋白质的三级折叠而并置的非连续氨基酸形成。由连续氨基酸形成的表位(也被称为线性表位)通常在暴露于变性溶剂时保留,而由三级折叠形成的表位(也被称为构象表位)通常在用变性溶剂处理时丢失。在独特的空间构象中,表位通常包含至少3个(并且更常见地,至少5个或8-10个)氨基酸。确定表位的空间构象的方法包含例如X射线晶体学和2维核磁共振。参见例如,Glenn E.Morris编辑的《分子生物学方法(Methods in Molecular Biology)》第66卷中的《表位作图指南(Epitope MappingProtocols)》(1996),所述文献出于所有目的通过引用整体并入本文。

术语“重链”或“免疫球蛋白重链”包含来自任何生物体的免疫球蛋白重链序列,包含免疫球蛋白重链恒定区序列。除非另有说明,否则重链可变结构域包含三个重链CDR和四个FR区域。重链的片段包含CDR、CDR和FR和其组合。典型的重链在可变结构域(从N端到C端)之后具有CH1结构域、铰合部、CH2结构域和CH3结构域。重链的功能片段包含能够特异性识别表位(例如,识别具有微摩尔、纳摩尔或皮摩尔范围内的KD的表位)、能够从细胞中表达和分泌并且包括至少一个CDR的片段。重链可变结构域由可变区核苷酸序列编码,所述可变区核苷酸序列通常包括源自种系中存在的VH、DH和JH区段库的VH、DH和JH区段。各种生物体的V、D和J重链区段的序列、位置和命名可以在IMGT数据库中找到,所述数据库可以通过互联网在URL为“imgt.org.”的万维网(www)上访问。

术语“轻链”包含来自任何生物体的免疫球蛋白轻链序列,并且除非另有说明,包含人卡巴(κ)和拉姆达(λ)轻链和VpreB,以及替代轻链。除非另有说明,否则轻链可变结构域通常包含三个轻链CDR和四个框架(FR)区域。通常,全长轻链从氨基端到羧基端包含包括FR1-CDR1-FR2-CDR2-FR3-CDR3-FR4的可变结构域和轻链恒定区氨基酸序列。轻链可变结构域由轻链可变区核苷酸序列编码,所述轻链可变区核苷酸序列通常包括源自种系中存在的轻链V和J基因区段库的轻链VL和轻链JL基因区段。各种生物体的轻链V和J基因区段的序列、位置和命名可以在IMGT数据库中找到,所述数据库可以通过互联网在URL为“imgt.org.”的万维网(www)上访问。轻链包含例如不选择性结合第一或第二表位的那些,所述第一或第二表位由其所在的表位结合蛋白选择性结合。轻链还包含结合和识别或协助重链结合和识别一个或多个表位的那些,所述一个或多个表位由其所在的表位结合蛋白选择性结合。

如本文所使用的,术语“互补决定区”或“CDR”包含由生物体免疫球蛋白基因的核酸序列编码的氨基酸序列,所述氨基酸序列通常(即,在野生型动物中)出现在免疫球蛋白分子(例如,抗体或T细胞受体)的轻链或重链可变区中的两个框架区之间。CDR可以由例如种系序列或重排序列以及例如由初始或成熟B细胞或T细胞编码。CDR可以是体细胞突变的(例如,不同于在动物种系中编码的序列)、人源化的和/或用氨基酸取代、添加或缺失修饰的。在一些情况下(例如,对于CDR3),CDR可以由两个或更多个序列(例如,种系序列)编码,所述两个或更多个序列是不连续的(例如,在未重排的核酸序列中)但是例如由于剪接或连接序列的原因(例如,V-D-J重组以形成重链CDR3)在B细胞核酸序列中是连续的。

术语“未重排”包含免疫球蛋白基因座的状态,其中V基因区段和J基因区段(对于重链,D基因区段也是如此)分开保持但能够连接形成包括V(D)J库中的单个V、(D)、J的重排V(D)J基因。术语“重排”包含重链或轻链免疫球蛋白基因座构型,其中V区段在分别编码基本上完整的VH或VL结构域的构象中紧邻D-J或J区段定位。

外源供体核酸中对抗原结合蛋白进行编码的核酸可以是RNA或DNA,可以是单链的或双链的,并且可以是线性的或环状的。其可以是如表达载体或靶向载体等载体的一部分。载体还可以是病毒载体,如腺病毒、腺相关病毒(AAV)、慢病毒和逆转录病毒载体。例如,外源供体核酸可以是如AAV8或AAV2/8等AAV的一部分。

任选地,可以对核酸进行密码子优化以在特定细胞或生物体中将其高效翻译成蛋白质。例如,可以修饰核酸以取代在人细胞、非人细胞、哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞或任何其它所关注的宿主细胞中具有更高使用频率的密码子。

外源供体核酸中的抗原结合蛋白编码序列可以任选地可操作地连接到任何合适的启动子,以在动物体内或细胞体外进行表达。可替代地,外源供体核酸可以被设计成使得其一旦在基因组上整合,抗原结合蛋白编码序列将可操作地连接到基因组基因座或安全港基因座处的内源启动子。动物可以是如本文别处所述的任何合适的动物。启动子可以是组成型活性启动子(例如,CAG启动子或U6启动子)、条件型启动子、诱导型启动子、时间受限启动子(例如,发育调节启动子)或空间受限启动子(例如,细胞特异性或组织特异性启动子)。此类启动子是众所周知的并且在本文别处讨论。可以在表达构建体中使用的启动子包含例如在真核细胞、人细胞、非人细胞、哺乳动物细胞、非人哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、仓鼠细胞、兔细胞、多能细胞、胚胎干(ES)细胞或受精卵中的一个或多个中具有活性的启动子。此类启动子可以是例如条件型启动子、诱导型启动子、组成型启动子或组织特异性启动子。

任选地,启动子可以是驱动一个基因(例如,对轻链进行编码的基因)和另一方向上的第二个基因(例如,对重链进行编码的基因)的表达的双向启动子。此类双向启动子可以由以下组成:(1)含有3个外部控制元件:远侧序列元件(DSE)、近侧端序列元件(PSE)和TATA框的完整的、常规的、单向的Pol III启动子;(2)包含在相反取向上与DSE的5'端融合PSE和TATA盒的第二基本Pol III启动子。例如,在H1启动子中,DSE邻近PSE和TATA框,并且可以通过产生杂合启动子使启动子双向化,其中通过源自U6启动子的附加PSE和TATA盒来控制反向转录。参见例如US 2016/0074535,所述文献出于所有目的通过引用整体并入本文。使用双向启动子同时表达两个基因允许生成紧凑的表达盒以促进递送。

抗原结合蛋白可以是单链抗原结合蛋白,如scFv。可替代地,抗原结合蛋白不是单链抗原结合蛋白。例如,抗原结合蛋白可以包含单独的轻链和重链。重链编码序列可以位于轻链编码序列的上游,或者轻链编码序列可以位于重链编码序列的上游。在一个具体实例中,重链编码序列位于轻链编码序列的上游。例如,重链编码序列可以包括VH、DH和JH区段,并且轻链编码序列可以包括轻链VL和轻链JL基因区段。抗原结合蛋白编码序列可以可操作地连接到外源供体核酸中的外源启动子,或者外源供体核酸可以被设计成使得其一旦在基因组上整合,抗原结合蛋白编码序列将可操作地连接到基因组基因座或安全港基因座处的内源启动子。在一个具体实例中,外源供体核酸可以被设计成使得其一旦在基因组上整合,抗原结合蛋白编码序列将可操作地连接到基因组基因座或安全港基因座处的内源启动子。同样地,外源供体核酸中的抗原结合蛋白编码序列可以包含用于分泌的外源信号序列,和/或外源供体核酸可以被设计成使得其一旦在基因组上整合,抗原结合蛋白编码序列将可操作地连接到基因组基因座或安全港基因座处的内源信号序列。在一个实例中,外源供体核酸可以被设计成使得其一旦在基因组上整合,抗原结合蛋白编码序列将可操作地连接到基因组基因座或安全港基因座处的内源信号序列。在具体实例中,抗原结合蛋白包括单独的轻链和重链,并且外源供体核酸被设计成使得其一旦在基因组上整合,一条链的编码序列将可操作地连接到基因组基因座或安全港基因座处的内源信号序列并且另一条链的编码序列可操作地连接到单独的外源信号序列。在具体实例中,抗原结合蛋白包括单独的轻链和重链,并且外源供体核酸被设计成使得其一旦在基因组上整合,外源供体核酸上游的任一链编码序列将可操作地连接到基因组基因座或安全港基因座处的内源信号序列,并且外源信号序列可操作地连接到外源供体核酸下游的任一链编码序列。可替代地,外源供体核酸可以被设计成使得其一旦在基因组上整合,两条链的编码序列将可操作地连接到基因组基因座或安全港基因座处的内源信号序列,或者两条链的编码序列可以可操作地连接到相同的外源信号序列,或者每条链的编码序列可以可操作地连接到单独的外源信号序列。

信号序列(即,N端信号序列)以信号识别颗粒(SRP)依赖性方式介导新生分泌蛋白和膜蛋白靶向内质网(ER)。通常,信号序列被共翻译切断,从而产生信号肽和成熟蛋白质。可以使用的外源信号序列或信号肽的实例包含例如来自小鼠白蛋白、人白蛋白、小鼠ROR1、人ROR1、人天青杀素、灰仓鼠(Cricetulus griseus)Igκ链V III区域MOPC 63类似物和人Igκ链V III区域VG的信号序列/肽。也可以使用任何其它已知的信号序列/肽。在具体实例中,使用ROR1信号序列。此类信号序列的实例在SEQ ID NO:33(由SEQ ID NO:31或32编码)中示出。

抗原结合蛋白编码序列(例如,重链编码序列和轻链编码序列)中的核酸中的一个或多个核酸可以一起在多顺反子表达构建体中。例如,对重链和轻链进行编码的核酸可以一起在双顺反子表达构建体中。参见例如图1。多顺反子表达载体同时表达来自相同mRNA(即,由相同启动子产生的转录物)的两种或更多种单独的蛋白质。用于蛋白质多顺反子表达的合适策略包含例如使用2A肽和使用内部核糖体进入位点(IRES)。作为一个实例,此类多顺反子载体可以使用一个或多个内部核糖体进入位点(IRES)以允许从mRNA的内部区域引发翻译。作为另一个实例,此类多顺反子载体可以使用一种或多种2A肽。这些肽是长度通常为18-22个氨基酸的小“自切割”肽,并且从相同mRNA产生等摩尔水平的多个基因。核糖体在2A肽的C端跳过甘氨酰-脯氨酰肽键的合成,从而导致2A肽与其直接下游肽之间的“切割”。参见例如Kim等人(2011)《公共科学图书馆·综合》6(4):e18556,所述文献出于所有目的通过引用整体并入本文。“切割”发生在C端上存在的甘氨酸与脯氨酸残基之间,这意味着上游顺反子将在末端添加一些另外的残基,而下游顺反子将从脯氨酸开始。因此,“切断”的下游肽在其N端具有脯氨酸。2A介导的切割是所有真核细胞中的普遍现象。已从小核糖核酸病毒、昆虫病毒和C型轮状病毒中鉴定出2A肽。参见例如Szymczak等人(2005)《生物疗法专家意见》5:627-638,所述文献出于所有目的通过引用整体并入本文。可以使用的2A肽的实例包含:明脉扁刺蛾病毒2A(T2A);猪捷申病毒-1 2A(P2A);A型马鼻炎病毒(ERAV)2A(E2A);以及FMDV 2A(F2A)。示例性T2A、P2A、E2A和F2A序列包含以下:T2A(EGRGSLLTCGDVEENPGP;SEQ ID NO:29);P2A(ATNFSLLKQAGDVEENPGP;SEQ ID NO:25);E2A(QCTNYALLKLAGDVESNPGP;SEQ ID NO:30);以及F2A(VKQTLNFDLLKLAGDVESNPGP;SEQ ID NO:27)。GSG残基可以添加到这些肽中的任何肽的5'端以提高切割效率。

在一些外源供体核酸中,对弗林蛋白酶切割位点进行编码的核酸包含在轻链编码序列与重链编码序列之间。在一些外源供体核酸中,对接头(例如,GSG)进行编码的核酸包含在轻链编码序列与重链编码序列之间(例如,直接位于2A肽编码序列的上游)。例如,弗林蛋白酶切割位点可以包含在2A肽的上游,其中弗林蛋白酶切割位点和2A肽两者都定位在轻链与重链之间(即,上游链-弗林蛋白酶切割位点-2A肽-下游链)。在翻译期间,第一切割事件将发生在2A肽序列处。然而,大部分2A肽将作为残余物连接到上游链的C端(例如,如果轻链位于重链的上游,则为轻链,如果重链位于轻链的上游,则为重链),其中一个氨基酸添加到下游链的N端(或信号序列的N端,如果信号序列包含在下游链的上游)。在弗林蛋白酶切割位点处引发的第二切割事件产生没有2A残余物的上游链,以便通过翻译后加工获得更自然的重链或轻链。

外源供体核酸还可以包括抗原结合蛋白编码序列下游的聚腺苷酸化信号或转录终止子。外源供体核酸还可以包括抗原结合蛋白编码序列上游的聚腺苷酸化信号或转录终止子。抗原结合蛋白编码序列上游的聚腺苷酸化信号或转录终止子可以侧接有由位点特异性重组酶识别的重组酶识别位点。任选地,重组酶识别位点还侧接包括例如耐药蛋白的编码序列的选择盒。任选地,重组酶识别位点不侧接选择盒。聚腺苷酸化信号或转录终止子阻止由编码序列(例如,嵌合Cas蛋白、嵌合衔接蛋白、向导RNA或重组酶)编码的蛋白质或RNA的转录和表达。然而,在暴露于位点特异性重组酶后,聚腺苷酸化信号或转录终止子将被切除,并且可以表达蛋白质或RNA。

如果聚腺苷酸化信号或转录终止子以组织特异性或发育阶段特异性方式被切除,则这样的构型可以在包括抗原结合蛋白编码序列的动物中实现组织特异性表达或发育阶段特异性表达。如果包括抗原结合蛋白表达盒的动物进一步包括可操作地连接到组织特异性或发育阶段特异性启动子的位点特异性重组酶的编码序列,则可以实现以组织特异性或发育阶段特异性方式切除聚腺苷酸化信号或转录终止子。然后,聚腺苷酸化信号或转录终止子将仅在那些组织中或在那些发育阶段被切除,从而实现组织特异性表达或发育阶段特异性表达。在一个实例中,抗原结合蛋白可以以肝脏特异性方式表达。此类启动子的实例是众所周知的。

可以使用任何转录终止子或聚腺苷酸化信号。如本文所使用的,“转录终止子”是指引起转录终止的DNA序列。在真核生物中,转录终止子被蛋白质因子识别,并且聚腺苷酸化在终止之后,所述聚腺苷酸化是在poly(A)聚合酶存在的情况下向mRNA转录物添加poly(A)尾部的过程。哺乳动物poly(A)信号通常由约45个核苷酸长的核心序列组成,所述核心序列可以侧接有用于增强切割和聚腺苷酸化效率的不同辅助序列。核心序列由以下组成:mRNA中高度保守的上游元件(AATAAA或AAUAAA),所述上游元件被称为poly A识别基序或poly A识别序列,由切割和聚腺苷酸化特异性因子(CPSF)识别;以及受切割刺激因子(CstF)约束的定义不清的下游区域(在Us或Gs和Us中富集)。可以使用的转录终止子的实例包含例如人生长激素(HGH)聚腺苷酸化信号、猿猴病毒40(SV40)晚期聚腺苷酸化信号、兔β-珠蛋白聚腺苷酸化信号、牛生长激素(BGH)聚腺苷酸化信号、磷酸甘油酸激酶(PGK)聚腺苷酸化信号、AOX1转录终止序列、CYC1转录终止序列或已知适合于调节真核细胞中基因表达的任何转录终止序列。

位点特异性重组酶包含可以促进重组酶识别位点之间重组的酶,其中两个重组位点在单个核酸内或在单独的核酸上物理分离。重组酶的实例包含Cre、Flp和Dre重组酶。Cre重组酶基因的一个实例是Crei,其中两个对Cre重组酶进行编码的外显子被内含子隔开,以防止其在原核细胞中表达。此类重组酶可以进一步包括用于促进定位到核(例如,NLS-Crei)的核定位信号。重组酶识别位点包含由位点特异性重组酶识别并且可以用作重组事件的底物的核苷酸序列。重组酶识别位点的实例包含FRT、FRT11、FRT71、attp、att、rox和lox位点,如loxP、lox511、lox2272、lox66、lox71、loxM2和lox5171。

本文所公开的外源供体核酸也可以包括其它组分。此类外源供体核酸可以进一步包括抗原结合蛋白编码序列的5'端处的3'剪接序列(剪接受体位点)。术语3'剪接序列是指3'内含子/外显子边界处可以被识别并通过剪接机制结合的核酸序列。外源供体核酸还可以包括转录后调节元件,如土拨鼠肝炎病毒转录后调节元件。

对靶向寨卡病毒包膜(Env)蛋白的抗原结合蛋白进行编码的供体核酸的具体实例包括SA-LC-P2A-HC-pA,其中SA是指剪接受体位点,LC是指抗体轻链,P2A是指P2A肽,HC是指抗体重链,并且pA是指聚腺苷酸化信号。此类供体的实例在SEQ ID NO:1中示出。轻链核苷酸序列在SEQ ID NO:2中示出并对SEQ ID NO:3中所述的蛋白质序列进行编码。重链核苷酸序列在SEQ ID NO:4中示出并对SEQ ID NO:5中所述的蛋白质序列进行编码。轻链可变区核苷酸序列在SEQ ID NO:103中示出并且对SEQ ID NO:104中所述的蛋白质进行编码。重链可变区核苷酸序列在SEQ ID NO:105中示出并且对SEQ ID NO:106中所述的蛋白质进行编码。三个轻链CDR分别在SEQ ID NO:64-66中示出,并且分别由SEQ ID NO:85-87编码。三个重链CDR分别在SEQ ID NO:67-69中示出,并且分别由SEQ ID NO:88-90编码。抗寨卡病毒抗体的实例包括与SEQ ID NO:3至少90%、95%、96%、97%、98%、99%或100%相同的轻链(任选地包括与SEQ ID NO:64-66中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)和与SEQ ID NO:5至少90%、95%、96%、97%、98%、99%或100%相同的重链(任选地包括与SEQ ID NO:67-69中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)。抗寨卡病毒抗体的实例包括与SEQ ID NO:104至少90%、95%、96%、97%、98%、99%或100%相同的轻链可变区(任选地包括与SEQ ID NO:64-66中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)和与SEQ ID NO:106至少90%、95%、96%、97%、98%、99%或100%相同的重链可变区(任选地包括与SEQ ID NO:67-69中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)。在具体实例中,经修饰的白蛋白基因座(包括内源小鼠白蛋白外显子1和整合的抗体编码序列)可以包括与SEQ IDNO:115中所示的序列至少90%、95%、96%、97%、98%、99%或100%相同的编码序列。

对靶向寨卡病毒包膜(Env)蛋白的抗原结合蛋白进行编码的供体核酸的其它具体实例包括SA-HC-F2A-Albss-LC-pA、SA-HC-P2A-Albss-LC-pA、Sa-HC-T2A-Albss-LC-pA或HC-T2A-RORss-LC-pA,其中SA是指剪接受体位点,LC是指抗体轻链,P2A是指P2A肽,HC是指抗体重链,Albss是指白蛋白信号序列(例如,来自小鼠白蛋白),并且pA是指聚腺苷酸化信号。此类供体的实例在SEQ ID NO:6-9中示出。轻链核苷酸序列在SEQ ID NO:12中示出并对SEQ ID NO:13中所述的蛋白质序列进行编码。重链核苷酸序列在SEQ ID NO:14中示出并对SEQ ID NO:15中所述的蛋白质序列进行编码。轻链可变区核苷酸序列在SEQ ID NO:107中示出并对SEQ ID NO:108中所述的蛋白质序列进行编码。重链可变区核苷酸序列在SEQ IDNO:109中示出并对SEQ ID NO:110中所述的蛋白质序列进行编码。三个轻链CDR分别在SEQID NO:70-72中示出,并且分别由SEQ ID NO:91-93编码。三个重链CDR分别在SEQ ID NO:73-75中示出,并且分别由SEQ ID NO:94-96编码。抗寨卡病毒抗体的实例包括与SEQ IDNO:13至少90%、95%、96%、97%、98%、99%或100%相同的轻链(任选地包括与SEQ IDNO:70-72中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)和与SEQID NO:15至少90%、95%、96%、97%、98%、99%或100%相同的重链(任选地包括与SEQ IDNO:73-75中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)。抗寨卡病毒抗体的实例包括与SEQ ID NO:108至少90%、95%、96%、97%、98%、99%或100%相同的轻链可变区(任选地包括与SEQ ID NO:70-72中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)和与SEQ ID NO:110至少90%、95%、96%、97%、98%、99%或100%相同的重链可变区(任选地包括与SEQ ID NO:73-75中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)。在具体实例中,经修饰的白蛋白基因座(包括内源小鼠白蛋白外显子1和整合的抗体编码序列)可以包括与SEQ ID NO:116-119中的任一项所示的序列至少90%、95%、96%、97%、98%、99%或100%相同的编码序列。

对靶向流感病毒血凝素(HA)蛋白的抗原结合蛋白进行编码的供体核酸的具体实例包括SA-LC-P2A-HC-pA,其中SA是指剪接受体位点,LC是指抗体轻链,P2A是指P2A肽,HC是指抗体重链,并且pA是指聚腺苷酸化信号。对靶向流感病毒血凝素(HA)蛋白的抗原结合蛋白进行编码的供体核酸的另一个具体实例包括SA-LC-T2A-HC-pA,其中SA是指剪接受体位点,LC是指抗体轻链,T2A是指T2A肽,HC是指抗体重链,并且pA是指聚腺苷酸化信号。此类供体的实例在SEQ ID NO:16中示出。轻链核苷酸序列在SEQ ID NO:17中示出并对SEQ ID NO:18中所示的蛋白质序列进行编码。重链核苷酸序列在SEQ ID NO:19中示出并对SEQ ID NO:20中所示的蛋白质序列进行编码。轻链可变区核苷酸序列在SEQ ID NO:111中示出并对SEQID NO:112中所示的蛋白质序列进行编码。重链可变区核苷酸序列在SEQ ID NO:113中示出并对SEQ ID NO:114中所示的蛋白质序列进行编码。三个轻链CDR分别在SEQ ID NO:76-78中示出,并且分别由SEQ ID NO:97-99编码。三个重链CDR分别在SEQ ID NO:79-81中示出,并且分别由SEQ ID NO:100-102编码。抗HA抗体的实例包括与SEQ ID NO:18至少90%、95%、96%、97%、98%、99%或100%相同的轻链(任选地包括与SEQ ID NO:76-78中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)和与SEQ ID NO:20至少90%、95%、96%、97%、98%、99%或100%相同的重链(任选地包括与SEQ ID NO:79-81中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)。抗HA抗体的实例包括与SEQ ID NO:112至少90%、95%、96%、97%、98%、99%或100%相同的轻链可变区(任选地包括与SEQ ID NO:76-78中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)和与SEQ ID NO:114至少90%、95%、96%、97%、98%、99%或100%相同的重链可变区(任选地包括与SEQ ID NO:79-81中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)。在具体实例中,经修饰的白蛋白基因座(包括内源小鼠白蛋白外显子1和整合的抗体编码序列)可以包括与SEQ ID NO:120中所示的序列至少90%、95%、96%、97%、98%、99%或100%相同的编码序列。

对靶向流感病毒血凝素(HA)蛋白的抗原结合蛋白进行编码的供体核酸的另一个具体实例包括SA-LC-T2A-RoRss-HC-pA,其中SA是指剪接受体位点,LC是指抗体轻链,T2A是指T2A肽,RORss是指ROR信号序列,HC是指抗体重链,并且pA是指聚腺苷酸化信号。此类供体的实例在SEQ ID NO:145中示出。轻链核苷酸序列在SEQ ID NO:125中示出并对SEQ ID NO:126中所示的蛋白质序列进行编码。重链核苷酸序列在SEQ ID NO:127中示出并对SEQ IDNO:128中所示的蛋白质序列进行编码。轻链可变区核苷酸序列在SEQ ID NO:141中示出并对SEQ ID NO:142中所示的蛋白质序列进行编码。重链可变区核苷酸序列在SEQ ID NO:143中示出并对SEQ ID NO:144中所示的蛋白质序列进行编码。三个轻链CDR分别在SEQ ID NO:129-131中示出,并且分别由SEQ ID NO:135-137编码。三个重链CDR分别在SEQ ID NO:132-134中示出,并且分别由SEQ ID NO:138-140编码。抗HA抗体的实例包括与SEQ ID NO:126至少90%、95%、96%、97%、98%、99%或100%相同的轻链(任选地包括与SEQ ID NO:129-131中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)和与SEQ IDNO:128至少90%、95%、96%、97%、98%、99%或100%相同的重链(任选地包括与SEQ IDNO:132-134中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)。抗HA抗体的实例包括与SEQ ID NO:142至少90%、95%、96%、97%、98%、99%或100%相同的轻链可变区(任选地包括与SEQ ID NO:129-131中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)和与SEQ ID NO:144至少90%、95%、96%、97%、98%、99%或100%相同的重链可变区(任选地包括与SEQ ID NO:132-134中所示的那些至少90%、95%、96%、97%、98%、99%或100%相同的CDR)。在具体实例中,经修饰的白蛋白基因座(包括整合的抗体编码序列)可以包括与SEQ ID NO:146中所示的序列至少90%、95%、96%、97%、98%、99%或100%相同的编码序列。

对靶向铜绿假单胞菌PcrV蛋白的抗原结合蛋白进行编码的供体核酸的具体实例包括SA-HC-T2A-LC-pA,其中SA是指剪接受体位点,LC是指抗体轻链,T2A是指T2A肽,HC是指抗体重链,并且pA是指聚腺苷酸化信号。

C.安全港基因座和白蛋白基因座

本文别处描述的抗原结合蛋白编码序列可以在细胞或动物中的靶基因组基因座处进行基因组整合。可以使用任何能够表达基因的靶基因组基因座,如安全港基因座(安全港基因)。整合的外源DNA与宿主基因组之间的相互作用会限制整合的可靠性和安全性,并且可能导致明显的表型效应,所述表型效应不是由于靶向基因修饰而是由于整合对周围内源基因的非预期效应。例如,随机插入的转基因可能受到位置效应和沉默的影响,从而使其表达不可靠和不可预测。同样地,将外源DNA整合到染色体基因座中会影响周围的内源基因和染色质,由此改变细胞行为和表型。安全港基因座包含染色体基因座,在所述染色体基因座中,转基因或其它外源核酸插入物可以在所有所关注的组织中稳定且可靠地表达,而不会明显改变细胞行为或表型(即,对宿主细胞没有任何有害影响)。参见例如Sadelain等人(2012)《癌症自然评论(Nat.Rev.Cancer)》12:51-58,所述文献出于所有目的通过引用整体并入本文。例如,安全港基因座可以是插入基因序列的表达不受来自相邻基因的任何通读表达干扰的基因座。例如,安全港基因座可以包含染色体基因座,在所述染色体基因座中,外源DNA可以以可预测的方式整合和发挥作用,而不会对内源基因结构或表达产生不利影响。安全港基因座可以包含基因外区域或基因内区域,例如非必需、可有可无或能够在没有明显表型结果的情况下破裂的基因内的基因座。

此类安全港基因座可以在所有组织中提供开放的染色质构型,并且可以在胚胎发育期间和成人中普遍表达。参见例如Zambrowicz等人(1997)《美国国家科学院院刊》94:3789-3794,所述文献出于所有目的通过引用整体并入本文。另外,安全港基因座可以被高效地靶向,并且安全港基因座可以在没有明显表型的情况下破裂。安全港基因座的实例包含白蛋白、CCR5、HPRT、AAVS1和Rosa26。参见例如美国专利第7,888,121号;第7,972,854号;第7,914,796号;第7,951,925号;第8,110,379号;第8,409,861号;第8,586,526号;以及美国专利出版物第2003/0232410号;第2005/0208489号;第2005/0026157号;第2006/0063231号;第2008/0159996号;第2010/00218264号;第2012/0017290号;第2011/0265198号;第2013/0137104号;第2013/0122591号;第2013/0177983号;第2013/0177960号;以及第2013/0122591号,所述文献中的每个文献出于所有目的通过引用整体并入本文。合适的安全港基因座的另一个实例是TTR。

抗原结合蛋白编码序列可以整合到基因组基因座或安全港基因座的任何部分中。例如,其可以插入到安全港基因座的内含子或外显子中,或者可以替换基因组基因座或安全港基因座的一个或多个内含子和/或外显子。整合到靶基因组基因座中的表达盒可以可操作地连接到靶基因组基因座处的内源启动子(例如,内源白蛋白启动子),或者可以可操作地连接到与靶基因组基因座异源的外源启动子。在一个实例中,抗原结合蛋白编码序列整合到靶基因组基因座(例如,白蛋白基因座)中,并可操作地连接到靶基因组基因座处的内源启动子(例如,白蛋白启动子)。在另一个实例中,抗原结合蛋白编码序列整合到靶基因组基因座(例如,白蛋白基因座)中,并可操作地连接到异源启动子(例如,CMV启动子)。

在一个实例中,安全港基因座是白蛋白基因座。白蛋白是一种在肝脏中产生并分泌到血液中的蛋白质。血清白蛋白是在人类血液中发现的大部分蛋白质。白蛋白基因座是高度表达的,导致人类每天产生大约15g白蛋白。白蛋白没有自分泌功能,并且似乎没有与单等位基因敲除相关的任何表型,并且对于双等位基因敲除仅发现轻微表型观察结果。参见例如Watkins等人(1994)《美国国家科学院院刊》91:9417-9421,所述文献出于所有目的通过引用整体并入本文。白蛋白基因座是用于治疗基因插入和表达的安全且高效的位点。插入到肝脏中的白蛋白基因座中以进行长期表达是具有吸引力的治疗方式。在一个实例中,抗原结合蛋白序列整合到白蛋白基因座的内含子中,如白蛋白基因座的第一内含子。参见例如图1。白蛋白基因结构适用于将转基因靶向到内含子序列中,因为其第一外显子对从最终蛋白质产物中切割出来的分泌肽(信号肽或信号序列)进行编码。例如,承载剪接受体的无启动子盒和治疗性转基因的整合将支持许多不同蛋白质的表达和分泌。

人ALB在4号染色体上映射到人4q13.3(NCBI RefSeq基因ID:213;汇编GRCh38.p12(GCF_000001405.38);位置NC_000004.12(73404239..73421484(+)))。据报道,基因具有15个外显子。野生型人白蛋白的UniProt登录号被分配为P02768。至少三种同种型(P02768-1至P02768-3)是已知的。小鼠Alb在5号染色体上映射到小鼠5E1;5 44.7cM(NCBI RefSeq基因ID:11657;汇编GRCm38.p4(GCF_000001635.24));位置NC_000071.6(90,460,870..90,476,602(+)))。据报道,基因具有15个外显子。野生型小鼠白蛋白的UniProt登录号被分配为P07724。许多其它非人动物的白蛋白序列也是已知的。这些动物包含例如,牛(UniProt登录号:P02769;NCBI RefSeq基因ID:280717)、大鼠(UniProt登录号:P02770;NCBI RefSeq基因ID:24186)、鸡(UniProt登录号:P19121)、苏门答腊猩猩(UniProt登录号:Q5NVH5;NCBIRefSeq基因ID:100174145)、马(UniProt登录号:P35747;NCBI RefSeq基因ID:100034206)、猫(UniProt登录号:P49064;NCBI RefSeq基因ID:448843)、兔(UniProt登录号:P49065;NCBI RefSeq基因ID:100009195)、狗(UniProt登录号:P49822;NCBI RefSeq基因ID:403550)、猪(UniProt登录号:P08835;NCBI RefSeq基因ID:396960)、蒙古沙鼠(UniProt登录号:O35090)、恒河猴(UniProt登录号:Q28522;NCBI RefSeq基因ID:704892)、驴(UniProt登录号:Q5XLE4;NCBI RefSeq基因ID:106835108)、绵羊(UniProt登录号:P14639;NCBIRefSeq基因ID:443393)、美国牛蛙(UniProt登录号:P21847)、金地鼠(UniProt登录号:A6YF56;NCBI RefSeq基因ID:101837229)以及山羊(UniProt登录号:P85295)。

D.将核酸酶试剂和供体核酸引入到细胞和动物中

本文所公开的方法包括将核酸酶试剂(或对核酸酶试剂进行编码的核酸)和外源供体核酸引入到细胞或动物中。“引入”包含以核酸或蛋白质进入细胞内部或动物内的细胞内部的方式向细胞或动物呈递核酸或蛋白质。引入可以通过任何方式完成,并且可以以任何组合同时或顺序地将组分中的两种或更多种组分(例如,组分中的两种组分,或组分中的全部组分)引入到细胞或动物中。例如,可以在引入外源供体核酸之前将核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一个或多个核酸)引入到细胞或动物中。另外,可以通过相同的递送方法或不同的递送方法将组分中的两种或更多种组分引入到细胞或动物中。类似地,可以通过相同的施用途径或不同的施用途径将组分中的两种或更多种组分引入到动物中。

可以将向导RNA以RNA的形式(例如,体外转录的RNA)或对向导RNA进行编码的DNA的形式引入到细胞中。同样地,可以将如Cas9蛋白、ZFN或TALEN等蛋白质组分以DNA、RNA或蛋白质的形式引入到细胞中。例如,可以将向导RNA和Cas9蛋白两者以RNA的形式引入。当以DNA的形式引入时,对向导RNA进行编码的DNA可以可操作地连接到在细胞中具有活性的启动子。例如,向导RNA可以通过AAV递送,并在U6启动子下在体内表达。此类DNA可以在一种或多种表达构建体中。例如,此类表达构建体可以是单个核酸分子的组分。可替代地,其可以在两个或多个核酸分子之间以任何组合分离(即,对一种或多种CRISPR RNA进行编码的DNA和对一种或多种tracrRNA进行编码的DNA可以是单独的核酸分子的组分)。

对向导RNA进行编码的核酸或核酸酶试剂可以可操作地连接到表达构建体中的启动子。表达构建体包含能够指导基因或其它所关注核酸序列的表达并且可以将此类所关注核酸序列转移到靶细胞的任何核酸构建体。可以在表达构建体中使用的合适的启动子包含例如在真核细胞、人细胞、非人细胞、哺乳动物细胞、非人哺乳动物细胞、啮齿动物细胞、小鼠细胞、大鼠细胞、仓鼠细胞、兔细胞、多能细胞、胚胎干(ES)细胞、成体干细胞、发育受限的祖细胞、诱导多能干(iPS)细胞或单细胞阶段胚胎中的一个或多个中具有活性的启动子。此类启动子可以是例如条件型启动子、诱导型启动子、组成型启动子或组织特异性启动子。任选地,启动子可以是在一个方向上驱动两个向导RNA的表达并且在另一个方向上驱动另一组分的表达的双向启动子。此类双向启动子可以由以下组成:(1)含有3个外部控制元件:远侧序列元件(DSE)、近侧端序列元件(PSE)和TATA框的完整的、常规的、单向的Pol III启动子;(2)包含在相反取向上与DSE的5'端融合PSE和TATA盒的第二基本Pol III启动子。例如,在H1启动子中,DSE邻近PSE和TATA框,并且可以通过产生杂合启动子使启动子双向化,其中通过源自U6启动子的附加PSE和TATA盒来控制反向转录。参见例如US2016/0074535,所述文献出于所有目的通过引用整体并入本文。使用双向启动子同时表达对向导RNA和另一个组分进行编码的基因允许生成紧凑表达盒以促进递送。

向导RNA或对向导RNA(或其它组分)进行编码的核酸可以在包括增加向导RNA稳定性(例如,延长在给定储存条件(例如,-20℃、4℃或环境温度)下降解产物保持在阈值以下的时间,如低于起始核酸或蛋白质重量的0.5%;或增加体内稳定性)的载体的组合物中提供。此类载体的非限制性实例包含聚乳酸(PLA)微球体、聚(D,L-乳酸-乙醇酸共聚物)(PLGA)微球体、脂质体、胶束、反胶束、脂质螺旋体和脂质微管。

本文提供了允许将核酸或蛋白质引入到细胞或动物中的多种方法和组合物。用于将核酸或蛋白质引入到细胞或动物中的此类方法可以包含例如载体递送、颗粒介导的递送、外泌体介导的递送、脂质纳米颗粒(LNP)介导的递送、细胞穿透肽介导的递送或可植入装置介导的递送。作为具体实例,可以将核酸或蛋白质以如聚乳酸(PLA)微球体、聚(D,L-乳酸-乙醇酸共聚物)(PLGA)微球体、脂质体、胶束、反胶束、脂质螺旋体或脂质微管等载体引入到细胞或动物中。向动物递送的一些具体实例包含流体动力学递送、病毒介导的递送(例如,腺相关病毒(AAV)介导的递送,或通过腺病毒、慢病毒或逆转录病毒递送)和脂质纳米颗粒介导的递送。在一个具体实例中,核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体序列两者都可以通过LNP介导的递送进行递送。在另一个具体实例中,核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体序列两者都可以通过AAV介导的递送进行递送。例如,核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体序列可以通过多种不同的AAV载体(例如,两种不同的AAV载体)进行递送。在核酸酶试剂是CRISPR/Cas(例如,CRISPR/Cas9)的具体实例中,第一AAV载体可以递送Cas(例如,Cas9)或对Cas进行编码的核酸,并且第二AAV载体可以递送gRNA(或对gRNA进行编码的核酸)和外源供体序列。例如,可以使用小启动子以便Cas9编码序列可以适应于AAV构建体。此类启动子的实例包含Efs、SV40或包括肝脏特异性增强子(例如,来自HBV病毒的E2或来自SerpinA基因的SerpinA)和核心启动子的合成启动子(例如,本文所公开的E2P合成启动子或SerpinAP合成启动子)。示例性启动子包含:(1)延伸因子1α短(EFs)(SEQ ID NO:40);(2)猿猴病毒40(SV40)(SEQ ID NO:41);以及两个合成启动子((3)早期区域2启动子(E2P)(SEQ ID NO:42)和(4)SerpinAP(SEQ ID NO:43))。然而,也可以使用其它启动子。

当Cas9(对Cas9进行编码的核酸)在第一AAV中递送并且gRNA(对gRNA进行编码的核酸)和外源供体序列在第二AAV中递送时,第一和第二AAV可以以任何合适的比率(例如,所递送的病毒基因组的比率)递送。例如,第一AAV与第二AAV的比率可以为约25:1到约1:25、约10:1到约1:10、约5:1到约1:5、约4:1到约1:4、约4:1到约1:1、约1:1到约1:4、约3:1到约1:3、约3:1到约1:1、约1:1到约1:3、约2:1到约1:2、约2:1到约1:1、约1:1到约1:2或约1:1。在具体实例中,第一AAV与第二AAV的比率为约1:2。在另一个具体实例中,第一AAV与第二AAV的比率为约2:1。在另一个具体实例中,第一AAV与第二AAV的比率为约1:1。在另一个具体实例中,第一AAV与第二AAV的比率为约5:1。在另一个具体实例中,第一AAV与第二AAV的比率为约10:1。在另一个具体实例中,第一AAV与第二AAV的比率为约1:5。在另一个具体实例中,第一AAV与第二AAV的比率为约1:10。

在另一个具体实例中,核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)可以通过LNP介导的递送进行递送,并且外源供体序列可以通过AAV介导的递送进行递送。在另一个具体实例中,核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)可以通过AAV介导的递送进行递送,并且外源供体序列可以通过LNP介导的递送进行递送。

将核酸和蛋白质引入到细胞或动物中可以通过流体动力递送(HDD)来完成。流体动力递送已成为用于细胞内DNA体内递送的方法。对于到实质细胞的基因递送,只需要通过选定的血管注射必需的DNA序列,从而消除与当前病毒和合成载体相关的安全问题。当注入到血流中时,DNA能够到达血液可及的不同组织中的细胞。流体动力递送采用将大量溶液快速注射到循环中不可压缩的血液中所产生的力来解决阻止大的和不可透过膜的化合物进入实质细胞的内皮和细胞膜的物理屏障问题。除了递送DNA外,此方法还可用于RNA、蛋白质和其它小化合物在体内的高效细胞内递送。参见例如Bonamassa等人(2011)《药学研究(Pharm.Res.)》28(4):694-701,所述文献出于所有目的通过引用整体并入本文。

核酸的引入也可以通过病毒介导的递送来完成,如AAV介导的递送或慢病毒介导的递送。其它示例性病毒/病毒性载体包含逆转录病毒、腺病毒、牛痘病毒、痘病毒和单纯疱疹病毒。病毒可以感染分裂细胞、非分裂细胞或分裂细胞和非分裂细胞两者。病毒可以整合到宿主基因组中,或者可替代地不整合到宿主基因组中。此类病毒还可以被工程化为具有降低的免疫力。病毒可能具有复制能力,也可能具有复制缺陷(例如,在另外轮次的病毒粒子复制和/或包装所必需的一个或多个基因中存在缺陷)。病毒可以引起瞬时表达、长期表达(例如,至少1周、2周、1个月、2个月或3个月)或永久表达(例如,Cas9和/或gRNA)。示例性病毒滴度(例如,AAV滴度)包含1012、1013、1014、1015和1016个载体基因组/mL。

ssDNA AAV基因组由两个开放阅读框Rep和Cap组成,其侧接有允许合成互补DNA链的两个反向末端重复序列。当构建AAV转移质粒时,转基因放置在两个ITR之间,并且Rep和Cap可以反式提供。除了Rep和Cap之外,AAV还可能需要含有腺病毒基因的辅助质粒。这些基因(E4、E2a和VA)介导AAV复制。例如,转移质粒、Rep/Cap和辅助质粒可以转染到含有腺病毒基因E1+的HEK293细胞中,以产生感染性AAV颗粒。可替代地,将Rep、Cap和腺病毒辅助基因可以组合成单个质粒。类似的包装细胞和方法可以用于其它病毒,如逆转录病毒。

已鉴定出多种AAV血清型。这些血清型在其感染的细胞类型(即,其趋向性)方面不同,允许优先转导特定细胞类型。CNS组织的血清型包含AAV1、AAV2、AAV4、AAV5、AAV8和AAV9。心脏组织的血清型包含AAV1、AAV8和AAV9。肾组织的血清型包含AAV2。肺组织的血清型包含AAV4、AAV5、AAV6和AAV9。胰腺组织的血清型包含AAV8。感光细胞的血清型包含AAV2、AAV5和AAV8。视网膜色素上皮组织的血清型包含AAV1、AAV2、AAV4、AAV5和AAV8。骨骼肌组织的血清型包含AAV1、AAV6、AAV7、AAV8和AAV9。肝组织的血清型包含AAV7、AAV8和AAV9,并且特别是AAV8。

趋向性可以通过假型进一步细化,所述假型即混合来自不同病毒血清型的衣壳和基因组。例如,AAV2/5指示包装在来自血清型5的衣壳中的含有血清型2基因组的病毒。使用假型病毒可以提高转导效率以及改变趋向性。源自不同血清型的杂交衣壳也可以用于改变病毒趋向性。例如,AAV-DJ含有来自八种血清型的杂交衣壳,并在广泛的体内细胞类型中显示出高感染性。AAV-DJ8是显示AAV-DJ性质的另一个实例,但具有增强的脑摄取。AAV血清型还可以通过突变进行修饰。AAV2突变修饰的实例包含Y444F、Y500F、Y730F和S662V。AAV3突变修饰的实例包含Y705F、Y731F和T492V。AAV6突变修饰的实例包含S663V和T492V。其它假型的/经修饰的AAV变体包含AAV2/1、AAV2/6、AAV2/7、AAV2/8、AAV2/9、AAV2.5、AAV8.2和AAV/SASTG。在具体实例中,AAV是AAV2/8(AAV2基因组和具有AAV8衣壳蛋白的rep蛋白)。

为了加速转基因表达,可以使用自身互补型AAV(scAAV)变体。由于AAV依赖于细胞的DNA复制机制来合成AAV单链DNA基因组的互补链,因此转基因表达可能会延迟。为了解决这种延迟问题,可以使用含有能够在感染后自发退火的互补序列的scAAV,从而消除对宿主细胞DNA合成的需要。然而,也可以使用单链AAV(ssAAV)载体。

为了提高包装能力,可以将较长的转基因在两个AAV转移质粒之间拆分,第一个具有3'剪接供体并且第二个具有5'剪接受体。在细胞共感染后,这些病毒形成多联体,拼接在一起,并且全长转基因可以被表达。虽然这允许更长的转基因表达,但表达效率较低。用于增加容量的类似方法利用同源重组。例如,转基因可以在两个转移质粒之间分开但是具大量的序列重叠,使得共表达诱导全长转基因的同源重组和表达。

在某些AAV中,负荷物可以包含核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)。在某些AAV中,负荷物可以包含向导RNA或对向导RNA进行编码的核酸。在某些AAV中,负荷物可以包含对如Cas9等Cas核酸酶进行编码的mRNA以及向导RNA或对向导RNA进行编码的核酸。在某些AAV中,负荷物可以包含外源供体序列。在某些AAV中,负荷物可以包含核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体序列。在某些AAV中,负荷物可以包含对如Cas9等Cas核酸酶进行编码的mRNA、向导RNA或对向导RNA进行编码的核酸以及外源供体序列。

核酸和蛋白质的引入也可以通过脂质纳米颗粒(LNP)介导的递送来完成。例如,LNP介导的递送可以用于递送RNA形式的向导RNA。在具体实例中,向导RNA和Cas蛋白各自通过LNP介导的递送以RNA的形式引入相同LNP中。如本文别处更详细讨论的,RNA中的一种或多种可以被修饰成包括5'端和/或3'端处的一种或多种稳定端修饰。此类修饰可以包含例如5'端和/或3'端处的一个或多个硫代磷酸酯键或5'端和/或3'端处的一个或多个2'-O-甲基修饰。通过此类方法递送导致向导RNA的瞬时存在,并且生物可降解脂质提高清除率、提高耐受性并降低免疫原性。脂质调配物可以保护生物分子免于降解,同时改善其细胞摄取。脂质纳米颗粒是包括通过分子间力彼此物理相关的多个脂质分子的颗粒。这些颗粒包含微球体(包含单层和多层囊泡,例如,脂质体)、乳液中的分散相、胶束或悬浮液中的内相。此类脂质纳米颗粒可以用于封装一个或多个核酸或蛋白质以供递送。含有阳离子脂质的调配物可用于递送如核酸等聚阴离子。其它可以包含在内的脂质是中性脂质(即,不带电荷或两性离子脂质)、阴离子脂质、增强转染的辅助脂质和增加纳米颗粒可以在体内存在的时间长度的隐形脂质。合适的阳离子脂质、中性脂质、阴离子脂质、辅助脂质和隐形脂质的实例可以在WO2016/010840A1和WO 2017/173054 A1中找到,所述文献出于所有目的通过引用整体并入本文。示例性脂质纳米颗粒可以包括阳离子脂质和一种或多种其它组分。在一个实例中,其它组分可以包括如胆固醇等辅助脂质。在另一个实例中,其它组分可以包括如胆固醇等辅助脂质和如DSPC等中性脂质。在另一个实例中,其它组分可以包括如胆固醇等辅助脂质、如DSPC等任选的中性脂质以及如S010、S024、S027、S031或S033等隐形脂质。

LNP可以含有以下中的一种或多种或全部:(i)用于封装和用于内体逃逸的脂质;(ii)用于稳定的中性脂质;(iii)用于稳定的辅助脂质;(iv)隐形脂质。参见例如Finn等人(2018)《细胞报告(Cell Rep.)》22(9):2227-2235和WO 2017/173054 A1,所述文献中的每个文献出于所有目的通过引用整体并入本文。在某些LNP中,负荷物可以包含核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)。在某些LNP中,负荷物可以包含向导RNA或对向导RNA进行编码的核酸。在某些LNP中,负荷物可以包含对如Cas9等Cas核酸酶进行编码的mRNA以及向导RNA或对向导RNA进行编码的核酸。在某些LNP中,负荷物可以包含外源供体序列。在某些LNP中,负荷物可以包含核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一种或多种核酸)和外源供体序列。在某些LNP中,负荷物可以包含对如Cas9等Cas核酸酶进行编码的mRNA、向导RNA或对向导RNA进行编码的核酸以及外源供体序列。

用于包封和内体逃逸的脂质可以是阳离子脂质。脂质还可以是生物可降解脂质,如生物可降解可电离脂质。合适的脂质的一个实例是脂质A或LP01,即(9Z,12Z)-3-((4,4-双(辛氧基)丁酰基)氧基)-2-((((3-(二乙氨基)丙氧基)羰基)氧基)甲基)丙基十八-9,12-二烯酸酯,也被称为3-((4,4-双(辛氧基)丁酰基)氧基)-2-((((3-(二乙氨基)丙氧基)羰基)氧基)甲基)丙基(9Z,12Z)-十八-9,12-二烯酸酯。参见例如Finn等人(2018)《细胞报告(Cell Rep.)》22(9):2227-2235和WO2017/173054A1,所述文献中的每个文献出于所有目的通过引用整体并入本文。合适的脂质的另一个实例是脂质B,即((5-((二甲氨基)甲基)-1,3-亚苯基)双(氧))双(辛烷-8,1-二基)双(癸酸酯),也被称为((5-((二甲氨基)甲基)-1,3-亚苯基)双(氧基))双(辛烷-8,1-二基)双(癸酸酯)。合适的脂质的另一个实例是脂质C,即2-((4-(((3-(二甲氨基)丙氧基)羰基)氧基)十六酰基)氧基)丙烷-1,3-二基(9Z,9'Z,12Z,12'Z)-双(十八-9,12-二烯酸酯)。合适的脂质的另一个实例是脂质D,即3-(((3-(二甲氨基)丙氧基)羰基)氧基)-13-(辛酰氧基)十三烷基3-辛基十一烷酸酯。其它合适的脂质包含三十七-6,9,28,31-四烯-19-基4-(二甲氨基)丁酸酯(也被称为[(6Z,9Z,28Z,31Z)-三十七-6,9,28,31-四烯-19-基]4-(二甲氨基)丁酸酯或Dlin-MC3-DMA(MC3))。

适用于本文所述的LNP的一些此类脂质在体内是生物可降解的。例如,包括此类脂质的LNP包含在8小时、10小时、12小时、24小时或48小时或3天、4天、5天、6天、7天或10天内从血浆中清除脂质的至少75%的那些。作为另一个实例,LNP的至少50%在8小时、10小时、12小时、24小时或48小时或3天、4天、5天、6天、7天或10天内从血浆中清除。

根据其所在的介质的pH值,此类脂质可以是可电离的。例如,在微酸性介质中,脂质可以被质子化并且因此带有正电荷。相反,在弱碱性介质中,例如在pH大约为7.35的血液中,脂质可能不会被质子化并且因此不带电荷。在一些实施例中,脂质可以在至少约9、9.5或10的pH下质子化。这种脂质带电荷的能力与其固有的pKa有关。例如,脂质可以独立地具有范围为约5.8到约6.2的pKa。

中性脂质的作用是稳定和改善LNP的处理。合适的中性脂质的实例包含各种中性、不带电荷或两性离子脂质。适用于本公开的中性磷脂的实例包含但不限于5-十七烷基苯-1,3-二醇(间苯二酚)、二棕榈酰磷脂酰胆碱(DPPC)、二硬脂酰磷脂酰胆碱或1,2-二硬脂酰-sn-甘油-3-磷酸胆碱(DSPC)、磷酸胆碱(DOPC)、二肉豆蔻酰磷脂酰胆碱(DMPC)、磷脂酰胆碱(PLPC)、1,2-二花生四烯酰-sn-甘油-3-磷酸胆碱(DAPC)、磷脂酰乙醇胺(PE)、卵磷脂酰胆碱(EPC)、二月桂酰磷脂酰胆碱(DLPC)、二肉豆蔻酰磷脂酰胆碱(DMPC)、1-肉豆蔻酰-2-棕榈酰磷脂酰胆碱(MPPC)、1-棕榈酰-2-肉豆蔻酰磷脂酰胆碱(PMPC)、1-棕榈酰-2-硬脂酰磷脂酰胆碱(PSPC)、1,2-二花生酰-sn-甘油-3-磷酸胆碱(DBPC)、1-硬脂酰-2-棕榈酰磷脂酰胆碱(SPPC)、1,2-二二十碳烯酰-sn-甘油-3-磷酸胆碱(DEPC)、棕榈酰油酰磷脂酰胆碱(POPC)、溶血磷脂酰胆碱、二油酰磷脂酰乙醇胺(DOPE)、二亚油酰磷脂酰胆碱二硬脂酰磷脂酰乙醇胺(DSPE)、二肉豆蔻酰磷脂酰乙醇胺(DMPE)、二棕榈酰磷脂酰乙醇胺(DPPE)、棕榈酰油酰磷脂酰乙醇胺(POPE)、溶血磷脂酰乙醇胺、1-硬脂酰-2-油酰-sn-甘油-3-磷酸胆碱(SOPC)和其组合。例如,中性磷脂可以选自由二硬脂酰磷脂酰胆碱(DSPC)和二肉豆蔻酰磷脂酰乙醇胺(DMPE)组成的组。

辅助脂质包含增强转染的脂质。辅助脂质增强转染的机制可以包含增强颗粒稳定性。在某些情况下,辅助脂质可以增强膜融合性。辅助脂质包含类固醇、甾醇和烷基间苯二酚。合适的辅助脂质的实例包含胆固醇、5-十七烷基间苯二酚和胆固醇半琥珀酸酯。在一个实例中,辅助脂质可以是胆固醇或胆固醇半琥珀酸酯。

隐形脂质包含改变纳米颗粒可以在体内存在的时间长度的脂质。隐形脂质可以通过例如减少颗粒聚集和控制粒度来帮助调配过程。隐形脂质可以调节LNP的药代动力学性质。合适的隐形脂质包含具有连接到脂质部分的亲水性头部基团的脂质。

隐形脂质的亲水性头部基团可以包括例如选自基于PEG(有时称为聚(环氧乙烷))、聚(噁唑啉)、聚(乙烯醇)、聚(甘油)、聚(N-乙烯基吡咯烷酮)、聚氨基酸和聚N-(2-羟丙基)甲基丙烯酰胺的聚合物的聚合物部分。术语PEG意指任何聚乙二醇或其它聚亚烷基醚聚合物。在某些LNP调配物中,PEG是PEG-2K,也被称为PEG 2000,其平均分子量为约2,000道尔顿。参见例如WO 2017/173054 A1,所述文献出于所有目的通过引用整体并入本文。

隐形脂质的脂质部分可以衍生自例如二酰基甘油或二烷基甘酰胺,其包含包括二烷基甘油或二烷基甘酰胺基团的那些,所述二烷基甘油或二烷基甘酰胺基团具有独立地包括约C4到约C40个饱和或不饱和碳原子的烷基链长度,其中链可以包括一个或多个官能团,例如酰胺或酯。二酰基甘油或二烷基甘酰胺基团可以进一步包括一个或多个经取代的烷基。

作为一个实例,隐形脂质可以选自PEG-二月桂酸甘油酯、PEG-二肉豆蔻酰甘油(PEG-DMG)、PEG-二棕榈酰甘油、PEG-二硬脂酰甘油(PEG-DSPE)、PEG-二月桂甘酰胺、PEG-二肉豆蔻甘酰胺、PEG-二棕榈酰甘酰胺和PEG-二硬脂酰甘酰胺、PEG-胆固醇(l-[8'-(胆甾-5-en-3[β]-氧基)甲酰胺基-3',6'-二氧杂辛基]氨甲酰基-[ω]-甲基-聚(乙二醇)、PEG-DMB(3,4-二十四烷基苄基-[ω]-甲基-聚(乙二醇)醚)、1,2-二肉豆蔻酰-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-2000](PEG2k-DMG)、1,2-二硬脂酰-sn-甘油-3-磷酸乙醇胺-N-[甲氧基(聚乙二醇)-2000](PEG2k-DSPE)、1,2-二硬脂酰-sn-甘油、甲氧基聚乙烯乙二醇(PEG2k-DSG)、聚(乙二醇)-2000-二甲基丙烯酸酯(PEG2k-DMA)和1,2-二硬脂氧基丙基-3-胺-N-[甲氧基(聚乙二醇)-2000](PEG2k-DSA)。在一个特定实例中,隐形脂质可以是PEG2k-DMG。

LNP可以包括调配物中相应摩尔比的组分脂质。CCD脂质的mol-%可以为例如约30mol-%到约60mol-%、约35mol-%到约55mol-%、约40mol-%到约50mol-%、约42mol-%到约47mol-%或约45%。辅助脂质的mol-%可以为例如约30mol-%到约60mol-%、约35mol-%到约55mol-%、约40mol-%到约50mol-%、约41mol-%到约46mol-%或约44mol-%。中性脂质的mol-%可以为例如约1mol-%到约20mol-%、约5mol-%到约15mol-%、约7mol-%到约12mol-%或约9mol-%。隐形脂质的mol-%可以为例如约1mol-%到约10mol-%、约1mol-%到约5mol-%、约1mol-%到约3mol-%、约2mol-%或约1mol-%。

LNP在生物可降解脂质(N)的带正电荷的胺基团与待封装的核酸的带负电荷的磷酸基团(P)之间可以具有不同的比率。这可以由等式N/P在数学上表示。例如,N/P比率可以为约0.5到约100、约1到约50、约1到约25、约1到约10、约1到约7、约3到约5、约4到约5、约4、约4.5或约5。

在一些LNP中,负荷物可以包括Cas mRNA(例如,Cas9 mRNA)和gRNA。Cas mRNA(例如,Cas9 mRNA)和gRNA的比率可以不同。例如,LNP调配物可以包含范围为约25:1到约1:25、约10:1到约1:10、约5:1到约1:5或约1:1的Cas mRNA(例如,Cas9 mRNA)与gRNA核酸的比率。可替代地,LNP调配物可以包含约1:1到约1:5或约10:1的Cas mRNA(例如,Cas9 mRNA)与gRNA核酸的比率。可替代地,LNP调配物可以包含约1:10、25:1、10:1、5:1、3:1、1:1、1:3、1:5、1:10或1:25的Cas mRNA(例如,Cas9 mRNA)与gRNA核酸的比率。可替代地,LNP调配物可以包含约1:1到约1:2的Cas mRNA(例如,Cas9 mRNA)与gRNA核酸的比率。在具体实例中,CasmRNA(例如,Cas9 mRNA)与gRNA的比率可以为约1:1或约1:2。

在一些LNP中,负荷物可以包括外源供体核酸和gRNA。外源供体核酸和gRNA的比率可以不同。例如,LNP调配物可以包含范围为约25:1到约1:25、约10:1到约1:10、约5:1到约1:5或约1:1的外源供体核酸与gRNA核酸的比率。可替代地,LNP调配物可以包含约1:1到约1:5、约5:1到约1:1、约10:1或约1:10的外源供体核酸与gRNA核酸的比率。可替代地,LNP调配物可以包含约1:10、25:1、10:1、5:1、3:1、1:1、1:3、1:5、1:10或1:25的外源供体核酸与gRNA核酸的比率。

合适的LNP的具体实例的氮磷(N/P)比为4.5,并且含有摩尔比为45:44:9:2的生物可降解阳离子脂质、胆固醇、DSPC和PEG2k-DMG。生物可降解阳离子脂质可以是(9Z,12Z)-3-((4,4-双(辛氧基)丁酰基)氧基)-2-((((3-(二乙氨基)丙氧基)羰基)氧基)甲基)丙基十八-9,12-二烯酸酯,也被称为3-((4,4-双(辛氧基)丁酰基)氧基)-2-((((3-(二乙氨基)丙氧基)羰基)氧基)甲基)丙基(9Z,12Z)-十八-9,12-二烯酸酯。参见例如Finn等人(2018)《细胞报告》22(9):2227-2235,所述文献出于所有目的通过引用整体并入本文。Cas9 mRNA与向导RNA的重量比可以为1:1。合适的LNP的另一个具体实例含有摩尔比为50:38.5:10:1.5的Dlin-MC3-DMA(MC3)、胆固醇、DSPC和PEG-DMG。

合适的LNP的另一个具体实例的氮磷(N/P)比为6,并且含有摩尔比为50:38:9:3的生物可降解阳离子脂质、胆固醇、DSPC和PEG2k-DMG。生物可降解阳离子脂质可以是(9Z,12Z)-3-((4,4-双(辛氧基)丁酰基)氧基)-2-((((3-(二乙氨基)丙氧基)羰基)氧基)甲基)丙基十八-9,12-二烯酸酯,也被称为3-((4,4-双(辛氧基)丁酰基)氧基)-2-((((3-(二乙氨基)丙氧基)羰基)氧基)甲基)丙基(9Z,12Z)-十八-9,12-二烯酸酯。Cas9 mRNA与向导RNA的重量比可以为1:2。

可以选择降低免疫原性的递送方式。例如,可以通过不同的模式(例如,双模式递送)来递送不同的组分。这些不同的模式可以赋予主题递送分子不同的药效学或药代动力学性质。例如,不同的模式会导致不同的组织分布、不同的半衰期或不同的时间分布。一些递送模式(例如,通过自主复制或基因组整合来递送在细胞中持续存在的核酸载体)导致分子的表达和存在更持久,而其它递送模式是瞬时的且不太持久(例如,RNA或蛋白质的递送)。以更瞬时的方式递送组分,例如作为RNA,可以确保Cas/gRNA复合物仅在短时间内存在和激活,并且可以降低免疫原性。此类瞬时递送还可以减少脱靶修饰的可能性。

体内施用可以通过任何合适的途径,包含例如肠胃外、静脉内、口服、皮下、动脉内、颅内、鞘内、腹膜内、局部、鼻内或肌肉内施用。全身施用方式包含例如口服和肠胃外途径。肠胃外途径的实例包含静脉内、动脉内、骨内、肌肉内、皮内、皮下、鼻内和腹膜内途径。具体的实例是静脉输液。局部施用方式包含例如鞘内、脑室内、脑实质内(例如,局部脑实质内递送到纹状体(例如,进入尾状核或进入壳核种)、大脑皮层、中央前回、海马体(例如,进入齿状回或CA3区域)、颞叶皮层、杏仁核、额叶皮层、丘脑、小脑、髓质、下丘脑、顶盖、被盖或黑质)、眼内、眶内、结膜下、玻璃体内、视网膜下和经巩膜途径。与全身施用(例如,静脉内)相比,当局部施用(例如,脑实质内或玻璃体内)时,显著更少量的组分(与全身方法相比)可以发挥作用。局部施用方式还可以降低或消除当全身施用治疗有效量的组分时可能发生的潜在毒副作用的发生率。

具体实例是静脉内注射或输液。可以使用一种或多种生理学和药学上可接受的载体、稀释剂、赋形剂或助剂来调配包括核酸酶试剂或对核酸酶试剂进行编码的核酸(例如,Cas9mRNA和向导RNA或对向导RNA进行编码的核酸)和/或外源供体核酸的组合物。调配物可以取决于所选择的施用途径。术语“药学上可接受的”意指载体、稀释剂、赋形剂或助剂与调配物的其它成分相容并且对其接受者基本上无害。

施用频率和剂量数可以取决于外源供体核酸或向导RNA(或对向导RNA进行编码的核酸)的半衰期和施用途径等因素。将核酸或蛋白质引入到细胞或动物中可以在一段时间内执行一次或多次。例如,引入可以按以下频率执行:一段时间内仅一次、一段时间内至少两次、一段时间内至少三次、一段时间内至少四次、一段时间内至少五次、一段时间内至少六次、一段时间内至少七次、一段时间内至少八次、一段时间内至少九次、一段时间内至少十次、至少十一次、一段时间内至少十二次、一段时间内至少十三次、一段时间内至少十四次、一段时间内至少十五次、一段时间内至少十六次、一段时间内至少十七次、一段时间内至少十八次、一段时间内至少十九次或一段时间内至少二十次。

E.测量整合的抗原结合蛋白编码序列的体内表达和活性

本文所公开的方法可以进一步包括评估所插入的抗原结合蛋白编码序列的表达和/或活性。可以使用各种方法来鉴定具有靶向遗传修饰的细胞。筛选可以包括用于评估亲本染色体的等位基因修饰(MOA)的定量测定。例如,定量测定可以通过定量PCR进行,如实时PCR(qPCR)。实时PCR可以利用识别靶基因座的第一引物组和识别非靶向参考基因座的第二引物组。引物组可以包括识别扩增序列的荧光探针。合适的定量测定的其它实例包含荧光介导的原位杂交(FISH)、比较基因组杂交、等温DNA扩增、与固定化探针的定量杂交、探针、分子信标探针或ECLIPSETM探针技术(参见例如US 2005/0144655,所述文献出于所有目的通过引用整体并入本文)。

下一代测序(NGS)也可以用于筛选。下一代测序也可以被称为“NGS”或“大规模平行测序”或“高通量测序”。除了MOA测定外,NGS还可以用作筛选工具,用于定义靶向基因修饰的确切性质以及其是否在细胞类型或组织类型或器官类型上保持一致。

评估对非人动物的基因组基因座或安全港基因座的修饰可以在来自任何组织或器官的任何细胞类型中进行。例如,评估可以在来自同一组织或器官的多种细胞类型中进行,或者在来自组织或器官内的多个位置的细胞中进行。这可以提供关于靶向靶组织或器官内的哪些细胞类型或者人白蛋白靶向试剂到达组织或器官的哪些部分的信息。作为另一个实例,评估可以在多种类型的组织或多个器官中进行。在靶向特定组织、器官或细胞类型的方法中,这可以提供关于靶向所述组织或器官的有效性以及其它组织或器官中是否存在脱靶效应的信息。

用于测量抗原结合蛋白的表达的方法可以包含例如测量来自动物的血浆或血清中的抗体水平。此类方法是众所周知的。此类方法还可以包括评估由外源供体核酸编码的抗体mRNA的表达或评估抗体的表达。这种测量可以在肝脏内或肝脏内的特定细胞类型或区域内进行,或者其可以涉及测量所分泌抗体的血清水平。可以完成的测定包含例如针对滴度的ELISA(hIgG)、针对与靶抗原结合的ELISA和针对抗体质量的蛋白质印迹,如以下实例1中所述。

可以使用的测定的一个实例是RNASCOPETM和BASESCOPETM RNA原位杂交(ISH)测定,这是一种可以在完整的固定组织的情况下定量细胞特异性经编辑的转录物,包含单核苷酸变化的方法。BASESCOPETM RNAISH测定可以在基因编辑的表征中补充NGS和qPCR。虽然NGS/qPCR可以提供野生型和编辑序列的定量平均值,但其不提供有关组织内经编辑的细胞的异质性或百分比的信息。BASESCOPETM ISH测定可以提供整个组织的景观图并以单细胞分辨率对野生型与经编辑的转录物进行定量,其中可以定量靶组织中含有经编辑的mRNA转录物的细胞的实际数量。BASESCOPETM测定使用配对寡核苷酸(“ZZ”)探针在无非特异性背景的情况下放大信号,从而实现单分子RNA检测。然而,BASESCOPETM探针设计和信号放大系统利用ZZ探针实现单分子RNA检测,并且可以差异地检测完整固定组织中的单核苷酸编辑和突变。

如果抗原结合蛋白是靶向病毒或细菌抗原的中和抗原结合蛋白,则用于测量抗原结合蛋白活性的测定可以包含病毒或细菌中和测定。实例包含采用免疫染色技术的空斑减少中和测试(病毒空斑测定)或病灶形成测定,所述免疫染色技术使用对病毒或细菌抗原具有特异性的荧光标记抗体来检测受感染的宿主细胞和感染性病毒颗粒。类似的测定是众所周知的。参见例如Shan等人(2017)《E生物医学(EBioMedicine)》17:157-162和Wilson等人(2017)《临床微生物学杂志(J.Clin.Microbiol.)》55(10):3104-3112,所述文献中的每个文献出于所有目的通过引用整体并入本文。

抗原结合蛋白的活性也可以通过将动物暴露于抗原结合蛋白所靶向的病毒或细菌并评估抗原结合蛋白能否防止感染来进行测试。类似的肿瘤测定模型可以用于靶向癌症相关抗原的抗原结合蛋白。对于靶向其它疾病相关抗原的抗原结合蛋白,存在或者可以开发类似的测定方法。

III.预防或治疗应用

本文所公开的方法可以用于治疗或有效预防患有或有风险患有疾病的(人或非人)动物的疾病。如果受试者具有至少一种已知的风险因素(例如,遗传、生物化学、家族史、环境暴露),使得具有所述风险因素的个体比不具有风险因素的个体具有更大的患病风险,则个体患病的风险增加。

例如,此类方法可以包括将靶向基因组基因座或安全港基因座中的靶位点的核酸酶试剂(或对核酸酶试剂进行编码的核酸或对核酸酶试剂进行编码的一个或多个核酸)和包括抗原结合蛋白编码序列的外源供体核酸引入到动物中,其中抗原结合蛋白靶向与疾病相关的抗原。核酸酶试剂可以切割靶位点,并且抗原结合蛋白编码序列可以插入到基因组基因座或安全港基因座中,以产生经修饰的基因组基因座或安全港基因座。然后抗原结合蛋白可以在动物中表达并结合与疾病相关的抗原。用于将抗原结合蛋白编码序列插入到动物体内的基因组基因座或安全港基因座中的方法在本文别处更详细地讨论。

抗原结合蛋白或抗体可以是例如治疗性抗原结合蛋白或抗体。此类抗原结合蛋白或抗体可以用于中和或清除引起疾病的靶蛋白或选择性地杀死或清除疾病相关细胞(例如,癌细胞)。此类抗体可以通过几种不同的作用机制发挥作用,包含例如中和作用、抗体依赖性细胞介导的细胞毒性(ADCC)活性或补体依赖性细胞毒性(CDC)活性。

抗原结合蛋白或抗体可以是例如中和抗原结合蛋白或抗体或者广泛中和抗原结合蛋白或抗体。中和抗体是通过中和细胞的生物学效应来保护细胞免受抗原或感染体侵害的抗体。广泛中和抗体(bNAb)会影响特定细菌或病毒的多个菌株。

疾病相关抗原在本文别处更详细地解释。作为几个实例,此类抗原可以是癌症相关抗原、传染病相关抗原、细菌抗原或病毒抗原。各自的实例在本文别处公开。

IV.包括插入到安全港基因座中的抗原结合蛋白编码序列的细胞或动物或基因组

还提供了通过本文所公开的方法产生的或在如本文所述的基因组基因座或安全港基因座中包括抗原结合蛋白编码序列的基因组、细胞和动物。可以插入的抗原结合蛋白和编码序列在本文别处更详细地描述。同样地,如白蛋白基因座等基因组基因座或安全港基因座的实例在本文别处更详细地描述。抗原结合蛋白编码序列稳定整合的基因组基因座或安全港基因座可以对于抗原结合蛋白编码序列是杂合的或者对于抗原结合蛋白编码序列是纯合的。二倍体生物在每个基因座处有两个等位基因。每对等位基因表示具体基因座的基因型。如果在特定基因座处有两个相同的等位基因,则基因型被描述为纯合的,如果两个等位基因不同,则基因型被描述为杂合的。在如本文所述的基因组基因座或安全港基因座中包括抗原结合蛋白编码序列的动物可以在其种系的基因组基因座或安全港基因座中包括抗原结合蛋白编码序列。

本文提供的基因组、细胞或动物可以是例如真核生物,包含例如动物、哺乳动物、非人哺乳动物和人。术语“动物”包含哺乳动物、鱼类和鸟类。哺乳动物可以是例如非人哺乳动物、人、啮齿动物、大鼠、小鼠或仓鼠。其它非人哺乳动物包含例如非人灵长类动物、猴子、猿、猫、狗、兔、马、公牛、鹿、野牛、家畜(例如,牛种,如奶牛、公牛等;绵羊种,如绵羊、山羊等;以及猪种,如猪和野猪)。鸟类包含例如鸡、火鸡、鸵鸟、鹅、鸭等。家养动物和农业动物也包含在内。术语“非人”不包含人。

细胞也可以呈任何类型的未分化或分化状态。例如,细胞可以是全能细胞、多能细胞(例如,人多能细胞或非人多能细胞,如小鼠胚胎干(ES)细胞或大鼠ES细胞)或非多能细胞。全能细胞包含可以产生任何细胞类型的未分化细胞,并且多能细胞包含具有发育成多于一种分化细胞类型的能力的未分化细胞。

本文所提供的细胞还可以是生殖细胞(例如,精子或卵母细胞)。细胞可以是有丝分裂感受态细胞或有丝分裂非活性细胞、减数分裂感受态细胞或减数分裂非活性细胞。类似地,细胞还可以是初生体细胞或不是初生体细胞的细胞。体细胞包含任何不是配子、生殖细胞、配子母细胞或未分化干细胞的细胞。例如,细胞可以是肝细胞、肾细胞、造血细胞、内皮细胞、上皮细胞、成纤维细胞、间充质细胞、角质形成细胞、血细胞、黑素细胞、单核细胞、单个核细胞、单核细胞前体、B细胞、红细胞-巨核细胞、嗜酸性粒细胞、巨噬细胞、T细胞、胰岛β细胞、外分泌细胞、胰腺祖细胞、内分泌祖细胞、脂肪细胞、前脂肪细胞、神经元、神经胶质细胞、神经干细胞、神经元、成肝细胞、肝细胞、心肌细胞、骨骼肌细胞、平滑肌细胞、导管细胞、腺泡细胞、α细胞、β细胞、δ细胞、PP细胞、胆管细胞、白色或棕色脂肪细胞或眼细胞(例如,小梁网细胞、视网膜色素上皮细胞、视网膜微血管内皮细胞、视网膜周细胞、结膜上皮细胞、结膜成纤维细胞、虹膜色素上皮细胞、角膜细胞、晶状体上皮细胞、非色素睫状上皮细胞、眼脉络膜成纤维细胞、感光细胞、神经节细胞、双极细胞、水平细胞或无长突细胞)。例如,细胞可以是肝细胞(liver cell),如成肝细胞或肝细胞(hepatocyte)。

本文所提供的细胞可以是正常的、健康的细胞,或者可以是患病或携带突变体的细胞。

本文所提供的动物可以是人或非人动物。包括如本文所述的核酸或表达盒的非人动物可以通过本文别处所述的方法制备。术语“动物”包含哺乳动物、鱼类和鸟类。哺乳动物包含例如人、非人灵长类动物、猴子、猿、猫、狗、马、公牛、鹿、野牛、绵羊、兔、啮齿动物(例如,小鼠、大鼠、仓鼠和豚鼠)和家畜(例如,牛种,如奶牛和公牛;绵羊种,如绵羊和山羊;以及猪种,如猪和野猪)。鸟类包含例如鸡、火鸡、鸵鸟、鹅和鸭。家养动物和农业动物也包含在内。术语“非人动物”不包含人类。非人动物的特定实例包含啮齿动物,如小鼠和大鼠。

非人动物可以来自任何遗传背景。例如,合适的小鼠可以来自129品系、C57BL/6品系、129和C57BL/6的混合、BALB/c品系或Swiss Webster品系。129品系的实例包含129P1、129P2、129P3、129X1、129S1(例如,129S1/SV,129S1/Svlm)、129S2、129S4、129S5、129S9/SvEvH、129S6(129/SvEvTac)、129S7、129S8、129T1和129T2。参见例如Festing等人(1999)《哺乳动物基因组》10(8):836,所述文献出于所有目的通过引用整体并入本文。C57BL品系的实例包含C57BL/A、C57BL/An、C57BL/GrFa、C57BL/Kal_wN、C57BL/6、C57BL/6J、C57BL/6ByJ、C57BL/6NJ、C57BL/10、C57BL/10ScSn、C57BL/10Cr和C57BL/Ola。合适的小鼠还可以来自上述129品系和上述C57BL/6品系的混合(例如,50%129和50%C57BL/6)。同样地,合适的小鼠可以来自上述129品系的混合或上述BL/6品系的混合(例如,129S6(129/SvEvTac)品系)。

类似地,大鼠可以来自任何大鼠品系,包含例如ACI大鼠品系、黑刺鼠(DA)大鼠品系、威斯塔(Wistar)大鼠品系、LEA大鼠品系、斯泼累格多雷(Sprague Dawley,SD)大鼠品系或费舍尔(Fischer)大鼠品系,如费舍尔F344或费舍尔F6。大鼠还可以从源自上述两种或更多种品系的混合品系中获得。例如,合适的大鼠可以来自DA品系或ACI品系。ACI大鼠品系的特征在于具有腹部和足部呈白色的黑刺鼠以及RT1av1单倍型。此类品系可从多种来源获得,包含哈兰实验室(Harlan Laboratories)。黑刺鼠(DA)大鼠品系的特征在于具有刺鼠皮毛和RT1av1单倍型。此类大鼠可从多种来源获得,包含查尔斯河和哈兰实验室(Charles Riverand Harlan Laboratories)。在一些情况下,合适的大鼠可以来自近交大鼠品系。参见例如US2014/0235933,所述文献出于所有目的通过引用整体并入本文。

在一些动物中,抗原结合蛋白在血清或血浆中的表达为至少约500、1000、1500、2000、2500、3000、3500、4000、4500、5000、5500、6000、6500、7000、7500、8000、8500、9000、9500、10000、20000、30000、40000、50000、60000、70000、80000、90000、100000、110000、120000、130000或140000、150000、200000、250000、300000、350000或400000ng/mL(即,至少约0.5、1、1.5、2、2.5、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9.5、10、20、30、40、50、60、70、80、90、100、110、120、130或140、150、200、250、300、350或400μg/mL)。例如,表达可以为至少约2500、5000、10000、100000或400000ng/mL(即,至少约2.5、5、10、100或400μg/mL)。

出于所有目的,上文或下文引用的所有专利申请、网站、其它出版物、登录号等都通过引用整体并入,其程度如同每个单独的项目被单独并且具体地指出通过引用的方式并入。如果序列的不同版本与不同时间的登录号相关联,则意指在本申请的有效提交日期与该登录号相关联的版本。有效提交日期是指实际提交日期或提及登录号的优先权申请的提交日期(在适用情况下)中较早的日期。同样,如果出版物、网站等的不同版本在不同时间发布,除非另有说明,否则指在申请的有效提交日期最近发布的版本。除非另外具体说明,否则本发明的任何特征、步骤、元件、实施例或方面都可以与任何其它特征、步骤、元件、实施例或方面结合使用。尽管为了清楚和理解起见,已通过图解和实例方式详细地对本发明进行了描述,但显而易见的是,可以在所附权利要求的范围内进行某些改变和修改。

序列简要说明

使用核苷酸碱基的标准字母缩写和氨基酸的三字母代码示出随附序列表中列出的核苷酸和氨基酸序列。核苷酸序列遵循从序列的5'端开始并且向前(即,在每行中从左到右)到达3'端的标准惯例。每个核苷酸序列仅示出一条链,但任何提及的显示链均应理解为包含互补链。当提供对氨基酸序列进行编码的核苷酸序列时,应理解还提供了对相同氨基酸序列进行编码的其密码子简并变体。氨基酸序列遵循从序列的氨基端开始并且向前(即,在每行中从左到右)到达羧基端的标准惯例。

表2.序列说明。

实例

实例1.将抗寨卡病毒抗体基因插入到小鼠白蛋白基因座中

将脂质纳米颗粒和AAV介导的抗体插入到小鼠白蛋白基因座中

白蛋白基因座是用于治疗基因插入和表达的安全且高效的位点。组合CRIPSR/Cas9技术和安全AAV载体将预防性或治疗性抗体基因敲入到肝脏中的白蛋白基因座中以进行长期表达是具有吸引力的治疗方式。

为了将预防性或治疗性抗体基因敲入到肝脏中的白蛋白基因座中,使用了携带靶向小鼠白蛋白基因的第一内含子的Cas9 mRNA和gRNA以及对通过自切割肽连接的抗体轻链和重链进行编码的AAV2/8的脂质纳米颗粒(LNP)将抗体基因插入到小鼠白蛋白基因座中以进行抗体表达,如图1所示并在下文更详细地描述。AAV2/8具有与AAV8衣壳蛋白组合的AAV2基因组和rep蛋白。重链编码序列包括VH、DH和JH区段,并且轻链编码序列包括轻链VL和轻链JL基因区段。

插入策略涉及使用脂质纳米颗粒将Cas9 mRNA和gRNA递送到小鼠肝脏,以诱导小鼠白蛋白基因的第一内含子的双链断裂。白蛋白基因结构适用于将转基因靶向到内含子序列中,因为其第一外显子对从最终蛋白质产物中切割出来的分泌肽(信号肽或信号序列)进行编码。因此,带有剪接受体和治疗性抗体转基因的无启动子盒的整合支持治疗性抗体转基因的表达和分泌。然后,对抗体轻链和重链进行编码的AAV2/8能够通过非同源末端接合(NHEJ)途径整合到双链断裂位点,并且抗体基因由内源白蛋白启动子转录,如图1所示。

实验中使用的AAV基因组(pAAV-AlbSA-REGN4504;SEQ ID NO:1)侧接有两个反向末端重复序列(ITR)。AAV包含小鼠白蛋白基因的第一内含子的剪接受体(AlbSA;SEQ IDNO:21)、具有两个另外的C碱基以将序列保持在正确的开放阅读框中的REGN4504抗体轻链cDNA(4504LC;SEQ ID NO:2(核酸)和SEQ ID NO:3(蛋白质))、弗林蛋白酶切割位点(SEQ IDNO:22(核酸)和SEQ ID NO:23(蛋白质))、由GSG氨基酸构成的接头、小鼠Ror1信号序列(mRORss;SEQ ID NO:31或32(核酸)和SEQ ID NO:33(蛋白质))、REGN4504抗体重链编码序列(4504HC;SEQ ID NO:4(核酸)和SEQ ID NO:5(蛋白质))、简短形式的土拨鼠肝炎病毒转录后调节元件(sWPRE;SEQ ID NO:36)和SV40polyA(SV40polyA;SEQ ID NO:37)。在小鼠白蛋白基因座处整合的供体构建体的编码序列(包含内源小鼠白蛋白外显子1:mAlbss-LC-P2A-mRORss-HC REGN4504)在SEQ ID NO:115中示出。

在第一实验中,AAV供体序列是SEQ ID NO:1中所示的AAV2/8AlbSA4504抗包膜(寨卡病毒)抗体供体序列。供体包括由P2A自切割肽连接的抗体重链上游的抗体轻链。序列的序列标识符在下表3中提供。

表3.抗寨卡病毒抗体序列(REGN 4504)。

序列 蛋白质序列号 DNA序列号
轻链 3 2
轻链可变区 104 103
轻链CDR1 64 85
轻链CDR2 65 86
轻链CDR3 66 87
重链 5 4
重链可变区 106 105
重链CDR1 67 88
重链CDR2 68 89
重链CDR3 69 90

脂质纳米颗粒被设计成递送靶向小鼠白蛋白基因座的内含子1的两种不同版本的向导RNA。第一版本(gRNA 1v1)经N-cap修饰并且包括前三个5'和3'端RNA残基处的2'-O-甲基类似物和3'硫代磷酸酯核苷酸间键。第二版本(gRNA 1v2)被修饰成使得所有不与Cas9蛋白相互作用的2'OH基团被2'-O-甲基类似物替换,并且与Cas9蛋白的相互作用最小的向导RNA的尾部区域用5'和3'硫代磷酸酯核苷酸间键修饰。另外,DNA靶向区段在某些碱基上也有2'-氟修饰。

脂质纳米颗粒的调配物在表4中提供。Cas9 mRNA(封端并包含经修饰的尿苷)和gRNA以1:1的重量比包含在内。LNP在NANOASSEMBLERTM Benchtop上调配。纳米颗粒在微流体芯片中自组装。

表4.LNP调配物。

脂质 混合摩尔比 分子量(g/mol)
Dlin-MC3-DMA(MC3) 50 642.09
DSPC 10 790.14
胆固醇 38.5 386.65
PEG-DMG 1.5 2000

实验设计在图2中示出。每组使用三只C57BL/6小鼠。以1mg/kg的浓度经静脉内注射脂质纳米颗粒(LNP),并在第0天共注射AAV AlbSA 4504(3E11 vg/小鼠)。实验包含三组:(1)递送Cas9 mRNA和第一版本的向导RNA 1v1加AAV2/8AlbSA 4504的LNP;(2)递送Cas9mRNA和上述第二版本的向导RNA 1加AAV2/8AlbSA 4504的LNP;以及(3)盐水阴性对照。如图2所示,LNP和AAV2/8注射在第0天进行。在第7天、第14天和第28天(即,第1周、第2周和第4周)获得血浆采血。

使用HEK293细胞的三重转染方法执行腺相关病毒产生。参见例如Arden和Metzger(2016)《生物方法杂志(J.Biol.Methods)》3(2):e38,所述文献出于所有目的通过引用整体并入本文。在PEFpro(纽约州纽约市Polyplus转染公司(Polyplus transfection))介导的转染前一天用适当的载体、一种辅助质粒pHelper(安捷伦公司(Agilent),目录#240074)、一种含有AAV rep/cap基因的质粒(pAAV RC2,细胞生物实验室(Cell biolabs),目录#VPK-422)、pAAV RC2/8(细胞生物实验室,目录#VPK-426)和一种提供AAV ITR和转基因的质粒(pAAV-AlbSA-REGN4504;SEQ ID NO:1)接种细胞。转染后七十二小时,收集培养基并在缓冲液[50mM Tris-HCl,150mM NaCl和0.5%脱氧胆酸钠(西格玛公司(Sigma),目录#D6750-100G)]中裂解细胞。接下来,将全能核酸酶(benzonase,密苏里州圣路易斯西格玛公司)添加到培养基和细胞裂解物中,达到最终浓度0.5U/μL,然后在37℃下温育60分钟。将细胞裂解物以4000rpm自旋向下30分钟。将细胞裂解物和培养基合并在一起并用终浓度为8%的PEG 8000(天惠华公司(Teknova),目录#P4340)进行沉淀。将沉淀物重新悬浮在400mM NaCl中并以10000g离心10分钟。将上清液中的病毒通过以149,000g超速离心3小时进行沉淀,并通过qPCR进行滴定。

对于qPCR滴定AAV基因组,将AAV样品用DNaseI(赛默飞世尔科技公司(Thermofisher Scientific),目录#EN0525)在37℃下处理一小时,并且使用DNA提取物全试剂(赛默飞世尔科技公司,目录#4403319)裂解。使用QuantStudio 3实时PCR系统(赛默飞世尔科技公司)定量封装的病毒基因组,所述系统使用指向AAV2 ITR的引物。AAV2 ITR引物的序列是5'-GGAACCCCTAGTGATGGAGTT-3'(正向ITR;SEQ ID NO:82)和5'-CGGCCTCAGTGAGCGA-3'(反向ITR;SEQ ID NO:83),其分别衍生出来自AAV的左内部反向重复(ITR)序列和来自AAV的右内部反向重复(ITR)序列。AAV2 ITR探针的序列为5'-6-FAM-CACTCCCTCTCTGCGCGCTCG-TAMRA-3'(SEQ ID NO:84)。参见例如Aurnhammer等人(2012)《人类基因治疗方法(Hum.Gene Ther.Methods)》23(1):18-28,所述文献出于所有目的通过引用整体并入本文。在10分钟的95℃激活步骤后,两步PCR循环在95℃下执行15秒并且在60℃下执行30秒,持续40个循环。在qPCR中使用了TAQMAN通用PCR预混液(赛默飞世尔科技公司,目录#4304437)。使用DNA质粒(安捷伦公司,目录#240074)作为确定绝对滴度的标准。

执行ELISA测定以定量血清中的抗体滴度。将黑色96孔Maxisorp板(赛默飞世尔公司#437111)用1μg/mL的AffiniPure山羊抗人IgG Fcγ片段特异性抗体(杰克逊免疫研究公司(Jackson ImmunoResearch),#109-005-098)在4℃下包覆过夜。用KPL洗涤缓冲液(VWR#5151-0011)洗涤板,并且然后在室温下用3%-BSA封闭缓冲液(SeraCare#5140-0008)封闭1小时。将板洗涤4次,并且然后在室温下,在0.5%-BSA、0.05%吐温-20ADB溶液(SeraCare#5140-0000,赛默飞世尔公司#85114)中以1:100初始稀释后,在1:3系列稀释下用作为标准品的经纯化的REGN4504(抗寨卡病毒Ab)抗体或小鼠血清温育1小时。用标准抗体和血清温育后,将板洗涤4次并用山羊抗人IgG HRP抗体(赛默飞世尔公司#31412)以1:10,000在ADB溶液中在室温下温育1小时。最后,将板洗涤8次,并且然后使用SuperSignal ELISA Pico化学发光底物(赛默飞世尔公司#37070)显影,随后在PerkinElmer 2030Victor X3多标记读取器上读取。

LNP和AAV的共注射在注射了gRNA 1v1的小鼠中导致约1μg/mL的抗体表达,并且在注射了gRNA1 v2的小鼠中导致0.5μg/mL的抗体表达(图3)。抗体表达持续增加到第4周。LNP与gRNA 1v1和AAV2/8-AlbSA-REGN4504的共注射在第4周导致约10μg/mL的抗体表达,并且在注射了gRNA 1v2的小鼠中导致5μg/mL的抗体表达(图3)。具有第一向导RNA版本(N-capgRNA)的LNP比第二向导RNA版本的效果更好。血清中10μg/mL的抗体达到了如传染病等许多疾病的治疗窗。从整合的AAV中表达的抗体可以保护小鼠免受寨卡病毒、流感或其它传染病病原体的致命感染。

为了确定从整合的AAV中产生的抗体是否具有功能并且针对寨卡病毒具有中和活性,使用注射Cas9-gRNA LNP和AAV2/8AlbSA 4504抗寨卡病毒抗体供体序列四周后抽取的血浆样品执行寨卡病毒中和测定。在黑色透明底部的96孔细胞培养处理板(目录#3904,新泽西州泰特波罗康宁公司(Corning))中的DMEM完全培养基(10%FBS,PSG)(目录#10313-021,加利福尼亚州卡尔斯巴德生命科技公司(Life Technologies))中每孔接种一万个Vero细胞(目录#CCL-81,弗吉尼亚州马纳萨斯ATCC公司),并在感染前一天在37℃、5%CO2下温育。然后使用12μL血清作为起始点。然后用DMEM以1:3的稀释系数稀释血浆,保持总体积为12μL。用血浆温育十二μL的2.0E+04ffu/mL MR766病毒(从UTMB虫媒病毒参考集合(Arbovirus Reference Collection)获得),并在温育30分钟后将其添加到细胞中。在感染后一天,将细胞用冰冷的1:1甲醇和丙酮混合物在4℃下固定30分钟,在室温下用含有5%FBS和0.1%Triton-X的PBS渗透15分钟,在室温下用PBS+5%FBS封闭30分钟,在室温下用初级抗体(寨卡病毒小鼠免疫腹水从德克萨斯大学医学分校获得,在PBS+5%FBS中以1:10,000稀释)染色1小时,并在室温下用次级抗体(1μg/mL Alexa Fluor 488山羊抗小鼠的PBS+5%FBS溶液,目录#A11001,马萨诸塞州沃尔瑟姆赛默飞世尔公司)温育1小时。然后在具有MiniMax模块的Spectramax i3(目录#353701346,分子装置公司(Molecular Devices))板读取器上读取板。小鼠血清中的抗体没有中和活性(图4)。

使用蛋白质印迹来评估来自终端图的血清中抗体的质量。简而言之,将15μg血清在具有和不具有NuPAGE样品还原剂(赛默飞世尔公司#NP0009)的NuPAGE LDS样品缓冲液(赛默飞世尔公司#NP0007)中稀释,并在70℃下温育10分钟。然后将样品加载到NuPAGE4-12%Bis-Tris蛋白凝胶(赛默飞世尔公司#NP0321BOX)上,并在NuPAGE MOPS SDS运行缓冲液(赛默飞世尔公司#NP0001)中以200V运行大约35分钟。使用MagicMark西方标准(赛默飞世尔公司#LC5602)作为梯,并且使用REGN4504(抗寨卡病毒抗体)作为凝胶的阳性对照。通过iBlot2干印迹系统(赛默飞世尔公司#IB21001)将凝胶转移到iBlot2 PVDF MiniStacks(赛默飞世尔公司#IB24002)。在室温下将膜在5%牛奶(VWR#M203-10G-10PK)的TBST(赛默飞世尔公司#28360)溶液中封闭1小时,并且然后在室温下在PBS中用山羊抗人IgG HRP抗体(赛默飞世尔公司#31412)以1:5,000探测1小时。然后使用SuperSignal West Femto最大灵敏度底物(赛默飞世尔公司#34095)使印迹显影,并且然后在BioRad ChemiDoc MP成像系统上成像。蛋白质印迹示出了轻链表达异常,并提示轻链切割不当(图5)。

将抗体插入到Cas9就绪小鼠的白蛋白基因座中

在最初的概念验证实验之后,转基因被设计用于将AAV-REGN4446以同源非依赖性靶向插入介导的单向靶向插入的方式插入到Cas9就绪小鼠中的小鼠白蛋白基因的第一内含子(图6)。具有整合到小鼠基因组Rosa26基因座的第一内含子中的Cas9编码序列的Cas9就绪小鼠在US 2019/0032155和WO 2019/028032中进行描述,所述文献中的每个文献通过引用整体并入本文。

在此策略中,重链编码区段位于轻链编码区段的上游(图6),因此重链的分泌由内源白蛋白分泌信号驱动。对不同的2A肽、F2A(SEQ ID NOS:26(核酸)和27(蛋白质))、P2A(SEQ ID NOS:24(核酸)和25(蛋白质))和T2A(SEQ ID NOS:28(核酸)和29(蛋白质)),以及白蛋白(SEQ ID NOS:34(核酸)和35(蛋白质))和小鼠Ror1信号序列(SEQ ID NO:31或32(核酸)和33(蛋白质))进行了驱动轻链表达的测试(图6)。另外,与以上利用REGN4504的实验相比,去除了ITR。将四种不同的插入构建体((1)AAV2/8.hU6gRNA1.REGN4446 HC F2A AlbssLC(SEQ ID NO:6);(2)AAV2/8.hU6 gRNA1.REGN4446HC P2A Albss LC(SEQ ID NO:7);(3)AAV2/8.hU6 gRNA1.REGN4446 HC T2A Albss LC(SEQ ID NO:8);以及(4)AAV2/8.hU6gRNA1.REGN4446 HC T2A RORss LC(SEQ ID NO:9))和两种附加型抗体表达构建体((5)AAV2/8.CMV.REGN4446 LC T2AHC(SEQ ID NO:11)和(6)AAV2/8.CASI.REGN4446 HC T2A LC(SEQ ID NO:10))注射到Cas9就绪小鼠中(表5)。序列的序列标识符在下表6中提供。在小鼠白蛋白基因座处整合的供体构建体的编码序列(包含内源小鼠白蛋白外显子1:(1)mAlbss-HC-F2A-Albss-LC REGN4446;(2)mAlbss-HC-P2A-Albss-LC REGN4446;(3)mAlbss-HC-T2A-Albss-LC REGN4446;以及(4)mAlbss-HC-T2A-RORss-LC REGN4446)分别在SEQ ID NO:116-119中示出。

表5.用于在Cas9就绪小鼠中比较各种REGN4446转基因格式的研究设计。

分组 病毒 Vg/小鼠
1 盐水 --
2 AAV2/8.CMV.REGN4446RORss LC T2A RORss HC 5.00E+11
3 AAV2/8.CASI.REGN4446Albss HC T2A RORss LC 5.00E+11
4 AAV2/8.hU6 gRNA1v1 REGN4446 HC F2A Albss LC 1.00E+12
5 AAV2/8.hU6 gRNA1v1 REGN4446 HC P2A Albss LC 1.00E+12
6 AAV2/8.hU6 gRNA1v1 REGN4446 HC T2A Albss LC 1.00E+12
7 AAV2/8.hU6 gRNA1v1 REGN4446 HC T2A RORss LC 1.00E+12

表6.REGN4446抗寨卡病毒抗体序列

实验设计在图7中示出。每组使用三只7-11周龄的雄性[email protected](2600KO/3040WT)小鼠。在第0天注射AAV2/8(200μL静脉内注射)。如图7所示,AAV2/8注射在第0天进行,并且在第10天、第28天或第56天获得血清采血。在注射后第70天将小鼠杀死用于进一步分析。血清采血后进行的测试包含针对滴度的ELISA(hIgG;图8)、针对结合的ELISA(寨卡病毒;图10)、针对抗体质量的蛋白质印迹(图9)和针对功能的中和测定(图11)。还进行了小鼠抗人抗体(MAHA)测定(数据未示出)。

在第28天后,附加型抗体表达构建体在小鼠血清中产生约100μg/mL到1000μg/mL的抗体滴度。在轻链之前具有白蛋白信号序列的插入型AAV导致大约5μg/mL的抗体表达。令人惊讶的是,在轻链之前具有mRor1信号序列的整合型AAV在小鼠血清中表达了大约1000μg/mL的抗体(图8)。使用轻链上游的ROR信号序列的滴度显著高于使用轻链上游的白蛋白信号序列的滴度。蛋白质印迹示出了从整合的AAV表达的抗体的重链和轻链的分子量类似于经纯化的抗体(图9)。

使用ELISA来测量从附加型AAV和整合型AAV表达的抗体的结合亲和力。将寨卡病毒(prM80E)-mmh(批次#REGN4233-L4 5/12/16PBSG 0.279mg/mL)在黑色96孔Maxisorp板(赛默飞世尔公司#437111)中在4℃下温育过夜。然后用KPL洗涤缓冲液(VWR#5151-0011)洗涤板,并且然后在室温下用3%-BSA封闭缓冲液(SeraCare#5140-0008)封闭1小时。将板洗涤4次,并且然后在室温下,在0.5%-BSA、0.05%吐温-20ADB溶液(SeraCare#5140-0000,赛默飞世尔公司#85114)中以1:100初始稀释后,在1:3系列稀释下用作为标准品的经纯化的REGN4446(抗寨卡病毒Ab)抗体或小鼠血清(来自末端抽血)温育1小时。用标准抗体和血清温育后,将板洗涤4次并用山羊抗人IgG HRP抗体(赛默飞世尔公司#31412)以1:10,000在ADB溶液中在室温下温育1小时。最后,将板洗涤8次,并且然后使用SuperSignal ELISAPico化学发光底物(赛默飞世尔公司#37070)显影,随后在PerkinElmer 2030Victor X3多标记读取器上读取。ELISA示出了从附加型AAV和整合型AAV表达的抗体的结合能力与经纯化的REGN4446相当(图10)。

为了确定小鼠产生的抗体是否有功能,用来自末端抽血的血清执行寨卡病毒中和测定。寨卡病毒中和测定(如图4所述执行)示出了从附加型AAV和整合型AAV表达的抗体的中和活性类似于经纯化的REGN4446(图11)。对因组织收集而被处死的小鼠的插入缺失的NGS测定示出,在注射了插入构建体的小鼠中,插入缺失率(由白蛋白基因的第一内含子中的Cas9/gRNA1切割引起)是类似的,而注射了盐水和附加型AAV的小鼠的插入缺失率具有背景水平(图12A)。一个引物与白蛋白外显子1结合并且一个引物与抗体重链结合的TAQMANqPCR示出抗体的mRNA水平类似,这指示轻链之前的mRor1信号序列在小鼠肝脏中促进抗体产生超过2个对数(图12B)。比较T2A/Albss和T2A/RORss,其中这两个构建体之间的唯一区别是轻链编码序列上游的信号序列,与白蛋白信号序列相比,RORss似乎显著促进抗体分泌。比较图8与图12B。

两种AAV介导的抗体插入到白蛋白基因中

如以上所展示的,将抗体基因插入到Cas9就绪小鼠的小鼠白蛋白基因座的内含子1中导致了高水平的抗体表达。为了在非Cas9就绪生物体中执行插入,可以使用另一个携带Cas9表达盒的AAV。由于Cas9的cDNA(4.1kb)接近AAV的包装能力,首先筛选了一些可以适应于AAV/Cas9构建体并驱动Cas9在肝脏中表达的小启动子。

使用小tRNAGln启动子(SEQ ID NO:38)来驱动靶向靶基因1的向导RNA的表达。测试了四种用于驱动Cas9表达的启动子:(1)延伸因子1α短(EFs)(SEQ ID NO:40);(2)猿猴病毒40(SV40)(SEQ ID NO:41);以及两个合成启动子((3)早期区域2启动子(E2P)(SEQ IDNO:42)和(4)SerpinAP(SEQ ID NO:43))。合成启动子由肝脏特异性增强子——来自HBV病毒的E2(SEQ ID NO:44)或来自SerpinA基因的SerpinA增强子(SEQ ID NO:45)——和核心启动子(SEQ ID NO:46)构成(图13)。

携带由四种不同的启动子(tGln gRNA EFs Cas9(SEQ ID NO:47)、tGln gRNASV40 Cas9(SEQ ID NO:48)、tGln gRNA E2P Cas9(SEQ ID NO:49)和tGln gRNA SerpinAPCas9(SEQ ID NO:50))驱动的tRNAGln gRNA和Cas9的AAV2/8病毒的1E12 VG被注射到小鼠中。测试了五个组:(1)盐水对照;(2)AAV2/8.tGln gRNA e2P Cas9;(3)AAV2/8.tGln gRNASerpinAP Cas9;(4)AAV2/8.tGln gRNA Efs Cas9;以及(5)AAV2/8.tGln gRNA SV40pCas9。

五周后,取血清,并根据制造商的方案通过ELISA分析靶蛋白1水平(图14)。在注射了合成启动子的小鼠中,靶蛋白1水平被敲低,其中SerpinA启动子似乎效果最好(图14)。

接下来将两种AAV,AAV2/8.SerpinAP.Cas9(SEQ ID NO:39)的5E11 VG或1E12 VG/小鼠和AAV2/8.hU6gRNA1.REGN4446 HC T2A mRORss LC(SEQ ID NO:9)的1E12 Vg/小鼠注射到5周龄的雌性C57BL/6小鼠或8周龄的雌性BALB/c小鼠中。每组使用三只小鼠。实验设计在图20和表7中示出。

表7.研究设计。

gRNA1编码序列包含在REGN4446 HC T2A mRORss LC AAV而不是Cas9 AAV中,因此只有被两种AAV感染的细胞才会具有插入缺失和抗体基因插入。附加型AAV2/8.CASI.REGN4446 HC T2A LC(SEQ ID NO:10)用作阳性对照。注射后四周,具有高滴度AAV2/8.SerpinAP.Cas9的组的抗体表达水平为大约100μg/mL,而低滴度组在C57BL/6小鼠中的抗体表达水平为大约50μg/mL(图15),而AAV2/8.hU6gRNA1v1.REGN4446 HC T2AmRORss LC注射的小鼠(未注射Cas9 AAV)没有抗体表达。然后,对于注射了AAV2/8.SerpinAP.Cas9(SEQ ID NO:39;1E12 VG/小鼠)和AAV2/8.hU6gRNA1.REGN4446HC T2AmRORss LC(SEQ ID NO:9;1E12 Vg/小鼠)的小鼠以及注射了附加型AAV2/8.CASI.REGN4446(5E11 VG/小鼠)的小鼠,高滴度组的时间进程延长至118天。使用了C57BL/6小鼠和BALB/c小鼠两者。注射后118天,注射了AAV2/8.SerpinAP.Cas9(SEQ ID NO:39)和AAV2/8.hU6gRNA1.REGN4446 HC T2A mRORss LC(SEQ ID NO:9)以供整合的小鼠的抗体表达水平接近1000μg/mL,并且等同于C57BL/6小鼠中附加型AAV2/8.CASI.REGN4446 HC T2A LC(SEQID NO:10)对照组中的抗体表达水平(图18,左侧分图)。在BALB/c小鼠中也观察到了相同的趋势——随着时间的推移观察到抗体(人IgG)水平持续增加,接近附加型对照组中的表达水平(图18,右侧分图)——这表明这些结果不是品系特异性的。

为了确定小鼠产生的抗体是否有功能,使用来自图15中的高滴度组的第28天的血清执行寨卡病毒中和测定。寨卡病毒中和测定(如图4所述执行)示出,通过这种方法产生的抗体中和寨卡病毒与经纯化的REGN4446的效果相当(图16)。另外,如上所述评估结合能力(与寨卡病毒包膜蛋白的结合),以比较经纯化的REGN4446与从附加型AAV表达的抗体或Cas9介导的AAV整合后的抗体的结合。ELISA示出了从附加型AAV和整合型AAV表达的抗体的结合能力与经纯化的REGN4446相当。参见图19。因此,如通过结合测定和中和测定两者评估的,通过附加体和插入策略表达的单克隆抗体在功能上等同于CHO产生的纯化抗体。对结合和中和结果的定量在下表8中提供。

表8.附加型和肝脏插入型抗寨卡病毒单克隆抗体在体外和野生型小鼠中等同于CHO生产的纯化抗体。

转基因格式-品系 结合EC50 中和EC50
盐水血清+经纯化的REGN4446 2.53E-10 6.87E-10
附加型-C57BL/6 2.96E-10 4.69E-10
附加型-BALB/c 5.21E-10 6.05E-10
插入型-C57BL/6 3.10E-10 4.32E-10
插入型-BALB/c 1.62E-10 8.49E-10

对于中和,在感染前1天将Vero细胞以10,000个细胞/孔接种在黑色透明底部的96孔细胞培养处理板中的DMEM完全培养基(10%FBS,PSG)中,并在37℃、5%CO2下温育,直到感染为止。在感染当天,将小鼠血清样品在DMEM感染培养基(2%FBS,PSG)中稀释至其最终中和反应浓度的两倍。向培养基中添加血清,起始浓度为每个中和孔12μL血清(每稀释度24μL血清,当与病毒1:1组合时,最终中和孔中将产生12μL/血清)。然后将样品在96孔V型底微量滴定板上连续稀释3倍,总共11种血清浓度,以每个中和孔为0.0002μL血清结束。对照抗体REGN4446(批次H4yH25703N)也在DMEM感染培养基中连同来自媒剂注射小鼠的血清一起稀释至其最终中和反应浓度的两倍,所述中和反应的起始浓度为5μg/mL(3.33E-08M,或33.33nM),并在96孔微量滴定板上连续稀释3倍,总共11个稀释度,以0.00008μg/mL(5.65E-13M或565fM)结束。还制备了含有DMEM感染培养基或与检测中使用的最大体积的血清混合的DMEM感染培养基的对照孔,以允许血清/培养基未感染和感染的对照。通过在DMEM感染培养基中将MR766病毒(从UTMB虫媒病毒参考集合中获得并在Vero细胞中繁殖到第3代)从其储备浓度2.0E+06ffu/mL稀释以产生2ffu/细胞或20,000ffu/中和孔的多重感染来制备病毒。抗体和血清稀释液在V型底96孔微量滴定板中与经稀释的病毒按1:1组合,并在37℃、5%CO2下温育30分钟。然后将病毒/抗体/血清稀释液添加到细胞中。温育1小时后,去除接种物,并将细胞用100μL DMEM+1%FBS、PSG、1%甲基纤维素覆盖并在37℃、5%CO2下温育过夜(16-20小时)。从细胞上吸出甲基纤维素覆盖物,并用PBS洗涤两次。然后按照图4概述的方案对细胞进行固定、染色和定量。结果在图21中示出,其示出了来自AAV注射小鼠的血清中附加型和肝脏插入型抗寨卡病毒抗体的等效中和作用。C57BL/6小鼠和BALB/c小鼠两者的血清中的附加型和肝脏插入型抗寨卡病毒单克隆抗体在功能上等同于掺入到初始小鼠血清中的CHO纯化的抗体。

为了测试从附加型或双AAV插入策略产生的单克隆抗体的功能,采用了体内寨卡病毒激发模型。参见图22。10与11周龄之间的雌性干扰素α和β受体1敲除小鼠(IFNAR)被分为7组,每组N=4只小鼠。这些组接受以下注射的任一种:(1)PBS;(2)AAV2/8,用于附加地表达由CAG启动子驱动的脱靶对照抗体;(3)低剂量(1.0E+11VG/小鼠)或(4)高剂量(5.0E+11VG/小鼠)的AAV2/8.CASI.REGN4446 HC T2ALC(SEQ ID NO:10),用于附加地表达REGN4446抗寨卡病毒抗体;(5)低剂量(5.0E+11VG/小鼠/载体)或(6)高剂量(1.0E+12Vg/小鼠/载体)的AAV2/8.SerpinAP.Cas9(SEQ ID NO:39)和AAV2/8.hU6gRNA1.REGN4446 HC T2AmRORss LC(SEQ ID NO:9;1E12 Vg/小鼠),用于REGN4446抗寨卡病毒抗体的肝脏插入型表达;或(7)200μg的CHO纯化的REGN4446抗寨卡病毒抗体。第(1)-(6)组通过尾静脉注射进行静脉内注射。在激发开始前21天注射第(5)组和第(6)组。在激发前14天注射第(1)-(4)组。在激发前2天皮下注射第(7)。在激发前一天,对所有小鼠进行眶后采血并收集血清,以运行人FC ELISA并确定每只小鼠中人单克隆抗体(脱靶对照或REGN4446中的任一个)的循环滴度。在激发前对小鼠进行称重,并且然后腹腔感染105ffu FSS13025病毒。然后在寨卡病毒递送后至多14天内,每24小时对小鼠进行一次称重。一旦体重减轻达到激发日体重的>20%,就处死小鼠。所有剩余的小鼠在第14天处死。

图23示出了在激发前一天通过FC ELISA在每只动物中检测到的hIgG滴度。每个条的高度是每组的平均滴度,其中每个点表示所述组内个体动物的滴度。对从每只小鼠收集的血清使用图3中概述的相同的FC ELISA方案。基于先前使用CHO纯化的REGN4504或REGN4446抗寨卡病毒抗体的激发实验以虚线绘制预估存活率。在激发前14天执行附加型和PBS注射,并在激发前21天执行插入(双AAV)。CHO纯化的组在激发前两天注射200μgREGN4446。

图24A示出了按递送的VG/小鼠分组的存活数据结果。如图23所示,每个剂量组在激发前1天测得的循环mAB的量有很高的可变性,尤其是在附加型组中。另外,每组有四只小鼠。因此,观察数据的另一种方法是按照激发时循环mAB的量对小鼠进行分组,而不是按照AAV递送的类型和剂量进行分组,这在图24B中示出。图24B示出了来自图24A的重新排列的数据,因此动物按照循环AAV递送的REGN4446的滴度分组,而不论是通过高剂量还是低剂量的附加体或双AAV策略递送。图24B顶部的表格中的数值是激发前1天测量的以μg/mL为单位的mAB水平,并且编码是递送mAB模板的AAV类型(单AAV用于附加型表达或双AAV用于Cas9介导的整合,并且低剂量或高剂量用于任一种)。尽管在按照如图24A中所示递送的AAV的类型绘制数据并对其进行分组的情况下剂量反应是模糊的,但图24B示出,生成的功能性mAB示出了对激发的剂量反应。

实例2.将抗血凝素抗体或抗PcrV抗体基因插入到小鼠白蛋白基因座中

使用相同的策略整合和表达抗血凝素(抗HA;流感)抗体或抗PcrV(铜绿假单胞菌)抗体。参见例如WO 2016/100807,所述文献出于所有目的通过引用整体并入本文。然后执行测试以确定从白蛋白基因座表达的抗体能否防止小鼠感染。

在第一实验中,AAV供体序列是SEQ ID NO:16中所示的AAV2/8AlbSA 3263抗HA(流感)抗体供体序列。供体包括由P2A自切割肽连接的抗体轻链和抗体重链。序列的序列标识符在下表9中提供。还参见WO 2016/100807(H1H11729P),所述文献出于所有目的通过引用整体并入本文。在小鼠白蛋白基因座处整合的供体构建体的编码序列(包含内源小鼠白蛋白外显子1:mAlbss-LC-P2A-HC REGN3263)在SEQ ID NO:120中示出。

表9.抗HA抗体序列(REGN3263)。

第一实验(抗HA)的实验设计在图17中示出。每组使用五只C57BL/6小鼠。以2mg/kg的浓度注射脂质纳米颗粒(LNP),并在第0天注射AAV AlbSA 3263(3E11)或AAV CMV3263(1E11),不含LNP或在第0天共注射LNP。实验包含六组:(1)递送Cas9 mRNA和gRNA 1v1加AAV2/8AlbSA 3263的LNP;(2)单独的AAV2/8AlbSA 3263;(3)单独的AAV2/8CMV 3263;(4)REGN 3263抗体注射(高剂量);(5)REGN3263抗体注射(低剂量);以及(6)盐水阴性对照。如图17所示,LNP和AAV2/8注射在第0天进行,并且抗体注射(高剂量和低剂量阳性对照)在第9天进行。在第7天(即,第1周)获得血浆采血。之后注射流感病毒以测试从白蛋白基因座表达的抗体能否防止小鼠感染。

为了证明使用附加型和双AAV策略两者表达的另外的单克隆抗体,C57BL/6雌性小鼠(9周龄)注射了AAV2/8附加型格式的3种mAB之一:(1)AAV2/8.CASI.REGN4446 HC T2ALC(SEQ ID NO:10);(2)H1H29339P抗PcrV(CAG启动子HC_T2A_RORss_LC);或(3)H1H11829N2抗HA(CAG启动子LC_T2A_RORss_HC)。REGN4446为IgG4超级隐身格式。参见例如US 10,556,952,所述文献出于所有目的通过引用整体并入本文。H1H29339P和H1H11829N2为IgG1格式。H1H11829N2抗体序列的序列标识符在下表10中提供。还参见WO 2016/100807,所述文献出于所有目的通过引用整体并入本文。通过尾静脉注射以1E12VG/小鼠的剂量递送病毒。对小鼠进行眶后采血,并在第5天、第20天和第30天收集血清进行分析。使用FC ELISA测量循环人IgG的滴度。对从每只小鼠收集的血清使用图3中概述的相同的FC ELISA方案。使用对应于每个mAB的匹配CHO纯化的蛋白独立地生成每组血清样品的标准曲线。图25中仅示出了第一时间点的值。

表10.抗HA抗体序列(H1H11829N2)。

另外,对[email protected]雌性小鼠(22周龄)注射了携带gRNA1的AAV2/8和以下两个抗体表达盒之一:(1)H1H29339P抗PcrV(HC_T2A_RORss_LC);或(2)H1H11829N2抗HA(LC_T2A_RORss_HC)(SEQ ID NO:145)。通过尾静脉注射以1E12 VG/小鼠的剂量递送病毒。对小鼠进行眶后采血,并在第12天、第27天和第37天收集血清进行分析。使用FC ELISA测量循环人IgG的滴度。对从每只小鼠收集的血清使用图3中概述的相同的FCELISA方案。使用对应于每个mAB的匹配CHO纯化的蛋白独立地生成每组血清样品的标准曲线。图25中仅示出了第一时间点的值。表11显示了通过人FC ELISA检测的注射了携带gRNA1的AAV2/8和H1H29339P抗PcrV(HC_T2A_RORss_LC)表达盒的个体[email protected]雌性小鼠(22周龄)的hIgG值。图25中的数据示出,像抗寨卡病毒抗体一样,抗PcrV和抗HA单克隆抗体可以使用AAV介导的插入策略在体内表达。

表11.hIgG值。

PcrV样品 D12滴度(μg/mL) D27滴度(μg/mL) D37滴度(μg/mL)
插入型1 412.65 602.74 1017.94
插入型2 617.43 904.37 1081.30
插入型3 308.00 408.60 1000.25

图26和27分别示出了来自上述实验中的小鼠的血清H1H29339P抗PcrV mAB的结合和中和/细胞毒性数据。样品包含掺入到PBS中的CHO纯化的H1H29339P、掺入到媒剂注射小鼠血清中的CHO纯化的H1H29339P、来自注射了附加型格式的REGN4446抗寨卡病毒mABAAV2/8.CASI.REGN4446 HC T2ALC(SEQ ID NO:10)的小鼠的血清、来自注射了附加型格式的H1H29339P抗PcrV mAB(CAG HC_T2A_RORss_LC)的小鼠的血清以及来自注射了插入格式的H1H29339P抗PcrV mAB(HC_T2A_RORss_LC)的小鼠的血清。附加型样品来自注射后5天收集的血清。插入样品来自注射后12天收集的血清。与体外CHO生产的纯化抗体相比,附加型和肝脏插入型抗PcrV单克隆抗体在结合和中和方面的效果似乎略差。图26和表12示出了来自小鼠血清的附加型和肝脏插入型抗PcrV单克隆抗体的结合稍弱于CHO产生的单克隆抗体。图27和表12示出了来自小鼠血清的附加型和肝脏插入型抗PcrV单克隆抗体的中和作用是CHO产生的单克隆抗体的2-5倍。

含有来自AAV递送的血清的抗PcrV与铜绿假单胞菌PcrV重组蛋白的ELISA结合(图26)如下执行:将MicroSorp 96孔板用每孔0.2μg的重组全长铜绿假单胞菌PcrV(金斯瑞公司(GenScript))包覆并在4℃下温育过夜。第二天早上,将板用洗涤缓冲液(吐温-20的咪唑缓冲盐水)洗涤三次,并在25℃下用200μL封闭缓冲液(3%BSA的PBS溶液)封闭2小时。将板洗涤一次,并将抗PcrV抗体的滴定液(范围为333nM-0.1pM,在0.5%BSA/0.05%吐温-20/PBS中以1:3连续稀释)或血清的稀释液(从1:300稀释度开始,在0.5%BSA/0.05%吐温-20/PBS中以1:3连续稀释)添加到含有蛋白的孔中,并在25℃下温育一小时。将孔洗涤三次,并且然后用每孔100ng/mL抗人HRP次级抗体在25℃下温育一小时。每孔添加100μLSuperSignal ELISA Pico化学发光底物,并检测信号(Victor X3板读取器,珀金埃尔默公司(Perkin Elmer))。通过四参数逻辑方程在12点响应曲线(GraphPad Prism)上分析发光值。

图27的中和/细胞毒性测定如下执行:将A549细胞在Ham's F-12K(补充有10%热灭活的FBS和L-谷氨酰胺)中以大约5×105个细胞/mL的密度接种到96孔透明黑底组织培养处理板中,并在37℃下用5%CO2温育过夜。第二天,从细胞中取出培养基,并替换为100μL测定培养基(不含酚红的DMEM,补充有10%热灭活的FBS)。同时,铜绿假单胞菌菌株6077(Gerald Pier,布里格姆妇女医院(Brigham and Women's Hospital),哈佛大学(HarvardUniversity))的对数期培养物如下制备:过夜的铜绿假单胞菌培养物在LB中生长,在新鲜LB中以1:50稀释,并在37℃下振荡生长到OD600=~1。将培养物用测定培养基洗涤一次,并在PBS中稀释至OD600=0.03。将等体积的50μL细菌与50μL抗PcrV抗体的滴定液(范围为333nM-17pM,以1:3连续稀释)或血清的稀释液(从1:100稀释度开始,以1:3连续稀释)混合,并在25℃下温育30-45分钟。从A549细胞中取出培养基,替换为100μL的细菌:Ab混合物,并在37℃下用5%CO2温育两小时。使用CytoTox-GloTM测定试剂盒(普洛麦格公司(Promega))确定细胞死亡。通过四参数逻辑方程在10点响应曲线(GraphPad Prism)上分析发光值。

表12.抗PcrV mAB结合与中和。

转基因格式 结合EC50 中和IC50
附加型-抗寨卡病毒 2.04E-07 ~8.89E-12
PBS中的纯化抗PcrV 6.83E-11 5.15E-10
血清中的纯化抗PcrV 1.40E-10 3.07E-09
附加型-抗PcrV 9.13E-10 6.48E-09
插入型-抗PcrV 1.18E-09 1.40E-08

图28和29分别示出了来自上述实验中的小鼠的血清H1H11829N2抗HA mAB的结合和中和数据。样品包含掺入到PBS中的CHO纯化的H1H11829N2、掺入到媒剂注射小鼠血清中的CHO纯化的H1H11829N2、来自注射了附加型格式的REGN4446抗寨卡病毒mAB AAV2/8.CASI.REGN4446 HC T2A LC(SEQ ID NO:10)的小鼠的血清、来自注射了附加型格式的H1H11829N2抗HA mAB(CAG LC_T2A_RORss_HC)的小鼠的血清以及来自注射了插入格式的H1H11829N2抗HA mAB(LC_T2A_RORss_HC)(SEQ ID NO:145)的小鼠的血清。附加型样品来自注射后5天收集的血清。插入样品来自注射后12天收集的血清。同种型对照为CHO纯化的抗FELD1。附加型和肝脏插入型抗HA单克隆抗体在体外功能上等同于CHO生产的纯化抗体。图28示出了小鼠血清中附加型和肝脏插入型抗HA单克隆抗体的比较结合,并且图29示出了小鼠血清中附加型和肝脏插入型抗HA单克隆抗体的等效中和。

将MDCK London细胞以40,000个细胞/孔接种在96孔板中的50μL感染培养基(含有1%丙酮酸钠、0.21%低IgG BSA溶液和0.5%庆大霉素的DMEM)中。将细胞在37℃、5%CO2下温育四小时。然后用10^-4稀释度的50μL H1N1 A/Puerto Rico/08/1934感染板,轻轻敲击并放回37℃、5%CO2下20小时。随后,将板用PBS洗涤一次并用50μL 4%PFA的PBS溶液固定,并在室温下温育15分钟。将板用PBS洗涤三次,并在室温下用300μL StartingBlock封闭缓冲液封闭一小时。将掺入到PBS或初始小鼠血清(从100μg/mL抗体浓度开始)中的CHO纯化的H1H11829N2抗HA抗体或来自注射了具有附加型或插入型H1H11892N2抗HA或附加型REGN4446抗寨卡病毒格式的AAV的小鼠的血清在StartingBlock封闭缓冲液中以1:4滴定至1.2E-4ug/mL的最终浓度。温育后,从板中去除封闭缓冲液,并将稀释的抗体以75μL/孔添加到细胞中。将板在室温下温育一小时。温育后,将板用洗涤缓冲液(咪唑缓冲盐水和20在Milli-Q水中稀释至1X)洗涤三次,并用在封闭缓冲液中稀释至1:2000的75μL/孔的(驴抗人IgG HRP缀合的)次级抗体覆盖。在室温下将二级溶液在板上温育一小时。随后,将板用洗涤缓冲液洗涤三次,并添加75μL/孔的1:1制备的显影底物ELISA Pico底物。立即在分子最终Spectramax i3x板读取器上读取板的发光情况。

将第10代以下的MDCK London细胞在MDCK培养基(补充有10%热灭活FBSHyClone、L-谷氨酰胺和庆大霉素的DMEM)中以大约8x103个细胞/孔的密度接种到96孔透明黑底组织培养处理板中,并在37℃下用5%CO2温育过夜。将来自注射了附加型格式或插入格式的H1H11829N2抗HA抗体的小鼠的血清以1:10稀释,并且然后将样品在96孔V型底微量滴定板上连续稀释6倍,总共11种血清浓度。将CHO纯化的H1H11829N2抗HA抗体稀释到初始小鼠血清中作为阳性对照。将CHO纯化的抗FELD1也以200μg/mL掺入到初始小鼠血清中作为阴性同种型对照。将甲型流感病毒H1N1 A/PR/08/34(ATCC,目录#VR-1469,批次#58101202)在冰上解冻,临用前稀释,并与预稀释的血清抗体1:1组合。从MDCK细胞中取出培养基,并一式两份替换为60μL抗体:病毒混合物。然后将细胞在37℃、5%CO2下下温育20小时以形成病灶。第二天,吸出抗体:病毒混合物,洗涤细胞,并且然后用4%多聚甲醛固定30分钟。然后洗涤板,在室温下用200μL封闭缓冲液(生命科技公司,目录#37538和0.1%Triton X-100)封闭1小时。去除封闭缓冲液,并添加75μL经稀释的初级抗体(小鼠抗甲型流感NP抗体,密理博公司(Millipore),目录#MAB8251)在4℃下温育过夜。然后将板用PBS洗涤2次,并在室温下应用次级抗体(山羊α-小鼠AlexaFluor 488缀合抗体)持续1小时。将板用PBS洗涤3次,并立即使用CTL通用免疫斑点分析仪读数。通过自动聚焦使板成像,并使用未感染的和仅病毒对照孔来设置最小和最大荧光设置。选择荧光焦点作为计数设置,并读取板。然后在GraphPadPrism中绘制数据,作为所计数荧光(感染)细胞的数量对抗体浓度的LOG M。

为了测试从附加型或双AAV插入策略产生的抗PcrV单克隆抗体的功能,采用了体内假单胞菌激发模型。参见图30。将雌性C57 BL/6NCrl-Elite和雌性BALB/c Elite小鼠(5周龄)分成10组,N=5只小鼠/组/物种。各组接受注射(1)PBS;(2)AAV2/8,用于附加地表达同种型对照抗体H1H11829N2抗HA(CAG LC_T2A_RORss_HC);(3)低剂量(1.0E+10VG/小鼠)或(4)高剂量(1.0E+11VG/小鼠)AAV2/8,用于附加地表达由CAG启动子驱动的H1H29339P抗PcrV抗体(HC_T2A_RORss_LC格式);(5)低剂量(1E+11VG/小鼠/载体)或(6)高剂量(1E+12VG/小鼠/载体)两种AAV,一种携带gRNA1和H1H29339P抗PcrV mAb表达盒(HC_T2A_RORss_LC)和AAV2/8.SerpinAP.Cas9(SEQ ID NO:39);(7)低剂量(0.2mg/kg)或(8)高剂量(1.0mg/kg)CHO纯化的H1H29339P抗PcrV mAB,或(9)1.0mg/kg REGN684 hIgG1同种型对照。第10组是一组用作未感染对照的小鼠。另一组(第11组)用作无保护的、受感染的对照(仅细菌)。在激发开始前16天通过尾静脉注射对第(1)-(6)组进行静脉内注射。在激发前2天对第(7)-(9)组进行皮下注射。另外的N=5只小鼠也皮下注射PBS,用于另外的仅媒剂对照小鼠,使第(1)组中小鼠总数达到10只/物种。在激发前七天,对第(1)-(6)组中的小鼠进行眶后采血并收集血清,以运行人FC ELISA并确定每只小鼠中人mAB(同种型对照或H1H23933P)的循环滴度。在激发当天对小鼠进行称重,并且然后通过鼻内注射接种铜绿假单胞菌菌株6077。然后在施用细菌后每24小时对小鼠进行一次称重,持续至多7天。一旦体重减轻达到>20%或小鼠出现如以下等其它临床病痛指征,则处死小鼠:嗜眠;对刺激无反应;皮毛起皱,弓背姿势,摇晃;或“神经”体征(头部倾斜、旋转、向一侧倾倒)。还处死被发现垂死的小鼠,即当其仰卧时无法自行站立的小鼠。在细菌感染后第7天处死所有剩余的小鼠。

图31示出了九天前(激发前7天)注射AAV的小鼠的hIgG滴度。执行人FC ELISA(如图3的方法中所述)以确定在使用如以上实验中所述的AAV递送单克隆抗体盒后9天小鼠血清中循环的hIgG水平。在这个时间点,有几个值低于测定的检测极限(100ng/mL)。在单独的实验中,对年龄匹配的BALB/c-elite小鼠注射低剂量(0.2mg/kg)或高剂量(1.0mg/kg)CHO纯化的H1H29339P抗PcrV单克隆抗体并在两天后收集血清,以确定在对应于这些剂量的激发时预期的循环人IgG水平。这些值是图表右侧的条形。与过去的观察结果一致,AAV8比BALB/c更有效地转导C57BL/6小鼠。因此,如预期的那样,BALB/c小鼠中由单个AAV(附加型)或双AAV(插入型)策略的成功转导产生的分泌蛋白值较低。由于插入策略需要成功转导两种不同的AAV,因此与仅需要一种AAV导致蛋白质分泌相比,传染性降低甚至进一步降低了在菌株之间观察到的滴度。

图32A和32B示出了以上概述的假单胞菌激发实验(图30)中第(2)-(6)组和第(10)-(11)组的结果。这些是AAV递送单克隆抗体以及未感染和仅细菌对照的组。在C57BL/6NCrl-Elite小鼠中,所有AAV附加型递送的同种型对照(2)和无保护的受感染的小鼠(11)都未在激发中存活下来。所有未感染的小鼠(10)和通过附加型AAV表达或使用双AAV策略插入到白蛋白基因座中的第一内含子从肝脏产生H1H29339P抗PcrV mAB的小鼠均存活,无论施用低剂量还是高剂量(3)-(6)。参见图32A。在BALB/c-elite小鼠中,5只AAV附加型递送的同种型对照(2)中的4只、所有无保护的受感染的小鼠(11)和所有双AAV插入策略低剂量小鼠(5)未在激发中存活。所有未感染的小鼠(10)和通过附加型AAV表达从肝脏产生H1H29339P抗PcrV mAB的小鼠均存活,无论剂量低还是高(3)-(4)。通过双AAV策略产生H1H29339P抗PcrV mAB的接受高剂量(6)的所有小鼠均存活。参见图32B。

总之,已经示出了将多个不同的抗体基因成功插入到白蛋白基因座中,并且已经示出了所产生的抗体在功能上等同于体外CHO产生的纯化抗体并在体内激发模型中提供保护。这些实验使用多种IgG类型的抗体。所有寨卡病毒数据均使用IgG1形式的REGN4504或IgG4超级隐形格式的REGN4446,并且抗PcrV和抗HA抗体为IgG1格式。已经示出了靶向病毒的抗体(抗寨卡病毒或抗HA)和靶向细菌的抗体(抗PcrV)的表达、功能和保护效应。类似地,已经测试了重链在前的插入型抗体基因(抗PcrV和抗寨卡病毒),并且已经测试了轻链在前的抗体基因(抗HA和抗寨卡病毒)。同样地,已经测试了两条抗体链之间多种不同的2A蛋白(抗PcrV是重链在前的T2A,抗HA是轻链在前的T2A,并且测试了重链在前的抗寨卡病毒中的F2A、P2A和T2A)。

序列表

<110> 瑞泽恩制药公司

<120> 用于将抗体编码序列插入到安全港基因座中的方法和组合物

<130> 057766-544998

<150> US 62/828,518

<151> 2019-04-03

<150> US 62/887,885

<151> 2019-08-16

<160> 146

<170> PatentIn版本3.5

<210> 1

<211> 2943

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 1

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tgcggccgca cgcgttaggt cagtgaagag aagaacaaaa 180

agcagcatat tacagttagt tgtcttcatc aatctttaaa tatgttgtgt ggtttttctc 240

tccctgtttc cacagccgaa atagtgctga cccagtcacc agataccctg agcctgagtc 300

ctggggaacg ggcaacactc agttgtaggg catcccagag tgtgtctagt aattatctgg 360

cttggtacca gcaaaaaccg gggcaggctc cccgactgct gatctatggc gcaagcagcc 420

gagccaccgg tattccagat cgatttagtg gatctggaag tggaactgac ttcacgttga 480

caatatcaag actggaaccc gaagatttcg ctgtgtatta ttgccagcgc tacggtacca 540

gccccctgac attcgggggg ggaacgaagg ttgaaataaa acgcaccgtc gcggcgccat 600

ctgtattcat ttttcccccg tctgatgagc aactgaaatc agggaccgcg tccgtggtct 660

gccttctgaa caatttttac ccgagagagg cgaaagtcca gtggaaggtg gataatgcgc 720

ttcagtcagg taactctcag gagagcgtca cagagcaaga ctctaaagat tcaacttaca 780

gcctttcctc caccctgact ctgtccaagg ccgactacga gaaacataag gtctatgcct 840

gcgaagtaac tcatcaaggt cttagttcac ccgtcacgaa aagttttaat aggggggagt 900

gtagaaaacg gaggggatca ggggcgacta acttttcatt gcttaagcaa gcaggagacg 960

tggaagagaa tcccgggccc cataggccgc gacgacgggg gaccagaccc cctcctttgg 1020

ccctgctggc tgctttgctt ctcgcggcgc gaggagcgga cgctcaggta cagctcgttg 1080

agagcggagg tggggttgtg cagcctggga gatctctccg cctcagttgc gccgcctcag 1140

gttttacgtt caattattat ggcatgcatt gggttagaca agctccgggg aaggggttgg 1200

aatgggtagc cgtaattagt tacgacggaa ccaataagta ttatgctgac agtgtgaagg 1260

gtcgatttac gacatcccgg gataactcca agaacacatt gtaccttcaa atgaattctt 1320

tgcgggcgga agatactgca ctctattatt gtgcgagaga tcgagggggc agatttgact 1380

actggggcca aggaatacag gttactgtat catctgcttc aactaagggt ccgagcgtat 1440

ttccccttgc tccttgcagc cgatcaacaa gtgaaagtac agctgctttg ggttgccttg 1500

tgaaagatta tttccctgag cctgtgactg tttcctggaa ttcaggtgct cttactagcg 1560

gggttcatac atttcccgct gtactccagt caagcgggct ctatagtctc agtagcgtag 1620

taacggtacc ctcttcatca cttgggacaa agacgtacac atgcaatgta gaccataagc 1680

cgtctaatac gaaagttgat aaaagggtag aatccaaata tggcccgccg tgtccgcctt 1740

gtccagctcc gggcggtggg ggccccagtg tattcctgtt tccccctaaa ccgaaggata 1800

cgcttatgat tagtcgaacc cctgaggtca cgtgcgtggt ggtggacgtg agccaggaag 1860

accccgaggt ccagttcaac tggtacgtgg atggcgtgga ggtgcataat gccaagacaa 1920

agccgcggga ggagcagttc aacagcacgt accgtgtggt cagcgtcctc accgtcctgc 1980

accaggactg gctgaacggc aaggagtaca agtgcaaggt ctccaacaaa ggcctcccgt 2040

cctccatcga gaaaaccatc tccaaagcca aagggcagcc ccgagagcca caggtgtaca 2100

ccctgccccc atcccaggag gagatgacca agaaccaggt cagcctgacc tgcctggtca 2160

aaggcttcta ccccagcgac atcgccgtgg agtgggagag caatgggcag ccggagaaca 2220

actacaagac cacgcctccc gtgctggact ccgacggctc cttcttcctc tacagcaggc 2280

tcaccgtgga caagagcagg tggcaggagg ggaatgtctt ctcatgctcc gtgatgcatg 2340

aggctctgca caaccactac acacagaagt ccctctccct gtctctgggt aaatgactcg 2400

agaatcaacc tctggattac aaaatttgtg aaagattgac tggtattctt aactatgttg 2460

ctccttttac gctatgtgga tacgctgctt taatgccttt gtatcatgct attgcttccc 2520

gtatggcttt cattttctcc tccttgtata aatcctggtt agttcttgcc acggcggaac 2580

tcatcgccgc ctgccttgcc cgctgctgga caggggctcg gctgttgggc actgacaatt 2640

ccgtggtgta gatctaactt gtttattgca gcttataatg gttacaaata aagcaatagc 2700

atcacaaatt tcacaaataa agcatttttt tcactgcatt ctagttgtgg tttgtccaaa 2760

ctcatcaatg tatcttatca tgtctgcgga ccgagcggcc gcaggaaccc ctagtgatgg 2820

agttggccac tccctctctg cgcgctcgct cgctcactga ggccgggcga ccaaaggtcg 2880

cccgacgccc gggctttgcc cgggcggcct cagtgagcga gcgagcgcgc agctgcctgc 2940

agg 2943

<210> 2

<211> 645

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 2

gaaatagtgc tgacccagtc accagatacc ctgagcctga gtcctgggga acgggcaaca 60

ctcagttgta gggcatccca gagtgtgtct agtaattatc tggcttggta ccagcaaaaa 120

ccggggcagg ctccccgact gctgatctat ggcgcaagca gccgagccac cggtattcca 180

gatcgattta gtggatctgg aagtggaact gacttcacgt tgacaatatc aagactggaa 240

cccgaagatt tcgctgtgta ttattgccag cgctacggta ccagccccct gacattcggg 300

gggggaacga aggttgaaat aaaacgcacc gtcgcggcgc catctgtatt catttttccc 360

ccgtctgatg agcaactgaa atcagggacc gcgtccgtgg tctgccttct gaacaatttt 420

tacccgagag aggcgaaagt ccagtggaag gtggataatg cgcttcagtc aggtaactct 480

caggagagcg tcacagagca agactctaaa gattcaactt acagcctttc ctccaccctg 540

actctgtcca aggccgacta cgagaaacat aaggtctatg cctgcgaagt aactcatcaa 600

ggtcttagtt cacccgtcac gaaaagtttt aatagggggg agtgt 645

<210> 3

<211> 215

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 3

Glu Ile Val Leu Thr Gln Ser Pro Asp Thr Leu Ser Leu Ser Pro Gly

1 5 10 15

Glu Arg Ala Thr Leu Ser Cys Arg Ala Ser Gln Ser Val Ser Ser Asn

20 25 30

Tyr Leu Ala Trp Tyr Gln Gln Lys Pro Gly Gln Ala Pro Arg Leu Leu

35 40 45

Ile Tyr Gly Ala Ser Ser Arg Ala Thr Gly Ile Pro Asp Arg Phe Ser

50 55 60

Gly Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Arg Leu Glu

65 70 75 80

Pro Glu Asp Phe Ala Val Tyr Tyr Cys Gln Arg Tyr Gly Thr Ser Pro

85 90 95

Leu Thr Phe Gly Gly Gly Thr Lys Val Glu Ile Lys Arg Thr Val Ala

100 105 110

Ala Pro Ser Val Phe Ile Phe Pro Pro Ser Asp Glu Gln Leu Lys Ser

115 120 125

Gly Thr Ala Ser Val Val Cys Leu Leu Asn Asn Phe Tyr Pro Arg Glu

130 135 140

Ala Lys Val Gln Trp Lys Val Asp Asn Ala Leu Gln Ser Gly Asn Ser

145 150 155 160

Gln Glu Ser Val Thr Glu Gln Asp Ser Lys Asp Ser Thr Tyr Ser Leu

165 170 175

Ser Ser Thr Leu Thr Leu Ser Lys Ala Asp Tyr Glu Lys His Lys Val

180 185 190

Tyr Ala Cys Glu Val Thr His Gln Gly Leu Ser Ser Pro Val Thr Lys

195 200 205

Ser Phe Asn Arg Gly Glu Cys

210 215

<210> 4

<211> 1329

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 4

caggtacagc tcgttgagag cggaggtggg gttgtgcagc ctgggagatc tctccgcctc 60

agttgcgccg cctcaggttt tacgttcaat tattatggca tgcattgggt tagacaagct 120

ccggggaagg ggttggaatg ggtagccgta attagttacg acggaaccaa taagtattat 180

gctgacagtg tgaagggtcg atttacgaca tcccgggata actccaagaa cacattgtac 240

cttcaaatga attctttgcg ggcggaagat actgcactct attattgtgc gagagatcga 300

gggggcagat ttgactactg gggccaagga atacaggtta ctgtatcatc tgcttcaact 360

aagggtccga gcgtatttcc ccttgctcct tgcagccgat caacaagtga aagtacagct 420

gctttgggtt gccttgtgaa agattatttc cctgagcctg tgactgtttc ctggaattca 480

ggtgctctta ctagcggggt tcatacattt cccgctgtac tccagtcaag cgggctctat 540

agtctcagta gcgtagtaac ggtaccctct tcatcacttg ggacaaagac gtacacatgc 600

aatgtagacc ataagccgtc taatacgaaa gttgataaaa gggtagaatc caaatatggc 660

ccgccgtgtc cgccttgtcc agctccgggc ggtgggggcc ccagtgtatt cctgtttccc 720

cctaaaccga aggatacgct tatgattagt cgaacccctg aggtcacgtg cgtggtggtg 780

gacgtgagcc aggaagaccc cgaggtccag ttcaactggt acgtggatgg cgtggaggtg 840

cataatgcca agacaaagcc gcgggaggag cagttcaaca gcacgtaccg tgtggtcagc 900

gtcctcaccg tcctgcacca ggactggctg aacggcaagg agtacaagtg caaggtctcc 960

aacaaaggcc tcccgtcctc catcgagaaa accatctcca aagccaaagg gcagccccga 1020

gagccacagg tgtacaccct gcccccatcc caggaggaga tgaccaagaa ccaggtcagc 1080

ctgacctgcc tggtcaaagg cttctacccc agcgacatcg ccgtggagtg ggagagcaat 1140

gggcagccgg agaacaacta caagaccacg cctcccgtgc tggactccga cggctccttc 1200

ttcctctaca gcaggctcac cgtggacaag agcaggtggc aggaggggaa tgtcttctca 1260

tgctccgtga tgcatgaggc tctgcacaac cactacacac agaagtccct ctccctgtct 1320

ctgggtaaa 1329

<210> 5

<211> 443

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 5

Gln Val Gln Leu Val Glu Ser Gly Gly Gly Val Val Gln Pro Gly Arg

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Asn Tyr Tyr

20 25 30

Gly Met His Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Ala Val Ile Ser Tyr Asp Gly Thr Asn Lys Tyr Tyr Ala Asp Ser Val

50 55 60

Lys Gly Arg Phe Thr Thr Ser Arg Asp Asn Ser Lys Asn Thr Leu Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Leu Tyr Tyr Cys

85 90 95

Ala Arg Asp Arg Gly Gly Arg Phe Asp Tyr Trp Gly Gln Gly Ile Gln

100 105 110

Val Thr Val Ser Ser Ala Ser Thr Lys Gly Pro Ser Val Phe Pro Leu

115 120 125

Ala Pro Cys Ser Arg Ser Thr Ser Glu Ser Thr Ala Ala Leu Gly Cys

130 135 140

Leu Val Lys Asp Tyr Phe Pro Glu Pro Val Thr Val Ser Trp Asn Ser

145 150 155 160

Gly Ala Leu Thr Ser Gly Val His Thr Phe Pro Ala Val Leu Gln Ser

165 170 175

Ser Gly Leu Tyr Ser Leu Ser Ser Val Val Thr Val Pro Ser Ser Ser

180 185 190

Leu Gly Thr Lys Thr Tyr Thr Cys Asn Val Asp His Lys Pro Ser Asn

195 200 205

Thr Lys Val Asp Lys Arg Val Glu Ser Lys Tyr Gly Pro Pro Cys Pro

210 215 220

Pro Cys Pro Ala Pro Gly Gly Gly Gly Pro Ser Val Phe Leu Phe Pro

225 230 235 240

Pro Lys Pro Lys Asp Thr Leu Met Ile Ser Arg Thr Pro Glu Val Thr

245 250 255

Cys Val Val Val Asp Val Ser Gln Glu Asp Pro Glu Val Gln Phe Asn

260 265 270

Trp Tyr Val Asp Gly Val Glu Val His Asn Ala Lys Thr Lys Pro Arg

275 280 285

Glu Glu Gln Phe Asn Ser Thr Tyr Arg Val Val Ser Val Leu Thr Val

290 295 300

Leu His Gln Asp Trp Leu Asn Gly Lys Glu Tyr Lys Cys Lys Val Ser

305 310 315 320

Asn Lys Gly Leu Pro Ser Ser Ile Glu Lys Thr Ile Ser Lys Ala Lys

325 330 335

Gly Gln Pro Arg Glu Pro Gln Val Tyr Thr Leu Pro Pro Ser Gln Glu

340 345 350

Glu Met Thr Lys Asn Gln Val Ser Leu Thr Cys Leu Val Lys Gly Phe

355 360 365

Tyr Pro Ser Asp Ile Ala Val Glu Trp Glu Ser Asn Gly Gln Pro Glu

370 375 380

Asn Asn Tyr Lys Thr Thr Pro Pro Val Leu Asp Ser Asp Gly Ser Phe

385 390 395 400

Phe Leu Tyr Ser Arg Leu Thr Val Asp Lys Ser Arg Trp Gln Glu Gly

405 410 415

Asn Val Phe Ser Cys Ser Val Met His Glu Ala Leu His Asn His Tyr

420 425 430

Thr Gln Lys Ser Leu Ser Leu Ser Leu Gly Lys

435 440

<210> 6

<211> 3854

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (468)..(487)

<223> n为a、c、g或t

<400> 6

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tgcgctagct gtacaaaaaa gcaggcttta aaggaaccaa 180

ttcagtcgac tggatccggt accaaggtcg ggcaggaaga gggcctattt cccatgattc 240

cttcatattt gcatatacga tacaaggctg ttagagagat aattagaatt aatttgactg 300

taaacacaaa gatattagta caaaatacgt gacgtagaaa gtaataattt cttgggtagt 360

ttgcagtttt aaaattatgt tttaaaatgg actatcatat gcttaccgta acttgaaagt 420

atttcgattt cttggcttta tatatcttgt ggaaaggacg aaacaccnnn nnnnnnnnnn 480

nnnnnnngtt ttagagctag aaatagcaag ttaaaataag gctagtccgt tatcaacttg 540

aaaaagtggc accgagtcgg tgcttttttt ctagaccacc taagggttct cagatgcacc 600

cttacgcgtt aggtcagtga agagaagaac aaaaagcagc atattacagt tagttgtctt 660

catcaatctt taaatatgtt gtgtggtttt tctctccctg tttccacagc ccaggtgcag 720

ctggtggagt cggggggagg cgtggtccag cctgggaggt ccctgagact ctcctgtgca 780

gcctctggat tcaccttcaa ttactatggc atgcactggg tccgccaggc tccaggcaag 840

gggctggagt gggtggcagt catatcatat gatggaacta ataaatacta tgcagactcc 900

gtgaagggcc gattcaccac ctccagagac aattccaaga acacgctgta tctgcagatg 960

aacagcctga gagctgagga cacggctctg tattactgtg cgagagatcg cggtggccgc 1020

tttgactact ggggccaggg aatccaggtc accgtctcct cagcctccac caagggccca 1080

tcggtcttcc ccctggcgcc ctgctccagg agcacctccg agagcacagc cgccctgggc 1140

tgcctggtca aggactactt ccccgaaccg gtgacggtgt cgtggaactc aggcgccctg 1200

accagcggcg tgcacacctt cccggctgtc ctacagtcct caggactcta ctccctcagc 1260

agcgtggtga ccgtgccctc cagcagcttg ggcacgaaga cctacacctg caacgtagat 1320

cacaagccca gcaacaccaa ggtggacaag agagttgagt ccaaatatgg tcccccatgc 1380

ccaccgtgcc cagcaccagg cggtggcgga ccatcagtct tcctgttccc cccaaaaccc 1440

aaggacactc tctacatcac ccgggagcct gaggtcacgt gcgtggtggt ggacgtgagc 1500

caggaagacc ccgaggtcca gttcaactgg tacgtggatg gcgtggaggt gcataatgcc 1560

aagacaaagc cgcgggagga gcagttcaac agcacgtacc gtgtggtcag cgtcctcacc 1620

gtcctgcacc aggactggct gaacggcaag gagtacaagt gcaaggtctc caacaaaggc 1680

ctcccgtcct ccatcgagaa aaccatctcc aaagccaaag ggcagccccg agagccacag 1740

gtgtacaccc tgcccccatc ccaggaggag atgaccaaga accaggtcag cctgacctgc 1800

ctggtcaaag gcttctaccc cagcgacatc gccgtggagt gggagagcaa tgggcagccg 1860

gagaacaact acaagaccac gcctcccgtg ctggactccg acggctcctt cttcctctac 1920

agcaggctca ccgtggacaa gagcaggtgg caggagggga atgtcttctc atgctccgtg 1980

atgcatgagg ctctgcacaa ccactacaca cagaagtccc tctccctgtc tctgggtaaa 2040

cgtaaacgaa gaggatccgg ggtgaagcaa accttgaatt tcgatctcct gaagttggct 2100

ggcgatgtgg agagtaatcc cggcccaaag tgggtaacct ttctcctcct cctcttcgtc 2160

tccggctctg ctttttccag gggtgtgttt cgccgagaaa ttgtgttgac gcagtctcca 2220

gacaccctgt ctttgtctcc aggggaaaga gccaccctct cctgcagggc cagtcagagt 2280

gttagcagca actacttagc ctggtaccag cagaaacctg gccaggctcc caggctcctc 2340

atctatggtg catccagcag ggccactggc atcccagaca ggttcagtgg cagtgggtct 2400

gggacagact tcactctcac catcagcaga ctggagcctg aagattttgc agtgtattac 2460

tgtcagcggt atggtacctc accgctcact ttcggcggag ggaccaaggt ggagatcaaa 2520

cgaactgtgg ctgcaccatc tgtcttcatc ttcccgccat ctgatgagca gttgaaatct 2580

ggaactgcct ctgttgtgtg cctgctgaat aacttctatc ccagagaggc caaagtacag 2640

tggaaggtgg ataacgccct ccaatcgggt aactcccagg agagtgtcac agagcaggac 2700

agcaaggaca gcacctacag cctcagcagc accctgacgc tgagcaaagc agactacgag 2760

aaacacaaag tctacgcctg cgaagtcacc catcagggcc tgagctcgcc cgtcacaaag 2820

agcttcaaca ggggagagtg ttaagcggcc gcgtttaaac tcaacctctg gattacaaaa 2880

tttgtgaaag attgactggt attcttaact atgttgctcc ttttacgcta tgtggatacg 2940

ctgctttaat gcctttgtat catgctattg cttcccgtat ggctttcatt ttctcctcct 3000

tgtataaatc ctggttgctg tctctttatg aggagttgtg gcccgttgtc aggcaacgtg 3060

gcgtggtgtg cactgtgttt gctgacgcaa cccccactgg ttggggcatt gccaccacct 3120

gtcagctcct ttccgggact ttcgctttcc ccctccctat tgccacggcg gaactcatcg 3180

ccgcctgcct tgcccgctgc tggacagggg ctcggctgtt gggcactgac aattccgtgg 3240

tgttgtcggg gaaatcatcg tcctttcctt ggctgctcgc ctgtgttgcc acctggattc 3300

tgcgcgggac gtccttctgc tacgtccctt cggccctcaa tccagcggac cttccttccc 3360

gcggcctgct gccggctctg cggcctcttc cgcgtcttcg ccttcgccct cagacgagtc 3420

ggatctccct ttgggccgcc tccccgcaga attcctgcag ctagttgcca gccatctgtt 3480

gtttgcccct cccccgtgcc ttccttgacc ctggaaggtg ccactcccac tgtcctttcc 3540

taataaaatg aggaaattgc atcgcattgt ctgagtaggt gtcattctat tctggggggt 3600

ggggtggggc aggacagcaa gggggaggat tgggaagaca atagcaggca tgctggggat 3660

gcggtgggct ctatggaggt ggccacctaa gggttctcag atgcagcggc cgcaggaacc 3720

cctagtgatg gagttggcca ctccctctct gcgcgctcgc tcgctcactg aggccgggcg 3780

accaaaggtc gcccgacgcc cgggctttgc ccgggcggcc tcagtgagcg agcgagcgcg 3840

cagctgcctg cagg 3854

<210> 7

<211> 3845

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (468)..(487)

<223> n为a、c、g或t

<400> 7

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tgcgctagct gtacaaaaaa gcaggcttta aaggaaccaa 180

ttcagtcgac tggatccggt accaaggtcg ggcaggaaga gggcctattt cccatgattc 240

cttcatattt gcatatacga tacaaggctg ttagagagat aattagaatt aatttgactg 300

taaacacaaa gatattagta caaaatacgt gacgtagaaa gtaataattt cttgggtagt 360

ttgcagtttt aaaattatgt tttaaaatgg actatcatat gcttaccgta acttgaaagt 420

atttcgattt cttggcttta tatatcttgt ggaaaggacg aaacaccnnn nnnnnnnnnn 480

nnnnnnngtt ttagagctag aaatagcaag ttaaaataag gctagtccgt tatcaacttg 540

aaaaagtggc accgagtcgg tgcttttttt ctagaccacc taagggttct cagatgcacc 600

cttacgcgtt aggtcagtga agagaagaac aaaaagcagc atattacagt tagttgtctt 660

catcaatctt taaatatgtt gtgtggtttt tctctccctg tttccacagc ccaggtgcag 720

ctggtggagt cggggggagg cgtggtccag cctgggaggt ccctgagact ctcctgtgca 780

gcctctggat tcaccttcaa ttactatggc atgcactggg tccgccaggc tccaggcaag 840

gggctggagt gggtggcagt catatcatat gatggaacta ataaatacta tgcagactcc 900

gtgaagggcc gattcaccac ctccagagac aattccaaga acacgctgta tctgcagatg 960

aacagcctga gagctgagga cacggctctg tattactgtg cgagagatcg cggtggccgc 1020

tttgactact ggggccaggg aatccaggtc accgtctcct cagcctccac caagggccca 1080

tcggtcttcc ccctggcgcc ctgctccagg agcacctccg agagcacagc cgccctgggc 1140

tgcctggtca aggactactt ccccgaaccg gtgacggtgt cgtggaactc aggcgccctg 1200

accagcggcg tgcacacctt cccggctgtc ctacagtcct caggactcta ctccctcagc 1260

agcgtggtga ccgtgccctc cagcagcttg ggcacgaaga cctacacctg caacgtagat 1320

cacaagccca gcaacaccaa ggtggacaag agagttgagt ccaaatatgg tcccccatgc 1380

ccaccgtgcc cagcaccagg cggtggcgga ccatcagtct tcctgttccc cccaaaaccc 1440

aaggacactc tctacatcac ccgggagcct gaggtcacgt gcgtggtggt ggacgtgagc 1500

caggaagacc ccgaggtcca gttcaactgg tacgtggatg gcgtggaggt gcataatgcc 1560

aagacaaagc cgcgggagga gcagttcaac agcacgtacc gtgtggtcag cgtcctcacc 1620

gtcctgcacc aggactggct gaacggcaag gagtacaagt gcaaggtctc caacaaaggc 1680

ctcccgtcct ccatcgagaa aaccatctcc aaagccaaag ggcagccccg agagccacag 1740

gtgtacaccc tgcccccatc ccaggaggag atgaccaaga accaggtcag cctgacctgc 1800

ctggtcaaag gcttctaccc cagcgacatc gccgtggagt gggagagcaa tgggcagccg 1860

gagaacaact acaagaccac gcctcccgtg ctggactccg acggctcctt cttcctctac 1920

agcaggctca ccgtggacaa gagcaggtgg caggagggga atgtcttctc atgctccgtg 1980

atgcatgagg ctctgcacaa ccactacaca cagaagtccc tctccctgtc tctgggtaaa 2040

cgtaaacgaa gaggatccgg ggcgactaac ttttcattgc ttaagcaagc aggagacgtg 2100

gaagagaatc ccgggcccaa gtgggtaacc tttctcctcc tcctcttcgt ctccggctct 2160

gctttttcca ggggtgtgtt tcgccgagaa attgtgttga cgcagtctcc agacaccctg 2220

tctttgtctc caggggaaag agccaccctc tcctgcaggg ccagtcagag tgttagcagc 2280

aactacttag cctggtacca gcagaaacct ggccaggctc ccaggctcct catctatggt 2340

gcatccagca gggccactgg catcccagac aggttcagtg gcagtgggtc tgggacagac 2400

ttcactctca ccatcagcag actggagcct gaagattttg cagtgtatta ctgtcagcgg 2460

tatggtacct caccgctcac tttcggcgga gggaccaagg tggagatcaa acgaactgtg 2520

gctgcaccat ctgtcttcat cttcccgcca tctgatgagc agttgaaatc tggaactgcc 2580

tctgttgtgt gcctgctgaa taacttctat cccagagagg ccaaagtaca gtggaaggtg 2640

gataacgccc tccaatcggg taactcccag gagagtgtca cagagcagga cagcaaggac 2700

agcacctaca gcctcagcag caccctgacg ctgagcaaag cagactacga gaaacacaaa 2760

gtctacgcct gcgaagtcac ccatcagggc ctgagctcgc ccgtcacaaa gagcttcaac 2820

aggggagagt gttaagcggc cgcgtttaaa ctcaacctct ggattacaaa atttgtgaaa 2880

gattgactgg tattcttaac tatgttgctc cttttacgct atgtggatac gctgctttaa 2940

tgcctttgta tcatgctatt gcttcccgta tggctttcat tttctcctcc ttgtataaat 3000

cctggttgct gtctctttat gaggagttgt ggcccgttgt caggcaacgt ggcgtggtgt 3060

gcactgtgtt tgctgacgca acccccactg gttggggcat tgccaccacc tgtcagctcc 3120

tttccgggac tttcgctttc cccctcccta ttgccacggc ggaactcatc gccgcctgcc 3180

ttgcccgctg ctggacaggg gctcggctgt tgggcactga caattccgtg gtgttgtcgg 3240

ggaaatcatc gtcctttcct tggctgctcg cctgtgttgc cacctggatt ctgcgcggga 3300

cgtccttctg ctacgtccct tcggccctca atccagcgga ccttccttcc cgcggcctgc 3360

tgccggctct gcggcctctt ccgcgtcttc gccttcgccc tcagacgagt cggatctccc 3420

tttgggccgc ctccccgcag aattcctgca gctagttgcc agccatctgt tgtttgcccc 3480

tcccccgtgc cttccttgac cctggaaggt gccactccca ctgtcctttc ctaataaaat 3540

gaggaaattg catcgcattg tctgagtagg tgtcattcta ttctgggggg tggggtgggg 3600

caggacagca agggggagga ttgggaagac aatagcaggc atgctgggga tgcggtgggc 3660

tctatggagg tggccaccta agggttctca gatgcagcgg ccgcaggaac ccctagtgat 3720

ggagttggcc actccctctc tgcgcgctcg ctcgctcact gaggccgggc gaccaaaggt 3780

cgcccgacgc ccgggctttg cccgggcggc ctcagtgagc gagcgagcgc gcagctgcct 3840

gcagg 3845

<210> 8

<211> 3842

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (468)..(487)

<223> n为a、c、g或t

<400> 8

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tgcgctagct gtacaaaaaa gcaggcttta aaggaaccaa 180

ttcagtcgac tggatccggt accaaggtcg ggcaggaaga gggcctattt cccatgattc 240

cttcatattt gcatatacga tacaaggctg ttagagagat aattagaatt aatttgactg 300

taaacacaaa gatattagta caaaatacgt gacgtagaaa gtaataattt cttgggtagt 360

ttgcagtttt aaaattatgt tttaaaatgg actatcatat gcttaccgta acttgaaagt 420

atttcgattt cttggcttta tatatcttgt ggaaaggacg aaacaccnnn nnnnnnnnnn 480

nnnnnnngtt ttagagctag aaatagcaag ttaaaataag gctagtccgt tatcaacttg 540

aaaaagtggc accgagtcgg tgcttttttt ctagaccacc taagggttct cagatgcacc 600

cttacgcgtt aggtcagtga agagaagaac aaaaagcagc atattacagt tagttgtctt 660

catcaatctt taaatatgtt gtgtggtttt tctctccctg tttccacagc ccaggtgcag 720

ctggtggagt cggggggagg cgtggtccag cctgggaggt ccctgagact ctcctgtgca 780

gcctctggat tcaccttcaa ttactatggc atgcactggg tccgccaggc tccaggcaag 840

gggctggagt gggtggcagt catatcatat gatggaacta ataaatacta tgcagactcc 900

gtgaagggcc gattcaccac ctccagagac aattccaaga acacgctgta tctgcagatg 960

aacagcctga gagctgagga cacggctctg tattactgtg cgagagatcg cggtggccgc 1020

tttgactact ggggccaggg aatccaggtc accgtctcct cagcctccac caagggccca 1080

tcggtcttcc ccctggcgcc ctgctccagg agcacctccg agagcacagc cgccctgggc 1140

tgcctggtca aggactactt ccccgaaccg gtgacggtgt cgtggaactc aggcgccctg 1200

accagcggcg tgcacacctt cccggctgtc ctacagtcct caggactcta ctccctcagc 1260

agcgtggtga ccgtgccctc cagcagcttg ggcacgaaga cctacacctg caacgtagat 1320

cacaagccca gcaacaccaa ggtggacaag agagttgagt ccaaatatgg tcccccatgc 1380

ccaccgtgcc cagcaccagg cggtggcgga ccatcagtct tcctgttccc cccaaaaccc 1440

aaggacactc tctacatcac ccgggagcct gaggtcacgt gcgtggtggt ggacgtgagc 1500

caggaagacc ccgaggtcca gttcaactgg tacgtggatg gcgtggaggt gcataatgcc 1560

aagacaaagc cgcgggagga gcagttcaac agcacgtacc gtgtggtcag cgtcctcacc 1620

gtcctgcacc aggactggct gaacggcaag gagtacaagt gcaaggtctc caacaaaggc 1680

ctcccgtcct ccatcgagaa aaccatctcc aaagccaaag ggcagccccg agagccacag 1740

gtgtacaccc tgcccccatc ccaggaggag atgaccaaga accaggtcag cctgacctgc 1800

ctggtcaaag gcttctaccc cagcgacatc gccgtggagt gggagagcaa tgggcagccg 1860

gagaacaact acaagaccac gcctcccgtg ctggactccg acggctcctt cttcctctac 1920

agcaggctca ccgtggacaa gagcaggtgg caggagggga atgtcttctc atgctccgtg 1980

atgcatgagg ctctgcacaa ccactacaca cagaagtccc tctccctgtc tctgggtaaa 2040

cgtaaacgaa gaggatccgg ggagggccgg ggcagcctgc tgacctgcgg agacgtggag 2100

gagaaccctg gccccaagtg ggtaaccttt ctcctcctcc tcttcgtctc cggctctgct 2160

ttttccaggg gtgtgtttcg ccgagaaatt gtgttgacgc agtctccaga caccctgtct 2220

ttgtctccag gggaaagagc caccctctcc tgcagggcca gtcagagtgt tagcagcaac 2280

tacttagcct ggtaccagca gaaacctggc caggctccca ggctcctcat ctatggtgca 2340

tccagcaggg ccactggcat cccagacagg ttcagtggca gtgggtctgg gacagacttc 2400

actctcacca tcagcagact ggagcctgaa gattttgcag tgtattactg tcagcggtat 2460

ggtacctcac cgctcacttt cggcggaggg accaaggtgg agatcaaacg aactgtggct 2520

gcaccatctg tcttcatctt cccgccatct gatgagcagt tgaaatctgg aactgcctct 2580

gttgtgtgcc tgctgaataa cttctatccc agagaggcca aagtacagtg gaaggtggat 2640

aacgccctcc aatcgggtaa ctcccaggag agtgtcacag agcaggacag caaggacagc 2700

acctacagcc tcagcagcac cctgacgctg agcaaagcag actacgagaa acacaaagtc 2760

tacgcctgcg aagtcaccca tcagggcctg agctcgcccg tcacaaagag cttcaacagg 2820

ggagagtgtt aagcggccgc gtttaaactc aacctctgga ttacaaaatt tgtgaaagat 2880

tgactggtat tcttaactat gttgctcctt ttacgctatg tggatacgct gctttaatgc 2940

ctttgtatca tgctattgct tcccgtatgg ctttcatttt ctcctccttg tataaatcct 3000

ggttgctgtc tctttatgag gagttgtggc ccgttgtcag gcaacgtggc gtggtgtgca 3060

ctgtgtttgc tgacgcaacc cccactggtt ggggcattgc caccacctgt cagctccttt 3120

ccgggacttt cgctttcccc ctccctattg ccacggcgga actcatcgcc gcctgccttg 3180

cccgctgctg gacaggggct cggctgttgg gcactgacaa ttccgtggtg ttgtcgggga 3240

aatcatcgtc ctttccttgg ctgctcgcct gtgttgccac ctggattctg cgcgggacgt 3300

ccttctgcta cgtcccttcg gccctcaatc cagcggacct tccttcccgc ggcctgctgc 3360

cggctctgcg gcctcttccg cgtcttcgcc ttcgccctca gacgagtcgg atctcccttt 3420

gggccgcctc cccgcagaat tcctgcagct agttgccagc catctgttgt ttgcccctcc 3480

cccgtgcctt ccttgaccct ggaaggtgcc actcccactg tcctttccta ataaaatgag 3540

gaaattgcat cgcattgtct gagtaggtgt cattctattc tggggggtgg ggtggggcag 3600

gacagcaagg gggaggattg ggaagacaat agcaggcatg ctggggatgc ggtgggctct 3660

atggaggtgg ccacctaagg gttctcagat gcagcggccg caggaacccc tagtgatgga 3720

gttggccact ccctctctgc gcgctcgctc gctcactgag gccgggcgac caaaggtcgc 3780

ccgacgcccg ggctttgccc gggcggcctc agtgagcgag cgagcgcgca gctgcctgca 3840

gg 3842

<210> 9

<211> 3857

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (468)..(487)

<223> n为a、c、g或t

<400> 9

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tgcgctagct gtacaaaaaa gcaggcttta aaggaaccaa 180

ttcagtcgac tggatccggt accaaggtcg ggcaggaaga gggcctattt cccatgattc 240

cttcatattt gcatatacga tacaaggctg ttagagagat aattagaatt aatttgactg 300

taaacacaaa gatattagta caaaatacgt gacgtagaaa gtaataattt cttgggtagt 360

ttgcagtttt aaaattatgt tttaaaatgg actatcatat gcttaccgta acttgaaagt 420

atttcgattt cttggcttta tatatcttgt ggaaaggacg aaacaccnnn nnnnnnnnnn 480

nnnnnnngtt ttagagctag aaatagcaag ttaaaataag gctagtccgt tatcaacttg 540

aaaaagtggc accgagtcgg tgcttttttt ctagaccacc taagggttct cagatgcacc 600

cttacgcgtt aggtcagtga agagaagaac aaaaagcagc atattacagt tagttgtctt 660

catcaatctt taaatatgtt gtgtggtttt tctctccctg tttccacagc ccaggtgcag 720

ctggtggagt cggggggagg cgtggtccag cctgggaggt ccctgagact ctcctgtgca 780

gcctctggat tcaccttcaa ttactatggc atgcactggg tccgccaggc tccaggcaag 840

gggctggagt gggtggcagt catatcatat gatggaacta ataaatacta tgcagactcc 900

gtgaagggcc gattcaccac ctccagagac aattccaaga acacgctgta tctgcagatg 960

aacagcctga gagctgagga cacggctctg tattactgtg cgagagatcg cggtggccgc 1020

tttgactact ggggccaggg aatccaggtc accgtctcct cagcctccac caagggccca 1080

tcggtcttcc ccctggcgcc ctgctccagg agcacctccg agagcacagc cgccctgggc 1140

tgcctggtca aggactactt ccccgaaccg gtgacggtgt cgtggaactc aggcgccctg 1200

accagcggcg tgcacacctt cccggctgtc ctacagtcct caggactcta ctccctcagc 1260

agcgtggtga ccgtgccctc cagcagcttg ggcacgaaga cctacacctg caacgtagat 1320

cacaagccca gcaacaccaa ggtggacaag agagttgagt ccaaatatgg tcccccatgc 1380

ccaccgtgcc cagcaccagg cggtggcgga ccatcagtct tcctgttccc cccaaaaccc 1440

aaggacactc tctacatcac ccgggagcct gaggtcacgt gcgtggtggt ggacgtgagc 1500

caggaagacc ccgaggtcca gttcaactgg tacgtggatg gcgtggaggt gcataatgcc 1560

aagacaaagc cgcgggagga gcagttcaac agcacgtacc gtgtggtcag cgtcctcacc 1620

gtcctgcacc aggactggct gaacggcaag gagtacaagt gcaaggtctc caacaaaggc 1680

ctcccgtcct ccatcgagaa aaccatctcc aaagccaaag ggcagccccg agagccacag 1740

gtgtacaccc tgcccccatc ccaggaggag atgaccaaga accaggtcag cctgacctgc 1800

ctggtcaaag gcttctaccc cagcgacatc gccgtggagt gggagagcaa tgggcagccg 1860

gagaacaact acaagaccac gcctcccgtg ctggactccg acggctcctt cttcctctac 1920

agcaggctca ccgtggacaa gagcaggtgg caggagggga atgtcttctc atgctccgtg 1980

atgcatgagg ctctgcacaa ccactacaca cagaagtccc tctccctgtc tctgggtaaa 2040

cgtaaacgaa gaggatccgg ggagggccgg ggcagcctgc tgacctgcgg agacgtggag 2100

gagaaccctg gcccccacag acctagacgt cgtggaactc gtccacctcc actggcactg 2160

ctcgctgctc tcctcctggc tgcacgtggt gctgatgcag aaattgtgtt gacgcagtct 2220

ccagacaccc tgtctttgtc tccaggggaa agagccaccc tctcctgcag ggccagtcag 2280

agtgttagca gcaactactt agcctggtac cagcagaaac ctggccaggc tcccaggctc 2340

ctcatctatg gtgcatccag cagggccact ggcatcccag acaggttcag tggcagtggg 2400

tctgggacag acttcactct caccatcagc agactggagc ctgaagattt tgcagtgtat 2460

tactgtcagc ggtatggtac ctcaccgctc actttcggcg gagggaccaa ggtggagatc 2520

aaacgaactg tggctgcacc atctgtcttc atcttcccgc catctgatga gcagttgaaa 2580

tctggaactg cctctgttgt gtgcctgctg aataacttct atcccagaga ggccaaagta 2640

cagtggaagg tggataacgc cctccaatcg ggtaactccc aggagagtgt cacagagcag 2700

gacagcaagg acagcaccta cagcctcagc agcaccctga cgctgagcaa agcagactac 2760

gagaaacaca aagtctacgc ctgcgaagtc acccatcagg gcctgagctc gcccgtcaca 2820

aagagcttca acaggggaga gtgttaagcg gccgcgttta aactcaacct ctggattaca 2880

aaatttgtga aagattgact ggtattctta actatgttgc tccttttacg ctatgtggat 2940

acgctgcttt aatgcctttg tatcatgcta ttgcttcccg tatggctttc attttctcct 3000

ccttgtataa atcctggttg ctgtctcttt atgaggagtt gtggcccgtt gtcaggcaac 3060

gtggcgtggt gtgcactgtg tttgctgacg caacccccac tggttggggc attgccacca 3120

cctgtcagct cctttccggg actttcgctt tccccctccc tattgccacg gcggaactca 3180

tcgccgcctg ccttgcccgc tgctggacag gggctcggct gttgggcact gacaattccg 3240

tggtgttgtc ggggaaatca tcgtcctttc cttggctgct cgcctgtgtt gccacctgga 3300

ttctgcgcgg gacgtccttc tgctacgtcc cttcggccct caatccagcg gaccttcctt 3360

cccgcggcct gctgccggct ctgcggcctc ttccgcgtct tcgccttcgc cctcagacga 3420

gtcggatctc cctttgggcc gcctccccgc agaattcctg cagctagttg ccagccatct 3480

gttgtttgcc cctcccccgt gccttccttg accctggaag gtgccactcc cactgtcctt 3540

tcctaataaa atgaggaaat tgcatcgcat tgtctgagta ggtgtcattc tattctgggg 3600

ggtggggtgg ggcaggacag caagggggag gattgggaag acaatagcag gcatgctggg 3660

gatgcggtgg gctctatgga ggtggccacc taagggttct cagatgcagc ggccgcagga 3720

acccctagtg atggagttgg ccactccctc tctgcgcgct cgctcgctca ctgaggccgg 3780

gcgaccaaag gtcgcccgac gcccgggctt tgcccgggcg gcctcagtga gcgagcgagc 3840

gcgcagctgc ctgcagg 3857

<210> 10

<211> 4437

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 10

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tcgggcaaag ccacgcgtag gagttccgcg ttacataact 180

tacggtaaat ggcccgcctg gctgaccgcc caacgacccc cgcccattga cgtcaataat 240

gacgtatgtt cccatagtaa cgccaatagg gactttccat tgacgtcaat gggtggagta 300

tttacggtaa actgcccact tggcagtaca tcaagtgtat catatgccaa gtacgccccc 360

tattgacgtc aatgacggta aatggcccgc ctggcattat gcccagtaca tgaccttatg 420

ggactttcct acttggcagt acatctacgt attagtcatc gctattacca tggtcgaggt 480

gagccccacg ttctgcttca ctctccccat ctcccccccc tccccacccc caattttgta 540

tttatttatt ttttaattat tttgtgcagc gatgggggcg gggggggggg gggggcgcgc 600

gccaggcggg gcggggcggg gcgaggggcg gggcggggcg aggcggagag gtgcggcggc 660

agccaatcag agcggcgcgc tccgaaagtt tccttttatg gcgaggcggc ggcggcggcg 720

gccctataaa aagcgaagcg cgcggcgggc gggagtcgct gcgcgctgcc ttcgccccgt 780

gccccgctcc gccgccgcct cgcgccgccc gccccggctc tgactgaccg cgttactaaa 840

acaggtaagt ccggcctccg cgccgggttt tggcgcctcc cgcgggcgcc cccctcctca 900

cggcgagcgc tgccacgtca gacgaagggc gcagcgagcg tcctgatcct tccgcccgga 960

cgctcaggac agcggcccgc tgctcataag actcggcctt agaaccccag tatcagcaga 1020

aggacatttt aggacgggac ttgggtgact ctagggcact ggttttcttt ccagagagcg 1080

gaacaggcga ggaaaagtag tcccttctcg gcgattctgc ggagggatct ccgtggggcg 1140

gtgaacgccg atgatgcctc tactaaccat gttcatgttt tctttttttt tctacaggtc 1200

ctgggtgacg aacaggctag catcgatgcc accatgcaca gacctagacg tcgtggaact 1260

cgtccacctc cactggcact gctcgctgct ctcctcctgg ctgcacgtgg tgctgatgca 1320

caggtgcagc tggtggagtc ggggggaggc gtggtccagc ctgggaggtc cctgagactc 1380

tcctgtgcag cctctggatt caccttcaat tactatggca tgcactgggt ccgccaggct 1440

ccaggcaagg ggctggagtg ggtggcagtc atatcatatg atggaactaa taaatactat 1500

gcagactccg tgaagggccg attcaccacc tccagagaca attccaagaa cacgctgtat 1560

ctgcagatga acagcctgag agctgaggac acggctctgt attactgtgc gagagatcgc 1620

ggtggccgct ttgactactg gggccaggga atccaggtca ccgtctcctc agcctccacc 1680

aagggcccat cggtcttccc cctggcgccc tgctccagga gcacctccga gagcacagcc 1740

gccctgggct gcctggtcaa ggactacttc cccgaaccgg tgacggtgtc gtggaactca 1800

ggcgccctga ccagcggcgt gcacaccttc ccggctgtcc tacagtcctc aggactctac 1860

tccctcagca gcgtggtgac cgtgccctcc agcagcttgg gcacgaagac ctacacctgc 1920

aacgtagatc acaagcccag caacaccaag gtggacaaga gagttgagtc caaatatggt 1980

cccccatgcc caccgtgccc agcaccaggc ggtggcggac catcagtctt cctgttcccc 2040

ccaaaaccca aggacactct ctacatcacc cgggagcctg aggtcacgtg cgtggtggtg 2100

gacgtgagcc aggaagaccc cgaggtccag ttcaactggt acgtggatgg cgtggaggtg 2160

cataatgcca agacaaagcc gcgggaggag cagttcaaca gcacgtaccg tgtggtcagc 2220

gtcctcaccg tcctgcacca ggactggctg aacggcaagg agtacaagtg caaggtctcc 2280

aacaaaggcc tcccgtcctc catcgagaaa accatctcca aagccaaagg gcagccccga 2340

gagccacagg tgtacaccct gcccccatcc caggaggaga tgaccaagaa ccaggtcagc 2400

ctgacctgcc tggtcaaagg cttctacccc agcgacatcg ccgtggagtg ggagagcaat 2460

gggcagccgg agaacaacta caagaccacg cctcccgtgc tggactccga cggctccttc 2520

ttcctctaca gcaggctcac cgtggacaag agcaggtggc aggaggggaa tgtcttctca 2580

tgctccgtga tgcatgaggc tctgcacaac cactacacac agaagtccct ctccctgtct 2640

ctgggtaaac gtaaacgaag aggatccggg gagggccggg gcagcctgct gacctgcgga 2700

gacgtggagg agaaccctgg cccccacaga cctagacgtc gtggaactcg tccacctcca 2760

ctggcactgc tcgctgctct cctcctggct gcacgtggtg ctgatgcaga aattgtgttg 2820

acgcagtctc cagacaccct gtctttgtct ccaggggaaa gagccaccct ctcctgcagg 2880

gccagtcaga gtgttagcag caactactta gcctggtacc agcagaaacc tggccaggct 2940

cccaggctcc tcatctatgg tgcatccagc agggccactg gcatcccaga caggttcagt 3000

ggcagtgggt ctgggacaga cttcactctc accatcagca gactggagcc tgaagatttt 3060

gcagtgtatt actgtcagcg gtatggtacc tcaccgctca ctttcggcgg agggaccaag 3120

gtggagatca aacgaactgt ggctgcacca tctgtcttca tcttcccgcc atctgatgag 3180

cagttgaaat ctggaactgc ctctgttgtg tgcctgctga ataacttcta tcccagagag 3240

gccaaagtac agtggaaggt ggataacgcc ctccaatcgg gtaactccca ggagagtgtc 3300

acagagcagg acagcaagga cagcacctac agcctcagca gcaccctgac gctgagcaaa 3360

gcagactacg agaaacacaa agtctacgcc tgcgaagtca cccatcaggg cctgagctcg 3420

cccgtcacaa agagcttcaa caggggagag tgttaagcgg ccgcggttta aactcaacct 3480

ctggattaca aaatttgtga aagattgact ggtattctta actatgttgc tccttttacg 3540

ctatgtggat acgctgcttt aatgcctttg tatcatgcta ttgcttcccg tatggctttc 3600

attttctcct ccttgtataa atcctggttg ctgtctcttt atgaggagtt gtggcccgtt 3660

gtcaggcaac gtggcgtggt gtgcactgtg tttgctgacg caacccccac tggttggggc 3720

attgccacca cctgtcagct cctttccggg actttcgctt tccccctccc tattgccacg 3780

gcggaactca tcgccgcctg ccttgcccgc tgctggacag gggctcggct gttgggcact 3840

gacaattccg tggtgttgtc ggggaaatca tcgtcctttc cttggctgct cgcctgtgtt 3900

gccacctgga ttctgcgcgg gacgtccttc tgctacgtcc cttcggccct caatccagcg 3960

gaccttcctt cccgcggcct gctgccggct ctgcggcctc ttccgcgtct tcgccttcgc 4020

cctcagacga gtcggatctc cctttgggcc gcctccccgc agaattcctg cagctagttg 4080

ccagccatct gttgtttgcc cctcccccgt gccttccttg accctggaag gtgccactcc 4140

cactgtcctt tcctaataaa atgaggaaat tgcatcgcat tgtctgagta ggtgtcattc 4200

tattctgggg ggtggggtgg ggcaggacag caagggggag gattgggaag acaatagcag 4260

gcatgctggg gatgcggtgg gctctatggg gtaaccagga acccctagtg atggagttgg 4320

ccactccctc tctgcgcgct cgctcgctca ctgaggccgg gcgaccaaag gtcgcccgac 4380

gcccgggctt tgcccgggcg gcctcagtga gcgagcgagc gcgcagctgc ctgcagg 4437

<210> 11

<211> 3863

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 11

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tgcggccgca cgcgtggagc tagttattaa tagtaatcaa 180

ttacggggtc attagttcat agcccatata tggagttccg cgttacataa cttacggtaa 240

atggcccgcc tggctgaccg cccaacgacc cccgcccatt gacgtcaata atgacgtatg 300

ttcccatagt aacgtcaata gggactttcc attgacgtca atgggtggag tatttacggt 360

aaactgccca cttggcagta catcaagtgt atcatatgcc aagtacgccc cctattgacg 420

tcaatgacgg taaatggccc gcctggcatt atgcccagta catgacctta tgggactttc 480

ctacttggca gtacatctac gtattagtca tcgctattac catggtgatg cggttttggc 540

agtacatcaa tgggcgtgga tagcggtttg actcacgggg atttccaagt ctccacccca 600

ttgacgtcaa tgggagtttg ttttgcacca aaatcaacgg gactttccaa aatgtcgtaa 660

caactccgcc ccattgacgc aaatgggcgg taggcgtgta cggtgggagg tctatataag 720

cagagctcgt ttagtgaacc gtcagatcgc ctggagacgc catccacgct gttttgacct 780

ccatagaaga caccgggacc gatccagcct ccgcggattc gaatcccggc cgggaacggt 840

gcattggaac gcggattccc cgtgccaaga gtgacgtaag taccgcctat agagtctata 900

ggcccacaaa aaatgctttc ttcttttaat atactttttt gtttatctta tttctaatac 960

tttccctaat ctctttcttt cagggcaata atgatacaat gtatcatgcc tctttgcacc 1020

attctaaaga ataacagtga taatttctgg gttaaggcaa tagcaatatt tctgcatata 1080

aatatttctg catataaatt gtaactgatg taagaggttt catattgcta atagcagcta 1140

caatccagct accattctgc ttttatttta tggttgggat aaggctggat tattctgagt 1200

ccaagctagg cccttttgct aatcatgttc atacctctta tcttcctccc acagctcctg 1260

ggcaacgtgc tggtctgtgt gctggcccat cactttggca aagaattggg attcgaacat 1320

cgattgaatt cgccaccatg cacagaccta gacgtcgtgg aactcgtcca cctccactgg 1380

cactgctcgc tgctctcctc ctggctgcac gtggtgctga tgcagaaatt gtgttgacgc 1440

agtctccaga caccctgtct ttgtctccag gggaaagagc caccctctcc tgcagggcca 1500

gtcagagtgt tagcagcaac tacttagcct ggtaccagca gaaacctggc caggctccca 1560

ggctcctcat ctatggtgca tccagcaggg ccactggcat cccagacagg ttcagtggca 1620

gtgggtctgg gacagacttc actctcacca tcagcagact ggagcctgaa gattttgcag 1680

tgtattactg tcagcggtat ggtacctcac cgctcacttt cggcggaggg accaaggtgg 1740

agatcaaacg aactgtggct gcaccatctg tcttcatctt cccgccatct gatgagcagt 1800

tgaaatctgg aactgcctct gttgtgtgcc tgctgaataa cttctatccc agagaggcca 1860

aagtacagtg gaaggtggat aacgccctcc aatcgggtaa ctcccaggag agtgtcacag 1920

agcaggacag caaggacagc acctacagcc tcagcagcac cctgacgctg agcaaagcag 1980

actacgagaa acacaaagtc tacgcctgcg aagtcaccca tcagggcctg agctcgcccg 2040

tcacaaagag cttcaacagg ggagagtgtc gtaaacgaag aggatccggg gagggccggg 2100

gcagcctgct gacctgcgga gacgtggagg agaaccctgg ccccatgcac agacctagac 2160

gtcgtggaac tcgtccacct ccactggcac tgctcgctgc tctcctcctg gctgcacgtg 2220

gtgctgatgc acaggtgcag ctggtggagt cggggggagg cgtggtccag cctgggaggt 2280

ccctgagact ctcctgtgca gcctctggat tcaccttcaa ttactatggc atgcactggg 2340

tccgccaggc tccaggcaag gggctggagt gggtggcagt catatcatat gatggaacta 2400

ataaatacta tgcagactcc gtgaagggcc gattcaccac ctccagagac aattccaaga 2460

acacgctgta tctgcagatg aacagcctga gagctgagga cacggctctg tattactgtg 2520

cgagagatcg cggtggccgc tttgactact ggggccaggg aatccaggtc accgtctcct 2580

cagcctccac caagggccca tcggtcttcc ccctggcgcc ctgctccagg agcacctccg 2640

agagcacagc cgccctgggc tgcctggtca aggactactt ccccgaaccg gtgacggtgt 2700

cgtggaactc aggcgccctg accagcggcg tgcacacctt cccggctgtc ctacagtcct 2760

caggactcta ctccctcagc agcgtggtga ccgtgccctc cagcagcttg ggcacgaaga 2820

cctacacctg caacgtagat cacaagccca gcaacaccaa ggtggacaag agagttgagt 2880

ccaaatatgg tcccccatgc ccaccgtgcc cagcaccagg cggtggcgga ccatcagtct 2940

tcctgttccc cccaaaaccc aaggacactc tctacatcac ccgggagcct gaggtcacgt 3000

gcgtggtggt ggacgtgagc caggaagacc ccgaggtcca gttcaactgg tacgtggatg 3060

gcgtggaggt gcataatgcc aagacaaagc cgcgggagga gcagttcaac agcacgtacc 3120

gtgtggtcag cgtcctcacc gtcctgcacc aggactggct gaacggcaag gagtacaagt 3180

gcaaggtctc caacaaaggc ctcccgtcct ccatcgagaa aaccatctcc aaagccaaag 3240

ggcagccccg agagccacag gtgtacaccc tgcccccatc ccaggaggag atgaccaaga 3300

accaggtcag cctgacctgc ctggtcaaag gcttctaccc cagcgacatc gccgtggagt 3360

gggagagcaa tgggcagccg gagaacaact acaagaccac gcctcccgtg ctggactccg 3420

acggctcctt cttcctctac agcaggctca ccgtggacaa gagcaggtgg caggagggga 3480

atgtcttctc atgctccgtg atgcatgagg ctctgcacaa ccactacaca cagaagtccc 3540

tctccctgtc tctgggtaaa tgactcgaga gatctaactt gtttattgca gcttataatg 3600

gttacaaata aagcaatagc atcacaaatt tcacaaataa agcatttttt tcactgcatt 3660

ctagttgtgg tttgtccaaa ctcatcaatg tatcttatca tgtctgcgga ccgagcggcc 3720

gcaggaaccc ctagtgatgg agttggccac tccctctctg cgcgctcgct cgctcactga 3780

ggccgggcga ccaaaggtcg cccgacgccc gggctttgcc cgggcggcct cagtgagcga 3840

gcgagcgcgc agctgcctgc agg 3863

<210> 12

<211> 645

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 12

gaaattgtgt tgacgcagtc tccagacacc ctgtctttgt ctccagggga aagagccacc 60

ctctcctgca gggccagtca gagtgttagc agcaactact tagcctggta ccagcagaaa 120

cctggccagg ctcccaggct cctcatctat ggtgcatcca gcagggccac tggcatccca 180

gacaggttca gtggcagtgg gtctgggaca gacttcactc tcaccatcag cagactggag 240

cctgaagatt ttgcagtgta ttactgtcag cggtatggta cctcaccgct cactttcggc 300

ggagggacca aggtggagat caaacgaact gtggctgcac catctgtctt catcttcccg 360

ccatctgatg agcagttgaa atctggaact gcctctgttg tgtgcctgct gaataacttc 420

tatcccagag aggccaaagt acagtggaag gtggataacg ccctccaatc gggtaactcc 480

caggagagtg tcacagagca ggacagcaag gacagcacct acagcctcag cagcaccctg 540

acgctgagca aagcagacta cgagaaacac aaagtctacg cctgcgaagt cacccatcag 600

ggcctgagct cgcccgtcac aaagagcttc aacaggggag agtgt 645

<210> 13

<211> 215

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 13

Glu Ile Val Leu Thr Gln Ser Pro Asp Thr Leu Ser Leu Ser Pro Gly

1 5 10 15

Glu Arg Ala Thr Leu Ser Cys Arg Ala Ser Gln Ser Val Ser Ser Asn

20 25 30

Tyr Leu Ala Trp Tyr Gln Gln Lys Pro Gly Gln Ala Pro Arg Leu Leu

35 40 45

Ile Tyr Gly Ala Ser Ser Arg Ala Thr Gly Ile Pro Asp Arg Phe Ser

50 55 60

Gly Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Arg Leu Glu

65 70 75 80

Pro Glu Asp Phe Ala Val Tyr Tyr Cys Gln Arg Tyr Gly Thr Ser Pro

85 90 95

Leu Thr Phe Gly Gly Gly Thr Lys Val Glu Ile Lys Arg Thr Val Ala

100 105 110

Ala Pro Ser Val Phe Ile Phe Pro Pro Ser Asp Glu Gln Leu Lys Ser

115 120 125

Gly Thr Ala Ser Val Val Cys Leu Leu Asn Asn Phe Tyr Pro Arg Glu

130 135 140

Ala Lys Val Gln Trp Lys Val Asp Asn Ala Leu Gln Ser Gly Asn Ser

145 150 155 160

Gln Glu Ser Val Thr Glu Gln Asp Ser Lys Asp Ser Thr Tyr Ser Leu

165 170 175

Ser Ser Thr Leu Thr Leu Ser Lys Ala Asp Tyr Glu Lys His Lys Val

180 185 190

Tyr Ala Cys Glu Val Thr His Gln Gly Leu Ser Ser Pro Val Thr Lys

195 200 205

Ser Phe Asn Arg Gly Glu Cys

210 215

<210> 14

<211> 1329

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 14

caggtgcagc tggtggagtc ggggggaggc gtggtccagc ctgggaggtc cctgagactc 60

tcctgtgcag cctctggatt caccttcaat tactatggca tgcactgggt ccgccaggct 120

ccaggcaagg ggctggagtg ggtggcagtc atatcatatg atggaactaa taaatactat 180

gcagactccg tgaagggccg attcaccacc tccagagaca attccaagaa cacgctgtat 240

ctgcagatga acagcctgag agctgaggac acggctctgt attactgtgc gagagatcgc 300

ggtggccgct ttgactactg gggccaggga atccaggtca ccgtctcctc agcctccacc 360

aagggcccat cggtcttccc cctggcgccc tgctccagga gcacctccga gagcacagcc 420

gccctgggct gcctggtcaa ggactacttc cccgaaccgg tgacggtgtc gtggaactca 480

ggcgccctga ccagcggcgt gcacaccttc ccggctgtcc tacagtcctc aggactctac 540

tccctcagca gcgtggtgac cgtgccctcc agcagcttgg gcacgaagac ctacacctgc 600

aacgtagatc acaagcccag caacaccaag gtggacaaga gagttgagtc caaatatggt 660

cccccatgcc caccgtgccc agcaccaggc ggtggcggac catcagtctt cctgttcccc 720

ccaaaaccca aggacactct ctacatcacc cgggagcctg aggtcacgtg cgtggtggtg 780

gacgtgagcc aggaagaccc cgaggtccag ttcaactggt acgtggatgg cgtggaggtg 840

cataatgcca agacaaagcc gcgggaggag cagttcaaca gcacgtaccg tgtggtcagc 900

gtcctcaccg tcctgcacca ggactggctg aacggcaagg agtacaagtg caaggtctcc 960

aacaaaggcc tcccgtcctc catcgagaaa accatctcca aagccaaagg gcagccccga 1020

gagccacagg tgtacaccct gcccccatcc caggaggaga tgaccaagaa ccaggtcagc 1080

ctgacctgcc tggtcaaagg cttctacccc agcgacatcg ccgtggagtg ggagagcaat 1140

gggcagccgg agaacaacta caagaccacg cctcccgtgc tggactccga cggctccttc 1200

ttcctctaca gcaggctcac cgtggacaag agcaggtggc aggaggggaa tgtcttctca 1260

tgctccgtga tgcatgaggc tctgcacaac cactacacac agaagtccct ctccctgtct 1320

ctgggtaaa 1329

<210> 15

<211> 443

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 15

Gln Val Gln Leu Val Glu Ser Gly Gly Gly Val Val Gln Pro Gly Arg

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Asn Tyr Tyr

20 25 30

Gly Met His Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Ala Val Ile Ser Tyr Asp Gly Thr Asn Lys Tyr Tyr Ala Asp Ser Val

50 55 60

Lys Gly Arg Phe Thr Thr Ser Arg Asp Asn Ser Lys Asn Thr Leu Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Leu Tyr Tyr Cys

85 90 95

Ala Arg Asp Arg Gly Gly Arg Phe Asp Tyr Trp Gly Gln Gly Ile Gln

100 105 110

Val Thr Val Ser Ser Ala Ser Thr Lys Gly Pro Ser Val Phe Pro Leu

115 120 125

Ala Pro Cys Ser Arg Ser Thr Ser Glu Ser Thr Ala Ala Leu Gly Cys

130 135 140

Leu Val Lys Asp Tyr Phe Pro Glu Pro Val Thr Val Ser Trp Asn Ser

145 150 155 160

Gly Ala Leu Thr Ser Gly Val His Thr Phe Pro Ala Val Leu Gln Ser

165 170 175

Ser Gly Leu Tyr Ser Leu Ser Ser Val Val Thr Val Pro Ser Ser Ser

180 185 190

Leu Gly Thr Lys Thr Tyr Thr Cys Asn Val Asp His Lys Pro Ser Asn

195 200 205

Thr Lys Val Asp Lys Arg Val Glu Ser Lys Tyr Gly Pro Pro Cys Pro

210 215 220

Pro Cys Pro Ala Pro Gly Gly Gly Gly Pro Ser Val Phe Leu Phe Pro

225 230 235 240

Pro Lys Pro Lys Asp Thr Leu Tyr Ile Thr Arg Glu Pro Glu Val Thr

245 250 255

Cys Val Val Val Asp Val Ser Gln Glu Asp Pro Glu Val Gln Phe Asn

260 265 270

Trp Tyr Val Asp Gly Val Glu Val His Asn Ala Lys Thr Lys Pro Arg

275 280 285

Glu Glu Gln Phe Asn Ser Thr Tyr Arg Val Val Ser Val Leu Thr Val

290 295 300

Leu His Gln Asp Trp Leu Asn Gly Lys Glu Tyr Lys Cys Lys Val Ser

305 310 315 320

Asn Lys Gly Leu Pro Ser Ser Ile Glu Lys Thr Ile Ser Lys Ala Lys

325 330 335

Gly Gln Pro Arg Glu Pro Gln Val Tyr Thr Leu Pro Pro Ser Gln Glu

340 345 350

Glu Met Thr Lys Asn Gln Val Ser Leu Thr Cys Leu Val Lys Gly Phe

355 360 365

Tyr Pro Ser Asp Ile Ala Val Glu Trp Glu Ser Asn Gly Gln Pro Glu

370 375 380

Asn Asn Tyr Lys Thr Thr Pro Pro Val Leu Asp Ser Asp Gly Ser Phe

385 390 395 400

Phe Leu Tyr Ser Arg Leu Thr Val Asp Lys Ser Arg Trp Gln Glu Gly

405 410 415

Asn Val Phe Ser Cys Ser Val Met His Glu Ala Leu His Asn His Tyr

420 425 430

Thr Gln Lys Ser Leu Ser Leu Ser Leu Gly Lys

435 440

<210> 16

<211> 2237

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 16

aaaagcagca tattacagtt agttgtcttc atcaatcttt aaatatgttg tgtggttttt 60

ctctccctgt ttccacagcc gacatacaga tgacgcagtc cccttccagc ctcagcgcat 120

cagtggggga cagagtcact atcacttgca gggcttctca gggcattaga aacaacttgg 180

gctggtacca acagaagcct ctgaaggcac ctaaacggtt gatttacgcc gccagctctt 240

tgcaatctgg ggtgccttcc agattcagcg gctctggctc aggaaccgaa tttaccctga 300

ccattagcag cttgcaaccg gaggatttcg ctacctacta ttgcttgcag tataataact 360

atccctggac cttcggtcaa ggtaccaagg tcgagataaa gcggaccgtt gctgcccctt 420

ctgtgttcat ctttcccccc tcagatgaac agcttaagag cggaacggca agtgtagtat 480

gccttcttaa taatttctac cctagagaag ccaaagttca gtggaaagta gataatgctt 540

tgcaaagcgg aaactctcaa gaatcagtta cagaacaaga ctccaaagac tcaacatact 600

cactttcatc aacgctcacc ctgtctaaag ccgattacga gaagcacaaa gtttacgcct 660

gtgaggttac acatcagggt ctcagtagtc ctgtgactaa gtcttttaac cggggggaat 720

gcagaaaacg gaggggatca ggggcgacta acttttcatt gcttaagcaa gcaggagacg 780

tggaagagaa tcccgggccc cacagaccta gacgtcgtgg aactcgtcca cctccactgg 840

cactgctcgc tgctctcctc ctggctgcac gtggtgctga tgcacaggtc cagctcgtcc 900

aatccggggc ggaagtcaaa aagagcggct catccgtcaa ggtctcctgt aaggcctcag 960

gtgggacatt tagtagttat gccatctcct gggttcgcca ggctccggga cagggcttgg 1020

agtggatggg tggaatcata ccgatctttg gtacaccctc atacgcgcag aaattccaag 1080

accgcgtcac gatcacgact gacgaatcca cgagcaccgt ttacatggag ttgtcttcac 1140

tgagaagtga ggacactgca gtgtattatt gtgcaaggca gcagccagtg taccaatata 1200

atatggatgt ctggggtcaa ggcaccaccg tgaccgtgtc ctccgcctcc accaagggcc 1260

catcggtctt ccccctggca ccctcctcca agagcacctc tgggggcaca gcggccctgg 1320

gctgcctggt caaggactac ttccccgaac cggtgacggt gtcgtggaac tcaggcgccc 1380

tgaccagcgg cgtgcacacc ttcccggctg tcctacagtc ctcaggactc tactccctca 1440

gcagcgtggt gaccgtgccc tccagcagct tgggcaccca gacctacatc tgcaacgtga 1500

atcacaagcc cagcaacacc aaggtggaca agaaagttga gcccaaatct tgtgacaaaa 1560

ctcacacatg cccaccgtgc ccagcacctg aactcctggg gggaccgtca gtcttcctct 1620

tccccccaaa acccaaggac accctcatga tctcccggac ccctgaggtc acatgcgtgg 1680

tggtggacgt gagccacgaa gaccctgagg tcaagttcaa ctggtacgtg gacggcgtgg 1740

aggtgcataa tgccaagaca aagccgcggg aggagcagta caacagcacg taccgtgtgg 1800

tcagcgtcct caccgtcctg caccaggact ggctgaatgg caaggagtac aagtgcaagg 1860

tctccaacaa agccctccca gcccccatcg agaaaaccat ctccaaagcc aaagggcagc 1920

cccgagaacc acaggtgtac accctgcccc catcccggga tgagctgacc aagaaccagg 1980

tcagcctgac ctgcctggtc aaaggcttct atcccagcga catcgccgtg gagtgggaga 2040

gcaatgggca gccggagaac aactacaaga ccacgcctcc cgtgctggac tccgacggct 2100

ccttcttcct ctacagcaag ctcaccgtgg acaagagcag gtggcagcag gggaacgtct 2160

tctcatgctc cgtgatgcat gaggctctgc acaaccacta cacgcagaag tccctctccc 2220

tgtctccggg taaatga 2237

<210> 17

<211> 642

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 17

gacatacaga tgacgcagtc cccttccagc ctcagcgcat cagtggggga cagagtcact 60

atcacttgca gggcttctca gggcattaga aacaacttgg gctggtacca acagaagcct 120

ctgaaggcac ctaaacggtt gatttacgcc gccagctctt tgcaatctgg ggtgccttcc 180

agattcagcg gctctggctc aggaaccgaa tttaccctga ccattagcag cttgcaaccg 240

gaggatttcg ctacctacta ttgcttgcag tataataact atccctggac cttcggtcaa 300

ggtaccaagg tcgagataaa gcggaccgtt gctgcccctt ctgtgttcat ctttcccccc 360

tcagatgaac agcttaagag cggaacggca agtgtagtat gccttcttaa taatttctac 420

cctagagaag ccaaagttca gtggaaagta gataatgctt tgcaaagcgg aaactctcaa 480

gaatcagtta cagaacaaga ctccaaagac tcaacatact cactttcatc aacgctcacc 540

ctgtctaaag ccgattacga gaagcacaaa gtttacgcct gtgaggttac acatcagggt 600

ctcagtagtc ctgtgactaa gtcttttaac cggggggaat gc 642

<210> 18

<211> 214

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 18

Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly

1 5 10 15

Asp Arg Val Thr Ile Thr Cys Arg Ala Ser Gln Gly Ile Arg Asn Asn

20 25 30

Leu Gly Trp Tyr Gln Gln Lys Pro Leu Lys Ala Pro Lys Arg Leu Ile

35 40 45

Tyr Ala Ala Ser Ser Leu Gln Ser Gly Val Pro Ser Arg Phe Ser Gly

50 55 60

Ser Gly Ser Gly Thr Glu Phe Thr Leu Thr Ile Ser Ser Leu Gln Pro

65 70 75 80

Glu Asp Phe Ala Thr Tyr Tyr Cys Leu Gln Tyr Asn Asn Tyr Pro Trp

85 90 95

Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys Arg Thr Val Ala Ala

100 105 110

Pro Ser Val Phe Ile Phe Pro Pro Ser Asp Glu Gln Leu Lys Ser Gly

115 120 125

Thr Ala Ser Val Val Cys Leu Leu Asn Asn Phe Tyr Pro Arg Glu Ala

130 135 140

Lys Val Gln Trp Lys Val Asp Asn Ala Leu Gln Ser Gly Asn Ser Gln

145 150 155 160

Glu Ser Val Thr Glu Gln Asp Ser Lys Asp Ser Thr Tyr Ser Leu Ser

165 170 175

Ser Thr Leu Thr Leu Ser Lys Ala Asp Tyr Glu Lys His Lys Val Tyr

180 185 190

Ala Cys Glu Val Thr His Gln Gly Leu Ser Ser Pro Val Thr Lys Ser

195 200 205

Phe Asn Arg Gly Glu Cys

210

<210> 19

<211> 1353

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 19

caggtccagc tcgtccaatc cggggcggaa gtcaaaaaga gcggctcatc cgtcaaggtc 60

tcctgtaagg cctcaggtgg gacatttagt agttatgcca tctcctgggt tcgccaggct 120

ccgggacagg gcttggagtg gatgggtgga atcataccga tctttggtac accctcatac 180

gcgcagaaat tccaagaccg cgtcacgatc acgactgacg aatccacgag caccgtttac 240

atggagttgt cttcactgag aagtgaggac actgcagtgt attattgtgc aaggcagcag 300

ccagtgtacc aatataatat ggatgtctgg ggtcaaggca ccaccgtgac cgtgtcctcc 360

gcctccacca agggcccatc ggtcttcccc ctggcaccct cctccaagag cacctctggg 420

ggcacagcgg ccctgggctg cctggtcaag gactacttcc ccgaaccggt gacggtgtcg 480

tggaactcag gcgccctgac cagcggcgtg cacaccttcc cggctgtcct acagtcctca 540

ggactctact ccctcagcag cgtggtgacc gtgccctcca gcagcttggg cacccagacc 600

tacatctgca acgtgaatca caagcccagc aacaccaagg tggacaagaa agttgagccc 660

aaatcttgtg acaaaactca cacatgccca ccgtgcccag cacctgaact cctgggggga 720

ccgtcagtct tcctcttccc cccaaaaccc aaggacaccc tcatgatctc ccggacccct 780

gaggtcacat gcgtggtggt ggacgtgagc cacgaagacc ctgaggtcaa gttcaactgg 840

tacgtggacg gcgtggaggt gcataatgcc aagacaaagc cgcgggagga gcagtacaac 900

agcacgtacc gtgtggtcag cgtcctcacc gtcctgcacc aggactggct gaatggcaag 960

gagtacaagt gcaaggtctc caacaaagcc ctcccagccc ccatcgagaa aaccatctcc 1020

aaagccaaag ggcagccccg agaaccacag gtgtacaccc tgcccccatc ccgggatgag 1080

ctgaccaaga accaggtcag cctgacctgc ctggtcaaag gcttctatcc cagcgacatc 1140

gccgtggagt gggagagcaa tgggcagccg gagaacaact acaagaccac gcctcccgtg 1200

ctggactccg acggctcctt cttcctctac agcaagctca ccgtggacaa gagcaggtgg 1260

cagcagggga acgtcttctc atgctccgtg atgcatgagg ctctgcacaa ccactacacg 1320

cagaagtccc tctccctgtc tccgggtaaa tga 1353

<210> 20

<211> 450

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 20

Gln Val Gln Leu Val Gln Ser Gly Ala Glu Val Lys Lys Ser Gly Ser

1 5 10 15

Ser Val Lys Val Ser Cys Lys Ala Ser Gly Gly Thr Phe Ser Ser Tyr

20 25 30

Ala Ile Ser Trp Val Arg Gln Ala Pro Gly Gln Gly Leu Glu Trp Met

35 40 45

Gly Gly Ile Ile Pro Ile Phe Gly Thr Pro Ser Tyr Ala Gln Lys Phe

50 55 60

Gln Asp Arg Val Thr Ile Thr Thr Asp Glu Ser Thr Ser Thr Val Tyr

65 70 75 80

Met Glu Leu Ser Ser Leu Arg Ser Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Arg Gln Gln Pro Val Tyr Gln Tyr Asn Met Asp Val Trp Gly Gln

100 105 110

Gly Thr Thr Val Thr Val Ser Ser Ala Ser Thr Lys Gly Pro Ser Val

115 120 125

Phe Pro Leu Ala Pro Ser Ser Lys Ser Thr Ser Gly Gly Thr Ala Ala

130 135 140

Leu Gly Cys Leu Val Lys Asp Tyr Phe Pro Glu Pro Val Thr Val Ser

145 150 155 160

Trp Asn Ser Gly Ala Leu Thr Ser Gly Val His Thr Phe Pro Ala Val

165 170 175

Leu Gln Ser Ser Gly Leu Tyr Ser Leu Ser Ser Val Val Thr Val Pro

180 185 190

Ser Ser Ser Leu Gly Thr Gln Thr Tyr Ile Cys Asn Val Asn His Lys

195 200 205

Pro Ser Asn Thr Lys Val Asp Lys Lys Val Glu Pro Lys Ser Cys Asp

210 215 220

Lys Thr His Thr Cys Pro Pro Cys Pro Ala Pro Glu Leu Leu Gly Gly

225 230 235 240

Pro Ser Val Phe Leu Phe Pro Pro Lys Pro Lys Asp Thr Leu Met Ile

245 250 255

Ser Arg Thr Pro Glu Val Thr Cys Val Val Val Asp Val Ser His Glu

260 265 270

Asp Pro Glu Val Lys Phe Asn Trp Tyr Val Asp Gly Val Glu Val His

275 280 285

Asn Ala Lys Thr Lys Pro Arg Glu Glu Gln Tyr Asn Ser Thr Tyr Arg

290 295 300

Val Val Ser Val Leu Thr Val Leu His Gln Asp Trp Leu Asn Gly Lys

305 310 315 320

Glu Tyr Lys Cys Lys Val Ser Asn Lys Ala Leu Pro Ala Pro Ile Glu

325 330 335

Lys Thr Ile Ser Lys Ala Lys Gly Gln Pro Arg Glu Pro Gln Val Tyr

340 345 350

Thr Leu Pro Pro Ser Arg Asp Glu Leu Thr Lys Asn Gln Val Ser Leu

355 360 365

Thr Cys Leu Val Lys Gly Phe Tyr Pro Ser Asp Ile Ala Val Glu Trp

370 375 380

Glu Ser Asn Gly Gln Pro Glu Asn Asn Tyr Lys Thr Thr Pro Pro Val

385 390 395 400

Leu Asp Ser Asp Gly Ser Phe Phe Leu Tyr Ser Lys Leu Thr Val Asp

405 410 415

Lys Ser Arg Trp Gln Gln Gly Asn Val Phe Ser Cys Ser Val Met His

420 425 430

Glu Ala Leu His Asn His Tyr Thr Gln Lys Ser Leu Ser Leu Ser Pro

435 440 445

Gly Lys

450

<210> 21

<211> 100

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 21

taggtcagtg aagagaagaa caaaaagcag catattacag ttagttgtct tcatcaatct 60

ttaaatatgt tgtgtggttt ttctctccct gtttccacag 100

<210> 22

<211> 12

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 22

agaaaacgga gg 12

<210> 23

<211> 4

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 23

Arg Lys Arg Arg

1

<210> 24

<211> 57

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 24

gcgactaact tttcattgct taagcaagca ggagacgtgg aagagaatcc cgggccc 57

<210> 25

<211> 19

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 25

Ala Thr Asn Phe Ser Leu Leu Lys Gln Ala Gly Asp Val Glu Glu Asn

1 5 10 15

Pro Gly Pro

<210> 26

<211> 66

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 26

gtgaagcaaa ccttgaattt cgatctcctg aagttggctg gcgatgtgga gagtaatccc 60

ggccca 66

<210> 27

<211> 22

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 27

Val Lys Gln Thr Leu Asn Phe Asp Leu Leu Lys Leu Ala Gly Asp Val

1 5 10 15

Glu Ser Asn Pro Gly Pro

20

<210> 28

<211> 54

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 28

gagggccggg gcagcctgct gacctgcgga gacgtggagg agaaccctgg cccc 54

<210> 29

<211> 18

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 29

Glu Gly Arg Gly Ser Leu Leu Thr Cys Gly Asp Val Glu Glu Asn Pro

1 5 10 15

Gly Pro

<210> 30

<211> 20

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 30

Gln Cys Thr Asn Tyr Ala Leu Leu Lys Leu Ala Gly Asp Val Glu Ser

1 5 10 15

Asn Pro Gly Pro

20

<210> 31

<211> 84

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 31

cataggccgc gacgacgggg gaccagaccc cctcctttgg ccctgctggc tgctttgctt 60

ctcgcggcgc gaggagcgga cgct 84

<210> 32

<211> 84

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 32

cacagaccta gacgtcgtgg aactcgtcca cctccactgg cactgctcgc tgctctcctc 60

ctggctgcac gtggtgctga tgca 84

<210> 33

<211> 28

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 33

His Arg Pro Arg Arg Arg Gly Thr Arg Pro Pro Pro Leu Ala Leu Leu

1 5 10 15

Ala Ala Leu Leu Leu Ala Ala Arg Gly Ala Asp Ala

20 25

<210> 34

<211> 69

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 34

aagtgggtaa cctttctcct cctcctcttc gtctccggct ctgctttttc caggggtgtg 60

tttcgccga 69

<210> 35

<211> 21

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 35

Glu Ile Val Leu Thr Gln Ser Pro Asp Thr Leu Ser Leu Ser Pro Gly

1 5 10 15

Glu Arg Ala Thr Leu

20

<210> 36

<211> 247

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 36

aatcaacctc tggattacaa aatttgtgaa agattgactg gtattcttaa ctatgttgct 60

ccttttacgc tatgtggata cgctgcttta atgcctttgt atcatgctat tgcttcccgt 120

atggctttca ttttctcctc cttgtataaa tcctggttag ttcttgccac ggcggaactc 180

atcgccgcct gccttgcccg ctgctggaca ggggctcggc tgttgggcac tgacaattcc 240

gtggtgt 247

<210> 37

<211> 131

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 37

aacttgttta ttgcagctta taatggttac aaataaagca atagcatcac aaatttcaca 60

aataaagcat ttttttcact gcattctagt tgtggtttgt ccaaactcat caatgtatct 120

tatcatgtct g 131

<210> 38

<211> 72

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 38

ggttccatgg tgtaatggtt agcactctgg actctgaatc cagcgatccg agttcaaatc 60

tcggtggaac ct 72

<210> 39

<211> 4733

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 39

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tacgcgtggg ggaggctgct ggtgaatatt aaccaaggtc 180

accccagtta tcggaggagc aaacaggggc taagtccacg ggcataaatt ggtctgcgca 240

ccagcaccaa tctagtgcca ccatggacaa gcccaagaaa aagcggaaag tgaagtacag 300

catcggcctg gacatcggca ccaactctgt gggctgggcc gtgatcaccg acgagtacaa 360

ggtgcccagc aagaaattca aggtgctggg caacaccgac aggcacagca tcaagaagaa 420

cctgatcggc gccctgctgt tcgacagcgg cgaaacagcc gaggccacca gactgaagag 480

aaccgccaga agaagataca ccaggcggaa gaacaggatc tgctatctgc aagagatctt 540

cagcaacgag atggccaagg tggacgacag cttcttccac agactggaag agtccttcct 600

ggtggaagag gacaagaagc acgagagaca ccccatcttc ggcaacatcg tggacgaggt 660

ggcctaccac gagaagtacc ccaccatcta ccacctgaga aagaaactgg tggacagcac 720

cgacaaggcc gacctgagac tgatctacct ggccctggcc cacatgatca agttcagagg 780

ccacttcctg atcgagggcg acctgaaccc cgacaacagc gacgtggaca agctgttcat 840

ccagctggtg cagacctaca accagctgtt cgaggaaaac cccatcaacg ccagcggcgt 900

ggacgccaag gctatcctgt ctgccagact gagcaagagc agaaggctgg aaaatctgat 960

cgcccagctg cccggcgaga agaagaacgg cctgttcggc aacctgattg ccctgagcct 1020

gggcctgacc cccaacttca agagcaactt cgacctggcc gaggatgcca aactgcagct 1080

gagcaaggac acctacgacg acgacctgga caacctgctg gcccagatcg gcgaccagta 1140

cgccgacctg ttcctggccg ccaagaacct gtctgacgcc atcctgctga gcgacatcct 1200

gagagtgaac accgagatca ccaaggcccc cctgagcgcc tctatgatca agagatacga 1260

cgagcaccac caggacctga ccctgctgaa agctctcgtg cggcagcagc tgcctgagaa 1320

gtacaaagaa atcttcttcg accagagcaa gaacggctac gccggctaca tcgatggcgg 1380

cgctagccag gaagagttct acaagttcat caagcccatc ctggaaaaga tggacggcac 1440

cgaggaactg ctcgtgaagc tgaacagaga ggacctgctg agaaagcaga gaaccttcga 1500

caacggcagc atcccccacc agatccacct gggagagctg cacgctatcc tgagaaggca 1560

ggaagatttt tacccattcc tgaaggacaa ccgggaaaag atcgagaaga tcctgacctt 1620

caggatcccc tactacgtgg gccccctggc cagaggcaac agcagattcg cctggatgac 1680

cagaaagagc gaggaaacca tcaccccctg gaacttcgag gaagtggtgg acaagggcgc 1740

cagcgcccag agcttcatcg agagaatgac aaacttcgat aagaacctgc ccaacgagaa 1800

ggtgctgccc aagcacagcc tgctgtacga gtacttcacc gtgtacaacg agctgaccaa 1860

agtgaaatac gtgaccgagg gaatgagaaa gcccgccttc ctgagcggcg agcagaaaaa 1920

ggccatcgtg gacctgctgt tcaagaccaa cagaaaagtg accgtgaagc agctgaaaga 1980

ggactacttc aagaaaatcg agtgcttcga ctccgtggaa atctccggcg tggaagatag 2040

attcaacgcc tccctgggca cataccacga tctgctgaaa attatcaagg acaaggactt 2100

cctggataac gaagagaacg aggacattct ggaagatatc gtgctgaccc tgacactgtt 2160

tgaggaccgc gagatgatcg aggaaaggct gaaaacctac gctcacctgt tcgacgacaa 2220

agtgatgaag cagctgaaga gaaggcggta caccggctgg ggcaggctga gcagaaagct 2280

gatcaacggc atcagagaca agcagagcgg caagacaatc ctggatttcc tgaagtccga 2340

cggcttcgcc aaccggaact tcatgcagct gatccacgac gacagcctga cattcaaaga 2400

ggacatccag aaagcccagg tgtccggcca gggcgactct ctgcacgagc atatcgctaa 2460

cctggccggc agccccgcta tcaagaaggg catcctgcag acagtgaagg tggtggacga 2520

gctcgtgaaa gtgatgggca gacacaagcc cgagaacatc gtgatcgaga tggctagaga 2580

gaaccagacc acccagaagg gacagaagaa ctcccgcgag aggatgaaga gaatcgaaga 2640

gggcatcaaa gagctgggca gccagatcct gaaagaacac cccgtggaaa acacccagct 2700

gcagaacgag aagctgtacc tgtactacct gcagaatggc cgggatatgt acgtggacca 2760

ggaactggac atcaacagac tgtccgacta cgatgtggac catatcgtgc ctcagagctt 2820

tctgaaggac gactccatcg ataacaaagt gctgactcgg agcgacaaga acagaggcaa 2880

gagcgacaac gtgccctccg aagaggtcgt gaagaagatg aagaactact ggcgacagct 2940

gctgaacgcc aagctgatta cccagaggaa gttcgataac ctgaccaagg ccgagagagg 3000

cggcctgagc gagctggata aggccggctt catcaagagg cagctggtgg aaaccagaca 3060

gatcacaaag cacgtggcac agatcctgga ctcccggatg aacactaagt acgacgaaaa 3120

cgataagctg atccgggaag tgaaagtgat caccctgaag tccaagctgg tgtccgattt 3180

ccggaaggat ttccagtttt acaaagtgcg cgagatcaac aactaccacc acgcccacga 3240

cgcctacctg aacgccgtcg tgggaaccgc cctgatcaaa aagtacccta agctggaaag 3300

cgagttcgtg tacggcgact acaaggtgta cgacgtgcgg aagatgatcg ccaagagcga 3360

gcaggaaatc ggcaaggcta ccgccaagta cttcttctac agcaacatca tgaacttttt 3420

caagaccgaa atcaccctgg ccaacggcga gatcagaaag cgccctctga tcgagacaaa 3480

cggcgaaacc ggggagatcg tgtgggataa gggcagagac ttcgccacag tgcgaaaggt 3540

gctgagcatg ccccaagtga atatcgtgaa aaagaccgag gtgcagacag gcggcttcag 3600

caaagagtct atcctgccca agaggaacag cgacaagctg atcgccagaa agaaggactg 3660

ggaccccaag aagtacggcg gcttcgacag ccctaccgtg gcctactctg tgctggtggt 3720

ggctaaggtg gaaaagggca agtccaagaa actgaagagt gtgaaagagc tgctggggat 3780

caccatcatg gaaagaagca gctttgagaa gaaccctatc gactttctgg aagccaaggg 3840

ctacaaagaa gtgaaaaagg acctgatcat caagctgcct aagtactccc tgttcgagct 3900

ggaaaacggc agaaagagaa tgctggcctc tgccggcgaa ctgcagaagg gaaacgagct 3960

ggccctgcct agcaaatatg tgaacttcct gtacctggcc tcccactatg agaagctgaa 4020

gggcagccct gaggacaacg aacagaaaca gctgtttgtg gaacagcata agcactacct 4080

ggacgagatc atcgagcaga tcagcgagtt ctccaagaga gtgatcctgg ccgacgccaa 4140

tctggacaag gtgctgtctg cctacaacaa gcacagggac aagcctatca gagagcaggc 4200

cgagaatatc atccacctgt tcaccctgac aaacctgggc gctcctgccg ccttcaagta 4260

ctttgacacc accatcgacc ggaagaggta caccagcacc aaagaggtgc tggacgccac 4320

cctgatccac cagagcatca ccggcctgta cgagacaaga atcgacctgt ctcagctggg 4380

aggcgacaag agacctgccg ccactaagaa ggccggacag gccaaaaaga agaagtgagc 4440

ggccgcatgc tttatttgtg aaatttgtga tgctattgct ttatttgtaa ccattataag 4500

ctgcaataaa caagttaaca acaacaattg cattcatttt atgtttcagg ttcaggggga 4560

ggtgtgggag gttttttaaa agatctggcc gcaggaaccc ctagtgatgg agttggccac 4620

tccctctctg cgcgctcgct cgctcactga ggccgggcga ccaaaggtcg cccgacgccc 4680

gggctttgcc cgggcggcct cagtgagcga gcgagcgcgc agctgcctgc agg 4733

<210> 40

<211> 247

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 40

tcgagtggct ccggtgcccg tcagtgggca gagcgcacat cgcccacagt ccccgagaag 60

ttggggggag gggtcggcaa ttgaaccggt gcctagagaa ggtggcgcgg ggtaaactgg 120

gaaagtgatg tcgtgtactg gctccgcctt tttcccgagg gtgggggaga accgtatata 180

agtgcagtag tcgccgtgaa cgttcttttt cgcaacgggt ttgccgccag aacacaggtg 240

ctagcgc 247

<210> 41

<211> 209

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 41

gcgatctgca tctcaattag tcagcaacca tagtcccgcc cctaactccg cccatcccgc 60

ccctaactcc gcccagttcc gcccattctc cgccccatcg ctgactaatt ttttttattt 120

atgcagaggc cgaggccgcc tcggcctctg agctattcca gaagtagtga ggaggctttt 180

ttggaggcct aggcttttgc aaaaagctt 209

<210> 42

<211> 179

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 42

cgcccaccag gtcttgccca aggtcttaca taagaggact cttggactct cagcgatgtc 60

aacgaccgac cttgaggcat acttcaaaga ctgtttgttt aaggactggg aggagttggg 120

ggaggagatt aggttaaagg tctttgtagg gcataaattg gtctgcgcac cagcaccaa 179

<210> 43

<211> 103

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 43

gggggaggct gctggtgaat attaaccaag gtcaccccag ttatcggagg agcaaacagg 60

ggctaagtcc acgggcataa attggtctgc gcaccagcac caa 103

<210> 44

<211> 150

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 44

cgcccaccag gtcttgccca aggtcttaca taagaggact cttggactct cagcgatgtc 60

aacgaccgac cttgaggcat acttcaaaga ctgtttgttt aaggactggg aggagttggg 120

ggaggagatt aggttaaagg tctttgtagg 150

<210> 45

<211> 74

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 45

gggggaggct gctggtgaat attaaccaag gtcaccccag ttatcggagg agcaaacagg 60

ggctaagtcc acgg 74

<210> 46

<211> 29

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 46

gcataaattg gtctgcgcac cagcaccaa 29

<210> 47

<211> 5016

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (220)..(239)

<223> n为a、c、g或t

<400> 47

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tacgcgtggt tccatggtgt aatggttagc actctggact 180

ctgaatccag cgatccgagt tcaaatctcg gtggaacctn nnnnnnnnnn nnnnnnnnng 240

ttttagagct agaaatagca agttaaaata aggctagtcc gttatcaact tgaaaaagtg 300

gcaccgagtc ggtgcttttt ttctcgagtc gagtggctcc ggtgcccgtc agtgggcaga 360

gcgcacatcg cccacagtcc ccgagaagtt ggggggaggg gtcggcaatt gaaccggtgc 420

ctagagaagg tggcgcgggg taaactggga aagtgatgtc gtgtactggc tccgcctttt 480

tcccgagggt gggggagaac cgtatataag tgcagtagtc gccgtgaacg ttctttttcg 540

caacgggttt gccgccagaa cacaggtgct agcgcactag tgccaccatg gacaagaagt 600

acagcatcgg cctggacatc ggcaccaact ctgtgggctg ggccgtgatc accgacgagt 660

acaaggtgcc cagcaagaaa ttcaaggtgc tgggcaacac cgacaggcac agcatcaaga 720

agaacctgat cggcgccctg ctgttcgaca gcggcgaaac agccgaggcc accagactga 780

agagaaccgc cagaagaaga tacaccaggc ggaagaacag gatctgctat ctgcaagaga 840

tcttcagcaa cgagatggcc aaggtggacg acagcttctt ccacagactg gaagagtcct 900

tcctggtgga agaggacaag aagcacgaga gacaccccat cttcggcaac atcgtggacg 960

aggtggccta ccacgagaag taccccacca tctaccacct gagaaagaaa ctggtggaca 1020

gcaccgacaa ggccgacctg agactgatct acctggccct ggcccacatg atcaagttca 1080

gaggccactt cctgatcgag ggcgacctga accccgacaa cagcgacgtg gacaagctgt 1140

tcatccagct ggtgcagacc tacaaccagc tgttcgagga aaaccccatc aacgccagcg 1200

gcgtggacgc caaggctatc ctgtctgcca gactgagcaa gagcagaagg ctggaaaatc 1260

tgatcgccca gctgcccggc gagaagaaga acggcctgtt cggcaacctg attgccctga 1320

gcctgggcct gacccccaac ttcaagagca acttcgacct ggccgaggat gccaaactgc 1380

agctgagcaa ggacacctac gacgacgacc tggacaacct gctggcccag atcggcgacc 1440

agtacgccga cctgttcctg gccgccaaga acctgtctga cgccatcctg ctgagcgaca 1500

tcctgagagt gaacaccgag atcaccaagg cccccctgag cgcctctatg atcaagagat 1560

acgacgagca ccaccaggac ctgaccctgc tgaaagctct cgtgcggcag cagctgcctg 1620

agaagtacaa agaaatcttc ttcgaccaga gcaagaacgg ctacgccggc tacatcgatg 1680

gcggcgctag ccaggaagag ttctacaagt tcatcaagcc catcctggaa aagatggacg 1740

gcaccgagga actgctcgtg aagctgaaca gagaggacct gctgagaaag cagagaacct 1800

tcgacaacgg cagcatcccc caccagatcc acctgggaga gctgcacgct atcctgagaa 1860

ggcaggaaga tttttaccca ttcctgaagg acaaccggga aaagatcgag aagatcctga 1920

ccttcaggat cccctactac gtgggccccc tggccagagg caacagcaga ttcgcctgga 1980

tgaccagaaa gagcgaggaa accatcaccc cctggaactt cgaggaagtg gtggacaagg 2040

gcgccagcgc ccagagcttc atcgagagaa tgacaaactt cgataagaac ctgcccaacg 2100

agaaggtgct gcccaagcac agcctgctgt acgagtactt caccgtgtac aacgagctga 2160

ccaaagtgaa atacgtgacc gagggaatga gaaagcccgc cttcctgagc ggcgagcaga 2220

aaaaggccat cgtggacctg ctgttcaaga ccaacagaaa agtgaccgtg aagcagctga 2280

aagaggacta cttcaagaaa atcgagtgct tcgactccgt ggaaatctcc ggcgtggaag 2340

atagattcaa cgcctccctg ggcacatacc acgatctgct gaaaattatc aaggacaagg 2400

acttcctgga taacgaagag aacgaggaca ttctggaaga tatcgtgctg accctgacac 2460

tgtttgagga ccgcgagatg atcgaggaaa ggctgaaaac ctacgctcac ctgttcgacg 2520

acaaagtgat gaagcagctg aagagaaggc ggtacaccgg ctggggcagg ctgagcagaa 2580

agctgatcaa cggcatcaga gacaagcaga gcggcaagac aatcctggat ttcctgaagt 2640

ccgacggctt cgccaaccgg aacttcatgc agctgatcca cgacgacagc ctgacattca 2700

aagaggacat ccagaaagcc caggtgtccg gccagggcga ctctctgcac gagcatatcg 2760

ctaacctggc cggcagcccc gctatcaaga agggcatcct gcagacagtg aaggtggtgg 2820

acgagctcgt gaaagtgatg ggcagacaca agcccgagaa catcgtgatc gagatggcta 2880

gagagaacca gaccacccag aagggacaga agaactcccg cgagaggatg aagagaatcg 2940

aagagggcat caaagagctg ggcagccaga tcctgaaaga acaccccgtg gaaaacaccc 3000

agctgcagaa cgagaagctg tacctgtact acctgcagaa tggccgggat atgtacgtgg 3060

accaggaact ggacatcaac agactgtccg actacgatgt ggaccatatc gtgcctcaga 3120

gctttctgaa ggacgactcc atcgataaca aagtgctgac tcggagcgac aagaacagag 3180

gcaagagcga caacgtgccc tccgaagagg tcgtgaagaa gatgaagaac tactggcgac 3240

agctgctgaa cgccaagctg attacccaga ggaagttcga taacctgacc aaggccgaga 3300

gaggcggcct gagcgagctg gataaggccg gcttcatcaa gaggcagctg gtggaaacca 3360

gacagatcac aaagcacgtg gcacagatcc tggactcccg gatgaacact aagtacgacg 3420

aaaacgataa gctgatccgg gaagtgaaag tgatcaccct gaagtccaag ctggtgtccg 3480

atttccggaa ggatttccag ttttacaaag tgcgcgagat caacaactac caccacgccc 3540

acgacgccta cctgaacgcc gtcgtgggaa ccgccctgat caaaaagtac cctaagctgg 3600

aaagcgagtt cgtgtacggc gactacaagg tgtacgacgt gcggaagatg atcgccaaga 3660

gcgagcagga aatcggcaag gctaccgcca agtacttctt ctacagcaac atcatgaact 3720

ttttcaagac cgaaatcacc ctggccaacg gcgagatcag aaagcgccct ctgatcgaga 3780

caaacggcga aaccggggag atcgtgtggg ataagggcag agacttcgcc acagtgcgaa 3840

aggtgctgag catgccccaa gtgaatatcg tgaaaaagac cgaggtgcag acaggcggct 3900

tcagcaaaga gtctatcctg cccaagagga acagcgacaa gctgatcgcc agaaagaagg 3960

actgggaccc caagaagtac ggcggcttcg acagccctac cgtggcctac tctgtgctgg 4020

tggtggctaa ggtggaaaag ggcaagtcca agaaactgaa gagtgtgaaa gagctgctgg 4080

ggatcaccat catggaaaga agcagctttg agaagaaccc tatcgacttt ctggaagcca 4140

agggctacaa agaagtgaaa aaggacctga tcatcaagct gcctaagtac tccctgttcg 4200

agctggaaaa cggcagaaag agaatgctgg cctctgccgg cgaactgcag aagggaaacg 4260

agctggccct gcctagcaaa tatgtgaact tcctgtacct ggcctcccac tatgagaagc 4320

tgaagggcag ccctgaggac aacgaacaga aacagctgtt tgtggaacag cataagcact 4380

acctggacga gatcatcgag cagatcagcg agttctccaa gagagtgatc ctggccgacg 4440

ccaatctgga caaggtgctg tctgcctaca acaagcacag ggacaagcct atcagagagc 4500

aggccgagaa tatcatccac ctgttcaccc tgacaaacct gggcgctcct gccgccttca 4560

agtactttga caccaccatc gaccggaaga ggtacaccag caccaaagag gtgctggacg 4620

ccaccctgat ccaccagagc atcaccggcc tgtacgagac aagaatcgac ctgtctcagc 4680

tgggaggcga cggaggcggc tcacccaaaa agaaaaggaa agtctaatct agaatgcttt 4740

atttgtgaaa tttgtgatgc tattgcttta tttgtaacca ttataagctg caataaacaa 4800

gttaacaaca acaattgcat tcattttatg tttcaggttc agggggaggt gtgggaggtt 4860

ttttaaagcg gccgcaggaa cccctagtga tggagttggc cactccctct ctgcgcgctc 4920

gctcgctcac tgaggccggg cgaccaaagg tcgcccgacg cccgggcttt gcccgggcgg 4980

cctcagtgag cgagcgagcg cgcagctgcc tgcagg 5016

<210> 48

<211> 4978

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (220)..(239)

<223> n为a、c、g或t

<400> 48

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tacgcgtggt tccatggtgt aatggttagc actctggact 180

ctgaatccag cgatccgagt tcaaatctcg gtggaacctn nnnnnnnnnn nnnnnnnnng 240

ttttagagct agaaatagca agttaaaata aggctagtcc gttatcaact tgaaaaagtg 300

gcaccgagtc ggtgcttttt ttctcgaggc gatctgcatc tcaattagtc agcaaccata 360

gtcccgcccc taactccgcc catcccgccc ctaactccgc ccagttccgc ccattctccg 420

ccccatcgct gactaatttt ttttatttat gcagaggccg aggccgcctc ggcctctgag 480

ctattccaga agtagtgagg aggctttttt ggaggcctag gcttttgcaa aaagcttact 540

agtgccacca tggacaagaa gtacagcatc ggcctggaca tcggcaccaa ctctgtgggc 600

tgggccgtga tcaccgacga gtacaaggtg cccagcaaga aattcaaggt gctgggcaac 660

accgacaggc acagcatcaa gaagaacctg atcggcgccc tgctgttcga cagcggcgaa 720

acagccgagg ccaccagact gaagagaacc gccagaagaa gatacaccag gcggaagaac 780

aggatctgct atctgcaaga gatcttcagc aacgagatgg ccaaggtgga cgacagcttc 840

ttccacagac tggaagagtc cttcctggtg gaagaggaca agaagcacga gagacacccc 900

atcttcggca acatcgtgga cgaggtggcc taccacgaga agtaccccac catctaccac 960

ctgagaaaga aactggtgga cagcaccgac aaggccgacc tgagactgat ctacctggcc 1020

ctggcccaca tgatcaagtt cagaggccac ttcctgatcg agggcgacct gaaccccgac 1080

aacagcgacg tggacaagct gttcatccag ctggtgcaga cctacaacca gctgttcgag 1140

gaaaacccca tcaacgccag cggcgtggac gccaaggcta tcctgtctgc cagactgagc 1200

aagagcagaa ggctggaaaa tctgatcgcc cagctgcccg gcgagaagaa gaacggcctg 1260

ttcggcaacc tgattgccct gagcctgggc ctgaccccca acttcaagag caacttcgac 1320

ctggccgagg atgccaaact gcagctgagc aaggacacct acgacgacga cctggacaac 1380

ctgctggccc agatcggcga ccagtacgcc gacctgttcc tggccgccaa gaacctgtct 1440

gacgccatcc tgctgagcga catcctgaga gtgaacaccg agatcaccaa ggcccccctg 1500

agcgcctcta tgatcaagag atacgacgag caccaccagg acctgaccct gctgaaagct 1560

ctcgtgcggc agcagctgcc tgagaagtac aaagaaatct tcttcgacca gagcaagaac 1620

ggctacgccg gctacatcga tggcggcgct agccaggaag agttctacaa gttcatcaag 1680

cccatcctgg aaaagatgga cggcaccgag gaactgctcg tgaagctgaa cagagaggac 1740

ctgctgagaa agcagagaac cttcgacaac ggcagcatcc cccaccagat ccacctggga 1800

gagctgcacg ctatcctgag aaggcaggaa gatttttacc cattcctgaa ggacaaccgg 1860

gaaaagatcg agaagatcct gaccttcagg atcccctact acgtgggccc cctggccaga 1920

ggcaacagca gattcgcctg gatgaccaga aagagcgagg aaaccatcac cccctggaac 1980

ttcgaggaag tggtggacaa gggcgccagc gcccagagct tcatcgagag aatgacaaac 2040

ttcgataaga acctgcccaa cgagaaggtg ctgcccaagc acagcctgct gtacgagtac 2100

ttcaccgtgt acaacgagct gaccaaagtg aaatacgtga ccgagggaat gagaaagccc 2160

gccttcctga gcggcgagca gaaaaaggcc atcgtggacc tgctgttcaa gaccaacaga 2220

aaagtgaccg tgaagcagct gaaagaggac tacttcaaga aaatcgagtg cttcgactcc 2280

gtggaaatct ccggcgtgga agatagattc aacgcctccc tgggcacata ccacgatctg 2340

ctgaaaatta tcaaggacaa ggacttcctg gataacgaag agaacgagga cattctggaa 2400

gatatcgtgc tgaccctgac actgtttgag gaccgcgaga tgatcgagga aaggctgaaa 2460

acctacgctc acctgttcga cgacaaagtg atgaagcagc tgaagagaag gcggtacacc 2520

ggctggggca ggctgagcag aaagctgatc aacggcatca gagacaagca gagcggcaag 2580

acaatcctgg atttcctgaa gtccgacggc ttcgccaacc ggaacttcat gcagctgatc 2640

cacgacgaca gcctgacatt caaagaggac atccagaaag cccaggtgtc cggccagggc 2700

gactctctgc acgagcatat cgctaacctg gccggcagcc ccgctatcaa gaagggcatc 2760

ctgcagacag tgaaggtggt ggacgagctc gtgaaagtga tgggcagaca caagcccgag 2820

aacatcgtga tcgagatggc tagagagaac cagaccaccc agaagggaca gaagaactcc 2880

cgcgagagga tgaagagaat cgaagagggc atcaaagagc tgggcagcca gatcctgaaa 2940

gaacaccccg tggaaaacac ccagctgcag aacgagaagc tgtacctgta ctacctgcag 3000

aatggccggg atatgtacgt ggaccaggaa ctggacatca acagactgtc cgactacgat 3060

gtggaccata tcgtgcctca gagctttctg aaggacgact ccatcgataa caaagtgctg 3120

actcggagcg acaagaacag aggcaagagc gacaacgtgc cctccgaaga ggtcgtgaag 3180

aagatgaaga actactggcg acagctgctg aacgccaagc tgattaccca gaggaagttc 3240

gataacctga ccaaggccga gagaggcggc ctgagcgagc tggataaggc cggcttcatc 3300

aagaggcagc tggtggaaac cagacagatc acaaagcacg tggcacagat cctggactcc 3360

cggatgaaca ctaagtacga cgaaaacgat aagctgatcc gggaagtgaa agtgatcacc 3420

ctgaagtcca agctggtgtc cgatttccgg aaggatttcc agttttacaa agtgcgcgag 3480

atcaacaact accaccacgc ccacgacgcc tacctgaacg ccgtcgtggg aaccgccctg 3540

atcaaaaagt accctaagct ggaaagcgag ttcgtgtacg gcgactacaa ggtgtacgac 3600

gtgcggaaga tgatcgccaa gagcgagcag gaaatcggca aggctaccgc caagtacttc 3660

ttctacagca acatcatgaa ctttttcaag accgaaatca ccctggccaa cggcgagatc 3720

agaaagcgcc ctctgatcga gacaaacggc gaaaccgggg agatcgtgtg ggataagggc 3780

agagacttcg ccacagtgcg aaaggtgctg agcatgcccc aagtgaatat cgtgaaaaag 3840

accgaggtgc agacaggcgg cttcagcaaa gagtctatcc tgcccaagag gaacagcgac 3900

aagctgatcg ccagaaagaa ggactgggac cccaagaagt acggcggctt cgacagccct 3960

accgtggcct actctgtgct ggtggtggct aaggtggaaa agggcaagtc caagaaactg 4020

aagagtgtga aagagctgct ggggatcacc atcatggaaa gaagcagctt tgagaagaac 4080

cctatcgact ttctggaagc caagggctac aaagaagtga aaaaggacct gatcatcaag 4140

ctgcctaagt actccctgtt cgagctggaa aacggcagaa agagaatgct ggcctctgcc 4200

ggcgaactgc agaagggaaa cgagctggcc ctgcctagca aatatgtgaa cttcctgtac 4260

ctggcctccc actatgagaa gctgaagggc agccctgagg acaacgaaca gaaacagctg 4320

tttgtggaac agcataagca ctacctggac gagatcatcg agcagatcag cgagttctcc 4380

aagagagtga tcctggccga cgccaatctg gacaaggtgc tgtctgccta caacaagcac 4440

agggacaagc ctatcagaga gcaggccgag aatatcatcc acctgttcac cctgacaaac 4500

ctgggcgctc ctgccgcctt caagtacttt gacaccacca tcgaccggaa gaggtacacc 4560

agcaccaaag aggtgctgga cgccaccctg atccaccaga gcatcaccgg cctgtacgag 4620

acaagaatcg acctgtctca gctgggaggc gacggaggcg gctcacccaa aaagaaaagg 4680

aaagtctaat ctagaatgct ttatttgtga aatttgtgat gctattgctt tatttgtaac 4740

cattataagc tgcaataaac aagttaacaa caacaattgc attcatttta tgtttcaggt 4800

tcagggggag gtgtgggagg ttttttaaag cggccgcagg aacccctagt gatggagttg 4860

gccactccct ctctgcgcgc tcgctcgctc actgaggccg ggcgaccaaa ggtcgcccga 4920

cgcccgggct ttgcccgggc ggcctcagtg agcgagcgag cgcgcagctg cctgcagg 4978

<210> 49

<211> 4948

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (220)..(239)

<223> n为a、c、g或t

<400> 49

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tacgcgtggt tccatggtgt aatggttagc actctggact 180

ctgaatccag cgatccgagt tcaaatctcg gtggaacctn nnnnnnnnnn nnnnnnnnng 240

ttttagagct agaaatagca agttaaaata aggctagtcc gttatcaact tgaaaaagtg 300

gcaccgagtc ggtgcttttt ttctcgagcg cccaccaggt cttgcccaag gtcttacata 360

agaggactct tggactctca gcgatgtcaa cgaccgacct tgaggcatac ttcaaagact 420

gtttgtttaa ggactgggag gagttggggg aggagattag gttaaaggtc tttgtagggc 480

ataaattggt ctgcgcacca gcaccaaact agtgccacca tggacaagaa gtacagcatc 540

ggcctggaca tcggcaccaa ctctgtgggc tgggccgtga tcaccgacga gtacaaggtg 600

cccagcaaga aattcaaggt gctgggcaac accgacaggc acagcatcaa gaagaacctg 660

atcggcgccc tgctgttcga cagcggcgaa acagccgagg ccaccagact gaagagaacc 720

gccagaagaa gatacaccag gcggaagaac aggatctgct atctgcaaga gatcttcagc 780

aacgagatgg ccaaggtgga cgacagcttc ttccacagac tggaagagtc cttcctggtg 840

gaagaggaca agaagcacga gagacacccc atcttcggca acatcgtgga cgaggtggcc 900

taccacgaga agtaccccac catctaccac ctgagaaaga aactggtgga cagcaccgac 960

aaggccgacc tgagactgat ctacctggcc ctggcccaca tgatcaagtt cagaggccac 1020

ttcctgatcg agggcgacct gaaccccgac aacagcgacg tggacaagct gttcatccag 1080

ctggtgcaga cctacaacca gctgttcgag gaaaacccca tcaacgccag cggcgtggac 1140

gccaaggcta tcctgtctgc cagactgagc aagagcagaa ggctggaaaa tctgatcgcc 1200

cagctgcccg gcgagaagaa gaacggcctg ttcggcaacc tgattgccct gagcctgggc 1260

ctgaccccca acttcaagag caacttcgac ctggccgagg atgccaaact gcagctgagc 1320

aaggacacct acgacgacga cctggacaac ctgctggccc agatcggcga ccagtacgcc 1380

gacctgttcc tggccgccaa gaacctgtct gacgccatcc tgctgagcga catcctgaga 1440

gtgaacaccg agatcaccaa ggcccccctg agcgcctcta tgatcaagag atacgacgag 1500

caccaccagg acctgaccct gctgaaagct ctcgtgcggc agcagctgcc tgagaagtac 1560

aaagaaatct tcttcgacca gagcaagaac ggctacgccg gctacatcga tggcggcgct 1620

agccaggaag agttctacaa gttcatcaag cccatcctgg aaaagatgga cggcaccgag 1680

gaactgctcg tgaagctgaa cagagaggac ctgctgagaa agcagagaac cttcgacaac 1740

ggcagcatcc cccaccagat ccacctggga gagctgcacg ctatcctgag aaggcaggaa 1800

gatttttacc cattcctgaa ggacaaccgg gaaaagatcg agaagatcct gaccttcagg 1860

atcccctact acgtgggccc cctggccaga ggcaacagca gattcgcctg gatgaccaga 1920

aagagcgagg aaaccatcac cccctggaac ttcgaggaag tggtggacaa gggcgccagc 1980

gcccagagct tcatcgagag aatgacaaac ttcgataaga acctgcccaa cgagaaggtg 2040

ctgcccaagc acagcctgct gtacgagtac ttcaccgtgt acaacgagct gaccaaagtg 2100

aaatacgtga ccgagggaat gagaaagccc gccttcctga gcggcgagca gaaaaaggcc 2160

atcgtggacc tgctgttcaa gaccaacaga aaagtgaccg tgaagcagct gaaagaggac 2220

tacttcaaga aaatcgagtg cttcgactcc gtggaaatct ccggcgtgga agatagattc 2280

aacgcctccc tgggcacata ccacgatctg ctgaaaatta tcaaggacaa ggacttcctg 2340

gataacgaag agaacgagga cattctggaa gatatcgtgc tgaccctgac actgtttgag 2400

gaccgcgaga tgatcgagga aaggctgaaa acctacgctc acctgttcga cgacaaagtg 2460

atgaagcagc tgaagagaag gcggtacacc ggctggggca ggctgagcag aaagctgatc 2520

aacggcatca gagacaagca gagcggcaag acaatcctgg atttcctgaa gtccgacggc 2580

ttcgccaacc ggaacttcat gcagctgatc cacgacgaca gcctgacatt caaagaggac 2640

atccagaaag cccaggtgtc cggccagggc gactctctgc acgagcatat cgctaacctg 2700

gccggcagcc ccgctatcaa gaagggcatc ctgcagacag tgaaggtggt ggacgagctc 2760

gtgaaagtga tgggcagaca caagcccgag aacatcgtga tcgagatggc tagagagaac 2820

cagaccaccc agaagggaca gaagaactcc cgcgagagga tgaagagaat cgaagagggc 2880

atcaaagagc tgggcagcca gatcctgaaa gaacaccccg tggaaaacac ccagctgcag 2940

aacgagaagc tgtacctgta ctacctgcag aatggccggg atatgtacgt ggaccaggaa 3000

ctggacatca acagactgtc cgactacgat gtggaccata tcgtgcctca gagctttctg 3060

aaggacgact ccatcgataa caaagtgctg actcggagcg acaagaacag aggcaagagc 3120

gacaacgtgc cctccgaaga ggtcgtgaag aagatgaaga actactggcg acagctgctg 3180

aacgccaagc tgattaccca gaggaagttc gataacctga ccaaggccga gagaggcggc 3240

ctgagcgagc tggataaggc cggcttcatc aagaggcagc tggtggaaac cagacagatc 3300

acaaagcacg tggcacagat cctggactcc cggatgaaca ctaagtacga cgaaaacgat 3360

aagctgatcc gggaagtgaa agtgatcacc ctgaagtcca agctggtgtc cgatttccgg 3420

aaggatttcc agttttacaa agtgcgcgag atcaacaact accaccacgc ccacgacgcc 3480

tacctgaacg ccgtcgtggg aaccgccctg atcaaaaagt accctaagct ggaaagcgag 3540

ttcgtgtacg gcgactacaa ggtgtacgac gtgcggaaga tgatcgccaa gagcgagcag 3600

gaaatcggca aggctaccgc caagtacttc ttctacagca acatcatgaa ctttttcaag 3660

accgaaatca ccctggccaa cggcgagatc agaaagcgcc ctctgatcga gacaaacggc 3720

gaaaccgggg agatcgtgtg ggataagggc agagacttcg ccacagtgcg aaaggtgctg 3780

agcatgcccc aagtgaatat cgtgaaaaag accgaggtgc agacaggcgg cttcagcaaa 3840

gagtctatcc tgcccaagag gaacagcgac aagctgatcg ccagaaagaa ggactgggac 3900

cccaagaagt acggcggctt cgacagccct accgtggcct actctgtgct ggtggtggct 3960

aaggtggaaa agggcaagtc caagaaactg aagagtgtga aagagctgct ggggatcacc 4020

atcatggaaa gaagcagctt tgagaagaac cctatcgact ttctggaagc caagggctac 4080

aaagaagtga aaaaggacct gatcatcaag ctgcctaagt actccctgtt cgagctggaa 4140

aacggcagaa agagaatgct ggcctctgcc ggcgaactgc agaagggaaa cgagctggcc 4200

ctgcctagca aatatgtgaa cttcctgtac ctggcctccc actatgagaa gctgaagggc 4260

agccctgagg acaacgaaca gaaacagctg tttgtggaac agcataagca ctacctggac 4320

gagatcatcg agcagatcag cgagttctcc aagagagtga tcctggccga cgccaatctg 4380

gacaaggtgc tgtctgccta caacaagcac agggacaagc ctatcagaga gcaggccgag 4440

aatatcatcc acctgttcac cctgacaaac ctgggcgctc ctgccgcctt caagtacttt 4500

gacaccacca tcgaccggaa gaggtacacc agcaccaaag aggtgctgga cgccaccctg 4560

atccaccaga gcatcaccgg cctgtacgag acaagaatcg acctgtctca gctgggaggc 4620

gacggaggcg gctcacccaa aaagaaaagg aaagtctaat ctagaatgct ttatttgtga 4680

aatttgtgat gctattgctt tatttgtaac cattataagc tgcaataaac aagttaacaa 4740

caacaattgc attcatttta tgtttcaggt tcagggggag gtgtgggagg ttttttaaag 4800

cggccgcagg aacccctagt gatggagttg gccactccct ctctgcgcgc tcgctcgctc 4860

actgaggccg ggcgaccaaa ggtcgcccga cgcccgggct ttgcccgggc ggcctcagtg 4920

agcgagcgag cgcgcagctg cctgcagg 4948

<210> 50

<211> 4872

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (220)..(239)

<223> n为a、c、g或t

<400> 50

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tacgcgtggt tccatggtgt aatggttagc actctggact 180

ctgaatccag cgatccgagt tcaaatctcg gtggaacctn nnnnnnnnnn nnnnnnnnng 240

ttttagagct agaaatagca agttaaaata aggctagtcc gttatcaact tgaaaaagtg 300

gcaccgagtc ggtgcttttt ttctcgaggg gggaggctgc tggtgaatat taaccaaggt 360

caccccagtt atcggaggag caaacagggg ctaagtccac gggcataaat tggtctgcgc 420

accagcacca aactagtgcc accatggaca agaagtacag catcggcctg gacatcggca 480

ccaactctgt gggctgggcc gtgatcaccg acgagtacaa ggtgcccagc aagaaattca 540

aggtgctggg caacaccgac aggcacagca tcaagaagaa cctgatcggc gccctgctgt 600

tcgacagcgg cgaaacagcc gaggccacca gactgaagag aaccgccaga agaagataca 660

ccaggcggaa gaacaggatc tgctatctgc aagagatctt cagcaacgag atggccaagg 720

tggacgacag cttcttccac agactggaag agtccttcct ggtggaagag gacaagaagc 780

acgagagaca ccccatcttc ggcaacatcg tggacgaggt ggcctaccac gagaagtacc 840

ccaccatcta ccacctgaga aagaaactgg tggacagcac cgacaaggcc gacctgagac 900

tgatctacct ggccctggcc cacatgatca agttcagagg ccacttcctg atcgagggcg 960

acctgaaccc cgacaacagc gacgtggaca agctgttcat ccagctggtg cagacctaca 1020

accagctgtt cgaggaaaac cccatcaacg ccagcggcgt ggacgccaag gctatcctgt 1080

ctgccagact gagcaagagc agaaggctgg aaaatctgat cgcccagctg cccggcgaga 1140

agaagaacgg cctgttcggc aacctgattg ccctgagcct gggcctgacc cccaacttca 1200

agagcaactt cgacctggcc gaggatgcca aactgcagct gagcaaggac acctacgacg 1260

acgacctgga caacctgctg gcccagatcg gcgaccagta cgccgacctg ttcctggccg 1320

ccaagaacct gtctgacgcc atcctgctga gcgacatcct gagagtgaac accgagatca 1380

ccaaggcccc cctgagcgcc tctatgatca agagatacga cgagcaccac caggacctga 1440

ccctgctgaa agctctcgtg cggcagcagc tgcctgagaa gtacaaagaa atcttcttcg 1500

accagagcaa gaacggctac gccggctaca tcgatggcgg cgctagccag gaagagttct 1560

acaagttcat caagcccatc ctggaaaaga tggacggcac cgaggaactg ctcgtgaagc 1620

tgaacagaga ggacctgctg agaaagcaga gaaccttcga caacggcagc atcccccacc 1680

agatccacct gggagagctg cacgctatcc tgagaaggca ggaagatttt tacccattcc 1740

tgaaggacaa ccgggaaaag atcgagaaga tcctgacctt caggatcccc tactacgtgg 1800

gccccctggc cagaggcaac agcagattcg cctggatgac cagaaagagc gaggaaacca 1860

tcaccccctg gaacttcgag gaagtggtgg acaagggcgc cagcgcccag agcttcatcg 1920

agagaatgac aaacttcgat aagaacctgc ccaacgagaa ggtgctgccc aagcacagcc 1980

tgctgtacga gtacttcacc gtgtacaacg agctgaccaa agtgaaatac gtgaccgagg 2040

gaatgagaaa gcccgccttc ctgagcggcg agcagaaaaa ggccatcgtg gacctgctgt 2100

tcaagaccaa cagaaaagtg accgtgaagc agctgaaaga ggactacttc aagaaaatcg 2160

agtgcttcga ctccgtggaa atctccggcg tggaagatag attcaacgcc tccctgggca 2220

cataccacga tctgctgaaa attatcaagg acaaggactt cctggataac gaagagaacg 2280

aggacattct ggaagatatc gtgctgaccc tgacactgtt tgaggaccgc gagatgatcg 2340

aggaaaggct gaaaacctac gctcacctgt tcgacgacaa agtgatgaag cagctgaaga 2400

gaaggcggta caccggctgg ggcaggctga gcagaaagct gatcaacggc atcagagaca 2460

agcagagcgg caagacaatc ctggatttcc tgaagtccga cggcttcgcc aaccggaact 2520

tcatgcagct gatccacgac gacagcctga cattcaaaga ggacatccag aaagcccagg 2580

tgtccggcca gggcgactct ctgcacgagc atatcgctaa cctggccggc agccccgcta 2640

tcaagaaggg catcctgcag acagtgaagg tggtggacga gctcgtgaaa gtgatgggca 2700

gacacaagcc cgagaacatc gtgatcgaga tggctagaga gaaccagacc acccagaagg 2760

gacagaagaa ctcccgcgag aggatgaaga gaatcgaaga gggcatcaaa gagctgggca 2820

gccagatcct gaaagaacac cccgtggaaa acacccagct gcagaacgag aagctgtacc 2880

tgtactacct gcagaatggc cgggatatgt acgtggacca ggaactggac atcaacagac 2940

tgtccgacta cgatgtggac catatcgtgc ctcagagctt tctgaaggac gactccatcg 3000

ataacaaagt gctgactcgg agcgacaaga acagaggcaa gagcgacaac gtgccctccg 3060

aagaggtcgt gaagaagatg aagaactact ggcgacagct gctgaacgcc aagctgatta 3120

cccagaggaa gttcgataac ctgaccaagg ccgagagagg cggcctgagc gagctggata 3180

aggccggctt catcaagagg cagctggtgg aaaccagaca gatcacaaag cacgtggcac 3240

agatcctgga ctcccggatg aacactaagt acgacgaaaa cgataagctg atccgggaag 3300

tgaaagtgat caccctgaag tccaagctgg tgtccgattt ccggaaggat ttccagtttt 3360

acaaagtgcg cgagatcaac aactaccacc acgcccacga cgcctacctg aacgccgtcg 3420

tgggaaccgc cctgatcaaa aagtacccta agctggaaag cgagttcgtg tacggcgact 3480

acaaggtgta cgacgtgcgg aagatgatcg ccaagagcga gcaggaaatc ggcaaggcta 3540

ccgccaagta cttcttctac agcaacatca tgaacttttt caagaccgaa atcaccctgg 3600

ccaacggcga gatcagaaag cgccctctga tcgagacaaa cggcgaaacc ggggagatcg 3660

tgtgggataa gggcagagac ttcgccacag tgcgaaaggt gctgagcatg ccccaagtga 3720

atatcgtgaa aaagaccgag gtgcagacag gcggcttcag caaagagtct atcctgccca 3780

agaggaacag cgacaagctg atcgccagaa agaaggactg ggaccccaag aagtacggcg 3840

gcttcgacag ccctaccgtg gcctactctg tgctggtggt ggctaaggtg gaaaagggca 3900

agtccaagaa actgaagagt gtgaaagagc tgctggggat caccatcatg gaaagaagca 3960

gctttgagaa gaaccctatc gactttctgg aagccaaggg ctacaaagaa gtgaaaaagg 4020

acctgatcat caagctgcct aagtactccc tgttcgagct ggaaaacggc agaaagagaa 4080

tgctggcctc tgccggcgaa ctgcagaagg gaaacgagct ggccctgcct agcaaatatg 4140

tgaacttcct gtacctggcc tcccactatg agaagctgaa gggcagccct gaggacaacg 4200

aacagaaaca gctgtttgtg gaacagcata agcactacct ggacgagatc atcgagcaga 4260

tcagcgagtt ctccaagaga gtgatcctgg ccgacgccaa tctggacaag gtgctgtctg 4320

cctacaacaa gcacagggac aagcctatca gagagcaggc cgagaatatc atccacctgt 4380

tcaccctgac aaacctgggc gctcctgccg ccttcaagta ctttgacacc accatcgacc 4440

ggaagaggta caccagcacc aaagaggtgc tggacgccac cctgatccac cagagcatca 4500

ccggcctgta cgagacaaga atcgacctgt ctcagctggg aggcgacgga ggcggctcac 4560

ccaaaaagaa aaggaaagtc taatctagaa tgctttattt gtgaaatttg tgatgctatt 4620

gctttatttg taaccattat aagctgcaat aaacaagtta acaacaacaa ttgcattcat 4680

tttatgtttc aggttcaggg ggaggtgtgg gaggtttttt aaagcggccg caggaacccc 4740

tagtgatgga gttggccact ccctctctgc gcgctcgctc gctcactgag gccgggcgac 4800

caaaggtcgc ccgacgcccg ggctttgccc gggcggcctc agtgagcgag cgagcgcgca 4860

gctgcctgca gg 4872

<210> 51

<211> 16

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 51

guuuuagagc uaugcu 16

<210> 52

<211> 67

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 52

agcauagcaa guuaaaauaa ggcuaguccg uuaucaacuu gaaaaagugg caccgagucg 60

gugcuuu 67

<210> 53

<211> 77

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 53

guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60

ggcaccgagu cggugcu 77

<210> 54

<211> 82

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 54

guuggaacca uucaaaacag cauagcaagu uaaaauaagg cuaguccguu aucaacuuga 60

aaaaguggca ccgagucggu gc 82

<210> 55

<211> 76

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 55

guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60

ggcaccgagu cggugc 76

<210> 56

<211> 86

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 56

guuuaagagc uaugcuggaa acagcauagc aaguuuaaau aaggcuaguc cguuaucaac 60

uugaaaaagu ggcaccgagu cggugc 86

<210> 57

<211> 83

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 57

guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60

ggcaccgagu cggugcuuuu uuu 83

<210> 58

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (2)..(21)

<223> n为a、c、g或t

<400> 58

gnnnnnnnnn nnnnnnnnnn ngg 23

<210> 59

<211> 23

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (1)..(21)

<223> n为a、c、g或t

<400> 59

nnnnnnnnnn nnnnnnnnnn ngg 23

<210> 60

<211> 25

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (3)..(23)

<223> n为a、c、g或t

<400> 60

ggnnnnnnnn nnnnnnnnnn nnngg 25

<210> 61

<211> 4176

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 61

atggacaagc ccaagaaaaa gcggaaagtg aagtacagca tcggcctgga catcggcacc 60

aactctgtgg gctgggccgt gatcaccgac gagtacaagg tgcccagcaa gaaattcaag 120

gtgctgggca acaccgacag gcacagcatc aagaagaacc tgatcggcgc cctgctgttc 180

gacagcggcg aaacagccga ggccaccaga ctgaagagaa ccgccagaag aagatacacc 240

aggcggaaga acaggatctg ctatctgcaa gagatcttca gcaacgagat ggccaaggtg 300

gacgacagct tcttccacag actggaagag tccttcctgg tggaagagga caagaagcac 360

gagagacacc ccatcttcgg caacatcgtg gacgaggtgg cctaccacga gaagtacccc 420

accatctacc acctgagaaa gaaactggtg gacagcaccg acaaggccga cctgagactg 480

atctacctgg ccctggccca catgatcaag ttcagaggcc acttcctgat cgagggcgac 540

ctgaaccccg acaacagcga cgtggacaag ctgttcatcc agctggtgca gacctacaac 600

cagctgttcg aggaaaaccc catcaacgcc agcggcgtgg acgccaaggc tatcctgtct 660

gccagactga gcaagagcag aaggctggaa aatctgatcg cccagctgcc cggcgagaag 720

aagaacggcc tgttcggcaa cctgattgcc ctgagcctgg gcctgacccc caacttcaag 780

agcaacttcg acctggccga ggatgccaaa ctgcagctga gcaaggacac ctacgacgac 840

gacctggaca acctgctggc ccagatcggc gaccagtacg ccgacctgtt cctggccgcc 900

aagaacctgt ctgacgccat cctgctgagc gacatcctga gagtgaacac cgagatcacc 960

aaggcccccc tgagcgcctc tatgatcaag agatacgacg agcaccacca ggacctgacc 1020

ctgctgaaag ctctcgtgcg gcagcagctg cctgagaagt acaaagaaat cttcttcgac 1080

cagagcaaga acggctacgc cggctacatc gatggcggcg ctagccagga agagttctac 1140

aagttcatca agcccatcct ggaaaagatg gacggcaccg aggaactgct cgtgaagctg 1200

aacagagagg acctgctgag aaagcagaga accttcgaca acggcagcat cccccaccag 1260

atccacctgg gagagctgca cgctatcctg agaaggcagg aagattttta cccattcctg 1320

aaggacaacc gggaaaagat cgagaagatc ctgaccttca ggatccccta ctacgtgggc 1380

cccctggcca gaggcaacag cagattcgcc tggatgacca gaaagagcga ggaaaccatc 1440

accccctgga acttcgagga agtggtggac aagggcgcca gcgcccagag cttcatcgag 1500

agaatgacaa acttcgataa gaacctgccc aacgagaagg tgctgcccaa gcacagcctg 1560

ctgtacgagt acttcaccgt gtacaacgag ctgaccaaag tgaaatacgt gaccgaggga 1620

atgagaaagc ccgccttcct gagcggcgag cagaaaaagg ccatcgtgga cctgctgttc 1680

aagaccaaca gaaaagtgac cgtgaagcag ctgaaagagg actacttcaa gaaaatcgag 1740

tgcttcgact ccgtggaaat ctccggcgtg gaagatagat tcaacgcctc cctgggcaca 1800

taccacgatc tgctgaaaat tatcaaggac aaggacttcc tggataacga agagaacgag 1860

gacattctgg aagatatcgt gctgaccctg acactgtttg aggaccgcga gatgatcgag 1920

gaaaggctga aaacctacgc tcacctgttc gacgacaaag tgatgaagca gctgaagaga 1980

aggcggtaca ccggctgggg caggctgagc agaaagctga tcaacggcat cagagacaag 2040

cagagcggca agacaatcct ggatttcctg aagtccgacg gcttcgccaa ccggaacttc 2100

atgcagctga tccacgacga cagcctgaca ttcaaagagg acatccagaa agcccaggtg 2160

tccggccagg gcgactctct gcacgagcat atcgctaacc tggccggcag ccccgctatc 2220

aagaagggca tcctgcagac agtgaaggtg gtggacgagc tcgtgaaagt gatgggcaga 2280

cacaagcccg agaacatcgt gatcgagatg gctagagaga accagaccac ccagaaggga 2340

cagaagaact cccgcgagag gatgaagaga atcgaagagg gcatcaaaga gctgggcagc 2400

cagatcctga aagaacaccc cgtggaaaac acccagctgc agaacgagaa gctgtacctg 2460

tactacctgc agaatggccg ggatatgtac gtggaccagg aactggacat caacagactg 2520

tccgactacg atgtggacca tatcgtgcct cagagctttc tgaaggacga ctccatcgat 2580

aacaaagtgc tgactcggag cgacaagaac agaggcaaga gcgacaacgt gccctccgaa 2640

gaggtcgtga agaagatgaa gaactactgg cgacagctgc tgaacgccaa gctgattacc 2700

cagaggaagt tcgataacct gaccaaggcc gagagaggcg gcctgagcga gctggataag 2760

gccggcttca tcaagaggca gctggtggaa accagacaga tcacaaagca cgtggcacag 2820

atcctggact cccggatgaa cactaagtac gacgaaaacg ataagctgat ccgggaagtg 2880

aaagtgatca ccctgaagtc caagctggtg tccgatttcc ggaaggattt ccagttttac 2940

aaagtgcgcg agatcaacaa ctaccaccac gcccacgacg cctacctgaa cgccgtcgtg 3000

ggaaccgccc tgatcaaaaa gtaccctaag ctggaaagcg agttcgtgta cggcgactac 3060

aaggtgtacg acgtgcggaa gatgatcgcc aagagcgagc aggaaatcgg caaggctacc 3120

gccaagtact tcttctacag caacatcatg aactttttca agaccgaaat caccctggcc 3180

aacggcgaga tcagaaagcg ccctctgatc gagacaaacg gcgaaaccgg ggagatcgtg 3240

tgggataagg gcagagactt cgccacagtg cgaaaggtgc tgagcatgcc ccaagtgaat 3300

atcgtgaaaa agaccgaggt gcagacaggc ggcttcagca aagagtctat cctgcccaag 3360

aggaacagcg acaagctgat cgccagaaag aaggactggg accccaagaa gtacggcggc 3420

ttcgacagcc ctaccgtggc ctactctgtg ctggtggtgg ctaaggtgga aaagggcaag 3480

tccaagaaac tgaagagtgt gaaagagctg ctggggatca ccatcatgga aagaagcagc 3540

tttgagaaga accctatcga ctttctggaa gccaagggct acaaagaagt gaaaaaggac 3600

ctgatcatca agctgcctaa gtactccctg ttcgagctgg aaaacggcag aaagagaatg 3660

ctggcctctg ccggcgaact gcagaaggga aacgagctgg ccctgcctag caaatatgtg 3720

aacttcctgt acctggcctc ccactatgag aagctgaagg gcagccctga ggacaacgaa 3780

cagaaacagc tgtttgtgga acagcataag cactacctgg acgagatcat cgagcagatc 3840

agcgagttct ccaagagagt gatcctggcc gacgccaatc tggacaaggt gctgtctgcc 3900

tacaacaagc acagggacaa gcctatcaga gagcaggccg agaatatcat ccacctgttc 3960

accctgacaa acctgggcgc tcctgccgcc ttcaagtact ttgacaccac catcgaccgg 4020

aagaggtaca ccagcaccaa agaggtgctg gacgccaccc tgatccacca gagcatcacc 4080

ggcctgtacg agacaagaat cgacctgtct cagctgggag gcgacaagag acctgccgcc 4140

actaagaagg ccggacaggc caaaaagaag aagtga 4176

<210> 62

<211> 1391

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 62

Met Asp Lys Pro Lys Lys Lys Arg Lys Val Lys Tyr Ser Ile Gly Leu

1 5 10 15

Asp Ile Gly Thr Asn Ser Val Gly Trp Ala Val Ile Thr Asp Glu Tyr

20 25 30

Lys Val Pro Ser Lys Lys Phe Lys Val Leu Gly Asn Thr Asp Arg His

35 40 45

Ser Ile Lys Lys Asn Leu Ile Gly Ala Leu Leu Phe Asp Ser Gly Glu

50 55 60

Thr Ala Glu Ala Thr Arg Leu Lys Arg Thr Ala Arg Arg Arg Tyr Thr

65 70 75 80

Arg Arg Lys Asn Arg Ile Cys Tyr Leu Gln Glu Ile Phe Ser Asn Glu

85 90 95

Met Ala Lys Val Asp Asp Ser Phe Phe His Arg Leu Glu Glu Ser Phe

100 105 110

Leu Val Glu Glu Asp Lys Lys His Glu Arg His Pro Ile Phe Gly Asn

115 120 125

Ile Val Asp Glu Val Ala Tyr His Glu Lys Tyr Pro Thr Ile Tyr His

130 135 140

Leu Arg Lys Lys Leu Val Asp Ser Thr Asp Lys Ala Asp Leu Arg Leu

145 150 155 160

Ile Tyr Leu Ala Leu Ala His Met Ile Lys Phe Arg Gly His Phe Leu

165 170 175

Ile Glu Gly Asp Leu Asn Pro Asp Asn Ser Asp Val Asp Lys Leu Phe

180 185 190

Ile Gln Leu Val Gln Thr Tyr Asn Gln Leu Phe Glu Glu Asn Pro Ile

195 200 205

Asn Ala Ser Gly Val Asp Ala Lys Ala Ile Leu Ser Ala Arg Leu Ser

210 215 220

Lys Ser Arg Arg Leu Glu Asn Leu Ile Ala Gln Leu Pro Gly Glu Lys

225 230 235 240

Lys Asn Gly Leu Phe Gly Asn Leu Ile Ala Leu Ser Leu Gly Leu Thr

245 250 255

Pro Asn Phe Lys Ser Asn Phe Asp Leu Ala Glu Asp Ala Lys Leu Gln

260 265 270

Leu Ser Lys Asp Thr Tyr Asp Asp Asp Leu Asp Asn Leu Leu Ala Gln

275 280 285

Ile Gly Asp Gln Tyr Ala Asp Leu Phe Leu Ala Ala Lys Asn Leu Ser

290 295 300

Asp Ala Ile Leu Leu Ser Asp Ile Leu Arg Val Asn Thr Glu Ile Thr

305 310 315 320

Lys Ala Pro Leu Ser Ala Ser Met Ile Lys Arg Tyr Asp Glu His His

325 330 335

Gln Asp Leu Thr Leu Leu Lys Ala Leu Val Arg Gln Gln Leu Pro Glu

340 345 350

Lys Tyr Lys Glu Ile Phe Phe Asp Gln Ser Lys Asn Gly Tyr Ala Gly

355 360 365

Tyr Ile Asp Gly Gly Ala Ser Gln Glu Glu Phe Tyr Lys Phe Ile Lys

370 375 380

Pro Ile Leu Glu Lys Met Asp Gly Thr Glu Glu Leu Leu Val Lys Leu

385 390 395 400

Asn Arg Glu Asp Leu Leu Arg Lys Gln Arg Thr Phe Asp Asn Gly Ser

405 410 415

Ile Pro His Gln Ile His Leu Gly Glu Leu His Ala Ile Leu Arg Arg

420 425 430

Gln Glu Asp Phe Tyr Pro Phe Leu Lys Asp Asn Arg Glu Lys Ile Glu

435 440 445

Lys Ile Leu Thr Phe Arg Ile Pro Tyr Tyr Val Gly Pro Leu Ala Arg

450 455 460

Gly Asn Ser Arg Phe Ala Trp Met Thr Arg Lys Ser Glu Glu Thr Ile

465 470 475 480

Thr Pro Trp Asn Phe Glu Glu Val Val Asp Lys Gly Ala Ser Ala Gln

485 490 495

Ser Phe Ile Glu Arg Met Thr Asn Phe Asp Lys Asn Leu Pro Asn Glu

500 505 510

Lys Val Leu Pro Lys His Ser Leu Leu Tyr Glu Tyr Phe Thr Val Tyr

515 520 525

Asn Glu Leu Thr Lys Val Lys Tyr Val Thr Glu Gly Met Arg Lys Pro

530 535 540

Ala Phe Leu Ser Gly Glu Gln Lys Lys Ala Ile Val Asp Leu Leu Phe

545 550 555 560

Lys Thr Asn Arg Lys Val Thr Val Lys Gln Leu Lys Glu Asp Tyr Phe

565 570 575

Lys Lys Ile Glu Cys Phe Asp Ser Val Glu Ile Ser Gly Val Glu Asp

580 585 590

Arg Phe Asn Ala Ser Leu Gly Thr Tyr His Asp Leu Leu Lys Ile Ile

595 600 605

Lys Asp Lys Asp Phe Leu Asp Asn Glu Glu Asn Glu Asp Ile Leu Glu

610 615 620

Asp Ile Val Leu Thr Leu Thr Leu Phe Glu Asp Arg Glu Met Ile Glu

625 630 635 640

Glu Arg Leu Lys Thr Tyr Ala His Leu Phe Asp Asp Lys Val Met Lys

645 650 655

Gln Leu Lys Arg Arg Arg Tyr Thr Gly Trp Gly Arg Leu Ser Arg Lys

660 665 670

Leu Ile Asn Gly Ile Arg Asp Lys Gln Ser Gly Lys Thr Ile Leu Asp

675 680 685

Phe Leu Lys Ser Asp Gly Phe Ala Asn Arg Asn Phe Met Gln Leu Ile

690 695 700

His Asp Asp Ser Leu Thr Phe Lys Glu Asp Ile Gln Lys Ala Gln Val

705 710 715 720

Ser Gly Gln Gly Asp Ser Leu His Glu His Ile Ala Asn Leu Ala Gly

725 730 735

Ser Pro Ala Ile Lys Lys Gly Ile Leu Gln Thr Val Lys Val Val Asp

740 745 750

Glu Leu Val Lys Val Met Gly Arg His Lys Pro Glu Asn Ile Val Ile

755 760 765

Glu Met Ala Arg Glu Asn Gln Thr Thr Gln Lys Gly Gln Lys Asn Ser

770 775 780

Arg Glu Arg Met Lys Arg Ile Glu Glu Gly Ile Lys Glu Leu Gly Ser

785 790 795 800

Gln Ile Leu Lys Glu His Pro Val Glu Asn Thr Gln Leu Gln Asn Glu

805 810 815

Lys Leu Tyr Leu Tyr Tyr Leu Gln Asn Gly Arg Asp Met Tyr Val Asp

820 825 830

Gln Glu Leu Asp Ile Asn Arg Leu Ser Asp Tyr Asp Val Asp His Ile

835 840 845

Val Pro Gln Ser Phe Leu Lys Asp Asp Ser Ile Asp Asn Lys Val Leu

850 855 860

Thr Arg Ser Asp Lys Asn Arg Gly Lys Ser Asp Asn Val Pro Ser Glu

865 870 875 880

Glu Val Val Lys Lys Met Lys Asn Tyr Trp Arg Gln Leu Leu Asn Ala

885 890 895

Lys Leu Ile Thr Gln Arg Lys Phe Asp Asn Leu Thr Lys Ala Glu Arg

900 905 910

Gly Gly Leu Ser Glu Leu Asp Lys Ala Gly Phe Ile Lys Arg Gln Leu

915 920 925

Val Glu Thr Arg Gln Ile Thr Lys His Val Ala Gln Ile Leu Asp Ser

930 935 940

Arg Met Asn Thr Lys Tyr Asp Glu Asn Asp Lys Leu Ile Arg Glu Val

945 950 955 960

Lys Val Ile Thr Leu Lys Ser Lys Leu Val Ser Asp Phe Arg Lys Asp

965 970 975

Phe Gln Phe Tyr Lys Val Arg Glu Ile Asn Asn Tyr His His Ala His

980 985 990

Asp Ala Tyr Leu Asn Ala Val Val Gly Thr Ala Leu Ile Lys Lys Tyr

995 1000 1005

Pro Lys Leu Glu Ser Glu Phe Val Tyr Gly Asp Tyr Lys Val Tyr

1010 1015 1020

Asp Val Arg Lys Met Ile Ala Lys Ser Glu Gln Glu Ile Gly Lys

1025 1030 1035

Ala Thr Ala Lys Tyr Phe Phe Tyr Ser Asn Ile Met Asn Phe Phe

1040 1045 1050

Lys Thr Glu Ile Thr Leu Ala Asn Gly Glu Ile Arg Lys Arg Pro

1055 1060 1065

Leu Ile Glu Thr Asn Gly Glu Thr Gly Glu Ile Val Trp Asp Lys

1070 1075 1080

Gly Arg Asp Phe Ala Thr Val Arg Lys Val Leu Ser Met Pro Gln

1085 1090 1095

Val Asn Ile Val Lys Lys Thr Glu Val Gln Thr Gly Gly Phe Ser

1100 1105 1110

Lys Glu Ser Ile Leu Pro Lys Arg Asn Ser Asp Lys Leu Ile Ala

1115 1120 1125

Arg Lys Lys Asp Trp Asp Pro Lys Lys Tyr Gly Gly Phe Asp Ser

1130 1135 1140

Pro Thr Val Ala Tyr Ser Val Leu Val Val Ala Lys Val Glu Lys

1145 1150 1155

Gly Lys Ser Lys Lys Leu Lys Ser Val Lys Glu Leu Leu Gly Ile

1160 1165 1170

Thr Ile Met Glu Arg Ser Ser Phe Glu Lys Asn Pro Ile Asp Phe

1175 1180 1185

Leu Glu Ala Lys Gly Tyr Lys Glu Val Lys Lys Asp Leu Ile Ile

1190 1195 1200

Lys Leu Pro Lys Tyr Ser Leu Phe Glu Leu Glu Asn Gly Arg Lys

1205 1210 1215

Arg Met Leu Ala Ser Ala Gly Glu Leu Gln Lys Gly Asn Glu Leu

1220 1225 1230

Ala Leu Pro Ser Lys Tyr Val Asn Phe Leu Tyr Leu Ala Ser His

1235 1240 1245

Tyr Glu Lys Leu Lys Gly Ser Pro Glu Asp Asn Glu Gln Lys Gln

1250 1255 1260

Leu Phe Val Glu Gln His Lys His Tyr Leu Asp Glu Ile Ile Glu

1265 1270 1275

Gln Ile Ser Glu Phe Ser Lys Arg Val Ile Leu Ala Asp Ala Asn

1280 1285 1290

Leu Asp Lys Val Leu Ser Ala Tyr Asn Lys His Arg Asp Lys Pro

1295 1300 1305

Ile Arg Glu Gln Ala Glu Asn Ile Ile His Leu Phe Thr Leu Thr

1310 1315 1320

Asn Leu Gly Ala Pro Ala Ala Phe Lys Tyr Phe Asp Thr Thr Ile

1325 1330 1335

Asp Arg Lys Arg Tyr Thr Ser Thr Lys Glu Val Leu Asp Ala Thr

1340 1345 1350

Leu Ile His Gln Ser Ile Thr Gly Leu Tyr Glu Thr Arg Ile Asp

1355 1360 1365

Leu Ser Gln Leu Gly Gly Asp Lys Arg Pro Ala Ala Thr Lys Lys

1370 1375 1380

Ala Gly Gln Ala Lys Lys Lys Lys

1385 1390

<210> 63

<211> 4218

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 63

atggccccaa agaagaagcg gaaggtcggt atccacggag tcccagcagc cgacaagaag 60

tacagcatcg gcctggacat cggcaccaac tctgtgggct gggccgtgat caccgacgag 120

tacaaggtgc ccagcaagaa attcaaggtg ctgggcaaca ccgaccggca cagcatcaag 180

aagaacctga tcggagccct gctgttcgac agcggcgaaa cagccgaggc cacccggctg 240

aagagaaccg ccagaagaag atacaccaga cggaagaacc ggatctgcta tctgcaagag 300

atcttcagca acgagatggc caaggtggac gacagcttct tccacagact ggaagagtcc 360

ttcctggtgg aagaggacaa gaagcacgag agacacccca tcttcggcaa catcgtggac 420

gaggtggcct accacgagaa gtaccccacc atctaccacc tgagaaagaa actggtggac 480

agcaccgaca aggccgacct gagactgatc tacctggccc tggcccacat gatcaagttc 540

agaggccact tcctgatcga gggcgacctg aaccccgaca acagcgacgt ggacaagctg 600

ttcatccagc tggtgcagac ctacaaccag ctgttcgagg aaaaccccat caacgccagc 660

ggcgtggacg ccaaggctat cctgtctgcc agactgagca agagcagaag gctggaaaat 720

ctgatcgccc agctgcccgg cgagaagaag aacggcctgt tcggcaacct gattgccctg 780

agcctgggcc tgacccccaa cttcaagagc aacttcgacc tggccgagga tgccaaactg 840

cagctgagca aggacaccta cgacgacgac ctggacaacc tgctggccca gatcggcgac 900

cagtacgccg acctgttcct ggccgccaag aacctgtctg acgccatcct gctgagcgac 960

atcctgagag tgaacaccga gatcaccaag gcccccctga gcgcctctat gatcaagaga 1020

tacgacgagc accaccagga cctgaccctg ctgaaagctc tcgtgcggca gcagctgcct 1080

gagaagtaca aagaaatctt cttcgaccag agcaagaacg gctacgccgg ctacatcgat 1140

ggcggcgcta gccaggaaga gttctacaag ttcatcaagc ccatcctgga aaagatggac 1200

ggcaccgagg aactgctcgt gaagctgaac agagaggacc tgctgagaaa gcagagaacc 1260

ttcgacaacg gcagcatccc ccaccagatc cacctgggag agctgcacgc tatcctgaga 1320

aggcaggaag atttttaccc attcctgaag gacaaccggg aaaagatcga gaagatcctg 1380

accttcagga tcccctacta cgtgggcccc ctggccagag gcaacagcag attcgcctgg 1440

atgaccagaa agagcgagga aaccatcacc ccctggaact tcgaggaagt ggtggacaag 1500

ggcgccagcg cccagagctt catcgagaga atgacaaact tcgataagaa cctgcccaac 1560

gagaaggtgc tgcccaagca cagcctgctg tacgagtact tcaccgtgta caacgagctg 1620

accaaagtga aatacgtgac cgagggaatg agaaagcccg ccttcctgag cggcgagcag 1680

aaaaaggcca tcgtggacct gctgttcaag accaacagaa aagtgaccgt gaagcagctg 1740

aaagaggact acttcaagaa aatcgagtgc ttcgactccg tggaaatctc cggcgtggaa 1800

gatagattca acgcctccct gggcacatac cacgatctgc tgaaaattat caaggacaag 1860

gacttcctgg ataacgaaga gaacgaggac attctggaag atatcgtgct gaccctgaca 1920

ctgtttgagg accgcgagat gatcgaggaa aggctgaaaa cctacgctca cctgttcgac 1980

gacaaagtga tgaagcagct gaagagaagg cggtacaccg gctggggcag gctgagcaga 2040

aagctgatca acggcatcag agacaagcag agcggcaaga caatcctgga tttcctgaag 2100

tccgacggct tcgccaaccg gaacttcatg cagctgatcc acgacgacag cctgacattc 2160

aaagaggaca tccagaaagc ccaggtgtcc ggccagggcg actctctgca cgagcatatc 2220

gctaacctgg ccggcagccc cgctatcaag aagggcatcc tgcagacagt gaaggtggtg 2280

gacgagctcg tgaaagtgat gggcagacac aagcccgaga acatcgtgat cgagatggct 2340

agagagaacc agaccaccca gaagggacag aagaactccc gcgagaggat gaagagaatc 2400

gaagagggca tcaaagagct gggcagccag atcctgaaag aacaccccgt ggaaaacacc 2460

cagctgcaga acgagaagct gtacctgtac tacctgcaga atggccggga tatgtacgtg 2520

gaccaggaac tggacatcaa cagactgtcc gactacgatg tggaccatat cgtgcctcag 2580

agctttctga aggacgactc catcgataac aaagtgctga ctcggagcga caagaacaga 2640

ggcaagagcg acaacgtgcc ctccgaagag gtcgtgaaga agatgaagaa ctactggcga 2700

cagctgctga acgccaagct gattacccag aggaagttcg ataacctgac caaggccgag 2760

agaggcggcc tgagcgagct ggataaggcc ggcttcatca agaggcagct ggtggaaacc 2820

agacagatca caaagcacgt ggcacagatc ctggactccc ggatgaacac taagtacgac 2880

gaaaacgata agctgatccg ggaagtgaaa gtgatcaccc tgaagtccaa gctggtgtcc 2940

gatttccgga aggatttcca gttttacaaa gtgcgcgaga tcaacaacta ccaccacgcc 3000

cacgacgcct acctgaacgc cgtcgtggga accgccctga tcaaaaagta ccctaagctg 3060

gaaagcgagt tcgtgtacgg cgactacaag gtgtacgacg tgcggaagat gatcgccaag 3120

agcgagcagg aaatcggcaa ggctaccgcc aagtacttct tctacagcaa catcatgaac 3180

tttttcaaga ccgaaatcac cctggccaac ggcgagatca gaaagcgccc tctgatcgag 3240

acaaacggcg aaaccgggga gatcgtgtgg gataagggca gagacttcgc cacagtgcga 3300

aaggtgctga gcatgcccca agtgaatatc gtgaaaaaga ccgaggtgca gacaggcggc 3360

ttcagcaaag agtctatcct gcccaagagg aacagcgaca agctgatcgc cagaaagaag 3420

gactgggacc ccaagaagta cggcggcttc gacagcccta ccgtggccta ctctgtgctg 3480

gtggtggcta aggtggaaaa gggcaagtcc aagaaactga agagtgtgaa agagctgctg 3540

gggatcacca tcatggaaag aagcagcttt gagaagaacc ctatcgactt tctggaagcc 3600

aagggctaca aagaagtgaa aaaggacctg atcatcaagc tgcctaagta ctccctgttc 3660

gagctggaaa acggcagaaa gagaatgctg gcctctgccg gcgaactgca gaagggaaac 3720

gagctggccc tgcctagcaa atatgtgaac ttcctgtacc tggcctccca ctatgagaag 3780

ctgaagggca gccctgagga caacgaacag aaacagctgt ttgtggaaca gcataagcac 3840

tacctggacg agatcatcga gcagatcagc gagttctcca agagagtgat cctggccgac 3900

gccaatctgg acaaggtgct gtctgcctac aacaagcaca gggacaagcc tatcagagag 3960

caggccgaga atatcatcca cctgttcacc ctgacaaacc tgggcgctcc tgccgccttc 4020

aagtactttg acaccaccat cgaccggaag aggtacacca gcaccaaaga ggtgctggac 4080

gccaccctga tccaccagag catcaccggc ctgtacgaga caagaatcga cctgtctcag 4140

ctgggaggcg acaagagacc tgccgccact aagaaggccg gacaggccaa aaagaagaag 4200

tgagcggccg cttaatta 4218

<210> 64

<211> 7

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 64

Gln Ser Val Ser Ser Asn Tyr

1 5

<210> 65

<211> 3

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 65

Gly Ala Ser

1

<210> 66

<211> 9

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 66

Gln Arg Tyr Gly Thr Ser Pro Leu Thr

1 5

<210> 67

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 67

Gly Phe Thr Phe Asn Tyr Tyr Gly

1 5

<210> 68

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 68

Ile Ser Tyr Asp Gly Thr Asn Lys

1 5

<210> 69

<211> 10

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 69

Ala Arg Asp Arg Gly Gly Arg Phe Asp Tyr

1 5 10

<210> 70

<211> 7

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 70

Gln Ser Val Ser Ser Asn Tyr

1 5

<210> 71

<211> 3

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 71

Gly Ala Ser

1

<210> 72

<211> 9

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 72

Gln Arg Tyr Gly Thr Ser Pro Leu Thr

1 5

<210> 73

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 73

Gly Phe Thr Phe Asn Tyr Tyr Gly

1 5

<210> 74

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 74

Ile Ser Tyr Asp Gly Thr Asn Lys

1 5

<210> 75

<211> 10

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 75

Ala Arg Asp Arg Gly Gly Arg Phe Asp Tyr

1 5 10

<210> 76

<211> 6

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 76

Gln Gly Ile Arg Asn Asn

1 5

<210> 77

<211> 3

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 77

Ala Ala Ser

1

<210> 78

<211> 9

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 78

Leu Gln Tyr Asn Asn Tyr Pro Trp Thr

1 5

<210> 79

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 79

Gly Gly Thr Phe Ser Ser Tyr Ala

1 5

<210> 80

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 80

Ile Ile Pro Ile Phe Gly Thr Pro

1 5

<210> 81

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 81

Ala Arg Gln Gln Pro Val Tyr Gln Tyr Asn Met Asp Val

1 5 10

<210> 82

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 82

ggaaccccta gtgatggagt t 21

<210> 83

<211> 16

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 83

cggcctcagt gagcga 16

<210> 84

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 84

cactccctct ctgcgcgctc g 21

<210> 85

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 85

cagagtgtgt ctagtaatta t 21

<210> 86

<211> 9

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 86

ggcgcaagc 9

<210> 87

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 87

cagcgctacg gtaccagccc cctgaca 27

<210> 88

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 88

ggttttacgt tcaattatta tggc 24

<210> 89

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 89

attagttacg acggaaccaa taag 24

<210> 90

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 90

gcgagagatc gagggggcag atttgactac 30

<210> 91

<211> 21

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 91

cagagtgtta gcagcaacta c 21

<210> 92

<211> 9

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 92

ggtgcatcc 9

<210> 93

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 93

cagcggtatg gtacctcacc gctcact 27

<210> 94

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 94

ggattcacct tcaattacta tggc 24

<210> 95

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 95

atatcatatg atggaactaa taaa 24

<210> 96

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 96

gcgagagatc gcggtggccg ctttgactac 30

<210> 97

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 97

cagggcatta gaaacaac 18

<210> 98

<211> 9

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 98

gccgccagc 9

<210> 99

<211> 27

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 99

ttgcagtata ataactatcc ctggacc 27

<210> 100

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 100

ggtgggacat ttagtagtta tgcc 24

<210> 101

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 101

atcataccga tctttggtac accc 24

<210> 102

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 102

gcaaggcagc agccagtgta ccaatataat atggatgtc 39

<210> 103

<211> 324

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 103

gaaatagtgc tgacccagtc accagatacc ctgagcctga gtcctgggga acgggcaaca 60

ctcagttgta gggcatccca gagtgtgtct agtaattatc tggcttggta ccagcaaaaa 120

ccggggcagg ctccccgact gctgatctat ggcgcaagca gccgagccac cggtattcca 180

gatcgattta gtggatctgg aagtggaact gacttcacgt tgacaatatc aagactggaa 240

cccgaagatt tcgctgtgta ttattgccag cgctacggta ccagccccct gacattcggg 300

gggggaacga aggttgaaat aaaa 324

<210> 104

<211> 108

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 104

Glu Ile Val Leu Thr Gln Ser Pro Asp Thr Leu Ser Leu Ser Pro Gly

1 5 10 15

Glu Arg Ala Thr Leu Ser Cys Arg Ala Ser Gln Ser Val Ser Ser Asn

20 25 30

Tyr Leu Ala Trp Tyr Gln Gln Lys Pro Gly Gln Ala Pro Arg Leu Leu

35 40 45

Ile Tyr Gly Ala Ser Ser Arg Ala Thr Gly Ile Pro Asp Arg Phe Ser

50 55 60

Gly Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Arg Leu Glu

65 70 75 80

Pro Glu Asp Phe Ala Val Tyr Tyr Cys Gln Arg Tyr Gly Thr Ser Pro

85 90 95

Leu Thr Phe Gly Gly Gly Thr Lys Val Glu Ile Lys

100 105

<210> 105

<211> 351

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 105

caggtacagc tcgttgagag cggaggtggg gttgtgcagc ctgggagatc tctccgcctc 60

agttgcgccg cctcaggttt tacgttcaat tattatggca tgcattgggt tagacaagct 120

ccggggaagg ggttggaatg ggtagccgta attagttacg acggaaccaa taagtattat 180

gctgacagtg tgaagggtcg atttacgaca tcccgggata actccaagaa cacattgtac 240

cttcaaatga attctttgcg ggcggaagat actgcactct attattgtgc gagagatcga 300

gggggcagat ttgactactg gggccaagga atacaggtta ctgtatcatc t 351

<210> 106

<211> 117

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 106

Gln Val Gln Leu Val Glu Ser Gly Gly Gly Val Val Gln Pro Gly Arg

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Asn Tyr Tyr

20 25 30

Gly Met His Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Ala Val Ile Ser Tyr Asp Gly Thr Asn Lys Tyr Tyr Ala Asp Ser Val

50 55 60

Lys Gly Arg Phe Thr Thr Ser Arg Asp Asn Ser Lys Asn Thr Leu Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Leu Tyr Tyr Cys

85 90 95

Ala Arg Asp Arg Gly Gly Arg Phe Asp Tyr Trp Gly Gln Gly Ile Gln

100 105 110

Val Thr Val Ser Ser

115

<210> 107

<211> 324

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 107

gaaattgtgt tgacgcagtc tccagacacc ctgtctttgt ctccagggga aagagccacc 60

ctctcctgca gggccagtca gagtgttagc agcaactact tagcctggta ccagcagaaa 120

cctggccagg ctcccaggct cctcatctat ggtgcatcca gcagggccac tggcatccca 180

gacaggttca gtggcagtgg gtctgggaca gacttcactc tcaccatcag cagactggag 240

cctgaagatt ttgcagtgta ttactgtcag cggtatggta cctcaccgct cactttcggc 300

ggagggacca aggtggagat caaa 324

<210> 108

<211> 108

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 108

Glu Ile Val Leu Thr Gln Ser Pro Asp Thr Leu Ser Leu Ser Pro Gly

1 5 10 15

Glu Arg Ala Thr Leu Ser Cys Arg Ala Ser Gln Ser Val Ser Ser Asn

20 25 30

Tyr Leu Ala Trp Tyr Gln Gln Lys Pro Gly Gln Ala Pro Arg Leu Leu

35 40 45

Ile Tyr Gly Ala Ser Ser Arg Ala Thr Gly Ile Pro Asp Arg Phe Ser

50 55 60

Gly Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Arg Leu Glu

65 70 75 80

Pro Glu Asp Phe Ala Val Tyr Tyr Cys Gln Arg Tyr Gly Thr Ser Pro

85 90 95

Leu Thr Phe Gly Gly Gly Thr Lys Val Glu Ile Lys

100 105

<210> 109

<211> 351

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 109

caggtgcagc tggtggagtc ggggggaggc gtggtccagc ctgggaggtc cctgagactc 60

tcctgtgcag cctctggatt caccttcaat tactatggca tgcactgggt ccgccaggct 120

ccaggcaagg ggctggagtg ggtggcagtc atatcatatg atggaactaa taaatactat 180

gcagactccg tgaagggccg attcaccacc tccagagaca attccaagaa cacgctgtat 240

ctgcagatga acagcctgag agctgaggac acggctctgt attactgtgc gagagatcgc 300

ggtggccgct ttgactactg gggccaggga atccaggtca ccgtctcctc a 351

<210> 110

<211> 117

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 110

Gln Val Gln Leu Val Glu Ser Gly Gly Gly Val Val Gln Pro Gly Arg

1 5 10 15

Ser Leu Arg Leu Ser Cys Ala Ala Ser Gly Phe Thr Phe Asn Tyr Tyr

20 25 30

Gly Met His Trp Val Arg Gln Ala Pro Gly Lys Gly Leu Glu Trp Val

35 40 45

Ala Val Ile Ser Tyr Asp Gly Thr Asn Lys Tyr Tyr Ala Asp Ser Val

50 55 60

Lys Gly Arg Phe Thr Thr Ser Arg Asp Asn Ser Lys Asn Thr Leu Tyr

65 70 75 80

Leu Gln Met Asn Ser Leu Arg Ala Glu Asp Thr Ala Leu Tyr Tyr Cys

85 90 95

Ala Arg Asp Arg Gly Gly Arg Phe Asp Tyr Trp Gly Gln Gly Ile Gln

100 105 110

Val Thr Val Ser Ser

115

<210> 111

<211> 321

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 111

gacatacaga tgacgcagtc cccttccagc ctcagcgcat cagtggggga cagagtcact 60

atcacttgca gggcttctca gggcattaga aacaacttgg gctggtacca acagaagcct 120

ctgaaggcac ctaaacggtt gatttacgcc gccagctctt tgcaatctgg ggtgccttcc 180

agattcagcg gctctggctc aggaaccgaa tttaccctga ccattagcag cttgcaaccg 240

gaggatttcg ctacctacta ttgcttgcag tataataact atccctggac cttcggtcaa 300

ggtaccaagg tcgagataaa g 321

<210> 112

<211> 107

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 112

Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly

1 5 10 15

Asp Arg Val Thr Ile Thr Cys Arg Ala Ser Gln Gly Ile Arg Asn Asn

20 25 30

Leu Gly Trp Tyr Gln Gln Lys Pro Leu Lys Ala Pro Lys Arg Leu Ile

35 40 45

Tyr Ala Ala Ser Ser Leu Gln Ser Gly Val Pro Ser Arg Phe Ser Gly

50 55 60

Ser Gly Ser Gly Thr Glu Phe Thr Leu Thr Ile Ser Ser Leu Gln Pro

65 70 75 80

Glu Asp Phe Ala Thr Tyr Tyr Cys Leu Gln Tyr Asn Asn Tyr Pro Trp

85 90 95

Thr Phe Gly Gln Gly Thr Lys Val Glu Ile Lys

100 105

<210> 113

<211> 360

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 113

caggtccagc tcgtccaatc cggggcggaa gtcaaaaaga gcggctcatc cgtcaaggtc 60

tcctgtaagg cctcaggtgg gacatttagt agttatgcca tctcctgggt tcgccaggct 120

ccgggacagg gcttggagtg gatgggtgga atcataccga tctttggtac accctcatac 180

gcgcagaaat tccaagaccg cgtcacgatc acgactgacg aatccacgag caccgtttac 240

atggagttgt cttcactgag aagtgaggac actgcagtgt attattgtgc aaggcagcag 300

ccagtgtacc aatataatat ggatgtctgg ggtcaaggca ccaccgtgac cgtgtcctcc 360

<210> 114

<211> 120

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 114

Gln Val Gln Leu Val Gln Ser Gly Ala Glu Val Lys Lys Ser Gly Ser

1 5 10 15

Ser Val Lys Val Ser Cys Lys Ala Ser Gly Gly Thr Phe Ser Ser Tyr

20 25 30

Ala Ile Ser Trp Val Arg Gln Ala Pro Gly Gln Gly Leu Glu Trp Met

35 40 45

Gly Gly Ile Ile Pro Ile Phe Gly Thr Pro Ser Tyr Ala Gln Lys Phe

50 55 60

Gln Asp Arg Val Thr Ile Thr Thr Asp Glu Ser Thr Ser Thr Val Tyr

65 70 75 80

Met Glu Leu Ser Ser Leu Arg Ser Glu Asp Thr Ala Val Tyr Tyr Cys

85 90 95

Ala Arg Gln Gln Pro Val Tyr Gln Tyr Asn Met Asp Val Trp Gly Gln

100 105 110

Gly Thr Thr Val Thr Val Ser Ser

115 120

<210> 115

<211> 2220

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 115

atgaagtggg taacctttct cctcctcctc ttcgtctccg gctctgcttt ttccaggggt 60

gtgtttcgcc gagaagcacc cgaaatagtg ctgacccagt caccagatac cctgagcctg 120

agtcctgggg aacgggcaac actcagttgt agggcatccc agagtgtgtc tagtaattat 180

ctggcttggt accagcaaaa accggggcag gctccccgac tgctgatcta tggcgcaagc 240

agccgagcca ccggtattcc agatcgattt agtggatctg gaagtggaac tgacttcacg 300

ttgacaatat caagactgga acccgaagat ttcgctgtgt attattgcca gcgctacggt 360

accagccccc tgacattcgg ggggggaacg aaggttgaaa taaaacgcac cgtcgcggcg 420

ccatctgtat tcatttttcc cccgtctgat gagcaactga aatcagggac cgcgtccgtg 480

gtctgccttc tgaacaattt ttacccgaga gaggcgaaag tccagtggaa ggtggataat 540

gcgcttcagt caggtaactc tcaggagagc gtcacagagc aagactctaa agattcaact 600

tacagccttt cctccaccct gactctgtcc aaggccgact acgagaaaca taaggtctat 660

gcctgcgaag taactcatca aggtcttagt tcacccgtca cgaaaagttt taataggggg 720

gagtgtagaa aacggagggg atcaggggcg actaactttt cattgcttaa gcaagcagga 780

gacgtggaag agaatcccgg gccccatagg ccgcgacgac gggggaccag accccctcct 840

ttggccctgc tggctgcttt gcttctcgcg gcgcgaggag cggacgctca ggtacagctc 900

gttgagagcg gaggtggggt tgtgcagcct gggagatctc tccgcctcag ttgcgccgcc 960

tcaggtttta cgttcaatta ttatggcatg cattgggtta gacaagctcc ggggaagggg 1020

ttggaatggg tagccgtaat tagttacgac ggaaccaata agtattatgc tgacagtgtg 1080

aagggtcgat ttacgacatc ccgggataac tccaagaaca cattgtacct tcaaatgaat 1140

tctttgcggg cggaagatac tgcactctat tattgtgcga gagatcgagg gggcagattt 1200

gactactggg gccaaggaat acaggttact gtatcatctg cttcaactaa gggtccgagc 1260

gtatttcccc ttgctccttg cagccgatca acaagtgaaa gtacagctgc tttgggttgc 1320

cttgtgaaag attatttccc tgagcctgtg actgtttcct ggaattcagg tgctcttact 1380

agcggggttc atacatttcc cgctgtactc cagtcaagcg ggctctatag tctcagtagc 1440

gtagtaacgg taccctcttc atcacttggg acaaagacgt acacatgcaa tgtagaccat 1500

aagccgtcta atacgaaagt tgataaaagg gtagaatcca aatatggccc gccgtgtccg 1560

ccttgtccag ctccgggcgg tgggggcccc agtgtattcc tgtttccccc taaaccgaag 1620

gatacgctta tgattagtcg aacccctgag gtcacgtgcg tggtggtgga cgtgagccag 1680

gaagaccccg aggtccagtt caactggtac gtggatggcg tggaggtgca taatgccaag 1740

acaaagccgc gggaggagca gttcaacagc acgtaccgtg tggtcagcgt cctcaccgtc 1800

ctgcaccagg actggctgaa cggcaaggag tacaagtgca aggtctccaa caaaggcctc 1860

ccgtcctcca tcgagaaaac catctccaaa gccaaagggc agccccgaga gccacaggtg 1920

tacaccctgc ccccatccca ggaggagatg accaagaacc aggtcagcct gacctgcctg 1980

gtcaaaggct tctaccccag cgacatcgcc gtggagtggg agagcaatgg gcagccggag 2040

aacaactaca agaccacgcc tcccgtgctg gactccgacg gctccttctt cctctacagc 2100

aggctcaccg tggacaagag caggtggcag gaggggaatg tcttctcatg ctccgtgatg 2160

catgaggctc tgcacaacca ctacacacag aagtccctct ccctgtctct gggtaaatga 2220

<210> 116

<211> 2214

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 116

atgaagtggg taacctttct cctcctcctc ttcgtctccg gctctgcttt ttccaggggt 60

gtgtttcgcc gagaagcacc ccaggtgcag ctggtggagt cggggggagg cgtggtccag 120

cctgggaggt ccctgagact ctcctgtgca gcctctggat tcaccttcaa ttactatggc 180

atgcactggg tccgccaggc tccaggcaag gggctggagt gggtggcagt catatcatat 240

gatggaacta ataaatacta tgcagactcc gtgaagggcc gattcaccac ctccagagac 300

aattccaaga acacgctgta tctgcagatg aacagcctga gagctgagga cacggctctg 360

tattactgtg cgagagatcg cggtggccgc tttgactact ggggccaggg aatccaggtc 420

accgtctcct cagcctccac caagggccca tcggtcttcc ccctggcgcc ctgctccagg 480

agcacctccg agagcacagc cgccctgggc tgcctggtca aggactactt ccccgaaccg 540

gtgacggtgt cgtggaactc aggcgccctg accagcggcg tgcacacctt cccggctgtc 600

ctacagtcct caggactcta ctccctcagc agcgtggtga ccgtgccctc cagcagcttg 660

ggcacgaaga cctacacctg caacgtagat cacaagccca gcaacaccaa ggtggacaag 720

agagttgagt ccaaatatgg tcccccatgc ccaccgtgcc cagcaccagg cggtggcgga 780

ccatcagtct tcctgttccc cccaaaaccc aaggacactc tctacatcac ccgggagcct 840

gaggtcacgt gcgtggtggt ggacgtgagc caggaagacc ccgaggtcca gttcaactgg 900

tacgtggatg gcgtggaggt gcataatgcc aagacaaagc cgcgggagga gcagttcaac 960

agcacgtacc gtgtggtcag cgtcctcacc gtcctgcacc aggactggct gaacggcaag 1020

gagtacaagt gcaaggtctc caacaaaggc ctcccgtcct ccatcgagaa aaccatctcc 1080

aaagccaaag ggcagccccg agagccacag gtgtacaccc tgcccccatc ccaggaggag 1140

atgaccaaga accaggtcag cctgacctgc ctggtcaaag gcttctaccc cagcgacatc 1200

gccgtggagt gggagagcaa tgggcagccg gagaacaact acaagaccac gcctcccgtg 1260

ctggactccg acggctcctt cttcctctac agcaggctca ccgtggacaa gagcaggtgg 1320

caggagggga atgtcttctc atgctccgtg atgcatgagg ctctgcacaa ccactacaca 1380

cagaagtccc tctccctgtc tctgggtaaa cgtaaacgaa gaggatccgg ggtgaagcaa 1440

accttgaatt tcgatctcct gaagttggct ggcgatgtgg agagtaatcc cggcccaaag 1500

tgggtaacct ttctcctcct cctcttcgtc tccggctctg ctttttccag gggtgtgttt 1560

cgccgagaaa ttgtgttgac gcagtctcca gacaccctgt ctttgtctcc aggggaaaga 1620

gccaccctct cctgcagggc cagtcagagt gttagcagca actacttagc ctggtaccag 1680

cagaaacctg gccaggctcc caggctcctc atctatggtg catccagcag ggccactggc 1740

atcccagaca ggttcagtgg cagtgggtct gggacagact tcactctcac catcagcaga 1800

ctggagcctg aagattttgc agtgtattac tgtcagcggt atggtacctc accgctcact 1860

ttcggcggag ggaccaaggt ggagatcaaa cgaactgtgg ctgcaccatc tgtcttcatc 1920

ttcccgccat ctgatgagca gttgaaatct ggaactgcct ctgttgtgtg cctgctgaat 1980

aacttctatc ccagagaggc caaagtacag tggaaggtgg ataacgccct ccaatcgggt 2040

aactcccagg agagtgtcac agagcaggac agcaaggaca gcacctacag cctcagcagc 2100

accctgacgc tgagcaaagc agactacgag aaacacaaag tctacgcctg cgaagtcacc 2160

catcagggcc tgagctcgcc cgtcacaaag agcttcaaca ggggagagtg ttaa 2214

<210> 117

<211> 2205

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 117

atgaagtggg taacctttct cctcctcctc ttcgtctccg gctctgcttt ttccaggggt 60

gtgtttcgcc gagaagcacc ccaggtgcag ctggtggagt cggggggagg cgtggtccag 120

cctgggaggt ccctgagact ctcctgtgca gcctctggat tcaccttcaa ttactatggc 180

atgcactggg tccgccaggc tccaggcaag gggctggagt gggtggcagt catatcatat 240

gatggaacta ataaatacta tgcagactcc gtgaagggcc gattcaccac ctccagagac 300

aattccaaga acacgctgta tctgcagatg aacagcctga gagctgagga cacggctctg 360

tattactgtg cgagagatcg cggtggccgc tttgactact ggggccaggg aatccaggtc 420

accgtctcct cagcctccac caagggccca tcggtcttcc ccctggcgcc ctgctccagg 480

agcacctccg agagcacagc cgccctgggc tgcctggtca aggactactt ccccgaaccg 540

gtgacggtgt cgtggaactc aggcgccctg accagcggcg tgcacacctt cccggctgtc 600

ctacagtcct caggactcta ctccctcagc agcgtggtga ccgtgccctc cagcagcttg 660

ggcacgaaga cctacacctg caacgtagat cacaagccca gcaacaccaa ggtggacaag 720

agagttgagt ccaaatatgg tcccccatgc ccaccgtgcc cagcaccagg cggtggcgga 780

ccatcagtct tcctgttccc cccaaaaccc aaggacactc tctacatcac ccgggagcct 840

gaggtcacgt gcgtggtggt ggacgtgagc caggaagacc ccgaggtcca gttcaactgg 900

tacgtggatg gcgtggaggt gcataatgcc aagacaaagc cgcgggagga gcagttcaac 960

agcacgtacc gtgtggtcag cgtcctcacc gtcctgcacc aggactggct gaacggcaag 1020

gagtacaagt gcaaggtctc caacaaaggc ctcccgtcct ccatcgagaa aaccatctcc 1080

aaagccaaag ggcagccccg agagccacag gtgtacaccc tgcccccatc ccaggaggag 1140

atgaccaaga accaggtcag cctgacctgc ctggtcaaag gcttctaccc cagcgacatc 1200

gccgtggagt gggagagcaa tgggcagccg gagaacaact acaagaccac gcctcccgtg 1260

ctggactccg acggctcctt cttcctctac agcaggctca ccgtggacaa gagcaggtgg 1320

caggagggga atgtcttctc atgctccgtg atgcatgagg ctctgcacaa ccactacaca 1380

cagaagtccc tctccctgtc tctgggtaaa cgtaaacgaa gaggatccgg ggcgactaac 1440

ttttcattgc ttaagcaagc aggagacgtg gaagagaatc ccgggcccaa gtgggtaacc 1500

tttctcctcc tcctcttcgt ctccggctct gctttttcca ggggtgtgtt tcgccgagaa 1560

attgtgttga cgcagtctcc agacaccctg tctttgtctc caggggaaag agccaccctc 1620

tcctgcaggg ccagtcagag tgttagcagc aactacttag cctggtacca gcagaaacct 1680

ggccaggctc ccaggctcct catctatggt gcatccagca gggccactgg catcccagac 1740

aggttcagtg gcagtgggtc tgggacagac ttcactctca ccatcagcag actggagcct 1800

gaagattttg cagtgtatta ctgtcagcgg tatggtacct caccgctcac tttcggcgga 1860

gggaccaagg tggagatcaa acgaactgtg gctgcaccat ctgtcttcat cttcccgcca 1920

tctgatgagc agttgaaatc tggaactgcc tctgttgtgt gcctgctgaa taacttctat 1980

cccagagagg ccaaagtaca gtggaaggtg gataacgccc tccaatcggg taactcccag 2040

gagagtgtca cagagcagga cagcaaggac agcacctaca gcctcagcag caccctgacg 2100

ctgagcaaag cagactacga gaaacacaaa gtctacgcct gcgaagtcac ccatcagggc 2160

ctgagctcgc ccgtcacaaa gagcttcaac aggggagagt gttaa 2205

<210> 118

<211> 2202

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 118

atgaagtggg taacctttct cctcctcctc ttcgtctccg gctctgcttt ttccaggggt 60

gtgtttcgcc gagaagcacc ccaggtgcag ctggtggagt cggggggagg cgtggtccag 120

cctgggaggt ccctgagact ctcctgtgca gcctctggat tcaccttcaa ttactatggc 180

atgcactggg tccgccaggc tccaggcaag gggctggagt gggtggcagt catatcatat 240

gatggaacta ataaatacta tgcagactcc gtgaagggcc gattcaccac ctccagagac 300

aattccaaga acacgctgta tctgcagatg aacagcctga gagctgagga cacggctctg 360

tattactgtg cgagagatcg cggtggccgc tttgactact ggggccaggg aatccaggtc 420

accgtctcct cagcctccac caagggccca tcggtcttcc ccctggcgcc ctgctccagg 480

agcacctccg agagcacagc cgccctgggc tgcctggtca aggactactt ccccgaaccg 540

gtgacggtgt cgtggaactc aggcgccctg accagcggcg tgcacacctt cccggctgtc 600

ctacagtcct caggactcta ctccctcagc agcgtggtga ccgtgccctc cagcagcttg 660

ggcacgaaga cctacacctg caacgtagat cacaagccca gcaacaccaa ggtggacaag 720

agagttgagt ccaaatatgg tcccccatgc ccaccgtgcc cagcaccagg cggtggcgga 780

ccatcagtct tcctgttccc cccaaaaccc aaggacactc tctacatcac ccgggagcct 840

gaggtcacgt gcgtggtggt ggacgtgagc caggaagacc ccgaggtcca gttcaactgg 900

tacgtggatg gcgtggaggt gcataatgcc aagacaaagc cgcgggagga gcagttcaac 960

agcacgtacc gtgtggtcag cgtcctcacc gtcctgcacc aggactggct gaacggcaag 1020

gagtacaagt gcaaggtctc caacaaaggc ctcccgtcct ccatcgagaa aaccatctcc 1080

aaagccaaag ggcagccccg agagccacag gtgtacaccc tgcccccatc ccaggaggag 1140

atgaccaaga accaggtcag cctgacctgc ctggtcaaag gcttctaccc cagcgacatc 1200

gccgtggagt gggagagcaa tgggcagccg gagaacaact acaagaccac gcctcccgtg 1260

ctggactccg acggctcctt cttcctctac agcaggctca ccgtggacaa gagcaggtgg 1320

caggagggga atgtcttctc atgctccgtg atgcatgagg ctctgcacaa ccactacaca 1380

cagaagtccc tctccctgtc tctgggtaaa cgtaaacgaa gaggatccgg ggagggccgg 1440

ggcagcctgc tgacctgcgg agacgtggag gagaaccctg gccccaagtg ggtaaccttt 1500

ctcctcctcc tcttcgtctc cggctctgct ttttccaggg gtgtgtttcg ccgagaaatt 1560

gtgttgacgc agtctccaga caccctgtct ttgtctccag gggaaagagc caccctctcc 1620

tgcagggcca gtcagagtgt tagcagcaac tacttagcct ggtaccagca gaaacctggc 1680

caggctccca ggctcctcat ctatggtgca tccagcaggg ccactggcat cccagacagg 1740

ttcagtggca gtgggtctgg gacagacttc actctcacca tcagcagact ggagcctgaa 1800

gattttgcag tgtattactg tcagcggtat ggtacctcac cgctcacttt cggcggaggg 1860

accaaggtgg agatcaaacg aactgtggct gcaccatctg tcttcatctt cccgccatct 1920

gatgagcagt tgaaatctgg aactgcctct gttgtgtgcc tgctgaataa cttctatccc 1980

agagaggcca aagtacagtg gaaggtggat aacgccctcc aatcgggtaa ctcccaggag 2040

agtgtcacag agcaggacag caaggacagc acctacagcc tcagcagcac cctgacgctg 2100

agcaaagcag actacgagaa acacaaagtc tacgcctgcg aagtcaccca tcagggcctg 2160

agctcgcccg tcacaaagag cttcaacagg ggagagtgtt aa 2202

<210> 119

<211> 2217

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 119

atgaagtggg taacctttct cctcctcctc ttcgtctccg gctctgcttt ttccaggggt 60

gtgtttcgcc gagaagcacc ccaggtgcag ctggtggagt cggggggagg cgtggtccag 120

cctgggaggt ccctgagact ctcctgtgca gcctctggat tcaccttcaa ttactatggc 180

atgcactggg tccgccaggc tccaggcaag gggctggagt gggtggcagt catatcatat 240

gatggaacta ataaatacta tgcagactcc gtgaagggcc gattcaccac ctccagagac 300

aattccaaga acacgctgta tctgcagatg aacagcctga gagctgagga cacggctctg 360

tattactgtg cgagagatcg cggtggccgc tttgactact ggggccaggg aatccaggtc 420

accgtctcct cagcctccac caagggccca tcggtcttcc ccctggcgcc ctgctccagg 480

agcacctccg agagcacagc cgccctgggc tgcctggtca aggactactt ccccgaaccg 540

gtgacggtgt cgtggaactc aggcgccctg accagcggcg tgcacacctt cccggctgtc 600

ctacagtcct caggactcta ctccctcagc agcgtggtga ccgtgccctc cagcagcttg 660

ggcacgaaga cctacacctg caacgtagat cacaagccca gcaacaccaa ggtggacaag 720

agagttgagt ccaaatatgg tcccccatgc ccaccgtgcc cagcaccagg cggtggcgga 780

ccatcagtct tcctgttccc cccaaaaccc aaggacactc tctacatcac ccgggagcct 840

gaggtcacgt gcgtggtggt ggacgtgagc caggaagacc ccgaggtcca gttcaactgg 900

tacgtggatg gcgtggaggt gcataatgcc aagacaaagc cgcgggagga gcagttcaac 960

agcacgtacc gtgtggtcag cgtcctcacc gtcctgcacc aggactggct gaacggcaag 1020

gagtacaagt gcaaggtctc caacaaaggc ctcccgtcct ccatcgagaa aaccatctcc 1080

aaagccaaag ggcagccccg agagccacag gtgtacaccc tgcccccatc ccaggaggag 1140

atgaccaaga accaggtcag cctgacctgc ctggtcaaag gcttctaccc cagcgacatc 1200

gccgtggagt gggagagcaa tgggcagccg gagaacaact acaagaccac gcctcccgtg 1260

ctggactccg acggctcctt cttcctctac agcaggctca ccgtggacaa gagcaggtgg 1320

caggagggga atgtcttctc atgctccgtg atgcatgagg ctctgcacaa ccactacaca 1380

cagaagtccc tctccctgtc tctgggtaaa cgtaaacgaa gaggatccgg ggagggccgg 1440

ggcagcctgc tgacctgcgg agacgtggag gagaaccctg gcccccacag acctagacgt 1500

cgtggaactc gtccacctcc actggcactg ctcgctgctc tcctcctggc tgcacgtggt 1560

gctgatgcag aaattgtgtt gacgcagtct ccagacaccc tgtctttgtc tccaggggaa 1620

agagccaccc tctcctgcag ggccagtcag agtgttagca gcaactactt agcctggtac 1680

cagcagaaac ctggccaggc tcccaggctc ctcatctatg gtgcatccag cagggccact 1740

ggcatcccag acaggttcag tggcagtggg tctgggacag acttcactct caccatcagc 1800

agactggagc ctgaagattt tgcagtgtat tactgtcagc ggtatggtac ctcaccgctc 1860

actttcggcg gagggaccaa ggtggagatc aaacgaactg tggctgcacc atctgtcttc 1920

atcttcccgc catctgatga gcagttgaaa tctggaactg cctctgttgt gtgcctgctg 1980

aataacttct atcccagaga ggccaaagta cagtggaagg tggataacgc cctccaatcg 2040

ggtaactccc aggagagtgt cacagagcag gacagcaagg acagcaccta cagcctcagc 2100

agcaccctga cgctgagcaa agcagactac gagaaacaca aagtctacgc ctgcgaagtc 2160

acccatcagg gcctgagctc gcccgtcaca aagagcttca acaggggaga gtgttaa 2217

<210> 120

<211> 2238

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 120

atgaagtggg taacctttct cctcctcctc ttcgtctccg gctctgcttt ttccaggggt 60

gtgtttcgcc gagaagcacc cgacatacag atgacgcagt ccccttccag cctcagcgca 120

tcagtggggg acagagtcac tatcacttgc agggcttctc agggcattag aaacaacttg 180

ggctggtacc aacagaagcc tctgaaggca cctaaacggt tgatttacgc cgccagctct 240

ttgcaatctg gggtgccttc cagattcagc ggctctggct caggaaccga atttaccctg 300

accattagca gcttgcaacc ggaggatttc gctacctact attgcttgca gtataataac 360

tatccctgga ccttcggtca aggtaccaag gtcgagataa agcggaccgt tgctgcccct 420

tctgtgttca tctttccccc ctcagatgaa cagcttaaga gcggaacggc aagtgtagta 480

tgccttctta ataatttcta ccctagagaa gccaaagttc agtggaaagt agataatgct 540

ttgcaaagcg gaaactctca agaatcagtt acagaacaag actccaaaga ctcaacatac 600

tcactttcat caacgctcac cctgtctaaa gccgattacg agaagcacaa agtttacgcc 660

tgtgaggtta cacatcaggg tctcagtagt cctgtgacta agtcttttaa ccggggggaa 720

tgcagaaaac ggaggggatc aggggcgact aacttttcat tgcttaagca agcaggagac 780

gtggaagaga atcccgggcc ccacagacct agacgtcgtg gaactcgtcc acctccactg 840

gcactgctcg ctgctctcct cctggctgca cgtggtgctg atgcacaggt ccagctcgtc 900

caatccgggg cggaagtcaa aaagagcggc tcatccgtca aggtctcctg taaggcctca 960

ggtgggacat ttagtagtta tgccatctcc tgggttcgcc aggctccggg acagggcttg 1020

gagtggatgg gtggaatcat accgatcttt ggtacaccct catacgcgca gaaattccaa 1080

gaccgcgtca cgatcacgac tgacgaatcc acgagcaccg tttacatgga gttgtcttca 1140

ctgagaagtg aggacactgc agtgtattat tgtgcaaggc agcagccagt gtaccaatat 1200

aatatggatg tctggggtca aggcaccacc gtgaccgtgt cctccgcctc caccaagggc 1260

ccatcggtct tccccctggc accctcctcc aagagcacct ctgggggcac agcggccctg 1320

ggctgcctgg tcaaggacta cttccccgaa ccggtgacgg tgtcgtggaa ctcaggcgcc 1380

ctgaccagcg gcgtgcacac cttcccggct gtcctacagt cctcaggact ctactccctc 1440

agcagcgtgg tgaccgtgcc ctccagcagc ttgggcaccc agacctacat ctgcaacgtg 1500

aatcacaagc ccagcaacac caaggtggac aagaaagttg agcccaaatc ttgtgacaaa 1560

actcacacat gcccaccgtg cccagcacct gaactcctgg ggggaccgtc agtcttcctc 1620

ttccccccaa aacccaagga caccctcatg atctcccgga cccctgaggt cacatgcgtg 1680

gtggtggacg tgagccacga agaccctgag gtcaagttca actggtacgt ggacggcgtg 1740

gaggtgcata atgccaagac aaagccgcgg gaggagcagt acaacagcac gtaccgtgtg 1800

gtcagcgtcc tcaccgtcct gcaccaggac tggctgaatg gcaaggagta caagtgcaag 1860

gtctccaaca aagccctccc agcccccatc gagaaaacca tctccaaagc caaagggcag 1920

ccccgagaac cacaggtgta caccctgccc ccatcccggg atgagctgac caagaaccag 1980

gtcagcctga cctgcctggt caaaggcttc tatcccagcg acatcgccgt ggagtgggag 2040

agcaatgggc agccggagaa caactacaag accacgcctc ccgtgctgga ctccgacggc 2100

tccttcttcc tctacagcaa gctcaccgtg gacaagagca ggtggcagca ggggaacgtc 2160

ttctcatgct ccgtgatgca tgaggctctg cacaaccact acacgcagaa gtccctctcc 2220

ctgtctccgg gtaaatga 2238

<210> 121

<211> 72

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 121

aaacagcaua gcaaguuaaa auaaggcuag uccguuauca acuugaaaaa guggcaccga 60

gucggugcuu uu 72

<210> 122

<211> 82

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 122

guuggaacca uucaaaacag cauagcaagu uaaaauaagg cuaguccguu aucaacuuga 60

aaaaguggca ccgagucggu gc 82

<210> 123

<211> 80

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 123

guuuuagagc uagaaauagc aaguuaaaau aaggcuaguc cguuaucaac uugaaaaagu 60

ggcaccgagu cggugcuuuu 80

<210> 124

<211> 92

<212> RNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 124

guuuaagagc uaugcuggaa acagcauagc aaguuuaaau aaggcuaguc cguuaucaac 60

uugaaaaagu ggcaccgagu cggugcuuuu uu 92

<210> 125

<211> 645

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 125

gacatccaga tgacccagtc tccatcctcc ctgtctgcat ctgtaggaga cagagtcacc 60

atcacttgcc gggcaagtca gagcattagc agctatttaa attggtatca gcagaaacca 120

gggaaagccc ctaagctcct gatctatgct gcatccagtt tgcaaagtgg ggtcccgtca 180

aggttcagtg gcagtggatc tgggacagat ttcactctca ccatcagcag tctgcaacct 240

gaagattttg caacttacta ctgtcaacag agttacagta cccctccgat caccttcggc 300

caagggacac gactggagat taaacgaact gtggctgcac catctgtctt catcttcccg 360

ccatctgatg agcagttgaa atctggaact gcctctgttg tgtgcctgct gaataacttc 420

tatcccagag aggccaaagt acagtggaag gtggataacg ccctccaatc gggtaactcc 480

caggagagtg tcacagagca ggacagcaag gacagcacct acagcctcag cagcaccctg 540

acgctgagca aagcagacta cgagaaacac aaagtctacg cctgcgaagt cacccatcag 600

ggcctgagct cgcccgtcac aaagagcttc aacaggggag agtgt 645

<210> 126

<211> 215

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 126

Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly

1 5 10 15

Asp Arg Val Thr Ile Thr Cys Arg Ala Ser Gln Ser Ile Ser Ser Tyr

20 25 30

Leu Asn Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Leu Leu Ile

35 40 45

Tyr Ala Ala Ser Ser Leu Gln Ser Gly Val Pro Ser Arg Phe Ser Gly

50 55 60

Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Leu Gln Pro

65 70 75 80

Glu Asp Phe Ala Thr Tyr Tyr Cys Gln Gln Ser Tyr Ser Thr Pro Pro

85 90 95

Ile Thr Phe Gly Gln Gly Thr Arg Leu Glu Ile Lys Arg Thr Val Ala

100 105 110

Ala Pro Ser Val Phe Ile Phe Pro Pro Ser Asp Glu Gln Leu Lys Ser

115 120 125

Gly Thr Ala Ser Val Val Cys Leu Leu Asn Asn Phe Tyr Pro Arg Glu

130 135 140

Ala Lys Val Gln Trp Lys Val Asp Asn Ala Leu Gln Ser Gly Asn Ser

145 150 155 160

Gln Glu Ser Val Thr Glu Gln Asp Ser Lys Asp Ser Thr Tyr Ser Leu

165 170 175

Ser Ser Thr Leu Thr Leu Ser Lys Ala Asp Tyr Glu Lys His Lys Val

180 185 190

Tyr Ala Cys Glu Val Thr His Gln Gly Leu Ser Ser Pro Val Thr Lys

195 200 205

Ser Phe Asn Arg Gly Glu Cys

210 215

<210> 127

<211> 1350

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 127

caggtccacc tggtgcagtc tgggccagag gtgaagaagc ctgggtcctc ggtgaaggtc 60

tcctgcaagg cttctggagt caccttcatc agtcatgcta tcagctgggt gcgacaggcc 120

cctggacaag ggcttgaatg ggtgggagga atcatcgcta tctttggtac aacaaactac 180

gcacagaagt tccagggcag agtcacggtt acaacggaca aatccacgaa cacagtctac 240

atggaattga gcagactgag atctgaggac acggccattt attactgtgc gcgaggtgag 300

acctactacg agggaaactt tgacttctgg ggccagggaa ccctggtcac cgtctcctca 360

gcctccacca agggcccatc ggtcttcccc ctggcaccct cctccaagag cacctctggg 420

ggcacagcgg ccctgggctg cctggtcaag gactacttcc ccgaaccggt gacggtgtcg 480

tggaactcag gcgccctgac cagcggcgtg cacaccttcc cggctgtcct acagtcctca 540

ggactctact ccctcagcag cgtggtgacc gtgccctcca gcagcttggg cacccagacc 600

tacatctgca acgtgaatca caagcccagc aacaccaagg tggacaagaa agttgagccc 660

aaatcttgtg acaaaactca cacatgccca ccgtgcccag cacctgaact cctgggggga 720

ccgtcagtct tcctcttccc cccaaaaccc aaggacaccc tcatgatctc ccggacccct 780

gaggtcacat gcgtggtggt ggacgtgagc cacgaagacc ctgaggtcaa gttcaactgg 840

tacgtggacg gcgtggaggt gcataatgcc aagacaaagc cgcgggagga gcagtacaac 900

agcacgtacc gtgtggtcag cgtcctcacc gtcctgcacc aggactggct gaatggcaag 960

gagtacaagt gcaaggtctc caacaaagcc ctcccagccc ccatcgagaa aaccatctcc 1020

aaagccaaag ggcagccccg agaaccacag gtgtacaccc tgcccccatc ccgggatgag 1080

ctgaccaaga accaggtcag cctgacctgc ctggtcaaag gcttctatcc cagcgacatc 1140

gccgtggagt gggagagcaa tgggcagccg gagaacaact acaagaccac gcctcccgtg 1200

ctggactccg acggctcctt cttcctctac agcaagctca ccgtggacaa gagcaggtgg 1260

cagcagggga acgtcttctc atgctccgtg atgcatgagg ctctgcacaa ccactacacg 1320

cagaagtccc tctccctgtc tccgggtaaa 1350

<210> 128

<211> 450

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 128

Gln Val His Leu Val Gln Ser Gly Pro Glu Val Lys Lys Pro Gly Ser

1 5 10 15

Ser Val Lys Val Ser Cys Lys Ala Ser Gly Val Thr Phe Ile Ser His

20 25 30

Ala Ile Ser Trp Val Arg Gln Ala Pro Gly Gln Gly Leu Glu Trp Val

35 40 45

Gly Gly Ile Ile Ala Ile Phe Gly Thr Thr Asn Tyr Ala Gln Lys Phe

50 55 60

Gln Gly Arg Val Thr Val Thr Thr Asp Lys Ser Thr Asn Thr Val Tyr

65 70 75 80

Met Glu Leu Ser Arg Leu Arg Ser Glu Asp Thr Ala Ile Tyr Tyr Cys

85 90 95

Ala Arg Gly Glu Thr Tyr Tyr Glu Gly Asn Phe Asp Phe Trp Gly Gln

100 105 110

Gly Thr Leu Val Thr Val Ser Ser Ala Ser Thr Lys Gly Pro Ser Val

115 120 125

Phe Pro Leu Ala Pro Ser Ser Lys Ser Thr Ser Gly Gly Thr Ala Ala

130 135 140

Leu Gly Cys Leu Val Lys Asp Tyr Phe Pro Glu Pro Val Thr Val Ser

145 150 155 160

Trp Asn Ser Gly Ala Leu Thr Ser Gly Val His Thr Phe Pro Ala Val

165 170 175

Leu Gln Ser Ser Gly Leu Tyr Ser Leu Ser Ser Val Val Thr Val Pro

180 185 190

Ser Ser Ser Leu Gly Thr Gln Thr Tyr Ile Cys Asn Val Asn His Lys

195 200 205

Pro Ser Asn Thr Lys Val Asp Lys Lys Val Glu Pro Lys Ser Cys Asp

210 215 220

Lys Thr His Thr Cys Pro Pro Cys Pro Ala Pro Glu Leu Leu Gly Gly

225 230 235 240

Pro Ser Val Phe Leu Phe Pro Pro Lys Pro Lys Asp Thr Leu Met Ile

245 250 255

Ser Arg Thr Pro Glu Val Thr Cys Val Val Val Asp Val Ser His Glu

260 265 270

Asp Pro Glu Val Lys Phe Asn Trp Tyr Val Asp Gly Val Glu Val His

275 280 285

Asn Ala Lys Thr Lys Pro Arg Glu Glu Gln Tyr Asn Ser Thr Tyr Arg

290 295 300

Val Val Ser Val Leu Thr Val Leu His Gln Asp Trp Leu Asn Gly Lys

305 310 315 320

Glu Tyr Lys Cys Lys Val Ser Asn Lys Ala Leu Pro Ala Pro Ile Glu

325 330 335

Lys Thr Ile Ser Lys Ala Lys Gly Gln Pro Arg Glu Pro Gln Val Tyr

340 345 350

Thr Leu Pro Pro Ser Arg Asp Glu Leu Thr Lys Asn Gln Val Ser Leu

355 360 365

Thr Cys Leu Val Lys Gly Phe Tyr Pro Ser Asp Ile Ala Val Glu Trp

370 375 380

Glu Ser Asn Gly Gln Pro Glu Asn Asn Tyr Lys Thr Thr Pro Pro Val

385 390 395 400

Leu Asp Ser Asp Gly Ser Phe Phe Leu Tyr Ser Lys Leu Thr Val Asp

405 410 415

Lys Ser Arg Trp Gln Gln Gly Asn Val Phe Ser Cys Ser Val Met His

420 425 430

Glu Ala Leu His Asn His Tyr Thr Gln Lys Ser Leu Ser Leu Ser Pro

435 440 445

Gly Lys

450

<210> 129

<211> 6

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 129

Gln Ser Ile Ser Ser Tyr

1 5

<210> 130

<211> 3

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 130

Ala Ala Ser

1

<210> 131

<211> 10

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 131

Gln Gln Ser Tyr Ser Thr Pro Pro Ile Thr

1 5 10

<210> 132

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 132

Gly Val Thr Phe Ile Ser His Ala

1 5

<210> 133

<211> 8

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 133

Ile Ile Ala Ile Phe Gly Thr Thr

1 5

<210> 134

<211> 13

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 134

Ala Arg Gly Glu Thr Tyr Tyr Glu Gly Asn Phe Asp Phe

1 5 10

<210> 135

<211> 18

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 135

cagagcatta gcagctat 18

<210> 136

<211> 9

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 136

gctgcatcc 9

<210> 137

<211> 30

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 137

caacagagtt acagtacccc tccgatcacc 30

<210> 138

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 138

ggagtcacct tcatcagtca tgct 24

<210> 139

<211> 24

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 139

atcatcgcta tctttggtac aaca 24

<210> 140

<211> 39

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 140

gcgcgaggtg agacctacta cgagggaaac tttgacttc 39

<210> 141

<211> 324

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 141

gacatccaga tgacccagtc tccatcctcc ctgtctgcat ctgtaggaga cagagtcacc 60

atcacttgcc gggcaagtca gagcattagc agctatttaa attggtatca gcagaaacca 120

gggaaagccc ctaagctcct gatctatgct gcatccagtt tgcaaagtgg ggtcccgtca 180

aggttcagtg gcagtggatc tgggacagat ttcactctca ccatcagcag tctgcaacct 240

gaagattttg caacttacta ctgtcaacag agttacagta cccctccgat caccttcggc 300

caagggacac gactggagat taaa 324

<210> 142

<211> 108

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 142

Asp Ile Gln Met Thr Gln Ser Pro Ser Ser Leu Ser Ala Ser Val Gly

1 5 10 15

Asp Arg Val Thr Ile Thr Cys Arg Ala Ser Gln Ser Ile Ser Ser Tyr

20 25 30

Leu Asn Trp Tyr Gln Gln Lys Pro Gly Lys Ala Pro Lys Leu Leu Ile

35 40 45

Tyr Ala Ala Ser Ser Leu Gln Ser Gly Val Pro Ser Arg Phe Ser Gly

50 55 60

Ser Gly Ser Gly Thr Asp Phe Thr Leu Thr Ile Ser Ser Leu Gln Pro

65 70 75 80

Glu Asp Phe Ala Thr Tyr Tyr Cys Gln Gln Ser Tyr Ser Thr Pro Pro

85 90 95

Ile Thr Phe Gly Gln Gly Thr Arg Leu Glu Ile Lys

100 105

<210> 143

<211> 360

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 143

caggtccacc tggtgcagtc tgggccagag gtgaagaagc ctgggtcctc ggtgaaggtc 60

tcctgcaagg cttctggagt caccttcatc agtcatgcta tcagctgggt gcgacaggcc 120

cctggacaag ggcttgaatg ggtgggagga atcatcgcta tctttggtac aacaaactac 180

gcacagaagt tccagggcag agtcacggtt acaacggaca aatccacgaa cacagtctac 240

atggaattga gcagactgag atctgaggac acggccattt attactgtgc gcgaggtgag 300

acctactacg agggaaactt tgacttctgg ggccagggaa ccctggtcac cgtctcctca 360

<210> 144

<211> 120

<212> PRT

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 144

Gln Val His Leu Val Gln Ser Gly Pro Glu Val Lys Lys Pro Gly Ser

1 5 10 15

Ser Val Lys Val Ser Cys Lys Ala Ser Gly Val Thr Phe Ile Ser His

20 25 30

Ala Ile Ser Trp Val Arg Gln Ala Pro Gly Gln Gly Leu Glu Trp Val

35 40 45

Gly Gly Ile Ile Ala Ile Phe Gly Thr Thr Asn Tyr Ala Gln Lys Phe

50 55 60

Gln Gly Arg Val Thr Val Thr Thr Asp Lys Ser Thr Asn Thr Val Tyr

65 70 75 80

Met Glu Leu Ser Arg Leu Arg Ser Glu Asp Thr Ala Ile Tyr Tyr Cys

85 90 95

Ala Arg Gly Glu Thr Tyr Tyr Glu Gly Asn Phe Asp Phe Trp Gly Gln

100 105 110

Gly Thr Leu Val Thr Val Ser Ser

115 120

<210> 145

<211> 3873

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<220>

<221> misc_feature

<222> (1)..(141)

<223> ITR

<220>

<221> misc_feature

<222> (204)..(467)

<223> hU6

<220>

<221> misc_feature

<222> (468)..(570)

<223> gRNA1

<220>

<221> misc_feature

<222> (610)..(709)

<223> SA

<220>

<221> misc_feature

<222> (712)..(1356)

<223> H1H11829N2 LC

<220>

<221> misc_feature

<222> (1357)..(1368)

<223> 弗林蛋白酶

<220>

<221> misc_feature

<222> (1369)..(1377)

<223> 接头

<220>

<221> misc_feature

<222> (1378)..(1431)

<223> T2A

<220>

<221> misc_feature

<222> (1432)..(1518)

<223> 具有ATG的mROR

<220>

<221> misc_feature

<222> (1519)..(2868)

<223> H1H11829N2 HC

<220>

<221> misc_feature

<222> (2880)..(3467)

<223> WPRE

<220>

<221> misc_feature

<222> (3480)..(3695)

<223> bGH PA

<220>

<221> misc_feature

<222> (3733)..(3873)

<223> ITR

<400> 145

cctgcaggca gctgcgcgct cgctcgctca ctgaggccgc ccgggcaaag cccgggcgtc 60

gggcgacctt tggtcgcccg gcctcagtga gcgagcgagc gcgcagagag ggagtggcca 120

actccatcac taggggttcc tgcgctagct gtacaaaaaa gcaggcttta aaggaaccaa 180

ttcagtcgac tggatccggt accaaggtcg ggcaggaaga gggcctattt cccatgattc 240

cttcatattt gcatatacga tacaaggctg ttagagagat aattagaatt aatttgactg 300

taaacacaaa gatattagta caaaatacgt gacgtagaaa gtaataattt cttgggtagt 360

ttgcagtttt aaaattatgt tttaaaatgg actatcatat gcttaccgta acttgaaagt 420

atttcgattt cttggcttta tatatcttgt ggaaaggacg aaacacctgc atctgagaac 480

ccttagggtt ttagagctag aaatagcaag ttaaaataag gctagtccgt tatcaacttg 540

aaaaagtggc accgagtcgg tgcttttttt ctagaccacc taagggttct cagatgcacc 600

cttacgcgtt aggtcagtga agagaagaac aaaaagcagc atattacagt tagttgtctt 660

catcaatctt taaatatgtt gtgtggtttt tctctccctg tttccacagc cgacatccag 720

atgacccagt ctccatcctc cctgtctgca tctgtaggag acagagtcac catcacttgc 780

cgggcaagtc agagcattag cagctattta aattggtatc agcagaaacc agggaaagcc 840

cctaagctcc tgatctatgc tgcatccagt ttgcaaagtg gggtcccgtc aaggttcagt 900

ggcagtggat ctgggacaga tttcactctc accatcagca gtctgcaacc tgaagatttt 960

gcaacttact actgtcaaca gagttacagt acccctccga tcaccttcgg ccaagggaca 1020

cgactggaga ttaaacgaac tgtggctgca ccatctgtct tcatcttccc gccatctgat 1080

gagcagttga aatctggaac tgcctctgtt gtgtgcctgc tgaataactt ctatcccaga 1140

gaggccaaag tacagtggaa ggtggataac gccctccaat cgggtaactc ccaggagagt 1200

gtcacagagc aggacagcaa ggacagcacc tacagcctca gcagcaccct gacgctgagc 1260

aaagcagact acgagaaaca caaagtctac gcctgcgaag tcacccatca gggcctgagc 1320

tcgcccgtca caaagagctt caacagggga gagtgtcgta aacgaagagg atccggggag 1380

ggccggggca gcctgctgac ctgcggagac gtggaggaga accctggccc catgcacaga 1440

cctagacgtc gtggaactcg tccacctcca ctggcactgc tcgctgctct cctcctggct 1500

gcacgtggtg ctgatgcaca ggtccacctg gtgcagtctg ggccagaggt gaagaagcct 1560

gggtcctcgg tgaaggtctc ctgcaaggct tctggagtca ccttcatcag tcatgctatc 1620

agctgggtgc gacaggcccc tggacaaggg cttgaatggg tgggaggaat catcgctatc 1680

tttggtacaa caaactacgc acagaagttc cagggcagag tcacggttac aacggacaaa 1740

tccacgaaca cagtctacat ggaattgagc agactgagat ctgaggacac ggccatttat 1800

tactgtgcgc gaggtgagac ctactacgag ggaaactttg acttctgggg ccagggaacc 1860

ctggtcaccg tctcctcagc ctccaccaag ggcccatcgg tcttccccct ggcaccctcc 1920

tccaagagca cctctggggg cacagcggcc ctgggctgcc tggtcaagga ctacttcccc 1980

gaaccggtga cggtgtcgtg gaactcaggc gccctgacca gcggcgtgca caccttcccg 2040

gctgtcctac agtcctcagg actctactcc ctcagcagcg tggtgaccgt gccctccagc 2100

agcttgggca cccagaccta catctgcaac gtgaatcaca agcccagcaa caccaaggtg 2160

gacaagaaag ttgagcccaa atcttgtgac aaaactcaca catgcccacc gtgcccagca 2220

cctgaactcc tggggggacc gtcagtcttc ctcttccccc caaaacccaa ggacaccctc 2280

atgatctccc ggacccctga ggtcacatgc gtggtggtgg acgtgagcca cgaagaccct 2340

gaggtcaagt tcaactggta cgtggacggc gtggaggtgc ataatgccaa gacaaagccg 2400

cgggaggagc agtacaacag cacgtaccgt gtggtcagcg tcctcaccgt cctgcaccag 2460

gactggctga atggcaagga gtacaagtgc aaggtctcca acaaagccct cccagccccc 2520

atcgagaaaa ccatctccaa agccaaaggg cagccccgag aaccacaggt gtacaccctg 2580

cccccatccc gggatgagct gaccaagaac caggtcagcc tgacctgcct ggtcaaaggc 2640

ttctatccca gcgacatcgc cgtggagtgg gagagcaatg ggcagccgga gaacaactac 2700

aagaccacgc ctcccgtgct ggactccgac ggctccttct tcctctacag caagctcacc 2760

gtggacaaga gcaggtggca gcaggggaac gtcttctcat gctccgtgat gcatgaggct 2820

ctgcacaacc actacacgca gaagtccctc tccctgtctc cgggtaaata ggtttaaact 2880

caacctctgg attacaaaat ttgtgaaaga ttgactggta ttcttaacta tgttgctcct 2940

tttacgctat gtggatacgc tgctttaatg cctttgtatc atgctattgc ttcccgtatg 3000

gctttcattt tctcctcctt gtataaatcc tggttgctgt ctctttatga ggagttgtgg 3060

cccgttgtca ggcaacgtgg cgtggtgtgc actgtgtttg ctgacgcaac ccccactggt 3120

tggggcattg ccaccacctg tcagctcctt tccgggactt tcgctttccc cctccctatt 3180

gccacggcgg aactcatcgc cgcctgcctt gcccgctgct ggacaggggc tcggctgttg 3240

ggcactgaca attccgtggt gttgtcgggg aaatcatcgt cctttccttg gctgctcgcc 3300

tgtgttgcca cctggattct gcgcgggacg tccttctgct acgtcccttc ggccctcaat 3360

ccagcggacc ttccttcccg cggcctgctg ccggctctgc ggcctcttcc gcgtcttcgc 3420

cttcgccctc agacgagtcg gatctccctt tgggccgcct ccccgcagaa ttcctgcagc 3480

tagttgccag ccatctgttg tttgcccctc ccccgtgcct tccttgaccc tggaaggtgc 3540

cactcccact gtcctttcct aataaaatga ggaaattgca tcgcattgtc tgagtaggtg 3600

tcattctatt ctggggggtg gggtggggca ggacagcaag ggggaggatt gggaagacaa 3660

tagcaggcat gctggggatg cggtgggctc tatggaggtg gccacctaag ggttctcaga 3720

tgcagcggcc gcaggaaccc ctagtgatgg agttggccac tccctctctg cgcgctcgct 3780

cgctcactga ggccgggcga ccaaaggtcg cccgacgccc gggctttgcc cgggcggcct 3840

cagtgagcga gcgagcgcgc agctgcctgc agg 3873

<210> 146

<211> 2157

<212> DNA

<213> 人工序列(Artificial Sequence)

<220>

<223> 合成

<400> 146

gacatccaga tgacccagtc tccatcctcc ctgtctgcat ctgtaggaga cagagtcacc 60

atcacttgcc gggcaagtca gagcattagc agctatttaa attggtatca gcagaaacca 120

gggaaagccc ctaagctcct gatctatgct gcatccagtt tgcaaagtgg ggtcccgtca 180

aggttcagtg gcagtggatc tgggacagat ttcactctca ccatcagcag tctgcaacct 240

gaagattttg caacttacta ctgtcaacag agttacagta cccctccgat caccttcggc 300

caagggacac gactggagat taaacgaact gtggctgcac catctgtctt catcttcccg 360

ccatctgatg agcagttgaa atctggaact gcctctgttg tgtgcctgct gaataacttc 420

tatcccagag aggccaaagt acagtggaag gtggataacg ccctccaatc gggtaactcc 480

caggagagtg tcacagagca ggacagcaag gacagcacct acagcctcag cagcaccctg 540

acgctgagca aagcagacta cgagaaacac aaagtctacg cctgcgaagt cacccatcag 600

ggcctgagct cgcccgtcac aaagagcttc aacaggggag agtgtcgtaa acgaagagga 660

tccggggagg gccggggcag cctgctgacc tgcggagacg tggaggagaa ccctggcccc 720

atgcacagac ctagacgtcg tggaactcgt ccacctccac tggcactgct cgctgctctc 780

ctcctggctg cacgtggtgc tgatgcacag gtccacctgg tgcagtctgg gccagaggtg 840

aagaagcctg ggtcctcggt gaaggtctcc tgcaaggctt ctggagtcac cttcatcagt 900

catgctatca gctgggtgcg acaggcccct ggacaagggc ttgaatgggt gggaggaatc 960

atcgctatct ttggtacaac aaactacgca cagaagttcc agggcagagt cacggttaca 1020

acggacaaat ccacgaacac agtctacatg gaattgagca gactgagatc tgaggacacg 1080

gccatttatt actgtgcgcg aggtgagacc tactacgagg gaaactttga cttctggggc 1140

cagggaaccc tggtcaccgt ctcctcagcc tccaccaagg gcccatcggt cttccccctg 1200

gcaccctcct ccaagagcac ctctgggggc acagcggccc tgggctgcct ggtcaaggac 1260

tacttccccg aaccggtgac ggtgtcgtgg aactcaggcg ccctgaccag cggcgtgcac 1320

accttcccgg ctgtcctaca gtcctcagga ctctactccc tcagcagcgt ggtgaccgtg 1380

ccctccagca gcttgggcac ccagacctac atctgcaacg tgaatcacaa gcccagcaac 1440

accaaggtgg acaagaaagt tgagcccaaa tcttgtgaca aaactcacac atgcccaccg 1500

tgcccagcac ctgaactcct ggggggaccg tcagtcttcc tcttcccccc aaaacccaag 1560

gacaccctca tgatctcccg gacccctgag gtcacatgcg tggtggtgga cgtgagccac 1620

gaagaccctg aggtcaagtt caactggtac gtggacggcg tggaggtgca taatgccaag 1680

acaaagccgc gggaggagca gtacaacagc acgtaccgtg tggtcagcgt cctcaccgtc 1740

ctgcaccagg actggctgaa tggcaaggag tacaagtgca aggtctccaa caaagccctc 1800

ccagccccca tcgagaaaac catctccaaa gccaaagggc agccccgaga accacaggtg 1860

tacaccctgc ccccatcccg ggatgagctg accaagaacc aggtcagcct gacctgcctg 1920

gtcaaaggct tctatcccag cgacatcgcc gtggagtggg agagcaatgg gcagccggag 1980

aacaactaca agaccacgcc tcccgtgctg gactccgacg gctccttctt cctctacagc 2040

aagctcaccg tggacaagag caggtggcag caggggaacg tcttctcatg ctccgtgatg 2100

catgaggctc tgcacaacca ctacacgcag aagtccctct ccctgtctcc gggtaaa 2157

217页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:昆虫诱捕系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!