用于改进的基因编辑的组合物和方法

文档序号:1926463 发布日期:2021-12-03 浏览:18次 >En<

阅读说明:本技术 用于改进的基因编辑的组合物和方法 (Compositions and methods for improved gene editing ) 是由 M·马雷斯卡 S·李 于 2020-04-09 设计创作,主要内容包括:本披露提供了在靶细胞中引入位点特异性突变的方法和确定能够引入位点特异性突变的酶的功效的方法。本披露还提供了提供双等位基因序列整合的方法,将目标序列整合到细胞基因组中的基因座中的方法,以及在细胞中引入稳定的附加型载体的方法。本披露进一步提供了产生对白喉毒素有抗性的人类细胞的方法。(The present disclosure provides methods of introducing site-specific mutations in target cells and methods of determining the efficacy of enzymes capable of introducing site-specific mutations. The disclosure also provides methods of providing biallelic sequence integration, methods of integrating a sequence of interest into a locus in the genome of a cell, and methods of introducing a stable episomal vector into a cell. The disclosure further provides methods of generating human cells that are resistant to leukolaryngeal toxins.)

用于改进的基因编辑的组合物和方法

技术领域

本披露提供了在靶细胞中引入位点特异性突变的方法和确定能够引入位点特异性突变的酶的功效的方法。本披露还提供了提供双等位基因序列整合的方法,将目标序列整合到细胞基因组中的基因座中的方法,以及在细胞中引入稳定的附加型载体的方法。本披露进一步提供了产生对白喉毒素有抗性的人类细胞的方法。

背景技术

通过可编程的位点特异性核酸酶诸如锌指核酸酶(ZFN)、转录激活物样效应核酸酶(TALEN)和RNA引导的Cas9进行的靶向核酸修饰是研究基因功能非常有前景的方法,并且还具有为遗传性疾病提供新治疗剂的巨大潜力。通常,可编程核酸酶在靶序列处产生双链断裂(DSB)。然后可以经由非同源末端连接(NHEJ)途径用突变来修复DSB,或者可以经由同源定向修复(HDR)途径用同时引入的模板替换裂解位点周围的DNA。关于靶向核酸修饰的综述,参见例如,Humbert等人,Crit Rev Biochem Mol Biol[生物化学与分子生物学批判性评论](2012)47:264-281;Perez-Pinera等人,Curr Opin Chem Biol[化学生物学新见](2012)16:268-277;以及Pan等人,Mol Biotechnol[分子生物技术](2013)55:54-62。

依赖NHEJ和HDR的缺点包括例如HDR的低效率和NHEJ的不希望的脱靶活性。HDR的低效率对精确的中靶修饰的选择提出了特别的挑战(参见,例如,Humbert等人,Crit RevBiochem Mol Biol[生物化学与分子生物学批判性评论](2012)47:264-281;Peng等人,FEBSJ[欧洲生物化学学会联合会杂志](2016)283:1218-1231;Liu等人,J Biol Chem[生物化学杂志](2017)292:5624-5633)。使HDR偏向NHEJ的各种努力包括,例如,在靶DNA中产生一个或多个单链切口而不是DSB(参见,例如,Richardson等人,Nature Biotechnol[自然·生物技术](2016)34:339-344;Kocher等人,Mol Ther[分子疗法](2017)25:2585-2598)。然而,本领域仍然需要改进的对HDR事件的选择,例如当需要双等位基因整合或基因沉默(通常用HDR模板实现)时尤其如此。

虽然HDR与NHEJ相比较不易出错,但是HDR仍然易于产生与靶向修饰竞争的不期望的修饰。因此,最近出现了碱基编辑作为一种强有力的、精确的基因编辑技术,该技术有利于基因组中特定位置的单碱基对取代。与用于位点特异性修饰的基于HDR的方法相比,碱基编辑提供了更有效的引入单核苷酸突变的方式,从而克服了与HDR相关的一些限制。碱基编辑涉及单个DNA碱基的位点特异性修饰,以及对天然DNA修复机制的操纵以避免对经修饰碱基的忠实修复。碱基编辑器通常是嵌合蛋白,其包括DNA靶向模块和能够脱氨基,例如使胞苷碱基脱氨基为胸腺嘧啶或使腺嘌呤碱基脱氨基为鸟嘌呤的催化结构域。例如,DNA靶向模块可以基于由向导RNA分子(sgRNA或gRNA)引导的无催化活性的Cas9(dCas9)或Cas9切口酶变体(Cas9n)。催化结构域可以是胞苷脱氨酶或腺嘌呤脱氨酶。不需要产生DSB来编辑DNA碱基,从而限制了在靶位点和脱靶位点处产生插入和缺失(indel)。因此,碱基编辑不依赖于细胞HDR机制,并因此比HDR更有效并且导致较少的NHEJ不精确修饰。工程化碱基编辑系统在例如Gaudelli等人,Nature[自然](2017)551:464-471;Rees等人,Nature Comm[自然-通讯](2017)8:15790;Billon等人,Mol Cell[分子细胞](2017)67:1068-1079;以及Zafra等人,Nat Biotechnol[自然生物技术](2018)36:888-893中由描述。关于碱基编辑的综述,参见例如Hess等人,Mol Cell[分子细胞](2017)68:26-43;Eid等人,Biochem J[生物化学杂志](2018)475:1955-1964;以及Komor等人,ACS Chem Biol[美国化学学会化学生物学杂志](2018)13:383-388。

因为许多遗传性疾病可归因于基因组中特定位置的特定核苷酸变化(例如,与疾病相关的基因的特定密码子中C向T的变化),所以碱基编辑可用作有前景的治疗基于单一核苷酸变体的遗传病症的治疗方法。然而,尽管相对于传统CRISPR/Cas9编辑有所改进,但是碱基编辑效率仍然是低至中等的并且还存在基因组上的不一致性问题。因此,在本领域中仍然需要具有更高效率的改进的碱基编辑系统。

本文引用了各种出版物,这些出版物的披露内容通过援引以其全文并入本文。

发明内容

在一些实施例中,本披露提供了一种在细胞群体中的靶细胞中的靶多核苷酸中引入位点特异性突变的方法,该方法包括:(a)向该细胞群体中引入:(i)碱基编辑酶;(ii)第一向导多核苷酸,该第一向导多核苷酸(1)与编码细胞毒性剂(CA)受体的基因杂交,并且(2)与该碱基编辑酶形成第一复合物,其中该第一复合物的该碱基编辑酶在该编码CA受体的基因中提供突变,并且其中该编码CA受体的基因中的该突变在该细胞群体中形成CA抗性细胞;和(iii)第二向导多核苷酸,该第二向导多核苷酸(1)与该靶多核苷酸杂交,并且(2)与该碱基编辑酶形成第二复合物,其中该第二复合物的该碱基编辑酶在该靶多核苷酸中提供突变;(b)使该细胞群体与该CA接触;以及(c)从该细胞群体中选择该CA抗性细胞,从而富集在该靶多核苷酸中包含该突变的靶细胞。

在一些实施例中,本披露提供了一种确定碱基编辑酶在细胞群体中的功效的方法,该方法包括:(a)向该细胞群体中引入:(i)碱基编辑酶;(ii)第一向导多核苷酸,该第一向导多核苷酸(1)与编码细胞毒性剂(CA)受体的基因杂交,并且(2)与该碱基编辑酶形成第一复合物,其中该第一复合物的该碱基编辑酶在该编码CA受体的基因中引入突变,并且其中该编码CA受体的基因中的该突变在该细胞群体中形成CA抗性细胞;和(iii)第二向导多核苷酸,该第二向导多核苷酸(1)与该靶多核苷酸杂交,并且(2)与该碱基编辑酶形成第二复合物,其中该第二复合物的该碱基编辑酶在该靶多核苷酸中引入突变;(b)使该细胞群体与该CA接触以分离CA抗性细胞;以及(c)通过确定这些CA抗性细胞与该总细胞群体的比率来确定该碱基编辑酶的功效。

在一些实施例中,该碱基编辑酶包含DNA靶向结构域和DNA编辑结构域。

在一些实施例中,该DNA靶向结构域包含Cas9。在一些实施例中,该Cas9在催化结构域中包含突变。在一些实施例中,该碱基编辑酶包含无催化活性的Cas9和DNA编辑结构域。在一些实施例中,该碱基编辑酶包含能够产生单链DNA断裂的Cas9(nCas9)和DNA编辑结构域。在一些实施例中,该nCas9相对于野生型Cas9在氨基酸残基D10或H840处包含突变(相对于SEQ ID NO:3编号)。在一些实施例中,该Cas9与SEQ ID NO:3或4具有至少90%同一性。

在一些实施例中,该DNA编辑结构域包含脱氨酶。在一些实施例中,该脱氨酶是胞苷脱氨酶或腺苷脱氨酶。在一些实施例中,该脱氨酶是胞苷脱氨酶。在一些实施例中,该脱氨酶是腺苷脱氨酶。在一些实施例中,该脱氨酶是载脂蛋白B mRNA编辑复合物(APOBEC)脱氨酶、活化诱导性胞苷脱氨酶(AID)、ACF1/ASE脱氨酶、ADAT脱氨酶或ADAR脱氨酶。在一些实施例中,该脱氨酶是载脂蛋白BmRNA编辑复合物(APOBEC)家族脱氨酶。在一些实施例中,该脱氨酶是APOBECl。

在一些实施例中,该碱基编辑酶进一步包含DNA糖基化酶抑制剂结构域。在一些实施例中,该DNA糖基化酶抑制剂是尿嘧啶DNA糖基化酶抑制剂(UGI)。在一些实施例中,该碱基编辑酶包括nCas9和胞苷脱氨酶。在一些实施例中,该碱基编辑酶包括nCas9和腺苷脱氨酶。在一些实施例中,该碱基编辑酶包含与SEQ ID NO:6具有至少90%同一性的多肽序列。在一些实施例中,该碱基编辑酶是BE3。

在一些实施例中,该第一向导多核苷酸和/或该第二向导多核苷酸是RNA多核苷酸。在一些实施例中,该第一向导多核苷酸和/或该第二向导多核苷酸进一步包含tracrRNA序列。

在一些实施例中,该细胞群体是人类细胞。

在一些实施例中,该编码CA受体的基因中的该突变是胞苷(C)向胸腺嘧啶(T)的点突变。在一些实施例中,该编码CA受体的基因中的该突变是腺嘌呤(A)向鸟嘌呤(G)的点突变。

在一些实施例中,CA是白喉毒素。在一些实施例中,该细胞毒性剂(CA)受体是白喉毒素的受体。在一些实施例中,该CA受体是一种肝素结合性EGF样生长因子(HB-EGF)。在一些实施例中,该HB-EGF包含SEQ ID NO:8的多肽序列。

在一些实施例中,该第一复合物的该碱基编辑酶在HB-EGF中的氨基酸107至148中的一个或多个中提供突变。在一些实施例中,该第一复合物的该碱基编辑酶在HB-EGF中的氨基酸138至144中的一个或多个中提供突变。在一些实施例中,该第一复合物的该碱基编辑酶在HB-EGF中的氨基酸141中提供突变。在一些实施例中,该第一复合物的该碱基编辑酶在HB-EGF的氨基酸序列中提供GLU141向LYS141的突变。

在一些实施例中,该第一复合物的该碱基编辑酶在结合白喉毒素的HB-EGF区域提供突变。在一些实施例中,该第一复合物的该碱基编辑酶在HB-EGF中提供使得该靶细胞对白喉毒素具有抗性的突变。在一些实施例中,该靶多核苷酸中的该突变是该靶多核苷酸中胞苷(C)向胸腺嘧啶(T)的点突变。在一些实施例中,该靶多核苷酸中的该突变是该靶多核苷酸中腺嘌呤(A)向鸟嘌呤(G)的点突变。

在一些实施例中,该碱基编辑酶作为编码该碱基编辑酶的多核苷酸引入该细胞群体中。在一些实施例中,编码该碱基编辑酶的该多核苷酸、(ii)的该第一向导多核苷酸和(iii)的该第二向导多核苷酸处于单个载体上。在一些实施例中,编码该碱基编辑酶的该多核苷酸、(ii)的该第一向导多核苷酸和(iii)的该第二向导多核苷酸处于一个或多个载体上。在一些实施例中,该载体是病毒载体。在一些实施例中,该病毒载体是腺病毒、慢病毒或腺相关病毒。

在一些实施例中,本披露提供了一种向细胞基因组中的毒素敏感基因(TSG)基因座中提供目标序列(SOI)的双等位基因整合的方法,该方法包括:(a)向细胞群体中引入:(i)能够产生双链断裂的核酸酶;(ii)与该核酸酶形成复合物并且能够与该TSG基因座杂交的向导多核苷酸;和(iii)供体多核苷酸,该供体多核苷酸包含:(1)5’同源臂、3’同源臂和该TSG的天然编码序列中的突变,其中该突变赋予对该毒素的抗性;和(2)该SOI;其中(i)、(ii)和(iii)的引入导致该供体多核苷酸整合到该TSG基因座中;(b)使该细胞群体与该毒素接触;以及(c)选择对该毒素有抗性的一个或多个细胞,其中对该毒素有抗性的该一个或多个细胞包含该SOI的双等位基因整合。

在一些实施例中,该供体多核苷酸通过同源定向修复(HDR)进行整合。在一些实施例中,该供体多核苷酸通过非同源末端连接(NHEJ)进行整合。

在一些实施例中,TSG基因座包含内含子和外显子。在一些实施例中,该供体多核苷酸进一步包含剪接受体序列。在一些实施例中,该能够产生双链断裂的核酸酶在该内含子中产生断裂。在一些实施例中,该TSG的天然编码序列中的该突变处于该TSG基因座的外显子中。

在一些实施例中,本披露提供了一种将目标序列(SOI)整合到细胞基因组中的靶基因座中的方法,该方法包括:(a)向细胞群体中引入:(i)能够产生双链断裂的核酸酶;(ii)与该核酸酶形成复合物并且能够与该细胞基因组中的毒素敏感基因(TSG)基因座杂交的向导多核苷酸,其中该TSG是必需基因;和(iii)供体多核苷酸,该供体多核苷酸包含:(1)在该TSG的天然编码序列中包含突变的功能性TSG基因,其中该突变赋予对该毒素的抗性,(2)该SOI,和(3)用于在靶基因座处基因组整合的序列;其中(i)、(ii)和(iii)的引入导致:该细胞基因组中的该TSG被该核酸酶灭活,并且该供体多核苷酸整合到该靶基因座中;(b)使该细胞群体与该毒素接触;以及(c)选择对该毒素有抗性的一个或多个细胞,其中对该毒素有抗性的该一个或多个细胞包含整合在该靶基因座中的该SOI。

在一些实施例中,用于基因组整合的该序列是从转座子或逆转录病毒载体获得的。

在一些实施例中,该供体多核苷酸的功能性TSG或附加型载体对该核酸酶的灭活作用有抗性。在一些实施例中,该TSG的天然编码序列中的该突变从天然编码序列中去除前间隔序列邻近基序。在一些实施例中,该向导多核苷酸不能与该供体多核苷酸的功能性TSG或该附加型载体杂交。

在一些实施例中,该能够产生双链断裂的核酸酶是Cas9。在一些实施例中,该Cas9能够产生粘性末端。在一些实施例中,该Cas9包含SEQ ID NO:3或4的多肽序列。

在一些实施例中,该向导多核苷酸是RNA多核苷酸。在一些实施例中,该向导多核苷酸进一步包含tracrRNA序列。

在一些实施例中,该供体多核苷酸是载体。在一些实施例中,该TSG的天然编码序列中的该突变是取代突变、插入或缺失。在一些实施例中,该TSG的天然编码序列中的该突变是该TSG编码的蛋白质的毒素结合区中的突变。在一些实施例中,该TSG基因座包含编码肝素结合性EGF样生长因子(HB-EGF)的基因。在一些实施例中,该TSG编码HB-EGF(SEQ IDNO:8)。

在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中氨基酸107至148中的一个或多个中的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中氨基酸138至144中的一个或多个中的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中氨基酸141中的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中GLU141向LYS141的突变。

在一些实施例中,该毒素是白喉毒素。在一些实施例中,该TSG的天然编码序列中的该突变使得该细胞对白喉毒素具有抗性。在一些实施例中,该毒素是抗体-药物缀合物,其中该TSG编码该抗体-药物缀合物的受体。

在一些实施例中,本披露提供了一种在人类细胞中提供对白喉毒素的抗性的方法,该方法包括向该细胞中引入:(i)碱基编辑酶;和(ii)靶向人类细胞中的肝素结合性EGF样生长因子(HB-EGF)受体的向导多核苷酸,其中该碱基编辑酶与该向导多核苷酸形成复合物,并且其中该碱基编辑酶靶向该HB-EGF并且在该HB-EGF中提供位点特异性突变,从而在人类细胞中提供对白喉毒素的抗性。

在一些实施例中,该碱基编辑酶包含DNA靶向结构域和DNA编辑结构域。

在一些实施例中,该DNA靶向结构域包含Cas9。在一些实施例中,该Cas9在催化结构域中包含突变。在一些实施例中,该碱基编辑酶包含无催化活性的Cas9和DNA编辑结构域。在一些实施例中,该碱基编辑酶包含能够产生单链DNA断裂的Cas9(nCas9)和DNA编辑结构域。在一些实施例中,该nCas9相对于野生型Cas9在氨基酸残基D10或H840处包含突变(相对于SEQ ID NO:3编号)。在一些实施例中,该Cas9与SEQ ID NO:3或4具有至少90%同一性。

在一些实施例中,该DNA编辑结构域包含脱氨酶。在一些实施例中,该脱氨酶选自胞苷脱氨酶和腺苷脱氨酶。在一些实施例中,该脱氨酶是胞苷脱氨酶。在一些实施例中,该脱氨酶是腺苷脱氨酶。在一些实施例中,该脱氨酶选自载脂蛋白B mRNA编辑复合物(APOBEC)脱氨酶、活化诱导性胞苷脱氨酶(AID)、ACF1/ASE脱氨酶、ADAT脱氨酶和TadA脱氨酶。在一些实施例中,该脱氨酶是载脂蛋白B mRNA编辑复合物(APOBEC)家族脱氨酶。在一些实施例中,该胞苷脱氨酶是APOBEC1。在一些实施例中,该碱基编辑酶进一步包含DNA糖基化酶抑制剂结构域。在一些实施例中,该DNA糖基化酶抑制剂是尿嘧啶DNA糖基化酶抑制剂(UGI)。

在一些实施例中,该碱基编辑酶包括nCas9和胞苷脱氨酶。在一些实施例中,该碱基编辑酶包括nCas9和腺苷脱氨酶。在一些实施例中,该碱基编辑酶包含与SEQ ID NO:6具有至少90%同一性的多肽序列。在一些实施例中,该碱基编辑酶是BE3。

在一些实施例中,该向导多核苷酸是RNA多核苷酸。在一些实施例中,该向导多核苷酸进一步包含tracrRNA序列。

在一些实施例中,该位点特异性突变处于该HB-EGF(SEQ ID NO:8)中氨基酸107至148中的一个或多个中。在一些实施例中,该位点特异性突变处于该HB-EGF(SEQ ID NO:8)中氨基酸138至144中的一个或多个中。在一些实施例中,该位点特异性突变处于该HB-EGF(SEQ ID NO:8)中的氨基酸141中。在一些实施例中,该位点特异性突变是该HB-EGF(SEQ IDNO:8)中GLU141向LYS141的突变。在一些实施例中,该位点特异性突变处于该HB-EGF的结合白喉毒素的区域中。

在一些实施例中,本披露提供了一种将目标序列(SOI)整合并富集到细胞基因组中的靶基因座中的方法,该方法包括:(a)向细胞群体中引入:(i)能够产生双链断裂的核酸酶;(ii)与该核酸酶形成复合物并且能够与该细胞的基因组中的必需基因(ExG)基因座杂交的向导多核苷酸;和(iii)供体多核苷酸,该供体多核苷酸包含:(1)在该ExG的天然编码序列中包含突变的功能性ExG基因,其中该突变赋予对该向导多核苷酸的灭活作用的抗性,(2)该SOI,和(3)用于在靶基因座处基因组整合的序列;其中(i)、(ii)和(iii)的引入导致该细胞基因组中的该ExG被该核酸酶灭活,并且该供体多核苷酸整合到该靶基因座中;(b)培育这些细胞;以及(c)选择一个或多个存活细胞,其中该一个或多个存活细胞包含整合在该靶基因座处的该SOI。

在一些实施例中,本披露提供了一种将稳定的附加型载体引入细胞中的方法,该方法包括:(a)向细胞群体中引入:(i)能够产生双链断裂的核酸酶;(ii)与该核酸酶形成复合物并且能够与该细胞的基因组中的必需基因(ExG)基因座杂交的向导多核苷酸;其中(i)和(ii)的引入导致该细胞基因组中的该ExG被该核酸酶灭活;和(iii)附加型载体,该附加型载体包含:(1)在该ExG的天然编码序列中包含突变的功能性ExG,其中该突变赋予对该核酸酶的灭活作用的抗性,(2)自主DNA复制序列;(b)培育这些细胞;以及(c)选择一个或多个存活细胞,其中该一个或多个存活细胞包含该附加型载体。

在一些实施例中,该ExG的天然编码序列中的突变从天然编码序列中去除前间隔序列邻近基序。在一些实施例中,该向导多核苷酸不能与该供体多核苷酸的功能性ExG或该附加型载体杂交。

在一些实施例中,该能够产生双链断裂的核酸酶是Cas9。在一些实施例中,该Cas9能够产生粘性末端。在一些实施例中,该Cas9包含SEQ ID NO:3或4的多肽序列。

在一些实施例中,该向导多核苷酸是RNA多核苷酸。在一些实施例中,该向导多核苷酸进一步包含tracrRNA序列。

在一些实施例中,该供体多核苷酸是载体。在一些实施例中,该ExG的天然编码序列中的该突变是取代突变、插入或缺失。

在一些实施例中,用于基因组整合的该序列是从转座子或逆转录病毒载体获得的。在一些实施例中,该附加型载体是人工染色体或质粒。

在一些实施例中,将一个以上的向导多核苷酸引入该细胞群体中,其中每个向导多核苷酸都与该核酸酶形成复合物,并且其中每个向导多核苷酸都与该ExG的不同区域杂交。

在一些实施例中,该方法进一步包括将(a)(i)的该核酸酶和(a)(ii)的该向导多核苷酸引入这些存活细胞中以富集包含整合在该靶基因座处的该SOI的存活细胞。在一些实施例中,该方法进一步包括将(a)(i)的该核酸酶和(a)(ii)的该向导多核苷酸引入这些存活细胞中以富集包含该附加型载体的存活细胞。在一些实施例中,将(a)(i)的该核酸酶和(a)(ii)的该向导多核苷酸引入这些存活细胞中以进行多轮富集。

附图说明

图1A示出了具有经过碱基编辑的靶位点和选择位点的示例性细胞。在没有选择策略的情况下,仅低百分比的所得细胞群体具有所需的“编辑”位点。在有如本文所提供的共靶向和选择策略的情况下,所得细胞群体的大部分具有所需的“编辑”位点。

图1B示出了通过平铺通过HB-EGF的EGF样结构域并确定产生白喉毒素抗性的向导RNA来选择用于靶向HB-EGF的向导RNA。

图1C示出了在用(对照)和不用(富集)白喉毒素选择策略的情况下各种细胞系中PCSK9和BFP的编辑效率的比较。在白喉毒素选择后,PCSK9或BFP编辑的细胞群体显著增加。

图2示出了BE3碱基编辑器,其包括nCas9、APOBEC1和UGI。BE3可以与靶gRNA和选择gRNA复合。利用靶标和选择gRNA导致对具有经编辑的靶标的细胞的富集。

图3A由Slonczewski,JL和Foster,JW,“第25章微生物发病机理(MicrobialPathogenesis).”Microbiology:An Evolving Science[微生物学:进化科学].纽约W.W.诺顿公司(New York:W.W.Norton),2011描述。图3A示出白喉毒素引起细胞死亡的机制。

图3B由Mitamura等人,J Biol Chem[生物化学杂志]270:1015-1019(1995)描述。图3B是人(hHB-EGF)和小鼠(mHB-EGF)HB-EGF蛋白的多肽序列的序列比对。

图4A和图4B分别示出了通过平铺通过HB-EGF的EGF样结构域并确定产生白喉毒素抗性的向导RNA来选择用于靶向HEK293和HCT116细胞中的HB-EGF的向导RNA。图4C示出了图4A和图4B中的各种gRNA的设计。

图5A示出了gRNA 16的序列(加下划线)。

图5B和5C分别示出了在HCT116和HEK293细胞中使用gRNA16在HB-EGF中的三个不同位置的编辑效率。

图5D示出了在白喉毒素选择中所有存活的HEK293细胞的氨基酸突变模式。在最高百分比(44.13%)的细胞中发生的突变仅编码一个氨基酸改变,即位置141处的谷氨酸取代为赖氨酸。

图6由Louie等人,Molecular Cell[分子细胞]1(1):67-78(1997)描述并且示出了HB-EGF的结构。E141残基由图5所示的gRNA 16靶向。

图7A和图7B分别示出了在HCT116细胞和HEK293细胞中,在用(富集)和不用白喉选择(对照)的情况下,在PCSK9靶位点处产生终止密码子的编辑效率。在用白喉选择的情况下,编辑效率提高。图7C示出了gRNA的靶向pCKS9的序列(加下划线)。

图7D示出了在HEK293细胞中分别在用(富集)和不用白喉选择(对照)的情况下,在DPM2、EGFR、EMX1和Yas85靶位点处产生终止密码子或引入SNP的编辑效率。在用白喉选择的情况下,编辑效率提高。图7E示出了gRNA的靶向DPM2、EGFR、EMX1和Yas85的序列。

图8A示出了在用(对照)和不用(富集)白喉毒素选择的情况下,在HEK293和HCT116细胞中在PCSK9靶位点处产生的indel的百分比。gRNA的序列与图7C中描述的序列相同。图8B示出了在用(对照)和不用(富集)白喉毒素选择的情况下,在HEK293细胞中在DPM2、EMX1和Yas85靶位点处产生的indel的百分比。gRNA的序列如图7E所示。使用白喉毒素选择显著地增加了indel的百分比(编辑效率)。

图9A说明了本文提供的方法的实施例。将靶向白喉毒素受体(DTR)和待编辑的目标基因(GOI)的CRISPR-Cas9复合物引入细胞中,其在细胞表面上表达DTR。然后将细胞暴露于白喉毒素(DTA)。其中成功引入CRISPR-Cas9复合物的细胞具有经编辑的DTR和所需的经编辑的GOI(用星号表示)。这些细胞不表达DTR并且在DTA处理后存活。未进行编辑的细胞表达DTR并且在DTA处理后死亡。

图9B说明了具有对白喉毒素敏感的人源化肝脏的小鼠,该小鼠然后可以使用本文提供的选择方法进行编辑和富集。

图10A说明了用于目标基因(GOI)的双等位基因整合的示例性方法。在图10A中,野生型HB-EGF在内含子处被CRISPR-Cas9复合物剪切。还引入了包括剪接受体序列、具有白喉毒素抗性突变的HB-EGF和GOI的HDR模板。白喉毒素选择产生了具有白喉毒素抗性突变和GOI的细胞。

图10B和图10C示出了白喉毒素选择后GOI插入(敲入)的结果。将具有mCherry的T2A自裂解肽(T2A)作为GOI进行测试。具有成功插入的细胞将mCherry与突变的HB-EGF基因一起翻译,并且这些细胞将显示mCherry荧光。在白喉毒素选择后,几乎所有用Cas9、gRNASaW10和mCherry HDR模板转染的细胞都是mCherry阳性的(图10B),并且mCherry的表达在整个群体中是同质的(图10C)。

图10D、图10E和图10F示出了通过图10A所述的方法产生的GOI敲入细胞的策略和PCR分析结果。

图10D示出了PCR分析策略。PCR1用结合基因组中的序列的正向引物(PCR1_F引物)和结合GOI中的序列的反向引物(PCR1_R引物)扩增接合区。只有具有整合的GOI的细胞才会显示出阳性条带,如图10E所示。PCR2用结合插入的5’末端中的序列的正向引物(PCR2_F引物)和结合插入的3’末端处的序列的反向引物(PCR2_R引物)扩增插入区。扩增仅在细胞中的所有等位基因都随GOI一起成功插入时发生,并且扩增产物将显示为单一整体条带,如图10F所示。如果存在任何野生型等位基因,则将显示野生型(WT)条带,如图10F所示。图10E显示用该方法成功地实现了插入,并且图10F显示在测试细胞中不存在野生型等位基因,表明双等位基因整合。“条件1”、“条件2”和“条件3”对应于表2中描述的Cas9质粒、gRNA质粒和敲入质粒的不同重量比。“Neg”对应于表2中描述的阴性对照1。

图11由Grawunder和Barth(编辑),下一代抗体药物缀合物(ADC)和免疫毒素(NextGeneration Antibody Drug Conjugates(ADCs)and Immunotoxins),Springer,2017;doi:10.1007/978-3-319-46877-8描述。图11示出了本文所述的抗体-药物缀合物(ADC)的实例。在本文提供的方法的实施例中,ADC是细胞毒性剂,并且ADC抗体的受体是受体。

图12说明了用包含目标基因(GOI)的载体选择细胞的示例性方法。CRISPR-Cas9复合物靶向白喉毒素受体(DTR)并产生导致细胞死亡的DTR敲除。还将具有对毒素具有抗性且对Cas9裂解具有抗性的DTR(表示为DTR*)和GOI的载体引入细胞中。通过白喉毒素进行选择导致没有经过编辑的DTR或没有该载体的细胞死亡。存活细胞具有经过编辑的基因组DTR以及带有DTR*和GOI的载体。载体可以是附加型载体或作为质粒、转座子或逆转录病毒载体整合。

图13说明了用包含目标基因(GOI)的载体选择细胞的示例性方法。CRISPR-Cas9复合物靶向必需基因(ExG)并产生导致细胞死亡的ExG的敲除。还将具有对Cas9裂解具有抗性的ExG(表示为ExG*)和GOI的载体引入细胞。存活细胞具有经过编辑的基因组ExG以及带有ExG*和GOI的载体。载体可以是附加型载体或作为质粒、转座子或逆转录病毒载体整合。

图14-22示出了实施中描述的质粒的图谱。

图14示出了表达实例3中使用的BE3碱基编辑酶的质粒。

图15示出了实例3中使用的表达Cas9的质粒。

图16示出了实例3中使用的表达对照gRNA的质粒。

图17示出了实例3中使用的表达DPM2的gRNA的质粒。

图18示出了实例3中使用的表达EMX1的gRNA的质粒。

图19示出了实例3中使用的表达PCSK9的gRNA的质粒。

图20示出了实例4中使用的表达SaW10的gRNA的质粒。

图21示出了实例3中使用的表达HB-EGF gRNA 16的gRNA的质粒。

图22示出了实例4中使用的用于将mCherry插入目标位点的供体质粒。

图23A-23O示出了如本文和Hart等人,Cell[细胞]163:1515-1526(2015)中描述的必需基因的列表,以及每个基因的登录号。

图24A-24C和图25A-25D涉及实例6。图24A示出了CBE3或ABE7.10靶向以筛选DT抗性突变的sgRNA位点的示意图。cDNA和hHBEGF分别显示编码人HBEGF蛋白的EGF样结构域的DNA序列及其相应的氨基酸序列。mHBEGF显示小鼠HBEGF同源物的比对氨基酸序列。mHBEGF中匹配的氨基酸示为点,而不匹配的氨基酸加有注释。人HBEGF蛋白中氨基酸的位置示于mHBEGF下方。选择突出显示的sgRNA以引入分别具有CBE3和ABE7.10的抗性突变。图24B示出了碱基编辑器和sgRNA的每种组合的DT选择后细胞的活力。用CBE3或ABE7.10连同每个单独的sgRNA一起转染HEK293细胞,然后进行DT处理。再生长细胞的细胞活力通过AlarmarBlue测定法定量。图24C示出了CBE或ABE编辑后DT抗性细胞中抗性等位基因的频率。首先用编码CBE和sgRNA10的质粒或编码ABE和sgRNA5的质粒转染HEK293细胞,然后从转染后72小时开始用DT进行选择。收获存活细胞并通过NGS分析。按照Komor的方法分析每个等位基因的频率。值代表独立生物重复的平均数(n=3)。

图25A示出了来自不同物种的HBEGF同源物的比对。图25B示出了抗性氨基酸取代突出显示的HBEGF蛋白结构。“上部”突出显示的氨基酸是由CBE3/sgRNA10对引入的抗性取代,而“下部”突出显示的氨基酸是由ABE7.10/sgRNA5对引入的抗性取代。图25C示出了在用CBE3/sgRNA10对或ABE7.10/sgRNA5对产生的DT抗性群体中观察到的indel频率。图25D示出了HEK293野生型细胞(HEK293wt)和分别由CBE3/sgRNA10(HEK293 CBE3/sgRNA10)、ABE7.10/sgRNA5(HEK293 ABE7.10/sgRNA5)和pHMEJ Xential(HEK293 Xential)产生的DT抗性细胞的细胞增殖曲线。在96孔板中测量细胞增殖并通过IncuCyte S3活细胞分析系统(埃森生物科学(Essen BioScience))定量。

图26A-26E涉及实例7。图26A示出了DT-HBEGF共选择策略的示意图。图26B示出了胞苷碱基编辑事件的共选择结果。HEK293细胞用CBE3、sgRNA10和靶向第二基因组基因座的sgRNA共转染,并且从转染后72小时开始在用(富集)或不用(非富集)DT选择的情况下进行培育。当细胞变得汇合时收获基因组DNA,并通过NGS分析C-T转化百分比。图26C示出了不同细胞系中CBE共选择的结果。将靶向PCSK9的CBE3/sgRNA、靶向PCSK9的CBE3/sgRNA、靶向BFP的CBE3/sgRNA分别转染到HCT116、HEK293和PC9-BFP细胞中。从用DT(20ng/mL)选择或未选择的细胞中提取基因组DNA,并通过Amplicon-Seq分析。图26D示出了腺苷碱基编辑事件的共选择结果。HEK293细胞用ABE7.10、sgRNA5和靶向第二基因组基因座的sgRNA染,并且从转染后72小时开始在用(富集)或不用(非富集)DT选择的情况下进行培育,直至汇合。从这些细胞中收获基因组DNA,并通过NGS分析A-G转化百分比。图26E示出了与SpCas9编辑事件共选择的结果。HEK293细胞用SpCas9、sgRNA10和靶向第二基因组基因座的sgRNA共转染,并且从转染后72小时开始在用(富集)或不用(非富集)DT选择的情况下进行培育,直至汇合。从这些细胞收获基因组DNA并通过NGS分析indel频率。值和误差条反映n=3个独立生物重复的平均值±s.d.。图中指示了相对倍数变化。*P<0.05,**P<0.01,***P<0.001,学生配对t检验。

图27A-27E涉及实例8。图27A示出了用野生型HBEGF和HBEGFE141K处理的细胞中p44/42MAPK和磷酸-p44/42MAPK的蛋白质印迹(Western blot)分析。p44/42MAPK的磷酸化代表EGFR活化的一个主要下游信号传导。值和误差条反映n=3个独立生物重复的平均值±s.d.。图27B示出了敲入富集策略的示意性描述。图27C示出了各种模板及其相应设计的敲入效率的结果。HEK293细胞用SpCas9、sgRNAIn3和各修复模板共转染,接着从转染后72小时开始在用(富集)或不用(非富集)DT选择的情况下进行培育。通过流式细胞术分析每个样品的mCherry/GFP百分比。修复模板以质粒(pHMEJ、pHR或pNHEJ)、双链DNA(dsHDR、dsHMEJ、dsHR2)或单链DNA(ssHR)的形式提供。设计这些模板以通过同源介导的末端连接(pHMEJ和dsHMEJ)、同源重组(pHR、dsHR、ssHR、dsHR2)或非同源末端连接(pNHEJ)并入靶位点中。图27D示出了嘌呤霉素和DT富集的敲入群体的比较。上图示出了实验中使用的修复模板的设计。将嘌呤霉素抗性基因和mCherry基因融合至修复模板中的突变HBEGF基因,并且预期会共转录和共翻译。左下图示出了在没有或有不同处理的情况下经过编辑的HEK293细胞群体的mCherry直方图。HEK239细胞用SpCas9、sgRNAIn3和修复模板转染,接着从转染后72小时开始进行培育(非富集)或者用DT(DT富集)或嘌呤霉素(Puro富集)进行选择。阴性对照代表用人类基因组中没有任何靶基因座的对照sgRNA而不是sgRNAIn3转染的细胞。通过流式细胞术分析细胞。右下图示出了每个群体的相应敲入效率和平均荧光强度。图27E示出了从图27C和图27D中汇总的实验获得的每个细胞群体的PCR分析结果。上图示出了两项PCR分析的设计。对PCR1进行设计以确认插入。设计正向引物和反向引物以分别结合侧翼基因组区和插入区。如果细胞含有正确的插入,则靶条带将被扩增。设计PCR2以检测群体中的野生型细胞。设计正向引物和反向引物以分别结合插入位点的左右侧翼基因组区。中间的图示出了用pHMEJ模板对图27C中汇总的实验中获得的细胞的基因组DNA进行的PCR分析。下图示出了对图27D中汇总的实验中获得的细胞的基因组DNA进行的PCR分析。在两项分析中,阴性对照代表用对照sgRNA而不是sgRNAIn3转染的细胞。值和误差条反映n=3个独立生物重复的平均值±s.d.。

图28A-28F涉及实例9。图28A示出了共选择敲除事件和在HBEGF基因座具有精确敲入的敲入事件的实验策略。图28B示出了HEK293细胞中SpCas9 indel的共选择结果。用SpCas9、sgRNAIn3、HBEGF基因座的pHMEJ修复模板和靶向第二基因组基因座的sgRNA共转染细胞。然后从转染后72小时开始,在用(富集)或不用DT(非富集)选择的情况下培育细胞,直至汇合。从收获的细胞中提取基因组DNA并通过NGS分析。图28C示出了HEK293细胞中第二基因座HIST2BC处的敲入事件的共选择结果。用SpCas9、sgRNA和HBEGF与HIST2BC基因座两者的修复模板共转染细胞。应用pHR和pHMEJ模板两者。应用不同比率的HBEGF基因座与HIST2BC基因座的sgRNA和模板的量。N/A表示未使用相应组件。从转染后72小时开始,在用(富集)或不用(非富集)DT选择的情况下培育细胞并通过流式细胞术分析。值和误差条反映n=3个独立生物重复的平均值±s.d.。图中指示了相对倍数变化。*P<0.05,**P<0.01,***P<0.001,学生配对t检验。图28D示出了代表性直方图,表明共选择敲除事件的Xential存活群体保持mCherry表达。将每种靶sgRNA与SpCas9、sgRNAIn3和靶向HBEGF基因座的pHMEJ共转染到HEK293细胞中。图28E示出了代表性散点图,表明共选择敲入事件的Xential存活群体保持mCherry表达。将pHMEJ和靶向HIST2BC基因座的sgRNA与SpCas9、sgRNAIn3和靶向HBEGF基因座的pHMEJ以不同重量比共转染到HEK293细胞中。通过流式细胞术分析经DT选择的和未选择的细胞。图28F示出了寡核苷酸敲入事件的Xential共选择的结果。将寡核苷酸模板和靶向CD34基因座的sgRNA分别与SpCas9、sgRNAIn3和靶向HBEGF基因座的pHMEJ一起转染或共转染到HEK293细胞中。从经过选择和未选择的细胞中提取基因组DNA并通过Amplicon-Seq进行分析。

图29A-29D涉及实例10。图29A示出了CBE编辑事件的共选择结果。用CBE3、sgRNA10和靶向第二基因组基因座的sgRNA共转染iPSC,并且从转染后72小时开始在用(富集)或不用DT选择(非富集)的情况下培育,直至汇合。之后,从这些细胞中提取基因组DNA并通过NGS分析。图29B示出了ABE编辑事件的共选择结果。用ABE7.10、sgRNA5和靶向第二基因组基因座的sgRNA共转染iPSC,并且从转染后72小时开始在用(富集)或不用DT选择(非富集)的情况下进行培育,直至汇合。之后,从这些细胞中提取基因组DNA并通过NGS分析。图29C示出了HBEGF基因座处的敲入事件的富集结果。用SpCas9、sgRNAIn3和HBEGF基因座的pHMEJ模板共转染iPSC,并且从转染后72小时开始在用(富集)或不用DT选择(非富集)的情况下进行培育。之后,通过流式细胞术分析细胞。左图示出了非富集样品和富集样品的流式细胞术散点图,并且右图示出了敲入细胞的定量频率。值和误差条反映n=3个独立生物重复的平均值±S.d.。图中指示了相对倍数变化。*P<0.05,**P<0.01,***P<0.001,学生配对t检验。图29D示出了具有Xential敲入的iPSC的PCR分析结果。如实例9中所述进行PCR分析以区分向HBEGF内含子3中的成功敲入(PCR1)和野生型序列(PCR2)。将实验图29C中获得的细胞的基因组DNA用作PCR模板。阴性对照代表用对照sgRNA而不是sgRNAIn3转染的细胞。

图30涉及实例11。图6示出了在原代T细胞中CBE编辑事件的共选择结果。从人血中分离总CD4+原代T细胞并用CBE3蛋白、合成sgRNA10和靶向第二基因组基因座的合成sgRNA进行电穿孔。然后从电穿孔后24小时开始,在用(富集)或不用DT选择(非富集)的情况下培育这些原代T细胞9天。之后,从这些细胞中提取基因组DNA并通过NGS分析。值和误差条反映n=3个独立生物重复的平均值±s.α.。图中指示了相对倍数变化。*P<0.05,**P<0.01,***P<0.001,学生配对t检验。

图31A-31C涉及实例12。图31A示出了体内共富集实验设计的示意图。所应用的腺病毒设计用于引入CBE、sgRNA10和靶向Pcsk9的sgRNA。在达到实验终点时,处死小鼠并从小鼠肝脏中提取基因组DNA并通过NGS分析。图31B示出了HBEGF基因座处CBE编辑的富集结果。图31C示出了Pcsk9基因座处CBE编辑事件的共选择结果。值和误差条反映n=3个独立生物重复的平均值±s.d.。图中指示了相对倍数变化。*P<0.05,**P<0.01,学生配对t检验。

具体实施方式

本披露提供了在靶细胞中引入位点特异性突变的方法和确定能够引入位点特异性突变的酶的功效的方法。本披露还提供了提供双等位基因序列整合的方法,将目标序列整合到细胞基因组中的基因座中的方法,以及在细胞中引入稳定的附加型载体的方法。本披露进一步提供了产生对白喉毒素有抗性的人类细胞的方法。

定义

如本文所用,“一个/一种(a或an)”可以意指一个/种或多个/种。如本文说明书和一项或多项权利要求中所用,当与单词“包含”结合使用时,单词“一个/种”可以意指一个/种或多于一个/种。如本文所用,“另一个/种”可以意指至少第二个/种或更多个/种。

在整个本申请中,术语“约”用于指示值包括被采用以确定值的方法/装置的误差的固有变化,或者研究受试者之间存在的变化。典型地,该术语意指涵盖近似于或小于1%、2%、3%、4%、5%、6%、7%、8%、9%、10%、11%、12%、13%、14%、15%、16%、17%、18%、19%或20%变化,这取决于具体情况。

权利要求中使用术语“或”用于意指“和/或”,除非明确指示仅指替代方案或替代方案是相互排斥的,尽管本披露支持仅是指替代方案和“和/或”的定义。

如本说明书和权利要求书中所用,词语“包含(comprising)”(和任何形式的包含,诸如“包含(comprise)”和“包含(comprises)”)、“具有(having)”(和任何形式的具有,诸如“具有(have)”和“具有(has)”)、“包括(including)”(和任何形式的包括,诸如“包括(includes)”和“包括(include)”),或“含有(containing)”(以及任何形式的含有,诸如“含有(contains)”和“含有(contain)”)是包括性的或开放式的并且不排除其他未叙述的要素或方法步骤。考虑到本说明书中讨论的任何实施例可以相对于本披露的任何方法、系统、宿主细胞、表达载体和/或组合物实施。此外,本披露的组合物、系统、宿主细胞和/或载体可用于实现本披露的方法和蛋白质。

术语“例如”及其对应的简称“如”(无论是否斜体)的使用意味着所列举的特定术语是本披露的代表性实例和实施例,并不旨在限于所引用或列举的特定实例,除非另有明确说明。

“核酸”、“核酸分子”、“核苷酸”、“核苷酸序列”、“寡核苷酸”或“多核苷酸”意指包括共价连接的核苷酸的聚合化合物。术语“核酸”包括核糖核酸(RNA)和脱氧核糖核酸(DNA),两者都可以是单链或双链的。DNA包括但不限于互补DNA(cDNA)、基因组DNA、质粒或载体DNA和合成DNA。在一些实施例中,本披露提供了编码本文披露的任何一种多肽的多核苷酸,例如,本披露涉及编码Cas蛋白或其变体的多核苷酸。

“基因”是指编码多肽的核苷酸的组装,并且包括cDNA和基因组DNA核酸分子。“基因”还指可以充当编码序列之前(5’非编码序列)和之后(3’非编码序列)的调控序列的核酸片段。

当单链形式的核酸分子可在适合的温度和溶液离子强度条件下退火至另一核酸分子上时,核酸分子与该另一核酸分子(诸如cDNA、基因组DNA或RNA)“可杂交”或“杂交”。杂交和洗涤条件是已知的并且在Sambrook等人,分子克隆:实验室手册(Molecular Cloning:A Laboratory Manual),第二版,冷泉港实验室出版社(Cold Spring Harbor LaboratoryPress),冷泉港(Cold Spring Harbor)(1989),特别是其中第11章和表11.1中举例说明。温度和离子强度条件决定了杂交的“严格性”。可以调整严格条件以筛选适度类似的片段(如来自远缘生物体的同源序列),至高度类似的片段(如复制来自近缘生物体的功能性酶的基因)。为了初步筛选同源核酸,可以使用对应于55℃的Tm的低严格性杂交条件,例如,5XSSC、0.1%SDS、0.25%牛奶和不含甲酰胺;或30%甲酰胺,5XSSC,0.5%SDS。中等严格性杂交条件对应于较高的Tm,例如,40%甲酰胺和5X或6XSCC。高严格性杂交条件对应于最高的Tm,例如,50%甲酰胺,5X或6XSCC。杂交需要两个核酸包含互补序列,但取决于杂交的严格性,碱基之间可能存在错配。

术语“互补的”用于描述能够彼此杂交的核苷酸碱基之间的关系。例如,对于DNA,腺苷与胸腺嘧啶互补,而胞嘧啶与鸟嘌呤互补。因此,本披露还包括与本文披露或使用的完整序列互补的分离核酸片段以及那些基本上相似的核酸序列。

DNA“编码序列”是双链DNA序列,当置于适当调控序列的控制下时,该双链DNA序列在体外细胞中或体内被转录并翻译成多肽。“合适的调控序列”是指位于编码序列上游(5’非编码序列)、内部或下游(3’非编码序列),并且影响转录、RNA加工或稳定性或相关编码序列的翻译的核苷酸序列。调控序列可包括启动子、翻译前导序列、内含子、聚腺苷酸化识别序列、RNA加工位点、效应子结合位点和茎环结构。该编码序列的边界由5’(氨基)末端处的起始密码子和3’(羧基)末端处的翻译终止密码子确定。编码序列可以包括但不限于原核序列、来自mRNA的cDNA、基因组DNA序列,甚至是合成DNA序列。如果编码序列旨在在真核细胞中表达,则多腺苷酸化信号和转录终止序列通常存在于该编码序列的3’端。

“天然编码序列”通常是指基因组中的野生型序列;“天然编码序列”还可以指与野生型序列基本上相似,例如与野生型序列具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的序列相似性的序列。

“开放阅读框”的缩写为ORF,意指包括翻译起始信号或起始密码子(诸如ATG或AUG)以及终止密码子并且可能被翻译成多肽序列的一段核酸序列(DNA、cDNA或RNA)。

术语“同源重组”是指将外来DNA序列插入到另一个DNA分子中,例如,将载体插入染色体中。在一些情况下,该载体靶向特定的染色体位点以进行同源重组。对于特定的同源重组,该载体通常含有与染色体序列具有同源性的足够长的区域,以允许载体与染色体的互补结合和将载体掺入染色体。更长的同源性区域和更大程度的序列相似性可提高同源重组的效率。

根据本文的披露内容,可以使用本领域已知的方法来扩增多核苷酸。一旦建立了合适的宿主系统和生长条件,就可以大量扩增和制备重组表达载体。如本文所述,可以使用的表达载体包括但不限于以下载体或其衍生物:人类或动物病毒,诸如牛痘病毒或腺病毒;昆虫病毒,诸如杆状病毒;酵母载体;噬菌体载体(例如,λ),以及质粒和粘粒DNA载体。

如本文所用,“可操作地连接”意指目标多核苷酸(例如编码Cas9蛋白的多核苷酸)以允许该多核苷酸序列表达的方式连接至调控元件。在一些实施例中,该调控元件是启动子。在一些实施例中,目的多核苷酸可操作地连接至表达载体上的启动子。

如本文所用,“启动子”,“启动子序列”或“启动子区”是指能够结合RNA聚合酶并涉及起始下游编码或非编码序列的转录的DNA调节区/序列。在本披露的一些实例中,启动子序列包括转录起始位点并向上游延伸以包括以高于背景可检测水平起始转录所使用的最少数目的碱基或元件。在一些实施例中,启动子序列包括转录起始位点,以及负责RNA聚合酶结合的蛋白质结合结构域。真核启动子通常但并非总是包含多个“TATA”盒和“CAT”盒。各种启动子,包括诱导型启动子,可用于驱动本披露的各种载体。

“载体”是用于将核酸克隆和/或转移至宿主细胞中的任何工具。载体可以是可能与另一个DNA区段附接的复制子,这样以便产生附接区段的复制。“复制子”是任意一种遗传因子(例如,质粒、噬菌体、粘粒、染色体、病毒),它充当DNA体内复制的自动单元,即在其自我控制下能复制。在本披露的一些实施例中,载体是附加型载体,即能够自主复制的非整合的染色体外质粒。在一些实施例中,附加型载体包括自主DNA复制序列,即能够使载体复制的序列,通常包括复制起点(OriP)。在一些实施例中,自主DNA复制序列是骨架/基质附着区(S/MAR)。在一些实施例中,自主DNA复制序列是病毒OriP。附加型载体可以在许多细胞世代后,例如通过不对称分配从细胞群体中去除或丢失。在一些实施例中,该附加型载体是稳定的附加型载体并且保留在细胞中,即不会从细胞中丢失。在一些实施例中,该附加型载体是人工染色体或质粒。在一些实施例中,该附加型载体包含自主DNA复制序列。基因组工程和基因疗法中使用的附加型载体的实例源自乳多空病毒科(Papovaviridae),包括猿猴病毒40(SV40)和BK病毒;疱疹病毒科(Herpesviridae),包括牛乳头瘤病毒1(BPV-1)、卡波西肉瘤相关疱疹病毒(KSHV)和EB病毒(EBV);以及人干扰素β基因的S/MAR区。在一些实施例中,该附加型载体是人工染色体。在一些实施例中,该附加型载体是微型染色体。附加型载体在例如van craenenbroeck等人,Eur J Biochem[欧洲生物化学杂志]267:5665-5678(2000),以及Lufino等人,Mol Ther[分子疗法]16(9):1525-1538(2008)中有进一步描述。

术语“载体”包括用于在体外、离体或体内将该核酸引入细胞中的病毒性和非病毒工具。本领域已知的大量载体可用于操纵核酸,将应答元件和启动子并入基因中,等等。可能的载体包括例如质粒或经修饰的病毒,包括例如噬菌体诸如λ衍生物,或质粒诸如PBR322或pUC质粒衍生物,或Bluescript载体。例如,将对应于应答元件和启动子的DNA片段插入到合适的载体中可以通过将适当的DNA片段连接到具有互补粘性末端的所选载体中来实现。替代性地,可以酶促修饰DNA分子的末端,或者可以通过将核苷酸序列(接头)连接到DNA末端来产生任何位点。此类载体可以工程化为含有选择性标记基因,这些选择性标记基因提供对已经将标记整合到细胞基因组中的细胞的选择。此类标记允许鉴定和/或选择并入和表达由该标记编码的蛋白质的宿主细胞。

病毒载体,特别是逆转录病毒载体,已经用于细胞以及活体动物的许多种基因递送应用中。可以使用的病毒载体包括但不限于逆转录病毒、腺病毒腺相关病毒、痘病毒、杆状病毒、牛痘病毒、单纯疱疹病毒、爱泼斯坦-巴尔病毒、腺病毒、双生病毒和花椰菜花叶病毒载体。逆转录病毒载体以通过促进所需序列插入基因组而用于基因疗法的工具的形式出现。逆转录病毒基因组(例如,鼠白血病病毒(MLV)、猫白血病病毒(FLV)或属于逆转录病毒科(Retroviridae)的任何病毒)包括位于病毒基因侧翼的长末端重复(LTR)序列。在病毒感染宿主后,LTR被整合酶识别,整合酶将病毒基因组整合到宿主基因组中。用于靶向基因插入的逆转录病毒载体不具有任何病毒基因,而具有待插入LTR之间的所需序列。LTR被整合酶识别并且将所需序列整合到宿主细胞的基因组中。关于逆转录病毒载体的进一步细节可见于,例如,Kurian等人,Mol Pathol[分子病理学]53(4):173-176;以及Vargas等人,JTranslMed[转化医学杂志]14:288(2016)。

非病毒载体包括但不限于质粒、脂质体、带电脂质(细胞转染素)、DNA-蛋白质复合物和生物聚合物。除核酸外,载体还可包括一个或多个调节区和/或用于选择、测量和监测核酸转移结果(转移至哪个组织、表达持续时间等)的选择性标记。

在载体上可以包括转座子和转座元件。转座子是可移动遗传元件,其包括由转座酶识别的侧翼重复序列,然后转座酶从其基因组的基因座切除转座子并将其插入另一基因组基因座(通常称为“剪切和粘贴”机制)。已经通过使待插入的所需序列侧接转座酶可识别的重复序列,使转座子适于基因组工程。重复序列可统称为“转座子序列”。在一些实施例中,在载体上包括转座子序列和待插入的所需序列,转座子序列被转座酶识别,然后所需序列可通过转座酶整合到基因组中。在例如,Pray,Nature Education[自然教育]1(1):204,(2008);Vargas等人,J Transl Med[转化医学杂志]14:288(2016);以及VandenDriessche等人,Blood[血液]114(8):1461-1468(2009)中描述了转座子。转座子序列的非限制性实例包括睡美人(sleeping beauty,SB)、piggyBac(PB)和Tol2转座子。

可以通过已知的方法将载体引入希望的宿主细胞中,这些方法包括但不限于转染、转导、细胞融合和脂质转染。载体可包括各种调控元件,包括启动子。在一些实施例中,载体设计可以基于由Mali等人,Nature Methods[自然方法]10:957-63(2013)设计的构建体。在一些实施例中,本披露提供了包括本文所述的任何多核苷酸的表达载体,例如,包括编码Cas蛋白或其变体的多核苷酸的表达载体。在一些实施例中,本披露提供了包括编码Cas9蛋白或其变体的多核苷酸的表达载体。

术语“质粒”是指额外的染色体元件,该元件通常携带不参与细胞的中央代谢的基因,并且通常呈环状双链DNA分子的形式。此类元件可以是来源于任何来源的单链或双链DNA或RNA的线性、环状或超螺旋自主复制序列、基因组整合序列、噬菌体或核苷酸序列,其中许多核苷酸序列已连接或重组到独特结构中,该独特结构能够将针对选定基因产物的启动子片段和DNA序列连同适当的3’未翻译序列引入到细胞中。

如本文所用,“转染”意指将外源核酸分子(包括载体)引入细胞。“转染的”细胞在细胞内部包括外源核酸分子,而“转化的”细胞是其中细胞内的外源核酸分子诱导细胞表型变化的细胞。转染的核酸分子可以整合到宿主细胞的基因组DNA中和/或可以被细胞暂时或长时间地维持在染色体外。表达外源核酸分子或片段的宿主细胞或生物体被称为“重组”、“转化”或“转基因”生物体。在一些实施例中,本披露提供了包括本文所述的任何表达载体(例如,包括编码Cas蛋白或其变体的多核苷酸的表达载体)的宿主细胞。在一些实施例中,本披露提供了包括表达载体的宿主细胞,该表达载体包括编码Cas9蛋白或其变体的多核苷酸。

术语“宿主细胞”是指其中已引入了重组表达载体的细胞。术语“宿主细胞”不仅指其中引入了表达载体的细胞(“亲本”细胞),还指这种细胞的后代。因为修饰可能例如由于突变或环境影响而在后代中发生,所以后代可能与亲本细胞不同,但仍包括在术语“宿主细胞”的范围内。

术语“肽”、“多肽”和“蛋白质”在本文中可互换使用,是指任何长度的氨基酸的聚合形式,这些聚合形式可以包括编码和非编码的氨基酸、经化学或生物化学修饰或衍生的氨基酸和具有经修饰的肽骨架的多肽。

蛋白质或多肽的起点称为“N末端”(或氨基末端、NH2末端、N末端或胺末端),是指蛋白质或多肽的第一个氨基酸残基的游离胺(-NH2)基团。蛋白质或多肽的末端称为“C末端”(或羧基末端、羧基末端、C末端或COOH末端),是指蛋白质或肽的最后一个氨基酸残基的游离羧基(-COOH)。

如本文所用,“氨基酸”是指包括羧基(-COOH)和氨基(-NH2)两者的化合物。“氨基酸”是指天然和非天然(即合成)氨基酸。天然氨基酸及其三个字母和一个字母的缩写包括:丙氨酸(Ala;A);精氨酸(Arg,R);天冬酰胺(Asn;N);天冬氨酸(Asp;D);半胱氨酸(Cys;C);谷氨酰胺(Gln;Q);谷氨酸(Glu;E);甘氨酸(Gly;G);组氨酸(His;H);异亮氨酸(Ile;I);亮氨酸(Leu;L);赖氨酸(Lys;K);蛋氨酸(Met;M);苯丙氨酸(Phe;F);脯氨酸(Pro;P);丝氨酸(Ser;S);苏氨酸(Thr;T);色氨酸(Trp;W);酪氨酸(Tyr;Y);以及缬氨酸(Val;V)。

“氨基酸取代”是指包括一个或多个野生型或天然存在的氨基酸被相对于该野生型或天然存在的氨基酸不同的氨基酸在该氨基酸残基处取代的多肽或蛋白质。被取代的氨基酸可以是合成或天然存在的氨基酸。在一些实施例中,被取代的氨基酸是选自下组的天然存在的氨基酸,该组由以下组成:A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y和V。取代突变体可以使用缩写体系进行描述。例如,第五(第5)个氨基酸残基被取代的取代突变可以缩写为“X5Y”,其中“X”是被代替的野生型或天然存在的氨基酸,“5”是该蛋白质或多肽的氨基酸序列内氨基酸残基的位置,“Y”是被取代的或非野生型或非天然存在的氨基酸。

“分离的”多肽、蛋白质、肽或核酸是已经从其天然环境中去除的分子。还应理解,“分离的”多肽、蛋白质、肽或核酸可以与赋形剂(诸如稀释剂)或佐剂一起配制,并且仍被认为是分离的。

当用于指核酸分子、肽、多肽或蛋白质时,术语“重组”意指未知在自然界中存在的遗传物质的新组合或由其产生。重组分子可以通过重组技术领域中现有的任何熟知的技术来产生,包括但不限于聚合酶链式反应(PCR)、基因剪接(例如,使用限制性核酸内切酶)以及核酸分子、肽或蛋白质的固相合成。

当用于指多肽或蛋白质时,术语“结构域”意指蛋白质中独特的功能和/或结构单元。结构域有时负责特定的功能或相互作用,有助于蛋白质的整体作用。在多种生物学背景下可以存在结构域。在具有不同功能的蛋白质中可以找到相似的结构域。替代性地,具有低序列同一性(即,小于约50%、小于约40%、小于约30%、小于约20%、小于约10%、小于约5%或小于约1%的序列同一性)的结构域可能具有相同的功能。在一些实施例中,DNA靶向结构域是Cas9或Cas9结构域。在一些实施例中,Cas9结构域是RuvC结构域。在一些实施例中,Cas9结构域是HNH结构域。在一些实施例中,Cas9结构域是Rec结构域。在一些实施例中,DNA编辑结构域是脱氨酶或脱氨酶结构域。

当用于多肽或蛋白质时,术语“基序”通常是指一组典型地长度短于20个氨基酸的保守的氨基酸残基,其对于蛋白质功能可能是重要的。特定的序列基序可以介导多种蛋白质中的共同功能,例如蛋白质结合或靶向特定亚细胞位置。基序的实例包括但不限于核定位信号、微体靶向基序、阻止或促进分泌的基序和促进蛋白质识别和结合的基序。基序数据库和/或基序搜索工具是本领域技术人员已知的,并且包括例如PROSITE(expasy.ch/sprot/prosite.html)、Pfam(pfam.wustl.edu)、PRINTS(biochem.ucl.ac.uk/bsm/dbbrowser/PRINTS/PRINTS.html)和Minimotif Miner(cse-mnm.engr.uconn.edu:8080/MNM/SMSSearchServlet)。

如本文所用,“工程化的”蛋白质是指在蛋白质中包括一个或多个修饰以获得所希望特性的蛋白质。示例性修饰包括但不限于插入、缺失、取代或与另一结构域或蛋白质融合。本披露的工程化的蛋白包括工程化的Cas9蛋白。

在一些实施例中,工程化的蛋白是由野生型蛋白产生的。如本文所用,“野生型”蛋白质或核酸是天然存在的未修饰的蛋白质或核酸。例如,野生型Cas9蛋白可以分离自生物酿脓链球菌(Streptococcus pyogenes)。野生型与“突变体”形成对比,“突变体”在蛋白质或核酸的氨基酸和/或核苷酸序列中包括一个或多个修饰。

如本文所用,术语“序列相似性”或“相似性百分比%”是指核酸序列或氨基酸序列之间的同一性或一致程度。如本文所用,“序列相似性”是指如下的核酸序列,其中一个或多个核苷酸碱基的改变导致一个或多个氨基酸的取代,但不影响该DNA序列编码的蛋白质的功能性质。“序列相似性”还指核酸的修饰,诸如基本上不影响所得转录物的功能性质的一个或多个核苷酸碱基的缺失或插入。因此,应当理解,本披露不仅仅涵盖特定的示例性序列。进行核苷酸碱基取代的方法以及确定所编码产物的生物活性保留的方法是已知的。

此外,技术人员认识到,本披露涵盖的相似序列也由其在严格条件下与本文示例的序列杂交的能力来定义。本披露的相似核酸序列是DNA序列与本文所披露的核酸的DNA序列具有至少70%、至少80%、至少90%、至少95%或至少99%相同的那些核酸。本披露的相似核酸序列是DNA序列与本文所披露的核酸的DNA序列具有约70%、至少约70%、约75%、至少约75%、约80%、至少约80%、约85%、至少约85%、约90%、至少约90%、约95%、至少约95%、约99%、至少约99%或约100%相同的那些核酸。

如本文所用,“序列相似性”是指两个或更多个氨基酸序列,其中大于约40%的氨基酸是相同的,或者大于约60%的氨基酸是功能上相同的。功能相同或功能相似的氨基酸具有化学上相似的侧链。例如,可以根据功能相似性按照以下方式对氨基酸进行分组:

带正电的侧链:Arg、His、Lys;

带负电的侧链:Asn、Glu;

极性、不带电的侧链:Ser、Thr、Asn、Gln;

疏水性侧链:Ala、Val、Ile、Leu、Met、Phe、Tyr、Trp;

其他:Cys、Gly、Pro。

在一些实施例中,本披露的相似氨基酸序列具有至少40%、至少50%、至少60%、至少70%、至少80%、至少90%或至少99%相同的氨基酸。

在一些实施例中,本披露的相似氨基酸序列具有至少60%、至少70%、至少80%、至少90%或至少95%功能相同的氨基酸。在一些实施例中,本披露的相似氨基酸序列具有约40%、至少约40%、约45%、至少约45%、约50%、至少约50%、约55%、至少约55%、约60%、至少约60%、约65%、至少约65%、约70%、至少约70%、约75%、至少约75%、约80%、至少约80%、约85%、至少约85%、约90%、至少约90%、约95%、至少约95%、约97%、至少约97%、约98%、至少约98%、约99%、至少约99%或约100%相同的氨基酸。

在一些实施例中,本披露的相似氨基酸序列具有约60%、至少约60%、约65%、至少约65%、约70%、至少约70%、约75%、至少约75%、约80%、至少约80%、约85%、至少约85%、约90%、至少约90%、约95%、至少约95%、约97%、至少约97%、约98%、至少约98%、约99%、至少约99%或约100%功能相同的氨基酸。

如本文所用,术语“相同蛋白质”是指具有与参考蛋白质基本上相似的结构或氨基酸序列的蛋白质,其执行与参考蛋白质相同的生化功能,并且可包括因在氨基酸序列中的一个或多个位点处取代或缺失一个或多个氨基酸而不同于参考蛋白质的蛋白质,即至少约60%、至少约60%、约65%、至少约65%、约70%、至少约70%、约75%、至少约75%、约80%、至少约80%、约85%、至少约85%、约90%、至少约90%、约95%、至少约95%、约97%、至少约97%、约98%、至少约98%、约99%、至少约99%或约100%相同氨基酸的缺失。一方面,“相同蛋白质”是指具有与参考蛋白质相同的氨基酸序列的蛋白质。

可以使用本领域的常规方法,例如BLAST、MUSCLE、Clustal(包括ClustalW和ClustalX)和T-Coffee(包括变体,诸如像M-Coffee、R-Coffee和Expresso),通过序列比对来确定序列相似性。

在核酸序列或氨基酸序列的背景下,术语“序列同一性”或“同一性百分比%”是指当该序列在指定的比较窗口上比对时,比较的序列中相同的残基的百分比。在一些实施例中,仅将两个或更多个序列的特定部分进行比对以确定序列同一性。在一些实施例中,仅将两个或更多个序列的特定结构域进行比对以确定序列相似性。比较窗口可以是至少10至超过1000个残基、至少20至约1000个残基、或至少50至500个残基的区段,在其中可以比对和比较这些序列。用于确定序列同一性的比对方法是熟知的,并且可以使用公开可用的数据库(诸如BLAST)来进行。当指氨基酸序列时,“同一性百分比”或“同一性%”可以通过本领域已知的方法确定。例如,在一些实施例中,使用Karlin和Altschul,Proc Nat Acad Sci USA[美国国家科学院院刊]87:2264-2268(1990)的算法,按Karlin和Altschul,Proc Nat AcadSci USA[美国国家科学院院刊]90:5873-5877(1993)所改良的,确定两个氨基酸序列的“同一性百分比”。这种算法被并入BLAST程序中,例如,Altschul等人,Journal of MolecularBiology[分子生物学杂志],215:403-410(1990)中描述的BLAST+或NBLAST和XBLAST程序。可采用诸如像XBLAST程序等的程序(分数=50、字长=3),执行BLAST蛋白质搜索,以获得与本披露的蛋白质分子同源的氨基酸序列。在两个序列之间存在空位的情况下,可以利用如Altschul等人,Nucleic Acids Research[核酸研究]25(17):3389-3402(1997)中描述的空位BLAST程序。当利用BLAST程序和空位BLAST程序时,可以使用相应程序(例如,XBLAST和NBLAST)的缺省参数。

在一些实施例中,多肽或核酸分子与参考多肽或核酸分子(或参考多肽或核酸分子的片段)分别具有70%、至少70%、75%、至少75%、80%、至少80%、85%、至少85%、90%、至少90%、95%、至少95%、97%、至少97%、98%、至少98%、99%或至少99%或100%的序列同一性。在一些实施例中,多肽或核酸分子与参考多肽或核酸分子(或参考多肽或核酸分子的片段)分别具有约70%、至少约70%、约75%、至少约75%、约80%、至少约80%、约85%、至少约85%、约90%、至少约90%、约95%、至少约95%、约97%、至少约97%、约98%、至少约98%、约99%、至少约99%或与约100%的序列同一性。

如本文所用,“碱基编辑(base edit)”或“碱基编辑(base editing)”是指将一个核苷酸碱基对转化为另一个碱基对。例如,碱基编辑可将胞嘧啶(C)转化为胸腺嘧啶(T),或将腺嘌呤(A)转化为鸟嘌呤(G)。因此,碱基编辑可将双链多核苷酸中的C-G碱基对交换为A-T碱基对,即,碱基编辑在多核苷酸中产生点突变。碱基编辑通常通过碱基编辑酶进行,其在一些实施例中包括DNA靶向结构域和能够进行碱基编辑的催化结构域,即DNA编辑结构域。在一些实施例中,DNA靶向结构域是Cas9,例如无催化活性的Cas9(dCas9)或能够产生单链断裂的Cas9(nCas9)。在一些实施例中,DNA编辑结构域是脱氨酶结构域。术语“脱氨酶”是指催化脱氨反应的酶。

碱基编辑通常经由脱氨发生,脱氨是指从分子(例如胞嘧啶或腺苷)中去除胺基。脱氨将胞嘧啶转化为尿嘧啶并且将腺苷转化为肌苷。示例性的胞苷脱氨酶包括例如载脂蛋白B mRNA编辑复合物(APOBEC)脱氨酶、活化诱导性胞苷脱氨酶(AID)和ACF1/ASE脱氨酶。示例性的腺苷脱氨酶包括,例如,ADAR脱氨酶和ADAT脱氨酶(例如,TadA)。

在示例性碱基编辑方法中,碱基编辑酶包括能够产生单链DNA断裂(即“切口”)的经修饰的Cas9结构域(nCas9),胞苷脱氨酶结构域和尿嘧啶DNA-糖基化酶抑制剂结构域(UGI)。nCas9通过向导RNA定向靶向包括“C-G”碱基对的靶多核苷酸,其中胞苷脱氨酶将“C-G”中的胞嘧啶转化为尿嘧啶,产生“U-G”错配。nCas9还在靶多核苷酸的非编辑链中产生切口。UGI抑制新转化的尿嘧啶天然细胞修复回到胞嘧啶,并且由带切口的DNA链激活的天然细胞错配修复机制将“U-G”错配转化为“U-A”匹配。进一步的DNA复制和修复将尿嘧啶转化为胸腺嘧啶,并且靶多核苷酸的碱基编辑完成。碱基编辑酶的实例是BE3,在Komor等人,Nature[自然]533(7603):420-424(2016)中有描述。其他示例性的碱基编辑方法在例如Eid等人,Biochem J[生物化学杂志]475:1955-1964(2018)中有描述。

用于产生催化死亡的Cas9结构域(dCas9)的方法是已知的(参见,例如,Jinek等人,Science[科学]337:816-821(2012);Qi等人,Cell[细胞]152(5):1173-1183(2013))。例如,已知Cas9的DNA裂解结构域包括两个亚结构域,HNH核酸酶亚结构域和RuvC1亚结构域。HNH亚结构域裂解与gRNA互补的链,而RuvC1亚结构域裂解非互补链。这些亚结构域内的突变可以使Cas9的核酸酶活性沉默。例如,突变D10A和H840A完全灭活酿脓链球菌(S.pyogenes)Cas9的核酸酶活性。

碱基编辑酶的非限制性实例在例如美国专利号9,068,179;9,840,699;1,,167,457;以及Eid等人,Biochem J[生物化学杂志]475(11):1955-1964(2018);Gehrke等人,NatBiotecjnol[自然生物技术]36:977-982(2018);Hess等人,Mol Cell[分子细胞]68:26-43(2017);Kim等人,Nat Biotecjnol[自然生物技术]35:435-437(2017);Komor等人,Nature[自然]533:420-424(2016);Komor等人,Science Adv[科学进步]3(8):eaao4774(2017);Nishida等人,Science[科学]353:aaf8729(2016);Rees等人,Nat Commun[自然-通讯]8:15790(2017);Shimatani等人,Nat Biotecjnol[自然生物技术]35:441-443(2017)中有描述。

如本文所用的“细胞毒性剂”或“细胞毒素”是指通常通过削弱或抑制一种或多种必需的细胞过程而导致细胞死亡的任何试剂。例如,细胞毒素诸如白喉毒素、志贺菌毒素、假单胞菌外毒素通过削弱或抑制核糖体功能而发挥功能,从而阻止蛋白质合成并导致细胞死亡。细胞毒素诸如尾海兔素(dolastatin)、澳瑞他汀(auristatin)和美登素(maytansine)靶向微管功能,从而破坏细胞分裂并导致细胞死亡。细胞毒素诸如倍癌霉素(duocarmycin)或加利车霉素(calicheamicin)直接靶向DNA并且将在细胞周期中的任何点杀伤细胞。在许多情况下,细胞毒性剂通过与细胞表面上的受体结合而引入细胞中。细胞毒性剂可以是天然存在的化合物或其衍生物,或细胞毒性剂可以是合成分子或合成肽。在一个实例中,细胞毒性剂可以是抗体-药物缀合物(ADC),其包括使用具有不稳定键的化学接头附接至生物活性药物的单克隆抗体(mAb)。ADC将mAb的特异性与药物靶向杀伤特定细胞(例如癌细胞)的效力相结合。ADC(也称为“免疫毒素”)进一步在例如Srivastava等人,Biomed Res Ther[生物医学研究疗法]2(1):169-183(2015),以及Grawunder和Barth(编辑),下一代抗体药物缀合物(ADC)和免疫毒素(Next Generation Antibody DrugConjugates(ADCs)and Immunotoxins),Springer,2017;doi:10.1007/978-3-319-46877-8中进行了描述。

如本文所用,“双等位基因”位点是基因组中含有观察到的两个等位基因的基因座。因此,“双等位基因”修饰是指对哺乳动物细胞基因组中两个等位基因的修饰。例如,双等位基因突变意指在特定基因的两个拷贝(即,母本拷贝和父本拷贝)中都存在突变。

引入位点特异性突变和确定其功效的方法

在一些实施例中,本披露提供了一种在细胞群体中的靶细胞中的靶多核苷酸中引入位点特异性突变的方法,该方法包括(a)向该细胞群体中引入:(i)碱基编辑酶;(ii)第一向导多核苷酸,该第一向导多核苷酸(1)与编码细胞毒性剂(CA)受体的基因杂交,并且(2)与该碱基编辑酶形成第一复合物,其中该第一复合物的该碱基编辑酶在该编码CA受体的基因中提供突变,并且其中该编码CA受体的基因中的该突变在该细胞群体中形成CA抗性细胞;和(iii)第二向导多核苷酸,该第二向导多核苷酸(1)与该靶多核苷酸杂交,并且(2)与该碱基编辑酶形成第二复合物,其中该第二复合物的该碱基编辑酶在该靶多核苷酸中提供突变;(b)使该细胞群体与该CA接触;以及(c)从该细胞群体中选择该CA抗性细胞,从而富集在该靶多核苷酸中包含该突变的靶细胞。

在一些实施例中,本披露提供了一种确定碱基编辑酶在细胞群体中的功效的方法,该方法包括(a)向该细胞群体中引入:(i)碱基编辑酶;(ii)第一向导多核苷酸,该第一向导多核苷酸(1)与编码细胞毒性剂(CA)受体的基因杂交,并且(2)与该碱基编辑酶形成第一复合物,其中该第一复合物的该碱基编辑酶在该编码CA受体的基因中引入突变,并且其中该编码CA受体的基因中的该突变在该细胞群体中形成CA抗性细胞;和(iii)第二向导多核苷酸,该第二向导多核苷酸(1)与该靶多核苷酸杂交,并且(2)与该碱基编辑酶形成第二复合物,其中该第二复合物的该碱基编辑酶在该靶多核苷酸中引入突变;(b)使该细胞群体与该CA接触以分离CA抗性细胞;以及(c)通过确定这些CA抗性细胞与该总细胞群体的比率来确定该碱基编辑酶的功效。

本披露的方法提供了在各种细胞系中引入单核苷酸突变(例如,C:G向T:A的突变)的有效方法。先前基因组工程和基因编辑策略的局限性在于不能区分已经成功编辑的细胞与没有进行编辑的细胞,例如,因为一个或多个编辑组件可能尚未在细胞中正确引入或表达。因此,本领域需要通过选择和富集经过编辑的细胞来提高编辑效率。

本披露还提供了确定细胞群体中的编辑功效的快速且准确的方法。这种方法可以有利于确定是否已经发生编辑,而不需要对靶细胞进行广泛的测序分析。该方法还可以允许评价多个向导多核苷酸以确定用于特定目的的最有效的向导多核苷酸序列。本披露的方法是显著提高碱基编辑酶的编辑效率的“共靶向富集”策略。在“共靶向富集”策略中,将以下两个向导多核苷酸引入细胞中:第一向导多核苷酸,例如将碱基编辑酶引导至“选择”位点的“选择”多核苷酸,以及第二向导多核苷酸,例如将碱基编辑酶引导至“靶”位点的“靶”多核苷酸。在一些实施例中,“选择”位点的成功编辑导致细胞在某些选择条件下(例如,暴露于细胞毒性剂、升温或低温、缺乏一种或多种营养物的培养基等)存活。图1A说明了本披露的实施例并且示处了具有“靶”位点和“选择”位点的起始细胞群体。在没有选择的条件下,只有小百分比的细胞具有所需的“编辑”位点。在“共靶向HB-EGF+白喉毒素选择”下,更高百分比的细胞具有所需的“编辑”靶位点。

在一些实施例中,“选择”位点的成功编辑允许基于物理或化学特征(例如,细胞形状或大小的变化,和/或产生荧光、化学发光的能力等)将经过编辑的细胞与非编辑的细胞容易地分离。在一些实施例中,具有经过编辑法“选择”位点的细胞更可能也具有经过编辑的“靶”位点(例如由于一个或多个编辑组件的成功引入和/或表达)。因此,具有经过编辑的“选择”位点的细胞的选择富集了具有经过编辑的“靶”位点的细胞,从而提高了编辑效率。

如本文所述的“位点特异性突变”包括多核苷酸序列中的单核苷酸取代,例如胞嘧啶转化为胸腺嘧啶或反之亦然,或腺嘌呤转化为鸟嘌呤或反之亦然。在一些实施例中,位点特异性突变由碱基编辑酶产生。在一些实施例中,位点特异性突变经由靶多核苷酸中核苷酸的脱氨作用(例如通过脱氨酶)而发生。在一些实施例中,碱基编辑酶包括脱氨酶。

在一些实施例中,靶多核苷酸中的位点特异性突变导致由该多核苷酸编码的多肽序列的变化。在一些实施例中,靶多核苷酸中的位点特异性突变改变细胞中的下游多核苷酸序列的表达。例如,可以灭活下游多核苷酸序列的表达,使得不转录该序列,不产生所编码的蛋白质,或该序列不起野生型序列的作用。例如,可以灭活蛋白质或miRNA编码序列,使得不产生蛋白质。

在一些实施例中,调控序列中的位点特异性突变增加下游多核苷酸的表达。在一些实施例中,位点特异性突变使调控序列灭活,使其不再起调控序列的作用。调控序列的非限制性实例包括启动子、转录终止子、增强子和本文所述的其他调控元件。在一些实施例中,位点特异性突变导致靶多核苷酸的“敲除”。

在一些实施例中,靶细胞是真核细胞。在一些实施例中,真核细胞是动物或人类细胞。在一些实施例中,靶细胞是人类细胞。在一些实施例中,人类细胞是干细胞。干细胞可以是例如多能干细胞,包括胚胎干细胞(ESC)、成体干细胞、诱导多能干细胞(iPSC)、组织特异性干细胞(例如,造血干细胞)和间充质干细胞(MSC)。在一些实施例中,人类细胞是本文描述的任何细胞的分化形式。在一些实施例中,真核细胞是源自培养物中的原代细胞的细胞。在一些实施例中,细胞是干细胞或干细胞系。

在一些实施例中,该真核细胞是肝细胞,诸如人肝细胞、动物肝细胞,或非实质细胞。例如,真核细胞可以是可铺板培养的代谢合格的人肝细胞、可铺板培养的诱导合格的人肝细胞、可铺板培养的经QUALYST TRANSPORTER认证的人肝细胞、悬浮合格的人肝细胞(包括10-供体和20-供体合并的肝细胞)、人肝库普弗细胞、人肝星形细胞、犬肝细胞(包括单个的和合并的比格犬肝细胞)、小鼠肝细胞(包括CD-1和C57BI/6肝细胞)、大鼠肝细胞(包括Sprague-Dawley、Wistar Han和Wistar肝细胞)、猴肝细胞(包括食蟹猴或恒河猴肝细胞)、猫肝细胞(包括国内短毛猫肝细胞)和兔肝细胞(包括新西兰白兔肝细胞)。

在一些实施例中,本披露的方法包括向细胞群体中引入碱基编辑酶。在一些实施例中,该碱基编辑酶包含DNA靶向结构域和DNA编辑结构域。在一些实施例中,该DNA靶向结构域包含Cas9。在一些实施例中,该Cas9在催化结构域中包含突变。在一些实施例中,该碱基编辑酶包含无催化活性的Cas9和DNA编辑结构域。在一些实施例中,该碱基编辑酶包含能够产生单链DNA断裂的Cas9(nCas9)和DNA编辑结构域。在一些实施例中,该nCas9相对于野生型Cas9在氨基酸残基D10或H840处包含突变(相对于SEQ ID NO:3编号)。在一些实施例中,Cas9包含与SEQ ID NO:3具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%序列同一性的多肽。在一些实施例中,Cas9包含与SEQ ID NO:3具有至少90%同一性的多肽。在一些实施例中,Cas9包含与SEQ ID NO:4具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%序列同一性的多肽。在一些实施例中,Cas9包含与SEQ ID NO:4具有至少90%同一性的多肽。

CRISPR-cas系统是最近发现的原核适应性免疫系统,其已被修饰为使得能够在多种生物体和细胞系中进行稳健的位点特异性基因组工程。一般而言,CRISPR-Cas系统是蛋白质-RNA复合物,其使用RNA分子(例如,向导RNA)作为向导以经由向导RNA与靶DNA序列的碱基配对将复合物定位至靶DNA序列。通常,Cas9还可能需要与靶DNA序列相邻的短前间隔序列邻近基序(PAM)序列,以与DNA结合。在与向导RNA形成复合物时,Cas9通过与匹配PAM序列的序列结合来“搜索”靶DNA序列。一旦Cas9识别PAM并且向导RNA与靶序列正确配对,Cas9蛋白就充当核酸内切酶以裂解所靶向的DNA序列。来自不同细菌种类的Cas9蛋白可以识别不同的PAM序列。例如,来自酿脓链球菌的Cas9(SpCas9)识别5’-NGG-3’的PAM序列,其中N是任何核苷酸。Cas9蛋白也可以工程化以识别与野生型Cas9不同的PAM。参见,例如Sternberg等人,Nature[自然]507(7490):62-67(2014);Kleinstiver等人,Nature[自然]523:481-485(2015);和Hu等人,Nature[自然]556:57-63(2018)。

在已知的Cas蛋白中,SpCas9已被广泛地用作基因组工程的工具。SpCas9蛋白是含有两个不同核酸酶结构域的大型多结构域蛋白。如本文所用,“Cas9”涵盖任何Cas9蛋白及其变体,包括密码子优化的变体和工程化的Cas9,例如美国专利号9944912、9512446、10093910中所述;以及2018年9月7日提交的美国临时申请62/728,184的Cas9变体。可将点突变引入Cas9以消除核酸酶活性,从而产生无催化活性的Cas9或仍保留其以向导RNA编程的方式结合DNA的能力的死亡Cas9(dCas9)。原则上,当与另一蛋白质或结构域融合时,dCas9可以仅仅通过与适当的向导RNA共表达而将该蛋白质靶向几乎任何DNA序列。参见,例如,Mali等人,Nat Methods[自然方法]10(10):957-963(2013);Horvath等人,Nature[自然]482:331-338(2012);Qi等人,Cell[细胞]152(5):1173-1183(2013)。在实施例中,点突变包括野生型Cas9的位置D10和H840处的突变(相对于野生型SpCas9的氨基酸序列进行编号)。在实施例中,dCas9包含D10A和H840A突变。

也可以修饰野生型Cas9蛋白,使得Cas9蛋白具有能够仅裂解双链DNA的一条链的切口酶活性,而不是产生双链断裂的核酸酶活性。Cas9切口酶(nCas9)在例如Cho等人,Genome Res[基因组研究]24:132-141(2013);Ran等人,Cell[细胞]154:1380-1389(2013);以及Mali等人,NatBiotechnol[自然生物技术]31:833-838(2013)中有描述。在一些实施例中,Cas9切口酶相对于野生型Cas9包含单氨基酸取代。在一些实施例中,该单氨基酸取代处于Cas9的位置D10处(相对于SEQ ID NO:3进行编号)。在一些实施例中,该单氨基酸取代是H10A(相对于SEQ ID NO:3进行编号)。在一些实施例中,该单氨基酸取代处于Cas9的位置H840处(相对于SEQ ID NO:3进行编号)。在一些实施例中,该单氨基酸取代是H840A(相对于SEQ ID NO:3进行编号)。

在一些实施例中,该碱基编辑酶包含DNA靶向结构域和DNA编辑结构域。在一些实施例中,该DNA编辑结构域包含脱氨酶。在一些实施例中,该脱氨酶是胞苷脱氨酶或腺苷脱氨酶。在一些实施例中,该脱氨酶是胞苷脱氨酶。在一些实施例中,该脱氨酶是腺苷脱氨酶。在一些实施例中,该脱氨酶是载脂蛋白B mRNA编辑复合物(APOBEC)脱氨酶、活化诱导性胞苷脱氨酶(AID)、ACF1/ASE脱氨酶、ADAT脱氨酶或ADAR脱氨酶。在一些实施例中,该脱氨酶是载脂蛋白B mRNA编辑复合物(APOBEC)家族脱氨酶。在一些实施例中,该脱氨酶是APOBECl。

如本文所述,脱氨酶催化脱氨,例如胞嘧啶或腺苷的脱氨。胞嘧啶脱氨酶的一个示例性家族是APOBEC家族,该家族涵盖十一种用于以受控且有益的方式起始诱变的蛋白质(Conticello等人,Genome Biol[基因组生物学]9(6):229(2008))。一个家族成员,即活化诱导性胞苷脱氨酶(AID),通过将ssDNA中的胞嘧啶以转录依赖性、链偏倚形式转化为尿嘧啶而负责抗体的成熟(Reynaud等人,Nat Immunol[自然免疫]4(7):631-638(2003))。APOBEC3通过逆转录病毒ssDNA中胞嘧啶的脱氨酶为人类细胞提供针对某一HIV-1毒株的保护(Bhagwat等人,DNA Repair[DNA修复](Amst)3(1):85-89(2004))。这些蛋白质都需要Zn2+配位基序(His-X-Glu-X23-26-Pro-Cys-X2-4-Cys)和结合的水分子才有催化活性。基序中的Glu残基起到将水分子活化为氢氧化锌的作用,用于脱氨反应中的亲核攻击。每个家族成员优先在其自身的特定“热点”脱氨基,范围从hAID的WRC(W为A或T,R为A或G)到hAPOBEC3F的TTC(Navaratnam等人,Int J Hematol[国际血液学杂志]83(3):195-200(2006))。APOBEC3G的催化结构域的新近晶体结构揭示由侧翼为六个α-螺旋的五链β-折叠核心组成的二级结构,被认为在整个家族中是保守性的(Holden等人,Nature[自然]456:121-124(2008))。已经证实活性中心环负责ssDNA结合和确定“热点”同一性(Chelico等人,J Biol Chem[生物化学杂志]284(41):27761-27765(2009))。已经将这些酶的过表达与基因组不稳定性和癌症联系起来,从而突出了序列特异性靶向的重要性(Pham等人,Biochemistry[生物化学]44(8):2703-2715(2005))。

核酸编辑酶和结构域的另一示例性的合适类型是腺苷脱氨酶。腺苷脱氨酶的实例包括tRNA腺苷脱氨酶(ADAT)和RNA腺苷脱氨酶(ADAR)家族。ADAT家族脱氨酶包括TadA,一种与APOBEC酶具有序列相似性的tRNA腺苷脱氨酶。ADAR家族脱氨酶包括ADAR2,其将双链RNA中的腺苷转化为肌苷,从而能够进行RNA的碱基编辑。参见,例如,Gaudelli等人,Nature[自然]551:464-471(2017);Cox等人,Science[科学]358:1019-1027(2017)。

在一些实施例中,该碱基编辑酶进一步包含DNA糖基化酶抑制剂结构域。在一些实施例中,该DNA糖基化酶抑制剂是尿嘧啶DNA糖基化酶抑制剂(UGI)。一般而言,DNA糖基化酶诸如尿嘧啶DNA糖基化酶是碱基切除修复途径的一部分,并且在检测到U:G错配时进行无错修复(其中“U”是由胞嘧啶的脱氨基作用产生的),从而将U转化回野生型序列并有效地“解除”碱基编辑。因此,添加DNA糖基化酶抑制剂(例如,尿嘧啶DNA糖基化酶抑制剂)抑制碱基切除修复途径,从而提高碱基编辑效率。DNA糖基化酶的非限制性实例包括OGG1、MAG1和UNG。DNA糖基化酶抑制剂可以是小分子或蛋白质。例如,尿嘧啶DNA糖基化酶的蛋白质抑制剂在Mol等人,Cell[细胞]82:701-708(1995);Serrano-Heras等人,J Biol Chem[生物化学杂志]281:7068-7074(2006);以及新英格兰生物实验室目录号M0281S和M0281L(neb.com/products/m0281-uracil-glycosylase-inhibitor-ugi)中有描述。DNA糖基化酶的小分子抑制剂在例如Huang等人,JAm Chem Soc[美国化学会志]131(4):1344-1345(2009);Jacobs等人,PLoS One[公共科学图书馆综合]8(12):e81667(2013);Donley等人,ACS Chem Biol[美国化学学会化学生物学杂志]10(10):2334-2343(2015);Tahara等人,J Am Chem Soc[美国化学会志]140(6):2105-2114(2018)中有描述。

因此,在一些实施例中,本披露的碱基编辑酶包含能够产生单链断裂的Cas9,和胞苷脱氨酶。在一些实施例中,本披露的碱基编辑酶包括nCas9和胞苷脱氨酶。在一些实施例中,本披露的碱基编辑酶包含能够产生单链断裂的Cas9和腺苷脱氨酶。在一些实施例中,本披露的碱基编辑酶包括nCas9和腺苷脱氨酶。在一些实施例中,碱基编辑酶与SEQ ID NO:6具有至少90%同一性。在一些实施例中,碱基编辑酶包含与SEQ ID NO:6具有至少50%、至少60%、至少70%、至少80%、至少85%或至少90%序列同一性的多肽。在一些实施例中,碱基编辑酶包含与SEQ ID NO:6具有至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%序列同一性的多肽。在一些实施例中,编码碱基编辑酶的多核苷酸与SEQ ID NO:5具有至少50%、至少60%、至少70%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的同一性。在一些实施例中,该碱基编辑酶是BE3。

在一些实施例中,本披露的方法包括向细胞群体中引入第一向导多核苷酸,该第一向导多核苷酸与编码细胞毒性剂(CA)受体的基因杂交并且与碱基编辑酶形成第一复合物;其中该第一复合物的该碱基编辑酶在该编码CA受体的基因中提供突变,并且其中该编码CA受体的基因中的该突变在该细胞群体中形成CA抗性细胞。

在一些实施例中,第一向导多核苷酸是RNA分子。与CRISPR-Cas组件结合并将它们靶向靶DNA内的特定位置的RNA分子在本文中称为“RNA向导多核苷酸”、“向导RNA”、“gRNA”、“小向导RNA”、“单向导RNA”或“sgRNA”,并且在本文中也可称为“DNA靶向RNA”。可以将向导多核苷酸作为分离的分子,例如RNA分子引入靶细胞中,或使用含有编码向导多核苷酸例如RNA向导多核苷酸的DNA的表达载体将其引入细胞中。在一些实施例中,该向导多核苷酸是10至150个核苷酸。在一些实施例中,该向导多核苷酸是20至120个核苷酸。在一些实施例中,该向导多核苷酸是30至100个核苷酸。在一些实施例中,该向导多核苷酸是40至80个核苷酸。在一些实施例中,该向导多核苷酸是50至60个核苷酸。在一些实施例中,该向导多核苷酸是10至35个核苷酸。在一些实施例中,该向导多核苷酸是15至30个核苷酸。在一些实施例中,该向导多核苷酸是20至25个核苷酸。

在一些实施例中,RNA向导多核苷酸包含至少两个核苷酸区段:至少一个“DNA结合区段”和至少一个“多肽结合区段”。“区段”意指分子的一个部分、节段或区域,例如,向导多核苷酸分子的核苷酸的连续伸展段。除非另有明确定义,否则“区段”的定义不限于特定数目的总碱基对。

在一些实施例中,向导多核苷酸包括DNA结合区段。在一些实施例中,向导多核苷酸的DNA结合区段包含与靶多核苷酸内的特定序列互补的核苷酸序列。在一些实施例中,向导多核苷酸的DNA结合区段与靶细胞中编码细胞毒性剂(CA)受体的基因杂交。在一些实施例中,向导多核苷酸的DNA结合区段与靶细胞中的靶多核苷酸序列杂交。本文描述了靶细胞,包括各种类型的真核细胞。

在一些实施例中,向导多核苷酸包括多肽结合区段。在一些实施例中,向导多核苷酸的多肽结合区段结合本披露的碱基编辑酶的DNA靶向结构域。在一些实施例中,向导多核苷酸的多肽结合区段与碱基编辑酶的Cas9结合。在一些实施例中,向导多核苷酸的多肽结合区段与碱基编辑酶的dCas9结合。在一些实施例中,向导多核苷酸的多肽结合区段与碱基编辑酶的nCas9结合。与Cas9蛋白结合的各种RNA向导多核苷酸在例如美国专利公开号2014/0068797、2014/0273037、2014/0273226、2014/0295556、2014/0295557、2014/0349405、2015/0045546、2015/0071898、2015/0071899和2015/0071906中有描述。

在一些实施例中,向导多核苷酸进一步包含tracrRNA。“tracrRNA”或反式激活CRISPR-RNA与pre-crRNA或pre-CRISPR-RNA形成RNA双链体,然后被RNA特异性核糖核酸酶RNA酶III裂解形成crRNA/tracrRNA杂交体。在一些实施例中,向导多核苷酸包含crRNA/tracrRNA杂交体。在一些实施例中,向导多核苷酸的tracrRNA组件活化Cas9蛋白。在一些实施例中,Cas9蛋白的活化包括活化Cas9的核酸酶活性。在一些实施例中,Cas9蛋白的活化包括Cas9蛋白与靶多核苷酸序列结合。

在一些实施例中,设计向导多核苷酸的序列以将碱基编辑酶靶向靶多核苷酸序列中的特定位置。各种工具和程序可用于促进此类向导多核苷酸的设计,例如,Benchling碱基编辑器设计指南(benchling.com/editor#create/crispr),和来自CRISPR RGEN Tools的BE设计软件和BE分析软件(参见Hwang等人,bioRxiv dx.doi.org/10.1101/373944,2018年7月22日首发)。

在一些实施例中,第一向导多核苷酸的DNA结合区段与编码细胞毒性剂(CA)受体的基因杂交,并且第一向导多核苷酸的多肽结合区段通过与碱基编辑酶的DNA靶向结构域结合而与碱基编辑酶形成第一复合物。在一些实施例中,第一向导多核苷酸的DNA结合区段与编码细胞毒性剂(CA)受体的基因杂交,并且第一向导多核苷酸的多肽结合区段通过与碱基编辑酶的Cas9结合而与碱基编辑酶形成第一复合物。在一些实施例中,第一向导多核苷酸的DNA结合区段与编码细胞毒性剂(CA)受体的基因杂交,并且第一向导多核苷酸的多肽结合区段通过与碱基编辑酶的dCas9结合而与碱基编辑酶形成第一复合物。在一些实施例中,第一向导多核苷酸的DNA结合区段与编码细胞毒性剂(CA)受体的基因杂交,并且第一向导多核苷酸的多肽结合区段通过与碱基编辑酶的nCas9结合而与碱基编辑酶形成第一复合物。

在一些实施例中,第一复合物通过第一向导多核苷酸靶向编码CA受体的基因,并且第一复合物的碱基编辑酶在编码CA受体的基因中引入突变。在一些实施例中,编码CA受体的基因中的突变由第一复合物的碱基编辑酶的碱基编辑结构域引入。在一些实施例中,编码CA受体的基因中的突变在细胞群体中形成CA抗性细胞。在一些实施例中,突变是胞苷(C)向胸腺嘧啶(T)的点突变。在一些实施例中,突变是腺嘌呤(A)向鸟嘌呤(G)的点突变。可以通过例如使用本文所述的工具诸如Benchling碱基编辑器设计向导、BE设计软件和BE分析仪设计第一向导多核苷酸来指导CA受体中突变的具体位置。在一些实施例中,第一向导多核苷酸是RNA多核苷酸。在一些实施例中,第一向导多核苷酸进一步包含tracrRNA序列。

在一些实施例中,CA是引起或促进细胞死亡的化合物,如本文所述。在一些实施例中,CA是毒素。在一些实施例中,CA是天然存在的毒素。在一些实施例中,CA是合成毒物。在一些实施例中,CA是小分子、肽或蛋白质。在一些实施例中,CA是抗体-药物缀合物。在一些实施例中,CA是用具有不稳定键的化学接头附接生物活性药物的单克隆抗体。在一些实施例中,CA是生物毒素。在一些实施例中,毒素由蓝细菌(蓝藻毒素)、腰鞭毛虫(dinotoxin)、蜘蛛、蛇、蝎子、青蛙、海洋生物(诸如水母、毒鱼、珊瑚或蓝环章鱼)产生。毒素的实例包括例如白喉毒素、肉毒杆菌毒素、篦麻毒素、蜂毒素、志贺菌毒素、假单胞菌外毒素和霉菌毒素。在一些实施例中,CA是白喉毒素。在一些实施例中,CA是抗体-药物缀合物。在一些实施例中,抗体-药物缀合物包含与毒素连接的抗体。在一些实施例中,毒素是小分子、RNA酶或促凋亡蛋白。

在一些实施例中,CA对一种生物体(例如人)有毒,但对另一种生物体(例如小鼠)无毒。在一些实施例中,CA在其生命周期的一个阶段(例如,胎儿阶段)对生物体有毒,但在生物体的另一生命阶段(例如,成人阶段)无毒。在一些实施例中,CA在动物的一种器官中有毒,但对同一动物的另一种器官无毒。在一些实施例中,CA对处于一种情况或状态(例如,患病)的受试者(例如,人或动物)有毒,但对处于另一种情况或状态(例如,健康)的相同受试者无毒。在一些实施例中,CA对一种细胞类型有毒,但对另一种细胞类型无毒。在一些实施例中,CA对处于一种细胞状态(例如分化)的细胞有毒,但对处于另一种细胞状态(例如未分化)的相同细胞无毒。在一些实施例中,CA对处于一种环境(例如低温)中的细胞有毒,但对处于另一种环境(例如高温)中的相同细胞无毒。在一些实施例中,毒素对人类细胞有毒,但对小鼠细胞无毒。

在一些实施例中,CA受体是结合CA的生物受体。CA受体是通常位于细胞膜上的与CA结合的蛋白质分子。例如,白喉毒素与人肝素结合性EGF样生长因子(HB-EGF)结合。CA受体可对一种CA有特异性,或CA受体可结合一种以上的CA。例如,单唾液酸神经节苷脂(GM1)可充当霍乱毒素和大肠杆菌不耐热肠毒素的受体。或者,一种以上的CA受体可结合一种CA。例如,认为肉毒杆菌毒素与神经细胞和上皮细胞中的不同受体结合。在一些实施例中,CA受体是与CA结合的受体。在一些实施例中,CA受体是G蛋白偶联受体。在一些实施例中,CA受体是抗体(例如抗体-药物缀合物的抗体)的受体。在一些实施例中,CA受体是白喉毒素的受体。在一些实施例中,CA受体是HB-EGF。

在一些实施例中,编码CA受体蛋白的多核苷酸中的一个或多个突变赋予对CA的抗性。在一些实施例中,CA受体的CA结合区中的突变赋予对CA的抗性。在一些实施例中,CA受体的CA结合位点处或附近的氨基酸的电荷逆转突变赋予对CA的抗性。电荷逆转突变包括例如带负电荷的氨基酸诸如Glu或Asp被带正电荷的氨基酸诸如Lys或Arg置换,或反之亦然。在一些实施例中,CA受体的CA结合位点处或附近的氨基酸的极性逆转突变赋予对CA的抗性。极性逆转突变包括例如极性氨基酸诸如Gln或Asn被非极性氨基酸诸如Val或Ile置换,或反之亦然。在一些实施例中,用“大体积”氨基酸残基置换CA受体的CA结合位点处或附近的相对小的氨基酸残基会阻断结合口袋并阻止CA结合,从而赋予对CA的抗性。小氨基酸包括例如Gly或Ala,而Trp通常被认为是大氨基酸。

在一些实施例中,编码CA受体的多核苷酸中的该一个或多个突变改变CA受体的氨基酸序列中的一个或多个密码子。在一些实施例中,编码CA受体的多核苷酸中的该一个或多个突变改变CA受体的氨基酸序列中的单个密码子。在一些实施例中,编码CA受体的多核苷酸中的单核苷酸突变赋予对CA受体的抗性。在一些实施例中,单核苷酸突变是编码CA受体的多核苷酸序列中的胞苷(C)向胸腺嘧啶(T)的点突变。在一些实施例中,单核苷酸突变是编码CA受体的多核苷酸序列中腺嘌呤(A)向鸟嘌呤(G)的点突变。在一些实施例中,CA受体中的该一个或多个突变由本文所述的碱基编辑酶提供。碱基编辑酶通过DNA靶向结构域(例如Cas9结构域)特异性靶向CA受体,然后碱基编辑结构域(例如脱氨酶结构域)在CA受体中提供突变。在一些实施例中,CA受体中的该一个或多个突变由包含nCas9和胞苷脱氨酶的碱基编辑酶提供。在一些实施例中,CA受体中的该一个或多个突变由包含nCas9和腺苷脱氨酶的碱基编辑酶提供。在一些实施例中,CA受体中的该一个或多个突变由包含与SEQ IDNO:6具有至少90%序列同一性的多肽的碱基编辑酶提供。在一些实施例中,该碱基编辑酶是BE3。

在一些实施例中,CA受体是白喉毒素的受体。在一些实施例中,白喉毒素受体是人HB-EGF。除非另有说明,否则本文所用的没有生物体修饰语的“HB-EGF”是指人HB-EGF。来自其他生物体诸如小鼠的HB-EGF蛋白被具体地描述为“小鼠HB-EGF”。

白喉毒素称为“A-B”毒素,它是具有两个通常经二硫桥连接的亚基的双组分蛋白质复合物:通常将“A”亚基认为是“活性”部分,而“B”亚基通常是“结合”部分。已知白喉毒素与在不同组织中广泛表达的HB-EGF的EGF样结构域结合。图3A说明了A-B白喉毒素对其受体的示例性作用机制。如图3A所示,白喉亚基B负责结合HB-EGF,这是一种膜结合受体。在结合后,白喉毒素经由受体介导的胞吞作用进入细胞。催化亚基A然后经由两个亚基之间二硫键的还原从亚基B裂解,留下胞吞小泡,并催化ADP-核糖添加到核糖体的延伸因子2(EF2)。EF2的ADP核糖基化阻止蛋白质合成并导致细胞死亡。

与人HB-EGF不同,小鼠HB-EGF对白喉毒素结合具有抗性,因此小鼠对白喉毒素具有抗性。图3B示出了人和小鼠HB-EGF蛋白的氨基酸序列的显著差异。因此,在一些实施例中,编码HB-EGF蛋白的多核苷酸中的一个或多个突变赋予对白喉毒素的抗性。在一些实施例中,编码HB-EGF的多核苷酸中的该一个或多个突变改变HB-EGF的氨基酸序列中的一个或多个密码子。在一些实施例中,编码HB-EGF的多核苷酸中的该一个或多个突变改变HB-EGF的氨基酸序列中的单个密码子。在一些实施例中,编码HB-EGF蛋白的多核苷酸中的单核苷酸突变赋予对白喉毒素的抗性。在一些实施例中,单核苷酸突变是编码HB-EGF的多核苷酸序列中的胞苷(C)向胸腺嘧啶(T)的点突变。在一些实施例中,单核苷酸突变是编码HB-EGF的多核苷酸序列中腺嘌呤(A)向鸟嘌呤(G)的点突变。

在一些实施例中,HB-EGF的白喉毒素结合区中的突变赋予对白喉毒素的抗性。在一些实施例中,HB-EGF的EGF样结构域中的突变赋予对白喉毒素的抗性。在一些实施例中,HB-EGF的白喉毒素结合位点处或附近的氨基酸的电荷逆转突变赋予对白喉毒素的抗性。在一些实施例中,电荷逆转突变是用带正电荷的残基例如Lys或Arg置换带负电荷的残基例如Glu或Asp。在一些实施例中,电荷逆转突变是用带负电荷的残基例如Glu或Asp置换带正电荷的残基例如Lys或Arg。在一些实施例中,HB-EGF的白喉毒素结合位点处或附近的氨基酸的极性逆转突变赋予对白喉毒素的抗性。在一些实施例中,极性逆转突变是用非极性氨基酸残基例如Ala、Val或Ile置换极性氨基酸残基例如Gln或Asn。在一些实施例中,极性逆转突变是用极性氨基酸残基例如Gln或Asn置换非极性氨基酸残基例如Ala、Val或Ile。在一些实施例中,突变是用“大体积”氨基酸残基例如Trp置换HB-EGF的白喉毒素结合位点处或附近的相对小的氨基酸残基例如Gly或Ala。在一些实施例中,小残基突变为大体积残基会阻断结合口袋并阻止白喉毒素结合,从而赋予抗性。

在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸100至160中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸105至150中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸107至148中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸120至145中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID N0:8)的氨基酸135至143中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ IDNO:8)的氨基酸138至144中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变是GLU141突变为ARG141。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变是GLU141突变为HIS141。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变是GLU141突变为LYS141。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的GLU141突变为LYS141赋予对白喉毒素的抗性。

在一些实施例中,HB-EGF中的该一个或多个突变由本文所述的碱基编辑酶提供。碱基编辑酶通过DNA靶向结构域(例如Cas9结构域)特异性靶向HB-EGF,然后碱基编辑结构域(例如脱氨酶结构域)在HB-EGF中提供突变。在一些实施例中,HB-EGF中的该一个或多个突变由包含nCas9和胞苷脱氨酶的碱基编辑酶提供。在一些实施例中,HB-EGF中的该一个或多个突变由包含nCas9和腺苷脱氨酶的碱基编辑酶提供。在一些实施例中,HB-EGF中的该一个或多个突变由包含与SEQ ID NO:6具有至少90%序列同一性的多肽的碱基编辑酶提供。在一些实施例中,该碱基编辑酶是BE3。

在一些实施例中,第二向导多核苷酸的DNA结合区段与靶细胞中的靶多核苷酸杂交,并且第二向导多核苷酸的多肽结合区段通过与碱基编辑酶的DNA靶向结构域结合而与碱基编辑酶形成第二复合物。在一些实施例中,第二向导多核苷酸的DNA结合区段与靶细胞中的靶多核苷酸杂交,并且第二向导多核苷酸的多肽结合区段通过与碱基编辑酶的Cas9结合而与碱基编辑酶形成第二复合物。在一些实施例中,第二向导多核苷酸的DNA结合区段与靶细胞中的靶多核苷酸杂交,并且第二向导多核苷酸的多肽结合区段通过与碱基编辑酶的dCas9结合而与碱基编辑酶形成第二复合物。在一些实施例中,第二向导多核苷酸的DNA结合区段与靶细胞中的靶多核苷酸杂交,并且第二向导多核苷酸的多肽结合区段通过与碱基编辑酶的nCas9结合而与碱基编辑酶形成第二复合物。

在一些实施例中,第二复合物通过第二向导多核苷酸靶向靶多核苷酸,并且第二复合物的碱基编辑酶在靶多核苷酸中引入突变。在一些实施例中,靶多核苷酸中的突变由第二复合物的碱基编辑酶的碱基编辑结构域引入。在一些实施例中,靶多核苷酸中的突变是胞苷(C)向胸腺嘧啶(T)的点突变。在一些实施例中,靶多核苷酸中的突变是腺嘌呤(A)向鸟嘌呤(G)的点突变。可以通过例如使用本文所述的工具诸如Benchling碱基编辑器设计向导、BE设计软件和BE分析仪设计第二向导多核苷酸来指导靶多核苷酸中突变的具体位置。在一些实施例中,第二向导多核苷酸是RNA多核苷酸。在一些实施例中,第二向导多核苷酸进一步包含tracrRNA序列。

在一些实施例中,靶多核苷酸中的C突变为T使靶多核苷酸在靶细胞中的表达灭活。在一些实施例中,靶多核苷酸中的A突变为G使靶多核苷酸在靶细胞中的表达灭活。在一些实施例中,靶多核苷酸编码蛋白质或miRNA。在一些实施例中,靶多核苷酸是调控序列,并且C突变为T改变调控序列的功能。在一些实施例中,靶多核苷酸是调控序列,并且A突变为G改变调控序列的功能。

在一些实施例中,本披露的碱基编辑酶作为编码该碱基编辑酶的多核苷酸而引入细胞群体中。在一些实施例中,第一向导多核苷酸和/或第二向导多核苷酸作为编码第一向导多核苷酸和/或第二向导多核苷酸的一种或多种多核苷酸引入细胞群体中。在一些实施例中,经由载体将碱基编辑酶、第一向导多核苷酸和第二向导多核苷酸引入细胞群体中。在一些实施例中,编码该碱基编辑酶的多核苷酸、第一向导多核苷酸和第二向导多核苷酸处于单个载体上。在一些实施例中,该载体是病毒载体。在一些实施例中,编码该碱基编辑酶的多核苷酸、第一向导多核苷酸和该第二向导多核苷酸处于一个或多个载体上。在一些实施例中,该一种或多种载体是病毒载体。在一些实施例中,病毒载体是腺病毒、腺相关病毒或慢病毒。用腺病毒、腺相关病毒(AAV)和慢病毒载体进行的病毒转导(可以局部、靶向或全身施用)已被用作体内基因疗法的递送方法。本文描述了将载体例如病毒载体引入细胞(例如转染)的方法。

在一些实施例中,经由递送颗粒将碱基编辑酶、第一向导多核苷酸和/或第二向导多核苷酸引入细胞群体中。在一些实施例中,经由囊泡将碱基编辑酶、第一向导多核苷酸和/或第二向导多核苷酸引入细胞群体中。

在一些实施例中,可通过计算CA抗性细胞与总细胞群体的比率来确定碱基编辑酶的功效。在一些实施例中,CA抗性细胞的数目可以使用本领域已知的技术计数,例如,使用血细胞计数器计数,测量在某一波长(例如,580nm或600nm)的吸光度,和/或测量用于检测细胞群体的荧光团的荧光。在一些实施例中,确定总细胞群体,并且通过将总细胞群体除以CA抗性细胞来计算CA抗性细胞与总细胞群体的比率。在一些实施例中,CA抗性细胞与总细胞群体的比率接近靶多核苷酸处的碱基编辑功效。

位点特异性整合方法

如本文所述,基于HDR的DNA双链断裂修复可在靶基因座处提供所需目标序列(SOI)的位点特异性整合,例如双等位基因整合。对于遗传突变体校正、基因疗法和转基因动物产生的应用,目标基因修饰的位点特异性整合和特异性双等位基因整合是非常期望的。不幸的是,由于基于HDR的DNA双链断裂修复的低效率,位点特异性整合,特别是双等位基因整合的筛选和分离完全困难且麻烦,并且可能需要高成本且耗时的测序和分析。本披露的方法应用本文所述的“共靶向富集”策略以产生目标序列的位点特异性整合,并提供具有所需整合的细胞的简单且有效的筛选方法。在一些实施例中,位点特异性整合是双等位基因整合。

在一些实施例中,本披露包括一种向细胞基因组中的毒素敏感基因(TSG)基因座中提供目标序列(SOI)的双等位基因整合的方法,该方法包括(a)向细胞群体中引入:(i)能够产生双链断裂的核酸酶;(ii)与该核酸酶形成复合物并且能够与该TSG基因座杂交的向导多核苷酸;和(iii)供体多核苷酸,该供体多核苷酸包含:(1)5’同源臂、3’同源臂和该TSG的天然编码序列中的突变,其中该突变赋予对该毒素的抗性;和(2)该SOI;其中(i)、(ii)和(iii)的引入导致该供体多核苷酸整合到该TSG基因座中;(b)使该细胞群体与该毒素接触;并且选择对该毒素有抗性的一个或多个细胞,其中对该毒素有抗性的该一个或多个细胞包含该SOI的双等位基因整合。

图10A说明了本文提供的方法的实施例。在图10A中,HB-EGF的野生型序列对白喉毒素敏感。序列中的实心方框代表外显子,而双线代表内含子。Cas9核酸酶通过CRISPR-Cas复合物的向导多核苷酸靶向HB-EGF的内含子并产生双链断裂。将HDR模板引入细胞中,该细胞具有用于连接HDR模板上的外显子和相邻基因组外显子的剪接受体序列,紧接在双链断裂之前的外显子中的白喉毒素抗性突变和目标基因(GOI)。HDR修复双链断裂并在断裂位点插入剪接受体序列、抗白喉毒素突变和GOI。因此,只有具有HDR模板的双等位基因整合(并因此具有GOI)的双等位基因整合的细胞对白喉毒素有抗性;单等位基因或未被HDR修复的细胞对毒素敏感。因此,与毒素接触后存活的细胞具有GOI的双等位基因整合。

在一些实施例中,TSG基因座编码HB-EGF,并且毒素是白喉毒素。在一些实施例中,该能够产生双链断裂的核酸酶是Cas9。在一些实施例中,向导多核苷酸是向导RNA。在一些实施例中,供体多核苷酸是HDR模板。在一些实施例中,SOI是目标基因。在一些实施例中,供体多核苷酸在TSG基因座中的整合是双等位基因整合。

在一些实施例中,本披露提供了一种将目标序列(SOI)整合到细胞基因组中的靶基因座中的方法,该方法包括(a)向细胞群体中引入:(i)能够产生双链断裂的核酸酶;(ii)与该核酸酶形成复合物并且能够与该细胞基因组中的毒素敏感基因(TSG)基因座杂交的向导多核苷酸,其中该TSG是必需基因;和(iii)供体多核苷酸,该供体多核苷酸包含:(1)在该TSG的天然编码序列中包含突变的功能性TSG基因,其中该突变赋予对该毒素的抗性,(2)该SOI,和(3)用于在靶基因座处基因组整合的序列;其中(i)、(ii)和(iii)的引入导致该细胞基因组中的该TSG被该核酸酶灭活,并且该供体多核苷酸整合到该靶基因座中;(b)使该细胞群体与该毒素接触;以及(c)选择对该毒素有抗性的一个或多个细胞,其中对该毒素有抗性的该一个或多个细胞包含整合在该靶基因座中的该SOI。

在一些实施例中,本披露提供了一种将稳定的附加型载体引入细胞中的方法,该方法包括(a)向细胞群体中引入:(i)能够产生双链断裂的核酸酶;(ii)与该核酸酶形成复合物并且能够与该细胞基因组中的毒素敏感基因(TSG)基因座杂交的向导多核苷酸,其中(i)和(ii)的引入导致细胞基因组中的TSG被核酸酶灭活;和(iii)附加型载体,该附加型载体包含:(1)在该TSG的天然编码序列中包含突变的功能性TSG,其中该突变赋予对该毒素的抗性;(2)SOI;和(3)自主DNA复制序列;(b)使该细胞群体与该毒素接触;以及(c)选择对该毒素有抗性的一个或多个细胞,其中对该毒素有抗性的该一个或多个细胞包含附加型载体。在一些实施例中,TSG是必需基因。

在一些实施例中,能够产生双链断裂的核酸酶是Cas9。如本文所述,Cas9是包含DNA靶向结构域(其与向导多核苷酸,例如向导RNA相互作用)和核酸酶结构域(其裂解靶多核苷酸,例如TSG基因座)的单体蛋白。Cas9蛋白在核酸中产生位点特异性断裂。在一些实施例中,Cas9蛋白在DNA中产生位点特异性双链断裂。Cas9靶向核酸中的特定序列的能力(即,位点特异性)通过Cas9和与指定序列(例如,TSG基因座)杂交的向导多核苷酸(例如,向导RNA)复合来实现。在一些实施例中,Cas9是2018年9月7日提交的美国临时申请62/728,184中描述的Cas9变体。

在一些实施例中,该Cas9能够产生粘性末端。能够产生粘性末端的Cas9在例如2018年11月16日提交的PCT/US2018/061680中有描述。在一些实施例中,能够产生粘性末端的Cas9是二聚体Cas9融合蛋白。在一些实施例中,有利的是使用二聚体核酸酶,即直到二聚体的两个单体都存在于靶序列处才具有活性的核酸酶,以实现更高的靶向特异性。天然存在的核酸酶(例如Cas9)的结合结构域和裂解结构域,以及可以融合以产生核酸酶结合特异性靶位点的模块化结合结构域和裂解结构域,是本领域技术人员熟知的。例如,RNA可编程核酸酶(例如,Cas9)或具有无活性的DNA裂解结构域的Cas9蛋白的结合结构域,可用作特异性结合所需靶位点的结合结构域(例如,其结合gRNA以指导与靶位点的结合),并且与裂解结构域(例如,核酸内切酶FokI的裂解结构域)融合或缀合以产生裂解靶位点的工程化核酸酶。Cas9-FokI融合蛋白,例如在美国专利公布号2015/0071899和Guilinger等人,“(无催化活性的Cas9与FokI核酸酶融合以提高基因组修饰的特异性)Fusion of catalyticallyinactive Cas9 to FokI nuclease improves the specificity of genomemodification,”Nature Biotechnology[自然生物技术]32:577-582(2014)中有进一步描述。

在一些实施例中,Cas9包含SEQ ID NO:3或4的多肽。在一些实施例中,Cas9包含与SEQ ID NO:3或4具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%序列同一性的多肽。在一些实施例中,Cas9是SEQ ID NO:3或4。

在一些实施例中,该向导多核苷酸是RNA多核苷酸。与CRISPR-Cas组件结合并将它们靶向靶DNA内的特定位置的RNA分子在本文中称为“RNA向导多核苷酸”、“向导RNA”、“gRNA”、“小向导RNA”、“单向导RNA”或“sgRNA”,并且在本文中也可称为“DNA靶向RNA”。可以将向导多核苷酸作为分离的分子,例如RNA分子引入靶细胞中,或使用含有编码向导多核苷酸例如RNA向导多核苷酸的DNA的表达载体将其引入细胞中。在一些实施例中,该向导多核苷酸是10至150个核苷酸。在一些实施例中,该向导多核苷酸是20至120个核苷酸。在一些实施例中,该向导多核苷酸是30至100个核苷酸。在一些实施例中,该向导多核苷酸是40至80个核苷酸。在一些实施例中,该向导多核苷酸是50至60个核苷酸。在一些实施例中,该向导多核苷酸是10至35个核苷酸。在一些实施例中,该向导多核苷酸是15至30个核苷酸。在一些实施例中,该向导多核苷酸是20至25个核苷酸。

在一些实施例中,RNA向导多核苷酸包含至少两个核苷酸区段:至少一个“DNA结合区段”和至少一个“多肽结合区段”。“区段”意指分子的一个部分、节段或区域,例如,向导多核苷酸分子的核苷酸的连续伸展段。除非另有明确定义,否则“区段”的定义不限于特定数目的总碱基对。

在一些实施例中,向导多核苷酸包括DNA结合区段。在一些实施例中,向导多核苷酸的DNA结合区段包含与靶多核苷酸内的特定序列互补的核苷酸序列。在一些实施例中,向导多核苷酸的DNA结合区段与细胞中的毒素敏感基因(TSG)基因座杂交。本文描述了各种类型的细胞,例如真核细胞。

在一些实施例中,向导多核苷酸包括多肽结合区段。在一些实施例中,向导多核苷酸的多肽结合区段结合本披露的核酸酶的DNA靶向结构域。在一些实施例中,向导多核苷酸的多肽结合区段与Cas9结合。在一些实施例中,向导多核苷酸的多肽结合区段与dCas9结合。在一些实施例中,向导多核苷酸的多肽结合区段与nCas9结合。与Cas9蛋白结合的各种RNA向导多核苷酸在例如美国专利公开号2014/0068797、2014/0273037、2014/0273226、2014/0295556、2014/0295557、2014/0349405、2015/0045546、2015/0071898、2015/0071899和2015/0071906中有描述。

在一些实施例中,向导多核苷酸进一步包含tracrRNA。“tracrRNA”或反式激活CRISPR-RNA与pre-crRNA或pre-CRISPR-RNA形成RNA双链体,然后被RNA特异性核糖核酸酶RNA酶III裂解形成crRNA/tracrRNA杂交体。在一些实施例中,向导多核苷酸包含crRNA/tracrRNA杂交体。在一些实施例中,向导多核苷酸的tracrRNA组件活化Cas9蛋白。在一些实施例中,Cas9蛋白的活化包括活化Cas9的核酸酶活性。在一些实施例中,Cas9蛋白的活化包括Cas9蛋白与靶多核苷酸序列,例如TSG基因座结合。

在一些实施例中,向导多核苷酸将核酸酶引导至TSG基因座,并且核酸酶在TSG基因座处产生双链断裂。在一些实施例中,向导多核苷酸是向导RNA。在一些实施例中,核酸酶是Cas9。在一些实施例中,TSG基因座处的双链断裂使TSG灭活。在一些实施例中,TSG基因座的灭活赋予细胞对毒素的抗性。在一些实施例中,TSG基因座的灭活赋予细胞对毒素的抗性,但也破坏TSG基因座的正常细胞功能。在一些实施例中,TSG基因座编码执行与毒素敏感性无关的细胞功能的基因。例如,TSG基因座可以编码促进细胞生长或分裂的蛋白质,信号传导分子的受体(例如,细胞的分子)或与另一种蛋白质、细胞器或生物分子相互作用以执行正常细胞功能的蛋白质。

在一些实施例中,TSG是必需基因。必需基因是生物体的被认为对在某些条件下存活至关重要的基因。在一些实施例中,TSG的破坏或缺失导致细胞死亡。在一些实施例中,TSG是营养缺陷型基因,即产生生长或存活所需的特定化合物的基因。营养缺陷型基因的实例包括参与核苷酸生物合成(诸如腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶或尿嘧啶);或氨基酸生物合成(诸如组氨酸、亮氨酸、赖氨酸、甲硫氨酸或色氨酸)的基因。在一些实施例中,TSG是代谢途径中的基因。在一些实施例中,TSG是自噬途径中的基因。在一些实施例中,TSG是细胞分裂(例如有丝分裂)、细胞骨架组构或对应激或刺激的应答中的基因。在一些实施例中,TSG编码促进细胞生长或分裂的蛋白质,信号传导分子的受体(例如,细胞的分子)或与另一种蛋白质、细胞器或生物分子相互作用的蛋白质。示例性的必需基因包括但不限于图23中列出的基因。例如Hart等人,Cell[细胞]163:1515-1526(2015);Zhang等人,MicrobCell[微生物细胞]2(8):280-287(2015);以及Fraser,Cell Systems[细胞系统]1:381-382(2015)中提供了必需基因的其他实例。

因此,在一些实施例中,天然TSG(即,细胞基因组中的TSG)的灭活(例如,序列中由核酸酶产生的双链断裂)对细胞产生不利影响。在一些实施例中,天然TSG的灭活导致细胞死亡。在此类情况下,可以将“外源”TSG或其部分引入细胞中以补偿灭活的天然TSG。在一些实施例中,TSG的一部分编码执行与TSG编码的天然蛋白质基本上相同的功能的多肽。在一些实施例中,引入一部分TSG以补充部分灭活的TSG。在一些实施例中,核酸酶使天然TSG的一部分灭活(例如,通过破坏TSG的编码序列的一部分),并且外源TSG包含编码序列的破坏部分,其可与天然序列的未破坏部分一起转录以形成功能性TSG。在一些实施例中,外源TSG或其部分整合在细胞基因组中的天然TSG基因座中。在一些实施例中,外源TSG或其部分整合在不同于TSG基因座的基因组基因座处。在一些实施例中,外源TSG或其部分通过用于基因组整合的序列整合。在一些实施例中,用于基因组整合的序列从逆转录病毒载体获得。在一些实施例中,用于基因组整合的序列从转座子获得。在一些实施例中,TSG编码CA受体。在一些实施例中,TSG编码HB-EGF。在一些实施例中,TSG编码抗体(例如抗体-药物缀合物的抗体)的受体。

在一些实施例中,外源TSG在外源多核苷酸中引入细胞中。在一些实施例中,外源TSG从外源多核苷酸表达。在一些实施例中,外源多核苷酸是质粒。在一些实施例中,外源多核苷酸是供体多核苷酸。在一些实施例中,该供体多核苷酸是载体。本文提供了示例性载体。

在一些实施例中,外源多核苷酸是附加型载体。在一些实施例中,附加型载体是稳定的附加型载体,即留在细胞中的附加型载体。如本文所述,附加型载体包括自主DNA复制序列,其允许附加型载体复制并留在细胞中。在一些实施例中,该附加型载体是人工染色体。在一些实施例中,附加型载体是质粒。

在一些实施例中,供体多核苷酸包含5’和3’同源臂。在一些实施例中,供体多核苷酸是供体质粒。在一些实施例中,供体多核苷酸的5’和3’同源臂与细胞基因组中的TSG基因座的一部分互补。因此,当最佳比对时,供体多核苷酸与TSG的一个或多个核苷酸(例如,约或至少约1、5、10、15、20、25、30、35、40、45、50、60、70、80、90或100个或更多个核苷酸)重叠。在一些实施例中,当供体多核苷酸与TSG基因座的一部分最佳比对时,供体多核苷酸最近的核苷酸在TSG基因座的约1、5、10、15、20、25、50、75、100、200、300、400、500、100、1500、2000、2500、5000、10000个或更多个核苷酸内。在一些实施例中,将包含侧接5’和3’同源臂的SOI的供体多核苷酸引入细胞中,并且5’和3’同源臂与TSG基因座处整合位点的任一侧具有序列相似性。在一些实施例中,5’和3’同源臂与TSG基因座处整合位点的任一例具有至少60%、至少70%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的序列相似性。在一些实施例中,TSG编码CA受体。在实施例中,TSG编码HB-EGF。在一些实施例中,TSG编码抗体(例如抗体-药物缀合物的抗体)的受体。

在一些实施例中,供体多核苷酸中的5’和3’同源臂通过同源定向修复(HDR)促进供体多核苷酸整合到基因组中。在一些实施例中,供体多核苷酸通过HDR整合。在一些实施例中,供体多核苷酸是HDR模板。HDR途径是能够修复双链断裂的内源DNA修复途径。通过HDR途径的修复通常是高保真的并且依赖于与具有修复位点的同源区(例如,5’和3’同源臂)的HDR模板的同源重组。在一些实施例中,TSG基因座被核酸酶以促进HDR的方式剪切,例如通过产生粘性末端。在一些实施例中,TSG基因座被核酸酶以促进HDR超过低保真修复途径诸如非同源末端连接(NHEJ)的方式剪切。

在一些实施例中,供体多肽通过NHEJ整合。NHEJ途径是能够修复双链断裂的内源DNA修复途径。一般而言,NHEJ与HDR相比具有更高的修复效率,而保真度更低,但是当DNA中的双链断裂具有相容的粘性末端或突出端时错误降低。在一些实施例中,TSG基因座被核酸酶以减少NHEJ修复中的错误的方式剪切。在一些实施例中,TSG基因座中的切口包含粘性末端。

在一些实施例中,供体多核苷酸包含用于基因组整合的序列。在一些实施例中,用于靶基因座处的基因组整合的序列从转座子获得。如本文所述,转座子包括由转座酶识别的转座子序列,然后转座酶将包含转座子序列和目标序列(SOI)的转座子插入基因组中。在一些实施例中,靶基因座是能够表达SOI而不破坏正常细胞功能的任何基因组基因座。本文描述了示例性转座子。因此,在一些实施例中,供体多核苷酸包含:在TSG的天然编码序列中含有突变的功能性TSG,其中该突变赋予对毒素的抗性;SOI;以及用于在靶基因座处基因组整合的转座子序列。在一些实施例中,细胞的天然TSG被核酸酶灭活,并且供体多核苷酸提供能够补偿天然TSG的天然细胞功能,同时对毒素具有抗性的功能性TSG。在一些实施例中,TSG编码CA受体。在实施例中,TSG编码HB-EGF。在一些实施例中,TSG编码抗体(例如抗体-药物缀合物的抗体)的受体。

在一些实施例中,供体多核苷酸包含用于基因组整合的序列。在一些实施例中,用于靶基因座处的基因组整合的序列从逆转录病毒载体获得。如本文所述,逆转录病毒载体包括通常是LTR的序列,该序列被整合酶识别,然后将包含LTR和SOI的逆转录病毒载体插入基因组中。在一些实施例中,靶基因座是能够表达SOI而不破坏正常细胞功能的任何基因组基因座。本文描述了示例性的逆转录病毒载体。因此,在一些实施例中,供体多核苷酸包含:在TSG的天然编码序列中含有突变的功能性TSG,其中该突变赋予对毒素的抗性;SOI;以及用于在靶基因座处基因组整合的逆转录病毒载体。在一些实施例中,细胞的天然TSG被核酸酶灭活,并且供体多核苷酸提供能够补偿天然TSG的天然细胞功能,同时对毒素具有抗性的功能性TSG。在一些实施例中,TSG编码CA受体。在实施例中,TSG编码HB-EGF。在一些实施例中,TSG编码抗体(例如抗体-药物缀合物的抗体)的受体。

在一些实施例中,将附加型载体引入细胞。在一些实施例中,附加型载体包含:在TSG的天然编码序列中含有突变的功能性TSG,其中该突变赋予对毒素的抗性;SOI;以及自主DNA复制序列。如本文所述,附加型载体是能够自主复制的非整合染色体外质粒。在一些实施例中,自主DNA复制序列源自病毒基因组序列。在一些实施例中,自主DNA复制序列源自哺乳动物基因组序列。在一些实施例中,附加型载体是人工染色体或质粒。在一些实施例中,质粒是病毒质粒。在一些实施例中,病毒质粒是SV40载体、BKV载体、KSHV载体或EBV载体。因此,在一些实施例中,细胞的天然TSG被核酸酶灭活,并且附加型载体提供能够补偿天然TSG的天然细胞功能,同时对毒素具有抗性的功能性TSG。在一些实施例中,TSG编码CA受体。在实施例中,TSG编码HB-EGF。在一些实施例中,TSG编码抗体(例如抗体-药物缀合物的抗体)的受体。

在一些实施例中,毒素敏感基因(TSG)赋予细胞毒素敏感性,即细胞易于受到毒素的不良反应,例如生长萎缩或死亡。在一些实施例中,TSG编码与毒素结合的受体。在一些实施例中,受体是CA受体。CA受体是通常位于细胞膜上的与CA结合的蛋白质分子。例如,白喉毒素与人肝素结合性EGF样生长因子(HB-EGF)结合。CA受体可对一种CA有特异性,或CA受体可结合一种以上的CA。例如,单唾液酸神经节苷脂(GM1)可充当霍乱毒素和大肠杆菌不耐热肠毒素的受体。或者,一种以上的CA受体可结合一种CA。例如,认为肉毒杆菌毒素与神经细胞和上皮细胞中的不同受体结合。在一些实施例中,CA受体是与CA结合的受体。在一些实施例中,CA受体是G蛋白偶联受体。在一些实施例中,CA受体结合白喉毒素。在一些实施例中,CA受体是抗体(例如抗体-药物缀合物的抗体)的受体。在一些实施例中,该TSG基因座包含编码肝素结合性EGF样生长因子(HB-EGF)的基因。HB-EGF和白喉毒素引起细胞死亡的机制在本文中有描述并举例说明,例如在图3A中。

在一些实施例中,TSG基因座包含内含子和外显子。在一些实施例中,双链断裂由核酸酶在内含子处产生。在一些实施例中,双链断裂由核酸酶在外显子处产生。在一些实施例中,TSG的天然编码序列中的突变(例如赋予对毒素的抗性)处于外显子中。在一些实施例中,供体多核苷酸包含TSG的天然编码序列,该序列包含赋予对毒素的抗性的突变。在一些实施例中,“天然编码序列”是指与编码多肽的野生型序列基本上相似,例如与野生型序列具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的序列相似性的序列。

在一些实施例中,供体多核苷酸包含TSG的天然编码序列的外显子,其中外显子包含赋予对毒素的抗性的突变,并且供体多核苷酸另外包含剪接受体序列。如本文所用,“剪接受体”或“剪接受体序列”是指内含子的3’末端的序列,该序列促进内含子侧翼的两个外显子的连接。在一些实施例中,剪接受体序列与细胞基因组中TSG基因座的剪接受体序列具有至少约90%的序列同一性。在一些实施例中,当TSG转录用于表达时,在来自供体多核苷酸的TSG基因座处整合的外显子与细胞基因组中的相邻外显子连接。在一些实施例中,在来自供体多核苷酸的TSG基因座处整合的剪接受体序列促进在来自供体多核苷酸的TSG基因座处整合的外显子与细胞基因组中的相邻外显子的连接。

在一些实施例中,供体多核苷酸的5’和3’同源臂与细胞基因组中的TSG基因座的一部分互补。因此,当最佳比对时,供体多核苷酸与TSG的一个或多个核苷酸(例如,约或至少约1、5、10、15、20、25、30、35、40、45、50、60、70、80、90或100个或更多个核苷酸)重叠。在一些实施例中,当供体多核苷酸与TSG基因座的一部分最佳比对时,供体多核苷酸最近的核苷酸在TSG基因座的约1、5、10、15、20、25、50、75、100、200、300、400、500、100、1500、2000、2500、5000、10000个或更多个核苷酸内。在一些实施例中,将包含侧接5’和3’同源臂的SOI的供体多核苷酸引入细胞中,并且5’和3’同源臂与TSG基因座处整合位点的任一例具有序列相似性。在一些实施例中,TSG基因座处的整合位点是核酸酶裂解位点,即双链断裂位点。在一些实施例中,5’和3’同源臂与TSG基因座处整合位点的任一例具有至少60%、至少70%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的序列相似性。在一些实施例中,TSG基因座处的整合位点是核酸酶裂解位点。在一些实施例中,TSG编码CA受体。在实施例中,TSG编码HB-EGF。

在一些实施例中,TSG编码HB-EGF,并且在HB-EGF基因的内含子处产生双链断裂。在一些实施例中,TSG编码HB-EGF,并且在HB-EGF基因的外显子处产生双链断裂。在一些实施例中,双链断裂处于HB-EGF基因的内含子处,并且HB-EGF基因的天然编码序列中的突变处于HB-EGF基因的外显子中。在一些实施例中,双链断裂处于HB-EGF基因的内含子中,并且HB-EGF基因的天然编码序列中的突变处于紧接在裂解的内含子之后的外显子中。在一些实施例中,双链断裂处于HB-EGF基因的外显子中,并且HB-EGF基因的天然编码序列中的突变处于HB-EGF基因的相同外显子中。在一些实施例中,双链断裂处于HB-EGF基因的外显子中,并且HB-EGF基因的天然编码序列中的突变处于HB-EGF基因的不同外显子中。

在一些实施例中,供体多核苷酸的5’和3’同源臂与HB-EGF在核酸酶裂解位点具有序列相似性。在一些实施例中,双链断裂处于HB-EGF的内含子处,并且5’和3’同源臂包含与内含子序列的同源性。在一些实施例中,双链断裂处于HB-EGF的外显子处,并且5’和3’同源臂包含与外显子序列的同源性。在一些实施例中,供体多核苷酸的5’和3’同源臂设计为(例如)通过HDR将供体多核苷酸插入双链断裂位点处。在一些实施例中,5’和3’同源臂与HB-EGF中的核酸酶(例如,Cas9)裂解位点的任一侧具有至少60%、至少70%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的序列相似性。

在一些实施例中,天然编码序列包括相对于野生型序列的一个或多个变化,但是由天然编码序列编码的多肽与由野生型序列编码的多肽基本上相似,例如,多肽的氨基酸序列具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的同一性。在一些实施例中,由天然编码序列和野生型序列编码的多肽具有相似结构,例如,如技术人员确定的相似的总体形状和折叠。在一些实施例中,天然编码序列包含野生型序列的一部分,例如,天然编码序列与编码蛋白质的野生型序列的一个或多个外显子和/或一个或多个内含子基本上相似,使得天然编码序列的外显子和/或内含子可以置换相应的野生型外显子和/或内含子以编码与野生型多肽具有实质序列同一性和/或结构的多肽。在一些实施例中,天然编码序列包含相对于野生型序列的突变。在一些实施例中,TSG的天然编码序列中的突变处于外显子中。

在一些实施例中,供体多核苷酸包含:在TSG的天然编码序列中含有突变的功能性TSG,其中该突变赋予对毒素的抗性;SOI;以及用于在靶基因座处基因组整合的序列。术语“功能性”TSG是指编码与天然编码序列所编码的多肽基本上相似的多肽的TSG。在一些实施例中,功能性TSG包含与TSG的天然编码序列具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%序列相似性的序列,并且还在TSG的天然编码序列中包含赋予对毒素的抗性的突变。在一些实施例中,由功能性TSG编码的多肽具有与由天然编码序列编码的多肽基本上相同的结构并且执行相同的细胞功能,除了由功能性TSG编码的多肽对毒素具有抗性以外。在一些实施例中,由功能性TSG编码的多肽丧失其结合毒素的能力。在一些实施例中,由功能性TSG编码的多肽丧失其将毒素转运和/或易位到细胞中的能力。

在一些实施例中,该TSG的天然编码序列中的该突变是取代突变、插入或缺失。在一些实施例中,突变是TSG编码序列中一个核苷酸的取代,该取代改变所编码的多肽序列中的单个氨基酸。在一些实施例中,突变是一个或多个核苷酸的取代,该取代改变所编码的多肽序列中的一个或多个氨基酸。在一些实施例中,突变是一个或多个核苷酸的取代,该取代将氨基酸密码子改变为终止密码子。在一些实施例中,突变是TSG编码序列中的核苷酸插入,该核苷酸插入导致在所编码的多肽序列中插入一个或多个氨基酸。在一些实施例中,突变是TSG编码序列中的核苷酸缺失,该核苷酸缺失导致所编码的多肽序列中的一个或多个氨基酸的缺失。

在一些实施例中,该TSG的天然编码序列中的该突变是该TSG编码的蛋白质的毒素结合区中的突变。在一些实施例中,毒素结合区中的突变导致蛋白质丧失其结合毒素的能力。在一些实施例中,由功能性TSG编码的蛋白质具有与由天然编码序列编码的蛋白质基本上相同的结构并且执行相同的细胞功能,除了由包含突变的功能性TSG编码的蛋白质对毒素具有抗性以外。在一些实施例中,由功能性TSG编码的蛋白质丧失其结合毒素的能力。在一些实施例中,由功能性TSG编码的蛋白质丧失其将毒素转运和/或易位到细胞中的能力。

在一些实施例中,TSG编码与毒素结合的受体。在一些实施例中,受体是CA受体。在一些实施例中,TSG编码结合白喉毒素的受体。在一些实施例中,TSG编码肝素结合性EGF样生长因子(HB-EGF)。在一些实施例中,该TSG的天然编码序列中的该突变使得该细胞对白喉毒素具有抗性。

在一些实施例中,毒素是天然存在的毒素。在一些实施例中,毒素是合成毒物。在一些实施例中,毒素是小分子、肽或蛋白质。在一些实施例中,毒素是抗体-药物缀合物。在一些实施例中,毒素是用具有不稳定键的化学接头附接生物活性药物的单克隆抗体。在一些实施例中,毒素是生物毒素。在一些实施例中,毒素由蓝细菌(蓝藻毒素)、腰鞭毛虫(dinotoxin)、蜘蛛、蛇、蝎子、青蛙、海洋生物(诸如水母、毒鱼、珊瑚或蓝环章鱼)产生。毒素的实例包括例如白喉毒素、肉毒杆菌毒素、篦麻毒素、蜂毒素、志贺菌毒素、假单胞菌外毒素和霉菌毒素。在一些实施例中,该毒素是白喉毒素。在一些实施例中,毒素是抗体-药物缀合物。

在一些实施例中,毒素对一种生物体(例如人)有毒,但对另一种生物体(例如小鼠)无毒。在一些实施例中,毒素在其生命周期的一个阶段(例如,胎儿阶段)对生物体有毒,但在生物体的另一生命阶段(例如,成人阶段)无毒。在一些实施例中,毒素在动物的一种器官中有毒,但对同一动物的另一种器官无毒。在一些实施例中,毒素对处于一种情况或状态(例如,患病)的受试者(例如,人或动物)有毒,但对处于另一种情况或状态(例如,健康)的相同受试者无毒。在一些实施例中,毒素对一种细胞类型有毒,但对另一种细胞类型无毒。在一些实施例中,毒素对处于一种细胞状态(例如分化)的细胞有毒,但对处于另一种细胞状态(例如未分化)的相同细胞无毒。在一些实施例中,毒素对处于一种环境(例如低温)中的细胞有毒,但对处于另一种环境(例如高温)中的相同细胞无毒。在一些实施例中,毒素对人类细胞有毒,但对小鼠细胞无毒。

在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸100至160中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸105至150中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸107至148中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸120至145中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸135至143中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ IDNO:8)的氨基酸138至144中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变是GLU141突变为ARG141。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变是GLU141突变为HIS141。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变是GLU141突变为LYS141。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的GLU141突变为LYS141赋予对白喉毒素的抗性。

因此,在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中氨基酸100至160中的一个或多个中的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中氨基酸105至150中的一个或多个中的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中氨基酸107至148中的一个或多个中的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQID NO:8)中氨基酸120至145中的一个或多个中的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中氨基酸135至143中的一个或多个中的突变。在一些实施例中,该TSG的天然编码序列中的该突变是野生型HB-EGF(SEQ ID NO:8)的氨基酸138至144中的一个或多个中的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中氨基酸141中的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中GLU141向LYS141的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中GLU141向HIS141的突变。在一些实施例中,该TSG的天然编码序列中的该突变是HB-EGF(SEQ ID NO:8)中GLU141向ARG141的突变。在一些实施例中,HB-EGF(SEQ ID NO:8)中的GLU141突变为LYS141赋予对白喉毒素的抗性。

在一些实施例中,供体多核苷酸中的功能性TSG或附加型载体对该核酸酶的灭活作用有抗性。在一些实施例中,功能性TSG在TSG的天然编码序列中包含一个或多个突变,其中该一个或多个突变赋予对核酸酶的灭活作用的抗性。在一些实施例中,功能性TSG不与核酸酶结合。在一些实施例中,不与核酸酶结合的TSG不易被核酸酶裂解。如本文所讨论的,除了向导多核苷酸(例如指导RNA)经由杂交识别靶序列之外,诸如某些类型的Cas9等核酸酶可能需要在靶序列处或附近的PAM序列。在一些实施例中,Cas9在引发核酸酶活性之前与PAM序列结合。在一些实施例中,在靶序列或邻近或附近区域中不包括PAM的靶序列不与核酸酶结合。因此,在一些实施例中,在靶序列或相邻或附近区域中不包括PAM的靶序列不被核酸酶裂解,因此对核酸酶的灭活作用具有抗性。在一些实施例中,功能性TSG不包含PAM序列。在一些实施例中,不包含PAM序列的TSG对核酸酶的灭活作用具有抗性。

在一些实施例中,PAM在靶序列的约30至约1个核苷酸内。在一些实施例中,PAM在靶序列的约20至约2个核苷酸内。在一些实施例中,PAM在靶序列的约10至约3个核苷酸内。在一些实施例中,PAM在靶序列的约10个、约9个、约8个、约7个、约6个、约5个、约4个、约3个、约2个或约1个核苷酸内。在一些实施例中,PAM在靶序列的上游(即,在5’方向)。在一些实施例中,PAM在靶序列的下游(即,在3’方向)。在一些实施例中,PAM位于靶序列内。

在一些实施例中,由功能性TSG编码的多肽不能与向导多核苷酸杂交。在一些实施例中,不与向导多核苷酸杂交的TSG不易被核酸酶诸如Cas9裂解。如本文所述,向导多核苷酸能够与靶序列杂交,即被向导多核苷酸“识别”以被核酸酶诸如Cas9裂解。因此,不与向导多核苷酸杂交的序列不被核酸酶诸如Cas9识别进行裂解。在一些实施例中,不与向导多核苷酸杂交的序列对核酸酶的灭活作用具有抗性。在一些实施例中,向导多核苷酸能够与细胞基因组中的TSG杂交,并且供体多核苷酸或附加型载体上的功能性TSG在TSG的天然编码序列中包含一个或多个突变,使得向导多核苷酸(1)能够与细胞基因组中的TSG杂交,并且(2)不能与供体多核苷酸或附加型载体上的功能性TSG杂交。在一些实施例中,对核酸酶的灭活作用具有抗性的功能性TSG与靶向细胞基因组中的ExG的核酸酶同时引入细胞中。

在一些实施例中,SOI包含编码蛋白质的多核苷酸。在一些实施例中,SOI包含突变的基因。在一些实施例中,SOI包含非编码序列,例如微RNA。在一些实施例中,SOI与调控元件可操作地连接。在一些实施例中,SOI是调控元件。在一些实施例中,SOI包含抗性盒,例如赋予对抗生素的抗性的基因。在一些实施例中,SOI包含标记,例如选择标记或可筛选标记。在一些实施例中,SOI包含标记,例如限制性位点、荧光蛋白或选择性标记。

在一些实施例中,SOI包含细胞基因组中野生型基因的突变。在一些实施例中,突变是点突变,即单核苷酸取代。在一些实施例中,突变包括多个核苷酸的取代。在一些实施例中,突变引入终止密码子。在一些实施例中,突变包括野生型序列中的核苷酸插入。在一些实施例中,突变包括野生型序列中的核苷酸缺失。在一些实施例中,突变包括移码突变。

在一些实施例中,在引入核酸酶、向导多核苷酸和供体多核苷酸或附加型载体后,使细胞群体与毒素接触。本文提供了毒素的实例。在一些实施例中,毒素是天然存在的毒素。在一些实施例中,毒素是合成毒物。在一些实施例中,毒素是小分子、肽或蛋白质。在一些实施例中,毒素是抗体-药物缀合物。在一些实施例中,毒素是用具有不稳定键的化学接头附接生物活性药物的单克隆抗体。在一些实施例中,毒素是生物毒素。在一些实施例中,毒素由蓝细菌(蓝藻毒素)、腰鞭毛虫(dinotoxin)、蜘蛛、蛇、蝎子、青蛙、海洋生物(诸如水母、毒鱼、珊瑚或蓝环章鱼)产生。毒素的实例包括例如白喉毒素、肉毒杆菌毒素、篦麻毒素、蜂毒素、志贺菌毒素、假单胞菌外毒素和霉菌毒素。在一些实施例中,该毒素是白喉毒素。在一些实施例中,毒素是抗体-药物缀合物。

在一些实施例中,毒素对一种生物体(例如人)有毒,但对另一种生物体(例如小鼠)无毒。在一些实施例中,毒素在其生命周期的一个阶段(例如,胎儿阶段)对生物体有毒,但在生物体的另一生命阶段(例如,成人阶段)无毒。在一些实施例中,毒素在动物的一种器官中有毒,但对同一动物的另一种器官无毒。在一些实施例中,毒素对处于一种情况或状态(例如,患病)的受试者(例如,人或动物)有毒,但对处于另一种情况或状态(例如,健康)的相同受试者无毒。在一些实施例中,毒素对一种细胞类型有毒,但对另一种细胞类型无毒。在一些实施例中,毒素对处于一种细胞状态(例如分化)的细胞有毒,但对处于另一种细胞状态(例如未分化)的相同细胞无毒。在一些实施例中,毒素对处于一种环境(例如低温)中的细胞有毒,但对处于另一种环境(例如高温)中的相同细胞无毒。在一些实施例中,毒素对人类细胞有毒,但对小鼠细胞无毒。在一些实施例中,该毒素是白喉毒素。在一些实施例中,毒素是抗体-药物缀合物。

在一些实施例中,在细胞群体与毒素接触后,选择一个或多个对毒素有抗性的细胞。在一些实施例中,对毒素具有抗性的一个或多个细胞是存活细胞。在一些实施例中,存活细胞具有(1)灭活的天然TSG(例如,通过核酸酶产生的双链断裂而灭活),和(2)包含赋予毒素抗性的突变的功能性TSG。仅满足以上两个条件之一的细胞会发生细胞死亡:如果天然TSG未灭活,则细胞对毒素敏感并且在与毒素接触后死亡;如果未引入功能性TSG,则细胞缺乏TSG的正常细胞功能并且因不存在正常细胞功能而死亡。

在包括引入包含5’和3’同源臂(例如HDR的同源序列)的供体多核苷酸的实施例中,存活细胞包含在天然TSG基因座处包含SOI的供体多核苷酸的双等位基因整合,其中天然TSG通过供体多核苷酸的整合而被破坏,并且其中细胞包含功能性、毒素抗性TSG。因此,在此类实施例中,对毒素有抗性的该一个或多个细胞包含SOI的双等位基因整合。在包括引入包含用于基因组整合的序列(例如转座子、慢病毒载体序列或逆转录病毒载体序列)的供体多核苷酸的实施例中,存活细胞包含灭活的天然TSG,以及包含功能性、毒素抗性TSG和SOI的供体多核苷酸在靶基因座处的整合。在此类实施例中,对该毒素有抗性的该一个或多个细胞包含整合在该靶基因座处的SOI。在包括引入附加型载体的实施例中,存活细胞包含灭活的天然TSG和稳定的附加型载体,该附加型载体包含功能性、毒素抗性TSG和SOI。在此类实施例中,对毒素具有抗性的该一个或多个细胞包含附加型载体。

提供白喉毒素抗性的方法

在一些实施例中,本披露提供了一种在人类细胞中提供对白喉毒素的抗性的方法,该方法包括向该细胞中引入:(i)碱基编辑酶;和(ii)靶向人类细胞中的肝素结合性EGF样生长因子(HB-EGF)受体的向导多核苷酸,其中该碱基编辑酶与该向导多核苷酸形成复合物,并且其中该碱基编辑酶靶向该HB-EGF并且在该HB-EGF中提供位点特异性突变,从而在人类细胞中提供对白喉毒素的抗性。

在一些实施例中,人类细胞是人类细胞系。在一些实施例中,人类细胞是干细胞。干细胞可以是例如多能干细胞,包括胚胎干细胞(ESC)、成体干细胞、诱导多能干细胞(iPSC)、组织特异性干细胞(例如,造血干细胞)和间充质干细胞(MSC)。在一些实施例中,人类细胞是本文描述的任何细胞的分化形式。在一些实施例中,真核细胞是源自培养物中的原代细胞的细胞。在一些实施例中,细胞是干细胞或干细胞系。在一些实施例中,人类细胞是肝细胞,诸如人肝细胞、动物肝细胞,或非实质细胞。例如,真核细胞可以是可铺板培养的代谢合格的人肝细胞、可铺板培养的诱导合格的人肝细胞、可铺板培养的经QUALYSTTRANSPORTER认证的人肝细胞、悬浮合格的人肝细胞(包括10-供体和20-供体合并的肝细胞)、人肝库普弗细胞或人肝星形细胞。在一些实施例中,人类细胞是免疫细胞。在一些实施例中,免疫细胞是粒细胞、肥大细胞、单核细胞、树突细胞、自然杀伤细胞、B细胞、原代T细胞、细胞毒性T细胞、辅助T细胞、CD8+T细胞、CD4+T细胞或调节性T细胞。

在一些实施例中,将人类细胞异种移植或移植到非人动物中。在一些实施例中,非人动物是小鼠、大鼠、仓鼠、豚鼠、兔或猪。在一些实施例中,人类细胞是非人动物的人源化器官中的细胞。在一些实施例中,“人源化”器官是指在动物中生长的人类器官。在一些实施例中,“人源化”器官是指由动物产生的、耗尽其动物特异性细胞并移植了人类细胞的器官。人源化器官可与人类免疫相容。在一些实施例中,人源化器官是肝脏、肾脏、胰腺、心脏、肺或胃。人源化器官对于人类疾病的研究和建模非常有用。然而,大多数遗传选择工具不能在宿主动物中翻译为人源化器官,因为大多数选择标记对宿主动物都是有害的。在例如Garry等人,Regen Med[再生医学]11(7):617-619;Garry等人,CirC Res[循环研究]124:23-25(2019)以及Nguyen等人,Drug Discov Today[今日药物发现]23(11):1812-1817(2018)中进一步描述了人源化器官。

本披露提供了高度有利的选择方法,该方法可通过利用对人有毒但对小鼠无毒的白喉毒素而用于动物宿主中的人源化细胞。然而,本发明的方法不限于白喉毒素,并且可以与具有差异性毒性,即对一种生物体有毒但对另一种生物体无毒的任何化合物一起使用。本方法还通过操纵毒素的受体提供白喉毒素抗性,这在一些情况下可能是有利的,因为没有毒素进入细胞,这与聚焦于白喉酰胺生物合成蛋白2(DPH2)的先前方法不同(参见例如Picco等人,Sci Rep[科学报告]5:14721)。

在一些实施例中,通过在动物中移植人类细胞而产生人源化器官。在一些实施例中,动物是免疫缺陷小鼠。在一些实施例中,动物是免疫缺陷的成年小鼠。在一些实施例中,通过阻抑一种或多种动物基因并在动物器官中表达一种或多种人类基因来产生人源化器官。在一些实施例中,人源化器官是肝脏。在一些实施例中,人源化器官是胰腺。在一些实施例中,人源化器官是心脏。在一些实施例中,人源化器官表达编码细胞毒性剂的受体(即本文所述的CA受体)的人类基因。在一些实施例中,人源化器官对毒素敏感,而动物的其余部分对毒素有抗性。在一些实施例中,人源化器官表达人HB-EGF。在一些实施例中,人源化器官对白喉毒素敏感,而动物的其余部分对白喉毒素有抗性。在一些实施例中,人源化器官是小鼠中的人源化肝脏,其中人源化肝脏对表达的人HB-EGF敏感并且对白喉毒素敏感,而小鼠的其余部分对HB-EGF有抗性。因此,当暴露于白喉毒素时,只有小鼠肝脏中的人源化细胞会死亡。

在一些实施例中,该碱基编辑酶包含DNA靶向结构域和DNA编辑结构域。在一些实施例中,该DNA靶向结构域包含Cas9。本文描述了Cas9蛋白。在一些实施例中,该Cas9在催化结构域中包含突变。在一些实施例中,该碱基编辑酶包含无催化活性的Cas9(dCas9)和DNA编辑结构域。在一些实施例中,该nCas9相对于野生型Cas9在氨基酸残基D10和H840处包含突变(相对于SEQ ID NO:3编号)。在一些实施例中,该碱基编辑酶包含能够产生单链DNA断裂的Cas9(nCas9)和DNA编辑结构域。在一些实施例中,该nCas9相对于野生型Cas9在氨基酸残基D10或H840处包含突变(相对于SEQ ID NO:3编号)。在一些实施例中,Cas9包含与SEQID NO:3具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%序列同一性的多肽。在一些实施例中,Cas9包含与SEQ ID NO:3具有至少90%序列同一性的多肽。在一些实施例中,Cas9包含与SEQ ID NO:4具有至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%序列同一性的多肽。在一些实施例中,Cas9包含与SEQ ID NO:4具有至少90%序列同一性的多肽。

在一些实施例中,该DNA编辑结构域包含脱氨酶。在一些实施例中,该脱氨酶是胞苷脱氨酶或腺苷脱氨酶。在一些实施例中,该脱氨酶是胞苷脱氨酶。在一些实施例中,该脱氨酶是腺苷脱氨酶。在一些实施例中,该脱氨酶是载脂蛋白B mRNA编辑复合物(APOBEC)脱氨酶、活化诱导性胞苷脱氨酶(AID)、ACF1/ASE脱氨酶、ADAT脱氨酶或ADAR脱氨酶。在一些实施例中,该脱氨酶是载脂蛋白B mRNA编辑复合物(APOBEC)家族脱氨酶。在一些实施例中,该脱氨酶是APOBEC1。

在一些实施例中,该碱基编辑酶进一步包含DNA糖基化酶抑制剂结构域。在一些实施例中,该DNA糖基化酶抑制剂是尿嘧啶DNA糖基化酶抑制剂(UGI)。一般而言,DNA糖基化酶诸如尿嘧啶DNA糖基化酶是碱基切除修复途径的一部分,并且在检测到U:G错配时进行无错修复(其中“U”是由胞嘧啶的脱氨基作用产生的),从而将U转化回野生型序列并有效地“解除”碱基编辑。因此,添加DNA糖基化酶抑制剂(例如,尿嘧啶DNA糖基化酶抑制剂)抑制碱基切除修复途径,从而提高碱基编辑效率。DNA糖基化酶的非限制性实例包括OGG1、MAG1和UNG。DNA糖基化酶抑制剂可以是小分子或蛋白质。例如,尿嘧啶DNA糖基化酶的蛋白质抑制剂在Mol等人,Cell[细胞]82:701-708(1995);Serrano-Heras等人,JBiol Chem[生物化学杂志]281:7068-7074(2006);以及新英格兰生物实验室目录号M0281S和M0281L(neb.com/products/m0281-uracil-glycosylase-inhibitor-ugi)中有描述。DNA糖基化酶的小分子抑制剂在例如Huang等人,JAm Chem Soc[美国化学会志]131(4):1344-1345(2009);Jacobs等人,PLoS One[公共科学图书馆综合]8(12):e81667(2013);Donley等人,ACS Chem Biol[美国化学学会化学生物学杂志]10(10):2334-2343(2015);Tahara等人,JAm Chem Soc[美国化学会志]140(6):2105-2114(2018)中有描述。

因此,在一些实施例中,本披露的碱基编辑酶包括nCas9和胞苷脱氨酶。在一些实施例中,本披露的碱基编辑酶包括nCas9和腺苷脱氨酶。在一些实施例中,碱基编辑酶包含与SEQ ID NO:6具有至少90%序列同一性的多肽。在一些实施例中,碱基编辑酶包含与SEQID NO:6具有至少50%、至少60%、至少70%、至少80%、至少85%或至少90%序列同一性的多肽。在一些实施例中,碱基编辑酶与SEQ ID NO:6具有至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的同一性。在一些实施例中,编码碱基编辑酶的多核苷酸与SEQ ID NO:5具有至少50%、至少60%、至少70%、至少80%、至少85%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的同一性。在一些实施例中,该碱基编辑酶是BE3。

在一些实施例中,本披露的方法包括向人类细胞中引入靶向人类细胞中的HB-EGF受体的向导多核苷酸。在一些实施例中,向导多核苷酸与碱基编辑酶形成复合物,并且碱基编辑酶通过向导多核苷酸靶向HB-EGF并在HB-EGF中提供位点特异性突变,从而在人类细胞中提供对白喉毒素的抗性。

在一些实施例中,该向导多核苷酸是RNA分子。可以将向导多核苷酸作为分离的分子,例如RNA分子引入靶细胞中,或使用含有编码向导多核苷酸例如RNA向导多核苷酸的DNA的表达载体将其引入细胞中。在一些实施例中,该向导多核苷酸是10至150个核苷酸。在一些实施例中,该向导多核苷酸是20至120个核苷酸。在一些实施例中,该向导多核苷酸是30至100个核苷酸。在一些实施例中,该向导多核苷酸是40至80个核苷酸。在一些实施例中,该向导多核苷酸是50至60个核苷酸。在一些实施例中,该向导多核苷酸是10至35个核苷酸。在一些实施例中,该向导多核苷酸是15至30个核苷酸。在一些实施例中,该向导多核苷酸是20至25个核苷酸。

在一些实施例中,RNA向导多核苷酸包含至少两个核苷酸区段:至少一个“DNA结合区段”和至少一个“多肽结合区段”。“区段”意指分子的一个部分、节段或区域,例如,向导多核苷酸分子的核苷酸的连续伸展段。除非另有明确定义,否则“区段”的定义不限于特定数目的总碱基对。

在一些实施例中,向导多核苷酸包括DNA结合区段。在一些实施例中,向导多核苷酸的DNA结合区段包含与靶多核苷酸内的特定序列互补的核苷酸序列。在一些实施例中,向导多核苷酸的DNA结合区段与靶细胞中编码细胞毒性剂(CA)受体的基因杂交。在一些实施例中,向导多核苷酸的DNA结合区段与编码HB-EGF的基因杂交。在一些实施例中,向导多核苷酸的DNA结合区段与靶细胞中的靶多核苷酸序列杂交。本文描述了靶细胞,包括各种类型的真核细胞。

在一些实施例中,向导多核苷酸包括多肽结合区段。在一些实施例中,向导多核苷酸的多肽结合区段结合本披露的碱基编辑酶的DNA靶向结构域。在一些实施例中,向导多核苷酸的多肽结合区段与碱基编辑酶的Cas9结合。在一些实施例中,向导多核苷酸的多肽结合区段与碱基编辑酶的dCas9结合。在一些实施例中,向导多核苷酸的多肽结合区段与碱基编辑酶的nCas9结合。与Cas9蛋白结合的各种RNA向导多核苷酸在例如美国专利公开号2014/0068797、2014/0273037、2014/0273226、2014/0295556、2014/0295557、2014/0349405、2015/0045546、2015/0071898、2015/0071899和2015/0071906中有描述。

在一些实施例中,向导多核苷酸进一步包含tracrRNA。“tracrRNA”或反式激活CRISPR-RNA与pre-crRNA或pre-CRISPR-RNA形成RNA双链体,然后被RNA特异性核糖核酸酶RNA酶III裂解形成crRNA/tracrRNA杂交体。在一些实施例中,向导多核苷酸包含crRNA/tracrRNA杂交体。在一些实施例中,向导多核苷酸的tracrRNA组件活化Cas9蛋白。在一些实施例中,Cas9蛋白的活化包括活化Cas9的核酸酶活性。在一些实施例中,Cas9蛋白的活化包括Cas9蛋白与靶多核苷酸序列结合。

在一些实施例中,设计向导多核苷酸的序列以将碱基编辑酶靶向靶多核苷酸序列中的特定位置。各种工具和程序可用于促进此类向导多核苷酸的设计,例如,Benchling碱基编辑器设计指南(benchling.com/editor#create/crispr),和来自CRISPR RGEN Tools的BE设计软件和BE分析软件(参见Hwang等人,bioRxiv dx.doi.org/10.1101/373944,2018年7月22日首发)。

在一些实施例中,向导多核苷酸的DNA结合区段与编码HB-EGF的基因杂交,并且向导多核苷酸的多肽结合区段通过与碱基编辑酶的DNA靶向结构域结合而与碱基编辑酶形成复合物。在一些实施例中,向导多核苷酸的DNA结合区段与编码HB-EGF的基因杂交,并且向导多核苷酸的多肽结合区段通过与碱基编辑酶的Cas9结合而与碱基编辑酶形成复合物。在一些实施例中,向导多核苷酸的DNA结合区段与编码HB-EGF的基因杂交,并且向导多核苷酸的多肽结合区段通过与碱基编辑酶的dCas9结合而与碱基编辑酶形成复合物。在一些实施例中,向导多核苷酸的DNA结合区段与编码HB-EGF的基因杂交,并且向导多核苷酸的多肽结合区段通过与碱基编辑酶的nCas9结合而与碱基编辑酶形成复合物。

在一些实施例中,该复合物通过向导多核苷酸靶向HB-EGF,并且该复合物的碱基编辑酶在HB-EGF中引入突变。在一些实施例中,HB-EGF中的突变由复合物的碱基编辑酶的碱基编辑结构域引入。在一些实施例中,HB-EGF中的突变形成白喉毒素抗性细胞。在一些实施例中,突变是胞苷(C)向胸腺嘧啶(T)的点突变。在一些实施例中,突变是腺嘌呤(A)向鸟嘌呤(G)的点突变。可以通过例如使用本文所述的工具诸如Benchling碱基编辑器设计向导、BE设计软件和BE分析仪设计向导多核苷酸来指导HB-EGF中突变的具体位置。在一些实施例中,该向导多核苷酸是RNA多核苷酸。在一些实施例中,该向导多核苷酸进一步包含tracrRNA序列。

在一些实施例中,该位点特异性突变处于该HB-EGF的结合白喉毒素的区域中。在一些实施例中,HB-EGF的EGF样结构域中的突变赋予对白喉毒素的抗性。在一些实施例中,HB-EGF的白喉毒素结合位点处或附近的氨基酸的电荷逆转突变赋予对白喉毒素的抗性。在一些实施例中,电荷逆转突变是用带正电荷的残基例如Lys或Arg置换带负电荷的残基例如Glu或Asp。在一些实施例中,电荷逆转突变是用带负电荷的残基例如Glu或Asp置换带正电荷的残基例如Lys或Arg。在一些实施例中,HB-EGF的白喉毒素结合位点处或附近的氨基酸的极性逆转突变赋予对白喉毒素的抗性。在一些实施例中,极性逆转突变是用非极性氨基酸残基例如Ala、Val或Ile置换极性氨基酸残基例如Gln或Asn。在一些实施例中,极性逆转突变是用极性氨基酸残基例如Gln或Asn置换非极性氨基酸残基例如Ala、Val或Ile。在一些实施例中,突变是用“大体积”氨基酸残基例如Trp置换HB-EGF的白喉毒素结合位点处或附近的相对小的氨基酸残基例如Gly或Ala。在一些实施例中,小残基突变为大体积残基会阻断结合口袋并阻止白喉毒素结合,从而赋予抗性。

在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸100至160中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸105至150中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸107至148中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸120至145中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸135至143中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ IDNO:8)的氨基酸138至144中的一个或多个中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变赋予对白喉毒素的抗性。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变是GLU141突变为ARG141。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变是GLU141突变为HIS141。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的氨基酸141中的突变是GLU141突变为LYS141。在一些实施例中,野生型HB-EGF(SEQ ID NO:8)的GLU141突变为LYS141赋予对白喉毒素的抗性。

因此,在一些实施例中,位点特异性突变处于HB-EGF(SEQ ID NO:8)中氨基酸100至160中的一个或多个中。在一些实施例中,该位点特异性突变处于HB-EGF(SEQ ID NO:8)中氨基酸105至150中的一个或多个中。在一些实施例中,该位点特异性突变处于HB-EGF(SEQ ID NO:8)中氨基酸107至148中的一个或多个中。在一些实施例中,该位点特异性突变处于HB-EGF(SEQ ID NO:8)中氨基酸120至145中的一个或多个中。在一些实施例中,该位点特异性突变处于HB-EGF(SEQ ID NO:8)中氨基酸135至143中的一个或多个中。在一些实施例中,该位点特异性突变处于野生型HB-EGF(SEQ ID NO:8)的氨基酸138至144中的一个或多个中。在一些实施例中,该位点特异性突变处于HB-EGF(SEQ ID NO:8)中的氨基酸141中。在一些实施例中,该位点特异性突变是HB-EGF(SEQ ID NO:8)中GLU141向LYS141的突变。在一些实施例中,该位点特异性突变是HB-EGF(SEQ ID NO:8)中GLU141向HIS141的突变。在一些实施例中,该位点特异性突变是HB-EGF(SEQ ID NO:8)中GLU141向ARG141的突变。在一些实施例中,HB-EGF(SEQ ID NO:8)中的GLU141突变为LYSl41赋予对白喉毒素的抗性。

使用必需基因的选择方法

本披露的方法不一定限于用毒素敏感基因进行选择。必需基因是生物体的被认为对在某些条件下存活至关重要的基因。在实施例中,必需基因在本文所述的共靶向富集策略中用作“选择”位点。

在一些实施例中,本披露提供了一种将目标序列(SOI)整合并富集到细胞基因组中的哺乳动物基因组靶基因座中的方法,该方法包括:(a)向细胞群体中引入:(i)能够产生双链断裂的核酸酶;(ii)与该核酸酶形成复合物并且能够与该细胞的基因组中的必需基因(ExG)基因座杂交且使其灭活的向导多核苷酸;和(iii)供体多核苷酸,该供体多核苷酸包含:(1)在该ExG的天然编码序列中包含突变的功能性ExG基因,其中该突变赋予对该向导多核苷酸的灭活作用的抗性,(2)该SOI,和(3)用于在靶基因座处基因组整合的序列;其中(i)、(ii)和(iii)的引入导致该细胞基因组中的该ExG被该核酸酶灭活,并且该供体多核苷酸整合到该靶基因座中;(b)培育这些细胞;以及(c)选择一个或多个存活细胞,其中该一个或多个存活细胞包含整合在该靶基因座处的该SOI。

图13说明了本方法的实施例。在图13中,将CRISPR-Cas复合物引入细胞中,靶向细胞存活的必需基因ExG。还将含有目标基因(GOI)和经修饰的ExG*的载体引入细胞中,该载体对CRISPR-Cas复合物的靶向具有抗性。因此,具有裂解的ExG(在ExG序列中用星号表示)和成功引入的具有ExG*的载体的细胞能够存活,而没有该载体的细胞由于缺乏ExG而死亡。可以设计和选择CRISPR-Cas复合物的向导RNA,使其对于细胞基因组中的ExG具有接近100%的效率,和/或可以使用多种向导RNA用于靶向同一ExG。替代性地或另外,可以进行多轮选择存活细胞和引入CRISPR-Cas复合物,使得存活细胞更有可能缺乏ExG的基因组拷贝,并且由于ExG*(并因此由于GOI)的存在而存活。因此,富集具有GOI的存活细胞。

在一些实施例中,必需基因是生物体存活所需的基因。在一些实施例中,必需基因的破坏或缺失导致细胞死亡。在一些实施例中,必需基因是营养缺陷型基因,即产生生长或存活所需的特定化合物的基因。营养缺陷型基因的实例包括参与核苷酸生物合成(诸如腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶或尿嘧啶);或氨基酸生物合成(诸如组氨酸、亮氨酸、赖氨酸、甲硫氨酸或色氨酸)的基因。在一些实施例中,必需基因是代谢途径中的基因。在一些实施例中,必需基因是自噬途径中的基因。在一些实施例中,必需基因是细胞分裂(例如有丝分裂)、细胞骨架组构或对应激或刺激的应答中的基因。在一些实施例中,必需基因编码促进细胞生长或分裂的蛋白质,信号传导分子的受体(例如,细胞的分子),或与另一种蛋白质、细胞器或生物分子相互作用的蛋白质。示例性的必需基因包括但不限于图23中列出的基因。例如Hart等人,Cell[细胞]163:1515-1526(2015);Zhang等人,Microb Cell[微生物细胞]2(8):280-287(2015);以及Fraser,Cell Systems[细胞系统]1:381-382(2015)中提供了必需基因的其他实例。

在一些实施例中,能够产生双链断裂的核酸酶是Cas9。在一些实施例中,Cas9蛋白在核酸中产生位点特异性断裂。在一些实施例中,Cas9蛋白在DNA中产生位点特异性双链断裂。Cas9靶向核酸中的特定序列的能力(即,位点特异性)通过Cas9和与指定序列(例如,ExG基因座)杂交的向导多核苷酸(例如,向导RNA)复合来实现。在一些实施例中,Cas9是2018年9月7日提交的美国临时申请号62/728,184中描述的Cas9变体。

在一些实施例中,该Cas9能够产生粘性末端。能够产生粘性末端的Cas9在例如2018年11月16日提交的PCT/US2018/061680中有描述。在一些实施例中,能够产生粘性末端的Cas9是二聚体Cas9融合蛋白。天然存在的核酸酶(例如Cas9)的结合结构域和裂解结构域,以及可以融合以产生核酸酶结合特异性靶位点的模块化结合结构域和裂解结构域,是本领域技术人员熟知的。例如,RNA可编程核酸酶(例如,Cas9)或具有无活性的DNA裂解结构域的Cas9蛋白的结合结构域,可用作特异性结合所需靶位点的结合结构域(例如,其结合gRNA以指导与靶位点的结合),并且与裂解结构域(例如,核酸内切酶FokI的裂解结构域)融合或缀合以产生裂解靶位点的工程化核酸酶。Cas9-FokI融合蛋白,例如在美国专利公布号2015/0071899和Guilinger等人,“(无催化活性的Cas9与FokI核酸酶融合以提高基因组修饰的特异性)Fusion of catalytically inactive Cas9 to FokI nuclease improvesthe specificity of genome modification,”Nature Biotechnology[自然生物技术]32:577-582(2014)中有进一步描述。

在一些实施例中,Cas9包含SEQ ID NO:3或4的多肽序列。在一些实施例中,Cas9与SEQ ID NO:3或4具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的序列同一性。在一些实施例中,Cas9是SEQ ID NO:3或4。

在一些实施例中,该向导多核苷酸是RNA多核苷酸。与CRISPR-Cas组件结合并将它们靶向靶DNA内的特定位置的RNA分子在本文中称为“RNA向导多核苷酸”、“向导RNA”、“gRNA”、“小向导RNA”、“单向导RNA”或“sgRNA”,并且在本文中也可称为“DNA靶向RNA”。可以将向导多核苷酸作为分离的分子,例如RNA分子引入靶细胞中,或使用含有编码向导多核苷酸例如RNA向导多核苷酸的DNA的表达载体将其引入细胞中。在一些实施例中,该向导多核苷酸是10至150个核苷酸。在一些实施例中,该向导多核苷酸是20至120个核苷酸。在一些实施例中,该向导多核苷酸是30至100个核苷酸。在一些实施例中,该向导多核苷酸是40至80个核苷酸。在一些实施例中,该向导多核苷酸是50至60个核苷酸。在一些实施例中,该向导多核苷酸是10至35个核苷酸。在一些实施例中,该向导多核苷酸是15至30个核苷酸。在一些实施例中,该向导多核苷酸是20至25个核苷酸。

在一些实施例中,RNA向导多核苷酸包含至少两个核苷酸区段:至少一个“DNA结合区段”和至少一个“多肽结合区段”。“区段”意指分子的一个部分、节段或区域,例如,向导多核苷酸分子的核苷酸的连续伸展段。除非另有明确定义,否则“区段”的定义不限于特定数目的总碱基对。

在一些实施例中,向导多核苷酸包括DNA结合区段。在一些实施例中,向导多核苷酸的DNA结合区段包含与靶多核苷酸内的特定序列互补的核苷酸序列。在一些实施例中,向导多核苷酸的DNA结合区段与细胞中的必需基因座(ExG)杂交。本文描述了各种类型的细胞,例如真核细胞。

在一些实施例中,向导多核苷酸包括多肽结合区段。在一些实施例中,向导多核苷酸的多肽结合区段结合本披露的核酸酶的DNA靶向结构域。在一些实施例中,向导多核苷酸的多肽结合区段与Cas9结合。在一些实施例中,向导多核苷酸的多肽结合区段与dCas9结合。在一些实施例中,向导多核苷酸的多肽结合区段与nCas9结合。与Cas9蛋白结合的各种RNA向导多核苷酸在例如美国专利公开号2014/0068797、2014/0273037、2014/0273226、2014/0295556、2014/0295557、2014/0349405、2015/0045546、2015/0071898、2015/0071899和2015/0071906中有描述。

在一些实施例中,向导多核苷酸进一步包含tracrRNA。“tracrRNA”或反式激活CRISPR-RNA与pre-crRNA或pre-CRISPR-RNA形成RNA双链体,然后被RNA特异性核糖核酸酶RNA酶III裂解形成crRNA/tracrRNA杂交体。在一些实施例中,向导多核苷酸包含crRNA/tracrRNA杂交体。在一些实施例中,向导多核苷酸的tracrRNA组件活化Cas9蛋白。在一些实施例中,Cas9蛋白的活化包括活化Cas9的核酸酶活性。在一些实施例中,Cas9蛋白的活化包括Cas9蛋白与靶多核苷酸序列,例如ExG基因座结合。

在一些实施例中,向导多核苷酸将核酸酶引导至ExG基因座,并且核酸酶在ExG基因座处产生双链断裂。在一些实施例中,向导多核苷酸是向导RNA。在一些实施例中,核酸酶是Cas9。在一些实施例中,ExG基因座处的双链断裂使ExG灭活。在一些实施例中,ExG基因座的灭活破坏了必需的细胞功能。在一些实施例中,ExG基因座的灭活阻止细胞分裂。在一些实施例中,ExG基因座的灭活导致细胞死亡。

在一些实施例中,可以将“外源”ExG或其部分引入细胞中以补偿灭活的天然ExG。在一些实施例中,外源ExG是功能性ExG。术语“功能性”ExG是指编码与天然编码序列所编码的多肽基本上相似的多肽的ExG。在一些实施例中,功能性ExG包含与ExG的天然编码序列具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%序列相似性的序列,并且还在ExG的天然编码序列中包含赋予对核酸酶的灭活作用的抗性的突变。在一些实施例中,功能性ExG对核酸酶的灭活作用具有抗性,并且由功能性ExG编码的多肽与由天然编码序列编码的多肽具有基本上相同的结构并执行相同的细胞功能。

在一些实施例中,ExG的一部分编码执行与ExG编码的天然蛋白质基本上相同的功能的多肽。在一些实施例中,引入ExG的一部分以补充部分灭活的ExG。在一些实施例中,核酸酶使天然ExG的一部分灭活(例如,通过破坏ExG的编码序列的一部分),并且外源ExG包含编码序列的破坏部分,其可与天然序列的未破坏部分一起转录以形成功能性ExG。在一些实施例中,外源ExG或其部分整合在细胞基因组中的天然ExG基因座中。在一些实施例中,外源ExG或其部分整合在不同于ExG基因座的基因组基因座处。

在一些实施例中,功能性ExG不与核酸酶结合。在一些实施例中,不与核酸酶结合的ExG不易被核酸酶裂解。如本文所讨论的,除了向导多核苷酸(例如指导RNA)经由杂交识别靶序列之外,诸如某些类型的Cas9等核酸酶可能需要在靶序列处或附近的PAM序列。在一些实施例中,Cas9在引发核酸酶活性之前与PAM序列结合。在一些实施例中,在靶序列或邻近或附近区域中不包括PAM的靶序列不与核酸酶结合。因此,在一些实施例中,在靶序列或相邻或附近区域中不包括PAM的靶序列不被核酸酶裂解,因此对核酸酶的灭活作用具有抗性。在一些实施例中,ExG的天然编码序列中的突变去除PAM序列。在一些实施例中,不包含PAM序列的ExG对核酸酶的灭活作用有抗性。

在一些实施例中,PAM在靶序列的约30至约1个核苷酸内。在一些实施例中,PAM在靶序列的约20至约2个核苷酸内。在一些实施例中,PAM在靶序列的约10至约3个核苷酸内。在一些实施例中,PAM在靶序列的约10个、约9个、约8个、约7个、约6个、约5个、约4个、约3个、约2个或约1个核苷酸内。在一些实施例中,PAM在靶序列的上游(即,在5’方向)。在一些实施例中,PAM在靶序列的下游(即,在3’方向)。在一些实施例中,PAM位于靶序列内。

在一些实施例中,由功能性ExG编码的多肽不能与向导多核苷酸杂交。在一些实施例中,不与向导多核苷酸杂交的ExG不易被核酸酶诸如Cas9裂解。如本文所述,向导多核苷酸能够与靶序列杂交,即被向导多核苷酸“识别”以被核酸酶诸如Cas9裂解。因此,不与向导多核苷酸杂交的序列不被核酸酶诸如Cas9识别进行裂解。在一些实施例中,不与向导多核苷酸杂交的序列对核酸酶的灭活作用具有抗性。在一些实施例中,向导多核苷酸能够与细胞基因组中的ExG杂交,并且供体多核苷酸或附加型载体上的功能性ExG在ExG的天然编码序列中包含突变,使得向导多核苷酸(1)能够与细胞基因组中的ExG杂交,并且(2)不能与供体多核苷酸或附加型载体上的功能性ExG杂交。在一些实施例中,对核酸酶的灭活作用具有抗性的功能性ExG与靶向细胞基因组中的ExG的核酸酶同时引入细胞中。

在一些实施例中,功能性ExG包括相对于野生型序列的一个或多个突变,但是由天然编码序列编码的多肽与由野生型序列编码的多肽基本上相似,例如,多肽的氨基酸序列具有至少80%、至少81%、至少82%、至少83%、至少84%、至少85%、至少86%、至少87%、至少88%、至少89%、至少90%、至少91%、至少92%、至少93%、至少94%、至少95%、至少96%、至少97%、至少98%、至少99%或约100%的同一性。在一些实施例中,由功能性ExG和野生型ExG编码的多肽具有相似结构,例如,如技术人员确定的相似的总体形状和折叠。在一些实施例中,功能性ExG包含野生型序列的一部分。在一些实施例中,功能性ExG包含相对于野生型序列的突变。在一些实施例中,功能性ExG在ExG的天然编码序列中包含突变,其中该突变赋予对核酸酶的灭活作用的抗性。

在一些实施例中,该ExG的天然编码序列中的该突变是取代突变、插入或缺失。在一些实施例中,取代突变是多核苷酸序列中一个或多个核苷酸的取代,但编码的氨基酸序列保持不变。在一些实施例中,取代突变置换一个或多个核苷酸以将氨基酸的密码子改变为相同氨基酸的简并密码子。例如,天然编码序列可以包含编码组氨酸的序列“CAT”,并且突变可以将该序列改变为也编码组氨酸的“CAC”。在一些实施例中,取代突变置换一个或多个核苷酸以将氨基酸改变为不同的氨基酸,但具有相似的特性,使得所编码的多肽的整体结构或蛋白质的整体功能不受影响。例如,取代突变可导致亮氨酸变为异亮氨酸,谷氨酰胺变为天冬酰胺,谷氨酸变为天冬氨酸,丝氨酸变为苏氨酸,等等。

在一些实施例中,外源ExG或其部分(例如,在ExG的天然编码序列中包含突变的ExG,其中该突变赋予对核酸酶的灭活作用的抗性)在外源多核苷酸中引入细胞。在一些实施例中,外源ExG从外源多核苷酸表达。在一些实施例中,外源多核苷酸是质粒。在一些实施例中,外源多核苷酸是供体多核苷酸。在一些实施例中,该供体多核苷酸是载体。本文提供了示例性载体。

在一些实施例中,供体多核苷酸上的外源ExG或其部分通过用于基因组整合的序列整合到细胞的基因组中。在一些实施例中,用于基因组整合的序列从逆转录病毒载体获得。在一些实施例中,用于基因组整合的序列从转座子获得。

在一些实施例中,供体多核苷酸包含用于基因组整合的序列。在一些实施例中,用于靶基因座处的基因组整合的序列从转座子获得。如本文所述,转座子包括由转座酶识别的转座子序列,然后转座酶将包含转座子序列和目标序列(SOI)的转座子插入基因组中。在一些实施例中,靶基因座是能够表达SOI而不破坏正常细胞功能的任何基因组基因座。本文描述了示例性转座子。因此,在一些实施例中,供体多核苷酸包含:在ExG的天然编码序列中含有突变的功能性ExG,其中该突变赋予对核酸酶的灭活作用的抗性;SOI;以及用于在靶基因座处的基因组整合的转座子序列。在一些实施例中,细胞的天然ExG被核酸酶灭活,并且供体多核苷酸提供能够补偿天然ExG的天然细胞功能,同时对核酸酶的灭活作用具有抗性的功能性ExG。

在一些实施例中,供体多核苷酸包含用于基因组整合的序列。在一些实施例中,用于靶基因座处的基因组整合的序列从逆转录病毒载体获得。如本文所述,逆转录病毒载体包括通常是LTR的序列,该序列被整合酶识别,然后将包含LTR和SOI的逆转录病毒载体插入基因组中。在一些实施例中,靶基因座是能够表达SOI而不破坏正常细胞功能的任何基因组基因座。本文描述了示例性的逆转录病毒载体。因此,在一些实施例中,供体多核苷酸包含:在ExG的天然编码序列中包含突变的功能性ExG,其中该突变赋予对核酸酶的灭活作用的抗性;SOI;以及用于在靶基因座处基因组整合的逆转录病毒载体。在一些实施例中,细胞的天然ExG被核酸酶灭活,并且供体多核苷酸提供能够补偿天然ExG的天然细胞功能,同时对核酸酶的灭活作用具有抗性的功能性ExG。

在一些实施例中,外源多核苷酸是附加型载体。在一些实施例中,附加型载体是稳定的附加型载体,即留在细胞中的附加型载体。如本文所述,附加型载体包括自主DNA复制序列,其允许附加型载体复制并留在细胞中。在一些实施例中,该附加型载体是人工染色体。在一些实施例中,附加型载体是质粒。

在一些实施例中,将附加型载体引入细胞。在一些实施例中,附加型载体包含:在ExG的天然编码序列中包含突变的功能性ExG,其中该突变赋予对核酸酶的灭活作用的抗性;SOI;以及自主DNA复制序列。如本文所述,附加型载体是能够自主复制的非整合染色体外质粒。在一些实施例中,自主DNA复制序列源自病毒基因组序列。在一些实施例中,自主DNA复制序列源自哺乳动物基因组序列。在一些实施例中,附加型载体是人工染色体或质粒。在一些实施例中,质粒是病毒质粒。在一些实施例中,病毒质粒是SV40载体、BKV载体、KSHV载体或EBV载体。因此,在一些实施例中,细胞的天然ExG被核酸酶灭活,并且附加型载体提供能够补偿天然ExG的天然细胞功能,同时对核酸酶的灭活作用具有抗性的功能性ExG。

在一些实施例中,SOI包含编码蛋白质的多核苷酸。在一些实施例中,SOI包含突变的基因。在一些实施例中,SOI包含非编码序列,例如微RNA。在一些实施例中,SOI与调控元件可操作地连接。在一些实施例中,SOI是调控元件。在一些实施例中,SOI包含抗性盒,例如赋予对抗生素的抗性的基因。在一些实施例中,SOI包含标记,例如选择标记或可筛选标记。在一些实施例中,SOI包含标记,例如限制性位点、荧光蛋白或选择性标记。

在一些实施例中,SOI包含细胞基因组中野生型基因的突变。在一些实施例中,突变是点突变,即单核苷酸取代。在一些实施例中,突变包括多个核苷酸的取代。在一些实施例中,突变引入终止密码子。在一些实施例中,突变包括野生型序列中的核苷酸插入。在一些实施例中,突变包括野生型序列中的核苷酸缺失。在一些实施例中,突变包括移码突变。

在一些实施例中,向导多核苷酸对于细胞基因组中的ExG具有高于80%、高于85%、高于90%、高于95%或约100%的靶向效率。靶向效率可以通过例如细胞群体中具有灭活的ExG的细胞的百分比来测量。可以使用各种设计工具来设计和选择向导多核苷酸以具有提高的效率,这些工具诸如为Chop Chop(chopchop.cbu.uib..no);CasFinder(arep.med.harvard.edu/CasFinder);E-CRISP(e-crisp.org/E-CRISP/designcrispr.html);CRISPR-ERA(crispr-era.stanford.edu/index.jsp);等等。

在一些实施例中,将一个以上的向导多核苷酸引入该细胞群体中,其中每个向导多核苷酸都与该核酸酶形成复合物,并且其中每个向导多核苷酸都与该ExG的不同区域杂交。在一些实施例中,使用多个向导多核苷酸来提高灭活细胞基因组中的ExG的效率。例如,第一向导多核苷酸可以靶向ExG的5’区域,第二向导多核苷酸可以靶向ExG的内部区域,并且第三向导多核苷酸可以靶向ExG的3’区域。每个向导多核苷酸的靶向效率可以变化;然而,在5’、3’或内部区域中的任一个区域的核酸酶裂解使ExG灭活,并且因此,利用一个以上靶向相同基因的向导多核苷酸可以提高总体效率。在一些实施例中,将至少2个、至少3个、至少4个、至少5个、至少6个、至少7个、至少8个、至少9个、至少10个、至少15个或至少20个不同的向导多核苷酸引入细胞群体中。

在一些实施例中,存活细胞包括包含在靶基因座处或在附加型载体上整合的ExG*和SOI的细胞,以及例如由于核酸酶的固有低效或核酸酶和/或向导多核苷酸未成功引入细胞而包含未被核酸酶灭活的ExG的细胞的混合物。因此,在一些实施例中,重复这些方法的一个或多个步骤以富集包含所需SOI的存活细胞。重复引入核酸酶和向导多核苷酸可增加细胞基因组中的ExG灭活的可能性,从而富集包含在靶基因座处或在附加型载体上整合的ExG*和SOI的存活细胞。

因此,在将SOI整合到靶基因座中的方法的实施例中,这些方法进一步包括将能够产生双链断裂的核酸酶和与核酸酶形成复合物并且能够与细胞基因组中的ExG杂交的向导多核苷酸引入所选的一个或多个存活细胞中,以富集包含整合在靶基因座处的SOI的存活细胞。在将稳定的附加型载体引入细胞中的方法的实施例中,该方法进一步包括将能够产生双链断裂的核酸酶和与核酸酶形成复合物并且能够与细胞基因组中的ExG杂交的向导多核苷酸引入所选的一个或多个存活细胞中,以富集包含附加型载体的存活细胞。

在一些实施例中,将核酸酶和向导多核苷酸引入这些存活细胞中以进行多轮富集。在一些实施例中,引入核酸酶和向导多核苷酸进行2、3、4、5、6、7、8、9、10、15、20轮或多于20轮的富集。每轮靶向都增加了存活细胞包含SOI的可能性,即富集了包含在靶基因座处或在附加型载体上整合的SOI的存活细胞。

序型

本文提供了各种多核苷酸和多肽的序列。

来自酿脓链球菌的Cas9蛋白的多核苷酸序列(SpCas9;SEQ ID NO:1):

来自新凶手弗朗西斯菌(Francisella novicida)的Cas9蛋白的多核苷酸序列(FnCas9;SEQ ID NO:2):

SpCas9的多肽序列(SEQ ID NO:3):

FnCas9的多肽序列(SEQ ID NO:4):

BE3的多核苷酸序列(SEQ ID NO:5):

BE3的多肽序列(SEQ ID NO:6):

HB-EGF基因座的多核苷酸序列(SEQ ID NO:7):

HB-EGF蛋白的多肽序列(SEQ ID NO:8):

本文引用的所有参考文献,包括专利、专利申请、论文、教科书等以及其中引用的参考文献(如同它们还未曾引用过的程度)特此通过援引以其全文并入本文。

实例

实例1实验方案

在该实例中,提供了用于共靶向富集的方案。

每2-3天保持表达肝素结合性EGF受体的细胞系培养和传代培养,直至转染。细胞在转染当天应>80%汇合。

用编码碱基编辑器或Cas9的质粒,和/或与编码靶向HB-EGF的向导RNA和目标基因的质粒一起转染细胞。根据制造商的方案制备用于转染的DNA-脂质复合物。替代性地,也可以使用mRNA和RNP复合物。

将复合物添加到前一天接种了新鲜胰蛋白酶化细胞的板中。

转染后72小时取出培养基,将细胞胰蛋白酶化并重新接种到新的板中,其表面积是前一张板的两倍。

第二天,向孔中添加浓度为20ng/mL的白喉毒素。2天后,进行新的白喉毒素处理。

监测细胞生长,并在必要时将细胞转移到更大的板或烧瓶中,直至所有负向选择的细胞都死亡。

1-2周后通过下一代序列分析细胞以确定编辑效率。

实例2.向导RNA的筛选

在本实例中,筛选指导RNA(gRNA)以鉴定当与BE3共转染时将产生对白喉毒素的抗性的gRNA。设计一组gRNA以平铺通过HB-EGF的EGF样结构域(参见图4C)。将每种gRNA与BE3以1:4的转染重量比共转染到HEK293或HCT116细胞中。

转染后第3天用20ng/mL白喉毒素处理细胞,然后在转染后第5天再次处理。使用INCUCYTE ZOOM通过汇合度来测量细胞生长。

图4A和图4B所示的结果分别显示用HB-EGF gRNA 16和BE3共转染的HEK293和HCT116细胞在所有转染的细胞中具有最高的生长水平。图5B-5D所示的sanger测序和下一代测序分析的结果揭示,gRNA 16转染的细胞中对白喉毒素的抗性是通过BE3碱基编辑引入的E141K突变的结果。gRNA 16的序列示于图5A中。

实例3.用BE3和Cas9进行的共靶向富集

在本实例中,使用BE3和Cas9测试了使用白喉毒素选择的共靶向富集,共转染了实例2中鉴定的靶向gRNA和gRNA 16以产生白喉毒素抗性细胞。

质粒构建

Cas9质粒:编码SpCas9、T2A自裂解肽和嘌呤霉素N-乙酰转移酶的DNA序列由基因技术股份公司(GeneArt)合成并克隆到具有CMV启动子和BGH聚A尾的表达载体中。参见图15的质粒图谱。

BE3质粒。碱基编辑器3的DNA序列由基因技术股份公司使用限制性位点BamHI和XhoI合成并克隆到pcDNA3.1(+)中。参见图14的质粒图谱。

gRNA质粒。使用互补引物对(5’-AAAC-N20-3’和5’-ACCG-N20-3’)将gRNA的靶序列引入模板质粒中的AarI剪切位点处。模板质粒由基因技术股份公司合成。它含有U6启动子驱动性gRNA表达盒,其中rpsL-BSD选择盒克隆到gRNA靶序列的侧翼有两个AarI限制性位点的区域中。引物可在表1中找到。靶向BFP和EGFR的gRNA的质粒在Coelho等人,BMC Biology[BMC生物学]16:150(2018)中进行了描述并示于图17-23中。

表1.引物

细胞培养和转染

将获自ATCC的HEK293T和HCT116细胞保持在补充有10%胎牛血清(FBS)的杜尔贝科改良伊格尔培养基(DMEM)中。将PC9-BFP细胞保持在含有10%FBS的DMEM培养基中。

使用FUGENE HD转染试剂(普洛麦格(Promega)),根据说明使用3∶1比率的转染试剂与DNA进行转染。本研究中的转染在24孔板和48孔板中进行。在转染前24小时,分别将1.25×105个和6.75×104个细胞接种在24孔和48孔板中。对于24孔板和48孔板,分别使用500ng和250ng总DNA进行转染。

对于共靶向富集,Cas9或BE3质粒DNA、靶向gRNA质粒DNA和选择gRNA质粒DNA以8∶1∶1的重量比转染。图7C中示出了PCKS9位点的靶向gRNA的序列,并且图7E中示出了DPM2、EGFR、EMX1和Yas85位点的靶向gRNA的序列。转染后3天用20ng/ml白喉毒素处理细胞,然后在转染后5天再次处理。当细胞生长到>80%汇合时,收获细胞用于下游应用。对于本研究中使用的所有细胞类型,在转染后7天收获细胞用于基因组提取。对于其他不同的细胞系或原代细胞,可以应用不同剂量的白喉毒素和处理时间来杀伤所有野生型细胞。

下一代测序和数据分析

转染后或处理后72小时使用QUICKEXTRACT DNA提取溶液(鲁世进公司(Lucigen))根据说明从细胞中提取基因组DNA。经由两个PCR步骤制备NGS文库。使用NEBNEXT Q5热启动高保真PCR主混合物(NEBNEXT Q5Hot Start HiFi PCR Master Mix)(新英格兰实验室(NewEngland Biolabs))根据说明进行第一次PCR。使用来自第一次PCR的1ng产物,使用KAPA高保真PCR试剂盒(KAPABIOSYSTEMS)进行第二次PCR。使用Agencourt AMPure XP(贝克曼库尔特公司(Beckman Coulter))纯化PCR产物并用片段分析仪进行分析。

图7A和图7B中的结果分别示出了HCT116和HEK293细胞中PCSK9靶位点中不同胞嘧啶的BE3碱基编辑效率。“对照”条件在没有白喉毒素选择的情况下显示出相对低的碱基编辑效率,而“富集”条件在利用白喉毒素选择时显示出显著更高的碱基编辑效率。图7D中的结果显示,与没有白喉毒素的“对照”条件相比,当利用白喉毒素选择(“富集”)时,DPM2、EGFR、EMX1和Yas85靶位点中不同胞嘧啶处的碱基编辑效率增加。

图8A中的结果显示通过测量HEK293和HCT116细胞中PCSK9靶位点处产生的插入缺失的百分比获得的Cas9编辑效率。与碱基编辑一样,与不使用白喉毒素选择的“对照”条件相比,在使用白喉毒素选择的“富集”条件下,Cas9编辑效率显著增加。图8B中的结果显示DPM2、EXM1和Yas85靶位点处的Cas9编辑效率有类似增加。

实例4.双等位基因整合

在本实例中,测试白喉毒素选择以提高目标基因的敲入(插入)效率以实现双等位基因整合。

用于敲入的供体质粒。mCherry的敲入质粒由金斯瑞(Genescripts)合成。参见图23的质粒图谱,以及图10A的实验设计。

对于敲入实验,以24孔板的形式进行转染。Cas9质粒DNA、gRNA质粒DNA和mCherry敲入(KI)或对照质粒DNA在不同条件下以不同的重量比转染,如表2所示。转染后3天用20ng/ml白喉毒素处理细胞,然后在转染后5天再次处理。之后,将细胞保持在不含白喉毒素的新鲜培养基中。转染后13天,收获所有样品的基因组用于PCR分析。转染后22天,将转染条件3的细胞、转染阴性对照1和2以及mCherry阳性对照细胞系重悬并通过FACS分析。

表2

具有成功插入的细胞将mCherry与突变的HB-EGF基因一起翻译,并且这些细胞将显示mCherry荧光。如图10B所示,在白喉毒素选择后,几乎所有经Cas9、gRNA SaW10和mCherry HDR模板转染的细胞都为mCherry阳性,而没有mCherry供体质粒的细胞不显示出任何mCherry荧光。图10C显示mCherry的表达在整个群体中是同质的(图10C)。

图10E和图10F示出了使用图10D中概述的策略的PCR分析结果。第一PCR反应(PCR1)用结合基因组中的序列的正向引物(PCR1_F引物)和结合GOI中的序列的反向引物(PCR1_R引物)扩增接合区。因此,只有具有整合的GOI的细胞才会随PCR1显示出阳性条带。第二PCR反应(PCR2)用结合插入的5’末端中的序列的正向引物(PCR2_F引物)和结合插入的3’末端处的序列的反向引物(PCR2_R引物)扩增插入区。因此,PCR2扩增仅在细胞中的所有等位基因都随GOI一起成功插入时发生,并且扩增产物将显示为单一整体条带。如果存在任何野生型等位基因,则将显示野生型(WT)条带。

图10E示出了所有测试条件的阳性条带,这些条件包括Cas9、gRNA、mCherry供体质粒的引入,表明插入已成功实现。图10F中所有三个条件的单一整体条带表明在测试的细胞中不存在野生型等位基因,即实现了双等位基因整合。

实例5.详细的实验方案

提供了与后续实例有关的实验方案。

质粒和模板DNA构建

通过将由基因技术股份公司合成的编码与核定位信号(NLS)和自裂解嘌呤霉素抗性蛋白(T2A-Puro)融合的经密码子优化的SpCas9的序列克隆到pVAX1载体中来构建表达酿脓链球菌Cas9(SpCas9)的质粒。构建两种型式的SpCas9质粒以驱动SpCas9在CMV启动子(CMV-SpCas9)或EF1α启动子(EF1α-SpCas9)的控制下的表达。胞苷碱基编辑器3(CBE3)使用其公开的序列而合成,并由基因技术股份公司克隆到pcDNA3.1(+)载体中。构建两种型式的质粒以控制在CMV启动子(CMV-CBE3)或EF1α启动子(EF1α-CBE3)下的CBE3表达。同样,腺嘌呤碱基编辑器7.10(ABE7.10)使用其公开的序列而合成并克隆到pcDNA3.1(+)载体中。构建两种型式的质粒以控制在CMV启动子(CMV-ABE7.10)或EF1α启动子(EF1α-ABE7.10)下的ABE7.10表达。从综合DNA技术公司(IDT)订购单个序列组件并使用吉布森组装(Gibsonassembly)(新英格兰实验室)组装。

通过置换模板质粒的靶序列克隆表达不同sgRNA的质粒。将含有靶序列(5’-AAAC-N20-3’和5’-ACCG-N20-3’)的互补引物对退火(95℃5分钟,然后以1℃/分钟的速度下降至25℃)并使用T4连接酶用AarI消化的模板组装。所有引物对都列在表3A中。在先前的出版物中描述了表达靶向BFP的sgRNA的质粒和表达靶向EGFR和CBE3的sgRNA的质粒。

充当HBEGF或HIST2BC基因座的修复模板的质粒从金斯瑞订购或使用吉布森组装进行修饰。从IDT订购单个序列组件。将HBEGF基因座的模板质粒设计为含有强剪接受体序列,然后是从外显子4开始的HBEGF的突变CDS序列和由聚A序列编码的自裂解mCherry编码序列。将HIST2BC的模板质粒设计为含有GFP编码序列,然后是自裂解的杀稻瘟素抗性蛋白编码序列。对于这两个基因座,将pHMEJ和pHR设计为含有位于插入序列侧翼的左右同源臂,而将pNHEJ设计为不含同源臂。将pHMEJ设计为含有一个位于每条同源臂侧翼的sgRNA剪切位点,而pHR不含该位点。为了比较嘌呤霉素选择与DT选择,将自裂解嘌呤霉素抗性蛋白编码序列插入HBEGF外显子序列和自裂解mCherry编码序列(pHMEJ_PuroR)之间。

双链DNA(dsDNA)模板是通过用表3B中列出的引物对质粒pHMEJ进行PCR扩增,然后用MAGBIO磁性SPRI珠进行纯化来制备的。使用高保真PHUSION聚合酶进行PCR扩增。使用GUIDE-ITTM长ssDNA生产系统(宝生物工程株式会社(Takara Bio))和表3A-3E中列出的引物制备ssDNA模板。通过MAGBIO磁性SPRI珠粒纯化最终产物,并用片段分析仪(安捷伦(Agilent))进行分析。CD34基因座的模板作为PAGE纯化的寡核苷酸从IDT订购。

表3A.sgRNA克隆引物

表3B.用于dsDNA和ssDNA模板生成的引物

表3C.下一代测序引物

表3D.用于敲入分析的引物

表3E.寡核苷酸模板和Neon增强子

细胞培养

将HEK293(ATCC,CRL-1573)、HCT116(ATCC,CCL-247)和PC9-BFP细胞保持在补充有10%胎牛血清的杜尔贝科改良伊格尔培养基(DMEM)中。根据制造商的说明,将人诱导多能干细胞(iPSC)保持在Cellartis DEF-CS 500培养系统(宝生物工程株式会社)中。所有细胞系均在37℃和5%CO2下培养。细胞系通过STR分析而鉴定并且支原体测试呈阴性。

T细胞分离、活化和增殖

从阿斯利康(AstraZeneca)的献血中心(瑞典默恩达尔(Sweden))获得来自健康供者的血液。使用Lympoprep(干细胞技术有限公司(STEMCELL Technologies))密度梯度离心法从新鲜血液中分离外周血单核细胞,并使用EasySep人CD4+T细胞富集试剂盒(干细胞技术有限公司)进行负选择来富集总CD4+T细胞。通过基于排除CD8+CD14+CD16+CD19+CD25+细胞表面标志物的荧光激活细胞分选(FACSAria III,BD生物科学公司(BDBioSciences))进一步纯化富集的CD4+T细胞,达到98%的平均纯度。从BD生物科学公司购得以下抗体:CD4-PECF594(RPA-T4)、CD25-PECy7(M-A251)、CD8-APCCy7(RPA-T8)、CD14-APCCy7CD16-APCCy7(3G8)、CD19-APCCy7(SJ25-C1)、CD45RO-BV510(UCHL1)。使用FACSAria III(BD生物科学公司)进行细胞分选。

使CD4+T细胞在含有以下补充剂的RPMI-1640培养基中增殖:1%(v/v)GlutaMAX-I、1%(v/v)非必需氨基酸、1mM丙酮酸钠、1%(v/v)L-谷氨酰胺、50U/mL青霉素和链霉素以及10%热灭活的FBS(全部来自吉比蔻,生命科技公司(Gibco,life Technologies))。使用T细胞活化/扩增试剂盒(130-091-441,美天旎(Miltenyi))活化T细胞。将1×106个细胞/mL以1∶2的珠粒∶细胞比激活,向圆底组织培养处理的96孔板中每孔接种2×105个细胞保持24小时。在电穿孔前合并细胞。

细胞转染

转染前24小时,分别将1.25×105或6.75×104个HEK293、HCT116和PC9-BFP细胞接种在24孔或48孔板中。用FuGENE HD转染试剂(普洛麦格(Promega)),使用3∶1的转染试剂∶质粒DNA比率进行转染。对于24孔板格式,表4和表5中列出了转染的DNA的量和重量比。对于48孔板格式,DNA的量减少一半。

表4.转染量

表5.用于共选择的转染量

用FuGENE HD,使用2.5:∶的转染试剂∶DNA比率和反向转染方案转染iPSC。对于转染,以48孔格式将每孔4.2×104个细胞直接接种到制备的转染复合物上,如表6所述。

表6.iPSC的转染

使用10μL Neon转染试剂盒(MPK1096,赛默飞世尔(ThermoFisher)),用核糖核蛋白复合物(RNP)对CD4+T细胞进行电穿孔。使用先前描述的方法产生CD3蛋白。在HiLoad 26/600 Superdex 200pg柱(通用电气医疗集团(GE Healthcare))上进行额外的纯化步骤,其流动相包含:20mM Tris-Cl pH 8.0、200mM NaCl、10%甘油和1mM TCEP。纯化的CBE3蛋白在4℃下在Vivaspin蛋白浓缩器离心柱(通用电气医疗集团)中浓缩至5mg/mL,然后在液氮中以小等分试样快速冷冻。如下制备RNP:将20μg CBE3蛋白、2μg靶sgRNA和2μg选择sgRNA(TrueGuide合成gRNA,生命科技公司)和2.4μg电穿孔增强子寡核苷酸(西格玛(Sigma))(表3E)混合并温育15分钟。用PBS洗涤细胞并以5×107个细胞/mL的浓度重悬于缓冲液R中。将5×105个细胞使用以下设置,用RNP进行电穿孔:电压:1600V,宽度:10ms,脉冲数:3。电穿孔后,将细胞在24孔板中补充有10%热灭活的FBS的1mL RPMI培养基中温育过夜。第二天,收集细胞,以300×g离心5分钟,重悬于1mL含有500U/mL IL-2(派普泰克(Prepotech))的完全生长培养基中,并分入圆底96孔板的5个孔中。

白喉毒素(DT)处理

在转染后第3天和第5天,用20ng/mL DT选择经过转染的HEK293、HCT116和PC9-BFP细胞。从转染后第3天开始,用20ng/mL DT处理iPSC。每天更换补充了DT的生长培养基,直到阴性对照细胞死亡。在电穿孔后的第1、4和7天,用1000ng/mL DT处理经过转染的CD4+T细胞。

阿尔玛蓝测定

使用AlamarBlue细胞活力试剂(赛默飞世尔)根据制造商的说明来分析细胞活力。

PCR分析

进行PCR分析以区分成功敲入HBEGF内含子3(PCR1)和野生型序列(PCR2)。使用1.5μL提取的基因组DNA作为模板,在20μL体积中进行PCR反应。根据制造商的推荐方案,以0.5μM的引物浓度使用PHUSION(赛默飞世尔)。引物对PCR1_fwd和PCR1_rev用于PCR1检测敲入接合(退火温度:62℃,延伸时间:1分钟),而引物对PCR2_fwd和PCR2_rev用于PCR2检测野生型HBEGF内含子(退火温度:64.5℃,延伸时间:5秒)。表3D中提供了引物对的序列。对于PCR2,延伸时间设置为5秒,以有利于野生型HBEGF内含子3产物(280bp)的扩增超过整体PCT产物(2229bp)。

流式细胞术分析

用BD Fortessa流式细胞仪(BD生物科学公司)评估表达mCherry和GFP的细胞的频率,并用FlowJo软件(三星(Three Star))分析流式细胞术数据。

基因组DNA提取和下一代扩增子测序

在转染后或在完成DT选择后三天,使用QuickExtract DNA提取溶液(鲁世进公司)根据制造商的说明,从细胞中提取基因组DNA。在NextSeq平台(依诺米那(Illumina))上从基因组DNA样品中分析目标扩增子。在第一轮PCR中使用含有NGS正向和反向适体的引物扩增目标基因组位点(表3C)。使用NEBNext Q5热启动高保真PCR主混合物(新英格兰实验室)在15μL反应中,用0.5μM引物和1.5μL基因组DNA建立第一次PCR。PCR用以下循环条件进行:98℃持续2分钟,98℃持续10秒循环5次,每对引物退火温度20秒(使用NEB Tm计算器计算),65℃持续10秒,然后98℃持续10秒、98℃持续20秒和65℃持续10秒循环25次,接着最后65℃延伸5分钟。使用HighPre PCR清理系统(MAGBIO基因组学公司(MAGBIO Genomics))纯化PCR产物,并在片段分析仪(安捷伦(Agilent))上分析正确的PCR产物大小和DNA浓度。在第二轮PCR中使用KAPA高保真热启动即用型混合物(KAPA HiFi HotStart Ready Mix)(罗氏(Roche))将独特的Illumina索引添加到PCR产物中。在第二PCR步骤中添加索引引物,并将来自第一次PCR的1ng纯化PCR产物在50μL反应物中用作模板。PCR用以下循环条件进行:72℃持续3分钟,98℃持续30秒,然后98℃持续10秒、63℃持续30秒和72℃持续3分钟循环10次,接着最终72℃延伸5分钟。使用HighPre PCR清理系统(MAGBIO基因组学公司)纯化最终PCR产物并用片段分析仪(安捷伦)进行分析。使用Qubit 4荧光计(生命科技公司)对文库进行量化,合并并在NextSeq仪器(依诺米那)上测序。

生物信息学

使用bcl2fastq软件对NGS测序数据进行多路分解,并使用先前出版物中描述的Matlab脚本的Perl实现分析单独的FASTQ文件。为了量化插入缺失(indel)或碱基编辑频率,扫描测序读段中与两个10bp序列的匹配,这两个序列位于其中可能发生插入缺失或碱基编辑的居间窗口的两侧。如果没有定位匹配(允许每侧最大1bp错配),则从分析中排除该读段。如果居间窗口的长度比参考序列长或短,则将测序读段分别归类为插入或缺失。插入或缺失的频率计算为总分析读段中归类为插入或删除的读段的百分比。如果该居间窗口的长度与参考序列完全匹配,则将该读段归类为不含插入缺失。对于这些读段,计算居间窗口中每个基因座处的每个碱基的频率,并用作碱基编辑的频率。

经人源化以进行hHBEGF表达的小鼠的胞苷碱基编辑和DT处理

所有小鼠实验均经阿斯利康内部动物研究委员会和哥德堡实验动物伦理委员会批准(许可证编号:162-2015+),符合欧盟关于保护用于科学目的的动物的指令。通过在C57BL/6NCrl遗传背景下将Alb-Cre小鼠(杰克逊实验室(The Jackson Laboratory))培育成iDTR小鼠(转基因即人HBEGF的表达受loxP侧翼STOP序列阻断),生成为双杂合子的实验小鼠。将小鼠关在温控室(21℃)内的负压IVC笼中,12:12小时的明暗循环(黎明:早晨5.30,开灯:上午6.00,黄昏:下午5.30,关灯:晚上6)并且控制湿度(45-55%)。小鼠可以随意获得正常饮食(R36,Lactamin AB)和水。

对于碱基编辑,将6月龄的小鼠,6只雄性和6只雌性,随机分为2组,每组中的雄性和雌性小鼠相等。静脉注射表达CBE3、sgRNA10和靶向小鼠Pcsk9的sgRNA的腺病毒载体(每只小鼠1×109个IFU颗粒)。病毒施用两周后,所有小鼠经腹膜内接受DT(200ng/kg)。DT注射后24小时处死对照小鼠。DT注射后11天处死实验小鼠。当达到伦理许可的人道终点时,在实验终点之前处死四只小鼠。在尸检时,收集肝脏组织用于形态学和分子分析。

实例6.HBEGF中的氨基酸取代

在本实例中,使用碱基编辑来扫描在人类EGF样结构域中使得细胞对白喉毒素(DT)具有抗性的突变。

在实例5中描述了详细的实验方案。简言之,为了筛选sgRNA,将各sgRNA与CBE3或ABE7.10一起以1∶4的重量比共转染。使用FuGENE HD转染试剂(普洛麦格)根据制造商的说明,使用3∶1的转染试剂∶质粒DNA比率进行转染。转染后3天用20ng/mL白喉毒素处理细胞,然后在转染后5天再次处理。使用AlamarBlue细胞活力试剂(赛默飞世尔)根据制造商的说明来分析细胞活力。从存活细胞中提取基因组DNA并使用下一代测序(NGS)通过Amplicon-Seq进行分析。

十四个单向导RNA(sgRNA)平铺通过编码人EGF样结构域的外显子序列,从而覆盖编码不同于小鼠EGF样结构域的氨基酸的所有区域(图24A)。各sgRNA与胞苷碱基编辑器3(CBE3)或腺苷碱基编辑器7.10(ABE7.10)一起在HEK293细胞中瞬时表达。将相应的突变即C突变为T(通过CBE3)或A突变为G(通过ABE7.10)引入到各sgRNA的编辑窗口中。在转染后72小时,用致死剂量的DT(对于HEK293细胞为20ng/μl)处理经过编辑的细胞,并监测细胞增殖。图24B中的结果显示CBE3与sgRNA7或sgRNA10组合诱导HBEGF中对DT的有效抗性突变,而ABE7.10与sgRNA5或sgRNA10组合诱导抗性。

选择ABE7.10/sgRNA5或CBE3/sgRNA10组合用于进一步分析。收获来自抗性细胞的基因组DNA,并使用下一代测序(NGS)通过Amplicon-Seq分析它们相应的靶向基因座。在抗性细胞中由CBE3和sgRNA10的组合引入的大多数突变在HBEGF中引起Glu141Lys取代。大约90%由ABE7.10/sgRNA5组合引入的变体在HBEGF中引起Tyr123Cys转化(参见图24C和图25A-C)。与野生型细胞相比,在经过编辑的细胞中未观察到增殖受损,表明经过编辑的HBEGF变体没有引入有害影响(图25D)。

总的来说,这些数据显示,可以通过使用碱基编辑修饰HBEGF蛋白中的单个氨基酸来引入对DT的抗性,而不会改变细胞增殖。因此,可以有效地应用DT-HBEGF系统来选择细胞中的基因组编辑事件。

实例7.胞苷和腺苷碱基编辑的富集

在本实例中,测试DT-HBEGF选择系统在第二无关基因组基因座处的碱基编辑事件的富集。图26A提供了DT-HBEGF共选择策略的示意图。

在实例5中描述了详细的实验方案。简言之,对于共靶向富集,以8∶1∶1的重量比转染Cas9/CBE3/ABE7.10质粒DNA、靶向sgRNA质粒DNA和选择sgRNA质粒DNA。使用FuGENE HD转染试剂(普洛麦格)根据制造商的说明,使用3∶1的转染试剂:质粒DNA比率进行转染。转染后3天用20ng/mL白喉毒素处理细胞,然后在转染后5天再次处理。从存活细胞中提取基因组DNA并使用下一代测序(NGS)通过Amplicon-Seq进行分析。

首先,进行HEK293细胞中的CBE共选择。测试靶向五个不同基因组基因座的sgRNA:DPM2(多萜基磷酸甘露糖转移酶亚基2)、EGFR(表皮生长因子受体)、EMXl(空通气孔同源框1)、PCSK9(前蛋白转化酶枯草溶菌素/蛋白酶K9型)和DNMT3B(DNA甲基转移酶3β)。如实例6中所述,将这些sgRNA中的每一种与CBE3和sgRNA10一起共转染到细胞中,并且从转染后72小时开始用DT(20ng/μl)富集选择的细胞。之后,从经过或未经过选择的细胞中收集基因组DNA,并通过NGS进行分析。

值得注意的是,与未选择的细胞相比,在DT选择的细胞中的所有测试位点上都观察到C-T转化率的显著增加,并且倍数变化范围为4.1倍至7.0倍(图26B)。对于DPM2位点,总转化率通过DT选择从20%增加到94%(图26B)。当该方法应用于其他细胞系时,也观察到类似的编辑效率提高。与未处理的细胞相比,HCT116细胞中PCSK9基因座处的C-T转化率增加12.8倍,并且DT处理的PC9细胞中整合的BFP基因座处增加4.9倍(图26C)。

进行类似的共选择实验以富集ABE编辑事件。测试了五种sgRNA,包括一种靶向EMX1的sgRNA和另外四种靶向新的基因组基因座的sgRNA(CTLA4(细胞毒性T淋巴细胞相关蛋白4)、IL2RA(白细胞介素2受体亚基α)和AAVS1(腺相关病毒整合位点1)的两个不同位点)。如实例6中所述,将这些sgRNA中的每一种与ABE7.10和sgRNA5一起共转染到HEK293细胞中。72小时后,用DT(20ng/μl)处理选择的细胞。从选择和未选择的细胞中提取基因组DNA,并通过Amplicon-Seq进行分析。与未选择的细胞相比,观察到选定细胞中所有测试靶标上的A-G转化率显著增加,范围从5.7倍到12.7倍。在靶向基因座CTLA4和IL2RA处,总转化率分别从4.6%增加到39%和从11.5%增加到77.4%(图26D)。

除了共选择碱基编辑事件之外,还测试了共选择由SpCas9生成的插入缺失的可能性。在基因组编辑共选择实验中测试了在CBE共选择中使用的四种sgRNA(分别靶向DPM2、EMX1、PCSK9和DNMT3B)。将每种sgRNA与SpCas9/sgRNA10组合(如上面实例6中所述)一起共转染到HEK293细胞中以产生插入缺失并在选择后进行Amplicon-Seq。观察到所有四种靶标(DPM2、EMX1、PCSK9和DNMT3B)上的插入缺失比率都增加到90%以上。具体而言,PCKS9位点处的编辑效率通过DT选择从30%增加到98%(图26E)。

实例8.HBEGF基因座处双等位基因敲入事件的有效富集

在本实例中,进行实验以增强目标基因的敲入效率或实现目标基因的双等位基因敲入。

在实例5中描述了详细的实验方案。简言之,对于敲入实验,以4∶1∶10的重量比转染Cas9质粒DNA、sgRNAIn3质粒DNA和模板DNA。使用FuGENE HD转染试剂(普洛麦格)根据制造商的说明,使用3∶1的转染试剂:质粒DNA比率进行转染。转染后22天,用BD Fortessa(BD生物科学公司)评估细胞,并用FlowJo软件(三星)分析流式细胞术数据。还从细胞中提取基因组DNA并进行PCR分析以区分成功敲入HBEGF内含子3(PCR1)和野生型序列(PCR2)。

据推测,通过在HBEGF的内含子3处敲入含有强剪接受体的盒与含有外显子3下游所有其余外显子并含有防止DT结合的突变的cDNA序列的组合,可以使细胞对DT有抗性。基于实例6中描述的碱基编辑筛选和小鼠Hbegf中类似取代的存在,插入Glu141Lys氨基酸取代(参见图25A)。为了进一步排除这种取代对细胞适应性产生任何有害影响的可能性,重组的Glu141Lys取代的HBEGF蛋白显示它仍然在诱导p44/p42 MAPK磷酸化方面具有功能,与野生型HBEGF相比没有观察到显著差异,表明它在EGFR活化方面的主要功能得以维持(图27A)。

随后,设计一种敲入策略以引入与目标基因偶联的DT抗性HBEGF。首先,选择靶向HBEGF内含子3的中间区域的sgRNA(sgRNAIn3),它具有低的预测脱靶位点并且能有效地在靶位点处诱导插入缺失。还将修复模板设计为含有剪接受体和其余突变的HBEGF外显子序列,其编码Glu141Lys取代并通过T2A自裂解肽连接到目标基因(例如,mCherry或GFP)(图27B)。在这种设计中,野生型细胞或在内含子3中呈现小的插入缺失的经过编辑的细胞不会获得对DT的抗性,而具有所需敲入的细胞将对DT产生抗性。

修复模板以不同形式测试,包括质粒、双链DNA(dsDNA)和单链DNA(ssDNA),以确定敲入效率。将模板设计为有或无同源臂或侧翼sgRNA,并且预计将通过非同源末端连接(NHEJ)、同源重组(HR)或同源介导的末端连接(HMEJ)并入到HBEGF基因座中(图27C)。每个模板与SpCas9和sgRNAIn3一起共转染到HEK293细胞中以生成敲入细胞。如上所述进行选择。由于mCherry或GFP基因的表达与突变的HBEGF基因偶联,因此预计只有具有正确插入的细胞才会表达功能性荧光蛋白。通过流式细胞术分析量化敲入细胞(荧光细胞)的百分比。

值得注意的是,观察到mChery或GFP阳性细胞的出现与应用的模板无关,并且在所有条件下选择后敲入细胞的百分比明显增加(图27C)。具体而言,用含有同源臂和sgRNA的质粒模板(pHMEJ)或仅含有同源臂的质粒模板(pHR)修复的细胞在选择后实现接近100%的敲入(图27C)。在测试的所有模板中,经证实pHMEJ是最有效的,并且在没有选择的情况下仅获得34.8%的敲入细胞(图27C)。这些观察结果与在碱基编辑选择中显示双等位基因突变(图24B)的其他结果一致,表明细胞可能需要双等位基因敲入才能在DT处理中存活。设计两对引物来检查经过编辑的细胞的基因组状态,一对扩增敲入序列的5’接点(PCR1),另一对扩增HBEGF内含子的野生型序列(PCR2)。分别对用pHMEJ模板修复的细胞进行PCR分析,进行选择或不进行选择。尽管两个样品都显示同源敲入的条带(PCR1),但在未选择的样品中仅检测到野生型条带(图27E),表明所有细胞在DT选择后获得双等位基因敲入。

将DT选择方法与传统的抗生素依赖性选择方法进行进一步比较,以富集敲入事件。将新的pHMEJ模板设计为包括DT抗性突变和嘌呤霉素抗性基因,并且这两种选择标记的表达通过P2A自裂解肽偶联(图27D)。测试这种新的敲入模板,并用DT或嘌呤霉素对敲入细胞进行富集,接着进行流式细胞术分析。有趣的是,在两个群体中均观察到近100%的mCherry阳性细胞,但与富含嘌呤霉素的细胞相比,富含DT的细胞显示出明显更高的平均荧光强度(图27D)。这种观察结果与PCR分析(图27E)一起表明DT选择富集了具有双等位基因敲入的细胞,而嘌呤霉素选择则没有富集。

这种基因工程策略在本文中被称为“Xential”(在细胞存活所必需的基因座中的重组(X))。

实例9.通过Xential共选择富集敲除和敲入事件

在本实例中,测试用于在第二无关基因座进行敲除或敲入事件的富集的Xential敲入。

在实例5中描述了详细的实验方案。简言之,对于Xential共选择实验,每种转染质粒的量列于下面表7中。使用FuGENE HD转染试剂(普洛麦格)根据制造商的说明,使用3:1的转染试剂:质粒DNA比率进行转染。转染后3天用20ng/ml白喉毒素处理细胞,然后在转染后5天再次处理。在转染后22天,用BD Fortessa(BD生物科学公司)评估细胞,并用FlowJo软件(三星)分析流式细胞术数据。还从细胞中提取基因组DNA,并如前面实例所述进行相同的PCR分析和Amplicon-Seq分析。

表7.用于Xential共选择的转染量

首先,测试了敲除事件的富集。利用在实例7(图26E)中描述的先前插入缺失富集实验中测试的四种相同sgRNA(分别靶向DPM2、EMX1、PCSK9和DNMT3B)。每种sgRNA与SpCas9、sgRNAIn3和pHMEJ模板共同递送到HEK293细胞中,并且如图28A中所述进行DT选择。从这些细胞中提取基因组DNA并通过Amplicon-Seq进行分析。与未选择的细胞相比,对于选择的细胞中的所有靶标观察到编辑效率均显著提高,范围从提高4.4倍到14.3倍。具体而言,在EMX1基因座处的编辑效率通过DT选择从22%增加到88%(图28B)。所有存活细胞均保持mCherry表达,表明经过编辑的细胞在HBEGF基因座处保持精确敲入(图28D)。

接下来,对Xential进行敲入事件的共选择测试。设计两种形式的修复模板质粒,一种pHR和一种pHMEJ,以使用相同的sgRNA将C端GFP标签引入组蛋白H2B(HIST2BC)中。SpCas9、sgRNAs和两个靶向HIST2BC和HBEGF的模板共同递送到HEK293细胞中,并通过GFP(HIST2BC)或mCherry(HBEGF)的百分比分析敲入效率。用任何一种形式的模板,在DT选择后都获得显著提高的敲入效率。对于pHR模板,效率提高6.4倍而对于pHMEJ模板,效率提高5.3倍,达到了48%(图28C)。通过降低HBEGF基因座的sgRNA和模板的量与HIST2BC基因座的sgRNA和模板的量的比率,HIST2BC基因座处的敲入效率可以在选择的细胞中增加,表明富集倍数是可调的(图28C)。将HIST2BC基因座的修复质粒与HBEGF基因座的修复质粒的重量比分别从1∶1增加到3∶1,增加到4∶1,富集细胞中GFP阳性细胞的百分比从23%增加到42%,增加到48%,而mCherry阳性细胞的百分比保持接近100%(图28E)。还证明该方法会提高CD34基因座处寡核苷酸介导的敲入的效率。当应用共选择时,观察到敲入细胞的百分比增加26倍,表明在敲入介导的共选择中模板使用的灵活性(图28F)。

实例10.iPSC中碱基编辑和敲入事件的富集

在本实例中,使用DT-HBEGF选择进行实验以在iPSC中富集碱基编辑事件和精确敲入事件。

在实例5中描述了详细的实验方案。简言之,对于iPSC的CBE/ABE共选择,以8∶1∶1的重量比转染CBE3/ABE7.10质粒DNA、靶向sgRNA质粒DNA和选择sgRNA质粒DNA。对于iPSC中的Xential敲入,以4∶1∶10的重量比转染Cas9质粒DNA、sgRNAIn3质粒DNA和模板质粒DNA。使用FuGENE HD转染试剂(普洛麦格)根据制造商的说明,使用2.5∶1的转染试剂∶质粒DNA比率和反向转染方案进行转染。细胞在转染后3天用20ng/ml白喉毒素处理。每天更换补充了DT的生长培养基,直到阴性对照细胞死亡。用BD Fortessa(BD生物科学公司)评估细胞中的Xential敲入,并用FlowJo软件(三星)分析流式细胞术数据。还从细胞中提取基因组DNA,并如前面实例所述进行相同的PCR分析和Amplicon-Seq分析。

选择两种sgRNA进行CBE和ABE共选择,一种靶向EMX1(一种在其他基因组编辑研究中广泛测试的基因座),另一种靶向CTLA4(一种因其在免疫信号传导中的作用而受到广泛研究的基因)。每种sgRNA与CBE3/sgRNA10或ABE7.10/sgRNA5对一起共转染到iPSC中。从转染后72小时开始,通过DT处理(20ng/μl)进行选择。在汇合时提取基因组DNA,并使用NGS通过Amplicon-Seq分析靶基因座。值得注意的是,在CBE和ABE的所有测试位点处都观察到DT选择后编辑效率的显著提高。这两个位点的CBE编辑效率增加范围从19倍到60倍,两个位点的ABE编辑效率增加约24倍。通过DT选择,EMX1位点的C-T转化率从5%增加到91%,CTLA4位点的A-G转化率从0.8%增加到19%(图29A、图29B)。

接下来,在iPSC中测试Xential。为iPSC提供pHMEJ模板,以及SpCas9和sgRNAIn3,并且在没有选择的情况下敲入效率为25.6%。在DT选择之后敲入效率增加到接近100%(图29C)。进行与实例8相同的PCR分析以检测正确的插入和野生型HBEGF内含子。在DT选择后,在靶向HBEGF中没有检测到残留的野生型条带,表明在选择的iPSC库中有完全的双等位基因敲入(图29D)。

实例11.原代T细胞中碱基编辑事件的富集

在本实例中,使用DT-HBEGF选择进行实验,以在原代T细胞中的第二无关基因组基因座处富集胞苷碱基编辑事件。此外,使用DT-HBEGF选择系统进行实验以在HBEGF基因座处富集敲入事件。

在实例5中描述了详细的实验方案。简言之,对于原代T细胞中的CBE共选择,将20μg CBE3蛋白、2μg靶sgRNA和2μg选择sgRNA(TrueGuide合成gRNA,生命科技公司)和2.4μg电穿孔增强子寡核苷酸(西格玛(HPLC-纯化的,西格玛))(表3E)混合并温育15分钟,然后电穿孔到原代T细胞中。在电穿孔后的第1、4和7天,用1000ng/mL DT处理经过转染的CD4+T细胞。还从细胞中提取基因组DNA,并如前面实例所述进行Amplicon-Seq分析。对于原代T细胞中的Xential实验,将5μg SpCas9蛋白(生命科技公司)、1.2μg双重gRNAIn3(Alt-R CRISPR-Cas9 crRNA、Alt-R CRISPR-Cas9tracrRNA、IDT)混合并温育15分钟,然后与1μg dsDNA模板一起电穿孔到原代T细胞中。在电穿孔后的第1、4、6和8天,用1000ng/mL DT处理经过转染的CD4+T细胞。电穿孔后第10天通过流式细胞术分析细胞。

由于它们在免疫调节中的重要作用,将三种sgRNA设计为分别在PCDC1(程序性细胞死亡蛋白1)、CTLA4和IL2RA中引入提前终止密码子。将每种sgRNA与纯化的CBE3蛋白和合成的sgRNA10一起共同电穿孔到分离的CD4+T细胞中。从电穿孔后24小时开始,用1000ng/μLDT对原代T细胞进行选择,并在转染9天后分析来自未选择的和选择的细胞的基因组DNA。与未选择的细胞相比,对于所有三个基因座观察到碱基编辑效率增加1.7至1.8倍(图30)。图3中描述的三种不同形式的dsDNA(dsHR、dsHMEJ、dsHR2)用作修复模板。每个模板都与预先混合的SpCas9蛋白和合成的双gRNAIn3复合物一起电穿孔到原代CD4+T细胞中。从电穿孔后24小时开始用1000ng/μl DT对原代T细胞进行选择,并且在转染10天后分析未选择的和选择的细胞的敲入效率。与未选择的细胞相比,在选择的细胞中观察到所有三种型式的模板的敲入效率增加3-8倍

实例12.通过共选择富集体内碱基编辑事件

在本实例中,使用DT-HBEGF选择进行实验,以在人源化小鼠模型中的第二无关基因组基因座处富集胞苷碱基编辑事件。

实例5中描述了详细的实验方案(参见“经人源化以进行hHBEGF表达的小鼠的胞苷碱基编辑和DT处理”章节)。

在肝细胞特异性白蛋白启动子下表达人HBEGF(hHBEGF)的人源化小鼠模型中测试了胞苷碱基编辑事件的共选择。选择小鼠Pcsk9基因作为靶基因座,设计sgRNA以通过递送CBE3的腺病毒(AdV8)、靶向Pcsk9的sgRNA和靶向人HBEGF的sgRNA将带有CBE3的提前终止密码子引入Pcsk9中。AdV8注射两周后,用DT(200ng/kg,腹膜内)处理小鼠。将小鼠分为两组,在DT可发挥毒性前24小时处死对照非富集组。在DT处理后11天处死富集组(图31A)。来自小鼠肝脏的基因组的Amplicon-Seq分析表明,由于DT选择,选择基因座处的碱基编辑效率增加2.8倍(图31B)。明显地,与对照组相比,在富集组中也鉴定了Pcsk9编辑的2.5倍提高(图31C),首次证明可以在体内使用毒素介导的选择来共选择基因组编辑事件。

实例13通过共选择富集先导编辑事件

在该实验中,使用DT-HBEGF选择系统在第二无关基因组基因座处富集先导编辑事件。

对于共靶向富集,PE2质粒DNA、靶向pegRNA质粒DNA和选择pegRNA_HBEGF12质粒DNA以8∶1∶1的重量比转染。使用FuGENE HD转染试剂(普洛麦格),使用3∶1的转染试剂∶质粒DNA比率进行转染。转染后3天用20ng/ml白喉毒素处理细胞,然后在转染后5天再次处理。从存活细胞中提取基因组DNA并使用下一代测序(NGS)通过Amplicon-Seq进行分析。

测试HEK293细胞中的先导编辑共选。使用4个先导编辑向导RNA(pegRNA)用于靶向3个不同的基因组基因座:EMX1(空通气孔同源框1)、FANCF(FA互补组F)和HEK3。将这些pegRNA中的每一个与先导编辑器2(PE2)和pegRNA_HBEGF12(设计用于在HBEGF基因座处引入E141H抗性突变)共转染到细胞中,并且从转染后72小时开始用DT(20ng/mL)富集选择的细胞。之后,从经过或未经过选择的细胞中收集基因组DNA,并通过NGS进行分析。观察到HBEGF基因座处的先导编辑效率显著增加,从~1%增加到99%以上。对于所有共选择的靶基因座,与未选择的细胞相比,在经DT选择的细胞中观察到高于平均的编辑效率,并且增加的倍数范围从1.5倍到44倍。

实例14通过用抗CD52抗体-药物美登木素(DM1)缀合物(抗CD52-DM1)共选择来富 集Cas9编辑事件

在该实验中,使用抗CD52-DM1抗体缀合的药物选择第二无关基因组基因座处的SpCas9编辑事件。

测试原代CD4+T细胞中的SpCas9编辑共选择。使用3种sgRNA,它们分别靶向以下3个不同的基因组基因座:PDCD1、CTLA4和IL2RA。

对于原代T细胞中的SpCas9共选择,将5μg TrueCut Cas9蛋白v2(生命科技公司)、0.6μg靶sgRNA和0.6μg选择sgRNA(TrueGuide合成gRNA,生命科技公司)和0.8μg Cas9电穿孔增强子寡核苷酸(HPLC-纯化的,西格玛)(表S1)混合并温育15分钟,然后电穿孔到原代T细胞中。在电穿孔后的第2、4和6天,分别用2.5ug/ml抗CD52-DM1、2.5ug/ml NIP228-DM1和PBS处理经转染的CD4+T细胞。还从细胞中提取基因组DNA并进行Amplicon-Seq分析。

从Drugbank数据库(https://www.drugbank.ca/drugs/DB00087)检索抗CD52阿仑单抗(Campath-1)抗体序列,并从赛默飞世尔设计和订购抗体可变轻链和重链基因区段用于克隆到公司内部的pOE IgG1抗体表达载体中。将克隆的pOE抗CD52.IgG1表达构建体转染到CHO-G22细胞中并培养十四天。收集条件培养基,过滤(0.2uM过滤器)并使用AligentPure FPLC仪器经由蛋白A纯化。将抗体透析到1X PBS pH 7.2中并使用Octet经由SPR确认与人CD52抗原(艾博抗(Abcam))的结合,并将其与市售Campath-1进行比较。另外,使用质谱法验证分子量并通过尺寸排阻色谱法测定单体含量。将抗CD52和阴性对照(NIP228)mAb缓冲液更换为1X硼酸盐缓冲液pH 8.5中,并将40mg的每种抗体与4.5摩尔当量的SMCC-DM1有效载荷一起温育。通过还原反相质谱法测定药物缀合的程度并通过添加10%v/v 1M Tris-HCl终止反应。使用陶瓷羟基磷灰石色谱法同时去除游离的或未缀合的SMCC-DM-1有效载荷和蛋白质聚集体。然后将ADC透析到PBS pH 7.2中。分别使用nanodrop(赛默飞世尔)和Endosafe(查尔斯河(Charles Rivers))仪器测量浓度和内毒素水平。

将每种合成的sgRNA与SpCas9蛋白和靶向CD52的合成sgRNA共同电穿孔到经分离的CD4+T细胞中。从电穿孔后48小时开始,单独用2.5ug/ml抗CD52-DM1、2.5ug/ml NIP228-DM1(阴性对照抗体药物缀合物)和PBS(未处理的)处理经电穿孔的T细胞,并在第一次处理后7天分析经过处理的细胞中的基因组DNA。之后,从经过或未经过选择的细胞中收集基因组DNA,并通过NGS进行分析。与用Nip228-DM1处理的样品或PBS(未处理的)相比,观察到用抗CD52-DM1处理的样品中的插入缺失比率增加。进行双尾配对t检验以比较抗CD52-DM1处理的细胞和Nip228-DM1处理的细胞的插入缺失比率之间的差异,其显示靶向基因座(IL2RA、CTLA4、PDCD1)处的插入缺失比率的增加显著(P=0.0044)。比较抗CD52-DM1处理的细胞和未处理的细胞的插入缺失比率的相同分析显示靶向基因座处的插入缺失比率的增加也是显著的(P=0.0008)。

152页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于RNA编辑的化学修饰寡核苷酸

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!