新抗原的病毒递送

文档序号:1785284 发布日期:2019-12-06 浏览:23次 >En<

阅读说明:本技术 新抗原的病毒递送 (Viral delivery of novel antigens ) 是由 W·布莱尔 B·布里克-沙利文 J·巴斯比 A·德里蒂 L·吉特林 G·格罗腾布雷格 K 于 2017-11-22 设计创作,主要内容包括:本文公开包括源于个体肿瘤的新抗原编码核酸序列的黑猩猩腺病毒载体。还公开与所述载体相关的核苷酸、细胞及方法,包括所述载体作为疫苗的用途。(Disclosed herein are chimpanzee adenovirus vectors comprising a nucleic acid sequence encoding a novel antigen derived from a tumor in an individual. Also disclosed are nucleotides, cells and methods related to the vectors, including the use of the vectors as vaccines.)

新抗原的病毒递送

相关申请案的交叉引用

本申请案要求2016年11月23日申请的美国临时申请案第62/425,996号;2016年12月16日申请的美国临时申请案第62/435,266号;2017年5月8日申请的美国临时申请案第62/503,196号;及2017年6月21日申请的美国临时申请案第62/523,212号的权益,其中的每一者以全文引用的方式并入于本文中。

序列表

本申请案含有序列表,其已经由EFS-Web提交且以全文引用的方式并入本文中。在20XX年XX月创建的该ASCII复本命名为XXXXXUS_sequencelisting.txt,且大小为X,XXX,XXX字节。

背景技术

基于肿瘤特异性新抗原的治疗性疫苗作为下一代个人化癌症免疫疗法具有极大的前景。1-3考虑到新抗原产生的可能性相对更大,具有高突变负荷的癌症,诸如非小细胞肺癌(NSCLC)及黑素瘤,为此类疗法的特别有吸引力的靶标。4,5早期证据表明,基于新抗原的疫苗接种可引发T细胞反应6,且靶向新抗原的细胞疗法可在选定患者的某些情形下引起肿瘤消退。7

新抗原疫苗设计的一个问题为个体肿瘤中存在的许多编码突变中的哪一个可生成「最佳」治疗性新抗原,例如可引发抗肿瘤免疫性且引起肿瘤消退的抗原。

已提出初步方法,其并入使用下一代测序的基于突变的分析、RNA基因表达及预测候选新抗原肽的MHC结合亲和力8。然而,此等提出的方法可能无法模拟整个表位产生过程,除基因表达及MHC结合的外,其含有许多步骤(例如TAP转运、蛋白酶体裂解和/或TCR识别)9。因此,现有方法可能会降低低阳性预测值(PPV)。(图1A)

事实上,由多个组进行的由肿瘤细胞呈递的肽的分析已显示,使用基因表达及MHC结合亲和力预测将呈递的肽的<5%可在肿瘤表面MHC上发现10,11(图1B)。结合受限的新抗原对检查点抑制剂反应的预测准确性相对于单独突变数量没有提高的最新观察结果进一步加强结合预测与MHC呈递之间的此种低相关性。12

预测呈递的现有方法的此低阳性预测值(PPV)提出有关基于新抗原的疫苗设计的问题。若使用PPV低的预测来设计疫苗,则大多数患者不太可能接受治疗性新抗原,更少的患者可能接受多于一种(即使假设所有呈递肽均为免疫原性的)。因此,用当前方法接种新抗原不可能在大量具有肿瘤的个体中成功。(图1C)

此外,先前方法仅使用顺式作用突变产生候选新抗原,且很大程度上忽视考虑neo-ORF的其他来源,包括在多种肿瘤类型中发生且导致许多基因异常剪接的剪接因子的突变13,及形成或移除蛋白酶裂解位点的突变。

最后,由于文库构建、外显子组及转录组捕捉、测序或数据分析中的次最佳条件,肿瘤基因组及转录组分析的标准方法可能会遗漏产生候选新抗原的体细胞突变。同样,标准肿瘤分析方法可能无意中促进序列伪影或生殖系多形现象作为新抗原,分别导致低效使用疫苗能力或自身免疫性风险。

除当前新抗原预测方法的挑战外,对于可用于人类的新抗原递送的可用载体系统亦存在某些挑战,其中许多源于人类。举例而言,由于先前的自然暴露,许多人类对人类病毒具有预先存在的免疫性,且此种免疫性可为使用重组人类病毒用于癌症治疗的新抗原递送的主要障碍。

发明内容

本文公开包含新抗原盒的黑猩猩腺病毒载体,该新抗原盒包含:(1)源于个体内存在的肿瘤的多个新抗原编码核酸序列,该多个新抗原编码核酸序列包含:至少两个肿瘤特异性及个体特异性MHC I类新抗原编码核酸序列,其各自包含:a.具有至少一个改变的MHCI类表位编码核酸序列,该改变使所编码的肽序列不同于野生型核酸序列编码的相应肽序列,b.任选地5'接头序列,及c.任选地3'接头序列;(2)可操作地连接于该多个序列中的至少一者的至少一个启动子序列,(3)任选地至少一个MHC II类抗原编码核酸序列;(4)任选地至少一个GPGPG接头序列(SEQ ID NO:56);及(5)任选地至少一个聚腺苷酸化序列。

本文还公开一种黑猩猩腺病毒载体,其包含:a.包含具有E1(nt577至3403)缺失及E3(nt 27,125-31,825)缺失的SEQ ID NO:1的序列的经修饰的ChAdV68序列;b.CMV启动子序列;c.SV40聚腺苷酸化信号核苷酸序列;及d.新抗原盒,该新抗原盒包含:(1)源于个体中存在的肿瘤的多个新抗原编码核酸序列,该多个新抗原编码核酸序列包含:至少20个彼此线性连接的肿瘤特异性及个体特异性MHC I类新抗原编码核酸序列,且各自包含:(A)具有至少一个改变的MHC I类表位编码核酸序列,该改变使所编码的肽序列不同于野生型核酸序列编码的相应肽序列,其中该MHC I表位编码核酸序列编码7-15个氨基酸长的MHC I类表位,(B)5'接头序列,其中该5'接头序列为MHC I表位的天然5'核酸序列,且其中该5'接头序列编码至少5个氨基酸长的肽,(C)3'接头序列,其中该3'接头序列为MHC I表位的天然3'核酸序列,且其中该3'接头序列编码至少5个氨基酸长的肽,且其中所述MHC I类新抗原编码核酸序列中的每一者编码25个氨基酸长的多肽,且其中各MHC I类新抗原编码核酸序列的各3’端连接于后续MHC I类新抗原编码核酸序列的5’端,该多个新抗原编码核酸序列中最后的MHC I类新抗原编码核酸序列除外;及(2)至少两个MHC II类抗原编码核酸序列,其包含:(A)PADRE MHC II类序列(SEQ ID NO:48),(B)破伤风类毒素MHC II类序列(SEQ ID NO:46),(C)连接该PADRE MHC II类序列及该破伤风类毒素MHC II类序列的第一GPGPG接头序列,(D)使至少两个MHC II类抗原编码核酸序列的5’端连接于该多个新抗原编码核酸序列的第二GPGPG接头序列,(E)使至少两个MHC II类抗原编码核酸序列的3’端连接于该SV40聚腺苷酸化信号核苷酸序列的第三GPGPG接头序列;且其中该新抗原盒***该E1缺失内且该CMV启动子序列可操作地连接于该新抗原盒。

在一些方面中,载体的各组件的有序序列描述于下式中,自5'至3'包含:

Pa-(L5b-Nc-L3d)X-(G5e-Uf)Y-G3g-Ah

其中P包含可操作地连接于多个序列中的至少一者的至少一个启动子序列,在黑猩猩腺病毒载体的情况下,任选地=1,N包含具有至少一个改变的MHC I类表位编码核酸序列中的一者,该改变使所编码的肽序列不同于野生型核酸序列编码的相应肽序列,其中c=1,L5包含5'接头序列,其中b=0或1,L3包含3'接头序列,其中d=0或1,G5包含至少一个GPGPG接头序列中的一者,其中e=0或1,G3包含至少一个GPGPG接头序列中的一者,其中g=0或1,U包含至少一个MHC II类抗原编码核酸序列中的一者,其中f=1,A包含至少一个聚腺苷酸化序列,其中h=0或1,X=2至400,其中对于各X,相应Nc为C68特有MHC I类表位编码核酸序列,且Y=0-2,其中对于各Y,相应Uf为MHC II类抗原编码核酸序列。在一特定方面中,b=1,d=1,e=1,g=1,h=1,X=20,Y=2,P为CMV启动子序列,各N编码7-15个氨基酸长的MHC I类表位,L5为MHC I表位的天然5'核酸序列,且其中该5'接头序列编码至少5个氨基酸长的肽,L3为MHC I表位的天然3'核酸序列,且其中该3'接头序列编码至少5个氨基酸长的肽,U为PADRE MHC II类序列及破伤风类毒素MHC II类序列中的一者,黑猩猩腺病毒载体包含经修饰的ChAdV68序列,其包含具有E1(nt 577至3403)缺失及E3(nt27,125-31,825)缺失的SEQ ID NO:1序列,且新抗原盒***E1缺失内,且MHC I类新抗原编码核酸序列中的每一者编码25个氨基酸长的多肽。

在一些方面,多个新抗原编码核酸序列中的至少1、2或任选地3个编码在肿瘤细胞表面上由MHC I类呈递的多肽序列或其部分。

在一些方面,多个抗原编码核酸序列中的每一者彼此直接连接。在一些方面,多个抗原编码核酸序列中的至少一者用接头连接于多个中的不同抗原编码核酸序列。在一些方面,接头连接两个MHC I类序列或将MHC I类序列连接于MHC II类序列。在一些方面,接头选自:(1)连续甘氨酸残基,至少2、3、4、5、6、7、8、9或10个残基长;(2)连续丙氨酸残基,至少2、3、4、5、6、7、8、9或10个残基长;(3)两个精氨酸残基(RR);(4)丙氨酸、丙氨酸、酪氨酸(AAY);(5)由哺乳动物蛋白酶体有效加工的至少2、3、4、5、6、7、8、9或10个氨基酸残基长的共同序列;及(6)侧接源于具有来源的关联蛋白的抗原且至少2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或2-20个氨基酸残基长的一个或多个天然序列。在一些方面,接头连接两个MHC II类序列或将MHC II类序列连接于MHC I类序列。在一些方面,接头包含序列GPGPG。

在一些方面,多个序列中的至少一者可操作地或直接连接于增强该多个序列的表达、稳定性、细胞运输、加工及呈递和/或免疫原性的分离或连续序列。在一些方面,分离或连续序列包含以下中的至少一者:泛素序列、经修饰以增加蛋白酶体靶向的泛素序列(例如泛素序列在位置76含有Gly至Ala取代)、免疫球蛋白信号序列(例如IgK)、主要组织相容性I类序列、溶酶体相关膜蛋白(LAMP)-1、人类树突状细胞溶酶体相关膜蛋白及主要组织相容性II类序列;任选地其中经修饰以增加蛋白酶体靶向的泛素序列为A76。

在一些方面,多个新抗原编码核酸序列中的至少一者编码相对于经翻译的相应野生型核酸序列对其相应MHC等位基因的结合亲和力增加的多肽序列或其部分。在一些方面,多个新抗原编码核酸序列中的至少一者编码相对于经翻译的相应野生型亲本核酸序列对其相应MHC等位基因的结合稳定性增加的多肽序列或其部分。在一些方面,多个新抗原编码核酸序列中的至少一者编码相对于经翻译的相应野生型亲本核酸序列在其相应MHC等位基因上呈递的可能性增加的多肽序列或其部分。

在一些方面,至少一个改变包含点突变、移码突变、非移码突变、缺失突变、***突变、剪接变体、基因组重排或蛋白酶体产生的剪接抗原。

在一些方面,肿瘤选自:肺癌、黑素瘤、乳癌、卵巢癌、***癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病、T细胞淋巴细胞性白血病、非小细胞肺癌及小细胞肺癌。

在一些方面,多个序列中的每一者的表达由至少一个启动子驱动。

在一些方面,多个序列包含至少2、3、4、5、6、7、8、9或10个核酸序列。在一些方面,多个序列包含至少11、12、13、14、15、16、17、18、19、20或多至400个核酸序列。在一些方面,多个序列包含至少2-400个核酸序列,且其中多个新抗原编码核酸序列中的至少两者编码肿瘤细胞表面上由MHC I呈递的多肽序列或其部分。在一些方面,多个序列包含至少2-400个核酸序列,且其中当施用个体且翻译时,新抗原中的至少一者呈递在抗原呈递细胞上,引起靶向肿瘤细胞表面上的至少一个新抗原的免疫响应。在一些方面,多个序列包含至少2-400个MHC I类和/或II类新抗原编码核酸序列,其中当施用个体且翻译时,MHC I类或II类新抗原中的至少一者呈递在抗原呈递细胞上,引起靶向肿瘤细胞表面上的至少一个新抗原的免疫响应,且任选地其中至少2-400个MHC I类或II类新抗原编码核酸序列中的每一者的表达由至少一个启动子驱动。

在一些方面,各MHC I类新抗原编码核酸序列编码8至35个氨基酸长、任选地9-17、9-25、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34或35个氨基酸长的多肽序列。

在一些方面,存在至少一个MHC II类抗原编码核酸序列。在一些方面,存在至少一个MHC II类抗原编码核酸序列且其包含至少一个具有至少一个改变的MHC II类新抗原编码核酸序列,该改变使所编码的肽序列不同于由野生型核酸序列编码的相应肽序列。在一些方面,至少一个MHC II类抗原编码核酸序列为12-20、12、13、14、15、16、17、18、19、20或20-40个氨基酸长。在一些方面,存在至少一个MHC II类抗原编码核酸序列且其包含至少一个通用MHC II类抗原编码核酸序列,任选地其中该至少一个通用序列包含破伤风类毒素及PADRE中的至少一者。

在一些方面,至少一个启动子序列为诱导型。在一些方面,至少一个启动子序列为非诱导型。在一些方面,至少一个启动子序列为CMV、SV40、EF-1、RSV、PGK或EBV启动子序列。

在一些方面,新抗原盒另外包含可操作地连接于多个序列中的至少一者的至少一个聚腺苷酸化(polyA)序列,任选地其中该polyA序列位于多个序列中的至少一个序列的3'。在一些方面,polyA序列包含SV40 polyA序列。在一些方面,新抗原盒另外包含以下中的至少一者:内含子序列、土拨鼠肝炎病毒转录后调节组件(WPRE)序列、内部核糖体进入序列(IRES)序列,或已知增强可操作地连接于多个序列中的至少一者的mRNA的核输出、稳定性或翻译效率的5'或3'非编码区中的序列。在一些方面,新抗原盒另外包含报告基因,其包括(但不限于)绿色荧光蛋白(GFP)、GFP变体、分泌型碱性磷酸酶、荧光素酶或荧光素酶变体。

在一些方面,载体另外包含编码至少一种免疫调节物的一个或多个核酸序列。

在一些方面,免疫调节物为抗CTLA4抗体或其抗原结合片段、抗PD-1抗体或其抗原结合片段、抗PD-L1抗体或其抗原结合片段、抗4-1BB抗体或其抗原结合片段、或抗OX-40抗体或其抗原结合片段。在一些方面,抗体或其抗原结合片段为Fab片段、Fab'片段、呈单特异性或连接在一起的多特异性的单域抗体(sdAb)(例如骆驼科抗体域)、或全长单链抗体(例如具有藉由柔性接头连接的重链及轻链的全长IgG)。在一些方面,抗体的重链及轻链序列为由自裂解序列如2A或IRES分开的连续序列;或抗体的重链及轻链序列由柔性接头如连续甘氨酸残基连接。

在一些方面,免疫调节物为细胞因子。在一些方面,细胞因子为IL-2、IL-7、IL-12、IL-15或IL-21或其各自变体中的至少一者。

在一些方面,载体为黑猩猩腺病毒C68载体。在一些方面,载体包含SEQ ID NO:1所述的序列。在一些方面,载体包含SEQ ID NO:1所述的序列,但完全缺失或功能缺失选自的至少一个基因中的序列:SEQ ID NO:1所述的序列的黑猩猩腺病毒E1A、E1B、E2A、E2B、E3、E4、L1、L2、L3、L4及L5基因,任选地其中完全缺失或功能缺失以下的序列:SEQ ID NO:1所述序列的(1)E1A及E1B;(2)E1A、E1B及E3;或(3)E1A、E1B、E3及E4。在一些方面,载体包含获自SEQ ID NO:1序列的基因或调节序列,任选地其中该基因选自:SEQ ID NO:1所述序列的黑猩猩腺病毒反向末端重复序列(ITR)、E1A、E1B、E2A、E2B、E3、E4、L1、L2、L3、L4及L5基因。

在一些方面,新抗原盒***载体中的E1区、E3区和/或允许并入新抗原盒的任何缺失的AdV区。

在一些方面,载体由第一代、第二代或辅助病毒依赖性腺病毒载体中的一者产生。

在一些方面,腺病毒载体包含SEQ ID NO:1所述的序列的碱基对编号577与3403之间或碱基对456与3014之间的一个或多个缺失,且任选地其中该载体另外包含碱基对27,125与31,825之间或碱基对27,816与31,333之间的一个或多个缺失。在一些方面,腺病毒载体另外包含SEQ ID NO:1所述的序列的碱基对编号3957与10346、碱基对编号21787与23370及碱基对编号33486与36193之间的一个或多个缺失。

在一些方面,至少两个MHC I类新抗原编码核酸序列通过执行以下步骤来选择:自肿瘤获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一者,其中该肿瘤核苷酸测序数据用于获得代表新抗原集合中的每一者的肽序列的数据;将各新抗原的肽序列输入呈递模型中,以产生新抗原中的每一者在肿瘤的肿瘤细胞表面上由MHC等位基因中的一个或多个呈递的数值可能性集合,该数值可能性集合已至少基于所接收的质谱数据鉴定;及基于该数值可能性集合选择该新抗原集合的子集,以产生经选择的新抗原集合,其用于产生至少两个MHC I类新抗原编码核酸序列。

在一些方面,MHC I类表位编码核酸序列中的每一者通过执行以下步骤来选择:自肿瘤获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一者,其中该肿瘤核苷酸测序数据用于获得代表新抗原集合中的每一者的肽序列的数据;将各新抗原的肽序列输入呈递模型中,以产生新抗原中的每一者在肿瘤的肿瘤细胞表面上由MHC等位基因中的一个或多个呈递的数值可能性集合,该数值可能性集合已至少基于所接收的质谱数据进行鉴定;及基于该数值可能性集合选择该新抗原集合的子集,以产生经选择的新抗原集合,其用于产生至少两个MHC I类新抗原编码核酸序列。

在一些方面,该经选择的新抗原集合的数量为2-20。

在一些方面,呈递模型表示以下两者之间的依赖性:所述MHC等位基因的对中的特定一种与在肽序列的特定位置处的特定氨基酸的存在;及在所述肿瘤细胞表面上由所述MHC等位基因中的对的所述特定一种呈递这样的包含在所述特定位置处的所述特定氨基酸的肽序列的可能性。

在一些方面,选择该经选择的新抗原集合包含基于呈递模型选择相对于未经选择的新抗原在肿瘤细胞表面上呈递的可能性增加的新抗原。在一些方面,选择该经选择的新抗原集合包含基于呈递模型选择相对于未经选择的新抗原能够在个体中诱导肿瘤特异性免疫响应的可能性增加的新抗原。在一些方面,选择该经选择的新抗原集合包含基于呈递模型选择相对于未经选择的新抗原能够由专职抗原呈递细胞(APC)呈递于初始T细胞的可能性增加的新抗原,任选地其中该APC为树突状细胞(DC)。在一些方面,选择该经选择的新抗原集合包含基于呈递模型选择相对于未经选择的新抗原经由中心或外周耐受性受抑制的可能性降低的新抗原。在一些方面,选择该经选择的新抗原集合包含基于呈递模型选择相对于未经选择的新抗原能够在个体中诱导针对正常组织的自体免疫响应的可能性降低的新抗原。在一些方面,外显子组或转录组核苷酸测序数据通过对肿瘤组织进行测序而获得。在一些方面,测序为下一代测序(NGS)或任何大规模平行测序方法。

在一些方面,新抗原盒包含由新抗原盒中的相邻序列形成的连接表位序列。在一些方面,至少一个或每个连接表位序列对MHC的亲和力大于500nM。在一些方面,每个连接表位序列为非自身的。在一些方面,新抗原盒不编码包含翻译的野生型核酸序列的非治疗性MHC I类或II类表位核酸序列,其中该非治疗性表位经预测显示于个体的MHC等位基因上。在一些方面,经预测的非治疗性MHC I类或II类表位序列为由新抗原盒中的相邻序列形成的连接表位序列。在一些方面,预测是基于藉由将非治疗性表位的序列输入呈递模型中而产生的呈递可能性。在一些方面,新抗原盒中的多个抗原编码核酸序列的顺序通过包括以下的一系列步骤来确定:1.产生对应于该多个抗原编码核酸序列的不同顺序的候选新抗原盒序列集合;2.对于每个候选新抗原盒序列,基于候选新抗原盒序列中非治疗性表位的呈递来确定呈递分数;及3.选择与低于预定阈值的呈递分数相关的候选盒序列作为用于新抗原疫苗的新抗原盒序列。

本文还公开一种药学组合物,其包含本文所公开的载体(诸如本文所公开的基于ChAd的载体)及药学可接受的载体。在一些方面,该组合物另外包含佐剂。在一些方面,该组合物另外包含免疫调节物。在一些方面,免疫调节物为抗CTLA4抗体或其抗原结合片段、抗PD-1抗体或其抗原结合片段、抗PD-L1抗体或其抗原结合片段、抗4-1BB抗体或其抗原结合片段、或抗OX-40抗体或其抗原结合片段。

本文还公开一种经分离的核苷酸序列,其包含本文所公开的新抗原盒及本文所公开的至少一种启动子。在一些方面,经分离的核苷酸序列另外包含基于ChAd的基因。在一些方面,基于ChAd的基因获自SEQ ID NO:1序列,任选地其中该基因选自:SEQ ID NO:1所述的序列的黑猩猩腺病毒ITR、E1A、E1B、E2A、E2B、E3、E4、L1、L2、L3、L4及L5基因,且任选地其中该核苷酸序列为cDNA。

本文还公开一种经分离的细胞,其包含本文所公开的经分离的核苷酸序列,任选地其中该细胞为CHO、HEK293或其变体、911、HeLa、A549、LP-293、PER.C6或AE1-2a细胞。

本文还公开一种载体,其包含本文所公开的经分离的核苷酸序列。

本文还公开一种试剂盒,其包含本文所公开的载体及使用说明书。

本文还公开一种用于治疗患有癌症的个体的方法,该方法包括向该个体施用本文所公开的载体或本文所公开的药学组合物。在一些方面,该载体或组合物是经肌内(IM)、皮内(ID)或皮下(SC)施用。在一些方面,该方法另外包含向该个体施用免疫调节物,任选地其中该免疫调节物在该载体或药学组合物施用之前、同时或之后施用。在一些方面,免疫调节物为抗CTLA4抗体或其抗原结合片段、抗PD-1抗体或其抗原结合片段、抗PD-L1抗体或其抗原结合片段、抗4-1BB抗体或其抗原结合片段、或抗OX-40抗体或其抗原结合片段。在一些方面,免疫调节物是经静脉内(IV)、肌内(IM)、皮内(ID)或皮下(SC)施用。在一些方面,其中皮下施用靠近载体或组合物施用部位或非常接近于一个或多个载体或组合物引流***。

在一些方面,该方法另外包含向该个体施用第二疫苗组合物。在一些方面,第二疫苗组合物在施用上述载体或组合物中的任一者的载体或药学组合物之前施用。在一些方面,第二疫苗组合物在施用上述载体或组合物中的任一者的载体或药学组合物之后施用。在一些方面,第二疫苗组合物与上述载体或组合物中的任一者的载体或药学组合物相同。在一些方面,第二疫苗组合物不同于上述载体或组合物中的任一者的载体或药学组合物。在一些方面,第二疫苗组合物包含编码多个新抗原编码核酸序列的自我复制RNA(srRNA)载体。在一些方面,由srRNA载体编码的多个新抗原编码核酸序列与上述载体技术方案中的任一者的多个新抗原编码核酸序列相同。

本文还公开一种制造本文所公开的载体的方法,该方法包括:获得包含至少一个启动子序列及新抗原盒的质粒序列;将该质粒序列转染至一个或多个宿主细胞中;及自该一个或多个宿主细胞分离该载体。

在一些方面,分离包含:溶解宿主细胞以获得包含载体的细胞溶解物;及自该细胞溶解物且任选地还自用于培养该宿主细胞的培养基纯化该载体。

在一些方面,使用以下中的一者产生质粒序列;DNA重组,或细菌重组,或全基因组DNA合成,或全基因组DNA合成与在细菌细胞中扩增合成的DNA。在一些方面,一个或多个宿主细胞为CHO、HEK293或其变体、911、HeLa、A549、LP-293、PER.C6及AE1-2a细胞中的至少一者。在一些方面,自细胞溶解物纯化载体涉及层析分离、离心、病毒沉淀及过滤中的一种或多种。

附图说明

关于以下描述及随附图式将更好地理解本发明的此等及其他特征、方面及优势,其中:

图1A显示当前用于鉴定新抗原的临床方法。

图1B显示<5%的预测结合肽呈递于肿瘤细胞上。

图1C显示新抗原预测特异性问题的影响。

图1D显示结合预测不足以进行新抗原鉴定。

图1E显示MHC-I呈递的机率随肽长度的变化。

图1F显示由普洛麦格的动态范围标准(Promega's dynamic range standard)生成的示例肽谱图。

图1G显示添加何种特征增加模型阳性预测值。

图2A系根据一个实施例,用于鉴定患者中肽呈递的可能性的环境的概述。

图2B及图2C说明根据一个实施例,获得呈递信息的方法。

图3系说明根据一个实施例的呈递鉴定系统的计算机逻辑组件的高级框图。

图4说明根据一个实施例的一组示例训练数据。

图5说明与MHC等位基因相关联的示例网络模型。

图6A-6B说明MHC等位基因共享的示例网络模型。

图7说明使用示例网络模型产生与MHC等位基因相关联的肽的呈递的可能性。

图8说明使用示例网络模型产生与MHC等位基因相关联的肽的呈递的可能性。

图9说明使用示例网络模型产生与MHC等位基因相关联的肽的呈递的可能性。

图10说明使用示例网络模型产生与MHC等位基因相关联的肽的呈递的可能性。

图11说明使用示例网络模型产生与MHC等位基因相关联的肽的呈递的可能性。

图12说明使用示例网络模型产生与MHC等位基因相关联的肽的呈递的可能性。

图13A-13J说明各种示例呈递模型的效能结果。

图14说明用于实施图1及3中所示的实体的示例计算机。

图15说明活体外T细胞活化分析的开发。示意性展示该分析,其中将疫苗盒递送至抗原呈递细胞引起独特肽抗原的表达、加工及MHC限制性呈递。经工程改造成具有匹配特定肽-MHC组合的T细胞受体的报告子T细胞经活化,引起荧光素酶表达。

图16A说明对短盒中接头序列的评价且显示在相对于彼此相同的位置中串接的五个I类MHC限制性表位(表位1至5),继的以两个通用的II类MHC表位(MHC-II)。使用不同接头产生各种迭代。在一些情况下,T细胞表位彼此直接连接。在其他情况下,T细胞表位侧接于其天然序列的一侧或两侧上。在其他迭代中,T细胞表位藉由非天然序列AAY、RR及DPP连接。

图16B说明对短盒中接头序列的评价且显示有关嵌入所述短盒中的T细胞表位的序列信息。

图17说明对添加至模型疫苗盒中的细胞靶向序列的评价。所述靶向盒用泛素(Ub)、信号肽(SP)和/或跨膜(TM)域延伸该短盒设计,特征在于紧邻该五个标记物人类T细胞表位(表位1至5)以及两个小鼠T细胞表位SIINFEKL(SII)及SPSYAYHQF(A5),且使用非天然接头AAY-或天然接头侧接两侧上的T细胞表位(25聚体)。

图18说明对短盒中接头序列的活体内评价。A)使用HLA-A2转基因小鼠进行疫苗盒的活体内评价的实验设计。

图19A说明对21聚体长盒中表位位置的影响的活体内评价且显示长盒的设计需要用25聚体天然序列中所包含的另外的熟知T细胞I类表位(表位6至21)隔开的包含在25聚体天然序列中的五个标记物I类表位(表位1至5)(接头=天然侧接序列),及两个通用的II类表位(MHC-II),其中仅I类表位的相对位置变化。

图19B说明对21聚体长盒中表位位置的影响的活体内评价且显示有关所用T细胞表位的序列信息。

图20A说明临床前IND授权研究(IND-enabling study)的最终盒设计且显示最终盒的设计包含在25聚体天然序列中所包含的20个I类MHC表位(接头=天然侧接序列)以及2个通用II类MHC表位,该20个I类MHC表位由6个非人类灵长类动物(NHP)表位、5个人类表位、9个鼠类表位构成。

图20B说明临床前IND授权研究的最终盒设计且显示呈递于非人类灵长类动物、小鼠及人类来源的I类MHC上的所用T细胞表位的序列信息,以及2个通用II类MHC表位PADRE及破伤风类毒素的序列。

图21A说明在转染之后产生ChAdV68.4WTnt.GFP病毒。使用磷酸钙方案,用ChAdV68.4WTnt.GFP DNA转染HEK293A细胞。在转染之后10天,观察到病毒复制且使用光学显微镜检查(40×放大率)观测到ChAdV68.4WTnt.GFP病毒蚀斑。

图21B说明在转染之后产生ChAdV68.4WTnt.GFP病毒。使用磷酸钙方案,用ChAdV68.4WTnt.GFP DNA转染HEK293A细胞。在转染之后10天,观察到病毒复制且使用荧光显微镜检查,在40×放大率下观测到ChAdV68.4WTnt.GFP病毒蚀斑。

图21C说明在转染之后产生ChAdV68.4WTnt.GFP病毒。使用磷酸钙方案,用ChAdV68.4WTnt.GFP DNA转染HEK293A细胞。在转染之后10天,观察到病毒复制且使用荧光显微镜检查,在100×放大率下观测到ChAdV68.4WTnt.GFP病毒蚀斑。

图22A说明转染之后产生ChAdV68.5WTnt.GFP病毒。使用脂染胺方案,用ChAdV68.5WTnt.GFP DNA转染HEK293A细胞。在转染之后10天,观察到病毒复制(蚀斑)。制备溶解产物且用于再感染T25烧瓶中的293A细胞。3天后,使用光学显微镜检查(40×放大率)观测到ChAdV68.5WTnt.GFP病毒蚀斑并拍照。

图22B说明转染之后产生ChAdV68.5WTnt.GFP病毒。使用脂染胺方案,用ChAdV68.5WTnt.GFP DNA转染HEK293A细胞。在转染之后10天,观察到病毒复制(蚀斑)。制备溶解产物且用于再感染T25烧瓶中的293A细胞。3天后,使用荧光显微镜检查,在40×放大率下观测到ChAdV68.5WTnt.GFP病毒蚀斑并拍照。

图22C说明转染之后产生ChAdV68.5WTnt.GFP病毒。使用脂染胺方案,用ChAdV68.5WTnt.GFP DNA转染HEK293A细胞。在转染之后10天,观察到病毒复制(蚀斑)。制备溶解产物且用于再感染T25烧瓶中的293A细胞。3天后,使用荧光显微镜检查,在100×放大率下观测到ChAdV68.5WTnt.GFP病毒蚀斑并拍照。

图23说明病毒粒子制造方案。

图24说明α病毒源性VEE自我复制型RNA(srRNA)载体。

图25说明在用VEE-荧光素酶srRNA接种C57BL/6J小鼠之后的活体内报告子表达。显示出在各种时间点用VEE-荧光素酶srRNA免疫接种C57BL/6J小鼠(每只小鼠10μg,两侧肌肉内注射,MC3封装)之后的代表性荧光素酶信号图像。

图26A说明在带有B16-OVA肿瘤的小鼠中免疫接种用MC3 LNP调配的VEE srRNA之后14天测量的T细胞反应。向带有B16-OVA肿瘤的C57BL/6J小鼠注射10μg VEE-荧光素酶srRNA(对照)、VEE-UbAAY srRNA(Vax)、VEE-荧光素酶srRNA及抗CTLA-4(aCTLA-4)或VEE-UbAAY srRNA及抗CTLA-4(Vax+aCTLA-4)。此外,自第7天开始,用抗PD1 mAb治疗所有小鼠。每组由8只小鼠组成。在免疫接种之后14天,处死小鼠并收集脾及***。藉由IFN-γELISPOT评估SIINFEKL特异性T细胞反应且以每106个脾细胞的斑点形成细胞(SFC)数报导。线表示中值。

图26B说明在带有B16-OVA肿瘤的小鼠中免疫接种用MC3 LNP调配的VEE srRNA之后14天测量的T细胞反应。向带有B16-OVA肿瘤的C57BL/6J小鼠注射10μg VEE-荧光素酶srRNA(对照)、VEE-UbAAY srRNA(Vax)、VEE-荧光素酶srRNA及抗CTLA-4(aCTLA-4)或VEE-UbAAY srRNA及抗CTLA-4(Vax+aCTLA-4)。此外,自第7天开始,用抗PD1 mAb治疗所有小鼠。每组由8只小鼠组成。在免疫接种之后14天,处死小鼠并收集脾及***。藉由MHCI-五聚体染色评估SIINFEKL特异性T细胞反应,以五聚体阳性细胞占CD8阳性细胞的百分比报导。线表示中值。

图27A说明在带有B16-OVA肿瘤的小鼠中进行异源初免/增强免疫之后的抗原特异性T细胞反应。向带有B16-OVA肿瘤的C57BL/6J小鼠注射表达GFP的腺病毒(Ad5-GFP)并用经MC3 LNP调配的VEE-荧光素酶srRNA(对照)增强免疫或注射Ad5-UbAAY并用VEE-UbAAYsrRNA(Vax)增强免疫。还用IgG对照mAb治疗对照组及Vax组。第三组用Ad5-GFP初免/VEE-荧光素酶srRNA增强免疫与抗CTLA-4的组合(aCTLA-4)治疗,而第四组用Ad5-UbAAY初免/VEE-UbAAY增强免疫与抗CTLA-4的组合(Vax+aCTLA-4)治疗。此外,自第21天开始,用抗PD-1mAb治疗所有小鼠。藉由IFN-γELISPOT测量T细胞反应。在用腺病毒免疫接种后14天,处死小鼠并收集脾及***。

图27B说明在带有B16-OVA肿瘤的小鼠中进行异源初免/增强免疫之后的抗原特异性T细胞反应。向带有B16-OVA肿瘤的C57BL/6J小鼠注射表达GFP的腺病毒(Ad5-GFP)并用经MC3 LNP调配的VEE-荧光素酶srRNA(对照)增强免疫或注射Ad5-UbAAY并用VEE-UbAAYsrRNA(Vax)增强免疫。还用IgG对照mAb治疗对照组及Vax组。第三组用Ad5-GFP初免/VEE-荧光素酶srRNA增强免疫与抗CTLA-4的组合(aCTLA-4)治疗,而第四组用Ad5-UbAAY初免/VEE-UbAAY增强免疫与抗CTLA-4的组合(Vax+aCTLA-4)治疗。此外,自第21天开始,用抗PD-1mAb治疗所有小鼠。藉由IFN-γELISPOT测量T细胞反应。在用腺病毒免疫接种后14天及在用srRNA增强免疫后14天(初免之后第28天),处死小鼠并收集脾及***。

图27C说明在带有B16-OVA肿瘤的小鼠中进行异源初免/增强免疫之后的抗原特异性T细胞反应。向带有B16-OVA肿瘤的C57BL/6J小鼠注射表达GFP的腺病毒(Ad5-GFP)并用经MC3 LNP调配的VEE-荧光素酶srRNA(对照)增强免疫或注射Ad5-UbAAY并用VEE-UbAAYsrRNA(Vax)增强免疫。还用IgG对照mAb治疗对照组及Vax组。第三组用Ad5-GFP初免/VEE-荧光素酶srRNA增强免疫与抗CTLA-4的组合(aCTLA-4)治疗,而第四组用Ad5-UbAAY初免/VEE-UbAAY增强免疫与抗CTLA-4的组合(Vax+aCTLA-4)治疗。此外,自第21天开始,用抗PD-1mAb治疗所有小鼠。藉由I类MHC五聚体染色测量T细胞反应。在用腺病毒免疫接种后14天,处死小鼠并收集脾及***。

图27D说明在带有B16-OVA肿瘤的小鼠中进行异源初免/增强免疫之后的抗原特异性T细胞反应。向带有B16-OVA肿瘤的C57BL/6J小鼠注射表达GFP的腺病毒(Ad5-GFP)并用经MC3 LNP调配的VEE-荧光素酶srRNA(对照)增强免疫或注射Ad5-UbAAY并用VEE-UbAAYsrRNA(Vax)增强免疫。还用IgG对照mAb治疗对照组及Vax组。第三组用Ad5-GFP初免/VEE-荧光素酶srRNA增强免疫与抗CTLA-4的组合(aCTLA-4)治疗,而第四组用Ad5-UbAAY初免/VEE-UbAAY增强免疫与抗CTLA-4的组合(Vax+aCTLA-4)治疗。此外,自第21天开始,用抗PD-1mAb治疗所有小鼠。藉由I类MHC五聚体染色测量T细胞反应。在用腺病毒免疫接种后14天及在用srRNA增强免疫后14天(初免之后第28天),处死小鼠并收集脾及***。

图28A说明在带有CT26(Balb/c)肿瘤的小鼠中进行异源初免/增强免疫之后的抗原特异性T细胞反应。对小鼠免疫接种Ad5-GFP且在腺病毒初免之后15天,用经MC3 LNP调配的VEE-荧光素酶srRNA(对照)增强免疫,或用Ad5-UbAAY进行初免且用VEE-UbAAY srRNA(Vax)增强免疫。还用IgG对照mAb治疗对照组及Vax组。向一个独立组施用Ad5-GFP/VEE-荧光素酶srRNA初免/增强免疫与抗PD-1的组合(aPD1),而第四组接受Ad5-UbAAY/VEE-UbAAYsrRNA初免/增强免疫与抗PD-1mAb的组合(Vax+aPD1)。使用IFN-γELISPOT测量T细胞对AH1肽的反应。在用腺病毒免疫接种后12天,处死小鼠并收集脾及***。

图28B说明在带有CT26(Balb/c)肿瘤的小鼠中进行异源初免/增强免疫之后的抗原特异性T细胞反应。对小鼠免疫接种Ad5-GFP且在腺病毒初免之后15天,用经MC3 LNP调配的VEE-荧光素酶srRNA(对照)增强免疫,或用Ad5-UbAAY进行初免且用VEE-UbAAY srRNA(Vax)增强免疫。还用IgG对照mAb治疗对照组及Vax组。向一个独立组施用Ad5-GFP/VEE-荧光素酶srRNA初免/增强免疫与抗PD-1的组合(aPD1),而第四组接受Ad5-UbAAY/VEE-UbAAYsrRNA初免/增强免疫与抗PD-1mAb的组合(Vax+aPD1)。使用IFN-γELISPOT测量T细胞对AH1肽的反应。在用腺病毒免疫接种后12天及在用srRNA增强免疫后6天(初免之后第21天),处死小鼠并收集脾及***。

图29说明ChAdV68引起针对小鼠中小鼠肿瘤抗原的T细胞反应。对小鼠免疫接种ChAdV68.5WTnt.MAG25mer,且在C57BL/6J雌性小鼠中测量针对I类MHC表位SIINFEKL(OVA)的T细胞反应并在Balb/c小鼠中测量针对I类MHC表位AH1-A5的T细胞反应。呈递在ELISpot分析中测量的每106个脾细胞的平均斑点形成细胞(SFC)数。误差条表示标准偏差。

图30说明在CT26肿瘤模型中单次免疫接种ChAdV6、ChAdV+抗PD-1、srRNA、srRNA+抗PD-1或单独抗PD-1之后的细胞免疫响应。使用ELISpot测量来自每组的6只小鼠的脾细胞中抗原特异性IFN-γ的产生。结果呈递为每106个脾细胞的斑点形成细胞(SFC)数。每个组的中值以水平线指示。P值使用邓尼特氏多重比较(Dunnett's multiple comparison)测试测定;***P<0.0001,**P<0.001,*P<0.05。ChAdV=ChAdV68.5WTnt.MAG25mer;srRNA=VEE-MAG25mer srRNA。

图31说明在CT26肿瘤模型中单次免疫接种ChAdV6、ChAdV+抗PD-1、srRNA、srRNA+抗PD-1或单独抗PD-1之后的CD8 T细胞反应。使用ICS测量CD8 T细胞中抗原特异性IFN-γ的产生且结果呈递为抗原特异性CD8 T细胞占总CD8T细胞的百分含量。每个组的中值以水平线指示。P值使用邓尼特氏多重比较测试测定;***P<0.0001,**P<0.001,*P<0.05。ChAdV=ChAdV68.5WTnt.MAG25mer;srRNA=VEE-MAG25mer srRNA。

图32说明在CT26肿瘤模型中用ChAdV/srRNA异源初免/增强免疫、srRNA/ChAdV异源初免/增强免疫或srRNA/srRNA同源初免/增强免疫进行免疫接种之后的肿瘤生长情况。亦示出与在初免及增强免疫期间施用或不施用抗PD1的初免/增强免疫的比较。每周两次测量肿瘤体积且呈递研究的前21天的平均肿瘤体积。研究起始时每组22-28只小鼠。误差条表示平均值的标准误差(SEM)。P值使用邓尼特氏测试测定;***P<0.0001,**P<0.001,*P<0.05。ChAdV=ChAdV68.5WTnt.MAG25mer;srRNA=VEE-MAG25mersrRNA。

图33说明在CT26肿瘤模型中用ChAdV/srRNA异源初免/增强免疫、srRNA/ChAdV异源初免/增强免疫或srRNA/srRNA同源初免/增强免疫进行免疫接种之后的存活情况。亦示出与在初免及增强免疫期间施用或不施用抗PD1的初免/增强免疫的比较。P值使用对数秩测试测定;***P<0.0001,**P<0.001,*P<0.01。ChAdV=ChAdV68.5WTnt.MAG25mer;srRNA=VEE-MAG25mer srRNA。

图34说明在异源初免/增强免疫之后印度恒河猴中的细胞免疫响应。在初次初始免疫接种之后7、14、21、28或35天以及在第一次增强免疫之后7天,使用ELISpot测量ChAdV68.5WTnt.MAG25mer/VEE-MAG25mersrRNA异源初免/增强免疫组(6只恒河猴)的PBMC中针对六个不同mamu A01限制性表位的抗原特异性IFN-γ产生情况。结果以堆栈条形图形式呈递对于各表位,每106个PBMC的平均斑点形成细胞(SFC)数。

图35说明在利用或不利用抗CTLA4情况下免疫接种ChAdV之后印度恒河猴中的细胞免疫响应。在初始免疫接种之后14天,使用ELISpot测量在添加或不添加静脉内(IV)或局部(SC)施用的抗CTLA4情况下,用ChAdV68.5WTnt.MAG25mer免疫接种(6只恒河猴/组)之后PBMC中针对六个不同mamu A01限制性表位的抗原特异性IFN-γ产生情况。结果以堆栈条形图形式呈递对于各表位,每106个PBMC的平均斑点形成细胞(SFC)数。

具体实施方式

I.定义

一般而言,申请专利范围及本说明书中所用的术语意欲解释为具有一般熟习此项技术者所理解的普通含义。为了更清楚,某些术语定义如下。在普通含义与所提供的定义之间存在矛盾的情况下,将使用所提供的定义。

如本文所用,术语「抗原」为诱导免疫响应的物质。

如本文所用,术语「新抗原」为具有至少一个使其不同于相应野生型抗原的改变的抗原,例如经由肿瘤细胞中的突变或特异性针对肿瘤细胞的翻译后修饰。新抗原可包括多肽序列或核苷酸序列。突变可包括移码或非移码***缺失、误义或无义取代、剪接位点改变、基因组重排或基因融合、或产生neoORF的任何基因组或表达改变。突变也可包括剪接变体。特异性针对肿瘤细胞的翻译后修饰可包括异常磷酸化。特异性针对肿瘤细胞的翻译后修饰也可包括蛋白酶体产生的剪接抗原。参见Liepe等人,A large fraction of HLAclass I ligands are proteasome-generated spliced peptides;Science.2016年10月21日;354(6310):354-358.

如本文所用,术语「肿瘤新抗原」为存在于个体的肿瘤细胞或组织中但不存在于个体的相应正常细胞或组织中的新抗原。

如本文所用,术语「基于新抗原的疫苗」为基于一个或多个新抗原(例如多个新抗原)的疫苗构建体。

如本文所用,术语「候选新抗原」为产生可代表新抗原的新序列的突变或其他畸变。

如本文所用,术语「编码区」为编码蛋白质的基因的部分。

如本文所用,术语「编码突变」为在编码区中出现的突变。

如本文所用,术语「ORF」意指开放阅读框架。

如本文所用,术语「NEO-ORF」为由突变或其他畸变(诸如剪接)产生的肿瘤特异性ORF。

如本文所用,术语「误义突变」为引起一个氨基酸至另一个氨基酸的取代的突变。

如本文所用,术语「无义突变」为引起氨基酸至终止密码子的取代的突变。

如本文所用,术语「移码突变」为引起蛋白质框架改变的突变。

如本文所用,术语「***缺失」为一个或多个核酸的***或缺失。

如本文所用,在两个或更多个核酸或多肽序列的上下文中,术语「一致性」百分比是指当出于最大对应性比较及比对时,两个或更多个序列或子序列具有指定百分比的核苷酸或氨基酸残基为相同的,如使用下文所述的序列比较算法(例如BLASTP及BLASTN或技术人员可用的其他算法)中的一者或藉由目视检查所测量。视应用而定,「一致性」百分比可存在于所比较的序列区域上,例如在功能域上,或者,存在于有待比较的两个序列的全长上。

关于序列比较,通常一个序列充当与测试序列进行比较的参考序列。当使用序列比较算法时,将测试序列及参考序列输入至计算机中,必要时指定子序列坐标,且指测序列算法程序参数。随后,序列比较算法基于指定程序参数计算测试序列相对于参考序列的序列一致性百分比。或者,序列相似性或不相似性可藉由组合存在或不存在特定核苷酸,或对于翻译序列,在所选择的序列位置(例如序列基序)处的氨基酸来建立。

用于比较的序列的最佳比对可例如藉由Smith及Waterman,Adv.Appl.Math.2:482(1981)的局部同源性算法、藉由Needleman及Wunsch,J.Mol.Biol.48:443(1970)的同源性比对算法、藉由Pearson及Lipman,Proc.Nat'l.Acad.Sci.USA 85:2444(1988)的相似性搜寻方法、藉由此等算法的计算机化实施(Wisconsin Genetics软件包中的GAP、BESTFIT、FASTA及TFASTA,Genetics Computer Group,575Science Dr.,Madison,Wis.)或藉由目视检查(一般参见Ausubel等人,见下文)来进行。

适于确测序列一致性百分比及序列相似性的算法的一个实例为BLAST算法,其描述于Altschul等人,J.Mol.Biol.215:403-410(1990)中。执行BLAST分析的软件可经由国家生物技术信息中心(National Center for Biotechnology Information)公开获得。

如本文所用,术语「无终止或通读」为引起天然终止密码子移除的突变。

如本文所用,术语「表位」为通常由抗体或T细胞受体结合的抗原的特异性部分。

如本文所用,术语「免疫原性」为例如经由T细胞、B细胞或两者引发免疫响应的能力。

如本文所用,术语「HLA结合亲和力」、「MHC结合亲和力」意指特异性抗原与特异性MHC等位基因之间结合的亲和力。

如本文所用,术语「诱饵」为用于自样品富集DNA或RNA的特测序列的核酸探针。

如本文所用,术语「变体」为个体的核酸与用作对照的参考人类基因组之间的差异。

如本文所用,术语「变体识别」为通常根据测序的变体存在的算法确定。

如本文所用,术语「多形现象」为生殖系变体,亦即在个体的所有携带DNA的细胞中发现的变体。

如本文所用,术语「体细胞变体」为在个体的非生殖系细胞中产生的变体。

如本文所用,术语「等位基因」为基因的形式或基因序列的形式或蛋白质的形式。

如本文所用,术语「HLA型」为HLA基因等位基因的补体。

如本文所用,术语「无义介导的衰变」或「NMD」为因过早终止密码子所致的细胞对mRNA的降解。

如本文所用,术语「躯干突变」为起源于肿瘤发展早期且存在于大部分肿瘤细胞中的突变。

如本文所用,术语「亚纯系突变」为起源于肿瘤发展后期且仅存在于肿瘤细胞子集中的突变。

如本文所用,术语「外显子组」为编码蛋白质的基因组的子集。外显子组可为基因组的集合外显子。

如本文所用,术语「逻辑回归」为来自统计的二进制数据的回归模型,其中因变量等于1的机率的逻辑经模型化为因变量的线性函数。

如本文所用,术语「神经网络」为用于分类或回归的机器学习模型,其由多层线性变换组成,接着为通常经由随机梯度下降及反向传播进行训练的元素级非线性。

如本文所用,术语「蛋白质组」为由细胞、细胞群或个体表达和/或翻译的全部蛋白质的集合。

如本文所用,术语「肽组」为由MHC-I或MHC-II在细胞表面上呈递的所有肽的集合。肽组可指细胞或细胞集合(例如肿瘤肽组,意味着构成肿瘤的所有细胞的肽组的联合)的特性。

如本文所用,术语「ELISPOT」意指酶联免疫吸附斑点分析,其为用于监测人类及动物中的免疫响应的常用方法。

如本文所用,术语「葡聚糖肽多聚体」为在流式细胞测量术中用于抗原特异性T细胞染色的基于葡聚糖的肽-MHC多聚体。

如本文所用,术语「耐受性或免疫耐受性」为对一或多种抗原(例如自身抗原)免疫无反应性的状态。

如本文所用,术语「中心耐受性」为藉由缺失自身反应性T细胞纯系或藉由促进自身反应性T细胞纯系分化成免疫抑制性调节性T细胞(Treg)而在胸腺中遭受的耐受性。

如本文所用,术语「外周耐受性」为藉由下调或不激活经受中心耐受性的自身反应性T细胞或促进此等T细胞分化成Treg而在外周遭受的耐受性。

术语「样品」可包括藉由包括静脉穿刺、***、***、按摩、活组织检查、针抽吸、灌洗样品、刮取、手术切口或干预的手段或此项技术中已知的其他手段自个体获取的单细胞或多细胞或细胞碎片或体液等分试样。

术语「个体」涵盖人类或非人类、无论活体内、离体或活体外、雄性或雌性的细胞、组织或生物体。术语个体包括涵盖人类的哺乳动物。

术语「哺乳动物」涵盖人类及非人类,且包括(但不限于)人类、非人类灵长类动物、犬科动物、猫科动物、鼠科动物、牛科动物、马科动物及猪科动物。

术语「临床因素」是指个体状况的量度,例如疾病活动或严重程度。「临床因素」涵盖个体健康状况的所有标记,包括非样品标记,和/或个体的其他特征,诸如但不限于年龄及性别。临床因素可为可在确定条件下评估来自个体的样品(或样品群体)或个体而获得的评分、值或值集合。临床因素也可藉由标记和/或其他参数(诸如基因表达代替物)来预测。临床因素可包括肿瘤类型、肿瘤亚型及吸烟史。

术语「源于肿瘤的抗原编码核酸序列」是指例如经由RT-PCR直接自肿瘤提取的核酸序列;或藉由肿瘤测序获得的序列数据,且随后使用测序数据例如经由此项技术中已知的各种合成或基于PCR的方法合成核酸序列。

术语「α病毒」是指披膜病毒科(Togaviridae)的成员,且为正义单股RNA病毒。α病毒通常分类为旧世界,诸如辛德毕斯(Sindbis)、罗斯河(Ross River)、马雅罗(Mayaro)、基孔肯尼亚(Chikungunya)及塞姆利基森林病毒(Semliki Forest virus),或新世界,诸如东部马脑炎(eastern equine encephalitis)、奥拉(Aura)、摩根堡(Fort Morgan)、或委内瑞拉马脑炎(Venezuelan equine encephalitis)及其衍生病毒株TC-83。α病毒通常为自我复制RNA病毒。

术语「α病毒主链」是指允许病毒基因组自我复制的α病毒的最小序列。最小序列可包括用于非结构蛋白质介导的扩增的保守序列、非结构蛋白质1(nsP1)基因、nsP2基因、nsP3基因、nsP4基因及polyA序列,以及用于亚基因组病毒RNA表达的序列,包括26S启动子组件。

术语「用于非结构蛋白质介导的扩增的序列」包括熟习此项技术者熟知的α病毒保守序列组件(CSE)。CSE包括(但不限于)α病毒5'UTR、51-nt CSE、24-nt CSE或其他26S亚基因组启动子序列、19-nt CSE及α病毒3'UTR。

术语「RNA聚合酶」包括催化由DNA模板产生RNA聚核苷酸的聚合酶。RNA聚合酶包括(但不限于)源于噬菌体的聚合酶,包括T3、T7及SP6。

术语「脂质」包括疏水性和/或两亲媒性分子。脂质可为阳离子、阴离子或中性的。脂质可为合成或天然来源的,且在一些情况下为可生物降解的。脂质可包括胆固醇、磷脂、脂质结合物,包括(但不限于)聚乙二醇(PEG)结合物(聚乙二醇化脂质)、蜡、油、甘油酯、脂肪及脂溶性维生素。脂质也可包括二亚油基甲基-4-二甲基胺基丁酸酯(MC3)及MC3样分子。

术语「脂质纳米颗粒」或「LNP」包括使用含脂质膜围绕水性内部形成的小泡样结构,也称为脂质粒。脂质纳米颗粒包括具有藉由界面活性剂稳定的固体脂质核心的基于脂质的组合物。核心脂质可为脂肪酸、酰基甘油、蜡及此等界面活性剂的混合物。生物膜脂质,诸如磷脂、鞘磷脂、胆汁盐(牛磺胆酸钠)及固醇(胆固醇),可用作稳定剂。脂质纳米颗粒可使用限定比率的不同脂质分子形成,包括(但不限于)限定比率的一种或多种阳离子脂质、阴离子脂质或中性脂质。脂质纳米颗粒可将分子囊封在外膜壳内,且随后可与靶细胞接触以将囊封的分子递送至宿主细胞胞溶质。脂质纳米颗粒可用非脂质分子修饰或官能化,包括在其表面上。脂质纳米颗粒可为单层或多层。脂质纳米颗粒可与核酸复合。单层脂质纳米颗粒可与核酸复合,其中核酸在水性内部。多层脂质纳米颗粒可与核酸复合,其中核酸在水性内部,或形成或包夹在之间。

缩写:MHC:主要组织相容性复合体;HLA:人类白细胞抗原或人类MHC基因座;NGS:下一代测序;PPV:阳性预测值;TSNA:肿瘤特异性新抗原;FFPE:***固定、石蜡包埋;NMD:无义介导的衰变;NSCLC:非小细胞肺癌;DC:树突状细胞。

应注意,除非上下文另外明确规定,否则如本说明书及随附申请专利范围中所用,单数形式「一(a/an)」及「该」包括多个指示物。

本文中未直接定义的任何术语应理解为具有与本发明的技术领域中所理解通常相关的含义。本文论述某些术语,以向从业者描述本发明的方面的组合物、装置、方法及其类似物以及如何制造或使用其提供额外的指导。应了解,相同事物可以多于一种方式来表达。因此,替代性措辞及同义词可用于本文所论述的术语中的任何一或多者。重要性将不在于术语是否在本文中详述或论述。提供一些同义词或可取代方法、材料及其类似物。除非明确陈述,否则对一个或数个同义词或等效物的叙述不排除使用其他同义词或等效物。包括术语实例在内的实例的使用仅用于说明性目的,且不在本文中限制本发明的方面的范畴及含义。

出于所有目的,在本说明书正文内引用的所有参考文献、颁布专利及专利申请案均以全文引用的方式并入本文中。

II.鉴定新抗原的方法

本文公开用于鉴定来自个体肿瘤的新抗原的方法,所述新抗原可能呈递在肿瘤的细胞表面上和/或可能为免疫原性的。举例而言,一种此类方法可包含以下步骤:自个体的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一者,其中该肿瘤核苷酸测序数据用于获得代表新抗原集合中的每一者的肽序列的数据,且其中各新抗原的肽序列包含至少一个使其不同于相应野生型肽序列的改变;将各新抗原的肽序列输入至一个或多个呈递模型中,以产生新抗原中的每一者在个体肿瘤细胞的肿瘤细胞表面或肿瘤中存在的细胞上由一个或多个MHC等位基因呈递的数值可能性集合,该数值可能性集合已至少基于所接收的质谱数据进行鉴定;及基于该数值可能性集合选择该新抗原集合的子集,以产生经选择的新抗原集合。

呈递模型可包含在参考数据集合(也称为训练数据集)上训练的统计回归或机器学习(例如深度学习)模型,该参考数据集合包含相应标记集合,其中该参考数据集合获自多个不同个体中的每一者,其中任选地一些个体可具有肿瘤,且其中该参考数据集合包含以下中的至少一者:代表来自肿瘤组织的外显子组核苷酸序列的数据、代表来自正常组织的外显子组核苷酸序列的数据、代表来自肿瘤组织的转录组核苷酸序列的数据、代表来自肿瘤组织的蛋白质组序列的数据、代表来自肿瘤组织的MHC肽组序列的数据以及代表来自正常组织的MHC肽组序列的数据。参考数据可另外包含经工程改造以表达随后暴露于合成蛋白质的预定MHC等位基因的单等位基因细胞系、正常及肿瘤人类细胞系、以及新鲜及冷冻原始样品的质谱数据、测序数据、RNA测序数据及蛋白质组学数据,及T细胞分析(例如ELISPOT)。在某些方面,该参考数据集合包括每种形式的参考数据。

呈递模型可包含至少部分自该参考数据集合导出的特征集合,且其中该特征集合包含等位基因依赖性特征及等位基因非依赖性特征中的至少一者。在某些方面,包括每一特征。

树突状细胞呈递于初始T细胞的特征可包含以下中的至少一者:上述特征。疫苗中抗原的剂量及类型(例如肽、mRNA、病毒等):(1)树突状细胞(DC)摄取抗原类型的途径(例如内吞作用、微胞饮作用);和/或(2)DC摄取抗原的功效。疫苗中佐剂的剂量及类型。疫苗抗原序列的长度。疫苗施用的次数及部位。基线患者免疫功能(例如,如藉由最近感染史、血液计数等所测量)。对于RNA疫苗:(1)树突状细胞中mRNA蛋白质产物的周转率;(2)如活体外或活体内实验中所测量,在树突状细胞摄取后mRNA的翻译速率;和/或(3)如藉由活体内或活体外实验所测量,在树突状细胞摄取后mRNA的翻译的数量或轮数。肽中蛋白酶裂解基序的存在,任选地给予通常在树突状细胞中表达的蛋白酶的额外重量(如藉由RNA-seq或质谱法所测量)。典型的活化树突状细胞中蛋白酶体及免疫蛋白酶体的表达量(其可藉由RNA-seq、质谱法、免疫组织化学或其他标准技术测量)。所讨论的个体中特定MHC等位基因的表达量(例如,如藉由RNA-seq或质谱法所测量),任选地在活化的树突状细胞或其他免疫细胞中特异性测量。在表达特定MHC等位基因的其他个体中由特定MHC等位基因呈递肽的机率,任选地在活化的树突状细胞或其他免疫细胞中特异性测量。在其他个体中由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递肽的机率,任选地在活化的树突状细胞或其他免疫细胞中特异性测量。

免疫耐受逃避特征可包含以下中的至少一者:经由对一个或数个细胞类型进行的蛋白质质谱法直接测量自身肽组。藉由采用自身蛋白质的所有k聚体(例如5-25)子串的联合来估计自身肽组。使用与上述应用于所有非突变自身蛋白质的呈递模型类似的呈递模型估计自身肽组,任选地考虑生殖系变体。

可使用由至少一个模型提供的多个新抗原至少部分地基于数值可能性来执行排序。在排序后,可执行选择以根据选择标准来选择经排序的新抗原的子集。在选择后,可提供经排序的肽的子集作为输出。

该经选择的新抗原集合的数量可为20个。

呈递模型可表示以下两者之间的依赖性:MHC等位基因的对中的特定一种与在肽序列的特定位置处的特定氨基酸的存在;及在肿瘤细胞表面上由所述MHC等位基因中的对的所述特定一种呈递这样的包含在所述特定位置处的所述特定氨基酸的肽序列的可能性。

本文所公开的方法也可包括将一或多种呈递模型应用于相应新抗原的肽序列,以产生一个或多个MHC等位基因中的每一者的依赖性评分,指示MHC等位基因是否将至少基于相应新抗原的肽序列的氨基酸位置呈递相应新抗原。

本文所公开的方法也可包括变换依赖性评分以产生各MHC等位基因的相应的独立等位基因的可能性,指示相应的MHC等位基因将呈递相应的新抗原的可能性;及组合独立等位基因的可能性以产生数值可能性。

变换依赖性评分的步骤可使相应新抗原的肽序列的呈递模型化为相互排斥的。

本文所公开的方法也可包括变换依赖性评分组合以产生数值可能性。

变换依赖性评分组合的步骤可使相应新抗原的肽序列的呈递作为MHC等位基因之间的干扰而模型化。

该数值可能性集合可藉由至少一个等位基因非相互作用特征进一步鉴定,且本文所公开的方法也可包括将不与一个或多个呈递模型中的一者相互作用的等位基因应用于等位基因非相互作用特征,以产生等位基因非相互作用特征的依赖性评分,指示相应新抗原的肽序列是否将基于等位基因非相互作用特征呈递。

本文所公开的方法也可包括将一个或多个MHC等位基因中的每个MHC等位基因的依赖性评分与等位基因非相互作用特征的依赖性评分组合;变换每个MHC等位基因的组合依赖性评分以产生MHC等位基因中相应的独立等位基因的可能性,指示相应的MHC等位基因将呈递相应的新抗原的可能性;及组合独立等位基因的可能性以产生数值可能性。

本文所公开的方法也可包括变换每个MHC等位基因的依赖性评分与等位基因非相互作用特征的依赖性评分的组合以产生数值可能性。

用于呈递模型的数值参数集合可基于训练数据集来训练,该训练数据集包括鉴定为存在于多个样品中的至少一个训练肽序列集合及与每个训练肽序列相关的一个或多个MHC等位基因,其中训练肽序列是经由对自源于多个样品的MHC等位基因洗脱的经分离的肽进行质谱法来鉴定。

样品也可包括经工程改造以表达单个MHC I类或II类等位基因的细胞系。

样品也可包括经工程改造以表达多个MHC I类或II类等位基因的细胞系。

样品也可包括获自或源于多个患者的人类细胞系。

样品也可包括获自多个患者的新鲜或冷冻的肿瘤样品。

样品也可包括获自多个患者的新鲜或冷冻的组织样品。

样品也可包括使用T细胞分析鉴定的肽。

训练数据集可另外包括与以下相关的数据:样品中存在的训练肽集合的肽丰度;样品中的训练肽集合的肽长度。

训练数据集可藉由将训练肽序列集合与包含已知蛋白质序列集合的数据库经由比对进行比较来产生,其中训练蛋白质序列集合比训练肽序列更长且包括训练肽序列。

训练数据集可基于对细胞系执行或已执行核苷酸测序以获得该细胞系的外显子组、转录组或全基因组测序数据中的至少一者来产生,该测序数据报括至少一个包括改变的核苷酸序列。

训练数据集可基于自正常组织样品获得外显子组、转录组及全基因组正常核苷酸测序数据中的至少一者来产生。

训练数据集可另外包括与样品相关的蛋白质组序列相关的数据。

训练数据集可另外包括与样品相关的MHC肽组序列相关的数据。

训练数据集可另外包括与至少一种经分离的肽的肽-MHC结合亲和力测量相关的数据。

训练数据集可另外包括与至少一种经分离的肽的肽-MHC结合稳定性测量相关的数据。

训练数据集可另外包括与样品相关的转录组相关的数据。

训练数据集可另外包括与样品相关的基因组相关的数据。

训练肽序列的长度可在k聚体的范围内,其中k对于MHC I类而言在8-15之间(包括端点)或对于MHC II类而言在9-30之间(包括端点)。

本文所公开的方法也可包括使用独热编码方案编码肽序列。

本文所公开的方法也可包括使用左填充独热编码方案编码训练肽序列。

治疗具有肿瘤的个体的方法包括执行技术方案1的步骤,且另外包含获得包含经选择的新抗原集合的肿瘤疫苗,且向该个体施用该肿瘤疫苗。

本文还公开一种用于制造肿瘤疫苗的方法,其包含以下步骤:自个体的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一者,其中该肿瘤核苷酸测序数据用于获得代表新抗原集合中的每一者的肽序列的数据,且其中各新抗原的肽序列包含至少一个使其不同于相应野生型肽序列的改变;将各新抗原的肽序列输入至一个或多个呈递模型中,以产生新抗原中的每一者在个体肿瘤细胞的肿瘤细胞表面上由一个或多个MHC等位基因呈递的数值可能性集合,该数值可能性集合已至少基于所接收的质谱数据进行鉴定;及基于该数值可能性集合选择该新抗原集合的子集,以产生经选择的新抗原集合;及产生或已产生包含该经选择的新抗原集合的肿瘤疫苗。

本文还公开一种包括经选择的新抗原集合的肿瘤疫苗,该经选择的新抗原集合藉由执行包含以下步骤的方法来选择:自个体的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一者,其中该肿瘤核苷酸测序数据用于获得代表新抗原集合中的每一者的肽序列的数据,且其中各新抗原的肽序列包含至少一个使其不同于相应野生型肽序列的改变;将各新抗原的肽序列输入至一个或多个呈递模型中,以产生新抗原中的每一者在个体肿瘤细胞的肿瘤细胞表面上由一个或多个MHC等位基因呈递的数值可能性集合,该数值可能性集合已至少基于所接收的质谱数据进行鉴定;及基于该数值可能性集合选择该新抗原集合的子集,以产生经选择的新抗原集合;及产生或已产生包含该经选择的新抗原集合的肿瘤疫苗。

肿瘤疫苗可包括核苷酸序列、多肽序列、RNA、DNA、细胞、质粒或载体中的一个或多个。

肿瘤疫苗可包括在肿瘤细胞表面上呈递的一个或多个新抗原。

肿瘤疫苗可包括在个体中具有免疫原性的一个或多个新抗原。

肿瘤疫苗可不包含在个体中诱导针对正常组织的自体免疫响应的一个或多个新抗原。

肿瘤疫苗可包括佐剂。

肿瘤疫苗可包括赋形剂。

本文所公开的方法也可包括基于呈递模型选择相对于未经选择的新抗原在肿瘤细胞表面上呈递的可能性增加的新抗原。

本文所公开的方法也可包括基于呈递模型选择相对于未经选择的新抗原能够在个体中诱导肿瘤特异性免疫响应的可能性增加的新抗原。

本文所公开的方法也可包括基于呈递模型选择相对于未经选择的新抗原能够由专职抗原呈递细胞(APC)呈递于初始T细胞的可能性增加的新抗原,任选地其中该APC为树突状细胞(DC)。

本文所公开的方法也可包括基于呈递模型选择相对于未经选择的新抗原经由中心或外周耐受性受抑制的可能性降低的新抗原。

本文所公开的方法也可包括基于呈递模型选择相对于未经选择的新抗原能够在个体中诱导针对正常组织的自体免疫响应的可能性降低的新抗原。

外显子组或转录组核苷酸测序数据可藉由对肿瘤组织进行测序而获得。

测序可为下一代测序(NGS)或任何大规模平行测序方法。

数值可能性集合可藉由至少MHC-等位基因相互作用特征来进一步鉴定,所述特征包含以下中的至少一者:经预测的MHC等位基因与新抗原编码肽结合的亲和力;经预测的新抗原编码肽-MHC复合物的稳定性;新抗原编码肽的序列及长度;如藉由质谱蛋白质组学或其他手段所评定,在来自表达特定MHC等位基因的其他个体的细胞中呈递具有类似序列的新抗原编码肽的机率;所讨论的个体中特定MHC等位基因的表达量(例如,如藉由RNA-seq或质谱法所测量);在表达特定MHC等位基因的其他不同个体中由特定MHC等位基因呈递的总体新抗原编码肽序列独立性机率;在其他不同个体中由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递的总体新抗原编码肽序列独立性机率。

数值可能性集合藉由至少MHC-等位基因非相互作用特征来进一步鉴定,所述特征包含以下中的至少一者:在其源蛋白序列内侧接新抗原编码肽的C端及N端序列;新抗原编码肽中蛋白酶裂解基序的存在,任选地根据相应蛋白酶在肿瘤细胞中的表达加权(如藉由RNA-seq或质谱法所测量);如在适当细胞类型中所测量,源蛋白的周转率;源蛋白的长度,任选地考虑在肿瘤细胞中最高度表达的特异性剪接变体(「同功异型物」),如藉由RNA-seq或蛋白质组质谱法所测量,或如DNA或RNA序列数据中所检测的生殖系或体细胞剪接突变的批注所预测;蛋白酶体、免疫蛋白酶体、胸腺蛋白酶体或其他蛋白酶在肿瘤细胞中的表达量(其可藉由RNA-seq、蛋白质组质谱法或免疫组织化学测量);新抗原编码肽的源基因的表达(例如,如藉由RNA-seq或质谱法所测量);新抗原编码肽的源基因在细胞周期的各种阶段期间的典型组织特异性表达;源蛋白和/或其域的综合特征目录,如例如uniProt或PDBhttp://www.rcsb.org/pdb/home/home.do中可见;描述含有该肽的源蛋白的域特性的特征,例如:二级或三级结构(例如α螺旋对β折迭);替代性剪接;在其他不同个体中由所讨论的新抗原编码肽的源蛋白呈递肽的机率;由于技术偏差,肽将不会由质谱法检测到或过量表示的机率;藉由RNASeq(其无需含有肽的源蛋白)所测量的提供关于肿瘤细胞、基质或肿瘤浸润淋巴细胞(TIL)状态的信息的各种基因模块/通路的表达;新抗原编码肽的源基因在肿瘤细胞中的复本数;肽结合于TAP的机率或经测量或经预测的肽对TAP的结合亲和力;TAP在肿瘤细胞中的表达量(其可藉由RNA-seq、蛋白质组质谱法、免疫组织化学测量);存在或不存在肿瘤突变,包括(但不限于):已知癌症驱动基因(诸如EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3)及编码抗原呈递机制中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体组分的基因中的任一者)中的驱动突变。呈递依赖于肿瘤中经受功能丧失性突变的抗原呈递机制的组分的肽具有降低的呈递机率;存在或不存在功能性生殖系多形现象,包括(但不限于):在编码抗原呈递机制中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体组分的基因中的任一者)中;肿瘤类型(例如NSCLC、黑素瘤);临床肿瘤亚型(例如鳞状肺癌对非鳞状);吸烟史;该肽的源基因在相关肿瘤类型或临床亚型中的典型表达,任选地藉由驱动突变分层。

至少一个改变可为移码或非移码***缺失、误义或无义取代、剪接位点改变、基因组重排或基因融合、或产生neoORF的任何基因组或表达改变。

肿瘤细胞可选自:肺癌、黑素瘤、乳癌、卵巢癌、***癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病、T细胞淋巴细胞性白血病、非小细胞肺癌及小细胞肺癌。

本文所公开的方法也可包括获得包含经选择的新抗原集合或其子集的肿瘤疫苗,任选地另外包含向个体施用该肿瘤疫苗。

当呈多肽形式时,经选择的新抗原集合中的至少一种新抗原可包括以下中的至少一者:在小于1000nM的IC50值下与MHC的结合亲和力,对于长度为8-15、8、9、10、11、12、13、14或15个氨基酸的MHC 1类多肽,在亲本蛋白质序列中在该多肽内部或附近存在促进蛋白酶体裂解的序列基序,及存在促进TAP转运的序列基序。

本文还公开一种产生用于鉴定可能在肿瘤细胞的肿瘤细胞表面上呈递的一个或多个新抗原的模型的方法,其包含以下步骤:接收包含与自源于多个样品的主要组织相容性复合体(MHC)洗脱的多个经分离的肽相关的数据的质谱数据;藉由至少鉴定样品中存在的训练肽序列集合及与各训练肽序列相关的一个或多个MHC获得训练数据集;使用包含训练肽序列的训练数据集来训练呈递模型的数值参数集合,呈递模型提供来自肿瘤细胞的肽序列在肿瘤细胞表面上由一个或多个MHC等位基因呈递的多个数值可能性。

呈递模型可表示以下两者之间的依赖性:在肽序列的特定位置处存在特定氨基酸;及由肿瘤细胞上的MHC等位基因中的一者呈递在该特定位置处含有该特定氨基酸的肽序列的可能性。

样品也可包括经工程改造以表达单个MHC I类或II类等位基因的细胞系。

样品也可包括经工程改造以表达多个MHC I类或II类等位基因的细胞系。

样品也可包括获自或源于多个患者的人类细胞系。

样品也可包括获自多个患者的新鲜或冷冻的肿瘤样品。

样品也可包括使用T细胞分析鉴定的肽。

训练数据集可另外包括与以下相关的数据:样品中存在的训练肽集合的肽丰度;样品中的训练肽集合的肽长度。

本文所公开的方法也可包括藉由将训练肽序列集合与包含已知蛋白质序列集合的数据库经由比对进行比较来获得基于训练肽序列的训练蛋白质序列集合,其中训练蛋白质序列集合比训练肽序列更长且包括训练肽序列。

本文所公开的方法也可包括对细胞系执行或已执行质谱法以获得该细胞系的外显子组、转录组或全基因组核苷酸测序数据中的至少一者,该核苷酸测序数据报括至少一个包括突变的蛋白质序列。

本文所公开的方法也可包括:使用独热编码方案编码训练肽序列。

本文所公开的方法也可包括自正常组织样品获得外显子组、转录组及全基因组正常核苷酸测序数据中的至少一者;及使用正常核苷酸测序数据训练呈递模型的参数集合。

训练数据集可另外包括与样品相关的蛋白质组序列相关的数据。

训练数据集可另外包括与样品相关的MHC肽组序列相关的数据。

训练数据集可另外包括与至少一种经分离的肽的肽-MHC结合亲和力测量相关的数据。

训练数据集可另外包括与至少一种经分离的肽的肽-MHC结合稳定性测量相关的数据。

训练数据集可另外包括与样品相关的转录组相关的数据。

训练数据集可另外包括与样品相关的基因组相关的数据。

本文所公开的方法也可包括使参数集合逻辑回归。

训练肽序列的长度可在k聚体的范围内,其中k对于MHC I类而言在8-15之间(包括端点)或对于MHC II类而言在9-30之间(包括端点)。

本文所公开的方法也可包括使用左填充独热编码方案编码训练肽序列。

本文所公开的方法也可包括使用深度学习算法确定参数集合的值。

本文公开用于鉴定可能在肿瘤细胞的肿瘤细胞表面上呈递的一个或多个新抗原的方法,其包含执行以下步骤:接收包含与自源于多个新鲜或冷冻肿瘤样品的主要组织相容性复合体(MHC)洗脱的多个经分离的肽相关的数据的质谱数据;藉由至少鉴定肿瘤样品中存在且呈递在与各训练肽序列相关的一个或多个MHC等位基因上的训练肽序列集合来获得训练数据集;基于训练肽序列获得训练蛋白质序列集合;及使用训练蛋白质序列及训练肽序列训练呈递模型的数值参数集合,呈递模型提供来自肿瘤细胞的肽序列在肿瘤细胞表面上由一个或多个MHC等位基因呈递的多个数值可能性。

呈递模型可表示以下两者之间的依赖性:MHC等位基因的对中的特定一种与在肽序列的特定位置处的特定氨基酸的存在;及在肿瘤细胞表面上由所述MHC等位基因中的对的所述特定一种呈递这样的包含在所述特定位置处的所述特定氨基酸的肽序列的可能性。

本文所公开的方法也可包括选择新抗原的子集,其中新抗原的子集系因为相对于一个或多个不同肿瘤新抗原各自在肿瘤细胞表面上呈递的可能性增加而被选择。

本文所公开的方法也可包括选择新抗原的子集,其中新抗原的子集系因为相对于一个或多个不同肿瘤新抗原各自能够在个体中诱导肿瘤特异性免疫响应的可能性增加而被选择。

本文所公开的方法也可包括选择新抗原的子集,其中新抗原的子集系因为相对于一个或多个不同肿瘤新抗原各自能够由专职抗原呈递细胞(APC)呈递于初始T细胞的可能性增加而被选择,任选地其中该APC为树突状细胞(DC)。

本文所公开的方法也可包括选择新抗原的子集,其中新抗原的子集系因为相对于一个或多个不同肿瘤新抗原各自经由中心或外周耐受性受抑制的可能性降低而被选择。

本文所公开的方法也可包括选择新抗原的子集,其中新抗原的子集系因为相对于一个或多个不同肿瘤新抗原各自能够在个体中诱导针对正常组织的自体免疫响应的可能性降低而被选择。

本文所公开的方法也可包括选择新抗原的子集,其中新抗原的子集系因为相对于APC各自将在肿瘤细胞中经差异性翻译后修饰的可能性降低而被选择,任选地其中该APC为树突状细胞(DC)。

除非另外指明,否则本文方法的实践将采用此项技术的技能范围内的蛋白质化学、生物化学、重组DNA技术及药理学的习知方法。此类技术在文献中充分解释。参见例如T.E.Creighton,Proteins:Structures and Molecular Properties(W.H.Freeman andCompany,1993);A.L.Lehninger,Biochemistry(Worth Publishers,Inc.,现行版);Sambrook等人,Molecular Cloning:A Laboratory Manual(第2版,1989);Methods InEnzymology(S.Colowick及N.Kaplan编,Academic Press,Inc.);Remington'sPharmaceutical Sciences,第18版(Easton,Pennsylvania:Mack Publishing Company,1990);Carey及Sundberg Advanced Organic Chemistry第3版.(Plenum Press)A卷及B卷(1992)。

III.鉴定新抗原中的肿瘤特异性突变

本文还公开用于鉴定某些突变(例如癌细胞中存在的变体或等位基因)的方法。具体而言,此等突变可存在于患有癌症的个体的癌细胞的基因组、转录组、蛋白质组或外显子组中,而非个体的正常组织中。

若肿瘤中的基因突变引起肿瘤中特有的蛋白质的氨基酸序列变化,则认为其可用于免疫靶向肿瘤。有用的突变包括:(1)非同义突变,导致蛋白质中的氨基酸不同;(2)通读突变,其中终止密码子经修饰或缺失,导致翻译在C端具有新颖肿瘤特异性序列的较长蛋白质;(3)剪接位点突变,导致在成熟mRNA中包含内含子且因此导致特有的肿瘤特异性蛋白质序列;(4)染色体重排,在2种蛋白质的接合处产生具有肿瘤特异性序列的嵌合蛋白质(亦即基因融合);(5)框移突变或缺失,导致具有新颖肿瘤特异性蛋白质序列的新的开放阅读框架。突变也可包括非移码***缺失、误义或无义取代、剪接位点改变、基因组重排或基因融合、或产生neoORF的任何基因组或表达改变中的一个或多个。

由例如肿瘤细胞中的剪接位点、移码、通读或基因融合突变产生的具有突变的肽或突变多肽可藉由对肿瘤与正常细胞中的DNA、RNA或蛋白质进行测序来鉴定。

突变也可包括先前鉴定的肿瘤特异性突变。已知肿瘤突变可见于癌症体细胞突变目录(COSMIC)数据库。

多种方法可用于检测个体的DNA或RNA中特定突变或等位基因的存在。本领域中的进步已提供精确、容易且便宜的大规模SNP基因分型。举例而言,已描述数种技术,包括动态等位基因特异性杂交(DASH)、微量盘数组对角线凝胶电泳(MADGE)、焦磷酸测序、寡核苷酸特异性连接、TaqMan系统以及各种DNA「芯片」技术,诸如Affymetrix SNP芯片。此等方法利用通常藉由PCR扩增靶基因区。仍有其他方法,基于藉由侵入性裂解产生小信号分子,随后进行质谱法或固定化挂锁探针及滚环扩增。下文汇总此项技术中已知用于检测特异性突变的数种方法。

基于PCR的检测手段可包括同时多重扩增多个标记。举例而言,选择PCR引物以产生大小不重迭且可同时分析的PCR产物为此项技术中所熟知的。或者,可用经差异性标记且因此可各自经差异性检测的引物扩增不同的标记。当然,基于杂交的检测手段允许样品中多个PCR产物的差异检测。此项技术中已知其他技术以允许多个标记的多重分析。

已开发数种方法以便于基因组DNA或细胞RNA中单核苷酸多形现象的分析。举例而言,单碱基多形现象可藉由使用特殊化核酸外切酶抗性核苷酸来检测,如例如Mundy,C.R.(美国专利第4,656,127号)中所公开。根据该方法,允许与紧靠着多形位点3'的等位基因序列互补的引物与获自特定动物或人类的靶分子杂交。若靶分子上的多形位点含有与所存在的特定核酸外切酶抗性核苷酸衍生物互补的核苷酸,则该衍生物将并入于杂交引物的末端上。此类并入使得引物对核酸外切酶具有抗性,从而允许其检测。由于样品的核酸外切酶抗性衍生物的身分为已知的,故引物已对核酸外切酶具有抗性的发现揭露靶分子的多形位点中存在的核苷酸与反应中所用的核苷酸衍生物互补。此方法的优势在于其不需要确定大量无关序列数据。

可使用基于溶液的方法确定多形位点的核苷酸的身分。Cohen,D.等人(法国专利2,650,840;PCT申请案第WO91/02087号)。如在美国专利第4,656,127号的芒迪方法(Mundymethod)中,采用与紧靠着多形位点3'的等位基因序列互补的引物。该方法使用经标记的双脱氧核苷酸衍生物确定该位点的核苷酸的身分,若该核苷酸与多形位点的核苷酸互补,则将并入于引物的末端上。

称为遗传位分析或GBA的替代方法由Goelet,P.等人(PCT申请案第92/15712号)描述。Goelet,P.等人的方法使用经标记的终止子及与多形位点3'序列互补的引物的混合物。所并入的经标记的终止子因此藉由所评估的靶分子的多形位点中存在的核苷酸确定且与其互补。与Cohen等人(法国专利2,650,840;PCT申请案第WO91/02087号)的方法相比,Goelet,P.等人的方法可为非均相分析,其中引物或靶分子固定于固相。

已描述数种用于分析DNA中多形位点的引物引导的核苷酸并入程序(Komher,J.S.等人,Nucl.Acids.Res.17:7779-7784(1989);Sokolov,B.P.,Nucl.Acids Res.18:3671(1990);Syvanen,A.-C.等人,Genomics 8:684-692(1990);Kuppuswamy,M.N.等人,Proc.Natl.Acad.Sci.(U.S.A.)88:1143-1147(1991);Prezant,T.R.等人,Hum.Mutat.1:159-164(1992);Ugozzoli,L.等人,GATA 9:107-112(1992);Nyren,P.等人,Anal.Biochem.208:171-175(1993))。此等方法与GBA的不同的处在于其利用并入经标记的脱氧核苷酸来区分多形位点处的碱基。在此类格式中,由于信号与并入的脱氧核苷酸的数量成比例,故在同一核苷酸的操作中发生的多形现象可产生与操作的长度成比例的信号(Syvanen,A.-C.等人,Amer.J.Hum.Genet.52:46-59(1993))。

许多方案直接自数百万个单独的DNA或RNA分子中并行获取序列信息。实时单分子合成测序技术依赖于荧光核苷酸的检测,因为其并入至与正测序的模板互补的DNA的新生股中。在一种方法中,将长度为30-50个碱基的寡核苷酸在5'端共价锚定于玻璃盖玻片上。此等锚定股执行两种功能。首先,若模板经结构设计成具有与表面结合的寡核苷酸互补的捕捉尾部,则其充当靶模板股的捕捉位点。其亦充当模板引导的引物延伸的引物,形成序列阅读的基础。捕捉引物充当固定位点以便使用多个合成、检测及化学裂解染料接头来移除染料的循环进行序列测定。各循环由添加聚合酶/经标记的核苷酸混合物、冲洗、成像及染料的裂解组成。在一替代方法中,聚合酶经荧光供体分子修饰且固定在载玻片上,而各核苷酸用连接至γ-磷酸的受体荧光部分进行颜色编码。系统检测经荧光标记的聚合酶与经荧光修饰的核苷酸之间的相互作用,因为核苷酸并入至从头链中。亦存在其他合成测序技术。

可使用任何适合的合成测序平台鉴定突变。如上所述,目前可用四种主要合成测序平台:来自Roche/454Life Sciences的基因组测序仪、来自Illumina/Solexa的1G分析仪、来自Applied BioSystems的SOLiD系统及来自Helicos Biosciences的Heliscope系统。合成测序平台亦已由Pacific BioSciences及VisiGen Biotechnologies描述。在一些实施例中,将要测序的多个核酸分子结合于支撑物(例如固体支撑物)。为将核酸固定于支撑物上,可在模板的3'和/或5'端添加捕捉序列/通用引发位点。核酸可藉由将捕捉序列与共价连接于支撑物的互补序列杂交而结合于支撑物。捕捉序列(也称为通用捕捉序列)为与连接至支撑物的序列互补的核酸序列,其可双重充当通用引物。

作为捕捉序列的替代方案,偶合对(诸如抗体/抗原、受体/配体或如例如美国专利申请案第2006/0252077号中所述的抗生物素蛋白-生物素对)的一个成员可连接于各片段,而被捕捉在用该偶合对的相应第二成员涂布的表面上。

在捕捉后,可例如藉由单分子检测/测序来分析序列,例如,如实例及美国专利第7,283,337号中所述,包括模板依赖性合成测序。在合成测序中,表面结合的分子在聚合酶存在下暴露于多个经标记的核苷酸三磷酸。模板的序列藉由并入至生长链的3’端的经标记的核苷酸的顺序来确定。此可实时进行或可以分步重复模式进行。对于实时分析,可将不同的光学标记并入各核苷酸且可利用多个雷射刺激并入的核苷酸。

测序也可包括其他大规模平行测序或下一代测序(NGS)技术及平台。大规模平行测序技术及平台的额外实例为the Illumina HiSeq或MiSeq、Thermo PGM或Proton、thePac Bio RS II或Sequel、Qiagen的Gene Reader及the Oxford Nanopore MinION。可使用其他类似的当前大规模平行测序,以及此等技术的后代。

可利用任何细胞类型或组织来获得用于本文所述的方法的核酸样品。举例而言,DNA或RNA样品可获自肿瘤或体液,例如藉由已知技术(例如静脉穿刺)获得的血液或唾液。或者,可对干燥样品(例如头发或皮肤)执行核酸测试。另外,可自肿瘤获得样品用于测序且可自正常组织获得另一样品用于测序,其中正常组织具有与肿瘤相同的组织类型。可自肿瘤获得样品用于测序且可自正常组织获得另一样品用于测序,其中正常组织相对于肿瘤具有不同的组织类型。

肿瘤可包括肺癌、黑素瘤、乳癌、卵巢癌、***癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病、T细胞淋巴细胞性白血病、非小细胞肺癌及小细胞肺癌中的一个或多个。

或者,可使用蛋白质质谱法鉴定或验证与肿瘤细胞上的MHC蛋白质结合的突变肽的存在。肽可自肿瘤细胞或自肿瘤免疫沉淀的HLA分子酸洗脱,且随后使用质谱法鉴定。

IV.新抗原

新抗原可包括核苷酸或多肽。举例而言,新抗原可为编码多肽序列的RNA序列。可用于疫苗中的新抗原可因此包括核苷酸序列或多肽序列。

本文公开包含藉由本文所公开的方法鉴定的肿瘤特异性突变的经分离的肽、包含已知肿瘤特异性突变的肽及藉由本文所公开的方法鉴定的突变多肽或其片段。新抗原肽可描述于其编码序列的上下文中,其中新抗原包括编码相关多肽序列的核苷酸序列(例如DNA或RNA)。

由新抗原核苷酸序列编码的一个或多个多肽可包含以下中的至少一者:在小于1000nM的IC50值下与MHC的结合亲和力,对于长度为8-15、8、9、10、11、12、13、14或15个氨基酸的MHC 1类多肽,在肽内部或附近存在促进蛋白酶体裂解的序列基序,及存在促进TAP转运的序列基序。

一个或多个新抗原可呈递在肿瘤的表面上。

一个或多个新抗原在具有肿瘤的个体中可为免疫原性的,例如能够在个体中引发T细胞反应或B细胞反应。

在疫苗生产背景下,对于具有肿瘤的个体,可不考虑在个体中诱导自体免疫响应的一个或多个新抗原。

至少一个新抗原肽分子的大小可包含(但不限于)约5个、约6个、约7个、约8个、约9个、约10个、约11个、约12个、约13个、约14个、约15个、约16个、约17个、约18个、约19个、约20个、约21个、约22个、约23个、约24个、约25个、约26个、约27个、约28个、约29个、约30个、约31个、约32个、约33个、约34个、约35个、约36个、约37个、约38个、约39个、约40个、约41个、约42个、约43个、约44个、约45个、约46个、约47个、约48个、约49个、约50个、约60个、约70个、约80个、约90个、约100个、约110个、约120个或更多个胺基分子残基,及其中可导出的任何范围。在具体实施例中,新抗原肽分子等于或小于50个氨基酸。

新抗原肽及多肽可为:对于MHC I类,15个残基或更小的长度且通常由约8至约11个残基、尤其9或10个残基组成;对于MHC II类,15-24个残基。

若需要,可以数种方式设计较长的肽。在一种情况下,当HLA等位基因上肽的呈递可能性经预测或已知时,较长的肽可由以下任一者组成:(1)个别呈递的具有朝向各相应基因产物的N端及C端延伸2-5个氨基酸的肽;(2)所呈递的肽中的一些或全部与各自的延伸序列的串接。在另一种情况下,当测序揭露肿瘤中所存在的长(>10个残基)新表位序列(例如归因于产生新颖肽序列的移码、通读或内含子包含)时,较长的肽将由以下组成:(3)新颖肿瘤特异性氨基酸的整个延伸段,因此绕过对基于计算或活体外测试选择最强HLA呈递的较短肽的需要。在两种情况下,使用较长的肽允许患者细胞进行内源性加工,且可引起更有效的抗原呈递及诱导T细胞反应。

新抗原肽及多肽可呈递于HLA蛋白质上。在一些方面,新抗原肽及多肽以比野生型肽更大的亲和力呈递于HLA蛋白质上。在一些方面,新抗原肽或多肽的IC50可至少小于5000nM、至少小于1000nM、至少小于500nM、至少小于250nM、至少小于200nM、至少小于150nM、至少小于100nM、至少小于50nM或更小。

在一些方面,新抗原肽及多肽在施用个体时不诱导自体免疫响应和/或引起免疫耐受性。

亦提供包含至少两个或大于两个新抗原肽的组合物。在一些实施例中,组合物含有至少两个不同的肽。至少两个不同的肽可源于相同的多肽。不同的多肽意指肽根据长度、氨基酸序列或两者而变化。所述肽源于已知或已发现含有肿瘤特异性突变的任何多肽。可例如在COSMIC数据库中发现可获得新抗原肽的适合的多肽。COSMIC策划关于人类癌症体细胞突变的综合信息。该肽含有肿瘤特异性突变。在一些方面,肿瘤特异性突变为特定癌症类型的驱动突变。

具有所需活性或特性的新抗原性肽及多肽可经修饰以提供某些所需属性,例如改良的药理学特征,同时增加或至少保留未修饰的肽的实质上所有生物活性以结合所需MHC分子且活化适当T细胞。举例而言,新抗原肽及多肽可进行各种变化,诸如保守或非保守取代,其中此类变化可在其使用中提供某些优势,诸如改良的MHC结合、稳定性或呈递。保守取代意指氨基酸残基用生物学和/或化学上类似的另一个氨基酸残基置换,例如一个疏水性残基置换另一个,或一个极性残基置换另一个。取代包括以下组合,诸如Gly、Ala;Val、Ile、Leu、Met;Asp、Glu;Asn、Gln;Ser、Thr;Lys、Arg;及Phe、Tyr。单氨基酸取代的效应也可使用D-氨基酸探测。此类修饰可使用熟知的肽合成程序进行,如Merrifield,Science 232:341-347(1986),Barany及Merrifield,The Peptides,Gross及Meienhofer,编(N.Y.,AcademicPress),第1-284页(1979);及Stewart及Young,Solid Phase Peptide Synthesis,(Rockford,Ill.,Pierce),第2版(1984)中所述。

肽及多肽用各种氨基酸模拟物或非天然氨基酸修饰可在提高肽及多肽的活体内稳定性方面特别有用。稳定性可以多种方式加以分析。举例而言,肽酶及各种生物介质(诸如人类血浆及血清)已用于测试稳定性。参见例如Verhoef等人,Eur.J.Drug MetabPharmacokin.11:291-302(1986)。肽的半衰期可使用25%人类血清(v/v)分析方便地确定。方案一般如下。汇集的人类血清(AB型,非加热不活化)在使用之前藉由离心去脂。血清随后用RPMI组织培养基稀释至25%且用于测试肽稳定性。在预定时间间隔下,移出少量反应溶液且添加至6%三氯乙酸或乙醇水溶液中。将混浊的反应样品冷却(4℃)15分钟,且随后旋转集结沉淀的血清蛋白质。随后使用稳定性特异性层析条件藉由逆相HPLC确定肽的存在。

肽及多肽可经修饰以提供除改良的血清半衰期以外的所需属性。举例而言,肽诱导CTL活性的能力可藉由与含有至少一个能够诱导T辅助细胞反应的表位的序列连接来增强。免疫原性肽/T辅助细胞结合物可藉由间隔分子连接。间隔子通常由相对较小的中性分子(诸如氨基酸或氨基酸模拟物)构成,其在生理条件下实质上不带电。间隔子通常选自例如Ala、Gly或非极性氨基酸或中性极性氨基酸的其他中性间隔子。应理解,任选地存在之间隔子无需由相同残基组成,且因此可为杂寡聚物或均寡聚物。当存在时,间隔子将通常为至少一个或两个残基,更通常三至六个残基。或者,肽可在无间隔子的情况下连接于T辅助肽。

新抗原肽可直接或经由在肽的胺基或羧基端处之间隔子连接于T辅助肽。新抗原肽或T辅助肽的胺基端可经酰化。例示性T辅助肽包括破伤风类毒素830-843、流感307-319、疟疾环子孢子382-398及378-389。

蛋白质或肽可藉由熟习此项技术者已知的任何技术制造,包括经由标准分子生物学技术表达蛋白质、多肽或肽;自天然来源分离蛋白质或肽;或化学合成蛋白质或肽。先前已公开对应于各种基因的核苷酸及蛋白质、多肽及肽序列,且可见于一般熟习此项技术者已知的计算机化数据库中。一个此类数据库为位于美国国家卫生研究院(NationalInstitutes of Health)网站的国家生物技术信息中心的Genbank及GenPept数据库。已知基因的编码区可使用本文所公开或一般熟习此项技术者应知晓的技术扩增和/或表达。或者,蛋白质、多肽及肽的各种市售制剂已为熟习此项技术者所知。

在另一方面,新抗原包括编码新抗原肽或其部分的核酸(例如聚核苷酸)。聚核苷酸可为例如DNA、cDNA、PNA、CNA、RNA(例如mRNA)、单股和/或双股、或天然或稳定形式的聚核苷酸,诸如具有硫代磷酸主链的聚核苷酸,或其组合,且其可含有或可不含内含子。另一方面提供一种能够表达多肽或其部分的表达载体。不同细胞类型的表达载体在此项技术中已熟知且无需过度实验便可选择。一般而言,DNA以适当定向***至表达载体(诸如质粒)中且以正确阅读框架进行表达。若需要,DNA可连接于由所需宿主识别的适当转录及翻译调节控制核苷酸序列,而此类控制件一般可用于表达载体中。载体随后经由标准技术引入至宿主中。指导可见于例如Sambrook等人(1989)Molecular Cloning,A Laboratory Manual,ColdSpring Harbor Laboratory,Cold Spring Harbor,N.Y.中。

V.疫苗组合物

本文还公开一种能够引起特异性免疫响应(例如肿瘤特异性免疫响应)的免疫原性组合物,例如疫苗组合物。疫苗组合物通常包含例如使用本文所述的方法选择的多个新抗原。疫苗组合物也可称为疫苗。

疫苗可含有1至30个肽;2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29或30个不同的肽;6、7、8、9、10、11、12、13或14个不同的肽;或12、13或14个不同的肽。肽可包括翻译后修饰。疫苗可含有1至100或更多个核苷酸序列;2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100或更多个不同的核苷酸序列;6、7、8、9、10、11、12、13或14个不同的核苷酸序列;或12、13或14个不同的核苷酸序列。疫苗可含有1至30个新抗原序列;2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、71、72、73、74、75、76、77、78、79、80、81、82、83、84、85、86、87、88、89、90、91、92、93、94、95、96、97、98、99、100或更多个不同的新抗原序列;6、7、8、9、10、11、12、13或14个不同的新抗原序列;或12、13或14个不同的新抗原序列。

在一个实施例中,选择不同的肽和/或多肽或其编码核苷酸序列,以使得肽和/或多肽能够与不同的MHC分子(诸如不同的MHC I类分子)缔合。在一些方面,一种疫苗组合物包含能够与最常出现的MHC I类分子缔合的肽和/或多肽的编码序列。因此,疫苗组合物可包含能够与至少2个较佳的、至少3个较佳的、或至少4个较佳的MHC I类分子缔合的不同片段。

疫苗组合物能够引起特异性细胞毒性T细胞反应和/或特异性辅助T细胞反应。

疫苗组合物可另外包含佐剂和/或载体。有用的佐剂及载体的实例在下文中给出。组合物可与载体缔合,诸如蛋白质或抗原呈递细胞,诸如能够将肽呈递于T细胞的树突状细胞(DC)。

佐剂为混合至疫苗组合物中增加或以其他方式修饰对新抗原的免疫响应的任何物质。载体可为骨架结构,例如能够与新抗原缔合的多肽或多糖。任选地,佐剂为共价或非共价结合的。

佐剂提高对抗原的免疫响应的能力通常显现为免疫介导性反应的显著或实质性增加或疾病症状的减少。举例而言,体液免疫的提高通常显现为针对抗原所产生的抗体的效价显著增加,且T细胞活性的增加通常显现为细胞增殖、或细胞毒性、或细胞因子分泌增加。佐剂也可改变免疫响应,例如藉由将主要体液或Th反应变为主要细胞或Th反应。

适合的佐剂包括(但不限于)1018ISS、矾、铝盐、Amplivax、AS15、BCG、CP-870,893、CpG7909、CyaA、dSLIM、GM-CSF、IC30、IC31、咪喹莫特(Imiquimod)、ImuFact IMP321、ISPatch、ISS、ISCOMATRIX、JuvImmune、LipoVac、MF59、单磷酰基脂质A、Montanide IMS 1312、Montanide ISA 206、Montanide ISA 50V、Montanide ISA-51、OK-432、OM-174、OM-197-MP-EC、ONTAK、PepTel载体系统、PLG微粒、雷西莫特(resiquimod)、SRL172、病毒颗粒及其他病毒样颗粒、YF-17D、VEGF捕获剂、R848、β-葡聚糖、Pam3Cys、Aquila的源于皂素的QS21刺激子(Aquila Biotech,Worcester,Mass.,USA)、分支杆菌提取物及合成细菌细胞壁模拟物,及其他专用佐剂,诸如Ribi的Detox.Quil或Superfos。诸如弗氏不完全或GM-CSF的佐剂为有用的。先前已描述特异性针对树突状细胞的数种免疫佐剂(例如MF59)及其制备(Dupuis M,等人,Cell Immunol.1998;186(1):18-27;Allison A C;Dev Biol Stand.1998;92:3-11)。也可使用细胞因子。数种细胞因子已直接关联于:影响树突状细胞迁移至淋巴组织(例如TNF-α)、加速树突状细胞成熟变为T-淋巴球的有效抗原呈递细胞(例如GM-CSF、IL-1及IL-4)(美国专利第5,849,589号,其以全文引用的方式特别并入本文中)及充当免疫佐剂(例如IL-12)(Gabrilovich D I,等人,J Immunother Emphasis Tumor Immunol.1996(6):414-418)。

亦已报导CpG免疫刺激性寡核苷酸增强佐剂在疫苗环境中的效应。也可使用其他TLR结合分子,诸如结合RNA的TLR 7、TLR 8和/或TLR 9。

有用佐剂的其他实例包括(但不限于)经化学修饰的CpG(例如CpR、Idera)、聚(I:C)(例如聚i:CI2U)、非CpG细菌DNA或RNA以及免疫活性小分子及抗体,诸如环磷酰胺、舒尼替尼(sunitinib)、贝伐单抗(bevacizumab)、西乐葆(celebrex)、NCX-4016、西地那非(sildenafil)、他达拉非(tadalafil)、伐地那非(vardenafil)、索拉菲尼(sorafinib)、XL-999、CP-547632、帕佐泮尼(pazopanib)、ZD2171、AZD2171、伊匹单抗(ipilimumab)、曲美单抗(tremelimumab)及SC58175,其可起治疗作用和/或充当佐剂。佐剂及添加剂的量及浓度可容易由熟习此项技术者确定而无需过度实验。额外佐剂包括群落刺激因子,诸如颗粒球巨噬细胞群落刺激因子(GM-CSF,沙格司亭(sargramostim))。

疫苗组合物可包含多于一种不同的佐剂。此外,治疗性组合物可包含任何佐剂物质,包括以上各者中的任一者或其组合。亦预期,疫苗及佐剂可一起或以任何适当的顺序分开施用。

载体(或赋形剂)可独立于佐剂存在。载体的功能可例如为增加特定突变体的分子量以提高活性或免疫原性、赋予稳定性、增加生物活性或增加血清半衰期。此外,载体可辅助呈递肽至T细胞。载体可为熟习此项技术者已知的任何适合的载体,例如蛋白质或抗原呈递细胞。载体蛋白质可为(但不限于)匙孔螺血氰蛋白、血清蛋白质(诸如转铁蛋白)、牛血清白蛋白、人类血清白蛋白、甲状腺球蛋白或卵白蛋白、免疫球蛋白或激素,诸如胰岛素或棕榈酸。为用于人类免疫接种,载体一般为生理学上可接受的载体,其为人类可接受的且为安全的。然而,破伤风类毒素和/或白喉类毒素为适合的载体。或者,载体可为葡聚糖,例如琼脂糖。

细胞毒性T细胞(CTL)识别与MHC分子结合的肽形式的抗原,而非完整外来抗原本身。MHC分子本身位于抗原呈递细胞的细胞表面上。因此,若存在肽抗原、MHC分子及APC的三聚体复合物,则可能活化CTL。相应地,若不仅肽用于活化CTL,而且若另外添加具有相应MHC分子的APC,则可增强免疫响应。因此,在一些实施例中,疫苗组合物另外含有至少一种抗原呈递细胞。

新抗原也可包括于基于病毒载体的疫苗平台中,诸如牛痘、禽痘、自我复制α病毒、马拉巴病毒(marabavirus)、腺病毒(参见例如Tatsis等人,Adenoviruses,MolecularTherapy(2004)10,616-629)或慢病毒,包括(但不限于)第二、第三或杂交第二/第三代慢病毒及任一代的重组慢病毒,其经设计以靶向特定细胞类型或受体(参见例如Hu等人,Immunization Delivered by Lentiviral Vectors for Cancer and InfectiousDiseases,Immunol Rev.(2011)239(1):45-61,Sakuma等人,Lentiviral vectors:basicto translational,Biochem J.(2012)443(3):603-18,Cooper等人,Rescue of splicing-mediated intron loss maximizes expression in lentiviral vectors containingthe human ubiquitin C promoter,Nucl.Acids Res.(2015)43(1):682-690,Zufferey等人,Self-Inactivating Lentivirus Vector for Safe and Efficient In Vivo GeneDelivery,J.Virol.(1998)72(12):9873-9880)。视上述基于病毒载体的疫苗平台的包装能力而定,此方法可递送编码一个或多个新抗原肽的一个或多个核苷酸序列。序列可侧接非突变序列,可由接头分开或可在前面有一个或多个靶向亚细胞区室的序列(参见例如Gros等人,Prospective identification of neoantigen-specific lymphocytes in theperipheral blood of melanoma patients,Nat Med.(2016)22(4):433-8,Stronen等人,Targeting of cancer neoantigens with donor-derived T cell receptorrepertoires,Science.(2016)352(6291):1337-41,Lu等人,Efficient identificationof mutated cancer antigens recognized by T cells associated with durabletumor regressions,Clin Cancer Res.(2014)20(13):3401-10)。在引入宿主后,经感染细胞表达新抗原,从而引发针对肽的宿主免疫(例如CTL)反应。用于免疫方案中的牛痘载体及方法描述于例如美国专利第4,722,848号中。另一种载体为卡介苗(Bacille CalmetteGuerin,BCG)。BCG载体描述于Stover等人(Nature 351:456-460(1991))中。根据本文描述,用于新抗原的治疗性施用或免疫接种的各种其他疫苗载体,例如伤寒沙门氏菌(Salmonella typhi)载体及其类似物对于熟习此项技术者将为显而易见的。

V.A.新抗原盒

鉴于本文所提供的教导内容,用于选择一个或多个新抗原、克隆及构建「盒」及其***至病毒载体中的方法在此项技术的技能内。「新抗原盒」意指经选择的新抗原或多个新抗原与转录新抗原且表达转录产物所必需的其他调控组件的组合。新抗原或多个新抗原可以允许转录的方式可操作地连接于调控组件。此类组件包括可驱动经病毒载体转染的细胞中表达新抗原的习知调控组件。因此,新抗原盒也可含有经选择的启动子,其连接于新抗原且与其他任选地的调控组件一起位于重组载体的经选择的病毒序列内。

有用的启动子可为组成型启动子或经调控(诱导型)启动子,其将能够控制有待表达的新抗原的量。举例而言,合乎需要的启动子为细胞巨大病毒即刻早期启动子/增强子的启动子[参见例如Boshart等人,Cell,41:521-530(1985)]。另一种合乎需要的启动子包括劳斯肉瘤(Rous sarcoma)病毒LTR启动子/增强子。另一种启动子/增强子序列为鸡细胞质β-肌动蛋白启动子[T.A.Kost等人,Nucl.Acids Res.,11(23):8287(1983)]。其他适合或合乎需要的启动子可由熟习此项技术者选择。

新抗原盒也可包括与病毒载体序列异源的核酸序列,包括提供转录物的有效聚腺苷酸化信号(poly-A或pA)的序列及具有功能性剪接供体及受***点的内含子。本发明的例示性载体的采用的普通poly-A序列源于乳多泡病毒SV-40。poly-A序列一般可在基于新抗原的序列之后及在病毒载体序列之前***于盒中。普通内含子序列也可源于SV-40,且称为SV-40T内含子序列。新抗原盒也可含有位于启动子/增强子序列与新抗原之间的此类内含子。此等及其他普通载体组件的选择为习知的[参见例如Sambrook等人,「MolecularCloning.A Laboratory Manual.」,第2版,Cold Spring Harbor Laboratory,New York(1989)及其中列举的参考文献]且许多此类序列可自商业及工业来源以及Genbank获得。

新抗原盒可具有一个或多个新抗原。举例而言,给定盒可包括1-10、1-20、1-30、10-20、15-25、15-20、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20或更多个新抗原。新抗原可彼此直接连接。新抗原也可用接头彼此连接。新抗原可相对于彼此呈任一定向,包括N至C或C至N。

如上所述,新抗原盒可位于病毒载体中任何经选择的缺失位点,诸如E1基因区缺失或E3基因区缺失的位点等可经选择的位点。

V.B.免疫检查点

本文所述的载体,诸如本文所述的C68载体或本文所述的α病毒载体,可包含编码至少一种新抗原的核酸,且同一或另一载体可包含编码至少一种免疫调节物(例如抗体,诸如scFv)的核酸,其结合于免疫检查点分子且阻断免疫检查点分子的活性。载体可包含新抗原盒及一个或多个编码检查点抑制剂的核酸分子。

可靶向用于阻断或抑制的说明性免疫检查点分子包括(但不限于)CTLA-4、4-1BB(CD137)、4-1BBL(CD137L)、PDL1、PDL2、PD1、B7-H3、B7-H4、BTLA、HVEM、TIM3、GAL9、LAG3、TIM3、B7H3、B7H4、VISTA、KIR、2B4(属于CD2家族的分子且在所有NK、γδ及记忆CD8+(αβ)T细胞上表达)、CD160(也称为BY55)及CGEN-15049。免疫检查点抑制剂包括抗体或其抗原结合片段、或其他结合蛋白,其结合且阻断或抑制以下中的一个或多个的活性:CTLA-4、PDL1、PDL2、PD1、B7-H3、B7-H4、BTLA、HVEM、TIM3、GAL9、LAG3、TIM3、B7H3、B7H4、VISTA、KIR、2B4、CD160及CGEN-15049。说明性免疫检查点抑制剂包括曲美单抗(CTLA-4阻断抗体)、抗OX40、PD-L1单克隆抗体(抗B7-H1;MEDI4736)、伊匹单抗、MK-3475(PD-1阻断剂)、纳武单抗(Nivolumamb)(抗PD1抗体)、CT-011(抗PD1抗体)、BY55单克隆抗体、AMP224(抗PDL1抗体)、BMS-936559(抗PDL1抗体)、MPLDL3280A(抗PDL1抗体)、MSB0010718C(抗PDL1抗体)及Yervoy/伊匹单抗(抗CTLA-4检查点抑制剂)。抗体编码序列可使用此项技术中的普通技能经工程改造至诸如C68的载体中。例示性方法描述于Fang等人,Stable antibodyexpression at therapeutic levels using the 2A peptide.Nat Biotechnol.2005年5月;23(5):584-90.电子版2005年4月17日中;其以引用的方式并入本文中用于所有目的。

V.C.疫苗设计及制造的额外考虑

V.C.1.确定覆盖所有肿瘤次纯系的肽集合

躯干肽,意指由所有或大部分肿瘤次纯系呈递的彼等肽,可优先包括于疫苗中。53任选地,若不存在经预测以高机率呈递且具有免疫原性的躯干肽,或若经预测以高机率呈递且具有免疫原性的躯干肽的数量足够小以致额外非躯干肽可包括于疫苗中,则其他肽可藉由估计肿瘤次纯系的数量及身分且选择肽以使疫苗所覆盖的肿瘤次纯系的数量达到最大而进行优先排序。54

V.C.2.新抗原优先排序

在应用所有上述新抗原过滤器后,与疫苗技术可支持的相比,更多候选新抗原仍可包含于疫苗中。另外,可保留关于新抗原分析的各个方面的不确定性,且候选疫苗新抗原的不同特性之间可存在折衷。因此,可考虑整合式多维模型代替选择过程的各步骤中的预定过滤器,将候选新抗原置于具有至少以下轴的空间中且使用整合方法优化选择。

1.自体免疫或耐受性的风险(生殖系的风险)(自体免疫的风险较低通常为较佳的)

2.测序伪影的机率(伪影的机率较低通常为较佳的)

3.免疫原性的机率(免疫原性的机率较高通常为较佳的)

4.呈递的机率(呈递的机率较高通常为较佳的)

5.基因表达(较高表达通常为较佳的)

6.HLA基因的覆盖率(参与新抗原集合呈递的HLA分子数量愈大可降低肿瘤经由HLA分子的下调或突变逃避免疫攻击的机率)

V.D.α病毒

V.D.1.α病毒生物学

α病毒为披膜病毒科的成员,且为正义单股RNA病毒。α病毒也可称为自我复制RNA或srRNA。成员通常分类为旧世界,诸如辛德毕斯、罗斯河、马雅罗、基孔肯尼亚及塞姆利基森林病毒,或新世界,诸如东部马脑炎、奥拉、摩根堡、或委内瑞拉马脑炎及其衍生病毒株TC-83(Strauss Microbrial Review 1994)。天然α病毒基因组通常约12kb长,其中前三分的二含有编码非结构蛋白(nsP)的基因,所述非结构蛋白形成用于病毒基因组自我复制的RNA复制复合物,且最后三分之一含有编码用于病毒粒子产生的结构蛋白的亚基因组表达盒(Frolov RNA 2001)。

α病毒的模型生命周期涉及数个不同步骤(Strauss Microbrial Review 1994,Jose Future Microbiol 2009)。在病毒附着于宿主细胞后,病毒粒子与内吞区室内的膜融合,导致基因组RNA最终释放至胞溶质中。以正链定向且包含5'甲基鸟苷酸帽及3'polyA尾部的基因组RNA经翻译以产生形成复制复合物的非结构蛋白nsP1-4。在感染早期,正链随后由复合物复制成负链模板。在当前模型中,复制复合物随着感染进展被进一步加工,使得所得经加工的复合物转换成将负链转录成全长正链基因组RNA以及含有结构基因的26S亚基因组正链RNA。α病毒的数个保守序列组件(CSE)已鉴定为可能在各种RNA复制步骤中起作用,包括:负链模板的正链RNA复制中的5'UTR的互补序列、基因组模板的负链合成复制中的51-nt CSE、负链的亚基因组RNA转录中的在nsP与26S RNA之间的接合区中的24-nt CSE、及正链模板的负链合成中的3'19-nt CSE。

在各种RNA物种复制后,病毒粒子随后通常在病毒的天然生命周期中组装。26SRNA经翻译且所得蛋白质经进一步加工以产生结构蛋白,其包括衣壳蛋白、醣蛋白E1及E2以及两个小多肽E3及6K(Strauss 1994)。发生病毒RNA的衣壳化,衣壳蛋白通常仅特异性针对所包装的基因组RNA,随后病毒粒子组装且在膜表面出芽。

V.D.2.α病毒作为递送载体

α病毒先前已经工程改造以用作表达载体系统(Pushko 1997,Rheme 2004)。α病毒提供数种优势,特别是在可能需要异源抗原表达的疫苗环境中。由于在宿主胞溶质中自我复制的能力,故α病毒载体一般能够在细胞内产生高复本数的表达盒,从而导致高水平异源抗原产生。另外,载体一般为瞬时的,从而使得生物安全性得以改良以及减少对载体的免疫耐受性的诱导。与其他标准病毒载体(诸如人类腺病毒)相比,公众一般亦缺乏对α病毒载体预先存在的免疫性。基于α病毒的载体亦一般导致对经感染细胞的细胞毒性反应。在一定程度上,细胞毒性在疫苗环境中对于适当违禁引发对所表达的异源抗原的免疫响应可为重要的。然而,所需细胞毒性的程度可为平衡作用,且因此已开发数种减毒α病毒,包括VEE的TC-83病毒株。因此,本文所述的新抗原表达载体的实例可利用α病毒主链,其允许高水平的新抗原表达、引发对新抗原的稳固免疫响应、不引发对载体本身的免疫响应,且可以安全方式使用。此外,新抗原表达盒可经设计以经由优化载体使用的α病毒序列(包括但不限于源于VEE或其减毒衍生物TC-83的序列)而引发不同水平的免疫响应。

已使用α病毒序列工程改造数种表达载体设计策略(Pushko 1997)。在一个策略中,α病毒载体设计包括在结构蛋白基因下游***26S启动子序列组件的第二复本,随后为异源基因(Frolov 1993)。因此,除天然非结构蛋白及结构蛋白的外,亦产生表达异源蛋白的额外亚基因组RNA。在此系统中,存在用于产生感染性病毒粒子的所有组件,且因此可能发生在未感染细胞中反复轮表达载体的感染。

另一种表达载体设计利用辅助病毒系统(Pushko 1997)。在此策略中,结构蛋白由异源基因替代。因此,在由仍完整的非结构基因介导病毒RNA的自我复制之后,26S亚基因组RNA提供异源蛋白的表达。传统上,表达结构蛋白的额外载体随后诸如藉由细胞系的共转染以反式供应,以产生感染性病毒。系统详细描述于USPN 8,093,021中,其出于所有目的以全文引用的方式并入本文中。辅助载体系统提供限制形成感染性颗粒的可能性的益处,因此提高生物安全性。另外,辅助载体系统减小总载体长度,潜在提高复制及表达效率。因此,本文所述的新抗原表达载体的实例可利用结构蛋白由新抗原盒替代的α病毒主链,所得载体降低生物安全问题,同时由于整体表达载体尺寸减小而促进有效表达。

V.D.3.活体外α病毒产生

α病毒递送载体一般为正义RNA聚核苷酸。此项技术中熟知的用于产生RNA的便利技术为活体外转录IVT。在此技术中,首先藉由熟习此项技术者熟知的技术产生所需载体的DNA模板,包括标准分子生物学技术,诸如克隆、限制性消化、连接、基因合成及聚合酶链式反应(PCR)。DNA模板在期望转录成RNA的序列的5'端处含有RNA聚合酶启动子。启动子包括(但不限于)噬菌体聚合酶启动子,诸如T3、T7或SP6。DNA模板随后与适当RNA聚合酶、缓冲剂及核苷酸(NTP)一起培育。所得RNA聚核苷酸可任选地经进一步修饰,包括(但不限于)添加5'帽结构,诸如7-甲基鸟苷或相关结构,且任选地修饰3'端以包括聚腺苷酸(polyA)尾部。RNA可随后使用本领域中熟知的技术纯化,诸如苯酚-氯仿提取。

V.D.4.经由脂质纳米颗粒递送

在疫苗载体设计中考虑的一重要方面为针对载体本身的免疫性(Riley 2017)。此可呈对载体本身(诸如某些人类腺病毒系统)预先存在的免疫性形式,或呈在疫苗施用后对载体产生免疫性的形式。若进行相同疫苗的多次施用(诸如分开的初始及增强剂量),或若使用相同疫苗载体系统递送不同新抗原盒,则后者为重要的考虑因素。

在α病毒载体的情况下,标准递送方法为先前论述的辅助病毒系统,其以反式提供衣壳、E1及E2蛋白质以产生感染性病毒粒子。然而,重要的是注意E1及E2蛋白质通常为中和抗体的主要靶标(Strauss1994)。因此,若中和抗体靶向感染性粒子,则使用α病毒载体递送所关注的新抗原至靶细胞的功效可能会降低。

病毒粒子介导的基因递送的替代方案为使用奈米材料递送表达载体(Riley2017)。重要的是,奈米材料载具可由非免疫原性材料制成且一般避免引发对递送载体本身的免疫性。此等材料可包括(但不限于)脂质、无机奈米材料及其他聚合材料。脂质可为阳离子、阴离子或中性的。材料可为合成或天然来源的,且在一些情况下为可生物降解的。脂质可包括脂肪、胆固醇、磷脂、脂质结合物,包括(但不限于)聚乙二醇(PEG)结合物(聚乙二醇化脂质)、蜡、油、甘油酯及脂溶性维生素。

脂质纳米颗粒(LNP)为有吸引力的递送系统,因为脂质的两亲媒性使得能够形成膜及囊泡状结构(Riley 2017)。一般而言,此等囊泡藉由吸收至靶细胞的膜中且将核酸释放至胞溶质中来递送表达载体。另外,LNP可经进一步修饰或官能化以有助于靶向特定细胞类型。LNP设计中的另一考虑因素为靶向效率与细胞毒性之间的平衡。脂质组合物一般包括阳离子、中性、阴离子及两性脂质的确定的混合物。在一些情况下,包括特定脂质以防止LNP聚集、防止脂质氧化、或提供有助于额外部分附着的功能性化学基团。脂质组合物可影响整体LNP大小及稳定性。在一实例中,脂质组合物包含二亚油基甲基-4-二甲基胺基丁酸酯(MC3)及MC3样分子。MC3及MC3样脂质组合物可经调配以包括一或多种其他脂质,诸如PEG或PEG结合的脂质、固醇或中性脂质。

直接暴露于血清的核酸载体(诸如表达载体)可具有数种不期望的结果,包括核酸由血清核酸酶降解或游离核酸对免疫系统的脱靶刺激。因此,囊封α病毒载体可用于避免降解,同时亦避免潜在的脱靶影响。在某些实例中,α病毒载体完全囊封在递送载具内,诸如在LNP的含水内部。α病毒载体囊封在LNP内可藉由熟习此项技术者熟知的技术来进行,诸如在微流体液滴生成装置上进行的微流体混合及液滴生成。此类装置包括(但不限于)标准T形接头装置或流动聚焦装置。在一实例中,所需脂质调配物(诸如含有MC3或MC3样的组合物)与α病毒递送载体及其他所需药剂并行提供至液滴生成装置,使得递送载体及所需药剂完全囊封在基于MC3或MC3样的LNP内部。在一实例中,液滴生成装置可控制所产生的LNP的尺寸范围及尺寸分布。举例而言,LNP的尺寸可在1至1000奈米直径范围内,例如1、10、50、100、500或1000奈米。在液滴生成后,囊封表达载体的递送载具可经进一步处理或修饰以使其准备用于施用。

V.E.黑猩猩腺病毒(ChAd)

V.E.1.用黑猩猩腺病毒递送病毒

用于递送一个或多个新抗原(例如经由新抗原盒)的疫苗组合物可藉由提供黑猩猩来源的腺病毒核苷酸序列、多种新颖载体及表达黑猩猩腺病毒基因的细胞系来产生。黑猩猩C68腺病毒(在本文中也称为ChAdV68)的核苷酸序列可用于新抗原递送的疫苗组合物中(参见SEQ ID NO:1)。源于C68腺病毒的载体的使用进一步详细描述于USPN6,083,716中,其出于所有目的以全文引用的方式并入本文中。

在另一方面,本文提供一种重组腺病毒,其包含黑猩猩腺病毒(诸如C68)的DNA序列及可操作地连接于引导其表达的调控序列的新抗原盒。重组病毒能够感染哺乳动物细胞、较佳人类细胞,且能够在细胞中表达新抗原盒产物。在此载体中,天然黑猩猩E1基因和/或E3基因和/或E4基因可缺失。新抗原盒可***至此等基因缺失位点中的任一者中。新抗原盒可包括新抗原,针对其激活的免疫响应为所需的。

在另一方面,本文提供一种经黑猩猩腺病毒(诸如C68)感染的哺乳动物细胞。

在另一方面,提供一种新颖的哺乳动物细胞系,其表达黑猩猩腺病毒基因(例如来自C68)或其功能片段。

在另一方面,本文提供一种用于将新抗原盒递送至哺乳动物细胞中的方法,其包含以下步骤:向细胞中引入有效量的已经工程改造以表达新抗原盒的黑猩猩腺病毒,诸如C68。

另一方面提供一种用于在哺乳动物宿主中引发免疫响应以治疗癌症的方法。该方法可包含以下步骤:向宿主施用有效量的重组黑猩猩腺病毒(诸如C68),其包含编码免疫响应所靶向的来自肿瘤的一个或多个新抗原的新抗原盒。

还公开一种非猿猴哺乳动物细胞,其表达获自SEQ ID NO:1序列的黑猩猩腺病毒基因。该基因可选自:SEQ ID NO:1的腺病毒E1A、E1B、E2A、E2B、E3、E4、L1、L2、L3、L4及L5。

还公开一种包含黑猩猩腺病毒DNA序列的核酸分子,该黑猩猩腺病毒DNA序列包含获自SEQ ID NO:1序列的基因。该基因可选自:SEQ ID NO:1的所述黑猩猩腺病毒E1A、E1B、E2A、E2B、E3、E4、L1、L2、L3、L4及L5基因。在一些方面,核酸分子包含SEQ ID NO:1。在一些方面,核酸分子包含SEQ ID NO:1序列,缺少选自的至少一个基因:SEQ ID NO:1的E1A、E1B、E2A、E2B、E3、E4、L1、L2、L3、L4及L5基因。

还公开一种载体,其包含获自SEQ ID NO:1的黑猩猩腺病毒DNA序列及可操作地连接于一个或多个调控序列的新抗原盒,该一个或多个调控序列引导盒在异源宿主细胞中的表达,任选地其中该黑猩猩腺病毒DNA序列包含至少用于复制及病毒粒子衣壳化所必需的顺式组件,所述顺式组件侧接新抗原盒及调控序列。在一些方面,黑猩猩腺病毒DNA序列包含选自的基因:SEQ ID NO:1的E1A、E1B、E2A、E2B、E3、E4、L1、L2、L3、L4及L5基因序列。在一些方面,载体可缺乏E1A和/或E1B基因。

本文还公开经本文所公开的载体转染的宿主细胞,该载体诸如经工程改造以表达新抗原盒的C68载体。本文还公开经由将本文所公开的载体引入细胞中而表达其中引入的经选择的基因的人类细胞。

本文还公开一种用于将新抗原盒递送至哺乳动物细胞的方法,其包含向该细胞中引入有效量的本文所公开的载体,诸如经工程改造以表达新抗原盒的C68载体。

本文还公开一种用于产生新抗原的方法,其包含将本文所公开的载体引入哺乳动物细胞中,在适合的条件下培养细胞且产生新抗原。

V.E.2.表达E1的互补细胞系

为产生缺失本文所述的基因中的任一者的重组黑猩猩腺病毒(Ad),缺失基因区的功能若对于病毒的复制及感染性必不可少,则可藉由辅助病毒或细胞系(亦即互补或包装细胞系)供应至重组病毒。举例而言,为产生复制缺陷型黑猩猩腺病毒载体,可使用表达人类或黑猩猩腺病毒的E1基因产物的细胞系;此类细胞系可包括HEK293或其变体。可遵循产生表达黑猩猩E1基因产物的细胞系的方案(USPN6,083,716的实例3及4),以产生表达任何经选择的黑猩猩腺病毒基因的细胞系。

AAV增强分析可用于鉴定表达黑猩猩腺病毒E1的细胞系。此分析用于鉴定藉由使用例如来自其他物种的其他未表征的腺病毒的E1基因制备的细胞系中的E1功能。该分析描述于USPN 6,083,716的实例4B中。

经选择的黑猩猩腺病毒基因(例如E1)可在启动子的转录控制下用于在经选择的亲本细胞系中表达。诱导型或组成型启动子可用于此目的。在诱导型启动子中包括可由锌诱导的绵羊金属硫蛋白启动子,或可由糖皮质激素、特别是***(dexamethasone)诱导的小鼠乳腺肿瘤病毒(MMTV)启动子。其他诱导型启动子,诸如以引用的方式并入本文中的国际专利申请案WO95/13392中所鉴定的彼等诱导型启动子,也可用于产生包装细胞系。也可采用控制黑猩猩腺病毒基因表达的组成型启动子。

亲本细胞可经选择以产生表达任何所需C68基因的新颖细胞系。此类亲本细胞系可为(但不限于)HeLa[ATCC寄存编号CCL 2]、A549[ATCC寄存编号CCL 185]、KB[CCL 17]、Detroit[例如Detroit 510、CCL 72]及WI-38[CCL 75]细胞。其他适合的亲本细胞系可获自其他来源。亲本细胞系可包括CHO、HEK293或其变体、911、HeLa、A549、LP-293、PER.C6或AE1-2a。

表达E1的细胞系可用于产生重组黑猩猩腺病毒E1缺失的载体。使用基本上相同的程序构建的表达一或多种其他黑猩猩腺病毒基因产物的细胞系用于产生缺失编码彼等产物的基因的重组黑猩猩腺病毒载体。另外,表达其他人类Ad E1基因产物的细胞系亦用于产生黑猩猩重组Ad。

V.E.3.作为载体的重组病毒粒子

本文所公开的组合物可包含病毒载体,其将至少一个新抗原递送至细胞。此类载体包含黑猩猩腺病毒DNA序列(诸如C68)及可操作地连接于引导盒表达的调控序列的新抗原盒。C68载体能够在经感染的哺乳动物细胞中表达盒。C68载体可功能性缺失一个或多个病毒基因。新抗原盒包含至少一个在一个或多个调控序列(诸如启动子)控制下的新抗原。任选地辅助病毒和/或包装细胞系可向黑猩猩病毒载体供应缺失的腺病毒基因的任何必需产物。

术语「功能性缺失」意指移除或以其他方式改变(例如藉由突变或修饰)足够量的基因区,使得基因区不再能够产生一或多种基因表达的功能性产物。若需要,可移除整个基因区。

形成本文所公开的载体的核酸序列的修饰,包括序列缺失、***及其他突变,可使用标准分子生物学技术产生且在本发明的范畴内。

V.E.4.病毒质粒载体的构建

用于本发明的黑猩猩腺病毒C68载体包括重组缺陷型腺病毒,亦即在E1a或E1b基因中功能性缺失且任选地携带其他突变(例如其他基因中的温度敏感性突变或缺失)的黑猩猩腺病毒序列。预期此等黑猩猩序列亦用于形成来自其他腺病毒和/或腺相关病毒序列的杂交载体。由人类腺病毒制备的同源腺病毒载体描述于公开的文献中[参见例如上文所引用的Kozarsky I及II,及其中列举的参考文献,美国专利第5,240,846号]。

在构建用于将新抗原盒递送至人类(或其他哺乳动物)细胞的有用的黑猩猩腺病毒C68载体时,可在载体中采用一系列腺病毒核酸序列。包含最小黑猩猩C68腺病毒序列的载体可与辅助病毒结合使用以产生感染性重组病毒粒子。辅助病毒提供最小黑猩猩腺病毒载体的病毒感染性及繁殖所需的基本基因产物。当在另外的功能性病毒载体中仅产生黑猩猩腺病毒基因的一个或多个经选择的缺失时,可藉由在经选择的包装细胞系中繁殖病毒而在病毒载体生产过程中供应缺失的基因产物,该包装细胞系提供反式缺失的基因功能。

V.E.5.重组最小腺病毒

最小的黑猩猩Ad C68病毒为仅含有复制及病毒粒子衣壳化所必需的腺病毒顺式组件的病毒粒子。亦即,载体含有腺病毒的顺式作用5'及3'反向末端重复(ITR)序列(其充当复制起点)及天然5'包装/增强子域(其含有用于包装线性Ad基因组所必需的序列及E1启动子的增强子组件)。参见例如在国际专利申请案WO96/13597中所描述且以引用的方式并入本文中的用于制备「最小」人类Ad载体的技术。

V.E.6.其他缺陷型腺病毒

重组复制缺乏型腺病毒也可比最小黑猩猩腺病毒序列含有更多。此等其他Ad载体可藉由病毒基因区的各个部分的缺失及藉由任选地使用辅助病毒和/或包装细胞系形成的感染性病毒粒子来表征。

作为一个实例,适合的载体可藉由使C68腺病毒立即早期基因E1a及延迟早期基因E1b的全部或足够部分缺失来形成,从而消除其正常的生物功能。当在含有提供相应反式基因产物的功能性腺病毒E1a及E1b基因的黑猩猩腺病毒转化的互补细胞系上生长时,复制缺陷型E1缺失病毒能够复制且产生感染性病毒。基于与已知腺病毒序列的同源性,预期与此项技术的人类重组E1缺失腺病毒一样,所得重组黑猩猩腺病毒能够感染许多细胞类型且可表达新抗原,但无法在大部分不携带黑猩猩E1区DNA的细胞中复制,除非细胞以极高感染倍率感染。

作为另一个实例,C68腺病毒延迟早期基因E3的全部或一部分可自形成重组病毒的一部分的黑猩猩腺病毒序列消除。

也可构建具有E4基因缺失的黑猩猩腺病毒C68载体。另一个载体可在延迟早期基因E2a中含有缺失。

也可在黑猩猩C68腺病毒基因组的晚期基因L1至L5中的任一者中获得缺失。类似地,中间基因IX及IVa2中的缺失可用于一些目的。可在其他结构性或非结构性腺病毒基因中获得其他缺失。

上述缺失可单独使用,亦即腺病毒序列可仅含有E1缺失。或者,可以任何组合使用有效破坏或降低其生物活性的完整基因或其部分的缺失。举例而言,在一个例示性载体中,腺病毒C68序列可缺失E1基因及E4基因,或缺失E1、E2a及E3基因,或缺失E1及E3基因,或在缺失或不缺失E3的情况下缺失E1、E2a及E4基因等等。如上文所论述,此类缺失可与其他突变(诸如温度敏感性突变)组合使用,以达成所需结果。

将包含新抗原的盒任选地***至黑猩猩C68 Ad病毒的任一缺失区中。或者,若需要,可将盒***至现有基因区中以破坏该区的功能。

V.E.7.辅助病毒

视用于携带新抗原盒的病毒载体的黑猩猩腺病毒基因含量而定,可使用辅助腺病毒或非复制性病毒片段来提供足够的黑猩猩腺病毒基因序列以产生含有该盒的感染性重组病毒粒子。

有用的辅助病毒含有经选择的腺病毒基因序列,其不存在于腺病毒载体构建体中和/或不由载体转染的包装细胞系表达。辅助病毒可为复制缺陷型且除上述序列的外,亦含有多种腺病毒基因。辅助病毒可与本文所述的表达E1的细胞系组合使用。

对于C68,「辅助」病毒可为藉由用SspI剪切C68基因组的C末端形成的片段,其自病毒的左端移除约1300bp。此经剪切的病毒随后与质粒DNA共转染至表达E1的细胞系中,由此藉由与质粒中的C68序列同源重组形成重组病毒。

辅助病毒也可形成聚阳离子结合物,如Wu等人,J.Biol.Chem.,264:16985-16987(1989);K.J.Fisher及J.M.Wilson,Biochem.J.,299:49(1994年4月1日)中所述。辅助病毒可任选地含有报告基因。许多此类报告基因为此项技术已知的。与腺病毒载体上的新抗原盒不同,辅助病毒上报告基因的存在允许独立地监测Ad载体及辅助病毒。此第二报告子用于纯化后能够将所得重组病毒与辅助病毒分离。

V.E.8.病毒粒子的组装及细胞系的感染

将经选择的腺病毒DNA序列、新抗原盒及其他载体组件组装至各种中间质粒及穿梭载体中,以及使用所述质粒及载体产生重组病毒粒子均可使用习知技术实现。此类技术包括cDNA的习知克隆技术、活体外重组技术(例如吉布森组装(Gibson assembly))、腺病毒基因组的重迭寡核苷酸序列的使用、聚合酶链式反应及提供所需核苷酸序列的任何适合的方法。采用标准转染及共转染技术,例如CaPO4沉淀技术或脂质粒介导的转染方法,诸如脂染胺。所采用的其他习知方法包括病毒基因组的同源重组、琼脂覆层中病毒的蚀斑、测量信号产生的方法及其类似方法。

举例而言,在构建及组装所需含有新抗原盒的病毒载体后,可在辅助病毒存在下将载体活体外转染至包装细胞系中。同源重组发生在辅助序列与载体序列之间,其允许载体中的腺病毒新抗原序列复制且包装至病毒粒子衣壳中,从而产生重组病毒载体粒子。

所得重组黑猩猩C68腺病毒用于将新抗原盒转移至经选择的细胞中。在使用包装细胞系中生长的重组病毒的活体内实验中,E1缺失的重组黑猩猩腺病毒在将盒转移至非黑猩猩(较佳人类)细胞中展现效用。

V.E.9.重组病毒载体的用途

所得含有新抗原盒的重组黑猩猩C68腺病毒(如上所述,藉由腺病毒载体及辅助病毒或腺病毒载体及包装细胞系的合作产生)因此提供一种有效的基因转移载具。其可将新抗原活体内或离体递送至个体。

上述重组载体根据公开的基因疗法施用人类。携带新抗原盒的黑猩猩病毒载体可施用患者,较佳悬浮于生物兼容性溶液或药学可接受的递送媒剂中。适合的媒剂包括无菌盐水。已知为药学可接受的载体且为熟习此项技术者所熟知的其他水性及非水性等张无菌注射溶液以及水性及非水性无菌悬浮液可用于此目的。

黑猩猩腺病毒载体系以足以转导人类细胞且提供足够水平的新抗原转移及表达的量施用,从而提供治疗益处而无过度不良效应或具有医学上可接受的生理效应,其可由熟习医药技术的人员来确定。习知及药学可接受的投药途径包括(但不限于)直接递送至肝脏、鼻内、静脉内、肌内、皮下、皮内、经口及其他非经肠投药途径。若需要,可组合投药途径。

病毒载体的剂量主要将取决于以下因素:诸如所治疗的病况、患者的年龄、体重及健康状况,且因此可在患者当中变化。剂量将经调节以平衡治疗益处与任何副作用,且此类剂量可视采用重组载体的治疗应用而变化。可监测新抗原表达量以确定剂量施用频率。

重组复制缺陷型腺病毒可以「医药学有效量」施用,亦即在投药途径中有效转染所需细胞且提供经选择的基因的足够表达量以提供疫苗益处(亦即一些可测量的保护性免疫水平)的重组腺病毒的量。包含新抗原盒的C68载体可与佐剂一起共施用。佐剂可与载体分开(例如矾)或在载体内编码,尤其若佐剂为蛋白质。佐剂为此项技术中所熟知。

习知且药学可接受的投药途径包括(但不限于)鼻内、肌内、气管内、皮下、皮内、经直肠、经口及其他非经肠投药途径。若需要,可组合或调整投药途径,视免疫原或疾病而定。举例而言,在狂犬病预防中,皮下、气管内及鼻内途径为较佳的。投药途径主要将取决于所治疗的疾病的性质。

可监测对新抗原的免疫水平以确定是否需要增强剂。举例而言,在评定血清中的抗体效价后,可能需要任选地增强免疫。

VI.治疗及制造方法

亦提供一种藉由向个体施用一个或多个新抗原(诸如使用本文所公开的方法鉴定的多个新抗原)在个体中诱导肿瘤特异性免疫响应、针对肿瘤接种疫苗、治疗及或缓解个体的癌症症状的方法。

在一些方面,个体已诊断患有癌症或处于罹患癌症的风险下。个体可为人类、犬、猫、马或需要肿瘤特异性免疫响应的任何动物。肿瘤可为任何实体肿瘤,诸如***肿瘤、卵巢肿瘤、***肿瘤、肺肿瘤、肾脏肿瘤、胃肿瘤、结肠肿瘤、睾丸肿瘤、头颈部肿瘤、胰脏肿瘤、脑肿瘤、黑素瘤及其他组织器官肿瘤,以及血液肿瘤,诸如淋巴瘤及白血病,包括急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病、T细胞淋巴细胞性白血病及B细胞淋巴瘤。

新抗原可以足以诱导CTL反应的量施用。

新抗原可单独或与其他治疗剂组合施用。治疗剂为例如化学治疗剂、辐射或免疫疗法。可针对特定癌症施用任何适合的治疗性治疗。

另外,可向个体进一步施用抗免疫抑制剂/免疫刺激剂,诸如检查点抑制剂。举例而言,可向个体进一步施用抗CTLA抗体或抗PD-1或抗PD-L1。藉由抗体阻断CTLA-4或PD-L1可增强患者对癌细胞的免疫响应。具体而言,已显示在按照疫苗接种方案时CTLA-4阻断为有效的。

可确定包括于疫苗组合物中的各新抗原的最佳量及最佳给药方案。举例而言,可制备用于静脉内(i.v.)注射、皮下(s.c.)注射、皮内(i.d.)注射、腹膜内(i.p.)注射、肌内(i.m.)注射的新抗原或其变体。注射方法包括s.c.、i.d.、i.p.、i.m.及i.v.。DNA或RNA注射方法包括i.d.、i.m.、s.c.、i.p.及i.v.。疫苗组合物的其他施用方法为熟习此项技术者已知的。

疫苗可经编译以使得组合物中存在的新抗原的选择、数量和/或量为组织、癌症和/或患者特异性的。举例而言,肽的精确选择可藉由亲本蛋白质在给定组织中的表达模式来指导。选择可取决于癌症的具体类型、疾病状态、较早的治疗方案、患者免疫状态及当然患者的HLA单倍型。此外,疫苗可根据特定患者的个人需要而含有个别化组分。实例包括根据新抗原在特定患者中的表达改变新抗原的选择或在第一轮或治疗方案之后调整二次治疗。

对于待用作癌症疫苗的组合物,在正常组织中大量表达的具有类似正常自身肽的新抗原可避免或以低量存在于本文所述的组合物中。另一方面,若已知患者的肿瘤表达大量特定新抗原,则用于治疗此癌症的相应药学组合物可大量存在和/或可包括多于一种特异性针对此特定新抗原或此新抗原的途径的新抗原。

可向已罹患癌症的个体施用包含新抗原的组合物。在治疗应用中,组合物以足以引发对肿瘤抗原的有效CTL反应且治愈或至少部分遏制症状和/或并发症的量施用患者。足以实现此目标的量定义为「治疗有效剂量」。对此用途有效的量将取决于例如组合物、投药方式、所治疗疾病的阶段及严重程度、患者的体重及一般健康状况、以及处方医师的判断。应记住,组合物一般可用于严重的疾病病况,亦即危及生命或可能危及生命的情形,尤其当癌症已转移时。在此类情况下,鉴于外来物质的最小化及新抗原的相对无毒性,治疗医师可能且可能感觉需要施用实质性过量的此等组合物。

对于治疗用途,可在检测或手术移除肿瘤时开始投药。此后为增强剂量,直至症状至少实质上减弱且此后持续一段时间。

用于治疗性治疗的药学组合物(例如疫苗组合物)意欲非经肠、局部、经鼻、经口或局部施用。药学组合物可非经肠施用,例如静脉内、皮下、皮内或肌内施用。组合物可在手术切除部位施用以诱导针对肿瘤的局部免疫响应。本文公开用于非经肠施用的组合物,其包含新抗原及疫苗组合物溶解或悬浮于可接受的载体(例如水性载体)中的溶液。可使用多种水性载体,例如水、缓冲水、0.9%生理食盐水、0.3%甘氨酸、玻尿酸及其类似物。此等组合物可藉由习知的熟知灭菌技术灭菌或可经无菌过滤。所得水溶液可封装以按原样使用或冻干,冻干制剂在施用之前与无菌溶液组合。组合物可含有接近生理条件所需要的药学可接受的辅助物质,诸如pH调节剂及缓冲剂、张力调节剂、湿润剂及其类似物,例如乙酸钠、乳酸钠、氯化钠、氯化钾、氯化钙、脱水山梨糖醇单月桂酸酯、三乙醇胺油酸酯等。

新抗原也可经由脂质粒施用,脂质粒使其靶向特定的细胞组织,诸如淋巴组织。脂质粒亦用于增加半衰期。脂质粒包括乳液、泡沫、胶束、不可溶单层、液晶、磷脂分散体、层状层及其类似物。在此等制剂中,有待递送的新抗原作为脂质粒的一部分单独或与结合于例如淋巴细胞中普遍存在的受体的分子(诸如结合于CD45抗原的单克隆抗体)或与其他治疗性或免疫原性组合物一起并入。因此,用所需新抗原填充的脂质粒可引导至淋巴细胞的位点,在此脂质粒随后递送经选择的治疗性/免疫原性组合物。脂质粒可由标准的形成囊泡的脂质形成,其一般包括中性及带负电荷的磷脂及固醇(诸如胆固醇)。脂质的选择一般藉由考虑例如脂质粒大小、脂质粒在血流中的酸不稳定性及稳定性来指导。多种方法可用于制备脂质粒,如例如Szoka等人,Ann.Rev.Biophys.Bioeng.9;467(1980);美国专利第4,235,871号、第4,501,728号、第4,501,728号、第4,837,028号及第5,019,369号中所述。

为靶向免疫细胞,有待并入至脂质粒中的配体可包括例如特异性针对所需免疫系统细胞的细胞表面决定子的抗体或其片段。脂质粒悬浮液可以一定剂量静脉内、局部、表面等施用,该剂量尤其根据投药方式、所递送的肽及所治疗疾病的阶段而变化。

出于治疗或免疫目的,编码肽及任选地一或多种本文所述的肽的核酸也可施用患者。多种方法方便地用于将核酸递送至患者。举例而言,核酸可以「裸DNA」形式直接递送。此方法描述于例如Wolff等人,Science 247:1465-1468(1990)以及美国专利第5,580,859号及第5,589,466号中。核酸也可使用弹道式递送施用,如例如美国专利第5,204,253号中所述。可施用仅包含DNA的粒子。或者,DNA可黏附于粒子,诸如金粒子。在存在或不存在电穿孔的情况下,用于递送核酸序列的方法可包括病毒载体、mRNA载体及DNA载体。

核酸也可与阳离子化合物(诸如阳离子脂质)复合递送。脂质介导的基因递送方法描述于例如9618372WOAWO 96/18372;9324640WOAWO 93/24640;Mannino及Gould-Fogerite,BioTechniques 6(7):682-691(1988);美国专利第5,279,833号;Rose美国专利第5,279,833号;9106309WOAWO 91/06309;及Felgner等人,Proc.Natl.Acad.Sci.USA 84:7413-7414(1987)中。

新抗原也可包括于基于病毒载体的疫苗平台中,诸如牛痘、禽痘、自我复制α病毒、马拉巴病毒、腺病毒(参见例如Tatsis等人,Adenoviruses,Molecular Therapy(2004)10,616-629)或慢病毒,包括(但不限于)第二、第三或杂交第二/第三代慢病毒及任一代的重组慢病毒,其经设计以靶向特定细胞类型或受体(参见例如Hu等人,Immunization Deliveredby Lentiviral Vectors for Cancer and Infectious Diseases,Immunol Rev.(2011)239(1):45-61,Sakuma等人,Lentiviral vectors:basic to translational,Biochem J.(2012)443(3):603-18,Cooper等人,Rescue of splicing-mediated intron lossmaximizes expression in lentiviral vectors containing the human ubiquitin Cpromoter,Nucl.Acids Res.(2015)43(1):682-690,Zufferey等人,Self-InactivatingLentivirus Vector for Safe and Efficient In Vivo Gene Delivery,J.Virol.(1998)72(12):9873-9880)。视上述基于病毒载体的疫苗平台的包装能力而定,此方法可递送编码一个或多个新抗原肽的一个或多个核苷酸序列。序列可侧接非突变序列,可由接头分开或可在前面有一个或多个靶向亚细胞区室的序列(参见例如Gros等人,Prospectiveidentification of neoantigen-specific lymphocytes in the peripheral blood ofmelanoma patients,Nat Med.(2016)22(4):433-8,Stronen等人,Targeting of cancerneoantigens with donor-derived T cell receptor repertoires,Science.(2016)352(6291):1337-41,Lu等人,Efficient identification of mutated cancer antigensrecognized by T cells associated with durable tumor regressions,Clin CancerRes.(2014)20(13):3401-10)。在引入宿主后,经感染细胞表达新抗原,从而引发针对肽的宿主免疫(例如CTL)反应。用于免疫方案中的牛痘载体及方法描述于例如美国专利第4,722,848号中。另一种载体为BCG(卡介苗)。BCG载体描述于Stover等人(Nature 351:456-460(1991))中。根据本文描述,用于新抗原的治疗性施用或免疫接种的各种其他疫苗载体,例如伤寒沙门氏菌载体及其类似物对于熟习此项技术者将为显而易见的。

施用核酸的手段使用编码一个或多个表位的袖珍基因构建体。为产生编码经选择在人类细胞中表达的CTL表位(袖珍基因)的DNA序列,逆翻译表位的氨基酸序列。使用人类密码子使用表来指导各氨基酸的密码子选择。此等编码表位的DNA序列直接邻接,产生连续多肽序列。为使表达和/或免疫原性优化,可将额外组件并入至袖珍基因设计中。可经逆翻译且包括于袖珍基因序列中的氨基酸序列的实例包括:辅助T淋巴细胞、表位、前导(信号)序列及内质网滞留信号。另外,可藉由包括相邻于CTL表位的合成(例如聚丙氨酸)或天然存在的侧接序列来改良CTL表位的MHC呈递。藉由组装编码袖珍基因的正链及负链的寡核苷酸而将袖珍基因序列转化成DNA。重迭寡核苷酸(30-100个碱基长)是在适当条件下使用熟知技术合成、磷酸化、纯化及黏接。寡核苷酸的末端系使用T4 DNA连接酶连接。编码CTL表位多肽的此合成袖珍基因可随后克隆至所期望的表达载体中。

可制备经纯化的质粒DNA以便使用多种调配物注射。其中最简单的为冻干DNA在无菌磷酸盐缓冲生理食盐水(PBS)中复原。已描述多种方法,且可使用新技术。如上文所指出,核酸宜用阳离子脂质调配。另外,统称为保护性、相互作用性、非缩合性(PINC)的糖脂、促融脂质粒、肽及化合物也可与经纯化的质粒DNA复合以影响以下变量:诸如稳定性、肌内分散或运输至特定器官或细胞类型。

还公开一种制造肿瘤疫苗的方法,其包含执行本文所公开的方法的步骤;及产生包含多个新抗原或多个新抗原的子集的肿瘤疫苗。

本文所公开的新抗原可使用此项技术中已知的方法制造。举例而言,产生本文所公开的新抗原或载体(例如包括编码一个或多个新抗原的至少一个序列的载体)的方法可包括在适于表达新抗原或载体的条件下培养宿主细胞,其中该宿主细胞包含至少一个编码新抗原或载体的聚核苷酸;及纯化新抗原或载体。标准纯化方法包括层析技术、电泳、免疫、沉淀、透析、过滤、浓缩及层析聚焦技术。

宿主细胞可包括中国仓鼠卵巢(CHO)细胞、NS0细胞、酵母或HEK293细胞。宿主细胞可用一个或多个包含至少一个编码本文所公开的新抗原或载体的核酸序列的聚核苷酸转化,任选地其中该经分离的聚核苷酸另外包含可操作地连接于编码新抗原或载体的至少一个核酸序列的启动子序列。在某些实施例中,经分离的聚核苷酸可为cDNA。

VII.新抗原使用及投药

可使用疫苗接种方案给予个体一或多种新抗原。初始疫苗及增强疫苗可用于向个体给药。初始疫苗可基于C68(例如SEQ ID NO:1或2中所示的序列)或srRNA(例如SEQ IDNO:3或4中所示的序列),且增强疫苗可基于C68(例如SEQ ID NO:1或2中所示的序列)或srRNA(例如SEQ ID NO:3或4中所示的序列)。各载体通常包括具有新抗原的盒。盒可包括约20种新抗原,其由间隔子(诸如通常包围各抗原的天然序列)或其他非天然间隔序列(诸如AAY)分开。盒也可包括MHCII抗原,诸如破伤风类毒素抗原及PADRE抗原,其可视为通用II类抗原。盒也可包括靶向序列,诸如泛素靶向序列。另外,各疫苗剂量可与检查点抑制剂(CPI)结合(例如同时、之前或之后)施用个体。CPI可包括抑制CTLA4、PD1和/或PDL1的彼等,诸如抗体或其抗原结合部分。此类抗体可包括曲美单抗或德瓦鲁单抗(durvalumab)。

初始疫苗可注射(例如肌内)于个体。可使用每一剂量双侧注射。举例而言,可使用一或多次ChAdV68(C68)注射(例如总剂量1×1012个病毒粒子);可使用选自0.001至1μgRNA、尤其0.1或1μg范围的低疫苗剂量的一或多次自我复制RNA(srRNA)注射;或可使用选自1至100μg RNA、尤其10或100μg范围的高疫苗剂量的一或多次srRNA注射。

可在初始疫苗接种之后注射(例如肌内)疫苗增强剂(增强疫苗)。增强疫苗可在初打后约每1、2、3、4、5、6、7、8、9或10周,例如每4周和/或8周施用。可使用每一剂量双侧注射。举例而言,可使用一或多次ChAdV68(C68)注射(例如总剂量1×1012个病毒粒子);可使用选自0.001至1μg RNA、尤其0.1或1μg范围的低疫苗剂量的一或多次自我复制RNA(srRNA)注射;或可使用选自1至100μg RNA、尤其10或100μg范围的高疫苗剂量的一或多次srRNA注射。

也可向个体施用抗CTLA-4(例如曲美单抗)。举例而言,抗CTLA4可在肌内疫苗注射(ChAdV68初打或srRNA低剂量)部位附近皮下施用,以确保引流至同一***。曲美单抗为CTLA-4的选择性人类IgG2 mAb抑制剂。目标抗CTLA-4(曲美单抗)皮下剂量通常为70-75mg(尤其75mg),其剂量范围为例如1-100mg或5-420mg。

在某些情况下,可使用抗PD-L1抗体,诸如德瓦鲁单抗(MEDI 4736)。德瓦鲁单抗为一种选择性、高亲和力人类IgG1 mAb,其阻断PD-L1结合于PD-1及CD80。德瓦鲁单抗一般每4周以20mg/kg i.v.施用。

可在疫苗施用之前、期间和/或之后进行免疫监测。除其他参数外,此类监测可告知安全性及功效。

为进行免疫监测,通常使用PBMC。PBMC可在初始疫苗接种之前及在初始疫苗接种之后(例如4周及8周)分离。PBMC可仅在增强疫苗接种之前及在每次增强疫苗接种之后(例如4周及8周)收集。

可评定T细胞反应作为免疫监测方案的一部分。可使用此项技术中已知的一或多种方法测量T细胞反应,诸如ELISpot、细胞内细胞因子染色、细胞因子分泌及细胞表面捕捉、T细胞增殖、MHC多聚体染色或藉由细胞毒性分析。针对疫苗中编码的表位的T细胞反应可藉由使用ELISpot分析测量细胞因子(诸如IFN-γ)的诱导而自PBMC监测。针对疫苗中编码的表位的特异性CD4或CD8 T细胞反应可藉由使用流式细胞测量术测量胞内或胞外捕捉的细胞因子(诸如IFN-γ)的诱导而自PBMC监测。针对疫苗中编码的表位的特异性CD4或CD8T细胞反应可藉由使用MHC多聚体染色测量表达特异性针对表位/MHC I类复合物的T细胞受体的T细胞群体而自PBMC监测。针对疫苗中编码的表位的特异性CD4或CD8 T细胞反应可藉由在3H-胸苷、溴脱氧尿苷及羧基荧光素-二乙酸酯-琥珀酰亚胺酯(CFSE)并入后测量T细胞群的离体扩增而自PBMC监测。特异性针对疫苗中编码的表位的源于PBMC的T细胞的抗原识别能力及溶解活性可藉由铬释放分析或替代性比色细胞毒性分析来功能性评定。

VIII.新抗原鉴定

VIII.A.新抗原候选物鉴定

已描述关于肿瘤及正常外显子组及转录组的NGS分析的研究方法且将其应用于新抗原鉴定空间。6,14,15以下实例考虑在临床环境中对新抗原鉴定的灵敏度及特异性更大的某些优化。此等优化可分为两个领域,亦即与实验室方法相关的彼等优化及与NGS数据分析相关的彼等优化。

VIII.A.1.实验室方法优化

此处提出的方法改良藉由将对靶向癌症小组16中可靠的癌症驱动基因评定开发的概念扩展至新抗原鉴定所必需的全外显子组及转录组环境来解决来自肿瘤含量低及体积小的临床样本的高精确性新抗原发现的挑战。具体而言,此等改良包括:

1.靶向整个肿瘤外显子组的深度(>500×)独特的平均覆盖率,以检测由于低肿瘤含量或亚纯系状态而以低突变等位基因频率出现的突变。

2.靶向整个肿瘤外显子组的均匀覆盖率,在<100×覆盖<5%的碱基,以使得错过新抗原的可能最低,例如藉由:

a.采用基于DNA的捕捉探针及单个探针QC17

b.包括不良覆盖区的额外诱饵

3.靶向整个正常外显子组的均匀覆盖率,其中在<20×下覆盖<5%的碱基,以便最少的新抗原对于体细胞/生殖系状态可能保持未分类(且因此不能用作TSNA)

4.为使所需测序总量减到最少,序列捕捉探针将经设计以仅用于基因的编码区,因为非编码RNA无法产生新抗原。额外优化包括:

a.用于HLA基因的补充探针,其富含GC且藉由标准外显子组测序很难捕捉18

b.排除由于以下因素而经预测产生极少或不产生候选新抗原的基因:诸如表达不足、蛋白酶体消化次优或异常序列特征。

5.肿瘤RNA将同样在高深度(>100M读段)下测序,以便能够进行变体检测、基因及剪接变体(「同功异型物」)表达定量及融合检测。来自FFPE样品的RNA将使用基于探针的富集19来提取,其中相同或类似探针用于捕捉DNA中的外显子组。

VIII.A.2.NGS数据分析优化

分析方法的改良解决常见研究突变调用方法的次优灵敏度和特异性,且具体考虑临床环境中与新抗原鉴定相关的定制。其包括:

1.使用HG38参考人类基因组或后续版本进行比对,因为其含有较佳反映群体多形现象的多个MHC区组装,与先前的基因组版本相反。

2.藉由合并来自不同程序5的结果来克服单个变体调用者20的局限性

a.用一套工具自肿瘤DNA、肿瘤RNA及正常DNA中检测单核苷酸变体及***缺失,所述工具包括:基于肿瘤及正常DNA比较的程序,诸如Strelka21及Mutect22;及并入肿瘤DNA、肿瘤RNA及正常DNA的程序,诸如UNCeqR,其在低纯度样品中特别有利23

b.***缺失将用进行局部再组装的程序来确定,诸如Strelka及ABRA24

c.结构重排将使用专用工具来确定,诸如Pindel25或Breakseq26

3.为检测及防止样品调换,将在选定数量的多形位点比较来自同一患者的样本的变体调用。

4.假性调用的广泛过滤将例如藉由以下来执行:

a.移除在正常DNA中发现的变体,在低覆盖率情况下可能使用放松的检测参数,且在***缺失情况下使用容许的接近准则

b.移除归因于低映像质量或低碱基质量的变体27

c.即使在相应的正常情况下没有观察到,亦移除源自复发序列伪影的变体27。实例包括主要在一股上检测的变体。

d.移除不相关的对照集合中所检测的变体27

5.使用seq2HLA28、ATHLATES29或Optitype中的一者自正常外显子组精确调用HLA且亦将外显子组与RNA测序数据组合28。其他潜在优化包括采用专门的HLA分型分析,诸如长读段DNA测序30,或调适连接RNA片段以保持连续性的方法31

6.由肿瘤特异性剪接变体产生的neo-ORF的稳固检测将藉由使用CLASS32、Bayesembler33、StringTie34或其参考引导模式中的类似程序自RNA-seq数据组装转录物来进行(亦即,使用已知的转录物结构而非试图自每个实验中全部重新创建转录物)。虽然Cufflinks35通常用于此目的,但其经常产生难以置信的大量剪接变体,其中许多比全长基因短得多,且可能无法恢复简单的阳性对照。编码序列及无义介导的衰变可能性将藉由诸如SpliceR36及MAMBA37的工具来确定,其中重新引入突变序列。基因表达将藉由诸如Cufflinks35或Express(Roberts及Pachter,2013)的工具来确定。野生型及突变体特异性表达计数和/或相对水平将藉由开发用于此等目的的工具(诸如ASE38或HTSeq39)来确定。可能的过滤步骤包括:

a.移除视为不充分表达的候选neo-ORF。

b.移除经预测会触发无义介导的衰变(NMD)的候选neo-ORF。

7.仅在RNA中观察到的不能直接验证为肿瘤特异性的候选新抗原(例如neoORF)将根据额外参数归类为可能的肿瘤特异性,例如藉由考虑:

a.仅存在支持肿瘤DNA的顺式作用移码或剪接位点突变

b.在剪接因子中存在确证的肿瘤DNA-仅反式作用的突变。举例而言,在用R625突变型SF3B1进行的三个独立发表的实验中,尽管一个实验检查葡萄膜黑素瘤患者40,第二个检查葡萄膜葡萄膜黑素瘤细胞系41且第三个检查乳癌患者42,但表达出最大差异剪接的基因为一致的。

c.对于新颖的剪接同功异型物,在RNASeq数据中存在确证的「新颖」剪接连接读段。

d.对于新颖的重新排列,肿瘤DNA中存在确证的近似外显子读段,而正常DNA中不存在

e.不存在基因表达纲要,诸如GTEx43(亦即使生殖系起源不太可能)

8.藉由直接比较组装的DNA肿瘤与正常读段(或来自此类读数的k聚体)来补充基于参考基因组比对的分析,以避免基于比对及批注的错误及伪影。(例如对于在生殖系变体或重复内容缺失附近出现的体细胞变体)

在具有聚腺苷酸化RNA的样品中,RNA-seq数据中的病毒及微生物RNA的存在将使用RNA CoMPASS44或类似方法评定,以鉴定可预测患者反应的其他因素。

VIII.B.HLA肽的分离及检测

在裂解及溶解组织样品后,使用经典免疫沉淀(IP)方法进行HLA-肽分子的分离(55-58)。澄清的溶解物用于HLA特异性IP。

免疫沉淀系使用与珠粒偶合的抗体来进行,其中抗体特异性针对HLA分子。对于泛I类HLA免疫沉淀,使用泛I类CR抗体,对于II类HLA-DR,使用HLA-DR抗体。在隔夜培育期间,抗体共价连接于NHS-琼脂糖珠粒。在共价连接后,将珠粒洗涤且等分用于IP。(59,60)

将澄清的组织溶解物添加至抗体珠粒中进行免疫沉淀。在免疫沉淀后,自溶解物移除珠粒且将溶解物储存用于额外实验,包括额外IP。洗涤IP珠粒以移除非特异性结合且使用标准技术自珠粒洗脱HLA/肽复合物。使用分子量旋转管柱或C18分级分离自肽移除蛋白质组分。所得肽藉由SpeedVac蒸发变干且在一些情况下,在MS分析之前储存在-20℃下。

干燥的肽在适于逆相层析的HPLC缓冲液中复原且装载于C-18微毛细管HPLC管柱上,以便在Fusion Lumos质谱仪(Thermo)中梯度洗脱。在Orbitrap检测器中以高分辨率收集肽质量/电荷(m/z)的MS1谱,随后在经选择的离子的HCD片段化后,在离子阱检测器中收集MS2低分辨率扫描。另外,可使用CID或ETD片段化方法或三种技术的任何组合来获得MS2谱,以达到肽的更大的氨基酸覆盖率。MS2谱也可在Orbitrap检测器中以高分辨率质量精度测量。

使用Comet(61,62)对来自各分析的MS2谱进行蛋白质数据库搜寻,且使用Percolator(63-65)对肽鉴定进行评分。

VIII.B.1.支持综合HLA肽测序的MS检测极限研究.

使用肽YVYVADVAAK,使用装载于LC管柱上的不同量的肽确定检测极限。所测试的肽的量为1pmol、100fmol、10fmol、1fmol及100amol。(表1)结果展示于图1F中。此等结果表明,最低检测极限(LoD)在埃莫耳范围(10-18)中,动态范围跨越五个数量级,且信号噪声比足以在低飞莫耳范围(10-15)测序。

表1

肽m/z 装载于管柱上 1e9个细胞中的复本/细胞
566.830 1pmol 600
562.823 100fmol 60
559.816 10fmol 6
556.810 1fmol 0.6
553.802 100amol 0.06

IX.呈递模型

IX.A.系统综述

图2A系根据一个实施例,用于鉴定患者中肽呈递的可能性的环境100的概述。环境100提供背景以引入呈递鉴定系统160,其本身包括呈递信息存储器165。

呈递鉴定系统160为一个或多个如以下关于图14所论述体现在计算系统中的计算机模型,其接收与MHC等位基因集合相关的肽序列且确定肽序列将由相关MHC等位基因集合中的一个或多个呈递的可能性。此在各种情形下均有用。呈递鉴定系统160的一个具体使用情况为其能够接收与来自患者110的肿瘤细胞的MHC等位基因集合相关的候选新抗原的核苷酸序列且确定候选新抗原将由肿瘤的相关MHC等位基因中的一个或多个呈递的可能性和/或在患者110的免疫系统中诱导免疫原性反应。可选择由系统160确定的具有高可能性的彼等候选新抗原以包括于疫苗118中,此类抗肿瘤免疫响应可由提供肿瘤细胞的患者110的免疫系统引发。

呈递鉴定系统160经由一个或多个呈递模型来确定呈递可能性。具体而言,呈递模型产生给定肽序列是否将由相关MHC等位基因集合呈递的可能性,且是基于存储在存储器165中的呈递信息产生的。举例而言,呈递模型可产生肽序列「YVYVADVAAK」是否将由等位基因集合HLA-A*02:01、HLA-B*07:02、HLA-B*08:03、HLA-C*01:04、HLA-A*06:03、HLA-B*01:04在样品的细胞表面上呈递的可能性。呈递信息165含有关于肽是否结合于不同类型的MHC等位基因以使得彼等肽由MHC等位基因呈递的信息,其在模型中视肽序列中氨基酸的位置而确定。呈递模型可基于呈递信息165预测未识别的肽序列是否将与相关MHC等位基因集合相关联地呈递。

IX.B.呈递信息

图2展示根据一实施例获得呈递信息的方法。呈递信息165包括两个一般类别的信息:等位基因相互作用信息及等位基因非相互作用信息。等位基因相互作用信息包括影响视MHC等位基因类型而定的肽序列的呈递的信息。等位基因非相互作用信息包括影响与MHC等位基因类型无关的肽序列的呈递的信息。

IX.B.1.等位基因相互作用信息

等位基因相互作用信息主要包括经鉴定的肽序列,已知所述肽序列已由来自人类、小鼠等的一种或多种经鉴定的MHC分子呈递。值得注意的是,此可包括或可不包括获自肿瘤样品的数据。所呈递的肽序列可自表达单个MHC等位基因的细胞鉴定。在此情况下,所呈递的肽序列一般自经工程改造以表达预定MHC等位基因且随后暴露于合成蛋白质的单等位基因细胞系收集。在MHC等位基因上呈递的肽通过诸如酸洗脱的技术分离且经由质谱法鉴定。图2B展示此种情况的实例,其中在预定MHC等位基因HLA-A*01:01上呈递的实例肽YEMFNDKS经分离且经由质谱法鉴定。因为在此情况下,肽是经由经工程改造以表达单个预定MHC蛋白质的细胞来鉴定,所以所呈递的肽及与其结合的MHC蛋白质之间的直接关联为确定已知的。

所呈递的肽序列也可自表达多个MHC等位基因的细胞收集。通常在人体中,细胞表达6种不同类型的MHC分子。如此呈递的肽序列可自经工程改造以表达多个预定MHC等位基因的多等位基因细胞系鉴定。如此呈递的肽序列也可自组织样品(正常组织样品或肿瘤组织样本)鉴定。尤其在此情况下,MHC分子可自正常或肿瘤组织免疫沉淀。呈递于多个MHC等位基因上的肽可类似地藉由诸如酸洗脱的技术分离且经由质谱法鉴定。图2C展示此种情况的实例,其中六种实例肽YEMFNDKSF、HROEIFSHDFJ、FJIEJFOESS、NEIOREIREI、JFKSIFEMMSJDSSU及KNFLENFIESOFI呈递于经鉴定的MHC等位基因HLA-A*01:01、HLA-A*02:01、HLA-B*07:02、HLA-B*08:01、HLA-C*01:03及HLA-C*01:04,经分离且经由质谱法鉴定。与单等位基因细胞系相反,所呈递的肽及与其结合的MHC蛋白质之间的直接关联可为未知的,因为所结合的肽在鉴定之前与MHC分子分离。

等位基因相互作用信息也可包括质谱离子流,其视肽-MHC分子复合物的浓度及肽的离子化效率而定。离子化效率在肽与肽之间以序列依赖性方式变化。一般而言,离子化效率在肽与肽之间在约两个数量级内变化,而肽-MHC复合物的浓度在与的相比较大的范围内变化。

等位基因相互作用信息也可包括给定MHC等位基因与给定肽之间的结合亲和力的测量或预测。一个或多个亲和力模型可产生此类预测。举例而言,回至图1D中所示的实例,呈递信息165可包括肽YEMFNDKSF与等位基因HLA-A*01:01之间的1000nM的结合亲和力预测。IC50>1000nm的肽极少由MHC呈递,且较低IC50值增加呈递机率。

等位基因相互作用信息也可包括对MHC复合物稳定性的测量或预测。一个或多个稳定性模型可产生此类预测。更稳定的肽-MHC复合物(亦即具有较长半衰期的复合物)更可能以高复本数呈递在肿瘤细胞及遭遇疫苗抗原的抗原呈递细胞上。举例而言,回至图2C中所示的实例,呈递信息165可包括分子HLA-A*01:01的半衰期为1小时的稳定性预测。

等位基因相互作用信息也可包括经测量或经预测的肽-MHC复合物形成反应速率。以较高速率形成的复合物更可能以高浓度呈递在细胞表面上。

等位基因相互作用信息也可包括肽的序列及长度。MHC I类分子通常偏好呈递长度在8与15个肽之间的肽。60-80%的呈递肽的长度为9。来自数个细胞系的呈递肽长度的直方图展示于图5中。

等位基因相互作用信息也可包括新抗原编码肽上激酶序列基序的存在,及新抗原编码肽上特异性翻译后修饰的不存在或存在。激酶基序的存在影响翻译后修饰的机率,翻译后修饰可增强或干扰MHC结合。

等位基因相互作用信息也可包括翻译后修饰过程中所涉及的蛋白质(例如激酶)的表达或活性水平(如由RNA seq、质谱法或其他方法测量或预测)。

等位基因相互作用信息也可包括来自表达特定MHC等位基因的其他个体的细胞中具有类似序列的肽的呈递机率,如藉由质谱蛋白质组学或其他手段评定。

等位基因相互作用信息也可包括所讨论的个体中特定MHC等位基因的表达量(例如藉由RNA-seq或质谱所测量)。与高水平表达的MHC等位基因结合最强的肽比与低水平表达的MHC等位基因结合最强的肽更可能被呈递。

等位基因相互作用信息也可包括表达特定MHC等位基因的其他个体中由特定MHC等位基因呈递的总体新抗原编码肽序列独立性机率。

等位基因相互作用信息也可包括在其他个体中由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递的总体肽序列独立性机率。举例而言,HLA-C分子通常以低于HLA-A或HLA-B分子的水平表达,且因此,由HLA-C呈递肽凭经验比由HLA-A或HLA-B 11呈递的可能性低。

等位基因相互作用信息也可包括特定MHC等位基因的蛋白质序列。

以下部分列出的任何MHC等位基因非相互作用信息也可经模型化为MHC等位基因相互作用信息。

IX.B.2.等位基因非相互作用信息

等位基因非相互作用信息可包括在其源蛋白序列内侧接新抗原编码肽的C端序列。C端侧接序列可影响肽的蛋白酶体加工。然而,在将肽转运至内质网且遇到细胞表面上的MHC等位基因之前,C端侧接序列由蛋白酶体自肽裂解。因此,MHC分子不接收关于C端侧接序列的信息,且因此,C端侧接序列的效应无法视MHC等位基因类型而变化。举例而言,回至图2C中所示的实例,呈递信息165可包括自肽的源蛋白鉴定的呈递肽FJIEJFOESS的C端侧接序列FOEIFNDKSLDKFJI。

等位基因非相互作用信息也可包括mRNA定量测量。举例而言,可获得提供质谱训练数据的相同样品的mRNA定量数据。如稍后参照图13H所述,RNA表达经鉴定为肽呈递的强预测因子。在一个实施例中,mRNA定量测量系自软件工具RSEM鉴定。RSEM软件工具的具体实施可见于Bo Li及Colin N.Dewey.RSEM:accurate transcript quantification fromRNA-Seq data with or without a reference genome.BMC Bioinformatics,12:323,2011年8月。在一个实施例中,mRNA定量系以片段/千碱基转录物/百万定位读段(FPKM)为单位测量。

等位基因非相互作用信息也可包括在其源蛋白序列内侧接肽的N端序列。

等位基因非相互作用信息也可包括肽中蛋白酶裂解基序的存在,任选地根据肿瘤细胞中相应蛋白酶的表达加权(如藉由RNA-seq或质谱法所测量)。含有蛋白酶裂解基序的肽不大可能呈递,因为其将更容易由蛋白酶降解,且因此在细胞内会更不稳定。

等位基因非相互作用信息也可包括在适当细胞类型中所测量的源蛋白的周转率。较快周转率(亦即较低半衰期)增加呈递机率;然而,若在不同细胞类型中测量,则此特征的预测能力较低。

等位基因非相互作用信息也可包括源蛋白的长度,任选地考虑在肿瘤细胞中最高度表达的特异性剪接变体(「同功异型物」),如藉由RNA-seq或蛋白质组质谱法所测量,或如由DNA或RNA序列数据中所检测的生殖系或体细胞剪接突变的批注所预测。

等位基因非相互作用信息也可包括蛋白酶体、免疫蛋白酶体、胸腺蛋白酶体或其他蛋白酶在肿瘤细胞中的表达量(其可藉由RNA-seq、蛋白质组质谱法或免疫组织化学测量)。不同的蛋白酶体具有不同的裂解位点偏好。将赋予与其表达量成比例的各类型蛋白酶体的裂解偏好较大的权重。

等位基因非相互作用信息也可包括肽的源基因的表达(例如,如藉由RNA-seq或质谱法所测量)。可能的优化包括调节所测量的表达以考虑肿瘤样品内基质细胞及肿瘤浸润性淋巴球的存在。来自较高度表达的基因的肽更可能被呈递。来自表达量不可检测的基因的肽可排除考虑。

等位基因非相互作用信息也可包括新抗原编码肽的源mRNA将经受无义介导的衰变的机率,如由无义介导的衰变的模型(例如来自Rivas等人,Science 2015的模型)所预测。

等位基因非相互作用信息也可包括肽的源基因在细胞周期的各种阶段期间的典型组织特异性表达。以总体低水平表达(如藉由RNA-seq或质谱蛋白质组学所测量)但已知在细胞周期的特定阶段期间以高水平表达的基因相比以极低水平稳定表达的基因可能产生更多呈递肽。

等位基因非相互作用信息也可包括源蛋白的综合特征目录,如例如uniProt或PDBhttp://www.rcsb.org/pdb/home/home.do中可所给出。此等特征可尤其包括:蛋白质的二级及三级结构、亚细胞定位11、基因本体(GO)项。具体而言,此信息可含有在蛋白质水平起作用的批注(例如5'UTR长度),及在特定残基水平起作用的批注(例如残基300与310之间的螺旋基序)。此等特征也可包括转角基序、折迭基序及无序残基。

等位基因非相互作用信息也可包括描述含有肽的源蛋白的域特性,例如:二级或三级结构(例如α螺旋对β折迭);替代性剪接。

等位基因非相互作用信息也可包括描述在肽的源蛋白中在肽的位置处存在或不存在呈递热点的特征。

等位基因非相互作用信息也可包括在其他个体中由所讨论的肽的源蛋白呈递肽的机率(在调节彼等个体中源蛋白的表达量及彼等个体的不同HLA类型的影响之后)。

等位基因非相互作用信息也可包括由于技术偏差,肽将不会由质谱法检测到或过量表示的机率。

如藉由基因表达分析(诸如RNASeq)、微数组、靶向组(诸如Nanostring)所测量的各种基因模块/途径的表达,或藉由诸如RT-PCR的分析(其无需含有肽的源蛋白)测量的基因模块的单/多基因代表,提供关于肿瘤细胞、基质或肿瘤浸润性淋巴球(TIL)状态的信息。

等位基因非相互作用信息也可包括肽的源基因在肿瘤细胞中的复本数。举例而言,来自肿瘤细胞中经受纯合缺失的基因的肽可经指定呈递机率为零。

等位基因非相互作用信息也可包括肽与TAP结合的机率或肽与TAP的经测量或经预测的结合亲和力。更可能与TAP结合的肽或以较高亲和力结合TAP的肽更可能被呈递。

等位基因非相互作用信息也可包括TAP在肿瘤细胞中的表达量(其可藉由RNA-seq、蛋白质组质谱法、免疫组织化学测量)。较高TAP表达量增加所有肽呈递的机率。

等位基因非相互作用信息也可包括存在或不存在肿瘤突变,其包括(但不限于):

i.已知癌症驱动基因(诸如EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3)中的驱动突变

ii.在编码抗原呈递机制中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体组分的基因中的任一者)中。呈递依赖于肿瘤中经受功能丧失性突变的抗原呈递机制的组分的肽具有降低的呈递机率。

存在或不存在功能性生殖系多形现象,其包括(但不限于):

i.在编码抗原呈递机制中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体组分的基因中的任一者)中

等位基因非相互作用信息也可包括肿瘤类型(例如NSCLC、黑素瘤)。

等位基因非相互作用信息也可包括HLA等位基因的已知功能,如由例如HLA等位基因后缀所反映。举例而言,等位基因名称HLA-A*24:09N中的N后缀指示未表达且因此不可能呈递表位的剔除式等位基因;完整HLA等位基因后缀命名法描述于https://www.ebi.ac.uk/ipd/imgt/hla/nomenclature/suffixes.html。

等位基因非相互作用信息也可包括临床肿瘤亚型(例如鳞状肺癌对非鳞状)。

等位基因非相互作用信息也可包括吸烟史。

等位基因非相互作用信息也可包括晒伤史、太阳曝晒史或暴露于其他诱变剂的历史。

等位基因非相互作用信息也可包括肽的源基因在相关肿瘤类型或临床亚型中的典型表达,任选地藉由驱动突变分层。通常在相关肿瘤类型中以高水平表达的基因更可能被呈递。

等位基因非相互作用信息也可包括所有肿瘤中、或相同类型的肿瘤中、或具有至少一个共享MHC等位基因的个体的肿瘤中、或具有至少一个共享MHC等位基因的个体的相同类型的肿瘤中的突变频率。

在突变的肿瘤特异性肽的情况下,用于预测呈递机率的特征列表也可包括突变的批注(例如误义、通读、移码、融合等)或预测突变是否导致无义介导的衰变(NMD)。举例而言,由于纯合早期终止突变而在肿瘤细胞中不翻译的蛋白质区段的肽可经指定呈递机率为零。NMD使得mRNA翻译降低,其降低呈递机率。

IX.C.呈递鉴定系统

图3系说明根据一个实施例的呈递鉴定系统160的计算机逻辑组件的高级框图。在此示例实施例中,呈递鉴定系统160包括数据管理模块312、编码模块314、训练模块316及预测模块320。呈递鉴定系统160亦由训练数据存储器170及呈递模型存储器175构成。模型管理系统160的一些实施例具有与此处所述不同的模块。类似地,功能可以不同于此处描述的方式分布于模块当中。

IX.C.1.数据管理模块

数据管理模块312自呈递信息165产生数组训练数据170。每组训练数据含有多个数据实例,其中每个数据实例i含有一组自变量zi,其包括至少一个经呈递或未经呈递的肽序列pi、一个或多个与该肽序列pi相关联的相关MHC等位基因ai;及一个因变量yi,其表示呈递鉴定系统160有意预测自变量的新值的信息。

在本说明书其余部分通篇提及的一个特定实施方式中,因变数yi系一种二元标记,指示肽pi是否经一个或多个相关MHC等位基因ai呈递。不过,应了解,在其他实施方式中,取决于自变量zi,因变量yi可以表示呈递鉴定系统160有意进行预测的任何其他种类的信息。举例而言,在另一实施方式中,因变数yi也可为指示所鉴定的数据实例的质谱离子电流的数值。

数据实例i的肽序列pi系具有ki个氨基酸的序列,其中ki可以随数据实例i而在一定范围内变化。举例而言,该范围对于I类MHC可以为8-15或对于II类MHC为9-30。在系统160的一个特定实施方式中,一个训练数据集中的所有肽序列pi可以具有相同长度,例如9。肽序列中的氨基酸数量可以取决于MHC等位基因的类型(例如人体中的MHC等位基因等)而变化。数据实例i的MHC等位基因ai指示存在的与相应肽序列pi相关联的MHC等位基因。

数据管理模块312也可包括另外的等位基因相互作用变量,诸如与训练数据170中所包含的肽序列pi及相关MHC等位基因ai有关的结合亲和力bi及稳定性si预测值。举例而言,训练数据170可以含有肽pi与ai中指示的相关MHC分子中的每一个之间的结合亲和力预测值bi。作为另一实例,训练数据170可以含有关于ai中指示的MHC等位基因中的每一个的稳定性预测值si

数据管理模块312也可包括等位基因非相互作用变量wi,诸如与肽序列pi有关的C末端侧接序列及mRNA定量测量值。

数据管理模块312亦鉴定未经MHC等位基因呈递的肽序列以产生训练数据170。一般而言,此涉及鉴定源蛋白质的「较长」序列,其包括呈递前的呈递肽序列。当呈递信息含有经工程改造的细胞系时,数据管理模块312鉴定所述细胞所暴露的合成蛋白质中未呈递于所述细胞的MHC等位基因上的一系列肽序列。当呈递信息含有组织样品时,数据管理模块312鉴定呈递肽序列来源的源蛋白质,且鉴定源蛋白质中未呈递于组织样品细胞的MHC等位基因上的一系列肽序列。

数据管理模块312也可利用随机氨基酸序列人工产生肽,且鉴定所产生的序列为不呈递于MHC等位基因上的肽。此可以藉由随机地产生肽序列实现,允许数据管理模块312容易地产生大量不呈递于MHC等位基因上的肽的合成数据。由于实际上MHC等位基因呈递小百分率的肽序列,故合成产生的肽序列极可能不由MHC等位基因呈递,即使所述序列包括在经细胞加工的蛋白质中。

图4说明根据一个实施例的一实例组的训练数据170A。特定地,训练数据170A中的前3个数据实例指示由包含等位基因HLA-C*01:03的单等位基因细胞系得到的肽呈递信息以及3个肽序列QCEIOWARE、FIEUHFWI及FEWRHRJTRUJR。训练数据170A中的第四个数据实例指示由包含等位基因HLA-B*07:02、HLA-C*01:03、HLA-A*01:01的多等位基因细胞系得到的肽信息以及肽序列QIEJOEIJE。第一个数据实例指示肽序列QCEIOWARE未经等位基因HLA-C*01:03呈递。如前两段中所论述,肽序列可以由数据管理模块312随机产生或自呈递肽的源蛋白质鉴定。训练数据170A亦包括肽序列-等位基因对的1000nM的结合亲和力预测值及1小时半衰期的稳定性预测值。训练数据170A亦包括等位基因非相互作用变量,诸如肽FJELFISBOSJFIE的C末端侧接序列及102FPKM的mRNA定量测量值。第四个数据实例指示,肽序列QIEJOEIJE经等位基因HLA-B*07:02、HLA-C*01:03或HLA-A*01:01的一呈递。训练数据170A亦包括有关等位基因中的每一个的结合亲和力预测值及稳定性预测值,以及该肽的C端侧接序列及该肽的mRNA定量测量值。

IX.C.2.编码模块

编码模块314将训练数据170中所包含的信息编码成可以用于产生一个或多个呈递模型的数字表示。在一个实施方式中,编码模块314经预定的20字母氨基酸字母表独热编码序列(例如肽序列或C末端侧接序列)。具体言的,具有ki个氨基酸的肽序列pi表示为具有20·ki个元素的列向量,其中pi 20·(j-1)+1、pi 20·(j-1)+2、…,pi 20·j当中对应于字母表中在该肽序列第j位的氨基酸的单一元素的值为1。另外,其余元素的值为0。举例而言,对于给定字母表{A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y},数据实例i的具有3个氨基酸的肽序列EAF可以由具有60个元素的列向量表示:pi=[0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 00 0]。C末端侧接序列ci,以及MHC等位基因的蛋白质序列dh,及呈递信息中的其他序列数据可以与上文所描述类似的方式编码。

当训练数据170含有氨基酸长度不同的序列时,编码模块314也可藉由添加PAD字符以扩充预定字母表,将所述肽编码成相等长度的向量。举例而言,此可以藉由用PAD字符对该肽序列左侧填充直至该肽序列的长度达到训练数据170中具有最大长度的肽序列来进行。因此,当具有最大长度的肽序列具有kmax个氨基酸时,编码模块314将各序列以数字方式表示为具有(20+1)·kmax个元素的列向量。举例而言,对于扩充的字母表{PAD,A,C,D,E,F,G,H,I,K,L,M,N,P,Q,R,S,T,V,W,Y}及kmax=5的最大氨基酸长度,该具有3个氨基酸的示例肽序列EAF可以由具有105个元素的列向量表示:pi=[1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 00 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 00 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 00 0 0 0 0 0 0 0 0 0 0]。C末端侧接序列ci或其他序列数据可以与上文所描述类似的方式编码。因此,肽序列pi或ci中的每个自变量或每一行表示在该序列特定位置处特定氨基酸的存在。

尽管以上编码序列数据的方法系参照具有氨基酸序列的序列描述,但该方法也可类似地扩展至其他类型的序列数据,诸如DNA或RNA序列数据,及类似序列数据。

编码模块314亦将数据实例i的一个或多个MHC等位基因ai编码为具有m个元素的列向量,其中各元素h=1,2,…,m对应于唯一鉴定的MHC等位基因。对应于所鉴定的数据实例i的MHC等位基因的元素的值为1。另外,其余元素的值为0。举例而言,m=4种唯一鉴定的MHC等位基因类型{HLA-A*01:01,HLA-C*01:08,HLA-B*07:02,HLA-C*01:03}当中对应于多等位基因细胞系的数据实例i的等位基因HLA-B*07:02及HLA-C*01:03可以由具有4个元素的列向量表示:ai=[0 0 1 1],其中a3 i=1及a4 i=1。尽管本文中用4种经鉴定的MHC等位基因类型描述实例,但MHC等位基因类型的数量实际上可以为数百种或数千种。如先前所论述,每个数据实例i通常含有至多6种不同的与肽序列pi相关联的MHC等位基因类型。

编码模块314亦将各数据实例i的标记yi编码为具有来自集合{0,1}的值的二元变量,其中值1指示肽xi经相关MHC等位基因ai的一呈递,且值0指示肽xi未经相关MHC等位基因ai中的任一个呈递。当因变量yi表示质谱离子电流时,编码模块314可以另外使用各种函数,诸如对于在[0,∞]之间的离子电流值具有[-∞,∞]的范围的对数函数缩放所述值。

编码模块314可以将有关肽pi及相关MHC等位基因h的一对等位基因相互作用变量xh i表示为列向量,其中等位基因相互作用变量的数字表示系相继地串接。举例而言,编码模块314可以将xh i表示为等于[pi]、[pi bh i]、[pi sh i]或[pi bh i sh i]的列向量,其中bh i系肽pi及相关MHC等位基因h的结合亲和力预测值,且类似地适用于有关稳定性的sh i。或者,等位基因相互作用变量的一个或多个组合可以个别地存储(例如以个别向量或矩阵形式)。

在一个实例中,编码模块314藉由将结合亲和力的测量值或预测值并入等位基因相互作用变量xh i中来表示结合亲和力信息。

在一个实例中,编码模块314藉由将结合稳定性的测量值或预测值并入等位基因相互作用变量xh i中来表示结合稳定性信息。

在一个实例中,编码模块314藉由将结合缔合速率的测量值或预测值并入等位基因相互作用变量xh i中来表示结合缔合速率信息。

在一个实例中,编码模块314将肽长度表示为向量 其中是指针函数,且Lk表示肽pk的长度。向量Tk可以包括在等位基因相互作用变量xh i中。

在一个实例中,编码模块314藉由将基于RNA-seq的MHC等位基因表达量并入等位基因相互作用变量xh i中来表示MHC等位基因的RNA表达信息。

类似地,编码模块314可以将等位基因非相互作用变量wi表示为列向量,其中等位基因非相互作用变量的数字表示系相继地串接。举例而言,wi可以为等于[ci]或[ci mi wi]的列向量,其中wi系表示除肽pi的C末端侧接序列及与该肽有关的mRNA定量测量值mi外的任何其他等位基因非相互作用变量的列向量。或者,等位基因非相互作用变量的一个或多个组合可以个别地存储(例如以个别向量或矩阵形式)。

在一个实例中,编码模块314藉由将转换率或半衰期并入等位基因非相互作用变量wi中来表示源蛋白质的转换率。

在一个实例中,编码模块314藉由将蛋白质长度并入等位基因非相互作用变量wi中来表示源蛋白质或同功异型物的长度。

在一个实例中,编码模块314藉由将包括β1i、β2i、β5i次单元在内的免疫蛋白酶体特异性蛋白酶体次单元的平均表达量并入等位基因非相互作用变量wi中来表示免疫蛋白酶体的活化。

在一个实例中,编码模块314藉由将源蛋白质的丰度并入等位基因非相互作用变量wi中来表示肽的源蛋白质或肽的基因或转录物的RNA-Seq丰度(藉由诸如RSEM的技术,以FPKM、TPM为单位定量)。

在一个实例中,编码模块314藉由将利用例如Rivas等人,Science,2015中的模型估计的肽的源转录物经历无义介导的衰变(NMD)的机率并入等位基因非相互作用变量wi中来表示该机率。

在一个实例中,编码模块314例如藉由使用例如经RNA-Seq评估的路径中每个基因的RSEM,接着计算该路径中所有基因的概括统计量,例如平均值,以TPM为单位定量该路径中基因的表达,以此表示基因模块或路径的活化状态。该平均值可以并入等位基因非相互作用变量wi中。

在一个实例中,编码模块314藉由将复本数并入等位基因非相互作用变量wi中来表示源基因的复本数。

在一个实例中,编码模块314藉由将测量或预测的TAP结合亲和力(例如以奈莫耳浓度为单位)包括在等位基因非相互作用变量wi中来表示TAP结合亲和力。

在一个实例中,编码模块314藉由将利用RNA-seq测量(且藉由例如RSEM以TPM为单位定量)的TAP表达量包括在等位基因非相互作用变量wi中来表示TAP表达量。

在一个实例中,编码模块314在等位基因非相互作用变量wi中将肿瘤突变表示为指针变量的向量(亦即,若肽pk来自具有KRAS G12D突变的样品,则dk=1,否则为0)。

在一个实例中,编码模块314将抗原呈递基因中的生殖系多态性表示为指针变量的向量(亦即,若肽pk来自在TAP中具有物种生殖系多态性的样品,则dk=1)。所述指针变量可以包括在等位基因非相互作用变量wi中。

在一个实例中,编码模块314经肿瘤类型(例如NSCLC、黑素瘤、结肠直肠癌等)的字母表将肿瘤类型表示为长度一独热编码的向量。所述独热编码的变量可以包括在等位基因非相互作用变量wi中。

在一个实例中,编码模块314藉由用不同后缀处理4数字的HLA等位基因来表示MHC等位基因后缀。举例而言,出于该模型的目的,HLA-A*24:09N被视为与HLA-A*24:09不同的等位基因。或者,由于以N后缀结尾的HLA等位基因不表达,故可以将所有肽中经加N后缀的MHC等位基因呈递的机率设定成零。

在一个实例中,编码模块314经肿瘤亚型(例如肺腺癌、肺鳞状细胞癌等)的字母表将肿瘤亚型表示为长度一独热编码的向量。所述独热编码的变量可以包括在等位基因非相互作用变量wi中。

在一个实例中,编码模块314将抽烟史表示为二元指针变量(若患者有抽烟史,则dk=1,否则为0),该变量可以包括在等位基因非相互作用变量wi中。或者,抽烟史可以经抽烟严重程度的字母表编码为长度一独热编码的变量。举例而言,抽烟状态可以在1-5级量表上评级,其中1级指示非抽烟者,且5级指示当前多量抽烟者。由于抽烟史主要与肺肿瘤相关,故当训练有关多个肿瘤类型的模型时,此变量也可定义为当患者有抽烟史时等于1且肿瘤类型系肺肿瘤,否则为0。

在一个实例中,编码模块314将晒伤史表示为二元指针变量(若患者有重度晒伤史,则dk=1,否则为0),该变量可以包括在等位基因非相互作用变量wi中。由于重度晒伤主要与黑素瘤相关,故当训练有关多个肿瘤类型的模型时,此变量也可定义为当患者有重度晒伤史时等于1且肿瘤类型系黑素瘤,否则为0。

在一个实例中,编码模块314藉由使用参考数据库,诸如TCGA将有关人类基因组中各基因或转录物的特定基因或转录物表达量分布表示为表达量分布的概括统计量(例如平均值、中值)。具体言的,对于肿瘤类型为黑素瘤的样品中的肽pk,不仅肽pk的源基因或转录物的经测量基因或转录物表达量包括在等位基因非相互作用变量wi中,而且如藉由TCGA所测量的黑素瘤中肽pk的源基因或转录物的平均和/或中值基因或转录物表达量亦包括在内。

在一个实例中,编码模块314经突变类型(例如错义、移码、NMD诱导等)的字母表将突变类型表示为长度一独热编码的变量。所述独热编码的变量可以包括在等位基因非相互作用变量wi中。

在一个实例中,编码模块314在等位基因非相互作用变量wi中将蛋白质层面的蛋白质特征表示为注释值(例如5'UTR长度)。在另一实例中,编码模块314藉由在等位基因非相互作用变量wi中包括指针变量来表示肽pk的源蛋白质的残基层面的注释,亦即,若肽pk与螺旋基序重迭则等于1,否则等于0,或亦即,若肽pk完全包含在螺旋基序内则等于1。在另一实例中,表示肽pk中包含在螺旋基序注释内的残基的比例的特征可以包括在等位基因非相互作用变量wi中。

在一个实例中,编码模块314将人类蛋白质组中蛋白质或同功异型物的类型表示为指标向量ok,该向量的长度等于人类蛋白质组中蛋白质或同功异型物的数量,且若肽pk来自蛋白质i,则相应元素ok i系1,否则为0。

编码模块314也可将有关肽pi及相关MHC等位基因h的变量zi的总体集合表示为列向量,其中等位基因相互作用变量xi及等位基因非相互作用变量wi的数字表示系相继地串接。举例而言,编码模块314可以将zh i表示为等于[xh i wi]或[Wi xh i]的列向量。

X.训练模块

训练模块316构建一个或多个呈递模型,所述模型产生肽序列是否会由与所述肽序列相关联的MHC等位基因呈递的可能性。具体言的,已知肽序列pk及与该肽序列pk相关联的一组MHC等位基因ak,每个呈递模型产生估计值uk,其指示该肽序列pk将由相关MHC等位基因ak中的一个或多个呈递的可能性。

X.A.综述

训练模块316基于由存储于165中的呈递信息产生的存储于存储器170中的训练数据集构建该一个或多个呈递模型。一般而言,不管呈递模型的具体类型如何,所有所述呈递模型均捕捉训练数据170中自变量与因变量之间的相关性以使损失函数减到最小。具体言的,损失函数表示训练数据170中一个或多个数据实例S的因变量yi∈S值与由呈递模型产生的数据实例S的估计可能性ui∈S之间的偏差。在本说明书其余部分通篇所提及的一个特定实施方式中,损失函数(yi∈S,ui∈S;θ)由以下等式(1a)提供的负对数可能性函数:

不过,实际上可以使用另一损失函数。举例而言,当对质谱离子电流进行预测时,损失函数由以下等式1b提供的均方损失:

呈递模型可以为一种参数模型,其中一个或多个参数θ在数学上指明自变量与因变量之间的相关性。通常,使损失函数(yi∈S,ui∈S;θ)减到最小的参数型呈递模型的各种参数是经由基于梯度的数值优化算法,诸如批量梯度算法、随机梯度算法及类似算法确定。或者,呈递模型可以为一种非参数模型,其中模型结构由训练数据170决定且并不严格基于固定参数集合。

X.B.独立等位基因模型

训练模块316可以在独立等位基因(per-allele)基础上构建呈递模型以预测肽的呈递可能性。在此情况下,训练模块316可以基于由表达单一MHC等位基因的细胞产生的训练数据170中的数据实例S训练呈递模型。

在一个实施方式中,训练模块316藉由下式使特定等位基因h对于肽pk的估计呈递可能性uk模型化:

其中肽序列xh k表示编码的有关肽pk及相应MHC等位基因h的等位基因相互作用变量,f(·)系任何函数且为便于说明,在本文通篇称为变换函数。另外,gh(·)系任何函数,为便于说明,在本文通篇称为相关性函数(dependency function),且基于所测定的MHC等位基因h的一组参数θh产生对于等位基因相互作用变量xh k的相关性评分。有关各MHC等位基因h的参数集合θh的值可以藉由使有关θh的损失函数减到最小来测定,其中i由表达单一MHC等位基因h的细胞产生的训练数据170的子集S中的每一实例。

相关性函数gh(xh k;θh)的输出值表示至少基于等位基因相互作用特征xh k,且特定言的,基于肽pk的肽序列中的氨基酸位置的针对MHC等位基因h的相关性评分,其指示MHC等位基因h是否会存在于相应新抗原中。举例而言,若MHC等位基因h可能呈递肽pk,则有关MHC等位基因h的相关性评分可以具有较高值,且若不可能呈递,则可能具有较低值。变换函数f(·)将输入变换成,且更确切地说,在此情况下将由gh(xh k;θh)产生的相关性评分变换成适当值以指示肽pk会经MHC等位基因呈递的可能性。

在本说明书其余部分通篇提及的一个特定实施方式中,f(·)系对于适当域范围具有在[0,1]内的范围的函数。在一个实例中,f(·)由以下提供的expit函数:

作为另一实例,当域z的值等于或大于0时,f(·)也可为由以下提供的双曲正切函数:

f(z)=tanh(z) (5)

或者,当质谱离子电流的预测值超出范围[0,1]时,f(·)可以为任何函数,诸如恒等函数、指数函数、对数函数及类似函数。

因此,可以藉由将有关MHC等位基因h的相关性函数gh(·)应用于肽序列pk的经编码形式以产生相应相关性评分来产生肽序列pk会经MHC等位基因h呈递的独立等位基因可能性。相关性评分可以藉由变换函数f(·)变换以产生肽序列pk会经MHC等位基因h呈递的独立等位基因可能性。

X.B.1有关等位基因相互作用变量的相关性函数

在本说明书通篇提及的一个特定实施方式中,相关性函数gh(·)由下式提供的仿射函数:

该函数将xh k中的每个等位基因相互作用变数与所测定的相关MHC等位基因h的参数集合θh中的相应参数线性地组合。

在本说明书通篇提及的另一特定实施方式中,相关性函数gh(·)由下式提供的网络函数:

以具有布置在一个或多个层中的一系列节点的网络模型NNh(·)表示。一个节点可以经由连接来连接至其他节点,所述连接各自在参数集合θh中具有相关参数。在一个特定节点处的值可以表示为藉由与该特定节点相关联的激发函数所映像的相关参数加权的连接至该特定节点的节点的值的总和。与仿射函数相比,由于呈递模型可以并入具有不同氨基酸序列长度的非线性及制程数据,故网络模型系有利的。具体言的,经由非线性建模,网络模型可以捕捉在肽序列中不同位置处的氨基酸之间的相互作用及此相互作用如何影响肽呈递。

一般而言,网络模型NNh(·)可以经结构化为前馈网络,诸如人工神经网络(ANN)、回旋神经网络(CNN)、深度神经网络(DNN),和/或循环网络,诸如长短期记忆网络(LSTM)、双向循环网络、深度双向循环网络及类似网络。

在本说明书其余部分通篇所提及的一个实例中,h=1,2,…,m中的每个MHC等位基因与独立网络模型相关,且NNh(·)表示来自与MHC等位基因h相关联的网络模型的输出。

图5说明与任意MHC等位基因h=3相关的示例网络模型NN3(·)。如图5中所示,关于MHC等位基因h=3的网络模型NN3(·)包括在层l=1处的三个输入节点、在层l=2处的四个节点、在层l=3处的两个节点及在层l=4处的一个输出节点。网络模型NN3(·)与一组十个参数θ3(1),θ3(2),…,θ3(10)相关。网络模型NN3(·)接受关于MHC等位基因h=3的三个等位基因相互作用变数x3 k(1)、x3 k(2)及x3 k(3)的输入值(包括经编码的多肽序列数据及所用任何其他训练数据的个别数据实例)且输出值NN3(x3 k)。

在另一实例中,经鉴定的MHC等位基因h=1,2,…,m与单一网络模型NNH(·)相关联,且NNh(·)表示与MHC等位基因h相关联的单一网络模型的一个或多个输出。在此类实例中,参数集合θh可以对应于该单一网络模型的一组参数,且因此,参数集合θh可以为所有MHC等位基因共有的。

图6A说明MHC等位基因h=1,2,…,m共享的示例网络模型NNH(·)。如图6A中所示,该网络模型NNH(·)包括m个输出节点,各自对应于MHC等位基因。网络模型NN3(·)接受有关MHC等位基因h=3的等位基因相互作用变量x3 k并输出m个值,包括对应于MHC等位基因h=3的值NN3(x3 k)。

在又一实例中,单一网络模型NNH(·)可以为在已知MHC等位基因h的等位基因相互作用变量xh k及经编码的蛋白质序列dh情况下,输出相关性评分的网络模型。在此类实例中,参数集合θh可以再次对应于单一网络模型的一组参数,且因此,参数集合θh可以为所有MHC等位基因共享的。因此,在此类实例中,NNh(·)可以表示在该单一网络模型的输入[xh kdh]已知情况下,该单一网络模型NNH(·)的输出。由于训练数据中未知的MHC等位基因的肽呈递机率只能藉由鉴定其蛋白质序列进行预测,故此类网络模型系有利的。

图6B说明MHC等位基因共享的示例网络模型NNH(·)。如图6B中所示,网络模型(·)接受MHC等位基因h=3的等位基因相互作用变量及蛋白质序列作为输入,且输出对应于MHC等位基因h=3的相关性评分NN3(x3 k)。

在又一实例中,相关性函数gh(·)可以表示为:

其中g'h(xh k;θ'h)系具有一组参数θ'h的仿射函数、网络函数或类似函数,其中有关MHC等位基因的等位基因相互作用变量的参数集合中的偏差参数θh 0表示MHC等位基因h的基线呈递机率。

在另一实施方式中,偏差参数θh 0可以为MHC等位基因h的基因家族共享的。亦即,MHC等位基因h的偏差参数θh 0可以等于θ基因(h) 0,其中基因(h)系MHC等位基因h的基因家族。举例而言,MHC等位基因HLA-A*02:01、HLA-A*02:02及HLA-A*02:03可以指定给「HLA-A」基因家族,且所述MHC等位基因中的每一个的偏差参数θh 0可以为共享的。

再回到等式(2),作为一个实例,在使用仿射相关性函数gh(·)鉴定的m=4种不同MHC等位基因中,肽pk会经MHC等位基因h=3呈递的可能性可以由下式产生:

其中x3 k系所鉴定的MHC等位基因h=3的等位基因相互作用变量,且θ3是经由损失函数最小化测定的MHC等位基因h=3的参数集合。

作为另一实例,在使用独立网络变换函数gh(·)鉴定的m=4种不同MHC等位基因当中,肽pk会经MHC等位基因h=3呈递的可能性可以藉由下式产生:

其中x3 k系所鉴定的MHC等位基因h=3的等位基因相互作用变数,且θ3系所测定的与MHC等位基因h=3相关联的网络模型NN3(·)的参数集合。

图7说明使用示例网络模型NN3(·)产生与MHC等位基因h=3相关联的肽pk的呈递可能性。如图7中所示,网络模型NN3(·)接受有关MHC等位基因h=3的等位基因相互作用变量x3 k并产生输出NN3(x3 k)。该输出经函数f(·)映像以产生估计的呈递可能性uk

X.B.2.具有等位基因非相互作用变量的独立等位基因

在一个实施方式中,训练模块316并入等位基因非相互作用变量且藉由下式使肽pk的估计呈递可能性uk模型化:

其中wk表示关于肽pk的经编码等位基因非相互作用变数,gw(·)是基于所测定的等位基因非相互作用变数wk的一组参数θw的有关等位基因非相互作用变量的函数。具体言的,有关各MHC等位基因h的参数集合θh及有关等位基因非相互作用变量的参数集合θw的值可以藉由使关于θh及θw的损失函数减到最小来测定,其中i由表达单一MHC等位基因的细胞产生的训练数据170的子集S中的每一实例。

相关性函数gw(wk;θw)的输出表示基于等位基因非相互作用变量的影响进行的等位基因非相互作用变量的相关性评分,其指示肽pk是否会经一个或多个MHC等位基因呈递。举例而言,若肽pk与已知会积极地影响肽pk的呈递的C末端侧接序列相关,则等位基因非相互作用变量的相关性评分可能具有较高值,且若肽pk与已知会不利地影响肽pk的呈递的C末端侧接序列相关,则可能具有较低值。

根据等式(8),肽序列pk会经MHC等位基因h呈递的独立等位基因可能性可以藉由将有关MHC等位基因h的函数gh(·)应用于肽序列pk的经编码形式以产生等位基因相互作用变量的相应相关性评分来产生。有关等位基因非相互作用变量的函数gw(·)亦应用于等位基因非相互作用变量的经编码形式以产生等位基因非相互作用变量的相关性评分。将两个评分合并,且藉由变换函数f(·)变换该合并的评分以产生肽序列pk会经MHC等位基因h呈递的独立等位基因可能性。

或者,训练模块316可以藉由将等位基因非相互作用变量wk添加至等式(2)中的等位基因相互作用变量xh k中而在预测值中包括等位基因非相互作用变量wk。因此,呈递可能性可以藉由下式得到:

X.B.3有关等位基因非相互作用变量的相关性函数

与有关等位基因相互作用变量的相关性函数gh(·)类似,有关等位基因非相互作用变量的相关性函数gw(·)可以为仿射函数或网络函数,其中独立网络模型与等位基因非相互作用变量wk相关联。

具体言的,相关性函数gw(·)由下式提供的仿射函数:

gw(wk;θw)=wk·θw

该函数将等位基因非相互作用变量wk与参数集合θw中的相应参数线性地组合。

相关性函数gw(·)也可为由下式提供的网络函数:

gh(wk;θw)=NNw(wk;θw),

其由具有参数集合θw中的相关参数的网络模型NNw(·)表示。

在另一实例中,有关等位基因非相互作用变量的相关性函数gw(·)可以由下式提供:

其中g'w(wk;θ'w)系仿射函数、具有等位基因非相互作用参数集合θ'w的网络函数或类似函数,mk系肽pk的mRNA定量测量值,h(·)系变换该定量测量值的函数,且θw m系有关等位基因非相互作用变量的参数集合中的参数,其与该mRNA定量测量值组合以产生mRNA定量测量值的相关性评分。在本说明书其余部分通篇提及的一个特定实施例中,h(·)系对数函数,不过实际上,h(·)可以为多种不同函数中的任一种。

在又一实例中,有关等位基因非相互作用变量的相关性函数gw(·)可以由下式提供:

其中g'w(wk;θ'w)系仿射函数、具有等位基因非相互作用参数集合θ'w的网络函数或类似函数,ok系以上描述的表示人类蛋白质组中有关肽pk的蛋白质及同功异型物的指标向量,且θw o系与指针向量组合的有关等位基因非相互作用变量的参数集合中的一组参数。在一种变化形式中,当ok的维度及参数集合θw o明显较高时,可以在测定参数值时将参数正则项,诸如添加至损失函数中,其中||·||表示L1范数、L2范数、组合或类似物。超参数λ的最佳值可以经由适当方法确定。

再回到等式(8),作为一个实例,在使用仿射变换函数gh(·)、gw(·)鉴定的m=4种不同MHC等位基因中,肽pk会经MHC等位基因h=3呈递的可能性可以由下式产生:

其中wk系所鉴定的有关肽pk的等位基因非相互作用变数,且θw系所测定的等位基因非相互作用变量的参数的集合。

作为另一实例,在使用网络变换函数gh(·)、gw(·)鉴定的m=4种不同MHC等位基因当中,肽pk会经MHC等位基因h=3呈递的可能性可以藉由下式产生:

其中wk系所鉴定的有关肽pk的等位基因相互作用变数,且θw系所测定的等位基因非相互作用变量的参数的集合。

图8说明使用示例网络模型NN3(·)及NNw(·)产生与MHC等位基因h=3相关联的肽pk的呈递可能性。如图8中所示,网络模型NN3(·)接受有关MHC等位基因h=3的等位基因相互作用变量x3 k并产生输出NN3(x3 k)。网络模型NNw(·)接受有关肽pk的等位基因非相互作用变量wk并产生输出NNw(wk)。将所述输出合并并藉由函数f(·)映像以产生估计呈递可能性uk

X.C.多等位基因模型

训练模块316也可在存在两个或两个以上MHC等位基因的多等位基因环境中构建呈递模型以预测肽的呈递可能性。在此情况下,训练模块316可以基于由表达单一MHC等位基因的细胞、表达多个MHC等位基因的细胞或其组合产生的训练数据170中的数据实例S训练呈递模型。

X.C.1.实例1:独立等位基因模型的最大值

在一个实施方式中,训练模块316使与一组多个等位基因H相关联的肽pk的估计呈递可能性uk随基于表达单等位基因的细胞所测定的集合H中每一MHC等位基因h的呈递可能性uk h∈H的变化模型化,如上文结合等式(2)-(11)所描述。具体言的,呈递可能性uk可以为uk h ∈H的任何函数。在一个实施方式中,如等式(12)中所示,该函数系最大函数,且呈递可能性uk可以测定为集合H中每一MHC等位基因h的呈递可能性最大值。

X.C.2.实例2.1:和的函数(Function-of-Sums)模型

在一个实施方式中,训练模块316藉由下式使肽pk的估计呈递可能性uk模型化:

其中元素ah k对于与肽序列pk相关联的多个MHC等位基因H为1且xh k表示编码的有关肽pk及相应MHC等位基因的等位基因相互作用变数。有关每一MHC等位基因h的参数集合θh的值可以藉由使关于θh的损失函数减到最小来测定,其中i由表达单一MHC等位基因的细胞和/或表达多个MHC等位基因的细胞产生的训练数据170的子集S中的每个实例。相关性函数gh可以呈以上X.B.1部分中介绍的相关性函数gh中的任一种的形式。

根据等式(13),肽序列pk会经一个或多个MHC等位基因h呈递的呈递可能性可以藉由将相关性函数gh(·)应用于有关MHC等位基因H中的每一个的肽序列pk的经编码形式以产生等位基因相互作用变量的相应评分来产生。将每个MHC等位基因h的评分合并,且藉由变换函数f(·)变换以产生肽序列pk会经MHC等位基因集合H呈递的呈递可能性。

等式(13)的呈递模型与等式(2)的独立等位基因模型的不同的处在于,每个肽pk的相关等位基因的数量可以大于1。换言的,对于与肽序列pk相关联的多个MHC等位基因H,ah k中多于一个元素的值可以为1。

举例而言,在使用仿射变换函数gh(·)鉴定的m=4种不同MHC等位基因中,肽pk会经MHC等位基因h=2、h=3呈递的可能性可以藉由下式产生:

其中x2 k、x3 k系鉴定的有关MHC等位基因h=2、h=3的等位基因相互作用变数,且θ2、θ3系测定的有关MHC等位基因h=2、h=3的参数集合。

作为另一实例,在使用网络变换函数gh(·)、gw(·)鉴定的m=4种不同MHC等位基因当中,肽pk会经MHC等位基因h=2、h=3呈递的可能性可以藉由下式产生:

其中NN2(·)、NN3(·)系鉴定的有关MHC等位基因h=2、h=3的网络模型,且θ2、θ3系所测定的有关MHC等位基因h=2、h=3的参数集合。

图9说明使用示例网络模型NN2(·)及NN3(·)产生与MHC等位基因h=2、h=3相关联的肽pk的呈递可能性。如图9中所示,网络模型NN2(·)接受有关MHC等位基因h=2的等位基因相互作用变量x2 k并产生输出NN2(x2 k)且网络模型NN3(·)接受有关MHC等位基因h=3的等位基因相互作用变量x3 k并产生输出NN3(x3 k)。将所述输出合并并藉由函数f(·)映像以产生估计呈递可能性uk

X.C.3.实例2.2:利用等位基因非相互作用变量的和的函数模型在一个实施方式中,训练模块316并入等位基因非相互作用变量且藉由下式使肽pk的估计呈递可能性uk模型化:

其中wk表示编码的有关肽pk的等位基因非相互作用变数。具体言的,有关每一MHC等位基因h的参数集合θh及有关等位基因非相互作用变量的参数集合θw的值可以藉由使关于θh及θw的损失函数减到最小来测定,其中i由表达单一MHC等位基因的细胞和/或表达多个MHC等位基因的细胞产生的训练数据170的子集S中的每一实例。相关性函数gw可以呈以上X.B.3部分中介绍的相关性函数gw中的任一种的形式。

因此,根据等式(14),肽序列pk会经一个或多个MHC等位基因H呈递的呈递可能性可以藉由将函数gh(·)应用于有关MHC等位基因H中的每一个的肽序列pk的经编码形式以产生有关每个MHC等位基因h的等位基因相互作用变量的相应相关性评分来产生。有关等位基因非相互作用变量的函数gw(·)亦应用于等位基因非相互作用变量的经编码形式以产生等位基因非相互作用变量的相关性评分。将所述评分合并,且藉由变换函数f(·)变换该合并的评分以产生肽序列pk会经MHC等位基因H呈递的呈递可能性。

在等式(14)的呈递模型中,每个肽pk的相关等位基因的数量可以大于1。换言的,对于与肽序列pk相关联的多个MHC等位基因H,ah k中多于一个元素的值可以为1。

举例而言,在使用仿射变换函数gh(·)、gw(·)鉴定的m=4种不同MHC等位基因中,肽pk会经MHC等位基因h=2、h=3呈递的可能性可以藉由下式产生:

其中wk系所鉴定的有关肽pk的等位基因非相互作用变数,且θw系所测定的等位基因非相互作用变量的参数的集合。

作为另一实例,在使用网络变换函数gh(·)、gw(·)鉴定的m=4种不同MHC等位基因当中,肽pk会经MHC等位基因h=2、h=3呈递的可能性可以藉由下式产生:

其中wk系所鉴定的有关肽pk的等位基因相互作用变数,且θw系所测定的等位基因非相互作用变量的参数的集合。

图10说明使用示例网络模型NN2(·)、NN3(·)产生与MHC等位基因h=2、h=3相关联的肽pk的呈递可能性。如图10中所示,网络模型NN2(·)接受有关MHC等位基因h=2的等位基因相互作用变量x2 k并产生输出NN2(x2 k)。网络模型NN3(·)接受有关MHC等位基因h=3的等位基因相互作用变量x3 k并产生输出NN3(x3 k)。网络模型NNw(·)接受有关肽pk的等位基因非相互作用变量wk并产生输出NNw(wk)。将所述输出合并并藉由函数f(·)映像以产生估计呈递可能性uk

或者,训练模块316可以藉由在等式(15)中将等位基因非相互作用变数wk添加至等位基因相互作用变量xh k而在预测值中包括等位基因非相互作用变量wk。因此,呈递可能性可以藉由下式提供:

X.C.4.实例3.1:使用隐式独立等位基因可能性的模型

在另一实施方式中,训练模块316藉由下式使肽pk的估计呈递可能性uk模型化:

其中元素ah k对于与肽序列pk相关联的多个MHC等位基因h∈H为1,系MHC等位基因h的隐式独立等位基因呈递可能性,向量v系元素vh对应于的向量,s(·)系映像元素v的函数,且r(·)系限幅函数(clipping function),其将输入值削减至给定范围中。如以下更详细地描述,s(·)可以为求和函数或二阶函数,但应了解,在其他实施例中,s(·)可以为任何函数,诸如最大函数。有关隐式独立等位基因可能性的参数集合θ的值可以藉由使关于θ的损失函数减到最小来测定,其中i由表达单一MHC等位基因的细胞和/或表达多个MHC等位基因的细胞产生的训练数据170的子集S中的每个实例。

使等式(17)的呈递模型中的呈递可能性随各自对应于肽pk会经个别MHC等位基因h呈递的可能性的隐式独立等位基因呈递可能性的变化模型化。隐式独立等位基因可能性与X.B部分的独立等位基因呈递可能性的不同的处在于,隐式独立等位基因可能性参数可以自多等位基因环境习得,其中除单等位基因环境外,经呈递的肽与相应MHC等位基因之间的直接关联亦系未知的。因此,在多等位基因环境中,呈递模型不仅可以估计肽pk是否会经作为整体的一组MHC等位基因H呈递,而且也可提供指示最可能呈递肽pk的MHC等位基因h的个别可能性其优势在于,呈递模型可以在不存在有关表达单一MHC等位基因的细胞的训练数据情况下产生隐式可能性。

在本说明书其余部分通篇提及的一个特定实施方式中,r(·)系具有范围[0,1]的函数。举例而言,r(·)可以为限幅函数:

r(z)=min(max(z,0),1),

其中选择z与1之间的最小值作为呈递可能性uk。在另一实施方式中,当域z的值等于或大于0时,r(·)由下式提供的双曲正切函数:

r(z)=tanh(z)。

X.C.5.实例3.2:函数的和模型

在一个特定实施方式中,s(·)系求和函数,且呈递可能性通过对隐式独立等位基因呈递可能性求和得到:

在一个实施方式中,MHC等位基因h的隐式独立等位基因呈递可能性通过下式产生:

由此藉由下式估计出呈递可能性:

根据等式(19),肽序列pk会经一个或多个MHC等位基因H呈递的呈递可能性可以藉由将函数gh(·)应用于有关MHC等位基因H中的每一个的肽序列pk的经编码形式以产生等位基因相互作用变量的相应相关性评分来产生。每个相关性评分先藉由函数f(·)变换以产生隐式独立等位基因呈递可能性将独立等位基因可能性合并,且可以将限幅函数应用于该合并的可能性以将值削减至范围[0,1]中以产生肽序列pk会经MHC等位基因集合H呈递的呈递可能性。相关性函数gh可以呈以上X.B.1部分中介绍的相关性函数gh中的任一种的形式。

举例而言,在使用仿射变换函数gh(·)鉴定的m=4种不同MHC等位基因中,肽pk会经MHC等位基因h=2、h=3呈递的可能性可以藉由下式产生:

其中x2 k、x3 k系鉴定的有关MHC等位基因h=2、h=3的等位基因相互作用变数,且θ2、θ3系测定的有关MHC等位基因h=2、h=3的参数集合。

作为另一实例,在使用网络变换函数gh(·)、gw(·)鉴定的m=4种不同MHC等位基因当中,肽pk会经MHC等位基因h=2、h=3呈递的可能性可以藉由下式产生:

其中NN2(·)、NN3(·)系鉴定的有关MHC等位基因h=2、h=3的网络模型,且θ2、θ3系所测定的有关MHC等位基因h=2、h=3的参数集合。

图11说明使用示例网络模型NN2(·)及NN3(·)产生与MHC等位基因h=2、h=3相关联的肽pk的呈递可能性。如图9中所示,网络模型NN2(·)接受有关MHC等位基因h=2的等位基因相互作用变量x2 k并产生输出NN2(x2 k)且网络模型NN3(·)接受有关MHC等位基因h=3的等位基因相互作用变量x3 k并产生输出NN3(x3 k)。每个输出均藉由函数f(·)映像且合并以产生估计呈递可能性uk

在另一实施方式中,当对质谱离子电流的对数进行预测时,r(·)系对数函数且f(·)是指数函数。

X.C.6.实例3.3:利用等位基因非相互作用变量的函数的和模型

在一个实施方式中,MHC等位基因h的隐式独立等位基因呈递可能性通过下式产生:

由此藉由下式产生呈递可能性:

以并入等位基因非相互作用变量对肽呈递的影响。

根据等式(21),肽序列pk会经一个或多个MHC等位基因H呈递的呈递可能性可以藉由将函数gh(·)应用于有关MHC等位基因H中的每一个的肽序列pk的经编码形式以产生有关每个MHC等位基因h的等位基因相互作用变量的相应相关性评分来产生。有关等位基因非相互作用变量的函数gw(·)亦应用于等位基因非相互作用变量的经编码形式以产生等位基因非相互作用变量的相关性评分。将等位基因非相互作用变数的评分与等位基因相互作用变量的相关性评分中的每一个合并。藉由函数f(·)变换每一合并的评分以产生隐式独立等位基因呈递可能性。将隐式可能性合并,且可以将限幅函数应用于该合并的输出以将值削减至范围[0,1]中以产生肽序列pk会经MHC等位基因H呈递的呈递可能性。相关性函数gw可以呈以上X.B.3部分中介绍的相关性函数gw中的任一种的形式。

举例而言,在使用仿射变换函数gh(·)、gw(·)鉴定的m=4种不同MHC等位基因中,肽pk会经MHC等位基因h=2、h=3呈递的可能性可以藉由下式产生:

其中wk系所鉴定的有关肽pk的等位基因非相互作用变数,且θw系所测定的等位基因非相互作用变量的参数的集合。

作为另一实例,在使用网络变换函数gh(·)、gw(·)鉴定的m=4种不同MHC等位基因当中,肽pk会经MHC等位基因h=2、h=3呈递的可能性可以藉由下式产生:

其中wk系所鉴定的有关肽pk的等位基因相互作用变数,且θw系所测定的等位基因非相互作用变量的参数的集合。

图12说明使用示例网络模型NN2(·)、NN3(·)及NNw(·)产生与MHC等位基因h=2、h=3相关联的肽pk的呈递可能性。如图12中所示,网络模型NN2(·)接受有关MHC等位基因h=2的等位基因相互作用变量x2 k并产生输出NN2(x2 k)。网络模型NNw(·)接受有关肽pk的等位基因非相互作用变量wk并产生输出NNw(wk)。将输出合并并藉由函数f(·)映像。网络模型NN3(·)接受有关MHC等位基因h=3的等位基因相互作用变量x3 k并产生输出NN3(x3 k),再次将该输出与相同网络模型NNw(·)的输出NNw(wk)合并且藉由函数f(·)映像。将两个输出合并以产生估计呈递可能性uk

在另一实施方式中,MHC等位基因h的隐式独立等位基因呈递可能性通过下式产生:

由此藉由下式产生呈递可能性:

X.C.7.实例4:二阶模型

在一个实施方式中,s(·)系二阶函数,且肽pk的估计呈递可能性uk通过下式提供:

其中元素系MHC等位基因h的隐式独立等位基因呈递可能性。有关隐式独立等位基因可能性的参数集合θ的值可以藉由使关于θ的损失函数减到最小来测定,其中i由表达单一MHC等位基因的细胞和/或表达多个MHC等位基因的细胞产生的训练数据170的子集S中的每个实例。隐式独立等位基因呈递可能性可以呈以上描述的等式(18)、(20)及(22)中所示的任何形式。

在一个方面,等式(23)的模型可以暗示存在肽pk会同时经两个MHC等位基因呈递的可能,其中两个HLA等位基因的呈递在统计学上系独立的。

根据等式(23),肽序列pk会经一个或多个MHC等位基因H呈递的呈递可能性可以藉由组合隐式独立等位基因呈递可能性并自总和中减去每对MHC等位基因将同时呈递肽pk的可能性以产生肽序列pk会经MHC等位基因H呈递的呈递可能性来产生。

举例而言,在使用仿射变换函数gh(·)鉴定的m=4种不同HLA等位基因中,肽pk会经HLA等位基因h=2、h=3呈递的可能性可以藉由下式产生:

其中x2 k、x3 k系鉴定的有关HLA等位基因h=2、h=3的等位基因相互作用变数,且θ2、θ3系测定的有关HLA等位基因h=2、h=3的参数集合。

作为另一实例,在使用网络变换函数gh(·)、gw(·)鉴定的m=4种不同HLA等位基因中,肽pk会经HLA等位基因h=2、h=3呈递的可能性可以藉由下式产生:

其中NN2(·)、NN3(·)系所鉴定的有关HLA等位基因h=2、h=3的网络模型,且θ2、θ3系测定的有关HLA等位基因h=2、h=3的参数集合。

XI.A实例5:预测模块

预测模块320接受序列数据且使用呈递模型选择序列数据中的候选新抗原。具体言的,序列数据可以为自患者的肿瘤组织细胞提取的DNA序列、RNA序列和/或蛋白质序列。预测模块320将序列数据处理成多个具有8-15个氨基酸的肽序列pk。举例而言,预测模块320可以将给测序列「IEFROEIFJEF」处理成三个具有9个氨基酸的肽序列,即「IEFROEIFJ」、「EFROEIFJE」及「FROEIFJEF」。在一个实施例中,预测模块320可以藉由将自患者的正常组织细胞提取的序列数据与自患者的肿瘤组织细胞提取的序列数据相比较以鉴定含有一个或多个突变的部分,由此鉴定出呈突变肽序列的新抗原。

呈递模块320将一个或多个呈递模型应用于经处理的肽序列以估计所述肽序列的呈递可能性。具体言的,预测模块320可以藉由将呈递模型应用于候选新抗原来选择一个或多个可能在肿瘤HLA分子上呈递的候选新抗原肽序列。在一个实施方式中,呈递模块320选出估计呈递可能性超过预定阈值的候选新抗原序列。在另一实施方式中,呈递模型选出N个具有最高估计呈递可能性的候选新抗原序列(其中N一般为可以在疫苗中递送的最大表位数量)。包括选择用于给定患者的候选新抗原的疫苗可以注射至患者体内以诱导免疫响应。

XI.B.实例6:盒设计模块

XI.B.1综述

盒设计模块324基于v个选择用于注射至患者体内的候选肽产生疫苗盒序列。具体言的,对于纳入容量v的疫苗中的一组所选肽pk(k=1,2,…,v),盒序列通过串接一系列治疗性表位序列p'k(k=1,2,…,v)来提供,所述表位序列各自包括相应肽pk的序列。在一个实施例中,盒设计模块324可以直接彼此相邻地串接表位。举例而言,疫苗盒C可以表示为:

其中p'ti表示该盒的第i个表位。因此,ti对应于在该盒第i位处所选肽的指数k=1,2,…,v。在另一个实施例中,盒设计模块324可以在相邻表位之间用一个或多个可选接头序列串接表位。举例而言,疫苗盒C可以表示为:

其中l(ti,tj)表示置放于该盒的第i个表位p'ti与第j=i+1个表位p'j=i+1之间的接头序列。盒设计模块324确定在该盒不同位置处布置的所选表位p'k(k=1,2,…,v),以及置放于所述表位之间的接头序列。可以基于本说明书中所描述的方法中的任一种装载盒序列C作为疫苗。

在一个实施例中,可以基于由预测模块320确定的与超过预定阈值的呈递可能性相关联的所选肽产生治疗性表位集合,其中所述呈递可能性由呈递模型测定。然而,应了解,在其他实施例中,可以基于多种方法中的任一种或多种(单独或组合形式),例如基于针对患者的I类或II类HLA等位基因的结合亲和力或预测的结合亲和力、针对患者的I类或II类HLA等位基因的结合稳定性或预测的结合稳定性、随机取样及类似方法产生治疗性表位的集合。

在一个实施例中,治疗性表位p'k可以对应于所选肽pk本身。在另一个实施例中,除所选肽外,治疗性表位p'k也可包括C末端和/或N末端侧接序列。举例而言,盒中所包括的表位p'k可以表示为序列[nk pk ck],其中ck系连接所选肽pk的C末端的C末端侧接序列,且nk系连接至所选肽pk的N末端的N末端侧接序列。在本说明书其余部分通篇提及的一个实例中,N末端及C末端侧接序列系处于源蛋白质环境中的治疗性疫苗表位的天然N末端及C末端侧接序列。在本说明书其余部分通篇提及的一个实例中,治疗性表位p'k表示固定长度的表位。在另一实例中,治疗性表位p'k可以表示可变长度的表位,其中表位的长度可以取决于例如C-或N-侧接序列的长度而变化。举例而言,C末端侧接序列ck及N末端侧接序列nk各自可以2-5个残基的变化的长度,由此产生16种可能的表位p'k选择。

在一个实施例中,盒设计模块324藉由考虑横跨该盒中一对治疗性表位之间的接合点的接合点表位的呈递来产生盒序列。接合点表位由于在该盒中串接治疗性表位及接头序列的过程而在该盒中产生的新颖非自身但不相关的表位序列。接合点表位的新颖序列不同于该盒的治疗性表位本身。跨越表位p'ti及p'tj的接合点表位可以包括与p'ti或p'tj重迭且不同于治疗性表位p'ti及p'tj本身的序列的任何表位序列。具体言的,在存在或不存在可选接头序列l(ti,tj)情况下,该盒的表位p'ti与相邻表位p'tj之间的接合点各自可以与n(ti,tj)接合点表位en (ti,tj)(n=1,2,…,n(ti,tj))相关联。接合点表位可以为与表位p'ti及p'tj两者至少部分重迭的序列,或者可以为与置放于表位p'ti与p'tj之间的接头序列至少部分重迭的序列。接合点表位可以藉由I类MHC、II类MHC或两者呈递。

图13显示两个示例盒序列:盒1(C1)及盒2(C2)。每个盒具有v=2的疫苗容量,且包括治疗性表位p't1=p1=SINFEKL及p't2=p2=LLLLLVVVV,以及在该两个表位之间的接头序列l(t1,t2)=AAY。具体言的,盒C1的序列通过[p1 l(t1,t2)p2]提供,而盒C2的序列通过[p2 l(t1 ,t2)p1]提供。盒C1的示例接合点表位en (1,2)可以为横跨该盒中的表位p'1及p'2两者的序列,诸如EKLAAYLLL、KLAAYLLLLL及FEKLAAYL,且可以为横跨该盒中的接头序列及所选单一表位的序列,诸如AAYLLLLL及YLLLLLVVV。类似地,盒C2的示例接合点表位em (2,1)可以为诸如VVVVAAYSIN、VVVVAAY及AYSINFEK的序列。尽管两个盒涉及相同序列p1,l(c1,c2)及p2集合,但所鉴定的接合点表位集合取决于该盒内治疗性表位的有序序列而不同。

在一个实施例中,盒设计模块324产生降低在患者中呈递接合点表位的可能性的盒序列。具体言的,当将盒注射至患者体内时,接合点表位有可能经患者的I类HLA或II类HLA等位基因呈递,且分别刺激CD8或CD4 T细胞反应。由于T细胞与接合点表位的反应没有治疗益处,且可能因抗原竞争而减弱针对该盒中所选治疗性表位的免疫响应,故此类反应常常系不合需要的。76

在一个实施例中,盒设计模块324迭代一个或多个候选盒,且确定与盒序列相关联的接合点表位的呈递分数低于数字阈值的盒序列。接合点表位呈递分数系与该盒中接合点表位的呈递可能性相关联的量,且较高的接合点表位呈递分数值指示该盒的接合点表位会由I类HLA或II类HLA或两者呈递的可能性较高。

在一个实施例中,盒设计模块324可以确定候选盒序列中与最低接合点表位呈递分数相关联的盒序列。在一个实例中,给定盒序列C的呈递分数是基于分别与该盒C中的接合点相关联的一组距离度量d(en (ti,tj),n=1,2,…,n(ti,tj))=d(ti,tj)确定。具体言的,距离度量d(ti,tj)指明跨越相邻治疗性表位p'ti及p'tj对的一个或多个接合点表位会经呈递的可能性。接着,可以藉由将函数(例如求和、统计函数)应用于有关盒C的距离度量集合来确定盒C的接合点表位呈递分数。在数学上,呈递分数通过以下提供:

其中h(·)系将每一接合点的距离度量映射至评分的某种函数。在本说明书其余部分通篇提及的一个特定实例中,函数h(·)系整个盒距离度量的求和。

盒设计模块324可以迭代一个或多个候选盒序列,确定候选盒的接合点表位呈递分数,且鉴定与低于阈值的接合点表位呈递分数相关联的最佳盒序列。在本说明书其余部分通篇提及的一个特定实施例中,关于给定接合点的距离度量d(·)可以由利用本说明书VII及VIII部分中所描述的呈递模型测定的呈递可能性或经呈递接合点表位的预期数量的总和来提供。然而,应了解,在其他实施例中,距离度量可以由单独或与如以上例示的模型的模型组合的其他因素得到,其中所述其他因素可以包括自以下任一种或多种(单独或组合形式)得出距离度量:对于I类HLA或II类HLA的HLA结合亲和力或稳定性测量值或预测值,及基于HLA质谱或T细胞表位数据训练的有关I类HLA或II类HLA的呈递或免疫原性模型。在一个实施例中,距离度量可以组合关于I类HLA及II类HLA呈递的信息。举例而言,距离度量可以为预测以低于阈值的结合亲和力结合患者的I类HLA或II类HLA等位基因中的任一个的接合点表位的数量。在另一实施例中,距离度量可以为预测会经患者的I类HLA或II类HLA等位基因中的任一个呈递的表位的预期数量。

盒设计模块324可以进一步检查该一个或多个候选盒序列以鉴定候选盒序列中的接合点表位中的任一个是否为设计使用该疫苗的给定患者的自身表位。为实现此目的,盒设计模块324针对已知数据库,诸如母细胞检查接合点表位。在一个实施例中,盒设计模块可以配置成藉由将有关表位ti,tj对的距离度量d(ti,tj)设定为极大值(例如100)来设计避免接合点自身表位的盒,其中将表位ti串接至表位tj的N末端使得形成接合点自身表位。

再回到图13中的实例,盒设计模块324确定(例如)藉由长度对于I类MHC为8至15个氨基酸或对于II类MHC为9至30个氨基酸的所有可能接合点表位en (t1,t2)=en (1,2)的呈递可能性求和提供的盒C1中单一接合点(t1,t2)的距离度量d(t1,t2)=d(1,2)=0.39。由于盒C1中不存在其他接合点,故接合点表位呈递分数亦藉由0.39提供,该评分系有关盒C1的整个距离度量的求和。盒设计模块324亦确定藉由长度对于I类MHC为8至15个或对于II类MHC为9至30个氨基酸的所有可能接合点表位en (t1,t2)=en (2,1)的呈递可能性求和提供的盒C2中单一接合点的距离度量d(t1,t2)=d(2,1)=0.068。在此实例中,亦藉由单一接合点的距离度量0.068提供盒C2的接合点表位呈递分数。盒设计模块324输出C2的盒序列作为最佳盒,因为接合点表位呈递分数低于C1的盒序列。

在一些情况下,盒设计模块324可以执行蛮力方法且迭代全部或大部分可能的候选盒序列以选出具有最小接合点表位呈递分数的序列。然而,由于疫苗容量v增加,此类候选盒的数量可能极大。举例而言,对于v=20个表位的疫苗容量,盒设计模块324必须迭代约1018个可能的候选盒,才能确定具有最低接合点表位呈递分数的盒。对于盒设计模块324在合理的时间量内完成以产生用于患者的疫苗而言,此确定在计算上可能较为繁琐(就所需的计算处理资源而言)且有时难以处理。另外,考虑到每一候选盒的可能接合点表位,甚至可能更为繁琐。因此,盒设计模块324可以基于迭代明显少于蛮力方法中的候选盒序列数量的候选盒数量来选择盒序列。

在一个实施例中,盒设计模块324产生一小组随机产生或至少伪随机产生的候选盒,且选择与低于预定阈值的接合点表位呈递分数相关联的候选盒作为盒序列。另外,盒设计模块324可以自该小组中选择具有最低接合点表位呈递分数的候选盒作为盒序列。举例而言,盒设计模块324可以针对一组v=20个所选表位产生一小组约1百万个候选盒,且选出具有最小接合点表位呈递分数的候选盒。尽管产生一小组随机盒序列并自该小组中选出具有低接合点表位呈递分数的盒序列可能不如蛮力方法好,但其需要明显较少的计算资源,由此使其实施在技术上为可实行的。另外,相对于此种更高效的技术,执行蛮力法可能仅引起接合点表位呈递分数的微小或甚至可忽略的改良,因此,由资源分配的观点看,蛮力法系不值得实施的。

在另一个实施例中,盒设计模块324藉由将盒的表位序列用非对称旅行商问题(TSP)公式表示来确定改良的盒结构。根据节点清单及每对节点之间的距离,TSP确定与最短总距离相关联的节点的序列以访问每个节点恰好一次且返回至原始节点。举例而言,根据城市A、B及C且已知彼此之间的距离,TSP的解决方案产生一个闭合的城市序列,对于该序列,访问每个城市恰好一次所行进的总距离系可能途径当中最短的。TSP的非对称形式确定当一对节点之间的距离不对称时节点的最佳序列。举例而言,自节点A行进至节点B的「距离」可以不同于自节点B行进至节点A的「距离」。

盒设计模块324藉由解决非对称TSP来确定改良的盒序列,其中每一节点对应于一个治疗性表位p'k。自对应于表位p'k的节点对应于表位p'm的另一节点的距离通过接合点表位距离度量d(k,m)提供,而自对应于表位p'm的节点至对应于表位p'k的节点的距离由可能不同于距离度量d(k,m)的距离度量d(m,k)提供。藉由使用非对称TSP解决改良的最佳盒,盒设计模块324可以寻找使所有在该盒的表位之间的接合点的呈递分数降低的盒序列。非对称TSP解决方案指示对应于应当在盒中串接表位以使该盒的所有接合点的接合点表位呈递分数减到最小的次序的治疗性表位序列。具体言的,已知治疗性表位集合k=1,2,…,v,盒设计模块324确定该盒中每一对可能的有序治疗性表位的距离度量d(k,m),k,m=1,2,…,v。换言的,对于给定的表位对k,m,确定在表位p'k之后串接治疗性表位p'm的距离度量d(k,m)及在表位p'm之后串接治疗性表位p'k的距离度量d(m,k),因为所述距离度量可能彼此不同。

在一个实施例中,盒设计模块324经由整数线性规划问题来解决非对称TSP。具体言的,盒设计模块324产生藉由以下提供的(v+1)×(v+1)路径矩阵P:

v×v矩阵D系一种非对称距离矩阵,其中每个元素D(k,m)(k=1,2,…,v;m=1,2,…,v)对应于自表位p'k至表位p'm的接合点的距离度量。P的列k=2,…,v对应于原始表位的节点,而第1列及第1行对应于「重像节点(ghost node)」,该节点与所有其他节点的距离为零。将「重像节点」添加至矩阵中编码疫苗盒系线性而非圆形的概念,因此在第一个与最后一个表位之间不存在接合点。换言的,该序列并非圆形,且假定在该序列中,第一个表位并未串接在最后一个表位之后。使xkm表示二元变量,若存在有向路径(亦即,该盒中的表位-表位接合点),其中表位p'k串接至表位p'm的N末端,则其值为1,否则为0。此外,使E表示所有v个治疗性疫苗表位的集合,且使表示表位的子集。对于任何此类子集S,使out(S)表示表位-表位接合点的数量xkm=1,其中k系S中的表位且m系E\S中的表位。根据已知路径矩阵P,盒设计模块324发现解决以下整数线性规划问题的路径矩阵X:

其中Pkm表示路径矩阵P的元素P(k,m),满足以下限制条件:

xkk=0,k=1,2,...,v+1

out(S)≥1,2≤|S|≤|V|/2。

前两条限制条件保证每个表位在该盒中恰好呈递一次。最后一个限制条件确保该盒系连接的。换言的,由x编码的盒系连接的线性蛋白质序列。

等式(27)的整数线性规划问题中有关xkm(k,m=1,2,…,v+1)的解答指示可以用于推断低于接合点表位的呈递分数的该盒的一个或多个治疗性表位序列的节点及重像节点的闭合序列。具体言的,值xkm=1指示存在自节点k至节点m的「路径」,或换言的,在改良的盒序列中,治疗性表位p'm应当串接在治疗性表位p'k之后。xkm=0的解答指示不存在此类路径,或换言的,在改良的盒序列中,治疗性表位p'm不应串接在治疗性表位p'k之后。总起来说,等式(27)的整数规划问题中的值xkm表示节点及重像节点的序列,其中路径输入且存在每个节点恰好一次。举例而言,值x重像,1=1、x13=1、x32=1及x2,重像=1(否则为0)可以指示节点及重像节点的序列重像→1→3→2→重像。

一旦解决该序列,即自该序列删除重像节点以产生仅具有对应于该盒中的治疗性表位的原始节点的改进序列。该改进序列指示应当在该盒中串接所选表位以改善呈递分数的次序。举例而言,由前一段中的实例继续,可以删除重像节点以产生改进序列1→3→2。该改进序列指示在该盒中串接表位的一种可能方式,即p1→p3→p2

在一个实施例中,当治疗性表位p'k系可变长度表位时,盒设计模块324确定对应于不同长度的治疗性表位p'k及p'm的候选距离度量,并鉴定距离度量d(k,m)作为最小候选距离度量。举例而言,表位p'k=[nk pk ck]及p'm=[nm pm cm]可以各自包括可在(在一个实施例中)2-5个氨基酸间变化的相应N末端及C末端侧接序列。因此,基于置放于接合点中的4个可能的nk长度值及4个可能的cm长度值,表位p'k与p'm之间的接合点与16组不同的接合点表位相关联。盒设计模块324可以确定每组接合点表位的候选距离度量,并确定距离度量d(k,m)作为最小值。盒设计模块324接着可以构建路径矩阵P并解决等式(27)中的整数线性规划问题以确定盒序列。

相较于随机取样方法,使用整数规划问题解决盒序列需要测定分别对应于疫苗中的一对治疗性表位的v×(v-1)距离度量。相较于随机取样方法,经由此方法确定的盒序列可以产生具有明显较少接合点表位呈递的序列,同时可能需要明显较少的计算资源,尤其是在所产生的候选盒序列数量很大时。

XI.B.2.藉由随机取样与非对称TSP产生的盒序列的接合点表位呈递的比较

藉由随机取样1,000,000个排列(盒序列C1)及藉由解决等式(27)中的整数线性规划问题(盒序列C2)产生两个包括v=20个治疗性表位的盒序列。基于等式(14)中所描述的呈递模型确定距离度量,且因此确定呈递分数,其中f系S型函数,xh i系肽pi的序列,gh(·)系神经网络函数,w包括侧接序列、肽pi的每百万条读段中每一千个碱基的转录本数(transcripts per kilobase million,TPM)的对数、肽pi的蛋白质的抗原性及肽pi的起源的样品ID,且侧接序列及log TPM的gw(·)分别为神经网络函数。神经网络函数gh(·)各自包括含一个隐藏层的多层感知器(MLP)的一个输出节点,其具有输入维度231(11个残基×21个字符/残基,包括填充字符在内)、宽度256、隐藏层中的修正线性单元(ReLU)激活函数、输出层中的线性激活函数,及训练数据集中每个HLA等位基因一个输出节点。侧接序列的神经网络函数系含一个隐藏层的MLP,其具有输入维度210(N末端侧接序列的5个残基+C末端侧接序列的5个残基×21个字符/残基,包括填充字符在内)、宽度32、隐藏层中的ReLU激活函数及输出层中的线性激活函数。RNA log TPM的神经网络函数系含一个隐藏层的MLP,其具有输入维度1、宽度16、隐藏层中的ReLU激活函数及输出层中的线性激活函数。构建HLA等位基因HLA-A*02:04、HLA-A*02:07、HLA-B*40:01、HLA-B*40:02、HLA-C*16:02及HLA-C*16:04的呈递模型。比较指示该两个盒序列的预期经呈递接合点表位数量的呈递分数。结果显示,藉由解决等式(27)产生的盒序列的呈递分数相对于藉由随机取样产生的盒序列的呈递分数有约4倍改良。

具体言的,v=20个表位通过以下提供:

在第一个实例中,用该20个治疗性表位随机产生1,000,000个不同的候选盒序列。产生所述候选盒序列各自的呈递分数。经鉴定具有最低呈递分数的候选盒序列为:

且具有预期数量的经呈递接合点表位的呈递分数为6.1。该1,000,000个随机序列的中值呈递分数系18.3。实验显示,可以藉由鉴定随机取样的盒当中的盒序列,明显减少经呈递的接合点表位的预期数量。

在第二个实例中,藉由解决等式(27)中的整数线性规划问题来鉴定盒序列C2。具体言的,测定一对治疗性表位之间每一可能接合点的距离度量。使用所述距离度量解答有关整数规划问题的解决方案。藉由此方法鉴定的盒序列系:

且呈递分数为1.7。盒序列C2的呈递分数相对于盒序列C1的呈递分数显示约4倍改良,且相对于该1,000,000个随机产生的候选盒的中值呈递分数显示约11倍改良。在2.30GHz Intel Xeon E5-2650 CPU的单个线程上,用于产生盒C1的运行时间系20秒。在相同CPU的单个线程上,用于产生盒C2的运行时间系1秒。因此,在此实例中,藉由解决等式(27)的整数规划问题鉴定的盒序列以降低20倍的计算成本产生约4倍优化的解决方案。

结果显示,相较于由随机取样鉴定的盒序列,整数规划问题有可能以较少的计算资源可能地提供经呈递接合点表位数量较少的盒序列。

XI.B.3.藉由MHCflurry与呈递模型产生的用于盒序列选择的接合点表位呈递的比较

在本实例中,包括v=20个治疗性表位的盒序列通过随机取样1,000,000个排列,及藉由解决等式(27)中的整数线性规划问题产生,其中该表位是基于肿瘤/正常外显子组测序、肿瘤转录组测序及肺癌样品的HLA分型来选择。基于藉由MHCflurry预测的接合点表位数量确定距离度量且因此确定呈递分数,MHCflurry系以低于多种阈值(例如50-1000nM或更高,或更低)的亲和力结合患者的HLA的HLA-肽结合亲和力预测器。在本实例中,选作治疗性表位的20个非同义体细胞突变选自根据以上XI.B部分中的呈递模型,藉由对突变排序而在肿瘤样品中鉴定的98个体细胞突变。然而,应了解,在其他实施例中,可以基于其他标准选择治疗性表位;诸如基于稳定性的标准,或诸如呈递分数、亲和力诸如此类标准的组合。此外,还应了解,用于对疫苗中所包括的治疗性表位区分优先级的标准不必与用于确定盒设计模块324中使用的距离度量D(k,m)的标准相同。

患者的I类HLA等位基因系HLA-A*01:01、HLA-A*03:01、HLA-B*07:02、HLA-B*35:03、HLA-C*07:02、HLA-C*14:02。

具体言的,在本实例中,v=20个治疗性表位系

下表中自本实例得到的结果比较了如经由三种示例方法所发现的藉由MHCflurry预测以低于阈值栏中的值的亲和力结合患者的HLA的接合点表位的数量(其中nM表示奈莫耳浓度)。对于第一种方法,经由以上描述的旅行商问题(ATSP)公式发现具有1秒运行时间的最佳盒。对于第二种方法,优化盒通过取得在1百万个随机样品之后发现的最佳盒确定。对于第三种方法,在该1百万个随机样品中发现接合点表位的中值数量。

本实例的结果说明,可以使用多种标准中的任一种鉴定给定盒设计是否满足设计要求。具体言的,如藉由先前实例所展示,自许多候选物选出的盒序列可以藉由具有最低接合点表位呈递分数或至少低于所鉴定的阈值的此类评分的盒序列指定。此实例表示,可以使用另一标准,诸如结合亲和力,指明给定盒设计是否满足设计要求。对于此标准,可以设定临限结合亲和力(例如50-1000,或更大或更小),指明盒设计序列应具有少于某一临限数量的超过阈值(例如0)的接合点表位,且可以使用多种方法中的任一种(例如表中所示的方法一至三)鉴定给定候选盒序列是否满足所述要求。所述示例方法进一步说明,取决于所用方法,可能需要设定不同的阈值。可以设想其他标准,诸如基于稳定性的标准,或诸如呈递分数、亲和力诸如此类的标准的组合。

在另一实施例中,使用相同HLA类型及来自此部分(XI.C)中先前内容的20个治疗性表位,而非使用基于结合亲和力预测的距离度量来产生相同盒,关于表位m,k的距离度量是经预测患者的I类HLA等位基因会以超过一系列阈值的呈递机率(在0.005与0.5机率之间,或更高,或更低)呈递的跨越m至k接合点的肽的数量,其中呈递机率由以上XI.B部分中的呈递模型确定。本实例进一步说明认为可以用于鉴定给定候选盒序列是否满足用于疫苗的设计要求的标准的广度。

以上实例已鉴定出用于确定候选盒序列是否满足设计要求的标准可以随实施方式变化。所述实例分别说明,高于或低于标准的接合点表位数量的计数可以为确定候选盒序列是否满足该标准时使用的计数。举例而言,若标准系满足或超过对于HLA的临限结合亲和力的表位的数量,则候选盒序列具有大于还是少于该数量可以确定该候选盒序列是否满足用作选择用于疫苗的盒的标准。若该标准系超过临限呈递可能性的接合点表位的数量,则情况类似。

然而,在其他实施例中,可执行除计数外的计算以确定候选盒序列是否满足设计标准。举例而言,实际上可以测定超过或低于阈值的接合点表位的比例,例如是否顶部X%的接合点表位具有超过某一阈值Y的呈递可能性,或是否X%的接合点表位具有小于或大于Z nM的HLA结合亲和力,代替超出/低于某一阈值的表位计数。此等仅为实例,一般而言,标准可以基于任一个别接合点表位的任何属性,或由所述接合点表位中的一些或全部的聚合得到的统计数据。此处,X一般可以为在0与100%之间的任何数(例如75%或更小)且Y可以为在0与1之间的任何值,且Z可以为适合于相关标准的任何数。所述值可以取决于所用模型及标准,以及所用训练数据的质量,凭经验确定。

因此,在某些方面,具有高呈递机率的接合点表位可以经移除;具有低呈递机率的接合点表位可以得到保留;紧密结合的接合点表位,亦即结合亲和力低于1000nM或500nM或某一其他阈值的接合点表位可以经移除;和/或较弱结合的接合点表位,亦即结合亲和力超过1000nM或500nM或某一其他阈值的接合点表位可以得到保留。

尽管以上实例使用以上描述的呈递模型实施方式鉴定出候选序列,但所述原理同样地适用于基于其他类型的模型,诸如基于亲和力、稳定性,诸如此类的模型鉴定盒序列中布置的表位的实施方式。

XII.实例7:显示出示例呈递模型效能的实验结果

基于测试数据T测试以上描述的各种呈递模型的有效性,所述测试数据系未用于训练呈递模型的训练数据170的子集或来自训练数据170的具有与训练数据170类似的变量及数据结构的独立数据集。

指示呈递模型的效能的相关度量系:

其指示正确预测的会在相关HLA等位基因上呈递的肽实例的数量与经预测会在HLA等位基因上呈递的肽实例的数量的比率。在一个实施方式中,若相应可能性估计值ui大于或等于给定阈值t,则预测测试数据T中的肽pi会在一个或多个相关HLA等位基因上呈递。指示呈递模型的效能的另一相关度量系:

其指示正确预测的会在相关HLA等位基因上呈递的肽实例的数量与已知会在HLA等位基因上呈递的肽实例的数量的比率。指示呈递模型的效能的另一相关度量系接收者操作特征曲线(receiver operating characteristic,ROC)的曲线下面积(AUC)。ROC将召回率相对于假阳性率(FPR)作图,FPR由下式提供:

XII.A.基于质谱数据的呈递模型效能与目前先进技术模型的比较

图13A比较如本文中所述的示例呈递模型与目前先进技术模型基于多等位基因质谱数据预测肽呈递的效能结果。结果显示,示例呈递模型在预测肽呈递方面的效能明显优于基于亲和力及稳定性预测的目前先进技术模型。

具体言的,使用仿射相关性函数gh(·)及expit函数f(·),图13A显示为「MS」的示例呈递模型系等式(12)中显示的独立等位基因呈递模型的最大值。示例呈递模型是基于来自IEDB数据集的单等位基因HLA-A*02:01质谱数据的子集(数据集「D1」)(数据可以见于http://www.iedb.org/doc/mhc_ligand_full.zip)及来自IEDB数据集的单等位基因HLA-B*07:02质谱的子集(数据集「D2」)(数据可以见于http://www.iedb.org/doc/mhc_ligand_full.zip)。自训练数据中去除测试集中来自源蛋白质的含有经呈递肽的所有肽,使得该示例呈递模型不是简单地记录经呈递抗原的序列。

图13A中显示为「亲和力」的模型系与目前先进技术模型类似的模型,该模型基于亲和力预测值NETMHCpan预测肽呈递。NETMHCpan的实施方式详细提供于http://www.cbs.dtu.dk/services/NetMHCpan/。图13A中显示为「稳定性」的模型系与目前先进技术模型类似的模型,该模型基于稳定性预测值NETMHCstab预测肽呈递。NETMHCstab的实施方式详细提供于http://www.cbs.dtu.dk/services/NetMHCstab-1.0/。测试数据系来自Bassani-Sternberg数据集的多等位基因JY细胞系HLA-A*02:01及HLA-B*07:02质谱数据的子集(数据集「D3」)(数据可以见于www.ebi.ac.uk/pride/archive/projects/PXD000394)。误差条(如实线所指示)显示95%信赖区间。

如图13A的结果中所示,相对于基于MHC结合亲和力预测值或MHC结合稳定性预测值来预测肽呈递的目前先进技术模型,基于质谱数据训练的示例呈递模型在10%召回率下具有明显较高的PPV值。具体言的,示例呈递模型的PPV比基于亲和力预测值的模型高约14%,且其PPV比基于稳定性预测值的模型高约12%。

所述结果展示,相较于基于MHC结合亲和力或MHC结合稳定性预测值预测肽呈递的目前先进技术模型,示例呈递模型具有明显较佳的效能,即使该示例呈递模型未基于含有经呈递肽的蛋白质序列进行训练。

XII.B.基于T细胞表位数据的呈递模型效能与目前先进技术模型的比较

图13B比较如本文中所述的另一示例呈递模型与目前先进技术模型基于T细胞表位数据预测肽呈递的效能结果。T细胞表位数据含有经细胞表面上的MHC等位基因呈递且由T细胞识别的肽序列。结果显示,即使基于质谱数据训练示例呈递模型,示例呈递模型在预测T细胞表位方面的效能仍明显优于基于亲和力及稳定性预测值的目前先进技术模型。换言的,图13B的结果指示,示例呈递模型不仅在基于质谱测试数据预测肽呈递方面的效能优于目前先进技术模型,而且示例呈递模型在预测实际上由T细胞识别的表位方面的效能亦明显优于目前先进技术模型。由此指示,本文中所提供的多种呈递模型可以更佳地鉴定可能在免疫系统中诱导免疫原性反应的抗原。

具体言的,使用仿射变换函数gh(·)及expit函数f(·),图13B中显示为「MS」示例呈递模型是基于数据集D1的子集训练的等式(2)中显示的独立等位基因呈递模型。自训练数据中去除测试集中来自源蛋白质的含有经呈递肽的所有肽,使得该呈递模型不是简单地记录经呈递抗原的序列。

将所述模型分别应用于测试数据,该测试数据是基于HLA-A*02:01T细胞表位数据的质谱数据的子集(数据集「D4」)(数据可以见于www.iedb.org/doc/tcell full v3.zip)。图13B中显示为「亲和力」的模型系与目前先进技术模型类似的模型,该模型基于亲和力预测值NETMHCpan预测肽呈递,且图13B中显示为「稳定性」的模型系与目前先进技术模型类似的模型,该模型基于稳定性预测值NETMHCstab预测肽呈递。误差条(如实线所指示)显示95%信赖区间。

如图13A的结果中所示,相较于基于MHC结合亲和力或MHC结合稳定性预测值预测肽呈递的目前先进技术模型,基于质谱数据训练的独立等位基因呈递模型在10%召回率下具有明显较高的PPV值,即使该呈递模型未基于含有经呈递肽的蛋白质序列进行训练。具体言的,示例呈递模型的PPV比基于亲和力预测值的模型高约9%,且其PPV比基于稳定性预测值的模型高约8%。

所述结果展示,基于质谱数据训练的示例呈递模型在预测由T细胞识别的表位方面的效能明显优于目前先进技术模型。

XII.C.基于质谱数据的不同呈递模型效能的比较

图13C比较示例和的函数模型(等式(13))、示例函数的和模型(等式(19))及示例二阶模型(等式(23))基于多等位基因质谱数据预测肽呈递的效能结果。结果显示,函数的和模型及二阶模型的效能优于和的函数模型。此系因为和的函数模型暗示,多等位基因环境中的等位基因会干扰彼此的肽呈递,而实际上,肽的呈递系有效地独立的。

具体言的,图13C中标记为「和的S型函数」的示例呈递模型系利用网络相关性函数gh(·)、恒等函数f(·)及expit函数r(·)的和的函数模型。标记为「S型函数的和」的示例模型系利用网络相关性函数gh(·)、expit函数f(·)及恒等函数r(·)的等式(19)中的函数的和模型。标记为「双曲正切」的示例模型系利用网络相关性函数gh(·)、expit函数f(·)及双曲正切函数r(·)的等式(19)中的函数的和模型。标记为「二阶」的示例模型系使用含网络相关性函数gh(·)及expit函数f(·)的等式(18)中显示的隐式独立等位基因呈递可能性形式的等式(23)中的二阶模型。每个模型是基于数据集D1、D2及D3的子集训练。将示例呈递模型应用于测试数据,该测试数据系不与训练数据重迭的数据集D3的随机子集。

如图13C中所示,第一行是指当将各呈递模型应用于测试集时ROC的AUC,第二行是指可能性损失的负对数值,且第三行是指在10%召回率下的PPV。如图13C中所示,呈递模型「S型函数的和」、「双曲正切」及「二阶」的效能在10%召回率下约15-16%的PPV下大致相当,而模型「和的S型函数」的效能在约11%下略微较低。

如先前在X.C.4部分中所论述,结果显示,呈递模型「S型函数的和」、「双曲正切」及「二阶」相较于「和的S型函数」模型具有较高PPV值,因为所述模型正确地解释多等位基因环境中的每个MHC等位基因如何独立地呈递肽。

XII.D.在基于及不基于单等位基因质谱数据训练情况下呈递模型效能的比较

图13D比较利用与不利用单等位基因质谱数据训练的两个示例呈递模型针对多等位基因质谱数据预测肽呈递的效能结果。结果指示,在无单等位基因数据下训练的示例呈递模型的效能与利用单等位基因数据训练的示例呈递模型的效能相当。

示例模型「利用A2/B7单等位基因数据」系利用网络相关性函数gh(·)、expit函数f(·)及恒等函数r(·)的等式(19)中的「S型函数的和」呈递模型。该模型是基于数据集D3的子集以及来自IEDB数据库的多种MHC等位基因的单等位基因质谱数据训练(数据可以见于:http://www.iedb.org/doc/mhc_ligand_full.zip)。示例模型「无A2/B7单等位基因数据」系相同模型,但基于多等位基因D3数据集的子集训练,无等位基因HLA-A*02:01及HLA-B*07:02的单等位基因质谱数据,而是利用其他等位基因的单等位基因质谱数据。在多等位基因训练数据内,细胞系HCC1937表达HLA-B*07:02,但不表达HLA-A*02:01,且细胞系HCT116表达HLA-A*02:01,但不表达HLA-B*07:02。将示例呈递模型应用于测试数据,该测试数据系不与训练数据重迭的数据集D3的随机子集。

「相关性」一行是指指示肽是否在测试数据中的相应等位基因上呈递的实际标记与用于预测的标记之间的相关性。如图13D中所示,基于MHC等位基因HLA-A*02:01的隐式独立等位基因呈递可能性进行预测的效能明显优于基于MHC等位基因HLA-A*02:01而非MHC等位基因HLA-B*07:02的单等位基因测试数据进行预测的效能。关于MHC等位基因HLA-B*07:02显示类似结果。

所述结果指示,呈递模型的隐式独立等位基因呈递可能性可以正确地预测及区分结合基序与个别MHC等位基因,即使并不了解训练数据中肽与每一个别MHC等位基因之间的直接关联。

XII.E.在不基于单等位基因质谱数据训练情况下独立等位基因预测效能的比较

图13E显示基于图13D中所示的分析中保持的等位基因HLA-A*02:01及HLA-B*07:02的单等位基因质谱数据,图13D中显示的「无A2/B7单等位基因数据」及「利用A2/B7单等位基因数据」示例模型的效能。结果指示,即使该示例呈递模型未利用该两个等位基因的单等位基因质谱数据进行训练,该模型仍能够学习到各MHC等位基因的结合基序。

如图13E中所示,「A2模型预测B7」指示当基于有关MHC等位基因HLA-A*02:01的隐式独立等位基因呈递可能性估计值,针对单等位基因HLA-B*07:02数据预测肽呈递时该模型的效能。类似地,「A2模型预测A2」指示当基于有关MHC等位基因HLA-A*02:01的隐式独立等位基因呈递可能性估计值,针对单等位基因HLA-A*02:01预测肽呈递时该模型的效能。「B7模型预测B7」指示当基于有关MHC等位基因HLA-B*07:02的隐式独立等位基因呈递可能性估计值,针对单等位基因HLA-B*07:02数据预测肽呈递时该模型的效能。「B7模型预测A2」指示当基于有关MHC等位基因HLA-B*07:02的隐式独立等位基因呈递可能性估计值,针对单等位基因HLA-A*02:01预测肽呈递时该模型的效能。

如图13E中所示,有关HLA等位基因的隐式独立等位基因可能性的预测能力明显高于有关预定等位基因的预测能力,且明显低于有关其他HLA等位基因的预测能力。与图13D中显示的结果类似,示例呈递模型正确地习得区分个别等位基因HLA-A*02:01与HLA-B*07:02的肽呈递,即使肽呈递与所述等位基因之间的直接关联在多等位基因训练数据中不存在。

XII.F.独立等位基因预测中频繁出现的锚定残基匹配已知的典型锚定基序

图13F显示在图13D中显示的「无A2/B7单等位基因数据」示例模型所预测的九聚体当中在2位及9位处的共同锚定残基。若估计可能性超过5%,则预测所述肽将会经呈递。结果显示,所鉴定的在MHC等位基因HLA-A*02:01及HLA-B*07:02上呈递的肽中的最常见锚定残基与先前已知的所述MHC等位基因的锚定基序相配。此指示,正如预期的,基于肽序列中氨基酸的特定位置,示例呈递模型正确地习得肽结合。

如图13F中所示,已知在2位处的氨基酸L/M及在9位处的氨基酸V/L系HLA-A*02:01的典型锚定残基基序(如https://link.springer.com/article/10.1186/1745-7580-4-2的表4中所示),且已知在2位处的氨基酸P及在9位处的氨基酸L/V系HLA-B*07:02的典型锚定残基基序。在该模型鉴定的肽的2位及9位处的最常见锚定残基基序与已知的该两个HLA等位基因的典型锚定残基基序相配。

XII.G.利用及不利用等位基因非相互作用变量的呈递模型效能的比较

图13G比较并入C末端及N末端侧接序列作为等位基因相互作用变量的示例呈递模型与并入C末端及N末端侧接序列作为等位基因非相互作用变量的示例呈递模型之间的效能结果。结果显示,并入C末端及N末端侧接序列作为等位基因非相互作用变量使模型效能明显改善。更具体言的,鉴定所有不同MHC等位基因共有的适用于肽呈递的特征并使其模型化,由此使所有MHC等位基因共享所述等位基因非相互作用变数的统计强度以改善呈递模型效能非常有意义。

示例「等位基因相互作用」模型系使用等式(22)中的隐式独立等位基因呈递可能性形式的函数的和模型,其并入C末端及N末端侧接序列作为等位基因相互作用变量,且利用网络相关性函数gh(·)及expit函数f(·)。示例「等位基因非相互作用」模型系等式(21)中显示的函数的和模型,其并入C末端及N末端侧接序列作为等位基因非相互作用变量,且利用网络相关性函数gh(·)及expit函数f(·)。等位基因非相互作用变量是经由独立网络相关性函数gw(·)模型化。两个模型均基于数据集D3的子集以及来自IEDB数据库的多种MHC等位基因的单等位基因质谱数据训练(数据可以见于:http://www.iedb.org/doc/mhc_ligand_full.zip)。将所述呈递模型分别应用于测试数据集,该测试数据集系不与训练数据重迭的数据集D3的随机子集。

如图13G中所示,在示例呈递模型中并入C末端及N末端侧接序列作为等位基因非相互作用变量相对于使其模型化作为等位基因相互作用变量实现约3%的PPV值改良。一般而言,此系因为「等位基因非相互作用」示例呈递模型能够藉由利用独立网络相关性函数使影响模型化而在所有MHC等位基因中共享等位基因非相互作用变量的统计强度,同时极少增加计算能力。

XII.H.经呈递肽与mRNA定量之间的相关性

图13H说明基于肿瘤细胞质谱数据进行mRNA定量得到基因呈递肽的百分率之间的相关性。结果显示,mRNA表达量与肽呈递之间存在较强相关性。

具体言的,图13G中的横轴指示以每百万条读段数的转录本数(TPM)的四分位数表示的mRNA表达量。图13G中的竖轴指示由相应mRNA表达量四分位数中的基因呈递的表位的百分率。每一实线系有关自肿瘤样品得到的两个测量值的曲线,其与相应质谱数据及mRNA表达测量值相关联。如图13G中所示,mRNA表达量与相应基因中的肽的百分率之间存在较强正相关性。具体言的,RNA表达量的顶四分位数中的基因呈递肽的可能性系底四分位数的超过20倍。另外,经由RNA未检测到的基因基本上不呈递肽。

结果指示,藉由并入mRNA定量测量值可以大幅改良呈递模型的效能,因为所述测量值有利地预测肽呈递。

XII.I.在并入RNA定量数据下呈递模型效能的比较

图13I显示两个示例呈递模型的效能,其中之一是基于质谱肿瘤细胞数据训练,另一个并入mRNA定量数据及质谱肿瘤细胞数据。正如自图13H所预期的,结果指示,由于mRNA表达量系肽呈递的有力指标,藉由在示例呈递模型中并入mRNA定量测量值使效能明显改良。

「MHCflurry+RNA过滤器」系与基于亲和力预测值预测肽呈递的目前先进技术模型类似的模型。其系使用MHCflurry以及标准基因表达过滤器实施,该过滤器利用mRNA定量测量值移除蛋白质中小于3.2FPKM的所有肽。MHCflurry的实施方式详细提供于https://github.com/hammerlab/mhcflurry/及http://biorxiv.org/content/early/2016/05/22/054775。「示例模型,无RNA」模型系利用网络相关性函数gh(·)、网络相关性函数gw(·)及expit函数f(·)的等式(21)中显示的「S型函数的和」示例呈递模型。「示例模型,无RNA」模型经由网络相关性函数gw(·)并入C末端侧接序列作为等位基因非相互作用变量。

「示例模型,有RNA」模型系利用网络相关性函数gh(·)、在等式(10)中经由对数函数并入mRNA定量数据的网络相关性函数gh(·)及expit函数f(·)的等式(19)中显示的「S型函数的和」呈递模型。「示例模型,有RNA」模型经由网络相关性函数gw(·)并入C末端侧接序列作为等位基因非相互作用变量且经由对数函数并入mRNA定量测量值。

每个模型均基于来自IEDB数据集的单等位基因质谱数据、来自Bassani-Sternberg数据集的多等位基因质谱数据的7个细胞系及20个质谱肿瘤样品的组合进行训练。将每个模型应用于包括5,000个提供的来自7个肿瘤样品的蛋白质的测试集,其构成来自总计52,156,840个肽的9,830个经呈递肽。

如图13I的前两个条形图中所示,「示例模型,无RNA」模型在20%召回率下PPV值为21%,而目前先进技术模型的PPV值为约3%。由此指示PPV值的18%的初始效能改良,甚至在不并入mRNA定量测量值下亦如此。如图13I的第三个条形图中所示,将mRNA定量中并入呈递模型中的「示例模型,有RNA」显示约30%的PPV值,相较于不利用mRNA定量测量值的示例呈递模型,效能增加近10%。

因此,结果指示,正如自图13H中的发现所预期的,mRNA表达量实际上为肽预测的有力预测器,其能够在极少增加计算复杂度情况下明显改良呈递模型的效能。

XII.J.测定的有关MHC等位基因HLA-C*16:04的参数的实例图13J比较在不同肽长度下,由关于图13I描述的「示例模型,有RNA」呈递模型产生的结果与当预测肽呈递时不考虑肽长度的目前先进技术模型预测的结果之间的肽呈递机率。结果指示,图13I的「示例模型,有RNA」示例呈递模型捕捉不同长度肽间的可能性变化。

横轴指示长度为8、9、10及11的肽样品。竖轴指示视肽长度而定的肽呈递机率。曲线「实际测试数据机率」显示在样品测试数据集中视肽长度变化的经呈递肽的比例。呈递可能性随肽长度而变化。举例而言,如图13J中所示,具有典型HLA-A2 L/V锚定基序的10mer肽的呈递可能性比具有相同锚定残基的9mer低约3倍。曲线「忽略长度的模型」指示在将忽略肽长度的目前先进技术模型应用于相同测试数据集进行呈递预测时的预测测量值。所述模型可以为4.0版之前的NetMHC版本、3.0版之前的NetMHCpan版本,及MHCflurry,不考虑肽呈递随肽长度的变化。如图13J中所示,经呈递肽的比例在不同肽长度值间将为恒定的,指示所述模型将无法捕捉肽呈递随长度的变化。曲线「Gritstone,有RNA」指示由「Gritstone,有RNA」呈递模型产生的测量值。如图13J中所示,由「Gritstone,有RNA」模型产生的测量值近似地遵循「实际测试数据机率」中显示的测量值且正确地考虑在长度8、9、10及11下的不同肽呈递程度。

因此,结果显示,如本文中所示的示例呈递模型不仅产生有关9mer肽的改良的预测,而且亦改良对在8-15之间的其他长度的肽的预测,所述肽在I类HLA等位基因中的经呈递肽中占高达40%。

XII.K.测定的有关MHC等位基因HLA-C*16:04的参数的实例以下显示所测定的有关以h指示的MHC等位基因HLA-C*16:04的独立等位基因呈递模型(等式(2))的变化形式的一组参数:

其中relu(·)系修正线性单元(RELU)函数,且Wh 1、bh 1、Wh 2及bh 2系测定的该模型的参数集合θ。等位基因相互作用变数xh k由肽序列组成。Wh 1的维度系231×256),bh 1的维度系(1×256),Wh 2的维度系(256×1)且bh 2系标量。出于证实的目的,bh 1、bh 2、Wh 1及Wh 2的值详细地描述于PCT公开案WO2017106638中,其全部教导以引用的方式并入本文中。

XIII.示例计算机

图14说明用于实施图1及3中所示的实体的示例计算机1400。计算机1400包括耦合至芯片组1404的至少一个处理器1402。芯片组1404包括内存控制器集线器1420及输入/输出(I/O)控制器集线器1422。内存1406及图形适配器1412系耦合至内存控制器集线器1420,且显示器1418系耦合至图形适配器1412。存储装置1408、输入设备1414及网络适配器1416系耦合至I/O控制器集线器1422。计算机1400的其他实施例具有不同架构。

存储装置1408系非暂时性计算机可读存储媒体,诸如硬盘驱动器、紧密光盘只读存储器(CD-ROM)、DVD或固态内存装置。内存1406保存处理器1402所使用的指令及数据。输入接口1414系触摸屏界面,鼠标、轨迹球或其他类型的指向装置、键盘或其某一组合,且用于将数据输入计算机1400中。在一些实施例中,计算机1400可以经配置以经由用户的示意动作自输入接口1414接收输入(例如命令)。图形适配器1412将图像及其他信息显示于显示器1418上。网络1416将计算机1400耦合至一个或多个计算机网络。

计算机1400经调适以执行计算机程序模块以提供本文所描述的功能。如本文所使用,术语「模块」是指用于提供指定功能的计算机程序逻辑。因此,模块可以在硬件、韧体和/或软件中实施。在一个实施例中,程序模块系存储于存储装置1408上,装载至内存1406中且由处理器1402执行。

图1的实体所使用的计算机1400的类型可以取决于实施例及实体所需的处理功率而变化。举例而言,呈递鉴定系统160可以在单一计算机1400中或在经由网络(诸如在服务器群中)彼此连通的多台计算机1400中运行。计算机1400可以缺少以上描述的组件中的一部分,诸如图形适配器1412及显示器1418。

XIV.新抗原递送载体实例

以下为执行本发明的特定实施例的实例。所述实例仅出于说明目的提供,且不意欲以任何方式限制本发明的范畴。已作出努力以确保所使用数字(例如量、温度等)的精确性,但一些实验性误差及偏差当然应为允许的。

除非另外指明,否则本发明将采用在此项技术的技能范围内的蛋白质化学、生物化学、DNA重组技术及药理学习知方法实行。所述技术在文献中有完整解释。参见例如,T.E.Creighton,Proteins:Structures and Molecular Properties(W.H.Freeman andCompany,1993);A.L.Lehninger,Biochemistry(Worth Publishers,Inc.,当前版本);Sambrook等人,Molecular Cloning:A Laboratory Manual(第2版,1989);Methods InEnzymology(S.Colowick及N.Kaplan编,Academic Press,Inc.);Remington'sPharmaceutical Sciences,第18版(Easton,Pennsylvania:Mack Publishing Company,1990);Carey and Sundberg Advanced Organic Chemistry第3版(Plenum Press)第A及B卷(1992)。

XIV.A.新抗原盒设计

可以经由疫苗接种递送刺激相应细胞免疫响应的多个I类MHC限制性肿瘤特异性新抗原(TSNA)。在一个实例中,疫苗盒经工程改造而以单一基因产物形式编码多个表位,其中所述表位系嵌入其天然的周围肽序列内或藉由非天然接头序列隔开。鉴定出会潜在地影响抗原加工及呈递且因此影响TSNA特异性CD8 T细胞反应的量值及广度的若干设计参数。在本实例中,设计及构建出若干模型盒以评价:(1)是否可以针对并入单一表达盒中的多个表位产生稳定T细胞反应;(2)什么使得最佳接头置放于表达盒内的TSNA之间,引起所有表位的最佳加工及呈递;(3)所述表位在盒内的相对位置是否影响T细胞反应;(4)盒内表位的数量是否影响针对个别表位的T细胞反应的量值或质量;(5)添加细胞靶向序列是否改善T细胞反应。

产生两个读取结果以评价抗原呈递及对模型盒内的标记物表位具有特异性的T细胞反应:(1)活体外基于细胞的筛选,其允许藉由专门工程改造的报告子T细胞的活化进行衡量,来评估抗原呈递(Aarnoudse等人,2002;Nagai等人,2012);及(2)使用HLA-A2转基因小鼠(Vitiello等人,1991),藉由其相应表位特异性T细胞反应评估盒来源的人源表位的疫苗接种后免疫原性的活体内分析(Cornet等人,2006;Depla等人,2008;Ishioka等人,1999)。

XIV.B.新抗原盒设计评价

XIV.B.1.方法与材料

TCR及盒设计及克隆

当藉由A*0201呈递时,所选TCR识别肽NLVPMVATV(PDB#5D2N)、CLGGLLTMV(PDB#3REV)、GILGFVFTL(PDB#1OGA)、LLFGYPVYV(PDB#1AO7)。构建含有2A肽连接的TCR次单元(β随后为α)、EMCV IRES及2A连接的CD8次单元(β随后为α及嘌呤霉素抗性基因)的转移载体。对开放阅读框架序列进行密码子优化且由GeneArt合成。

产生用于活体外表位加工及呈递研究的细胞系

肽系购自ProImmune或Genscript,在含10mM参(2-羧基乙基)膦(TCEP)的水/DMSO(2:8,v/v)中稀释至10mg/mL。除非另外指出,否则细胞培养基及补充剂系来自Gibco。热灭活胎牛血清(FBShi)系来自Seradigm。QUANTI-Luc底物、吉欧霉素(Zeocin)及嘌呤霉素系来自InvivoGen。将Jurkat-Lucia NFAT细胞(InvivoGen)维持在补充有10%FBShi、丙酮酸钠及100μg/mL吉欧霉素的RPMI 1640中。转导后,所述细胞立即另外接受0.3μg/mL嘌呤霉素。在伊氏培养基(Iscove's Medium,IMDM)加20%FBShi中培养T2细胞(ATCC CRL-1992)。U-87MG(ATCC HTB-14)细胞系维持在补充有10%FBShi的MEM伊格尔培养基(MEM EaglesMedium)中。

Jurkat-Lucia NFAT细胞含有NFAT诱导性Lucia报告子构建体。Lucia基因在藉由接合T细胞受体(TCR)活化时,将利用腔肠素的荧光素酶分泌至培养基中。此荧光素酶可使用QUANTI-Luc荧光素酶检测试剂测量。用慢病毒转导Jurkat-Lucia细胞以表达抗原特异性TCR。HIV源性慢病毒转移载体系自GeneCopoeia获得,且表达VSV-G的慢病毒辅助质粒(support plasmid)(pCMV-VsvG)、Rev(pRSV-Rev)及Gag-pol(pCgpV)系自Cell DesignLabs获得。

藉由使用40μl脂染胺及20μg DNA混合物(以重量计4:2:1:1的转移质粒:pCgpV:pRSV-Rev:pCMV-VsvG),用脂染胺2000(Thermo Fisher)转染T75烧瓶中50-80%汇合的HEK293细胞,来制备慢病毒。使用Lenti-X系统(Clontech)浓缩8-10mL含病毒的培养基,且使病毒再悬浮于100-200μl新鲜培养基中。使用此体积覆盖相等体积的Jurkat-Lucia细胞(在不同实验中使用5×10E4-1×10E6细胞)。在含0.3μg/ml嘌呤霉素的培养基中培养之后,分选细胞以获得克隆性。使用装载肽的T2细胞测试所述Jurkat-Lucia TCR纯系的活性及选择性。

活体外表位加工及呈递分析

常规地使用T2细胞,藉由TCR检查抗原识别。T2细胞缺乏用于抗原加工的肽转运蛋白(TAP缺陷型)且不能在内质网中装载内源性肽以在MHC上呈递。然而,T2细胞可以容易地装载外源肽。将五个标记物肽(NLVPMVATV、CLGGLLTMV、GLCTLVAML、LLFGYPVYV、GILGFVFTL)及两个不相关的肽(WLSLLVPFV、FLLTRICT)装载至T2细胞上。简言的,对T2细胞计数且用IMDM加1%FBShi稀释至1×106个细胞/毫升。添加肽以产生10μg肽/1×106个细胞。接着在37℃下培育细胞90分钟。用IMDM加20%FBShi洗涤细胞两次,稀释至5×10E5个细胞/毫升并将100μL涂铺至96孔Costar组织培养盘中。对Jurkat-Lucia TCR纯系计数并在RPMI 1640加10%FBShi中稀释至5×10E5个细胞/毫升,且将100μL添加至T2细胞中。培养盘在37℃及5%CO2下培育隔夜。接着以400g离心培养盘3分钟并将20μL上清液移至白色平底Greiner盘中。QUANTI-Luc底物系根据说明书制备且以每孔50μL添加。在Molecular Devices SpectraMaxiE3x上读取荧光素酶表达量。

为了测试腺病毒盒的标记物表位呈递,使用U-87MG细胞作为替代抗原呈递细胞(APC)且用腺病毒载体转导。收集U-87MG细胞并以5×10E5个细胞/100μl涂铺于96孔Costar组织培养盘中的培养基中。在37℃培育培养盘约2小时。用MEM加10%FBShi将腺病毒盒稀释至MOI 100、50、10、5、1及0并将其以每孔5μl添加至U-87MG细胞中。再在37℃下培育培养盘约2小时。对Jurkat-Lucia TCR纯系计数并在RPMI加10%FBShi中稀释至5×10E5个细胞/毫升,且将其以每孔100μL添加至U-87MG细胞中。接着,在37℃及5%CO2下培育培养盘约24小时。以400g离心培养盘3分钟并将20μL上清液移至白色平底Greiner盘中。QUANTI-Luc底物系根据说明书制备且以每孔50μL添加。在Molecular Devices SpectraMax iE3x上读取荧光素酶表达量。

用于免疫原性研究的小鼠品系

转基因HLA-A2.1(HLA-A2 Tg)小鼠系自Taconic Labs,Inc获得。所述小鼠携带由嵌合I类分子组成的转基因,该嵌合I类分子包含人类HLA-A2.1前导序列、α1及α2域以及鼠类H2-Kbα3、跨膜及细胞质域(Vitiello等人,1991)。用于所述研究的小鼠是基于C57Bl/6背景的野生型BALB/cAnNTac雌性及纯合HLA-A2.1 Tg雄性的第一代后代(F1)。

腺病毒载体(Ad5v)免疫接种

经由两侧肌肉内注射至胫前肌中对HLA-A2 Tg小鼠免疫接种1×1010至1×106个腺病毒载体病毒粒子。在免疫接种后12天测量免疫响应。

淋巴细胞分离

自新鲜收集的经免疫接种小鼠的脾及***分离淋巴细胞。使用GentleMACS组织解离器,根据制造商的说明书,在含有10%胎牛血清以及青霉素及链霉素的RPMI(完全RPMI)中解离组织。

离体酶联免疫斑点(enzyme-linked immunospot,ELISPOT)分析

ELISPOT分析系根据ELISPOT统一准则(Janetzki等人,2015),利用小鼠IFNgELISpotPLUS试剂盒(MABTECH)进行。将1×105个脾细胞与10μM指定肽一起在涂有IFNg抗体的96孔盘中培育16小时。使用碱性磷酸酶使斑点显色。对反应定时10分钟并藉由用自来水流过盘来淬灭反应。使用AID vSpot读取器谱图对斑点计数。对于ELISPOT分析,将饱和度>50%的孔记录为「太多而无法计数」。将复制孔的偏差>10%的样品自分析中排除。接着,使用下式,针对孔汇合校正斑点计数:斑点计数+2×(斑点计数×%汇合/[100%-%汇合])。藉由用抗原刺激的孔减去阴性肽刺激孔中的斑点计数来校正阴性背景。最后,将标记为太多而无法计数的孔设定成最高观察校正值,四舍五入至最接近的百分数。

离体细胞内细胞因子染色(ICS)及流式细胞测量术分析

将2-5×106个细胞/毫升密度的新鲜分离的淋巴细胞与10μM指定肽一起培育2小时。两小时之后,添加布雷菲尔德菌素A(brefeldin A)达到5μg/ml浓度且将细胞与刺激剂一起再培育4小时。刺激之后,用可固定的死活细胞鉴定染料(fixable viability dye)eFluor780,根据制造商的方案标记活细胞,并用以1:400稀释的抗CD8 APC(纯系53-6.7,BioLegend)染色。对于细胞内染色,使用1:100稀释的抗IFNg PE(纯系XMG1.2,BioLegend)。将样品收集于Attune NxT流式细胞仪(Thermo Scientific)上。使用FlowJo标绘对流式细胞测量术数据并分析。为了评估抗原特异性反应的程度,计算响应于各肽刺激剂的FNg+的CD8+细胞百分比及总IFNg+细胞数量/1×106个活细胞。

XIV.B.2.新抗原盒设计的活体外评价

作为新抗原盒设计评价的实例,开发活体外基于细胞的分析以评估在模型疫苗盒内的所选人类表位是否经抗原呈递细胞表达、加工及呈递(图15)。在识别后,经工程改造成表达五种对明确表征的肽-HLA组合具有特异性的TCR之一的Jurkat-Lucia报告子T细胞变得活化且将活化T细胞核因子(NFAT)易位至核中,引起荧光素酶报告基因的转录活化。藉由生物发光定量个别报告子CD8 T细胞系的抗原刺激。

藉由用表达构建体转导慢病毒来改良个别Jurkat-Lucia报告子株,该表达构建体包括藉由P2A核糖体跳跃序列(skip sequence)分离以确保等莫耳量翻译产物的抗原特异性TCRβ及TCRα链(Banu等人,2014)。将第二CD8β-P2A-CD8α组件添加至慢病毒构建体中提供亲代报告子细胞系所缺乏的CD8辅助受体的表达,因为细胞表面上的CD8对于与靶pMHC分子的结合亲和力至关重要且经由接合其胞质尾区增强信号传导(Lyons等人,2006;Yachi等人,2006)。

在慢病毒转导之后,使Jurkat-Lucia报告子在嘌呤霉素选择下扩增,经历单细胞荧光辅助细胞分选(FACS)且测试单克隆群的荧光素酶表达。由此得到具有功能性细胞反应的针对特定肽抗原1、2、4及5的稳定转导的报告子细胞系。(表2)。

表2:活体外T细胞活化分析的研究。如藉由荧光素酶的诱导所测量的肽特异性T细胞识别指示疫苗盒抗原的有效加工及呈递。

短盒设计
表位 AAY
1 24.5±0.5
2 11.3±0.4
3* n/a
4 26.1±3.1
5 46.3±1.9

*尚未产生的针对表位3的报告子T细胞

在另一实例中,对于一系列短盒,所有标记物表位均并入相同位置中(图16A)且仅分隔HLA-A*0201限制性表位的接头(图16B)系变化的。将报告子T细胞个别地与经表达所述短盒的腺病毒构建体感染的U-87抗原呈递细胞(APC)混合,并相对于未感染对照组测量荧光素酶表达。藉由匹配报告子T细胞识别模型盒中的全部四个抗原,展示多个抗原的有效加工及呈递。T细胞反应的量值在很大程度上遵循天然及AAY-接头的类似趋势。自基于RR-接头的盒释放的抗原显示较低荧光素酶诱导(表3)。经设计以破坏抗原加工的DPP-接头制造的疫苗盒引起较差表位呈递(表3)。

表3:短盒中接头序列的评价。在活体外T细胞活化分析中的荧光素酶诱导指示,除基于DPP的盒外,所有接头均有助于盒抗原的有效释放。仅T细胞表位(无接头)=9AA,天然接头一侧=17AA,天然接头两侧=25AA,非天然接头=AAY、RR、DPP

*尚未产生的针对表位3的报告子T细胞

在另一实例中,构建另外一系列的短盒,所述盒除人类及小鼠表位外,亦含有定位于该盒的N或C末端上的靶向序列诸如泛素(Ub)、MHC及Ig-κ信号肽(SP)和/或MHC跨膜(TM)基序。(图17)。当藉由腺病毒载体递送至U-87APC时,报告子T细胞再次展示多个盒源性抗原的有效加工及呈递。不过,各种靶向特征对于T细胞反应的量值无明显影响(表4)。

表4:添加至模型疫苗盒的细胞靶向序列的评价。采用活体外活化分析证实,四个HLA-A*0201限制性标记物表位自模型盒有效释放且靶向序列没有明显改善T细胞识别及活化。

*尚未产生的针对表位3的报告子T细胞

XIV.B.3.新抗原盒设计的活体内评价

作为新抗原盒设计评价的另一实例,疫苗盒经设计以含有5个已知以HLA-A*02:01限制性方式刺激CD8 T细胞的明确表征的I类人类MHC表位(图16A、17、19A)。为了评价活体内免疫原性,将含有所述标记物表位的疫苗盒并入腺病毒载体中并用于感染HLA-A2转基因小鼠(图18)。此小鼠模型携带的转基因部分由人类HLA-A*0201及小鼠H2-Kb组成,且因此编码由人类HLA-A2.1前导序列、连接至鼠类α3的α1及α2域、跨膜及细胞质H2-Kb域组成的嵌合I类MHC分子(Vitiello等人,1991)。该嵌合分子允许HLA-A*02:01限制性抗原呈递,同时维持CD8辅助受体与MHC上的α3域的物种相配的相互作用。

对于短盒,如藉由IFN-γELISPOT所测定,所有标记物表位产生剧烈T细胞反应,其程度比通常所报导的程度强约10-50倍(Cornet等人,2006;Depla等人,2008;Ishioka等人,1999)。在评价的所有接头中,各自含有藉由天然氨基酸序列侧接的极小表位的25聚体序列多联体产生最大且最广泛的T细胞反应(表5)。细胞内细胞因子染色(ICS)及流式细胞测量术分析公开,抗原特异性T细胞反应系源自于CD8 T细胞。

表5:短盒中接头序列的活体内评价。ELISPOT数据指示,HLA-A2转基因小鼠在用1e11腺病毒病毒粒子感染后17天,针对盒中的所有I类MHC限制性表位产生T细胞反应。

在另一实例中,构建一系列长疫苗盒并将其并入腺病毒载体中,其紧邻着原始的5个标记物表位含有另外16个具有已知CD8 T细胞反应性的HLA-A*02:01、A*03:01及B*44:05表位(图19A、B)。所述长盒的尺寸近似地模仿最终临床盒设计,且仅表位相对于彼此的位置系不同的。对于长疫苗盒与短疫苗盒,CD8 T细胞反应在量值及广度方面系相当的,证实(a)添加更多表位不会影响针对原始表位集合的免疫响应的量值,及(b)表位在盒中的位置不影响随的而来的针对其的T细胞反应(表6)。

表6:有关长盒中表位位置的影响的活体内评价。ELISPOT指示,对于长疫苗盒与短疫苗盒,HLA-A2转基因小鼠在用5e10腺病毒病毒粒子感染后17天,产生的T细胞反应的量值相当。

*疑似技术失误引起T细胞反应的缺乏。

XIV.B.4.用于免疫原性及毒理学研究的新抗原盒设计

总体而言,有关模型盒评价的发现(图16-19,表2-6)证实,对于模型疫苗盒,当采用「串珠(string of beads)」法在基于腺病毒的载体的背景下编码约20个表位时,实现最佳免疫原性。表位最佳藉由串接25聚体序列组装,所述序列各自嵌入在两侧上藉由其天然、周围肽序列(例如在每一侧上的8个氨基酸残基)侧接的极小CD8 T细胞表位(例如9个氨基酸残基)。如本文所用,「天然」或「原生」侧接序列是指给定表位在该表位处于其源蛋白质内的天然存在环境中的N和/或C末端侧接序列。举例而言,HCMV pp65 MHC I表位NLVPMVATV通过原生5'序列WQAGILAR侧接于其5'端上且藉由原生3'序列QGQNLKYQ侧接于其3'端上,由此产生在HCMV pp65源蛋白质内发现的25聚体肽WQAGILARNLVPMVATVQGQNLKYQ。天然或原生序列也可指编码藉由原生侧接序列侧接的表位的核苷酸序列。每个25聚体序列系直接连接至随后的25聚体序列。在极小CD8 T细胞表位系大于或小于9个氨基酸的实例中,侧接肽长度可以经调整以使得总长度仍为25聚体肽序列。举例而言,10个氨基酸的CD8 T细胞表位可以藉由8个氨基酸的序列及7个氨基酸侧接。多联体之后为两个通用的II类MHC表位,包括所述表位系为了刺激CD4T辅助细胞及改善疫苗盒抗原的总体活体内免疫原性。(Alexander等人,1994;Panina-Bordignon等人,1989)II类表位通过GPGPG氨基酸接头(SEQ ID NO:56)连接至最终I类表位。该两个II类表位亦藉由GPGPG氨基酸接头彼此连接且藉由GPGPG氨基酸接头侧接于C末端上。经证明,表位的位置及数量基本上不影响T细胞识别或反应。靶向序列看起来亦基本上不影响盒源性抗原的免疫原性。

作为另一实例,基于用模型盒获得的活体外及活体内数据(图16-19,表2-6),产生交替已知在非人类灵长类动物(NHP)、小鼠及人类中具有免疫原性的明确表征的T细胞表位的盒设计。该全部嵌入天然25聚体序列中的20个表位之后系存在于所评价的所有模型盒中的两个通用II类MHC表位(图20)。使用此盒设计在多个物种中研究免疫原性以及药理学及毒理学研究。

XV.ChAd新抗原盒递送载体

XV.A.ChAd新抗原盒递送载体的构建

在一个实例中,将黑猩猩腺病毒(ChAd)工程改造成用于新抗原盒的递送载体。在另一实例中,基于缺失E1(nt 457至3014)及E3(nt 27,816-31,332)序列的AC_000011.1(来自专利US 6083716的序列2)合成全长ChAdV68载体。***处于CMV启动子/增强子控制下的报告基因代替缺失的E1序列。将此纯系转染至HEK293细胞中不会产生感染性病毒。为了确定野生型C68病毒的序列,自ATCC获得分离株VR-594,传代,且接着独立地测序(SEQ ID NO:10)。当将AC_000011.1序列与野生型ChAdV68病毒的ATCC VR-594序列(SEQ ID NO:10)相比较时,鉴定出6个核苷酸差异。在一个实例中,基于相应ATCC VR-594核苷酸在五个位置处经取代的AC_000011.1产生经修饰的ChAdV68载体(ChAdV68.5WTnt SEQ ID NO:1)。

在另一实例中,基于缺失E1(nt 577至3403)及E3(nt 27,816-31,332)序列且相应ATCC VR-594核苷酸在四个位置经取代的AC_000011.1产生经修饰的ChAdV68载体。***处于CMV启动子/增强子控制下的GFP报告子(ChAdV68.4WTnt.GFP;SEQ ID NO:11)或模型新抗原盒(ChAdV68.4WTnt.MAG25mer;SEQ ID NO:12)代替缺失的E1序列。

在另一实例中,基于缺失E1(nt 577至3403)及E3(nt 27,125-31,825)序列且相应ATCC VR-594核苷酸在五个位置经取代的AC_000011.1产生经修饰的ChAdV68载体。***处于CMV启动子/增强子控制下的GFP报告子(ChAdV68.5WTnt.GFP;SEQ ID NO:13)或模型新抗原盒(ChAdV68.5WTnt.MAG25mer;SEQ ID NO:2)代替缺失的E1序列。

XV.B.ChAd新抗原盒递送载体测试

XV.B.1.ChAd载体评价的方法及材料

使用脂染胺转染HEK293A细胞

使用以下方案,制备ChAdV68构建体(ChAdV68.4WTnt.GFP、ChAdV68.5WTnt.GFP、ChAdV68.4WTnt.MAG25mer及ChAdV68.5WTnt.MAG25mer)的DNA并将其转染至HEK293A细胞中。

用PacI消化10μg质粒DNA以释放病毒基因组。接着,根据制造商的说明书,对于较长DNA片段,使用GeneJet DNA净化微型管柱(DNA cleanup Micro columns;ThermoFisher)纯化DNA,且在20μl预热的水中洗脱;在洗脱步骤之前,使管柱在37度下保持0.5-1小时。

在转染之前,将HEK293A以106个细胞/孔的细胞密度引入6孔培养盘中,保持14-18小时。用每孔1ml新鲜培养基(含青霉素/链霉素及麸氨酸的DMEM-10%hiFBS)覆盖细胞。在根据制造商的方案,用微升体积(2-4μl)脂染胺2000两次转染中使用每孔1-2μg的纯化DNA。将0.5ml含有转染混合物的OPTI-MEM培养基添加至各孔中的1ml标准生长培养基中并在细胞上保持隔夜。

在37℃下培育经转染的细胞培养物至少5-7天。若在转染后第7天未见到病毒蚀斑,则将细胞以1:4或1:6分离,并在37℃下培育以监测蚀斑的产生。或者,收集经转染的细胞且进行3个循环的冷冻及解冻,并使用细胞溶解产物感染HEK293A细胞且培育细胞直至观察到病毒蚀斑。

使用磷酸钙将ChAdV68转染至HEK293A细胞中并产生第三代病毒原液

使用以下方案,制备ChAdV68构建体(ChAdV68.4WTnt.GFP、ChAdV 68.5WTnt.GFP、ChAdV68.4WTnt.MAG25mer、ChAdV68.5WTnt.MAG25 mer)的DNA并将其转染至HEK293A细胞中。

在转染前一天,将HEK293A细胞以106个细胞/孔接种于6孔盘的5%BS/DMEM/1XP/S、1XGlutamax中。每次转染需要两个孔。在转染前二至四小时,将培养基更换成新鲜培养基。用PacI使ChAdV68.4WTnt.GFP质粒线性化。接着,用酚氯仿提取经线性化的DNA并使用十分之一体积的3M乙酸钠pH 5.3及两体积的100%乙醇使其沉淀。藉由以12,000xg离心5分钟使沉淀的DNA集结,随后用70%乙醇洗1次。空气干燥集结粒并使其再悬浮于50μL无菌水中。使用NanoDropTM(ThermoFisher)测定DNA浓度并将体积调整至5μg DNA/50μL。

将169μL无菌水添加至微量离心管中。接着将5μL 2M CaCl2添加至水中并藉由移液管移液徐缓地混合。将50μL DNA逐滴添加至CaCl2水溶液中。接着添加二十六微升2MCaCl2并藉由微量移液管移液两次徐缓地混合。此最终溶液应由5μg DNA于250μL的0.25MCaCl2中组成。接着制备含有250μL的2XHBS(Hepes缓冲溶液)的第二管。使用连接至Pipet-Aid空气的2mL无菌移液管缓慢鼓泡通过2XHBS溶液。同时,逐滴添加于0.25M CaCl2溶液中的DNA溶液。在添加最终DNA液滴之后,继续鼓泡约5秒。接着在室温培育溶液达20分钟,随后添加至293A细胞中。将250μL DNA/磷酸钙溶液逐滴添加至前一天以106个细胞/孔接种于6孔盘中的293A细胞单层中。将细胞放回恒温箱中并培育隔夜。24小时后更换培养基。72小时后,将细胞以1:6分至6孔盘中。每天藉由光学显微镜检查监测细胞单层的细胞病变效应(CPE)的迹象。转染后7-10天,观察到病毒蚀斑且藉由用移液管吸移孔中的培养基以使细胞升高来收集细胞单层。将收集的细胞及培养基转移至50mL离心管中,随后进行三轮冷冻解冻(在-80℃及37℃)。随后的溶解产物,称为初代病毒原液,藉由在桌上型(bench top)离心机(4300Xg)上全速离心来澄清且使用一部分溶解产物(10-50%)感染T25烧瓶中的293A细胞。将感染的细胞培育48小时,随后在完全CPE下收集细胞及培养基。再次收集细胞,冷冻解冻并澄清,随后使用此第二代病毒原液感染每个烧瓶接种1.5×107个细胞的T150烧瓶。在72小时实现完全CPE的时,以先前病毒原液相同的方式收集并处理培养基及细胞以产生第三代原液。

在293F细胞中的制造

在8%CO2的恒温箱中,在293FreeStyleTM(ThermoFisher)培养基中生长的293F细胞中进行ChAdV68病毒的制造。感染当天,将细胞稀释至106个细胞/毫升,且具有98%活力,并在每个制造操作于1L摇瓶(Corning)中使用400mL。每次感染使用靶MOI>3.3的4mL第三代病毒原液。将细胞培育48-72小时,直至藉由台盼蓝测量到活力<70%。接着,藉由全速桌上型离心机离心来收集及经感染细胞并在1×PBS中洗涤,再离心,且接着使其再悬浮于20mL的10mM Tris pH7.4中。藉由冷冻解冻3次将细胞集结粒溶解并藉由以4,300Xg离心5分钟使其澄清。

藉由CsCl离心纯化

藉由CsCl离心使病毒DNA纯化。执行两次不连续梯度操作。第一次系自细胞组分中纯化出病毒且第二次系自细胞组分进一步优化分离并将缺陷性粒子与感染性粒子分离。

将10mL的1.2(26.8g CsCl溶解于92mL的10mM Tris pH 8.0中)CsCl添加至异质同晶聚合物管中。接着,使用移液管递送至管底部,小心地添加8mL的1.4CsCl(53g CsCl溶解于87mL的10mM Tris pH 8.0中)。将澄清的病毒小心地铺在该1.2层的顶部上。必要时,再添加10mM Tris以使各管平衡。接着将所述管置放于SW-32Ti旋转器中并在10℃下离心2小时30分钟。接着将该管移至层流柜中并使用18号针及10mL注射器抽吸病毒带。应避免取出污染性宿主细胞DNA及蛋白质。接着用10mM Tris pH 8.0将该病毒带稀释至少2倍并如前所述铺在如上文所描述的不连续梯度上。如前所述进行操作,不过,此时进行该操作隔夜。次日,小心抽吸病毒带以避免抽吸出任何缺陷性粒子带。接着使用Slide-A-LyzerTM盒(Pierce)针对ARM缓冲液(20mM Tris pH 8.0、25mM NaCl、2.5%丙三醇)透析病毒。进行此操作3次,每次更换缓冲液保持1小时。接着将病毒等分以在-80℃下储存。

病毒分析

基于1.1×1012个病毒粒子(VP)的消光系数相当于在OD260 nm下的吸亮度值1,藉由使用OD 260分析测定VP浓度。在病毒溶解缓冲液(0.1%SDS、10mM Tris pH 7.4、1mMEDTA)中制备腺病毒的两种稀释液(1:5及1:10)。一式两份测量该两种稀释液的OD且藉由用OD260值乘以稀释因子乘以1.1×1012VP来测量每毫升VP浓度。

利用病毒原液的限制性稀释分析来计算感染单位(IU)滴度。病毒起初在DMEM/5%NS/1×PS中100倍稀释且接着,使用10倍稀释法稀释至1×10-7。接着,将100μL所述稀释液添加至在之前至少一小时以3e5个细胞/孔接种于24孔盘中的293A细胞中。此操作系一式两份进行。37℃下,在CO2(5%)恒温箱中培育盘48小时。接着用1×PBS洗涤细胞,且接着用100%冷甲醇(-20℃)固定。接着在-20℃培育所述盘最少20分钟。用1×PBS洗涤各孔,接着在室温下,在1×PBS/0.1%BSA中阻断1小时。添加兔抗Ad抗体(Abcam,Cambridge,MA)于阻断缓冲液中的1:8,000稀释液(每孔0.25ml)并在室温下培育1小时。用每孔0.5mL PBS洗涤各孔4次。每孔添加1000倍稀释的HRP偶联的山羊抗兔抗体(Bethyl Labs,Montgomery Texas)并培育1小时,随后进行最后一轮洗涤。进行5次PBS洗涤并使用于含0.01%H2O2的Tris缓冲生理食盐水中的二胺基联苯胺四盐酸盐(Diaminobenzidine tetrahydrochloride,DAB)底物(0.67mg/mL DAB于50mM Tris pH 7.5、150mM NaCl)使所述盘显色。使各孔显色5分钟,随后计数。使用产生每个视野4-40个经染色细胞的稀释液,在10×下对细胞计数。所用视野系0.32mm2栅格,相当于在24孔盘上每个视野有625个栅格。可以藉由每个栅格中经染色细胞的数量乘以每个视野的栅格数量乘以稀释因子10测定每毫升中感染性病毒的数量。类似地,当用GFP表达性细胞操作时,可以使用荧光而非衣壳染色来测定每毫升中GFP表达性病毒粒子的数量。

免疫接种

经两侧肌肉内注射向C57BL/6J雌性小鼠及Balb/c雌性小鼠注射1×108个ChAdV68.5WTnt.MAG25mer病毒粒子(VP),体积为100μL(每条腿50μL)。

脾细胞解离

将每只小鼠的脾及***汇集于3mL完全RPMI(RPMI、10%FBS、青霉素/链霉素)中。使用gentleMACS解离器(Miltenyi Biotec),遵循制造商的方案进行机械解离。经由40微米过滤器过滤解离的细胞并用ACK溶解缓冲液(150mM NH4Cl、10mM KHCO3、0.1mMNa2EDTA)溶解红细胞。再次经由30微米过滤器过滤细胞且接着使其再悬浮于完全RPMI中。在Attune NxT流式细胞仪(Thermo Fisher)上使用碘化丙锭染色对细胞计数以排除死亡及凋亡的细胞。接着将细胞调整至适当活细胞浓度以供随后分析。

离体酶联免疫斑点(ELISPOT)分析

ELISPOT分析系根据ELISPOT统一准则{DOI:10.1038/nprot.2015.068},利用小鼠IFNg ELISpotPLUS试剂盒(MABTECH)进行。将5×104个脾细胞与10μM指定肽一起在涂有IFNg抗体的96孔盘中培育16小时。使用碱性磷酸酶使斑点显色。对反应定时10分钟并藉由用自来水流过盘终止反应。使用AID vSpot读取器谱图对斑点计数。对于ELISPOT分析,将饱和度>50%的孔记录为「太多而无法计数」。将复制孔的偏差>10%的样品自分析中排除。接着,使用下式,针对孔汇合校正斑点计数:斑点计数+2×(斑点计数×%汇合/[100%-%汇合])。藉由用抗原刺激的孔减去阴性肽刺激孔中的斑点计数来校正阴性背景。最后,将标记为太多而无法计数的孔设定成最高观察校正值,四舍五入至最接近的百分数。

XV.B.2.在DNA转染之后ChAdV68病毒递送粒子的制造

在一个实例中,将ChAdV68.4WTnt.GFP(图21)及ChAdV68.5WTnt.GFP(图22)DNA转染至HEK293A细胞中并在转染之后7-10天观察病毒复制(病毒蚀斑)。使用光学显微镜检查(图21A及22A)及荧光显微镜检查(图21B-C及图22B-C)观测ChAdV68病毒蚀斑。GFP表示产毒ChAdV68病毒递送粒子的产生。

XV.B.3.ChAdV68病毒递送粒子扩增

在一个实例中,使ChAdV68.4WTnt.GFP、ChAdV68.5WTnt.GFP及ChAdV68.5WTnt.MAG25mer在HEK293F细胞中扩增并在转染之后18天,制备纯化的病毒原液(图23)。定量经纯化ChAdV68病毒原液中的病毒粒子数且与使用相同方案制造的5型腺病毒(Ad5)及ChAdVY25(密切相关的ChAdV;Dicks,2012,PloS ONE 7,e40385)病毒原液相比较。ChAdV68病毒滴度与Ad5及ChAdVY25相当(表7)。

表7.在293F悬浮细胞中产生腺病毒载体

*SD仅在执行多个制造操作情况下报导

XV.B.4.评价在肿瘤模型中的免疫原性

在小鼠免疫原性研究中评价表达小鼠肿瘤抗原的C68载体以证实C68载体引起T细胞反应。在C57BL/6J雌性小鼠中测量针对I类MHC表位SIINFEKL的T细胞反应并在Balb/c小鼠中测量针对I类MHC表位AH1-A5(Slansky等人,2000,Immunity13:529-538)的T细胞反应。如图29中所示,在对小鼠免疫接种ChAdV68.5WTnt.MAG25mer之后测量到较强T细胞反应。当对C57BL/6J或Balb/c小鼠免疫接种ChAdV68.5WTnt.MAG25mer时,在免疫接种之后10天,在ELISpot分析中分别观察到每106个脾细胞8957个或4019个斑点形成细胞(SFC)的平均细胞免疫响应。

XVI.α病毒新抗原盒递送载体

XVI.A.α病毒递送载体评价的材料及方法

活体外转录以产生RNA

对于活体外测试:藉由用PmeI限制性消化使质粒DNA线性化,遵循制造商的方案(GeneJet DNA净化试剂盒,Thermo)进行管柱纯化并用作模板。根据制造商的方案,使用RiboMAX大规模RNA生产系统(Promega),利用m7G帽类似物(Promega)进行活体外转录。根据制造商的方案,使用RNeasy试剂盒(Qiagen)纯化mRNA。

对于活体内研究:产生RNA且由TriLInk Biotechnologies纯化并用EnzymaticCap1封端。

RNA转染

转染前约16小时,HEK293A细胞对于96孔系以6e4个细胞/孔接种且对于24孔系以2e5个细胞/孔接种。使用MessengerMAX脂染胺(Invitrogen)且遵循制造商的方案,用mRNA转染细胞。对于96孔,每孔使用0.15μL脂染胺及10ng mRNA,且对于24孔,每孔使用0.75μL脂染胺及150ng mRNA。GFP表达mRNA(TriLink Biotechnologies)用作转染对照。

荧光素酶分析

使用ONE-Glo荧光素酶分析(Promega),遵循制造商的方案,在每种条件下于白色壁96孔盘中一式三份进行荧光素酶报告子分析。使用SpectraMax测量发光。

qRT-PCR

在转染后2小时,用新鲜培养基冲洗经转染的细胞并更换培养基以移除任何未经转染的mRNA。接着,在各种时间点,将细胞收集于RLT plus溶解缓冲液(Qiagen)中,使用QiaShredder(Qiagen)均质化并使用RNeasy试剂盒(Qiagen)提取RNA,所有操作均遵循制造商的方案。使用Nanodrop(Thermo Scientific)定量总RNA。根据制造商的方案,在qTower3(Analytik Jena)上使用Quantitect探针一步法RT-PCR试剂盒(Probe One-Step RT-PCRkit;Qiagen)进行qRT-PCR,每一反应使用20ng总RNA。对于每个探针,各样品系一式三份地操作。肌动蛋白或GusB用作参考基因。定制引物/探针由IDT产生(表8)。

表8.qPCR引物/探针

Luci 引物1 GTGGTGTGCAGCGAGAATAG
引物2 CGCTCGTTGTAGATGTCGTTAG
探针 /56-FAM/TTGCAGTTC/ZEN/TTCATGCCCGTGTTG/3IABkFQ/
GusB 引物1 GTTTTTGATCCAGACCCAGATG
引物2 GCCCATTATTCAGAGCGAGTA
探针 /56-FAM/TGCAGGGTT/ZEN/TCACCAGGATCCAC/3IABkFQ/
ActB 引物1 CCTTGCACATGCCGGAG
引物2 ACAGAGCCTCGCCTTTG
探针 /56-FAM/TCATCCATG/ZEN/GTGAGCTGGCGG/3IABkFQ/
MAG-25聚体 引物1 CTGAAAGCTCGGTTTGCTAATG
集合1 引物2 CCATGCTGGAAGAGACAATCT
探针 /56-FAM/CGTTTCTGA/ZEN/TGGCGCTGACCGATA/3IABkFQ/
MAG-25聚体 引物1 TATGCCTATCCTGTCTCCTCTG
集合2 引物2 GCTAATGCAGCTAAGTCCTCTC
探针 /56-FAM/TGTTTACCC/ZEN/TGACCGTGCCTTCTG/3IABkFQ/

B16-OVA肿瘤模型

在C57BL/6J小鼠左下方侧腹部中注射105个B16-OVA细胞/动物。在免疫接种之前,使肿瘤生长3天。

CT26肿瘤模型

在Balb/c小鼠左下方侧腹部中注射106个CT26细胞/动物。在免疫接种之前,使肿瘤生长7天。

免疫接种

对于srRNA疫苗,经两侧肌肉内注射向小鼠注射10μg RNA,体积100μL(每条腿50μL)。对于Ad5疫苗,经两侧肌肉内注射向小鼠注射5×1010个病毒粒子(VP),体积100μL(每条腿50μL)。每周2次,经由腹膜内注射向动物注射250μg剂量的抗CTLA-4(纯系9D9,BioXcell)、抗PD-1(纯系RMP1-14,BioXcell)或抗IgG(纯系MPC-11,BioXcell)。

活体内生物发光成像

在每个时间点,经由腹膜内注射向小鼠注射150mg/kg荧光素底物并在注射之后10-15分钟,使用IVIS活体内成像系统(PerkinElmer)测量生物发光。

脾细胞解离

将每只小鼠的脾及***汇集于3mL完全RPMI(RPMI、10%FBS、青霉素/链霉素)中。使用gentleMACS解离器(Miltenyi Biotec),遵循制造商的方案进行机械解离。经由40微米过滤器过滤解离的细胞并用ACK溶解缓冲液(150mM NH4Cl、10mM KHCO3、0.1mMNa2EDTA)溶解红细胞。再次经由30微米过滤器过滤细胞且接着使其再悬浮于完全RPMI中。在Attune NxT流式细胞仪(Thermo Fisher)上使用碘化丙锭染色对细胞计数以排除死亡及凋亡的细胞。接着将细胞调整至适当活细胞浓度以供随后分析。

离体酶联免疫斑点(ELISPOT)分析

ELISPOT分析系根据ELISPOT统一准则{DOI:10.1038/nprot.2015.068},利用小鼠IFNg ELISpotPLUS试剂盒(MABTECH)进行。将5×104个脾细胞与10μM指定肽一起在涂有IFNg抗体的96孔盘中培育16小时。使用碱性磷酸酶使斑点显色。对反应定时10分钟并藉由用自来水流过盘终止反应。使用AID vSpot读取器谱图对斑点计数。对于ELISPOT分析,将饱和度>50%的孔记录为「太多而无法计数」。将复制孔的偏差>10%的样品自分析中排除。接着,使用下式,针对孔汇合校正斑点计数:斑点计数+2×(斑点计数×%汇合/[100%-%汇合])。藉由用抗原刺激的孔减去阴性肽刺激孔中的斑点计数来校正阴性背景。最后,将标记为太多而无法计数的孔设定成最高观察校正值,四舍五入至最接近的百分数。

XVI.B.α病毒载体

XVI.B.1.α病毒载体活体外评价

在本发明的一个实施方式中,由基于委内瑞拉马脑炎(Venezuelan EquineEncephalitis,VEE)(Kinney,1986,Virology 152:400-413)的自我复制RNA(srRNA)载体产生用于新抗原表达系统的RNAα病毒主链。在一个实例中,编码位于26S亚基因组启动子3'端的VEE结构蛋白的序列缺失(VEE序列7544至11,175缺失;编号基于Kinney等人1986;SEQ IDNO:6)且经抗原序列(SEQ ID NO:14及SEQ ID NO:4)或荧光素酶报告子(例如VEE-荧光素酶,SEQ ID NO:15)替换(图24)。由srRNA DNA载体活体外转录RNA,将其转染至HEK293A细胞中并测量荧光素酶报告子表达。此外,用编码荧光素酶的(非复制性)mRNA转染以供比较。当比较23小时测量值与2小时测量值时,对于VEE-荧光素酶srRNA观察到srRNA报告子信号有约30,000倍增加(表9)。相比的下,在相同时间段内,mRNA报告子展现<10倍的信号增加(表9)。

表9.来自VEE自我复制载体的荧光素酶的表达随时间增加。在96孔中用每孔10ngVEE-荧光素酶srRNA或10ng非复制性荧光素酶mRNA(TriLink L-6307)转染HEK293A细胞。在转染倍各种时间测量发光。荧光素酶表达系以相对发光单位(RLU)报导。每个数据点系3个转染孔的平均值+/-SD。

在另一实例中,藉由使用定量逆转录聚合酶链反应(qRT-PCR)测量编码荧光素酶的srRNA(VEE-荧光素酶)或编码多表位盒的srRNA(VEE-MAG25mer)转染之后的RNA含量来直接确定srRNA的复制。对于VEE-荧光素酶srRNA观察到约150倍的RNA增加(表10),而对于VEE-MAG25mer srRNA观察到30-50倍的RNA增加(表11)。所述数据证实,当转染至细胞中时,VEE srRNA载体复制。

表10.VEE-荧光素酶srRNA转染的细胞中RNA复制的直接测量。用VEE-荧光素酶srRNA(150ng/孔,24孔)转染HEK293A细胞并在转染之后各种时间,藉由qRT-PCR定量RNA含量。基于肌动蛋白参考基因使各测量值标准化并呈递相对于2小时时间点的倍数变化。

表11.VEE-MAG25mer srRNA转染的细胞中RNA复制的直接测量。用VEE-MAG25mersrRNA(150ng/孔,24孔)转染HEK293细胞并在转染之后各种时间,藉由qRT-PCR定量RNA含量。基于GusB参考基因使各测量值标准化并呈递相对于2小时时间点的倍数变化。图上的不同线表示2个不同的qPCR引物/探针集,该两个集合均检测srRNA的表位盒区。

XVI.B.2.α病毒载体的活体内评价

在另一实例中,在活体内评价VEE-荧光素酶报告子表达。对小鼠注射10μg封装于脂质纳米颗粒(MC3)中的VEE-荧光素酶srRNA并在注射后24小时及48小时,以及7天及14天使其成像以测定生物发光信号。在注射后24小时检测到荧光素酶信号且其随时间增加,并在srRNA注射之后7天出现峰值(图25)。

XVI.B.3.α病毒载体肿瘤模型评价

在一个实施方式中,为了确定VEE srRNA载体在活体内引导抗原特异性免疫响应,产生表达2种不同I类MHC小鼠肿瘤表位SIINFEKL及AH1-A5的VEE srRNA载体(VEE-UbAAY,SEQ ID NO:14)(Slansky等人,2000,Immunity 13:529-538)。利用B16-OVA黑素瘤细胞系表达SFL(SIINFEKL)表位,且AH1-A5(SPSYAYHQF;Slansky等人,2000,Immunity)表位诱导T细胞靶向由CT26结肠癌细胞系表达的相关表位(AH1/SPSYVYHQF;Huang等人,1996,Proc NatlAcad Sci USA 93:9730-9735)。在一个实例中,对于活体内研究,藉由使用T7聚合酶(TriLink Biotechnologies)活体外转录来产生VEE-UbAAY srRNA并将其封装于脂质纳米颗粒(MC3)中。

在用MC3调配的VEE-UbAAY srRNA免疫接种带有B16-OVA肿瘤的小鼠之后两周,观察到靶向SFL的强烈抗原特异性T细胞反应。在一个实例中,在用SFL肽刺激之后,在ELISpot分析中测量到每106个脾细胞3835个(中值)斑点形成细胞(SFC)(图26A,表12)并且如藉由五聚体染色所测量,1.8%(中值)的CD8 T细胞具有SFL抗原特异性(图26B,表12)。在另一实例中,共施用抗CTLA-4单克隆抗体(mAb)及VEE srRNA疫苗引起总体T细胞反应的中度增加,且在ELISpot分析中测量到每106个脾细胞的4794.5个(中值)SFC(图26A,表12)。

表12.在带有B16-OVA肿瘤的C57BL/6J小鼠中VEE srRNA免疫接种后14天ELISPOT及MHCI-五聚体染色分析的结果。

*应注意,自Vax组中小鼠#6得到的结果由于三个重复孔之间变化较大而自分析排除。

在另一实施方式中,为反映临床方法,在B16-OVA及CT26小鼠肿瘤模型中进行异源初免/增强免疫,其中带有肿瘤的小鼠先用表达相同抗原盒的腺病毒载体(Ad5-UbAAY)免疫接种,随后在Ad5-UbAAY初免之后14天,用VEE-UbAAY srRNA疫苗增强免疫。在一个实例中,藉由Ad5-UbAAY疫苗诱导抗原特异性免疫响应,由此在ELISpot分析中测量到每106个脾细胞7330个(中值)SFC(图27A,表13)且藉由五聚体染色测量到2.9%(中值)的CD8 T细胞靶向SFL抗原(图27C,表13)。在另一实例中,在VEE-UbAAY srRNA增强免疫之后2周,B16-OVA模型中仍维持T细胞反应,且在ELISpot分析中测量到每106个脾细胞3960个(中值)SFL特异性SFC(图27B,表13)且藉由五聚体染色测量到3.1%(中值)的CD8 T细胞靶向SFL抗原(图27D,表13)。

表13.用Ad5疫苗初免及srRNA增强免疫进行异源初免/增强免疫之后B16-OVA小鼠的免疫监测。

在另一实施方式中,在Ad5-UbAAY初免及VEE-UbAAY srRNA增强免疫之后,在CT26小鼠模型中观察到类似结果。在一个实例中,在Ad5-UbAAY初免(第14天)之后观察到AH1抗原特异性反应且在ELISpot分析中测量到每106个脾细胞平均5187个SFC(图28A,表14)且在VEE-UbAAY srRNA增强免疫(第28天)之后于ELISpot分析中测量到每106个脾细胞平均3799个SFC(图28B,表14)。

表14.在CT26肿瘤小鼠模型中异源初免/增强免疫之后的免疫监测。

XVII.ChAdV/srRNA组合肿瘤模型评价

在鼠类CT26肿瘤模型中评价使用ChAdV68及自我复制RNA(srRNA)的各种给药方案。

XVII.A ChAdV/srRNA组合肿瘤模型评价的方法及材料

肿瘤注射

对Balb/c小鼠注射CT26肿瘤细胞系。肿瘤细胞注射之后7天,将小鼠随机分成不同研究组(28-40只小鼠/组)并开始治疗。在Balb/c小鼠左下方侧腹部中注射106个CT26细胞/动物。在免疫接种之前,使肿瘤生长7天。研究组详细地描述于表15中。

表15-ChAdV/srRNA组合肿瘤模型评价研究组

免疫接种

对于srRNA疫苗,经两侧肌肉内注射对小鼠注射10μg VEE-MAG25mer srRNA,体积100μL(每条腿50μL)。对于C68疫苗,经两侧肌肉内注射对小鼠注射1×1011个ChAdV68.5WTnt.MAG25mer病毒粒子(VP),体积100μL(每条腿50μL)。每周2次,经由腹膜内注射对动物注射250μg剂量的抗PD-1(克隆RMP1-14,BioXcell)或抗IgG(克隆MPC-11,BioXcell)。

脾细胞解离

将每只小鼠的脾及***汇集于3mL完全RPMI(RPMI、10%FBS、青霉素/链霉素)中。使用gentleMACS解离器(Miltenyi Biotec),遵循制造商的方案进行机械解离。经由40微米过滤器过滤解离的细胞并用ACK溶解缓冲液(150mM NH4Cl、10mM KHCO3、0.1mMNa2EDTA)溶解红细胞。再次经由30微米过滤器过滤细胞且接着使其再悬浮于完全RPMI中。在Attune NxT流式细胞仪(Thermo Fisher)上使用碘化丙锭染色对细胞计数以排除死亡及凋亡的细胞。接着将细胞调整至适当活细胞浓度以供随后分析。

离体酶联免疫斑点(ELISPOT)分析

ELISPOT分析系根据ELISPOT统一准则{DOI:10.1038/nprot.2015.068},利用小鼠IFNg ELISpotPLUS试剂盒(MABTECH)进行。将5×104个脾细胞与10μM指定肽一起在涂有IFNg抗体的96孔盘中培育16小时。使用碱性磷酸酶使斑点显色。对反应定时10分钟并藉由用自来水流过盘终止反应。使用AID vSpot读取器谱图对斑点计数。对于ELISPOT分析,将饱和度>50%的孔记录为「太多而无法计数」。将复制孔的偏差>10%的样品自分析中排除。接着,使用下式,针对孔汇合校正斑点计数:斑点计数+2×(斑点计数×%汇合/[100%-%汇合])。藉由用抗原刺激的孔减去阴性肽刺激孔中的斑点计数来校正阴性背景。最后,将标记为太多而无法计数的孔设定成最高观察校正值,四舍五入至最接近的百分数。

XVII.B在CT26肿瘤模型中ChAdV/srRNA组合的评价

在CT26小鼠肿瘤模型中评价ChAdV68.5WTnt.MAG25mer/VEE-MAG25mer srRNA异源初免/增强免疫或VEE-MAG25mer srRNA同源初免/增强免疫疫苗的免疫原性及功效。对Balb/c小鼠注射CT26肿瘤细胞系。注射肿瘤细胞之后7天,将小鼠随机分成不同研究组并开始治疗。研究组详细地描述于表15中且较粗略地描述于表16中。

表16-初免/增强免疫研究组

在初始疫苗接种之后14天收集脾进行免疫监测。一周两次获取肿瘤及体重测量值并监测存活情况。在所有活性疫苗组中观察到强烈的免疫响应。

在第一次免疫接种之后14天,在ELISpot分析中,在分别免疫接种ChAdV68.5WTnt.MAG25mer(ChAdV/第3组)、ChAdV68.5WTnt.MAG25mer+抗PD-1(ChAdV+PD-1/第4组)、VEE-MAG25mer srRNA(srRNA/第5组与第7组的组合的中值)或VEE-MAG25mer srRNA+抗PD-1(srRNA+PD-1/第6组与第8组的组合的中值)的小鼠中观察到每106个脾细胞10,630个、12,976个、3319个或3745个斑点形成细胞(SFC)的中值细胞免疫响应(图30及表17)。相比的下,疫苗对照(第1组)或疫苗对照与抗PD-1的组合(第2组)分别展现每106个脾细胞296个或285个SFC的中值细胞免疫响应。

表17-在CT26肿瘤模型中的细胞免疫响应

与ELISpot数据相符,在第一次免疫接种之后14天,免疫接种ChAdV68.5WTnt.MAG25mer(ChAdV/第3组)、ChAdV68.5WTnt.MAG25mer+抗PD-1(ChAdV+PD-1/第4组)、VEE-MAG25mer srRNA(srRNA/第5组与第7组的组合的中值)或VEE-MAG25mer srRNA+抗PD-1(srRNA+PD-1/第6组与第8组的组合的中值)的小鼠中分别有5.6%、7.8%、1.8%或1.9%的CD8 T细胞(中值)在细胞内细胞因子染色(ICS)分析中展现抗原特异性反应(图31及表18)。免疫接种疫苗对照或疫苗对照与抗PD-1的组合的小鼠分别显示0.2%及0.1%的抗原特异性CD8反应。

表18-CT26肿瘤模型中的CD8 T细胞反应

在CT26结肠肿瘤模型中测量所有组的肿瘤生长情况,且到开始治疗后21天(注射CT-26肿瘤细胞之后28天),出现肿瘤生长。在开始治疗后21天,基于较大肿瘤尺寸(>2500mm3)处死小鼠;因此,仅呈递前21天以避免分析偏差。ChAdV68.5WTnt.MAG25mer初免/VEE-MAG25mer srRNA增强免疫(第3组)、ChAdV68.5WTnt.MAG25mer初免/VEE-MAG25mersrRNA增强免疫+抗PD-1(第4组)、VEE-MAG25mer srRNA初免/ChAdV68.5WTnt.MAG25mer增强免疫(第5组)、VEE-MAG25mer srRNA初免/ChAdV68.5WTnt.MAG25mer增强免疫+抗PD-1(第6组)、VEE-MAG25mer srRNA初免/VEE-MAG25mer srRNA增强免疫(第7组)及VEE-MAG25mersrRNA初免/VEE-MAG25mer srRNA增强免疫+抗PD-1(第8组)在21天时的平均肿瘤体积分别为1129、848、2142、1418、2198及1606mm3(图32及表19)。疫苗对照疫苗对照与抗PD-1的组合的平均肿瘤体积分别为2361或2067mm3。基于所述数据,用ChAdV68.5WTnt.MAG25mer/VEE-MAG25mer srRNA(第3组)、ChAdV68.5WTnt.MAG25mer/VEE-MAG25mer srRNA+抗PD-1(第4组)、VEE-MAG25mer srRNA/ChAdV68.5WTnt.MAG25mer+抗PD-1(第6组)及VEE-MAG25mersrRNA/VEE-MAG25mer srRNA+抗PD-1(第8组)的疫苗治疗在21天时引起肿瘤生长减慢,明显不同于对照(第1组)。

表19-第21天测量的CT26模型的肿瘤尺寸

在CT-26肿瘤模型中,在开始治疗后,监测存活情况35天(注射CT-26肿瘤细胞之后42天)。在小鼠疫苗接种4个测试组合之后,观察到存活率提高。在疫苗接种之后,利用ChAdV68.5WTnt.MAG25mer初免/VEE-MAG25mer srRNA增强免疫与抗PD-1的组合(第4组;相对于对照组1,P<0.0001)、VEE-MAG25mer srRNA初免/VEE-MAG25mer srRNA增强免疫与抗PD-1的组合(第8组;相对于对照组1,P=0.0006)、ChAdV68.5WTnt.MAG25mer初免/VEE-MAG25mer srRNA增强免疫(第3组;相对于对照组1,P=0.0003)及VEE-MAG25mer srRNA初免/ChAdV68.5WTnt.MAG25mer增强免疫与抗PD-1的组合(第6组;相对于对照组1,P=0.0016)的小鼠的存活率分别为64%、46%、41%及36%(图33及表20)。其余治疗组[VEE-MAG25mer srRNA初免/ChAdV68.5WTnt.MAG25mer增强免疫(第5组)、VEE-MAG25mer srRNA初免/VEE-MAG25mer srRNA增强免疫(第7组)及单独抗PD-1(第2组)]的存活率与对照组1无明显不同(≤14%)。

表20-CT26模型中的存活率

总的,ChAdV68.5WTnt.MAG25mer及VEE-MAG25mer srRNA引起针对由疫苗编码的小鼠肿瘤抗原的强烈T细胞反应。向带有肿瘤的小鼠施用ChAdV68.5WTnt.MAG25mer初免及VEE-MAG25mer srRNA增强免疫并且共施用或不共施用抗PD-1、施用VEE-MAG25mer srRNA初免及ChAdV68.5WTnt.MAG25mer增强免疫与抗PD-1的组合或施用VEE-MAG25mer srRNA同源初免增强免疫与抗PD-1的组合使存活率提高。

XVIII.非人类灵长类动物研究

在非人类灵长类动物(NHP)中评价使用ChAdV68及自我复制RNA(srRNA)的各种给药方案。

XVIII.A.非人类灵长类动物研究的材料及方法

免疫接种

向各NHP中肌肉内注射初免疫苗以起始研究(疫苗初免)。对Mamu A01印度恒河猴两侧免疫接种1×1012个ChAdV68.5WTnt.MAG25mer病毒粒子(每侧注射5×1011个病毒粒子)、30μg VEE-MAG25MER srRNA、100μg VEE-MAG25mer srRNA或300μg以LNP-1或LNP调配的VEE-MAG25mer srRNA,在初始疫苗接种之后4周,经肌肉内施用2.30μg、100μg或300μg VEE-MAG25mer srRNA疫苗增强免疫。在其他研究组中,在起初的初始疫苗接种之后8周,经肌肉内施用30μg、100μg或300μg VEE-MAG25mer srRNA疫苗作为二次增强免疫。在疫苗免疫接种部位附近皮下施用或静脉内递送抗CTLA-4至指定组。根据表21及23中概述的组,施用每剂两侧注射液。

免疫监测

在初始疫苗接种之后7、14、28或35天,使用淋巴细胞分离培养基(LymphocyteSeparation Medium,LSM;MP Biomedicals)及LeucoSep分离管(Greiner Bio-One)分离PBMC并使其再悬浮于含有10%FBS及青霉素/链霉素的RPMI中。在Attune NxT流式细胞仪(Thermo Fisher)上使用碘化丙锭染色对细胞计数以排除死亡及凋亡的细胞。接着将细胞调整至适当活细胞浓度以供随后分析。对于研究中的每只猴,使用ELISpot或流式细胞测量方法测量T细胞反应。藉由使用离体酶联免疫斑点(ELISpot)分析测量诸如IFN-γ的细胞因子的诱导来监测PBMC中针对疫苗中编码的6个不同恒河猴Mamu-A*01的I类表位的T细胞反应。ELISpot分析系根据ELISPOT统一准则{DOI:10.1038/nprot.2015.068},利用猴IFNgELISpotPLUS试剂盒(MABTECH)进行。将200,000个PBMC与10μM指定肽一起在涂有IFNg抗体的96孔盘中培育16小时。使用碱性磷酸酶使斑点显色。对反应定时10分钟并藉由用自来水流过盘终止反应。使用AID vSpot读取器谱图对斑点计数。对于ELISPOT分析,将饱和度>50%的孔记录为「太多而无法计数」。将复制孔的偏差>10%的样品自分析中排除。接着,使用下式,针对孔汇合校正斑点计数:斑点计数+2×(斑点计数×%汇合/[100%-%汇合])。藉由用抗原刺激的孔减去阴性肽刺激孔中的斑点计数来校正阴性背景。最后,将标记为太多而无法计数的孔设定成最高观察校正值,四舍五入至最接近的百分数。

藉由使用流式细胞测量术测量诸如IFN-γ的细胞内细胞因子的诱导来监测PBMC中针对疫苗中编码的6个不同恒河猴Mamu-A*01的I类表位的特异性CD4及CD8 T细胞反应。由两种方法得到的结果指示,以抗原特异性方式诱导针对表位的细胞因子。

XVIII.B.在非人类灵长类动物中免疫原性的评价(低及中等srRNA剂量)

本研究经设计以(a)评价ChAdV68.5WTnt.MAG25mer初始免疫接种随后VEE-MAG25mer srRNA 100μg剂量的异源初免/增强免疫组合的免疫原性及初步安全性;(b)评价针对ChAdV68.5WTnt.MAG25mer/VEE-MAG25mer srRNA初免/增强免疫组合的T细胞反应的动力学。此研究组是在mamu A01印度恒河猴中进行以便展示免疫原性。选择用于本研究中的抗原仅在恒河猴中识别到,具体言的,系具有mamu A*01的I类MHC单倍型的抗原。将MamuA01印度恒河猴随机分成不同研究组(6只猕猴/组)并经IM注射施用编码包括多个mamu A01限制性表位的模型抗原的ChAdV68.5WTnt.MAG25mer或VEE-MAG25mer srRNA载体。所述研究组如表21中所描述。

本研究亦设计用于评价30μg及100μg剂量VEE-MAG25mer srRNA的同源初免/增强免疫的免疫原性、初步安全性及T细胞反应动力学并比较在使用LNP1与使用LNP2的脂质纳米颗粒中VEE-MAG25mer srRNA的免疫响应。所述研究组系以与以上描述的ChAdV68/srRNA初免/增强免疫类似的方式进行。所述研究组如表21中所描述。

表21-低及中等srRNA剂量NHP免疫原性研究组

在免疫接种之前以及在初次免疫接种之后之前6周中每周收集PBMC进行免疫监测。此外,在初次免疫接种之后8周及10周,收集PBMC进行免疫监测。

在免疫接种之前以及在初次初始免疫接种ChAdV68.5WTnt.MAG25mer之后7、14、21、28或35天,测量外周血液单核细胞(PBMC)中针对六个不同的mamu A01限制性表位的抗原特异性细胞免疫响应。标绘在各免疫监测时间点下针对全部六个表位的组合免疫响应(图34及表22)。在初次ChAdV68.5WTnt.MAG25mer初始免疫接种之后7、14、21或28天,观察到组合抗原特异性免疫响应,其全部测量值分别为每106个PBMC有1256个、1823个、1905个、987个SFC(组合的六个表位)。免疫响应显示出预期的型态,其中在初始免疫接种之后7-14天测量到峰值免疫响应,随后在28天之后免疫响应缩减。

另外,在用VEE-MAG25mer srRNA第一次增强免疫之后7天(亦即,初次免疫接种ChAdV68.5WTnt.MAG25mer之后35天),测量到每106个PBMC有1851个SFC的组合抗原特异性细胞免疫响应(组合的六个表位)。在用VEE-MAG25mer srRNA第一次增强免疫之后7天(第35天)测量的免疫响应与所测量的ChAdV68.5WTnt.MAG25mer初始免疫接种(第14天)的峰值免疫响应相当且比在ChAdV68.5WTnt.MAG25mer初始免疫接种之后28天测量的免疫响应高约2倍。

表22-利用低及中等量srRNA的细胞免疫响应

XVIII.C.在非人类灵长类动物中免疫原性的评价(高srRNA剂量及抗CTLA4)

本研究系设计用于评价抗CTLA4的施用途径对疫苗诱导的免疫响应的影响(例如,比较在紧密相邻疫苗引流***处局部(SC)递送抗CTLA4与全身(IV)施用)。此研究组是在mamu A01印度恒河猴中进行以展示免疫原性。在诸如恒河猴的非人类灵长类动物物种中的疫苗免疫原性是在人体中疫苗效力的最佳预测器。另外,选择用于本研究中的抗原仅在恒河猴中识别到,具体言的,系具有mamu A*01的I类MHC单倍型的抗原。将Mamu A01印度恒河猴随机成不同研究组(6只猕猴/组)并经IM注射施用编码包括多个mamu A01限制性抗原的模型抗原的ChAdV68.5WTnt.MAG25mer。在疫苗免疫接种部位附近皮下施用或静脉内递送抗CTLA-4至指定组。所述研究组如表23中所描述。

本研究亦设计用于(a)评价300μg剂量VEE-MAG25mer srRNA的同源初免/增强免疫或异源初免/增强免疫与ChAdV68.5WTnt.MAG25mer的组合的免疫原性及初步安全性;(b)比较在使用300μg剂量LNP1与LNP2的脂质纳米颗粒中VEE-MAG25mer srRNA的免疫响应;及(c)评价针对VEE-MAG25mer srRNA及ChAdV68.5WTnt.MAG25mer免疫接种的T细胞反应的动力学。所述研究组是在mamu A01印度恒河猴中进行以便展示免疫原性。在诸如恒河猴的非人类灵长类动物物种中的疫苗免疫原性是在人体中疫苗效力的最佳预测器。另外,选择用于本研究中的抗原仅在恒河猴中识别到,具体言的,系具有mamu A*01的I类MHC单倍型的抗原。将Mamu A01印度恒河猴随机分成不同研究组(6只猕猴/组)并经IM注射施用编码包括多个mamu A01限制性抗原的模型抗原的ChAdV68.5WTnt.MAG25mer或VEE-MAG25mer srRNA。抗CTLA-4是在疫苗免疫接种部位附近皮下施用或静脉内递送至指定组。所述研究组如表23中所描述。

表23-高等srRNA剂量NHP免疫原性研究组

对Mamu A01印度恒河猴免疫接种ChAdV68.5WTnt.MAG25mer,并IV或SC施用或不施用抗CTLA-4。在初次免疫接种之后14天,测量外周血液单核细胞(PBMC)中针对六个不同的mamu A01限制性表位的抗原特异性细胞免疫响应且标绘针对全部六个表位的组合免疫响应(图35及表24)。在用ChAdV68.5WTnt.MAG25mer、ChAdV68.5WTnt.MAG25mer及抗CTLA-4(IV)或ChAdV68.5WTnt.MAG25mer(SC)单次免疫接种之后,分别观察到每106个PBMC的2257个、5887个或3984个SFC的组合抗原特异性免疫响应(组合的六个表位)。

表24-利用ChAdV68及抗CTLA-4的细胞免疫响应

某些序列

载体、盒及抗体的序列如下所示。

泛素(SEQ ID NO:38)

>UbG76 0-228

泛素A76(SEQ ID NO:39)

>UbA76 0-228

HLA-A2(I类MHC)信号肽(SEQ ID NO:40)

>MHC信号肽0-78

HLA-A2(I类MHC)跨膜域(SEQ ID NO:41)

>HLA A2跨膜域0-201

IgK前导序列(SEQ ID NO:42)

>IgK前导序列0-60

人类DC-Lamp(SEQ ID NO:43)

>人类DCLAMP 0-3178

小鼠LAMP1(SEQ ID NO:44)

>小鼠Lamp1 0-1858

人类Lamp1 cDNA(SEQ ID NO:45)

>人类Lamp1 0-2339

破伤风类毒素核酸序列(SEQ ID NO:46)

破伤风类毒素氨基酸序列(SEQ ID NO:47)

PADRE核苷酸序列(SEQ ID NO:48)

PADRE氨基酸序列(SEQ ID NO:49)

WPRE(SEQ ID NO:50)

>WPRE 0-593

IRES(SEQ ID NO:51)

>eGFP_IRES_SEAP_Insert 1746-2335

GFP(SEQ ID NO:52)

SEAP(SEQ ID NO:53)

萤火虫荧光素酶(SEQ ID NO:54)

FMDV 2A(SEQ ID NO:55)

参考文献

1.Desrichard,A.,Snyder,A.&Chan,T.A.Cancer Neoantigens andApplications for Immunotherapy.Clin.Cancer Res.Off.J.Am.Assoc.Cancer Res.(2015).doi:10.1158/1078-0432.CCR-14-3175

2.Schumacher,T.N.&Schreiber,R.D.Neoantigens in cancerimmunotherapy.Science 348,69-74(2015).

3.Gubin,M.M.,Artyomov,M.N.,Mardis,E.R.&Schreiber,R.D.Tumorneoantigens:building a framework for personalized cancerimmunotherapy.J.Clin.Invest.125,3413-3421(2015).

4.Rizvi,N.A.et al.Cancer immunology.Mutational landscape determinessensitivity to PD-1 blockade in non-small cell lung cancer.Science 348,124-128(2015).

5.Snyder,A.et al.Genetic basis for clinical response to CTLA-4blockade in melanoma.N.Engl.J.Med.371,2189-2199(2014).

6.Carreno,B.M.et al.Cancer immunotherapy.A dendritic cell vaccineincreases the breadth and diversity of melanoma neoantigen-specific Tcells.Science 348,803-808(2015).

7.Tran,E.et al.Cancer immunotherapy based on mutation-specific CD4+Tcells in a patient with epithelial cancer.Science 344,641-645(2014).

8.Hacohen,N.&Wu,C.J.-Y.United States Patent Application:0110293637-COMPOSITIONS AND METHODS OF IDENTIFYING TUMOR SPECIFIC NEOANTIGENS.(A1).at<http://appft1.uspto.gov/netacgi/nph-Parser?Sect1=PTO1&Sect2=HITOF F&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l=50&s1=20110293637.PGNR.>

9.Lundegaard,C.,Hoof,I.,Lund,O.&Nielsen,M.State of the art andchallenges in sequence based T-cell epitope prediction.Immunome Res.6 Suppl2,S3(2010).

10.Yadav,M.et al.Predicting immunogenic tumour mutations by combiningmass spectrometry and exome sequencing.Nature 515,572-576(2014).

11.Bassani-Sternberg,M.,Pletscher-Frankild,S.,Jensen,L.J.&Mann,M.Massspectrometry of human leukocyte antigen class I peptidomes reveals strongeffects of protein abundance and turnover on antigen presentation.Mol.Cell.Proteomics MCP 14,658-673(2015).

12.Van Allen,E.M.et al.Genomic correlates of response to CTLA-4blockade in metastatic melanoma.Science 350,207-211(2015).

13.Yoshida,K.&Ogawa,S.Splicing factor mutations and cancer.WileyInterdiscip.Rev.RNA 5,445-459(2014).

14.Cancer Genome Atlas Research Network.Comprehensive molecularprofiling of lung adenocarcinoma.Nature 511,543-550(2014).

15.Rajasagi,M.et al.Systematic identification of personal tumor-specific neoantigens in chronic lymphocytic leukemia.Blood 124,453-462(2014).

16.Downing,S.R.et al.United States Patent Application:0120208706-OPTIMIZATION OF MULTIGENE ANALYSIS OF TUMOR SAMPLES.(A1).at<http://appft1.uspto.gov/netacgi/nph-Parser?

Sect1=PTO1&Sect2=HITOFF&d=PG01&p=1&u=/netahtml/PTO/srchnum.html&r=1&f=G&l=50&s1=20120208706.PGNR.>

17.Target Capture for NextGen Sequencing-IDT.at<http://www.idtdna.com/pages/products/nextgen/target-capture>

18.Shukla,S.A.et al.Comprehensive analysis of cancer-associatedsomatic mutations in class I HLA genes.Nat.Biotechnol.33,1152-1158(2015).

19.Cieslik,M.et al.The use of exome capture RNA-seq for highlydegraded RNA with application to clinical cancer sequencing.Genome Res.25,1372-1381(2015).

20.Bodini,M.et al.The hidden genomic landscape of acute myeloidleukemia:subclonal structure revealed by undetected mutations.Blood 125,600-605(2015).

21.Saunders,C.T.et al.Strelka:accurate somatic small-variant callingfrom sequenced tumor-normal sample pairs.Bioinforma.Oxf.Engl.28,1811-1817(2012).

22.Cibulskis,K.et al.Sensitive detection of somatic point mutationsin impure and heterogeneous cancer samples.Nat.Biotechnol.31,213-219(2013).

23.Wilkerson,M.D.et al.Integrated RNA and DNA sequencing improvesmutation detection in low purity tumors.Nucleic Acids Res.42,e107(2014).

24.Mose,L.E.,Wilkerson,M.D.,Hayes,D.N.,Perou,C.M.&Parker,J.S.ABRA:improved coding indel detection via assembly-based realignment.Bioinforma.Oxf.Engl.30,2813-2815(2014).

25.Ye,K.,Schulz,M.H.,Long,Q.,Apweiler,R.&Ning,Z.Pindel:a patterngrowth approach to detect break points of large deletions and medium sizedinsertions from paired-end short reads.Bioinforma.Oxf.Engl.25,2865-2871(2009).

26.Lam,H.Y.K.et al.Nucleotide-resolution analysis of structuralvariants using BreakSeq and a breakpoint library.Nat.Biotechnol.28,47-55(2010).

27.Frampton,G.M.et al.Development and validation of a clinical cancergenomic profiling test based on massively parallel DNAsequencing.Nat.Biotechnol.31,1023-1031(2013).

28.Boegel,S.et al.HLA typing from RNA-Seq sequence reads.GenomeMed.4,102(2012).

29.Liu,C.et al.ATHLATES:accurate typing of human leukocyte antigenthrough exome sequencing.Nucleic Acids Res.41,e142(2013).

30.Mayor,N.P.et al.HLA Typing for the Next Generation.PloS One 10,e0127153(2015).

31.Roy,C.K.,Olson,S.,Graveley,B.R.,Zamore,P.D.&Moore,M.J.Assessinglong-distance RNA sequence connectivity via RNA-templated DNA-DNAligation.eLife 4,(2015).

32.Song,L.&Florea,L.CLASS:constrained transcript assembly of RNA-seqreads.BMC Bioinformatics 14 Suppl 5,S14(2013).

33.Maretty,L.,Sibbesen,J.A.&Krogh,A.Bayesian transcriptomeassembly.Genome Biol.15,501(2014).

34.Pertea,M.et al.StringTie enables improved reconstruction of atranscriptome from RNA-seq reads.Nat.Biotechnol.33,290-295(2015).

35.Roberts,A.,Pimentel,H.,Trapnell,C.&Pachter,L.Identification ofnovel transcripts in annotated genomes using RNA-Seq.Bioinforma.Oxf.Engl.(2011).doi:10.1093/bioinformatics/btr355

36.Vitting-Seerup,K.,Porse,B.T.,Sandelin,A.&Waage,J.spliceR:an Rpackage for classification of alternative splicing and prediction of codingpotential from RNA-seq data.BMC Bioinformatics15,81(2014).

37.Rivas,M.A.et al.Human genomics.Effect of predicted protein-truncating genetic variants on the human transcriptome.Science348,666-669(2015).

38.Skelly,D.A.,Johansson,M.,Madeoy,J.,Wakefield,J.&Akey,J.M.Apowerful and flexible statistical framework for testing hypotheses of allele-specific gene expression from RNA-seq data.Genome Res.21,1728-1737(2011).

39.Anders,S.,Pyl,P.T.&Huber,W.HTSeq--a Python framework to work withhigh-throughput sequencing data.Bioinforma.Oxf.Engl.31,166-169(2015).

40.Furney,S.J.et al.SF3B1 mutations are associated with alternativesplicing in uveal melanoma.Cancer Discov.(2013).doi:10.1158/2159-8290.CD-13-0330

41.Zhou,Q.et al.A chemical genetics approach for the functionalassessment of novel cancer genes.Cancer Res.(2015).doi:10.1158/0008-5472.CAN-14-2930

42.Maguire,S.L.et al.SF3B1 mutations constitute a novel therapeutictarget in breast cancer.J.Pathol.235,571-580(2015).

43.Carithers,L.J.et al.A Novel Approach to High-Quality PostmortemTissue Procurement:The GTEx Project.Biopreservation Biobanking 13,311-319(2015).

44.Xu,G.et al.RNA CoMPASS:a dual approach for pathogen and hosttranscriptome analysis of RNA-seq datasets.PloS One 9,e89445(2014).

45.Andreatta,M.&Nielsen,M.Gapped sequence alignment using artificialneural networks:application to the MHC class I system.Bioinforma.Oxf.Engl.(2015).doi:10.1093/bioinformatics/btv639

46.K.W.,Rasmussen,M.,Buus,S.&Nielsen,M.NetMHCstab-predicting stability of peptide-MHC-I complexes;impacts for cytotoxic Tlymphocyte epitope discovery.Immunology 141,18-26(2014).

47.Larsen,M.V.et al.An integrative approach to CTL epitopeprediction:a combined algorithm integrating MHC class I binding,TAP transportefficiency,and proteasomal cleavage predictions.Eur.J.Immunol.35,2295-2303(2005).

48.Nielsen,M.,Lundegaard,C.,Lund,O.&C.The role of theproteasome in generating cytotoxic T-cell epitopes:insights obtained fromimproved predictions of proteasomal cleavage.Immunogenetics 57,33-41(2005).

49.Boisvert,F.-M.et al.A Quantitative Spatial Proteomics Analysis ofProteome Turnover in Human Cells.Mol.Cell.Proteomics11,M111.011429-M111.011429(2012).

50.Duan,F.et al.Genomic and bioinformatic profiling of mutationalneoepitopes reveals new rules to predict anticancerimmunogenicity.J.Exp.Med.211,2231-2248(2014).

51.Janeway's Immunobiology:9780815345312:Medicine&Health [email protected]<http://www.amazon.com/Janeways-Immunobiology-Kenneth-Murphy/dp/0815345313>

52.Calis,J.J.A.et al.Properties of MHC Class I Presented PeptidesThat Enhance Immunogenicity.PLoS Comput.Biol.9,e1003266(2013).

53.Zhang,J.et al.Intratumor heterogeneity in localized lungadenocarcinomas delineated by multiregion sequencing.Science 346,256-259(2014)

54.Walter,M.J.et al.Clonal architecture of secondary acute myeloidleukemia.N.Engl.J.Med.366,1090-1098(2012).

55.Hunt DF,Henderson RA,Shabanowitz J,Sakaguchi K,Michel H,Sevilir N,Cox AL,Appella E,Engelhard VH.Characterization of peptides bound to the classI MHC molecule HLA-A2.1 by mass spectrometry.Science 1992.255:1261-1263.

56.Zarling AL,Polefrone JM,Evans AM,Mikesh LM,Shabanowitz J,Lewis ST,Engelhard VH,Hunt DF.Identification of class I MHC-associated phosphopeptidesas targets for cancer immunotherapy.Proc Natl Acad Sci U S A.2006 Oct3;103(40):14889-94.

57.Bassani-Sternberg M,Pletscher-Frankild S,Jensen LJ,Mann M.Massspectrometry of human leukocyte antigen class I peptidomes reveals strongeffects of protein abundance and turnover on antigen presentation.Mol CellProteomics.2015 Mar;14(3):658-73.doi:10.1074/mcp.M114.042812.

58.Abelin JG,Trantham PD,Penny SA,Patterson AM,Ward ST,Hildebrand WH,Cobbold M,Bai DL,Shabanowitz J,Hunt DF.Complementary IMAC enrichment methodsfor HLA-associated phosphopeptide identification by mass spectrometry.NatProtoc.2015Sep;10(9):1308-18.doi:10.1038/nprot.2015.086.Epub 2015 Aug 6

59.Barnstable CJ,Bodmer WF,Brown G,Galfre G,Milstein C,Williams AF,Ziegler A.Production of monoclonal antibodies to group A erythrocytes,HLA andother human cell surface antigens-new tools for genetic analysis.Cell.1978May;14(1):9-20.

60.Goldman JM,Hibbin J,Kearney L,Orchard K,Th'ng KH.HLA-DR monoclonalantibodies inhibit the proliferation of normal and chronic granulocyticleukaemia myeloid progenitor cells.Br J Haematol.1982 Nov;52(3):411-20.

61.Eng JK,Jahan TA,Hoopmann MR.Comet:an open-source MS/MS sequencedatabase search tool.Proteomics.2013 Jan;13(1):22-4.doi:10.1002/pmic.201200439.Epub 2012 Dec 4.

62.Eng JK,Hoopmann MR,Jahan TA,Egertson JD,Noble WS,MacCoss MJ.Adeeper look into Comet--implementation and features.J Am Soc MassSpectrom.2015 Nov;26(11):1865-74.doi:10.1007/s13361-015-1179-x.Epub 2015 Jun27.

63.LukasJesse Canterbury,Jason Weston,William Stafford Nobleand Michael J.MacCoss.Semi-supervised learning for peptide identificationfrom shotgun proteomics datasets.Nature Methods 4:923-925,November 2007

64.LukasJohn D.Storey,Michael J.MacCoss and William StaffordNoble.Assigning confidence measures to peptides identified by tandem massspectrometry.Journal of Proteome Research,7(1):29-34,January 2008

65.LukasJohn D.Storey and William Stafford Noble.Nonparametricestimation of posterior error probabilities associated with peptidesidentified by tandem mass spectrometry.Bioinformatics,24(16):i42-i48,August2008

66.Kinney RM,BJ Johnson,VL Brown,DW Trent.Nucleotide Sequence of the26 S mRNA of the Virulent Trinidad Donkey Strain of Venezuelan EquineEncephalitis Virus and Deduced Sequence of the Encoded StructuralProteins.Virology 152(2),400-413.1986 Jul 30.

67.Jill E Slansky,Frédérique M Rattis,Lisa F Boyd,Tarek Fahmy,Elizabeth M Jaffee,Jonathan P Schneck,David H Margulies,Drew MPardoll.Enhanced Antigen-Specific Antitumor Immunity with Altered PeptideLigands that Stabilize the MHC-Peptide-TCR Complex.Immunity,Volume 13,Issue4,1 October 2000,Pages 529-538.

68.A Y Huang,P H Gulden,A S Woods,M C Thomas,C D Tong,W Wang,V HEngelhard,G Pasternack,R Cotter,D Hunt,D M Pardoll,and E M Jaffee.Theimmunodominant major histocompatibility complex class I-restricted antigen ofa murine colon tumor derives from an endogenous retroviral gene product.ProcNatl Acad Sci U S A.;93(18):9730-9735,1996 Sep 3.

69.JOHNSON,BARBARA J.B.,RICHARD M.KINNEY,CRYSTLE L.KOST AND DENNISW.TRENT.Molecular Determinants of Alphavirus Neurovirulence:Nucleotide andDeduced Protein Sequence Changes during Attenuation of Venezuelan EquineEncephalitis Virus.J Gen Virol 67:1951-1960,1986.

70.Aarnoudse,C.A.,Krüse,M.,Konopitzky,R.,Brouwenstijn,N.,and Schrier,P.I.(2002).TCR reconstitution in Jurkat reporter cells facilitates theidentification of novel tumor antigens by cDNA expression cloning.Int JCancer 99,7-13.

71.Alexander,J.,Sidney,J.,Southwood,S.,Ruppert,J.,Oseroff,C.,Maewal,A.,Snoke,K.,Serra,H.M.,Kubo,R.T.,and Sette,A.(1994).Development of highpotency universal DR-restricted helper epitopes by modification of highaffinity DR-blocking peptides.Immunity 1,751-761.

72.Banu,N.,Chia,A.,Ho,Z.Z.,Garcia,A.T.,Paravasivam,K.,Grotenbreg,G.M.,Bertoletti,A.,and Gehring,A.J.(2014).Building and optimizing a virus-specific T cell receptor library for targeted immunotherapy in viralinfections.Scientific Reports 4,4166.

73.Cornet,S.,Miconnet,I.,Menez,J.,Lemonnier,F.,and Kosmatopoulos,K.(2006).Optimal organization of a polypeptide-based candidate cancer vaccinecomposed of cryptic tumor peptides with enhanced immunogenicity.Vaccine 24,2102-2109.

74.Depla,E.,van der Aa,A.,Livingston,B.D.,Crimi,C.,Allosery,K.,deBrabandere,V.,Krakover,J.,Murthy,S.,Huang,M.,Power,S.,et al.(2008).Rationaldesign of a multiepitope vaccine encoding T-lymphocyte epitopes for treatmentof chronic hepatitis B virus infections.Journal of Virology 82,435-450.

75.Ishioka,G.Y.,Fikes,J.,Hermanson,G.,Livingston,B.,Crimi,C.,Qin,M.,del Guercio,M.F.,Oseroff,C.,Dahlberg,C.,Alexander,J.,et al.(1999).Utilizationof MHC class I transgenic mice for development of minigene DNA vaccinesencoding multiple HLA-restricted CTL epitopes.J Immunol 162,3915-3925.

76.Janetzki,S.,Price,L.,Schroeder,H.,Britten,C.M.,Welters,M.J.P.,andHoos,A.(2015).Guidelines for the automated evaluation of Elispot assays.NatProtoc 10,1098-1115.

77.Lyons,G.E.,Moore,T.,Brasic,N.,Li,M.,Roszkowski,J.J.,and Nishimura,M.I.(2006).Influence of human CD8 on antigen recognition by T-cell receptor-transduced cells.Cancer Res 66,11455-11461.

78.Nagai,K.,Ochi,T.,Fujiwara,H.,An,J.,Shirakata,T.,Mineno,J.,Kuzushima,K.,Shiku,H.,Melenhorst,J.J.,Gostick,E.,et al.(2012).Aurora kinaseA-specific T-cell receptor gene transfer redirects T lymphocytes to displayeffective antileukemia reactivity.Blood 119,368-376.

79.Panina-Bordignon,P.,Tan,A.,Termijtelen,A.,Demotz,S.,Corradin,G.,and Lanzavecchia,A.(1989).Universally immunogenic T cell epitopes:promiscuousbinding to human MHC class II and promiscuous recognition by T cells.Eur JImmunol 19,2237-2242.

80.Vitiello,A.,Marchesini,D.,Furze,J.,Sherman,L.A.,and Chesnut,R.W.(1991).Analysis of the HLA-restricted influenza-specific cytotoxic Tlymphocyte response in transgenic mice carrying a chimeric human-mouse classI major histocompatibility complex.J Exp Med 173,1007-1015.

81.Yachi,P.P.,Ampudia,J.,Zal,T.,and Gascoigne,N.R.J.(2006).Alteredpeptide ligands induce delayed CD8-T cell receptor interaction--a role forCD8 in distinguishing antigen quality.Immunity25,203-211.

82.Pushko P,Parker M,Ludwig GV,Davis NL,Johnston RE,SmithJF.Replicon-helper systems from attenuated Venezuelan equine encephalitisvirus:expression of heterologous genes in vitro and immunization againstheterologous pathogens in vivo.Virology.1997Dec 22;239(2):389-401.

83.Strauss,JH and E G Strauss.The alphaviruses:gene expression,replication,and evolution.Microbiol Rev.1994 Sep;58(3):491-562.

84.C,Ehrengruber MU,Grandgirard D.Alphaviral cytotoxicity andits implication in vector development.Exp Physiol.2005Jan;90(1):45-52.Epub2004 Nov 12.

85.Riley,Michael K.II,and Wilfred Vermerris.Recent Advances inNanomaterials for Gene Delivery—A Review.Nanomaterials 2017,7(5),94.

86.Frolov I,Hardy R,Rice CM.Cis-acting RNA elements at the5'end ofSindbis virus genome RNA regulate minus-and plus-strand RNAsynthesis.RNA.2001Nov;7(11):1638-51.

87.Jose J,Snyder JE,Kuhn RJ.A structural and functional perspectiveof alphavirus replication and assembly.Future Microbiol.2009Sep;4(7):837-56.

各种实施方式

1.本文公开一种包含新抗原或多个新抗原的病毒载体。在某些实施方式中,新抗原系使用本文所公开的方法鉴定,例如下文。在某些实施方式中,新抗原具有如本文所公开的至少一个特征或特性,例如下文。

2.本文公开一种用于鉴定来自个体的肿瘤细胞、可能在肿瘤细胞表面上呈递的一个或多个新抗原的方法,其包含以下步骤:

自个体的肿瘤细胞获得外显子组、转录组或全基因组肿瘤核苷酸测序数据中的至少一者,其中该肿瘤核苷酸测序数据用于获得代表新抗原集合中的每一者的肽序列的数据,且其中各新抗原的肽序列包含至少一个使其不同于相应野生型亲本肽序列的改变;

将各新抗原的肽序列输入至一个或多个呈递模型中,以产生新抗原中的每一者在个体肿瘤细胞的肿瘤细胞表面上由一个或多个MHC等位基因呈递的数值可能性集合,该数值可能性集合已至少基于所接受的质谱数据进行鉴定;及

基于数值可能性集合选择新抗原集合的子集,以产生经选择的新抗原集合。

3.在某些实施方式中,经选择的新抗原集合的数量为20个。

4.在某些实施方式中,呈递模型表示以下两者之间的依赖性:

MHC等位基因的对中的特定一种与在肽序列的特定位置处的特定氨基酸的存在;及

在肿瘤细胞表面上由所述MHC等位基因中的对的所述特定一种呈递这样的包含在所述特定位置处的所述特定氨基酸的肽序列的可能性。

5.在某些实施方式中,输入肽序列包含:

将一或多种呈递模型应用于相应新抗原的肽序列,以产生一个或多个MHC等位基因中的每一者的依赖性评分,指示MHC等位基因是否将至少基于相应新抗原的肽序列的氨基酸位置呈递相应新抗原。

6.在某些实施方式中,该方法另外包含:

变换依赖性评分以产生各MHC等位基因的相应的独立等位基因的可能性,指示相应的MHC等位基因将呈递相应的新抗原的可能性;及

组合独立等位基因的可能性以产生数值可能性。

7.在某些实施方式中,变换依赖性评分使相应新抗原的肽序列的呈递模型化为相互排斥的。

8.在某些实施方式中,该方法另外包含:

变换依赖性评分组合以产生数值可能性。

9.在某些实施方式中,变换依赖性评分组合使相应新抗原的肽序列的呈递作为MHC等位基因之间的干扰而模型化。

10.在某些实施方式中,数值可能性集合藉由至少一个等位基因非相互作用特征进一步鉴定,且另外包含:

将不与一个或多个呈递模型中的一者相互作用的等位基因应用于等位基因非相互作用特征,以产生等位基因非相互作用特征的依赖性评分,指示相应新抗原的肽序列是否将基于等位基因非相互作用特征呈递。

11.在某些实施方式中,该方法另外包含:

将一个或多个MHC等位基因中的每个MHC等位基因的依赖性评分与等位基因非相互作用特征的依赖性评分组合;

变换每个MHC等位基因的组合依赖性评分以产生MHC等位基因中相应的独立等位基因的可能性,指示相应的MHC等位基因将呈递相应的新抗原的可能性;及

组合独立等位基因的可能性以产生数值可能性。

12.在某些实施方式中,该方法另外包含:

变换每个MHC等位基因的依赖性评分与等位基因非相互作用特征的依赖性评分的组合以产生数值可能性。

13.在某些实施方式中,用于呈递模型的数值参数集合是基于训练数据集来训练,该训练数据集包括鉴定为存在于多个样品中的至少一个训练肽序列集合及与每个训练肽序列相关的一个或多个MHC等位基因,其中训练肽序列是经由对自源于多个样品的MHC等位基因洗脱的经分离的肽进行质谱法来鉴定。

14.在某些实施方式中,训练数据集另外包括关于肿瘤细胞的mRNA表达量的数据。

15.在某些实施方式中,样品包含经工程改造以表达单个MHC I类或II类等位基因的细胞系。

16.在某些实施方式中,样品包含经工程改造以表达多个MHC I类或II类等位基因的细胞系。

17.在某些实施方式中,样品包含获自或源于多个患者的人类细胞系。

18.在某些实施方式中,样品包含获自多个患者的新鲜或冷冻的肿瘤样品。

19.在某些实施方式中,样品包含获自多个患者的新鲜或冷冻的组织样品。

20.在某些实施方式中,样品包含使用T细胞分析鉴定的肽。

21.在某些实施方式中,训练数据集另外包含与以下相关的数据:

样品中存在的训练肽集合的肽丰度;

样品中的训练肽集合的肽长度。

22.在某些实施方式中,训练数据集通过将训练肽序列集合与包含已知蛋白质序列集合的数据库经由比对进行比较来产生,其中训练蛋白质序列集合比训练肽序列更长且包括训练肽序列。

23.在某些实施方式中,训练数据集是基于对细胞系执行或已执行质谱法以获得该细胞系的外显子组、转录组或全基因组肽测序数据中的至少一者来产生,该肽测序数据报括至少一个包括改变的蛋白质序列。

24.在某些实施方式中,训练数据集是基于自正常组织样品获得外显子组、转录组及全基因组正常核苷酸测序数据中的至少一者来产生。

25.在某些实施方式中,训练数据集另外包含与样品相关的蛋白质组序列相关的数据。

26.在某些实施方式中,训练数据集另外包含与样品相关的MHC肽组序列相关的数据。

27.在某些实施方式中,训练数据集另外包含与至少一种经分离的肽的肽-MHC结合亲和力测量相关的数据。

28.在某些实施方式中,训练数据集另外包含与至少一种经分离的肽的肽-MHC结合稳定性测量相关的数据。

29.在某些实施方式中,训练数据集另外包含与样品相关的转录组相关的数据。

30.在某些实施方式中,训练数据集另外包含与样品相关的基因组相关的数据。

31.在某些实施方式中,训练肽序列的长度在k聚体的范围内,其中k在8-15之间,包括端点。

32.在某些实施方式中,该方法另外包含使用独热编码方案编码肽序列。

33.在某些实施方式中,该方法另外包含使用左填充独热编码方案编码训练肽序列。

34.本文还公开一种治疗具有肿瘤的个体的方法,其包含执行本文所公开的方法的步骤中的任一者,且另外包含获得包含经选择的新抗原集合的肿瘤疫苗,及向该个体施用该肿瘤疫苗。

35.本文还公开一种制造肿瘤疫苗的方法,其包含执行本文所公开的方法的步骤中的任一者,且另外包含产生或已产生包含经选择的新抗原集合的肿瘤疫苗。

36.本文还公开一种包含经选择的新抗原集合的肿瘤疫苗,该经选择的新抗原集合通过执行本文所公开的方法选择。

37.在某些实施方式中,肿瘤疫苗包含核苷酸序列、多肽序列、RNA、DNA、细胞、质粒或载体中的一个或多个。

38.在某些实施方式中,肿瘤疫苗包含在肿瘤细胞表面上呈递的一个或多个新抗原。

39.在某些实施方式中,肿瘤疫苗包含在个体中具有免疫原性的一个或多个新抗原。

40.在某些实施方式中,肿瘤疫苗不包含在个体中诱导针对正常组织的自体免疫响应的一个或多个新抗原。

41.在某些实施方式中,肿瘤疫苗另外包含佐剂。

42.在某些实施方式中,肿瘤疫苗另外包含赋形剂。

43.在某些实施方式中,选择经选择的新抗原集合包含基于呈递模型选择相对于未经选择的新抗原在肿瘤细胞表面上呈递的可能性增加的新抗原。

44.在某些实施方式中,选择经选择的新抗原集合包含基于呈递模型选择相对于未经选择的新抗原在个体中能够诱导肿瘤特异性免疫响应的可能性增加的新抗原。

45.在某些实施方式中,选择经选择的新抗原集合包含基于呈递模型选择相对于未经选择的新抗原能够由专职抗原呈递细胞(APC)呈递于初始T细胞的可能性增加的新抗原,任选地其中该APC为树突状细胞(DC)。

46.在某些实施方式中,选择经选择的新抗原集合包含基于呈递模型选择相对于未经选择的新抗原经由中心或外周耐受性受抑制的可能性降低的新抗原。

47.在某些实施方式中,选择经选择的新抗原集合包含基于呈递模型选择相对于未经选择的新抗原能够诱导针对个体正常组织的自体免疫响应的可能性降低的新抗原。

48.在某些实施方式中,外显子组或转录组核苷酸测序数据通过对肿瘤组织进行测序而获得。

49.在某些实施方式中,测序为下一代测序(NGS)或任何大规模平行测序方法。

50.在某些实施方式中,数值可能性集合藉由至少MHC-等位基因相互作用特征来进一步鉴定,所述特征包含以下中的至少一者:

a.经预测的MHC等位基因与新抗原编码肽结合的亲和力。

b.经预测的新抗原编码肽-MHC复合物的稳定性。

c.新抗原编码肽的序列及长度。

d.如藉由质谱蛋白质组学或其他手段所评定,在来自表达特定MHC等位基因的其他个体的细胞中呈递具有类似序列的新抗原编码肽的机率。

e.所讨论的个体中特定MHC等位基因的表达量(例如,如藉由RNA-seq或质谱法所测量)。

f.在表达特定MHC等位基因的其他不同个体中由特定MHC等位基因呈递的总体新抗原编码肽序列独立性机率。

g.在其他不同个体中由同一家族分子(例如HLA-A、HLA-B、HLA-C、HLA-DQ、HLA-DR、HLA-DP)中的MHC等位基因呈递的总体新抗原编码肽序列独立性机率。

51.在某些实施方式中,数值可能性集合藉由至少MHC-等位基因非相互作用特征来进一步鉴定,所述特征包含以下中的至少一者:

a.在其源蛋白序列内侧接新抗原编码肽的C端及N端序列。

b.新抗原编码肽中蛋白酶裂解基序的存在,任选地根据相应蛋白酶在肿瘤细胞中的表达加权(如藉由RNA-seq或质谱法所测量)。

c.如在适当细胞类型中所测量,源蛋白的周转率。

d.源蛋白的长度,任选地考虑在肿瘤细胞中最高度表达的特异性剪接变体(「同功异型物」),如藉由RNA-seq或蛋白质组质谱法所测量,或如DNA或RNA序列数据中所检测的生殖系或体细胞剪接突变的批注所预测。

e.蛋白酶体、免疫蛋白酶体、胸腺蛋白酶体或其他蛋白酶在肿瘤细胞中的表达量(其可藉由RNA-seq、蛋白质组质谱法或免疫组织化学测量)。

f.新抗原编码肽的源基因的表达(例如,如藉由RNA-seq或质谱法所测量)。

g.新抗原编码肽的源基因在细胞周期的各种阶段期间的典型组织特异性表达。

h.源蛋白和/或其域的综合特征目录,如例如uniProt或PDB http://www.rcsb.org/pdb/home/home.do中可见。

i.描述含有该肽的源蛋白的域特性的特征,例如:二级或三级结构(例如α螺旋对β折迭);替代性剪接。

j.在其他不同个体中由所讨论的新抗原编码肽的源蛋白呈递肽的机率。

k.由于技术偏差,肽将不会由质谱法检测到或过量表示的机率。

l.藉由RNASeq(其无需含有肽的源蛋白)所测量的提供关于肿瘤细胞、基质或肿瘤浸润淋巴细胞(TIL)状态的信息的各种基因模块/通路的表达。

m.新抗原编码肽的源基因在肿瘤细胞中的复本数。

n.肽结合于TAP的机率或经测量或经预测的肽对TAP的结合亲和力。

o.TAP在肿瘤细胞中的表达量(其可藉由RNA-seq、蛋白质组质谱法、免疫组织化学测量)。

p.存在或不存在肿瘤突变,其包括(但不限于):

i.已知癌症驱动基因(诸如EGFR、KRAS、ALK、RET、ROS1、TP53、CDKN2A、CDKN2B、NTRK1、NTRK2、NTRK3)中的驱动突变

ii.在编码抗原呈递机制中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体组分的基因中的任一者)中。呈递依赖于肿瘤中经受功能丧失性突变的抗原呈递机制的组分的肽具有降低的呈递机率。

q.存在或不存在功能性生殖系多形现象,其包括(但不限于):

i.在编码抗原呈递机制中所涉及的蛋白质的基因(例如B2M、HLA-A、HLA-B、HLA-C、TAP-1、TAP-2、TAPBP、CALR、CNX、ERP57、HLA-DM、HLA-DMA、HLA-DMB、HLA-DO、HLA-DOA、HLA-DOBHLA-DP、HLA-DPA1、HLA-DPB1、HLA-DQ、HLA-DQA1、HLA-DQA2、HLA-DQB1、HLA-DQB2、HLA-DR、HLA-DRA、HLA-DRB1、HLA-DRB3、HLA-DRB4、HLA-DRB5或编码蛋白酶体或免疫蛋白酶体组分的基因中的任一者)中

r.肿瘤类型(例如NSCLC、黑素瘤)。

s.临床肿瘤亚型(例如鳞状肺癌对非鳞状)。

t.吸烟史。

u.肽的源基因在相关肿瘤类型或临床亚型中的典型表达,任选地藉由驱动突变分层。

52.在某些实施方式中,至少一个改变为移码或非移码***缺失、错义或无义取代、剪接位点改变、基因组重排或基因融合、或产生neoORF的任何基因组或表达改变。

53.在某些实施方式中,肿瘤细胞选自由以下组成的群:肺癌、黑素瘤、乳癌、卵巢癌、***癌、肾癌、胃癌、结肠癌、睾丸癌、头颈癌、胰腺癌、脑癌、B细胞淋巴瘤、急性骨髓性白血病、慢性骨髓性白血病、慢性淋巴细胞性白血病、T细胞淋巴细胞性白血病、非小细胞肺癌及小细胞肺癌。

54.在某些实施方式中,该方法另外包含获得包含经选择的新抗原集合或其子集的肿瘤疫苗,任选地另外包含向个体施用该肿瘤疫苗。

55.在某些实施方式中,当呈多肽形式时,经选择的新抗原集合中的至少一种新抗原包含以下中的至少一者:在小于1000nM的IC50值下与MHC的结合亲和力,对于长度为8-15、8、9、10、11、12、13、14或15个氨基酸的MHC 1类多肽,在亲本蛋白质序列中在该多肽内部或附近存在促进蛋白酶体裂解的序列基序,及存在促进TAP转运的序列基序。

56.本文还公开一种产生用于鉴定可能在肿瘤细胞的肿瘤细胞表面上呈递的一个或多个新抗原的模型的方法,其包含执行以下步骤:

接收包含与自源于多个样品的主要组织相容性复合体(MHC)洗脱的多个经分离的肽相关的数据的质谱数据;

藉由至少鉴定样品中存在的训练肽序列集合及与各训练肽序列相关的一个或多个MHC获得训练数据集;

使用包含训练肽序列的训练数据集来训练呈递模型的数值参数集合,呈递模型提供来自肿瘤细胞的肽序列在肿瘤细胞表面上由一个或多个MHC等位基因呈递的多个数值可能性。

57.在某些实施方式中,呈递模型表示以下两者之间的依赖性:

在肽序列的特定位置处存在特定氨基酸;及

由肿瘤细胞上的MHC等位基因中的一者呈递在该特定位置处含有该特定氨基酸的肽序列的可能性。

58.在某些实施方式中,样品包含经工程改造以表达单个MHC I类或II类等位基因的细胞系。

59.在某些实施方式中,样品包含经工程改造以表达多个MHC I类或II类等位基因的细胞系。

60.在某些实施方式中,样品包含获自或源于多个患者的人类细胞系。

61.在某些实施方式中,样品包含获自多个患者的新鲜或冷冻的肿瘤样品。

62.在某些实施方式中,样品包含使用T细胞分析鉴定的肽。

63.在某些实施方式中,训练数据集另外包含与以下相关的数据:

样品中存在的训练肽集合的肽丰度;

样品中的训练肽集合的肽长度。

64.在某些实施方式中,获得训练数据集包含:

藉由将训练肽序列集合与包含已知蛋白质序列集合的数据库经由比对进行比较来获得基于训练肽序列的训练蛋白质序列集合,其中训练蛋白质序列集合比训练肽序列更长且包括训练肽序列。

65.在某些实施方式中,获得训练数据集包含:

对细胞系执行或已执行质谱法以获得该细胞系的外显子组、转录组或全基因组核苷酸测序数据中的至少一者,该核苷酸测序数据报括至少一个包括突变的蛋白质序列。

66.在某些实施方式中,训练呈递模型的参数集合包含:

使用独热编码方案编码训练肽序列。

67.在某些实施方式中,该方法另外包含:

自正常组织样品获得外显子组、转录组及全基因组正常核苷酸测序数据中的至少一者;及

使用正常核苷酸测序数据训练呈递模型的参数集合。

68.在某些实施方式中,训练数据集另外包含与样品相关的蛋白质组序列相关的数据。

69.在某些实施方式中,训练数据集另外包含与样品相关的MHC肽组序列相关的数据。

70.在某些实施方式中,训练数据集另外包含与至少一种经分离的肽的肽-MHC结合亲和力测量相关的数据。

71.在某些实施方式中,训练数据集另外包含与至少一种经分离的肽的肽-MHC结合稳定性测量相关的数据。

72.在某些实施方式中,训练数据集另外包含与样品相关的转录组相关的数据。

73.在某些实施方式中,训练数据集另外包含与样品相关的基因组相关的数据。

74.在某些实施方式中,训练数值参数集合另外包含:

使参数集合逻辑回归。

75.在某些实施方式中,训练肽序列的长度在k聚体的范围内,其中k在8-15之间,包括端点。

76.在某些实施方式中,训练呈递模型的数值参数集合包含:

使用左填充独热编码方案编码训练肽序列。

77.在某些实施方式中,训练数值参数集合另外包含:

使用深度学习算法确定参数集合的值。

78.本文还公开一种产生用于鉴定可能在肿瘤细胞的的肿瘤细胞表面上呈递的一个或多个新抗原的模型的方法,其包含执行以下步骤:

接收包含与自源于多个新鲜或冷冻肿瘤样品的主要组织相容性复合体(MHC)洗脱的多个经分离的肽相关的数据的质谱数据;

藉由至少鉴定肿瘤样品中存在且呈递在与各训练肽序列相关的一个或多个MHC等位基因上的训练肽序列集合来获得训练数据集;

基于训练肽序列获得训练蛋白质序列集合;及

使用训练蛋白质序列及训练肽序列训练呈递模型的数值参数集合,呈递模型提供来自肿瘤细胞的肽序列在肿瘤细胞表面上由一个或多个MHC等位基因呈递的多个数值可能性。

79.在某些实施方式中,呈递模型表示以下两者之间的依赖性:

MHC等位基因的对中的特定一种与在肽序列的特定位置处的特定氨基酸的存在;及

在肿瘤细胞表面上由所述MHC等位基因中的对的所述特定一种呈递这样的包含在所述特定位置处的所述特定氨基酸的肽序列的可能性。

267页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:利用催化双功能模板进行远程杂芳基烯化

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!