液滴单细胞表观基因组谱分析用于患者分层的用途

文档序号：653032 发布日期：2021-04-23 浏览：7次 >En<

阅读说明：本技术 液滴单细胞表观基因组谱分析用于患者分层的用途 (Use of droplet single cell epigenomic profiling for patient stratification ) 是由 A·P·V·杰勒德 K·A·格罗瑟兰于 2019-07-12 设计创作，主要内容包括：本发明的一个方面涉及一种用于抗药性的诊断和/或预后的方法,其中通过使用微流体系统对从受试者获得的细胞中的单细胞染色质状态进行谱分析,所述方法包括以下步骤：a.提供至少第一类型的液滴,其中所述第一类型的液滴包含i.生物要素,ii.裂解缓冲液,和iii.核酸酶；b.在暂时使所述核酸酶失活的条件下收集所述第一类型的液滴；c.孵育所述第一类型的液滴,从而重新激活所述核酸酶；d.提供至少第二类型的液滴,其中所述第二类型的液滴包含核酸序列；e.融合所述第一类型的液滴和所述第二类型的液滴,从而生成第三类型的液滴；f.孵育所述第三类型的液滴,从而将所述核酸序列连接至一个或多个感兴趣的基因组区域；g.对所述一个或多个感兴趣的基因组区域进行测序。本发明进一步的方面涉及一种核酸序列,其包含：a.至少一个索引序列,b.测序接头,和c.至少一个位于3’-和/或5’-端处的保护官能团。(One aspect of the present invention relates to a method for the diagnosis and/or prognosis of drug resistance, wherein the state of single-cell chromatin in cells obtained from a subject is profiled by using a microfluidic system, the method comprising the steps of: a. providing at least a first type of droplet, wherein the first type of droplet comprises i. a biological element, ii. a lysis buffer, and iii. a nuclease; b. collecting the first type of droplet under conditions that temporarily inactivate the nuclease; c. incubating the first type of droplet, thereby reactivating the nuclease; d. providing at least a second type of droplet, wherein the second type of droplet comprises a nucleic acid sequence; e. merging the first type of droplet and the second type of droplet, thereby generating a third type of droplet; f. incubating the third type of droplet, thereby ligating the nucleic acid sequence to one or more genomic regions of interest; g. sequencing the one or more genomic regions of interest. A further aspect of the invention relates to a nucleic acid sequence comprising: a. at least one index sequence, b. a sequencing linker, and c. at least one protecting functional group at the 3 '-and/or 5' -end.)

技术领域

本发明属于分子生物学、抗药性和微流体领域。特别地，本发明涉及一种测定微流体液滴中的核酸以用于抗药性的诊断和/或预后和患者分层的方法。本发明还包括用于对生物样品中的单细胞表观基因和转录组状态进行谱分析的核酸序列/结构。

背景技术

真核生物基因组被组织化成染色质，其使得能够不仅压缩DNA，而且还调节DNA代谢(复制、转录、修复、重组)。因此，当前的挑战是理解(i)功能性染色质结构域是如何在细胞核中建立的，(ii)染色质结构/信息是如何通过组装、拆卸、修饰和重塑机制而动态化的，和(iii)这些事件是如何在疾病建立以及疾病的进展和复发中参与/维持的。理解这些事件将允许确定疾病进展的新机制和新的治疗靶标，以及治疗性分子的控制作用。

此外，生物学中的基本研究问题是了解数百种不同的细胞类型是如何从多细胞生物中的相同遗传物质产生的。许多不同细胞类型不能仅通过遗传学来解释，而是通过可以将表型与基因型联系起来的额外信息来解释。1942年，康拉德·H·沃丁顿(ConradH.Waddington)创造了表观遗传学一词以指“研究基因及其产物之间因果相互作用的生物学分支，其使表型形成”。“表观遗传信息”的这一额外层次储存为构成染色质的DNA和组蛋白两者的化学修饰的形式。表观遗传机制通过染色质修饰来调节基因表达和塑造特定的染色质景观(landscape)，其允许进行对细胞类型和组织身份的预测。

DNA和组蛋白修饰通过充当能够读取信息的效应蛋白的识别位点和通过稳定其与染色质的结合来参与到各种基于DNA的过程之中。高丰度的组蛋白修饰使得能够严格控制染色质结构且在对基于DNA的过程的调节中具有极大灵活性。这种多样性导致了可在不同位点处同时修饰的组蛋白之间的串扰(Wang等，2008，Nature Genetics40(7)：897-903)。

组蛋白修饰可以正面地或负面地影响彼此。此外，组蛋白修饰之间的交流也与其他染色质修饰(例如DNA甲基化)一同存在，其均参与微调生物学功能的整体调控(Du等，2015，Nature Reviews Molecular Cell Biology，16(9)：519-532)。

DNA和组蛋白修饰有助于定义在不同染色质状态内的表观基因组特征，所述表观基因组特征对细胞类型和组织身份具有高指示性。可以利用对这些标记的全基因组谱分析来了解基因组调控的全局景观，然后例如区分正常细胞和疾病细胞状态的背景下的表观基因组差异(Consortium Epigenomics 2015，Nature 518(7539)：317-329)。然而，染色质谱分析技术的当前状态不允许研究细胞异质性，也不允许检测染色质状态中的细胞间差异。

使用传统的ChIP-seq方法对表观遗传修饰、表观遗传标记物/擦除物(eraser)、在染色质结构中起作用的因子、2D和3D组织化的全基因组作图需要大量细胞以生成高质量的结合位点谱分析。多项研究已显示优化的ChIP-seq方案将输入材料从数百万个细胞减少至数百个细胞，而不丢失在对富集或耗竭区域的检测中的分辨率(Adli等，2010，NatureMethods 7(8)：615-618；Brind’Amour等，2015，Nature Communications 6：6033；Ma等，2018，Science Advances 4(4)：eaar8187)。然而，这些方法仅产生修饰状态的平均快照，而无法提供对表观遗传异质性的见解。

在单细胞分辨率下对组蛋白修饰进行谱分析仍然具有挑战性，部分是因为免疫沉淀过程中与非特异性结合相关联的噪声水平倾向于随低量起始原料增加。从一个单一细胞免疫沉淀染色质在技术上是可行的，但会导致高度可变的结果。

可以预先用特定且独特的DNA序列(条形码)将来自分离的单细胞的染色质索引化，然后与来自数个至数千个细胞的索引化染色质结合，以成批地进行免疫沉淀，如传统ChIP-seq方案中。这种方法在保留单细胞信息的同时，规避了与低输入材料的免疫沉淀中的高实验噪声相关的问题。的确是，对于一个细胞特有的条形码，每个读数(read)可在测序后归属于其原始细胞。然而，就像其他涉及分子索引化的单细胞技术一样，只有索引化核小体具有被扩增和测序的可能性。

在这方面，Rotem开发了Drop-ChIP技术，该技术将染色质索引化方法与基于液滴的微流体技术相结合以对数千个细胞的组蛋白修饰进行谱分析(Rotem等，2015，NatureBiotechnol.33(11)：1165-1172)。该液滴形式为进行单细胞分析提供了一种多功能的工具。在通过液滴中的细胞的微球菌核酸酶进行区室化(compartmentalization)、裂解和染色质片段化的步骤之后，然后将所述液滴与包含DNA条形码的第二群体的液滴一对一融合，允许在单细胞水平上对染色质进行索引化。

尽管使用Drop-ChIP揭示了在胚胎干细胞的群体中的不同染色质状态，但由于低染色质索引化效率或索引化核小体的不良回收，单细胞信息仅限于每细胞检测到的少至数百个独特的富集化基因座。值得注意的是，Drop-ChIP技术受到两个主要限制，其可负面地影响每细胞回收的信息量。首先，只有对称索引化的核小体才可以被扩增并可以成为测序文库的一部分。这个要求极大地增加了系统的严格性，并对核小体(即仅两端均连接至条形码的那些)施加了强力的选择。其次，索引化核小体的扩增仅依赖于聚合酶链反应(PCR)的众多循环，其增加了引入扩增偏倚和错误的可能性。

未经处理的细胞(或来自未经治疗的受试者的细胞)中的染色质状态的自发、遗传或诱导异质性可以是获得抗药性的关键分子组成部分，不管癌症治疗的作用机制是什么。许多类型的癌症最初易受化学治疗药物的影响，随时间可通过这些和其他机制产生抗药性。然而，抗药性的方法可能是疾病特异性的，而其他方法可以是进化保守的。疗法(包括化学疗法和靶向疗法)抗性的出现是疾病(包括癌症)治疗的主要挑战。在未经治疗的肿瘤内的遗传异质性现被认为是抗药性的关键决定因素。此外，预计非遗传且特别是转录和表观遗传机制在面对环境、代谢或治疗相关压力的癌细胞的适应中发挥作用(Rathert，P.等，Nature 525，543-547，(2015)；Kim，C.等，Cell 173，879-893e813，(2018))。通过组蛋白修饰调节染色质结构是主要的表观遗传机制和基因表达的调节因素，然而，染色质特征对肿瘤异质性和进化的贡献仍然是未知的。在本发明的一个方面中，本文公开了在未经治疗的、药物敏感的肿瘤中的罕见细胞群体显示出与抗性细胞的染色质特征相匹配的染色质特征。本发明人开发了液滴微流体方法以在单细胞分辨率下以高达10,000个基因座/细胞的覆盖率对数千个细胞的染色质景观进行谱分析。

鉴于影响本领域已知方法的上述限制，显然需要用于新出现的或现存的抗药性的诊断和/或预后的改进方法以确定患者分层，其中在微流体液滴中使用单细胞表观基因谱分析来将抗药性与不同染色质状态相关联是需要的。

发明内容

本发明的一个方面涉及一种用于抗药性的诊断和/或预后的方法，其中通过使用微流体系统对从受试者获得的细胞中的单细胞染色质状态进行谱分析，所述方法包括以下步骤：

a.提供至少第一类型的液滴，其中所述第一类型的液滴包含

i.生物要素，

ii.裂解缓冲液，和

iii.核酸酶，

b.在暂时使所述核酸酶失活的条件下收集所述第一类型的液滴，

c.孵育所述第一类型的液滴，从而重新激活所述核酸酶，

d.提供至少第二类型的液滴，其中所述第二类型的液滴包含核酸序列，

e.融合所述第一类型的液滴和所述第二类型的液滴，从而生成第三类型的液滴，

f.孵育所述第三类型的液滴，从而将所述核酸序列连接至一个或多个感兴趣的基因组区域，

g.对所述一个或多个感兴趣的基因组区域进行测序。

本发明的另一方面涉及一种使用微流体系统来识别一个或多个感兴趣的基因组区域的方法，所述方法包括以下步骤：

a.提供至少第一类型的液滴，其中所述第一类型的液滴包含

i.生物要素，

ii.裂解缓冲液，和

iii.核酸酶，

b.在暂时使所述核酸酶失活的条件下收集所述第一类型的液滴，

c.孵育所述第一类型的液滴，从而重新激活所述核酸酶，

d.提供至少第二类型的液滴，其中所述第二类型的液滴包含核酸序列，

e.融合所述第一类型的液滴和所述第二类型的液滴，从而生成第三类型的液滴，

f.孵育所述第三类型的液滴，从而将所述核酸序列连接至至少一个感兴趣的基因组区域，

g.对所述一个或多个感兴趣的基因组区域进行测序。

本发明进一步的方面涉及一种核酸序列，其包含：

a.至少一个索引序列，

b.测序接头，和

c.至少一个位于3’-和/或5’-端处的保护官能团(protecting function)。

本发明进一步的方面涉及一种方法，其将根据本发明的某些实施方式的核酸序列用于受试者(例如所述受试者的抗药性)的诊断或预测/预后确定中。

本发明的另一方面涉及一种方法，其将根据本发明的某些实施方式的核酸序列用于对从受试者获得的样品中的表观基因状态进行谱分析。进一步的方面涉及将表观基因状态谱分析或信息用于所述受试者(例如所述受试者的任何抗药性)的诊断或预测/预后确定中。

附图说明

图1描绘了根据本发明的一个方面的微流体工作流程。(A)在45pl液滴中用裂解和染色质片段化所需的试剂将细胞区室化。平行地，将带有DNA条形码的水凝胶珠粒与连接试剂一起包封于100pl液滴中。在融合设备中重新注入两种乳液，将条形码液滴(100p1)和核小体液滴(45p1)非对称地配对，并且电场触发融合。用激光束对融合液滴进行一对一扫描并实时分析每个液滴的组成。(B)收集融合液滴的乳液以在液滴中进行核小体条形码化。通过光切割从珠粒释放条形码并将其连接至核小体。合并液滴的内容物，进行免疫沉淀，并对富集的DNA进行测序。与条形码相关的读数的反卷积(deconvolution)将所有序列归属于其原始细胞以重建单细胞染色质谱分析。

图2描绘了液滴之间的微球菌核酸酶(MNase)活性的同步和暂停。特别地，图2a显示了在微球菌核酸酶孵育的不同时间点的来自人Jurkat T细胞的DNA片段的凝胶电泳。在t＝0分钟时，DNA尚未片段化，这证实了微球菌核酸酶活性在冰上液滴收集之后同步。时间点t＝12分钟+1小时冰显示了与12分钟孵育后相似的消化谱分析，这证实了微球菌核酸酶活性在液滴被存储于冰上时暂停。图2b描绘了从固定细胞核开始的液滴中微球菌核酸酶活性的暂停。微球菌核酸酶暂停3小时，而没有染色质过度消化。

图3描绘了使液滴中微球菌核酸酶活性完全失活所必需的EGTA浓度。通过TapeStation测量孵育之后剩余的寡核苷酸的分数，并相对于消化阴性对照(即不含微球菌核酸酶的液滴)进行标准化。26mM最终浓度的EGTA使液滴中的微球菌核酸酶完全失活。柱状图显示了重复实验的未消化寡核苷酸的平均分数和对应于标准差的误差条。

图4描绘了根据本发明的核酸序列。新结构(v2)通过在条形码的两端上均添加Pac1限制性位点的一半来允许消化条形码多联体(concatemer)。还添加了下链的3’端处的C3间隔子以强制执行该连接的方向。用保护基使非全长条形码完整，所述保护基包含修饰的碱基修饰，所述修饰的碱基修饰防止不需要的连接。该表描述了每个条形码结构在测序之后识别的正确条形码的比例。

图5描绘了条形码化水凝胶珠粒的质量控制。(a)在从水凝胶珠粒进行光切割之后的DNA条形码的Tapestation谱分析显示了全长条形码的存在(在146bp处的较大的峰)，以及未能完整的中间体(在72bp、94bp和119bp处的峰)。(b)使用辐射荧光显微镜对液滴中的水凝胶珠粒进行成像。从左至右：(i)明场图像；(ii)将与lllumina测序接头互补的DNA探针杂交至条形码上之后的成像；(iii)在通过光切割释放液滴中的条形码之后，与(ii)相同。比例尺是35μm。(c)单珠粒深测序结果，其显示了16个珠粒的前两个最丰富的条形码的分数。平均而言，97.7％的存在于珠粒之上的条形码与同一序列匹配，而第二丰富的条形码仅代表所有测序读数的0.17％。

图6描绘了对液滴中连接效率的估计。该连接进行2小时、4小时和过夜孵育。两种测量方法均给出了对连接产物的分数的相似估计，并且在过夜孵育后观察到效率的显著提高(～10％)。柱状图显示了重复实验(在不同的两天进行的实验)的连接寡核苷酸的平均分数，误差条对应于标准差。

图7描绘了概念验证研究和预期结果。(a)人B和T淋巴细胞被分别在液滴中包封并特定索引化。然后将来自两种乳液的索引化染色质组合以用于靶向3种不同组蛋白修饰(H3K4me3、H3K27ac和H3K27me3)的ChIP-seq。(b)数据分析会使用无监督聚类方法将细胞成组为两个聚类。然后会通过细胞类型特异性条形码序列来确认基于B和T细胞的染色质谱分析的正确聚类。

图8描绘了对液滴中的细胞和水凝胶包封的监控。(a)针对在1.8kHz下分析的液滴记录的实验时间追踪。橙色荧光存在于所有液滴中，用于控制液滴的大小(液滴代码)。绿色荧光指示液滴中细胞的存在(细胞代码)。细胞代码强度(绿色)相对于每个液滴中的液滴代码强度(橙色)的图。包含细胞的液滴具有高绿色细胞代码强度，从而允许以高于噪声水平的细胞门(cell-gate)的定义对包封的细胞进行计数。调节为λ＝0.1的细胞密度导致了～9％的包含一个单一细胞的液滴。(b)针对在650Hz下分析的100pl液滴记录的实验时间追踪。橙色荧光存在于所有液滴中，用作液滴代码以控制液滴大小。红色荧光指示液滴中水凝胶珠粒的存在(珠粒代码)。珠粒代码强度(红色)相对于每个液滴中的液滴代码强度(橙色)的图。通过使用珠粒的紧密堆积排序，65％至75％的液滴包含一个珠粒。

图9描绘了对液滴融合的实时监控。(a)针对在150Hz下融合后的液滴记录的实验时间追踪。橙色荧光存在于所有液滴中，用作液滴代码以控制融合液滴的大小。绿色荧光指示细胞的存在，红色荧光指示水凝胶珠粒的存在。蓝色荧光是细胞乳液特定的液滴代码。(b)液滴代码“细胞”强度相对于每个液滴中的液滴代码强度的图，其定义了融合之后的液滴的4个主要群体。中间的主要群体代表正确配对并融合的液滴(70％至80％)。来自珠粒乳液的未配对的液滴在下方群体中，而来自具有高蓝色荧光强度的细胞乳液的未配对液滴在左上方群体中。最后一个群体(右上)与包含与1个珠粒液滴融合的2个细胞液滴的错误配对的液滴相关联。(c)绘制细胞代码强度相对于每个液滴中的珠粒代码强度的图，使得能够精确计数可用液滴(包含一个细胞和一个珠粒的那些)。来自小图(a)中的时间追踪的液滴被指示为不同群体的实例。

图10描绘了细胞总数以及在H3K4me3和H3K27me3单细胞ChIP-seq实验中的微流体站上通过荧光检测到的与条形码化水凝胶珠粒共包封的细胞的数量。测序数据分析显示了与在微流体站上计数的包含细胞和珠粒两者的液滴的数量紧密相关的识别的条形码的数量，表明该系统具有高的整体效率。

图11描绘了scChIP-seq程序识别亚群体的灵敏度。代表在检测限的计算机模拟中的H3K27me3 scChIP-seq数据集的t-SNE图，其具有T细胞群体中掺入的B细胞的变化比率(从上至下)和每条形码的独特映射读数的变化阈值(从左至右)。根据细胞类型特异性条形码序列对点进行着色。

图12描述了在Drop-ChIP中的测序性能相对于本发明人的程序。表1比较了在DropChIP中和在本发明人的scChIP-seq系统中的每测序文库的预期细胞的数量、原始测序读数的数量，以及每细胞的原始读数的平均数量。表2比较了在测序之后识别的细胞的数量，在QC之后的分析中使用的最终细胞数量，和在Drop ChIP中和在本发明人的scChIP-seq系统中的QC之后的每细胞的可用读数的平均数量。

图13描绘了人和小鼠细胞混合物确认了单细胞分辨率。(a)与小鼠相对于人类参比基因组校准的每条形码读数数量的散点图，其显示96.5％的条形码对一个物种具有特异性(至少95％的读数具有与两个物种之一映射的相同条形码)。小鼠(26.4％)、人(70.1％)和混合(3.5％)物种的百分比接近于基于液滴中细胞的泊松分布的预期值，每液滴的平均细胞数λ为0.1(分别为32.6％、65.2％和2.2％)。(b)柱状图，其显示了相比于在微流体站上计数的预期细胞数(灰色条；从包含1/3小鼠细胞和2/3人细胞的混合物中总计3,000)，对每个物种(从浅灰色至深灰色-黑色条)识别的条形码数(对应于细胞数)。

图14描绘了单细胞ChIP-seq数据的聚类揭示了细胞类型特异性生物相似性。(a)H3K4me3和H3K27me3单细胞ChIP-seq数据集中每条形码(即每细胞)的scChIP-seq原始和独特测序读数的分布的直方图。(b)密度散点图，其代表了并行收集且处理以生成H3K4me3单细胞ChIP-seq数据集的B细胞的相同乳液的三个独立分数之间的log2累积计数。重复实验之间的相关性是基于跨单细胞的5kb基因组分组(genomic bin)中每百万读数的累积计数来计算的。全基因组计算皮尔森相关性得分(Pearson’s correlation score)和p值。(c)两个生物重复实验的密度散点图，对应于从不同细胞培养瓶中收集并用不同批次的条形码化水凝胶珠粒处理以产生H3K27me3单细胞ChIP-seq数据集的B细胞的两种乳液。重复实验之间的相关性是基于跨单细胞的50kb基因组分组中每百万读数的累积计数来计算的。全基因组计算皮尔森相关性得分和p值。(d)t-SNE图，其代表来自两个生物重复实验的H3K27me3scChIP-seq数据，根据原始批次(左)或一致性聚类结果(右)着色，反对细胞群体聚类的批次效应。(e)左图：来自1:1人B细胞和T细胞混合群体以及分别条形码化的B细胞和T细胞的H3K27me3 scChIP-seq数据的细胞对细胞皮尔森相关性得分的层次聚类和对应热图。独特的读数计数、原始批次和一致性聚类结果显示于热图上方。右图：对应的t-SNE图，根据细胞类型特异性条形码序列，来自该混合群体的点着色为灰色，而来自分别条形码化的B细胞和T细胞的点着色为不同的灰色阴影。(f)维恩图(Venn diagram)，其比较了T细胞和B细胞数据集通过单细胞和批量方法检测到的H3K4me3峰。

图15描绘了从单细胞ChIP-seq谱分析重建细胞类型特异性染色质状态。(a)t-SNE图，其代表了来自人B和T淋巴细胞的H3K4me3和H3K27me3 scChIP-seq数据集，所述人B和T淋巴细胞通过使用携带单细胞和细胞类型特异性条形码两者的水凝胶珠粒而在液滴中分别索引化，混合用于免疫沉淀。根据细胞类型特异性条形码序列对点进行着色。准确率代表通过scChIP-seq数据的一致性聚类进行的分类(图16a)和通过细胞类型特异性条形码评估的已知细胞身份之间的一致性。(b)差异富集基因座的快照(图16b)，其具有针对每个细胞类型的累积单细胞谱分析和批量谱分析。由威尔科克森符号秩检验(Wilcoxon signed-rank test)识别的差异结合区域以灰色表示，带有相应调节的p值和log2倍数变化。(c)散点图，其显示了累积单细胞相对于批量ChIP-seq数据中的log2 RPM(每百万映射读数的读数计数)富集，对于H3K4me3在5kb基因组分组内计算，对于H3K27me3在50kb基因组分组内计算。全基因组计算皮尔森相关性得分和p值。

图16描绘了单细胞ChIP-seq数据将人T细胞(Jurkat)与人B细胞(Ramos)区分开。(a)H3K4me3(上图)和H3K27me3(下图)scChIP-seq数据集的一致性聚类矩阵。一致性得分范围为0(白色：从不聚类在一起)至1(深灰色：总是聚类在一起)。(b)火山图，其代表差异分析的经调节p值(威尔科克森符号秩检验)相对于倍数变化，所述差异分析比较了针对H3K4me3(上图)和H3K27me3(下图)scChIP-seq数据集的B细胞和T细胞之间的染色质特征(0.01的q值阈值和1的|log2FC|阈值)。(c)柱状图，其显示了来自H3K4me3scChIP-seq数据集中的通路分析的经调节p值的-log10。柱状图下方显示了前10个重要的基因集。

具体实施方式

本发明人已经开发了一种基于液滴微流体的改进的单细胞ChIP方法，所述方法相比于在Rotem中公开的Drop-ChIP技术导致了每个个体细胞富集的基因座的数量的5至10倍增加(参见图7)。该方法允许以高灵敏度和高精度在单细胞水平评估组蛋白修饰、DNA修饰的碱基(包括用于在单细胞或任何生物要素水平识别正在进行的DNA复制事件的修饰的核苷酸)、染色质/DNA相关因子。该方法适用于识别具有与另一者不同的特征的细胞群或任何生物要素，这些特征是组蛋白和/或DNA修饰、因子的存在。这些要素的存在或不存在然后潜在地指示基因表达中的变化，因此可以用作生物标记物、恢复该等变化的治疗靶标。

充分理解的是，细胞可以表示细胞核，作为染色质结构的区室。细胞或细胞核或任何生物要素可以是固定的生物要素。固定剂的实例包括醛(包括但不限于甲醛、多聚甲醛)，醇(包括但不限于乙醇和甲醇)，氧化剂，汞，苦味酸盐，羟乙基哌嗪乙硫磺酸(Hepes)-谷氨酸缓冲液介导的有机溶剂保护作用(HOPE)固定剂。

如在Drop-ChIP(Rotem等，2015，Nature Biotechnol.33(11)：1165-1172)中，分别生成包含细胞的液滴和包含条形码的液滴，然后在专用的微流体融合设备中将其重新注入并一对一融合(见图1)。然而，本发明的方法在表征条形码策略的至少两个方面不同于Rotem。第一，本发明人用携带数百万个独特或最丰富的DNA序列的水凝胶珠粒(或任何固体载体)代替了从包含寡核苷酸的微量滴定板乳化的可溶性条形码。第二，根据本发明的一个方面的条形码结构的新型设计允许线性扩增所有条形码化核小体，而非仅如Rotem中那样在两端上均对称地条形码化的核小体。第三，条形码设计包括增加感兴趣的核酸的条形码化的效率的额外特征。这些特征包括将保护性部分添加至“不完整条形码”以防止它们附着于感兴趣的核酸。在另一个方面，条形码可包含在全长寡核苷酸上的保护性碱基(保护性碱基包括但不限于硫代磷酸酯(phosphorotioate)、LNA/BNA、核苷酸亚磷酰胺(phosphoramitidite)、合成环、非3’OH或5’P碱基、2’-O-甲基-DNA/RNA)，这些保护性碱基将保护全长条形码，而非全长条形码可用核酸外切酶来消化。

可以添加一组额外的条形码(称为“实验条形码”)以在单个免疫沉淀反应中多路进行不同实验。后续生物信息学分析将允许基于“实验条形码”的序列对实验条件进行多路分解。

充分理解的是，条形码是可将源自一个区室的核酸的具体特征与源自另一区室的核酸的具体特征区分开的核酸序列。这些条形码的产生是本领域技术人员已知的，并且可以代表随机序列(侧接或不侧接已知序列)，或通过拆分合并合成(split pool synthesis)产生(Klein等，Cell，2015)。

此外，根据本发明的一个方面的方法的特征在于同步/暂停步骤，所述同步/暂停步骤限制了液滴之间的染色质消化中的细胞间变化。

前述优点公开于下文表征本发明的一个方面的方面和实施方式中。在实施例和图中提供了本发明的实施。

在本发明的一个方面，提供了一种使用微流体系统来识别一个或多个感兴趣的基因组区域的方法，所述方法包括以下步骤：

a.提供至少第一类型的液滴，其中所述第一类型的液滴包含

i.生物要素，

ii.裂解缓冲液，和

iii.核酸酶，

b.在暂时使所述核酸酶失活的条件下收集所述第一类型的液滴，

c.孵育所述第一类型的液滴，从而重新激活所述核酸酶，

d.提供至少第二类型的液滴，其中所述第二类型的液滴包含核酸序列，

e.融合所述第一类型的液滴和所述第二类型的液滴，从而生成第三类型的液滴，

f.孵育所述第三类型的液滴，从而将所述核酸序列连接至至少一个感兴趣的基因组区域，

g.对所述一个或多个感兴趣的基因组区域进行测序。

本发明的一个方面的方法是在微流体系统中实现的。在本发明的一个方面的背景下，术语“微流体系统”是指具有通常以微米或亚微米规模制造的一个或多个通道和/或腔室的系统或装置。

本发明的一个方面的方法的特征在于存在第一、第二和第三类型的液滴。如本文所使用的，与液滴相关联的术语“第一”、“第二”和“第三”用于根据液滴的内容物来区分液滴。由于该方法是在微流体系统中进行的，因此术语“液滴”也指“微流体液滴”。因此，在微流体系统的背景下，术语“液滴”也指被第二流体包围的第一流体的单独部分，其中第一流体和第二流体是不混溶的。

根据本发明的一个方面的方法的阶段或步骤，液滴可包含于微流体系统中(芯片上)或与微流体系统分开的收集器设备中(芯片外)。液滴可具有球形或非球形形式。

在本发明的一个方面的一个实施方式中，液滴的体积范围为约20pl至约100pl。优选地，液滴的体积范围为约30pl至约70pl。更优选地，液滴的体积范围为约40pl至约50pl。理想地，液滴的体积为约45pl。如本文所用，术语“约”是指规定值的值±10％的范围。

如本文所用，术语“裂解缓冲液”是指能够裂解生物细胞的缓冲液。术语“裂解缓冲液”的含义在本领域技术人员的公知常识之内。

如本文所用，术语“基因组区域”是指DNA或RNA编码的核酸序列。

如本文所用，术语“核酸酶”是指能够切割连接核酸分子中的核苷酸残基的磷酸二酯键的酶试剂。核酸酶可消化双链、单链、环式和线性核酸分子。在本发明的一个方面的背景下，核酸酶可以是切割在多核苷酸链内的磷酸二酯键的核酸内切酶，或切割在多核苷酸链的末端处的磷酸二酯键的核酸外切酶，可以是转座酶。核酸酶也可以是位点特异性核酸酶，其切割在特定核苷酸序列(例如识别序列)内的特定磷酸二酯键。核酸酶的非限制性实例是微球菌核酸酶(Micrococcal nuclease，MNase)。在一个特定的实施方式中，核酸酶是微球菌核酸酶(MNase)。

如本文所用，术语“生物要素”可指单个细胞、细胞核、包含核酸的细胞器(例如线粒体)，并且可以从生物体、人或非人受试者获得。在后一种情况下，非人受试者不限于哺乳动物受试者。

由于细胞是以不同时间尺度依次处理的，因此对液滴中的单个生物要素进行酶促测定具有挑战性。例如，细胞或任何生物要素的包封步骤持续约20分钟，其是与孵育步骤相同的数量级。因此，在一开始包封于液滴中的细胞或任何生物要素与生产结束时包封于液滴中的细胞或任何生物要素相比将与核酸酶接触更长的时间。对于融合设备中液滴的重新注入，可以作出类似的观察(参见图1中的一般方案)。确实，取决于实验的设计，两种乳液的融合可持续1小时至4小时，这意味着一些含有片段化DNA的液滴在融合之前以及其微球菌核酸酶被EGTA失活之前“等待”数小时。因此，同步和暂停酶活性是至关重要的，以避免引入在个体细胞或任何生物要素之间的染色质消化变化。

值得注意的是，在常规批量ChIP-seq分析中，核酸酶的失活在加入EGTA的核酸酶孵育后立即发生。不同的是，在单细胞ChIP-seq分析中，EGTA不可以立即加至液滴内，并且核酸酶仅在与包含条形码的液滴融合后才被失活。

为了控制和限制染色质消化中细胞间或任何生物要素变化，本发明人引入了在使所述核酸酶暂时失活的条件下收集第一类型的液滴的步骤。目的是使液滴中的核酸酶活性同步/暂停的所述收集步骤是在每个孵育步骤之前进行的。本发明人发现，液滴区室使微球菌核酸酶对温度变化敏感且能够选择性地阻断/重新激活并重新阻断酶活性。对核酸酶活性的这种严格控制在批量中是不可能的。该影响被怀疑不是依赖于单独的微球菌核酸酶活性，而是依赖于任何酶。

因此，根据另一个实施方式，所述方法进一步包括在步骤(e)之前在使所述核酸酶暂时失活的条件下收集第一类型的液滴的步骤。

在又一个实施方式中，步骤(b)的条件包括选择-20℃至10℃范围的温度，并且步骤(c)的条件包括选择20℃至40℃范围的温度。

可以在微流体系统外(芯片外)孵育液滴以进行单细胞染色质片段化。当裂解发生在液滴中时，来自裂解细胞的核DNA可接触核酸酶。因此，消化的动力学对于优先地产生单核小体特别重要，所述单核小体保留于液滴中。

在一个特定的实施方式中，定时所述孵育步骤(c)以获得片段化为单核小体的核DNA。

在又一个实施方式中，所述一个或多个感兴趣的基因组区域包含一个或多个修饰的基因组区域。

在又一个实施方式中，所述一个或多个感兴趣的基因组区域是修饰的基因组区域。

根据本发明，所述修饰的基因组区域包含与核酸序列相关联的蛋白质复合物和/或核酸序列。在一个特定的实施方式中，所述修饰的基因组区域是修饰的单核小体。在另一个实施方式中，所述修饰的基因组区域是转录因子结合位点、染色质修饰子结合位点、染色质重塑子(remodeler)位点、组蛋白伴侣(chaperone)结合位点。

根据本发明，所述修饰的基因组区域还可包含翻译后修饰，所述翻译后修饰选自乙酰化、酰胺化、脱酰胺化、羧化、二硫键、甲酰化、糖基化、羟基化、甲基化、肉豆蔻酰基化、亚硝基化、琥珀酰化(assuccinylation)、丁酰化、磷酸化、异戊烯化、核糖基化、硫酸化、SUMO化(sumoylation)、泛素化及其衍生物。

根据本发明，修饰的基因组区域还可包含组蛋白变体，所述组蛋白变体选自CENP-A/CID/cse4(着丝粒的表观遗传标记物)、H3.3(转录)、H2A.Z/H2AV(转录/双链断裂修复)、H2A.X(性染色体的双链断裂修复/减数分裂重塑)、macroH2A(基因沉默/X染色体失活)、H2A.Bbd(活性染色质的表观遗传标记物)、H3.Z(对外部刺激的细胞应答的调节)、H3.Y(对外部刺激的细胞应答的调节)。

根据本发明，所述修饰的基因组区域还可包含修饰的DNA序列，所述修饰的DNA序列选自甲基化及其衍生物、修饰的核苷酸(例如EdU、BrdU、IdU、CldU等)。最常见的修饰碱基的方法是添加甲基标记物，并且在各种物种中，已经在胞嘧啶和腺嘌呤上发现甲基化，产生5mC、N4-甲基胞嘧啶(N4mC)或6-甲基腺嘌呤(6mA)、5-羟甲基胞嘧啶(5hmC)、5-甲酰基胞嘧啶(5fC)和5-羧基胞嘧啶(5caC)。

如上文介绍的，在Rotem中公开的方法的显著局限在于，只有对称索引化的核小体才可被扩增，并且可为测序文库的一部分。该要求极大地增加了系统的严格性，并对核小体施加了强力的选择，其限于两端均与条形码连接的那些。与Drop-ChIP方法相反，本发明人已经出人意料地发现，从仅一端对核小体进行索引化会增加单细胞覆盖率并最终提高该系统在单细胞染色质谱分析之间区分更细微变化的能力。

在又一个实施方式中，核酸序列不对称地连接至所述至少一个或多个感兴趣的基因组区域。

如本文所用，术语“不对称连接”是指与感兴趣的基因组区域连接的至少一个条形码的存在，由此所述连接是仅与所述感兴趣的基因组区域的两个末端之一。

在本发明进一步的方面，提供一种核酸序列，其包含：

a.至少一个索引序列，

b.测序接头，和

c.至少一个位于3’-和/或5’-端处的保护官能团。

如本文所用，术语“核酸序列”是指单链或双链核酸。在另一个实施方式中，“核酸序列”可以是DNA或RNA。在一个优选的实施方式中，“核酸序列”是双链DNA。在一些实施方式中，“核酸序列”包含双链DNA，所述双链DNA包含第一链条形码和第二链条形码。在一些实施方式中，所述第一链条形码和第二链条形码包含互补序列。在一些实施方式中，所述第一链条形码和第二链条形码包含非互补序列。

如本文所用，术语“索引序列”是指独特的核苷酸序列，所述独特的核苷酸序列可与任何其他索引序列以及核酸序列(其中其被包含)内的任何其他核苷酸序列区别开来。“索引序列”可以是随机的或特别设计的核苷酸序列。“索引序列”可以是任何序列长度的。可以将根据本发明进一步的方面的核酸序列与感兴趣的基因组区域(靶标)连接以标记需要识别的物种和/或区分其群体内的标记物种的不同成员。因此，在本发明的一个方面的背景下，术语“索引序列”和“条形码”可以互换地使用。

如本文所用，术语“测序接头”是指已知序列的寡核苷酸，其与感兴趣的多核苷酸或多核苷酸链的连接或掺入使得能够产生准备扩增的所述感兴趣的多核苷酸或多核苷酸链的产物。

在本发明进一步的方面的一个实施方式中，所述核酸序列进一步包含至少一个切割位点。

如本文所用，术语“切割位点”是指易于由任何方式(包括但不限于能够切割单链或双链核酸序列的酶)被切割的核酸序列的靶区域。在本发明的一个方面的背景下，所述“切割位点”可用于切割或以其他方式释放核酸序列的一部分。所述“切割位点”被切割剂识别，所述切割剂可以是天然的、合成的、未修饰的或修饰的。

在本发明的一个实施方式中，保护官能团选自在3’端上的间隔元件和在5’端上的双脱氧修饰碱基。在本发明的一个方面的背景下，合适的非限制性间隔元件是三碳间隔子(C3间隔子)。

在本发明的另一个实施方式中，所述至少一个切割位点是包含回文区的限制性位点。

如本文所用，术语“限制性位点”是指被限制性内切酶(例如核酸内切酶)识别的位点。本领域技术人员熟悉限制性核酸内切酶及其限制性位点。限制性位点的非限制性实例包括BamHI、Bsrl、Notl、Xmal、PspAI、DpnI、Mbol、Mnll、Eco57I、Ksp6321、Dralll、Ahall、Smal、Mlu1、Hpal、Apal、Bcll、BstEII、Taql、EcoRI、Sacl、Hindll、Haell、Drall、Tsp509l、Sau3AI、Pacl。

在本发明的另一个实施方式中，所述核酸序列适合用于根据本发明的第一方面及其实施方式所述的方法。

在本发明的另一个实施方式中，所述核酸序列适合用于对从受试者获得的样品中的表观遗传状态进行谱分析。

如本文所用，术语“样品”是指生物样品。

如本文所用，术语“受试者”是指人或非人受试者。在后一种情况下，非人受试者不限于哺乳动物受试者。

根据本发明的一个方面的方法可以在基因的鉴定，在受试者中的疾病状态的诊断和/或预后中涉及的因素，以及用于受试者中的疾病状态的诊断和/或预后和用于控制治疗性分子对染色质的作用的方法中找到不同应用。

在本发明的背景下，疾病状态可以指涉及核小体或核酸序列的任何修饰以及影响染色质结构、调节和功能的蛋白质的定位。如本文所用，表述“疾病状态”还涵盖细胞增殖的异常速率，其使得疾病的治疗需要调节细胞周期。增生性疾病的实例包括但不限于癌症。

根据本发明的一个方面的方法可用于抗药性的体外诊断和/或预后，其中通过使用微流体系统对从受试者获得的细胞中的单细胞染色质状态进行谱分析，所述方法包括以下步骤：

a.提供至少第一类型的液滴，其中所述第一类型的液滴包含

i.生物要素，

ii.裂解缓冲液，和

iii.核酸酶，

b.在暂时使所述核酸酶失活的条件下收集所述第一类型的液滴，

c.孵育所述第一类型的液滴，从而重新激活所述核酸酶，

d.提供至少第二类型的液滴，其中所述第二类型的液滴包含核酸序列，

e.融合所述第一类型的液滴和所述第二类型的液滴，从而生成第三类型的液滴，

f.孵育所述第三类型的液滴，从而将所述核酸序列连接至一个或多个感兴趣的基因组区域，

g.对所述一个或多个感兴趣的基因组区域进行测序。

所述抗药性可能是新出现的抗药性和/或现存的抗药性。所述抗药性的出现可以归因于表观遗传异质性。

单细胞染色质谱分析表现为探查任何复杂生物系统内的染色质状态的异质性和动力学的独特工具：除癌症外，它还可被应用于其他疾病(特别是自身免疫疾病，传染性、代谢疾病)和健康系统，尤其是研究细胞分化和发展以及免疫监控。

根据本发明的一个方面的方法可用于确定患者分层，其中使用微流体液滴中的单细胞表观遗传学谱分析将抗药性与不同染色质状态相关联是需要的。

在本发明的实施方式中，提供了一种用于处于疾病状态和/或怀疑处于疾病状态的受试者中的抗药性的诊断和/或预后的方法。

在本发明的实施方式中，提供了用于健康受试者中的抗药性的诊断和/或预后的方法。

根据本发明，可以在受试者接受治疗或疗法之前、期间或之后的时间点进行所述受试者中的抗药性的诊断和/或预后。所述诊断和/或预后也可以在任何其他时间点进行。所述治疗或疗法可能是使用化学治疗药物、化学药物或生物药物(例如抗体(及其衍生物或片段))的治疗或疗法，包括抗免疫检查点治疗，例如趋化因子，例如激素，例如细胞因子(及其衍生物)，或例如由以下组成的细胞疗法：TIL(肿瘤浸润的T细胞)注射，CAR T细胞(嵌合相关抗原)，CAR NK细胞，TCR疗法(以可溶性或细胞性疗法的形式)，例如疫苗接种(癌症疫苗、病毒疫苗、诱导疫苗接种的树突状细胞疗法)，例如溶瘤病毒，例如纳米粒子。

在本发明的实施方式中，提供了一种用于显示抗药性和/或怀疑具有抗药性的受试者的诊断和/或预后的方法。

所述受试者可以是处于疾病状态和/或被怀疑具有疾病状态的受试者或健康受试者。

如本文所用，术语“诊断”是指关于受试者是否可能显示或发生抗药性的确定。如本文所用的术语“诊断”是指本领域技术人员可以藉此估计和/或确定受试者患有和/或进一步发生抗药性(例如对治疗剂、化学治疗药物、化学药物或生物药物(例如抗体(及其衍生物或片段))的抗性的概率(“可能性”)的方法，包括抗免疫检查点治疗，例如趋化因子，例如激素，例如细胞因子(及其衍生物)，或例如由以下组成的细胞疗法：TIL(肿瘤浸润的T细胞)注射，CAR T细胞(嵌合相关抗原)，CAR NK细胞，TCR疗法(以可溶性或细胞性疗法的形式)，例如疫苗接种(癌症疫苗、病毒疫苗、诱导疫苗接种的树突状细胞疗法)，例如溶瘤病毒，例如纳米粒子)的方法。在本发明的情况下，“诊断”包括使用测定的结果，最优选scChIP。

如本文所用，术语“预后”是指对于疾病(例如癌症，包括复发和转移性扩散、炎症、感染性疾病、自身免疫疾病、代谢疾病、遗传和非遗传疾病)的可归因于抗药性的死亡或发展的可能性的预测。

根据本发明的方法可使用源自身体样品的单细胞。

在本发明的实施方式中，所述身体样品是流体和/或固体。如本文所用，所述身体样品可以来自组织、血液、血清、血浆、唾液、粪便、尿液、乳房、肺、结肠、肠、脑、结肠、肾脏或任何其他身体样品。

根据本发明，所述一个或多个感兴趣的基因组区域是修饰的基因组区域。所述修饰的基因组区域包含核酸序列和/或与核酸序列相关联的蛋白质复合物。所述修饰的基因组区域包括翻译后修饰，所述翻译后修饰选自乙酰化、酰胺化、脱酰胺化、羧化、二硫键、甲酰化、糖基化、羟基化、甲基化、肉豆蔻酰基化、亚硝基化、磷酸化、异戊烯化、核糖基化、硫酸化、SUMO化、泛素化及其衍生物。

进一步地，所述细胞源自处于疾病状态和/或被怀疑处于疾病状态的受试者或健康受试者。在本发明的一个实施方式中，所述细胞是未经处理和/或经处理的，或者所述细胞来自未经治疗或经治疗的受试者。

在一个实施方式中，用化学治疗药物、化学药物或生物药物处理来自经治疗的受试者的经处理的细胞。

在优选的实施方式中，用化学治疗药物、化学药物或生物药物(例如抗体(及其衍生物或片段)，包括抗免疫检查点治疗，例如趋化因子，例如激素，例如细胞因子(及其衍生物)或例如由以下组成的细胞疗法：TIL(肿瘤浸润的T细胞)注射，CAR T细胞(嵌合相关抗原)，CAR NK细胞，TCR疗法(以可溶性或细胞性疗法的形式)，例如疫苗接种(癌症疫苗、病毒疫苗、诱导疫苗接种的树突状细胞疗法)，例如溶瘤病毒，例如纳米粒子)处理所述细胞。在更优选的实施方式中，用化学治疗药物处理所述细胞。

在本发明的一个实施方式中，所述细胞未经处理或所述细胞来自未经治疗的受试者。

如本文所用，“疾病状态”是指疾病，例如癌症或传染性疾病、自身免疫疾病、代谢疾病、炎症疾病、遗传和非遗传疾病。

在本发明的一个实施方式中，受试者的疾病状态包括癌症、感染性疾病、自身免疫疾病、炎症疾病、代谢疾病、遗传疾病、非遗传疾病。

在本发明的一个实施方式中，疾病状态包括从不可检测的至第四期的任何阶段的癌症。在本发明的一个实施方式中，癌症包括任何类型的癌症，例如实体和/或液体癌症。

在本发明的优选实施方式中，受试者的疾病状态是乳腺癌。

根据本发明，受试者可能是雄性或雌性受试者。在本发明的优选实施方式中，所述受试者是雌性受试者。

在根据本发明的一个方面的方法中，所述单细胞染色质状态已经丢失了促进抗药性的基因的染色质标记物。所述染色质标记物包括不同组蛋白修饰H3K4me3、H3K27ac和H3K27me3。预期H3K4me3标记物允许基因不被永久沉默和使其在需要时被激活。预期H3K27me3标记物可使所述基因沉默。预期在基因增强子处的H3K27ac标记物促进基因激活。

在一个实施方式中，所述单细胞染色质状态已经丢失了可能导致抗药性的基因的染色质标记。染色质标记包括组蛋白修饰H3K4me3和H3K27me3。

如本文所用，“染色质标记物”、“基因的标记物”或“标记物”是指有助于在不同染色质状态内定义表观基因组特征的DNA和组蛋白修饰和/或变体，其高度指示细胞类型和组织身份。可以利用这些标记物的全基因组谱分析来了解基因组调控的全局景观，然后例如区分在正常和疾病细胞状态的背景下的表观基因组差异。技术人员知道如例如在(Consortium Epigenomics 2015，Nature 518(7539)：317-329)或其他研究中公开的若干染色质标记物。

在一个实施方式中，单细胞染色质状态已获得标记物，其中所述标记物具有去沉默作用。

如本文所用，术语“癌症”和“肿瘤”可互换地使用且涉及恶性肿瘤形成。恶性肿瘤形成的实例包括实体瘤和血液肿瘤。实体瘤由乳腺、膀胱、骨骼、脑、中枢和周围神经系统、结肠、内分泌腺(例如甲状腺和肾上腺皮质)、食道、子宫内膜、生殖细胞、头颈、肾脏、肝、肺、喉和下咽、间皮瘤、卵巢、胰腺、前列腺、直肠、肾脏、小肠、软组织、睾丸、胃、皮肤、输尿管、阴道和外阴的肿瘤示例。恶性肿瘤包括由视网膜母细胞瘤和威尔姆氏瘤(Wilms tumor)示例的遗传癌症。此外，恶性肿瘤包括所述器官中的原发性肿瘤和远处器官中的相应的继发性肿瘤(“肿瘤转移”)。血液肿瘤由白血病和淋巴瘤的侵袭性和惰性形式示例，即非霍奇金斯病、慢性和急性髓性白血病(CML/AML)、急性淋巴细胞白血病(ALL)、霍奇金斯病、多发性骨髓瘤和T细胞淋巴瘤。还包括骨髓增生异常综合症、浆细胞肿瘤形成、副肿瘤综合症、原发部位未知的癌症以及与艾滋病相关的恶性肿瘤。

为了确定癌症已发展的程度，通常在诊断时的生长和扩散方面以第一至第四期对癌症进行标记。在第一期中，癌症局限于身体的一个部位且可通过手术切除。在第二和第三期中，癌症是局部晚期的且可通过化学疗法、放射或手术来治疗。在第四期中，癌症已经转移或扩散至其他器官且可通过化学疗法、放射或手术来治疗。(第五期仅用于受威尔姆氏肿瘤影响的患者，其中两个肾脏均受影响。)

如本文所用，“代谢疾病”包括但不限于代谢综合症X、先天性代谢错误、线粒体疾病、磷代谢紊乱、卟啉症、蛋白原代谢缺乏症、代谢性皮肤病、消耗性综合症、水-电解质失衡、代谢性大脑疾病、钙代谢紊乱、DNA修复-缺乏紊乱、铁代谢紊乱、脂质代谢紊乱、吸收不良综合征。

如本文所用，“自身免疫疾病”包括但不限于多发性硬化症，淀粉样变性病，强直性脊柱炎，抗GBM/抗TBM肾炎，抗磷脂综合征，自身免疫血管性水肿，自身免疫自主神经异常，自身免疫脑脊髓炎，自身免疫肝炎，结节性多发性动脉硬化，I、II、III型多腺体综合征，风湿性多肌痛，多发性肌炎，发作性睡病，坏疽性脓皮病，雷诺现象，间质性膀胱炎(IC)，青少年关节炎，青少年糖尿病(1型糖尿病)，青少年肌炎(JM)，反应性关节炎，新生儿狼疮，视神经脊髓炎，腹腔疾病，恰加斯病(Chagas disease)，原发性胆汁性肝硬化，原发性硬化性胆管炎，孕激素性皮炎，牛皮癣，牛皮癣性关节炎，慢性炎性脱髓鞘性多发性神经病(CIDP)，横贯性脊髓炎，1型糖尿病，溃疡性结肠炎(UC)，慢性复发性多病灶性骨髓炎(CRMO)，Churg-Strauss综合征(CSS)或嗜酸性肉芽肿病(EGPA)，嗜中性白血球减少症，眼瘢痕性天疱疮，视神经炎，回文型风湿症。

如本文所用，“遗传疾病”包括但不限于重症联合免疫缺陷(SCID)、镰状细胞病、皮肤癌、威尔逊病、特纳综合症(Turner syndrome)、脊髓性肌萎缩症、Tay-Sachs、地中海贫血、三甲基尿失禁、强直性肌营养不良症、神经纤维瘤病、努南(Noonan)综合征、痛性肥胖病(Dercum Disease)、唐氏综合症、Duane综合症、杜氏肌营养不良症(Duchenne MuscularDystrophy)、莱登第五因子血友病(Factor V Leiden Thrombophilia)、自闭症、常染色体显性多囊肾病、乳腺癌、腓骨肌萎缩症(Charcot-Marie-Tooth)。

如本文所用，“炎症疾病”包括但不限于过敏、哮喘、自身免疫疾病、腹腔疾病、肾小球肾炎、肝炎、炎性肠病。

实施例

单细胞ChIP-seq程序的微流体工作流程

在图1中描绘了根据本发明的微流体方法的一般方案。(a)在45pl液滴中用细胞裂解和染色质片段化所需的试剂将细胞区室化。平行地，将带有DNA条形码的水凝胶珠粒与连接试剂和使微球菌核酸酶失活的EGTA一起包封于100p1液滴中。在融合设备中重新注入两种乳液，将包含条形码的液滴(100p1)和包含核小体的液滴(45p1)非对称地配对，并通过电场触发的电聚集来融合。用激光束对融合液滴进行一对一扫描以实时分析每个液滴的组成。(b)收集融合液滴的乳液，并在芯片外孵育，以用于在液滴中进行核小体条形码化。通过光切割从珠粒释放条形码并将其连接至核小体。合并液滴的内容物，进行免疫沉淀，并对富集的DNA进行测序。与条形码相关的读数的反卷积将所有序列归属于其原始细胞以重建单细胞染色质谱分析。

同步和暂停液滴中的染色质片段化

在45pl液滴中用包含裂解缓冲液和微球菌核酸酶的消化共混物将细胞区室化(参见图1)。在完全裂解之后，染色质被释放至液滴中，其可被微球菌核酸酶切割。本节介绍了液滴中微球菌核酸酶活性的典型校准以优先地产生具有核小体的尺寸的片段。然而，由于细胞是以不同时间尺度单独处理，因此在液滴中进行酶促测定可能具有挑战性。因此，微调酶活性以避免液滴和单细胞之间的染色质消化差异是必要的。

液滴中的细胞的区室化

每液滴细胞数量遵循泊松分布，其描述了发现每液滴x个细胞的平均数量λ的概率(Howard Shapiro，Practical Flow Cytometry，第4版，Wiley-Liss，2003)。在单细胞ChIP-seq实验中，调整细胞密度以在45pl液滴中包封λ＝0.1个细胞，从而导致90.5％的空液滴，9％包含一个单细胞的液滴，0.5％包含两个细胞的液滴和0.015％包含多于两个细胞的液滴。通过用钙黄绿素AM(钙黄绿素的非荧光衍生物)预先标记细胞来进行对液滴中的细胞的区室化的实时监控。在进入细胞之后，乙酰甲氧基(AM)被细胞内酯酶切割并释放出强烈的绿色荧光(激发/发射：495/515nm)。当液滴在检测点处穿过激光束时采集荧光，从而允许对包封的细胞的数量进行计数。

液滴收集

将液滴收集在冰上的收集管中直至包封结束(10分钟至20分钟，具体取决于起始细胞的数量)。包封后，将液滴在37℃下孵育用于微球菌核酸酶消化。

液滴中的微球菌核酸酶校准

在包封结束时，将液滴在芯片外孵育以用于单细胞染色质片段化。在液滴中裂解细胞，使它们的核DNA可用于微球菌核酸酶。该消化的动力学对于优先地产生保留在液滴中的单核小体特别重要。理想的孵育时间定义为将100％的核DNA片段化为单核小体所必需的时间。通过进行时程研究，精确校准每个样品的消化条件(包括裂解缓冲液组成、微球菌核酸酶浓度和孵育时间)。如下进行校准：生成包含细胞、缓冲液和微球菌核酸酶的45pl液滴，将其收集在收集管中，并将其在37℃下放置不同的孵育时间。在每个时间点，一定分数的液滴被破裂，并通过添加EGTA使微球菌核酸酶立即失活(参见图3)。然后纯化DNA片段并通过电泳对其进行分析。孵育时间的选择是在具有最高比例的单核小体但同时防止核小体DNA被过度消化之间的平衡。确实，假设是从核小体突出的DNA应该足够长以使得在该程序的后续步骤中能够进行条形码的有效连接。

控制液滴中的微球菌核酸酶活性

通过在细胞包封之后在冰上收集液滴来控制液滴中的微球菌核酸酶活性(参见图2)。确实，图2中的时间点t＝0分钟(其对应于液滴生产结束时但就在孵育之前所采集的一定分数的液滴)表明核DNA尚未被微球菌核酸酶消化。该证据确认了染色质消化不在液滴产生时发生，而是在37℃的孵育下立即开始(参见图2)。

在孵育之后以及在融合设备中重新注入时将液滴置于冰上可“暂停”微球菌核酸酶活性并限制染色质消化中的细胞间变化。为了这个目的，在12分钟的微球菌核酸酶孵育之后取两个液滴部分：一个部分被立即处理以控制消化，而第二部分被预先存于冰上1小时，然后进行类似处理。如预期的，图2上的时间点t＝12分钟和t＝12分钟+1小时冰确认了微球菌核酸酶在冰上存储的部分中不再具有活性(相比于t＝20分钟的时间点)。因此，将液滴存储在冰上“暂停”了微球菌核酸酶活性，从而防止液滴之间的染色质消化再次发生变化。

DNA条形码化策略

通过链霉亲和素-生物素连接和可光切割部分将DNA条形码接合至水凝胶珠粒，使得其在暴露于紫外线时能够从珠粒释放(Klein等，2015，Cell 161(5)：1187-1201)。条形码的合成包括将微珠分布于包含连接试剂和20bp寡核苷酸的96种组合(后称为索引1)的微孔板中。将索引1连接至珠粒并将其合并，之后再次分布于包含20bp寡核苷酸的96种新组合(后称为索引2)的第二微孔板中。通过重复此拆分-合并方法3次，轻松生成96³种可能的条形码组合的文库(即884,736种组合)。

条形码化水凝胶珠粒的质量控制

条形码化珠粒是scChIP-seq技术的核心试剂之一，其质量已得到系统地控制以确保细胞间变化是源自其组蛋白修饰模式中的真正生物差异，而不是技术伪像。

从珠粒释放的DNA条码的Tapestation谱分析显示，>75％是全长(146bp处的较大峰)，以及未能完整的中间体的存在(图5)。平均而言，全长条形码的数量被估计为每条形码化水凝胶珠粒5×10⁷个拷贝。

为了验证条形码从水凝胶珠粒的释放，将DNA探针与条形码杂交至珠粒上。然后将后者包封于100p1液滴中，并如scChIP-seq实验中那样芯片外收集。如Eyer(Eyer等，2017，Nature Biotechnology 35(10)：977-982)报道的，将部分液滴作为单一列队(singlefile)重新注入至测微室中，并通过辐射荧光显微镜对微珠成像，同时荧光条形码仍然结合在珠粒上。如预期的，荧光定位在珠粒上(参见图5)。将第二部分的包含珠粒的液滴暴露于紫外线以引发条形码释放。如上所述，在光切割之后的包含珠粒的液滴的辐射荧光显微显示了液滴中荧光的均匀分布，其表明完全的条形码释放(参见图5)。最后，对每一批新的条形码化珠粒进行单珠测序。通过在384孔板中进行有限稀释来分离珠粒。通过成像仅选择包含一个珠粒的孔以用于条形码的扩增和测序。测序数据的分析显示了16个珠粒的前两个最丰富的条形码的分数。识别出每珠粒数十万种不同的条形码，但平均而言，最丰富的条形码占测序读数的97.7％。第二丰富的条形码平均占读数的少至0.17％，这表明所有其他识别出的条形码是可忽略不计的(参见图5)。

条形码设计

条形码通过链霉亲和素-生物素连接与珠粒结合，其进而通过可光切割实体与寡核苷酸的5’端分开。后者包含可光切割基团和使空间相互作用最小化的烷基间隔基(整个实体被称为PC-接头，参见图4)。第一生物素化的和PC接头寡核苷酸是所有条形码共有的，并包含T7启动子序列和Illumina测序接头(SBS12序列)。T7启动子序列充当T7 RNA聚合酶的识别位点以在体外转录反应(IVT)中启动免疫沉淀后富集的条形码化核小体的线性扩增。在单细胞RNA-seq方案中的逆转录后的cDNA的无偏倚、灵敏和可再现扩增中广泛采用了这种扩增策略(Hashimshony等，2012，Cell Reports 2(3)：666-673)。在第二步中，Illumina测序接头充当PCR手柄以完成测序文库的制备。并且，此接头作为启动读数#2和对条形码序列的读取的引物对于样品的下一代测序而言是必需的。用该第一共有寡核苷酸接合的珠粒然后通过连续连接3个索引来用于条形码合成。不幸的是，对第一单细胞ChIP-seq数据集的分析显示，只有很少的读数(～38％)具有完整且正确的条形码结构。

在图3中描绘了优化的条形码结构，其允许消化条形码多联体以及减少非全长条形码的连接。条形码用Pac1限制性位点的一半框起来，其仅在形成多联体的情况下才被重建。那些在免疫沉淀之后但在线性扩增之前被消化以清理文库。通过引入3’C3间隔子修饰条形码光切割侧。该修饰在3’碱基的3’-羟基处引入间隔臂并阻断连接。随着间隔基的添加，连接的方向被强制为是从条形码的3’-端至核小体。非全长条形码用包含3’C3间隔子和5’反向二脱氧-T碱基的“嵌段”寡核苷酸序列来完整。再次地，两种修饰均目的在于限制不需要的连接事件。

条形码化珠粒在液滴中的包封

可以通过泊松分布来估计将离散物体(例如水凝胶珠粒)加载至液滴中。以与细胞的包封相同的方式，在液滴在检测点处穿过激光束时，实时监控珠粒的加载。在单细胞ChIP-seq实验中，其通常实现65％至75％的包含条形码化水凝胶珠的液滴。

包含核小体的液滴与包含条形码的液滴融合

将细胞和DNA条形码分别包封以防止条形码被微球菌核酸酶消化。为了在单细胞水平上对染色质进行索引化，必须在第二步中将DNA条码递送至包含核小体的液滴中。这是通过使用触发电场在专用微流体设备中主动融合两个液滴群体来实现的。

来自“细胞乳液”的液滴和来自“条形码乳液”的液滴作为单一列队重新注入微流体融合设备中。实现适当的电聚集需要将来自两种乳液的液滴一对一配对。水动力使更快的且较小的45pl液滴(“细胞乳液”)能够赶上100pl液滴(“条形码乳液”)并与其接触，因为接触对于两个液滴融合是必须的(Mazutis等，2009，Lab on a Chip 9(18)：2665)。与液滴产生相似，在融合液滴在检测点处穿过激光束时获得其荧光强度(参见图1)。

从单细胞ChIP-seg谱分析重建细胞类型特异性染色质状态

如图7所示，将人T淋巴细胞和人B淋巴细胞分别包封，并用两组不同的条形码来索引化。在液滴中对核小体进行条码化之后，将来自两种细胞类型的索引化染色质合并，进行染色质免疫沉淀并对文库进行测序

通过合并索引化染色质，避免了引入与测序文库的免疫沉淀或制备有关的偏倚(批次效应)。每个测序读数会携带双重信息：(1)单细胞条形码序列，其将读数分配给其起源细胞；(2)“细胞类型特异性序列”，其将读数分配给一种细胞类型(B或T淋巴细胞)。

为了确认条形码对于单个细胞是独特的，已经用小鼠和人细胞系的混合物进行了实验，其显示97％的条形码被毫无疑义地分配给单个物种，其与已占用的包含单个细胞的液滴的百分比(95％)一致，如图13所示。

已验证scChIP-seq程序从H3K4me3和H3K27me3修饰的单细胞分布重述细胞身份的效率和准确率。使用两组独立的条形码化接头分别处理人Ramos(B细胞)和Jurkat(T细胞)(如图1a-b所示)，并在液滴中连接接头之后，合并条形码化核小体并对其进行免疫沉淀。对于H3K4me3和H3K27me3组蛋白标记物，分别实现了每细胞1,630和1,633个独特读数的平均覆盖率，和跨技术和生物重复实验的高相关性(图14a-c，分别为r＝0.96和0.98，p<10-15)。

对于单细胞染色质谱分析实验两者，通过一致性聚类识别了对应于每个细胞系的两个稳定聚类(图15a和图16a)，将细胞身份与对H3K4me3和H3K27me3谱分析分别为超过99.7％和99.5％的特异性相匹配。聚集的单细胞谱分析以高准确率重述了成批ChIP-seq谱分析(图15b-c，对于H3K4me3和H3K27me3，分别为r＝0.93和0.97，p<10-15，图14f)。通过差异性分析识别了对Ramos和Jurkat细胞具有特异性的许可性和抑制性染色质特征(图16b)。聚焦于H3K4me3，其在转录起始位点附近积累，我们识别了多组协调的谱系特异性基因，如在对每个细胞系具有特异性的染色质特征中富集的(图16c)。这些结果确认，scChIP-seq程序是在单细胞水平上检测染色质景观，根据其染色质状态以高准确率对单细胞进行分类，并识别细胞群体之间的区别性染色质特征的稳健方法。

单细胞条形码和细胞类型特异性序列的反卷积

通过首先搜索在条形码的20聚索引之间发现的恒定4bp接头来从读数#2中提取条形码，从而允许每个接头中最多1个错配。如果识别了正确的接头，则提取三个散布的20聚索引并将其连接在一起以形成60bp的非冗余条形码序列。使用灵敏读数映射器Cushaw3，用3组96索引(96³)的所有884,736个组合的文库来映射条形码序列。每组索引都是错误修正的，因为将一个索引转换为另一个索引花费超过为3的编辑距离。因此，我们将在整个条形码中的总错配阈值设置为3，每索引为2或更少，以避免将序列错误分配给错误的条形码Id。在第二个较慢的步骤中，将不可以映射至Cushaw3索引文库的序列拆分成其个体索引，将每个索引与96个可能索引的集进行比较，从而允许每个个体索引中最多2个错配。未通过这两个步骤分配给条形码Id的任何序列都被丢弃。

以高达平均每细胞10,000个基因座的高覆盖率在单细胞水平上对组蛋白修饰进行谱分析会有助于揭示肿瘤样品内相对罕见的染色质状态的存在。预期该单细胞染色质谱分析成为探查任何复杂生物系统内染色质的异质性和动力学的作用的独特工具：除癌症外，其还可被应用于其他疾病和健康系统，尤其是研究细胞分化和发展用于患者分层。

根据本发明的方法可以用于揭示具有抗性癌细胞特有的染色质特征的罕见的细胞在治疗之前存在，并可通过癌症疗法对其进行选择。

37页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：游离DNA损伤分析及其临床应用

液滴单细胞表观基因组谱分析用于患者分层的用途

相关技术

网友询问留言