分析细胞的方法

文档序号：914645 发布日期：2021-02-26 浏览：19次 >En<

阅读说明：本技术 分析细胞的方法 (Method for analyzing cells ) 是由 A·卡维吉安 N·M·普拉吉斯 M·R·雷钦 F·A·沃尔夫 P·侯赛尼于 2019-07-16 设计创作，主要内容包括：访问代表第一细胞状态与改变的细胞状态之间的差异细胞组分表达的单细胞转变特征。改变的状态通过从第一细胞状态到改变的细胞状态的细胞转变而发生。转变特征包括多种细胞组分的识别以及,对于每种这样的细胞组分,量化在相应细胞组分的表达的变化与第一细胞状态与改变的细胞状态之间的细胞状态的变化之间的关联的对应第一显著得分。将转变特征与代表未受扰细胞与暴露于扰动的受扰细胞之间的差异细胞组分表达的扰动特征进行比较。扰动特征包括,对于每种相应细胞组分,量化在(i)未受扰细胞与受扰细胞之间的细胞组分的表达的变化与(ii)未受扰细胞与受扰细胞之间的细胞状态的变化之间的关联的对应第二显著得分。(A single cell transition profile representing differential cellular component expression between a first cellular state and an altered cellular state is accessed. The altered state occurs by a cellular transition from a first cellular state to an altered cellular state. The transition feature includes identification of a plurality of cellular components and, for each such cellular component, a corresponding first prominence score that quantifies a correlation between a change in expression of the respective cellular component and a change in cellular state between the first cellular state and the altered cellular state. The transition profile is compared to a perturbation profile representing differential cellular component expression between undisturbed cells and disturbed cells exposed to perturbation. The perturbation signature includes, for each respective cellular component, quantifying a corresponding second saliency score for the correlation between (i) a change in expression of the cellular component between undisturbed and disturbed cells and (ii) a change in cellular state between undisturbed and disturbed cells.)

分析细胞的方法

相关申请的交叉引用

本申请要求2018年7月16日提交的美国专利申请号62/698,701、2019年2月14日提交的美国专利申请号62/805,884和2019年2月14日提交的美国专利申请号62/805,888的优先权权益，其全部内容以引用的方式并入本文。

技术领域

本发明大体上涉及用于分析细胞的系统和方法。更特别地，本发明涉及预测扰动是否将影响细胞转变。

背景技术

细胞机制的研究对于了解疾病来说是重要的。

组织是个别细胞的复杂生态系统，在其中细胞状态的失调是疾病的基础。现有的药物发现工作试图表征导致细胞从健康状态转变为疾病状态的分子机制，并试图识别逆转或抑制这些转变的药理学方法。过去的工作也试图识别表征这些转变的分子特征，并识别逆转这些特征的药理学方法。

富有表面标记物的组织或细胞中的大量细胞集合的分子数据掩盖了群体中个别细胞的表型和分子多样性。这些大量细胞集合中细胞的异质性导致旨在阐明疾病驱动机制的目前工作的结果是误导性的或甚至完全不正确的。新方法，如单细胞RNA测序，可以在分子水平上表征个别细胞。这些数据提供了以较高分辨率了解不同细胞状态的基础，并揭示了细胞具有的状态的丰富且显著的多样性。

在解释单细胞数据时存在重大挑战，即这些数据具有稀疏性，忽略了细胞中存在的分子的存在以及噪声，这些分子测量的准确度具有不确定性。因此，需要新方法来深入了解控制个别细胞状态的药理学方法，并对应地解决疾病。

化学物质(包括小分子、细胞外配体、mRNA、siRNA和其他物质)的计算定位和重新定位具有加快药物发现的巨大潜力。过去的方法已经将源于被小分子扰动的大量细胞的差异表达特征映射为健康状态与疾病状态之间的细胞表达Δ。这种方法具有潜力，但由于大量细胞的异质性和分子扰动细胞与患病细胞的显著细胞类型差异使其目前形式的适用性有限。

鉴于上述背景，本领域中需要能够实现细胞分析增强的系统和方法。特别地，需要能够预测扰动是否将影响细胞转变。

发明内容

本公开解决了以上识别的缺点。本公开至少部分地通过将单细胞数据和分子扰动数据作为关键数据基础，并使用机器学习来改进对自然多样的细胞状态的了解来解决这些缺点，揭示了细胞选择替代状态时的关键转变状态，推动了对细胞状态变化的分子机制基础的了解并且发现了用于控制这些状态变化的药理学方法。

本公开的一个方面提供用于预测扰动是否将影响细胞转变(例如，是促进转变还是抑制转变)的方法。所述方法包括以电子形式访问单细胞转变特征。所述转变特征代表第一细胞状态与改变的细胞状态之间的差异细胞组分表达的量度。改变的细胞状态通过从第一细胞状态到改变的细胞状态的细胞转变而发生。所述单细胞转变特征包括多种细胞组分的识别。对于所述多种细胞组分中的每种相应细胞组分，对应的第一显著得分量化了相应细胞组分的表达的变化与第一细胞状态与改变的细胞状态之间的细胞状态的变化之间的关联。事实上，可以以这种方式获得任何数目单细胞转变特征，每个单细胞转变特征代表第一细胞状态与不同的改变的细胞状态之间的差异细胞组分表达的量度。因此，可以使用本申请的公开内容并行地分析任何数目不同的改变的细胞状态。

所述方法还包括以电子形式访问扰动特征。在一些实施方案中，所述扰动特征代表一个或多个未受扰细胞与一个或多个暴露于扰动的受扰细胞之间的差异细胞组分表达的量度。此外，扰动特征包括多种细胞组分的全部或部分的识别。对于多种细胞组分的全部或部分中的每种相应细胞组分，对应的第二显著得分量化一个或多个未受扰细胞与一个或多个受扰细胞之间的相应细胞组分的表达变化与一个或多个未受扰细胞与一个或多个受扰细胞之间的细胞状态变化之间的关联。事实上，可以以这种方式获得任何数目的扰动特征，每个扰动特征代表一个或多个未受扰细胞与一个或多个暴露于多个扰动中的不同扰动的受扰细胞之间的差异细胞组分表达的量度。此外，所述方法包括比较一个或多个单细胞转变特征与一个或多个扰动特征，从而确定一个或多个扰动是否将影响细胞向一个或多个改变的状态的转变。在一些实施方案中，以这种方式并行地分析两个、三个、四个、十个或更多个(例如15、20、25、30、40、50、60、70、80、90或100个或更多个)改变的状态。在一些实施方案中，以这种方式并行地分析两个、三个、四个、十个或更多个(例如15、20、25、30、40、50、60、70、80、90或100个或更多个)扰动。

在一些实施方案中，访问单细胞转变特征包括基于第一多个第一单细胞细胞组分表达数据集和第二多个第二单细胞细胞组分表达数据集来确定单细胞转变特征。所述第一多个第一单细胞细胞组分表达数据集中的每个相应第一单细胞细胞组分表达数据集自处于第一细胞状态的第一多个细胞的对应单细胞获得。此外，所述第二多个第二单细胞细胞组分表达数据集中的每个相应第二单细胞细胞组分表达数据集自处于改变的细胞状态的第二多个细胞的对应单细胞获得。

在一些实施方案中，所述第一多个单细胞细胞组分表达数据集的每个相应数据集包括第一多个细胞组分向量中的对应细胞组分向量。此外，所述第二多个单细胞细胞组分表达数据集的每个相应数据集包括第二多个细胞组分向量中的对应细胞组分向量。另外，所述第一多个细胞组分向量和所述第二多个细胞组分向量中的每个相应细胞组分向量包括多个元素。所述相应细胞组分向量中的每个相应元素与所述多种细胞组分中的对应细胞组分相关联，并且包括代表对应单细胞的对应细胞组分的量的对应值，所述对应单细胞由所述第一多个单细胞细胞组分表达数据集和所述第二多个单细胞细胞组分表达数据集的相应数据集代表。

在一些实施方案中，对所述第一多个单细胞细胞组分表达数据集和/或所述第二多个单细胞细胞组分表达数据集执行降维以生成多个降维分量。因此，对于所述第一多个细胞组分向量和所述第二多个细胞组分向量中的每个相应细胞组分向量，将所述多个降维分量应用到相应细胞组分向量以形成对应降维向量，所述对应降维向量包括所述多个降维分量中的每个相应降维分量的降维分量值。这形成了对应的第一多个降维向量和第二多个降维向量。所述方法包括执行聚类以生成聚类Cj的集。每个聚类包括与所述第一多个降维向量和所述第二多个降维向量的子集相对应的多个点。所述第一多个细胞是从聚类Cj的集合的第一聚类识别的，并且所述第二多个细胞是从聚类Cj的集的第二聚类识别的。

在一些实施方案中，用对应的所述第一多个降维向量和所述第二多个降维向量执行流形学习，以识别所述第一多个细胞和所述第二多个细胞中的每个细胞相对于每个其他细胞的相对细胞状态。

在一些实施方案中，所述多个未受扰细胞是尚未暴露于扰动的对照细胞，或者未受扰细胞是对已暴露于扰动的不相关受扰细胞取的平均值。

在一些实施方案中，所述方法还包括对单细胞转变特征和扰动特征进行剪枝以将所述多种细胞组分限于转录因子。

在一些实施方案中，确定单细胞转变特征包括使用均值差检验(difference ofmeans test)、Wilcoxon秩和检验、t检验、逻辑回归和广义线性模型中的一种来确定在所述第一多个第一单细胞细胞组分表达数据集与所述第二多个第二单细胞细胞组分表达数据集之间的所述多种细胞组分中的细胞组分量的差异。

在一些实施方案中，差异细胞组分表达的量度使用均值差检验、Wilcoxon秩和检验、t检验、逻辑回归和广义线性模型中的一种来量化第三多个第三单细胞细胞组分表达数据集与第四多个第四单细胞细胞组分表达数据集之间的细胞组分量的差异。所述第三多个第三单细胞细胞组分表达数据集中的每个相应第三单细胞细胞组分表达数据集自所述多个未受扰细胞的对应单细胞获得，并且所述第四多个第四单细胞细胞组分表达数据集中的每个相应第四单细胞细胞组分表达数据集自暴露于扰动的所述多个受扰细胞中的第四多个细胞的对应单细胞获得。

在一些实施方案中，对单细胞转变特征和扰动特征进行过滤，以减少单细胞转变特征和扰动特征中所包括的细胞组分的数目。在一些实施方案中，对单细胞转变特征和扰动特征进行过滤包括根据阈值p值或根据细胞组分的阈值数目来减少单细胞转变特征和扰动特征中所包括的细胞组分的数目。

在一些实施方案中，对于所述多种细胞组分中的每种相应细胞组分，确定相应细胞组分的对应第二显著得分包括用相应细胞组分的对应匹配得分替换相应细胞组分的显著得分。将所述多种细胞组分的匹配得分组合以生成扰动的匹配得分。基于相应扰动的匹配得分，确定了扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联。

在一些实施方案中，对应的匹配得分包括离散或连续得分。

在一些实施方案中，替换显著得分包括如果相应细胞组分的来自单细胞转变特征的细胞组分量和相应细胞组分的来自扰动特征的细胞组分量都被上调，则用第一得分替换显著得分。如果所述相应细胞组分的来自所述单细胞转变特征的细胞组分量被上调并且所述相应细胞组分的来自所述扰动特征的细胞组分量被下调，则用第二得分替换所述显著得分。此外，如果相应细胞组分的来自扰动特征的细胞组分量未被显著上调或下调，则用第三得分替换显著得分。

在一些实施方案中，替换显著得分包括如果与对应物(例如，分别为第一细胞状态和未受扰状态)相比，相应细胞组分的来自单细胞转变特征的细胞组分量和所述细胞组分的来自扰动特征的细胞组分量都下调，则用第一得分替换显著得分。如果与对应物(例如，分别为第一细胞状态和未受扰状态)相比，相应细胞组分的来自单细胞转变特征的细胞组分量被下调，并且所述细胞组分的来自扰动特征的细胞组分量被上调，则用第二得分替换显著得分。此外，如果与对应物(例如，分别为第一细胞状态和未受扰状态)相比，细胞组分的来自扰动特征的细胞组分量未被显著上调或下调，则用第三得分替换显著得分。

在一些实施方案中，所述多种细胞组分包括多个基因。

在一些实施方案中，第一多个第一单细胞细胞组分表达数据集和第二多个第二单细胞细胞组分表达数据集中的每个单细胞细胞组分表达数据集使用包括单细胞核糖核酸(RNA)测序(scRNA-seq)、scTag-seq、使用测序的转座酶可接近性染色质的单细胞测定(single-cell assay for transposase-accessible chromatin using sequencing；scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq或其组合或总结的方法来生成。

在一些实施方案中，所述方法还包括基于比较将扰动识别为促进改变的细胞状态的扰动。

在一些实施方案中，细胞转变特征和扰动特征使用不同类型的细胞组分生成。在一些实施方案中，细胞转变特征和扰动特征使用相同类型的细胞组分生成。

在一些实施方案中，对于多个扰动中的每个相应特征执行以电子形式的访问，从而获得多个扰动特征。此外，所述比较将单细胞转变特征和扰动特征与多个扰动特征中的每个相应特征进行比较，从而确定所述多个扰动的与细胞在第一细胞状态与改变的细胞状态之间的转变相关联的子集。

本公开的另一方面提供了一种方法，其包括访问多个单细胞细胞组分表达数据集。每个单细胞细胞组分表达数据集自已经从相同“祖”细胞类型转变的多个细胞中的一个细胞获得。每个数据集包括细胞组分的向量r_i。细胞组分的向量r_i中的每个条目与多种细胞组分中的一种相关联，并且每个条目的值代表细胞的细胞组分的量。所述方法还包括执行数据集的降维以生成矩阵M(例如，多个无量纲成分，诸如图1的无量纲降维分量存储区146-1的那些)。矩阵M包括第一维度中的行和第二维度中的列。每一行对应于所述多个细胞中的一个。矩阵M的值包括从位于第一维空间和第二维空间中的点的细胞组分的量生成的值。所述方法还包括执行聚类以生成聚类C_j的集。每个聚类包括与矩阵M中的行的子集相对应的多个点，以及它们的对应细胞。所述方法还包括使用聚类C_j的集确定细胞的差异表达的细胞组分E_k的集。

在某些实施方案中，所述方法还包括用矩阵M在点的相对相似性逼近下执行流形学习，以创建矩阵N。矩阵N包括多个行(与矩阵M的行相同的行)和两列。每一行对应于所述多个细胞中的一个，并且两列中的每一列对应于二维空间中的两个维度中的一个。基于数据集，矩阵N的值指示每个细胞相对于每个其他细胞的相对细胞类型。

有从中获得数据集的所述多个细胞的多个实施方案。在某些实施方案中，当获得单细胞细胞组分表达数据集时，所述多个细胞是具有各种细胞类型的异质细胞群。在额外的实施方案中，所述多个细胞是具有“祖”细胞类型的同质细胞群，并且在细胞从“祖”细胞类型转变时的多个时间点中的每一个获得单细胞细胞组分表达数据集，使得针对每个独特的细胞和时间点组合收集所述多个数据集中的不同数据集。在这样的实施方案中，所述多个时间点可以包括至少三个时间点。在进一步的实施方案中，所述多个时间点可以包括所述多个细胞中的相当大部分尚未从“祖”细胞类型转变的“祖”时间点。在一些额外的实施方案中，所述多个时间点可以包括所述多个细胞中的相当大部分已从“祖”细胞类型转变的转变时间点。在一些更进一步的实施方案中，所述多个时间点可以包括细胞中的相当大部分已至少部分地从“祖”细胞类型转变的至少一个中间时间点。

所述多种细胞组分也可以变化。例如，在本文公开的方法的一些实施方案中，所述多种细胞组分选自由以下组成的组：核酸、蛋白质、脂质、碳水化合物、核苷酸及其任何组合。在这样的实施方案中，核酸可以选自由DNA和RNA组成的组。在进一步的实施方案中，RNA可以选自由编码RNA和非编码RNA组成的组。在某些实施方案中，所述多个单细胞细胞组分表达数据集使用选自由以下组成的组的方法生成：单细胞核糖核酸(RNA)测序(scRNA-seq)、scTag-seq、使用测序的转座酶可接近性染色质的单细胞测定(scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq及其任何组合或总结。

可以对数据集执行降维以便以多种方式生成降维分量(例如，以上述矩阵M的形式)。在某些实施方案中，执行降维包括对单细胞细胞组分表达数据集执行主成分分析(PCA)以生成降维分量。在进一步的实施方案中，可以使用扩散映射和/或神经网络自动编码器对数据集执行降维以生成降维分量。

类似地，可以使用降维分量(例如，以矩阵M的形式)来执行流形学习，以便以多种方式创建另一数据形式，诸如矩阵N。在本公开的一些实施方案中，执行流形学习可以包括估计矩阵M中的数据的几何形状以创建矩阵N。在这样的实施方案中，执行流形学习可以包括执行局部线性嵌入、局部线性等距映射(ISOMAP)、t分布随机近邻嵌入(t-distributedstochastic neighbor embedding；t-SNE)、基于亲和性的轨迹嵌入的热扩散势(Potentialof Heat-Diffusion for Affinity Based Trajectory Embedding；PHATE)或统一流形逼近与投影(UMAP)。在进一步的实施方案中，执行流形学习可以包括基于矩阵M中的数据创建力导向布局以生成矩阵N。在一个实施方案中，力导向布局可以使用Force Atlas 2算法创建。

聚类也可以以多种不同的方式执行。在某些实施方案中，执行聚类假设没有关于每个聚类中的多个点的组织的先验知识。在本文公开的额外的实施方案中，执行聚类包括执行HDBSCAN和/或Louvain社区检测以生成聚类C_j的集。在进一步的实施方案中，执行聚类包括基于收集与每个点相关联的单细胞细胞组分表达数据集的时间点，将所述点分配到聚类C_j中的一个。在一些实施方案中，执行聚类包括使用扩散路径算法来分析所述多个点，所述扩散路径算法基于点为聚类末端的程度的量度来将所述点分配到所述聚类。

为了确定差异表达的细胞组分E_k的集，可以使用多种不同的方法。例如，在一个实施方案中，对于每种细胞组分，对于至少一个聚类C_j，可以将所述至少一个聚类中多个点的细胞组分的量与至少一个其他聚类中多个点的细胞组分的量进行比较。然后，响应于所述至少一个聚类中多个点的细胞组分的量是大于所述至少一个其他聚类中多个点的细胞组分的量的阈值水平，可以将所述细胞组分加入差异表达的细胞组分E_k的集中。在某些实施方案中，所述至少一个聚类可以包括聚类C_j的谱系内(on-lineage)聚类，所述谱系内聚类含有具有所需细胞类型的多个点。在进一步的实施方案中，所述至少一个其他聚类可以包括聚类C_j的谱系外(off-lineage)聚类，所述谱系外聚类含有具有不期望的细胞类型的点。

在进一步的实施方案中，为了确定差异表达的细胞组分E_k的集，对于每种细胞组分，对于至少一个聚类，可以计算至少一个聚类中多个点的细胞组分的量与至少一个其他聚类中多个点的细胞组分的量之间的距离度量。然后，响应于距离度量是统计上显著的，可以将细胞组分加入差异表达的细胞组分E_k的集中。

在某些实施方案中，本文所述的方法还可以包括针对转录因子数据库筛选差异表达的细胞组分E_k的集，以识别差异表达的转录因子集。在识别差异表达的转录因子集的这样的实施方案中，所述方法还可以包括以下步骤：对所述差异表达的细胞组分E_k的集执行经验模态分解，以生成所述数据集的伪时间表示；以及基于所述伪时间表示识别所述差异表达的转录因子的集。

在另一方面，本公开提供一种方法，其包括访问多个单细胞细胞组分表达数据集。每个数据集自已经从相同“祖”细胞类型转变的多个细胞中的一个细胞获得。每个数据集包括细胞组分的向量r_i。细胞组分的向量r_i中的每个条目与多种细胞组分中的一种相关联，并且每个条目的值代表细胞的细胞组分的量。所述方法还包括使用kNN算法和单细胞细胞组分表达数据集生成kNN图，执行聚类以生成聚类C_j的集，以及使用所述聚类C_j的集确定多个细胞的差异表达的细胞组分E_k的集。每个聚类包括多个点，每个点对应于多个细胞中的一个细胞的单细胞细胞组分表达数据集。在一些实施方案中，确定差异表达的细胞组分E_k的集包括确定聚类C_j中多个点之间的距离度量。

在另一方面，本公开提供一种方法，其包括访问单细胞转变特征，所述单细胞转变特征代表第一细胞状态与改变的细胞状态之间的差异细胞组分表达的量度。所述方法还包括访问扰动特征，所述扰动特征代表未暴露于扰动的未受扰细胞与暴露于扰动的受扰细胞之间的差异细胞组分表达的量度。所述方法还包括基于单细胞转变特征与扰动特征的比较，确定扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联。

在一些实施方案中，访问单细胞转变特征包括基于第一多个单细胞细胞组分表达数据集以及基于第二多个单细胞细胞组分表达数据集来确定单细胞转变特征，每个第一数据集自处于第一细胞状态的第一多个细胞中的一个细胞获得，每个第二数据集自处于改变的细胞状态的第二多个细胞中的一个细胞获得。对于每个细胞，第一多个单细胞细胞组分表达数据集和第二多个单细胞细胞组分表达数据集中的每个数据集可以包括细胞组分的向量r_i，所述向量中的每个条目与多种细胞组分中的一个相关联，并且每个条目的值代表所述细胞的细胞组分的量。在一些实施方案中，基于第一多个单细胞细胞组分表达数据集和第二多个单细胞细胞组分表达数据集确定单细胞转变特征包括使用均值差检验、Wilcoxon秩和检验(曼-惠特尼U检验(Mann Whitney U test))、t检验、逻辑回归和广义线性模型中的一种来确定第一多个单细胞细胞组分表达数据集和第二多个单细胞细胞组分表达数据集之间的细胞组分量的差异。

在这样的单细胞转变特征包括基于第一多个单细胞细胞组分表达数据集和第二多个单细胞细胞组分表达数据集来确定单细胞转变特征的实施方案中，所述方法还可以包括获得第一多个单细胞细胞组分表达数据集和第二多个单细胞细胞组分表达数据集。所述获得步骤进而包括对第一多个单细胞细胞组分表达数据集和第二多个单细胞细胞组分表达数据集执行降维以生成矩阵M。矩阵M包括第一维度中的行和第二维度中的列。矩阵M的每一行对应于所述多个细胞中的一个细胞。矩阵M的值包括从位于第一维空间和第二维空间中的点的细胞组分的量生成的值。获得第一单细胞细胞组分表达数据集和第二单细胞细胞组分表达数据集还包括执行聚类以生成聚类C_j的集。每个聚类包括与矩阵M中的行的子集相对应的多个点，以及它们的对应细胞。获得第一单细胞细胞组分表达数据集和第二单细胞细胞组分表达数据集甚至还包括从聚类C_j的集的第一聚类识别第一多个细胞，从聚类C_j的集的第二聚类识别第二多个细胞，从所述第一多个细胞获得第一多个单细胞细胞组分表达数据集，以及从所述第二多个细胞获得第二多个单细胞细胞组分表达数据集。

在某些实施方案中，获得第一单细胞细胞组分表达数据集和第二单细胞细胞组分表达数据集还包括用矩阵M在点的相对相似性逼近下执行流形学习，以创建矩阵N。矩阵N包括多个行和两列。每一行对应于第一多个细胞和第二多个细胞中的一个细胞，并且每一列对应于二维空间中的一个或两个维度。基于第一多个单细胞细胞组分表达数据集和第二多个单细胞细胞组分表达数据集，矩阵N的值指示每个细胞相对于每个其他细胞的相对细胞状态。

在某些实施方案中，访问扰动特征可以包括基于未暴露于扰动的未受扰细胞的多个未受扰单细胞细胞组分表达数据集并且基于暴露于扰动的受扰细胞的多个受扰单细胞细胞组分表达数据集来确定扰动特征。未受扰细胞可以是未暴露于受扰细胞的扰动的对照细胞。或者，未受扰细胞可以是已经暴露于扰动的不相关受扰细胞的平均值。在一些实施方案中，基于未受扰的多个单细胞细胞组分表达数据集和受扰的多个单细胞细胞组分表达数据集来确定扰动特征可以包括使用均值差检验、Wilcoxon秩和检验(曼-惠特尼U检验)、t检验、逻辑回归和广义线性模型中的一个来确定未受扰的多个单细胞细胞组分表达数据集和受扰的多个单细胞细胞组分表达数据集之间的细胞组分量的差异。

在一些实施方案中，所述方法还包括对单细胞转变特征和扰动特征进行过滤，以包括作为转录因子的细胞组分。在额外的实施方案中，所述方法还包括对单细胞转变特征和扰动特征进行过滤，以减少单细胞转变特征和扰动特征中所包括的细胞组分的数目。具体地，可以对单细胞转变特征和扰动特征进行过滤，以根据阈值p值或根据细胞组分的阈值数目来减少单细胞转变特征和扰动特征中所包括的细胞组分的数目。

在本文公开的方法的进一步的实施方案中，扰动特征可以包括多种细胞组分，每种细胞组分与显著得分相关联，所述显著得分量化细胞组分的量的变化与未受扰细胞与受扰细胞之间的细胞状态的变化之间的关联。在这样的实施方案中，确定扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联可以包括：用每种细胞组分的匹配得分替换所述细胞组分的显著得分；将多种细胞组分的匹配得分组合以生成扰动的匹配得分；以及基于扰动的匹配得分确定扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联。匹配得分可以包括离散得分或连续得分。替换显著得分可以包括：如果细胞组分的来自单细胞转变特征的细胞组分量和来自扰动特征的细胞组分量都被上调，则用第一得分替换显著得分；如果细胞组分的来自单细胞转变特征的细胞组分量被上调并且来自扰动特征的细胞组分量被下调，则用第二得分替换显著得分；以及如果细胞组分的来自扰动特征的细胞组分量未被显著上调或下调，则用第三得分替换显著得分。替代地，替换显著得分可以包括：如果细胞组分的来自单细胞转变特征的细胞组分量和来自扰动特征的细胞组分量都被下调，则用第一得分替换显著得分；如果细胞组分的来自单细胞转变特征的细胞组分量被下调并且来自扰动特征的细胞组分量被上调，则用第二得分替换显著得分；以及如果细胞组分的来自扰动特征的细胞组分量未被显著上调或下调，则用第三得分替换显著得分。

在本文公开的方法的替代实施方案中，匹配得分不用于替换与扰动特征的细胞组分相关联的显著得分。相反，在替代实施方案中，扰动特征可以包括多种细胞组分，每种细胞组分与显著得分相关联，所述显著得分量化细胞组分的量的变化与未受扰细胞与受扰细胞之间的细胞状态的变化之间的关联。在这样的实施方案中，确定扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联可以包括：将多种细胞组分的显著得分简单地组合以生成扰动的显著得分；以及基于扰动的显著得分确定扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联。

在一些实施方案中，估计扰动的匹配得分的错误细胞组分发现率以确定扰动中的置信水平。在这样的实施方案中，错误细胞组分发现率通过以下估计：计算多种细胞组分的每种细胞组分的经验边际表达频率；将所述多种细胞组分的经验边际表达频率在其组合上求和以生成通过偶然假定独立分布的表达而识别许多细胞组分的概率；以及基于所述概率估计扰动的匹配得分的错误细胞组分发现率。

在某些实施方案中，确定扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联取决于扰动的协变量。例如，在一些实施方案中，确定扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联可以包括：确定扰动的协变量的阈值量与细胞在第一细胞状态与改变的细胞状态之间的转变相关联；以及响应于所述确定，确定扰动与细胞在第一细胞状态与改变的细胞状态之间的转变相关联。在某些实施方案中，扰动可以包括将细胞暴露于小分子。扰动的协变量可以包括小分子的特定剂量、相对于受扰细胞暴露于小分子的时间测量未受扰细胞与受扰细胞之间的差异细胞组分表达的时间以及受扰细胞的细胞系。

在某些实施方案中，细胞组分可以包括基因。单细胞细胞组分表达数据集可以使用选自由以下组成的组的方法生成：单细胞核糖核酸(RNA)测序(scRNA-seq)、scTag-seq、使用测序的转座酶可接近性染色质的单细胞测定(scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq及其任何组合或总结。

在本文公开的方法的一些实施方案中，自数据库获得单细胞转变特征和扰动特征中的至少一个。扰动特征可以自包括多个扰动的多个扰动特征的数据库获得。在这样的实施方案中，对于数据库中的多个扰动中的每个扰动，从数据库访问扰动的扰动特征，并且基于单细胞转变特征与扰动特征的比较来确定扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联。

在本文公开的方法的进一步实施方案中，所述方法还可以包括：访问来自多个受扰细胞的多个扰动特征；以及通过对于多个扰动特征中的每一个，基于单细胞转变特征和扰动特征的比较，确定与扰动特征相关联的扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联来筛选促进改变的细胞状态的扰动。在筛选促进改变的细胞状态的扰动的扰动特征的实施方案中，访问多个扰动特征可以包括：将细胞暴露于多个扰动以生成多个受扰细胞；以及测量来自多个受扰细胞的细胞组分量。

所述方法还可以包括识别促进改变的细胞状态的扰动。促进改变的细胞状态可以包括，在包括第一细胞状态的细胞群中，促进从第一细胞状态到改变的细胞状态的转变。替代地，促进改变的细胞状态可以包括，在包括第一细胞状态的细胞群中，增加处于替代状态的细胞的数目与处于第一状态或任选地不同于改变的细胞状态的状态的细胞的数目的比率。在进一步的替代实施方案中，促进改变的细胞状态可以包括，在包括第一细胞状态的细胞群中，增加处于改变的细胞状态的细胞的绝对数目。在更进一步的替代实施方案中，促进改变的细胞状态可以包括，在包括第一细胞状态的细胞群中，减少处于第一细胞状态或任选地不同于改变的细胞状态的状态的细胞的绝对数目。

在某些实施方案中，细胞转变特征和扰动特征可以使用不同类型的细胞组分生成。例如，细胞转变特征可以基于RNA表达(例如，RNA转录物的计数)生成，并且扰动特征可以基于蛋白质表达(例如，氨基酸的计数)生成。在替代实施方案中，细胞转变特征和扰动特征可以使用相同类型的细胞组分生成。例如，细胞转变特征和扰动特征都可以基于RNA表达(例如，RNA转录物的计数)生成。

在另一方面，本公开提供一种方法，其包括访问单细胞转变特征，所述单细胞转变特征代表第一细胞状态与改变的细胞状态之间的差异细胞组分表达的量度。所述方法还包括访问多个扰动特征，每个与扰动相关联的扰动特征代表未暴露于扰动的未受扰细胞与暴露于扰动的受扰细胞之间的差异细胞组分表达的量度。所述方法还包括基于单细胞转变特征与多个扰动特征的比较来确定与细胞在第一细胞状态与改变的细胞状态之间的转变相关联的扰动的子集。

在某些实施方案中，每个扰动特征包括多种细胞组分，并且每种细胞组分与显著得分相关联，所述显著得分量化细胞组分量的变化与未受扰细胞与受扰细胞之间的细胞状态变化之间的关联。在这样的实施方案中，确定与细胞在第一细胞状态与改变的细胞状态之间的转变相关联的扰动的子集包括，对于每个扰动特征，用每种细胞组分的匹配得分替换所述细胞组分的显著得分，以及将多种细胞组分的匹配得分组合以生成扰动的匹配得分。然后，所述方法还包括根据扰动的匹配得分对扰动进行排序，以及基于扰动的排序列表选择扰动的子集。

在另一方面，本文公开的本公开提供一种计算机程序产品，其包括在其上编码指令的非暂时性计算机可读存储介质。当由处理器执行时，编码的指令使处理器执行本文公开的方法的任何实施方案。在又一方面，本文公开的发明提供一种系统，其包括在其上编码指令的非暂时性计算机可读存储介质。当由处理器执行时，编码的指令使处理器执行本文公开的方法的任何实施方案。

在又一方面，本公开提供一种用于促进神经元和/或“祖”细胞的方法。所述方法包括将起始成纤维细胞群暴露于扰动，所述扰动具有促进起始成纤维细胞群向“祖”细胞和/或神经元的转变的扰动特征。在这样的实施方案中，所述扰动特征是Brn2、Ascl1、Myt1、Zfp941、Taf5B、St18、Zkscan16、Camta1和Arnt2中的一种或多种的活性增加和/或Ascl1、Atf3、Rorc、Scx、Satb1、Elf3和Fos中的一种或多种的活性降低。

在用于促进神经元和/或“祖”细胞的方法的某些实施方案中，所述神经元和/或“祖”细胞通过以下中的一种或多种来促进：增加神经元和/或“祖”细胞的绝对数目；减少成纤维细胞的绝对数目；促进成纤维细胞向神经元和/或“祖”细胞的转变；促进神经元或“祖”细胞的寿命；减少成纤维细胞的寿命；或增加神经元和/或“祖”细胞与成纤维细胞的比率。在进一步的实施方案中，扰动不包括弗斯可林(Forskolin)、PP1、PP2和曲古抑菌素A(Trichostatin A)。

在又一方面，本公开提供一种增加神经元和/或“祖”细胞的量的方法。所述方法包括将成纤维细胞群暴露于具有促进成纤维细胞群转变成神经元的扰动特征的药物组合物。所述药物组合物包含弗斯可林、PP1、PP2、曲古抑菌素A、BRD-K38615104、格尔德霉素(Geldanamycin)、手霉素A(Manumycin A)、米托蒽醌、姜黄素、阿伏西地(Alvocidib)、伐立诺他(Varinostat)、KI20227或前述物质的组合，例如前述物质的2、3、4、5种或更多种的组合。在一些实施方案中，所述药物组合物不包含弗斯可林、PP1、PP2和曲古抑菌素A。

在又一方面，本公开提供一种用于促进神经元和/或“祖”细胞的药物组合物。所述药物组合物包含选自由弗斯可林、PP1、PP2、曲古抑菌素A、BRD-K38615104、格尔德霉素、手霉素A、米托蒽醌、姜黄素、阿伏西地、伐立诺他、KI20227或前述物质的组合组成的组的扰动以及药学上可接受的赋形剂。在一些实施方案中，所述扰动不包括弗斯可林、PP1、PP2和曲古抑菌素A。

在又一方面，本公开提供一种包含本文公开的药物组合物中的一种的单位剂型。

在又一方面，本公开提供一种识别用于促进起始成纤维细胞群转变为神经元和/或“祖”细胞的候选扰动的方法。所述方法包括将所述起始成纤维细胞群暴露于扰动以及识别所述扰动的扰动特征。所述扰动的扰动特征包括一种或多种细胞组分和与每种细胞组分相关联的显著得分。每种细胞组分的显著得分量化在成纤维细胞群暴露于扰动之后细胞组分表达的变化与成纤维细胞群的细胞状态向神经元和/或“祖”细胞的变化之间的关联。所述扰动特征包括Brn2、Ascl1、Myt1、Zfp941、Taf5B、St18、Zkscan16、Camta1和Arnt2中的一种或多种的活性增加和/或Ascl1、Atf3、Rorc、Scx、Satb1、Elf3和Fos中的一种或多种的活性降低。所述方法还包括基于扰动特征将扰动识别为用于促进成纤维细胞群转变成神经元和/或“祖”细胞的候选扰动。

本公开的又一方面提供一种非暂时性计算机可读存储介质，其中所述非暂时性计算机可读存储介质存储指令，所述指令在由计算机系统执行时使所述计算机系统执行本公开中描述的用于分析细胞的方法中的任一种。

附图说明

在附图的图中以示例而非限制的方式示出了本文公开的实施方案。在整个附图中，相似的参考数字指代对应的部分。

图1示出根据本公开的一个实施方案的示例性系统和计算装置的方框图；

图2提供根据本公开的各种实施方案的用于分析细胞的系统的方法和特征的流程图，其中虚线框中的元件是任选的；

图3是根据本公开的一个实施方案的确定差异表达的细胞组分的集的差异细胞组分表达测定的第一实施例的流程图；

图4A描绘根据本公开的一个实施方案的在一段时间内跟踪所诱导的细胞状态转变的轨迹的时间线；

图4B描绘根据本公开的一个实施方案的通过力导向布局算法针对补充表1中的示例性矩阵N生成的流形；

图5A描绘根据本公开的一个实施方案的图5B的流形；

图5B描绘根据本公开的一个实施方案的描绘为图4B的流形中的点的每个测量日每个细胞中的每种BAM转录因子的表达水平；

图6描绘根据公开的一个实施方案的已经用DAPI、Map2抗体和Tuj1抗体染色的在其中强制Ascl1转录因子表达的MEF细胞的图像，用DAPI、Map2抗体和Tuj1抗体染色的小鼠神经元的图像，和已经用DAPI、Map2抗体和Tuj1抗体染色的在其中没有强制Ascl1转录因子表达的MEF细胞的图像；

图7A描绘根据本公开的一个实施方案的图4B的流形，其中流形中的点被分组到通过聚类识别的聚类C_j中；

图7B描绘根据本公开的一个实施方案的在文献中已知和未知与MEF向小鼠神经元(反之小鼠肌细胞)的转变相关联的转录因子；

图8A描绘根据本公开的一个实施方案的关于图4A所讨论的MEF细胞的转变轨迹的映射；

图8B描绘根据本公开的一个实施方案的用于识别影响细胞的转变轨迹的扰动的方法，所述扰动通过改变细胞中的基因表达使得在图8A的转变轨迹的映射中细胞从第一状态转变到第二状态来实现；

图9描绘根据本公开的一个实施方案的与MEF向小鼠神经元(反之小鼠肌细胞)的转变相关联的小分子扰动；

图10A提供根据本公开的一个实施方案的显示每种处理条件下的神经元总数的柱状图，其中基于阳性Tuj1/Map2信号和神经元形态来手动计数神经元的总数，并且其中对于每个实验，通过DMSO处理的孔中的神经元的数目将每种处理条件的数据标准化；并且

图10B提供根据本公开的一个实施方案的显示每种处理条件下的神经元百分比的柱状图。

具体实施方式

现在将详细参考实施方案，其实施例在附图中示出。在以下具体实施方式中，阐述了许多特定细节以提供对本公开的透彻理解。然而，对于本领域技术人员而言显而易见，可以在没有这些特定细节的情况下实践本公开。在其他情况下，没有详细描述众所周知的方法、过程、部件、电路和网络，以免不必要地混淆实施方案的各方面。

可以为本文中描述为单个实例的部件、操作或结构提供多个实例。最后，各种部件、操作和数据存储之间的边界在某种程度上是任意的，并且在特定说明性配置的上下文中说明了特定操作。设想了其他形式的功能，并且其可以落在一个或多个实施方式的范围内。通常，在示例性配置中作为单独部件呈现的结构和功能可以作为组合的结构或部件实现。类似地，作为单个部件呈现的结构和功能可以作为单独的部件实现。这些和其他变型、修改、添加和改进都落在所述一个或多个实施方式的范围内。

还应该理解，尽管在本文中可以使用术语“第一”、“第二”等来描述各种元件，但是这些元件不应受到这些术语的限制。这些术语仅用于将一个元件与另一元件区分开。例如，在不背离本发明的范围的情况下，第一数据集可以被称为第二数据集，并且类似地，第二数据集可以被称为第一数据集。第一数据集和第二数据集都是数据集，但它们不是同一数据集。

本文使用的术语仅用于描述特定实施方式的目的，而并非旨在限制权利要求。如实施方式和所附权利要求的描述中所用，除非上下文中另外明确指示，否则单数形式“一个”、“一种”和“所述”旨在同样包括复数形式。还应该理解，如本文所用的术语“和/或”是指并涵盖一个或多个相关联的所列项目的任何和所有可能的组合。还应该理解，当在本说明书中使用时，术语“包含”和/或“包括”指明存在所陈述的特征、整数、步骤、操作、元件和/或部件，但并不排除一个/种或多个/种其他特征、整数、步骤、操作、元件、部件和/或其组的存在或增加。

如本文所用，取决于上下文，术语“如果”可以被解释为意指“当所陈述的先决条件为真时”、或“在所陈述的先决条件为真时”、或者“响应于确定”、或“根据确定”、或“响应于检测”所陈述的先决条件为真。类似地，取决于上下文，短语“如果确定(所陈述的先决条件为真)”或“如果(所陈述的先决条件为真)”或“当(所陈述的先决条件为真)时”可以被解释为意指“在确定所陈述的先决条件为真时”、者“响应于确定所陈述的先决条件为真”、或“根据确定所陈述的先决条件为真”、或“在检测所陈述的先决条件为真”、或“响应于检测所陈述的先决条件为真”。

此外，当参考数字给出为“第i”表示时，所述参考数字是指通用部件、集合或实施方案。例如，称为“细胞组分i”的细胞组分是指多种细胞组分中的第i种细胞组分。

前述描述包括体现说明性实施方式的示例性系统、方法、技术、指令序列和计算机器程序产品。出于解释的目的，阐述了许多特定细节以提供对本发明主题的各种实施方式的理解。然而，对于本领域技术人员来说明显的是，可以在没有这些特定细节的情况下实践本发明主题的实施方式。通常，没有详细示出众所周知的指令实例、协议、结构和技术。

出于解释的目的，已经参考特定实施方式描述了前述描述。然而，下面的说明性讨论并非旨在为详尽的或将实施方式限制为所公开的精确形式。根据上述教导，许多修改或变化是可能的。选择并描述了实施方式以最佳地解释原理及其实际应用，从而使本领域的其他技术人员能够最佳地利用实施方式以及具有适于预期的特定用途的各种修改的各种实施方式。

为了清楚起见，没有示出和描述本文所述的实施方式的所有常规特征。应该理解，在任何这样的实际实施方式的开发中，做出许多实施方式特定的决定，以实现设计者的特定目标，诸如遵守与用例相关和与商业相关的约束，并且这些特定目标随实施方式和设计者不同而不同。此外，应该理解，这样的设计工作可能是复杂且耗时的，但是对于受益于本公开的领域的技术人员而言，这仍然是常规的工程工作。

此描述的某些部分在对信息的操作的算法和符号表示方面描述本发明的实施方案。这些算法描述和表示通常由数据处理领域的技术人员使用，以向本领域的其他技术人员有效地传达他们工作的实质。虽然在功能上、计算上或逻辑上描述了这些操作，但是应当理解这些操作是通过计算机程序或等效电路、微码等来实现的。

本说明书中使用的语言主要是出于可读性和指导性目的而选择的，并且可能没有被选择来描绘或限制本发明主题。因此，意图是本发明的范围不受此具体实施方式限制，而是受对基于其的应用提出的任何权利要求限制。因此，本发明的实施方案的公开旨在说明而不是限制本发明的范围。

通常，权利要求和说明书中使用的术语旨在解释为具有本领域普通技术人员所理解的普通含义。以下定义了某些术语以提供额外的清楚性。如果普通含义与提供的定义冲突，则使用提供的定义。

本文中未直接定义的任何术语应被理解为具有与本发明的领域内对它们的理解通常相关联的含义。本文讨论了某些术语以在描述本发明各方面的组合物、装置、方法等以及如何制造或使用它们的方面向从业者提供额外指导。应该理解，可以以多于一种的方式来陈述同一事物。因此，可以对于本文讨论的术语中的任一个或多个使用替代语言和同义词。是否在本文阐述或讨论了术语并不重要。提供了一些同义词或可替代的方法、材料等。除非明确陈述，否则一个或几个同义词或等效词的列述并不排除使用其他同义词或等效词。使用实例(包括术语的实例)仅出于说明的目的，并且不限制本文中本发明各方面的范围和含义。

如本文所用，关于细胞的术语“扰动”(例如，细胞的扰动或细胞扰动)是指用一种或多种化合物对细胞的任何处理。这些化合物可以被称为“扰动原(perturbagen)”。在一些实施方案中，扰动原可以包括例如小分子、生物制品、蛋白质、与小分子组合的蛋白质、ADC、核酸(诸如siRNA或干扰RNA)、过表达野生型和/或突变体shRNA的cDNA、过表达野生型和/或突变体指导RNA的cDNA(例如Cas9系统或其他基因编辑系统)或任何前述的任何组合。

如本文所用，关于细胞的术语“祖”(例如祖细胞)是指能够从一种细胞状态转变为至少一种其他细胞状态的任何细胞。

如本文所用，关于针对一个细胞或多个细胞的细胞组分表达测量的术语“数据集”在一些上下文中可以指从单细胞收集的高维数据集(例如，单细胞细胞组分表达数据集)。在其他上下文中，术语“数据集”可以指多个从单细胞收集的高维数据集(例如，多个单细胞细胞组分表达数据集)，所述多个数据集中的每个数据集是从多个细胞中的一个细胞收集的。

如本文所用，术语“影响”是指细胞转变的变化。

I.示例性系统实施方案

由于已经提供了本公开的一些方面的概述和在本公开中使用的一些定义，所以结合图1描述了示例性系统的细节。

图1提供示出根据本公开的一些实施方案的系统100的方框图。系统100提供扰动是否将影响细胞转变的预测。在图1中，系统100被图示出为计算装置。当然，计算机系统100的其他拓扑结构也是可能的。例如，在一些实施方案中，系统100实际上可以构成在网络中链接在一起的几个计算机系统，或者可以是云计算环境中的虚拟机或容器。因此，图1中所示的示例性拓扑结构仅用于以本领域技术人员将容易理解的方式描述本公开的一个实施方案的特征。

参见图1，在一些实施方案中，计算机系统100(例如，计算装置)包括网络接口104。在一些实施方案中，网络接口104通过一个或多个通信网络(例如，通过网络通信模块118)将系统内的系统100计算装置彼此以及任选的外部系统和装置互连。在一些实施方案中，网络接口104任选地经由因特网、一个或多个局域网(LAN)、一个或多个广域网(WAN)、其他类型的网络或这样的网络的组合来通过网络通信模块118提供通信。

网络的实例包括万维网(WWW)、内联网和/或无线网络，诸如蜂窝电话网、无线局域网(LAN)和/或城域网(MAN)以及通过无线通信的其他装置。无线通信任选地使用多个通信标准、协议和技术中的任一种，包括全球移动通信系统(GSM)、增强型数据GSM环境(EDGE)、高速下行分组接入(HSDPA)、高速上行分组接入(HSUPA)、Evolution Data-Only(EV-DO)、HSPA、HSPA+、Dual-Cell HSPA(DC-HSPDA)、长期演进(LTE)、近场通信(NFC)、宽带码分多址(W-CDMA)、码分多址(CDMA)、时分多址(TDMA)、蓝牙、无线保真(Wi-Fi)(例如，IEEE802.11a、IEEE 802.11ac、IEEE 802.11ax、IEEE 802.11b、IEEE 802.11g和/或IEEE802.11n)、因特网协议语音(voice over Internet Protocol；VoIP)、Wi-MAX、电子邮件协议(例如，因特网报文访问协议(Internet message access protocol；IMAP)和/或邮局协议(post office protocol；POP))、即时消息收发(instant messaging)(例如，可扩展消息收发与存在协议(extensible messaging and presence protocol；XMPP)、针对即时消息收发和出席扩展的会话发起协议(Session Initiation Protocol for InstantMessaging and Presence Leveraging Extensions；SIMPLE)、即时消息收发和呈现服务(Instant Messaging and Presence Service；IMPS)和/或短消息服务(Short MessageService；SMS))或者任何其他合适的通信协议，包括到本文件的提交日为止尚未开发的通信协议。

在一些实施方案中，系统100包括一个或多个处理单元(CPU)102(例如，处理器、处理核心等)、一个或多个网络接口104、供用户使用的包括(任选地)显示器108和输入系统110(例如，输入/输出接口、键盘、鼠标等)的用户接口107、存储器(例如，非持久性存储器111、持久性存储器112)以及用于互连前述部件的一个或多个通信总线114。所述一个或多个通信总线114任选地包括互连并控制系统部件之间的通信的电路(有时称为芯片组)。非持久性存储器111通常包括高速随机存取存储器，诸如DRAM、SRAM、DDR RAM、ROM、EEPROM、闪存，而持久性存储器112通常包括CD-ROM、数字通用光盘(DVD)或其他光学存储设备、磁带盒(magnetic cassette)、磁带、磁盘存储设备或其他磁存储装置、磁盘存储装置、光盘存储装置、闪存装置或其他非易失性固态存储装置。持久性存储器112任选地包括远离一个或多个CPU 102定位的一个或多个存储装置。持久性存储器112和非持久性存储器112内的一个或多个非易失性存储器装置包括非暂时性计算机可读存储介质。在一些实施方案中，非持久性存储器111或替代地非暂时性计算机可读存储介质有时结合持久性存储器112存储以下程序、模块和数据结构或其子集：

·任选的操作系统116(例如，ANDROID、iOS、DARWIN、RTXC、LINUX、UNIX、OS X、WINDOWS或诸如VxWorks的嵌入式操作系统)，其包括用于处理各种基本系统服务和用于执行依赖于硬件的任务的过程；

·任选的网络通信模块(或指令)118，其用于将系统100与其他装置和/或通信网络104连接；

·数据集存储区120，其存储多个数据集122，每个数据集包括一个或多个识别符(例如，样本识别符124和/或细胞/数据集识别符126)、相关联的时间段128以及包括一种或多种细胞组分132的细胞组分向量130；以及

·特征存储区140，其存储一个或多个单细胞转变特征142和一个或多个扰动特征150。

如上所述，数据集存储区120包括多个数据集120。每个数据集是从细胞群(例如，相应样本)的单细胞测量(例如，图3的单细胞测量310)获得(例如，收集、通信等)的。与每个数据集122相关联的样本识别符(ID)124指示细胞的数据集来自哪个样本。细胞/数据集识别符126指示数据集122与哪个细胞和/或多个数据集(例如，数据集的子集)相关联和/或细胞的状态。在一些实施方案中，时间段128与数据集122的捕获时间段(例如，当在细胞生长期间时，诸如当细胞被最初培养时的第一时间段t₀，当进行细胞表达的测量时的第二时间段t₁等)相关联。

此外，在一些实施方案中，每个数据集120包括细胞组分向量130，其包括一种或多种细胞组分132。在一些实施方案中，所述一种或多种细胞组分132包括细胞的所有细胞组分或细胞的这些细胞组分的子集。每种细胞组分132代表与测量(例如，图3的单细胞测量310)相关的数据的维度。通常，数据集122包括高(例如，大于3、大于5、大于10、大于100等)维数，其包括大量数据。此外，在一些实施方案中，每个数据集122自多个细胞中的细胞(例如，自样本)获得，所述多个细胞已经从“祖”细胞类型转变(例如，从第一状态转变到改变的状态)。

在一些实施方案中，系统包括存储一个或多个单细胞转变特征142和一个或多个扰动特征150的特征存储区140。在一些实施方案中，所述一个或多个单细胞转变特征142包括一个或多个预定特征(例如，训练特征)。在一些实施方案中，所述一个或多个单细胞转变特征142包括由系统100确定和/或存储在系统内以供将来使用的单细胞转变特征。每个单细胞转变特征142包括细胞组分识别144，所述细胞组分识别144还包括多种细胞组分(例如，图1的细胞组分132-1-1至132-1-D)。此外，与单细胞转变特征142相关联的每个细胞组分132包括对应的显著得分134。在一些实施方案中，对数据集122执行降维(例如，图3的降维320)，其生成(例如，存储在图1的降维分量存储区146-1内和/或生成图3的矩阵M)多个降维分量148(例如，图1的降维分量148-1-1至降维分量148-1-F)。因此，在一些实施方案中，系统100执行降维(例如，图3的降维320)以生成多个降维分量148(例如，生成图3的矩阵M)，从而保留数据集122的细胞组分132中存在的潜在模式。在一些实施方案中，这种降维的输出(例如，图1的降维分量148-1-1至148-1-F)是矩阵(例如，如下文所提到的矩阵M)，所述矩阵以压缩形式编码数据集122，同时还维持数据集的基础潜在结构。

在一些实施方案中，特征转变存储区包括流形149。在一些实施方案中，这种流形149与单细胞转变特征142的对应降维分量148相关联。这种流行149是通过用与所述流形相关联的数据集122(例如，与单细胞转变特征142相关联的数据集122)的细胞组分向量130执行流形学习来识别的。

特征存储区140还包括与对应扰动相关联的一个或多个扰动特征150。每个扰动特征包括细胞组分识别152，所述细胞组分识别152包括多种细胞组分(例如，图1的细胞组分132-1-1至132-1-H)。在一些实施方案中，细胞组分识别152的细胞组分包括与对应的单细胞转变特征144相关联的一些或全部细胞组分(例如，扰动特征150-1的细胞组分识别152包括图1的单细胞转变特征142-1的细胞组分识别144的子集)。此外，扰动特征150的每个细胞组分包括对应的显著得分134。

在各种实施方案中，一个或多个以上识别的元素被存储在一个或多个前述存储器装置中，并且对应于用于执行上述功能的指令集。以上识别的模块、数据或程序(例如，指令集)不需要作为单独的软件程序、过程、数据集或模块实施，并且因此这些模块和数据的各种子集可以在各种实施方式中组合或以其他方式重新布置。在一些实施方案中，非持久性存储器111任选地存储以上识别的模块和数据结构的子集。此外，在一些实施方案中，存储器存储以上未描述的额外模块和数据结构。在一些实施方案中，一个或多个以上识别的元素存储在计算机系统中，而不是系统100的计算机系统中，所述计算机系统可由系统100寻址，使得系统100可以在需要时检索这些数据的全部或一部分。

尽管图1描绘“系统100”，但是所述图更多地旨在作为可以存在于计算机系统中的各种特征的功能描述而不是作为本文描述的实施方式的结构示意图。在实践中，并且如本领域普通技术人员所认识到的，可以将单独示出的项目组合，并且可以将一些项目分离。此外，尽管图1描绘非持久性存储器111中的某些数据和模块，但是这些数据和模块中的一些或全部可以替代地存储在持久性存储器112中或多于一个存储器中。例如，在一些实施方案中，至少数据集存储区120存储在可以是基于云的基础设施的一部分的远程存储装置中。在一些实施方案中，至少数据集存储区120存储在基于云的基础设施上。在一些实施方案中，数据集存储区120和特征存储区140也可以存储在一个或多个远程存储装置中。

虽然已经参考图1公开了根据本公开的系统，但是现在参考图2详细描述根据本公开的方法200。

方框202.参见图2的方框202，所述方法包括访问(例如，以电子形式)单细胞转变特征(例如，图1的单细胞转变特征142-1)。单细胞转变特征142代表第一细胞状态与改变的细胞状态之间的差异细胞组分表达的量度。改变的细胞状态通过从第一细胞状态到改变的细胞状态的细胞转变而发生。单细胞转变特征142包括多种细胞组分的识别(例如，图1的细胞组分识别144-1)。对于所述多种细胞组分中的每种相应细胞组分(例如，图1的细胞组分132-1-1至细胞组分132-1-D)，对应的第一显著得分(例如，显著得分134-1-1)量化在相应细胞组分的表达变化与第一细胞状态与改变的细胞状态之间的细胞状态的变化之间的关联。

在一些实施方案中，访问单细胞转变特征包括确定单细胞转变特征142。这种确定基于第一多个第一单细胞细胞组分表达数据集(例如，数据集122-1、数据集122-2和数据集122-3)和第二多个第二单细胞细胞组分表达数据集(例如，数据集122-4、数据集122-5和数据集122-6)。第一多个第一单细胞细胞组分表达数据集中的每个相应第一单细胞细胞组分表达数据集122自处于第一细胞状态的第一多个细胞的对应单细胞(例如，图3的单细胞测量310)获得。此外，第二多个第二单细胞细胞组分表达数据集中的每个相应第二单细胞细胞组分表达数据集自处于改变的细胞状态的第二多个细胞的对应单细胞(例如，图3的单细胞测量310)获得。

在一些实施方案中，确定单细胞转变特征包括确定跨所述多种细胞组分132的细胞组分量的差异。这种差异是在第一多个第一单细胞细胞组分表达数据集与第二多个第二单细胞细胞组分表达数据集之间的差异。在一些实施方案中，所述差异使用均值差检验、Wilcoxon秩和检验、t检验、逻辑回归或广义线性模型中的一种来确定。

在一些实施方案中，第一多个单细胞细胞组分表达数据集的每个相应数据集122包括第一多个细胞组分向量中的对应细胞组分向量(例如，图1的数据集122-1的细胞组分向量130-1)。此外，第二多个单细胞细胞组分表达数据集的每个相应数据集包括第二多个细胞组分向量中的对应细胞组分向量(例如，数据集122-2的细胞组分向量130-2)。第一多个细胞组分向量和第二多个细胞组分向量中的每个相应细胞组分向量包括多个元素。相应细胞组分向量130中的每个相应元素与所述多种细胞组分中的对应细胞组分132相关联，并且包括代表对应单细胞的对应细胞组分的量的对应值，所述对应单细胞由第一多个单细胞细胞组分表达数据集和第二多个单细胞细胞组分表达数据集的相应数据集(例如，表2的细胞组分和值)代表。

此外，在一些实施方案中，细胞组分132包括多个基因。另外，在一些实施方案中，一个或多个数据集122使用包括单细胞核糖核酸(RNA)测序(scRNA-seq)、scTag-seq、使用测序的转座酶可接近性染色质的单细胞测定(scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq及其任何组合的方法(例如，表1的方法)生成。

方框204.参见方框204，所述方法还包括访问(例如，以电子形式)扰动特征(例如，图1的扰动特征150-1)。扰动特征150代表多个未受扰细胞与多个暴露于扰动的受扰细胞之间的差异细胞组分表达的量度。扰动特征150包括所述多种细胞组分的全部或一部分的识别(例如，图1的细胞组分识别152-1)。对于所述多种细胞组分的全部或部分中的每种相应细胞组分(例如，图1的细胞组分132-3-1至细胞组分132-3-D)，对应的第二显著得分(例如，图1的显著得分134)量化在所述多个未受扰细胞与所述多个受扰细胞之间的相应细胞组分的表达变化与所述多个未受扰细胞与所述多个受扰细胞之间的细胞状态的变化之间的关联。

在一些实施方案中，方法200包括对第一多个单细胞细胞组分表达数据集和/或第二多个单细胞细胞组分表达数据集122执行降维(例如，图3的降维320)。这种降维生成多个降维分量(例如，图1的降维分量148)。在一些实施方案中，降维是主成分算法、随机投影算法、独立成分分析算法或特征选择方法、因子分析算法、Sammon映射、曲线成分分析(curvilinear components analysis)、随机近邻嵌入(stochastic neighbor embedding；SNE)算法、Isomap算法、最大方差展开算法、局部线性嵌入算法、t-SNE算法、非负矩阵分解算法、核主成分分析算法、基于图形的核主成分分析算法、线性判别分析算法、广义判别分析算法、统一流形逼近与投影(UMAP)算法、LargeVis算法、Laplacian Eigenmap算法或Fisher氏线性判别分析算法。参见，例如Fodor,2002,“A survey of dimension reductiontechniques,”Center for Applied Scientific Computing,Lawrence LivermoreNational,Technical Report UCRL-ID-148494；Cunningham,2007,“DimensionReduction,”University College Dublin,Technical Report UCD-CSI-2007-7；Zahorian等，2011,“Nonlinear Dimensionality Reduction Methods for Use with AutomaticSpeech Recognition,”Speech Technologies.doi:10.5772/16863.ISBN 978-953-307-996-7；和Lakshmi等，2016,“2016IEEE 6th International Conference on AdvancedComputing(IACC),”第31–34页.doi:10.1109/IACC.2016.16,ISBN 978-1-4673-8286-1，其各自以引用的方式并入本文。因此，在一些实施方案中，降维是主成分分析(PCA)算法，并且每个相应提取的降维分量包括由PCA导出的相应主成分。在这样的实施方案中，所述多个主成分中主成分的数目可以受限于由PCA算法计算的主成分的阈值数目。主成分的阈值数目可以是例如5、10、20、50、100、1000、1500或任何其他数目。在一些实施方案中，由PCA算法计算的每个主成分由PCA算法分配特征值，并且第一多个提取的特征的对应子集受限于分配最高特征值的主成分的阈值数目。对于第一多个细胞组分向量和第二多个细胞组分向量130中的每个相应细胞组分向量，将所述多个降维分量应用于相应细胞组分向量以形成对应的降维向量，所述对应的降维向量包括所述多个降维分量中的每个相应降维分量的降维分量值(例如，形成图3的矩阵M)。这形成了对应的第一多个降维向量和第二多个降维向量。此外，在一些实施方案中，所述方法包括执行聚类以生成聚类Cj的集(例如，图3的聚类340)。每个聚类包括与所述第一多个降维向量和所述第二多个降维向量的子集相对应的多个点。来自聚类Cj的集的第一聚类的第一多个细胞和来自聚类Cj的集的第二聚类的第二多个细胞都被识别。

在一些实施方案中，方法200包括用对应的第一多个降维向量和第二多个降维向量130执行流形学习(例如，图3的流形学习330)。这种流形学习识别第一多个细胞和第二多个细胞中的每个细胞相对于每个其他细胞的相对细胞状态(例如，生成图3的矩阵N)。对于流形学习，参见，例如Wang等，2004,“Adaptive Manifold Learning,”Advances in NeuralInformation Processing Systems 17中，其以引用的形式并入本文。

在一些实施方案中，所述多个未受扰细胞是对照细胞(例如，未暴露于扰动的细胞)。此外，在一些实施方案中，未受扰细胞是对已经暴露于扰动的不相关受扰细胞取的平均值。

在一些实施方案中，所述方法包括对单细胞转变特征和/或扰动特征进行剪枝。这种剪枝限制了所述多种细胞组分132(例如，将细胞组分限于转录因子)。

在一些实施方案中，差异细胞组分表达的量度(例如，图3的差异表达的细胞组分350)量化第三多个第三单细胞细胞组分表达数据集与第四多个第四单细胞细胞组分表达数据集之间的细胞组分量的差异。类似地，在一些实施方案中，这种差异使用均值差检验、Wilcoxon秩和检验、t检验、逻辑回归或广义线性模型中的一种来确定。此外，所述第三多个第三单细胞细胞组分表达数据集中的每个相应第三单细胞细胞组分表达数据集122自所述多个未受扰细胞中的对应单细胞获得。此外，所述第四多个第四单细胞细胞组分表达数据集中的每个相应第四单细胞细胞组分表达数据集自暴露于扰动的所述多个受扰细胞中的第四多个细胞的对应单细胞获得。

在一些实施方案中，对于所述多种细胞组分中的每种相应细胞组分，确定相应细胞组分的对应第二显著得分包括用相应细胞组分的对应匹配得分替换相应细胞组分的显著得分(例如，用图1的显著得分134-d-E替换与细胞组分132-1-1相关联的显著得分134-1-1)。在一些实施方案中，这种替换形成匹配得分。将所述多种细胞组分的匹配得分组合以生成扰动的匹配得分。因此，基于相应扰动的匹配得分确定了扰动是否与细胞在第一细胞状态与改变的细胞状态之间的转变相关联(例如，是否影响细胞转变)。在一些实施方案中，匹配得分包括离散得分或连续得分。

在一些实施方案中，替换得分134包括如果相应细胞组分的来自单细胞转变特征142的细胞组分量132和相应细胞组分的来自扰动特征150的细胞组分量132都被上调，则用第一得分替换显著得分。这种替换还包括如果相应细胞组分的来自单细胞转变特征142的细胞组分量被上调，且相应细胞组分的来自扰动特征150的细胞组分量被下调，则用第二得分替换显著得分132。此外，如果相应细胞组分的来自扰动特征150的细胞组分量未被显著上调或下调，则用第三得分替换显著得分。

方框206.参见方框206，方法200包括将单细胞转变特征142-1与扰动特征150-1进行比较。这种比较确定扰动是否将影响细胞转变。

在一些实施方案中，方法200包括对单细胞转变特征142和/或扰动特征150进行过滤。这种过滤减少单细胞转变特征142和扰动特征150中所包括的细胞组分132的数目，这有助于减少特征的数据量和进行方法200(例如，进行图3的后处理360)所需的时间量。

在一些实施方案中，方法200包括基于比较206(例如，基于图3的后处理360)将扰动识别为促进改变的细胞状态的扰动。在一些实施方案中，使用不同类型的细胞组分生成单细胞转变特征142和/或扰动特征150。类似地，在一些实施方案中，使用相同类型的细胞组分生成单细胞转变特征142和/或扰动特征150。

II.体外培养细胞以执行单细胞分析的方法

在实施本文所述的用于识别细胞命运的原因的技术时，生成自单细胞获得的关于细胞组分测量的数据集是有用的。为了生成生这些数据集(例如，经由图3的单细胞测量310生成图1的数据集122-1)，体外培养了感兴趣的细胞群。在培养期间的一个或多个时间段执行对一种或多种感兴趣的细胞组分132的单细胞测量以生成数据集122。(例如，图3的单细胞测量310)。在一些实施方案中，感兴趣的细胞组分包括：核酸，包括DNA、修饰的(例如甲基化的)DNA；RNA，包括编码(例如，mRNA)或非编码(例如，sncRNA)RNA；蛋白质，包括转录后修饰的蛋白质(例如，磷酸化、糖基化、肉豆蔻酸化等的蛋白质)；脂质；碳水化合物；核苷酸(例如，三磷酸腺苷(ATP)、二磷酸腺苷(ADP)和单磷酸腺苷(AMP))，包括环状核苷酸，诸如环状单磷酸腺苷(cAMP)和环状单磷酸鸟苷(cGMP)；其他小分子细胞组分，诸如烟酰胺腺嘌呤二核苷酸的氧化和还原形式(NADP/NADPH)；及其任何组合。在一些实施方案中，细胞组分测量包括基因表达测量，诸如RNA水平。

许多单细胞细胞组分表达测量技术中的任何一种都可以用于收集数据集122(例如，表1的技术、图1的单细胞测量310的技术等)。实例包括但不限于单细胞核糖核酸(RNA)测序(scRNA-seq)、scTag-seq、使用测序的转座酶可接近性染色质的单细胞测定(scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq等。可以基于待测量的所需细胞组分选择细胞组分表达测量。例如，scRNA-seq、scTag-seq和miRNA-seq测量RNA表达。具体地，scRNA-seq测量RNA转录物的表达，scTag-seq实现罕见mRNA种类的检测，并且miRNA-seq测量微小RNA的表达。CyTOF/SCoP和E-MS/Abseq测量细胞中的蛋白质表达。CITE-seq同时测量细胞中的基因表达和蛋白质表达两者，并且scATAC-seq测量细胞中的染色质构象。以下表1提供用于执行上述每个单细胞细胞组分表达测量技术的示例性方案的链接。

表1-示例性测量方案

所用的细胞组分表达测量技术可能导致细胞死亡。替代地，可以通过从活细胞中提取，例如通过提取细胞质而不杀死细胞来测量细胞组分。具有这种多样性的技术允许在多个不同的时间点测量同一细胞。

如果细胞群是异质的，使得源自同一“祖”细胞的多种不同细胞类型存在于群体中，则单细胞细胞组分表达测量可以在细胞在培养物中生长的单个时间点或相对少的时间点执行。由于细胞群的异质性，所收集的数据集122将代表沿着转变轨迹的各种类型的细胞。

如果细胞群是大致上同质的，使得仅有单一或相对较少的细胞类型，主要是感兴趣的“祖”细胞，存在于群体中，则单细胞细胞组分表达测量可以在细胞转变的一段时间内执行多次。

为每个细胞并且在每个时间段(例如，图1的时间段128)适用的情况下生成单独的单细胞细胞组分表达数据集122。在多个不同时间点从细胞群收集单细胞细胞组分表达测量结果可以共同地解释为源自同一“祖”细胞的细胞类型随时间的细胞表达的“伪时间”表示。术语伪时间用于两个方面：第一，细胞之间细胞状态转变未必相同，并且因此细胞群提供所述“祖”类型的细胞可能随时间而经历的转变过程的分布；以及第二，在多个时间点的那些多个细胞表达的细胞组分表达测量模拟随时间的可能的转变行为，即使不同细胞的细胞组分表达测量产生数据集。作为有意简化的实例，即使细胞X给出时间点A的数据集，且细胞Y给出时间点B的数据集，但这两个数据集一起代表时间点A与时间点B之间的转变的伪时间。

为了便于描述，在两个不同的时间段(例如，第一数据集122-1的第一时间段128-1、第二数据集122-2的第二时间段128-2等)对于“同一”细胞捕获的两个这样的数据集122(假设使用如上介绍的不杀死细胞的技术)在本文中被称为不同的“细胞”(和对应的不同数据集)，因为在实践中这样的细胞将经常彼此是略微或显著转变的，在一些情况下具有如从各种细胞组分的相对量确定的完全不同的细胞类型。从上下文来看，在不同时间点的单细胞的这两次测量可以被解释为用于分析目的的不同细胞，因为细胞本身已经改变。

注意，本文描述的通过细胞(例如，图1的细胞/数据集识别符126)/时间段(例如，图1的时间段128)进行数据集的分离是为了描述清楚，在实践中，这些数据集可以存储在计算机存储器中，并且可以作为一个或多个聚集数据集(例如，按细胞在所有时间段内、一次对所有细胞和时间段)进行逻辑操作。

在一些实施方案中，收集感兴趣的“祖”细胞已从其基线状态被扰动的数据集122是有用的。这样做有许多可能的原因，例如敲除(例如，去除、废除等)一种或多种细胞组分，评价健康细胞状态与患病细胞状态之间的差异等。在这些实施方案中，方法还可以包括向细胞引入所需修饰的步骤。例如，可以向细胞引入一种或多种扰动，可以引入被设计用于敲除一种或多种细胞组分的定制病毒，可以使用CRISPR来编辑细胞组分，等。可以使用的技术的实例包括但不限于RNA干扰(RNAi)、转录激活因子样效应物核酸酶(TALEN)或锌指核酸酶(ZFN)。

取决于施加扰动的方式，不是所有的细胞都将以相同的方式被扰动。例如，如果引入病毒以敲除特定基因，则所述病毒可能不影响群体中的所有细胞。更通常地，所述性质可有利地用于评价许多不同扰动对于单一群体的影响。例如，可以引入大量定制病毒，其中每种执行不同的扰动，诸如导致不同的基因被敲除。病毒将不同地感染各种细胞的一些子集，敲除感兴趣的基因。然后，可以使用单细胞测序或另一技术来识别哪些病毒影响哪些细胞。然后可以评价所得不同单细胞测序数据集以根据本说明书在其他地方描述的方法来识别基因敲除对基因表达的影响。

可以类似地执行其他类型的多扰动细胞修饰，诸如引入多种不同的扰动、条形码化CRISPR等。此外，可以将多于一种类型的扰动引入待分析的细胞群中。例如，细胞可能受到不同的影响(例如，引入的不同病毒)，并且不同的扰动可能被引入不同的细胞亚群中。

另外，细胞群的不同子集可以以不同方式扰动，而不是简单地混合许多扰动和事后评价哪些细胞受哪些扰动影响。例如，如果细胞群被以物理方式分到多孔板的不同孔中，则可以对每个孔施加不同的扰动。对不同细胞实现不同扰动的其他方式也是可能的。

下面，使用单细胞基因表达测量来例示方法。应该理解，这是说明性的而不是限制性的，因为本发明涵盖使用自单细胞获得的其他细胞组分的测量的类似方法。还应该理解，本发明涵盖使用直接从由实践本公开中所述方法的个体或组织进行的实验工作获得的测量的方法，以及使用间接例如从由其他人进行以及通过任何手段或机构得到的实验工作的结果的报告(包括第三方出版物、数据库、由承包方进行的测定或可用于实践所公开方法的合适输入数据的其他来源中报告的数据)获得的测量的方法。

如本文所讨论，细胞中的基因表达可以通过对细胞进行测序然后对测序期间识别的每个基因转录物的量进行计数来测量。在一些实施方案中，测序和量化的基因转录物可以包括RNA，例如mRNA。在替代实施方案中，测序和量化的基因转录物可以包括mRNA的下游产物，例如蛋白质，诸如转录因子。通常，如本文所用，术语“基因转录物”可以用于表示基因转录或翻译(包括翻译后修饰)的任何下游产物，并且“基因表达”可以用于通常指基因转录物的任何量度。

尽管本说明书的其余部分集中于基因转录物和基因表达的分析，但本文所述的所有技术同样适用于在单细胞基础上获得关于那些细胞的数据的任何技术。实例包括单细胞蛋白质组学(蛋白质表达)、染色质构象(染色质状态)、甲基化或其他可量化的表观遗传效应。

以下描述提供体外培养细胞群以在多个时间段(例如，图1的多个时间段128)内进行单细胞细胞组分表达测量(例如，图3的测量310)的示例性一般描述。通常，用于体外培养细胞的方法是本领域技术人员已知的。本领域技术人员还应理解如何修改所述方法以生长更长或更短的时间段，进行额外的或更少的单细胞测量步骤等。

在一个实施方案中，用于将处于第一细胞状态的细胞培养成处于改变的细胞状态的细胞的方法包括以下步骤中的一个或多个：

第0天：将许多处于第一细胞状态的细胞解冻到板上适于细胞生长的培养基中。

第1天：将一定数量的处于第一细胞状态的细胞接种到多孔板中。如果适用的话，则执行额外的步骤以影响细胞的细胞组分。例如，用一种或多种病毒同时感染以敲除感兴趣的细胞组分。

对孔中的细胞执行细胞组分表达测量迭代t₁。

第1+l天：如果执行任何额外的处理，则根据需要改变培养基。

如果适用的话，则对孔中的细胞执行细胞组分表达测量迭代t_l。

第1+m天：将培养基改变为适于支持处于改变的细胞状态的细胞生长的培养基。

如果适用的话，则对孔中的细胞执行细胞组分表达测量迭代t_m。

第1+n、o、p等天：根据需要改变培养基以支持从第一细胞状态到改变的细胞状态的进一步细胞状态转变。如果适用的话，则执行额外的步骤以实现从第一细胞状态到改变的细胞状态的进一步转变。例如，添加感兴趣的扰动以将细胞推向改变的细胞状态。

如果适用的话，则对孔中的细胞执行细胞组分表达测量迭代t_n、t_o、t_p等。

第q天：对孔中处于改变的细胞状态的细胞执行细胞组分表达测量迭代t_q。

固定板，并用与感兴趣的细胞组分/蛋白质匹配的抗体染色，以分选/识别细胞，而不裂解/破坏待测量的这些细胞。其还可以用于识别在细胞质环境中可能无法以同样高的分辨率看到的表面标记物。通过扫描每个孔用细胞成像系统如Molecular Devices HCIIXM4成像。量化每个孔中处于所需的改变的细胞状态的细胞的数目。

表2示出多个数据集122的片段，包括可从在一个或多个时间点细胞群的单细胞表达测量(例如，图3的单细胞测量310)收集的示例性数据。样本ID列指示细胞的数据来自哪个样本(例如，图1的样本识别符124-1)。在实践中，群体中的细胞可以取自多于一个样本(例如，第一样本识别符124-1、第二样本识别符124-2等)，其中的每一个可以来源于相同或不同的受试者。细胞或数据集列指示给定行的数据与哪个细胞或数据集相关联(例如，图1的细胞/数据集识别符126-1)。数据集122可以替代地表示为数据的向量r_i(例如，图1的细胞组分向量130-1)。时间段列指示在细胞的生长期间何时捕获所述行的数据集(如果相关的话)(例如，图1的时间段128-1)。

表2的其余列对应于细胞的感兴趣的细胞组分(细胞组分132-1-1至132-1-B)。这可以是细胞的所有细胞组分，或者仅仅是子集。每种细胞组分132与不同的列相关联。如果数据集被表示为向量r_i，则每种细胞组分对应于向量中的条目i。在一些实施方案中，每个细胞的值可以是如通过单细胞表达测量的细胞组分数目的(整数)计数或其一些标准化(有理数)形式。

表2-示例性数据集

III.分析单细胞数据集以确定细胞组分的差异表达的方法

III.A.概述

细胞状态转变(即，细胞状态从第一细胞状态向改变的细胞状态的转变)由细胞中细胞组分132的表达的变化来标记。例如，转变可以通过细胞中细胞组分表达132的变化来标记，并因此通过细胞产生的细胞组分(例如，mRNA、转录因子)的身份和量来标记。然而，至少目前，由于细胞内活性的复杂性，细胞状态转变不是完全确定的。为了尝试洞察这种复杂性，此描述在以下理论下将统计技术应用于量化细胞群的细胞中的细胞组分132的单细胞数据集122：在细胞状态转变的不同阶段，与一种或多种所测量的感兴趣的细胞组分的不同的存在、不存在或量相关联的不同的细胞组分表达提供可以从中提取有意义的知识的高维数据集(例如，图1的细胞组分向量130)。这里，数据的高维数源自包含在数据集122中的每种细胞组分测量。每种细胞组分132代表一个维度，并且每种细胞组分的细胞组分测量数据集122可以共同具有编码关于“祖”细胞向不同细胞类型转变的生物过程的潜在信息的形状。在实践中，细胞组分132的数目可以是大约数千至数万，使得本文描述的计算即使不是不可能的，那在精神上或手动执行也是不切实际的。

通常，这些统计技术可以表征为如下方法，在所述方法中，将高维数据压缩到较低维空间，同时保持在数据集中编码的任何潜在信息的形状(例如，图1的细胞组分向量130降维320成图3的矩阵M)。评价低维数据以识别在细胞状态转变的不同阶段之间差异存在的细胞组分。由于所述方法的输入数据是在每个细胞基础上多个感兴趣的细胞组分的单细胞细胞组分表达数据集122，差异表达的细胞组分的集因此代表哪些细胞组分相对于细胞的其他细胞组分在存在、不存在或量方面具有统计学上显著的过度表示或表示不足。许多方法和度量中的任一种可以用于识别那些细胞组分中的哪些相对于其他细胞组分充分地“差异”表达，以便根据此描述被标记为“差异表达”。由于可以获得数据集122的细胞群包括不同类型和不同转变阶段的细胞，所以知道哪些细胞组分差异存在(例如，哪些细胞组分差异表达)提供对哪些细胞组分影响在转变或其他转变的过程中具有活性的细胞组分的表达或与之相关的洞察。

III.B.用例

无论使用哪类方法，差异表达的细胞组分的确定都可以根据所寻求的结果而变化。例如，如果所用的方法将特定细胞识别为谱系内或谱系外，则可以通过比较确定为谱系内的细胞的细胞组分的表达水平和确定为谱系外细胞的细胞组分的表达水平来执行哪些细胞组分差异表达的确定。这些细胞组分的相对表达指示哪些细胞组分单独或组合地在一种类型或另一种类型的细胞中是有活性的。如上所述，所述表达数据可以用于识别待标记为差异表达的细胞组分子集。然后可以通过体外敲除识别的细胞组分并评价实验细胞群的细胞命运是否受细胞组分具有活性的变化影响来确定因果关系。

作为另一实例，如果所用的方法将特定细胞识别为谱系内，而将其他细胞识别为沿着向谱系内细胞类型的转变轨迹的“祖”细胞或中间细胞，则可以通过比较确定为谱系内的细胞的细胞组分的表达水平与确定为谱系内细胞的“祖”细胞和/或中间细胞的细胞的细胞组分的表达水平来执行哪些细胞组分差异表达的确定。如前一段所述，这些细胞组分的相对表达指示哪些细胞组分单独或组合地在一种类型或另一类型的细胞中是有活性的，并且所述表达数据可以再次用于识别待标记为差异表达的细胞组分的子集。同样如上所述，然后可以通过体外敲除识别的细胞组分并评价实验细胞群的细胞命运是否受细胞组分具有活性的变化影响来确定因果关系。

作为另一实例，细胞群可以包括两个细胞亚群，一个健康亚群和一个不健康亚群。在细胞培养期间，可以将多种不同的扰动引入不健康亚群中。通过结合本文所述的方法的随后单细胞表达测量，可以确定扰动在不健康亚群中细胞组分的差异细胞组分表达方面具有什么影响，特别是与健康亚群相关的影响。例如，来自暴露于一种或多种扰动的不健康亚群的细胞的子集可以表现出与健康细胞亚群一致的细胞组分表达，指示扰动对不健康细胞亚群具有期望的影响。

III.C.使用低维数据确定差异表达的细胞组分

图3是根据一个实施方案的确定差异表达的细胞组分132的集合的差异细胞组分表达测定的第一实施例的流程图。注意图3提供使用差异细胞组分表达描述的一般情况的非限制性、说明性实施方案。在步骤310，如上面第II部分所讨论，执行单细胞表达测量以生成细胞群的多个数据集122。如上所述，每个细胞的每个数据集122可以表示为细胞组分的向量r_i(例如，图1的细胞组分向量130)，其包括l种细胞组分(例如，图1的细胞组分132-1-1至132-1-B)中的每一个的量。自单细胞表达测量310获得的数据集122通常以数字格式存储在计算装置(例如，图1的系统100)的持久性存储器(例如，图1的持久性存储器112)中，然而，它们可以根据需要加载到主动式存储器(例如，图1的非持久性存储器111)中，以便进行本文描述的剩余步骤。通常，图3的方法的剩余步骤由一个或多个计算装置(例如，图1的系统100)进行。参考图1讨论示例性计算装置，然而，在实践中，图3的方法可以包括可以在计算机外部进行的额外填隙或后续步骤，诸如基于本文描述的步骤的结果进行的额外体外检验或临床决策。

III.C.1.降维

如上所介绍，由于每种细胞组分132代表不同维度的数据，所以数据集122总体上具有高维数。在步骤320，由计算装置(例如，系统100)执行降维以降低数据的维数，同时保持数据集122的细胞组分132量中存在的任何潜在模式的结构。

降维步骤320的输入通常是矩阵，类似于上文表2，其连接个别细胞的表达向量(例如，图1的细胞组分向量130)。降维320的输出是矩阵，在本文中为了简单起见称为矩阵“M”，其以压缩形式编码原始数据，同时维持数据的基础潜在结构。矩阵M中的每一行与细胞中的特定一个相关联。矩阵M中的每一列与由降维提供的降维空间中的一个维度相关联。在每一行-列分组处的条目中的值基于原始输入数据集通过降维来确定。

在一些实施方案中，这些降维技术导致数据的一定的有损压缩，然而，所得输出矩阵M在计算存储大小上较小，并且因此需要较少的计算处理能力来与在所述方法的剩余步骤中讨论的其他下游技术一起分析，这使得在合理的时间内用当前时代的计算装置获得那些步骤的结果在计算上是可行的。

可以使用多种降维技术。实例包括但不限于主成分分析(PCA)、非负矩阵分解(NMF)、线性判别分析(LDA)、扩散映射或(神经)网络技术如自动编码器。

这些段落中提到的每一种技术不同地操作以提取变化的主要驱动并降低原始输入数据的维数，但每一种技术在较低维空间中输出矩阵M。

III.C.2.流形学习

相对于来自单细胞表达数据集122的原始高维数据，矩阵M中的减少的维数数据(例如，降维分量存储区146)在维数上显著降低。然而，所得矩阵M嵌入非线性流形(例如，图1的流形149)。在步骤330，将流形学习技术应用到矩阵M以提取所述流形。流形149本身不仅提供关于在伪时间内在细胞之间的差异细胞组分表达的有用信息，而且其也可以用于显现所述信息。

流形学习步骤330的输入是来自降维步骤320的矩阵M。流形学习330的输出是另一矩阵，在本文中称为矩阵“N”或流形(例如，图1的流形149)。矩阵N的结构使得矩阵N的每一行对应于所述群体的原始细胞中的一个，在本文中称为所述方法的剩余步骤的“点”。在一个实施方案中，矩阵N具有两列，任意地称为X维和Y维，与流形学习步骤330被配置成输出的两个维度相对应，与所使用的特定流形学习算法无关。X维和Y维通过流形学习步骤确定，并且根据使用哪种流形算法来选择哪个维最适合来自矩阵M的数据。如图4B中所示，具有两个这样的列的流形便于可视化。在其他实施方案中，流形矩阵N具有超出本文介绍的二维形式的额外维度。

下表3中提供示例性矩阵N。图4B提供在降维步骤中使用力导向布局的实施方案中的来自下面的实施例1的数据的绘图。图4B中的绘图是根据所述方法获得的结果的示例，因为在所述和类似的示例性实验中，点在X/Y维度上沿着X/Y平面中的一个或多个轨迹分离，其中通常“祖”细胞出现在X/Y空间中的一个一般区域中，朝向X/Y空间中的另一一般区域中的中间细胞扩散，并且在X/Y空间中的一个或多个不同区域处结束，其在实践中通常被验证为谱系内转变的细胞或谱系外转变的细胞。通常，所识别的区域和轨迹的数目取决于“祖”细胞的类型和已知“祖”细胞转变成的细胞的类型。此外，点的区域通常在它们之间具有一定量的扩散，表明细胞在转变过程中处于进展的不同阶段。

表3-输出矩阵N

多种流变学习技术可以应用到矩阵M以生成矩阵N。实例包括但不限于力导向布局(Fruchterman，T.M.和Reingold，E.M.(1991)。图形通过力导向布置绘制。软件：Practiceand experience，21(11),1129-1164)(例如，Force Atlas 2)、t分布随机近邻嵌入(t-SNE)、局部线性嵌入(Roweis,S.T.和Saul,L.K.(2000)。非线性降维通过局部线性嵌入进行。Science,290(5500),2323-2326⁾、局部线性等距映射(ISOMAP,Tenenbaum,J.B.、DeSilva,V.和Langford,J.C.(2000)。非线性降维的全局几何框架。Science,290(5500),2319-2323)、内核PCA、基于图形的内核PCA、基于亲和性的轨迹嵌入的热扩散势(PHATE)、广义判别分析(GDA)、统一流形逼近与投影(UMAP)或内核判别分析。尤其在预先知道关于每个细胞的特定细胞类型的一些信息的情况下，可以使用判别分析。力导向布局在各种特定实施方案中是有用的，因为它们能够识别新的、较低的维度，这些维度编码由基础生物过程如细胞状态转变引起的基础数据的非线性方面。力导向布局使用基于物理的模型作为用于确定最佳代表数据的降低的维数的机制。作为实例，力导向布局使用物理模拟的形式，其中，在所述实施方案中，集合中的每个细胞/数据集被分配“排斥”力，并且存在全局“引力”，当在全部细胞上计算时，所述引力识别在这些竞争“力”下一起“扩散”的数据的扇区。力导向布局几乎不作出关于数据结构的假设，并且不强加去噪方法。

注意，执行流形学习330是任选的步骤。在一些实施方案中，不执行流形学习。

III.C.3.聚类

在步骤340，执行聚类以生成j个聚类C_j的集，以识别由降维320提供的低维空间中的点的位置的模式(例如，对应于相关联的多个降维向量146的子集)。这些聚类用于聚集相似点(细胞/数据集)以提取关于在低维空间中彼此相似的点的组(例如，第一聚类、第二聚类等)的统计相关信息。下表4示出可以作为聚类340的输出的点的示例性聚类。

表4-聚类分配

可以使用许多聚类技术中的任一种，其实例包括但不限于层次聚类、k均值聚类和基于密度的聚类。在一个特定实施方案中，使用基于层次密度的聚类算法(称为HDBSCAN，Campello,R.J.,Moulavi,D.,Zimek,A.和Sander,J.(2015))。用于数据聚类、可视化和异常值检测的层次密度估计。ACM Transactions on Knowledge Discovery from Data(TKDD),10(1),5)。在另一实施方案中，使用基于社区检测的聚类算法，诸如Louvain聚类(Blondel,V.D.,Guillaume,J.L.,Lambiotte,R.和Lefebvre,E.(2008)。大型网络中社区的快速发现。Journal of statistical mechanics:theory and experiment,2008(10),P10008)。

对于聚类，这些技术使用矩阵M的数据来确定聚类。与算法无关，通常，在矩阵M的多维空间中彼此更接近的点更可能被分配给相同的聚类，而彼此进一步远离的点不太可能被分配给相同的聚类。图7A提供来自图4B的示例性数据的绘图，其中聚类分配1-10用对每个点的不同视觉标记物指示。聚类的数目可以由操作者设置或约束和/或基于所用的算法动态地确定。

III.C.4.确定差异细胞组分表达

降维320、任选的流形学习330和聚类340步骤通常用于将群体的细胞及其对应的单细胞表达数据集122组织成降维空间内的聚类，使得可以聚集和分析基础的每细胞组分表达测量数据以提取有意义的信息。在一些实施方案中，这种降维空间进一步减少了完成本公开的方法所需的时间量和/或处理能力。

可以自聚类获得的一项信息是相对于其他细胞，在群体中哪些细胞组分差异表达。在本文中，这个细胞组分集被称为差异表达的细胞组分E_k的集，如图3中在步骤350所讨论。上面在第III.B.部分中讨论了一些用于生成差异表达的细胞组分的集的示例性用例。

有许多使用聚类C_j和数据集信息来确定差异表达的细胞组分的集的方式。在一个实施方案中，确定给定细胞组分(例如，细胞组分A)是否差异表达通过评价给定聚类C₁中的点(细胞)的细胞组分A的量相对于一个或多个其他聚类C_m中的点的细胞组分A的量来确定，其中m不等于1。还可以使用标准化。例如，整体上细胞中细胞组分的表达水平可能因不依赖于细胞状态转变生物学的原因而随细胞变化。因此，可以基于数据集中每个细胞的细胞组分量的总数将细胞组分量标准化。

如上面第III.B部分中所讨论，将细胞组分A的哪一聚类的细胞组分量与给定聚类C₁进行比较可以根据实施方案而变化。用于比较的其他聚类可以是与谱系内细胞类型最强烈相关的聚类、与谱系外细胞类型最强烈相关的聚类、与“祖”细胞类型最强烈相关的聚类、与中间细胞类型最强烈相关的聚类等。还可以针对多于一个其他聚类进行比较。

考虑到所述比较，细胞组分A可以根据许多度量中的任一个被识别为差异表达，所述度量诸如为每个聚类的总细胞组分量(再次，对于聚类中的所有点，或一些聚集度量，诸如平均值等)、每个聚类的标准化细胞组分量，每个聚类的中值、平均值或其他聚集细胞组分量，表达相对于其他细胞组分的细胞组分量的比例等。在一个实施方案中，确立细胞组分A差异表达的标准是阈值要求。

例如，聚类C₁中细胞组分A的标准化细胞组分量可以比一个或多个其他聚类Cm中细胞组分A的标准化细胞组分量超出至少阈值。

差异表达的细胞组分的确定也可以是相对的。在一个实施方案中，可以计算多个细胞组分/聚类组合的标准化细胞组分量、多个细胞组分/聚类组合的距离度量或其他类似的度量。可以根据排序标准(例如，聚类中最高的标准化细胞组分量)对这些度量进行排序，并且可以将排序在前的细胞组分或细胞组分/聚类组合确定为差异表达的细胞组分。

在一个实施方案中，给定聚类中给定细胞组分的细胞组分量可以用于识别哪些细胞组分差异表达。在一个实施方案中，这些差异表达的细胞组分使用均值差检验、Wilcoxon秩和检验(曼-惠特尼U检验)、t检验、逻辑回归和广义线性模型中的一种识别

本领域技术人员将理解，涉及每细胞组分/聚类组合的细胞组分量的其他度量也是可能的。

III.C.5.后处理

差异表达的细胞组分E_k的集本身代表有用的输出。然而，进一步分析360差异表达的细胞组分的集以识别所述集的子集可能是有用的。

在一个实施方案中，针对转录因子数据库(例如，图1的特征存储区140)筛选差异表达的细胞组分的集，以识别与所述集中存在的细胞组分相关联的转录因子的集。作为一个实例，所述信息可以自ChIP-seq数据集(关于哪些转录因子与DNA的哪些区域结合的信息，将其与细胞组分比对)获得。

本文中针对特定细胞讨论的数据集122，例如原始输入数据集r(例如，图1的数据集122-1)或不同表达的细胞组分E_k的集和对应数据集，可能由于许多原因(例如，技术噪声、漏失、低细胞组分量等)而缺失细胞组分量。考虑到这些和任何额外的混淆因素，简单模型可以适合于所述数据集。

III.D.影响细胞状态转变的扰动的预测

通过将表征特定细胞转变的差异细胞组分表达与由细胞暴露于扰动所引起的差异细胞组分表达相匹配，可以预测影响特定细胞状态转变的扰动。细胞扰动包括用一种或多种化合物对细胞的任何处理。所述一种或多种化合物可以包括例如小分子、生物制剂、蛋白质、与小分子组合的蛋白质、ADC、核酸(诸如siRNA或干扰RNA)、过表达野生型和/或突变体shRNA的cDNA、过表达野生型和/或突变指导RNA的cDNA(例如，Cas9系统或其他细胞组分编辑系统)或任何前述的任何组合。可以将特定细胞转变的差异表达的细胞组分与由细胞暴露于扰动所引起的差异表达的细胞组分进行比较。然后，可以预测引起匹配特定细胞转变的差异细胞组分表达的差异细胞组分表达的扰动以影响特定细胞转变。

为了通过将表征特定细胞转变的差异细胞组分表达与由细胞暴露于扰动所引起的差异细胞组分表达相匹配来预测影响特定细胞转变的扰动，首先，识别表征特定细胞转变的表达差异最大的细胞组分。在一些实施方案中，这些差异表达的细胞组分使用均值差检验、Wilcoxon秩和检验(曼-惠特尼U检验)、t检验、逻辑回归和广义线性模型中的一种来识别。在替代实施方案中，可以使用任何统计学方法来识别特定细胞转变的表达差异最大的细胞组分。细胞组分132名称和显著得分134的所得排序表(或列表)也可以被称为‘单细胞转变特征’(例如，包括图1的单细胞转变特征142)。每种细胞组分132的显著得分134量化在细胞组分的细胞组分表达的变化与原始细胞类型与转变的细胞类型之间的细胞类型的变化之间的关联。总之，这些得分134形成与原始细胞类型(第一细胞状态)与转变的细胞类型(改变的细胞状态)之间的转变相关联的差异细胞组分表达的总体量度。

类似地，针对一种或多种扰动识别由细胞暴露于扰动所引起的差异细胞组分表达。在一些实施方案中，为了识别由细胞暴露于扰动所引起的差异细胞组分表达，将暴露于扰动的细胞中的细胞组分表达与尚未暴露于扰动的一个或多个对照细胞中的细胞组分表达或不相关受扰样本的平均值(例如，图3的后处理360)进行比较。在一些实施方案中，所述比较使用均值差检验、Wilcoxon秩和检验(曼-惠特尼U检验)、t检验、逻辑回归和广义线性模型中的一种执行。在替代实施方案中，可以使用任何统计方法来执行比较。在更进一步的替代实施方案中，由细胞暴露于扰动所引起的差异细胞组分表达可以是从文献中已知和识别的。细胞组分名称和显著得分的所得类似排序表(或列表)可以被称为‘扰动特征’。

在一些实施方案中，为了减少由于技术变化、不同的实验测定和识别单细胞转变特征和扰动特征中的其他变量而造成的混淆，对特征中的一种或两种进行过滤以仅包括转录因子，其是已知驱动某些细胞组分表达的蛋白质。这些转录因子可以例如从文献中识别。

在一些实施方案中，为了进一步减少由于细胞转变的技术变化和模糊性而造成的混淆，在给定p值和/或在细胞组分的阈值数目处截短(或过滤或子集化)一个或两个特征的表达差异最大的细胞组分。细胞转变和扰动暴露的差异表达的细胞组分的所得截短集是无序的，并且可以含有10与25之间种或更多或更少种细胞组分，这取决于实施方式。

在识别和任何处理一个或两个特征(例如，图1的单细胞转变特征142和/或扰动特征150)之后，将单细胞转变特征142的差异表达的细胞组分与扰动特征150的差异表达的细胞组分进行比较。在一个实施方案中，为了执行所述比较，将扰动的差异表达的细胞组分表示为矩阵(例如，图3的矩阵M、图1的细胞组分向量130等)。矩阵的每一行与单一扰动相关联。矩阵上的每一列与差异表达的细胞组分中的一种相关联。矩阵中的每个条目包括针对特定扰动识别的差异表达的细胞组分132的显著得分134(例如，p值、t得分)。所述矩阵是仅包括针对单细胞转变特征142识别的差异表达的细胞组分的子集。这种过滤可以使用前一段中描述的方法(例如，通过阈值p值、通过细胞组分的阈值数目等)来完成

用离散匹配得分替换矩阵中的每个显著得分134。为了用离散匹配得分替换每个显著得分，识别出细胞转变的显著上调的细胞组分132和细胞转变的显著下调的细胞组分。对于由单细胞转变标记142识别的显著上调的细胞组分中的每一种，如果所述细胞组分对于所述扰动的扰动特征150也被显著上调，则用离散匹配得分‘1’替换细胞组分/扰动组合的矩阵中的显著得分。如果相对于单细胞转变特征，扰动特征的细胞组分被显著下调，则用离散匹配得分‘-2’替换所述细胞组分/扰动组合的矩阵中的显著得分。如果扰动特征的细胞组分未被显著上调或下调，则用离散匹配得分‘0’替换细胞组分/扰动组合的矩阵中的显著得分。

相反，对于在单细胞转变特征中识别的显著下调的细胞组分中的每一个，如果扰动的细胞组分也被显著下调，则用离散匹配得分‘-1’替换所述细胞组分/扰动组合的矩阵中的显著得分。如果扰动的细胞组分被显著上调，则用离散匹配得分‘2’替换所述细胞组分/扰动组合的矩阵中的显著得分。如果扰动的细胞组分未被显著上调或下调，则用离散匹配得分‘0’替换所述细胞组分/扰动组合的矩阵中的显著得分。本领域技术人员将理解，在一些实施方案中，这些特定得分替换可以用其他数值来代替。

结果为矩阵，其中行数由扰动的数目给出，并且列数由来自单细胞转变的差异细胞组分给出，并且条目代表上述匹配得分。

在如上所述用离散匹配得分替换矩阵中的显著得分之后，对矩阵的每一行中的离散匹配得分求和以生成每一行的总计的匹配得分。然后，按照总计的匹配得分递减的顺序，对矩阵的各行进行排序，每一行对应于一种扰动。排序在前的行与最可能与单细胞转变特征的识别的细胞转变相关联的扰动相关联。

在一些实施方案中，对于矩阵中每一行的总计的匹配得分，估计错误细胞组分发现率的估计。为了估计错误细胞组分发现率，计算每种细胞组分的经验边缘表达频率，并且对每种细胞组分在它们的组合上求和经验边缘表达频率，这生成了偶然识别给定数量的细胞组分的概率(观察到至少与在用于生成特征的数据集中所见的一样罕见的表达的可能性)，假设独立分布的表达。然后，可以使用所述概率来计算错误细胞组分发现率。

在某些实施方案中，可能存在扰动的协变量。例如，如果扰动是小分子，则小分子的协变量可以包括小分子的特定剂量、测量暴露于小分子的细胞以量化细胞组分的时间和/或暴露于小分子的细胞的身份(例如，细胞系)。在一些实施方案中，只有在还预测到扰动的协变量的阈值量影响特定细胞转变时，才预测扰动影响特定细胞转变。例如，只有在还预测到扰动的协变量中的至少两个影响特定细胞转变时，才可以预测扰动影响特定细胞转变。

可以使用替代的匹配方法。例如，可以使用网络接口(例如，诸如L1000CDS2，超快LINCS L1000特征方向特征搜索引擎，在万维网上在amp.pharm.mssm.edu/L1000CDS2/#/index)将细胞分量与数据库相匹配。这种匹配方法的性能不如先前段落中描述的匹配方法，后者产生灵敏度高得多的结果，可伸缩性更好，并且覆盖多得多的数据(数百万个样本，而不是数万个样本)，考虑显著的重叠，忽视掉显著的不一致性，并且忽略特征中的非显著信息。

由于特定单细胞状态转变的细胞组分表达高度可变且由于受扰动影响的细胞组分表达高度可变，可能难以发现匹配特定单细胞状态转变的扰动。为了缓解这个问题，在一些替代实施方案中，对影响沿着特定轨迹的细胞状态转变的扰动的匹配和随后识别可以通过训练过的神经网络模型来执行。

使用上述方法识别出扰动是影响特定细胞状态转变的扰动的实例在下面的第IV.E部分中提供。

III.E.用于识别扰动的生物效用的方法

在一些实施方案中，所公开的方法用于识别扰动的生物学效用。这些方法涵盖可以显示在具有不同状态或表型(例如，患病和正常表型)的细胞中差异存在的任何细胞组分(或不同细胞组分的组合)的测量。也就是说，细胞组分的存在、不存在或量与细胞状态或表型相关联。在一个实施方案中，所述方法包括：将多个细胞暴露于扰动；进行第一差异细胞组分表达测定，所述测定包括访问在多个细胞暴露于扰动之前和之后自所述细胞获得的第一多个单细胞表达数据集，每个数据集包括细胞组分的向量r_i，所述向量中的每个条目与多种细胞组分中的一种相关联，并且每个条目的值代表所述细胞的细胞组分的量；将统计技术应用于第一多个数据集以生成响应于暴露于所述扰动的差异表达的细胞组分E_k的集；以及确定在响应于暴露于所述扰动的差异表达的细胞组分E_k的集和与在患病细胞表型与正常细胞表型之间的差异相关联的差异表达的细胞组分E_l的集之间的相似性水平，其中E_k和E_l之间的显著相似性水平指示所述扰动在细胞在患病细胞表型与正常细胞表型之间转变中的效用。

在一些实施方案中，应用统计技术包括：对第一多个数据集132执行降维(例如，图3的降维320)以生成第一矩阵M，所述第一矩阵M包括第一维度中的行和第二维度中的列，所述矩阵M的值包括由位于第一维空间和第二维空间中的点处的细胞组分的量生成的值；执行聚类以生成聚类C_j的第一集，每个聚类包括与第一矩阵M中的行的子集相对应的多个点以及它们的对应的细胞响应状态；以及使用所述聚类C_j的第一集确定所述细胞响应于暴露于所述扰动的差异表达的细胞组分E_k的集。

在一些实施方案中，与在患病细胞表型与正常细胞表型之间的差异相关联的差异表达的细胞组分E_l的集可以通过进行第二差异细胞组分表达测定来确定，所述第二测定包括访问自诸如正常细胞和患病细胞的处于不同状态的多个细胞获得的第二多种单细胞细胞组分表达数据集，每个数据集包括细胞组分的向量r_i，所述向量中的每个条目与多种细胞组分中的一种相关联，并且每个条目的值代表所述细胞的细胞组分的量；以及将统计技术应用于所述第二多个数据集。

在一些实施方案中，将统计技术应用于第二多个数据集包括：对所述第二多个数据集执行降维以生成第二矩阵M，所述第二矩阵M包括第一维度中的行和第二维度中的列，第二矩阵M的值包括从位于第一维空间和第二维空间中的点处的一种或多种细胞组分的量生成的值；用第二矩阵M在点的相对相似性逼近下执行流形学习，以创建包括多个行和两个列的第二矩阵N，每一行对应于所述细胞中的一个，每一列对应于二维空间中的两个维度中的一个，所述第二矩阵N的值指示基于所述数据集每个细胞相对于每个其他细胞之间的细胞表型的相对差异；执行聚类以生成聚类C_j的第二集，每个聚类包括与矩阵N中的行的子集相对应的多个点以及它们的对应的细胞响应状态；以及使用聚类C_j的第二集确定与在细胞的患病细胞表型与正常细胞表型之间的差异相关联的差异表达的细胞组分E_l的集，其指示患病细胞表型与正常细胞表型之间的差异。

在一些实施方案中，已知扰动具有由在调控的临床试验中获得的结果确定的可接受的人类安全特性。

在一些实施方案中，患病细胞表型通过患病细胞与正常细胞之间的差异来识别。例如，在一些实施方案中，可以通过以下来识别：细胞功能的丧失、细胞功能的获得、细胞的进展(例如，细胞向分化状态的转变)、细胞的停滞(例如，细胞不能转变到分化状态)、细胞的侵入(例如，细胞出现在异常位置)、细胞的消失(例如，在细胞正常存在的位置不存在所述细胞)、细胞的紊乱(例如，细胞内和/或周围的结构、形态和/或空间变化)、细胞网络的丧失(例如，消除子代细胞或细胞下游细胞中正常效应的细胞变化)、细胞网络的获得(例如，在细胞下游细胞的子代细胞中触发新下游效应的细胞变化)、细胞的过剩(例如，细胞的过于丰富)、细胞的不足(例如，细胞密度低于临界阈值)、细胞中细胞组分比率和/或量的差异、细胞中的转变速率的差异或其任何组合。

在一些实施方案中，患病细胞包括细胞系、活检样本细胞和培养的原代细胞。在一些实施方案中，正常细胞包括培养的原代细胞和活检样本细胞。在一些实施方案中，细胞是人细胞。

在一些实施方案中，所述方法用于基于使用上述方法识别的指示效用选择可用于治疗疾病的扰动。在一些实施方案中，所述方法包括通过向患有疾病的受试者给予有效量的选择的扰动或由扰动先导化合物开发的原料药来治疗所述受试者。

实施方案

实施方案1.一种方法，其包括以下步骤：访问多个单细胞细胞组分表达数据集，每个数据集自已经从相同“祖”细胞类型转变的多个细胞中的一个细胞获得，每个数据集包括细胞组分的向量r_i，所述向量中的每个条目与多种细胞组分中的一种相关联，并且每个条目的值代表所述细胞的所述细胞组分的量；对所述数据集执行降维以生成矩阵M，所述矩阵M包括第一维度中的行和第二维度中的列，每一行对应于所述多个细胞中的一个细胞，所述矩阵M的值包括由位于第一维空间和第二维空间中的点处的细胞组分的量生成的值；执行聚类以生成聚类C_j的集，每个聚类包括与所述矩阵M中的行的子集相对应的多个点以及它们的对应细胞；以及使用所述聚类C_j的集确定所述细胞的差异表达的细胞组分E_k的集。

实施方案2.如实施方案1所述的方法，其还包括用所述矩阵M在点的相对相似性逼近下执行流形学习，以创建包括多个行和两个列的矩阵N，每一行对应于所述多个细胞中的一个，每一列对应于二维空间中的两个维度中的一个，所述矩阵N的值基于所述数据集指示每个细胞相对于每个其他细胞的相对细胞类型。

实施方案3.如实施方案1至2中任一项所述的方法，其中当获得所述单细胞细胞组分表达数据集时，所述细胞是具有各种细胞类型的异质细胞群。

实施方案4.如实施方案1至2中任一项所述的方法，其中所述细胞是具有所述“祖”细胞类型的大致上同质的细胞群；并且其中在所述细胞从所述“祖”细胞类型转变时的多个时间点中的每一个获得所述单细胞细胞组分表达数据集，使对于每个细胞和时间点组合收集所述多个数据集中的不同数据集。

实施方案5.如实施方案4所述的方法，其中所述多个时间点包括至少三个时间点。

实施方案6.如实施方案4至5中任一项所述的方法，其中所述多个时间点包括相当大部分的所述细胞尚未从所述“祖”细胞类型转变的“祖”时间点。

实施方案7.如实施方案4至6中任一项所述的方法，其中所述多个时间点包括相当大部分的细胞已从所述“祖”细胞类型转变的转变时间点。

实施方案8.如实施方案4至7中任一项所述的方法，其中所述多个时间点包括至少一个相当大部分的细胞已经至少部分地从所述“祖”细胞类型转变的中间时间点。

实施方案9.如实施方案1至8中任一项所述的方法，其中所述多种细胞组分选自由以下组成的组：核酸、蛋白质、脂质、碳水化合物、核苷酸及其任何组合。

实施方案10.如实施方案9所述的方法，其中所述核酸选自由DNA和RNA组成的组。

实施方案11.如实施方案10所述的方法，其中所述RNA选自由编码RNA和非编码RNA组成的组。

实施方案12.如实施方案1至11中任一项所述的方法，其中所述单细胞细胞组分表达数据集使用选自由以下组成的组的方法生成：单细胞核糖核酸(RNA)测序(scRNA-seq)、scTag-seq、使用测序的转座酶可接近性染色质的单细胞测定(scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq及其任何组合，以及其总结，包括代表所述单细胞细胞组分表达数据集中的活化途径的组合，诸如线性组合。

实施方案13.如实施方案1至12中任一项所述的方法，其中执行降维包括对所述单细胞细胞组分表达数据集执行主成分分析(PCA)以生成所述矩阵M。

实施方案14.如实施方案1至13中任一项所述的方法，其中执行降维包括对所述单细胞细胞组分表达数据集使用扩散映射以生成所述矩阵M。

实施方案15.如实施方案1至14中任一项所述的方法，其中执行降维包括对所述单细胞细胞组分表达数据集使用神经网络自动编码器以生成所述矩阵M。

实施方案16.如实施方案2所述的方法，其中执行流形学习包括估计所述矩阵M中的数据的几何形状以创建所述矩阵N。

实施方案17.如实施方案16所述的方法，其中执行流形学习包括执行局部线性嵌入。

实施方案18.如实施方案16所述的方法，其中执行流形学习包括执行局部线性等距映射(ISOMAP)。

实施方案19.如实施方案16所述的方法，其中执行流形学习包括执行t分布随机近邻嵌入(t-SNE)。

实施方案20.如实施方案16所述的方法，其中执行流形学习包括执行基于亲和性的轨迹嵌入的热扩散势(PHATE)。

实施方案21.如实施方案16所述的方法，其中执行流形学习包括执行统一流形逼近与投影(UMAP)。

实施方案22.如实施方案16所述的方法，其中执行流形学习包括创建力导向布局。

实施方案23.如实施方案22所述的方法，其中所述力导向布局使用Force Atlas 2算法创建。

实施方案24.如实施方案1至23中任一项所述的方法，其中执行聚类假设没有关于每个聚类中所述多个点的组织的先验知识。

实施方案25.如实施方案1至24中任一项所述的方法，其中执行聚类包括执行HDBSCAN以生成所述聚类C_j的集。

实施方案26.如实施方案1至25中任一项所述的方法，其中执行聚类包括执行Louvain社区检测以生成聚类C_j的集。

实施方案27.如实施方案1至26中任一项所述的方法，其中执行聚类包括基于收集与每个点相关联的单细胞细胞组分表达数据集的时间点，将所述点分配到聚类C_j中的一个。

实施方案28.如实施方案1至27中任一项所述的方法，其中执行聚类包括使用扩散路径算法来分析所述多个点，所述扩散路径算法基于点为聚类末端的程度的量度来将所述点分配到所述聚类。

实施方案29.如实施方案1至28中任一项所述的方法，其中确定所述差异表达的细胞组分E_k的集包括：对于每种细胞组分，对于所述聚类中的至少一个，将所述至少一个聚类中的所述多个点的所述细胞组分的量与至少一个其他聚类中的所述多个点的所述细胞组分的量进行比较；以及响应于所述至少一个聚类中的所述多个点的所述细胞组分的量是大于所述至少一个其他聚类中的所述多个点的所述细胞组分的量的阈值水平，将所述细胞组分加到所述差异表达的细胞组分E_k的集中。

实施方案30.如实施方案29所述的方法，其中所述至少一个聚类包括所述聚类C_j的谱系内聚类，所述谱系内聚类含有多个可识别为具有期望的细胞类型的点。

实施方案31.如实施方案30所述的方法，其中所述至少一个其他聚类包括所述聚类C_j中的谱系外聚类，所述谱系外聚类含有可识别为具有不期望的细胞类型的点。

实施方案32.如实施方案1至31中任一项所述的方法，其中确定所述差异表达的细胞组分E_k的集包括：对于每种细胞组分，对于所述聚类中的至少一个，计算所述至少一个聚类中的所述多个点的所述细胞组分的量与所述至少一个其他聚类中的所述多个点的所述细胞组分的量之间的距离度量；以及响应于所述距离度量是统计上显著的，将所述细胞组分加到所述差异表达的细胞组分E_k的集中。

实施方案33.如实施方案1至32中任一项所述的方法，其还包括针对转录因子数据库筛选所述差异表达的细胞组分E_k的集，以识别差异表达的转录因子的集。

实施方案34.如实施方案33所述的方法，其还包括：对所述差异表达的细胞组分E_k的集执行经验模态分解，以生成所述数据集的伪时间表示；以及基于所述伪时间表示识别所述差异表达的转录因子的集。

实施方案35.一种方法，其包括以下步骤：访问多个单细胞细胞组分表达数据集，每个数据集自已经从相同“祖”细胞类型转变的多个细胞中的一个细胞获得，每个数据集包括细胞组分的向量r_i，所述向量中的每个条目与多种细胞组分中的一种相关联，并且每个条目的值代表所述细胞的所述细胞组分的量；使用kNN算法且使用所述单细胞细胞组分表达数据集生成kNN图；执行聚类以生成聚类C_j的集，每个聚类包括多个点，每个点对应于所述多个细胞中的一个细胞的单细胞细胞组分表达数据集；以及使用所述聚类C_j的集确定所述多个细胞的差异表达的细胞组分E_k的集。

实施方案36.如实施方案35所述的方法，其中确定所述差异表达的细胞组分E_k的集包括确定所述聚类C_j中所述多个点之间的距离度量。

实施方案37.一种方法，其包括以下步骤：访问单细胞转变特征，所述单细胞转变特征代表第一细胞状态与改变的细胞状态之间的差异细胞组分表达的量度；访问扰动特征，所述扰动特征代表未暴露于扰动的未受扰细胞与暴露于所述扰动的受扰细胞之间的差异细胞组分表达的量度；以及基于所述单细胞转变特征与所述扰动特征的比较，确定所述扰动是否与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联。

实施方案38.如实施方案36所述的方法，其中访问所述单细胞转变特征包括：基于第一多个单细胞细胞组分表达数据集以及给予第二多个单细胞细胞组分表达数据集来确定所述单细胞转变特征，每个第一数据集自处于所述第一细胞状态的第一多个细胞中的一个细胞获得，每个第二数据集自处于所述改变的细胞状态的第二多个细胞中的一个细胞获得。

实施方案39.如实施方案38所述的方法，其中所述第一多个单细胞细胞组分表达数据集和所述第二多个单细胞细胞组分表达数据集中的每个数据集包括细胞组分的向量r_i，所述向量中的每个条目与多种细胞组分中的一种相关联，并且每个条目的值代表所述细胞的所述细胞组分的量。

实施方案40.如实施方案38至39中任一项所述的方法，其还包括：获得所述第一多个单细胞细胞组分表达数据集和所述第二多个单细胞细胞组分表达数据集，所述获得包括：对所述第一多个单细胞细胞组分表达数据集和所述第二多个单细胞细胞组分表达数据集执行降维以生成矩阵M，所述矩阵M包括第一维度中的行和第二维度中的列，每一行对应于所述多个细胞中的一个细胞，所述矩阵M的值包括由位于第一维空间和第二维空间中的点处的细胞组分的量生成的值；执行聚类以生成聚类C_j的集，每个聚类包括与所述矩阵M中的所述行的子集相对应的多个点以及它们的对应细胞；自所述聚类C_j的集的第一聚类识别所述第一多个细胞；自所述聚类C_j的集的第二聚类识别所述第二多个细胞；自所述第一多个细胞获得所述第一多个单细胞细胞组分表达数据集；以及自所述第二多个细胞获得所述第二多个单细胞细胞组分表达数据集。

实施方案41.如实施方案40所述的方法，其还包括用所述矩阵M在点的相对相似性逼近下执行流形学习，以创建包括多个行和两个列的矩阵N，每一行对应于所述第一多个细胞和所述第二多个细胞中的一个细胞，每一列对应于二维空间中的两个维度中的一个，所述矩阵N的值基于所述第一多个单细胞细胞组分表达数据集和所述第二多个单细胞细胞组分表达数据集指示每个细胞相对于每个其他细胞的相对细胞状态。

实施方案42.如实施方案40至41中任一项所述的方法，其中所述步骤根据实施方案1至34的方法中的任一种执行。

实施方案43.如实施方案37至42中任一项所述的方法，其中访问所述扰动特征包括：基于未暴露于所述扰动的所述未受扰细胞的多个未受扰单细胞细胞组分表达数据集并且基于暴露于所述扰动的所述受扰细胞的多个受扰单细胞细胞组分表达数据集来确定所述扰动特征。

实施方案44.如实施方案37至43中任一项所述的方法，其中所述未受扰细胞是尚未暴露于所述受扰细胞的所述扰动的对照细胞，或者其中所述未受扰细胞是已经暴露于所述扰动的不相关受扰细胞的平均值。

实施方案45.如实施方案37至44中任一项所述的方法，其还包括以下步骤：对所述单细胞转变特征和所述扰动特征进行过滤，以包括作为转录因子的细胞组分。

实施方案46.如实施方案38至42中任一项所述的方法，其中基于所述第一多个单细胞细胞组分表达数据集和所述第二多个单细胞细胞组分表达数据集确定所述单细胞转变特征包括：使用均值差检验、Wilcoxon秩和检验(曼-惠特尼U检验)、t检验、逻辑回归和广义线性模型中的一种来确定所述第一多个单细胞细胞组分表达数据集与所述第二多个单细胞细胞组分表达数据集之间的细胞组分量的差异。

实施方案47.如实施方案43所述的方法，其中基于所述未受扰的多个单细胞细胞组分表达数据集和所述受扰的多个单细胞细胞组分表达数据集来确定所述扰动特征包括：使用均值差检验、Wilcoxon秩和检验(曼-惠特尼U检验)、t检验、逻辑回归和广义线性模型中的一种确定所述未受扰的多个单细胞细胞组分表达数据集与所述受扰的多个单细胞细胞组分表达数据集之间的细胞组分量的差异。

实施方案48.如实施方案37至47中任一项所述的方法，其还包括：对所述单细胞转变特征和所述扰动特征进行过滤，以减少所述单细胞转变特征和所述扰动特征中所包括的细胞组分的数目。

实施方案49.如实施方案48所述的方法，其中对所述单细胞转变特征和所述扰动特征进行过滤包括根据阈值p值或根据细胞组分的阈值数目来减少所述单细胞转变特征和所述扰动特征中所包括的细胞组分的数目。

实施方案50.如实施方案37至49中任一项所述的方法，其中所述扰动特征包括多种细胞组分，每种细胞组分与显著得分相关联，所述显著得分量化所述细胞组分的量的变化与所述未受扰细胞与所述受扰细胞之间的细胞状态的变化之间的关联，并且其中确定所述扰动是否与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联包括：用所述细胞组分的匹配得分替换每种细胞组分的所述显著得分；将所述多种细胞组分的所述匹配得分组合以生成所述扰动的匹配得分；以及基于所述扰动的所述匹配得分，确定所述扰动是否与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联。

实施方案51.如实施方案50所述的方法，其中所述匹配得分包括离散得分或连续得分。

实施方案52.如实施方案50至51中任一项所述的方法，其中替换每个显著得分包括：如果所述细胞组分的来自所述单细胞转变特征的所述细胞组分量和来自所述扰动特征的所述细胞组分量都被上调，则用第一得分替换所述显著得分；如果所述细胞组分的来自所述单细胞转变特征的所述细胞组分量被上调并且来自所述扰动特征的所述细胞组分量被下调，则用第二得分替换所述显著得分；以及如果所述细胞组分的来自所述扰动特征的所述细胞组分量未被显著上调或下调，则用第三得分替换所述显著得分。

实施方案53.如实施方案50至51中任一项所述的方法，其中替换所述显著得分包括：如果所述细胞组分的来自所述单细胞转变特征的所述细胞组分量和来自所述扰动特征的所述细胞组分量都被下调，则用第一得分替换所述显著得分；如果所述细胞组分的来自所述单细胞转变特征的所述细胞组分量被下调并且来自所述扰动特征的所述细胞组分量被上调，则用第二得分替换所述显著得分；以及如果所述细胞组分的来自所述扰动特征的所述细胞组分量未被显著上调或下调，则用第三得分替换所述显著得分。

实施方案54.如实施方案37至49中任一项所述的方法，其中所述扰动特征包括多种细胞组分，每种细胞组分与显著得分相关联，所述显著得分量化所述细胞组分的量的变化与所述未受扰细胞与所述受扰细胞之间的细胞状态的变化之间的关联，并且其中确定所述扰动是否与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联包括：将所述多种细胞组分的所述显著得分组合以生成所述扰动的显著得分；以及基于所述扰动的所述显著得分，确定所述扰动是否与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联。

实施方案55.如实施方案50至53中任一项所述的方法，其还包括：通过以下估计所述扰动的所述匹配得分的错误细胞组分发现率：计算所述多种细胞组分的每种细胞组分的经验边际表达频率；将所述多种细胞组分的所述经验边际表达频率在其组合上求和以生成通过偶然假定独立分布的表达而识别许多细胞组分的概率；以及基于所述概率估计所述扰动的所述匹配得分的所述错误细胞组分发现率。

实施方案56.如实施方案37至55中任一项所述的方法，其中确定所述扰动是否与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联包括：确定所述扰动的协变量的阈值量与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联；以及响应于所述确定，确定所述扰动与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联。

实施方案57.如实施方案56所述的方法，其中所述扰动包括将所述细胞暴露于小分子，并且其中所述扰动的一个或多个协变量包括：所述小分子的特定剂量、相对于所述受扰细胞暴露于所述小分子的时间测量所述未受扰细胞与所述受扰细胞之间的差异细胞组分表达的时间以及所述受扰细胞的细胞系。

实施方案58.如实施方案37至57中任一项所述的方法，其中细胞组分包括基因。

实施方案59.如实施方案37至58所述的方法，其中所述单细胞细胞组分表达数据集使用选自由以下组成的组的方法生成：单细胞核糖核酸(RNA)测序(scRNA-seq)、scTag-seq、使用测序的转座酶可接近性染色质的单细胞测定(scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq及其任何组合或总结。

实施方案60.如实施方案37至59所述的方法，其中所述单细胞转变特征和所述扰动特征中的至少一个自数据库获得。

实施方案61.如实施方案60所述的方法，其中所述扰动特征自包括多个扰动的多个扰动特征的数据库获得，并且其中所述方法还包括：对于所述数据库中的所述多个扰动中的每个扰动：自所述数据库访问所述扰动的所述扰动特征；以及基于所述单细胞转变特征与所述扰动特征的比较，确定所述扰动是否与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联。

实施方案62.如实施方案37至61中任一项所述的方法，其还包括访问多个受扰细胞的多个扰动特征；以及对于所述多个扰动特征中的每一个，进行所述确定步骤，从而筛选促进所述改变的细胞状态的扰动。

实施方案63.如实施方案62所述的方法，其中访问所述多个扰动特征包括将细胞暴露于多个扰动以生成所述所述多个受扰细胞；以及测量来自所述多个受扰细胞的多个细胞组分量。

实施方案64.如实施方案37至63中任一项所述的方法，其还包括识别促进所述改变的细胞状态的扰动。

实施方案65.如实施方案64所述的方法，其中促进所述改变的细胞状态包括，在包括所述第一细胞状态的细胞群中，促进从所述第一细胞状态到所述改变的细胞状态的转变。

实施方案66.如实施方案64所述的方法，其中促进所述改变的细胞状态包括，在包括所述第一细胞状态的细胞群中，增加处于替代状态的细胞的数目与处于所述第一状态或任选地不同于所述改变的细胞状态的状态的细胞的数目的比率。

实施方案67.如实施方案64所述的方法，其中促进所述改变的细胞状态包括，在包括所述第一细胞状态的细胞群中，增加处于所述改变的细胞状态的细胞的绝对数目。

实施方案68.如实施方案64所述的方法，其中促进所述改变的细胞状态包括，在包括所述第一细胞状态的细胞群中，减少处于所述第一细胞状态或任选地不同于所述改变的细胞状态的状态的细胞的绝对数目。

实施方案69.如实施方案37至68中任一项所述的方法，其中所述细胞转变特征和所述扰动特征使用不同类型的细胞组分生成。

实施方案70.如实施方案37至68中任一项所述的方法，其中所述细胞转变特征和所述扰动特征使用相同类型的细胞组分生成。

实施方案71.一种方法，其包括以下步骤：访问单细胞转变特征，所述单细胞转变特征代表第一细胞状态与改变的细胞状态之间的差异细胞组分表达的量度；访问多个扰动特征，每个扰动特征与扰动相关联且代表未暴露于所述扰动的未受扰细胞与暴露于所述扰动的受扰细胞之间的差异细胞组分表达的量度；以及基于所述单细胞转变特征与所述多个扰动特征的比较，确定与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联的所述扰动的子集。

实施方案72.如实施方案71所述的方法，其中每个扰动特征包括多种细胞组分，每种细胞组分与显著得分相关联，所述显著得分量化所述细胞组分的量的变化与所述未受扰细胞与所述受扰细胞之间的细胞状态的变化之间的关联，并且其中确定与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联的所述扰动的子集包括：对于每个扰动特征：用每种细胞组分的匹配得分替换所述细胞组分的所述显著得分；以及将所述多种细胞组分的匹配得分组合以生成所述扰动的匹配得分；基于所述扰动的匹配得分对所述扰动进行排序；以及基于所述扰动的排序列表选择所述扰动的所述子集。

实施方案73.一种计算机程序产品，其包括具有在其上编码的指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时使所述处理器执行如实施方案37至72中任一项所述的方法。

实施方案74.一种系统，其包括：具有在其上编码的指令的非暂时性计算机可读存储介质，所述指令在由处理器执行时使所述处理器执行如实施方案37至72中任一项所述的方法。

实施方案75.一种用于促进神经元和/或祖细胞的方法，其包括：将包括成纤维细胞的起始细胞群暴露于具有扰动特征的扰动，所述扰动特征促进所述包括成纤维细胞的起始细胞群转变成祖细胞和/或神经元，其中所述扰动特征是Brn2、Ascl1、Myt1、Zfp941、Taf5B、St18、Zkscan16、Camta1和Arnt2中的一种或多种的活性增加和/或Ascl1、Atf3、Rorc、Scx、Satb1、Elf3和Fos中的一种或多种的活性降低。

实施方案76.如实施方案75所述的方法，其中所述神经元和/或祖细胞通过以下一种或多种促进：增加神经元和/或祖细胞的绝对数目；减少成纤维细胞的绝对数目；促进成纤维细胞向神经元和/或祖细胞的转变；促进神经元或祖细胞的寿命；减少成纤维细胞的寿命；或增加神经元和/或祖细胞与成纤维细胞的比率。

实施方案77.如实施方案75所述的方法，其中所述扰动不包括弗斯可林、PP1、PP2和曲古抑菌素A。

实施方案78.一种增加神经元和/或祖细胞的量的方法，其包括将包括成纤维细胞的细胞群暴露于药物组合物，所述药物组合物具有促进所述包括成纤维细胞的细胞群转变成神经元的扰动特征，其中所述药物组合物包含弗斯可林、PP1、PP2、曲古抑菌素A、BRD-K38615104、格尔德霉素、手霉素A、米托蒽醌、姜黄素、阿伏西地、伐立诺他、KI20227或前述物质(例如，前述物质中的2、3、4、5种或更多种)的组合。

实施方案79.如实施方案78所述的方法，其中所述药物组合物不包含弗斯可林、PP1、PP2和曲古抑菌素A。

实施方案80.一种用于促进神经元和/或祖细胞的药物组合物，其包含：选自由弗斯可林、PP1、PP2、曲古抑菌素A、BRD-K38615104、格尔德霉素、手霉素A、米托蒽醌、姜黄素、阿伏西地、伐立诺他、KI20227或前述物质的组合组成的组的扰动；以及药学上可接受的赋形剂。

实施方案81.如实施方案80所述的药物组合物，其中所述扰动不包括弗斯可林、PP1、PP2和曲古抑菌素A。

实施方案82.一种单位剂型，其包含如实施方案80或81所述的药物组合物。

实施方案83.一种识别用于促进包括成纤维细胞的起始细胞群向神经元和/或祖细胞的转变的候选扰动的方法，所述方法包括：将所述包括成纤维细胞的起始细胞群暴露于扰动；识别所述扰动的扰动特征，所述扰动特征包括一种或多种细胞组分和与每种细胞组分相关联的显著得分，每种细胞组分的所述显著得分量化在所述细胞群暴露于所述扰动之后所述细胞组分的表达的变化与所述细胞群从成纤维细胞到神经元和/或祖细胞的细胞状态的变化之间的关联；以及基于所述扰动特征将所述扰动识别为用于促进包括成纤维细胞的细胞群向神经元和/或祖细胞的转变的候选扰动，其中所述扰动特征为Brn2、Ascl1、Myt1、Zfp941、Taf5B、St18、Zkscan16、Camta1和Arnt2中一种或多种的活性增加和/或Ascl1、Atf3、Rorc、Scx、Satb1、Elf3和Fos中一种或多种的活性降低。

IV.实施例0、1、2和3-在分化成神经元和肌细胞的小鼠胚胎成纤维细胞中识别因果关系并控制细胞命运

下列实施例验证上面第II部分和第III部分中介绍的方法。更详细地，实施例表明第II部分和第III部分的方法准确地识别已知影响细胞状态转变轨迹的基因和/或扰动的能力。此外，以下讨论的实施例表明第II部分和第III部分的方法生成可以用于控制细胞状态转变轨迹的新生物学理解的能力。具体地，实施例表明第II部分和第III部分的方法识别先前未知的影响细胞状态转变的因子(例如，基因和扰动)的能力。

下面讨论的实施例将第II部分和第III部分的方法应用于公开可用的数据和体外实验数据的组合，以验证影响细胞状态转变轨迹的几种已知和先前未知的因子(例如，基因和扰动)。将第II部分和第III部分的方法应用于公开可用的数据和体外实验数据的组合的结果示于图4B至图5A和图7A至图9中。

这些结果中的一些也仅使用体外实验数据来验证。这种体外验证的结果示于图6中。体外实验数据通过根据下面第IV.A部分中讨论的方案生长和测量细胞来获得。

IV.A.实施例0：体外细胞处理和数据集采集

这部分描述用于上文提及的体外实验的方案。将来自这项体外实验的数据与公开可用的数据合并，以生成图4B至图5A和图7A至图9，并独立地用于生成图6。

本部分将第II部分中描述的通用方案应用于评价分化成神经元或肌细胞的小鼠胚胎成纤维细胞(MEF)的特定实施例。在这项特定实施例中，神经元是谱系内细胞，肌细胞是谱系外细胞，并且MEF是“祖”细胞。所述方案还包括额外的步骤，包括基因Ascl1的慢病毒过表达和扰动介导。

MEF培养基是在达尔贝科改进的依格尔培养基(Dulbecco’s Modified EagleMedium；DMEM)中的10％胎牛血清(FBS)、1x Glutamax、1x非必需氨基酸、Pen/Strep和β-巯基乙醇。神经元培养基是DMEM/F12、N2、B27、1x Glutamax和25μg/ml胰岛素。

所遵循的方案列举如下：

第0天：将1百万个MEF细胞解冻到10cm板中的MEF培养基中。

第1天：以20K/孔接种到24孔板中。

如果适用的话，同时用Ascl1病毒离心感染(spin infect)(感染复数(MOI)8)。在MEF培养基(250μl/孔)和8μg/ml聚凝胺的存在下，在32℃下以2000rpm离心1小时。

执行单细胞核糖核酸(RNA)测序(scRNA-seq)以获得每个细胞的d2数据集。

第2天：改变培养基以洗掉用于病毒实验的聚凝胺(MEF培养基)。

对于扰动实验，添加小分子(重新悬浮在二甲亚砜(DMSO)或乙醇中)。

第3天：将培养基改变为神经元培养基。

对于扰动实验，添加分子(重新悬浮于DMSO或乙醇中)。

第5天：半培养基改变(如果适用的话，添加小分子)

第8天：半培养基改变(如果适用的话，添加小分子)

第9天：半培养基改变(如果适用的话，添加小分子)

第11天：半培养基改变(如果适用的话，添加小分子)

第13天：半培养基改变(如果适用的话，添加小分子)

第15天：固定板并用Map2和Tuj1抗体染色。通过扫描每个孔在Molecular DevicesHCI IXM4或其他高内涵成像显微镜上成像。量化每孔Map2/Tuj1阳性神经元的数目。

IV.B.实施例1、2和3：体外细胞处理和数据集采集

图4A描绘根据一个实施方案的在一段时间内跟踪所诱导的细胞状态转变的轨迹的时间线。更具体地，图4A描绘在23天时间段(第0天至第22天)内跟踪诱导的MEF转变轨迹的时间线。

如图4A中所示，在23天时间段的第0天，获得MEF。在替代实施方案中，可以根据类似方法研究任何单细胞的转变轨迹。例如，在替代实施例中，可以根据类似方法研究小鼠胚胎成血细胞的转变轨迹。

在23天时间段的第0天，用一种或多种适当的转录因子转导MEF群中的每个MEF。如图4A中所示，仅Ascl1或Brn2、Ascl1和Myt1l(统称为BAM转录因子)在MEF中过表达。具体地，在使用上述第IV.A部分的方案生成图6的体外实验中，仅Ascl1在MEF中过表达。相反，为了生成应用第II部分和第III部分的方法以生成图4B至图5A和图7A至图9的公开可用的数据，Brn2、Ascl1和Myt1l中的每一种在MEF中过表达。

在本文公开的实施方案中，在慢病毒递送之后，Ascl1的诱导型表达强制Ascl1转录因子的表达。在替代实施方案中，任何替代手段可以强制一种或多种转录因子的表达。例如，在替代实施方案中，转座子、mRNA递送或另一类型的病毒递送可以强制一种或多种转录因子的表达。

已知BAM转录因子中的一种或多种的强制表达导致强制的MEF中的一种或多种更通常转变成小鼠“祖”细胞、小鼠神经元和/或小鼠肌细胞。具体地，如文献中已知，Ascl1引发诱导MEF转变成小鼠“祖”细胞，单独Ascl1的表达诱导小鼠“祖”细胞转变成小鼠神经元和小鼠肌细胞，并且Brn2和Myt1l的表达诱导小鼠“祖”细胞转变成小鼠神经元。然而，这种由BAM转录因子中的一种或多种诱导细胞状态转变不以100％的效率发生。具体地，如文献中已知，BAM转录因子以20％的效率诱导MEF向小鼠神经元的转变。换句话说，尽管表达了BAM转录因子中的一种或多种，但一些细胞可能无法如预期的那样转变。在一些实施方案中，这种失败的转变称为失败的重编程。

在23天时间段内监测其中强制表达BAM中的一种或多种的小鼠细胞。更具体地，对于其中强制Ascl1表达的小鼠细胞，在23天时间段期间的第2天、第5天和第22天获得群体中小鼠细胞的每个单小鼠细胞的单细胞RNA测序(scRNA-seq)测量。替代地，对于其中强制所有BAM因子表达的小鼠细胞，仅在23天时间段期间的第22天获得群体中小鼠细胞的每个单小鼠细胞的scRNA-seq测量。

在替代实施方案中，RNA测序测量可以以任何频率在任何数目的时间点下进行。更具体地，为了准确地捕获细胞状态转变轨迹，进行RNA测序测量的时间点理想地通常对应于一个或多个转变轨迹发散的时间点。在特定日对单细胞进行RNA测序测量包括在所述特定日量化单细胞中的mRNA表达。换句话说，在特定日对单细胞进行RNA测序测量包括在所述特定日对单细胞中每种mRNA转录物的计数。此外，因为每种mRNA转录物与特定基因相关联，所以在特定日单细胞的RNA测序测量包括在所述特定日单细胞中基因表达的量化。然而，在实践中，细胞在其细胞状态转变的状态下将通常不完全同质，且因此预测在给定日对细胞状态转变的测量以捕获细胞在细胞状态转变的各个阶段的分布。

将在MEF中过表达Ascl1的体外方案用于执行图6中所描绘并在下文详细描述的验证实验。另外，将自在MEF中过表达Ascl1的体外方案获得的基因表达测量与自所有BAM因子都过表达的MEF的公开可用的基因表达测量合并。然后将所述体外和公开可用的数据池用于生成图4B至图5A和图7A至图9中描绘的数据。如上所述，这些图既用于验证第II部分和第III部分的方法准确地识别影响细胞状态转变的基因的能力，也用于表明第II部分和第III部分中描述的方法生成可用于控制细胞状态转变的轨迹并因此控制细胞命运的新生物学理解的能力。

IV.C.实施例1：验证文献识别的转变的降维

如上所讨论，将在第2天、第5天和第22天自仅过表达Ascl1的MEF获得的基因表达测量与在第22天自过表达所有BAM因子的MEF获得的公开可用的基因表达测量合并。使用上面在第II部分中描述的方法，对于测量细胞中基因表达的每一日，使用每个细胞的基因表达测量生成转录物向量r_i的数据集。将每个转录物向量r_i与在获得转录物向量r_i中所含的基因表达测量的特定日的特定细胞相关联。转录物向量r_i中的每种转录物与细胞基因组中的特定基因相关联，并且转录物向量r_i中的每个条目的值代表与转录物向量r_i相关联的在特定日的转录物的测序深度(转录物计数)。

如上面关于第III.C.部分所讨论，对编码在每个测量日每个细胞的基因表达测量的数据集执行降维。在这项实施例中，使用主成分分析(PCA)以执行降维并产生降维的矩阵M。

接着，对矩阵M执行流形学习以生成进一步降维的矩阵N。在这项实施例中，使用力导向布局算法以生成矩阵N。矩阵N描绘在补充表1中。矩阵N也被绘制成图4B中描绘的力导向布局流形。图4B的流形中的绘制数据对应于补充表1中的矩阵N数据。注意，矩阵N主要用于可视化目的，并且在一些实施方案中不需要生成。换句话说，在一些实施方案中，不对矩阵M执行流形学习。

如上所讨论，流形中的每个点与矩阵N的一行相关联，所述行与测量细胞的基因表达的四天中的特定日的细胞中的特定细胞相关联。此外，每个点与在特定日对特定细胞进行测量的基因转录物计数的数据集相关联。在解释图4B的流形时，因为流形的一行中维度x和维度y的值是基于与所述行相关联的那日细胞的基因转录物计数，所以相对于其他点，且因此相对于其他日的其他细胞，流形中的点的定位反映流形中与所述点相关联的那日细胞的基因转录物计数。因此，视觉观察所述流形使得可以观察到在23天时间段内细胞的各种基因的变化的基因转录物计数。

在图4B中描绘的流形中，所有点都由具有相同颜色的相同形状表示。因此，在图4B的流形中，由点提供的唯一可辨别的信息是其在流形中的位置(x,y)。然而，在图4B中不能辨别出逐个基因转录物计数和获得每个点的基因转录物计数的特定日。如下面进一步详细讨论，图5A的流形中的点的形状是变化的，以部分地指示获得每个点且因此每个细胞的基因转录物计数的日。类似地，图5B的流形中的点的阴影是变化的，以指示在每个测量日每个点且因此每个细胞的基于逐个基因的基因转录物计数。

图5A描绘根据一个实施方案的图4B的流形。在图5A中所描绘的流形的实施方案中，流形中的每个点用测量与所述点相关联的细胞的转录因子表达的那日和细胞处于转变过程中的定性阶段来标记。例如，图5A中的流形中用方形标记的点指示所述点与第5天的细胞相关联，所述细胞被定性地表征为早期诱导的神经元(iN)细胞。

通过用测量与所述点相关联的细胞的基因表达的日和细胞转变的定性阶段标记流形中的每个点，可以识别转变轨迹。例如，两个不同的转变轨迹由在图5A中的流形下面的箭头指示。一个识别的轨迹描绘出MEF细胞向小鼠神经元转变的轨迹。图5A中的另一识别的轨迹描绘出MEF细胞向小鼠肌细胞的转变轨迹。

通过识别在沿着转变轨迹的不同阶段的点(例如，细胞)之间的基因表达的差异，可以识别有助于细胞沿着特定轨迹转变的基因。但是也许更重要的是，通过识别在两个或更多个转变轨迹发散的接合点处的点(例如，细胞)之间的基因表达的差异，可以识别有助于转变轨迹中的所述发散的基因。然后可以预测这些识别的基因与特定转变轨迹和/或阶段相关联。例如，如果在标记为第5天早期iN细胞的细胞中识别出基因A的表达水平相对于标记为第5天早期肌细胞的细胞增加，则可以假设基因A的表达与从MEF向小鼠神经元的转变轨迹相关联，反之与从MEF向小鼠肌细胞的转变轨迹相关联。

如上所讨论，图5A确立基于细胞转变过程期间的量化时间点和细胞转变过程的定性阶段两者的转变轨迹。然而，图5A没有指示各点(例如，在不同时间点的细胞)的基于逐个基因的基因表达的水平。因此，基于图5A中描绘的信息，不可能预测哪些基因与哪些转变轨迹相关联。然而，如上所述，图5B的流形中的点的阴影是改变的，以指示每个点的基于逐个基因的相对基因转录物计数。基于这种对这些点(例如，在不同时间点的细胞)的基于逐个基因的基因表达的描述，可以预测哪些基因与哪些转变轨迹相关联。

图5B描绘根据一个实施方案的描绘为图4B的流形中的点的每个测量日(对于Ascl1为第2天、第5天和第22天，且对于Brn2和Myt1l为第22天)每个细胞中三种BAM转录因子中每种的表达水平。具体地，图5B描绘图4B的流形的三个不同形式。图5B中描绘的第一种形式的流形描绘流形的每个点的Ascl1转录因子的表达水平，图5B中描绘的第二种形式的流形描绘流形的每个点的Brn2转录因子的表达水平，且图5B中描绘的第三种形式的流形描绘流形的每个点的Myt1l转录因子的表达水平。

在图5B中，所述流形中的点(例如，在一时间点的细胞)的转录因子的表达水平被测量为转录因子的每一百万个映射读段(FPKM)每一千碱基转录物的片段的对数。相对较低的log(FPKM)值指示相对较低的转录因子表达水平。另一方面，相对较高的log(FPKM)值指示相对较高的转录因子表达水平。在图5B的流形中，通过使点的阴影相对较深指示点的相对较低的转录因子表达水平(例如，相对较低的log(FPKM)值)。相反，通过使点的阴影相对较浅指示点的相对较高的转录因子表达水平(例如，相对较高的log(FPKM)值)。

通过比较图5A中描绘的转变轨迹和图5B的描绘BAM转录因子的基于逐个基因的表达水平的流形，识别出影响细胞沿着特定转变轨迹进展的转录因子。

首先转到描绘在23天时间段期间的第0天Ascl1转录因子的表达的图5B的流形，仅用Ascl1或BAM转导小鼠细胞。因此，第0天细胞不以可检测水平表达Ascl1。这些不表达Ascl1的第0天细胞是MEF。然后，在23天时间段的第2天，Ascl1以相对低的水平表达，如通过与第2天细胞相关联的点的相对暗的阴影所描绘。这些表达Ascl1的第2天细胞开始沿着图5A中所示的转变轨迹进展。具体地，一些第2天细胞成为小鼠祖细胞，一些第2天细胞成为从MEF到神经元的转变轨迹上的中间细胞，并且一些第2天细胞成为从MEF到肌细胞的转变轨迹上的诱导细胞。类似地，在23天时间段的第5天，第5天细胞中Ascl1的表达相对于第2天细胞增加，如通过与第5天细胞相关联的点的相对较浅的阴影所描绘。Ascl1表达增加的这些第5天细胞进一步沿着图5A中所示的转变轨迹进展。具体地，从MEF向神经元的转变轨迹上的第5天细胞成为中间和早期iN细胞，而从MEF向肌细胞转变轨迹上的第5天细胞成为早期肌细胞。最后，在23天时间段的第22天，相对于第5天细胞，第22天细胞中Ascl1的表达增加或保持相同。表达Ascl1的这些第22天细胞进一步沿着图5A中所示的转变轨迹进展。具体地，从MEF向神经元的转变轨迹上的第22天细胞变成成熟小鼠神经元，而从MEF向肌细胞的转变轨迹上的第22天细胞变成成熟小鼠肌细胞。在第22天没有小鼠祖细胞剩余。

这些在诱导Ascl1表达之后对MEF细胞状态转变的观察结果遵循文献中已知的趋势。具体地，如上面简要讨论，Ascl1引发诱导MEF转变为小鼠祖细胞，并且单独的Ascl1表达诱导小鼠祖细胞转变为小鼠神经元和小鼠肌细胞。如上面关于图5B的Ascl1流形所讨论，在第0天MEF中Ascl1的强制表达之后，MEF转变为小鼠祖细胞、小鼠肌细胞和小鼠神经元中的任一种。

接着转向描绘Brn2转录因子的表达的图5B的流形，在23天时间段的第0天，用BAM因子转导MEF。仅在23天时间段期间的第22天测量Brn2表达。如图5B中所示，在23天时间段的第22天，第22天小鼠神经元强烈表达Brn2。因此，可以推断Brn2的表达与MEF细胞沿着MEF向小鼠神经元的转变轨迹的进展相关联。

在诱导Brn2表达之后MEF细胞状态转变的这种观察结果遵循文献中已知的趋势。具体地，如上面简要讨论，Brn2表达诱导小鼠祖细胞转变为小鼠神经元。如上面关于图5B的Brn2流形所讨论，表达Brn2的MEF转变为小鼠神经元。

最后转向描述Myt1l转录因子的表达的图5B的流形，在23天时间段的第0天，用BAM因子转导MEF。仅在23天时间段期间的第22天测量Myt1l表达。在23天时间段的第22天，第22天小鼠神经元强烈表达Myt1l。因此，与Brn2转录因子类似，可以推断Myt1l的表达与MEF细胞沿着从MEF到小鼠神经元的转变轨迹的进展相关联。

在诱导Myt1l表达之后MEF细胞状态转变的这种观察结果遵循文献中已知的趋势。具体地，如上面简要讨论，Myt1l表达诱导小鼠祖细胞转变为小鼠神经元。如上面关于图5B的Myt1l流形所讨论，表达Myt1l的MEF转变为小鼠神经元。

因此，通过使用第II部分和第III部分的方法生成图5B中的Ascl1、Brn2、Myt1l流形获得的这些观察结果与文献中记载的观察结果一致。Ascl1辅助的转变、Brn2辅助的转变、Myt1l辅助的转变的观察结果的这种一致性有助于验证第II部分和第III部分的方法准确地识别影响细胞状态转变的基因的能力。

为了进一步验证第II部分和第III部分的方法准确地识别影响细胞状态转变的基因的能力，执行体外实验以证实基于图5A和图5B的流形得到的上述观察结果。具体地，执行体外实验以证实上述观察结果，即Ascl1表达诱导MEF转变为小鼠“祖”细胞、小鼠神经元和/或小鼠肌细胞。

体外实验根据上面在第IV.A部分中所列的方案执行。如上所讨论，在所述方案中，在MEF中仅强制Ascl1的表达。在23天时间段的第0天强制MEF中Ascl1转录因子的表达之后，在23天时间段的第15天，用DAPI、Map2抗体和Tuj1抗体染色小鼠细胞。已知DAPI染色DNA中富含腺嘌呤-胸腺嘧啶的区域。因此，DAPI染色细胞核。已知Map2抗体和Tuj1抗体染色神经细胞。因此，通过用DAPI、Map2抗体和Tuj1抗体染色小鼠细胞，可识别出相对于总体小鼠细胞的量的小鼠神经元的量，并且因此可以确定Ascl1过表达对MEF转变的影响。在体外实验中，强制Ascl1转录因子表达的这组小鼠细胞在本文中称为实验组。

作为体外实验中的阳性对照组，还用DAPI、Map2抗体和Tuj1抗体对仅包括小鼠神经元的小鼠细胞的样本染色。作为阴性对照组，还用DAPI、Map2抗体和Tuj1抗体对没有强制Ascl1表达的MEF细胞的样本染色。

在用DAPI、Map2抗体和Tuj1抗体对实验组、阳性对照组和阴性对照组染色之后，在Molecular Devices HCI IXM4上对用每种染料染色的每个组进行成像。所得图像示于图6中。图6描绘根据一个实施方案的已经用DAPI、Map2抗体和Tuj1抗体染色的强制Ascl1表达的MEF细胞的图像，用DAPI、Map2抗体和Tuj1抗体染色的小鼠神经元的图像，和用DAPI、Map2抗体和Tuj1抗体染色的没有强制Ascl1表达的MEF细胞的图像。

首先转向阴性对照组的图像，如图6中所示，可见没有强制Ascl1表达的DAPI染色的MEF细胞的细胞核，但在描绘没有强制Ascl1表达的MEF细胞的Map2和Tuj1染色的图像中几乎没有神经元。换句话说，尽管样本中存在许多小鼠细胞(特别是MEF)，但不存在神经元。这是预期的结果，因为在所述样本的MEF细胞中没有强制Ascl1表达，并且因此不诱导MEF细胞向神经元的转变。

接着转向阳性对照组的图像，如图6中所示，可见DAPI染色的小鼠神经元的细胞核，并且这些相同的小鼠神经元在描绘小鼠神经元的Map2和Tuj1染色的图像中也是可见的。换句话说，阳性对照样本中的所有细胞都被准确地识别为神经元。

最后转向实验组的图像，如图6中所示，可见强制Ascl1表达的DAPI染色的MEF细胞的细胞核。此外，这些DAPI染色的细胞中的一些也用Map2和Tuj1染色，指示这些选择的细胞是小鼠神经元。因此，可以推断Ascl1的强制表达与MEF向小鼠神经元的转变的诱导相关联。

图6的体外实验证实，在MEF细胞中Ascl1的强制表达可以导致MEF细胞向小鼠神经元的转变，如上面关于图5A和图5B所述的计算机实验中观察到的。图5A和图5B中的观察结果的这种证实进一步验证第II部分和第III部分的方法准确地识别影响细胞状态转变的基因的能力。

IV.D.实施例2：聚类

如上面在第III.C.部分中所讨论，在通过降维生成矩阵M之后，执行聚类以将矩阵M中的数据分组，生成聚类C_j的集。聚类C_j的集中的每个聚类包括点的集。

图7A描绘根据一个实施方案的图4B的流形，其中流形中的点被分组到通过聚类识别的聚类C_j中。在图7A的实施方案中，使用Louvain社区检测，特别是GenLouvain社区检测执行聚类。如图7A中所见，聚类识别出流形中的点的10个独特聚类C_j。

通常，聚类基于与点相关联的值的阈值相似性将流形中的点分配给给定聚类，例如，它们在流形的降维空间中的位置、它们的相关联的基因转录物计数等。特定地，对于图7A的流形，聚类基于流形中的点之间的阈值相似性将点分配到给定聚类。例如，图7A的流形中包括在组8中的点都可能与小鼠神经元或在遗传上类似于小鼠神经元的其他细胞相关联。类似地，图7A的流形中包括在组9中的点都可能与小鼠肌细胞或在遗传上类似于小鼠肌细胞的其他细胞相关联。

如上所讨论，除了能够准确识别文献中已知诱导细胞状态转变的基因之外，第II部分和第III部分的方法还允许识别文献中未知的影响细胞状态转变的因子(例如，基因和扰动)。图7B描绘根据一个实施方案的在文献中已知和未知的与MEF向小鼠神经元(反之小鼠肌细胞)的转变相关联的转录因子。特别地，图7B描绘当在小鼠“祖”细胞中低表达时与抑制小鼠“祖”细胞向小鼠肌细胞转变相关联的转录因子，和当在小鼠“祖”细胞中过表达时与小鼠“祖”细胞向小鼠神经元转变相关联的转录因子。通过在小鼠“祖”细胞中低表达与抑制小鼠“祖”细胞向小鼠肌细胞的转变相关联的转录因子，以及通过在小鼠“祖”细胞中过表达与诱导小鼠“祖”细胞向小鼠神经元的转变相关联的转录因子，可以诱导小鼠“祖”细胞向小鼠神经元(反之小鼠肌细胞)的转变。

为了识别与第一细胞状态向替代的特定细胞状态的转变或从第一细胞状态向任何其他细胞状态的转变相关联的转录因子，可以使用聚类。具体地，识别与第一细胞状态相关联的聚类中的点相关联的基因转录物计数，并将其与替代的特定细胞状态或与除第一细胞状态以外的任何细胞状态相关联的另一聚类中的点相关联的基因转录物计数进行比较。聚类之间基因转录物计数的这项比较可以使用任何差异表达检验(例如均值差检验、Wilcoxon秩和检验、t检验、逻辑回归和广义线性模型)执行。

作为实例，为了识别与从MEF到小鼠神经元的转变相关联的转录因子，使用关于图7A讨论的聚类。首先，为了识别当在小鼠“祖”细胞中过表达时与小鼠“祖”细胞向小鼠神经元的转变相关联的转录因子，识别图7A的与小鼠神经元相关联的聚类(例如，图7A的聚类8)中包括的点相关联的基因转录物计数，并将其与图7A的与小鼠神经元不相关的替代聚类中包括的点相关联的基因转录物计数进行比较。在图7B的实施方案中，使用Wilcoxon秩和检验执行这项比较。然而，在替代实施方案中，可以使用任何其他统计分析方法来执行比较。基于这项比较，预测在图7A的与小鼠神经元相关联的聚类中的点相关联的细胞中过表达的基因与小鼠“祖”细胞向小鼠神经元的转变相关联。由这些基因的转录和翻译产生的转录因子被识别为图7B中当在小鼠“祖”细胞中过表达时与小鼠“祖”细胞向小鼠神经元的转变相关联的转录因子。

类似地，为了识别当在小鼠“祖”细胞中低表达时与抑制小鼠“祖”细胞向小鼠肌细胞的转变相关联的转录因子，识别图7A的与小鼠肌细胞相关联的聚类(例如，图7A的聚类9)中包括的点相关联的基因转录物计数，并将其与图7A的与小鼠肌细胞不相关的替代聚类中包括的点相关联的基因转录物计数进行比较。如上所述，在图7B的实施方案中，使用Wilcoxon秩和检验进行这项比较。然而，在替代实施方案中，可以使用任何其他统计分析方法来执行比较。基于这项比较，预测在图7A的与小鼠肌细胞相关联的聚类中的点相关联的细胞中低表达的基因与抑制小鼠“祖”细胞向小鼠肌细胞的转变相关联。由这些基因的转录和翻译产生的转录因子被识别为图7B中当在小鼠“祖”细胞中低表达时与抑制小鼠“祖”细胞向小鼠肌细胞的转变相关联的转录因子。

如图7B中所示，当在小鼠“祖”细胞中过表达时，与小鼠“祖”细胞向小鼠神经元的转变相关联的转录因子包括Zfp941、Brn2、Myt1l、Taf5B、St18、Zkscan16、Camta1和Arnt2。当在小鼠“祖”细胞中低表达时，与抑制小鼠“祖”细胞向小鼠肌细胞转变相关联的转录因子包括Atf3、Rorc、Scx、Satb1、Elf3和Fos。如上面关于实施例1所详细讨论，文献中已知Brn2和Myt1l转录因子与诱导小鼠“祖”细胞向小鼠神经元的转变相关联。然而，在文献中尚不知道图7B中描绘的剩余转录因子与MEF向小鼠神经元(反之小鼠肌细胞)的转变相关联。因此，通过使用上述第II部分和第III部分的方法，可以识别文献中已知和未知诱导细胞遵循特定转变轨迹的基因和/或转录因子。然后，这些识别的转录因子可以用来控制细胞状态转变，并因此控制细胞命运。

IV.E.实施例3：扰动诱导的转变

如第III.D部分和第III.E部分中所讨论，除了能够识别影响细胞状态转变的基因和转录因子之外，第II部分和第III部分的方法还能够识别影响细胞状态转变的扰动，例如小分子。首先，为了识别诱导细胞遵循特定转变轨迹的扰动，识别可能的转变轨迹。

图8A描绘根据一个实施方案的关于图4A所讨论的MEF细胞的转变轨迹的映射。为了构建这种转变轨迹的映射，使用图4B的流形。具体地，将与相似的基因转录物计数相关联的流形中的点分组为各状态(在图8A中表示为圆圈)。位于状态之间的具有可变基因转录物计数的点被用于识别状态之间的转变路径(在图8A中表示为线)。可以使用图8A中描绘的转变轨迹的映射识别通过改变细胞中的基因表达并由此导致细胞从转变轨迹的映射中的一种状态进展到另一种状态而影响细胞的转变轨迹的扰动。在一些实施方案中，为了生成图8A中描绘的转变轨迹的映射，可以使用经由一组规范标记物基因的细胞分型。在这样的实施方案中，预测被识别为相同细胞类型的细胞是沿着转变轨迹的映射中的相同转变轨迹的细胞。在替代实施方案中，为了生成图8A中描绘的转变轨迹的映射，识别并预测图4B的流形的分支以定义转变轨迹的映射中的不同转变轨迹。

图8B描绘根据本公开的一个实施方案的用于识别影响细胞的转变轨迹的扰动的第III.D.部分中描述的方法的一个实施例，所述扰动通过改变细胞中的基因表达使得细胞在图8A的转变轨迹图中从第一状态转变到第二状态来影响细胞的转变轨迹来实现。具体地，为了识别当暴露于细胞时引起细胞改变基因表达使得细胞从第一状态转变为第二状态的扰动，图8B的方法将细胞从第一状态转变为第二状态之后细胞中基因表达的变化与媒介物细胞暴露于扰动之后媒介物细胞中基因表达的变化进行比较。如果细胞从第一状态转变为第二状态之后基因表达的变化与媒介物细胞暴露于扰动之后媒介物细胞中基因表达的变化匹配(例如，等效或相似)，则可以预测扰动通过改变细胞中的基因表达诱导暴露于扰动的细胞从第一状态转变为第二状态。这样，可以预测扰动与细胞状态转变的特定轨迹相关联。

具体地转向图8B中描绘的实施例，图8B描绘处于状态1的细胞、处于状态2的细胞、媒介物细胞和暴露于小分子扰动的媒介物细胞的六种不同基因(基因1至6)的基因表达水平。给定基因的基因表达水平通过阴影来描绘。波尔卡-点(Polka-dot)阴影指示不可检测的基因表达，而交叉影线阴影指示可检测的基因表达。换句话说，在图8B的实施方案中，基因表达是在二元(可检测的基因表达或不可检测的基因表达)基础上测量的。然而，在替代实施方案中，基因表达水平不是在二元基础上测量的，而是在更加定量的基础上测量的。

转到检查每个细胞中每种基因的基因表达水平，对于处于状态1的细胞，基因1至3的表达是不可检测的，但基因4至6的表达是可检测的。相反，对于处于状态2的细胞，基因4至6的表达是不可检测的，但基因1至3的表达是可检测的。对于媒介物细胞，基因1至3的表达是不可检测的，但基因4至6的表达是可检测的。相反，对于暴露于扰动的媒介物细胞，基因4至6的表达是不可检测的，但基因1至3的表达是可检测的。

接着，对于每种基因，将处于状态1的细胞中的基因表达水平与处于状态2的细胞中的基因表达水平进行比较，以确定细胞从状态1转变为状态2之后基因表达水平的变化。如通过与基因1至3相关联的深色交叉影线阴影所指示，细胞从状态1转变为状态2之后基因1至3的表达增加。另一方面，如通过与基因4至6相关联的深色波尔卡-点阴影所指示，细胞从状态1转变到状态2之后基因4至6的表达降低。

类似地，对于每种基因，将媒介物细胞中的基因表达水平与暴露于扰动的媒介物细胞中的基因表达水平进行比较，以确定媒介物细胞暴露于扰动之后基因表达水平的变化。如通过与基因1至3相关联的深色交叉影线阴影所指示，在将媒介物细胞暴露于扰动之后，基因1至3的表达增加。另一方面，如通过与基因4至6相关联的深色波尔卡-点阴影所指示，在将媒介物细胞暴露于扰动之后，基因4至6的表达降低。

最后，将细胞从状态1转变为状态2之后细胞中基因表达的变化与媒介物细胞暴露于扰动之后媒介物细胞中基因表达的变化进行比较。为了比较转变的细胞中基因表达的变化与媒介物细胞中基因表达的变化，可以使用任何差异表达检验。例如，可以使用均值差检验、Wilcoxon秩和检验、t检验、逻辑回归和广义线性模型比较算法中的任一种。

如图8B中所示，基因1至3的表达在从状态1转变为状态2的细胞中以及暴露于扰动的媒介物细胞中都增加。另外，基因4至6的表达在从状态1转变为状态2的细胞中以及暴露于扰动的媒介物细胞中都降低。基于从状态1转变为状态2的细胞中以及暴露于扰动的媒介物细胞中基因表达变化的这种相似性，可以预测，通过改变细胞中的基因表达，处于状态1的细胞暴露于扰动可以诱导处于状态1的细胞转变为状态2。因此，可以使用扰动来控制细胞从状态1到状态2的转变。

上面关于图8B描述的方法涉及与诱导细胞从一般状态1转变到一般状态2相关联的扰动的识别。因此，上面关于图8B描述的方法可以用于识别诱导细胞从图8A的转变轨迹的映射中的任何状态转变成任何其他状态相关联的扰动。然而，不是参照图8A的转变轨迹的映射中的一般状态，图9识别图8A的转变轨迹的映射中的特定状态，然后识别与诱导或抑制细胞从图9中的一个识别状态转变到另一识别状态，使得细胞变成小鼠神经元(反之小鼠肌细胞)相关联的特定扰动。具体地，图9识别MEF状态、小鼠“祖”细胞状态、小鼠肌细胞状态和小鼠神经元状态，然后识别与诱导或抑制细胞从这些状态中的一种转变到另一种，使得细胞变成小鼠神经元(反之小鼠肌细胞)相关联的特定扰动。

图9描绘根据一个实施方案的与MEF向小鼠神经元(反之小鼠肌细胞)的转变相关联的小分子扰动。特别地，图9描绘暴露于MEF时与MEF向小鼠“祖”细胞的转变相关联的小分子扰动的集，暴露于小鼠“祖”细胞时与抑制小鼠“祖”细胞向小鼠肌细胞的转变相关联的小分子扰动的集，和暴露于小鼠“祖”细胞时与小鼠“祖”细胞向小鼠神经元的转变相关联的小分子扰动。通过将MEF暴露于与诱导MEF向小鼠神经元转变相关联的扰动，将MEF暴露于与抑制小鼠“祖”细胞向小鼠肌细胞转变相关联的扰动，以及将MEF暴露于与诱导小鼠“祖”细胞向小鼠神经元转变相关联的扰动，可以诱导MEF向小鼠神经元(反之小鼠肌细胞)转变。

通过实施上面关于图8B所述的方法识别图9中描绘的每种小分子扰动。例如，为了识别与MEF向小鼠“祖”细胞的转变相关联的小分子扰动BRD-K38615104，使用图8B的方法确定MEF向小鼠“祖”细胞转变之后MEF中基因表达的变化与媒介物细胞暴露于BRD-K38615104之后媒介物细胞中基因表达的变化相匹配(例如，等效或相似)。并且因此，预测BRD-K38615104通过改变MEF中的基因表达来诱导MEF向小鼠“祖”细胞的转变。类似地，为了识别与抑制小鼠“祖”细胞向小鼠肌细胞转变相关联的小分子扰动达沙替尼(Dasatinib)，使用图8B的方法确定小鼠“祖”细胞向小鼠肌细胞转变之后小鼠“祖”细胞中基因表达的变化是媒介物细胞暴露于达沙替尼之后媒介物细胞中基因表达变化的逆转。并且因此，预测达沙替尼抑制小鼠“祖”细胞向小鼠肌细胞的转变。

如图9中所见，暴露于MEF时与MEF向小鼠“祖”细胞的转变相关联的小分子扰动包括BRD-K38615104、格尔德霉素、手霉素A、米托蒽醌、姜黄素和曲古抑菌素A。暴露于小鼠“祖”细胞时与小鼠“祖”细胞向小鼠神经元的转变相关联的小分子扰动包括阿伏西地、伐立诺他、KI20227、弗斯可林、PP1和PP2。暴露于小鼠“祖”细胞时与抑制小鼠“祖”细胞向小鼠肌细胞的转变相关联的小分子扰动包括阿伏西地、格尔德霉素、奎纳克林(Quinacrine)、CGP-60474和达沙替尼。

图9中识别的小分子扰动中的两种，阿伏西地和格尔德霉素，与通过诱导和/或抑制小鼠细胞在两种不同状态下的转变来诱导小鼠细胞向小鼠神经元的转变相关联。具体地，如图9中所示，阿伏西地与诱导小鼠“祖”细胞向小鼠神经元的转变和抑制小鼠“祖”细胞向小鼠肌细胞的转变两者相关联。类似地，格尔德霉素与诱导MEF向小鼠“祖”细胞的转变和抑制小鼠“祖”细胞向小鼠肌细胞的转变两者相关联。因此，通过将MEF暴露于阿伏西地和格尔德霉素，可以预测MEF转变为小鼠神经元。

在图9中识别的一些小分子扰动在文献中已知与指示的转变轨迹相关联。具体地，在文献中已知弗斯可林、PP1和PP2与诱导小鼠“祖”细胞向小鼠神经元的转变相关联。类似地，在文献中已知曲古抑菌素A与诱导MEF向小鼠“祖”细胞的转变相关联。通过图8B的方法和文献中已知的信息进行的预测的这种一致性表明图8B的方法准确地识别影响细胞状态转变的扰动的能力。

除了准确地识别文献中已知的影响细胞状态转变的扰动之外，图8B的方法还能够识别文献中未知影响细胞状态转变的扰动。具体地，在文献中未知图9中描绘的剩余小分子扰动与MEF向小鼠神经元(反之小鼠肌细胞)的转变相关联。因此，通过使用上面关于图8B描述的方法，可以识别在文献中已知和未知诱导细胞遵循特定的转变轨迹的扰动。然后，这些识别的扰动可以用于控制细胞状态转变，并因此控制细胞命运。

V.实施例4

本实施例的实验表明用于促进神经元和/或祖细胞的方法。在本文所述的实验中，将起始成纤维细胞(即，原代小鼠成纤维细胞)群暴露于包含Ascl1过表达慢病毒的组合物。48小时之后，将化合物(例如弗斯可林、格沙替尼、PD-0325901)或媒介物(即，DMSO或乙醇)添加到组合物中。基于阳性Tuj1/Map2信号和神经元形态学手动计数神经元的总数。对于每项实验，通过DMSO处理的孔中相对于所述实验的神经元的数目将每个处理条件的神经元的总数标准化。如图10A和10B中所示，在这些实验中检测到从起始成纤维细胞群发展的神经元的存在。取决于添加到组合物中的化合物，神经元总数和神经元百分比两者的倍数变化增加、减少或保持相同。这些实验表明本发明的方法可用于促进来自包括成纤维细胞的起始细胞群的神经元和/或祖细胞。

细胞培养和化合物处理

将第2代原代小鼠胚胎成纤维细胞(MEF)以20,000-45,000/孔(取决于批次)铺板在24孔板上的包含在DMEM中的10％FBS、1x Glutamax、1x MEM非必需氨基酸、1mM丙酮酸钠、0.05U/ml Pen/Strep和55μMβ-巯基乙醇中的MEF培养基中。培养24小时之后，通过离心转染(平板以2000rpm在32℃下离心90分钟)用在含有8μg/ml聚凝胺的MEF培养基中的Ascl1过表达慢病毒感染MEF。关于慢病毒生成参见下文。48小时之后，将培养基更换为含有化合物或媒介物(DMSO或乙醇)的包含DMEM/F12、1％N2、2％B27 1:50、1x Glutamax、25μg/ml胰岛素、0.05U/ml Pen/Strep的神经元培养基。化合物及其浓度选自以下：BI-2536(200nM)、西洛他唑(1000nM)、达布非尼(2500nM)、雌二醇-环戊丙酸盐(2000nM)、EX-527(5000nM)、非德替尼(Fedratinib)(1000nM)、福雷替尼(Foretinib)(200nM)、弗斯可林(5000nM)、格沙替尼(Glesatinib)(2500nM)、靛玉红3肟(2000nM)、KI20227(250nM)、KU 0060648(200nM)、m-3M3FBS(1000nM)、手霉素(800nM)、PD-0325901(5000nM)、PHA-665752(1000nM)、奎纳克林(200nM)、咖马林(Rottlerin)(1000nM)、司美替尼(Selumetinib)(100nM)、曲格列酮(5000nM)和维罗非尼(5000nM)。每2至3天用补充的化合物执行半培养基改变。

免疫荧光染色

在Ascl1感染后第12天，将细胞用4％多聚甲醛固定，渗透化(0.2％Triton X100)并在5％血清(驴、小牛、山羊血清混合物)中封闭，并用兔抗Tuj1(1:1000)和小鼠抗Map2(1:500)抗体在4℃染色过夜，或在室温下染色2小时，然后进行二抗和DAPI染色。

成像和分析

在Molecular Devices ImageXpress Micro上进行成像；自10x物镜取得每孔36个图像。基于阳性Tuj1/Map2信号和神经元形态学手动计数神经元的总数。对于每项实验，对于所述实验通过DMSO处理的孔中的神经元的数目将每个处理条件的神经元的总数标准化。

慢病毒生成

慢病毒通过用包装质粒(SystemsBio，LV510A-1)或类似物和Ascl1过表达质粒(Ascl1 cDNA克隆到Origene慢病毒表达载体登录号PS100064中)经由Mirus TransITLenti转染试剂(Mirus，MIR 6603)转染293T细胞来包装，并在BeckmanCoulter超速离心机中以16,500RPM浓缩1.5小时。只进行90％或更多细胞的慢病毒感染的实验，如通过兔抗Ascl1(1:200；Abcam，ab74065-100UG)免疫荧光染色48小时所判断。

V.实施例5

实施方案1.一种用于预测扰动是否将影响细胞转变的方法，所述方法包括：在包括存储器和一个或多个处理器的计算机系统上：以电子形式访问单细胞转变特征，所述单细胞转变特征代表第一细胞状态与改变的细胞状态之间的差异细胞组分表达的量度，其中所述改变的细胞状态通过从所述第一细胞状态到所述改变的细胞状态的细胞转变而发生，并且其中所述单细胞转变特征包括多种细胞组分的识别以及，对于所述多种细胞组分中的每种相应细胞组分，量化在所述相应细胞组分的表达的变化与所述第一细胞状态与所述改变的细胞状态之间的细胞状态的变化之间的关联的对应第一显著得分；以电子形式访问扰动特征，所述扰动特征代表多个未受扰细胞与暴露于所述扰动的多个受扰细胞之间的差异细胞组分表达的量度，其中所述扰动特征包括所述多种细胞组分的全部或一部分的识别以及对于所述多种细胞组分的所述全部或所述部分中的每种相应细胞组分，量化在(i)所述多个未受扰细胞与所述多个受扰细胞之间的所述相应细胞组分的表达的变化与(ii)所述多个未受扰细胞与所述多个受扰细胞之间的细胞状态的变化之间的关联的对应第二显著得分；以及比较所述单细胞转变特征和所述扰动特征，从而确定所述扰动是否将影响所述细胞转变。

实施方案2.如实施方案1所述的方法，其中访问所述单细胞转变特征包括：基于(i)第一多个第一单细胞细胞组分表达数据集和(ii)第二多个第二单细胞细胞组分表达数据集来确定所述单细胞转变特征，其中：从处于所述第一细胞状态的第一多个细胞的对应单细胞获得所述第一多个第一单细胞细胞组分表达数据集中的每个相应第一单细胞细胞组分表达数据集，并且从处于所述改变的细胞状态的第二多个细胞的对应单细胞获得所述第二多个第二单细胞细胞组分表达数据集中的每个相应第二单细胞细胞组分表达数据集。

实施方案3.如实施方案2所述的方法，其中：所述第一多个单细胞细胞组分表达数据集的每个相应数据集包括第一多个细胞组分向量中的对应细胞组分向量，所述第二多个单细胞细胞组分表达数据集的每个相应数据集包括第二多个细胞组分向量中的对应细胞组分向量，所述第一多个细胞组分向量和所述第二多个细胞组分向量中的每个相应细胞组分向量包含多个元素，所述相应细胞组分向量中的每个相应元素与所述多种细胞组分中的对应细胞组分相关联，并且包括代表所述对应单细胞的所述对应细胞组分的量的对应值，所述对应单细胞由所述第一多个单细胞细胞组分表达数据集和所述第二多个单细胞细胞组分表达数据集的相应数据集代表。

实施方案4.如实施方案3所述的方法，其还包括：对所述第一多个单细胞细胞组分表达数据集和/或所述第二多个单细胞细胞组分表达数据集执行降维以生成多个降维分量；对于所述第一多个细胞组分向量和所述第二多个细胞组分向量中的每个相应细胞组分向量，将所述多个降维分量应用到所述相应细胞组分向量以形成对应降维向量，所述对应降维向量包括所述多个降维分量中的每个相应降维分量的降维分量值，从而形成对应的第一多个降维向量和第二多个降维向量；以及执行聚类以生成聚类C_j的集，每个聚类包含与所述第一多个降维向量和所述第二多个降维向量的子集相对应的多个点；从所述聚类C_j的集的第一聚类识别所述第一多个细胞；以及从所述聚类C_j的集的第二聚类识别所述第二多个细胞，所述方法任选地还包括用所述对应的第一多个降维向量和第二多个降维向量执行流形学习，以识别所述第一多个细胞和所述第二多个细胞中每个细胞相对于每个其他细胞的相对细胞状态。

实施方案5.如实施方案1至4中任一项所述的方法，其中所述多个未受扰细胞是尚未暴露于所述扰动的对照细胞，或者其中所述未受扰细胞是对已经暴露于所述扰动的不相关受扰细胞取的平均值。

实施方案6.如实施方案1至5中任一项所述的方法，所述方法还包括：对所述单细胞转变特征和所述扰动特征进行剪枝以将所述多种细胞组分限于转录因子，任选地在RNA水平上测量。

实施方案7.如实施方案2所述的方法，其中所述确定所述单细胞转变特征包括：使用均值差检验、Wilcoxon秩和检验、t检验、逻辑回归和广义线性模型中的一种来确定在(i)所述第一多个第一单细胞细胞组分表达数据集与所述第二多个第二单细胞细胞组分表达数据集之间的所述多种细胞组分的细胞组分量的差异。

实施方案8.如实施方案1所述的方法，其中所述差异细胞组分表达的量度使用Wilcoxon秩和检验、t检验、逻辑回归和广义线性模型中的一种来量化在(i)第三多个第三单细胞细胞组分表达数据集与(ii)第四多个第四单细胞细胞组分表达数据集之间的细胞组分量的差异，其中：从所述多个未受扰细胞中的对应单细胞获得所述第三多个第三单细胞细胞组分表达数据集中的每个相应第三单细胞细胞组分表达数据集，并且从暴露于所述扰动的所述多个受扰细胞中的第四多个细胞的对应单细胞获得所述第四多个第四单细胞细胞组分表达数据集中的每个相应第四单细胞细胞组分表达数据集。

实施方案9.如实施方案1至8中任一项所述的方法，其还包括：对所述单细胞转变特征和所述扰动特征进行过滤以减少所述单细胞转变特征和所述扰动特征中所包括的细胞组分的数目，任选地其中，对所述单细胞转变特征和所述扰动特征进行所得过滤包括根据阈值p值或根据细胞组分的阈值数目来减少所述单细胞转变特征和所述扰动特征中所包括的细胞组分的数目。

实施方案10.如实施方案1至9中任一项所述的方法，其中确定相应细胞组分的所述对应第二显著得分包括：对于所述多种细胞组分中的每种相应细胞组分，用所述相应细胞组分的对应匹配得分替换所述相应细胞组分的所述显著得分；将所述多种细胞组分的所述匹配得分组合以生成所述扰动的匹配得分；以及基于所述扰动的所述匹配得分确定所述相应扰动是否与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联，任选地其中所述对应匹配得分包括离散或连续得分。

实施方案11.如实施方案10所述的方法，其中替换所述显著得分包括：如果所述相应细胞组分的来自所述单细胞转变特征的所述细胞组分量和所述相应细胞组分的来自所述扰动特征的所述细胞组分量都被上调，则用第一得分替换所述显著得分；如果所述相应细胞组分的来自所述单细胞转变特征的所述细胞组分量被上调并且所述相应细胞组分的来自所述扰动特征的所述细胞组分量被下调，则用第二得分替换所述显著得分；并且如果所述相应细胞组分的来自所述扰动特征的所述细胞组分量未被显著上调或下调，则用第三得分替换所述显著得分。

实施方案12.如实施方案10所述的方法，其中替换所述显著得分包括：如果所述相应细胞组分的来自所述单细胞转变特征的所述细胞组分量和所述细胞组分的来自所述扰动特征的所述细胞组分量都被下调，则用第一得分替换所述显著得分；如果所述相应细胞组分的来自所述单细胞转变特征的所述细胞组分量被下调并且所述细胞组分的来自所述扰动特征的所述细胞组分量被上调，则用第二得分替换所述显著得分；并且如果所述细胞组分的来自所述扰动特征的所述细胞组分量未被显著上调或下调，则用第三得分替换所述显著得分。

实施方案13.如实施方案1至12中任一项所述的方法，其中所述多种细胞组分包含多种基因，任选地在RNA水平上测量。

实施方案14.如实施方案2所述的方法，其中所述第一多个第一单细胞细胞组分表达数据集和所述第二多个第二单细胞细胞组分表达数据集中的每个单细胞细胞组分表达数据集使用选自由以下组成的组的方法生成：单细胞核糖核酸(RNA)测序(scRNA-seq)、scTag-seq、使用测序的转座酶可接近性染色质的单细胞测定(scATAC-seq)、CyTOF/SCoP、E-MS/Abseq、miRNA-seq、CITE-seq及其任何组合，以及其总结，包括代表所述单细胞细胞组分表达数据集中的活化途径的组合，诸如线性组合。

实施方案15.如实施方案1至14中任一项所述的方法，所述方法还包括：基于所述比较将所述扰动识别为促进所述改变的细胞状态的扰动，或基于所述比较将所述扰动识别为抑制所述改变的细胞状态的扰动。

实施方案16.如实施方案1至15中任一项所述的方法，其中所述细胞转变特征和所述扰动特征使用不同类型的细胞组分生成。

实施方案17.如实施方案1至16中任一项所述的方法，其中所述细胞转变特征和所述扰动特征使用相同类型的细胞组分生成。

实施方案18.如实施方案1至17中任一项所述的方法，其中对于多个扰动中的每个相应特征执行所述以电子形式的访问，从而获得多个扰动特征，所述比较将所述单细胞转变特征和所述扰动特征与多个扰动特征中的每个相应特征进行比较，从而确定与细胞在所述第一细胞状态与所述改变的细胞状态之间的转变相关联的所述多个扰动的子集。

实施方案19.一种计算机系统，其包括一个或多个处理器和存储器，所述存储器存储用于执行如实施方案1至18中任一项所述的方法的指令。

实施方案20.一种非暂时性计算机可读介质，其存储可由计算机执行的用于预测扰动是否将影响细胞转变的一个或多个计算机程序，所述计算机包括一个或多个处理器和存储器，所述一个或多个计算机程序共同编码用于执行如实施方案1至18中任一项所述的方法的计算机可执行指令。

引用的参考文献和替代的实施方案

本文引用的所有参考文献都以引用的方式并且出于所有目的整体并入本文，其程度就如同每个个别出版物或专利或专利申请都特定地且个别地指示为出于所有目的以引用的方式整体并入一般。

本发明可以实施为计算机程序产品，其包括嵌入非暂时性计算机可读存储介质中的计算机程序机制。例如，所述计算机程序产品可以包括图1或图2的任何组合中所示的程序模块。这些程序模块可以存储在CD-ROM、DVD、磁盘存储产品或任何其他非暂时性计算机可读数据或程序存储产品上。

如本领域技术人员将显而易见的，本发明的许多修改和变化可以在不脱离其精神和范围的情况下进行。本文所述的特定实施方案仅通过举例提供。选择并描述了实施方案以最佳地解释本发明的原理及其实际应用，从而使本领域的其他技术人员能够最佳地利用本发明以及具有适于预期的特定用途的各种修改的各种实施方案。本发明仅由所附权利要求书的权项以及这样的权利要求所提到的等同物的全部范围来限制。

补充表1

71页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：医用信息处理装置以及医用信息处理方法

分析细胞的方法

相关技术

网友询问留言