基于基因表达谱识别组织样本中细胞类型及组分的方法

文档序号:1088702 发布日期:2020-10-20 浏览:33次 >En<

阅读说明:本技术 基于基因表达谱识别组织样本中细胞类型及组分的方法 (Method for identifying cell types and components in tissue samples based on gene expression profiles ) 是由 李华梅 赵小粼 刘宏德 于 2020-06-28 设计创作,主要内容包括:本发明涉及一种基于基因表达谱识别组织样本中细胞类型及组分的方法,包括1)获得基因表达矩阵中所有基因的特异性得分;2)利用获取得到的基因表达矩阵中所有基因的特异性得分并结合统计检验框架识别潜在的标记基因;3)利用互线性策略将识别的标记基因映射至标记基因所对应的细胞类型,并过滤掉低信度的标记基因,构建出可表征细胞类型特异性且具有最小条件数的标签矩阵;4)将加权最小二乘法纳入鲁棒线性模型,与标签矩阵相结合,构建解卷积模型,预测组织样本中的细胞组分。本发明提供了一种直接衡量基因在任意种条件下的特异性的方法,并建立了细胞类型识别算法,实现对细胞类型特异性基因的鉴定和组织样本中细胞组分的预测。(The invention relates to a method for identifying cell types and components in a tissue sample based on a gene expression profile, which comprises the following steps of 1) obtaining specificity scores of all genes in a gene expression matrix; 2) identifying potential marker genes by using the obtained specificity scores of all genes in the gene expression matrix and combining a statistical test framework; 3) mapping the identified marker genes to cell types corresponding to the marker genes by utilizing a mutual linearity strategy, filtering out marker genes with low reliability, and constructing a tag matrix which can represent the cell type specificity and has the minimum condition number; 4) and (3) incorporating a weighted least square method into the robust linear model, combining the robust linear model with the label matrix, constructing a deconvolution model, and predicting the cell components in the tissue sample. The invention provides a method for directly measuring the specificity of genes under any conditions, establishes a cell type recognition algorithm and realizes the identification of cell type specific genes and the prediction of cell components in a tissue sample.)

基于基因表达谱识别组织样本中细胞类型及组分的方法

技术领域

本发明涉及细胞类型识别解卷积方法,具体涉及一种基于基因表达谱识别组织样本中细胞类型及组分的方法。

背景技术

在不同的组织或细胞类型中,以及在不同发育阶段、生理状况、外部刺激和病理状况下,基因表达谱都不相同,这些特异性表达的基因也称为标记基因,可以用于确定细胞身份并帮助了解疾病背后的分子机制。另外,对于大量样品的基因表达数据,标记基因是准确预测细胞组分的关键。近年来已经提出了多种解卷积的算法,大多数解卷积算法(即从混合细胞的基因表达数据中解析出每种细胞类型及其比例)必须预先知道每种细胞类型的标记基因,通常这些基因是从大量实验中得到的,利用计算方法从表达数据中推断出潜在的标记基因,对于组织样本的解卷积具有重要的意义。

细胞类型特异性基因的鉴定是混合样本反卷积的重要前提。在通常情况下,大部分策略都是通过成对比较来鉴定具有显著变化的基因,并以此来筛选出具有细胞类型特异性的基因。然而,这种基于配对比较的策略所挑选出来的标记基因并不能代表在多种(>2)条件下基因表达的特异性。综上所述,开发一种直接衡量基因在任意种条件下的特异性的方法,并建立了细胞类型识别算法对于疾病机制研究具有重要的意义。

发明内容

为了解决背景技术中存在的上述技术问题,本发明提供了一种直接衡量基因在任意种条件下的特异性的方法,并建立了细胞类型识别算法,实现对细胞类型特异性基因的鉴定和组织样本中细胞组分的预测。

为了实现上述目的,本发明采用如下技术方案:

一种基于基因表达谱识别组织样本中细胞类型及组分的方法,其特征在于:所述基于基因表达谱识别组织样本中细胞类型及组分的方法包括以下步骤:

1)基于信息熵的细胞类型特异性评分模型评估基因在不同细胞类型中的特异性,完整的获得基因表达矩阵中所有基因的特异性得分;

2)利用步骤1)获取得到的基因表达矩阵中所有基因的特异性得分并结合统计检验框架识别潜在的标记基因;

3)利用互线性策略将步骤2)识别的标记基因映射至标记基因所对应的细胞类型,并过滤掉低信度的标记基因,构建出可表征细胞类型特异性且具有最小条件数的标签矩阵;

4)使用加权鲁棒线性回归,即将加权最小二乘法纳入鲁棒线性模型,再与标签矩阵相结合,构建解卷积模型,预测组织样本中的细胞组分。

作为优选,本发明所采用的步骤1)的具体实现方式是:使用基因特异性公式(1)计算纯化样本中每个基因在k个细胞类型中的特异性得分,公式如下所示:

其中:

Si′是特异性得分;

Xij表示第j个细胞类型中第i个基因的表达;

Figure BDA0002557450610000022

是每种细胞类型第i个基因表达的均值;

为了使此特异性得分公式能够具有更好的抗噪能力,因此将经过tanh转换的权重融入至到特异性得分公式中;公式如下所示:

Si=tanh(λWi)·Si′ (2)

其中:

Si是第i个基因最终的特异性得分;

λ是调整参数,所述λ的默认值为0.1;

Wi是第i个基因的权重;

Xi.是第i个基因在k个细胞类型中的表达量;

Xt.是第t个基因在k个细胞类型中的表达量;

g是总的基因数。

作为优选,本发明所采用的步骤2)的具体实现方式是:

先使用核密度估计法估计S*分布的中心,然后根据中心点拟合正态分布,通过z检验确定S中每个基因特异性评分的P值,将P值≤0.01的基因视为候选标记基因;其中

Figure BDA0002557450610000025

是特异性得分背景分布(即高斯分布)的均值;

Figure BDA0002557450610000024

这里的H0、H1分别代表原假设和备择假设。

作为优选,本发明所采用的步骤3)的具体实现方式是:

3.1)将标记基因映射至对应的细胞类型;使用公式5中的π值来测量特定细胞类型的基因表达相对于其他细胞类型的平均表达的差异,并将在不同的细胞类型中具有最高的π值的基因作为种子基因;

Figure BDA0002557450610000031

Xij表示第j个细胞类型中第i个基因的表达;

Xi.是第i个基因在k个细胞类型中的表达量;

3.2)候选标记基因与种子基因的互线性计算;基于互线性策略与蒙特卡洛采样相结合的方法,以将候选标记映射到细胞类型;公式如(6)所示;

其中:

sgn(.)表示符号函数;

ρij表示基因i与种子基因j的互线性值;

rij是相关系数;

3.3)使用蒙特卡洛采样估计步骤3.2)每个ρij的经验P值,首先通过使用等式计算非候选标记基因和种子标记基因的线性,得出每种细胞类型的零分布,见公式(7);

作为优选,本发明所采用的步骤4)的具体实现方式是:组织样品的基因表达谱是样品中涉及的各种细胞类型的基因表达的卷积;用线性回归来描述基于特征矩阵来估计未知的细胞类型分数,m=f×B,其中m是大样本的表达,B是签名矩阵,f是指示m相对于B的变化的系数;使用对噪声更具弹性的鲁棒线性模型RLM进行了反卷积;将加权最小二乘法纳入RLM;当解卷积模型收敛时,提取回归系数并将负回归系数设置为0,然后将其余系数归一化为总和为1,产生代表估计的细胞分数的向量。

本发明与现有技术相比,其显著优点是:本发明所提供的基于基因表达谱识别组织样本中细胞类型及组分的方法,包括1)基于信息熵的细胞类型特异性评分模型评估基因在不同细胞类型中的特异性,完整的获得基因表达矩阵中所有基因的特异性得分;2)利用步骤1)获取得到的基因表达矩阵中所有基因的特异性得分并结合统计检验框架识别潜在的标记基因;3)利用互线性策略将步骤2)识别的标记基因映射至标记基因所对应的细胞类型,并过滤掉低信度的标记基因,构建出可表征细胞类型特异性且具有最小条件数的标签矩阵;4)使用加权鲁棒线性回归,即将加权最小二乘法纳入鲁棒线性模型,再与标签矩阵相结合,构建解卷积模型,预测组织样本中的细胞组分。本发明将前述的这些过程被封装成一个独立的R包:LinDeconSeq。LinDeconSeq具有更强的细胞类型特异基因识别能力,且能降低表达基因假阳性标记,并且在细胞类型预测上也显示出良好的预测准确性。

附图说明

图1为本发明的分析流程示意图;

图2为LinDeconSeq用于AML分析鉴定得到的标记基因表达热图。

图3为LinDeconSeq对TCGA-AML样品和健康样品进行解卷积的结果。

图4为LinDeconSeq在对白血病患者预后分析结果。

具体实施方式

本发明提供了一种基于基因表达谱识别组织样本中细胞类型及组分的方法,可以鉴定细胞特异标记基因和识别细胞类型的解卷积工具LinDeconSeq,该工具执行的流程具体如图1所示。该过程分为两个阶段。在阶段1中,一组标记基因被识别并分配给细胞类型;在第2阶段中,利用签名矩阵(在第1阶段中已确定)和加权的鲁棒回归来预测组织样品的细胞组分。

使用LinDeconSeq识别细胞类型包括以下步骤:

1)基于信息熵的细胞类型特异性评分模型评估基因在不同细胞类型中的特异性,从而完整的获得基因表达矩阵中所有基因的特异性得分。使用基因特异性公式(1)计算纯化样本中每个基因在k个细胞类型中的特异性得分,公式如下所示:

Figure BDA0002557450610000041

其中Si′是特异性得分,Xij表示第j个细胞类型中第i个基因的表达,是每种细胞类型第i个基因表达的均值。为了使此特异性得分公式能够具有更好的抗噪能力,因此将经过tanh转换的权重融入至到特异性得分公式中。公式如下所示:

Si=tanh(λWi)·Si′ (2)

其中Si是第i个基因最终的特异性得分,λ是调整参数(默认值为0.1),Wi是第i个基因的权重。Xi.是第i个基因在k个细胞类型中的表达量;Xt.是第t个基因在k个细胞类型中的表达量;g为总的基因数。

2)利用得到的基因表达特异性得分并结合统计检验框架识别潜在的标记基因。先使用核密度估计法估计S*分布(每个基因的特异性得分,接近于正态分布)的中心,然后根据中心点拟合正态分布,通过z检验确定S中每个基因特异性评分的P值,将P值≤0.01的基因视为候选标记基因。其中是特异性得分背景分布(即高斯分布)的均值。

Figure BDA0002557450610000052

3)利用互线性策略将标记基因映射至其对应的细胞类型,并过滤掉低信度的标记基因,构建出可表征细胞类型特异性且具有最小条件数的标签矩阵(Signature Matrix)。细胞类型之间的皮尔逊相关系数(PCC)越高,它们之间共享的标记基因就越多,因此提出了一种基于互线性策略的方法,利用每种细胞类型的其他候选标记基因和显著性得分最高的种子标记基因之间的共线性程度估算出来的P值将候选标记基因分配给相应的细胞类型(Pij≤0.05),否则将低信度的标记基因滤除。

3.a)将标记基因映射至对应的细胞类型;理想情况下,细胞类型特异性基因的表达被限制为一种细胞类型,并且在同一细胞类型的不同生物学复制品中具有强健的表达。因此,从理论上讲,如果候选标记基因仅在单个细胞类型中表达,则很可能是该特定细胞类型的标记。基于这一事实,使用π(公式5)值来测量特定细胞类型的基因表达相对于其他细胞类型的平均表达的差异,并将在不同的细胞类型中具有最高的π值的基因作为种子基因。

Figure BDA0002557450610000053

3.b)候选标记基因与种子基因的互线性计算;由于基因表达的复杂性和细胞谱系之间的密切关系,很难将候选标记基因分配给特定的细胞类型。例如,一种细胞类型的标记基因也可能在其他一些细胞类型中过表达,这在将基因定位到细胞类型时变得晦涩难懂。由于属于同一细胞类型的标记基因具有相似的表达模式,因此它们可以高度相关或相互线性。因此,提出了一种基于互线性策略与蒙特卡洛采样相结合的方法,以将候选标记映射到细胞类型。公式如(6)所示。

其中sgn(.)表示符号函数,ρij表示基因i与种子基因j的互线性值,rij是相关系数。

3.c)为了估计上述每个ρij的经验P值,使用了蒙特卡洛采样,这使能够检验原假设,即候选标记与背景基因无法区分。首先通过使用等式计算非候选标记基因和种子标记基因的线性,得出每种细胞类型的零分布,见公式(7)。

4)使用加权鲁棒线性回归(w-RLM),即将加权最小二乘法纳入鲁棒线性模型,再与标签矩阵相结合,构建解卷积模型,预测组织样本中的细胞组分。组织样品的基因表达谱被认为是样品中涉及的各种细胞类型的基因表达的卷积。由于反卷积的主要目标是基于特征矩阵来估计未知的细胞类型分数,因此也可以用线性回归来描述,m=f×B,其中m是大样本的表达,B是签名矩阵,f是指示m相对于B的变化的系数。在这里,使用对噪声更具弹性的鲁棒线性模型(RLM)进行了反卷积。为了进一步消除估计的分数对细胞类型的偏倚,将加权最小二乘法纳入RLM(w-RLM)。加权最小二乘方法能够调整最佳解决方案中每个基因的贡献,以减轻由于基因表达水平不平衡而引起的偏倚。换句话说,如果基因的平均表达水平低,则其贡献可能很小。因此,该方法对消除预测偏差具有积极作用。当解卷积模型收敛时,提取回归系数并将负回归系数设置为0,然后将其余系数归一化为总和为1,从而产生代表估计的细胞分数的向量。

为了验证本发明的准确性,收集了三个标准数据集(GSE64098,GSE19830,GSE65133)来用于算法评估,这三个数据集所涵盖的细胞类型以及每个样本中对应的细胞比例均是已知的。使用预测结果与真实比例之间的皮尔逊相关系数(r)以及均方根误差(RMSD)来评估算法的准确性。与CIBERSORT和lsfit相比,LinDeconSeq能够更为准确的预测组织样本中的细胞组分(表1-3)。另外,为了验证LiNDeconSeq在临床数据中的应用潜力,使用LinDeconSeq对急性髓性白血病(AML)的数据集GSE74246进行了分析,该数据集包括49种经过荧光激活细胞分选(FACS)纯化的RNA-seq样品,涵盖了13中人类血细胞类型。将映射至13种细胞类型的标记基因进行功能注释后,可以看出这些标记能够特异的体现不同细胞的功能(见图2中A,图2是血液中13种类型细胞的特征基因的表达,右侧为各组基因的功能注解)。进一步,将LinDeconSeq与其他两种标记基因识别算法比较发现,LinDeconSeq对标记基因具有更好的识别能力和抗噪性能(见图2B-D)。另外,基于LinDeconSeq推断出来的标签矩阵体现出了强细胞类型特异性,这种特异性能是后续解卷积的基础(如图3中A所示,A为信标矩阵的表达)。特别的,对所有基因以及标记基因使用t-SNE算法进行聚类,发现LinDeconSeq对选定标记基因的细胞类型有良好的区分能力(图3中B和C,B和C分别是所有基因和标记基因的t-SNE聚类结果,每个散点代表FACS纯化后的细胞样品)。这些分析充分的反映了LinDeconSeq识别标记基因的合理性和有效性。

表1.不同算法在数据集GSE64098预测结果比较

Figure BDA0002557450610000062

Figure BDA0002557450610000071

表2.不同算法在数据集GSE19830预测结果比较

Figure BDA0002557450610000072

表3.不同算法在数据集GSE65133预测结果比较

为进一步研究LinDeconSeq的解卷积性能,引入TCGA数据库中AML疾病样本,使用LinDeconSeq和在步骤(3)中推断出来的标签矩阵对TCGA-AML中的细胞组分进行预测,结果显示AML患者在细胞组分中具有较高的异质性(图3中D,D显示为179个TCGA-AML患者的细胞组分,每一条代表一种样品,每种颜色代表一种特定的细胞类型)。图3中E(为LinDeconSeq和CIBERSORT预测的TCGA-AML患者的细胞分数,每个点代表样本中的特定细胞类型,通过LinDeconSeq和CIBERSORT计算细胞分数之间的皮尔逊相关系数(PCC,r))将LinDeconSeq和CIBERSORT进行比较发现二者之间具有较高的PCC和良好的一致性。这表明LinDeconSeq能准确的预测组织样本中的细胞组分。另外,发现细胞组分对AML疾病的诊断具有潜在的价值,通过比较了在13种细胞类型中健康样品和AML样品的细胞组分,图3中F(F为AML和健康样本中13种主要血细胞类型的分数,在每个组中,每个散点代表特定细胞类型的一部分,方框中的粗线代表中位数,框的底部和顶部是第25和第75个百分位数(四分位间距))显示其中大多数具有显着差异。使用LinDeconSeq预测的细胞分数构建了三种诊断模型,并绘制了不同模型的特征曲线(ROC),图3中G(G是基于AML和健康样本的不同细胞组分预测值的ROC曲线)显示利用细胞组分对AML进行诊断具有非常高的准确率。因此,上述这些表明LinDeconSeq预测出的细胞组分能很好的揭示个体在不同状态下的差异。

另外,LinDeconSeq预测的细胞组分对于疾病亚型的识别具有重要的应用前景。将TCGA-AML细胞组分使用PAM分类算法,获得了AML疾病的两个潜在的AML亚型,图4中A(A是TCGA-AML样品中亚组中细胞类型组分的热图)表明这两个亚型在部分细胞组分上具有显著的不同。如粒细胞-单核细胞祖细胞(GMP)。GMP细胞在区分两类亚型种发挥着重要的作用。通过预后分析发现,这两个亚型在生存时间上具有显著的差异,这种差异在TARGET-AML数据种得到了很好的验证(图4中B-E,其中:B是179个TCGA-AML样本的AML两个亚组总体生存率的Kaplan-Meier曲线;C是179TCGA-AML样品中细胞组分与差异表达基因之间的相关系数热图;D是利用随机森林分类器在TARGET-AML数据上预测为的两个亚组的总体生存率的Kaplan-Meier曲线;E是TARGET-AML样本的预测亚组中13种主要血细胞类型的组分的分布)。这些分析充分的反映了LinDeconSeq的在临床应用中具有重要的价值。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:致病基因位点数据库及其建立方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!