一种个体癌症样本的生物标记物识别方法

文档序号:1615537 发布日期:2020-01-10 浏览:24次 >En<

阅读说明:本技术 一种个体癌症样本的生物标记物识别方法 (Biomarker identification method for individual cancer sample ) 是由 李�杰 王东 王亚东 于 2019-10-14 设计创作,主要内容包括:本发明是一种个体癌症样本的生物标记物识别方法。本发明先基于两种不同表型的样本数据确定差异表达基因成分,如基因,蛋白质等分子化合物,选取出q个差异表达成分;基于选取的q个差异表达成分,获得平均样本。本发明构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;基于样本回归预测的结果和差异表达成分,确定单样本的生物标记。本发明可以针对不同的个体样本选出差异化的生物标记物。(The invention relates to a biomarker identification method for an individual cancer sample. The method comprises the steps of firstly determining differential expression gene components such as molecular compounds such as genes and proteins based on sample data of two different phenotypes, and selecting q differential expression components; based on the q differentially expressed components selected, an average sample was obtained. Constructing a regression model based on an average sample and a monomer sample, and performing regression prediction on the sample to obtain a regression prediction result of the sample; based on the results of the regression prediction of the samples and the differentially expressed components, biomarkers for the single samples are determined. The present invention allows for the selection of differential biomarkers for different individual samples.)

一种个体癌症样本的生物标记物识别方法

技术领域

本发明涉及生物标记物识别技术领域,是一种个体癌症样本的生物标记物识别方法。

背景技术

现有的生物标记物识别方法多基于两组不同表型的样本的差异性来识别生物标记物,然而癌症是一种复杂的异质性疾病,不同的患者有不同的发病机制,需要不同的治疗,因此,需要一种可以确定个体癌症样本的生物标记物的方法。

发明内容

本发明为确定个体癌症样本的生物标记,本发明提供了一种个体癌症样本的生物标记物识别方法,本发明提供了以下技术方案:

一种个体癌症样本的生物标记物识别方法,包括以下步骤:

步骤1:基于两种不同表型的样本数据确定差异表达成分,所述成分包括蛋白质、基因或者分子化合物,选取出q个差异表达成分;

步骤2:基于选取的q个差异表达成分,获得平均样本;

步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;

步骤4:基于样本回归预测的结果和差异表达成分,确定单样本的生物标记成分。

优选地,所述步骤1具体为:

选取两组不同表型的成分表达数据样本,分别使用“+”和“-”作为两组不同表型的成分表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;

采用yji表示第i个样本,样本标签为“+”的第j个成分的表达值,采用xji表示第i个样本,样本标签为“-”的第j个成分的表达值,基于yji和xji选取出q个差异表达成分。

优选地,所述步骤2具体为:

步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:

Figure BDA0002232870270000011

Figure BDA0002232870270000012

其中,u+和u-分别表示“+”和“-”两组样本的平均样本,

Figure BDA0002232870270000021

为在“+”组中的第q个成分的平均表达值,

Figure BDA0002232870270000022

为“-”组中的第q个成分的平均表达值;

步骤2.2:根据第i个样本标签为“+”的样本的第j个成分的表达值和第i个样本标签为“-”的的第j个成分的表达值,来确定在“+”组和“-”组的第j个成分的平均表达值,通过下式确定在“+”组和“-”组的第j个成分的平均表达值:

Figure BDA0002232870270000023

Figure BDA0002232870270000024

其中,为“+”组的第j个成分的平均表达值,

Figure BDA0002232870270000026

为“-”组的第j个成分的平均表达值,n1和n2分别表示“+”和“-”两类样本的样本数。

优选地,所述步骤3具体为:

步骤3.1:构建基于平均样本和单体样本的回归模型,令y'ji表示第i个样本,样本标签为“+”的第j个差异表达成分的表达值,获得第i个标签为“+”的样本,通过下式确定第i个标签为“+”的样本:

Figure BDA0002232870270000027

其中,

Figure BDA0002232870270000028

为第i个标签为“+”的样本;

对第i个标签为“+”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:

Figure BDA0002232870270000029

其中,

Figure BDA00022328702700000210

为第i个标签为“+”的样本进行回归预测的结果,为线型回归的截距系数;

步骤3.2:令x'ji表示第i个样本,样本标签为“-”的第i个差异表达成分的表达值,获得第i个标签为“-”的样本,通过下式确定第i个标签为“-”的样本:

Figure BDA00022328702700000212

其中,

Figure BDA00022328702700000213

为第i个标签为“-”的样本;

对第i个标签为“-”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:

Figure BDA0002232870270000031

其中,

Figure BDA0002232870270000032

为第i个标签为“+”的样本进行回归预测的结果,

Figure BDA0002232870270000033

为线型回归的自变量系数。

优选地,所述步骤4具体为:

步骤4.1:在q个差异表达成分中,单个样本的某些成分的表达值显著地不同于平均值,差异的程度通过残差值进行量化表示,对于第i个样本标签为“+”的样本,其第j个差异表达成分的残差值通过如下公式计算:

Figure BDA0002232870270000034

对于第i个样本标签为“-”的样本,第j个差异表达成分的残差值通过如下公式计算:

Figure BDA0002232870270000035

步骤4.2:为了获得第i个样本标签为“+”的样本的生物标记物成分,通过高斯核密度估计算法估计残差值,所述高斯核进行核密度估计通过下式表示:

Figure BDA0002232870270000036

Figure BDA0002232870270000037

其中,

Figure BDA0002232870270000038

为高斯核进行核密度估计结果,h是平滑因子,K是高斯核函数;

步骤4.3:通过φ得到残差值分布的在置信度为α下的置信区间,φ为所估计的核密度的累积分布函数,通过下式计算残差值分布的在置信度为α下的置信区间:

Figure BDA0002232870270000039

其中,CIα为残差值分布的在置信度为α下的置信区间;

步骤4.4:在得到CIα后,对于第i个样本标签为“+”的样本的第j个成分,当满足则第j个成分是第i个样本标签为“+”的样本的生物标记物成分;

对于标签为“-”的样本,当满足

Figure BDA00022328702700000311

则第j个成分是第i个样本标签为“+”的样本的生物标记物成分。

优选地,所述“+”和“-”分别表示两组不同表型的样本,所述“+”表示癌症、复发、或响应的样本,所述“-”表示正常、非复发或非响应的样本;或者,所述“+”表示正常、非复发或非响应的样本,所述“-”表示癌症、复发、或响应的样本。

本发明具有以下有益效果:

本发明可以针对不同的个体样本选出差异化的生物标记物。

本发明可以有效地识别出生物标记物,其有效性主要体包括:

a)不同样本的生物标记物的表达值与其他样本在统计上有显著地差异;

b)在不同样本中频繁出现的生物标记物可以有效地区分样本的生存状况;

c)被选出的生物标记物被文献报道表明其具有与表型相关的生物作用。

附图说明

图1是个体癌症样本的生物标记物识别方法流程图;

具体实施方式

以下结合具体实施例,对本发明进行了详细说明。

具体实施例一:

按照图1所示,以下内容以生物标记物是基因为例,介绍发明内容,本发明提供一种个体癌症样本的生物标记物识别方法,包括以下步骤:

步骤1:基于两种不同表型的样本数据确定差异表达基因,选取出q个差异表达基因

所述步骤1具体为:

步骤1.1:选取两组不同表型的基因表达数据样本,分别使用“+”和“-”作为两组不同表型的基因表达数据样本的标签,n1和n2分别表示“+”和“-”两类样本的样本数;n=n1+n2,n表示所有样本的个数,所述“+”和“-”分别表示两组不同表型的样本,所述“+”表示癌症、复发、或响应的样本,所述“-”表示正常、非复发或非响应的样本;或者,所述“+”表示正常、非复发或非响应的样本,所述“-”表示癌症、复发、或响应的样本。

步骤1.2:采用yji表示第i个样本,样本标签为“+”的第j个基因的表达值,采用xji表示第i个样本,样本标签为“-”的第j个基因的表达值,基于yji和xji选取出q个基因差异表达基因。

步骤2:基于选取的q个差异表达基因,获得平均样本;

所述步骤2具体为:

步骤2.1:确定“+”和“-”两组样本的平均样本,通过下式表示所述两组样本的平均样本:

Figure BDA0002232870270000051

Figure BDA0002232870270000052

其中,u+和u-分别表示“+”和“-”两组样本的平均样本,

Figure BDA0002232870270000053

为在“+”组中的第q个基因的平均表达值,

Figure BDA0002232870270000054

为“-”组中的第q个基因的平均表达值;

步骤2.2:根据第i个样本标签为“+”的样本的第j个基因的表达值和第i个样本标签为“-”的的第j个基因的表达值,来确定在“+”组和“-”组的第j个基因的平均表达值,通过下式确定在“+”组和“-”组的第j个基因的平均表达值:

Figure BDA0002232870270000056

其中,

Figure BDA0002232870270000057

为“+”组的第j个基因的平均表达值,

Figure BDA0002232870270000058

为“-”组的第j个基因的平均表达值,n1和n2分别表示“+”和“-”两类样本的样本数。

步骤3:构建基于平均样本和单体样本的回归模型,对样本进行回归预测,得到样本回归预测的结果;

所述步骤3具体为:

步骤3.1:构建基于平均样本和单体样本的回归模型,令y'ji表示第i个样本,样本标签为“+”的第j个差异表达基因的表达值,获得第i个标签为“+”的样本,通过下式确定第i个标签为“+”的样本:

Figure BDA0002232870270000059

其中,

Figure BDA00022328702700000510

为第i个标签为“+”的样本;

对第i个标签为“+”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:

Figure BDA00022328702700000511

其中,

Figure BDA00022328702700000512

为第i个标签为“+”的样本进行回归预测的结果,

Figure BDA00022328702700000513

为线型回归的截距系数;

步骤3.2:令x'ji表示第i个样本,样本标签为“-”的第i个差异表达基因的表达值,获得第i个标签为“-”的样本,通过下式确定第i个标签为“-”的样本:

Figure BDA0002232870270000061

其中,为第i个标签为“-”的样本;

对第i个标签为“-”的样本进行回归预测,通过下式表示第i个标签为“+”的样本进行回归预测的结果:

Figure BDA0002232870270000063

其中,

Figure BDA0002232870270000064

为第i个标签为“+”的样本进行回归预测的结果,

Figure BDA0002232870270000065

为线型回归的自变量系数。

步骤4:基于样本回归预测的结果和差异表达基因,确定单样本的生物标记基因。

所述步骤4具体为:

步骤4.1:在q个差异表达基因中,单个样本的某些基因的表达值显著地不同于平均值,差异的程度通过残差值进行量化表示,对于第i个样本标签为“+”的样本,其第j个差异表达基因的残差值通过如下公式计算:

Figure BDA0002232870270000066

对于第i个样本标签为“-”的样本,第j个差异表达基因的残差值通过如下公式计算:

Figure BDA0002232870270000067

步骤4.2:为了获得第i个样本标签为“+”的样本的生物标记物基因,通过高斯核密度估计算法估计残差值,所述高斯核进行核密度估计通过下式表示:

Figure BDA0002232870270000068

Figure BDA0002232870270000069

其中,

Figure BDA00022328702700000610

为高斯核进行核密度估计结果,h是平滑因子,K是高斯核函数;

步骤4.3:通过φ得到残差值分布的在置信度为α下的置信区间,φ为所估计的核密度的累积分布函数,通过下式计算残差值分布的在置信度为α下的置信区间:

Figure BDA00022328702700000611

其中,CIα为残差值分布的在置信度为α下的置信区间;

步骤4.4:在得到CIα后,对于第i个样本标签为“+”的样本的第j个基因,当满足则第j个基因是第i个样本标签为“+”的样本的生物标记物基因;

对于标签为“-”的样本,当满足

Figure BDA0002232870270000072

则第j个基因是第i个样本标签为“+”的样本的生物标记物基因。

本发明在GSE35640数据集上进行了实验验证,GSE35640数据集包含22个响应免疫药物的样本和34个未响应免疫药物的样本。

参数设定:本方法中所有的统计检验中的α均设定为0.05。

实施步骤:

(1)通过两组不同表型的样本,选出一定数量的差异表达基因(本例中使用了统计方法,α=0.05)。

(2)针对两组样本数据,分别计算出响应免疫药物组平均样本和未响应免疫药物组平均样本。

(3)利用所求得的平均样本以及单一样本,通过回归分析(α=0.05),获得每个样本的生物标记物基因。

结果:

(a)每个样本的生物标记基因都是特定的,样本的生物标记基因表达值应该与其他样本有显著差异。基于这一思想,我们设计了一种统计方法来测试这种差异。具体来说,测试过程如下。首先,我们选择样本Si的生物标记基因,提取它们在所有样本中的表达值。然后,对每个生物标志物基因在不同样本中的表达值进行排序,构建秩矩阵。矩阵的第i行向量Ri表示Si的生物标记基因的表达值的排序序号。最后,通过Kolmogorov-Smirnov检验检验Ri与其它Ri(j≠i)是否存在显著差异,因此,针对样本Si,可以得到n-1个统计检验的P值(n表示与样本Si同表型的样本数量)。在响应免疫药物的样本组和未响应免疫药物组中,分别有96.96%和95.72%的P值小于0.05。

(b)每个肿瘤样本的生物标记基因都反映了其特征,即生物标记基因是对应肿瘤样本的特征,它们应该能够将肿瘤样本分为高风险组和低风险组,并预测肿瘤患者的生存风险。因此,我们选择了在响应药物组出现频率高于未响应药物组的前70个生物标记物基因进行生存分析,结果表明这些生物标记物可以有效地将肿瘤样本分为高风险组和低风险组(P值小于0.05)。

每一个肿瘤样本的生物标记基因都反映了肿瘤的发病机制,在GSE35640数据集的原始研究论文中,研究人员找出了84个基因表达特征集,在这84个基因中有61个基因同样地被本方法确认为生物标记物基因。

以上所述仅是一种个体癌症样本的生物标记物识别方法的优选实施方式,一种个体癌症样本的生物标记物识别方法的保护范围并不仅局限于上述实施例,凡属于该思路下的技术方案均属于本发明的保护范围。应当指出,对于本领域的技术人员来说,在不脱离本发明原理前提下的若干改进和变化,这些改进和变化也应视为本发明的保护范围。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种沉铁过程出口离子预测方法及其系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!