构建用于手足口样本归类的模型的方法及其应用

文档序号:1244127 发布日期:2020-08-18 浏览:12次 >En<

阅读说明:本技术 构建用于手足口样本归类的模型的方法及其应用 (Method for constructing model for classifying hand-foot-mouth samples and application of model ) 是由 麻锦敏 李琼芳 陈唯军 于 2020-04-20 设计创作,主要内容包括:本发明提出了一种用于区分手足口样本的方法。该方法包括:确定待测样本的第一标志基因组合中每个基因的表达量;将所述第一标志基因组合的表达量结果输入至第一分类模型,以便将所述手足口样本在轻症状组和重症状组之间进行区分。(The invention provides a method for distinguishing hand-foot-mouth samples. The method comprises the following steps: determining the expression quantity of each gene in a first marker gene combination of a sample to be detected; and inputting the expression quantity result of the first marker gene combination into a first classification model so as to distinguish the hand-foot-mouth sample between a light symptom group and a severe symptom group.)

构建用于手足口样本归类的模型的方法及其应用

技术领域

本发明涉及生物分析领域,具体地,本发明涉及构建用于手足口样本归类的模型的方法、用于区分手足口样本的方法和设备。

背景技术

手足口病(HandFootandMouthDisease,HFMD)是由一组肠道病毒引起的儿童常见传染病。重症患者通常会迅速出现神经系统和全身并发症,有些严重情况下会在3至5天内导致死亡。对于6个月至5岁之间的婴儿和儿童来说,他们的免疫系统尚未完全发育完全,又不再获得母体转移的抗体,因此缺少抵抗病毒的能力,完全依赖自身免疫发育情况。因此,寻找可作为在疾病的早期阶段区别轻症和重症的标志免疫基因,预测手足口病的轻重症情况,对临床治疗有十分着重要的意义,甚至可以降低重症造成的死亡率。

高通量测序和人工智能与医疗结合,对高通量测序数据采用人工智能分析,通过调整参数减小诊断偏差。这对依赖医生的经验的诊断增加了更多客观性,也可以弥补现代医疗资源不足的缺陷。尤其对于手足口病早期轻重症发展的预测,仅依赖传统医疗手段并没有好的解决之策,通过结合高通量测序和人工智能在早期阶段区别手足口轻症和重症具有重要意义。

发明内容

本发明通过高通量测序和人工智能与医疗结合,挑选多个标志基因,利用人工智能以及机器学习等方式建模,直观展示手足口病早期预测轻重症的形势,使结果更客观,准确性更高。

在本发明的第一方面,本发明提出了一种构建用于手足口样本归类的模型的方法。根据本发明的实施例,所述方法包括:(1)对来自多个手足口患者的样本进行核酸样本测序,并获得各患者的测序数据,其中,所述多个手足口患者包括轻症状组和重症状组;(2)通过将所述测序数据与参考基因组进行比对,确定各患者的初始基因集合中各基因的表达量;(3)基于各患者中初始基因集合中各基因的表达量的变异系数,确定内参基因集合,所述内参基因的变异系数小于预定阈值;(4)采用步骤(2)中确定的所述基因的表达量作为训练特征,采用所述轻症状组和所述重症状组作为训练集,进行第一分类训练,以便获得用于区分轻症状和重症状的第一标志基因组合和第一分类模型;(5)在所述内参基因集合中选择一个所述内参基因,并将所述初始基因集合中其余基因与所述内参基因的比值作为训练特征,采用所述轻症状组和所述重症状组作为训练集,进行辅助分类训练,以便获得用于区分轻症状和重症状的辅助标志基因组合和辅助分类模型。

根据本发明的实施例,上述方法还可以进一步包括如下附加技术特征至少之一:

根据本发明的实施例,所述内参基因包括GPI和GAPDH。

根据本发明的实施例,所述第一标志基因组合包括FGFR1OP2、IFNAR2、PAFAH1B1、PTPRC、HNRNPF、YEATS2、UBP1。

根据本发明的实施例,所述第一分类训练和所述辅助分类训练分别独立地为随机模型分类训练。

根据本发明的实施例,在步骤(5)中,针对所述内参基因集合中的每一个内参基因,分别进行所述辅助分类训练,以便获得多个辅助标志基因组合和相应的多个辅助分类模型。

根据本发明的实施例,第一内参基因为GPI,第一辅助标志基因组合包括GAS6-AS2、UBR4、C9orf16、IFNAR2、YEATS2,第二内参基因为GAPDH,第二辅助标志基因组合包括QSOX1、VIM、ZEB2、C9orf16。

在本发明的第二方面,本发明提出了一种用于区分手足口样本的方法。根据本发明的实施例,所述方法包括:确定待测样本的第一标志基因组合中每个基因的表达量;将所述第一标志基因组合的表达量结果输入至第一分类模型,以便将所述手足口样本在轻症状组和重症状组之间进行区分,其中,所述第一标志基因组合和所述第一分类模型是依据前面所述的方法建立的。

根据本发明的实施例,上述方法还可以进一步包括如下附加技术特征至少之一:

根据本发明的实施例,所述第一标志基因组合的表达量是通过高通量测序获得的。

根据本发明的实施例,进一步包括通过:qPCR方法,确定第一辅助标志基因组合和第二辅助标志基因组合中每个基因的表达量;基于所述第一辅助标志基因组合的基因表达量,利用第一辅助分类模型进行将所述手足口样本在轻症状组和重症状组之间进行区分,以便获得第一区分结果;基于所述第二辅助标志基因组合的基因表达量,利用第二辅助分类模型进行将所述手足口样本在轻症状组和重症状组之间进行区分,以便获得第二区分结果;选择所述第一区分结果和所述第二区分结果相同的区分结果作为判断结果,其中,所述第一辅助标志基因组合和第二辅助标志基因,所述第一辅助分类模型和所述第二辅助分类模型是前面所述的方法建立的。

在本发明的第三方面,本发明提出了一种用于区分手足口样本的设备。根据本发明的实施例,所述设备包括:第一表达量确定模块,用于确定待测样本的第一标志基因组合中每个基因的表达量;第一分类模块,用于将所述第一标志基因组合的表达量结果输入至第一分类模型,以便将所述手足口样本在轻症状组和重症状组之间进行区分,其中,所述第一标志基因组合和所述第一分类模型是依据前面所述的方法建立的。

根据本发明的实施例,上述设备还可以进一步包括如下附加技术特征至少之一:

根据本发明的实施例,所述第一标志基因组合的表达量是通过高通量测序获得的。

根据本发明的实施例,进一步包括通过:第二表达量确定模块,用于通过qPCR方法确定第一辅助标志基因组合和第二辅助标志基因组合中每个基因的表达量;第一辅助分类模块,用于基于所述第一辅助标志基因组合的基因表达量,利用第一辅助分类模型进行将所述手足口样本在轻症状组和重症状组之间进行区分,以便获得第一区分结果;第二辅助分类模块,用于基于所述第二辅助标志基因组合的基因表达量,利用第二辅助分类模型进行将所述手足口样本在轻症状组和重症状组之间进行区分,以便获得第二区分结果;判断模块,用于选择所述第一区分结果和所述第二区分结果相同的区分结果作为判断结果,其中,所述第一辅助标志基因组合和第二辅助标志基因,所述第一辅助分类模型和所述第二辅助分类模型是依据前面所述的方法中建立的。

根据本发明实施例的区分手足口样本的方法和设备通过高通量测序和人工智能与医疗结合,突破手足口病早期轻重症诊断偏重依赖医生的经验诊断的局限,挑选多个标志基因,利用人工智能以及机器学习等方式建模,从而直观展示手足口病早期预测轻重症的形势,使结果更客观,准确性更高。

附图说明

图1为根据本发明实施例的区分手足口轻重症样本的流程图;

图2为根据本发明实施例的用于区分手足口样本的设备结构示意图;

图3为根据本发明另一实施例的用于区分手足口样本的设备结构示意图;

图4为根据本发明实施例的用基因表达量FPKM,用随机森林模型挑选出7个标志基因(FGFR1OP2、IFNAR2、PAFAH1B1、PTPRC、HNRNPF、YEATS2、UBP1),该组合准确率最优;

图5为根据本发明实施例的用基因表达量FPKM挑出的7个标志基因建模,4/5的样本做训练集,训练集的ROC曲线;

图6为根据本发明实施例的以GPI基因的表达量(FPKMGPI)做基准,计算其他基因的表达量FPKM与之的比值(FPKM/FPKMGPI),对此比值用随机森林模型挑出5个标志基因(GAS6-AS2、UBR4、C9orf16、IFNAR2、YEATS2),该组合准确率最优;

图7为根据本发明实施例的以GPI基因的表达量(FPKMGPI)做基准挑出5个标志基因建模,4/5的样本做训练集,训练集的ROC曲线;

图8为根据本发明实施例的以GAPDH基因的表达量(FPKMGAPDH)做基准,计算其他基因的表达量FPKM与之的比值(FPKM/FPKMGAPDH),对此比值用随机森林模型挑出4个标志基因(QSOX1、VIM、ZEB2、C9orf16),该组合准确率最优;

图9为根据本发明实施例的以GAPDH基因的表达量(FPKMGAPDH)做基准挑出4个标志基因建模,4/5的样本做训练集,训练集的ROC曲线。

具体实施方式

下面详细描述本发明的区分手足口轻重症样本方法的实施例,所述实施例的示例在附图中示出。下面通过参考附图描述的实施例是示例性的,旨在用于解释本发明,而不能理解为对本发明的限制。

一、样本核酸提取

取血液分离外周血淋巴细胞(PBMC)后,提取细胞的核酸(RNA提取),对核酸进行高通量的测序或者定量PCR(qPCR)基因定量。

二、生物信息分析

步骤一:测序结果分析

1.下机测序数据去除低质量序列,得到备用序列。

2.使用软件Bowtie2,将备用序列比对到人类参考基因。

3.使用(RNA-Seq by Expectation Maximization,RSEM)软件包计算基因表达量(Fragments Per Kilobase of exon per Million fragments mapped,FPKM)。

步骤二:内参基因挑选

计算基因的变异系数,挑选相对稳定的内参基因(GeneA、GeneB)。

步骤三:挑选标志基因

1、用基因表达量FPKM,基于轻重症样本,用随机森林模型挑选一组标志基因(Group1),用于区分不同组别。

2、以GeneA基因的表达量(FPKMGeneA)做基准,计算其他基因的表达量FPKM与之的比值(FPKM/FPKMGeneA),对此比值用随机森林模型挑选一组标志基因(Group2)。

3、以GeneB基因的表达量(FPKMGeneB)做基准,计算其他基因的表达量FPKM与之的比值(FPKM/FPKMGeneB),对此比值用随机森林模型挑选一组标志基因(Group3)。

4、重复多个内参基因做比值,重复2或者3步骤,挑选最优组合。

步骤四:轻重症预测

1、用挑选的标志基因(Group1)建模,对高通量测序的手足口样本的轻重症情况做预测。

2、用GeneA基因做基准对挑选的标志基因(Group2)建模,对检测的手足口样本的轻重症情况做预测。

3、用GeneB基因做基准对挑选的标志基因(Group3)建模,对检测的手足口样本的轻重症情况做预测,并把预测的结果和2的结果结合,采纳判断一致的结果,不一致的为预测不出。

为了便于理解,申请人将本申请的区分手足口轻重症样本的流程表示为图1。

另一方面,本发明提出了一种用于区分手足口样本的设备。根据本发明的实施例,参考图2,所述设备包括:第一表达量确定模块100,用于确定待测样本的第一标志基因组合中每个基因的表达量;第一分类模块200,用于将所述第一标志基因组合的表达量结果输入至第一分类模型,以便将所述手足口样本在轻症状组和重症状组之间进行区分,其中,所述第一标志基因组合和所述第一分类模型是依据前面所述的方法建立的。

具体地,根据本发明的实施例,参考图3,所述设备进一步包括:第二表达量确定模块300,用于通过qPCR方法确定第一辅助标志基因组合和第二辅助标志基因组合中每个基因的表达量;第一辅助分类模块400,用于基于所述第一辅助标志基因组合的基因表达量,利用第一辅助分类模型进行将所述手足口样本在轻症状组和重症状组之间进行区分,以便获得第一区分结果;第二辅助分类模块500,用于基于所述第二辅助标志基因组合的基因表达量,利用第二辅助分类模型进行将所述手足口样本在轻症状组和重症状组之间进行区分,以便获得第二区分结果;判断模块600,用于选择所述第一区分结果和所述第二区分结果相同的区分结果作为判断结果,其中,所述第一辅助标志基因组合和第二辅助标志基因,所述第一辅助分类模型和所述第二辅助分类模型是依据前面所述的方法中建立的。

下面将结合具体实施例对本发明进行进一步解释说明。下述实施例中所使用的实验方法如无特殊说明,均为常规方法。下述实施例中所用的材料、试剂等,如无特殊说明,均可从商业途径得到。

实施例

一、试验例样本

35例重症手足口病人PBMC样本

30例轻症手足口病人PBMC样本

二、试验分析流程

1)采取3mL外周血,分离PBMC,提取RNA,并对RNA进行建库测序(二代高通量测序)。

2)下机测序数据去除低质量序列,得到CleanData。

3)使用Bowtie2,将CleanData比对到参考基因。

4)使用RSEM计算基因表达量FPKM。

5)计算基因的变异系数,挑选相对稳定的基因(GPI、GAPDH)。

6)用80%的样本挑选标志基因:

用基因表达量FPKM,用随机森林模型挑选一组标志基因(FGFR1OP2、IFNAR2、PAFAH1B1、PTPRC、HNRNPF、YEATS2、UBP1),结果如图4和图5。

以GPI基因的表达量(FPKMGPI)做基准,计算其他基因的表达量FPKM与之的比值(FPKM/FPKMGPI),对此比值用随机森林模型挑选一组标志基因(GAS6-AS2、UBR4、C9orf16、IFNAR2、YEATS2),结果如图6和图7。

以GAPDH基因的表达量(FPKMGAPDH)做基准,计算其他基因的表达量FPKM与之的比值(FPKM/FPKMGAPDH),对此比值用随机森林模型挑选一组标志基因(QSOX1、VIM、ZEB2、C9orf16),结果如图8和图9。

其中,图4~图9中,ROC,Receiver Operating Characteristic表示接受者操作特征;AUC,Area Under Curve表示曲线下面积;Specificity表示特异性;Sensitivity表示灵敏性;Case表示重症;Control表示轻症。

7)剩余20%的样本做轻重症预测

a.用挑选的标志基因(FGFR1OP2、IFNAR2、PAFAH1B1、PTPRC、HNRNPF、YEATS2、UBP1)建模,对高通量测序的手足口样本的轻重症情况做预测。

b.用GPI基因做基准对挑选的标志基因(GAS6-AS2、UBR4、C9orf16、IFNAR2、YEATS2)建模,对qPCR检测的手足口样本的轻重症情况做预测。

c.用GAPDH基因做基准对挑选的标志基因(QSOX1、VIM、ZEB2、C9orf16)建模,对qPCR检测的手足口样本的轻重症情况做预测,并把预测的结果和b的结果结合,采纳判断一致的结果,不一致的为预测不出。

表1:单独模型效率评估表

MCC:Matthew's Correlation Coefficient,范围是[-1,1],-1代表完全相悖的预测;1代表完全正确的预测;0代表随机预测。

此外,术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。在本发明的描述中,“多个”的含义是至少两个,例如两个,三个等,除非另有明确具体的限定。

在本说明书的描述中,参考术语“一个实施例”、“一些实施例”、“示例”、“具体示例”、或“一些示例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或者特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不必须针对的是相同的实施例或示例。而且,描述的具体特征、结构、材料或者特点可以在任一个或多个实施例或示例中以合适的方式结合。此外,在不相互矛盾的情况下,本领域的技术人员可以将本说明书中描述的不同实施例或示例以及不同实施例或示例的特征进行结合和组合。

尽管上面已经示出和描述了本发明的实施例,可以理解的是,上述实施例是示例性的,不能理解为对本发明的限制,本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种分泌入支气管肺泡灌洗液蛋白质预测方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!