药物与细胞系反应的预测模型的训练方法及相关装置

文档序号:1891759 发布日期:2021-11-26 浏览:18次 >En<

阅读说明:本技术 药物与细胞系反应的预测模型的训练方法及相关装置 (Training method of prediction model of drug and cell line reaction and related device ) 是由 李泽超 张捷 于 2021-08-27 设计创作,主要内容包括:本发明公开了一种药物与细胞系反应的预测模型的训练方法及相关装置。其中训练方法包括:获取到训练样本集,训练样本集包括细胞系的基因数据、药物的化合物数据以及药物的化合物数据与细胞系的基因数据的反应结果标注;将训练样本集输入至深度学习回归模型中进行预测,得到药物的化合物数据与细胞系的基因数据的反应的预测结果;利用药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与所述细胞系的基因数据的反应结果标注对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。以此能够直接通过训练所得的模型预测细胞系与药物的反应,降低人力成本,提高效率。(The invention discloses a training method and a related device for a prediction model of drug and cell line reaction. The training method comprises the following steps: acquiring a training sample set, wherein the training sample set comprises gene data of a cell line, compound data of a medicine and reaction result annotation of the compound data of the medicine and the gene data of the cell line; inputting the training sample set into a deep learning regression model for prediction to obtain a prediction result of the reaction of the compound data of the medicine and the gene data of the cell line; and performing iterative training on the deep learning regression model by using the prediction result of the reaction of the compound data of the medicine and the gene data of the cell line and the reaction result of the compound data of the medicine and the gene data of the cell line to obtain the prediction model of the reaction of the medicine and the cell line. Therefore, the reaction of the cell line and the medicine can be predicted directly through the trained model, the labor cost is reduced, and the efficiency is improved.)

药物与细胞系反应的预测模型的训练方法及相关装置

技术领域

本发明涉及云计算应用领域,具体涉及一种药物与细胞系反应的预测模型的训练方法及相关装置。

背景技术

人体癌细胞系具有稳定遗传背景和无限繁殖能力,临床肿瘤模型一直都是生物医学的主要实验对象之一。目前预测癌症患者对癌症药物的反应是精准医疗的重要问题,目前在该领域采用的主要研究流程主要有以下两种:

一种是研究员依据现有的抗癌药物数据库,在癌症细胞系与药物之间做大量的实验验证及定量分析,该研究全部实验由研究员人工完成,人力物力成本高,效率低。

另一种是基于癌细胞的基因组相似性,利用矩阵分解等方法传统的统计学或机器学习的方法,根据细胞系之间的相似性,来推断其与药物之间的关系。该研究忽略了基因之间的关系,导致并不能很好的预测细胞系与药物之间的反应。

因此需要一种既能降低成本、提高效率,又能很好预测细胞系与药物之间的反应的方法。

发明内容

本发明提供一种药物与细胞系反应的预测模型的训练方法及相关装置,其能够直接通过模型预测细胞系与药物的反应,降低人力成本,提高效率。

为解决上述技术问题,本发明提供的第一个技术方案为:提供一种药物与细胞系反应的预测模型的训练方法,包括:获取训练样本集,所述训练样本集包括细胞系的基因数据、药物的化合物数据以及所述药物的化合物数据与所述细胞系的基因数据的反应结果标注;将细胞系的基因数据和所述药物的化合物数据输入至深度学习回归模型进行预测,得到所述药物的化合物数据与所述细胞系的基因数据的反应的预测结果;利用所述反应的预测结果及所述药物的化合物数据与所述细胞系的基因数据的反应结果标注对所述深度学习回归模型进行迭代训练,得到所述药物与细胞系反应的预测模型。训练得到药物与细胞系反应的预测模型,通过模型预测细胞系与药物的反应,降低人力成本,提高效率。

其中,所述利用所述反应的预测结果及所述药物的化合物数据与所述细胞系的基因数据的反应结果标注对所述深度学习回归模型进行迭代训练,得到所述药物与细胞系反应的预测模型包括:计算所述反应的预测结果及所述药物的化合物数据与所述细胞系的基因数据的反应结果标注的差值;根据所述差值对所述深度学习回归模型进行迭代训练,得到所述药物与细胞系反应的预测模型。对模型数据进行迭代更新,以使得模型预测结果更加接近于真实值,即使得模型预测结果更加准确。

其中,所述根据所述差值对所述深度学习回归模型进行迭代训练,得到所述药物与细胞系反应的预测模型包括:根据所述差值利用反向传播方法对所述深度学习回归模型进行迭代训练,得到所述药物与细胞系反应的预测模型。对模型数据进行迭代更新,以使得模型预测结果更加接近于真实值,即使得模型预测结果更加准确。

其中,所述获取训练样本集包括:获取药物的名称,并根据所述药物的名称确定药物对应的分子表达式和/或指纹表达式;将所述分子表达式和/或指纹表达式整合为所述药物的化合物数据;获取所述细胞系的名称,并根据所述细胞系的名称确定细胞系对应的基因表达数据、拷贝数变异以及点突变数据;将所述细胞系对应的基因表达数据、拷贝数变异以及点突变数据整合为所述细胞系的基因数据。获取训练样本集,通过训练样本集训练药物与细胞系反应的预测模型,利用模型预测细胞系与药物的反应,降低人力成本,提高效率。

其中,所述将所述细胞系对应的基因表达数据、拷贝数变异以及点突变数据整合为所述细胞系的基因数据之前还包括:对所述细胞系对应的基因表达数据、拷贝数变异以及点突变数据进行填充、归一化、独热编码中至少一种处理;将处理后的所述细胞系对应的基因表达数据、拷贝数变异以及点突变数据整合为所述细胞系的基因数据。获取训练样本集,通过训练样本集训练药物与细胞系反应的预测模型,利用模型预测细胞系与药物的反应,降低人力成本,提高效率。

其中,所述药物的化合物数据与所述细胞系的基因数据的反应结果标注包括:所述药物与细胞系反应的标注IC50值;所述药物的化合物数据与所述细胞系的基因数据的反应的预测结果包括:所述药物与细胞系反应的预测IC50值。

为解决上述技术问题,本发明提供的第二个技术方案为:提供一种药物与细胞系反应的预测模型的训练装置,包括:训练样本获取模块,用于获取训练样本集,所述训练样本集包括所述细胞系的基因数据、所述药物的化合物数据以及所述药物的化合物数据与所述细胞系的基因数据的反应结果标注;模型预测模块,用于将所述细胞系的基因数据和所述药物的化合物数据输入深度学习回归模型进行预测,得到所述药物的化合物数据与所述细胞系的基因数据的反应的预测结果;迭代训练模块,用于利用所述反应的预测结果及所述药物的化合物数据与所述细胞系的基因数据的反应结果标注对所述深度学习回归模型进行迭代训练,得到所述药物与细胞系反应的预测模型。通过训练装置训练得到药物与细胞系反应的预测模型,利用模型预测细胞系与药物的反应,降低人力成本,提高效率。

为解决上述技术问题,本发明提供的第三个技术方案为:提供一种药物与细胞系反应的预测方法,所述预测方法基于药物与细胞系反应的预测模型实现,所述药物与细胞系反应的预测模型通过上述任一项所述的训练方法训练所得;所述预测方法包括:获取预测样本集,所述预测样本集包括细胞系的样本基因数据、药物的样本化合物数据;利用所述药物与细胞系反应的预测模型对所述预测样本集进行处理,得到所述药物与细胞系反应的预测结果。利用药物与细胞系反应的预测模型预测细胞系与药物的反应,降低人力成本,提高效率。

为解决上述技术问题,本发明提供的第四个技术方案为:提供一种药物与细胞系反应的预测装置,包括:样本获取模块,用于获取预测样本集,所述预测样本集包括细胞系的样本基因数据、药物的样本化合物数据;模型计算模块,用于利用所述药物与细胞系反应的预测模型对所述预测样本集进行处理,得到所述药物与细胞系反应的预测结果。利用药物与细胞系反应的预测装置预测细胞系与药物的反应,降低人力成本,提高效率。

为解决上述技术问题,本发明提供的第五个技术方案为:提供一种智能设备,包括:存储器和处理器,其中,所述存储器存储有程序指令,所述处理器从所述存储器调取所述程序指令以执行上述任一项所述的训练方法及所述的预测方法。

为解决上述技术问题,本发明提供的第六个技术方案为:提供一种计算机可读存储介质,存储有程序文件,所述程序文件能够被执行以实现上述任一项所述的训练方法及所述的预测方法。

本发明的有益效果,区别于现有技术的情况,本发明通过获取到训练样本集,将训练样本集输入至深度学习回归模型中进行预测,得到药物的化合物数据与所述细胞系的基因数据的反应的预测结果;利用所述药物的化合物数据与所述细胞系的基因数据的反应的预测结果及药物的化合物数据与所述细胞系的基因数据的反应结果标注对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。以此能够直接通过训练所得的模型预测细胞系与药物的反应,降低人力成本,提高效率。

附图说明

为了更清楚地说明本发明实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图,其中:

图1为本发明药物与细胞系反应的预测模型的训练方法的一实施例的流程示意图;

图2为图1中步骤S13的一实施例的流程示意图;

图3为图1中步骤S11的一实施例的流程示意图;

图4为图1中步骤S11的一实施例的流程示意图;

图5为图4中步骤S114的一实施例的流程示意图;

图6为药物与细胞系反应的预测模型的一实施例的结构示意图;

图7为图6中药物与细胞系反应的预测模型的一实施例的结构示意图;

图8为本发明药物与细胞系反应的预测模型的训练装置的一实施例的结构示意图;

图9为本发明药物与细胞系反应的预测方法的一实施例的流程示意图;

图10为本申请药物与细胞系反应的预测方法的另一实施例的流程示意图;

图11为本发明药物与细胞系反应的预测装置的一实施例的结构示意图;

图12为本发明智能设备的一实施例的结构示意图;

图13为本发明计算机可读存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请的一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。

下面结合附图和实施例对本发明进行详细的说明。

现有的研究药物与细胞系反应的方法有两种,一种是研究员依据现有的抗癌药物数据库,在癌症细胞系与药物之间做大量的实验验证及定量分析,该研究涉及计算量较大,且其全部实验由研究员人工完成,人力物力成本高,效率低。另一种是基于癌细胞的基因组相似性,利用矩阵分解等方法传统的统计学或机器学习的方法,根据细胞系之间的相似性,来推断其与药物之间的关系。该研究忽略了基因之间的关系,导致并不能很好的预测细胞系与药物之间的反应。因此需要一种既能降低成本、提高效率,又能很好预测细胞系与药物之间的反应。

本申请提供一种药物与细胞系反应的预测模型,利用模型预测药物与细胞系的反应,其不需要涉及大量实验分析,降低人力物力成本,提高效率,并且其能够将基因与药物之间的关系关联,能够很好预测细胞系与药物之间的反应。具体请参见图1,为本发明药物与细胞系反应的预测模型的训练方法的第一实施例的流程示意图,包括:

步骤S11:获取训练样本集,训练样本集包括细胞系的基因数据、药物的化合物数据以及药物的化合物数据与细胞系的基因数据的反应结果标注。

具体的,在一实施例中,获取细胞系的基因数据、药物的化合物数据以及药物的化合物数据与细胞系的基因数据的反应结果标注。其中化合物数据与细胞系的基因数据的反应结果标注为药物与细胞系的标注IC50值。

在一实施例中,在获取细胞系的基因数据、药物的化合物数据以及药物的化合物数据与细胞系的基因数据的反应结果标注后,还可以对其进行预处理,例如对获取到的数据进行查重,剔除重复的数据,或者还可以对获取到的数据进行排序、整合。其主要目的是为了把获取到的数据预处理后,使得其能够更容易被模型识别。该预处理过程可以通过人为处理,或者在另一实施例中,也可以通过计算机智能处理,具体不做限定。

请参见图3,在一实施例中,获取药物的化合物数据可以通过如下方法进行:

步骤S111:获取药物的名称,并根据所述药物的名称确定药物对应的分子表达式和/或指纹表达式。

需要说明的是,一般药物标注的药物名称为药物的标识名称,但是其不能被模型识别,因此需要匹配到药物名称对应的药物的分子表达式或者指纹表达式,以使其能够被模型识别,能够通过模型预测。因此需要根据所述药物名称搜索药物对应的分子表达式和/或指纹表达式。

具体的,在获取药品名称之后,可以在有机小分子生物活性数据库(PubChem)中搜索其对应的SMILES(Simplified molecular input line entry specification,简化分子线性输入规范)分子表达式,或者还可以搜索药物对应的指纹表达式。

步骤S112:将分子表达式和/或指纹表达式整合为药物的化合物数据。

具体的,在根据药物的名称获取到分子表达式或指纹表达式后,可以对进行整合,例如可以将相同的剔除然后得到药物的化合物数据。

请参见图4,获取细胞系的基因数据可以通过如下方法进行:

步骤S113:获取细胞系的名称,并根据细胞系的名称确定细胞系对应的基因表达数据、拷贝数变异以及点突变数据。

具体的,获取细胞系的名称,根据细胞系的名称匹配到细胞系对应的基因表达数据、拷贝数变异以及点突变数据。

步骤S114:将细胞系对应的基因表达数据、拷贝数变异以及点突变数据整合为细胞系的基因数据。

将细胞系的名称,根据细胞系的名称匹配到细胞系对应的基因表达数据、拷贝数变异以及点突变数据整合为细胞系的基因数据。

在另一实施例中,为了使得模型获取更好的输入样本训练集,请参见图5:

步骤S115:对细胞系对应的基因表达数据、拷贝数变异以及点突变数据进行填充、归一化、独热编码中至少一种处理。

还可以对获取到的基因表达数据、拷贝数变异以及点突变数据进行填充、归一化、独热编码等处理。例如,若获取的基因表达数据不完整,则可以利用已知规则对缺少的部分进行填充。

步骤S116:将处理后的细胞系对应的基因表达数据、拷贝数变异以及点突变数据整合为细胞系的基因数据。

具体的,将处理后的细胞系对应的基因表达数据、拷贝数变异以及点突变数据整合为细胞系的基因数据。

在获取到训练样本集后,请继续参见图1:

步骤S12:将所述细胞系的基因数据和所述药物的化合物数据输入深度学习回归模型进行预测,得到药物的化合物数据与细胞系的基因数据的反应后的预测结果。

具体的,将药物的化合物数据、细胞系的基因数据输入至至深度学习回归模型中,在深度学习回归模型中进行预测,进而得到药物的化合物数据与细胞系的基因数据的反应的预测结果。

在一实施例中,可以将训练样本集分批次输入至深度学习回归模型中进行预测,得到多个药物的化合物数据与细胞系的基因数据的反应的预测结果。还可以将训练样本集同时全部输入至深度学习回归模型中进行预测,得到一个药物的化合物数据与细胞系的基因数据的反应的预测结果。

步骤S13:利用药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。

具体的,在一实施例中,在通过深度回归模型进行预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果后,利用药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。其中,药物的化合物数据与细胞系的基因数据的反应的预测结果为药物与细胞系反应的预测IC50值。

具体的,请参见图2,为步骤S13的一具体实施方式的流程示意图,包括:

步骤S131:计算药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值。

步骤S132:根据差值对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。

具体的,在一实施例中,若将训练样本集分批次输入深度回归模型进行预测时,则可以在第一批次进行预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果后,计算第一批次预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值,根据第一次得到的差值对深度学习回归模型进行迭代训练;再将第二批次训练样本集输入深度回归模型进行预测,计算第二批次的药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值,根据第二次得到的差值对深度学习回归模型进行预测,直至训练样本集的所有数据学习完毕,进而得到药物与细胞系反应的预测模型。

或者在另一实施例中,若一次性将所有训练样本集中的数据全部输入至深度学习回归模型中进行预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果后,计算药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值,根据差值对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。

具体的,在一实施例中,通过差值对深度学习回归模型进行迭代训练时,可以通过损失函数进行收敛,或者还可以通过反向传播法根据差值对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。

本实施例通过上述方法训练得到一种药物与细胞系反应的预测模型。其能够对药物与细胞系的反应进行预测,相对于现有技术,不需要人为的做太多实验研究,降低了人力物力损耗,并且模型预测能够提高效率。且本实施例的方法将药物的化合物数据以及细胞系的基因数据结合进行模型训练,克服了现有的忽略基因之间的关系的缺点,能够很好的预测细胞系与药物之间的反应。

本实施例的方案,对于未出现过的细胞系或者药物来说,模型能够根据细胞系的基因数据与药物的化合物数据之间的成分预测他们之间的相互反应关系。且模型不仅能够分析细胞系内基因之间的关系,药物化合物之间的关系,还能通过细胞系与药物交叉考虑到细胞系的基因与药物化合物之间的关系。相比传统方法的研究而言,本研究方法结合了细胞系基因之间的关系以及细胞系基因与药物化合物之间的关系,在预测结果的精度上远远超过了传统的基于概率的方法。

在一实施例中,如图6所示,为本发明药物与细胞系反应的预测模型的一实施例的结构示意图,其包括:第一特征提取网络51、第一特征提取网络52及特征结合网络53。

其中,第一特征提取网络51用于对细胞系基因数据及药物分子数据进行第一特征提取处理以得到第一特征序列。第二特征提取网络52用于对细胞系基因数据及药物分子数据进行第二特征提取处理以得到第二特征序列。特征结合网络53连接第一特征提取网络51及所述第二特征提取网络52,用于将第一特征序列与第二特征序列结合,以得到药物与细胞系反应预测结果。

在一具体实施例中,第一特征提取网络51用于对细胞系基因数据以及药物分子数据进行全部特征提取以得到第一特征序列。第二特征提取网络52用于对细胞系基因数据及药物分子数据进行局部特征提取处理以得到第二特征序列。特征结合网络53用于将第一特征序列与第二特征序列一一对应相加,以得到药物与细胞系反应预测结果。

请结合图7,其中,第一特征提取网络51包括:第一多层感知机511、第二多层感知机512以及拼接网络513。第一多层感知机511用于对细胞系基因数据进行特征提取处理,以得到第一维度的第一子特征;第二多层感知机512用于对药物分子数据进行特征提取处理,以得到第一维度的第二子特征。

拼接网络513连接第一多层感知机511及第二多层感知机512,用于将第一维度的第一子特征及第一维度的第二子特征进行拼接,以得到第一特征序列。具体的,在一实施例中,进行拼接时,可以将第一维度的第一子特征拼接在第一维度的第二子特征的前后,或者,还可以将第一维度的第一子特征与第一维度的第二子特征一一对应拼接。例如,第一维度的第一子特征包括A、B、C、D,第一维度的第二子特征包括a、b、c、d;可以将第一维度的第一子特征拼接在第一维度的第二子特征的前后,例如拼接后为:A、B、C、D、a、b、c、d,或者a、b、c、d、A、B、C、D;还可以将第一维度的第一子特征与第一维度的第二子特征一一对应拼接,例如A、a、B、b、C、c、D、d;或者a、A、b、B、c、C、d、D,具体不做限定。

其中,第一特征提取网络51还包括:第三多层感知机514。第三多层感知机514连接拼接网络513;用于对拼接的第一子特征和第二子特征进行特征提取处理,以得到第一特征序列。在一实施例中,第一特征序列为一维数据。

其中,第二特征提取网络52包括:第一嵌入层521、第二嵌入层522、特征关联网络523、计算网络525以及特征提取网络524。

第一嵌入层521用于对细胞系基因数据进行映射,以得到第二维度的第一子特征;第二嵌入层522用于对药物分子数据进行映射,以得到第二维度的第二子特征。特征关联网络523连接第一嵌入层521以及第二嵌入层522,用于将第二维度的第一子特征及所述第二维度的第二子特征进行关联,以得到关联特征;具体的,在将第二维度的第一子特征及第二维度的第二子特征进行关联时,可以通过将第二维度的第一子特征及第二维度的第二子特征进行点乘以进行关联,而得到的关联特征即为点积。例如计算第二维度的第一子特征1与第二维度的第二子特征1的点积,及计算第二维度的第一子特征2与第二维度的第二子特征2的点积。

特征提取网络524连接特征关联网络523,用于在关联特征中提取细胞系与药物相互作用大于阈值的关联特征。具体的,特征提取网络524可以为MaxPooling层,对关联特征进行MaxPooling操作,进而提取出细胞系与药物相互作用大于阈值的关联特征。

计算网络525连接特征提取网络524,用于将提取到的细胞系与药物相互作用大于阈值的关联特征相加,以得到第二特征序列。

本实施例提供的药物与细胞系反应预测模型,其结合了Deep网络模块及Cross网络模块,对细胞系的基因数据以及药物的化合物数据的反应进行预测,进而得到药物与细胞系反应预测结果,使得预测结果更为准确,并且本方法通过模型实现,降低了人力物力成本,提高了效率。

请参见图8,为本发明一种药物与细胞系反应的预测模型的训练装置,包括:训练样本获取模块61、模型预测模块62以及迭代训练模块63。

其中,训练样本获取模块61用于获取训练样本集,训练样本集包括细胞系的基因数据、药物的化合物数据以及药物的化合物数据与细胞系的基因数据的反应结果标注。

其中,模型预测模块62用于将细胞系的基因数据、药物的化合物数据输入深度学习回归模型进行预测,得到药物的化合物数据与细胞系的基因数据的反应的预测结果。

具体的,可以将细胞系的基因数据、药物的化合物数据分批次输入至深度学习回归模型中进行预测,得到多个药物的化合物数据与细胞系的基因数据的反应的预测结果。还可以将细胞系的基因数据、药物的化合物数据同时全部输入至深度学习回归模型中进行预测,得到一个药物的化合物数据与细胞系的基因数据的反应的预测结果。

其中,迭代训练模块63用于利用药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。

具体的,在一实施例中,在通过深度回归模型进行预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果后,利用药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。其中,药物的化合物数据与细胞系的基因数据的反应的预测结果为药物与细胞系反应的预测IC50值。

在一实施例中,若将训练样本集分批次输入深度回归模型进行预测时,则可以在第一批次进行预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果后,计算第一批次预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值,根据第一次得到的差值对深度学习回归模型进行迭代训练;再将第二批次训练样本集输入深度回归模型进行预测,计算第二批次的药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值,根据第二次得到的差值对深度学习回归模型进行预测,直至训练样本集的所有数据学习完毕,进而得到药物与细胞系反应的预测模型。

或者在另一实施例中,若一次性将所有细胞系的基因数据、药物的化合物数据中的数据全部输入至深度学习回归模型中进行预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果后,计算药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值,根据差值对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。

具体的,在一实施例中,通过差值对深度学习回归模型进行迭代训练时,可以通过损失函数进行收敛,或者还可以通过反向传播法根据差值对深度学习回归模型进行迭代训练,得到药物与细胞系反应的预测模型。

本实施例提供的训练装置能够训练得到一种药物与细胞系反应的预测模型。其能够对药物与细胞系的反应进行预测,相对于现有技术,不需要人为的做太多实验研究,降低了人力物力损耗,并且模型预测能够提高效率。且本实施例的方法将药物的化合物数据以及细胞系的基因数据结合进行模型训练,克服了现有的忽略基因之间的关系的缺点,能够很好的预测细胞系与药物之间的反应。

请参见图9,为本发明药物与细胞系反应的预测方法的一实施例的流程示意图,该预测方法基于药物与细胞系反应的预测模型实现,药物与细胞系反应的预测模型通过上述图1至图5任一项所述的训练方法训练所得。本发明的药物与细胞系反应的预测方法包括:

步骤S71:获取预测样本集,预测样本集包括细胞系的样本基因数据、药物的样本化合物数据。

具体的,获取预测样本集,预测样本集可以为需要进行预测的细胞系的样本基因数据、药物的样本化合物数据。

步骤S72:利用药物与细胞系反应的预测模型对预测样本集进行处理,得到药物与细胞系反应的预测结果。

将预测样本集输入至药物与细胞系反应的预测模型中,药物与细胞系反应的预测模型对预测样本集进行处理,进而预测得到药物与细胞系反应的预测结果,即得到药物与细胞系反应的预测IC50值。

在一实施例中,利用图6以及图7所示的药物与细胞系反应的预测模型对预测样本集进行处理,得到药物与细胞系反应的预测结果。为了兼顾细胞系基因数据与药物分子数据之间的关系,模型采用Deep和Cross两部分,由于Deep部分网络结构为DNN网络模块,而DNN网络模块常常用来做特征的深度组合,因为DNN网络模块本质上是对矢量的线性加权,但是由于没有人为约束,DNN在训练集上容易出现过拟合,导致其在预测任务的时候不具备足够的泛化能力,所以本申请加入Cross部分,该部分主要是对细胞系基因数据及药物分子数据做交叉处理,使他们之间交互产生新的特征,以使得模型能够具备更好得泛化能力,进而使得预测结果更为准确。

具体的,如图10所示,获取细胞系基因数据及药物分子数据。在一实施例中,可以根据细胞系的名称搜索得到该细胞系对应的基因数据,及根据药物的名称搜索该药物对应的分子表达式或指纹表达式,将其作为药物的分子数据,以使得其能够被模型识别。

采用Deep网络模块对细胞系基因数据及药物分子数据进行第一特征提取处理以得到第一特征序列。具体的,采用Deep网络模块对细胞系基因数据及药物分子数据进行全部特征提取处理以得到第一特征序列。

在一实施例中,可以利用第一多层感知机对细胞系基因数据进行特征提取处理,以得到第一维度的第一子特征;及利用第二多层感知机对药物分子数据进行特征提取处理,以得到第一维度的第二子特征。将第一维度的第一子特征及第一维度的第二子特征进行拼接。利用第三多层感知机对拼接的第一子特征和第二子特征进行特征提取处理,以得到第一特征序列。

采用Cross网络模块对细胞系基因数据及药物分子数据进行第二特征提取处理以得到第二特征序列。具体的,采用Cross网络模块对细胞系基因数据及药物分子数据进行局部特征提取处理以得到第二特征序列。具体的,利用第一嵌入层对细胞系基因数据进行映射,以得到第二维度的第一子特征,及利用第二嵌入层对药物分子数据进行映射,以得到第二维度的第二子特征。具体的,将细胞系基因数据输入第一嵌入层中,使得第一嵌入层对细胞系基因数据进行映射,进而得到第二维度的第一子特征,并且将药物分子数据输入至第二嵌入层中,使得第二嵌入层对药物分子数据进行映射,进而得到第二维度的第二子特征。具体的,得到的第二维度的第一子特征及第二维度的第二子特征为相同的维度、稠密并且非正交的特征向量,以此能够使其便于计算,更符合逻辑意义。将第二维度的第一子特征及第二维度的第二子特征进行关联,以得到关联特征。在一实施例中,假设细胞系基因数据经过映射后得到的第二维度的第一子特征为两个,例如第二维度的第一子特征1及第二维度的第一子特征2;并且药物分子数据经过映射后得到的第二维度的第二子特征也为两个,例如第二维度的第二子特征1及第二维度的第二子特征2。将第二维度的第一子特征及第二维度的第二子特征进行关联时,可以将其一一对应关联,例如将第二维度的第一子特征1与第二维度的第二子特征1进行关联,将第二维度的第一子特征2与第二维度的第二子特征2进行关联,然后得到多个关联特征。具体的,在一实施例中,在将第二维度的第一子特征及第二维度的第二子特征进行关联时,可以通过将第二维度的第一子特征及第二维度的第二子特征进行点乘以进行关联,而得到的关联特征即为点积。例如计算第二维度的第一子特征1与第二维度的第二子特征1的点积,及计算第二维度的第一子特征2与第二维度的第二子特征2的点积。

在一实施例中,在关联特征中提取细胞系与药物相互作用大于阈值的关联特征。可以在模型中对关联特征进行MaxPooling操作,进而提取出细胞系与药物相互作用大于阈值的关联特征。

将提取到的细胞系与药物相互作用大于阈值的关联特征相加,以得到第二特征序列。需要说明的是,第二特征序列为与第一特征序列相同维度的特征向量。在一具体实施例中,第一特征序列为一维特征向量,且第二特征序列也为一维特征向量。

将第一特征序列与所述第二特征序列结合,以得到药物与细胞系反应预测结果。在一具体实施例中,将第一特征序列与第二特征序列一一对应相加,进而得到药物与细胞系反应预测结果。

具体的,每一药物与细胞系均具有其对应的预测结果,在将第一特征序列与第二特征序列进行相加时,可以根据其对应的样本名称进行相加,例如根据对应的药物名称或者细胞系名称进行相加,其得到的结果即为药物与细胞系反应预测结果。具体的,药物与细胞系反应预测结果为药物与细胞系反应预测IC50值。IC50(half maximal inhibitoryconcentration)是指被测量的拮抗剂的半抑制浓度。它能指示某一药物或者物质(抑制剂)在抑制某些生物程序(或者是包含在此程序中的某些物质,比如酶,细胞受体或是微生物)的半量。

本实施例通过上述方法对细胞系的基因数据以及药物的化合物数据的反应进行预测,进而得到药物与细胞系反应预测结果,其方法结合了Deep网络模块及Cross网络模块,使得预测结果更为准确,并且本方法通过模型实现,降低了人力物力成本,提高了效率。

具体的,由于模型学习了多种数据,每一次数据的学习,模型会自主迭代参数,模型的性能会自动变得越来越好。模型是一种基于数学的映射行为,它需要提取出已有的实验数据信息来推断,因为其本身基于一种假设;未来的样本中如果有相似的样本,就会有相似的药物细胞系反应结果。数据经过回归模型的计算后,降会从高维空间映射到一个一维空间,所得的结果就是预测的IC50值。即通过模型得到的药物与细胞系反应的预测IC50值即为细胞系的样本基因数据及药物的样本化合物数据的反应的数据。

请参见图11,为本发明药物与细胞系反应的预测装置的一实施例的结构示意图,包括:样本获取模块81以及模型计算模块82。

其中,样本获取模块81用于获取预测样本集,所述预测样本集包括细胞系的样本基因数据、药物的样本化合物数据。

具体的,预测样本集可以为需要进行预测的细胞系的样本基因数据、药物的样本化合物数据。

其中,模型计算模块82用于利用所述药物与细胞系反应的预测模型对所述预测样本集进行处理,得到所述药物与细胞系反应的预测结果。

具体的,将预测样本集输入至药物与细胞系反应的预测模型中,药物与细胞系反应的预测模型对预测样本集进行处理,进而预测得到药物与细胞系反应的预测结果,即得到药物与细胞系反应的预测IC50值。

请参见图12,为本发明智能设备的一实施例的结构示意图。设智能设备包括相互连接的存储器102和处理器101。

存储器102用于存储实现上述任意一项训练方法及预测方法的程序指令。

处理器101用于执行存储器102存储的程序指令。

其中,处理器101还可以称为CPU(Central Processing Unit,中央处理单元)。处理器101可能是一种集成电路芯片,具有信号的处理能力。处理器101还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器102可以为内存条、TF卡等,可以存储智能设备中全部信息,包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器,智能设备才有记忆功能,才能保证正常工作。智能设备的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等,能长期保存信息。内存指主板上的存储部件,用来存放当前正在执行的数据和程序,但仅用于暂时存放程序和数据,关闭电源或断电,数据会丢失。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,系统服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

请参阅图13,为本发明计算机可读存储介质的结构示意图。本申请的存储介质存储有能够实现上述所有训练方法及预测方法的程序文件201,其中,该程序文件201可以以软件产品的形式存储在上述存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质,或者是计算机、服务器、手机、平板等终端设备。

以上仅为本发明的实施方式,并非因此限制本发明的专利范围,凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换,或直接或间接运用在其他相关的技术领域,均同理包括在本发明的专利保护范围内。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于医学检验大数据的辅助问诊系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!