药物与细胞系反应预测方法及相关装置

文档序号：1891646 发布日期：2021-11-26 浏览：30次 >En<

阅读说明：本技术 药物与细胞系反应预测方法及相关装置 (Method and related device for predicting drug and cell line response ) 是由李泽超张捷于 2021-08-27 设计创作，主要内容包括：本发明公开了一种药物与细胞系反应预测方法及相关装置,包括：获取细胞系基因数据及药物分子数据；对所述细胞系基因数据及所述药物分子数据进行第一特征提取处理以得到第一特征序列；对所述细胞系基因数据及所述药物分子数据进行第二特征提取处理以得到第二特征序列；将所述第一特征序列与所述第二特征序列结合,以得到药物与细胞系反应预测结果。以此避免人为参与实验,降低人力成本,提高效率,并且该预测方法通过第二特征提取以及第一特征提取的结合提高了预测结果的精确性。(The invention discloses a method for predicting the reaction of a medicine and a cell line and a related device, comprising the following steps: acquiring cell line gene data and drug molecule data; performing first characteristic extraction processing on the cell line gene data and the drug molecule data to obtain a first characteristic sequence; performing second characteristic extraction processing on the cell line gene data and the drug molecule data to obtain a second characteristic sequence; combining the first signature sequence with the second signature sequence to obtain a prediction of drug-cell line response. Therefore, manual participation in experiments is avoided, labor cost is reduced, efficiency is improved, and the accuracy of the prediction result is improved by the combination of the second feature extraction and the first feature extraction.)

药物与细胞系反应预测方法及相关装置

技术领域

本发明涉及云计算应用领域，具体涉及一种药物与细胞系反应预测方法及相关装置。

背景技术

人体癌细胞系具有稳定遗传背景和无限繁殖能力，临床肿瘤模型一直都是生物医学的主要实验对象之一。目前预测癌症患者对癌症药物的反应是精准医疗的重要问题，目前在该领域采用的主要研究流程主要有以下两种：

一种是研究员依据现有的抗癌药物数据库，在癌症细胞系与药物之间做大量的实验验证及定量分析，该研究全部实验由研究员人工完成，人力物力成本高，效率低。

另一种是基于癌细胞的基因组相似性，利用矩阵分解等方法传统的统计学或机器学习的方法，根据细胞系之间的相似性，来推断其与药物之间的关系。该研究忽略了基因之间的关系，导致并不能很好的预测细胞系与药物之间的反应。

因此需要一种既能降低成本、提高效率，又能很好预测细胞系与药物之间的反应的方法。

发明内容

本发明提供一种药物与细胞系反应预测方法及相关装置，其不需要人为参与实验，降低人力成本，提高效率。

为解决上述技术问题，本发明提供的第一个技术方案为：提供一种药物与细胞系反应预测方法，包括：获取细胞系基因数据及药物分子数据；对细胞系基因数据及药物分子数据进行第一特征提取处理以得到第一特征序列；对细胞系基因数据及药物分子数据进行第二特征提取处理以得到第二特征序列；将第一特征序列与第二特征序列结合，以得到药物与细胞系反应预测结果。以此方法即可取消人为参与实验，降低人力成本，提高效率，并且通过局部特征提取以及全部特征提取的结合提高了预测结果的精确性。

其中，所述将所述第一特征序列与所述第二特征序列结合，以得到药物与细胞系反应预测结果包括：将所述第一特征序列与所述第二特征序列一一对应相加，以得到药物与细胞系反应预测结果。

其中，所述对所述细胞系基因数据及所述药物分子数据进行第一特征提取处理以得到第一特征序列包括：对所述细胞系基因数据及所述药物分子数据进行全部特征提取处理以得到第一特征序列；所述对所述细胞系基因数据及所述药物分子数据进行第二特征提取处理以得到第二特征序列包括：对所述细胞系基因数据及所述药物分子数据进行局部特征提取处理以得到第二特征序列。

其中，对细胞系基因数据及药物分子数据进行全部特征提取处理以得到第一特征序列包括：对细胞系基因数据进行特征提取处理，以得到第一维度的第一子特征；对药物分子数据进行特征提取处理，以得到第一维度的第二子特征；以及将第一维度的第一子特征及第一维度的第二子特征进行拼接，以得到第一特征序列。进行全部特征提取，并将提取到的细胞系基因数据对应的特征与药物分子数据对应的特征进行结合，进一步提高了预测结果的精确性。

其中，对细胞系基因数据进行特征提取处理，以得到第一维度的第一子特征；和对药物分子数据进行特征提取处理，以得到第一维度的第二子特征包括：利用第一多层感知机对细胞系基因数据进行特征提取处理，以得到第一维度的第一子特征；利用第二多层感知机对药物分子数据进行特征提取处理，以得到第一维度的第二子特征。进行全部特征提取，并将提取到的细胞系基因数据对应的特征与药物分子数据对应的特征进行结合，进一步提高了预测结果的精确性。

其中，将第一维度的第一子特征及第一维度的第二子特征进行拼接，以得到第一特征序列包括：将第一维度的第一子特征及第一维度的第二子特征进行拼接；利用第三多层感知机对拼接的第一子特征和第二子特征进行特征提取处理，得到第一特征序列。将提取到的细胞系基因数据对应的特征与药物分子数据对应的特征进行结合，进一步提高了预测结果的精确性。

其中，对细胞系基因数据及药物分子数据进行局部特征提取处理以得到第二特征序列包括：对细胞系基因数据进行映射，以得到第二维度的第一子特征，及对药物分子数据进行映射，以得到第二维度的第二子特征；将第二维度的第一子特征及第二维度的第二子特征进行关联，以得到关联特征；在关联特征中提取细胞系与药物相互作用大于阈值的关联特征；将提取到的细胞系与药物相互作用大于阈值的关联特征相加，以得到第二特征序列。进行局部特征提取，并将提取到的细胞系基因数据对应的特征与药物分子数据对应的特征进行关联得到新的特征，进一步提高了预测结果的精确性。

其中，对细胞系基因数据进行映射，以得到第二维度的第一子特征，及对药物分子数据进行映射，以得到第二维度的第二子特征包括：利用第一嵌入层对细胞系基因数据进行映射，以得到第二维度的第一子特征，及利用第二嵌入层对药物分子数据进行映射，以得到第二维度的第二子特征。

其中，将第二维度的第一子特征及第二维度的第二子特征进行关联，以得到关联特征包括：计算第二维度的第一子特征及第二维度的第二子特征的点积，进而得到关联特征。将提取到的细胞系基因数据对应的特征与药物分子数据对应的特征进行关联得到新的特征，进一步提高了预测结果的精确性。

其中，药物与细胞系反应预测结果为药物与细胞系反应预测IC50值。

为解决上述技术问题，本发明提供的第二个技术方案为：提供一种药物与细胞系反应预测模型，模型包括：第一特征提取网络，用于对细胞系基因数据及药物分子数据进行第一特征提取处理以得到第一特征序列；第二特征提取网络，用于对细胞系基因数据及药物分子数据进行第二特征提取处理以得到第二特征序列；特征结合网络，用于连接所述第一特征提取网络及所述第二特征提取网络，用于将所述第一特征序列与所述第二特征序列结合，以得到所述药物与细胞系反应预测结果。该模型不需要人为参与，降低人力成本，提高效率，并且通过局部特征提取以及全部特征提取的结合提高了预测结果的精确性。

其中，第一特征提取网络包括：第一多层感知机、第二多层感知机以及拼接网络；其中，第一多层感知机用于对细胞系基因数据进行特征提取处理，以得到第一维度的第一子特征；第二多层感知机用于对药物分子数据进行特征提取处理，以得到第一维度的第二子特征；拼接网络连接第一多层感知机及第二多层感知机，用于将第一维度的第一子特征及第一维度的第二子特征进行拼接，以得到第一特征序列。

其中，第一特征提取网络还包括：第三多层感知机；所述第三多层感知机连接拼接网络，用于对拼接的第一子特征和第二子特征进行特征提取处理，以得到第一特征序列。

其中，第二特征提取网络包括：第一嵌入层、第二嵌入层、特征关联网络、计算网络以及特征提取网络；其中，第一嵌入层用于对细胞系基因数据进行映射，以得到第二维度的第一子特征；第二嵌入层用于对药物分子数据进行映射，以得到第二维度的第二子特征；特征关联网络连接第一嵌入层及第二嵌入层，用于将第二维度的第一子特征及第二维度的第二子特征进行关联，以得到关联特征；特征提取网络连接特征关联网络，用于在关联特征中提取细胞系与药物相互作用大于阈值的关联特征；计算网络连接特征提取网络，用于将提取到的细胞系与药物相互作用大于阈值的关联特征相加，以得到第二特征序列。

为解决上述技术问题，本发明提供的第三个技术方案为：提供一种药物与细胞系反应预测设备，包括：存储器和处理器，其中，存储器存储有程序指令，处理器从存储器调取程序指令以执行上述任一项的药物与细胞系反应预测方法。

为解决上述技术问题，本发明提供的第四个技术方案为：提供一种计算机可读存储介质，存储有程序文件，程序文件能够被执行以实现上述任一项的药物与细胞系反应预测方法。

本发明的有益效果：区别于现有技术，本发明通过获取细胞系基因数据及药物分子数据；对细胞系基因数据及药物分子数据进行第一特征提取处理以得到第一特征序列；对细胞系基因数据及药物分子数据进行第二特征提取处理以得到第二特征序列；将第一特征序列与第二特征序列结合，以得到药物与细胞系反应预测结果。以此避免人为参与实验，降低人力成本，提高效率，并且该预测方法通过局部特征提取以及全部特征提取的结合提高了预测结果的精确性。

附图说明

为了更清楚地说明本发明实施例中的技术方案，下面将对实施例描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其它的附图，其中：

图1为本发明药物与细胞系反应预测方法的第一实施例的流程示意图；

图2为图1中步骤S12的一实施例的流程示意图；

图3为图2中步骤S122的一实施例的流程示意图；

图4为图1中步骤S13的一实施例的流程示意图；

图5为本发明药物与细胞系反应预测方法的第一实施例的原理流程示意图；

图6为本发明药物与细胞系反应预测模型的第一实施例的结构示意图；

图7为本发明药物与细胞系反应预测模型的第二实施例的结构示意图；

图8为本发明药物与细胞系反应预测设备的一实施例的结构示意图；

图9为本发明计算机可读存储介质的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅是本申请的一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下面结合附图和实施例对本发明进行详细的说明。

请参见图1，为本发明药物与细胞系反应预测方法的第一实施例的流程示意图。本发明为了兼顾细胞系基因数据与药物分子数据之间的关系，模型采用Deep和Cross两部分，由于Deep部分网络结构为DNN网络模块，而DNN网络模块常常用来做特征的深度组合，因为DNN网络模块本质上是对矢量的线性加权，但是由于没有人为约束，DNN在训练集上容易出现过拟合，导致其在预测任务的时候不具备足够的泛化能力，所以本申请加入Cross部分，该部分主要是对细胞系基因数据及药物分子数据做交叉处理，使他们之间交互产生新的特征，以使得模型能够具备更好得泛化能力，进而使得预测结果更为准确。具体的，如图1所示，本实施例包括：

步骤S11：获取细胞系基因数据及药物分子数据。

具体的，获取细胞系基因数据及药物分子数据。在一实施例中，可以根据细胞系的名称搜索得到该细胞系对应的基因数据，及根据药物的名称搜索该药物对应的分子表达式或指纹表达式，将其作为药物的分子数据，以使得其能够被模型识别。

步骤S12：对细胞系基因数据及药物分子数据进行第一特征提取处理以得到第一特征序列。

具体的，本实施例中，采用Deep网络模块对细胞系基因数据及药物分子数据进行第一特征提取处理以得到第一特征序列。在一具体实施例中，采用Deep网络模块对细胞系基因数据及药物分子数据进行全部特征提取处理以得到第一特征序列。

请结合图2，图2为步骤S12的具体实施例的流程示意图，包括：

步骤S121：对细胞系基因数据进行特征提取处理，以得到第一维度的第一子特征；及对药物分子数据进行特征提取处理，以得到第一维度的第二子特征。

请结合图5，在一实施例中，可以利用第一多层感知机对细胞系基因数据进行特征提取处理，以得到第一维度的第一子特征；及利用第二多层感知机对药物分子数据进行特征提取处理，以得到第一维度的第二子特征。

具体的，将细胞系基因数据输入至第一多层感知机，第一多层感知机对细胞系基因数据进行处理，进而得到第一维度的第一子特征；将药物分子数据输入至第二多层感知机，第二多层感知机对药物分子数据进行处理，进而得到第一维度的第二子特征。

步骤S122：将第一维度的第一子特征及第一维度的第二子特征进行拼接，以得到第一特征序列。

具体的，结合图5，第一维度的第一子特征及第一维度的第二子特征进行拼接，以得到第一特征序列。在一实施例中，进行拼接时，可以将第一维度的第一子特征拼接在第一维度的第二子特征的前后，或者，还可以将第一维度的第一子特征与第一维度的第二子特征一一对应拼接。例如，第一维度的第一子特征包括A、B、C、D，第一维度的第二子特征包括a、b、c、d；可以将第一维度的第一子特征拼接在第一维度的第二子特征的前后，例如拼接后为：A、B、C、D、a、b、c、d，或者a、b、c、d、A、B、C、D；还可以将第一维度的第一子特征与第一维度的第二子特征一一对应拼接，例如A、a、B、b、C、c、D、d；或者a、A、b、B、c、C、d、D，具体不做限定。

在一实施例中，请参见图3，包括：

步骤S1221：将第一维度的第一子特征及第一维度的第二子特征进行拼接。

具体的，将第一维度的第一子特征及第一维度的第二子特征进行拼接。

步骤S1222：利用第三多层感知机对拼接的第一子特征和第二子特征进行特征提取处理，以得到第一特征序列。

将拼接后的第一维度的第一子特征及第一维度的第二子特征输入至第三多层感知机，使得第三多层感知机对拼接后的第一维度的第一子特征及第一维度的第二子特征进行处理，进而得到第一特征序列。具体的，在通过第三多层感知机对拼接的第一子特征和第二子特征进行特征提取处理所得到第一特征序列为一维数据。

请继续参见图1：

步骤S13：对细胞系基因数据及药物分子数据进行第二特征提取处理以得到第二特征序列。

具体的，本实施例采用Cross网络模块对细胞系基因数据及药物分子数据进行第二特征提取处理以得到第二特征序列。在一实施例中，采用Cross网络模块对细胞系基因数据及药物分子数据进行局部特征提取处理以得到第二特征序列。请结合图4，包括：

步骤S131：对细胞系基因数据进行映射，以得到第二维度的第一子特征，及对药物分子数据进行映射，以得到第二维度的第二子特征。

在一实施例中，利用第一嵌入层对细胞系基因数据进行映射，以得到第二维度的第一子特征，及利用第二嵌入层对药物分子数据进行映射，以得到第二维度的第二子特征。具体的，将细胞系基因数据输入第一嵌入层中，使得第一嵌入层对细胞系基因数据进行映射，进而得到第二维度的第一子特征，并且将药物分子数据输入至第二嵌入层中，使得第二嵌入层对药物分子数据进行映射，进而得到第二维度的第二子特征。具体的，得到的第二维度的第一子特征及第二维度的第二子特征为相同的维度、稠密并且非正交的特征向量，以此能够使其便于计算，更符合逻辑意义。

步骤S132：将第二维度的第一子特征及第二维度的第二子特征进行关联，以得到关联特征。

具体的，结合图5，其中，假设细胞系基因数据经过映射后得到的第二维度的第一子特征为两个，例如第二维度的第一子特征1及第二维度的第一子特征2；并且药物分子数据经过映射后得到的第二维度的第二子特征也为两个，例如第二维度的第二子特征1及第二维度的第二子特征2。将第二维度的第一子特征及第二维度的第二子特征进行关联时，可以将其一一对应关联，例如将第二维度的第一子特征1与第二维度的第二子特征1进行关联，将第二维度的第一子特征2与第二维度的第二子特征2进行关联，然后得到多个关联特征。

具体的，在一实施例中，在将第二维度的第一子特征及第二维度的第二子特征进行关联时，可以通过将第二维度的第一子特征及第二维度的第二子特征进行点乘以进行关联，而得到的关联特征即为点积。例如计算第二维度的第一子特征1与第二维度的第二子特征1的点积，及计算第二维度的第一子特征2与第二维度的第二子特征2的点积。

步骤S133：在关联特征中提取细胞系与药物相互作用大于阈值的关联特征。

具体的，将关联特征中细胞系与药物相互作用大于阈值的关联特征提取出来，在一实施例中，可以在模型中对关联特征进行MaxPooling操作，进而提取出细胞系与药物相互作用大于阈值的关联特征。

步骤S134：将提取到的细胞系与药物相互作用大于阈值的关联特征相加，以得到第二特征序列。

具体的，将提取出来的细胞系与药物相互作用大于阈值的关联特征相加求和，最终得到第二特征序列。需要说明的是，第二特征序列为与第一特征序列相同维度的特征向量。在一具体实施例中，第一特征序列为一维特征向量，且第二特征序列也为一维特征向量。

请继续参见图1：

步骤S14：将第一特征序列与所述第二特征序列结合，以得到药物与细胞系反应预测结果。

在一具体实施例中，将第一特征序列与第二特征序列一一对应相加，进而得到药物与细胞系反应预测结果。

具体的，每一药物与细胞系均具有其对应的预测结果，在将第一特征序列与第二特征序列进行相加时，可以根据其对应的样本名称进行相加，例如根据对应的药物名称或者细胞系名称进行相加，其得到的结果即为药物与细胞系反应预测结果。具体的，药物与细胞系反应预测结果为药物与细胞系反应预测IC50值。IC50(half maximal inhibitoryconcentration)是指被测量的拮抗剂的半抑制浓度。它能指示某一药物或者物质(抑制剂)在抑制某些生物程序(或者是包含在此程序中的某些物质，比如酶，细胞受体或是微生物)的半量。

本发明通过上述方法对细胞系的基因数据以及药物的化合物数据的反应进行预测，进而得到药物与细胞系反应预测结果，其方法结合了Deep网络模块及Cross网络模块，使得预测结果更为准确，并且本方法通过模型实现，降低了人力物力成本，提高了效率。

请参见图6，为本发明药物与细胞系反应预测模型的一实施例的结构示意图。其包括：第一特征提取网络51、第一特征提取网络52及特征结合网络53。

其中，第一特征提取网络51用于对细胞系基因数据及药物分子数据进行第一特征提取处理以得到第一特征序列。第二特征提取网络52用于对细胞系基因数据及药物分子数据进行第二特征提取处理以得到第二特征序列。特征结合网络53连接第一特征提取网络51及所述第二特征提取网络52，用于将第一特征序列与第二特征序列结合，以得到药物与细胞系反应预测结果。

在一具体实施例中，第一特征提取网络51用于对细胞系基因数据以及药物分子数据进行全部特征提取以得到第一特征序列。第二特征提取网络52用于对细胞系基因数据及药物分子数据进行局部特征提取处理以得到第二特征序列。特征结合网络53用于将第一特征序列与第二特征序列一一对应相加，以得到药物与细胞系反应预测结果。

请结合图7，其中，第一特征提取网络51包括：第一多层感知机511、第二多层感知机512以及拼接网络513。

其中，第一多层感知机511用于对细胞系基因数据进行特征提取处理，以得到第一维度的第一子特征；第二多层感知机512用于对药物分子数据进行特征提取处理，以得到第一维度的第二子特征。

拼接网络513连接第一多层感知机511及第二多层感知机512，用于将第一维度的第一子特征及第一维度的第二子特征进行拼接，以得到第一特征序列。具体的，在一实施例中，进行拼接时，可以将第一维度的第一子特征拼接在第一维度的第二子特征的前后，或者，还可以将第一维度的第一子特征与第一维度的第二子特征一一对应拼接。例如，第一维度的第一子特征包括A、B、C、D，第一维度的第二子特征包括a、b、c、d；可以将第一维度的第一子特征拼接在第一维度的第二子特征的前后，例如拼接后为：A、B、C、D、a、b、c、d，或者a、b、c、d、A、B、C、D；还可以将第一维度的第一子特征与第一维度的第二子特征一一对应拼接，例如A、a、B、b、C、c、D、d；或者a、A、b、B、c、C、d、D，具体不做限定。

其中，第一特征提取网络51还包括：第三多层感知机514。第三多层感知机514连接拼接网络513；用于对拼接的第一子特征和第二子特征进行特征提取处理，以得到第一特征序列。在一实施例中，第一特征序列为一维数据。

其中，第二特征提取网络52包括：第一嵌入层521、第二嵌入层522、特征关联网络523、计算网络525以及特征提取网络524。

其中，第一嵌入层521用于对细胞系基因数据进行映射，以得到第二维度的第一子特征；第二嵌入层522用于对药物分子数据进行映射，以得到第二维度的第二子特征。特征关联网络523连接第一嵌入层521以及第二嵌入层522，用于将第二维度的第一子特征及所述第二维度的第二子特征进行关联，以得到关联特征；具体的，在将第二维度的第一子特征及第二维度的第二子特征进行关联时，可以通过将第二维度的第一子特征及第二维度的第二子特征进行点乘以进行关联，而得到的关联特征即为点积。例如计算第二维度的第一子特征1与第二维度的第二子特征1的点积，及计算第二维度的第一子特征2与第二维度的第二子特征2的点积。

特征提取网络524连接特征关联网络523，用于在关联特征中提取细胞系与药物相互作用大于阈值的关联特征。具体的，特征提取网络524可以为MaxPooling层，对关联特征进行MaxPooling操作，进而提取出细胞系与药物相互作用大于阈值的关联特征。

计算网络525连接特征提取网络524，用于将提取到的细胞系与药物相互作用大于阈值的关联特征相加，以得到第二特征序列。

本发明提供的药物与细胞系反应预测模型，其结合了Deep网络模块及Cross网络模块，对细胞系的基因数据以及药物的化合物数据的反应进行预测，进而得到药物与细胞系反应预测结果，使得预测结果更为准确，并且本方法通过模型实现，降低了人力物力成本，提高了效率。

在一实施例中，药物与细胞系反应预测模型是通过对深度学习回归模型进行训练得到的。具体的，训练得到药物与细胞系反应预测模型的方法包括：

(1)获取训练样本集，训练样本集包括细胞系的基因数据、药物的化合物数据以及药物的化合物数据与细胞系的基因数据的反应结果标注。

具体的，在一实施例中，获取细胞系的基因数据、药物的化合物数据以及药物的化合物数据与细胞系的基因数据的反应结果标注。其中化合物数据与细胞系的基因数据的反应结果标注为药物与细胞系的标注IC50值。

在一实施例中，在获取细胞系的基因数据、药物的化合物数据以及药物的化合物数据与细胞系的基因数据的反应结果标注后，还可以对其进行预处理，例如对获取到的数据进行查重，剔除重复的数据，或者还可以对获取到的数据进行排序、整合。其主要目的是为了把获取到的数据预处理后，使得其能够更容易被模型识别。该预处理过程可以通过人为处理，或者在另一实施例中，也可以通过计算机智能处理，具体不做限定。

在一实施例中，获取药物的名称，并根据所述药物的名称确定药物对应的分子表达式和/或指纹表达式；将分子表达式和/或指纹表达式整合为药物的化合物数据。获取细胞系的名称，并根据细胞系的名称确定细胞系对应的基因表达数据、拷贝数变异以及点突变数据。将细胞系对应的基因表达数据、拷贝数变异以及点突变数据整合为细胞系的基因数据。对细胞系对应的基因表达数据、拷贝数变异以及点突变数据进行填充、归一化、独热编码中至少处理。将处理后的细胞系对应的基因表达数据、拷贝数变异以及点突变数据整合为细胞系的基因数据。

需要说明的是，一般药物标注的药物名称为药物的标识名称，但是其不能被模型识别，因此需要匹配到药物名称对应的药物的分子表达式或者指纹表达式，以使其能够被模型识别，能够通过模型预测。因此需要根据所述药物名称搜索药物对应的分子表达式和/或指纹表达式。

具体的，在获取药品名称之后，可以在有机小分子生物活性数据库(PubChem)中搜索其对应的SMILES(Simplified molecular input line entry specification，简化分子线性输入规范)分子表达式，或者还可以搜索药物对应的指纹表达式。

还可以对获取到的基因表达数据、拷贝数变异以及点突变数据进行填充、归一化、独热编码等处理。例如，若获取的基因表达数据不完整，则可以利用已知规则对缺少的部分进行填充。

(2)将所述细胞系的基因数据和所述药物的化合物数据输入深度学习回归模型进行预测，得到药物的化合物数据与细胞系的基因数据的反应后的预测结果。

具体的，将药物的化合物数据、细胞系的基因数据输入至至深度学习回归模型中，在深度学习回归模型中进行预测，进而得到药物的化合物数据与细胞系的基因数据的反应的预测结果。

在一实施例中，可以将训练样本集分批次输入至深度学习回归模型中进行预测，得到多个药物的化合物数据与细胞系的基因数据的反应的预测结果。还可以将训练样本集同时全部输入至深度学习回归模型中进行预测，得到一个药物的化合物数据与细胞系的基因数据的反应的预测结果。

(3)利用药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注对深度学习回归模型进行迭代训练，得到药物与细胞系反应的预测模型。

具体的，在一实施例中，在通过深度回归模型进行预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果后，利用药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注对深度学习回归模型进行迭代训练，得到药物与细胞系反应的预测模型。其中，药物的化合物数据与细胞系的基因数据的反应的预测结果为药物与细胞系反应的预测IC50值。

在一具体实施例中，计算药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值。根据差值对深度学习回归模型进行迭代训练，得到药物与细胞系反应的预测模型。

具体的，在一实施例中，若将训练样本集分批次输入深度回归模型进行预测时，则可以在第一批次进行预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果后，计算第一批次预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值，根据第一次得到的差值对深度学习回归模型进行迭代训练；再将第二批次训练样本集输入深度回归模型进行预测，计算第二批次的药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值，根据第二次得到的差值对深度学习回归模型进行预测，直至训练样本集的所有数据学习完毕，进而得到药物与细胞系反应的预测模型。

或者在另一实施例中，若一次性将所有训练样本集中的数据全部输入至深度学习回归模型中进行预测得到药物的化合物数据与细胞系的基因数据的反应的预测结果后，计算药物的化合物数据与细胞系的基因数据的反应的预测结果及药物的化合物数据与细胞系的基因数据的反应结果标注的差值，根据差值对深度学习回归模型进行迭代训练，得到药物与细胞系反应的预测模型。

具体的，在一实施例中，通过差值对深度学习回归模型进行迭代训练时，可以通过损失函数进行收敛，或者还可以通过反向传播法根据差值对深度学习回归模型进行迭代训练，得到药物与细胞系反应的预测模型。

本实施例通过上述方法训练得到一种药物与细胞系反应的预测模型。其能够对药物与细胞系的反应进行预测，相对于现有技术，不需要人为的做太多实验研究，降低了人力物力损耗，并且模型预测能够提高效率。且本实施例的方法将药物的化合物数据以及细胞系的基因数据结合进行模型训练，克服了现有的忽略基因之间的关系的缺点，能够很好的预测细胞系与药物之间的反应。

本实施例的方案，对于未出现过的细胞系或者药物来说，模型能够根据细胞系的基因数据与药物的化合物数据之间的成分预测他们之间的相互反应关系。且模型不仅能够分析细胞系内基因之间的关系，药物化合物之间的关系，还能通过细胞系与药物交叉考虑到细胞系的基因与药物化合物之间的关系。相比传统方法的研究而言，本研究方法结合了细胞系基因之间的关系以及细胞系基因与药物化合物之间的关系，在预测结果的精度上远远超过了传统的基于概率的方法。

请参见图8，为本发明药物与细胞系反应预测设备的一实施例的结构示意图。药物与细胞系反应预测设备包括相互连接的存储器102和处理器101。

存储器102用于存储实现上述任意一项的药物与细胞系反应预测方法的程序指令。

处理器101用于执行存储器102存储的程序指令。

其中，处理器101还可以称为CPU(Central Processing Unit，中央处理单元)。处理器101可能是一种集成电路芯片，具有信号的处理能力。处理器101还可以是通用处理器、数字信号处理器(DSP)、专用集成电路(ASIC)、现场可编程门阵列(FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。

存储器102可以为内存条、TF卡等，可以存储药物与细胞系反应预测设备中全部信息，包括输入的原始数据、计算机程序、中间运行结果和最终运行结果都保存在存储器中。它根据控制器指定的位置存入和取出信息。有了存储器，药物与细胞系反应预测设备才有记忆功能，才能保证正常工作。药物与细胞系反应预测设备的存储器按用途存储器可分为主存储器(内存)和辅助存储器(外存),也有分为外部存储器和内部存储器的分类方法。外存通常是磁性介质或光盘等，能长期保存信息。内存指主板上的存储部件，用来存放当前正在执行的数据和程序，但仅用于暂时存放程序和数据，关闭电源或断电，数据会丢失。

在本申请所提供的几个实施例中，应该理解到，所揭露的方法和装置，可以通过其它的方式实现。例如，以上所描述的装置实施方式仅仅是示意性的，例如，模块或单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施方式方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，系统服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。

请参阅图9，为本发明计算机可读存储介质的结构示意图。本申请的存储介质存储有能够实现上述所有药物与细胞系反应预测方法的程序文件201，其中，该程序文件201可以以软件产品的形式存储在上述存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储装置包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。

以上仅为本发明的实施方式，并非因此限制本发明的专利范围，凡是利用本发明说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本发明的专利保护范围内。

19页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种用于人类遗传病基因检测的智能解读方法及系统

药物与细胞系反应预测方法及相关装置

相关技术

网友询问留言