药物与靶蛋白反应的效果识别方法及相关装置、设备

文档序号:36678 发布日期:2021-09-24 浏览:24次 >En<

阅读说明:本技术 药物与靶蛋白反应的效果识别方法及相关装置、设备 (Method for identifying reaction effect of drug and target protein and related device and equipment ) 是由 毕研广 胡志强 于 2021-06-18 设计创作,主要内容包括:本申请公开了一种药物与靶蛋白反应的效果识别方法及相关装置、设备,其中,药物与靶蛋白反应的效果识别方法包括:获取药物的分子结构图与靶蛋白的氨基酸序列;分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示;将药物的特征表示和靶蛋白的特征表示进行拼接,得到药物和靶蛋白的拼接特征表示;基于拼接特征表示,确定药物与靶蛋白的反应效果类型。上述方案,能够自适应地学习药物分子和蛋白质更深层的特征,优化药物与靶蛋白的反应预测效果。(The application discloses a method for identifying the reaction effect of a drug and a target protein, and a related device and equipment, wherein the method for identifying the reaction effect of the drug and the target protein comprises the following steps: acquiring a molecular structure diagram of a medicine and an amino acid sequence of a target protein; respectively carrying out feature extraction on the molecular structure diagram and the amino acid sequence so as to obtain feature representation of the medicine and feature representation of the target protein; splicing the characteristic representation of the drug and the characteristic representation of the target protein to obtain spliced characteristic representation of the drug and the target protein; and determining the type of the reaction effect of the drug and the target protein based on the splicing characteristic representation. The scheme can adaptively learn deeper characteristics of the drug molecules and the proteins and optimize the reaction prediction effect of the drug and the target protein.)

药物与靶蛋白反应的效果识别方法及相关装置、设备

技术领域

本申请涉及深度学习

技术领域

,特别是涉及一种药物与靶蛋白反应的效果识别方法及相关装置、设备。

背景技术

目前,市场上种类繁多的药物给人们的健康提供了一定保障。人们通常通过口服和/或注射药物来实现药效。具体地,当药物进入人体后会与特定蛋白进行相互作用,从而达到一定的治疗效果。因此,在新药研发阶段,对药物与靶蛋白进行反应预测是首要工作,其在一定程度上节省了实验成本与大量的人力物力,并在一定程度上保证了药物研发的可靠性。

目前的反应预测手段通常利用专家设计的特征工程,例如分子指纹等对药物与靶蛋白之间的反应进行预测,但该种方式表达能力有限,无法自适应地学习药物分子和蛋白质更深层的特征。

在实际应用中,药物分子与构成蛋白质的氨基酸序列不完全等价于自然语言,因此限制了药物靶蛋白的反应预测效果。如何将这些抽象的序列建模成可学习的数学模型依旧是当前研究的难点。

发明内容

本申请至少提供一种药物与靶蛋白反应的效果识别方法及相关装置、设备。

本申请第一方面提供了一种药物与靶蛋白反应的效果识别方法,包括:获取到药物的分子结构图与靶蛋白的氨基酸序列;分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示;将药物的特征表示和靶蛋白的特征表示进行拼接,得到药物和靶蛋白的拼接特征表示;基于拼接特征表示,确定药物与靶蛋白的反应效果类型。

因此,本申请获取到药物的分子结构图与靶蛋白的氨基酸序列,再分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示;将药物的特征表示和靶蛋白的特征表示进行拼接,得到药物和靶蛋白的拼接特征表示;基于拼接特征表示,确定药物与靶蛋白的反应效果类型,不仅能够实现具有二维空间结构的药物分子与一维氨基酸序列的特征拼接,还能分别学习药物分子和蛋白质更深层的特征从而得到更好的预测效果。

其中,分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示的步骤包括:利用深度学习网络提取分子结构的多个原子节点的特征表示;对多个原子节点的特征表示进行最大池化处理,得到药物的特征表示。

因此,具体利用深度学习网络提取分子结构的多个原子节点的特征表示,以实现具有二维空间结构的分子结构的特征表示一维化,利于后续的特征拼接,提高反应预测的效率。将多个原子节点的特征表示进行最大池化处理,得到药物的特征表示,以减少了特征表示中的参数数量,并保留重要信息。

其中,利用深度学习网络提取分子结构的多个原子节点的特征表示的步骤包括:利用深度学习网络的多层图卷积结构分别提取分子结构中每个原子节点的初始特征表示以及原子节点与相邻原子节点的邻接关系特征表示;将原子节点的初始特征表示以及邻接关系特征表示进行融合,并将融合结果确定为原子节点的特征表示。

因此,基于每个原子节点的初始特征表示以及原子节点与相邻原子节点的邻接关系特征表示来进行多层图卷积结构提取,以提高特征提取的准确性。将原子节点的初始特征表示以及邻接关系特征表示进行融合得到原子节点的特征表示,使得原子节点的特征表示能够更好地反应药物分子整体的特征值。

其中,将原子节点的初始特征表示以及邻接关系特征表示进行融合,并将融合结果确定为原子节点的特征表示的步骤包括:将融合结果作为原子节点的初始特征表示,循环执行提取分子结构的多个原子节点的特征表示的步骤;在执行提取分子结构的多个原子节点的特征表示的步骤的次数达到预设值的情况下,将最后一次的融合结果确定为原子节点的特征表示。

因此,通过循环执行提取分子结构的多个原子节点的特征表示的步骤来适应不同复杂程度的药物分子,以针对不同的药物分子结构采用不同预设值的执行次数实现原子节点的特征表示的提取,灵活运作。

其中,分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示的步骤包括:基于分子结构图,构建无向结构图,并基于无向结构图,提取药物的特征表示。

因此,通过基于分子结构图构建成无向结构图来适配深度学习网络的多层图卷积结构的输入去除分子结构图中的多余信息,仅保留原子节点及其连接关系等信息,提高药物的特征表示提取的效率。

其中,获取到药物的分子结构图与靶蛋白的氨基酸序列的步骤具体包括:获取药物的SMILES分子式,将药物的SMILES分子式转换为药物的分子结构图。

因此,药物的分子结构图由药物分子的SMILES分子式转换而成。药物的SMILES分子式具有唯一性,从而保证分子结构图与药物分子之间的对应关系,提高反应预测结果的准确性。

其中,分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示的步骤包括:获取到氨基酸序列的多个氨基酸编码;基于多个氨基酸编码得到氨基酸序列的初始特征表示;通过循环神经网络提取氨基酸序列的隐藏特征表示;融合初始特征表示以及隐藏特征表示,得到靶蛋白的特征表示。

因此,基于多个氨基酸编码得到氨基酸序列的初始特征表示;并通过循环神经网络提取氨基酸序列的隐藏特征表示。将初始特征表示以及隐藏特征表示进行融合并得到靶蛋白的特征表示。获取到氨基酸序列更深层、更全面的特征表示,提高反应预测结果的可靠性。

其中,基于多个氨基酸编码得到氨基酸序列的初始特征表示的步骤包括:基于氨基酸编码利用多层的一维卷积网络提取氨基酸序列对应的多个氨基酸的特征表示;将多个氨基酸的特征表示进行最大池化处理,得到靶蛋白的初始特征表示;以及通过循环神经网络提取氨基酸序列的隐藏特征表示的步骤包括:通过循环神经网络提取多个氨基酸的特征表示的隐藏特征表示。

因此,利用多层的一维卷积网络提取氨基酸序列对应的多个氨基酸的特征表示,并将多个氨基酸的特征表示进行最大池化处理,得到靶蛋白的初始特征表示,以减少了特征表示中的参数数量,并保留重要信息,提高初始特征表示的实用性。通过循环神经网络提取多个氨基酸的特征表示的隐藏特征表示。以进一步获取多个氨基酸整体的特征表示,使得靶蛋白的初始特征表示更为全面和可靠。

其中,通过循环神经网络提取多个氨基酸的特征表示的隐藏特征表示的步骤包括:分别通过循环神经网络沿多个氨基酸的特征表示的首尾方向以及尾首方向依次提取多个氨基酸的特征表示的隐藏特征表示。

因此,通过对两个方向上多个氨基酸的特征表示进行提取,以获得多个氨基酸的特征表示的隐藏特征表示,使得隐藏特征表示更为全面和可靠。

其中,将药物的特征表示和靶蛋白的特征表示进行拼接,得到药物和靶蛋白的拼接特征表示的步骤包括:将药物的特征表示和靶蛋白的特征表示进行首尾拼接,得到药物和靶蛋白的拼接特征表示。

因此,将药物的特征表示和靶蛋白的特征表示进行首尾拼接以适应多层神经网络中全连接层的输入形式。

其中,利用药物和靶蛋白的拼接特征表示确定药物与靶蛋白的反应效果类型的步骤包括:利用多层神经网络对拼接特征表示进行预测分类,得到药物与靶蛋白的反应效果类型。

因此,利用多层神经网络对拼接特征表示进行预测分类,以全面地对药物分子与靶蛋白之间反应进行预测,并最小化误差,实现反应效果类型的准确性。

本申请第二方面提供了药物与靶蛋白反应的效果识别装置,包括:获取模块、特征提取模块、拼接模块以及识别模块;获取模块用于获取到药物的分子结构图与靶蛋白的氨基酸序列;特征提取模块用于分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示;拼接模块用于将药物的特征表示和靶蛋白的特征表示进行拼接,得到药物和靶蛋白的拼接特征表示;识别模块用于基于拼接特征表示,确定药物与靶蛋白的反应效果类型。

本申请第三方面提供了一种电子设备,包括相互耦接的存储器和处理器,处理器用于执行存储器中存储的程序指令,以实现上述第一方面中的药物与靶蛋白反应的效果识别方法。

本申请第四方面提供了一种计算机可读存储介质,其上存储有程序指令,程序指令被处理器执行时实现上述第一方面中的药物与靶蛋白反应的效果识别方法。

上述方案,将SMILES表达式重构成分子结构图再进一步重构成无向结构图,利用多层图卷积结构提取分子结构的多个原子节点的特征表示,以将二维数据转化成一维数据,再将多个原子节点的特征表示进行最大池化处理,得到药物的特征表示,使得药物的特征表示更加符合药物分子的结构特性。同时,本申请通过一维卷积和池化提取氨基酸局部特征,并通过循环神经网络提取氨基酸序列的整体特征,将局部特征与整体特征进行融合,获得靶蛋白的特征表示,此时靶蛋白的特征表示也为一维数据,将药物的特征表示与靶蛋白的特征表示进行拼接并对其进行预测分类,得到药物与靶蛋白的反应效果类型。本申请整个预测方案能够自适应的学习药物分子和蛋白质更深层的特征,实现药物分子与蛋白质整体的特征提取,并增加了药物分子与蛋白质整体的特征提取的全面程度与可信度,提高了整个反应预测过程的效率,并使得药物与靶蛋白的反应效果类型更为准确。

应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本申请。

附图说明

此处的附图被并入说明书中并构成本说明书的一部分,这些附图示出了符合本申请的实施例,并与说明书一起用于说明本申请的技术方案。

图1是本申请药物与靶蛋白的反应的效果识别方法一实施例的流程示意图;

图2是本申请药物与靶蛋白的反应的效果识别方法另一实施例的流程示意图;

图3是本申请的无向结构图一实施例的示意图;

图4是本申请中最大池化的处理方式一实施例的示意图;

图5是本申请全连接层特征连接一实施例的示意图;

图6是本申请药物与靶蛋白反应的效果识别装置一实施例的框架示意图;

图7是本申请电子设备一实施例的框架示意图;

图8为本申请计算机可读存储介质一实施例的框架示意图。

具体实施方式

下面结合说明书附图,对本申请实施例的方案进行详细说明。

以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、接口、技术之类的具体细节,以便透彻理解本申请。

本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。此外,本文中的“多”表示两个或者多于两个。另外,本文中术语“至少一种”表示多种中的任意一种或多种中的至少两种的任意组合,例如,包括A、B、C中的至少一种,可以表示包括从A、B和C构成的集合中选择的任意一个或多个元素。

请参阅图1,图1是本申请药物与靶蛋白的反应的效果识别方法一实施例的流程示意图。具体而言,可以包括如下步骤:

步骤S11:获取到药物的分子结构图与靶蛋白的氨基酸序列。

生物体内的蛋白质相互作用形成复杂的网络。如果一个蛋白质对疾病有帮助作用,则需要阻断该蛋白质与其他分子相互作用,从而达到治愈或减轻疾病的作用。如果该蛋白质对疾病有遏制作用,则需要采取一定的手段激活该蛋白质。这样的蛋白质即为靶蛋白。

靶蛋白是与各种疾病紧密相关,且可以影响或控制疾病的蛋白质分子。通过药物分子与靶蛋白的结合,便可达到治疗疾病的效果。因此,在新药研发过程中,对药物分子与靶蛋白的反应进行预测是判断药物针对目标疾病能否产生一定影响或控制效果具有重要意义。

在一个实施场景中,药物的分子结构图可以由药物的SMILES分子式转换并重构得到。其中SMILES(Simplified Molecular Input Line EntrySystem)是一种用于输入和表示分子反应的线性符号,同时也是一种ASCII编码。其内包含有原子类型以及原子之间的连接关系等信息,通过转换工具即可将SMILES分子式重构成药物分子的分子结构图。

蛋白质的组成成分为氨基酸,而人体蛋白质的氨基酸种类共有二十种,不同数量和不同种类的氨基酸组成不同的蛋白质。本步骤中的氨基酸序列包括蛋白质内的氨基酸的种类及位置关系等信息,其也可以称为蛋白质的一级氨基酸序列结构。

步骤S12:分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示。

在一个实施场景中,为了提升特征提取的便利性,还可以预先训练一识别网络,识别网络可以包括用于药物分子特征提取的特征提取网络,从而可以利用特征提取网络对药物分子结构图进行多次特征提取,得到药物的特征表示。

在一个实施场景中,为了加快对分子结构的特征提取,在对分子结构进行特征提取之前,还可以对分子结构进行预处理,具体地,预处理可以包括将分子结构中的原子及其连接关系进行分类和/或复杂度预估,以控制特征提取过程中的提取程度,加快分子结构的特征提取的效率。其中,分类是指基于原子与其他原子之间的连接关系进行划分,例如:A原子共与其他的3个原子之间存在连接关系,B原子共与其他2个原子之间存在连接关系以及C原子共与其他2个原子之间存在连接关系,则将B原子与C原子划分为一类,A原子单独为一类。而复杂度预估是指基于各原子类型的化合价规则对各原子之间的连接关系进行预估,以得到各原子之间的连接关系和数量,从而完成对其的复杂度预估。例如,一般来说,氧原子可以为负一价和负二价,可以基于及其他原子的化合价与其他一个原子或两个原子连接,例如与两个氢原子连接。通过对分子结构中的原子及其连接关系进行分类和/或复杂度预估,能够在特征提取前,预先了解分子结构的相关特征,从而控制特征提取过程中的提取程度,加快分子结构的特征提取的效率。

在一个实施场景中,对蛋白质的一级氨基酸序列结构进行特征提取,以提取出靶蛋白的特征表示。

步骤S13:将药物的特征表示和靶蛋白的特征表示进行拼接,得到药物和靶蛋白的拼接特征表示。

将上一步骤中获取的药物的特征表示与靶蛋白的特征表示进行特征拼接,得到药物和靶蛋白的拼接特征表示。

步骤S14:基于拼接特征表示,确定药物与靶蛋白的反应效果类型。

基于药物和靶蛋白的拼接特征表示来确定药物对靶蛋白是否有效,也就是获得药物与靶蛋白的反应效果类型。其中,药物与靶蛋白反应预测本质上是一种二分类任务,二分类任务是指分类任务中有两个类别,当输入用特征向量x表示时,输出用y=0或1表示。

在一个实施场景中,将药物与靶蛋白进行反应预测,最终所输出的结果为y=0或1中的一个,当y=0时,表示本次反应预测中的药物对靶蛋白无效。当y=1时,表示本次反应预测中的药物对靶蛋白有效。

上述方案,在获取到药物的分子结构图与靶蛋白的氨基酸序列后,分别对两者进行特征提取,以提取出药物的特征表示与靶蛋白的特征表示,最后利用药物和靶蛋白的拼接特征表示确定药物与靶蛋白的反应效果类型,能够自适应地学习药物分子和蛋白质更深层的特征,实现药物分子与蛋白质整体的特征提取,从而获取药物与靶蛋白的反应预测效果类型。

请参阅图2,图2是本申请药物与靶蛋白反应的效果识别方法另一实施例的流程示意图。具体而言,可以包括如下步骤:

S21:获取到药物的分子结构图与靶蛋白的氨基酸序列。

获取到药物的SMILES分子式,将药物的SMILES分子式转换为药物的分子结构图。在其他实施场景中,也可以获取到能够通过常规转换工具进行分子结构图的转换的其他编码形式分子式,将药物的其他编码形式的分子式转换为分子结构图后进行后续的特征提取步骤,本步骤对此不做限定。

蛋白质都是由二十种不同的氨基酸连接形成的多聚体。在一个具体的实施场景中,获取到包括有氨基酸的种类及位置关系等信息的氨基酸序列。也就是蛋白质的一级氨基酸序列结构。

S22:利用深度学习网络提取分子结构的多个原子节点的特征表示,对多个原子节点的特征表示进行最大池化处理,得到药物的特征表示。

利用分子结构图中的化学键连接情况将分子结构图进一步构建成无向结构图,以基于无向结构图提取药物的特征表示。其中无向结构图是以分子结构图为基础,利用原子节点及原子的连接关系及连接方式进行构建的一种数据结构图,该数据结构图中包括节点特征和邻接关系特征表示。

请参阅图3,图3是本申请的无向结构图一实施例的示意图。

本实施例的无向结构10包括多个节点11以及多个连接边12。连接边12上没有方向,无向结构10中的连接边12均是多个节点11的无序对。每一节点11通过连接边12与其他节点11进行连接。

无向结构通过药物的分子结构进行构建,保留药物分子结构中各原子特征及各原子之间的邻接关系特征,并删除分子结构中的多余信息,以适配深度学习网络的多层图卷积结构的输入形式,并提高药物的特征表示提取的效率。

本步骤的深度学习网络可以包括卷积神经网络、循环神经网络或Transformer网络模型等多种类型。其中,本实施例中,可以通过卷积神经网络的多层图卷积结构分别提取无向结构图中每个原子节点的初始特征表示以及原子节点与相邻原子节点的邻接关系特征表示。将原子节点的初始特征表示以及邻接关系特征表示进行融合,并将融合结果确定为原子节点的特征表示。

在该步骤中,通过多层图卷积结构对具有二维空间结构的无向结构图进行特征提取,最终获得一维序列数据-原子节点的特征表示。本步骤实现了将抽象的二维数据转换为可学习的一维数据,使其适应于自然语言处理的方法,增加药物靶蛋白的反应预测的灵活性。

深度学习网络是一类模式分析方法的统称,就具体研究内容而言,主要涉及三类方法:(1)基于卷积运算的神经网络系统,即卷积神经网络(CNN)。(2)基于多层神经元的自编码神经网络,包括自编码(Auto encoder)以及稀疏编码两类(Sparse Coding)。(3)以多层自编码神经网络的方式进行预训练,进而结合鉴别信息进一步优化神经网络权值的深度置信网络(DBN)。

其中,多层图卷积结构属于基于卷积运算的神经网络系统,用于将非欧空间的图转换成欧式空间,并提供一种可处理变长的邻居结点的卷积核,以在图上抽取特征。其中,图是指一种由若干个结点及连接两个结点的边所构成的图形,用于刻画不同结点之间的关系。

其中,原子节点的初始特征表示以及邻接关系特征表示的融合方法可以通过直接拼接进行融合或加权融合等方式进行融合,而在本实施例中,由于每个原子节点与其邻接节点都具有一定的权重与贡献。因此,也可以通过多层图卷积结构对每个原子节点进行预设迭代次数的特征提取,并将每个原子节点与邻接节点的特征值进行加权融合,对应得到新的节点。新的节点之间的结构与加权前对应的各原子节点之间的结构相同,但新的节点的特征值发生变化。在获得新的节点与新的邻接节点特征后,可以循环利用多层图卷积结构对新的节点及新的邻接节点特征进行加权融合,以丰富各原子节点的特征。同时判断循环执行提取分子结构的多个原子节点的特征表示的步骤的次数是否达到预设值,即预设迭代次数,如果达到预设值,将最后一次的融合结果确定为原子节点的特征表示。如果没有达到预设值,则循环执行提取分子结构的多个原子节点的特征表示的步骤。其中,预设值的具体值可以基于实际情况进行设置,在此不做限定。

每个原子节点的特征值由一串向量组成,初始化时由0和1组成。在多层图卷积结构进行预设迭代次数的加权融合后,每个原子节点的表示状态发生变化,特征值更为丰富。经过预设迭代次数的多层图卷积结构对分子结构的特征提取后,加强分子结构的特征传播以及特征复用,加强多个原子节点的特征表示的可靠性。

在一个具体的实施场景中,预设迭代次数由药物分子结构的复杂度决定。药物分子结构的复杂度与多层图卷积结构的迭代次数成正比。而多层图卷积结构的迭代次数可以在每次反应预测前进行设定,例如设定为2次、3次或5次等,在此不做限定。

在获取了多个原子节点的特征表示后,对其进行最大池化处理,以得到药物的特征表示。本步骤中最终获得的药物的特征表示为一维数据列。池化处理减少了特征表示中的参数数量,但保留了重要信息。其中,最大池化处理是指在整体数据范畴内取局部接受域中值最大的点。在一个具体的实施场景中,若每个原子节点是长度为10的向量,n个节点长度为10的向量合在一块,形成一个10*n的矩阵。当对该矩阵进行最大池化处理,则矩阵的每一列都取最大特征值,以得到这个矩阵的整体特征值。

请参阅图4,图4是本申请中最大池化的处理方式一实施例的示意图。

第一表格21是一个10*7的矩阵。当对第一表格21的每一列进行最大池化时,会遵循挑选每一列中最大值作为该列的池化结果,最终生成一个1*7的矩阵-第二表格22。其中,第二表格22中每一列的数据都来源于第一表格21中的对应列。例如,第二表格22中第一列中的“16”即是第一表格21中第一列的数据进行最大池化,即挑选该列最大值“16”后所生成的结果。

S23:获取到氨基酸序列的多个氨基酸编码,基于多个氨基酸编码得到氨基酸序列的初始特征表示,通过循环神经网络提取氨基酸序列的隐藏特征表示,融合初始特征表示以及隐藏特征表示,得到靶蛋白的特征表示。

在获取到靶蛋白的一级氨基酸序列结构后,对其进行位置编码,以得到氨基酸序列的多个氨基酸编码。其中,位置编码是指对一级氨基酸序列结构中的氨基酸种类及位置进行编码,从而获得多个氨基酸编码,多个氨基酸编码包括氨基酸序列中各氨基酸的种类及位置信息。

在一个实施场景中,为了提升位置编码的便利性,还可以预先训练一编码网络,编码网络可以包括用于位置编码的氨基酸编码子网络,从而可以利用氨基酸编码子网络对靶蛋白的一级氨基酸序列结构进行位置编码,得到靶蛋白的一级氨基酸序列结构对应的多个氨基酸编码。

基于多个氨基酸编码利用多层的一维卷积网络提取氨基酸序列对应的多个氨基酸的特征表示。由于氨基酸编码是一行的序列,在此步骤中,采用一维卷积网络即可对多个氨基酸的特征表示进行提取。一维卷积的卷积核为一维卷积核,其应用于对一维的序列数据进行卷积处理。

不同氨基酸本身的组成结构导致多个氨基酸编码长度不同。从而经一维卷积处理后的多个氨基酸的特征表示也各不相同。将多个氨基酸的特征表示进行汇聚后,对其进行最大池化处理,以得到靶蛋白的初始特征表示。

将多个氨基酸编码输入进循环神经网络内,以提取多个氨基酸的特征表示的隐藏特征表示。具体地,分别通过循环神经网络沿多个氨基酸的特征表示的首尾方向以及尾首方向依次提取多个氨基酸的特征表示的隐藏特征表示。该隐藏特征表示包括蛋白质的整体特征。

循环神经网络包含输入单元、输出单元以及隐藏单元,隐藏单元用于完成循环神经网络中最为主要的工作。具体地,就是把输入数据的特征,抽象到另一个维度空间,来展现其更抽象化的特征。本步骤的多个氨基酸的特征表示的隐藏特征表示即为经循环神经网络的隐藏单元处理后的特征值。

将初始特征表示以及隐藏特征表示进行特征融合,得到靶蛋白的特征表示。其中,初始特征表示以及隐藏特征表示的获取步骤可以同时进行,也可以先进行隐藏特征表示的获取再进行初始特征表示的获取,在此不做限定。

其中,步骤S23与S22可以同时进行或调换顺序执行,步骤S23与S22互相独立。

S24:将药物的特征表示和靶蛋白的特征表示进行首尾拼接,得到药物和靶蛋白的拼接特征表示。

将药物的特征表示和靶蛋白的特征表示进行首尾拼接,得到药物和靶蛋白的拼接特征表示。将药物的特征表示和靶蛋白的特征表示进行串接,使其成为一组1*n的平铺结构,从而减少在回归预测分类中特征位置对分类带来的影响。

其中,首尾拼接包括药物的特征表示的首和靶蛋白的特征表示的尾进行拼接或药物的特征表示的尾和靶蛋白的特征表示的首进行拼接,以得到一组平铺结构,具体的拼接顺序不做限定。

S25:利用多层神经网络对拼接特征表示进行预测分类,得到药物与靶蛋白的反应效果类型。

利用多层神经网络对拼接特征表示进行回归预测分类,得到药物与靶蛋白的拼接特征表示的分类置信度。通过分类置信度判断药物与靶蛋白的反应效果类型。其中,反应效果类型包括:药物与靶蛋白的反应有效以及药物与靶蛋白的反应无效。

在一个具体的实施场景中,多层神经网络可以包括全连接层和softmax层,从而可以利用全连接层对拼接特征表示进行特征连接,并利用softmax层进行概率归一化,得到拼接特征表示的分类置信度,故可以将分类置信度对应的反应效果类型作为药物与靶蛋白的反应预测结果。

其中,全连接层用于将卷积层与池化层中所得的全部局部特征重新通过权值矩阵组装成整体特征,从而实现对拼接特征表示的回归预测分类。

请参阅图5,图5是本申请全连接层特征连接一实施例的示意图。

其中,本实施例的节点x1、x2、x3...以及xn为全连接层的输入层,即拼接特征。节点a1、a2、a3...以及an为全连接层的输出层,即分类置信度。

输入层中的每一节点a1、a2、a3...以及an都与输入层中每一节点x1、x2、x3...以及xn进行全连接,以整合输入层中所有的局部特征,并输出整体特征。

上述方案,将SMILES表达式重构成分子结构图再进一步重构成无向结构图,利用多层图卷积结构提取分子结构的多个原子节点的特征表示,以将二维数据转化成一维数据,再将多个原子节点的特征表示进行最大池化处理,得到药物的特征表示,使得药物的特征表示更加符合药物分子的结构特性。同时,本申请通过一维卷积和池化提取氨基酸局部特征,并通过循环神经网络提取氨基酸序列的整体特征,将局部特征与整体特征进行融合,获得靶蛋白的特征表示,此时靶蛋白的特征表示也为一维数据,将药物的特征表示与靶蛋白的特征表示进行拼接并对其进行预测分类,得到药物与靶蛋白的反应效果类型。本申请整个预测方案能够自适应的学习药物分子和蛋白质更深层的特征,实现药物分子与蛋白质整体的特征提取,优化药物与靶蛋白的预测效果。

本领域技术人员可以理解,在具体实施方式的上述方法中,各步骤的撰写顺序并不意味着严格的执行顺序而对实施过程构成任何限定,各步骤的具体执行顺序应当以其功能和可能的内在逻辑确定。

请参阅图6,图6是本申请药物与靶蛋白反应的效果识别装置一实施例的框架示意图。

药物与靶蛋白反应的效果识别装置60包括获取模块61、特征提取模块62、拼接模块63和识别模块64,获取模块61用于获取到药物的分子结构图与靶蛋白的氨基酸序列;特征提取模块62用于分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示;拼接模块63用于将药物的特征表示和靶蛋白的特征表示进行拼接,得到药物和所述靶蛋白的拼接特征表示;识别模块64用于基于拼接特征表示,确定药物与靶蛋白的反应效果类型。

上述方案,在获取到药物的分子结构图与靶蛋白的氨基酸序列后,分别对两者进行特征提取,以提取出药物的特征表示与靶蛋白的特征表示,最后基于药物和靶蛋白的拼接特征表示确定药物与靶蛋白的反应效果类型,能够自适应的学习药物分子和蛋白质更深层的特征,实现药物分子与蛋白质整体的特征提取,从而获取药物与靶蛋白的反应预测效果类型。

在一些公开实施例中,特征提取模块62用于分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示的步骤包括:利用深度学习网络提取分子结构的多个原子节点的特征表示;对多个原子节点的特征表示进行最大池化处理,得到药物的特征表示。

区别于前述实施例,具体利用深度学习网络提取分子结构的多个原子节点的特征表示,以实现具有二维空间结构的分子结构的特征表示一维化,利于后续的特征拼接,提高反应预测的效率。将多个原子节点的特征表示进行最大池化处理,得到药物的特征表示,以减少了特征表示中的参数数量,并保留重要信息。

在一些公开实施例中,特征提取模块62还用于利用深度学习网络提取分子结构的多个原子节点的特征表示的步骤包括:利用深度学习网络的多层图卷积结构分别提取分子结构中每个原子节点的初始特征表示以及原子节点与相邻原子节点的邻接关系特征表示;将原子节点的初始特征表示以及邻接关系特征表示进行融合,并将融合结果确定为原子节点的特征表示。

区别于前述实施例,基于每个原子节点的初始特征表示以及原子节点与相邻原子节点的邻接关系特征表示来进行多层图卷积结构提取,以提高特征提取的准确性。将原子节点的初始特征表示以及邻接关系特征表示进行融合得到原子节点的特征表示,使得原子节点的特征表示能够更好地反应药物分子整体的特征值。

在一些公开实施例中,拼接模块63还用于将原子节点的初始特征表示以及邻接关系特征表示进行融合,并将融合结果确定为原子节点的特征表示的步骤包括:将融合结果作为原子节点的初始特征表示,循环执行提取分子结构的多个原子节点的特征表示的步骤;在执行提取分子结构的多个原子节点的特征表示的步骤的次数达到预设值的情况下,将最后一次的融合结果确定为原子节点的特征表示。

区别于前述实施例,通过循环执行提取分子结构的多个原子节点的特征表示的步骤来适应不同复杂程度的药物分子,以针对不同的药物分子结构采用不同预设值的执行次数实现原子节点的特征表示的提取,灵活运作。

在一些公开实施例中,分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示的步骤包括:基于分子结构图,构建无向结构图,并基于无向结构图,提取药物的特征表示。

区别于前述实施例,通过基于分子结构图构建成无向结构图来适配深度学习网络的多层图卷积结构的输入去除分子结构图中的多余信息,仅保留原子节点及其连接关系等信息,提高药物的特征表示提取的效率。

在一些公开实施例中,获取到药物的分子结构图与靶蛋白的氨基酸序列的步骤具体包括:获取到药物的SMILES分子式,将药物的SMILES分子式转换为药物的分子结构图。

区别于前述实施例,物的分子结构图由药物分子的SMILES分子式转换而成。药物的SMILES分子式具有唯一性,从而保证分子结构图与药物分子之间的对应关系,提高反应预测结果的准确性。

在一些公开实施例中,特征提取模块62用于分别对分子结构图与氨基酸序列进行特征提取,以获得药物的特征表示与靶蛋白的特征表示的步骤包括:获取到氨基酸序列的多个氨基酸编码;基于多个氨基酸编码得到氨基酸序列的初始特征表示;通过循环神经网络提取氨基酸序列的隐藏特征表示;融合初始特征表示以及隐藏特征表示,得到靶蛋白的特征表示。

区别于前述实施例,基于多个氨基酸编码得到氨基酸序列的初始特征表示;并通过循环神经网络提取氨基酸序列的隐藏特征表示。将初始特征表示以及隐藏特征表示进行融合并得到靶蛋白的特征表示。获取到氨基酸序列更深层、更全面的特征表示,提高反应预测结果的可靠性。

在一些公开实施例中,基于多个氨基酸编码得到氨基酸序列的初始特征表示的步骤包括:基于氨基酸编码利用多层的一维卷积网络提取氨基酸序列对应的多个氨基酸的特征表示;将多个氨基酸的特征表示进行最大池化处理,得到靶蛋白的初始特征表示;以及通过循环神经网络提取氨基酸序列的隐藏特征表示的步骤包括:通过循环神经网络提取多个氨基酸的特征表示的隐藏特征表示。

区别于前述实施例,利用多层的一维卷积网络提取氨基酸序列对应的多个氨基酸的特征表示,并将多个氨基酸的特征表示进行最大池化处理,得到靶蛋白的初始特征表示,以减少了特征表示中的参数数量,并保留重要信息,提高初始特征表示的实用性。通过循环神经网络提取多个氨基酸的特征表示的隐藏特征表示。以进一步获取多个氨基酸整体的特征表示,使得靶蛋白的初始特征表示更为全面和可靠。

在一些公开实施例中,通过循环神经网络提取多个氨基酸的特征表示的隐藏特征表示的步骤包括:分别通过循环神经网络沿多个氨基酸的特征表示的首尾方向以及尾首方向依次提取多个氨基酸的特征表示的隐藏特征表示。

区别于前述实施例,通过对两个方向上多个氨基酸的特征表示进行提取,以获得多个氨基酸的特征表示的隐藏特征表示,使得隐藏特征表示更为全面和可靠。

在一些公开实施例中,拼接模块63将药物的特征表示和靶蛋白的特征表示进行拼接,得到药物和靶蛋白的拼接特征表示的步骤包括:将药物的特征表示和靶蛋白的特征表示进行首尾拼接,得到药物和靶蛋白的拼接特征表示。

区别于前述实施例,将药物的特征表示和靶蛋白的特征表示进行首尾拼接以适应多层神经网络中全连接层的输入形式。

在一些公开实施例中,识别模块64利用药物和靶蛋白的拼接特征表示确定药物与靶蛋白的反应效果类型的步骤包括:利用多层神经网络对拼接特征表示进行预测分类,得到药物与靶蛋白的反应效果类型。

区别于前述实施例,利用多层神经网络对拼接特征表示进行预测分类,以全面地对药物分子与靶蛋白之间反应进行预测,并最小化误差,实现反应效果类型的准确性。

请参阅图7,图7是本申请电子设备一实施例的框架示意图。

电子设备70包括相互耦接的存储器71和处理器72,处理器72用于执行存储器71中存储的程序指令,以实现上述任一药物与靶蛋白反应的效果识别方法实施例的步骤。在一个具体的实施场景中,电子设备70可以包括但不限于:微型计算机、服务器,此外,电子设备70还可以包括笔记本电脑、平板电脑等移动设备,在此不做限定。

具体而言,处理器72用于控制其自身以及存储器71以实现上述任一药物与靶蛋白反应的效果识别方法实施例的步骤。处理器72还可以称为CPU(Central Processing Unit,中央处理单元)。处理器72可能是一种集成电路芯片,具有信号的处理能力。处理器72还可以是通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)、现场可编程门阵列(Field-Programmable Gate Array,FPGA)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外,处理器72可以由集成电路芯片共同实现。

上述方案,能够自适应地学习药物分子和蛋白质更深层的特征,实现药物分子与蛋白质整体的特征提取,并增加了药物分子与蛋白质整体的特征提取的全面程度与可信度,提高了整个反应预测过程的效率,并使得药物与靶蛋白的反应效果类型更为准确。

请参阅图8,图8为本申请计算机可读存储介质一实施例的框架示意图。

计算机可读存储介质80存储有能够被处理器运行的程序指令801,程序指令801用于实现上述任一药物与靶蛋白反应的效果识别方法实施例的步骤。

上述方案,能够自适应地学习药物分子和蛋白质更深层的特征,实现药物分子与蛋白质整体的特征提取,并增加了药物分子与蛋白质整体的特征提取的全面程度与可信度,提高了整个反应预测过程的效率,并使得药物与靶蛋白的反应效果类型更为准确。

在一些实施例中,本公开实施例提供的装置具有的功能或包含的模块可以用于执行上文方法实施例描述的方法,其具体实现可以参照上文方法实施例的描述,为了简洁,这里不再赘述。

上文对各个实施例的描述倾向于强调各个实施例之间的不同之处,其相同或相似之处可以互相参考,为了简洁,本文不再赘述。

在本申请所提供的几个实施例中,应该理解到,所揭露的方法和装置,可以通过其它的方式实现。例如,以上所描述的装置实施方式仅仅是示意性的,例如,模块或单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性、机械或其它的形式。

另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。

集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)或处理器(processor)执行本申请各个实施方式方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-Only Memory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

18页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:测试受试者患有肝癌可能性的系统及方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!