一种电子密度图的确定方法、装置、电子设备和存储介质

文档序号:170911 发布日期:2021-10-29 浏览:30次 >En<

阅读说明:本技术 一种电子密度图的确定方法、装置、电子设备和存储介质 (Electronic density map determining method and device, electronic equipment and storage medium ) 是由 吴家祥 黄俊洲 于 2021-02-02 设计创作,主要内容包括:本申请提供一种电子密度图的确定方法、装置、电子设备和存储介质,属于计算机技术领域。其中,电子密度图的确定方法包括:基于目标对象的分子结构,构建三维坐标系并进行三维网格化,获得所述目标对象对应的各个网格点;将所述各个原子和所述各个网络点均作为节点,基于所述各个原子的三维坐标,以及所述各个网格点的三维坐标,确定所述目标对象对应的各个节点的节点特征,以及每两个节点之间的边特征;将所述各个节点特征以及所述各个边特征输入已训练的电子密度图生成模型,分别得到所述各个网格点的电子密度,其中,每个网格点的电子密度表示在相应网格点发现电子的概率。上述方法可以提高电子密度图的准确性。(The application provides a method and a device for determining an electron density map, electronic equipment and a storage medium, and belongs to the technical field of computers. The method for determining the electron density map comprises the following steps: constructing a three-dimensional coordinate system and carrying out three-dimensional gridding on the basis of the molecular structure of a target object to obtain each grid point corresponding to the target object; taking each atom and each network point as nodes, and determining node features of each node corresponding to the target object and edge features between every two nodes based on the three-dimensional coordinates of each atom and the three-dimensional coordinates of each grid point; and inputting the node features and the edge features into a trained electron density map generation model to respectively obtain the electron density of each grid point, wherein the electron density of each grid point represents the probability of finding electrons at the corresponding grid point. The method can improve the accuracy of the electron density map.)

一种电子密度图的确定方法、装置、电子设备和存储介质

技术领域

本申请涉及计算机技术领域,更具体地说,涉及一种电子密度图的确定方法、装置、电子设备和存储介质。

背景技术

蛋白质在生物体中的实际作用(例如导致某种遗传疾病,或者对特定疾病具有免疫能力),在很大程度上由其三维结构决定。因此,如何准确高效地通过实验或者计算的方式,得到蛋白质的三维结构,对于理解蛋白质在生物体内的功能与作用,有着至关重要的影响。目前,基于冷冻电镜的蛋白质三维结构测定方法,在基于冷冻电镜电子密度图数据,解析得到蛋白质三维结构的过程中,一个关键的步骤是对一系列的候选蛋白质三维结构,模拟生成其对应的电子密度图,然后通过对比模拟生成的电子密度图与真实实验得到的电子密度图之间的一致性,确定候选蛋白质三维结构的优化方向,从而通过迭代优化的方式,得到更加吻合实验数据的蛋白质三维结构,作为最终的解析结构。

从蛋白质三维结构模拟生成其对应的电子密度图,对于上述基于冷冻电镜的蛋白质结构解析,起着尤为关键的作用。如果模拟生成的电子密度图不够准确,那么就无法挑选出更吻合实验数据的候选蛋白质三维结构,以及确定候选蛋白质三维结构的优化方向。

目前已有的方法中,往往基于单高斯假设,从蛋白质三维结构中模拟生成出其所对应的冷冻电镜电子密度图。单高斯假设不足以完全拟合从蛋白质三维结构到电子密度图的对应关系,同时也没有充分考虑原子间相互作用以及不同网格点的电子密度之间的相互影响,因此,准确度较低。

发明内容

为解决相关技术中存在的技术问题,本申请实施例提供一种电子密度图的确定方法、装置、电子设备和存储介质,用以提高电子密度图的准确性。

为达到上述目的,本申请实施例的技术方案是这样实现的:

第一方面,本申请实施例提供一种电子密度图的确定方法,所述方法包括:

基于目标对象的分子结构,构建三维坐标系并进行三维网格化,获得所述目标对象对应的各个网格点,其中,所述分子结构中包含有所述目标对象的各个原子,所述网格点为将所述三维坐标系划分为若干立体网格后,每个网格对应的顶点;

将所述各个原子和所述各个网络点均作为节点,基于所述各个原子的三维坐标,以及所述各个网格点的三维坐标,确定所述目标对象对应的各个节点的节点特征,以及每两个节点之间的边特征,所述节点特征用于表征所述节点对电子密度产生影响的元素,所述边特征用于表征节点之间的相互作用对电子密度产生影响的元素;

将所述各个节点特征以及所述各个边特征输入已训练的电子密度图生成模型,分别得到所述各个网格点的电子密度,其中,每个网格点的电子密度表示在相应网格点发现电子的概率。

第二方面,本申请实施例提供一种电子密度图的确定装置,所述装置包括:

构建单元,用于基于目标对象的分子结构,构建三维坐标系并进行三维网格化,获得所述目标对象对应的各个网格点,其中,所述分子结构中包含有所述目标对象的各个原子,所述网格点为将所述三维坐标系划分为若干立体网格后,每个网格对应的顶点;

特征单元,用于将所述各个原子和所述各个网络点均作为节点,基于所述各个原子的三维坐标,以及所述各个网格点的三维坐标,确定所述目标对象对应的各个节点的节点特征,以及每两个节点之间的边特征,所述节点特征用于表征所述节点对电子密度产生影响的元素,所述边特征用于表征节点之间的相互作用对电子密度产生影响的元素;

模型单元,用于将所述各个节点特征以及所述各个边特征输入已训练的电子密度图生成模型,分别得到所述各个网格点的电子密度,其中,每个网格点的电子密度表示在相应网格点发现电子的概率。

在一种可选的实施例中,所述特征单元,具体用于:

针对所述各个网格点,分别执行以下操作:

确定所述各个网格点中的一个网格点的邻域;所述邻域表征所述一个网格点周围设定距离之内的空间;

确定所述邻域内的各个原子以及所述邻域内的各个其他网格点;

基于测量数据,确定所述一个网格点的网格特征、所述邻域内的各个原子的原子特征、所述邻域内的各个其他网格点的网格特征,并将获得的各个网格特征和各个原子特征均作为所述邻域内的节点特征;

基于所述一个网格点的三维坐标、所述邻域内的各个原子的三维坐标,以及所述邻域内的各个其他网格点的三维坐标,确定所述邻域内的每两个节点之间的边特征。

在一种可选的实施例中,所述邻域内的边特征包括以下任意一种或任意组合:

所述邻域内的各个原子之间的边特征、所述一个网格点与所述邻域内的各个其他网格点之间的边特征、所述一个网格点与所述邻域内的各个原子之间的边特征。

在一种可选的实施例中,所述邻域内的各个原子之间的边特征包括:所述邻域内的每两个原子之间的距离,以及所述邻域内的每两个原子之间的相对坐标;

所述一个网格点与所述邻域内的各个其他网格点之间的边特征包括:所述一个网格点与所述邻域内的各个其他网格点之间的距离,以及所述一个网格点与所述邻域内的各个其他网格点之间的相对坐标;

所述一个网格点与所述邻域内的各个原子之间的边特征包括:所述一个网格点与所述邻域内的各个原子之间的距离,以及所述一个网格点与所述邻域内的各个原子之间的相对坐标。

在一种可选的实施例中,所述电子密度图生成模型包括N个特征更新层和电子密度预测层,所述特征更新层为深度图神经网络,N为正整数。

在一种可选的实施例中,所述模型单元,具体用于:

针对所述各个网格点,分别执行以下操作:

将所述各个网格点中的一个网络点的邻域内的各个节点特征以及各个边特征输入所述已训练的电子密度图生成模型;

基于所述N个特征更新层,分别对所述各个节点特征以及所述各个边特征进行多层非线性变换,得到相应的目标节点特征以及目标边特征;

基于所述电子密度预测层,将获得的目标节点特征以及目标边特征进行计算得到所述一个网格点的电子密度。

在一种可选的实施例中,还包括训练单元,用于按照如下过程训练所述电子密度图生成模型:

获取训练样本以及所述训练样本对应的实验电子密度;

基于所述训练样本以及训练样本对应的实验电子密度对电子密度图生成模型进行循环迭代训练,直至达到设定的训练结束条件为止,得到已训练的电子密度图生成模型,其中,一次循环迭代过程包括:

将所述训练样本输入电子密度图生成模型,确定所述训练样本的训练电子密度;

根据所述实验电子密度以及所述训练电子密度确定损失函数;

根据所述损失函数进行电子密度图生成模型的参数调整。

在一种可选的实施例中,所述特征更新层为信息传递神经网络。

第三方面,本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时,实现第一方面的电子密度图的确定方法。

第四方面,本申请实施例还提供一种电子设备,包括存储器和处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,当所述计算机程序被所述处理器执行时,使得所述处理器实现第一方面的电子密度图的确定方法。

本申请实施例基于目标对象的分子结构,构建三维坐标系并进行三维网格化,获得该目标对象对应的各个网格点。其中,分子结构中包含有目标对象的各个原子,网格点为将所述三维坐标系划分为若干立体网格后,每个网格对应的顶点。将各个原子和各个网络点均作为节点,基于各个原子的三维坐标,以及各个网格点的三维坐标,确定目标对象对应的各个节点的节点特征,以及每两个节点之间的边特征。其中,节点特征用于表征节点对电子密度产生影响的元素,边特征用于表征节点之间的相互作用对电子密度产生影响的元素。将各个节点特征以及各个边特征输入已训练的电子密度图生成模型,分别得到各个网格点的电子密度,其中,每个网格点的电子密度表示在相应网格点发现电子的概率。这样,通过将目标对象所在的三维空间中的原子集合以及对应的电子密度图中的网格点集合,建模为异构图结构,然后利用算法模型,对原子间的相互作用、原子与网格点之间的相互作用、网格点间的相互作用,进行建模与学习,从而充分考虑了原子间相互作用以及不同网格点的电子密度之间的相互影响,可以更好地模拟电子密度图,提升从电子密度图生成的准确性和精度。

附图说明

为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简要介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域的普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。

图1为本申请实施例提供的一种电子密度图的确定方法的应用场景示意图;

图2为本申请实施例提供的一种电子密度图的确定方法的流程图;

图3为本申请实施例提供的一种冷冻电镜电子密度图以及对应的蛋白质三维结构的示意图;

图4为本申请实施例提供的一种电子密度图生成模型的结构示意图;

图5为本申请实施例提供的电子密度图生成模型的训练示意图;

图6为不同的冷冻电镜的电子密度图生成方法的精度对比示意图;

图7为本申请实施例提供的一种电子密度图的确定装置的结构示意图;

图8为本申请实施例提供的一种电子设备的结构示意图。

具体实施方式

为了使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请作进一步地详细描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。

下文中所用的词语“示例性”的意思为“用作例子、实施例或说明性”。作为“示例性”所说明的任何实施例不必解释为优于或好于其它实施例。

文中的术语“第一”、“第二”仅用于描述目的,而不能理解为明示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征,在本申请实施例的描述中,除非另有说明,“多个”的含义是两个或两个以上。

以下对本申请实施例中的部分用语进行解释说明,以便于本领域技术人员理解。

蛋白质三维结构:蛋白质一般由几十至几千个氨基酸构成,每个氨基酸由氢、碳、氮、氧和硫原子构成,蛋白质的三维结构,由其所有原子在空间中的三维坐标确定。

冷冻电镜电子密度图:冷冻电镜是通过实验手段确定蛋白质三维结构的三种主流方法之一(另外两种是核磁共振和X-射线晶体学),其实验结果是一个对空间进行三维网格化后在所有网格点上的电子密度值,整体上称为电子密度图(可以理解为Nx×Ny×Nz的三维张量)。

电子密度(electron density):亦称电子射线密度,表示在原子或分子周围特定位置发现电子的概率。通常,在高电子密度的区域中更容易发现电子。具有较低电子密度的原子或基团意味着分子结构的某些方面正在将负电荷移开。用透射型电镜观察材料时,则电子射线散射能力强的物质越密的地方观察越暗,这些部分一般称之为高电子密度。电子密度图是电子密度在晶体中的三维分布。一般用等高面法使电子密度可视化。

MPNN(Message Passing Neural Network,信息传递神经网络)模型:严格来说,MPNN不是一个模型,而是一个框架。为了能够证明,应用于化学预测任务的模型可以直接从分子图中学习到分子的特征,并且不受到图同构的影响。为此,将应用于图上的监督学习框架称之为MPNN,这种框架是从目前比较流行的支持图数据的神经网络模型中抽象出来的一些共性,抽象出来的目的在于理解它们之间的关系。

MLP(Multi-layer Perceptron,多层感知机)模型:是一种前向结构的人工神经网络,映射一组输入向量到一组输出向量。MLP可以被看做是一个有向图,由多个节点层组成,每一层全连接到下一层。除了输入节点,每个节点都是一个带有非线性激活函数的神经元。使用BP反向传播算法的监督学习方法来训练MLP。MLP是感知器的推广,克服了感知器不能对线性不可分数据进行识别的弱点。最典型的MLP包括三层:输入层、隐层和输出层,不同层之间是全连接的(全连接的意思就是:上一层的任何一个神经元与下一层的所有神经元都有连接)。

下面结合附图及具体实施例对本申请作进一步详细的说明。

生物体中包含了大量的各种各样的分子,比如蛋白质、糖类、脂类等。这些分子具有不同的物理和化学属性,并且以各种各样的方式发生复杂的相互作用和生物化学反应。分子是由原子核和电子组成的多粒子体系。在这些粒子间具有形式很复杂的相互作用,包括原子与原子、电子与电子、电子与原子核之间的库伦相互作用,电子的自旋-自旋相互作用、自旋-轨道相互作用等。这些相互作用决定了原子和电子的运动方式,也决定了分子的性质。

电子密度表示在原子或分子周围特定位置发现电子的概率,其数值大小受原子、原子间相互作用、电子间相互作用、电子与原子之间的相互作用等因素的影响。冷冻电镜是通过实验手段确定蛋白质三维结构的一种方法,其实验结果是一个对空间进行三维网格化后在所有网格点上的电子密度值,整体上称为电子密度图。

目前已有的方法中,往往基于单高斯假设,从蛋白质三维结构中模拟生成出其所对应的冷冻电镜电子密度图。具体地,这些方法假设某个原子邻域内的电子密度,服从与到其原子中心距离相关的高斯分布,即:

ρc(xg|xi)=αi·e(-β‖xg-xi2)……公式1

其中,ρc(xg|xi)是网格点xg在仅考虑原子xi对其影响时的电子密度,β=[π/(2.4+0.8R0)]2,R0是电子密度图的分辨率,αi=mi(β/π)1.5,mi是原子xi的质量。对于网格点xg,其最终的电子密度,由其一定距离阈值下的邻域内的所有原子确定,即:

其中,是网格点xg邻域内的所有原子的集合。

上述方法中存在的一个主要问题是,单高斯假设不足以完全拟合从蛋白质三维结构到电子密度图的对应关系,同时也没有充分考虑原子间相互作用以及不同网格点的电子密度之间的相互影响。例如,如果某个硫原子可以和其附近的另一个硫原子形成双硫键,那么对应的电子密度分布,与没有形成双硫键的情况下相比,是存在较大差异的,而目前已有的这些方法,并没有考虑这一问题。

为了解决上述方法中电子密度图的生成精度较低的问题,本申请实施例提供了一种电子密度图的确定方法、装置、电子设备和存储介质。本申请实施例涉及人工智能(Artificial Intelligence,AI)和机器学习技术,基于人工智能中的计算机视觉(Computer Vision,CV)技术和机器学习(Machine Learning,ML)而设计。

人工智能是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式做出反应的智能机器。人工智能也就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。人工智能技术主要包括计算机视觉技术、语音处理技术、以及机器学习/深度学习等几大方向。

随着人工智能技术研究和进步,人工智能在多个领域展开研究和应用,例如常见的智能家居、图像检索、视频监控、智能音箱、智能营销、无人驾驶、自动驾驶、无人机、机器人、智能医疗等,相信随着技术的发展,人工智能将在更多的领域得到应用,并发挥越来越重要的价值。

计算机视觉技术是人工智能的重要应用,其研究相关的理论和技术,试图建立能够从图像、视频或者多维数据中获取信息,以代替人的视觉判读的人工智能系统。典型的计算机视觉技术通常包括图像处理和视频分析。

机器学习是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习等技术。本申请实施例在生成冷冻电镜电子密度图的过程中,采用了深度图神经网络模型,对由原子与网格点构成的异构图结构进行学习,并通过多层感知机计算每个网格点的电子密度。

本申请实施例引入深度图学习的思想,通过将蛋白质所在的三维空间中的原子集合以及对应的电子密度图中的网格点集合,建模为异构图结构,然后使用针对异构图结构的深度图模型,对原子间的相互作用以及网格点间的相互影响,进行显式地建模与学习,从而提升从蛋白质三维结构生成冷冻电镜电子密度图的生成精度。需要说明的是,本申请实施例中的电子密度图确定方法不仅适用于蛋白质的电子密度图,也适用于核酸、脂质、糖类等其它分子的电子密度图生成,本申请实施例仅以蛋白质为例进行说明。

本申请实施例提供的电子密度图的确定方法的一种应用场景可以参见图1所示,为本申请实施例中电子密度图的确定方法的应用架构示意图,包括服务器100、终端设备200。

其中,终端设备200为可以安装各类应用程序,并且能够将已安装的应用程序的运行界面进行显示的电子设备,该电子设备可以是移动的,也可以是固定的。例如,手机、平板电脑、各类可穿戴设备、车载设备或其它能够实现上述功能的电子设备等。

终端设备200与服务器100之间可以通过互联网相连,实现相互之间的通信。可选地,上述的互联网使用标准通信技术和/或协议。互联网通常为因特网、但也可以是任何网络,包括但不限于局域网(Local Area Network,LAN)、城域网(Metropolitan AreaNetwork,MAN)、广域网(Wide Area Network,WAN)、移动、有线或者无线网络、专用网络或者虚拟专用网络的任何组合。在一些实施例中,使用包括超文本标记语言(Hyper Text Mark-up Language,HTML)、可扩展标记语言(Extensible Markup Language,XML)等的技术和/或格式来代表通过网络交换的数据。此外还可以使用诸如安全套接字层(Secure SocketLayer,SSL)、传输层安全(Transport Layer Security,TLS)、虚拟专用网络(VirtualPrivate Network,VPN)、网际协议安全(Internet Protocol Security,IPsec)等常规加密技术来加密所有或者一些链路。在另一些实施例中,还可以使用定制和/或专用数据通信技术取代或者补充上述数据通信技术。

服务器100可以为终端设备200提供各种网络服务,其中,服务器100可以是一台服务器、若干台服务器组成的服务器集群或云计算中心。

具体地,服务器100可以包括处理器110(Center Processing Unit,CPU)、存储器120、输入设备130和输出设备140等,输入设备130可以包括键盘、鼠标、触摸屏等,输出设备140可以包括显示设备,如液晶显示器(Liquid Crystal Display,LCD)、阴极射线管(Cathode Ray Tube,CRT)等。

存储器120可以包括只读存储器(ROM)和随机存取存储器(RAM),并向处理器110提供存储器120中存储的程序指令和数据。在本发明实施例中,存储器120可以用于存储本发明实施例中电子密度图确定方法的程序。

处理器110通过调用存储器120存储的程序指令,处理器110用于按照获得的程序指令执行本发明实施例中任一种电子密度图确定方法的步骤。

需要说明的是,本发明实施例中,电子密度图确定方法主要由服务器100侧执行,例如,针对电子密度图确定方法,终端设备200可以从数据库中获取冷冻电镜实验数据以及对应的蛋白质三维结构,发送给服务器100,由服务器100生成用于模型训练的训练与测试数据,并进行电子密度图生成模型的训练,并将训练结果返回给终端设备200。如图1所示的应用架构,是以应用于服务器100侧为例进行说明的,当然,本发明实施例中电子密度图确定方法也可以由终端设备200执行,例如终端设备200可以从服务器100侧获得训练好的电子密度图生成模型,从而基于该电子密度图生成模型,生成蛋白质的电子密度图,对此本发明实施例中并不进行限制。

另外,本发明实施例中的应用架构图是为了更加清楚地说明本发明实施例中的技术方案,并不构成对本发明实施例提供的技术方案的限制,当然,也并不仅限于生物大分子的应用,对于其它的应用架构和业务应用,本发明实施例提供的技术方案对于类似的问题,同样适用。

本发明各个实施例以应用于图1所示的应用架构图为例进行示意性说明。

图2示出了本申请一个实施例提供的电子密度图的确定方法的流程图。如图2所示,该方法包括如下步骤:

步骤S201,基于目标对象的分子结构,构建三维坐标系并进行三维网格化,获得目标对象对应的各个网格点。

其中,分子结构中包含有目标对象的各个原子,网格点为将三维坐标系划分为若干立体网格后,每个网格对应的顶点。

以目标对象为蛋白质为例进行说明。蛋白质的分子结构是指蛋白质分子的空间结构,蛋白质分子中包含有多个原子,主要由碳、氢、氧、氮等组成,是一类重要的生物大分子,蛋白质分子是由氨基酸首尾相连缩合而成的共价多肽链,但是天然蛋白质分子并不是走向随机的松散多肽链。每一种天然蛋白质都有自己特有的空间结构或称三维结构,这种三维结构通常被称为蛋白质的分子结构。

具体实施过程中,通过冷冻电镜的方法确定蛋白质三维结构,冷冻电镜通过对运动中的生物分子进行冷冻,在并对蛋白质的三维结构构建三维坐标系并进行三维网格化。图3示出了一组冷冻电镜电子密度图以及对应的蛋白质三维结构的示意图,其中实心圆点为蛋白质中的部分原子,基于蛋白质的三维结构建立三维坐标系,图3中通过虚线将三维坐标系网格化,将虚线的交点位置即每个网格对应的顶点作为网格点,图3中用虚线圆示意。

步骤S202,将各个原子和各个网络点均作为节点,基于各个原子的三维坐标,以及各个网格点的三维坐标,确定目标对象对应的各个节点的节点特征,以及每两个节点之间的边特征。

其中,节点特征用于表征节点对电子密度产生影响的元素,边特征用于表征节点之间的相互作用对电子密度产生影响的元素。

具体实施过程中,将三维网格化结构中的原子和网格点均作为节点,如图3中所示的实心圆点和虚线圆均作为节点,确定各个节点的节点特征。

其中,原子的三维坐标可以将原子核的位置或者原子的中心位置作为该原子的位置,确定该位置在三维坐标系中的坐标;网格点的三维坐标即为各个网格对应的顶点在三维坐标系中的坐标。

由于节点会对电子密度产生影响,因此利用节点特征来表征节点对电子密度产生影响的元素,具体的节点特征可以包括原子质量、元素类型、原子的三维坐标、网格点的三维坐标等,这些数据可以直接从冷冻电镜实验数据中获取。

另一方面,节点之间的相互作用,例如原子与原子之间的相互作用、不同网格点的电子密度之间的相互作用可以利用边特征表征。其中,边特征包括各个原子之间的边特征、各个网格点之间的边特征、原子与网格点之间的边特征。具体来说,边特征可以为两个原子之间的距离、两个原子之间的相对坐标、原子与网格点之间的距离、原子到网格点的相对坐标、两个网格点之间的距离、两个网格点之间的相对坐标等。根据冷冻电镜的实验数据可以计算出上述边特征。

步骤S203,将各个节点特征以及各个边特征输入已训练的电子密度图生成模型,分别得到各个网格点的电子密度,其中,每个网格点的电子密度表示在相应网格点发现电子的概率。

具体实施过程中,基于步骤S201和步骤S202中提取或计算得到的特征数据,利用电子密度图生成模型确定每一个网格点的电子密度,电子密度即为在相应网格点位置发现电子的概率。

其中,电子密度图生成模型为利用训练数据与测试数据训练得到的,训练数据和测试数据中也包含蛋白质的节点特征和边特征。另外,训练数据与测试数据中还包括网格点的实验电子密度,即通过冷冻电镜实验获取的实验结果中包含各个网格点的实验电子密度,从而可以将实验电子密度作为真实值,对电子密度图生成模型进行训练,得到已训练的电子密度图生成模型。

这样,通过将目标对象所在的三维空间中的原子集合以及对应的电子密度图中的网格点集合,建模为异构图结构,然后利用算法模型,对原子间的相互作用、原子与网格点之间的相互作用、网格点间的相互作用,进行建模与学习,从而充分考虑了原子间相互作用以及不同网格点的电子密度之间的相互影响,可以更好地模拟电子密度图,提升从电子密度图生成的准确性和精度。

一种较佳的实施例中,由于原子之间、网格点之间、原子和网格点之间内的作用受距离的影响较大,因此可以以网格的领域为范围获取上述基于冷冻电镜实验结果确定的特征数据。

则针对各个网格点,分别执行以下操作:

确定各个网格点中的一个网格点的邻域;邻域表征一个网格点周围设定距离之内的空间;

确定邻域内的各个原子以及邻域内的各个其他网格点;

基于测量数据,确定一个网格点的网格特征、邻域内的各个原子的原子特征、邻域内的各个其他网格点的网格特征,并将获得的各个网格特征和各个原子特征均作为邻域内的节点特征;

基于一个网格点的三维坐标、邻域内的各个原子的三维坐标,以及邻域内的各个其他网格点的三维坐标,确定邻域内的每两个节点之间的边特征。

具体实施过程中,不论训练数据还是预测数据,均以一个网格点的领域为范围获取或确定特征数据。具体地,对于每一组冷冻电镜电子密度图以及所对应的蛋白质三维结构,以电子密度图中的每个网格点为中心,按照预设的某个距离阈值(例如5A即5×10-10m)划分邻域,然后统计该网格点的邻域内的所有原子以及网格点的相关信息。

其中,节点特征包括该网格点的网格特征(例如该网格点的三维坐标)、领域内的各个原子的原子特征(例如原子质量、原子的三维坐标等)、邻域内的各个其他网格点的网格特征(例如其他网格点的三维坐标),这些数据可以直接从测量数据中获取,或者基于测量数据确定。

另一方面,邻域内节点之间的边特征可以包括邻域内的各个原子之间的边特征、该网格点与邻域内的各个其他网格点之间的边特征、该网格点与邻域内的各个原子之间的边特征。上述边特征基于该网格点的三维坐标、邻域内的各个原子的三维坐标,以及邻域内的各个其他网格点的三维坐标进行计算得到。

进一步地,邻域内的各个原子之间的边特征包括:邻域内的每两个原子之间的距离,以及邻域内的每两个原子之间的相对坐标。这里,原子之间的边特征可以基于邻域内的各个原子的三维坐标计算得到。

该网格点与邻域内的各个其他网格点之间的边特征包括:该网格点与邻域内的各个其他网格点之间的距离,以及该网格点与邻域内的各个其他网格点之间的相对坐标。这里,该网格点与邻域内的各个其他网格点之间的边特征可以基于该网格点的三维坐标以及邻域内的各个其他网格点的三维坐标计算得到。

该网格点与邻域内的各个原子之间的边特征包括:该网格点与邻域内的各个原子之间的距离,以及该网格点与邻域内的各个原子之间的相对坐标。这里,该网格点与邻域内的各个原子之间的边特征可以基于该网格点的三维坐标以及邻域内的各个原子的三维坐标计算得到。

下面以图3中的网格点为例进行介绍。以图3中每个网格点为中心,按照预设的距离阈值(例如5A)划分邻域,然后统计其邻域内的所有原子的相关信息(包括元素类型、原子质量、原子到网格点的相对坐标、原子到网格点的距离)。对于图3中冷冻电镜电子密度图以及所对应的蛋白质三维结构,最终提取的数据包括:

1、所有网格点的实验电子密度;

2、所有网格点的三维坐标;

3、各个网格点邻域内所有原子的相关信息(元素类型、原子质量、原子到网格点的相对坐标、原子到网格点的距离等);

4、所有距离小于预设的原子间距离阈值的两两原子间的相关信息(两个原子各自的元素类型、原子质量、原子间距离以及原子坐标等)。

其中,数据2、3、4可以作为预测数据,数据1连通数据2、3、4则构成电子密度图生成模型的训练数据。

需要说明的是,为了便于后续的训练和计算,可以将一个网格点对应的所有数据即该网格点的实验电子密度、该网格点的三维坐标以及该网格点领域内的所有相关特征数据,作为一组数据进行存储,这样,需要训练或者预测时,可以直接按照网格点进行数据提取。其中,不同网格点之间重复的特征数据可以重复获取或计算,也可以不重复计算,即仅计算一次。

以图3中的网格点Y为例,网格点Y的邻域如图中的实线圆所示,图3所示的网格点Y的邻域的半径小于相邻两个网格点之间的距离,因此,网格点Y的邻域内仅包含原子而没有其他网格点。获取网格点Y三维坐标;获取图3的实线圆中各个原子的原子特征,包括元素类型、原子质量;获取图3的实线圆中各个原子到网格点Y的边特征,包括各原子到网格点Y的相对坐标、各原子到网格点Y的距离;获取图3的实线圆中距离在原子间距离阈值之内的原子对的边特征,包括原子间距离以及原子间相对坐标。将上述获取的数据作为网格点Y对应的特征数据。

另外,训练过程中,还需获取网格点Y的实验电子密度,将网格点Y的实验电子密度和上述对应的特征数据均作为网格点Y的训练数据。

此外,网格点的邻域的半径也可以大于相邻两个网格点之间的距离,这种情况下,对于网格点Y对应的特征数据还包括邻域内其他网格点相关的节点特征和边特征。

基于上述获取的特征数据,可以构建基于深度图学习的从蛋白质三维结构到冷冻电镜电子密度图的网络模型。一种可选的实施例中,电子密度图生成模型包括N个特征更新层和电子密度预测层,其中,特征更新层为深度图神经网络,N为正整数。

一种具体的实施例中,特征更新层为信息传递神经网络。图4示出了电子密度图生成模型的结构示意图。如图4所示,电子密度图生成模型包括N个信息传递神经网络层(图4中MPNN Layer)和电子密度预测层(图4中MLP Network)。则上述,将各个节点特征以及各个边特征输入已训练的电子密度图生成模型,分别得到各个网格点的电子密度,包括:

针对各个网格点,分别执行以下操作:

将各个网格点中的一个网络点的邻域内的各个节点特征以及各个边特征输入已训练的电子密度图生成模型;

基于N个特征更新层,分别对各个节点特征以及各个边特征进行多层非线性变换,得到相应的目标节点特征以及目标边特征;

基于电子密度预测层,将获得的目标节点特征以及目标边特征进行计算得到一个网格点的电子密度。

具体实施过程中,将某个网络点对应的节点特征和边特征输入电子密度图生成模型中,通过电子密度图生成模型中信息传递神经网络层和电子密度预测层的处理,输出该网络点的电子密度。如图4所示,针对网格点Y,Va为原子特征,Vg为网格特征,Ea,a为原子与原子之间的边特征,Ea,g为原子与原子之间的边特征,Eg,g为网格点与网格点之间的边特征,将上述特征输入电子密度图生成模型中,则输出网格点Y的电子密度

进一步地,电子密度图生成模型中由于包含有多层信息传递神经网络层,则每一层信息传递神经网络层均对节点特征进行非线性变换,例如初始输入电子密度图生成模型的原子特征为网格特征为经过一层信息传递神经网络层处理后,得到原子特征和网格特征为……经过所有信息传递神经网络层的处理后,得到最终的目标节点特征以及目标边特征

此外,本申请实施例中的电子密度图生成模型采用了信息传递神经网络模型,对由原子与网格点构成的异构图结构进行学习,在其它可选的实施过程中,信息传递神经网络模型也可以替换为其他深度图神经网络模型,例如GCN(Graph Convolutional Network,图卷积网络)、GAN(Graph Attention Network,图注意力网络)等。

下面介绍电子密度图生成模型的训练过程。具体的模型训练包括如下过程:

获取训练样本以及训练样本对应的实验电子密度;

基于训练样本以及训练样本对应的实验电子密度对电子密度图生成模型进行循环迭代训练,直至达到设定的训练结束条件为止,得到已训练的电子密度图生成模型,其中,一次循环迭代过程包括:

将训练样本输入电子密度图生成模型,确定训练样本的训练电子密度;

根据实验电子密度以及训练电子密度确定损失函数;

根据损失函数进行电子密度图生成模型的参数调整。

训练过程中,不仅需要网格点的训练样本,还获取该网格点对应的实验电子密度。将实验电子密度作为网格点真实的电子密度,与利用训练样本得到的训练电子密度进行对比,确定损失函数,并根据损失函数调整模型参数,直至达到设定的训练结果条件位置。

具体训练过程可以如图5所示,针对某个网格点,通过多个MPNN层,对初始的原子特征和网格特征进行了多层非线性变换,得到了最终的目标原子特征和目标网格特征再利用MLP模型进行计算,得到该网格点的训练电子密度将训练电子密度与该网格点的实验电子密度ρg计算均方误差(即MSE),作为模型的损失函数,对模型参数进行训练和更新。

具体地,MPNN层通过如下公式,对原子特征和网格特征进行更新:

其中,Mt(·)收集了原子(或者网格点)的邻域内所有原子以及网格点的节点特征,Ut(·)基于收集得到的信息,对原子(或者网格点)的特征进行更新,Mt(·)和Ut(·)均通过神经网络的形式进行实现。

通过本申请实施例提出的电子密度图的确定方法,可以更准确地筛选出与实验数据一致性更高的候选蛋白质三维结构,以及为候选蛋白质三维结构确定后续的优化与调整方向,从而更准确地从冷冻电镜电子密度图中,解析得到蛋白质三维结构。

图6示出了不同的冷冻电镜的电子密度图生成方法的精度对比示意图,横轴为两种基于单高斯假设的生成方法,纵轴为本申请实施例的电子密度图确定方法,数值表示与实验所得到电子密度图的一致性,越高越好。由图6所示,左右两幅图中均为本申请实施例的电子密度图精度更高。

本申请实施例所提出的从蛋白质三维结构到冷冻电镜电子密度图的确定方法,相比于基于单高斯假设的近似方法,可以以更高的精度生成电子密度图,且生成的电子密度图准确度也较高。

与上述方法实施例相对应地,本申请实施例还提供了一种电子密度图的确定装置。图7为本申请实施例的提供的电子密度图的确定装置的结构示意图;如图7所示,该电子密度图的确定装置包括:

构建单元701,用于基于目标对象的分子结构,构建三维坐标系并进行三维网格化,获得所述目标对象对应的各个网格点,其中,所述分子结构中包含有所述目标对象的各个原子,所述网格点为将所述三维坐标系划分为若干立体网格后,每个网格对应的顶点;

特征单元702,用于将所述各个原子和所述各个网络点均作为节点,基于所述各个原子的三维坐标,以及所述各个网格点的三维坐标,确定所述目标对象对应的各个节点的节点特征,以及每两个节点之间的边特征,所述节点特征用于表征所述节点对电子密度产生影响的元素,所述边特征用于表征节点之间的相互作用对电子密度产生影响的元素;

模型单元703,用于将所述各个节点特征以及所述各个边特征输入已训练的电子密度图生成模型,分别得到所述各个网格点的电子密度,其中,每个网格点的电子密度表示在相应网格点发现电子的概率。

在一种可选的实施例中,所述特征单元702,具体用于:

针对所述各个网格点,分别执行以下操作:

确定所述各个网格点中的一个网格点的邻域;所述邻域表征所述一个网格点周围设定距离之内的空间;

确定所述邻域内的各个原子以及所述邻域内的各个其他网格点;

基于测量数据,确定所述一个网格点的网格特征、所述邻域内的各个原子的原子特征、所述邻域内的各个其他网格点的网格特征,并将获得的各个网格特征和各个原子特征均作为所述邻域内的节点特征;

基于所述一个网格点的三维坐标、所述邻域内的各个原子的三维坐标,以及所述邻域内的各个其他网格点的三维坐标,确定所述邻域内的每两个节点之间的边特征。

在一种可选的实施例中,所述邻域内的边特征包括以下任意一种或任意组合:

所述邻域内的各个原子之间的边特征、所述一个网格点与所述邻域内的各个其他网格点之间的边特征、所述一个网格点与所述邻域内的各个原子之间的边特征。

在一种可选的实施例中,所述邻域内的各个原子之间的边特征包括:所述邻域内的每两个原子之间的距离,以及所述邻域内的每两个原子之间的相对坐标;

所述一个网格点与所述邻域内的各个其他网格点之间的边特征包括:所述一个网格点与所述邻域内的各个其他网格点之间的距离,以及所述一个网格点与所述邻域内的各个其他网格点之间的相对坐标;

所述一个网格点与所述邻域内的各个原子之间的边特征包括:所述一个网格点与所述邻域内的各个原子之间的距离,以及所述一个网格点与所述邻域内的各个原子之间的相对坐标。

在一种可选的实施例中,所述电子密度图生成模型包括N个特征更新层和电子密度预测层,所述特征更新层为深度图神经网络,N为正整数。

在一种可选的实施例中,所述模型单元703,具体用于:

针对所述各个网格点,分别执行以下操作:

将所述各个网格点中的一个网络点的邻域内的各个节点特征以及各个边特征输入所述已训练的电子密度图生成模型;

基于所述N个特征更新层,分别对所述各个节点特征以及所述各个边特征进行多层非线性变换,得到相应的目标节点特征以及目标边特征;

基于所述电子密度预测层,将获得的目标节点特征以及目标边特征进行计算得到所述一个网格点的电子密度。

在一种可选的实施例中,还包括训练单元704,用于按照如下过程训练所述电子密度图生成模型:

获取训练样本以及所述训练样本对应的实验电子密度;

基于所述训练样本以及训练样本对应的实验电子密度对电子密度图生成模型进行循环迭代训练,直至达到设定的训练结束条件为止,得到已训练的电子密度图生成模型,其中,一次循环迭代过程包括:

将所述训练样本输入电子密度图生成模型,确定所述训练样本的训练电子密度;

根据所述实验电子密度以及所述训练电子密度确定损失函数;

根据所述损失函数进行电子密度图生成模型的参数调整。

在一种可选的实施例中,所述特征更新层为信息传递神经网络。

与上述方法实施例相对应地,本申请实施例还提供了一种电子设备。

图8为本申请实施例提供的一种电子设备的结构示意图;如图8所示,本申请实施例中该电子设备80包括:处理器81、显示器82、存储器83、输入设备86、总线85和通讯设备84;该处理器81、存储器83、输入设备86、显示器82和通讯设备84均通过总线85连接,该总线85用于该处理器81、存储器83、显示器82、通讯设备84和输入设备86之间传输数据。

其中,存储器83可用于存储软件程序以及模块,如本申请实施例中的图像分类方法对应的程序指令/模块,处理器81通过运行存储在存储器83中的软件程序以及模块,从而执行电子设备80的各种功能应用以及数据处理,如本申请实施例提供的图像分类方法。存储器83可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个应用的应用程序等;存储数据区可存储根据电子设备80的使用所创建的数据(比如训练样本、特征提取网络)等。此外,存储器83可以包括高速随机存取存储器,还可以包括非易失性存储器,例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

处理器81是电子设备80的控制中心,利用总线85以及各种接口和线路连接整个电子设备80的各个部分,通过运行或执行存储在存储器83内的软件程序和/或模块,以及调用存储在存储器83内的数据,执行电子设备80的各种功能和处理数据。可选的,处理器81可包括一个或多个处理单元,如CPU、GPU(Graphics Processing Unit,图形处理单元)、数字处理单元等。

本申请实施例中,处理器81将图像通过显示器82展示给用户。

该输入设备86主要用于获得用户的输入操作,当该电子设备不同时,该输入设备86也可能不同。例如,当该电子设备为计算机时,该输入设备86可以为鼠标、键盘等输入设备;当该电子设备为智能手机、平板电脑等便携设备时,该输入设备86可以为触控屏。

本申请实施例还提供了一种计算机存储介质,该计算机存储介质中存储有计算机可执行指令,该计算机可执行指令用于实现本申请任一实施例所述的电子密度图的确定方法。

在一些可能的实施方式中,本申请提供的电子密度图的确定方法的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当所述程序产品在计算机设备上运行时,所述程序代码用于使所述计算机设备执行本说明书上述描述的根据本申请各种示例性实施方式的电子密度图的确定方法的步骤,例如,所述计算机设备可以执行如图2所示的步骤S201~S203中的电子密度图的确定流程。

所述程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。

可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。可读信号介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。

在本申请所提供的几个实施例中,应该理解到,所揭露的设备和方法,可以通过其它的方式实现。以上所描述的设备实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,如:多个单元或组件可以结合,或可以集成到另一个系统,或一些特征可以忽略,或不执行。另外,所显示或讨论的各组成部分相互之间的耦合、或直接耦合、或通信连接可以是通过一些接口,设备或单元的间接耦合或通信连接,可以是电性的、机械的或其它形式的。

上述作为分离部件说明的单元可以是、或也可以不是物理上分开的,作为单元显示的部件可以是、或也可以不是物理单元,即可以位于一个地方,也可以分布到多个网络单元上;可以根据实际的需要选择其中的部分或全部单元来实现本实施例方案的目的。

另外,在本申请各实施例中的各功能单元可以全部集成在一个处理单元中,也可以是各单元分别单独作为一个单元,也可以两个或两个以上单元集成在一个单元中;上述集成的单元既可以采用硬件的形式实现,也可以采用硬件加软件功能单元的形式实现。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

23页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于选择性全基因组扩增的引物设计方法、装置及应用

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!