面向药物虚拟筛选全过程交互式数据库系统

文档序号:1467606 发布日期:2020-02-21 浏览:14次 >En<

阅读说明:本技术 面向药物虚拟筛选全过程交互式数据库系统 (Interactive database system for whole process of virtual screening of drugs ) 是由 刘昊 王寒星 魏志强 李阳阳 于 2019-10-10 设计创作,主要内容包括:本发明公开了一种面向药物虚拟筛选全过程交互式数据库系统,包括数据库底层、数据集、Web后台框架和交互式前台,所述数据集包括可直接进行分子对接实验的数据集、分子对接结果数据集、分子对接计算辅助数据集。本发明的数据库系统对整个分子对接计算过程进行交互式管理,前台集成对接计算的数据选择、计算任务提交、对接计算、查看计算节点、分配计算核心、删除计算任务、查看任务进程、计算任务纠错检验、失败任务重新提交、结果文件筛选以及对接数据、结果数据的三维可视化。利用本发明的交互式数据库系统进行药物虚拟筛选,解决了大数据量下的分子对接实验的时间成本问题,并且运用多种打分函数筛选出最优对接分子,筛选准确性高。(The invention discloses an interactive database system for the whole process of virtual screening of drugs, which comprises a database bottom layer, a data set, a Web background framework and an interactive foreground, wherein the data set comprises a data set capable of directly carrying out a molecular docking experiment, a molecular docking result data set and a molecular docking calculation auxiliary data set. The database system carries out interactive management on the whole molecular docking calculation process, and the foreground integrates data selection of docking calculation, calculation task submission, docking calculation, calculation node checking, calculation core distribution, calculation task deletion, task process checking, calculation task error correction checking, failure task resubmission, result file screening and three-dimensional visualization of docking data and result data. The interactive database system is used for virtual drug screening, the time cost problem of molecular docking experiments under large data volume is solved, optimal docking molecules are screened out by using various scoring functions, and the screening accuracy is high.)

面向药物虚拟筛选全过程交互式数据库系统

技术领域

本发明属于计算机辅助药物设计技术领域,特别涉及一种面向药物虚拟筛选全过程交互式数据库系统。

背景技术

在计算机辅助药物设计领域,虚拟筛选已经成为一种实用化工具,虚拟筛选,即在进行生物活性筛选之前,利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,以降低实际筛选化合物数目,同时提高先导化合物发现效率。在虚拟筛选分子对接实验过程中,相关数据库网站给分子对接过程提供了相关的基础数据。

国内外现有的大型面向虚拟筛选全过程的数据库网站少之又少,主要提供药物虚拟筛选所必须的源文件以及相关的参数信息,这些数据库系统按照所提供的的数据集的种类进行划分,主要有三大类:受体数据库、配体数据库、受体-配体复合物数据库。

受体数据库主要提供受体蛋白质的相关基础数据信息,当前最流行的蛋白质数据库是RCSB Protein Data Bank,RCSB Protein Data Bank收集了上千pdb和相关配体小分子的信息,数据库给出了pdb的实验数据并对相应数据进行可视化处理,并且给出了各个pdb分子相关的靶点数据信息,该数据库为分子对接提供了基础数据和辅助工具;配体小分子数据库主要有ZINC12和ZINC15,他们是同一个数据库的两个不同版本,ZINC数据库提供了ligands小分子的基础数据并提供了下载、可视化、检索等相关功能;受体-配体复合物数据库主要在Protein Data Bank的基础上收集了在分子对接实验中产生的化合物的信息,该数据库主要有bindingdb和pdbbind,这两个数据库都收录了在实际分子对接汇演过程中所产生的化合物以及相关pdb和ligands的信息。

尽管现有数据集网站能够基本提供药物虚拟筛选的数据支持,但是现有的数据集网站存在较多不足。

1.内容相对单一,分子库局限性明显,数据库体系性不强,只提供某方面数据,而无法支持整个药物虚拟筛选流程,无法向科研工作者提供一套具备综合数据的、可以直接进行分子对接实验的数据集。科研人员不得不在这些数据集网站提供的基础数据的基础上,再次进行数据的加工和处理才能将数据应用于分子对接过程中。比如受体数据库Protein Data Bank缺乏ligands小分子以及分子对接结果化合物的信息;配体数据库ZINC15在受体信息的支持上是不完善的;受体-配体化合物数据库收录了的活性化合物及其pocket的基础数据是不全面的。并且现有数据库内容偏向基础数据,过于偏向原始分子的共享,缺乏筛选过程和结果的数据;缺少交互性,科研人员只能在数据库层面进行数据提取,增加工作量。

2.当前药物虚拟筛选领域用到的对接软件种类繁多,对于不同的分子对接软件系统往往需要不同文件格式要求的基础文件以进行相关分子对接计算,然而现有数据集网站无法特定的针对每一种分子对接网站提供相应格式的文件。但是,在实际的科研工作中,科研工作者为了提高分子对接的准确性,常常将几种不同的分子对接软件同时使用,这样就对基础受体、配体数据的格式提出了新的要求。

3.当前药物虚拟筛选领域的数据库网站并没有集成对整个虚拟筛选过程的管理,只是单纯提供数据的查询和下载,缺少交互式的实验管理,科研人员需要从网站查询并下载数据在本地进行实验,无疑增加了一定的工作量。

目前,科研人员在进行药物虚拟筛选实验时,迫切的需要一种具备完善数据集、可直接应用于分子对接实验、并可以进行在线实验及实验管理的数据集网站系统。而现有的数据库无法很好的满足需求。数据量太大、分子结构存储困难,在线实验管理都成为数据库实现的难点。

发明内容

针对现有技术存在的不足,本发明提供一种面向药物虚拟筛选全过程交互式数据库系统及药物虚拟筛选方法,利用超级计算机的并行计算能力,数据库系统集成虚拟筛选过程的全部数据、完整分子对接过程及对接前后晶体状态动态显示,解决了大数据量下的分子对接实验的时间成本问题,并且运用多种打分函数筛选出最优对接分子。

为实现上述目的,本发明采用的技术方案是:面向药物虚拟筛选全过程交互式数据库系统,包括数据库底层、数据集、Web后台框架和交互式前台,所述数据库底层采用关系型数据库;所述关系型数据库为MySQL数据库,关系型数据库在整体的数据库系统中用于构建实体以及实体之间的关系、存储实体的具体属性,存储分子对接过程中产生的dok文件,并支持文件检索和下载;所述数据集包括可直接进行分子对接实验的数据集、分子对接结果数据集、分子对接计算辅助数据集。

进一步的,所述的可直接进行分子对接实验的数据集包括受体、配体、蛋白质、药物、对接位点、口袋信息、蛋白质-配体化合物中的多种实体之间的关系及属性。

进一步的,所述交互式前台用于对整个分子对接计算过程进行交互式管理,包括主页、配体信息模块、受体信息模块、结果数据集模块、在线数据共享模块、在线分子对接计算模块、数据库简介模块;所述在线数据共享模块用于上传分子对接实验的数据,上传的数据经管理人员审核后,存入数据库;所述在线分子对接计算模块用于在线进行分子对接实验。所述交互式前台集成对接计算的数据选择、计算任务提交、对接计算、查看计算节点、分配计算核心、删除计算任务、查看任务进程、计算任务纠错检验、失败任务重新提交、结果文件筛选以及对接数据、结果数据的三维可视化。

进一步的,所述在线分子对接计算模块包括数据预处理工具、在线提交计算任务工具和资源管理工具,所述数据预处理工具包括文件格式转换工具,用于不同格式文件的相互转换;所述在线提交计算任务工具用于将处理好的数据保存到数据集中,并分配具体的节点进行在线分子对接计算;所述资源管理工具用于自动分配对接计算资源,在自动分配节点的基础上用户可指定节点资源进行计算,还可用于查看计算资源占有情况,进行提交、查看、删除任务进程等交互式管理操作。

进一步的,所述前台还设有用于对接前后晶体状态动态显示的可视化模块。

进一步的,在线分子对接计算的过程包括对接计算的数据选择、计算任务提交、对接计算、查看计算节点、分配计算核心、删除计算任务、查看任务进程、计算任务纠错检验、失败任务重新提交、结果文件的筛选;使用VPN、Shell脚本、提供API接口方式连接超算的计算节点。通过交互式前台可以启动对对接计算过程的管理,可以对对接操作进行增删改查。

本发明还提供一种面向药物虚拟筛选全过程交互式数据库系统的建立方法,建立步骤包括:

a.数据库底层搭建:数据库底层采用关系型数据库MySQL,关系型数据库在整体的数据库系统中负责构建实体以及实体之间的关系、存储实体的具体属性;

b.基于SSM框架的Web后台框架的搭建:SSM框架分层设计实现解耦,分为五层,包括DAOImpl、DAO、ServiceImpl、Service和Action层;

c.面向用户的交互式前台的搭建:包括主页、配体信息模块、受体信息模块、结果数据集模块、在线数据共享模块、在线分子对接计算模块、数据库简介模块;

d.面向分子对接全过程的数据获取:数据库系统存储的数据包括国际上公开免费的ZINC库和PDB库数据、分子对接实验结果数据、分子对接计算辅助数据;

e.数据的录入:将数据批量格式化处理并存储,其中,在关系型数据库数据录入时,在特定字段添加索引并通过分字段、分表的形式优化数据库。

进一步的,步骤c中,科研人员通过在线分子对接计算模块在线进行分子对接实验;在线数据共享模块用于上传分子对接实验的数据,科研人员依照规定的文件格式或填写规定格式的Excel文档,将自己的实验数据上传,数据库系统的管理人员在专家审核上传数据无误之后,将上传的数据存入数据库并按照数据共享人的要求对数据进行公示。

进一步的,步骤a中,关系型数据库中新建配体、受体、蛋白质、药物、分子对接结果、对接位点、分子对接口袋、蛋白质-配体化合物多个实体表及其关系表,用于展示每个实体的具体属性和实体之间的关系。

本发明还提供一种药物虚拟筛选方法,利用前述的面向药物虚拟筛选全过程交互式数据库系统进行,包括以下步骤:

step1.受体模型的建立

首先从数据集提取蛋白质信息建立受体模型,包括大分子结构和结合位点信息;对蛋白质靶标结构预处理;

预处理过程如下:

(1)蛋白的pdb格式文件预处理

查看蛋白是否有配体,存在多个分子时,需要分辨该分子是否为配体;

(2)查看蛋白是否有突变

蛋白的突变分为病理性突变和非病理性突变,可以在PDB中查看;

(3)检查氨基酸残基是否有残缺;

(4)去除晶体中的水分子,除非有文献报道证明水分子必须保留,去除配体杂原子;

(5)保留蛋白与蛋白工作需要的辅因子;

(6)定义结合口袋位点。

step2.生成小分子数据集

分子对接前,将从数据集中提取的已被转化为二维的配体分子数据通过结构转化程序转化为三维结构,然后对生成的三维结构加入氢原子和电荷,完成一个用于对接的三维小分子数据集;

step3.在线分子对接和打分

将生成的小分子数据集中的所有分子放到受体的结合位点处来模拟结合作用,预测受体和配体生成的复合物的构象;在线分子对接计算时,先将配体和受体的数据通过ledock_pro和ledock_go打分函数进行初筛,得到初筛的结果集数据;然后,再用薛定谔对初筛得到的结果集数据再进行一次分子对接计算,这一过程称为精筛;最后,从精筛的结果集数据筛选出得分高的、对接结果好的结果信息;

step4.命中化合物的后处理

将选出的得分高的结果信息整合保存到数据库。

进一步的,step3中,在线分子对接计算过程包括对接计算的数据选择、计算任务提交、对接计算、查看计算节点、分配计算核心、删除计算任务、查看任务进程、计算任务纠错检验、失败任务重新提交、结果文件的筛选;所述的数据库系统通过VPN、Shell脚本、提供API接口方式连接超算的计算节点。

进一步的,在step3分子对接计算过程中,利用数据预处理工具实现不同格式文件间的相互转换;利用在线提交计算任务工具将处理好的数据提交到数据集中,并分配具体的节点进行分子对接计算。

进一步的,step3中,从精筛的结果集数据筛选出对接计算打分符合吉布斯自由能分数小于-8且吉布斯自由能与重原子个数的比值小于-0.3的结果,得到对于某一特定受体活性最高、最易成药的小分子。

与现有技术相比,本发明优点在于:

(1)扩展了数据库的范围和内容:除了存储对接实验的配体和受体文件之外,还包括对接的位点,口袋等辅助信息;利用超级计算机的并行计算能力,实现配体、受体、对接位点、口袋信息及对接结果的大数据量完全存储及公共数据库网站的集成,数据库系统集成虚拟筛选过程的全部数据、完整分子对接过程及对接前后晶体状态动态显示,尤其在受体数据中,有大量标定和预处理完成的蛋白质构象文件;本发明解决了大数据量下的分子对接实验的时间成本问题,并且运用多种打分函数筛选出最优对接分子,提高计算效率和筛选小分子的准确性。

(2)本发明的数据库体统提供一套完整的可直接进行分子对接实验的数据集,不需再进行格式转化,检索速度快、在线分子对接计算速度快,缩短药物筛选时间。

(3)本发明的数据库系统具有药物虚拟筛选的配体、受体等分子数据集的查询可视化显示及共享,对接及筛选结果查询显示及共享功能;MySQL中分表优化的方式提高检索速度,并直接以分子的mol2、pdb、dok等文件格式存储,方便用户快速下载相关数据集。

(4)本发明的数据库系统在进行分子对接计算时可以自动分配计算资源,主要针对超算分配计算核心,资源分配的原则:资源平均分配、负载均衡、用户指定核心;传统的分子对接是面向单核操作的,对于大数据量的分子对接是几乎无法完成的。

(5)本发明的数据库设有在线分子对接计算模块,科研人员可通过本发明在线进行分子对接实验,在自动分配资源的基础上支持用户指定资源计算;并且通过网站可以直接启动对对接计算过程的管理,查看计算资源占有情况,提交、查看、删除任务进程等交互式管理操作,简化了人工实验操作过程,大大提高效率。

(6)本发明的数据库系统设有在线数据共享模块,允许其他科研人员随时上传开放的数据,包括受体和配体数据、分子对接实验结果数据等,并有一定的纠错和检验功能。

(7)本发明的数据库系统对整个对接计算过程进行交互式管理,交互式前台网站集成对接计算的数据选择、计算任务提交、对接计算、查看计算节点、分配计算核心、删除计算任务、查看任务进程、计算任务纠错检验、失败任务重新提交、结果文件筛选以及对接数据、结果数据的三维可视化。

附图说明

图1为本发明的交互式数据库系统的功能模块图。

图2为本发明的药物虚拟筛选流程图。

具体实施方式

下面结合附图及具体实施例对本发明作进一步的说明。

本发明的面向药物虚拟筛选全过程交互式数据库系统是在公开数据集的基础之上,结合药物虚拟筛选实际的分子对接计算实际需求建立起来的、面向分子对接全过程的数据库系统,药物筛选上亿数量级的运算需求和上亿级文件的存储要求是基于超级计算机和国产众核实现的。

超级计算机中心具备上万的计算节点,具有强大的计算能力,极大的提高了分子对接计算的效率,保证了药物虚拟筛选的高效、顺利的进行。科研人员曾经做过对照实验,同一个分子对接任务,在单台i7处理器上需要花费数天才能完成,而将该计算任务分配到超算中心集群10000个计算节点进行处理,在几个小时内就可以完成计算任务。在新药研发中,传统的方法制药往往需要几年甚至十几年,而将药物虚拟筛选的方法应用于新药研发过程中,通过超级计算机的运算能力模拟药物靶点和药效活性小分子的亲和力,这一方法能够极大的提高效率、节约成本、缩短制药周期。

药物虚拟筛选过程中需要进行的计算量相当庞大,仅仅依靠超级计算机上万因特尔节点难以快速的完成计算任务,故将分子对接计算移植到国产众核无疑能加快药物虚拟筛选的整体进度。同时,将适用于因特尔处理器的分子对接软件(例如:vina、ledock)移植到国产神威众核上有利于我国制药工业的自主化发展。

下面介绍本发明的数据库系统的组成及构建方法。

一、数据库系统

数据库系统包括数据库底层、数据集、Web后台框架和交互式前台,数据库底层采用关系型数据库MySQL数据库;关系型数据库在整体的数据库系统中用于构建实体以及实体之间的关系、存储实体的具体属性,存储分子对接过程中产生的dok文件,并支持文件检索和下载。因为数据库系统需要呈现诸如受体、配体、蛋白质、药物等实体间关系及其属性,然而非关系型数据库MongoDB在表现实体间关系方面性能相对欠缺,所以数据库系统中新建有配体、受体、蛋白质、药物、对接点、蛋白质-配体化合物等实体表及其关系表,用于展示每个实体的具体属性和实体之间的关系。

数据库系统涵盖了完整的数据集,数据集包括可直接进行分子对接实验的数据集、分子对接结果数据集、分子对接计算辅助数据集。

可直接进行分子对接实验的数据集:包括受体、配体、蛋白质、药物、对接位点、口袋信息、蛋白质-配体化合物中的多种实体之间的关系及属性。数据库系统集成国际上公开免费的ZINC库和PDB库数据,集成pdb、Ligands的基础数据,在支持相关数据浏览下载的同时,用户还可以在此系统上直接利用现成的数据进行分子对接计算。Ligands数据来源于ZINC15数据集网站,ZINC库中1660余万Ligands配体小分子的数据、上千pdb数据、蛋白质信息、药物信息等数据。pdb数据来源于RCSB Protein Data Bank、药物和蛋白质数据来源于RCSB Protein Data Bank和其他该领域内权威的数据集网站。

分子对接结果数据集:分子对接结果集数据来自于分子对接实验,这部分数据集成了ledock和薛定谔的分子对接过程中得到的实验数据,其中包含了1660余万海洋小分子及上千pdb的对接数据,除了收录分子对接产生的所有dok文件外,还在关系型数据库中存储了结果文件中具体打分,例如:docking score、mmgbsa等等,这种形式的对接结果数据的存储和展示有利于用户进行小分子筛选。还有一部分是经前台上传并通过审核的分子对接数据。

分子对接计算辅助数据集:分子对接辅助计算数据主要有分子对接ledock的准备文件dock.in和薛定谔计算过程需要的格点文件、蛋白质信息、药物信息等等。

如图1所示,交互式前台用于对整个分子对接计算过程进行交互式管理,集成对接计算的数据选择、计算任务提交、对接计算、查看计算节点、分配计算核心、删除计算任务、查看任务进程、计算任务纠错检验、失败任务重新提交、结果文件筛选以及对接数据、结果数据的三维可视化。

交互式前台包括主页、Ligands配体信息模块、pdb受体信息模块、results结果数据集模块、在线数据共享模块、在线分子对接计算模块、数据库简介模块,主页主要展示新闻动态及相关信息,例如:最新的科研成果展示、新闻等;数据库简介模块主要是软件介绍。前台采用UI框架easyUI,通过该前台框架对数据库系统进行规范化处理。在实际的数据库系统开发过程中,对前台数据的显示进行了优化:优化了后端数据的获取的相关代码,按照用户实际需求返回json数据,提高了千万级别数据的显示速度,解决了大数据量下卡顿的问题。

(1)Ligands配体信息模块集成了1660余万ZINC小分子的详细数据,支持配体小分子信息的条件查询、检索、查看、下载等操作;

(2)pdb受体信息模块展示了数千受体的详细数据,例如:发现年代、二维结构、三维立体结构、类型、所述蛋白质、相关药物信息等,受体模块支持受体条件查询、查看、下载等操作;

(3)results结果数据集模块涵盖了对接过程中产生的一系列打分数据,其中包含ledock软件的分子对接结果,该软件产生的筛选数据归类为“初筛”数据,其中还包括薛定谔分子对接计算的实验数据,相关数据被划分为“精筛”数据。支持对接结果查询、对接结果三维显示等,用户可以根据检索条件进行精确地分子对接数据检索,检索条件有“筛选阶段、pdbid、ZINCID”,通过这样的方式检索可以实现分子对接数据的精确查找。

(4)在线数据共享模块主要是方便科研人员上传分子对接实验的数据,科研人员依照特定的文件格式或填写规定格式的Excel文档,将自己的实验数据上传,数据库系统的管理人员在相关专家审核上传数据无误之后,可以将上传数据存入数据库,并按照数据共享人的要求对数据进行公示。在线数据共享模块还支持配体小分子mol2文件下载、蛋白质构象pdb文件下载、对接结果dok文件下载。

(5)在线分子对接计算模块提供给科研人员一套在线进行分子对接实验的工具,包括数据预处理工具、在线提交计算任务工具和资源管理工具,数据预处理工具包括文件格式转换工具,用于不同格式文件的相互转换;所述在线提交计算任务工具用于将处理好的数据保存到数据集中,并分配具体的节点进行分子对接计算;资源管理工具是对超算计算资源的自动分配利用,原则上是资源平均分配、负载均衡、支持指定计算核心,在自动分配节点的基础上用户可指定节点资源进行计算,并且通过网站可以直接启动对对接计算过程的管理,可用于查看计算资源占有情况,进行提交、查看、删除任务进程等交互式管理操作。科研人员按照规定格式处理好配体和受体的数据之后(也可以直接使用数据库系统提供的数据)可以根据自己的实际需求,运用ledock_go、ledock_pro、薛定谔在线进行分子对接实验。数据库系统用户需要先行获取相关权限才能在线提交分子对接计算任务。用户可以查看分子对接进度。

前台还设有用于对接前后晶体状态动态显示的可视化模块,有小分子二维结构显示、小分子三维结构显示、蛋白质构象二维结构显示、蛋白质构象三维结构显示、对接结果三维显示等。

二、数据库系统建立方法

前述的数据库系统的建立步骤包括:

a.数据库底层搭建:数据库底层采用关系型数据库MySQL,关系型数据库在整体的数据库系统中负责构建实体以及实体之间的关系、存储实体的具体属性,新建实体表及其关系表,用于展示每个实体的具体属性和实体之间的关系。在关系型数据库系统中主要有Ligands、Protein、pdb、results、medicine、pocket等实体,分别表示配体小分子、蛋白质、受体pdb构想、分子对接结果、药物、分子对接口袋实体。

Ligands是配体小分子的信息,实体中包含氢键、旋转能、范德华力、可购买性等等属性信息;pdb描述靶点实体,该数据库表中涉及pdb年代、构想、pdb格式的文件等属性信息;results实体中主要包含分子对接结果数据,其中主要包含初筛和精筛两种打分数据;protein实体中存储了蛋白质的相关信息,这些数据用于辅助计算,数据库系统的用户在查阅pdb的数据时可以找到相应的蛋白质数据,蛋白质实体数据表中包含种类、年份、组织机构、晶体结构等数据;medicine实体涉及到的数据表主要包含一些药物的信息,药物的种类、研发组织机构、成药年份、药效描述等等;

为了完善数据库实体之间的逻辑结构,数据库中创建了m_protein_medicine多对多逻辑关系表,该数据表用于实现蛋白质和药物之间的对应关系。

b.基于SSM框架的Web后台框架的搭建:SSM框架分层设计实现解耦,分为五层,包括DAOImpl、DAO、ServiceImpl、Service和Action层。分层设计的主要目的是实现解耦,一个高内聚、低耦合的结构有利于项目的优化,在面对项目需求变更时,解耦的设计更加高效。DAO和Service层是接口层,主要用于传递参数、实现解耦。ServiceImpl和DAOImpl是业务逻辑实现层,DAOImpl更是与SSM框架底层进行数据交互,DAOImpl层实现的sql优化可以较大复读的提高系统的整体性能。Action层在集成Service接口层的基础上,负责实现具体的业务逻辑,Action层实现数据同前台UI的数据交互工作。

c.面向用户的交互式前台的搭建:包括主页、Ligands配体信息模块、pdb受体信息模块、results结果数据集模块、在线数据共享模块、在线分子对接计算模块、数据库简介模块。d.面向分子对接全过程的数据获取:数据库系统存储的数据包括国际上公开免费的ZINC库和PDB库数据、分子对接实验结果数据、分子对接计算辅助数据。

e.数据的录入:数据库系统涉及千万级别数据的录入、检索等工作,其中Ligands数据就有1660余万之多,每一个pdb格式的受体都与1660余万配体小分子docking对接产生的1660余万dok文件。总体上,数据库系统包含的数据的量级已经达到几十TB的规模,在这种情况下,将海量数据规范化处理并有条不紊的录入数据库系统无疑是一项挑战。在实际的数据规范化处理和录入过程中,将数据批量格式化,并进行批量数据的存储,例如:批量读取系统文件并存储到数据库的程序、数据格式化预处理程序等。

在批量数据录入的过程中,存在关系型数据库存储千万级别数据量时检索速度极慢等问题。面对千万级别的记录数,为了提高检索速度,在数据库中特定字段添加索引以提高检索速度,并通过分字段、分表等形式来优化数据库。

三、药物虚拟筛选方法

前述的交互式数据库系统面向分子对接过程提供了准备文件、数据预处理工具、在线提交计算任务工具等一整套辅助分子对接计算工具。

(1)分子对接准备文件:指经过处理含有受体三维数据信息的pdb文件和标记有pocket对接点信息的dock.in文件,配体小分子mol2和sdf格式的文件,支持薛定谔计算的pdb及格点文件等。分子对接准备文件可以直接应用于ledock和薛定谔两款软件进行分子对接计算。这种现有的分子对接准备文件给对接计算提供了便利,加快了分子对接计算的进度。

(2)数据预处理工具:在实际分子对接计算中往往需要各种格式的文件,例如:配体小分子具备mol2和sdf等格式。数据库系统提供了文件格式转换工具,该工具支持mol2、sdf等数据格式间的相互转换。

(3)在线提交计算任务工具:在药物虚拟筛选过程中,需要将处理好的数据提交到数据集群中,并分配具体的节点进行分子对接计算。这一计算过程需要一系列的辅助计算工具。例如,文件资源分配工具、计算资源分配工具、对接结果校验工具、对接结果筛选工具等。主要通过VPN技术在拥有权限的情况下远程连接青岛海洋科学与技术国家实验室的超级计算机,通过提前提供的API接口,利用shell、python等脚本完成针对超算Linux系统的查看计算节点、分配计算核心、数据查询准备、选择对接计算的数据、计算任务提交、对接计算、删除计算任务、查看任务进程、计算任务纠错检验、失败任务重新提交、对接结果查看、筛选对接结果,完成在线分子对接计算过程。

如图2所示,利用前述数据库系统进行的药物虚拟筛选方法,包括以下步骤:

step1.受体模型的建立

首先从数据集提取蛋白质信息建立受体模型,包括大分子结构和结合位点信息;对蛋白质靶标结构预处理;

预处理过程如下:

(1)蛋白的pdb格式文件预处理

查看蛋白是否有配体,存在多个分子时,需要分辨该分子是否为配体;

(2)查看蛋白是否有突变

蛋白的突变分为病理性突变和非病理性突变,可以在PDB中查看;

(3)检查氨基酸残基是否有残缺;

(4)去除晶体中的水分子,除非有文献报道证明水分子必须保留,去除配体杂原子;

(5)保留蛋白与蛋白工作需要的辅因子;

(6)定义结合口袋位点。

step2.生成小分子数据集

分子对接前,将从数据集中提取的已被转化为二维的配体分子数据通过结构转化程序转化为三维结构,然后对生成的三维结构加入氢原子和电荷,完成一个用于对接的三维小分子数据集;

step3.分子对接和打分

将生成的小分子数据集中的所有分子放到受体的结合位点处来模拟结合作用,预测受体和配体生成的复合物的构象;在分子对接计算时,先将配体和受体的数据通过ledock_pro和ledock_go打分函数进行初筛,得到初筛的结果集数据;然后,再用薛定谔对初筛得到的结果集数据再进行一次分子对接计算,这一过程称为精筛;最后,从精筛的结果集数据筛选出得分高的、对接结果好的结果信息:即筛选出对接计算打分符合吉布斯自由能分数小于-8且吉布斯自由能与重原子个数的比值小于-0.3的结果,得到对于某一特定受体活性最高、最易成药的小分子。这种结合多种对接方法进行分子对接计算的虚拟筛选方法提高了筛选小分子的准确性,避免了由于单个软件计算不精确导致的筛选错误。

step4.命中化合物的后处理

将选出的得分高的结果信息整合保存到数据库。

1600万ZINC小分子与多个靶标结构选取与处理完成的蛋白质构象进行分子对接,每个蛋白质生成1600万个打分结果文件,鉴于分子对接计算的时间复杂性,本专利将每个蛋白质构象与全部小分子的对接计算分到超级计算机的2500个计算核心上并行进行计算。并行后的时间:ledock_pro函数的计算时间提高到3天左右,ledock_go的计算时间2天左右,效率提高2500倍,实现了蛋白质构象对大规模小分子库的虚拟筛选。

当然,上述说明并非是对本发明的限制,本发明也并不限于上述举例,本技术领域的普通技术人员,在本发明的实质范围内,做出的变化、改型、添加或替换,都应属于本发明的保护范围。

14页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于边界元法的单层碳纤维增强塑料电导率模型构建方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!