一种基于蛋白质序列比对的分子虚拟筛选方法

文档序号:570134 发布日期:2021-05-18 浏览:30次 >En<

阅读说明:本技术 一种基于蛋白质序列比对的分子虚拟筛选方法 (Molecular virtual screening method based on protein sequence comparison ) 是由 胡俊 郑琳琳 董世建 白岩松 樊学强 张贵军 于 2020-12-16 设计创作,主要内容包括:一种基于蛋白质序列比对的分子虚拟筛选方法,根据输入的待进行分子筛选的蛋白质序列,使用HHblits程序获取蛋白质的多序列联配信息;计算待预测的蛋白质序列和多序列联配信息对应位置出现相同残基的频率PSFM;使用同样的方法,生成蛋白质-配体相互作用数据库BioLiP中每条蛋白质序列的PSFM;计算待预测蛋白质与BioLiP中每条蛋白质的残基对齐得分与相似度匹配质量,根据匹配质量得分取得潜在种子分子集;计算分子数据库中每个分子与种子分子集中的所有分子的二维指纹图谱值之和,根据得分对DrugBank中所有分子进行排序,取得分靠前的x·N-(DrugBank)个分子为待分子筛选蛋白质序列的分子筛选集。本发明可用于任何筛选场景。(A virtual molecular screening method based on protein sequence alignment comprises the steps of obtaining multiple-sequence association information of proteins by using an HHblits program according to input protein sequences to be subjected to molecular screening; calculating the frequency PSFM of the same residue appearing at the corresponding position of the protein sequence to be predicted and the multi-sequence matching information; using the same method, PSFM of each protein sequence in the protein-ligand interaction database BioLiP was generated; calculating residue alignment scores and similarity matching quality of the protein to be predicted and each protein in the BioLiP, and obtaining a potential seed score set according to the matching quality scores; calculating the sum of two-dimensional fingerprint values of each molecule in the molecule database and all the molecules in the seed molecule set, sequencing all the molecules in the drug Bank according to the scores, and acquiring the x.N in the front of the scores DrugBank Each molecule is a molecular sieve collection of a protein sequence to be screened. The invention can be used in any screening scenario.)

一种基于蛋白质序列比对的分子虚拟筛选方法

技术领域

本发明涉及生物信息学与计算机应用领域,具体而言涉及一种基于蛋白质序列比对的分子虚拟筛选方法。

背景技术

识别与给定蛋白质进行相互作用并适当修改其生物学行为的先导分子是药学研究中面临的基本挑战。虚拟筛选方法通过利用计算机上的分子对接软件模拟目标靶点与候选药物之间的相互作用,计算两者之间的亲和力大小,以降低实际筛选化合物数目,同时提高先导化合物发现效率。因此,提出一种快速准确的虚拟筛选方法对于药物分子的设计与研发具有重要的指导意义。

调研文献发现,已有很多虚拟筛选的方法被提出,如:LncLocator(Cao Zhen,PanXiaoyong,Yang Yang,Huang Yan,Shen Hong-Bin.The lncLocator:a subcellularlocalization predictor for long non-coding RNAs based on a stacked ensembleclassifier.Bioinformatics,2018,34(13):2185-2194.即:Cao Zhen,Pan Xiaoyong,YangYang,Huang Yan,Shen Hong-Bin.The lncLocator:基于堆叠集成分类器的长非编码RNA的亚细胞定位预测因子.生物信息学,2018,34(13):2185-2194)、AutoDock Vina(TrottOleg,Olson Arthur J.AutoDock Vina:Improving the speed and accuracy of dockingwith a new scoring function,efficient optimization,and multithreading.Journalof Computational Chemistry,2010.31(2):455-461.即:Trott Oleg,Olson ArthurJ.AutoDock Vina:通过新的记分函数、高效优化和多线程处理提高对接的速度和精度.计算化学杂志,2010.31(2):455-461)等。尽管已有的方法可以用于药物分子的虚拟筛选,但是普遍需要知道给定蛋白质的三维结构或者已知至少一种结合分子,所以在没有蛋白质的三维结构或者结合分子未知的情况下,现有虚拟筛选方法不能很好的工作。

综上所述,已有的分子虚拟筛选方法在筛选场景、筛选效果两个方面距离实际应用的要求还有很大差距,迫切地需要改进。

发明内容

为了克服已有的分子虚拟筛选方法在筛选场景、筛选效果两个方面的不足,本发明提出一种可用于任何筛选场景的基于蛋白质序列比对的分子虚拟筛选方法。

本发明解决其技术问题所采用的技术方案是:

一种基于蛋白质序列比对的分子虚拟筛选方法,所述方法包括以下步骤:

1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P;

2)对蛋白质序列P,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成一个包含M条序列的多序列联配信息,记作MSA;

3)对MSA文件,计算出大小为L×20的位置特异性频率矩阵,记作PSFM:

其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,L,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,表示MSA中第m条序列的第i个位置的残基类型,表示当与Resj相同时,则输出为1,否则输出为0;

4)对蛋白质-配体相互作用数据库BioLiP(http://biolip2018.chem.uoa.gr/)中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;

5)根据蛋白质序列P的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出P与T的相似矩阵,记作S:

其中,Si,j表示P中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,L,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;表示P的PSFM矩阵中第i行第k列的元素,表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,否则 表示P的第i个位置残基类型,表示T的第j个位置残基类型,为根据残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由P与T中残基组成的所有残基对对齐得分;

6)根据步骤5)获得的P与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出P中残基与T中残基的对齐信息,记作i=1,2,...,Lali,其中,Lali为P中残基与T中残基对齐的残基对数目,表示第i对残基对中P中的残基在P中的位置,表示第i对残基对中T中的残基在T中的位置;

7)计算蛋白质序列T与P的相似度匹配质量,记作QLBS

其中, 表示P中的第个残基与T中的第个残基对齐的得分;

8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列P的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作其中NTPD为TPD中的分子数目,为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子可以理解为能与P发生相互作用的潜在分子;

9)对TPD中的每个分子i=1,2,...,NTPD,使用OpenBabel软件(http://openbabel.org/wiki/Main_Page)生成一个包含1024个比特位的分子指纹其中,每一个比特位的值为0或1;

10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹其中NDrugBank为分子库DrugBank中分子总数;

11)计算TPD中的每个分子i=1,2,...,NTPD,的分子指纹和DrugBank中的每个分子j=1,2,...,NDrugBank,的分子指纹之间的相似值TaniCoeffi,j

其中,中第k个位置元素的值,中第k个位置元素的值,k=1,2,...,1024;

12)根据步骤11)计算得到所有值,计算DrugBank中每个分子可能与输入蛋白质序列P发生相互作用的概率值VSscoj

其中,TaniCoeffi,j表示TPD中的第i分子的分子指纹和DrugBank中的第j个分子的分子指纹之间的相似值;

13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的x·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,取值范围为0到1。

本发明的技术构思为:首先,根据输入的待进行分子筛选的蛋白质序列,使用HHblits程序获取蛋白质的多序列联配信息;然后,计算待预测的蛋白质序列和多序列联配信息对应位置出现相同残基的频率,记作PSFM;使用同样的方法,生成蛋白质-配体相互作用数据库BioLiP中每条蛋白质序列的PSFM;再次,计算待预测蛋白质与BioLiP中每条蛋白质的残基对齐得分与相似度匹配质量,根据匹配质量得分取得潜在种子分子集;最后,计算分子数据库中每个分子与种子分子集中的所有分子的二维指纹图谱值之和,根据得分对DrugBank中所有分子进行排序,取得分靠前的x·NDrugBank个分子为待分子筛选蛋白质序列的分子筛选集。本发明提出一种可用于任何筛选场景的基于蛋白质序列比对的分子虚拟筛选方法。

本发明的有益效果表现在:一方面,通过构建潜在种子分子集,避免了没有蛋白质的结构和分子结合物时,基于结构的虚拟筛选方法和基于配体的虚拟筛选方法无法工作的情况;另一方面,对分子库DrugBank中所有分子进行相似度评分与排序,考虑了更多未与蛋白质进行结合的分子,将有助于筛选潜在分子。

附图说明

图1为一种基于蛋白质序列对比的分子虚拟筛选方法的示意图。

图2为使用一种基于蛋白质序列对比的分子虚拟筛选方法对蛋白质5FQ9进行分子筛选的结果。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2,一种基于蛋白质序列对比的分子虚拟筛选方法,包括以下步骤:

1)输入一个残基数目为L的待进行分子筛选的蛋白质序列P;

2)对蛋白质序列P,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜索数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成一个包含M条序列的多序列联配信息,记作MSA;

3)对MSA文件,计算出大小为L×20的位置特异性频率矩阵,记作PSFM:

其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,L,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,表示MSA中第m条序列的第i个位置的残基类型,表示当与Resj相同时,则输出为1,否则输出为0;

4)对蛋白质-配体相互作用数据库BioLiP(http://biolip2018.chem.uoa.gr/)中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;

5)根据蛋白质序列P的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出P与T的相似矩阵,记作S:

其中,Si,j表示P中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,L,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;表示P的PSFM矩阵中第i行第k列的元素,表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,否则 表示P的第i个位置残基类型,表示T的第j个位置残基类型,为根据残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由P与T中残基组成的所有残基对对齐得分;

6)根据步骤5)获得的P与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出P中残基与T中残基的对齐信息,记作i=1,2,...,Lali,其中,Lali为P中残基与T中残基对齐的残基对数目,表示第i对残基对中P中的残基在P中的位置,表示第i对残基对中T中的残基在T中的位置;

7)计算蛋白质序列T与P的相似度匹配质量,记作QLBS

其中, 表示P中的第个残基与T中的第个残基对齐的得分;

8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列P的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作其中NTPD为TPD中的分子数目,为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子可以理解为能与P发生相互作用的潜在分子;

9)对TPD中的每个分子i=1,2,...,NTPD,使用OpenBabel软件(http://openbabel.org/wiki/Main_Page)生成一个包含1024个比特位的分子指纹其中,每一个比特位的值为0或1;

10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹其中NDrugBank为分子库DrugBank中分子总数;

11)计算TPD中的每个分子i=1,2,...,NTPD,的分子指纹和DrugBank中的每个分子j=1,2,...,NDrugBank,的分子指纹之间的相似值TaniCoeffi,j

其中,中第k个位置元素的值,中第k个位置元素的值,k=1,2,...,1024;

12)根据步骤11)计算得到所有值,计算DrugBank中每个分子可能与输入蛋白质序列P发生相互作用的概率值VSscoj

其中,TaniCoeffi,j表示TPD中的第i分子的分子指纹和DrugBank中的第j个分子的分子指纹之间的相似值;

13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的x·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,取值范围为0到1。

本实施例以蛋白质序列5FQ9的分子虚拟筛选为实施例,一种基于蛋白质序列对比的分子虚拟筛选方法,包括以下步骤:

1)输入一个残基数目为249的待进行分子筛选的蛋白质序列5FQ9;

2)对蛋白质序列5FQ9,使用HHblits(https://toolkit.tuebingen.mpg.de/#/hhblits)程序搜数据库UniRef90(ftp://ftp.uniprot.org/pub/databases/uniprot/uniref/uniref90/),生成一个包含381条序列的多序列联配信息,记作MSA;

3)对MSA文件,计算出大小为249×20的位置特异性频率矩阵,记作PSFM:

其中,PSFMi,j表示PSFM中第i行第j列元素,i=1,2,...,249,j=1,2,...,20,Resj表示20种残基(A、R、N、D、C、Q、E、G、H、I、L、K、M、F、P、S、T、W、Y、V)中第j种的残基类型,表示MSA中第m条序列的第i个位置的残基类型,表示当与Resj相同时,则输出为1,否则输出为0;

4)对蛋白质-配体相互作用数据库BioLiP(http://biolip2018.chem.uoa.gr/)中的每一条蛋白质序列按照步骤2)至步骤3)生成对应蛋白质的PSFM矩阵;

5)根据蛋白质序列5FQ9的PSFM矩阵与BioLiP库中每条蛋白质序列T的PSFM矩阵信息,计算出5FQ9与T的相似矩阵,记作S:

其中,Si,j表示5FQ9中的第i个残基与T中的第j个残基的对齐得分,i=1,2,...,249,j=1,2,...,LT,LT表示蛋白质序列T的残基数目;表示5FQ9的PSFM矩阵中第i行第k列的元素,表示T的PSFM矩阵中第j行第k列元素;当T的第j个残基为配体分子结合位点时,否则 表示5FQ9的第i个位置残基类型,表示T的第j个位置残基类型,为根据残基类型从BLOSUM62替换打分矩阵中查询的值;w1和w2为两个常数,分别对应的PSFM矩阵和配体位点所占的权重;计算由5FQ9与T中残基组成的所有残基对对齐得分;

6)根据步骤5)获得的5FQ9与T的相似矩阵,使用Needleman-Wunsch动态规划算法计算出5FQ9中残基与T中残基的对齐信息,记作i=1,2,...,Lali,其中,Lali为5FQ9中残基与T中残基对齐的残基对数目,表示第i对残基对中5FQ9中的残基在5FQ9中的位置,表示第i对残基对中T中的残基在T中的位置;

7)计算蛋白质序列T与5FQ9的相似度匹配质量,记作QLBS

其中, 表示5FQ9中的第个残基与T中的第个残基对齐的得分;

8)根据步骤5)至步骤7),计算BioLiP中每条蛋白质序列T与输入蛋白质序列5FQ9的相似度匹配质量QLBS,从BioLiP中选择所有QLBS≥0.5的蛋白质序列,并将BioLip中与这些蛋白质序列相互作用的配体小分子挑选出来组成分子集,记作其中NTPD为TPD中的分子数目,为TPD中第i个分子,i=1,2,...,NTPD;这里TPD中的每个分子可以理解为能与5FQ9发生相互作用的潜在分子;

9)对TPD中的每个分子i=1,2,...,NTPD,使用OpenBabel软件(http://openbabel.org/wiki/Main_Page)生成一个包含1024个比特位的分子指纹其中,每一个比特位的值为0或1;

10)对待筛选的分子库DrugBank(https://go.drugbank.com/)中的每个分子j=1,2,...,NDrugBank,亦使用OpenBabel软件生成一个包含1024个比特位的分子指纹其中NDrugBank为分子库DrugBank中分子总数;

11)计算TPD中的每个分子i=1,2,...,NTPD,的分子指纹和DrugBank中的每个分子j=1,2,...,NDrugBank,的分子指纹之间的相似值TaniCoeffi,j

其中,中第k个位置元素的值,中第k个位置元素的值,k=1,2,...,1024;

12)根据步骤11)计算得到所有值,计算DrugBank中每个分子可能与输入蛋白质序列5FQ9发生相互作用的概率值VSscoj

其中,TaniCoeffi,j表示TPD中的第i分子的分子指纹和DrugBank中的第j个分子的分子指纹之间的相似值;

13)根据VSscoj值,对DrugBank中的所有分子从高到低进行排序,取排序靠前的0.1·NDrugBank个分子作为最终的虚拟筛选结果返回;其中,x为需要从待筛选分子数据库DrugBank中的筛选比率,这里取0.1。

以蛋白质5FQ9的分子虚拟筛选为实施例,运用以上方法预测得到蛋白质5FQ9的分子虚拟筛选如图2所示。

以上说明是本发明以蛋白质5FQ9的分子虚拟筛选为实例所得出的预测结果,并非限定本发明的实施范围,在不偏离本发明基本内容所涉及范围的前提下对其做各种变形和改进,不应排除在本发明的保护范围之外。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:基于几何边界运算的分子动力学边界条件快速施加方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!