一种基于自适应调节的蛋白质构象空间采样方法

文档序号:88114 发布日期:2021-10-08 浏览:27次 >En<

阅读说明:本技术 一种基于自适应调节的蛋白质构象空间采样方法 (Protein conformation space sampling method based on self-adaptive adjustment ) 是由 张贵军 裘诚 赵凯龙 刘俊 宋涛 徐嘉康 于 2021-07-26 设计创作,主要内容包括:一种基于自适应调节的蛋白质构象空间采样方法,初始化后的种群经过不断的片段组装,获得不同小生境内的子种群;小生境内部的交叉选择使种群向局部极值点收敛,而小生境与小生境之间的交叉选择使种群维持多样性;在此基础上通过计算种群个体之间的多样性大小设计了一个Pcc系数,自动判定进行小生境内部交叉操作或者小生境外部交叉操作;在种群多样性减少明显的情况下增加进入小生境外部交叉的概率来增加种群的多样性,以此来逐步形成自适应调节下的小生境内外交叉环境,既能保持种群多样性又能兼顾收敛速度;而随后的增强阶段设计了一个Pdd指标旨在避免增强过程中小生境分布过于聚集,从而扩大采样的空间,提高采样到较低能量盆地下构象的概率。(A protein conformation space sampling method based on self-adaptive regulation is characterized in that initialized populations are subjected to continuous fragment assembly to obtain sub-populations in different niches; the cross selection in the niche enables the population to converge towards a local extreme point, and the cross selection between the niche and the niche enables the population to maintain diversity; on the basis, an Pcc coefficient is designed by calculating the diversity size among population individuals, and the internal cross operation of the niche or the external cross operation of the niche is automatically judged; under the condition that the population diversity is obviously reduced, the probability of entering the external crossing of the niche is increased to increase the diversity of the population, so that the internal and external crossing environments of the niche under the self-adaptive regulation are gradually formed, the population diversity can be kept, and the convergence speed can be taken into consideration; and an Pdd index is designed in the subsequent enhancement stage, aiming at avoiding the situation that the distribution of the niche is excessively gathered in the enhancement process, thereby enlarging the sampling space and improving the probability of sampling to the underground conformation of the basin with lower energy.)

一种基于自适应调节的蛋白质构象空间采样方法

技术领域

本发明涉及生物信息学、计算机应用领域,尤其涉及的是一种基于自适应调节采样的蛋白质构象空间采样方法。

背景技术

蛋白质结构预测是目前生物信息学研究中的重要组成单元。蛋白质因其具有特定的结构而执行具体的生命功能,是遗传信息的执行者。某种程度上说是蛋白质是最重要的一类生物大分子。通常情况下,蛋白质以紧密的三维结构形式存在,而且特定的蛋白质行使其功能通常由其三维结构决定。在医学领域,基于蛋白质三维结构的特征信息可以帮助寻找致病机理,指导合成和筛选药物。因此,确定蛋白质三维结构成为生物领域的重要课题,而且在基因数据快速增加,而传统结构解析成本高昂、效率低的情况下,这项研究显得尤为重要。

在蛋白质结构预测中,蛋白质的稳定天然态结构对应全局能量最小值,而通常被选取用来指导蛋白质折叠的力场模型并不能很好避免噪声,导致算法所预测的全局最稳定构象并不一定对应实际最优构象。因此需要设计一种采样算法,能够尽可能地得到更多样的局部稳定模型。

在用传统遗传算法预测蛋白质结构时,往往得到的是局部亚稳态结构。主要原因是因为种群的多样性丧失的较快,无法采样到更好的低能量盆地下的构象。因此,在蛋白质结构预测上如何维持足够的多样性且兼顾收敛速度方面需要改进。

发明内容

为了克服现有蛋白质结构预测方法在维持种群多样性且兼顾收敛速度上的不足,本发明提出一种基于自适应调节的蛋白质构象空间采样方法,初始化后的种群经过不断的片段组装,获得不同小生境内的子种群;小生境内部的交叉选择使种群向局部极值点收敛,而小生境与小生境之间的交叉选择使种群维持多样性;在此基础上通过计算种群个体之间的多样性大小设计了一个Pcc系数,自动判定进行小生境内部交叉操作或者小生境外部交叉操作;在种群多样性减少明显的情况下增加进入小生境外部交叉的概率来增加种群的多样性,以此来逐步形成自适应调节下的小生境内外交叉环境,既能保持种群多样性又能兼顾收敛速度;而随后的增强阶段设计了一个Pdd指标旨在避免增强过程中小生境分布过于聚集,从而扩大采样的空间,提高采样到较低能量盆地下构象的概率。

本发明解决其技术问题所采用的技术方案是:

一种基于自适应调节的蛋白质构象空间采样方法,所述方法包括以下步骤:

1)输入预测蛋白质的序列信息,读取序列长度L;

2)设置参数:种群规模N,迭代次数G1、G2,聚类个数K,变异算子F;

3)初始化种群:通过9片段组装生成具有N个个体的初始种群P={P1,P2,...,PN};

4)进行聚类操作,过程如下:

4.1)按如下公式计算种群P中两两个体之间的相似度:

分别表示个体Pi和Pj中第k个Cα原子的三维坐标,L为结构的序列长度,RMSD越小表示两个个体越相似;

4.2)把两个个体之间的相似度分数作为两个体之间的距离,运用K-中心聚类算法将种群聚为K个类,类中心记作Ck,k∈{1,2,...K};

5)设g1=1,g1∈{1,2,...,G1};

6)以种群多样性为基础,计算Pcc值大小,公式如下:

其中为多样性调节系数,Dr表示多样性阈值,D则表示种群的多样性大小,计算公式如下:

其中N表示种群数量,Pi和Pj分别代表种群中第i个构象和第j个构象;

7)根据公式(3)计算出的种群多样性,另外产生随机数r∈(0,1),根据r值与Pcc值大小来进行境内交叉和境外交叉,过程如下:

7.1)若r>Pcc,则进入境内交叉,过程如下:

对于目标个体Pi,随机选择两个互不相同且与Pi来自同一个境内的个体Prand1、Prand2,在[1,L-8]内生成两个不同的随机整数w1和w2;将Pi的第w1至w1+8号残基以及第w2至w2+8号残基的二面角值分别替换成Prand1和Prand2对应残基的二面角值,形成交叉后的个体并用Rosetta score3能量函数计算目标个体Pi所属境内所有个体的能量值,找到能量值最高的个体,若的能量值更低,则替换掉该个体,并更新该小生境的中心点;

7.2)若r≤Pcc,则进入境外交叉,过程如下:

对于目标个体Pi,随机选择两个互不相同且与个体Pi来自不同境内的个体Prand1、Prand2,在[1,L-8]内生成两个不同的随机整数w1和w2;将Pi的第w1至w1+8号残基以及第w2至w2+8号残基的二面角值分别替换成Prand1和Prand2对应残基的二面角值,形成交叉后的个体计算个体与所有小生境中心个体的距离,找到与个体最近的中心个体所对应的小生境,并计算其境内个体与之间的距离,找到最相似个体,如果的能量值更低,则替换掉该相似个体,并更新该小生境的中心点;

8)g1=g1+1;若g1≤G1,转至步骤6);

9)设g2=1,g2∈{1,2,...,G2};

10)按照步骤4)的方式对所有个体再次进行种群划分,聚为K个类作为小生境进行境内增强操作,包括交叉、变异和选择操作,过程如下:

10.1)交叉操作:对于每一个目标个体Pi,随机选择两个互不相同且来自同一个小生境的个体Prand1、Prand2,在[1,L-2]内生成两个不同的随机整数w1和w2;将Pi的第w1至w1+2号残基以及第w2至w2+2号残基的二面角值分别替换成Prand1和Prand2对应残基的二面角值,形成交叉后的个体P′;

10.2)变异操作:对于交叉操作后的个体P′,随机选择两个互不相同且来自同一个境内的个体Pr1、Pr2,按如下方式生成变异后的个体P″:

其中φP″、ωP″分别对应个体P″的三个二面角的值, 表示随机个体Pr1的三个二面角值,表示随机个体Pr2的三个二面角的值,F为变异算子;

10.3)选择操作:利用贪婪选择的策略,计算交叉变异后的个体P″与境内所有个体能量值,若P″个体的能量值小于境内能量值最高的个体,则用P″个体替换此个体,并更新中心点,随后计算小生境多样性指标Pdd值大小,公式如下:

Pdd=1-Di+D0 (5)

其中Di表示境内个体平均距离,公式如下:

其中N表示此小生境个体数,Pm、Pn表示此小生境中的不同个体;

D0表示每个小生境中心点之间的平均距离,公式如下:

其中K表示小生境的个数,Pi、Pj表示不同小生境的中心个体;若更新之后的种群Pdd值增大,则继续步骤10.4),否侧恢复替换前的种群;

10.4)g2=g2+1;若g2≤G2,转至步骤10.1);

11)按照步骤4)的方式对所有个体再次进行种群划分,聚为K个类,输出每个类的类中心点作为最终预测结果。

本发明的有益效果为:通过多样性大小自适应调节境内交叉和境外交叉的比重,提高了算法的全局搜索能力,既能够加快算法收敛,又能保持种群个体的多样性,而随后的增强阶段通过小生境多样性指标Pdd配合采样,避免小生境过分聚集,使最终采样结果趋于分散,从而提高预测精度。

附图说明

图1是一种基于自适应调节的蛋白质构象空间采样方法对蛋白质1BGF_A进行结构预测得到的三维结构图。

图2是一种基于自适应调节的蛋白质构象空间采样方法流程图。

具体实施方式

下面结合附图对本发明作进一步描述。

参照图1和图2,一种基于自适应调节的蛋白质构象空间采样方法,包括以下步骤:

1)输入预测蛋白质的结序列信息,读取序列长度L;

2)设置参数:种群规模N,迭代次数G1、G2,聚类集合个数K,变异算子F;

3)初始化种群:通过9片段组装,生成具有N个个体的初始种群P={P1,P2,...,PN};

4)进行聚类操作,过程如下:

4.1)按如下公式计算种群P中两两个体之间的相似度:

分别表示个体Pi和Pj中第k个Cα原子的三维坐标,L为结构的序列长度,RMSD越小表示两个个体越相似;

4.2)把两个个体之间的相似度分数作为两个体之间的距离,运用K-中心聚类算法将种群聚为K个类,类中心记作Ck,k∈{1,2,...K};

5)设g1=1,g1∈{1,2,...,G1};

6)以种群多样性为基础,计算Pcc值大小,公式如下:

其中为多样性调节系数,Dr表示多样性阈值,D则表示种群的多样性大小,计算公式如下:

其中N表示种群数量,Pi和Pj分别代表种群中第i个构象和第j个构象;

7)根据公式(3)计算出的种群多样性,另产生随机数r∈(0,1),根据r值与Pcc值大小来进行境内交叉和境外交叉,过程如下:

7.1)若r>Pcc,则进入境内交叉,过程如下:

对于目标个体Pi,随机选择两个互不相同且与Pi来自同一个境内的个体Prand1、Prand2,在[1,L-8]内生成两个不同的随机整数w1和w2;将Pi的第w1至w1+8号残基以及第w2至w2+8号残基的二面角值分别替换成Prand1和Prand2对应残基的二面角值,形成交叉后的个体并用Rosetta score3能量函数计算目标个体Pi所属境内所有个体的能量值,找到能量值最高的个体,若的能量值更低,则替换掉该个体,并更新该小生境的中心点;

7.2)若r≤Pcc,则进入境外交叉,过程如下:

对于目标个体Pi,随机选择两个互不相同且与个体Pi来自不同境内的个体Prand1、Prand2,在[1,L-8]内生成两个不同的随机整数w1和w2;将Pi的第w1至w1+8号残基以及第w2至w2+8号残基的二面角值分别替换成Prand1和Prand2对应残基的二面角值,形成交叉后的个体计算个体与所有小生境中心个体的距离,找到与个体最近的中心个体所对应的小生境,并计算其境内个体与之间的距离,找到最相似个体,如果的能量值更低,则替换掉该相似个体,并更新该小生境的中心点;

8)g1=g1+1;若g1≤G1,转至步骤6);

9)设g2=1,g2∈{1,2,...,G2};

10)按照步骤4)的方式对所有个体再次进行种群划分,聚为K个类作为小生境进行境内增强操作,包括交叉、变异和选择操作,过程如下:

10.1)交叉操作:对于每一个目标个体Pi,随机选择两个互不相同且来自同一个小生境的个体Prand1、Prand2,在[1,L-2]内生成两个不同的随机整数w1和w2;将Pi的第w1至w1+2号残基以及第w2至w2+2号残基的二面角值分别替换成Prand1和Prand2对应残基的二面角值,形成交叉后的个体P′;

10.2)变异操作:对于交叉操作后的个体P′,随机选择两个互不相同且来自同一个境内的个体Pr1、Pr2,按如下方式生成变异后的个体P″:

其中φP″、ωP″分别对应个体P″的三个二面角的值, 表示随机个体Pr1的三个二面角值,表示随机个体Pr2的三个二面角的值,F为变异算子;

10.3)选择操作:利用贪婪选择的策略,计算交叉变异后的个体P″与境内所有个体能量值,若P″个体的能量值小于境内能量值最高的个体,则用P″个体替换此个体,并更新中心点,随后计算小生境多样性指标Pdd值大小,公式如下:

Pdd=1-Di+D0 (5)

其中Di表示境内个体平均距离,公式如下:

其中N表示此小生境个体数,Pm、Pn表示此小生境中的不同个体;

D0表示每个小生境中心点之间的平均距离,公式如下:

其中K表示小生境的个数,Pi、Pj表示不同小生境的中心个体;若更新之后的种群Pdd值增大,则继续步骤10.4),否侧恢复替换前的种群;

10.4)g2=g2+1;若g2≤G2,转至步骤10.1);

11)按照步骤4)的方式对所有个体再次进行种群划分,聚为K个类,输出每个类的类中心点作为最终预测结果。

本实施例以序列长度为124的蛋白质1BGF_A为实施例,一种基于自适应采样的蛋白质构象空间采样方法,包括以下步骤:

1)输入蛋白质1BGF_A的序列信息,读取序列长度L=124;

2)设置参数:种群规模N=200,迭代次数G1=200、G2=80,聚类集合个数K=5,变异算子F=0.5;

3)初始化种群:通过9片段组装,生成具有N个个体的初始种群P={P1,P2,...,PN};

4)进行聚类操作,过程如下:

4.1)按如下公式计算种群P中两两个体之间的相似度:

分别表示个体Pi和Pj中第k个Cα原子的三维坐标,L为结构的序列长度,RMSD越小表示两个个体越相似;

4.2)把两个个体之间的相似度分数作为两个体之间的距离,运用K-中心聚类算法将种群聚为K个类,类中心记作Ck,k∈{1,2,...K};

5)设g1=1,g1∈{1,2,...,G1};

6)以种群多样性为基础,计算Pcc值大小,公式如下:

其中为多样性调节系数,Dr表示多样性阈值,D则表示种群的多样性大小,计算公式如下:

其中N表示种群数量,Pi和Pj分别代表种群中第i个构象和第j个构象;

7)根据公式(2)计算出的种群多样性,取Dr=0.4、另产生随机数r∈(0,1),根据r值与Pcc值大小来进行境内和境外交叉,过程如下:

7.1)若r>Pcc,则进入境内交叉,过程如下;

对于目标个体Pi,随机选择两个互不相同且与Pi来自同一个境内的个体Prand1、Prand2,在[1,L-8]内生成两个不同的随机整数w1和w2;将Pi的第w1至w1+8号残基以及第w2至w2+8号残基的二面角值分别替换成Prand1和Prand2对应残基的二面角值,形成交叉后的个体并用Rosetta score3能量函数计算目标个体Pi所属境内所有个体的能量值,找到能量值最高的个体,若的能量值更低,则替换掉该个体,并更新该小生境的中心点;

7.2)若r≤Pcc,则进入境外交叉,过程如下:

对于目标个体Pi,随机选择两个互不相同且与个体Pi来自不同境内的个体Prand1、Prand2,在[1,L-8]内生成两个不同的随机整数w1和w2;将Pi的第w1至w1+8号残基以及第w2至w2+8号残基的二面角值分别替换成Prand1和Prand2对应残基的二面角值,形成交叉后的个体计算个体与所有小生境中心个体的距离,找到与个体最近的中心个体所对应的小生境,并计算其境内个体与之间的距离,找到最相似个体,如果的能量值更低,则替换掉该相似个体,并更新该小生境的中心点;

8)g1=g1+1;若g1≤G1,转至步骤6);

9)设g2=1,g2∈{1,2,...,G2};

10)按照步骤4)的方式对所有个体再次进行种群划分,聚为K个类作为小生境进行境内增强操作,包括交叉、变异和选择操作,过程如下:

10.1)交叉操作:对于每一个目标个体Pi,随机选择两个互不相同且来自同一个小生境的个体Prand1、Prand2,在[1,L-2]内生成两个不同的随机整数w1和w2;将Pi的第w1至w1+2号残基以及第w2至w2+2号残基的二面角值分别替换成Prand1和Prand2对应残基的二面角值,形成交叉后的个体P′;

10.2)变异操作:对于交叉操作后的个体P′,随机选择两个互不相同且来自同一个境内的个体Pr1、Pr2,按如下方式生成变异后的个体P″:

其中φP″、ωP″分别对应个体P″的三个二面角的值, 表示随机个体Pr1的三个二面角值,表示随机个体Pr2的三个二面角的值,F为变异算子;

10.3)选择操作:利用贪婪选择的策略,计算交叉变异后的个体P″与境内所有个体能量值,若P″个体的能量值小于境内能量值最高的个体,则用P″个体替换此个体,并更新中心点,随后计算小生境多样性指标Pdd值大小,公式如下:

Pdd=1-Di+D0 (5)

其中Di表示境内个体平均距离,公式如下:

其中N表示此小生境个体数,Pm、Pn表示此小生境中的不同个体;

D0表示每个小生境中心点之间的平均距离,公式如下:

其中K表示小生境的个数,Pi、Pj表示不同小生境的中心个体;若更新之后的种群Pdd值增大,则继续步骤10.4),否侧恢复替换前的种群;

10.4)g2=g2+1;若g2≤G2,转至步骤10.1);

11)按照步骤4)的方式对所有个体再次进行种群划分,聚为K个类,输出每个类的类中心点作为最终预测结果。

以氨基酸序列长度为124的蛋白质1BGF_A为实施例,运用以上方法得到了该蛋白质在五个小生境中的多样化模型,预测的蛋白质的均方根偏差分别为预测结构如图1所示。

以上阐述的是本发明给出的一个实施例表现出来的优良效果,显然本发明不仅适合上述实施例,在不偏离本发明基本精神及不超出本发明实质内容所涉及内容的前提下可对其做种种变化加以实施。

12页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:电化学-热耦合模型和基于模型的大容量锂电池仿真方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!