高热稳定性酶的蛋白序列生成方法、装置、介质和设备

文档序号:139174 发布日期:2021-10-22 浏览:28次 >En<

阅读说明:本技术 高热稳定性酶的蛋白序列生成方法、装置、介质和设备 (Method, device, medium and apparatus for generating protein sequence of high-thermal-stability enzyme ) 是由 罗小舟 余函 于 2021-06-29 设计创作,主要内容包括:本发明公开了一种高热稳定性酶的蛋白序列生成方法、装置、介质和设备。所述蛋白序列生成方法包括:获取训练样本,所述训练样本包括耐受温度大于预定值的特定类酶的蛋白序列数据;利用训练样本对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型;利用所述蛋白序列生成模型生成批量蛋白序列数据。本方法利用现有的耐受温度大于预定值的特定类酶的蛋白序列数据训练生成式对方模型,得到蛋白序列生成模型,可以批量生成高热稳定的特定类酶的序列,生成方法简单,仅从蛋白序列出发且在计算机上完成设计,并可进一步按相似性分布进行实验验证,结果可靠性更强且容易分析。(The invention discloses a method, a device, a medium and equipment for generating a protein sequence of a high-thermal-stability enzyme. The method for generating the protein sequence comprises the following steps: obtaining a training sample, wherein the training sample comprises protein sequence data of a specific enzyme class with a tolerance temperature larger than a preset value; training a pre-constructed generative confrontation network model by using a training sample to obtain a protein sequence generative model; generating a batch of protein sequence data using the protein sequence generation model. The method trains a generation type counterpart model by using the existing protein sequence data of the specific enzyme with the tolerance temperature higher than the preset value to obtain a protein sequence generation model, can generate the sequence of the specific enzyme with high thermal stability in batches, is simple, only starts from the protein sequence and finishes design on a computer, can further carry out experimental verification according to similarity distribution, has stronger result reliability and is easy to analyze.)

高热稳定性酶的蛋白序列生成方法、装置、介质和设备

技术领域

本发明属于生物医药技术领域,具体地讲,涉及一种高热稳定性酶的蛋白序列生成方法、蛋白序列生成装置、计算机可读存储介质、计算机设备。

背景技术

高热稳定性的酶在生物燃料、生物化工等领域有着极其重要的作用。传统的获取方法主要是通过从嗜热菌中进行分离,并通过实验验证、改进和优化后投入工业使用。但是传统的分离方法分离得到的酶数量有限,无法满足工业上特定场景上越来越丰富的需求,从头设计一些全新的高热稳定性的酶就变得尤为重要。目前的两类主流方法,一类是基于理性设计的方法,主要是通过结构化修饰进行改造,另一类则是基于定向进化的方法,但是这些改造的能力具有一定的局限性,获得的高热稳定性的酶数量有限。其中,基于理性设计的方法需要对酶结构等信息较为详细的了解,对已有的改造方法非常熟悉,改造过程较为复杂,同时很难批量生成;基于定向进化的方法通过建立随机突变库从中筛选对应的酶,但该方法成功率较低,且工作量巨大,很难批量进行生成。同时,两类方法都没有从理论的角度对序列进行系统性的比较分析。

因此,亟待开发一套能批量设计全新的高热稳定性的酶的方法。

发明内容

(一)本发明所要解决的技术问题

本发明解决的技术问题是:如何快速批量化地生成高热稳定性酶的蛋白序列。

(二)本发明所采用的技术方案

一种高热稳定性酶的蛋白序列生成方法,其特征在于,所述蛋白序列生成方法包括:

获取训练样本,所述训练样本包括耐受温度大于预定值的特定类酶的蛋白序列数据;

利用训练样本对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型;

利用所述蛋白序列生成模型生成批量蛋白序列数据。

所述生成式对抗网络模型包括生成器和判别器,所述利用训练样本对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型的具体方法包括:

将随机噪声输入到生成器,生成器输出生成数据,从所述训练样本中选取部分数据作为真实数据;

将所述生成数据和所述真实数据共同输入至所述判别器中,判别器输出判别结果;

根据判别结果调整所述生成器和所述判别器的网络参数,以完成一轮训练;

重复上述训练步骤直至满足预定训练条件,以获得所述蛋白序列生成模型。

优选地,获取训练样本的方法包括:

获取耐受温度大于预定值的各种微生物的蛋白组序列;

从所述蛋白组序列中确定与所述特定类酶处于同一类别下的目标酶,并提取出所述目标酶的目标蛋白序列;

利用序列聚类算法对所述目标蛋白序列进行聚类处理得到多个类簇的蛋白序列,选择类簇大于阈值的蛋白序列作为训练样本。

优选地,所述训练样本还包括与所述特定类酶处于同一类别下的初始样本酶的蛋白序列数据,在利用所述利用训练样本对预先构建好的生成式对抗网络模型进行训练之前,所述蛋白序列生成方法还包括:

利用所述初始样本酶的蛋白序列数据对生成式对抗网络模型进行预训练,获得所述预先构建好的生成式对抗网络模型。

优选地,所述特定类酶与所述初始样本酶均属于酶学委员会命名法中任一种第四层酶学编号下的酶。

优选地,所述蛋白序列生成方法还包括:

将所述批量蛋白序列数据中的每一条蛋白序列分别与所述部分蛋白序列数据进行比较,以确定每一条蛋白序列的相似度;

按照相似度从高至低顺序将各条蛋白序列进行排序,并划分为多个区间;

从每个区间中选取若干数量的蛋白序列,并根据选取的每种蛋白序列进行合成表达,生成对应的酶;

测定每种酶的溶解温度,并筛选出溶解温度大于或等于预定温度的酶所对应的蛋白序列,作为具有高热稳定性的新蛋白序列。

优选地,将所述批量蛋白序列数据中的每一条蛋白序列分别与所述部分蛋白序列数据进行比较,以确定每一条蛋白序列的相似度的方法包括:

分别计算每一条蛋白序列与所述部分蛋白序列数据中每条序列之间的相似度,获得一组相似度数据;

将所述一组相似度数据中的最大相似度作为所述每一条蛋白序列的相似度。

本申请还公开了一种高热稳定性酶的蛋白序列生成装置,所述蛋白序列生成装置包括:

样本获取单元,获取训练样本,所述训练样本包括耐受温度大于预定值的特定类酶的蛋白序列数据;

训练单元,用于利用训练样本对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型;

批量生成单元,用于利用所述蛋白序列生成模型生成批量蛋白序列数据。

本申请还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有高热稳定性酶的蛋白序列生成程序,所述高热稳定性酶的蛋白序列生成程序被处理器执行时实现上述的高热稳定性酶的蛋白序列生成方法。

本申请还公开了一种计算机设备,所述计算机设备包括计算机可读存储介质、处理器和存储在所述计算机可读存储介质中的高热稳定性酶的蛋白序列生成程序,所述高热稳定性酶的蛋白序列生成程序被处理器执行时实现上述的高热稳定性酶的蛋白序列生成方法。

(三)有益效果

本发明公开了一种高热稳定性酶的蛋白序列生成方法,相对于传统的生成方法,具有如下技术效果:

利用现有的耐受温度大于预定值的特定类酶的蛋白序列数据训练生成式对方模型,得到蛋白序列生成模型,可以批量生成高热稳定的特定类酶的序列,生成方法简单,仅从蛋白序列出发且在计算机上完成设计,并可进一步按相似性分布进行实验验证,结果可靠性更强且容易分析。

附图说明

图1为本发明的实施例一的高热稳定性酶的蛋白序列生成方法的流程图;

图2为本发明的实施例一的另一蛋白序列生成方法的另一流程图;

图3为本发明的实施例二的高热稳定性酶的蛋白序列生成方法的流程图;

图4为本发明的实施例三的高热稳定性酶的蛋白序列生成装置的示意图;

图5为本发明的实施例五的计算机设备示意图。

具体实施方式

为了使本发明的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本发明进一步详细说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。

在详细描述本申请的各个实施例之前,首先简单描述本申请的发明构思:现有的高热稳定性酶的设计方式,需要对酶结构等信息较为了解,改造过程较为复杂,较难批量生成。本申请提供的高热稳定性酶的蛋白序列生成方法,首先筛选出耐受温度大于预定值的特定类酶的蛋白序列数据作为训练样本,然后利用训练样本对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型,使得模型学习到高热稳定性酶的基本特征,最后利用训练好的蛋白序列生成模型批量生成蛋白序列数据,生成方法简单,且仅在计算机上即可完成,提到了自动化设计效率。

具体来说,如图1所示,本实施例一提供一种高热稳定性酶的蛋白序列生成方法包括如下步骤:

步骤S10、获取训练样本,所述训练样本包括耐受温度大于预定值的特定类酶的蛋白序列数据;

步骤S20、利用训练样本对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型;

步骤S30、利用所述蛋白序列生成模型生成批量蛋白序列数据。

具体来说,步骤S10的主要目的是构建高热稳定性酶的蛋白序列数据库,用于提供训练样本。该步骤S10包括:获取耐受温度大于预定值的微生物的蛋白组序列;从所述蛋白组序列中确定与所述特定类酶处于同一类别下的目标酶,并提取出所述目标酶的目标蛋白序列;利用序列聚类算法对所述目标蛋白序列进行聚类处理得到多个类簇的蛋白序列,选择最大类簇的蛋白序列作为训练样本。

示例性地,可以从已有的数据库中获得大量微生物的生长温度,如Martin KMEngqvist数据库等所有含有微生物生长温度的数据库;然后,设置一个合适的预定值,选定耐受温度在预定值以上的微生物,如40摄氏度以上;接下来,在蛋白组数据库中提取出上述微生物的蛋白组序列,如Uniprot/Proteomes数据库等所有含有蛋白组的数据库;下一步,提取出上述所有蛋白组里含有所述特定类酶处于同一类别下的目标酶对应的目标蛋白序列;最后,再用序列聚类算法,如mmseq2聚类等所有适合序列的聚类方法,设置合理的相似性阈值,范围为0.0-1.0之间,如0.5,从目标蛋白序列中选择类簇大于阈值的蛋白序列作为训练样本。

进一步地,为了提高蛋白序列生成模型的准确性,作为训练样本的蛋白序列应该具有较高的相似度,本实施例一的特定类酶与目标酶均属于酶学委员会命名法中任一种第四层酶学编号下的酶,例如两者都属于第四层酶学编号下的3.5.4.5-cytidine deaminase(胞苷脱氨酶),这样可以避免训练样本差异较大,影响训练效果。其中在酶学委员会命名法中第四层酶学编号下的酶具有多种,各种酶的蛋白序列存在区别,但都能催化同一类反应,可认为具有较高的相似度,这样可保证训练得到的蛋白序列生成模型具有较高的准确性。

进一步地,在步骤S10之后,还需要对训练样本进行预处理,将获得特定类酶的蛋白序列数据进行对齐处理,用非氨基酸字符补齐所有的蛋白质序列,并转化为独热编码形式,作为适用于模型训练的输入数据。

在步骤S20中,所述生成式对抗网络模型包括生成器和判别器,利用训练样本训练预先构建好的生成式对抗网络模型的方法包括:将随机噪声输入到生成器,生成器输出生成数据,从所述训练样本中选取部分数据作为真实数据;将所述生成数据和所述真实数据共同输入至所述判别器中,判别器输出判别结果;根据判别结果调整所述生成器和所述判别器的网络参数,以完成一轮训练;重复上述训练步骤直至满足预定训练条件,以获得所述生成模型。示例性地,生成式对抗网络模型采用WGAN-GP网络。

其中在每轮训练时,真实数据的输入格式为[Batch_size,Seq_Len,charmap],其中Batch_size为模型每次输入的序列个数,Seq_Len为统一后的序列长度,chamap为字典的维度,包括20类氨基酸和补齐字符,生成器的输入为满足标准正态分布的随机噪声。通过多轮迭代学习后,该模型的生成器会生成和真实的特定类酶的蛋白序列相似的数据,这样就完成了对特定类酶高热稳定性特征的提取,从而完成了蛋白序列生成模型的训练。

作为优选实施例,如图2所示,为了进一步确定批量生成的蛋白序列的可靠性,蛋白序列生成方法还包括如下步骤:

步骤S40、将所述批量蛋白序列数据中的每一条蛋白序列分别与所述部分蛋白序列数据进行比较,以确定每一条蛋白序列的相似度。示例性地,每一条蛋白序列的相似度确定方法包括:分别计算每一条蛋白序列与所述部分蛋白序列数据中每条序列之间的相似度,获得一组相似度数据;将所述一组相似度数据中的最大相似度作为所述每一条蛋白序列的相似度。

步骤S50、按照相似度从高至低顺序将各条蛋白序列进行排序,并划分为多个区间。例如,相似度90%以上作为一个区间,相似度在80%至90%之间作为一个区间,相似度在70%至80%之间作为一个区间,以此类推,形成多个区间。

步骤S60、从每个区间中选取若干数量的蛋白序列,并根据选取的每种蛋白序列进行合成表达,生成对应的酶;

步骤S70、测定每种酶的溶解温度,并筛选出溶解温度大于或等于预定温度的酶所对应的蛋白序列,作为具有高热稳定性的新蛋白序列。

本实施例一公开的高热稳定性酶的蛋白序列生成方法可以批量生成高热稳定的特定类酶的序列,生成方法简单,仅从蛋白序列出发且在计算机上完成设计,可进一步按相似性分布进行实验验证,结果可靠性更强且容易分析。

进一步地,实施例二中高热稳定性酶的蛋白序列生成方法相对于实施例一的主要区别是对模型进行了初始训练,能较好地初始化模型参数,弥补了耐受温度大于预定值的特定类酶的蛋白序列数据较少所造成的影响。具体来说,如图3所示,本实施例二的高热稳定性酶的蛋白序列生成方法包括如下步骤:

步骤S10’、获取训练样本,所述训练样本包括耐受温度大于预定值的特定类酶的蛋白序列数据以及与所述特定类酶处于同一类别下的初始样本酶的蛋白序列数据;

步骤S20’、利用所述初始样本酶的蛋白序列数据对生成式对抗网络模型进行预训练,获得所述预先构建好的生成式对抗网络模型,接着利用特定类酶的蛋白序列数据对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型;

步骤S30’、利用所述蛋白序列生成模型生成批量蛋白序列数据。

具体来说,在耐受温度大于预定值的特定类酶的蛋白序列数据较少的情况下,可选择与所述特定类酶处于同一类别下的其他酶作为初始样本酶,并利用初始样本酶的蛋白序列数据现对生成式对抗网络模型进行预训练,使得模型学习到特定类酶的基本特征。作为优选实施例,为了避免初始样本酶与特定类酶差异较大,限定初始样本酶与特定类酶属于酶学委员会命名法中任一种第四层酶学编号下的酶,例如两者都属于第四层酶学编号下的3.5.4.5-cytidine deaminase(胞苷脱氨酶),此时可以不用考虑初始样本酶的耐受温度,只要与特定类酶处于同一第四层酶学编号下其他酶的蛋白序列都可以用作预训练。

示例性地,初始样本酶的蛋白序列的获取方法为:首先从蛋白质数据库中下载初始样本酶天然存在的所有序列,如Uniprot数据库等所有可以获得蛋白质序列的数据库;然后以经典的五界划分准则作为划分依据提取出属于初始样本酶的目的序列,即原核生物界、原生生物界、菌物界、植物界以及动物界中的一种。本实施例二优选采用原核生物界中的初始样本酶的蛋白序列进行预训练。

在步骤S20’中,利用所述初始样本酶的蛋白序列数据对生成式对抗网络模型进行预训练的过程如下:生成式对抗网络模型的生成器根据随机噪声得到生成数据,从初始样本酶的蛋白序列数据选取部分数据作为真实数据;将所述生成数据和所述真实数据共同输入至生成式对抗网络模型的的判别器中,得到判别结果;根据所述判别结果更新生成式对抗网络模型的的判别器和生成器的网络参数,完成一轮训练;重复上述训练步骤直至满足初始训练条件,以获得预先构建好的生成式对抗网络模型。接着利用耐受温度大于预定值的特定类酶的蛋白序列数据继续对预先构建好的生成式对抗网络模型进行训练,获得最终的蛋白序列生成模型。其中,步骤S20’的训练过程中的数据预处理、数据输入格式等细节可参照实施例一步骤S20的训练过程,在此不进行赘述。

进一步地,实施例二中步骤S30’与实施例一的步骤S30相同,且实施例二在步骤S30’之后,蛋白序列生成方法还包括实施例一中的步骤S40至步骤S70的内容,在此不进行赘述。

本实施例二公开的高热稳定性酶的蛋白序列生成方法,相对于实施例一的方法还具有如下优势:弥补了耐受温度大于预定值的特定类酶的蛋白序列数据较少所造成的影响,使得蛋白序列生成模型的准确率提高,以生成相似度更高的蛋白序列。

进一步地,如图4所示,本实施例三还公开了一种热稳定性酶的蛋白序列生成装置,所述蛋白序列生成装置包括样本获取单元100、训练单元200和批量生成单元300。样本获取单元100用于获取训练样本,所述训练样本包括耐受温度大于预定值的特定类酶的蛋白序列数据;训练单元200利用训练样本对预先构建好的生成式对抗网络模型进行训练,获得蛋白序列生成模型;批量生成单元300用于利用所述蛋白序列生成模型生成批量蛋白序列数据。其中,样本获取单元100、训练单元200和批量生成单元300的具体工作过程可参照实施例一的相关描述,在此不进行赘述。

本实施例四还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有高热稳定性酶的蛋白序列生成程序,所述高热稳定性酶的蛋白序列生成程序被处理器执行时实现上述的高热稳定性酶的蛋白序列生成方法。

本实施例五还公开了一种计算机设备,在硬件层面,如图5所示,该终端包括处理器12、内部总线13、网络接口14、计算机可读存储介质11。处理器12从计算机可读存储介质中读取对应的计算机程序然后运行,在逻辑层面上形成请求处理装置。当然,除了软件实现方式之外,本说明书一个或多个实施例并不排除其他实现方式,比如逻辑器件抑或软硬件结合的方式等等,也就是说以下处理流程的执行主体并不限定于各个逻辑单元,也可以是硬件或逻辑器件。所述计算机可读存储介质11上存储有高热稳定性酶的蛋白序列生成程序,所述高热稳定性酶的蛋白序列生成程序被处理器执行时实现上述的高热稳定性酶的蛋白序列生成方法。

计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。计算机可读存储介质的例子包括,但不限于相变内存(PRAM)、静态随机存取存储器(SRAM)、动态随机存取存储器(DRAM)、其他类型的随机存取存储器(RAM)、只读存储器(ROM)、电可擦除可编程只读存储器(EEPROM)、快闪记忆体或其他内存技术、只读光盘只读存储器(CD-ROM)、数字多功能光盘(DVD)或其他光学存储、磁盒式磁带、磁盘存储、量子存储器、基于石墨烯的存储介质或其他磁性存储设备或任何其他非传输介质,可用于存储可以被计算设备访问的信息。

上面对本发明的具体实施方式进行了详细描述,虽然已表示和描述了一些实施例,但本领域技术人员应该理解,在不脱离由权利要求及其等同物限定其范围的本发明的原理和精神的情况下,可以对这些实施例进行修改和完善,这些修改和完善也应在本发明的保护范围内。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于三支半概念的生物信息类提取方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!