一种基于机器学习的寡肽药先导物的自动挖掘方法

文档序号:1955261 发布日期:2021-12-10 浏览:27次 >En<

阅读说明:本技术 一种基于机器学习的寡肽药先导物的自动挖掘方法 (Automatic excavation method of oligopeptide medicine guide substance based on machine learning ) 是由 张永彪 肖百川 王晓刚 马超 于 2021-09-17 设计创作,主要内容包括:本发明公开了一种基于机器学习的寡肽药先导物的自动挖掘方法,包括以下步骤:获取功能蛋白集,并提取功能蛋白集的固有无序区(IntrinsicallyDisordered Regions,IDRs);构建基于深度神经网络的N-Gram模型;基于N-Gram模型学习IDRs的语义分布模式,得到可能成药的寡肽的氨基酸的上下文概率向量;采用蒙特卡罗方法根据氨基酸的上下文概率向量模拟寡肽从零开始延升的过程,得到候选寡肽;对候选寡肽进行打分和排名,并选取排名结果靠前的若干个候选寡肽进行功能验证。本发明结合N-Gram模型和蒙特卡罗方法,从与相关疾病的治疗有正向关系的功能蛋白集中挖掘出可能成药的功能寡肽,具有普适性。(The invention discloses an automatic digging method of oligopeptide medicine guide based on machine learning, which comprises the following steps: obtaining a functional protein set, and extracting Inherent Disordered Regions (IDRs) of the functional protein set; constructing an N-Gram model based on a deep neural network; learning the semantic distribution pattern of IDRs based on an N-Gram model to obtain the context probability vector of amino acids of oligopeptides which are possibly ready to use; simulating the process of extending the oligopeptide from zero by adopting a Monte Carlo method according to the context probability vector of the amino acid to obtain a candidate oligopeptide; and scoring and ranking the candidate oligopeptides, and selecting a plurality of candidate oligopeptides with top ranking results for functional verification. The invention combines an N-Gram model and a Monte Carlo method to excavate the functional oligopeptides which can become drugs from the functional protein set which has positive relation with the treatment of related diseases, and has universality.)

一种基于机器学习的寡肽药先导物的自动挖掘方法

技术领域

本发明涉及计算机辅助药物设计技术领域,更具体的说是涉及一种基于机器学习的寡肽药先导物的自动挖掘方法。

背景技术

多肽药物作为一种具有高选择性和强效的药物,同时也具有很高的安全性和耐受性。然而,传统多肽药物设计在很大程度上依赖于精确的蛋白质结构和功能注释,这导致药物开发的成本和时间周期都很高。为了降低药物开发的成本和时间周期,人们尝试使用各类机器学习和统计分析的方法来辅助药物开发,并取得了不错的进展。

纵观近年来人工智能辅助药物开发的相关工作,深度神经网络、支持向量机、KNN、随机森林和GBM、逻辑回归、判别分析、隐马尔可夫模型等几乎所有常用的机器学习方法都有被使用。从应用场景来看,这些工作主要关注抗菌肽(AMP)、抗肿瘤肽(ACP)和肿瘤细胞新抗原(neoantigen)等数据储备较成熟的领域。

基于所使用的特征,这些算法可以分为两类:一类是基于深度学习的方法,该方法无需手工设计特征即可达到很高的准确度,但存在“数据饥渴”和决策过程不透明等缺陷。另一类是传统的基于特征工程的机器学习方法,这类方法虽然在模型容量上不及深度学习,但可以在数据稀缺的情况下通过高质量的手工特征得到较为准确的结果。常用的手工特征可分为两类,一类是以一级序列的元素构成作为特征。例如:N-和C-端或全肽的氨基酸残基数;伪氨基酸组成(PseAAC)方法;基于序列顺序的方法;基于进化特征构建(EFC)的方法,基于基序之间的非局部相关性。另一类手工特征则基于天然氨基酸的物理化学性质,以整条多肽序列或其末端包含的所有氨基酸的理化指标的平均值为特征。以抗菌肽为例,目前常用的基于一级序列的理化性质指标共有56个,其中47个肽段特征和9个全局特征,包括熟知的t-scale,u-polarity等构效指标。

然而,这些在多肽药物开发中取得了良好效果的方法却难以用于寡肽药物的开发。一方面,寡肽药物的可用数据集远少于ACP、AMP等多肽药物。截至目前,FDA批准的寡肽药物只有28种,处于实验阶段的寡肽有55种,其中大部分是同一寡肽的不同修饰或衍生物,这严重限制了对深度学习之类的监督学习方法的使用。另一方面,由于寡肽药的氨基酸残基数较少,这使得用于多肽药物开发的手工特征在寡肽药物上很难有辨识度,从而导致特征难以迁移。而由于先验信息的缺乏和自身长度的限制,使得为寡肽药设计独特的手工特征也变得困难重重。

因此,设计一种基于机器学习的寡肽药物自动设计方法变得十分迫切且很有必要。

发明内容

有鉴于此,本发明提供了一种基于机器学习的寡肽药先导物的自动挖掘方法,结合N-Gram模型和蒙特卡罗方法,从与相关疾病的治疗有正向关系的功能蛋白集中挖掘出可能成药的功能寡肽,具有普适性。

为了实现上述目的,本发明采用如下技术方案:

一种基于机器学习的寡肽药先导物的自动挖掘方法,包括以下步骤:

S1、获取功能蛋白集,并提取所述功能蛋白集的IDRs;

S2、构建基于深度神经网络的N-Gram模型;

S3、基于所述N-Gram模型学习所述IDRs的语义分布模式,得到可能成药的寡肽的氨基酸的上下文概率向量;

S4、采用蒙特卡罗方法根据氨基酸的上下文概率向量模拟寡肽从零开始延升的过程,得到候选寡肽;

S5、对所述候选寡肽进行打分和排名,并选取排名结果靠前的若干个所述候选寡肽进行功能验证。

优选的,在上述一种基于机器学习的寡肽药先导物的自动挖掘方法中,所述N-Gram模型的表达式为:

其中,F表示深度神经网络,θ表示F中待学习的参数,表示第k个词ωk在氨基酸构成的字符集中的序号,v(context(ωk))字符ωk的上下文context(ωk)的词向量。

优选的,在上述一种基于机器学习的寡肽药先导物的自动挖掘方法中,S4包括以下步骤:

S41、选取任意氨基酸作为起始氨基酸;

S42、利用所述N-Gram模型推断待延升寡肽的衔接氨基酸的上下文概率向量;

S43、采用蒙特卡罗方法根据S42推断出的上下文概率向量模拟生成衔接氨基酸;

S44、将衔接氨基酸与当前的待延升寡肽相连,得到新的待延升寡肽;

S45、循环执行S42-S44,每轮延升一个氨基酸,直至满足预设结束条件,得到候选寡肽。

优选的,在上述一种基于机器学习的寡肽药先导物的自动挖掘方法中,S45中的预设结束条件为:寡肽的延升长度达到10以及当前寡肽所有潜在的衔接氨基酸的概率小于随机概率。

优选的,在上述一种基于机器学习的寡肽药先导物的自动挖掘方法中,S5包括:

按照候选寡肽的长度进行分组聚类;

分别对每组聚类中的每个簇中的寡肽进行推荐度打分,选取分数排名靠前的若干个候选寡肽进行功能验证。

优选的,在上述一种基于机器学习的寡肽药先导物的自动挖掘方法中,S5中,若选取的排名靠前的若干个候选寡肽中有一个或多个的功能验证结果满足预设需求,则对功能验证结果满足要求的寡肽所处的簇中剩余的候选寡肽继续进行功能验证。

优选的,在上述一种基于机器学习的寡肽药先导物的自动挖掘方法中,S5中,将每轮寡肽延升中的衔接氨基酸的上下文概率乘积作为候选寡肽的推荐度分数,并根据推荐度分数对候选寡肽进行排名。

优选的,在上述一种基于机器学习的寡肽药先导物的自动挖掘方法中,所述N-Gram模型的深度神经网络架构由输入层、投影层、隐藏层、输出层和SoftMax层组成。

经由上述的技术方案可知,与现有技术相比,本发明公开提供了一种基于机器学习的寡肽药先导物的自动挖掘方法,由于蛋白IDRs是蛋白质发生相变的结构基础,而相变与疾病的发生具有很强的关联性,因此本发明将IDRs作为特征区域,可以在一定程度上绕开数据集匮乏的问题,提高基于小样本开发寡肽药物的成功率。

同时,本发明考虑到手工设计寡肽描述符的困难,采取了深度学习的方法来避免手工特征设计的问题。本发明还考虑到寡肽不存在长距离的语义模式以及功能蛋白集(也即模型训练集)通常较小,因此采用了最基本的自然语言处理的模型——N-Gram对IDRs进行语义模式挖掘,以学习可能成药的寡肽的氨基酸分布模式。N-Gram模型本质上是一个条件概率的计算模型,其功能与常用的朴素贝叶斯模型类似,但其对于词间条件概率的计算是通过深度神经网络来实现的,因而比传统的机器学习模型具有更大的模型容量,且无需设计手工特征。该模型原理简单、不需要依赖大量训练数据,且每一步的决策概率都可以得到,因而适合用于寡肽药物的开发。此外,本发明通过蒙特卡洛方法来模拟寡肽的从零开始延升的过程,使寡肽药物的从头设计更贴近自然的过程。

总体而言,本发明通过将机器学习用于寡肽药物先导物的全自动化挖掘,填补了相关领域的研究空白;同时,本发明具有很高的普适性,对于任意应用场景(适应症),只需要提供与该疾病的治疗有正向关系的功能蛋白集,即可从中挖掘出可能成药的功能寡肽。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本发明的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。

图1附图为本发明提供的基于机器学习的寡肽药先导物的自动挖掘方法的流程图;

图2附图为本发明提供的从功能蛋白集中挖掘治疗性寡肽的整体流程图;

图3附图为本发明提供的结合N-Gram模型和蒙特卡罗方法得到候选寡肽的流程图;

图4(A)-(E)附图为本发明提供的候选寡肽及试验验证结果示意图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

如图1所示,本发明实施例公开了一种基于机器学习的寡肽药先导物的自动挖掘方法,包括以下步骤:

S1、获取功能蛋白集,并提取功能蛋白集的IDRs;

S2、构建基于深度神经网络的N-Gram模型;

S3、基于N-Gram模型学习IDRs的语义分布模式,得到可能成药的寡肽的氨基酸的上下文概率向量;

S4、采用蒙特卡罗方法根据氨基酸的上下文概率向量模拟寡肽从零开始延升的过程,得到候选寡肽;

S5、对候选寡肽进行打分和排名,并选取排名结果靠前的若干个候选寡肽进行功能验证。

下面,对上述各步骤进行进一步描述。

S1、获取功能蛋白集,并提取功能蛋白集的IDRs。

在蛋白质中,存在一种被称之为固有无序区(Intrinsically Disorder Regions,IDRs)的热点区域,它们通常通过区域内的肽基序(长度小于10的保守线性肽片段)与其它蛋白质的结构域相互作用,从而发生变构,根据有现有的研究,蛋白的变构导致的相分离与疾病的发生具有很强的关联性,因此蛋白的IDRs是药物开发工作中值得关注的目标。

如图2所示,本发明从功能蛋白集中提取IDRs,作为特征区域,可以在一定程度上绕开数据集匮乏的问题,提高基于小样本开发寡肽药物的成功率。

S2、构建基于深度神经网络的N-Gram模型。

S2中,构建基于深度神经网络的N-Gram模型,该模型作为一种无监督的深度学习模型,它可以通过功能蛋白IDRs学习到其语义模式。N-Gram模型的表示形式如下:

其中,F表示深度神经网络,θ表示F中待学习的参数,表示第k个词ωk在氨基酸残基构成的字符集中的序号,v(context(ωk))字符ωk的上下文context(ωk)的词向量。

具体的,N-Gram模型的深度神经网络架构由输入层、投影层、隐藏层、输出层和SoftMax层组成。其中,

1)输入层:在该层中,每个残基被映射到一个长度为m的词向量中。词向量在训练前随机初始化,在训练过程中进行迭代。

2)投影层:将词向量映射到一个更高维的空间中,以增加模型的表示能力。

3)隐藏层:使用tanh函数进行激活,用于提取深层特征。

4)输出层:将隐藏层的输出映射为一个低维特征向量,向量的维度为可能的结果的数目。

5)SoftMax层:对输出层结果进行归一化,得到每一个结果的概率。

S3、基于N-Gram模型学习IDRs的语义分布模式,得到可能成药的寡肽的氨基酸的上下文概率向量。

本发明基于N-Gram模型学习得到功能蛋白集的IDRs的语义分布模式(上下文概率向量)。语义分布模式是指:在文本或句子中,字符之间的相对位置关系,通过上下文概率向量来具体表示,上下文概率向量描述的是在某一特定语境下各个可能出现的字符出现的概率。

S4、采用蒙特卡罗方法根据氨基酸的上下文概率向量模拟寡肽从零开始延升的过程,得到候选寡肽。

基于N-Gram模型得到可能成药的寡肽的氨基酸的上下文概率向量后,本发明引入蒙特卡罗模拟方法,用以模拟寡肽的自然延升过程。蒙特卡罗方法以softmax层得到的概率向量作为模拟器(类似于随机种子)的概率分布,以模拟寡肽的从零开始延升的过程。

整体来说,以一个氨基酸残基为起点,首先使用N-Gram模型计算该字符(称为字符1)的上下文概率向量,然后利用蒙特卡罗方法模拟生成下一个预备字符(称为字符2)。将字符1和基于此生成的字符2拼接,组成下一轮输入的新字符(即下一轮的字符1)。重复上述过程,直到最终输出的长度(由于寡肽的定义,长度达到10时终止迭代)。

具体来说,如图3所示,结合N-Gram模型和蒙特卡罗方法模拟候选寡肽的过程如下:

S41、选取任意氨基酸作为起始氨基酸;本实施例选取功能蛋白IDRs中10个频率最高的氨基酸作为起始氨基酸;

S42、利用N-Gram模型推断待延升寡肽的衔接氨基酸的上下文概率向量;

S43、采用蒙特卡罗方法根据S42推断出的上下文概率向量模拟生成衔接氨基酸;

S44、将衔接氨基酸与当前的待延升寡肽相连,得到新的待延升寡肽;

S45、循环执行S42-S44,每轮延升一个氨基酸,直至满足预设结束条件,得到候选寡肽。

其中,预设结束条件有两个,分别为:条件一,寡肽的延升长度达到10;条件二,当前寡肽的衔接氨基酸的概率小于随机概率,即1/20。

S5、对候选寡肽进行打分和排名,并选取排名结果靠前的若干个候选寡肽进行功能验证。

得到候选寡肽后,本发明按照候选寡肽的长度进行分组聚类,然后对每组聚类中的每个簇中的寡肽进行推荐度打分,推荐度分数是寡肽在每轮延升中的衔接氨基酸的上下文概率乘积。最后将分数排名靠前的若干候选寡肽进行功能验证,对验证结果满足要求的寡肽所处的簇中剩余的候选寡肽继续进行功能验证。

下面,以一具体实例对本发明方法进行验证,具体过程如下:

本发明在实际应用时分为3个部分来实现,首先需要通过UniProt(https:// www.uniprot.org/)网站检索与某种疾病的治疗有正向关系的功能蛋白集,然后再通过IUPred2A(https://iupred2a.elte.hu/)提取出这些功能蛋白的IDRs,最后将IDRs输入加载有N-Gram模型和蒙特卡罗方法的深度学习模型中,即可得到所需的候选寡肽。本实例以治疗骨质疏松(促骨形成)寡肽的挖掘为例:

1、在UniProt上通过“ossification”,“osteogenesis”,“osteoblastdevelopment”,“osteoblast differentiation”这4个关键词检索,得到了171条相关的功能蛋白序列。

2、通过IUPred2A预测得到这些功能蛋白的IDRs。

3、将蛋白IDRs序列输入到深度学习模型中,得到候选寡肽。

4、按照候选寡肽的长度进行分组聚类,在每组聚类得到的若干个簇中,选择分数最高的3个寡肽进行功能验证,若该簇排名前3的寡肽实验效果良好,则对该簇剩下的寡肽也进行细胞实验验证。

如图4(A)所示,最终得到了若干种促骨形成效果良好的寡肽,对算法生成的28种寡肽进行细胞实验,得到的茜素红(ARS)成骨性染色值,颜色越深表示成骨功能越强,并对细胞实验效果最好的寡肽(命名为AIB5P)实施动物实验,通过动物实验,图4(B)表示高倍数钙黄素和二甲酚橙双标记股骨,比例尺为100μm。图4(C)表示股骨vonKossa染色。比例尺为200μm。图4(D)表示抗DMP1免疫组化染色图。图4(E)表示小鼠股骨的代表性微CT,其中,上部为纵向横断面的中轴扫描,比例尺为1mm。下部为生长板下面的骨小梁,比例尺为500μm。可以发现该寡肽具有很好的促骨形成效果。

本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对于实施例公开的装置而言,由于其与实施例公开的方法相对应,所以描述的比较简单,相关之处参见方法部分说明即可。

对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

10页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种自由曲面热超材料结构及其设计和制备方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!