基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及设备

文档序号:1939961 发布日期:2021-12-07 浏览:28次 >En<

阅读说明:本技术 基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及设备 (XGboost algorithm-based DNA binding protein identification method, system, storage medium and device ) 是由 汪国华 赵子夜 邹权 于 2021-09-09 设计创作,主要内容包括:基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及设备,属于计算机与蛋白质识别结合技术领域。本发明为了解决现有的DNA结合蛋白识别方法存在不能兼顾通用性和识别准确率的问题。本发明利用DNA结合蛋白识别分类器对待识别的DNA结合蛋白进行识别;DNA结合蛋白识别分类器的确定过程中,首先获取处理的DNA结合蛋白特征数据集;采用不同的提取算法提取DNA结合蛋白数据集的数据特征,得到多个特征文件;并将不同特征提取算法提取的序列特征矩阵拼接起来,得到拼接后的特征矩阵;然后对生成的特征矩阵进行规范化处理,使用MRMD算法矩阵进行降维处理;最后使用XGboost算法构建并训练DNA结合蛋白识别分类器模型。主要用于DNA结合蛋白的识别。(XGboost algorithm-based DNA binding protein identification method, system, storage medium and equipment, belonging to the technical field of computer and protein identification combination. The invention aims to solve the problem that the existing DNA binding protein identification method cannot give consideration to both universality and identification accuracy. The invention uses a DNA binding protein recognition classifier to recognize the DNA binding protein to be recognized; in the determination process of the DNA binding protein recognition classifier, firstly, a processed DNA binding protein characteristic data set is obtained; extracting data characteristics of the DNA binding protein data set by adopting different extraction algorithms to obtain a plurality of characteristic files; splicing the sequence feature matrixes extracted by different feature extraction algorithms to obtain a spliced feature matrix; then, carrying out normalization processing on the generated characteristic matrix, and carrying out dimension reduction processing by using an MRMD algorithm matrix; and finally, constructing and training a DNA binding protein recognition classifier model by using an XGboost algorithm. The method is mainly used for identifying the DNA binding protein.)

基于XGboost算法的DNA结合蛋白识别方法、系统、存储介质及 设备

技术领域

本发明属于计算机与蛋白质识别结合技术领域,具体涉及一种DNA结合蛋白的识别方 法、系统、存储介质及设备。

背景技术

生物体含有许多大分子物质,如DNA和蛋白质,它们包含着生物体的遗传信息,是构 成有机体的所有细胞和组织的重要组成部分。为了研究细胞的生命活动,有必要研究DNA 和蛋白质以及它们之间的相互作用。DNA结合蛋白的研究在DNA复制重组、病毒感染和增殖等方面发挥着重要作用。在分子水平上研究生物体的基因表达,有必要研究DNA和蛋白质的结合。因此,DNA结合蛋白的准确鉴定是进一步研究细胞的生命活动的前提。

目前常见的检测方法通常是单一的或复杂的,即采取一种特征提取方法和训练模型或 者采用卷积神经网络等较复杂算法来进行DNA结合蛋白的识别。而不同的特征提取方法有 不同的侧重点,识别的结果也有所差异,因此现有的DNA结合蛋白识别方法存在不能兼顾 通用性和识别准确率的问题。

发明内容

本发明为了解决现有的DNA结合蛋白识别方法存在不能兼顾通用性和识别准确率的 问题,进而提出了基于XGboost算法的DNA结合蛋白识别方法,以实现对DNA结合蛋白 的更准确的识别的同时提高通用性。

基于XGboost算法的DNA结合蛋白识别方法,利用DNA结合蛋白识别分类器对待识别的DNA结合蛋白进行识别,所述的DNA结合蛋白识别分类器的确定过程包括以下步骤:

S1、获取处理的DNA结合蛋白特征数据集;DNA结合蛋白特征数据集包括训练集和测试集;

S2、采用不同的提取算法提取DNA结合蛋白数据集的数据特征,得到多个特征文件;

S3、将不同特征提取算法提取的序列特征矩阵拼接起来,得到拼接后的特征矩阵;

S4、对S3生成的特征矩阵进行规范化处理,得到规范化处理后的特征矩阵;

S5、使用MRMD算法将S4生成的矩阵进行降维处理;

S6、使用XGboost算法构建并训练DNA结合蛋白识别分类器模型。

进一步地,S2采用不同的提取算法提取原始的DNA结合蛋白数据集的数据特征的过 程使用的提取算法为global encoding method of protein sequence、Multi-scaleContinuous and Discontinuous、Novel Matrix-Based Sequence Representation Modelwith Amino Acid、Position-Specific Scoring Matrix PSSM-AB、PSSM-Pse和PSSM-DWT。

进一步地,S4所述的进行规范化处理的过程使用的是零-均值规范化算法。

进一步地,所述的MRMD算法采用MRMD3.0算法。

基于XGboost算法的DNA结合蛋白识别系统,所述系统用于执行所述的基于XGboost 算法的DNA结合蛋白识别方法。

一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指令由处理器加 载并执行以实现所述的基于XGboost算法的DNA结合蛋白识别方法。

一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一条指令,所述 至少一条指令由处理器加载并执行以实现所述的基于XGboost算法的DNA结合蛋白识别方法。

本发明的有益效果是:

本发明利用核糖核苷酸的组成来表达蛋白质序列的特征,能够实现对DNA结合蛋白的 准确识别,为相应研究开发提供了理论基础。而且本发明在进行模型构建时,对特征矩阵 进行拼接和标准化,有效加强数据特征与数据标签之间的联系从而提高了准确率。在此基 础上,本发明采用MRMD3.0算法对数据进行降维,用更少的数据获得了较高的识别精度, 提高了DNA结合蛋白的识别效率。

本发明通过XGboost算法搭建分类器,生成了综合性能更优,应用更加广泛的DNA结合蛋白识别模型,而且本发明采用不同特征提取方法提取特征并基于不同的特征进行识别,因此可以进一步提高DNA结合蛋白识别方法的通用性和识别准确率,即针对不同蛋白都可以进行识别且保证具有非常高的准确率。更进一步地,本发明的创新地使用了6种特征提取方法所提取的特征集并进行降维,结合了6种方法提取的特征信息并通过降维算法筛选出有较高特征价值的信息,采用比神经网络更简单的XGboost算法进行识别,在通用性基础上,可以以较少的特征集和较简单的算法达到了较高的识别效果。

附图说明

图1为基于机器学习的DNA结合蛋白识别方法流程图;

图2为在未拼接的独立数据集和拼接后的独立数据集上的比较结果。

具体实施方式

现在将参考附图来详细描述本发明的示例性实施方式。应当理解,附图中示出和描述 的实施方式仅仅是示例性的,意在阐释本发明的原理和精神,而并非限制本发明的范围。

具体实施方式一:

本实施方式为基于XGboost算法的DNA结合蛋白识别方法,如图1所示,包括以下步骤:

S1、下载DNA结合蛋白序列数据文件,获取处理的DNA结合蛋白特征数据集。

本实施例中,使用两个训练集和两个测试集来训练和测试模型。其中,从ProteinDatabase数据库下载训练集PDB1075和测试集PDB186以及训练集PDB14189和测试集PDB2272。

训练数据集PDB1075由525个DNA结合蛋白和550个非DNA结合蛋白组成,测试 数据集PDB186由93个DNA结合蛋白和93个非DNA结合蛋白组成每个蛋白质由100个 氨基酸组成,训练数据集PDB14189由7129个DNA结合蛋白和7060个非DNA结合蛋白 组成,测试数据集PDB2272由1153个DNA结合蛋白和1119个非DNA结合蛋白组成, 其蛋白质序列相似性小于30%。

S2、采用不同的提取算法提取原始的DNA结合蛋白数据集的数据特征,得到多个特征文件;采用不同的提取算法提取原始的DNA结合蛋白数据集的数据特征进行提取的过程中,不同的特征提取算法对同一序列进行提取。

本实施例中,使用了6种特征提取方法,包括global encoding method ofprotein sequence (GE)、Multi-scale Continuous and Discontinuous(MCD)、NovelMatrix-Based Sequence Representation Model with Amino Acid(NMBAC)、Position-Specific Scoring Matrix(PSSM)PSSM-AB、PSSM-Pse和PSSM-DWT。

GE的统计原理是采用全局编码的方式获得的;MCD通过多尺度连续和不连续描述符 获得序列特征;NMBAC统计原理是归一化Moreau-Broto自相关;PSSM-AB是基于位置特定评分矩阵的平均块;PSSM-DCT是基于PSSM的离散余弦变换;PSSM-DWT是基于 PSSM的离散小波变换。蛋白质序列可以用这些离散值来表示。

在其他实施例中还可以使用其他数量的特征提取方法及其他特征提取方法。需要说明 的是,本发明的创新地使用了这6种特征提取方法所提取的特征集并在后续过程进行降维, 经过对不同的DNA结合蛋白的结构和生理性质进行了深入的研究和实验,发现这6种方法 提取的特征信息可以有效的针对不同的DNA结合蛋白进行普适表示和代表,进而得到非常 好的预测效果(通用性和识别准确率);也就是说本发明这6种特征提取方法及对应的特 征组合是进过对不同的DNA结合蛋白的结构和生理性质进行深入研究和实验发现并创新 使用的,在此之前本领域技术人员对蛋白质进行识别时认为同一类蛋白质在结构和生理形 式上一定是非常相近似的,因此才会被归为一类蛋白,也就是说针对同一类蛋白质识别是 利用其相同或相近似的结构来进行的,因此多数都是基于某类特征进行识别的,即使有利 用不同特征进行蛋白质识别的方式,由于受到现有蛋白质相同/近似结构和性质的思维方式 的影响,一般也不会针对不同特征提取方式提取的特征之间的是否可以在不同的空间维度 内对蛋白质进行进行更好的表示展开研究,更不会对哪些特征的组合方式更加有利于识别 方法的通用性及识别准确率进行研究,也不会预料到哪些特征的组合方式会取得更好的效 果,也就是说:对于本领域技术人员而言,能够预料的效果也仅仅是不同特征的各个识别 效果应该近似于共同识别的效果,即假设这有n种特征,分别对应的效果假设为1,那么 这n种特征共同识别的效果最多也就是n,并不会超过n(因为有可能不同的特征本身之间 可能具有相关性,特征在数据空间上就具有相关性),而且本领域技术人员也不会预料到 “不同特征是对不同方面的表示,对于蛋白质整体识别而言不同特征之间的组合更加有利 于对蛋白质进行数据空间的多方位表达,因此不同特征之间相当于具有协同作用”,而本 发明经过研究和实验后选择的6种特征之间则具有非常好协同表达,进而得到了超过n的 识别效果。

同时这6种特征提取方法还会协同和促进后续的处理过程,即后续通过降维算法筛选 出有较高特征价值的信息,采用比神经网络更简单的XGboost算法进行识别,可以以较少 的特征集和较简单的算法达到了较高的识别效果。

S3、根据S2的特征文件生成的特征矩阵:针对同一序列进行提取特征,将不同特征提 取算法提取的序列特征矩阵拼接起来,得到拼接后的特征矩阵。

本实施例中的特征矩阵是6种特征提取方法对同一序列提取的,将这6种特征提取方 法提取的6个序列特征矩阵拼接起来。

不同的特征提取方法采用不同的算法提取序列特征,每一种算法都有自己的针对性和 特点;将不同的方法提取出的序列特征矩阵拼接起来可以有效弥补各方法的不足从而提高 准确率,故选取此算法进行数据的构建。

S4、使用零-均值规范化算法对S3生成的特征矩阵进行规范化处理,得到规范化处理 后的特征矩阵。

使用零-均值规范化算法对S3生成的特征矩阵进行规范化处理,可以加强数据特征与 数据标签之间的关系,使数据更加规范统一进而有效提升精度。

S5、使用MRMD3.0算法将S4生成的矩阵进行降维处理。

Max-Relevance-Max-Distance(MRMD3.0)算法是一种最大相关性最大距离降维方法。邹 权等人在2015年开发的一种降维方法,命名为Max-Relevance-Max-Distance(MRMD), 用户指南和完整的runtime程序可以从以下网址获取和下载:https://github.com/heshida01 /MRMD3.0。降维即降低维度,通过算法计算每个序列特征的权重并进行分类比较,将权重 不高的特征过滤舍弃留下权重较高的特征并记录结果。它通过距离函数判断数据独立性, 分3步完成降维操作。它首先评估每个特征对分类的贡献,然后量化每个特征对分类的贡 献。其次,计算不同特征的权重进行分类,并对选择的特征进行相应的排序。最后,对不 同数量的特征进行过滤和分类,并记录结果。

S6、使用XGboost算法构建并训练DNA结合蛋白识别分类器模型。

XGboost算法一种机器学习模型,通过整合多个弱学习器来达到更强的学习效果。XGBoost模型对损失函数进行二阶泰勒展开,并使用各种方法来尽可能防止过拟合。将步骤S5中生成的特征矩阵存储在CSV文件中,用XGboost算法读取该文件并进行分类识别 计算,生成DNA结合蛋白识别分类器。

利用训练好的DNA结合蛋白识别分类器对待识别的DNA结合蛋白进行识别。

本发明与其他先进的DNA结合蛋白模型的性能比较:

在PDB 1075数据集上,通过随机提取30%的数据作为测试集来评估拼接序列特征和 单序列特征的性能。

表1为特征的维度

表2为数据集信息

图2及表3-表5描述了实验结果。与其他单序列特征相比,PSSM-DWT(mcc:0.4981)获得了更好的性能。在所有参数上,拼接序列特征都比单个序列特征执行得更好。剪接序列特征(ROC:0.85)也获得了最佳ROC性能。

表3为针对PDB1075数据集基于不同特征提取方法的XGboost算法的处理结果

表4为针对PDB2272数据集不同方法的处理结果

表5为针对PDB186测试集不同方法(PDB1075训练)的处理结果

我们使用PDB1075作为训练集,PDB186作为测试集来评估我们的实验方法,并将我们的方法的实验结果与其他13种方法的实验结果进行了比较。图2清楚地显示了完整的实验结果。对于MSDBP、MSFBinder、Local-DPP MKSVM-HKA和Adilina的工作,5种方 法的MCC值都在0.6以上(分别为0.606、0.616、0.625、0.648和0.670)。因此,这些方法 具有很好的性能。虽然Adilina的工作(SN:95.0%)在SN值方面表现最好,但XGBoost的 结果达到了最优的Acc(85.48%)、MCC(0.713)和Spec(80.6%)。在PDB1075和PDB186上, XGBoost的性能优于其他方法。

我们去除了PDB2272中与PDB14189序列同源性超过40%的蛋白质,以避免两个数据 集之间的同源性偏差。PDB14189是训练集,PDB2272是测试集。我们在PDB2272上独立 测试了XGBoost,使用PDB14189作为训练集,并将其与其他5种分类方法进行了比较。 详细的实验结果见图2。实验结果表明,与其他方法相比,XGBoost获得了最优的ACC值、 MCC值和SPEC值,分别为78.26%、0.5652和76.05%。对于PDB2272,XGBoost比其他 分类方法表现出更好的性能。

具体实施方式二:

本实施方式为基于XGboost算法的DNA结合蛋白识别系统,所述系统用于执行所述的基于XGboost算法的DNA结合蛋白识别方法。

具体实施方式三:

本实施方式为一种存储介质,所述存储介质中存储有至少一条指令,所述至少一条指 令由处理器加载并执行以实现所述的基于XGboost算法的DNA结合蛋白识别方法。

具体实施方式四:

本实施方式为一种设备,所述设备包括处理器和存储器,所述存储器中存储有至少一 条指令,所述至少一条指令由处理器加载并执行以实现所述的基于XGboost算法的DNA 结合蛋白识别方法。

本发明的上述算例仅为详细地说明本发明的计算模型和计算流程,而并非是对本发明 的实施方式的限定。对于所属领域的普通技术人员来说,在上述说明的基础上还可以做出 其它不同形式的变化或变动,这里无法对所有的实施方式予以穷举,凡是属于本发明的技 术方案所引伸出的显而易见的变化或变动仍处于本发明的保护范围之列。

11页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种提高催化柴油加氢转化高附加值产品收率的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!