一种基于神经网络对生物代谢路径的预测方法

文档序号:600274 发布日期:2021-05-04 浏览:9次 >En<

阅读说明:本技术 一种基于神经网络对生物代谢路径的预测方法 (Prediction method for biological metabolic pathway based on neural network ) 是由 王小华 陈亮 张娜 韩锋 王美娟 于 2021-01-26 设计创作,主要内容包括:本发明属于生物动态路径预测领域,特别涉及一种基于神经网络对生物代谢路径的预测方法,包括下列步骤:数据下载:获取数据集,完成模型训练所需数据集的构建;数据预处理:对数据集进行插值,Savitzky–Golay方法增加更多的时序点,同时进行归一化,数据划分用于数据扩充,提高模型识别准确率;识别模型;模型保存。本发明只需要通过代谢路径的蛋白质与代谢物的浓度,不需要考虑温度,通量等数据,对比动力模型,极大的减小了数据预处理的过程,与考虑蛋白质之间的关系。本发明降低了模型建立的难度,同时,基于神经网络建立的模型,其准确率相比于动力模型有了显著的提高。本发明用于对生物代谢路径的预测。(The invention belongs to the field of biodynamic path prediction, and particularly relates to a method for predicting a biometabolic path based on a neural network, which comprises the following steps: data downloading: acquiring a data set, and completing construction of the data set required by model training; data preprocessing: interpolation is carried out on the data set, more time sequence points are added by the Savitzky-Golay method, normalization is carried out simultaneously, data division is used for data expansion, and the accuracy rate of model identification is improved; identifying a model; and (5) saving the model. The invention only needs the concentration of the protein and the metabolite passing through the metabolic pathway, does not need to consider the data of temperature, flux and the like, and greatly reduces the process of data preprocessing compared with the dynamic model, and considers the relationship between the protein. The method reduces the difficulty of model establishment, and meanwhile, compared with a dynamic model, the accuracy of the model established based on the neural network is obviously improved. The invention is used for predicting the biological metabolic pathway.)

一种基于神经网络对生物代谢路径的预测方法

技术领域

本发明属于生物动态路径预测领域,特别涉及一种基于神经网络对生物代谢路径的预测方法。

背景技术

目前在生物工程中,生物代谢路径十分复杂,往往难以控制代谢路径过程的蛋白质与代谢物,从而难以预测最终产物的生成。不同的蛋白质浓度之前,有的存在积极作用,有的存在消极作用,如何辨别他们,也将提高整个生物工程的效率。

通过动力模型,可以构建模型,比如计量模型,能够较好的预测生物动态路径,但是基于动力模型的建立,随着生物工程的增大,会愈加复杂,需要专业的知识才能去构造,花费的时间与精力也急剧增大。

发明内容

针对上述目前的生物代谢路径需要专业的知识才能去构造并且花费的时间与精力也急剧增大的技术问题,本发明提供了一种成本低、准确率高、稳定性强的基于神经网络对生物代谢路径的预测方法。

为了解决上述技术问题,本发明采用的技术方案为:

一种基于神经网络对生物代谢路径的预测方法,包括下列步骤:

S1、数据下载:获取数据集,完成模型训练所需数据集的构建;

S2、数据预处理:对数据集进行插值,采用Savitzky–Golay方法增加更多的时序点,同时进行归一化,数据划分用于数据扩充,提高模型识别准确率;

S3、识别模型;

S4、模型保存:当模型的损失函数不再下降,评价指标达到最优且趋于稳定之后,保存模型。

所述S1中完成模型训练所需数据集的构建的方法为:使用数据集包含3个生产大肠杆菌的株菌,通过使用高、低产量的株菌作为训练数据,中产量株菌用来验证模型的表现型,通过动力模型生成大量株菌,再进行更加显著的预测。

所述S2中数据预处理的方法为:包括下列步骤:

S2.1、对数据进行0均值归一化μ为原始数据的均值,σ为原始数据的标准差;

S2.2、将训练集分为训练集与验证集,采用交叉验证,每个代谢物都的浓度也将作为特征值,代谢物的浓度时间导数将作为目标值。

所述S3中识别模型的方法为:包括下列步骤:

S3.1、模型构建:通过神经网络构建出非线性函数其中m(t)时序代谢物浓度,p(t)时序蛋白质浓度,其中代谢物时序导数;通过使用梯度下降,使得代价函数减小,达到优化的标准:生成交叉验证数据防止数据的过度拟合,通过解决微分方程,预测生物动态路径;

S3.2、时间序列模型性能的评估:使用模拟数据时,从数据集选择一个随机应变,对于每个时间序列,通过计算预测轨迹的均方根误差来评估预测和测试数据之间的一致性RMSE是预测轨迹的均方根误差,是代谢物j在时间t的实际代谢物浓度的插值,mj(t)是从求解中得到的预测。

所述S4中的模型保存中,通过梯度下降,使用向前与向后传播,使得当模型的损失函数不再下降。

本发明与现有技术相比,具有的有益效果是:

本发明通过使用多层隐藏层和PCA机制数据特征选取,在进行动态路径预测的过程中,将多维的数据进行降维。本发明只需要通过代谢路径的蛋白质与代谢物的浓度,不需要考虑温度,通量等数据,对比动力模型,极大的减小了数据预处理的过程,与考虑蛋白质之间的关系。本发明降低了模型建立的难度,同时,基于神经网络建立的模型,其准确率相比于动力模型有了显著的提高。

附图说明

图1为本发明的主要步骤流程图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

一种基于神经网络对生物代谢路径的预测方法,如图1所示,包括下列步骤:

S1、数据下载:获取数据集,完成模型训练所需数据集的构建;

S2、数据预处理:对数据集进行插值,采用Savitzky–Golay方法增加更多的时序点,同时进行归一化,数据划分用于数据扩充,提高模型识别准确率;

S3、识别模型;

S4、模型保存:当模型的损失函数不再下降,评价指标达到最优且趋于稳定之后,保存模型。

进一步,S1中完成模型训练所需数据集的构建的方法为:完成模型训练所需数据集的构建,为了验证模型识别性能,本文使用数据集包含3个生产大肠杆菌的株菌,具体来源上文已提及。为了验证该模型的表现型,该数据集将使用高,低产量的株菌作为训练数据,中产量株菌用来验证。为了更好预测模型,将通过动力模型生成大量株菌,再进行更加显著的预测。

进一步,S2中数据预处理的方法为:包括下列步骤:

S2.1、对数据进行0均值归一化μ为原始数据的均值,σ为原始数据的标准差;

S2.2、为了提高模型预测度,将训练集分为训练集与验证集,采用交叉验证,每个代谢物都的浓度也将作为特征值,代谢物的浓度时间导数将作为目标值。

进一步,S3中识别模型的方法为:包括下列步骤:

S3.1、模型构建:通过神经网络构建出非线性函数其中m(t)时序代谢物浓度,p(t)时序蛋白质浓度,其中代谢物时序导数;通过使用梯度下降,使得代价函数减小,达到优化的标准:生成交叉验证数据防止数据的过度拟合,通过解决微分方程,预测生物动态路径;

S3.2、时间序列模型性能的评估:使用模拟数据时,从数据集选择一个随机应变,对于每个时间序列,通过计算预测轨迹的均方根误差来评估预测和测试数据之间的一致性RMSE是预测轨迹的均方根误差,是代谢物j在时间t的实际代谢物浓度的插值,mj(t)是从求解中得到的预测。

进一步,S4中的模型保存中,通过梯度下降,使用向前与向后传播,使得当模型的损失函数不再下降。

上面仅对本发明的较佳实施例作了详细说明,但是本发明并不限于上述实施例,在本领域普通技术人员所具备的知识范围内,还可以在不脱离本发明宗旨的前提下作出各种变化,各种变化均应包含在本发明的保护范围之内。

6页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种COVID-19棘突状蛋白的小分子抑制剂的筛选方法、其筛选的活性分子及用途

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!