代谢物标记方法、装置、计算机设备及存储介质

文档序号:1891643 发布日期:2021-11-26 浏览:26次 >En<

阅读说明:本技术 代谢物标记方法、装置、计算机设备及存储介质 (Metabolite marking method, metabolite marking device, computer device, and storage medium ) 是由 郭建影 徐啸 于 2021-08-31 设计创作,主要内容包括:本申请涉及人工智能领域,公开一种代谢物标记方法、装置、计算机设备及存储介质,包括:获取待标记的代谢物的分子结构式;采集所述原子信息中的节点特征,构建所述代谢物的节点矩阵;基于所述化学连接关系,构建所述各原子之间的邻接关系,并根据所述邻接关系生成所述代谢物的邻接矩阵;对所述节点矩阵和所述邻接矩阵进行矩阵融合生成融合矩阵,并将所述融合矩阵输入至预设的标记模型中,所述标记模型是基于伪标签的自训练方式训练至收敛状态,用于对所述代谢物进行质谱图分类的神经网络模型;读取所述标记模型输出的分类结果,并根据所述分类结果对所述代谢物进行质谱图标记。(The application relates to the field of artificial intelligence, and discloses a metabolite marking method, a metabolite marking device, computer equipment and a storage medium, wherein the metabolite marking method comprises the following steps: obtaining a molecular structural formula of a metabolite to be marked; collecting node characteristics in the atomic information and constructing a node matrix of the metabolite; constructing an adjacency relation among the atoms based on the chemical connection relation, and generating an adjacency matrix of the metabolite according to the adjacency relation; performing matrix fusion on the node matrix and the adjacent matrix to generate a fusion matrix, and inputting the fusion matrix into a preset labeling model, wherein the labeling model is a neural network model which is trained to a convergence state based on a self-training mode of a pseudo label and is used for performing mass spectrogram classification on the metabolites; and reading the classification result output by the labeling model, and labeling the mass spectrogram of the metabolite according to the classification result.)

代谢物标记方法、装置、计算机设备及存储介质

技术领域

本发明实施例涉及人工智能领域,尤其是一种代谢物标记方法、装置、计算机设备及存储介质。

背景技术

利用质谱(MS)检测和定量细胞代谢产物已经成为一种常用的检测方法,并在大量生物医学研究和应用中极具发展潜力。然而,质谱检测和定量代谢物的最大挑战是生物体中绝大部分代谢物缺乏质谱谱图的注释,仅有很少量的代谢物有标准品的质谱注释。例如靶向代谢组学(对代谢物在样品中的绝对含量进行测定)的定量分析需要依赖人工对标准品进行一一鉴定,建立质谱库,才能实现在生物样本中鉴定和定量感兴趣的代谢物。

现有技术主要依靠扩大标准品的质谱鉴定范围来扩充代谢物质谱库,但此方法依赖大量的时间、经济和人力成本。

本发明创造的发明人在研究中发现,现有技术中的代谢物质谱图的标记,都是通过大量的人力在实验室中测定和标记,无法快速的对代谢物进行质谱图的鉴别和标记。

发明内容

本发明实施例提供一种能够提高代谢物质谱图标记效率的代谢物标记方法、装置、计算机设备及存储介质。

为解决上述技术问题,本发明创造的实施例采用的一个技术方案是:提供一种代谢物标记方法,包括:

获取待标记的代谢物的分子结构式,其中,所述分子结构式中包括组成所述代谢物的原子信息以及各原子之间的化学连接关系;

采集所述原子信息中的节点特征,构建所述代谢物的节点矩阵;

基于所述化学连接关系,构建所述各原子之间的邻接关系,并根据所述邻接关系生成所述代谢物的邻接矩阵;

对所述节点矩阵和所述邻接矩阵进行矩阵融合生成融合矩阵,并将所述融合矩阵输入至预设的标记模型中,其中,所述标记模型是基于伪标签的自训练方式训练至收敛状态,用于对所述代谢物进行质谱图分类的神经网络模型;

读取所述标记模型输出的分类结果,并根据所述分类结果对所述代谢物进行质谱图标记。

可选地,所述获取待标记的代谢物的分子结构式包括:

向预设的多个代谢物数据库发送请求查询信息,其中,所述请求查询信息中包括所述代谢物的身份信息;

根据所述多个代谢物数据库的回复信息确定目标数据库;

向所述目标数据库发送请求获取信息,并接收所述目标数据库发送的所述代谢物的分子结构式。

可选地,所述回复信息中包括各代谢物数据库的响应时长和所述分子结构式的存储状态,所述根据所述多个代谢物数据库的回复信息确定目标数据库包括:

根据所述存储状态在所述多个代谢物数据库中筛选得到至少一个待选数据库;

以所述响应时长为排序条件,对所述至少一个待选数据库进行升序排列,并将位于排序首位的待选数据库确定为所述目标数据库。

可选地,所述采集所述原子信息中的节点特征,构建所述代谢物的节点矩阵之前,包括:

将所述分子结构式存储在本地数据库中,并基于所述分子结构式的存储位置生成存储链表;

基于预设的多个存储哈希算法,对所述身份信息进行哈希运算,生成所述分子结构式的哈希结构式;

将所述哈希结构式存储在预设的存储位图中,并生成所述哈希结构式与所述存储链表进行映射关联。

可选地,所述对所述节点矩阵和所述邻接矩阵进行矩阵融合生成融合矩阵,并将所述融合矩阵输入至预设的标记模型中包括:

根据预设的标识规则对各原子进行顺序编码;

根据所述顺序编码对所述节点矩阵和所述邻接矩阵中各原子对应的特征元素进行排序;

将排序后所述节点矩阵中各原子对应特征元素插入到所述邻接矩阵中对应原子的特征元素之前,生成所述融合矩阵;

将所述融合矩阵输入至预设的标记模型中。

可选地,所述标记模型的训练方式为:

获取训练样本集,其中,所述训练样本集包括标记样本集和无标记样本集;

通过所述标记样本集对初始的标记模型进行监督训练得到第一模型;

通过所述第一模型对所述无标记样本集进行分类得到第一分类结果,基于所述第一分类结果筛选预设比例的无标记样本和与其对应的分类结果,构建第一标记样本;

将所述第一标记样本更新至所述标记样本集中,并通过更新后的所述标记样本集对所述第一模型进行监督训练生成第二模型;

通过所述第二模型对剩余的所述无标记样本集进行分类得到第二分类结果,反复迭代执行更新所述标记样本集,并基于所述更新后的标记样本集对所述标记模型进行训练的步骤,直至所述标记模型训练至收敛为止。

可选地,所述读取所述标记模型输出的分类结果,并根据所述分类结果对所述代谢物进行质谱图标记之后,包括:

根据预设的非对称加密算法对所述质谱图标记进行加密生成密文信息;

基于预设的多个加密哈希算法对所述密文信息进行哈希运算,生成所述密文信息的目标密码,并根据所述目标密码对所述密文信息加密生成加密密文;

将所述加密密文和所述目标密码发送至对应的请求终端,其中,所述加密密文和所述目标密码通过不同接口进行发送。

为解决上述技术问题,本发明实施例还提供一种代谢物标记装置,包括:

获取模块,用于获取待标记的代谢物的分子结构式,其中,所述分子结构式中包括组成所述代谢物的原子信息以及各原子之间的化学连接关系;

采集模块,用于采集所述原子信息中的节点特征,构建所述代谢物的节点矩阵;

处理模块,用于基于所述化学连接关系,构建所述各原子之间的邻接关系,并根据所述邻接关系生成所述代谢物的邻接矩阵;

融合模块,用于对所述节点矩阵和所述邻接矩阵进行矩阵融合生成融合矩阵,并将所述融合矩阵输入至预设的标记模型中,其中,所述标记模型是基于伪标签的自训练方式训练至收敛状态,用于对所述代谢物进行质谱图分类的神经网络模型;

读取模块,用于读取所述标记模型输出的分类结果,并根据所述分类结果对所述代谢物进行质谱图标记。

可选地,所述代谢物标记装置还包括:

第一请求子模块,用于,向预设的多个代谢物数据库发送请求查询信息,其中,所述请求查询信息中包括所述代谢物的身份信息;

第一处理子模块,用于根据所述多个代谢物数据库的回复信息确定目标数据库;

第二请求子模块,用于向所述目标数据库发送请求获取信息,并接收所述目标数据库发送的所述代谢物的分子结构式。

可选地,所述回复信息中包括各代谢物数据库的响应时长和所述分子结构式的存储状态,所述代谢物标记装置还包括:

第一筛选子模块,用于根据所述存储状态在所述多个代谢物数据库中筛选得到至少一个待选数据库;

第一执行子模块,用于以所述响应时长为排序条件,对所述至少一个待选数据库进行升序排列,并将位于排序首位的待选数据库确定为所述目标数据库。

可选地,所述代谢物标记装置还包括:

第一存储子模块,用于将所述分子结构式存储在本地数据库中,并基于所述分子结构式的存储位置生成存储链表;

第一运算子模块,用于基于预设的多个存储哈希算法,对所述身份信息进行哈希运算,生成所述分子结构式的哈希结构式;

第二存储子模块,用于将所述哈希结构式存储在预设的存储位图中,并生成所述哈希结构式与所述存储链表进行映射关联。

可选地,所述代谢物标记装置还包括:

第一编码子模块,用于根据预设的标识规则对各原子进行顺序编码;

第一排序子模块,用于根据所述顺序编码对所述节点矩阵和所述邻接矩阵中各原子对应的特征元素进行排序;

第一融合子模块,用于将排序后所述节点矩阵中各原子对应特征元素插入到所述邻接矩阵中对应原子的特征元素之前,生成所述融合矩阵;

第一输入子模块,用于将所述融合矩阵输入至预设的标记模型中。

可选地,所述代谢物标记装置还包括:

第一获取子模块,用于获取训练样本集,其中,所述训练样本集包括标记样本集和无标记样本集;

第一训练子模块,用于通过所述标记样本集对初始的标记模型进行监督训练得到第一模型;

第一分类子模块,用于通过所述第一模型对所述无标记样本集进行分类得到第一分类结果,基于所述第一分类结果筛选预设比例的无标记样本和与其对应的分类结果,构建第一标记样本;

第二训练子模块,用于将所述第一标记样本更新至所述标记样本集中,并通过更新后的所述标记样本集对所述第一模型进行监督训练生成第二模型;

第二分类子模块,用于通过所述第二模型对剩余的所述无标记样本集进行分类得到第二分类结果,反复迭代执行更新所述标记样本集,并基于所述更新后的标记样本集对所述标记模型进行训练的步骤,直至所述标记模型训练至收敛为止。

可选地,所述代谢物标记装置还包括:

第一加密子模块,用于根据预设的非对称加密算法对所述质谱图标记进行加密生成密文信息;

第二运算子模块,用于基于预设的多个加密哈希算法对所述密文信息进行哈希运算,生成所述密文信息的目标密码,并根据所述目标密码对所述密文信息加密生成加密密文;

第一发送子模块,用于将所述加密密文和所述目标密码发送至对应的请求终端,其中,所述加密密文和所述目标密码通过不同接口进行发送。

为解决上述技术问题本发明实施例还提供一种计算机设备,包括存储器和处理器,所述存储器中存储有计算机可读指令,所述计算机可读指令被所述处理器执行时,使得所述处理器执行上述所述代谢物标记方法的步骤。

为解决上述技术问题本发明实施例还提供一种存储有计算机可读指令的存储介质,所述计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述所述代谢物标记方法的步骤。

本发明实施例的有益效果是:通过将带标记代谢物的分子结构式,进行原子特征提取,并将原子之间化学连接关系转化为邻接关系,进而将邻接关系转换为邻接矩阵。将邻接矩阵和原子的节点矩阵进行矩阵融合,得到代谢物的全量矩阵,通过将融合矩阵进行神经网络分类,快速的得到代谢物的质谱图,完成对代谢物的质谱图标记,提高了质谱图的标记效率,由于,连接关系和节点特征的融合,能够使标记模型提取到更多的区别信息使分类结果更加准确。

附图说明

本申请上述的和/或附加的方面和优点从下面结合附图对实施例的描述中将变得明显和容易理解,其中:

图1为本申请一个具体实施例的代谢物标记方法的基本流程示意图;

图2为本申请一个具体实施例的获取分子结构式的流程示意图;

图3为本申请一个具体实施例的确定目标数据库的流程示意图;

图4为本申请一个具体实施例的对分子结构式进行本地存储的流程示意图;

图5为本申请一个具体实施例的融合矩阵的生成和使用流程示意图;

图6为本申请一个具体实施例的标记模型的训练流程示意图;

图7为本申请一个具体实施例的发送质谱图的流程示意图;

图8为本申请一个实施例的代谢物标记装置基本结构示意图;

图9为本申请一个实施例的计算机设备的基本结构框图。

具体实施方式

下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能解释为对本申请的限制。

本技术领域技术人员可以理解,除非特意声明,这里使用的单数形式"一"、"一个"、"所述"和"该"也可包括复数形式。应该进一步理解的是,本申请的说明书中使用的措辞"包括"是指存在所述特征、整数、步骤、操作、元件和/或组件,但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。

本技术领域技术人员可以理解,除非另外定义,这里使用的所有术语(包括技术术语和科学术语),具有与本申请所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是,诸如通用字典中定义的那些术语,应该被理解为具有与现有技术的上下文中的意义一致的意义,并且除非像这里一样被特定定义,否则不会用理想化或过于正式的含义来解释。

本技术领域技术人员可以理解,这里所使用的"终端"既包括无线信号接收器的设备,其仅具备无发射能力的无线信号接收器的设备,又包括接收和发射硬件的设备,其具有能够在双向通信链路上,执行双向通信的接收和发射硬件的设备。这种设备可以包括:蜂窝或其他通信设备,其具有单线路显示器或多线路显示器或没有多线路显示器的蜂窝或其他通信设备;PCS(Personal Communications Service,个人通信系统),其可以组合语音、数据处理、传真和/或数据通信能力;PDA(Personal Digital Assistant,个人数字助理),其可以包括射频接收器、寻呼机、互联网/内联网访问、网络浏览器、记事本、日历和/或GPS(Global Positioning System,全球定位系统)接收器;常规膝上型和/或掌上型计算机或其他设备,其具有和/或包括射频接收器的常规膝上型和/或掌上型计算机或其他设备。这里所使用的"终端"可以是便携式、可运输、安装在交通工具(航空、海运和/或陆地)中的,或者适合于和/或配置为在本地运行,和/或以分布形式,运行在地球和/或空间的任何其他位置运行。这里所使用的"终端"还可以是通信终端、上网终端、音乐/视频播放终端,例如可以是PDA、MID(Mobile Internet Device,移动互联网设备)和/或具有音乐/视频播放功能的移动电话,也可以是智能电视、机顶盒等设备。

请参阅图1,图1为本实施例代谢物标记方法的基本流程示意图。如图1所示,一种代谢物标记方法,包括:

S1100、获取待标记的代谢物的分子结构式,其中,所述分子结构式中包括组成所述代谢物的原子信息以及各原子之间的化学连接关系;

代谢物亦称中间代谢物,是指人体或者动物体通过代谢过程产生或消耗的物质,生物大分子不包括在内。生物大分子的前体及降解产物是真正的代谢物。代谢物在产生后进行检测,通过代谢物专业检测仪器对代谢物进行检测,得到代谢物的化学名称或者编号。

当得到代谢物的化学名称或者编号后,需要向预设的代谢物数据库发请求信息,请求获得该代谢物的分子结构式,由于,不同的代谢物数据库中存储的代谢物分子式有所差别,也就是说实际应用中,没有一个全量的的代谢物数据库,存储有所有类别代谢物物的分子结构式。因此,需要通过同步问询的方式向多个代谢物数据库发请求信息,请求查询该数据库中是否存储有该代谢物的分子结构式,根据各代谢物数据库的反馈,确定向那个代谢物数据库请求获取分子结构式。

分子结构式,是用元素符号和短线表示化合物(或单质)分子中原子的排列和结合方式的化学式,是一种简单描述分子结构的方法。结构式可以完整地绘出分子内每个原子间的化学键。

分子结构式中包括组成分子的原子,以及原子之间的化学连接关系,化学连接关系是指原子之间的化学键,化学键包括(不限于):离子键、共价键或金属键。

S1200、采集所述原子信息中的节点特征,构建所述代谢物的节点矩阵;

根据分子结构式中的原子信息,生成代谢物的节点特征。节点特征包括标准原子量、原子类型、键数、相邻氢原子数、原子是否在环或者芳香环中等记载代谢物原子组成信息。

根据预设的编码列表对上述的各节点特征进行编码映射,编码列表中记载每个节点特征映射的向量值。将每个节点特征都对应映射为向量值后,根据设定的排序方式对上述节点特征的向量值进行排列生成一个N*M的向量矩阵,N大于等于1,M大于等于1。节点矩阵中的每一行表示分子结构式中一个原子的节点特征。

S1300、基于所述化学连接关系,构建所述各原子之间的邻接关系,并根据所述邻接关系生成所述代谢物的邻接矩阵;

根据分子结构式中记载的原子间的化学连接关系,构建各原子之间的邻接关系。邻接关系用于表示分子结构式中各原子之间是否连接,连接原子之间的化学键类型等。

根据原子之间化学键的类型,对不同的化学键进行向量映射,然后,根据分子结构式中记载的各个原子之间关联关系,当原子之间无连接时,原子间的邻接关系为0,当原子之间具有连接关系时,则根据原子之间的化学键对应的将其映射为相应的向量值,完成对原子之间的邻接关系转换。

将每个原子相对于其他原子的邻接关系按顺序进行排列后,生成由邻接关系组成的代谢物的邻接矩阵。邻接矩阵为个N*M维矩阵,,N大于等于1,M大于等于1。邻接矩阵的每一行表示一个原子与其他原子之间的邻接关系。

S1400、对所述节点矩阵和所述邻接矩阵进行矩阵融合生成融合矩阵,并将所述融合矩阵输入至预设的标记模型中,其中,所述标记模型是基于伪标签的自训练方式训练至收敛状态,用于对所述代谢物进行质谱图分类的神经网络模型;

将生成的节点矩阵和邻接矩阵进行融合,融合的方式为插入式融合,具体为:将每个原子对应的节点矩阵中对应的行,插入到邻接矩阵中每个原子对应的邻接关系行之前,也就是说融合矩阵中每个原子的节点特征行下面一行为该原子的邻接关系行。通过将节点矩阵和邻接矩阵融合得到的融合矩阵为2N*M维矩阵,N大于等于1,M大于等于1。

插入式融合能够使原子的相关特征集中排布,有利于进行原子特征的提取,提高后续处理的效率和准确率。

但是,节点矩阵和邻接矩阵的融合方式不局限于此,根据具体应用场景的不同,在一些实施方式中,节点矩阵和邻接矩阵融合的方式为:进行矩阵拼接,将节点矩阵拼接在邻接矩阵之前,或者将邻接矩阵拼接在节点矩阵之前,构造一个N*2M维矩阵,,N大于等于1,M大于等于1。

将节点矩阵和邻接矩阵进行融合后生成融合矩阵,生成融合矩阵后,将融合矩阵输入至预设的标记模型中,标记模型是基于伪标签的自训练方式训练至收敛状态,用于对代谢物进行质谱图分类的神经网络模型。

标记模型的输入为融合矩阵,输出为代谢物对应的质谱图,质谱图中记载代谢物的质量/电荷比及二者各自的相对丰度。

标记模型为前向神经网络模型训练得到的,但是标记模型的类别不局限于此,根据具体应用场景的不同,在一些实施方式中,标记模型还能够由:卷积神经网络模型、深度卷积神经网络模型或者循环神经网络模型及其上述三种模型中任意一种的变种模型训练得到。

标记模型的训练采用伪标签的自训练方式训练,训练方式为获取训练样本集,其中,训练样本集包括标记样本集和无标记样本集;通过标记样本集对初始的标记模型进行监督训练得到第一模型;通过第一模型对无标记样本进行分类得到第一分类结果,基于第一分类结果筛选预设比例的无标记样本和与其对应的分类结果,构建第一标记样本;将第一标记样本更新至标记样本集中,并通过更新后的标记样本集对第一模型进行监督训练生成第二模型;通过第二模型对剩余的无标记样本集进行分类得到第二分类结果,反复迭代执行更新标记样本集,并基于更新后的标记样本集对标记模型进行训练的步骤,直至标记模型训练至收敛为止。

训练至收敛状态的标记模型能够根据输入的融合模型对,代谢物的质谱图进行分类。

S1500、读取所述标记模型输出的分类结果,并根据所述分类结果对所述代谢物进行质谱图标记。

读取标记模型输出的分类结果,该分类结果就是代谢物的质谱图,将代谢物和质谱图进行键值对存储,或者将质谱图的存储地址与代谢物进行映射关联建立映射列表后,完成对代谢物的质谱图标记。

上述实施方式通过将带标记代谢物的分子结构式,进行原子特征提取,并将原子之间化学连接关系转化为邻接关系,进而将邻接关系转换为邻接矩阵。将邻接矩阵和原子的节点矩阵进行矩阵融合,得到代谢物的全量矩阵,通过将融合矩阵进行神经网络分类,快速的得到代谢物的质谱图,完成对代谢物的质谱图标记,提高了质谱图的标记效率,由于,连接关系和节点特征的融合,能够使标记模型提取到更多的区别信息使分类结果更加准确。

在一些实施方式中,不同的代谢物数据库中存储的代谢物信息不同,因此,不存在全量数据库中,将所有的代谢物信息收集在一起。进行代谢物分子结构式获取时,需要向多个代谢物数据库发送查询信息。请参阅图2,图2为本实施例获取分子结构式的流程示意图。

如图2所示,S1100包括:

S1111、向预设的多个代谢物数据库发送请求查询信息,其中,所述请求查询信息中包括所述代谢物的身份信息;

本实施方式中的终端或者服务器本地预存储有多个代谢物数据库的访问地址。在得到代谢物的身份信息后,依次向预存储的多个代谢物数据库发送查询信息。

查询信息中记载有预查询代谢物的身份信息,身份信息包括该代谢物的化学名称、俗名或者其他能够辨别该代谢物种类的通用身份辨识标记。

S1112、根据所述多个代谢物数据库的回复信息确定目标数据库;

将查询信息发送至多个代谢物数据库中后,各个代谢物数据库根据查询信息中代谢物的身份信息,在各自的数据库中进行检索查询,检索结果包括为包括该代谢物的信息或者不包括该代谢物的信息。包括该代谢物信息的代谢物数据库向查询信息对应的终端发送回复信息,而不包括该代谢物信息的代谢物数据库则不向该终端发送回复信息,且该代谢物数据库断开与终端的连接,并将连接终端的接口重新释放到接口队列中,通过这种方式能够避免网络资源的浪费,提高数据库接口的释放效率。

终端在接收到代谢物数据库发送的回复信息后,计算回复信息的响应时长,响应时长的计算方式为:接受回复信息的时间戳-发送查询信息的时间戳。即终端在发送查询信息时,生成该查询信息的第一时间戳,接收到回复信息时,生成该回复信息的第二时间戳。第二时间戳的时间减去第一时间戳的时间后,生成各回复信息的响应时长。

各个回复信息的响应时长,能够反映出对应代谢物数据库的响应速度,选择其中响应时长最短的代谢物数据库作为目标数据库。但是,目标物数据库的确认方式不局限于此,在一些实施方式中,终端根据回复信息中记载的代谢物获取策略,对自身是否符合该获取策略进行匹配,当获取策略与自身条件匹配时,将匹配到的代谢物数据库确定为目标数据库。

S1113、向所述目标数据库发送请求获取信息,并接收所述目标数据库发送的所述代谢物的分子结构式。

确定目标数据库后,终端向目标数据库发送请求获取信息,请求获取信息还是包括该代谢物的身份信息,目标服务器接收到该请求获取信息后,根据该请求获取信息的身份信息,调用该请求获取信息对应的分子结构式,并将该分子结构式回复至该终端中。

在一些实施方式中,当终端得到各个代谢物数据库的回复信息后,根据与回复信息关联的响应时长确定目标数据库。请参阅图3,图3为本实施例确定目标数据库的流程示意图。

如图3所示,S1112包括:

S1121、根据所述存储状态在所述多个代谢物数据库中筛选得到至少一个待选数据库;

将查询信息发送至多个代谢物数据库中后,各个代谢物数据库根据查询信息中代谢物的身份信息,在各自的数据库中进行检索查询,检索结果包括为包括该代谢物的信息或者不包括该代谢物的信息。包括该代谢物信息的代谢物数据库向查询信息对应的终端发送回复信息,而不包括该代谢物信息的代谢物数据库则不向该终端发送回复信息。

终端得到回复信息后,将发送回复信息的代谢物数据库确定为待选数据库,待选数据库的数量为1个、2个、3个或者更多个。

S1122、以所述响应时长为排序条件,对所述至少一个待选数据库进行升序排列,并将位于排序首位的待选数据库确定为所述目标数据库。

终端在接收到待选数据库发送的回复信息后,计算回复信息的响应时长,响应时长的计算方式为:接受回复信息的时间戳-发送查询信息的时间戳。即终端在发送查询信息时,生成该查询信息的第一时间戳,接收到回复信息时,生成该回复信息的第二时间戳。第二时间戳的时间减去第一时间戳的时间后,生成各回复信息的响应时长。

计算得到各个待选数据库的响应时长后,对待选数据库对应的响应时长进行升序排列,升序排列的队列中排序位置第一位的待选数据库为响应速度最快的数据库,将该待选数据库确定为目标数据库。这种确定目标数据库的,能够确定出响应速度最快的数据库,提高获取代谢物分子结构式的获取速度。

在一些实施方式中,终端在得到代谢物的分子结构式后,对分子结构式进行本地存储。请参阅图4,图4为本实施例对分子结构式进行本地存储的流程示意图。

如图4所示,S1200之前包括:

S1131、将所述分子结构式存储在本地数据库中,并基于所述分子结构式的存储位置生成存储链表;

终端在接收到代谢物的分子结构式后,将分子结构式存储在本地数据库中,将分子结构式存储完成后,生成分子结构式存储位置的存储链表。存储链表中记载该分子式存储位置的物理地址或者逻辑地址,通过上述地址信息能够访问分子结构式。

S1132、基于预设的多个存储哈希算法,对所述身份信息进行哈希运算,生成所述分子结构式的哈希结构式;

本实施方式中的终端进行存储分子结构式时,需要通过预设的多个存储哈希算法对代谢物的身份信息进行哈希计算,每个存储哈希算法之间均具有区别,不同的存储哈希算法设定不同的编号,根据编号对存储哈希算法进行排列。根据排列好的存储哈希算法对身份信息依次进行哈希计算,每个存储哈希算法均输出一个等长的哈希数组,根据存储哈希算法的排列顺序,对上述的哈希数组进行次序排列生成哈希结构式。

S1133、将所述哈希结构式存储在预设的存储位图中,并生成所述哈希结构式与所述存储链表进行映射关联。

生成哈希结构式后,将该哈希结构式存储在预设的存储位图中,由于哈希结构式是由二维数字组成的,因此,能够将哈希结构式映射成为0和255像素值存储在预设的存储位图中。然后,将哈希结构式与存储链表进行关联,建立哈希结构式与存储链表之间的映射关系。

当分子结构式存储完成后,再次对该分子结构式进行调用时,由于,分子结构式是以图像的方式进行存储,因此,无法直接通过直接查询得到。此时,根据存储哈希算法对代谢物的身份信息进行计算,再生成一个与该身份信息对应的哈希结构式,根据哈希结构式与存储链表之间的映射关系得到分子结构式的存储位置。

通过上述方式,避免在分子结构式存储时对分子结构进行命名,直接通过哈希算法对分子结构式进行检索,提高了分子结构式的存储效率和安全性,他人无法根据分子结构式的存储命名,得到分子结构式的存储信息。

在一些实施方式中,节点矩阵和邻接矩阵的融合方式为插入式融合。请参阅图5,图5为本实施例融合矩阵的生成和使用流程示意图。

如图5所示,S1400包括:

S1411、根据预设的标识规则对各原子进行顺序编码;

本实施方式中,需要对分子结构式中的各原子进行编码,编码的方式是按照预设的标识规则进行编码的,标识规则的意义在于,使各原子的编码进行顺序编码。

标识规则根据分子结构式构成次序,自左向右的进行编码,当分子式中包括苯环等环形结构式时,按照顺时针的方式进行顺序编码。

S1412、根据所述顺序编码对所述节点矩阵和所述邻接矩阵中各原子对应的特征元素进行排序;

节点矩阵中的每一行表示分子结构式中一个原子的节点特征,邻接矩阵的每一行表示一个原子与其他原子之间的邻接关系。根据上述顺序编码中各个原子的编码信息,对节点矩阵中每一行都进行对应编码,使原子的编码与节点矩阵的特征元素编码进行一一对应。根据上述顺序编码中各个原子的编码信息,对邻接矩阵中每一行都进行对应编码,使原子的编码与邻接矩阵的特征元素编码进行一一对应。对节点矩阵和邻接矩阵中的特征元素进行编码后,根据编码的大小与节点矩阵和邻接矩阵进行降序或者升序排列。

S1413、将排序后所述节点矩阵中各原子对应特征元素插入到所述邻接矩阵中对应原子的特征元素之前,生成所述融合矩阵;

完成排序后,将每个原子对应的节点矩阵中对应的行,插入到邻接矩阵中每个原子对应的邻接关系行之前,也就是说融合矩阵中每个原子的节点特征行下面一行为该原子的邻接关系行。通过将节点矩阵和邻接矩阵融合得到的融合矩阵为2N*M维矩阵,N大于等于1,M大于等于1。

S1414、将所述融合矩阵输入至预设的标记模型中。

将节点矩阵和邻接矩阵进行融合后生成融合矩阵,生成融合矩阵后,将融合矩阵输入至预设的标记模型中,标记模型是基于伪标签的自训练方式训练至收敛状态,用于对代谢物进行质谱图分类的神经网络模型。插入式融合能够使原子的相关特征集中排布,有利于进行原子特征的提取,提高后续处理的效率和准确率。

在一些实施方式中,标记模型是基于伪标签的自训练方式训练至收敛状态。请参阅图6,图6为本实施例标记模型的训练流程示意图。

如图6所示,训练方式如下:

S1611、获取训练样本集,其中,所述训练样本集包括标记样本集和无标记样本集;

本实施方式中的标记模型进行训练时,首先需要采集训练标记模型的训练样本集,训练样本集中的训练样本中包括标记样本集和无标记样本集。标记样本集中的训练样本为标记样本,标记样本中的每一个分子结构式均标记有对应的质谱图。无标记样本集中的训练样本为无标记样本,无标记样本中的每一个分子结构式均未标记质谱图。

S1612、通过所述标记样本集对初始的标记模型进行监督训练得到第一模型;

通过标记样本集中的训练样本对初始化的标记模型进行训练,训练的方式为监督训练,具体的训练方式为:将标记样本集中的训练样本依次输入至初始的标记模型,每次仅仅输入一个训练样本,初始的标记模型根据输入的训练样本进行特征提取和质谱图分类,得到对应训练样本的质谱图分类结果。根据初始化的标记模型的损失函数计算质谱图分类结果与标记的质谱图之间的特征距离,将该特征距离与预设的阈值进行比对,当该特征距离小于等于该阈值时,则表示分类结果正确;当该特征距离大于该阈值时,则表示分类结果不正确,此时,需要通过初始的标记模型的回传函数对初始的标记模型的权重进行调整,以使初始的标记模型分类结果梯次逼近预先标记的质谱图。通过标记样本集对初始的标记模型进行训练,当初始的标记模型训练次数达到设定次数后,生成第一模型。

S1613、通过所述第一模型对所述无标记样本集进行分类得到第一分类结果,基于所述第一分类结果筛选预设比例的无标记样本和与其对应的分类结果,构建第一标记样本;

当训练得到第一模型后,通过第一模型对无标记样本进行分类,依次将无标记样本集中的训练样本输入至第一模型中进行分类,得到各个无标记样本对应的第一分类结果。

得到各个无标记样本对应的第一分类结果后,通过筛选确定第一分类结果中,分类结果与无标记样本相适配的无标记样本,筛选的方式为:筛选第一分类结果中置信度大于80%的无标记样本。但是筛选的方式不局限于此,根据具体的应用场景的不同,在一些实施方式中,筛选的方式为通过人工识别筛选出分类结果正确的第一分类结果。

筛选完成后,将符合上述条件的第一分类结果作为对应无标记样本的标记信息,使无标记样本成为标记样本,生成的标记样本为第一标记样本。在一些实施方式中,限定第一标记样本占无标记样本集中样本数的比例,限定的比例为10%,但是预设比例的取值不局限于此,根据具体应用场景的不同,在一些实施方式中,限定比例能够为小于100%大于0%的任意值。

S1614、将所述第一标记样本更新至所述标记样本集中,并通过更新后的所述标记样本集对所述第一模型进行监督训练生成第二模型;

将第一标记样本更新至标记样本集中构成更新标记样本集,将更新标记样本集中的训练样本依次输入至第一模型,每次仅仅输入一个训练样本,第一模型根据输入的训练样本进行特征提取和质谱图分类,得到对应训练样本的质谱图分类结果。根据第一模型的损失函数计算质谱图分类结果与标记的质谱图之间的特征距离,将该特征距离与预设的阈值进行比对,当该特征距离小于等于该阈值时,则表示分类结果正确;当该特征距离大于该阈值时,则表示分类结果不正确,此时,需要通过第一模型的回传函数对第一模型的权重进行调整,以使第一模型分类结果梯次逼近预先标记的质谱图。通过更新标记样本集对第一模型进行训练,当第一模型训练次数达到设定次数后,生成第二模型。

S1615、通过所述第二模型对剩余的所述无标记样本集进行分类得到第二分类结果,反复迭代执行更新所述标记样本集,并基于所述更新后的标记样本集对所述标记模型进行训练的步骤,直至所述标记模型训练至收敛为止。

当训练得到第二模型后,通过第二模型对剩余的无标记样本进行分类,依次将剩余无标记样本集中的训练样本输入至第二模型中进行分类,得到各个无标记样本对应的第二分类结果。

得到各个无标记样本对应的第二分类结果后,通过筛选确定第二分类结果中,分类结果与无标记样本相适配的无标记样本,筛选的方式为:筛选第二分类结果中置信度大于80%的无标记样本。但是筛选的方式不局限于此,根据具体的应用场景的不同,在一些实施方式中,筛选的方式为通过人工识别筛选出分类结果正确的第二分类结果。

筛选完成后,将符合上述条件的第二分类结果作为对应无标记样本的标记信息,使无标记样本成为标记样本,生成的标记样本为第二标记样本。在一些实施方式中,限定第二标记样本占无标记样本集中样本数的比例,限定的比例为10%,但是预设比例的取值不局限于此,根据具体应用场景的不同,在一些实施方式中,限定比例能够为小于100%大于0%的任意值。

如此,反复的执行将无标记样本集中分类结果达到预设标准的无标记样本更新到标记样本中,不断的扩充标记样本的数量,通过有限的标记样本训练能够提高标记模型的鲁棒性,使标记样本的准确率提高。例如,先利用有标签代谢物数据集A1训练得到模型1,将模型1用于无标签的代谢物数据集B1中预测得到相应的质谱图y1,即软伪标签,并根据预测打分,筛选出B1中预测质量较高的前10%的样本并入到有标签的数据集A1中,得到新的数据集A2。用A2再次训练标记模型得到迭代模型2,将模型2用于剩余无标签的代谢物数据集B2中预测得到相应的质谱图y2,并根据预测打分,筛选出B2中预测质量较高的前10%的样本并入到有标签的数据集A2中,得到新的数据集A3用A3再次训练标记模型得到迭代模型3,以此类推,进行多轮迭代,最终得到最优模型。

在一些实施方式中,当终端为服务器或者作为服务器时,生成代谢物的质谱图分类结果完成后,需要将质谱图发送至请求获取对应质谱图的请求终端中。请参阅图7,图7为本实施例发送质谱图的流程示意图。

如图7所示,S1500包括:

S1511、根据预设的非对称加密算法对所述质谱图标记进行加密生成密文信息;

当获取到请求终端发送的请求获取代谢物的质谱图进行加密,加密的方式为非对称加密,非对称加密算法需要两个密钥:公开密钥(publickey:简称公钥)和私有密钥(privatekey:简称私钥)。公钥与私钥是一对,如果用公钥对数据进行加密,只有用对应的私钥才能解密。因为加密和解密使用的是两个不同的密钥,所以这种算法叫作非对称加密算法。

通过非对称加密算法中的公钥对质谱图标记进行加密,生成密文信息。

S1512、基于预设的多个加密哈希算法对所述密文信息进行哈希运算,生成所述密文信息的目标密码,并根据所述目标密码对所述密文信息加密生成加密密文;

通过预设的多个加密哈希算法对密文信息进行运算,其中,不同的加密哈希算法之间具有区别,输入相同的输入,输出的结果不同,但是,不同加密哈希算法输出的结果长度是相同的。将密文信息输入至多个加密哈希算法中生成多个加密数组,将多个加密数组进行拼接生成密文信息的目标密码。通过目标密码对密文信息进行加密生成加密密文。

S1513、将所述加密密文和所述目标密码发送至对应的请求终端,其中,所述加密密文和所述目标密码通过不同接口进行发送。

根据请求终端的通信地址,将加密密文和目标密码发送至请求终端,但是,加密密文和目标密码通过不同的接口进行发送,例如,加密密文是通过网络链路接口进行发送,而目标密码则是通过短信、电话、邮件等接口进行发送。但是,加密密文和目标密码发送的渠道不同,主要是避免同渠道接口传输两个数据容易被他人截获,因此,双渠道发送能够增加数据的安全性。

请求终端接收到目标密码和加密密文后,根据目标密码对加密密文进行解密,解密得到密文信息后,根据非对称加密中的私钥对该密文信息进行解密,生成代谢物的质谱图。

通过非对称加密算法和加密哈希算法生成密文信息和加密密文,能够提高数据的安全性,二不同接口进行数据传输,能够进一步的提高数据传输的安全性。

具体请参阅图8,图8为本实施例代谢物标记装置基本结构示意图。

如图8所示,一种代谢物标记装置,包括:获取模块1100、采集模块1200、处理模块1300、融合模块1400和读取模块1500。其中,获取模块1100用于获取待标记的代谢物的分子结构式,其中,所述分子结构式中包括组成所述代谢物的原子信息以及各原子之间的化学连接关系;采集模块1200用于采集所述原子信息中的节点特征,构建所述代谢物的节点矩阵;处理模块1300用于基于所述化学连接关系,构建所述各原子之间的邻接关系,并根据所述邻接关系生成所述代谢物的邻接矩阵;融合模块1400用于对所述节点矩阵和所述邻接矩阵进行矩阵融合生成融合矩阵,并将所述融合矩阵输入至预设的标记模型中,其中,所述标记模型是基于伪标签的自训练方式训练至收敛状态,用于对所述代谢物进行质谱图分类的神经网络模型;读取模块1500用于读取所述标记模型输出的分类结果,并根据所述分类结果对所述代谢物进行质谱图标记。

代谢物标记装置通过将带标记代谢物的分子结构式,进行原子特征提取,并将原子之间化学连接关系转化为邻接关系,进而将邻接关系转换为邻接矩阵。将邻接矩阵和原子的节点矩阵进行矩阵融合,得到代谢物的全量矩阵,通过将融合矩阵进行神经网络分类,快速的得到代谢物的质谱图,完成对代谢物的质谱图标记,提高了质谱图的标记效率,由于,连接关系和节点特征的融合,能够使标记模型提取到更多的区别信息使分类结果更加准确。

在一些实施方式中,代谢物标记装置还包括:

第一请求子模块,用于,向预设的多个代谢物数据库发送请求查询信息,其中,所述请求查询信息中包括所述代谢物的身份信息;

第一处理子模块,用于根据所述多个代谢物数据库的回复信息确定目标数据库;

第二请求子模块,用于向所述目标数据库发送请求获取信息,并接收所述目标数据库发送的所述代谢物的分子结构式。

在一些实施方式中,所述回复信息中包括各代谢物数据库的响应时长和所述分子结构式的存储状态,所述代谢物标记装置还包括:

第一筛选子模块,用于根据所述存储状态在所述多个代谢物数据库中筛选得到至少一个待选数据库;

第一执行子模块,用于以所述响应时长为排序条件,对所述至少一个待选数据库进行升序排列,并将位于排序首位的待选数据库确定为所述目标数据库。

在一些实施方式中,代谢物标记装置还包括:

第一存储子模块,用于将所述分子结构式存储在本地数据库中,并基于所述分子结构式的存储位置生成存储链表;

第一运算子模块,用于基于预设的多个存储哈希算法,对所述身份信息进行哈希运算,生成所述分子结构式的哈希结构式;

第二存储子模块,用于将所述哈希结构式存储在预设的存储位图中,并生成所述哈希结构式与所述存储链表进行映射关联。

在一些实施方式中,代谢物标记装置还包括:

第一编码子模块,用于根据预设的标识规则对各原子进行顺序编码;

第一排序子模块,用于根据所述顺序编码对所述节点矩阵和所述邻接矩阵中各原子对应的特征元素进行排序;

第一融合子模块,用于将排序后所述节点矩阵中各原子对应特征元素插入到所述邻接矩阵中对应原子的特征元素之前,生成所述融合矩阵;

第一输入子模块,用于将所述融合矩阵输入至预设的标记模型中。

在一些实施方式中,代谢物标记装置还包括:

第一获取子模块,用于获取训练样本集,其中,所述训练样本集包括标记样本集和无标记样本集;

第一训练子模块,用于通过所述标记样本集对初始的标记模型进行监督训练得到第一模型;

第一分类子模块,用于通过所述第一模型对所述无标记样本集进行分类得到第一分类结果,基于所述第一分类结果筛选预设比例的无标记样本和与其对应的分类结果,构建第一标记样本;

第二训练子模块,用于将所述第一标记样本更新至所述标记样本集中,并通过更新后的所述标记样本集对所述第一模型进行监督训练生成第二模型;

第二分类子模块,用于通过所述第二模型对剩余的所述无标记样本集进行分类得到第二分类结果,反复迭代执行更新所述标记样本集,并基于所述更新后的标记样本集对所述标记模型进行训练的步骤,直至所述标记模型训练至收敛为止。

在一些实施方式中,代谢物标记装置还包括:

第一加密子模块,用于根据预设的非对称加密算法对所述质谱图标记进行加密生成密文信息;

第二运算子模块,用于基于预设的多个加密哈希算法对所述密文信息进行哈希运算,生成所述密文信息的目标密码,并根据所述目标密码对所述密文信息加密生成加密密文;

第一发送子模块,用于将所述加密密文和所述目标密码发送至对应的请求终端,其中,所述加密密文和所述目标密码通过不同接口进行发送。

为解决上述技术问题,本发明实施例还提供计算机设备。具体请参阅图9,图9为本实施例计算机设备基本结构框图。

如图9所示,计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、非易失性存储介质、存储器和网络接口。其中,该计算机设备的非易失性存储介质存储有操作系统、数据库和计算机可读指令,数据库中可存储有控件信息序列,该计算机可读指令被处理器执行时,可使得处理器实现一种代谢物标记法。该计算机设备的处理器用于提供计算和控制能力,支撑整个计算机设备的运行。该计算机设备的存储器中可存储有计算机可读指令,该计算机可读指令被处理器执行时,可使得处理器执行一种代谢物标记法。该计算机设备的网络接口用于与终端连接通信。本领域技术人员可以理解,图9中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定,具体的计算机设备可以包括比图中所示更多或更少的部件,或者组合某些部件,或者具有不同的部件布置。

本实施方式中处理器用于执行图8中获取模块1100、采集模块1200、处理模块1300、融合模块1400和读取模块1500的具体功能,存储器存储有执行上述模块所需的程序代码和各类数据。网络接口用于向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有人脸图像关键点检测装置中执行所有子模块所需的程序代码及数据,服务器能够调用服务器的程序代码及数据执行所有子模块的功能。

计算机设备通过将带标记代谢物的分子结构式,进行原子特征提取,并将原子之间化学连接关系转化为邻接关系,进而将邻接关系转换为邻接矩阵。将邻接矩阵和原子的节点矩阵进行矩阵融合,得到代谢物的全量矩阵,通过将融合矩阵进行神经网络分类,快速的得到代谢物的质谱图,完成对代谢物的质谱图标记,提高了质谱图的标记效率,由于,连接关系和节点特征的融合,能够使标记模型提取到更多的区别信息使分类结果更加准确。

本发明还提供一种存储有计算机可读指令的存储介质,计算机可读指令被一个或多个处理器执行时,使得一个或多个处理器执行上述任一实施例代谢物标记法的步骤。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程,是可以通过计算机程序来指令相关的硬件来完成,该计算机程序可存储于一计算机可读取存储介质中,该程序在执行时,可包括如上述各方法的实施例的流程。其中,前述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory,ROM)等非易失性存储介质,或随机存储记忆体(Random Access Memory,RAM)等。

本技术领域技术人员可以理解,本申请中已经讨论过的各种操作、方法、流程中的步骤、措施、方案可以被交替、更改、组合或删除。进一步地,具有本申请中已经讨论过的各种操作、方法、流程中的其他步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。进一步地,现有技术中的具有与本申请中公开的各种操作、方法、流程中的步骤、措施、方案也可以被交替、更改、重排、分解、组合或删除。

以上所述仅是本申请的部分实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本申请原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也应视为本申请的保护范围。

24页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种基于网络药理学解析岩藻多糖抗肝损伤作用机制的方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!