耐药性关键基因筛选方法、装置、电子设备及存储介质

文档序号:1629547 发布日期:2020-01-14 浏览:37次 >En<

阅读说明:本技术 耐药性关键基因筛选方法、装置、电子设备及存储介质 (Drug resistance key gene screening method and device, electronic equipment and storage medium ) 是由 孙小强 于 2019-09-26 设计创作,主要内容包括:本发明涉及一种耐药性关键基因筛选方法、装置、电子设备及存储介质,属于医学领域。该方法包括获取耐药细胞中与目标性状对应的第一转录组,获取敏感细胞中与所述目标性状对应的第二转录组;根据基因的差异表达以及基因之间的相互作用关系,针对第一转录组,得到耐药基因调控网络,针对第二转录组,得到敏感基因调控网络;根据所述耐药基因调控网络与所述敏感基因调控网络之间的差异,得到包括多个节点的差异调控网络,每个所述节点用于表征耐药基因;计算所述差异调控网络所包括的每个节点的重要性值,根据差异网络中节点的重要性值对基因进行排序,从而确定耐药性关键基因。通过该方法所获得的耐药性关键基因的准确率更高。(The invention relates to a drug resistance key gene screening method, a drug resistance key gene screening device, electronic equipment and a storage medium, and belongs to the field of medicine. The method comprises the steps of obtaining a first transcriptome corresponding to a target character in a drug-resistant cell, and obtaining a second transcriptome corresponding to the target character in a sensitive cell; according to the differential expression of the genes and the interaction relation among the genes, aiming at a first transcriptome, a drug-resistant gene regulation network is obtained, and aiming at a second transcriptome, a sensitive gene regulation network is obtained; obtaining a difference regulation and control network comprising a plurality of nodes according to the difference between the drug-resistant gene regulation and control network and the sensitive gene regulation and control network, wherein each node is used for representing a drug-resistant gene; and calculating the importance value of each node included in the difference regulation and control network, and sequencing the genes according to the importance values of the nodes in the difference regulation and control network so as to determine the drug resistance key genes. The accuracy of the drug resistance key gene obtained by the method is higher.)

耐药性关键基因筛选方法、装置、电子设备及存储介质

技术领域

本申请属于医学领域,具体涉及一种耐药性关键基因筛选方法、装置、电子设备及存储介质。

背景技术

肿瘤细胞对治疗药物产生耐药性是临床肿瘤治疗中不可避免的事件,其限制了药物治疗的效果,从而影响癌症的治愈,因此,有必要筛选出对肿瘤细胞的耐药性产生关键影响的耐药性关键基因进行研究。

在现有的基于基因的转录组数据来筛选耐药性关键基因的方法中,一般采用基因差异表达分析法。然而,基因差异表达分析法只考虑了基因的表达水平的差异而没有考虑基因之间的相互作用,使得最后得到的耐药性关键基因的准确率不高。

发明内容

有鉴于此,本申请的目的在于提供一种耐药性关键基因筛选方法、装置、电子设备及存储介质,基于基因在时序上的动态变化以及基因之间的相互作用关系来得到差异调控网络,最后得到准确率较高的耐药性关键基因。

本申请的实施例是这样实现的:

第一方面,本申请实施例提供一种耐药性关键基因筛选方法,所述方法包括:获取耐药细胞中与目标性状对应的第一转录组,获取敏感细胞中与所述目标性状对应的第二转录组;根据基因的差异表达以及基因之间的相互作用关系,针对第一转录组,得到耐药基因调控网络,针对第二转录组,得到敏感基因调控网络;根据所述耐药基因调控网络与所述敏感基因调控网络之间的差异,得到包括多个节点的差异调控网络,每个所述节点用于表征耐药基因;计算所述差异调控网络所包括的每个节点的重要性值,并根据得到的多个重要性值的大小关系进行排序,确定耐药性关键基因。由于在筛选耐药性关键基因的过程中,既考虑到耐药细胞以及敏感细胞中与目标性状对应的基因在时序上的动态变化,也考虑到基因之间的相互作用关系,因此,最后得到耐药性关键基因的准确度更高。

结合第一方面实施例,在一种可能的实施方式中,所述根据基因的差异表达以及基因之间的相互作用关系,针对第一转录组,得到耐药基因调控网络,针对第二转录组,得到敏感基因调控网络,包括:根据基因在一段时间内的最大表达量与阈值之间的关系,从所述第一转录组中筛选出第一组时序变化基因,从所述第二转录组中筛选出第二组时序变化基因;分别计算所述第一组时序变化基因之间的相互作用程度及所述第二组时序变化基因之间的相互作用程度,得到第一相互作用系数矩阵及第二相互作用系数矩阵;根据所述第一相互作用系数矩阵,得到所述耐药基因调控网络,根据所述第二相互作用系数矩阵,得到所述敏感基因调控网络。

结合第一方面实施例,在一种可能的实施方式中,所述阈值包括第一阈值及第二阈值,所述根据基因在一段时间内的最大表达量与阈值之间的关系,从所述第一转录组中筛选出第一组时序变化基因,从所述第二转录组中筛选出第二组时序变化基因,包括:

针对所述第一转录组中的某个基因,当该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不小于所述第二阈值时,或者该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不大于所述第二阈值的倒数时,确定该基因为所述第一转录组中的所述第一组时序变化基因;针对所述第二转录组中的某个基因,当该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不小于所述第二阈值时,或者该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不大于所述第二阈值的倒数时,确定该基因为所述第二转录组中的所述第二组时序变化基因。

结合第一方面实施例,在一种可能的实施方式中,所述分别计算所述第一组时序变化基因之间的相互作用程度及所述第二组时序变化基因之间的相互作用程度,得到第一相互作用系数矩阵及第二相互作用系数矩阵,包括:构建用于表征基因之间相互作用程度的常微分模型其中,

Figure BDA0002215779410000032

xi表示第i个基因的时序表达量,

Figure BDA0002215779410000033

表示从基因j到基因i的调控系数,bi表示降解常数,表示先验信息;通过LASSO回归算法估算所述常微分模型中每两个第一组时序变化基因之间的调控系数,得到所述第一相互作用系数矩阵;通过所述LASSO回归算法估算所述常微分模型中每两个第二组时序变化基因之间的调控系数,得到所述第二相互作用系数矩阵。

结合第一方面实施例,在一种可能的实施方式中,所述根据所述第一相互作用系数矩阵,得到耐药基因调控网络,根据所述第二相互作用系数矩阵,得到敏感基因调控网络,包括:根据贝叶斯准则筛选出所述第一相互作用系数矩阵中表征作用程度显著的值确定为第一结果值,根据贝叶斯准则筛选出所述第二相互作用系数矩阵中表征作用程度显著的值确定为第二结果值;将每个所述第一结果值所涉及到的两个基因用两个节点进行表示,并在所述两个节点之间建立连线,得到所述耐药基因调控网络,将每个所述第二结果值所涉及到的两个基因用两个节点进行表示,并在所述两个节点之间建立连线,得到所述敏感基因调控网络。

结合第一方面实施例,在一种可能的实施方式中,所述根据所述耐药基因调控网络与所述敏感基因调控网络之间的差异,得到包括多个节点的差异调控网络,每个所述节点用于表征耐药基因,包括:将所述耐药基因调控网络与所述敏感基因调控网络进行比对;筛选出存在于所述耐药基因调控网络且不存在于所述敏感基因调控网络中的连线以及与筛选出的连线相关联的节点,得到所述差异调控网络。

结合第一方面实施例,在一种可能的实施方式中,所述计算所述差异调控网络所包括的每个节点的重要性值,得到多个重要性值,包括:基于公式

Figure BDA0002215779410000041

计算所述差异调控网络所包括的每个节点的重要性值,其中,ri H表征第i个节点所对应的基因在所述差异调控网络的邻接矩阵中所对应的奇异值,ri S表征第i个节点所对应的基因在所述耐药基因调控网络中的网络熵与在所述敏感基因调控网络中的网络熵的差,

Figure BDA0002215779410000042

表征第i个节点所对应的基因在所述差异调控网络中的适应值,

Figure BDA0002215779410000043

Figure BDA0002215779410000044

分别表示第i个节点所对应的基因在敏感细胞和耐药细胞中的基因表达的动态变化的差异,

Figure BDA0002215779410000045

表示第i个节点所对应的基因在所述敏感细胞中的时间点为T时的基因表达量,

Figure BDA0002215779410000046

表示第i个节点所对应的基因在所述耐药细胞中的时间点为T时的基因表达量。

第二方面,本申请实施例提供一种耐药性关键基因筛选装置,所述装置包括:获取模块,用于获取耐药细胞中与目标性状对应的第一转录组,获取敏感细胞中与所述目标性状对应的第二转录组;确定模块,用于根据基因的差异表达以及基因之间的相互作用关系,针对第一转录组,得到耐药基因调控网络,针对第二转录组,得到敏感基因调控网络;所述确定模块,还用于根据所述耐药基因调控网络与所述敏感基因调控网络之间的差异,得到包括多个节点的差异调控网络,每个所述节点用于表征耐药基因;计算模块,还用于计算所述差异调控网络所包括的每个节点的重要性值,并根据得到的多个重要性值的大小关系进行排序,确定耐药性关键基因。

结合第二方面实施例,在一种可能的实施方式中,所述确定模块,用于根据基因在一段时间内的最大表达量与阈值之间的关系,从所述第一转录组中筛选出第一组时序变化基因,从所述第二转录组中筛选出第二组时序变化基因;分别计算所述第一组时序变化基因之间的相互作用程度及所述第二组时序变化基因之间的相互作用程度,得到第一相互作用系数矩阵及第二相互作用系数矩阵;根据所述第一相互作用系数矩阵,得到所述耐药基因调控网络,根据所述第二相互作用系数矩阵,得到所述敏感基因调控网络。

结合第二方面实施例,在一种可能的实施方式中,所述阈值包括第一阈值及第二阈值,所述确定模块,用于针对所述第一转录组中的某个基因,当该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不小于所述第二阈值时,或者该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不大于所述第二阈值的倒数时,确定该基因为所述第一转录组中的所述第一组时序变化基因;针对所述第二转录组中的某个基因,当该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不小于所述第二阈值时,或者该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不大于所述第二阈值的倒数时,确定该基因为所述第二转录组中的所述第二组时序变化基因。

结合第二方面实施例,在一种可能的实施方式中,所述确定模块,用于构建用于表征基因之间相互作用程度的常微分模型

Figure BDA0002215779410000061

其中,xi表示第i个基因的时序表达量,

Figure BDA0002215779410000064

表示从基因j到基因i的调控系数,bi表示降解常数,

Figure BDA0002215779410000065

表示先验信息;通过LASSO回归算法估算所述常微分模型中每两个第一组时序变化基因之间的调控系数,得到所述第一相互作用系数矩阵;通过所述LASSO回归算法估算所述常微分模型中每两个第二组时序变化基因之间的调控系数,得到所述第二相互作用系数矩阵。

结合第二方面实施例,在一种可能的实施方式中,所述确定模块,用于根据贝叶斯准则筛选出所述第一相互作用系数矩阵中表征作用程度显著的值确定为第一结果值,根据贝叶斯准则筛选出所述第二相互作用系数矩阵中表征作用程度显著的值确定为第二结果值;将每个所述第一结果值所涉及到的两个基因用两个节点进行表示,并在所述两个节点之间建立连线,得到所述耐药基因调控网络,将每个所述第二结果值所涉及到的两个基因用两个节点进行表示,并在所述两个节点之间建立连线,得到所述敏感基因调控网络。

结合第二方面实施例,在一种可能的实施方式中,所述确定模块,用于将所述耐药基因调控网络与所述敏感基因调控网络进行比对;筛选出存在于所述耐药基因调控网络且不存在于所述敏感基因调控网络中的连线以及与筛选出的连线相关联的节点,得到所述差异调控网络。

结合第二方面实施例,在一种可能的实施方式中,所述计算模块,用于基于公式

Figure BDA0002215779410000063

计算所述差异调控网络所包括的每个节点的重要性值,其中,ri H表征第i个节点所对应的基因在所述差异调控网络的邻接矩阵中所对应的奇异值,ri S表征第i个节点所对应的基因在所述耐药基因调控网络中的网络熵与在所述敏感基因调控网络中的网络熵的差,表征第i个节点所对应的基因在所述差异调控网络中的适应值,

Figure BDA0002215779410000073

分别表示第i个节点所对应的基因在敏感细胞和耐药细胞中的基因表达的动态变化的差异,

Figure BDA0002215779410000074

表示第i个节点所对应的基因在所述敏感细胞中的时间点为T时的基因表达量,表示第i个节点所对应的基因在所述耐药细胞中的时间点为T时的基因表达量。

第三方面,本申请实施例还提供一种电子设备包括:存储器和处理器,所述存储器和所述处理器连接;所述存储器用于存储程序;所述处理器调用存储于所述存储器中的程序,以执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

第四方面,本申请实施例还提供一种非易失性计算机可读取存储介质(以下简称存储介质),其上存储有计算机程序,所述计算机程序被计算机运行时执行上述第一方面实施例和/或结合第一方面实施例的任一种可能的实施方式提供的方法。

本申请的其他特征和优点将在随后的说明书阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请实施例而了解。本申请的目的和其他优点可通过在所写的说明书以及附图中所特别指出的结构来实现和获得。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。通过附图所示,本申请的上述及其它目的、特征和优势将更加清晰。在全部附图中相同的附图标记指示相同的部分。并未刻意按实际尺寸等比例缩放绘制附图,重点在于示出本申请的主旨。

图1示出本申请实施例提供的耐药性关键基因筛选方法的流程图之一。

图2示出本申请实施例提供的耐药性关键基因筛选方法的流程图之二。

图3A示出本申请实施例提供的敏感基因调控网络的示意图。

图3B示出本申请实施例提供的耐药基因调控网络的示意图。

图4示出本申请实施例提供的差异调控网络的示意图。

图5示出本申请实施例提供的耐药性关键基因筛选装置的结构框图。

图6示出本申请实施例提供的电子设备的结构示意图。

具体实施方式

下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行描述。

应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中诸如“第一”、“第二”等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

再者,本申请中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。

本申请实施例提供一种耐药性关键基因筛选方法、装置、电子设备及存储介质,先基于基因在时序上的动态变化以及基因之间的相互作用关系来得到差异调控网络,然后根据差异调控网络得到准确率较高的耐药性关键基因。该技术可采用相应的软件、硬件以及软硬结合的方式实现。以下对本申请实施例进行详细介绍。

下面将针对本申请所提供的耐药性关键基因筛选方法进行介绍。

请参阅图1,本申请实施例提供一种耐药性关键基因筛选方法。下面将结合图1对其所包含的步骤进行说明。

步骤S110:获取耐药细胞中与目标性状对应的第一转录组,获取敏感细胞中与所述目标性状对应的第二转录组。

其中,目标性状指肿瘤,耐药细胞指对肿瘤药物产生耐药性的肿瘤细胞;敏感细胞指对肿瘤药物较为敏感,未产生耐药性的肿瘤细胞。

肿瘤细胞中导致肿瘤产生的基因组(即导致肿瘤的产生的基因可能不止一个)有哪些以及一个肿瘤细胞是耐药细胞还是敏感细胞的判定不是本申请所要解决的问题。

于本申请中,在获取数据之前,已经明确哪些细胞是敏感细胞,哪些细胞是耐药细胞。在明确上述信息后,电子设备分别获取耐药细胞中的转录组并确定为第一转录组,获取敏感细胞中的转录组并确定为第二转录组。

值得指出的是,针对转录组中的每个基因,电子设备所获取到的信息包括基因名字、该基因在一段时间内的各个时间点的基因表达量。

步骤S120:根据基因的差异表达以及基因之间的相互作用关系,针对第一转录组,得到耐药基因调控网络,针对第二转录组,得到敏感基因调控网络。

其中,基因的差异表达指同一个基因在不同时间点的基因表达量之间的差异。

基因之间的相互作用关系指导致同一性状(例如导致肿瘤耐药)的不同基因之间的相互作用。

其中,请参看图2,针对步骤S120,可以包括以下步骤:

步骤S121:根据基因在一段时间内的最大表达量与阈值之间的关系,从所述第一转录组中筛选出第一组时序变化基因,从所述第二转录组中筛选出第二组时序变化基因。

于本申请实施例中,阈值可以包括第一阈值ζ及第二阈值δ。可选的,第一阈值可以设置为10,第二阈值可以设置为5。

在筛选时序变化基因(Temporal Changing Gene,TCG)时,当某个基因uk(k=0,1,…,K,其中,k表示时间点的编号)至少满足以下两个条件时,可以确定该基因为时序变化基因,条件如下。

(a)

Figure BDA0002215779410000101

(b)

Figure BDA0002215779410000102

或者

Figure BDA0002215779410000103

其中,(a)表征基因uk在一段时间内的最大基因表达量不小于ζ,(b)表征基因uk在上述一段时间内的至少两个时间点的基因表达量之商不小于δ或者不大于

Figure BDA0002215779410000104

因此,在针对第一转录组筛选第一组时序变化基因时,可以通过校验第一转录组中的每个基因,当某个基因满足上述两个条件时,确定该基因为第一组时序变化基因。在针对第二转录组筛选第一组时序变化基因时,可以通过校验第二转录组中的每个基因,当某个基因满足上述两个条件时,确定该基因为第二组时序变化基因。

步骤S122:分别计算所述第一组时序变化基因之间的相互作用程度及所述第二组时序变化基因之间的相互作用程度,得到第一相互作用系数矩阵及第二相互作用系数矩阵。

在得到TCG后,可以通过如下方法确定各个TCG之间的相互作用程度,得到相互作用系数矩阵。

首先,电子设备可以构建用于表征基因之间相互作用程度的常微分(OrdinaryDifferential Equation,ODE)模型:

Figure BDA0002215779410000111

其中,

Figure BDA0002215779410000112

xi表示第i个基因的时序表达量,xj表示第j个基因的时序表达量,L表示TCG基因的数目,

Figure BDA0002215779410000113

表示从基因j到基因i的调控系数,bi表示降解常数,

Figure BDA0002215779410000114

表示先验信息。

在进行上述定义后,可以基于回归的思想,求解

Figure BDA0002215779410000115

通过将不同的TCG代入上述模型,得到各个TCG之间的调控系数(即相互作用程度)。

求解

Figure BDA0002215779410000116

的过程可以采用如下方式。

采用差分法逼近导数得到

Figure BDA0002215779410000118

并记其中,xi(tk)表示基因xi在时间点为k时的基因表达量,且此处假设tk+1-tk足够小。因此,上述ODE模型可以变形为如下线性回归形式:

Figure BDA00022157794100001110

假设Y=(Yi,k)L×k=(yi(tk))L×k,X=(Xj,k)L×k=(xj(tk))L×k,E=(eij)L×L,A=(aij)L×L及B=diag(bi),那么上述回归形式可以写为Y=(EoA)X+B+ε。其中,i以及j指不同的基因,k指时间点,o指矩阵之间进行点乘,ε=(ε12,…,εL)T表示数据中的噪声。

采用LASSO回归的方法估算Y=(EoA)X+B+ε中的参数:

Figure BDA0002215779410000121

此处,λi为惩罚权重。采用R包glmnet对以上模型进行求解,即可估算出

Figure BDA0002215779410000122

其中,算出的

Figure BDA0002215779410000123

有正有负。

因此,分别将第一组时序变化基因中的每个基因代入上述fi(x1,x2,…,xL),即可得到第一组时序变化基因之间的各个调控系数,最终确定第一组时序变化基因之间的第一相互作用系数矩阵。分别将第二组时序变化基因中的每个基因代入上述fi(x1,x2,…,xL),即可得到第二组时序变化基因之间的各个调控系数,最终确定第二组时序变化基因之间的第二相互作用系数矩阵。

在将时序变化基因代入上述fi(x1,x2,…,xL)时,时序变化基因中的每个基因在上述一段时间内数据点(以时间点为单位的基因表达量)可能会存在数量不足的情况。为了解决这个问题,作为一种可选的实施方式,可以使用分片三次Hermit插值对以上时序变化基因中的每个基因进行插值,以获取更多的数据点,例如针对每个基因,可以通过插值获得均匀的100个点,尽可能地保证后续计算得到

Figure BDA0002215779410000124

的准确性。其中,分片三次Hermit插值为现有技术,此处不再赘述。

步骤S123:根据所述第一相互作用系数矩阵,得到所述耐药基因调控网络,根据所述第二相互作用系数矩阵,得到所述敏感基因调控网络。

在得到第一相互作用系数矩阵后,作为一种可选的实施方式,可以将第一相互作用系数矩阵所包括的每个调控系数所涉及到的两个基因用两个节点进行表示,并在这两个节点之间建立连线,最后得到耐药基因调控网络。

同理,可以将第二相互作用系数矩阵所包括的每个调控系数所涉及到的两个基因用两个节点进行表示,并在这两个节点之间建立连线,最后得到敏感基因调控网络。

如图3A以及图3B所示,图中,每个节点用一个圆点来表示。当然,图中用于表示节点的符号只是示意性的,可以理解,也可以用其他符号(例如三角形)来表示节点。

作为另一种可选的实施方式,还可以根据贝叶斯准则从第一相互作用系数矩阵中筛选出表征作用程度显著的值确定为第一结果值,然后将每个第一结果值所涉及到的两个基因用两个节点进行表示,并在这两个节点之间建立连线,最后得到耐药基因调控网络。

同理,根据贝叶斯准则从第二相互作用系数矩阵中筛选出表征作用程度显著的值确定为第二结果值,然后将每个第二结果值所涉及到的两个基因用两个节点进行表示,并在这两个节点之间建立连线,最后得到敏感基因调控网络。

其中,贝叶斯准则为现有技术,此处不再赘述。其中,当某个调控系数的值大于通过贝叶斯准则所计算得到的作用程度阈值时,表征该调控系数的作用程度显著。

步骤S130:根据所述耐药基因调控网络与所述敏感基因调控网络之间的差异,得到包括多个节点的差异调控网络,每个所述节点用于表征耐药基因。

在得到耐药基因调控网络以及敏感基因调控网络后,可以将两者进行比对,筛选出存在于耐药基因调控网络且不存在于敏感基因调控网络中的连线以及与筛选出的连线相关联的节点,筛选出连线以及与筛选出的连线相关联的节点即为差异调控网络。

例如,当筛选出存在于图3B中的耐药基因调控网络且不存在于图3A中的敏感基因调控网络中的连接以及与筛选出的连线相关联的节点时,即可得到图4所示的差异调控网络。

步骤S140:计算所述差异调控网络所包括的每个节点的重要性值,并根据得到的多个重要性值的大小关系进行排序,以确定耐药性关键基因。

其中,每个节点的重要性值可以通过该节点对应的基因在差异调控网络中的枢纽值、网络熵以及适应值来表示。

下面将以某个节点所对应的基因为基因i为例,分别介绍其在差异调控网络中的枢纽值、网络熵以及适应值。

基因i在差异调控网络的枢纽值即为其在差异调控网络的邻接矩阵中所对应的奇异值(即最大特征值对应的特征向量),用ri H表示。

基因i在差异调控网络的网络熵即为基因i在耐药基因调控网络中的网络熵与基因i在敏感基因调控网络中的网络熵的差,用ri S表示。其中,基因i在耐药基因调控网络或者在敏感基因调控网络中的网络熵的计算公式为

Figure BDA0002215779410000141

N(i)是基因i所对应的节点的邻居节点(与节点A之间存在连线的节点为节点A的邻居节点)的个数,

Figure BDA00022157794100001411

表示从基因j到基因i的调控系数。因此,基因i在差异调控网络中的网络熵ri S其中

Figure BDA0002215779410000143

Figure BDA0002215779410000144

分别表示基因i在敏感基因调控网络和耐药基因调控网络中的网络熵。

基因i在差异调控网络的适应值用ri D表示。其中,

Figure BDA0002215779410000145

Figure BDA0002215779410000146

Figure BDA0002215779410000147

分别表示基因i在敏感细胞和耐药细胞中的基因表达的动态变化的差异。

Figure BDA0002215779410000148

表示第i个节点所对应的基因在所述敏感细胞中的时间点为T时的基因表达量,表示第i个节点所对应的基因在所述耐药细胞中的时间点为T时的基因表达量。

Figure BDA00022157794100001410

表示第i个节点所对应的基因在所述敏感细胞中的时间点为0时的基因表达量,表示第i个节点所对应的基因在所述耐药细胞中的时间点为0时的基因表达量。其中,

Figure BDA0002215779410000152

Figure BDA0002215779410000153

在步骤S110获取第一转录组以及第二转录组时获取到。

在得到每个基因在差异调控网络中的枢纽值、网络熵以及适应值后,可以基于公式

Figure BDA0002215779410000154

计算该基因在差异调控网络中的重要性值。

在得到每个基因对应的重要性值后,作为一种可选的实施方式,可以将按照重要值的数值按照从大到小的顺序进行排序,并将排序位于前M位的基因确定为耐药性关键基因。其中,M可以根据实际情况进行设置。

本申请实施例所提供的一种耐药性关键基因筛选方法,在筛选耐药性关键基因的过程中,既考虑到耐药细胞以及敏感细胞中与目标性状对应的基因在时序上的动态变化,也考虑到基因之间的相互作用关系,并根据基因在时序上的动态变化以及基因之间的相互作用关系,得到耐药细胞与敏感细胞中基因的差异调控网络。因此,最后基于差异调控网络得到耐药性关键基因的准确度更高。

此外,如图5所示,本申请实施例还提供一种耐药性关键基因筛选装置400,耐药性关键基因筛选装置400可以包括:获取模块410、确定模块420以及计算模块430。

获取模块410,用于获取耐药细胞中与目标性状对应的第一转录组,获取敏感细胞中与所述目标性状对应的第二转录组;

确定模块420,用于根据基因的差异表达以及基因之间的相互作用关系,针对第一转录组,得到耐药基因调控网络,针对第二转录组,得到敏感基因调控网络;

所述确定模块420,还用于根据所述耐药基因调控网络与所述敏感基因调控网络之间的差异,得到包括多个节点的差异调控网络,每个所述节点用于表征耐药基因;

计算模块430,还用于计算所述差异调控网络所包括的每个节点的重要性值,并根据得到的多个重要性值的大小关系进行排序,以确定耐药性关键基因。

可选的,所述确定模块420,用于根据基因在一段时间内的最大表达量与阈值之间的关系,从所述第一转录组中筛选出第一组时序变化基因,从所述第二转录组中筛选出第二组时序变化基因;分别计算所述第一组时序变化基因之间的相互作用程度及所述第二组时序变化基因之间的相互作用程度,得到第一相互作用系数矩阵及第二相互作用系数矩阵;根据所述第一相互作用系数矩阵,得到所述耐药基因调控网络,根据所述第二相互作用系数矩阵,得到所述敏感基因调控网络。

可选的,所述阈值包括第一阈值及第二阈值,所述确定模块420,用于针对所述第一转录组中的某个基因,当该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不小于所述第二阈值时,或者该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不大于所述第二阈值的倒数时,确定该基因为所述第一转录组中的所述第一组时序变化基因;针对所述第二转录组中的某个基因,当该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不小于所述第二阈值时,或者该基因在某段时间内的最大表达量大于所述第一阈值且该基因至少在两个时间点的基因表达量之商不大于所述第二阈值的倒数时,确定该基因为所述第二转录组中的所述第二组时序变化基因。

可选的,所述确定模块420,用于构建用于表征基因之间相互作用程度的常微分模型其中,

Figure BDA0002215779410000171

xi表示第i个基因的时序表达量,L表示TCG基因的数目,

Figure BDA0002215779410000172

表示从基因j到基因i的调控系数,bi表示降解常数,

Figure BDA0002215779410000173

表示先验信息;通过LASSO回归算法估算所述常微分模型中每两个第一组时序变化基因之间的调控系数,得到用于表征所述调控系数的第一相互作用系数矩阵;通过所述LASSO回归算法估算所述常微分模型中每两个第二组时序变化基因之间的调控系数,得到用于表征所述调控系数的第二相互作用系数矩阵。

可选的,所述确定模块420,用于根据贝叶斯准则筛选出所述第一相互作用系数矩阵中表征作用程度显著的值确定为第一结果值,根据贝叶斯准则筛选出所述第二相互作用系数矩阵中表征作用程度显著的值确定为第二结果值;将每个所述第一结果值所涉及到的两个基因用两个节点进行表示,并在所述两个节点之间建立连线,得到所述耐药基因调控网络,将每个所述第二结果值所涉及到的两个基因用两个节点进行表示,并在所述两个节点之间建立连线,得到所述敏感基因调控网络。

可选的,所述确定模块420,用于将所述耐药基因调控网络与所述敏感基因调控网络进行比对;筛选出存在于所述耐药基因调控网络且不存在于所述敏感基因调控网络中的连线以及与筛选出的连线相关联的节点,得到所述差异调控网络。

可选的,所述计算模块430,用于基于公式计算所述差异调控网络所包括的每个节点的重要性值,其中,ri H表征第i个节点所对应的基因在所述差异调控网络的邻接矩阵中所对应的奇异值,ri S表征第i个节点所对应的基因在所述耐药基因调控网络中的网络熵与在所述敏感基因调控网络中的网络熵的差,

Figure BDA0002215779410000181

表征第i个节点所对应的基因在所述差异调控网络中的适应值,

Figure BDA0002215779410000182

Figure BDA0002215779410000183

分别表示第i个节点所对应的基因在敏感细胞和耐药细胞中的基因表达的动态变化的差异,

Figure BDA0002215779410000184

表示第i个节点所对应的基因在所述敏感细胞中的时间点为T时的基因表达量,

Figure BDA0002215779410000185

表示第i个节点所对应的基因在所述耐药细胞中的时间点为T时的基因表达量。

本申请实施例所提供的耐药性关键基因筛选装置400,其实现原理及产生的技术效果和前述方法实施例相同,为简要描述,装置实施例部分未提及之处,可参考前述方法实施例中相应内容。

此外,本申请实施例还提供一种存储介质,该存储介质上存储有计算机程序,该计算机程序被计算机运行时,执行如上述的耐药性关键基因筛选方法所包含的步骤。

此外,请参看图6,本申请实施例还提供一种用于实现本申请实施例的耐药性关键基因筛选方法、装置的电子设备100。电子设备100可以为是,但不限于高性能计算机、工作站、个人电脑(Personal computer,PC)、智能手机、平板电脑、移动上网设备(MobileInternet Device,MID)、个人数字助理等设备。

其中,电子设备100可以包括:处理器110、存储器120、显示屏130。

应当注意,图6所示的电子设备100的组件和结构只是示例性的,而非限制性的,根据需要,电子设备100也可以具有其他组件和结构。

处理器110、存储器120、显示屏130以及其他可能出现于电子设备100的组件相互之间直接或间接地电性连接,以实现数据的传输或交互。例如,处理器110、存储器120、显示屏130以及其他可能出现的组件相互之间可通过一条或多条通讯总线或信号线实现电性连接。

存储器120用于存储程序,例如存储有前文出现的耐药性关键基因筛选方法对应的程序或者后文出现的耐药性关键基因筛选装置。可选的,当存储器120内存储有耐药性关键基因筛选装置时,耐药性关键基因筛选装置包括至少一个可以以软件或固件(firmware)的形式存储于存储器120中的软件功能模块。

可选的,耐药性关键基因筛选装置所包括软件功能模块也可以固化在电子设备100的操作系统(operating system,OS)中。

处理器110用于执行存储器120中存储的可执行模块,例如耐药性关键基因筛选装置包括的软件功能模块或计算机程序。当处理器110在接收到执行指令后,可以执行计算机程序,例如执行:获取耐药细胞中与目标性状对应的第一转录组,获取敏感细胞中与所述目标性状对应的第二转录组;根据基因的差异表达以及基因之间的相互作用关系,针对第一转录组,得到耐药基因调控网络,针对第二转录组,得到敏感基因调控网络;根据所述耐药基因调控网络与所述敏感基因调控网络之间的差异,得到包括多个节点的差异调控网络,每个所述节点用于表征耐药基因;计算所述差异调控网络所包括的每个节点的重要性值,并根据得到的多个重要性值的大小关系进行排序,确定耐药性关键基因。

当然,本申请任一实施例所揭示的方法都可以应用于处理器110中,或者由处理器110实现。

综上所述,本发明实施例提出的耐药性关键基因筛选方法、装置、电子设备及存储介质,在筛选耐药性关键基因的过程中,既考虑到耐药细胞以及敏感细胞中与目标性状对应的基因在时序上的动态变化,也考虑到基因之间的相互作用关系,并基因在时序上的动态变化以及基因之间的相互作用关系,得到耐药细胞与敏感细胞中基因的差异调控网络。因此,最后基于差异调控网络得到耐药性关键基因的准确度更高。

需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。

在本申请所提供的几个实施例中,应该理解到,所揭露的装置和方法,也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的,例如,附图中的流程图和框图显示了根据本申请的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上,流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分,所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意,在有些作为替换的实现方式中,方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如,两个连续的方框实际上可以基本并行地执行,它们有时也可以按相反的顺序执行,这依所涉及的功能而定。也要注意的是,框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合,可以用执行规定的功能或动作的专用的基于硬件的系统来实现,或者可以用专用硬件与计算机指令的组合来实现。

另外,在本申请各个实施例中的各功能模块可以集成在一起形成一个独立的部分,也可以是各个模块单独存在,也可以两个或两个以上模块集成形成一个独立的部分。

所述功能如果以软件功能模块的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,笔记本电脑,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,Read-OnlyMemory)、随机存取存储器(RAM,Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述,仅为本申请的具体实施方式,但本申请的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本申请揭露的技术范围内,可轻易想到变化或替换,都应涵盖在本申请的保护范围之内。

20页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:用于预测基因组变异对前mRNA剪接的影响的系统和方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!