一种基于网络融合与图嵌入的病毒-宿主关联预测方法

文档序号：191713 发布日期：2021-11-02 浏览：24次 >En<

阅读说明：本技术 一种基于网络融合与图嵌入的病毒-宿主关联预测方法 (Virus-host correlation prediction method based on network fusion and graph embedding ) 是由朱强代庆辉李丽胡新荣于 2021-07-06 设计创作，主要内容包括：本发明公开了一种基于网络融合与图嵌入的病毒-宿主关联预测方法,通过使用相似网络融合方法和图嵌入方法分别构造了两种病毒-病毒相似网络和宿主-宿主相似网络,并提出一种图挖掘的方式,即从图中提取元路径得分,基于这种图挖掘的方式可从两种网络上获取每对病毒-宿主的特征向量,最后使用机器学习的方法来获得最终的结果。本发明在现有数据集上实现了较高的精确度,相比于其他方法表现比较稳定,由本发明预测一些病毒-宿主关联关系,部分在已发表的论文和数据库中得到了验证,并且本发明的计算方法预测出了在已知文献或数据库中没有的、且全新的病毒宿主关联关系,这些新的病毒-宿主关系可为实验验证提供有效指导。(The invention discloses a virus-host correlation prediction method based on network fusion and graph embedding, which constructs two virus-virus similar networks and host-host similar networks respectively by using a similar network fusion method and a graph embedding method, and provides a graph mining method, namely extracting a meta-path score from a graph, acquiring a feature vector of each pair of virus-host from the two networks based on the graph mining method, and finally obtaining a final result by using a machine learning method. The invention realizes higher accuracy on the existing data set, and has more stable performance compared with other methods, the invention predicts some virus-host association relations, and is verified in some published papers and databases, and the calculation method of the invention predicts the brand new virus-host association relations which are not available in the known documents or databases, and the new virus-host relations can provide effective guidance for experimental verification.)

技术领域

本发明属于生物信息学、计算生物学、人工智能交叉领域，具体涉及一种基于网络融合与图嵌入的病毒-宿主关联预测方法。

背景技术

病毒依赖宿主生存，在群落结构和功能中扮演重要角色，但病毒种类繁多并且它与宿主的关系呈多样化。传统实验方法探寻病毒与其宿主的关系，不仅实验花费昂贵，试验周期长，而且可能出现不确定因素影响实验结果，进而导致成功率低，由此需要发现更高效和准确的方法。因此，基于数学模型以预测病毒与宿主相互作用的计算方法，已经受到了越来越多的关注。由于病毒和宿主都面临自然选择压力，它们不断地进行竞争，宿主需进化出对病毒的抗性以抵御被感染，而病毒如不能感染宿主就无法生存，最终结果可能是病毒将其基因整合到宿主中，可利用这种信息来识别病毒的宿主，即病毒与宿主存在相关作用关系。

面对传统基于实验探求病毒宿主关联的局限性，研究人员提出了基于计算机模拟的预测病毒与宿主相互作用的技术以预测病毒与宿主的新关联关系，需要引入已知的病毒与宿主的关联，甚至需要病毒与病毒相互关联，宿主与宿主的相互关联。在样本或群落中，微生物-微生物(细菌、病毒等)之间为了营养或领地而出现互生、寄生、拮抗等关系而形成多种相互作用的复杂网络，称为异构网络。异构网络的节点为细菌和病毒，细菌-细菌、病毒-病毒、细菌-病毒有多种相互作用关系从而形成异构网络的边，难点在于融合各种不同类型节点或边的信息以更准确地预测病毒的宿主。传统异构网络挖掘过程通常从提取结构特征开始，例如对象关系、网络结构和元路径等，然后将这些特征输入到机器学习模型中，用于后续学习任务。但手动设计特征这个过程费时费力并且特征不具备迁移性，换而言之，手动设计的特征往往只适合特定应用场景，因而不具备通用性。因此，目前基于异构网络的数据挖掘技术已经转向了基于图神经网络的表示学习方式。异构网络表示学习假设网络的内在结构和语义属性可以被编码到潜在低维向量中，以使模型可以自动学习网络对象如顶点、边和子图等潜在低维表示，从而方便后续的学习任务。例如，一些基于特征的分类方法以病毒与宿主关联作为样本，将病毒与宿主边的信息作为特征向量来表征样本，然后使用分类器来区分是否存在关联。尽管存在各种预测病毒-宿主的相互作用的方法，但这些基于单一信息的预测模式准确性较差。随着发现的病毒数量增加，需要研究新型、高效的分析方法，以整合多类型的病毒-宿主和病毒-病毒特征信息来更准确、更快地预测病毒-宿主关系。

发明内容

本发明的目的是为了解决背景技术中所述问题，提出一种基于网络融合与图嵌入的病毒-宿主关联预测方法。

在这里为了进一步提高预测病毒与宿主的关联的准确性，本文提出了利用病毒与宿主关联网络的拓扑信息，及多种病毒与病毒之间和宿主与宿主之间的相似性网络的计算方法。这种方法将病毒与宿主的关联预测问题转换成异构网络中节点的链接预测问题。利用图嵌入及相似网络融合技术融合多种网络信息，从而避免其他方法的局限性。本发明的技术方案为一种基于图嵌入预测病毒-宿主相互作用的计算方法，具体包括以下步骤：

步骤1，获取病毒宿主的已知关联；

步骤2，分别度量每一对病毒与病毒和每一对宿主与宿主的相似度，进而构建多个病毒与病毒相似性网络和多个宿主与宿主相似性网络；

步骤3，使用相似网络融合算法整合由步骤2得到病毒与病毒相似性网络和宿主与宿主相似性网络，最终得到病毒融合相似矩阵和宿主融合相似矩阵

步骤4，由步骤3得到病毒融合相似矩阵和宿主融合相似矩阵与由步骤1获得的已知的病毒宿主关联构成异构网络G₁；

步骤5，对由步骤1获得的训练部分病毒宿主关联应用图挖掘技术，生成每个节点的特征表示，所述节点包含病毒节点和宿主节点；

步骤6，计算由步骤5得到每个病毒的特征向量和其他病毒的特征向量的余弦相似度，以及每个宿主的特征向量和其他宿主的特征向量的余弦相似度，进而构建病毒余弦相似矩阵和宿主余弦相似矩阵

步骤7，由步骤6得到病毒余弦相似矩阵和宿主余弦相似矩阵和由步骤1获得的已知病毒宿主关联构建异构网络G₂；

步骤8，对于由步骤4得到的G₁和由步骤7得到的G₂，根据路径结构及其特征，从图G₁提取出相应的元路径分数，从图G₂提取出相应的元路径分数；

步骤9，进行特征选择以消除弱特征，然后生成特征向量X，以及所有病毒宿主对的标签Y；

步骤10，将步骤9得到的特征向量X及标签Y，输入到有监督机器学习预测模型。

进一步的，步骤2中使用寡核苷酸频率或高斯相互作谱度量相似度，其中使用寡核苷酸频率度量相似度的具体实现方式如下；

使用JS、Hao、Teeling计算每一对病毒与病毒和每一对宿主与宿主的基因组寡核苷酸频率向量的距离，度量每一对病毒与病毒和每一对宿主与宿主的相似度；

由式(1)定义：

由式(2)定义：

假设存在两个序列A＝A₁A₂...A_n和B＝B₁B₂...B_m，是由一个长度为d的有限字母表Λ中的字母组成的，对于a∈Λ,让p_a表示字母a出现的概率；对于w＝(w₁，...，w_k)∈Λ^k,让计算w在A出现的次数，与之相似，Y_w计算w在B出现的次数，在这里同样如果X和Y是独立的均值零正态，则X有方差Y有方差同样是正态的，有方差对于w＝x₁，...，x_k，表示w出现的概率，集中的计数变量表示为(1)，其中

另一个计数变量(2)，其中为未观测的字母概率，即两个序列串联中字母的相对计数。字母a在两个序列连接中的相对数量，这两个序列是相互独立的，并且都是由同一分布中的独立字母产生的，然后使用估计w＝w₁，...，w_k出现的概率。

Hao由式(3)定义：

两个序列A＝A₁A₂...A_n和B＝B₁B₂...B_m按字符转换成合成向量A＝(a₁,a₂,...,a_N)和B＝(b₁,b₂，...，b_N)，其中N∈[1，4^k]，A和B之间的相关性C(A，B)，为N维空间中两个代表向量夹角的余弦函数:

Teeling由式(5)(6)(7)及皮尔逊相关系数得到：

一个序列的四核苷酸的观测频率表示为N(n₁n₂n₃n₄)，相应的期望的频率通过最大阶马尔科夫模型来计算：

其方差为：

使用Z分数评估过高或过低表示水平的显著性，即观察到的频率与预期频率之间的差异

如果两个基因组片段A和B表现相似的四核苷酸过量和不足模式的问题，可以通过计算其Z分数的皮尔逊相关系数来解决；

JS散度由式(8)定义

给定一个S包含N个基因的序列S在马尔科夫模型下的对数似然为

λ(s)＝∑n(b₁...b_kb)logP(b|b₁..b_k) (9)

使用JS散度衡量两个序列S₁和S₂概率分布P＝λ(S₁)，Q＝λ(S₂)，JS散度是KL散度的变形，KL散度(Kullback–Leibler divergence)定义如下：

进一步的，高斯核相互作用谱的计算过程包括两个步骤；

首先，病毒v_i的相互作用谱IP(v_i)是编码病毒v_i与已知的病毒-宿主网络中的每个宿主之间存在或不存在关联的二进制向量；其次，病毒v_i和病毒v_j之间的高斯核相似性是根据它们的相互作用计算的，并定义如下：

S^v(v_i，v_j)＝exp(-γ_v||IP(v_i)-IP(v_j)||²) (11)

其参数γ_v表示核带宽，一个新的核带宽参数定义为：

N_h是宿主的数量，根据先前的研究，r′_v设置为1；类似的宿主h_i和宿主h_j之间的高斯核相似性定义为：

S^h(h_i，h_j)＝exp(-γ_h||IP(h_i)-IP(h_j)||²) (13)

其核带宽参数定义为：

其中N_v是病毒的数量，r′_h设置为1。

进一步的，步骤3的具体实现方式如下；

以病毒相似性网络为例，病毒相似性网络的边权重分别用一个的N_v×N_v的矩阵S^v表示，然后对于每个相似性网络可通过以下公式得到一个归一化的权重矩阵P，由式(15)定义：

在公式(15)中，S(i，j)是S^v的矩阵元素，其中i和j代表矩阵的行号和列号，然后使用K-近邻度量局部关系，由式(16)定义：

在公式(16)中，N_i表示病毒的邻居数；

由公式(15)得到的P^(v)和由公式(16)得到的KNN^(v)，在公式(15)中，P_i，j是第i个病毒与其他所有病毒的相似性，而在公式(16)中KNN(i，j)是第i个病毒与其邻近病毒的相似度，在相似网络融合算法SNF中，总是把P_i，j作为初始状态，而KNN(i，j)作为核心矩阵在捕获局部结构和计算效率的两种容量的融合过程中，SNF的过程是迭代更新相似度矩阵，由式(17)定义：

其中，p^(k)是第t步的相似矩阵初始值为P_i，j，P^(v)是第t+1步的相似矩阵，公式(17)每次在m个病毒网络上生成m个并行交换扩散过程时更新矩阵P^(v)；

然后SNF使用K-近邻方法度量局部关系过滤低相似的边，经过多次迭代最终获得一个矩阵，通过SNF融合得到的病毒相似性矩阵和宿主相似性矩阵

进一步的，步骤5的具体实现方式如下；

使用node2vec的算法框架，对由步骤1得到的病毒宿主已知关联构建出的病毒宿主的异构网络G进行表征学习，该异构网络G仅包含已知病毒和宿主的关联，而不使用病毒与病毒相似网络和宿主与宿主相似网络，Node2vec引入两个超参数p和q来控制随机游走的策略，假设当前随机游走经过边(t，v)到达顶点v，设π_vx＝α_pq(t，x)·ω_vx，π_vx是顶点v和顶点x之间的未归一化转移概率，ω_vx是顶点v和顶点x的边权，路径采样策略α_pq(t，x)定义如下：

在公式(18)中，d_tx为顶点t和顶点x之间的最短路径距离，由公式(18)可以获得节点邻近集合；

设f(u)将节点u映射到低维向量的映射函数，对于图中任意一个节点u，定义N_s(u)为通过公式(18)采样出的节点u的邻近点集合，由式(19)得到使其邻近点出现的概率最大的f(u)：

根据以下两个假设条件

(1)条件独立，假设给定源顶点下，其近邻顶点n_i出现的概率与近邻集合中其余顶点无关；

(2)特征空间对称性，这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套嵌入向量；

将式(19)优化为最终的目标函数式(22)：

在式(22)中，由于归一化因子计算代价高，采用负采样技术优化；

通过求这个最终的目标函数式(22)最大值的情况下，得到f(u)的函数形式，从而得到每个节点的特征向量。

进一步的，步骤8的具体实现方式如下，

对于每个病毒宿主对的每种简单路径，从源节点(即宿主节点)开始到目标节点(即病毒节点)结束，使用路径得分来计算，即使用以下公式(23)：

在公式(23)中，P＝{p₁，p₂，...，p_n}是连接宿主节点h_i和病毒节点v_j的路径集合，P_weights为节点间的权重；路径得分是每个路径结构中从开始的宿主节点到结束的病毒节点的所有边权重得分的乘积。为了减少计算量，将路径长度限制为小于或等于3，即存在6种路径结构Path＝{path1，path2，path3，path4，path5，path6}，每个节点从宿主节点开始，以一个病毒节点结束，path1:(H-H-V)，path2:(H-V-V)，path3:(H-H-H-V)，path4:(H-H-V-V)，path5:(H-V-V-V)，path6:(H-V-H-V)，对每种路径结构的两个特征进行了挖掘。

(1)每个路径结构的所有元路径得分之和：

(2)每个路径结构下所有元路径得分的最高分：

元路径是指具有相同路径结构的所有路径，元路径得分是路径结构中从起点宿主节点到终点病毒节点的所有边权重的乘积；ASP表示一对病毒v_j和宿主h_i之间的元路径；为了确保较长的路径在我们的方法中不处于不利地位，每个最大或总和路径得分都是单独计算的，其中每个得分都考虑到属于特定路径结构的所有路径集。

进一步的，步骤9中采用Adaboost分类模型作为预测模型，Adaboost根据m个弱分类器对样例数据的分类效果的好坏，赋予不同的弱分类器不同的权值并将其组合成一个强分类器，Adaboost的算法流程如下；

(1)给定一个二分类数据集T＝{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}，x代表输入样例，y代表样例所属的类别空间，初始化训练数据的权值分布：

对于M个分类器G_m(x)：x→{0，1}，m∈(1，M)分别使用带权值分布的数据进行训练；

(2)计算弱分类器G_m(x)上的分类错误率：

计算G_m(x)的系数：

更新训练数据的权值分布：

D_m+1＝(w_m+1，1，...，w_m+1，j，...，w_m+1，N) (29)

其中，G_m(x_i)代表弱分类器对样例数据进行分类的结果；

(3)构建基分类器的线性组合：

最终的分类器：

本发明针对现有的病毒宿主关联预测的方法所存在的局限性，提出了一种基于图嵌入预测病毒-宿主相互作用的计算方法，极大提高了病毒宿主关联预测的精确度，并通过使用四个数据集将本发明与其他几种方法相比，大幅提高了预测性能，在所有数据集中实现了较高的精确度，相对于其他方法模型表现比较稳定。并且由本发明预测出的一部分病毒宿主关联，在已发表的论文和数据库得到了验证。

附图说明

图1为本发明实施例的流程图。

具体实施方式

本发明技术方案具体实施时可由本领域技术人员采用计算机软件技术运行。结合附图，提供本发明实施例具体描述如下：

步骤1，从相关的生物信息论文，权威的生物信息网站(NCBI)，获取病毒宿主的已知关联。

步骤2，基于基因组寡核苷酸频率的差异方法来推断基因组序列之间的关系。本发明使用JS、Hao、Teeling计算每一对病毒与病毒(每一对宿主与宿主)的基因组寡核苷酸频率向量的距离，度量每一对病毒与病毒(每一对宿主与宿主)的相似度。

由式(1)定义：

由式(2)定义：

假设存在两个序列A＝A₁A₂...A_n和B＝B₁B₂...B_m，是由一个长度为d的有限字母表Λ中的字母组成的，对于a∈Λ,让p_a表示字母a出现的概率。对于w＝(w₁，...，w_k)∈Λ^k,让计算w在A出现的次数，与之相似，Y_w计算w在B出现的次数，在这里同样如果X和Y是独立的均值零正态，则X有方差Y有方差同样是正态的，有方差对于w＝w₁，...，w_k，表示w出现的概率，集中的计数变量表示为(34)，其中

另一个计数变量(35)，其中为未观测的字母概率，即两个序列串联中字母的相对计数。字母a在两个序列连接中的相对数量，这两个序列是相互独立的，并且都是由同一分布中的独立字母产生的，然后使用估计w＝w₁，...，w_k出现的概率。

Hao由式(3)定义：

两个序列A＝A₁A₂...A_n和B＝B₁B₂...B_m按字符转换成合成向量A＝(a₁，a₂，...，a_N)和B＝(b₁,b₂,...,b_N)，其中N∈[1，4^k]，A和B之间的相关性C(A，B)，为N维空间中两个代表向量夹角的余弦函数:

Teeling由式(5)(6)(7)及皮尔逊相关系数得到：

一个序列的四核苷酸的观测频率表示为N(n₁n₂n₃n₄)，相应的期望的频率通过最大阶马尔科夫模型来计算：

其方差为：

使用Z分数评估过高或过低表示水平的显著性，即观察到的频率与预期频率之间的差异

如果两个基因组片段A和B表现相似的四核苷酸过量和不足模式的问题，可以通过计算其Z分数的皮尔逊相关系数来解决。

JS散度(Jensen-Shannon divergence)由式(8)定义

给定一个S包含N个基因的序列S在马尔科夫模型下的对数似然为

λ(S)＝∑n(b₁...b_kb)logP(b|b₁..b_k) (42)

使用JS散度衡量两个序列S₁和S₂概率分布P＝λ(S₁)，Q＝λ(S₂)，JS散度是KL散度的变形，KL散度(Kullback–Leibler divergence)定义如下：

除此以外，本论文通过已知的病毒与宿主的关联矩阵来计算病毒与病毒(宿主与宿主)之间的高斯核相互作用谱(GIP)。高斯核相互作用谱是目前使用较多的从病毒与宿主关联网络中提取相似度信息的方法。高斯核相互作用谱的计算过程主要包括两个步骤。首先，病毒v_i的相互作用谱IP(v_i)是编码病毒v_i与已知的病毒-宿主网络中的每个宿主之间存在或不存在关联的二进制向量。其次，病毒v_i和病毒v_j之间的高斯核相似性是根据它们的相互作用计算的，并定义如下：

S^v(v_i，v_j)＝exp(-γ_v||IP(v_i)-IP(v_j)||²) (44)

其参数γ_v表示核带宽，一个新的核带宽参数定义为：

N_h是宿主的数量，根据先前的研究，r′_v设置为1。类似的宿主h_i和宿主h_j之间的高斯核相似性定义为：

S^h(h_i，h_j)＝exp(-γ_h||IP(h_i)-IP(h_j)||²) (46)

其核带宽参数定义为：

其中N_v是病毒的数量，r′_h设置为1。

步骤3，本发明使用相似网络融合算法(SNF)，以病毒相似性网络为例，病毒相似性网络的边权重分别用一个的N_v×N_v的矩阵S^v表示，然后对于每个相似性网络可通过以下公式得到一个归一化的权重矩阵P，由式(15)定义：

在公式(48)中，S(i,j)是S^v的矩阵元素，其中i和j代表矩阵的行号和列号。然后使用K-近邻(KNN)度量局部关系，由式(16)定义：

在公式(49)中，N_i表示病毒的邻居数，病毒的邻居数是预定义的，根据相似矩阵可以计算每个元素与其他元素的距离，根据距离的远近度量元素之间的相似度(距离的远近)，本文从中选择前K个元素，即为该元素的邻居数。本文N_i的取值为5，该方法过滤掉了低相似度的边。

由公式(48)得到的P^(v)和由公式(49)得到的KNN^(v)。在公式(48)中，P_i，j是第i个病毒与其他所有病毒的相似性，而在公式(49)中KNN(i，j)是第i个病毒与其邻近病毒的相似度。在SNF算法中，总是把P_i，j作为初始状态，而KNN(i，j)作为核心矩阵在捕获局部结构和计算效率的两种容量的融合过程中。SNF的过程是迭代更新相似度矩阵，由式(17)定义：

其中，p^(k)是第t步的相似矩阵初始值为P_i，j，P^(v)是第t+1步的相似矩阵，公式(50)每次在m个病毒网络上生成m个并行交换扩散过程时更新矩阵P^(v)。

然后SNF使用K-近邻(KNN)方法度量局部关系过滤低相似的边，经过多次迭代最终获得一个矩阵。通过SNF融合得到的病毒相似性矩阵和宿主相似性矩阵

步骤4，由步骤3得到病毒融合相似性矩阵和宿主融合相似性矩阵和由步骤1得到的病毒与宿主的已知关联构成异构网络G₁。

步骤5，本发明使用node2vec的算法框架，对由步骤1得到的病毒宿主已知关联构建出的病毒宿主的异构网络G进行表征学习，该异构网络G仅包含已知病毒和宿主的关联，而不使用病毒与病毒相似网络和宿主与宿主相似网络。node2vec引入两个超参数p和q来控制随机游走的策略，假设当前随机游走经过边(t，v)到达顶点v，设π_vx＝α_pq(t，x)·w_vx，π_vx是顶点v和顶点x之间的未归一化转移概率，w_vx是顶点v和顶点x的边权，路径采样策略α_pq(t，x)具体定义如下：

在公式(51)中，d_tx为顶点t和顶点x之间的最短路径距离，由公式(51)可以获得节点邻近集合。

设f(u)将节点u映射到低维向量的映射函数，对于图中任意一个节点u，定义N_s(u)为通过公式(51)采样出的节点u的邻近点集合，由式(19)得到使其邻近点出现的概率最大的f(u)：

根据以下两个假设条件

(1)条件独立，假设给定源顶点下，其近邻顶点n_i出现的概率与近邻集合中其余顶点无关；

(2)特征空间对称性，这里是说一个顶点作为源顶点和作为近邻顶点的时候共享同一套嵌入向量；

将式(52)优化为最终的目标函数式(22)：

在式(55)中，由于归一化因子计算代价高，采用负采样技术优化。

通过求这个最终的目标函数式(55)最大值的情况下，得到f(u)的函数形式，从而得到每个节点的特征向量。

步骤6，计算由步骤5得到每个病毒(每个宿主)的特征向量和其他病毒(其他宿主)的特征向量的余弦相似度，进而构建病毒余弦相似矩阵和宿主余弦相似矩阵

步骤7，由步骤6得到病毒余弦相似矩阵和宿主余弦相似矩阵和由步骤1已知病毒宿主关联构建异构网络G₂。

步骤8，对于由步骤4和由步骤7得到的两个异构加权图G₁和G₂被用来提取基于图的特征。每个图的每个病毒-宿主对之间的多个路径得分被用来反映这些特征。对于每个病毒宿主对的每个简单路径，从源节点(即宿主节点)开始，到目标节点(即病毒节点)结束，使用路径得分来计算，即使用以下公式(23)：

在公式(56)中，P＝{p₁，p₂，...，p_n}是连接宿主节点h_i和病毒节点v_j的路径集合，P_weights为节点间的权值。路径得分是每个路径结构中从开始的宿主节点到结束的病毒节点的所有边权重得分的乘积。为了减少计算量，本发明将路径长度限制为小于或等于3，即存在6种路径结构Path＝{path1，path2，path3，path4，path5，path6}，每个节点从宿主节点开始，以一个病毒节点结束，path1:(H-H-V)，path2:(H-V-V)，path3:(H-H-H-V)，path4:(H-H-V-V)，path5:(H-V-V-V)，path6:(H-V-H-V)，我们对每种路径结构的两个特征进行了挖掘，

(1)每个路径结构的所有元路径得分之和：

(2)每个路径结构下所有元路径得分的最高分：

元路径是指具有相同路径结构的所有路径，元路径得分是路径结构中从起点宿主节点到终点病毒节点的所有边权重的乘积。ASP表示一对病毒v_j和宿主h_i之间的元路径。为了确保较长的路径在我们的方法中不处于不利地位，每个(最大或总和)路径得分都是单独计算的，其中每个得分都考虑到属于特定路径结构的所有路径集。因此，来自不同路径结构的分数不会在一个特征中混在一起。此外，分数还使用最小最大归一化来进一步归一化，以确保特征被分类器平等对待。

步骤9，由步骤8可对每一对病毒与宿主和每个构建的异构图提取12个特征，这些特征被组合成一个24维的特征向量。本发明的准确性依赖于数据集的基本特征。在进行了经验分析和许多实验后，确定了该分类任务最相关的特征集合。在分析性能时，需要去除一个或多个特征的组合。因此，在应用特征选择后，根据数据集，输入预测模型的特征向量的维度从24个减少到16个。

步骤10，本发明使用的是已知的表现较好的机器学习分类模型Adaboost，Adaboost根据m个弱分类器对样例数据的分类效果的好坏，赋予不同的弱分类器不同的权值并将其组合成一个强分类器，Adaboost的算法流程：

(1)给定一个二分类数据集T＝{(x₁，y₁)，(x₂，y₂)，...，(x_N，y_N)}，x代表输入样例，y代表样例所属的类别空间，初始化训练数据的权值分布：

对于M个分类器G_m(x)：x→{0，1}，m∈(1，M)，分别使用带权值分布的数据进行训练；

(2)计算弱分类器G_m(x)上的分类错误率：

计算G_m(x)的系数：

更新训练数据的权值分布：

D_m+1＝(w_m+1，1，...，w_m+1，j，...，w_m+1，N) (62)

其中，G_m(x_i)代表弱分类器对样例数据进行分类的结果；

(3)构建基分类器的线性组合：

最终的分类器：

为验证本发明方法有效性，在多个数据集上做了对比实验。本实验使用了四个数据集，数据集来自论文、权威的生物信息网站，这些数据集的信息如下表(表1)所示：

表1四个数据集的基本信息

	Dataset I	Dataset II	Dataset III	DatasetⅣ
					病毒数量	728	32	312	1380
宿主数量	129	119	747	221
					已知关联	728	368	4539	1479
未知关联	93184	3440	228525	303501
					稀疏比	0.0078	0.1070	0.0199	0.0048

并与其他的五个关联预测的方法进行比较：

■ILMF-VH，基于多信息矩阵融合的病毒与宿主关联预测。病毒相似性网络基于寡核苷酸频率(ONF)度量构建,并通过相似性网络融合(SNF)整合宿主的寡核苷酸频率相似性和高斯相互作用谱(GIP)核相似性从而构建宿主相似性网络。然后在病毒与宿主的异构网络上执行领域正则化逻辑矩阵分解算法来预测病毒宿主关联；

■层注意图卷积网络(LAGCN)将已知的病毒与宿主关联，病毒-病毒相似度，宿主-宿主相似度整合成异构网络，并将图卷积应用在异构网络上，学习病毒与宿主的嵌入。其次，LAGCN利用注意力机制结合多个图卷积层的嵌入。在预测病毒-宿主关联取得良好的效果；

■NetLapRLS，在合并的已知病毒宿主相互作用网络上，采用半监督学习方法正则最小二乘法，分别对病毒和宿主领域进行训练，然后结合在一起，得到最终的预测结果；

■BLM-NII，基于邻居的交互配置文件推断(NII)，并将其集成到有监督学习方法，二分局部模型(BLM)方法中，以处理新的关联问题。具体来说，推断的交互关系被视为标签信息，并用于新候选对象的模型学习；

■CMF，该模型将病毒和宿主投射到一个共同的低等级特征空间中，通过两个低秩矩阵协作预测病毒-宿主相互作用。

本发明采用的评估指标为AUC和AUPR，即接受者操作特征(ROC)曲线下的面积(AUC)，以及精确-召回曲线下的面积(AUPR)，实验结果如下表(表2)所示：

表2本发明与其他方法在四个数据集的实验结果对比

数据集	评估指标	Ours	ILMF-VH	LAGCN	NetLapRLS	BLM-NII	CMF
								Dataset I	AUC	0.99991	0.75380	0.92508	0.08741	0.86028	0.76867
	AUPR	0.99086	0.21475	0.79621	0.00422	0.24655	0.04473
								Dataset II	AUC	0.98955	0.79128	0.79811	0.76468	0.80453	0.50939
	AUPR	0.91827	0.30862	0.41345	0.50196	0.48382	0.22213
								Dataset III	AUC	0.99999	0.99391	0.99868	0.99740	0.99683	0.77741
	AUPR	0.99999	0.63898	0.96357	0.97915	0.90456	0.42784
								DatasetⅣ	AUC	0.99965	0.82112	0.91179	0.69508	0.90606	0.73420
	AUPR	0.96485	0.24104	0.73203	0.01979	0.38681	0.02030

本发明在数据集DatasetⅣ上预测出前十个的关联如下表(表3)所示：

表3本发明预测的前十的关联

Rank	Host Name	Virus Name	Evidence
				1	Campylobacter jejuni	Campylobacter phage CP8	PMID:32054081
2	Erysimum	Listeria phage A118	unknown
				3	Erwinia sp.	Erwinia phage phiEa1H	PMID:26555076
4	Klebsiella pneumoniae	Klebsiella phage PMBT1	PMID:31976857
				5	Pseudomonas syringae	Pseudomonas phage phiPSA2	PMID:32610695
6	Lactococcus lactis subsp.cremoris	Lactococcus phage P680	PMID:30135597
				7	Gordonia terrae	Gordonia phage Troje	unknown
8	Lactococcus sp.	Lactococcus phage fd13	unknown
				9	Aeropyrum pernix K1	Aeropyrum pernix bacilliform virus 1	PMID:21784945
10	Pseudomonas aeruginosa	Pseudomonas phage MP1412	PMID:26115051

本文基于一种基于网络融合与图嵌入的病毒-宿主关联预测方法的精度均显著优于现有的几种常用方法，证明了本文方法的优越性。

本文中所描述的具体实施例仅仅是对本发明精神作举例说明。本发明所属技术领域的技术人员可以对所描述的具体实施例做各种各样的修改或补充或采用类似的方式替代，但并不会偏离本发明的精神或者超越所附权利要求书所定义的范围。

22页详细技术资料下载

一种基于网络融合与图嵌入的病毒-宿主关联预测方法

相关技术

网友询问留言