一种应用于基因表达谱数据的降维方法

文档序号:1467598 发布日期:2020-02-21 浏览:37次 >En<

阅读说明:本技术 一种应用于基因表达谱数据的降维方法 (Dimension reduction method applied to gene expression profile data ) 是由 李�杰 赵准 周理 王亚东 于 2019-11-05 设计创作,主要内容包括:本发明提出了一种应用于基因表达谱数据的降维方法,属于计算机应用领域。步骤一:利用回归系数对样本数据矩阵进行“剪枝”,对“剪枝”后的矩阵进行主成分分析,得到主成分U&lt;Sub&gt;θ&lt;/Sub&gt;;步骤二:利用回归系数对样本数据矩阵进行“缩放”,对“缩放”后的矩阵进行主成分分析,得到主成分U’;步骤三:使用权值α对主成分U&lt;Sub&gt;θ&lt;/Sub&gt;和U’进行融合,得到新的主成分X’&lt;Sub&gt;θ&lt;/Sub&gt;;步骤四:使用主成分X’&lt;Sub&gt;θ&lt;/Sub&gt;建立分类回归模型,验证降维的效果。本发明解决了现有降维算法在不同特征数量下分类性能不稳定,建立在其上的分类器预测性能比较低的问题,分类效果不理想的问题。(The invention provides a dimension reduction method applied to gene expression profile data, and belongs to the field of computer application. The method comprises the following steps: pruning the sample data matrix by using the regression coefficient, and performing principal component analysis on the matrix after pruning to obtain a principal component U θ Secondly, zooming the sample data matrix by using the regression coefficient, and analyzing the principal components of the zoomed matrix to obtain a principal component U&#39;, and thirdly, using the weight α to analyze the principal component U θ And U &#39;are fused to obtain a new main component X&#39; θ (ii) a Step four: using a main component X&#39; θ And establishing a classification regression model and verifying the effect of dimension reduction. The invention solves the problems that the classification performance of the existing dimension reduction algorithm is unstable under different feature quantities, the prediction performance of a classifier established on the dimension reduction algorithm is low, and the classification effect is not ideal.)

一种应用于基因表达谱数据的降维方法

技术领域

本发明涉及一种应用于基因表达谱数据的降维方法,本发明属于生物信息领域。

背景技术

随着高通量技术应用的普及,基因表达谱数据呈***式增长。该类数据具有维度高,样本量少的特点。以登革热疾病样本的基因表达谱数据(GSE25001)为例,该数据集含有209个样本、涉及22184个基因(维度)。如何降低基因表达谱数据的维数成为众多学者争相研究的热点。

主成分分析(PCR)作为经典的降维算法,被广泛的研究。此外,在各个领域,也涌现出了许多的改进算法且具备较好的降维效果,例如改进的分段主成分分析(MPCA)方法、混合双线性概率主成分分析(MBPPCA)方法以及深层PCA与核PCA级联融合(Deep PCA-KPCA)算法。这些算法取得了比较好的降维效果,但这些算法大部分是针对样本数据本身进行优化和改进的,没有充分利用分类标签相关的信息,导致所选取的特征虽然包含丰富的样本信息,但分类效果并不理想。研究人员希望找到一种有效的数据降维方法,帮助准确选取样本的特征,剔除掉与分类结果无关的冗余特征,以便更好地发现数据内部的深层次联系,区分不同类样本的差异,从而达到更加理想的分类效果。

为了解决该类问题,研究人员提出了SPCR和Y-aware PCR方法。其中,SPCR是使用每个特征下样本的测量值与目标属性之间的回归系数来筛选样本特征,只考虑与预测属性密切相关的样本特征。这样的变换更有针对性。该方法在保留主成分数较少时分类效果较好,但随着保留主成分数的增多,其分类效果逐渐变差。Y-aware PCR方法是使用回归系数去压缩整个矩阵,确保数据降维过程是在“感知”到y变量情况下完成的。通过矩阵变换可以得到一个线性可加性效果更好的样本空间,相较于SPCR方法,该方法在保留主成分较少时分类效果一般,但随着主成分数的增加,分类效果逐渐变好。

为了进一步提高降维性能,提高分类的精度,本文在SPCR和Y-aware PCR方法的基础上,针对各自算法的优缺点,对算法进行了改进,提出了Y-SPCR方法。

发明内容

本发明提出了一种应用于基因表达谱数据的降维方法,其目的是为了解决现有的算法没有充分利用分类标签相关的信息,导致所选取的特征虽然包含丰富的样本信息,但分类效果不理想的问题。本发明对SPCR、Y-aware PCR进行实验验证和分析,发现SPCR的降维性能与保留主成分数成反比关系,Y-awarePCR的降维性能与保留主成分数成正比关系。针对SPCR和Y-awarePCR的优缺点,我们对Y-awarePCR和SPCR进行融合,提出了一种基于SPCR与Y-awarePCR的加权融合算法(Y-SPCR)。在Y-SPCR中,先计算每个特征与分类标签的回归系数,利用回归系数对原始数据进行“剪枝”或“缩放”,分别对“剪枝”和“缩放”后的两个矩阵进行相关分析,得到两个矩阵的主成分,使用权值对对两个主成分进行融合得到新的主成分,利用新的主成分建立分类回归模型(验证降维的效果)。“剪枝”是提取满足阈值条件的特征下的数据,舍去不满足要求的数据。“缩放”是通过矩阵变换可以得到一个线性可加性效果更好的样本空间。Y-SPCR既继承了SPCR和Y-aware PCR的降维性能,又可以在任意特征数下达到最优。

一种应用于基因表达谱数据的降维方法,所述降维方法包括以下步骤:

步骤一:利用回归系数对样本数据矩阵进行“剪枝”,对“剪枝”后的矩阵进行主成分分析,得到主成分Uθ

步骤二:利用回归系数对样本数据矩阵进行“缩放”,对“缩放”后的矩阵进行主成分分析,得到主成分U';

步骤三:使用权值α对主成分Uθ和U'进行融合,得到新的主成分X'θ;

步骤四:使用主成分X'θ建立分类回归模型,验证降维的效果。

进一步的,在步骤一中包括以下步骤:

步骤一一:计算每个特征与分类属性之间的标准回归系数;

步骤一二:将所有标准回归系数值大于阈值θ对应的特征数据筛选出来,形成剪枝后矩阵,其中θ∈{x|0≤x≤1};

步骤一三:对剪枝后矩阵进行主成分提取,保留主成分个数为δ。

进一步的,步骤一一具体为:传统线性回归模型:

Y=a+hX (1)

令h为标准回归系数,来衡量每个单变量效应的指标,根据最小二乘原理有:

Figure BDA0002260999640000021

hj表示第j个特征中样本x值对因变量y的影响强弱,其中

Figure BDA0002260999640000022

进一步的,步骤一二具体为,令Hθ={j||hj|≥θ},Xθ表示集合Hθ中特征所对应的数据矩阵,数据X到Xθ的变换是一个有监督特征的剪枝过程,删减了不属于集合Hθ的特征所对应的数据。

进一步的,步骤一三具体为,Xθ的SVD表示形式为:

Figure BDA0002260999640000031

Uθ被称为左奇异向量,代表XXT的特征向量,Sθ为奇异值组成的对角矩阵,奇异值为矩阵XXT的非负特征值的算术平方根,Vθ被称为右奇异向量,为一组正交矩阵,代表了XXT的特征向量,表达式中,U矩阵的每一列分别为按照奇异值大小排序的主成分,即:u1,u2,u3,u4,……,uk,且s1≥s2≥s3,……,sk,其中u1为对应的第一个主成分。

进一步的,步骤二中包括以下步骤:

步骤二一:计算每个特征与分类属性之间的标准回归系数;

步骤二二:使用标准回归系数对原始样本数据矩阵值进行“缩放”,得到“缩放”后矩阵;

步骤二三:对剪枝后矩阵进行主成分提取,保留δ个主成分数。

进一步的,步骤二一具体为,由公式(2)可知,第j个特征的回归系数hj值有:

Figure BDA0002260999640000032

进一步的,步骤二二具体为,在线性回归模型(1)中,X的单位变化量对应h个单位的Y变化量,即X与Y之间存在一个h倍的缩放关系,若对X按照上述方式进行“缩放”并中心化,则有:

X'=h*X-mean(h*X) (5)。

进一步的,步骤二三具体为,设X为n×p的数据矩阵,n为样本个数,p为特征数,以第j个特征为例,对Xj进行矩阵变换:

Figure BDA0002260999640000033

式中Xij表示第i个样本上的第j个基因,hj为第j个特征与因变量Y的回归系数,

X'的SVD表示形式为:

X'=U'S'V' (7)

式(7)转换为用X'表示U'的形式:

X'=U'S'V'-1 (8)

根据保留的主成分数δ,对X'进行处理。

进一步的,在步骤三中,具体的,使用权值α对主成分Uθ和U'进行融合,得到新的主成分X'θ,令X'θ为降维后数据,带入公式(4)、(8),则有:

Figure BDA0002260999640000041

其中,α为加权系数,取值范围在0~1之间。

进一步的,在步骤四中,具体的,回归模型如下所示:

Y=a+bX+ε (10)

将权值融合得到的新主成分X'θ公式(11),可得:

Y=a+bX'θ+ε (11)

对Y做一次g(Y)形式的函数转换,g(Y)函数形式为Sigmoid函数:

g(Y)=1/(1+e-Y) (12)

当Y趋向于正无穷时,g(Y)趋向于1,而当Y趋向于负无穷时,g(Y)趋向于0,通过函数g(Y)的作用,将输出值限制在区间(0,1)内,g(Y)为将样本分为某一类别的概率值,

将公式(11)代入公式(12),可得分类归模型:

Figure BDA0002260999640000042

为g(U)设置阈值β用以对数据进行分类,假设阈值设置为0.5,则若g(U)>0.5,则y为1;若g(U)<0.5,则y为0,g(U)=0.5是一个临界情况,在该状态时,分类准确率会下降,

将训练集带入公式(13),求得回归模型的参数a、b,用得到的分类回归模型对测试集进行预测,验证分类效果。

本发明的主要优点是:本发明对SPCR、Y-aware PCR进行实验验证和分析,发现SPCR的降维性能与保留主成分数成反比关系,Y-aware PCR的降维性能与保留主成分数成正比关系。针对SPCR和Y-aware PCR的优缺点,我们对Y-aware PCR和SPCR进行融合,提出了一种基于SPCR与Y-awarePCR的加权融合算法(Y-SPCR)。在Y-SPCR中,先计算每个特征与分类标签的回归系数,利用回归系数对原始数据进行“剪枝”或“缩放”,分别对“剪枝”和“缩放”后的两个矩阵进行相关分析,得到两个矩阵的主成分,使用权值对对两个主成分进行融合得到新的主成分,利用新的主成分建立分类回归模型(验证降维的效果)。“剪枝”是提取满足阈值条件的特征下的数据,舍去不满足要求的数据。“缩放”是通过矩阵变换可以得到一个线性可加性效果更好的样本空间。Y-SPCR既继承了SPCR和Y-aware PCR的降维性能,又可以在任意特征数下达到最优。本发明解决了现有的算法没有充分利用分类标签相关的信息,导致所选取的特征虽然包含丰富的样本信息,但分类效果不理想的问题。

附图说明

图1为Y-SPCR算法的数据处理流程;

图2为各算法在不同数据集上的分类准确率,其中,图2(a)为GSE62627保留不同特征数对应的算法性能;图2(b)为GSE2034保留不同特征数对应的算法性能;图2(c)为GSE25001保留不同特征数对应的算法性能;图2(d)为GSE27272保留不同特征数对应的算法性能;

图3为不同主成分数下各算法F1分数折线图,其中,图3(a)为GSE62627不同主成分数下的F1分数;图3(b)为GSE2034不同主成分数下的F1分数;图3(c)为不同主成分数下的F1分数;图3(d)不同主成分数下的F1分数;

图4为GSE62627数据集下各算法ROC曲线;图4(a)为PCR算法的ROC曲线;图4(b)为SPCR算法的ROC曲线;图4(c)为Y-PCR算法的ROC曲线;图4(d)为Y-SPCR算法的ROC曲线;图4(e)为RFP算法的ROC曲线;图4(f)为T-test算法的ROC曲线;

图5为本发明的一种应用于基因表达谱数据的降维方法的流程图。

具体实施方式

下面将结合本发明实施例中的附图对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。

参照图5所示,本发明提出了一种应用于基因表达谱数据的降维方法的一实施例,所述降维方法包括以下步骤:

步骤一:利用回归系数对样本数据矩阵进行“剪枝”,对“剪枝”后的矩阵进行主成分分析,得到主成分Uθ

步骤二:利用回归系数对样本数据矩阵进行“缩放”,对“缩放”后的矩阵进行主成分分析,得到主成分U';

步骤三:使用权值α对主成分Uθ和U'进行融合,得到新的主成分X'θ

步骤四:使用主成分X'θ建立分类回归模型,验证降维的效果。

在本部分优选实施例中,在步骤一中包括以下步骤:

步骤一一:计算每个特征与分类属性之间的标准回归系数;

步骤一二:将所有标准回归系数值大于阈值θ对应的特征数据筛选出来,形成剪枝后矩阵,其中θ∈{x|0≤x≤1};

步骤一三:对剪枝后矩阵进行主成分提取,保留主成分个数为δ。

在本部分优选实施例中,步骤一一具体为:传统线性回归模型:

Y=a+hX (1)

令h为标准回归系数,来衡量每个单变量效应的指标,根据最小二乘原理有:

Figure BDA0002260999640000061

hj表示第j个特征中样本x值对因变量y的影响强弱,其中

在本部分优选实施例中,步骤一二具体为,令Hθ={j||hj|≥θ},Xθ表示集合Hθ中特征所对应的数据矩阵,数据X到Xθ的变换是一个有监督特征的剪枝过程,删减了不属于集合Hθ的特征所对应的数据。

在本部分优选实施例中,步骤一三具体为,Xθ的SVD表示形式为:

Figure BDA0002260999640000071

Uθ被称为左奇异向量,代表XXT的特征向量。Sθ为奇异值组成的对角矩阵(除对角线外,其它元素都为0)。奇异值为矩阵XXT的非负特征值的算术平方根[38]。Vθ被称为右奇异向量,为一组正交矩阵,代表了XXT的特征向量。矩阵乘法实际上是对应了一次空间的变换,一个经过矩阵乘法后得到的新向量是将原有向量向另一个方向或长度进行不同的旋转和伸缩。所以奇异值分解在本质上其实是将一个向量从V这组正交基空间旋转到U正交基组成的空间,并按照S在各个方向做了缩放,S值对应了具体缩放程度。表达式中,U矩阵的每一列分别为按照奇异值大小排序的主成分,即:u1,u2,u3,u4,……,uk,且s1≥s2≥s3,……,sk。其中u1为对应的第一个主成分。

在本部分优选实施例中,步骤二中包括以下步骤:

步骤二一:计算每个特征与分类属性之间的标准回归系数;

步骤二二:使用标准回归系数对原始样本数据矩阵值进行“缩放”,得到“缩放”后矩阵;

步骤二三:对剪枝后矩阵进行主成分提取,保留δ个主成分数,其中,保留的主成分数δ,δ为整数。

在本部分优选实施例中,步骤二一具体为,由公式(2)可知,第j个特征的回归系数hj值有:

Figure BDA0002260999640000072

在本部分优选实施例中,步骤二二具体为,在线性回归模型(1)中,X的单位变化量对应h个单位的Y变化量,即X与Y之间存在一个h倍的缩放关系,若对X按照上述方式进行“缩放”并中心化,则有:

X'=h*X-mean(h*X) (5)。

在本部分优选实施例中,步骤二三具体为,设X为n×p的数据矩阵,n为样本个数,p为特征数,以第j个特征为例,对Xj进行矩阵变换:

式中Xij表示第i个样本上的第j个基因,hj为第j个特征与因变量Y的回归系数(斜率)。若特征j对因变量Y较敏感(即hj较大),则其缩放后的X'j具有更加明显的变化幅度,更有利于预测和分类。

X'的SVD表示形式为:

X'=U'S'V' (7)

式(7)转换为用X'表示U'的形式(注意到V'TV'=1):

X'=U'S'V'-1 (8)

这种Y感知的变换方法是对数据降维过程的补充,可以确保第一主成分是对Y影响最大的,也就是说,特征最显著的变量就会在第一主成分内有最大负载。

根据保留的主成分数δ,对X'进行处理。

在本部分优选实施例中,在步骤三中,具体的,使用权值α对主成分Uθ和U'进行融合,得到新的主成分X'θ,令X'θ为降维后数据,带入公式(4)、(8),则有:

其中,α为加权系数,取值范围在0~1之间。决定了SPCR和Y-awarePCR方法对性能的影响大小。设置α值来调节各方法对数据产生的影响,本质上是对表现较差的算法进行强缩放,对表现较好的算法进行弱缩放,使Y-SPCR算法在不同的场景中都可以获得理想的性能。

在本部分优选实施例中,在步骤四中,具体的,在大规模数据分析中,回归分析是通过建模手段来对目标属性进行预测的一种方法,实际上是尝试发现目标变量和自变量之间的某些特定关系(线性或非线性)。回归模型如下所示:

Y=a+bX+ε (10)

将权值融合得到的新主成分X'θ公式(11),可得:

Y=a+bX'θ+ε (11)

本算法使用逻辑回归来解决分类问题,即对Y做一次g(Y)形式的函数转换,g(Y)函数形式为Sigmoid函数:

g(Y)=1/(1+e-Y) (12)

它有一个很好的性质:当Y趋向于正无穷时,g(Y)趋向于1,而当Y趋向于负无穷时,g(Y)趋向于0,这样,通过函数g(Y)的作用,将输出值限制在区间(0,1)内,g(Y)为将样本分为某一类别的概率值,

将公式(11)代入公式(12),可得分类归模型:

为g(U)设置阈值β用以对数据进行分类(依据实际分析情况来定,一般设置为0.5),假设阈值设置为0.5,则若g(U)>0.5,则y为1;若g(U)<0.5,则y为0,g(U)=0.5是一个临界情况,在该状态时,分类准确率会下降,

将训练集带入公式(14),求得回归模型的参数a、b,用得到的分类回归模型对测试集进行预测,验证分类效果。

具体实施算例:

参照图1所示,Y-SPCR算法是基于SPCR和Y-aware PCR的融合算法,与PCR、SPCR和Y-aware PCR具有相似的数据处理流程。

1)实验环境

算法使用了Python2.7进行编译,运行实验的计算机CPU为Intel Core i5-4590,主频为3.3GHz,运行内存为8GB,操作系统为64位Windows10专业版。实现算法使用到的工具及其相关依赖可以从https://www.lfd.uci.edu/~gohlke/pythonlibs获得。

2)实验数据

为了增强算法的对比性和实用性,实验使用了4个来自GEO(https://www.ncbi.nlm.nih.gov/)的基因表达数据:GSE62627、GSE2034、GSE25001、GSE27272。这些数据呈现出维数高、样本少的特点,且具有二分类标签属性。

基因表达数据集的详细信息如表1所示:

Figure BDA0002260999640000092

Figure BDA0002260999640000101

表13)数据预处理

考虑到基因表达数据的不规则性和不完整性,我们对数据首先进行了预处理工作,主要包括:数据标准化和填补缺失值等内容。

(1)数据标准化:使用z-score标准化,通过计算数据的均值和标准差,然后将数据中的值x通过z-score标准化的方法变化到z。

z=(x-u)/s (14)

其中x为数据的原始值,u为数据均值,s为数据标准偏差。通过z-score标准化数据可以使所有的数据中心变为(0,0),同时可以使不同的特征具有相同的尺度。

(2)填补缺失值:平均值填充,主要是使用该特征属性在其他所有对象的取值的平均值来对缺失的数值进行填补,它是用现存的数据的多数信息来推测缺失值。考虑到基因表达数值可能会有0出现,所以在处理过程中忽略0值。

4)实验结果:

针对上文中给出的四个基因表达谱数据集,分别使用PCR、SPCR、Y-aware PCR、Y-SPCR、随机森林(RFP)和t检验(T-test)六种方法对数据进行降维和分类,并通过分类准确率、运行时间F1分数、ROC曲线以及RUC值来直观地评估算法的实际性能。

PCR、SPCR、Y-aware PCR、Y-SPCR的基本参数设置如下:交叉验证测试集占比15%,随机种子数值设置为13,回归系数阈值θ设置为0.1,权值α依据数据集的不同分别设为:0.5、0.44、0.54、0.5。为了增强算法的对比性,研究了不同主成分数下算法的性能,设置保留主成分数分别为:4、10、20、35、60。为确保实验结果的可靠性,在不同参数设置下,每种方法运行10次。

在T-test中,先用T检验的方式测量两类样本中基因的变化,并得到p值。根据p值的大小对基因进行排序。分别选取变化最大的前4、10、20、35、60个基因用于样本分类。在RFP中,分别选取4、10、20、35、60作为参数。

首先对读入的数据进行预处理,采用交叉验证法把基因表达谱数据集划分为训练集和测试集,然后使用上述四种方法对训练数据集进行降维,使用带有标签属性的训练集进行逻辑回归,并通过拟合的回归模型对测试集数据进行分类预测,进而通过比较模型分类准确率、运行时长、F1分数、ROC曲线以及RUC值来直观地评估各方法优劣。

(1)分类准确率

当保留特征数变化时,各算法在不同数据集上的分类准确率如图2所示,各算法在不同数据集下的平均分类准确率参见表2:

Figure BDA0002260999640000111

表2

由图2和表2可知,各算法的分类准确率受数据集影响较大,随数据集的变化而变化。例如SPCR方法在数据集GSE62627中平均准确率达到87%,而在GSE2034中只有72%,分类性能相差15%。

PCR的平均分类准确率最低,只有69%。在大多数情况下,随机森林方法和t检验方法优于PCR但弱于SPCR、Y-aware PCR和Y-SPCR。Y-SPCR的平均分类准确率优于SPCR和Y-aware PCR。PCR方法最差的原因是在降维过程中,只考虑了数据样本空间的方差大小,并未考虑与分类属性密切相关的信息,易丢失部分潜在的信息。SPCR表现出了较好的分类性能,但随着保留主成分数量的增多,分类效果逐渐变差。而Y-aware PCR则恰恰相反,主成分数较少时,分类精度略差于SPCR,但当保留主成分数大于35后,分类精度要优于SPCR。这两种方法的平均准确率均为77%。

(2)运行时耗

表3给出了各算法的运行时长,基本参数设置与上节相同。运行时间计时从计算相关系数开始(PCR是从计算主成分数开始),到输出预测结果结束。包括了对应方法的数据降维、训练模型和预测结果。实验中数据预处理、文件读取和降维数据可视化部分不在运行时耗计时范围内。其中PCR和SPCR运行时间较短,平均只有3秒左右,而Y-aware PCR方法存在运行时间较长的缺点。

算法在各数据集下运行的时耗参见表3:

Figure BDA0002260999640000121

表3

在Y-aware PCR中,提取主成分操作需要对每一个基因做四次运算,即:求标准回归系数、求和、系数与基因值相乘以及减均值运算,所以计算复杂度较高,计算开销明显高于前两种方法。而Y-SPCR方法由于进行了预剪枝处理,约减了部分特征值,所以时间消耗降低了很多,且性能没有明显下降,在大规模数据分析领域,属于一种综合表现较为理想的算法。

(3)F1分数

当保留特征数不同时,各个算法在每个数据集上的F1分数如图3所示。基本参数设置与上节相同。

各算法在每个数据集上的平均F1分数参见表4:

表4

分析图3和表4可得,数据集对各个算法的F1分数影响较大,同时,F1分数数值在0.5~0.9之间波动,波动幅度比较明显。在多数情况下,随机森林和t检验优于PCR但差于Y-SPCR方法。PCR的F1分数在四个数据集中表现最差,综合平均值仅有0.58。SPCR的F1分数随着保留特征数增多呈下降趋势,而Y-aware PCR方法恰恰相反。从F1分数结果来看,SPCR和Y-aware PCR均优于PCR,且其综合平均值分别为0.62和0.63。Y-SPCR方法运行结果与分析一致,既保留了上述两种方法优点的同时,又避免了在特定保留主成分数下可能会获得不理想结果的情况。在不同保留主成分数下,Y-SPCR的F1分数的值为最优或次优,且其综合平均值达到了0.66。

(4)ROC曲线、AUC值

以GSE62627为例,利用ROC曲线和AUC值对各算法性能进行分析。首先,设置主成分数为35,其他参数设置不变。各个算法运行后的ROC曲线和对应的AUC值如图4所示。

ROC曲线反映了灵敏度与特异度之间的平衡。通过ROC曲线空间,可以直观地观察各方法的分类性能,得出定性的结论。ROC曲线凸度越明显,准确率越高。Y-SPCR中有些阈值对应的点是最靠近左上角区域的,其曲线是凸度最明显的,即Y-SPCR的分类性能表现最优。PCR、SPCR、Y-awareness的ROC曲线均优于RFP、T-test的ROC曲线,故RFP、T-test的分类模型较差。AUC值由大到小排序顺序依次为:Y-SPCR(0.84)、Y-aware(0.77)、SPCR(0.69)、PCR(0.61)、T-test(0.60)、RFP(0.57)。所以从AUC值大小来看,Y-SPCR方法仍然最优,RFP方法性能最差。

26页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:测序数据分析方法和设备及高通量测序方法

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!