一种三维变量间相关性衡量方法及指标优化方法

文档序号:1536343 发布日期:2020-02-14 浏览:31次 >En<

阅读说明:本技术 一种三维变量间相关性衡量方法及指标优化方法 (Method for measuring correlation between three-dimensional variables and method for optimizing indexes ) 是由 王树良 耿晶 刘传鲁 于 2019-11-07 设计创作,主要内容包括:本发明公开了一种三维变量间相关性衡量方法及指标优化方法,涉及数据挖掘技术领域,能够实现对三维变量间相关性的衡量,并进一步地对难以直接进行优化的指标进行间接优化。该方法包括:构建三维变量;三维变量包括三个随机变量X、Y和Z。构建三维变量样本;依据三维变量样本建立三个随机变量X、Y和Z分布的三维散点图,其中三个随机变量X、Y和Z分别分布在x维度,y维度以及z维度上。以立方网格划分三维散点图,立方网格为一个x&lt;Sub&gt;0&lt;/Sub&gt;×y&lt;Sub&gt;0&lt;/Sub&gt;×z&lt;Sub&gt;0&lt;/Sub&gt;的立方网格,x&lt;Sub&gt;0&lt;/Sub&gt;,y&lt;Sub&gt;0&lt;/Sub&gt;,z&lt;Sub&gt;0&lt;/Sub&gt;进行随机取值。在每一种x&lt;Sub&gt;0&lt;/Sub&gt;,y&lt;Sub&gt;0&lt;/Sub&gt;,z&lt;Sub&gt;0&lt;/Sub&gt;的取值情况下,计算三个随机变量X、Y和Z的最大互信息值,取所有最大互信息值中的最大值作为最大三维信息系数MTDIC。利用MTDIC作为三维变量间的相关性值。(The invention discloses a method for measuring correlation between three-dimensional variables and an index optimization method, relates to the technical field of data mining, and can be used for measuring correlation between the three-dimensional variables and further indirectly optimizing indexes which are difficult to directly optimize. The method comprises the following steps: constructing a three-dimensional variable; the three-dimensional variables include three random variables X, Y and Z. Constructing a three-dimensional variable sample; and establishing a three-dimensional scatter diagram of three random variables X, Y and Z distribution according to the three-dimensional variable sample, wherein the three random variables X, Y and Z are distributed in the x dimension, the y dimension and the Z dimension respectively. Dividing a three-dimensional scatter diagram by using a cubic grid, wherein the cubic grid is x 0 ×y 0 ×z 0 Cubic lattice of (a), x 0 ,y 0 ,z 0 And carrying out random value taking. At each kind of x 0 ,y 0 ,z 0 In the case of (3), the maximum mutual information values of the three random variables X, Y and Z are calculated, and the maximum value of all the maximum mutual information values is taken as the maximum three-dimensional information coefficient MTDIC. Using MTDIC as a three-dimensional variableThe correlation value between them.)

一种三维变量间相关性衡量方法及指标优化方法

技术领域

本发明涉及数据挖掘技术领域,具体涉及一种三维变量间相关性衡量方法及指标优化方法。

背景技术

在数据挖掘分析中,变量间相关性分析便是其中重要的一环。想象一个数据集中有上百个变量,那么可组合为成千上万变量组合,这些变量之间隐藏的很多重要的依赖关系。挖掘这其中的潜在关系也变得越来越有意义。在变量间的相关性分析的研究中,目前很多方法用于衡量两个变量间的相关性。比如Pearson’s correlation coefficient,Distance Correlation,maximal correlation,principle curve-based method,maximalcorrelation coefficient and Maximal Information Coefficient(MIC)。而关于多变量之间相关性衡量,目前的研究相对较少,且其基础仍以分析两两变量间相关性为主。

发表在《Science》杂志上的关于新统计方法MIC的文章,其中提到了在衡量变量间相关性的两个重要特性即通用性和均匀性。通用性指的是对于足够的样本数据,统计方法也可捕捉广泛的关系类型,不仅仅局限于特定的函数类型,如线性、指数、对数或者抛物线函数关系,还涵盖了其他所有的函数关系。目前很多重要的关系类型不仅仅是单一的函数形式,很多关系是不能被某种特定的函数描述,比如两个函数的叠加形式。而公平性指的是,对于具有相同噪声程度,而非相同的关系,相关性度量方法能够给出的相关性值极其相近。例如,如果不希望具有噪声的线性关系掩盖强大的正弦关系。均匀性对于一般的关系很难形式化描述,但对于函数类型的基本情况可以给出一个明确的解释:一个具有均匀性的统计方法对于R2值(R2为线性回归的决定系数)接近的函数关系(有足够的样本量)应该给出相近的度量。例如,在合理的样本大小下,一个噪声程度R2=0.8的正弦关系和具有同样R2值的线性关系应该具有相似的MIC值。

目前传统的用于衡量两个随机变量间相关性的方法几乎没有能同时满足通用性和均匀性这两个特性。用于衡量三维变量间相关性的方法,基本上仍以传统方法分析两两变量间相关性为基础。而并非将三个随机变量作为一个整体来进行处理。这就暴露出两个明显的问题。首先,采用在均匀性和通用性上存在缺陷的双变量相关性衡量方法来处理多维变量间关系,这就使得三维变量间相关性强弱结果也存在偏差。其次分析三维变量间相关性的问题上,采用的仍为两两变量间相关性来处理,缺少一个衡量三维变量间整体相关性的统计量作为理论支撑。

目前这种变量间相关性的数据分析的应用非常广泛,最明显的应用是针对一些难以进行优化的物理指标的间接优化方式,对于这种难以进行优化的物理指标,可以通过求解该指标与其他指标相关性的方式,找到与该指标相关性较强的其他指标,通过优化其他指标以达到优化该难以进行直接优化的物理指标。

尤其是若有两种难以直接优化的物理指标,二者之间具有一定的相关性,因此可以通过三维变量相关性求解的方式,找到另外一个与上述两种安逸直接优化的物理指标相关性强的、且容易进行优化的物理指标,通过优化该指标,即可达到同时优化以上两种难以直接优化的物理指标的目的。

例如现在世界对湖泊污染的蓝藻(cyanobacteria)格外关注,而目前尚未有针对蓝藻的生长抑制方法,因此可以通过三维变量方法计算得出与蓝藻相关性强其他藻类和水质指标,从而有助于环保部门对相关性强的水质生化指标进行控制。

因此无论在数据挖掘处理还是在物理指标优化方面,都亟需一种衡量三维变量间整体相关性的方法。

发明内容

有鉴于此,本发明提供了一种三维变量间相关性衡量方法及指标优化方法,能够获得三维变量间的相关性量化数值,从而实现对三维变量间相关性的衡量,并进一步地对难以直接进行优化的指标进行间接优化。

为达到上述目的,本发明实施例提供了一种三维变量间相关性衡量方法,其特征在于,包括:

构建三维变量;三维变量包括三个随机变量X、Y和Z。

采集三个随机变量的实际数据,构建三维变量样本;依据三维变量样本建立三个随机变量X、Y和Z分布的三维散点图,其中三个随机变量X、Y和Z分别分布在x维度,y维度以及z维度上。

以立方网格划分三维散点图,立方网格为一个x0×y0×z0的立方网格,x0,y0,z0分别为立方网格中在x维度,y维度以及z维度上的划分格数;x0,y0,z0进行随机取值。

在每一种x0,y0,z0的取值情况下,计算三个随机变量X、Y和Z的最大互信息值,取所有最大互信息值中的最大值作为最大三维信息系数MTDIC。

利用MTDIC作为三维变量间的相关性值。

进一步地,计算在每一种x0,y0,z0的取值情况下,三个随机变量X、Y和Z的最大互信息值,具体为:

取个随机变量X、Y和Z的有限集合;D|(x0,y0,z0)为在集合D上的一个x0×y0×z0划分的立方网格集合G;I(D|(x0,y0,z0))为在立方网格集合G的划分方式下的互信息值。

Figure BDA0002264440740000041

其中立方网格集合G中,随机变量X的样本空间被随机划分x0个序列,随机变量Y的样本空间被随机划分y0个序列,随机变量Z的样本空间被随机划分z0个序列;计算每一种x0,y0,z0的取值情况下,三个随机变量X、Y和Z的最大互信息值。

其中p(xi)为立方网格集合G中、随机变量X属于第xi个序列的概率;p(yj)为立方网格集合G中、随机变量Y属于第yj个序列的概率;p(zk)为立方网格集合G中、随机变量Z属于第zk个序列的概率;i取遍1~x0之间所有整数,j取遍1~yj之间所有整数,k取遍1~zk之间所有整数。

p(xi,yj)为立方网格集合G中、随机变量X属于第xi个序列且随机变量Y属于第yj个序列的联合概率;p(xi,zk)为立方网格集合G中、随机变量X属于第xi个序列且随机变量Z属于第zk个序列的联合概率;p(yj,zk)为立方网格集合G中、随机变量Y属于第yj个序列且随机变量Z属于第zk个序列的联合概率;p(xi,yj,zk)为立方网格集合G中、随机变量X属于第xi个序列且随机变量Y属于第yj个序列且随机变量Z属于第zk个序列的联合概率。

进一步地,x0,y0,z0的取值范围为:x0×y0×z0<B;其中B是关于三维变量样本大小N的函数,B=N0.6

进一步地,以立方网格划分三维散点图,具体为:

立方网格中,在x维度上按照x0的取值进行均匀划分,在y维度上按照y0的取值进行均匀划分,在z维度上按照z0的取值进行随机划分。

本发明另一实施例还提供了一种基于三维变量间相关性衡量的指标优化方法,选取两个以下的待优化指标,将待优化指标与其他选定指标组成指标三维变量,采用上述的三维变量间相关性衡量方法,对指标三维变量进行现相关性衡量,得到指标三维变量的相关性值。

若指标三维变量的相关性值超过设定的相关性阈值,则其他选定指标记为与待优化指标相关指标。

通过调整相关指标,以优化待优化指标。

设定的相关性阈值依据经验值进行设定。

有益效果:

1、本发明提供了一种三维变量间相关性衡量方法,通过对变量三维空间的动态划分、互信息计算,得到三维变量间关系相关性,该方法将三个随机变量作为一个整体来进行处理,满足了三维变量相关性衡量的通用型和均匀性,实现了对三维变量相关性的量化,便于后续对相关性较强的三维变量进行同时处理。

2、本发明还提供了一种基于上述三维变量间相关性衡量方法的指标优化方法,利用上述三维变量间相关性衡量方法,针对一些难以进行优化的物理指标通过求解该指标与其他指标相关性的方式,找到与该指标相关性较强的其他指标,通过优化其他指标以达到间接优化该难以进行直接优化的物理指标的目的。

附图说明

图1为本发明实施例提供的一种三维变量间相关性衡量方法流程图。

具体实施方式

下面结合附图并举实施例,对本发明进行详细描述。

实施例1

本发明提供了一种基于互信息的三维变量间相关性衡量方法,其流程如图1所示,包括:

S1、构建三维变量;三维变量包括三个随机变量X、Y和Z。

S2、采集三个随机变量的实际数据,构建三维变量样本。依据三维变量样本建立三个随机变量X、Y和Z分布的三维散点图,其中三个随机变量X、Y和Z分别分布在x维度,y维度以及z维度上。

S3、以立方网格划分三维散点图,立方网格为一个x0×y0×z0的立方网格,x0,y0,z0分别为立方网格中在x维度,y维度以及z维度上的划分格数;x0,y0,z0进行随机取值。

S4、在每一种x0,y0,z0的取值情况下,计算三个随机变量X、Y和Z的最大互信息值,取所有最大互信息值中的最大值作为最大三维信息系数MTDIC。

本发明实施例中,计算在每一种x0,y0,z0的取值情况下,三个随机变量X、Y和Z的最大互信息值,具体为:

取个随机变量X、Y和Z的有限集合;D|(x0,y0,z0)为在集合D上的一个x0×y0×z0划分的立方网格集合G;I(D|(x0,y0,z0))为在立方网格集合G的划分方式下的互信息值;

Figure BDA0002264440740000061

其中立方网格集合G中,随机变量X的样本空间被随机划分x0个序列,随机变量Y的样本空间被随机划分y0个序列,随机变量Z的样本空间被随机划分z0个序列;计算每一种x0,y0,z0的取值情况下,三个随机变量X、Y和Z的最大互信息值;

其中p(xi)为立方网格集合G中、随机变量X属于第xi个序列的概率;p(yj)为立方网格集合G中、随机变量Y属于第yj个序列的概率;p(zk)为立方网格集合G中、随机变量Z属于第zk个序列的概率;i取遍1~x0之间所有整数,j取遍1~yj之间所有整数,k取遍1~zk之间所有整数。

p(xi,yj)为立方网格集合G中、随机变量X属于第xi个序列且随机变量Y属于第yj个序列的联合概率;p(xi,zk)为立方网格集合G中、随机变量X属于第xi个序列且随机变量Z属于第zk个序列的联合概率;p(yj,zk)为立方网格集合G中、随机变量Y属于第yj个序列且随机变量Z属于第zk个序列的联合概率;p(xi,yj,zk)为立方网格集合G中、随机变量X属于第xi个序列且随机变量Y属于第yj个序列且随机变量Z属于第zk个序列的联合概率。

本发明实施例中,为减少计算量,x0,y0,z0的取值范围为:x0×y0×z0<B。

其中B是关于三维变量样本大小N的函数,B=N0.6

S5、利用MTDIC作为三维变量间的相关性值。

本发明实施例中通过最大互信息的定义,为获得最大三维信息系数,进行无限的划分网格计算量较大,因此,本发明实施例还提供了一种动态划分的策略来获取MTDIC。

即在以立方网格划分三维散点图时,上述立方网格,在x维度上按照x0的取值进行均匀划分,在y维度上按照y0的取值进行均匀划分,在z维度上按照z0的取值进行随机划分。

立方网格集合G,在x维度上按照x0的取值进行均匀划分得到的划分结果为R,在y维度上按照y0的取值进行均匀划分得到的划分结果为Q;

对于已经均划分好的Y轴Q和X轴划分R.

建立递推公式:

Figure BDA0002264440740000071

其中F(M,z0)为前M个点属于第z0个序列的互相关中间量,F(m,z0-1)为前m个点属于第z0-1个序列的互相关中间量;M小于N,m小于M;<m,M>为三维散点图中z维度上m~M之间的点;

H(<m,M>,Q,R)为随机变量Z属于<m,M>,随机变量X的划分结果R且随机变量Y的划分结果为Q时的联合熵;

H(<m,M>,R)为随机变量Z属于<m,M>且随机变量X的划分结果为R时的联合熵;

H(<m,M>,Q)为随机变量Z属于<m,M>且随机变量Y的划分结果为Q时的联合熵;

根据上述递推公式求解获得使得三个随机变量X、Y和Z的互信息值最大的z维度上的划分方式,并得到划分序列。

实施例2

针对上述三维变量间相关性衡量方法,可以将其应用于指标优化,即选取两个以下的待优化指标,本发明实施例中所选取的待优化指标是难以进行直接优化的物理指标,将待优化指标与其他选定指标组成指标三维变量,其他选定指标可以为与上述待优化指标同领域同类型的指标,采用上述三维变量间相关性衡量方法对指标三维变量进行现相关性衡量,得到指标三维变量的相关性值。

若指标三维变量的相关性值超过设定的相关性阈值,则其他选定指标记为与待优化指标相关指标。

通过调整相关指标,以优化待优化指标;从而实现了对难以直接优化的待优化指标的间接优化。

本发明实施例中,设定的相关性阈值依据经验值进行设定。

具体地,可以将以上指标优化方法应用于蓝藻的生长抑制,其中待优化指标为蓝藻,其他选定指标可以从以下指标中选取:

水质中藻类浓度变量:cyanobacteria,chlorophyta,bacillariophyta,cryptophyta,other algae。

生化指标变量:pH,temperature,SD,CODCr,DO,nitrogen(TN),ammonianitrogen,nitrate nitrogen,nitrite nitrogen,total phosphorus(TP),solublephosphate,soluble orthophosphate,inorganic phosphorus,potassium permanganateindex,TOC,N/P ratio。

为了分析与蓝藻有关的指标,分为2步进行:首先分别遍历计算蓝藻与其他任意两个指标组合的成的三维变量的相关性,然后进行对相关性值进行排序,以便选取于蓝藻相关性比较强的变量进行分析。

综上所述,以上仅为本发明的较佳实施例而已,并非用于限定本发明的保护范围。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。

9页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:点云视点和可扩展压缩/解压

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!