一种基于改进随机森林算法的电压缺失数据辨识方法

文档序号:68801 发布日期:2021-10-01 浏览:1次 >En<

阅读说明:本技术 一种基于改进随机森林算法的电压缺失数据辨识方法 (Voltage missing data identification method based on improved random forest algorithm ) 是由 李绍坚 韦明超 罗淑芳 莫江婷 甘静 夏斌 王益成 周觅路 韦社敏 鲁林军 陈柏 于 2021-04-13 设计创作,主要内容包括:本发明公开了一种基于改进随机森林算法的电压缺失数据辨识方法,其中方法步骤包括:获取电网历史数据,选择缺失数据所有对应的关联属性,进行不同的属性划分;通过属性综合加权计算得到学习样本集合;对学习样本进行重复抽样,得到若干个相似样本集合;将所述相似样本集合作为输入,训练随机森林回归模型;提高随机森林回归预测精度;将所有决策树的最终预测均值作为填补结果,评估填补结果,填补结果在容忍范围则填补完成。通过本发明提高对缺失数据的辨识精度,从而提高了电网缺失值的填补精度。(The invention discloses a voltage missing data identification method based on an improved random forest algorithm, wherein the method comprises the following steps: acquiring historical data of a power grid, selecting all corresponding associated attributes of missing data, and dividing different attributes; obtaining a learning sample set through attribute comprehensive weighting calculation; repeatedly sampling the learning samples to obtain a plurality of similar sample sets; taking the similar sample set as input, and training a random forest regression model; improving the prediction precision of random forest regression; and taking the final prediction mean values of all the decision trees as filling results, evaluating the filling results, and completing filling when the filling results are in a tolerance range. The method and the device improve the identification precision of the missing data, thereby improving the filling precision of the power grid missing value.)

一种基于改进随机森林算法的电压缺失数据辨识方法

技术领域

本发明电力系统数据融合中常出现的电压值缺失问题的

技术领域

,尤其涉 及一种基于改进随机森林算法的电压缺失数据辨识方法。

背景技术

随着电网的高速发展,各类系统对数据的需求越来越依赖,然而在数据采 集和传输的过程中,常因通道量测和人为等因素,不可避免导致部分数据的丢 失或异常。缺失或异常的数据对系统的运行以及进一步的数据分析都会造成影 响,导致输出结果的异常。

尽管目前的研究对缺失数据的填补都取得了较好的效果,但是却较少对缺 失值属性的关联属性进行研究和分析,缺失值的关联属性对填补结果有较大影 响,基于属性综合加权的改进随机森林算法,对缺失数据进行辨识,提高缺失 数据的辨识精度,提高电网缺失值的填补精度。

发明内容

为了克服现有技术的不足,本发明提供了一种基于改进随机森林算法的电 压缺失数据辨识方法,实现对缺失数据进行了辨识,提高缺失数据的辨识精度, 提高电网缺失值的填补精度。

为了实现上述发明目的,本发明提供了一种基于改进随机森林算法的电压 缺失数据辨识方法,包括以下步骤:

S1:获取电网历史数据,选择缺失数据所有对应的关联属性,进行不同的属 性划分;

S2:通过属性综合加权计算得到学习样本集合;

S3:对学习样本进行重复抽样,得到若干个相似样本集合;

S4:将所述相似样本集合作为输入,训练随机森林回归模型;

S5:通过减少决策树间的关联性和提高决策树的精度,提高随机森林回归预 测精度;

S6:将所有决策树的最终预测均值作为填补结果,评估填补结果,填补结果 在容忍范围则填补完成。

对所述关联属性进行各属性间的互相关系数计算,互相关系数大于给定阀值 的属性存入互相关集合HG;

所述关联属性的各属性间的互相关系数计算公式如下,

当皮尔逊系系数用于总体时,如式(1)所示:

X,Y为两个不同属性随机变量,σXY分别是X,Y的标准差,cov(X,Y)为协 方差,如式(2)所示:

n表示样本的数量。

当皮尔逊系系数用于样本时,如式(3)所示:

xi,yi为变量X,Y对应i的观测点值,分别为对应X,Y的样本均值;

通过皮尔逊系数计算各属性间的互相关系数,选择互相关系数大于给定阀 值的属性存入互相关集合HG。

将所述互相关集合HG进行属性误差期望计算,属性误差期望大于强相关 阀值,存入强相关属性集合QX;

所述互相关集合HG的属性误差期望计算公式如下,

Cov(Xk,Yk)为Xk,Yk的协方差;Var[Xk]为Xk的方差;Var[Yk]为Yk的方差;

若EXPError(Xk,Yk)>β(β为强相关阀值),则为强相关属性,存入到强相关 属性集合QX中。

所述强相关属性集合QX中的各属性采用熵权法确立其属性间的权重,得 到权重向量,据强相关系数得到的属性综合加权值SX按照从大到小排序,设置 选择阀值,选择大于选择阀值的样本作为学习样本集合。

所述强相关属性集合QX中的各属性采用熵权法确立其属性间的权重,得到 权重向量如下:

W=[w1,w2,...,wm] (5)

m为强关联属性的个数。

据强相关系数得到的属性综合加权值SX:

SX=W1S1+W2S1+...+WmSm (6)

根据各历史断面数据的属性综合加权结果按照从大到小排序,设置选择阈 值,选择阀值较大的样本作为学习样本集合。

所述进行不同的属性划分完成整棵决策树的生长,基于基尼指数(Gini indexGI)通过判断终结点上所有划分,GI的公式为:

式中,Pj为j类元素出现的频率,U表示数据集,m表示类别个数。

对于不同属性GI要求对其进行划分,对于任意属性T的划分都可以将U其变 为U1和U2,则通过划分后的属性T的样本集U的GI式5所示:

对任意属性,该划分的结果都能使得该属性生成最小的GI子集作为分裂子 集。若属性T上的GIU,T越小,则可以认为其在属性T上的划分效果越好。

所述提高随机森林回归预测精度,是通过减少决策树间的关联性和提高决 策树的精度,步骤如下:

所有决策树{h(X,θk),k=1,...,Ntree}集合构成了随机森林f,h(X,θk)表示未 剪枝的决策树;θk是与第k个决策树独立同分布的随机向量;对于分类问题采用 多数投票,对于回归问题采用算术平均值,得到随机森林的最终预测值。

通过边缘函数Q(X,Y)得出分类正确性的置信度,公式如下:

式中X:输入向量,最大包含J种不同类别;Y:输出的正确的分类类别; j:表示J种类别中的一种;I:指示函数;ak:平均函数k=1,...,n;

由式(6)可以看出,边缘函数越大,分类正确性的置信度就越高,因此可 以定义随机森林回归的泛化误差如式(7)所示:

E*=SX,Y(Q(X,Y)<0) (7)

式中SX,Y为输入向量X的分类错误率函数。对式(7)采用大数定律可得如 下定理:

对于所有序列θk,若树的个数不断增加时,E*几乎收敛于:

式中Sθ为集合θ的分类错误率,由定理可以看出随机森林回归的泛化会收 敛于一个上界,而树的增加并不会对预测结果造成过拟合。

随机森林回归泛化误差上界,如式(9)所示:

式中η:树的平均相关系数,ζ:树的平均强度。

随着η的减小和ζ的增大,随机森林的泛化误差上界将会进一步减少,更加 有利于误差的控制。

对学习样本集合进行重复抽样,得到若干个相似样本集合。

将所述相似样本集合作为输入,训练随机森林回归模型。

对任意决策树从初始集合中抽取大小相同的子集进行训练,生成K棵决策 树,训练随机森林。

通过减少决策树间的关联性和提高决策树的精度,提高随机森林回归预测 精度。

对训练完成的随机森林进行判别与分类,将所有树的预测均值作为填补结 果,评估填补结果,填补结果在容忍范围则填补完成。

本发明的有益效果:基于属性综合加权的改进随机森林算法,对数据缺失 值属性的关联属性进行研究和分析,筛选得到填补数据最相近的关联属性,提 高缺失数据的辨识精度,从而提高电网缺失值的填补精度。

附图说明

为了更清楚地说明本发明实施例或现有技术中的技术方案,下面将对实施 例或现有技术描述中所需要使用的附图作简单地介绍,显而易见的,下面描述 中的附图仅仅是本发明的一些实施例,对于本领域普通技术人员来讲,在不付 出创造性劳动的前提下,还可以根据这些附图获得其它的附图。

图1是本发明实施中基于属性综合加权的改进随机森林算法示意图;

图2是本发明不同算法填补结果的均方根误差图;

图3是本发明不同算法填补结果的准确度图;

图4是本发明改进森林算法填补结果与真实值对比图。

具体实施方式

下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清 楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是 全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造 性劳动前提下所获得的所有其它实施例,都属于本发明保护的范围。

请参阅图1,图1是本发明实施中的基于属性综合加权的改进随机森林算法 的流程示意图。

如图1所示,基于属性综合加权的改进随机森林算法包括:

步骤1:获取电网历史数据,从选择缺失数据所有对应的关联属性,进行不 同的属性划分。

步骤2:所述进行不同的属性划分完成整棵决策树的生长,基于基尼指数(Giniindex GI)通过判断终结点上所有划分,GI的公式为:

式中,Pj为j类元素出现的频率,U表示数据集,m表示类别个数。

对于不同属性GI要求对其进行划分,对于任意属性T的划分都可以将U其变 为U1和U2,则通过划分后的属性T的样本集U的GI式2所示:

对任意属性,该划分的结果都能使得该属性生成最小的GI子集作为分裂子 集。若属性T上的GIU,T越小,则可以认为其在属性T上的划分效果越好。

步骤3:通过皮尔逊系数计算各属性间的互相关系数,选择互相关系数大于 为给定阀值的属性存入互相关集合HG;

所述关联属性的各属性间的互相关系数计算公式如下,

当皮尔逊系系数用于总体时,如式(3)所示:

其中,X,Y为两个不同属性的随机变量,σXY分别是X,Y的标准差, cov(X,Y)为协方差,如式(4)所示:

其中,n表示样本的数量;

当皮尔逊系系数用于样本时,如式(5)所示:

其中,xi,yi为变量X,Y对应i的观测点值,分别为对应X,Y的样本均值;

通过皮尔逊系数计算各属性间的互相关系数,选择互相关系数大于给定阀 值的属性存入互相关集合HG。

步骤4:进一步计算互相关集合HG集合中所有属性的误差期望 EXPError(Xk,Yk)

Cov(Xk,Yk)为Xk,Yk的协方差;Var[Xk]为Xk的方差;Var[Yk]为Yk的方差;

步骤5:若EXPError(Xk,Yk)>β(β为强相关阀值),则为强相关属性,保 留到强相关属性集合QX中,若EXPError(Xk,Yk)<β,则返回步骤4。

步骤6:对集合QX中的各属性采用熵权法确立其属性间的权重,得到权重 向量如下:

W=[w1,w2,...,wm] (7)

m为强关联属性的个数。

步骤7:据强相关系数得到的属性综合加权值SX:

SX=W1S1+W2S1+...+WmSm (8)

根据各历史断面数据的属性综合加权结果按从大到小排序,设置选择阈值, 选择阀值较大的样本作为学习样本集合。

步骤8:进一步的,对所述学习样本集合进行重复抽样,得到若干个相似样 本集合。

步骤9:将所述相似样本集合作为输入,训练随机森林回归模型。

步骤10:所述通过减少决策树间的关联性和提高决策树的精度,提高随机 森林回归预测精度,步骤如下:

所有决策树{h(X,θk),k=1,...,Ntree}集合构成了随机森林f,h(X,θk)表示未 剪枝的决策树;θk是与第k个决策树独立同分布的随机向量;对于分类问题采用 多数投票,对于回归问题采用算术平均值,得到随机森林的最终预测值;

通过边缘函数Q(X,Y)得出分类正确性的置信度,公式如下:

其中,X:输入向量,最大包含J种不同类别;Y:输出的正确的分类类别; j:表示J种类别中的一种;I:指示函数;ak:平均函数k=1,...,n;

由式(9)可以看出,边缘函数越大,分类正确性的置信度就越高,因此可 以定义随机森林回归的泛化误差如式(8)所示:

E*=SX,Y(Q(X,Y)<0) (10)

其中,SX,Y:输入向量X的分类错误率函数;

对于所有序列θk,若树的个数不断增加时,E*几乎收敛于:

其中,Sθ:集合θ的分类错误率,由定理可以看出随机森林回归的泛化会 收敛于一个上界,而树的增加并不会对预测结果造成过拟合;

随机森林回归泛化误差上界,如式(11)所示:

其中,η:树的平均相关系数,ζ:树的平均强度。

随着η的减小和ζ的增大,随机森林回归的泛化误差上界将会进一步减少, 更加有利于误差的控制。因此,改善数据森林回归预测精度的方法为:1、减小 树间的关联性;2、提高单棵决策树精度。

步骤11:将所有决策树的最终预测均值作为填补结果,评估填补结果,填 补结果在容忍范围则填补完成。

以下是基于改进随机森林算法的电压缺失数据辨识方法的数据对比分析:

从电网大数据选取并构建若干个数据集,根据情况选定缺失属性,通过随 机删除的方法构造缺失率分别为1%、3%、5%、10%、15%、20%、25%和30% 的缺失数据集。在不同缺失率下分别应用本文改进随机森林算法、随机森林算 法和原地算法三种算法进行实验,并对各算法得到的实验结果根据均方根误差 和填补准确度进行分析比较。

以实际电网某电压缺失值作为填补目标,构造缺失率不同的缺失数据集, 测试三种算法的性能。为充分表现各算法的性能,用随机生成缺失值的方式为 每个缺失率构造10个缺失数据集,算法应用于各个数据集所得结果取平均值作 为最终的实验结果,综合各实验结果进行分析对比。

从图2中可以看出本文提出的改进随机森林算法在所有缺失率下均方根误 差均最小,填补效果最优,随缺失率的增加,均方根误差增大。

缺失值填补准确度随缺失率的增大而降低,如图3所示,当缺失率为1%时, 三种算法的填补准确率都能达到60%以上,说明在缺失少量数据时各算法填补 性能均较好。缺失率在3%-15%时本文提出的改进随机森林算法填补准确率明显 优于随机森林算法,缺失率大于15%时随机森林算法与原地算法的填补准确 率相差不大。在所有缺失情况下,改进随机森林算法填补效果都明显好于随机 森林算法和原地算法。

从以上均方根误差与填补准确率分析可知,本文提出的改进随机森林算法 的填补效果优于另两种算法,为更加直观展示该算法实际填补效果,构造缺失 率为10%,且包括多段连续缺失的数据集,应用本文提出的改进随机算法对电 网缺失值进行填补。图4为其中一段连续缺失27组数据的填补结果与真实值的 对比结果,可看出填补值与真实值相关度较高,满足数据填补要求。

应当理解的是,以上所述实施例仅表达本发明的说明性,但并不能因此而理 解对本发明范围限制,对于本领域的普通技术元而言,在不脱离本发明构思的 前提下,还可做出若干改进,这些都属于本发明的保护范围。

13页详细技术资料下载
上一篇:一种医用注射器针头装配设备
下一篇:一种电-气综合能源系统状态估计方法和系统

网友询问留言

已有0条留言

还没有人留言评论。精彩留言会获得点赞!

精彩留言,会给你点赞!

技术分类