基于复合聚类算法的电力居民用户日负荷曲线聚类方法

文档序号：1520952 发布日期：2020-02-11 浏览：10次 >En<

阅读说明：本技术 基于复合聚类算法的电力居民用户日负荷曲线聚类方法 (Electric power resident user daily load curve clustering method based on composite clustering algorithm ) 是由游文霞金之榆于 2019-10-16 设计创作，主要内容包括：基于复合聚类算法的电力居民用户日负荷曲线聚类方法,获取电力居民用户日负荷数据,该数据包含有P个样本,每个样本有Q个时间点属性的数据集矩阵；对电力居民用户日负荷数据进行预处理,获得初始群集；对初始群集进行降维处理,获得降维群集；采用聚类算法1对降维群集进行初步聚类,得到初始聚类中心；采用聚类算法2对聚类算法1得到的初始聚类中心进行聚类,并使用聚类有效性指标,对聚类结果进行评估,最终得到M个聚类中心；采用得到的M个聚类中心,作为聚类算法2的初始聚类中心,对数据进行聚类,获得行为相似的用户群。本发明把庞大零散的日负荷数据聚类成行为相似的用户群。电力企业管理人对聚类成的用户群进行分析,可以更好地预测用电量高峰和低谷,为电力业务的管理提供更可靠地方法。(The method comprises the steps that a daily load curve clustering method of power residents based on a composite clustering algorithm is used for obtaining daily load data of the power residents, wherein the data comprises P samples, and each sample is provided with a data set matrix with Q time point attributes; preprocessing daily load data of power resident users to obtain an initial cluster; performing dimensionality reduction on the initial cluster to obtain a dimensionality reduction cluster; carrying out primary clustering on the dimensionality reduction cluster by adopting a clustering algorithm 1 to obtain an initial clustering center; clustering the initial clustering centers obtained by the clustering algorithm 1 by adopting a clustering algorithm 2, and evaluating clustering results by using a clustering effectiveness index to finally obtain M clustering centers; and clustering data by using the obtained M clustering centers as initial clustering centers of a clustering algorithm 2 to obtain user groups with similar behaviors. The invention clusters huge and scattered daily load data into similar user groups. The power enterprise manager analyzes the clustered user groups, can better predict power consumption peak and valley, and provides a more reliable method for power business management.)

技术领域

本发明涉及电力居民用户用电技术领域，尤其是一种基于复合聚类算法的电力居民用户日负荷曲线聚类方法。

背景技术

随着电力行业的快速发展，以及智能电表的普及，获取电力居民用户的用电情况变得更加方便，同时，电力公司会获得更加庞大以及详细的用户用电数据。

面对庞大的用电数据，利用现有的数据挖掘和分析技术，对电力用户日负荷数据进行规律分析以及特征提取，从而便于电力公司根据电价政策为用户提供更加高质量的供电服务。其中，居民用户用电细分是电力公司提供优质服务的重要方面，面对日益增长的居民用户用电负荷那比例的增加，使用合理，高效的数据聚类算法对用户进行分析可以帮助电力公司根据用户的特征提供更加合理，个性化的供电方案，让用户获得更好的体验。

但是，单一的原始的聚类算法聚类效率低，聚类效果差，例如，K-means算法由于对于初始聚类中心的选择是随机的，这使得对于样本数据量大的数据集，容易使聚类结果陷入局部最优。无法确定最佳聚类数目，需要研究人员逐个测试，导致聚类效率低下。从而不能很好地反映用户用电数据中的潜在规律以及用电特征，从而无法为电力公司在居民用户聚类方面提供良好的支持。

发明内容

本发明提供一种基于复合聚类算法的电力居民用户日负荷曲线聚类方法，该方法根据实时采集用电负荷的智能电表中的数据，对负荷曲线进行聚类，进而将有相同用电行为的用户聚到一起。

本发明采取的技术方案为：

基于复合聚类算法的电力居民用户日负荷曲线聚类方法，包括以下步骤：

步骤1：获取电力居民用户日负荷数据，该数据包含有P个样本，每个样本有Q个时间点属性的数据集矩阵；

步骤2：对电力居民用户日负荷数据进行预处理，获得初始群集；

步骤3：对初始群集进行降维处理，获得降维群集；

步骤4：采用聚类算法1对降维群集进行初步聚类，得到初始聚类中心；

步骤5：采用聚类算法2对聚类算法1得到的初始聚类中心进行聚类，并使用聚类有效性指标，对聚类结果进行评估，最终得到M个聚类中心；

步骤6：采用步骤5得到的M个聚类中心，作为聚类算法2的初始聚类中心，对数据进行聚类，获得行为相似的用户群，并对获得的行为相似的用户群进行行为特征分析。

所述步骤1中，对于P个样本，每个样本有Q个时间点属性的电力居民用户日负荷数据集，具体包括：

P个样本为居民用户样本，居民生活主要受季节变化、气温变化、收人水平、空调、电炊拥有率等因素影响，不用的因素会导致不同的日负荷曲线；Q为每日各个时间点由智能电表采集的该时间点的用电功率，Q的值根据智能电表采集数据的时间间隔而定。

所述步骤2中，预处理包括缺失值处理、数据标准化、数据正则化处理；

缺失值处理，对含有较多缺失值的数据进行删除，对含有较少缺失值的数据进行补全；

数据标准化，将原始数据线性化的方法转换到[0，1]的范围；

数据正则化处理，将每个属性减去该属性对应的均值，然后，再除以该属性对应方差。

所述步骤3中，降维处理采用PCA(Principal Component Analysis)，即主成分分析方法；获取的降维集群为p个样本、每个样本有q个属性的数据集矩阵。

所述步骤4中，采用聚类算法1对降维群集做初步聚类，获得行为相似的用户群，具体包括，采用Mean-shift算法，将数据集中的p个样本聚成N类，其中，N为正整数。

所述步骤5中，采用聚类算法2对聚类算法1得到的聚类中心进行聚类，采用聚类有效性指标评估聚类结果，具体包括：采用K-means算法对Mean-shift算法得到的N个聚类中心进行聚类，在聚类数目N范围内，对[2，N]分别聚类，其中，N为正整数，并使用Calinski-Harabasz(CH)指标对聚类结果进行评估，选取CH值最大的结果，最终得到M个聚类中心，其中，M为[2，N]中的正整数。

所述步骤6中，采用得到的M个聚类中心作为K-means算法的初始聚类中心，对数据集中的每个样本，即每个用户或每条记录进行聚类，最后得到M个类的用户。

本发明一种基于复合聚类算法的电力居民用户日负荷曲线聚类方法，以电力居民用户日负荷数据为分析对象，通过数据预处理，数据降维，以及特征聚类等多个算法过程，其中，特征聚类算法优选Mean-shift算法与K-means算法相结合。把庞大零散的日负荷数据聚类成行为相似的用户群。电力企业管理人对聚类成的用户群进行分析，可以更好地预测用电量高峰和低谷，为电力业务的管理提供更可靠地方法，为电力客户提供更优质的服务。

附图说明

图1为本发明方法实施例1的流程图。

图2为本发明方法实施例2的流程图。

具体实施方式

实施例1：

基于复合聚类算法的电力居民用户日负荷曲线聚类方法，包括以下步骤：

步骤1：获取电力居民用户日负荷数据，该数据包含有P个样本，每个样本有Q个时间点属性的数据集矩阵；

步骤2：对电力居民用户日负荷数据进行预处理，获得初始群集；

步骤3：对初始群集进行降维处理，获得降维群集；

步骤4：采用聚类算法1对降维群集进行初步聚类，得到N个初始聚类中心；

步骤5：采用聚类算法2对聚类算法1得到的初始聚类中心进行聚类，并使用聚类有效性指标，对聚类结果进行评估，最终得到M个聚类中心；

实施例2：

基于复合聚类算法的电力居民用户日负荷曲线聚类方法，包括以下步骤：

首先，获取电力居民用户日负荷数据，该数据包含有P个样本、每个样本有Q个时间点属性的数据集矩阵。

一般情况下，电网公司营销系统经过的数据集包括数万或更多的样本，每个样本为一个电力居民用户，随着智能电表的普及，统计每个用户的居民用户日负荷数据变得非常容易。

然后，对获取的电力居民用户日负荷数据进行预处理，获得初始群集，其中，本实施例中，预处理过程包括对电力居民用户日负荷用电数据进行缺失值处理，数据标准化，数据正则化以及数据降维，经过以上处理后，获得的初始群集为p个样本、每个样本有q个属性的数据集矩阵。

其中，缺失值处理具体为，对有效值少的样本进行删除，对有效值多的样本的缺失值进行补全。当然，在删除有效值少的属性时，可一并将冗余属性进行删除。

删除样本的过程中，若删除n个样本，则剩余p个样本，其中，p＝P-n。另外，对缺失值进行补充的方式有多种，本申请中，对已有有效性取其平均作为缺失值的填充值。本领域技术人员可根据选择其他补充方法，其不均不影响之后的分析过程。

数据标准化具体为，将原始数据线性化的方法转换到[0，1]的范围，最大-最小归一化的计算公式为

该方法实现对原始数据的等比例缩放，其中，X_norm为归一化后的数据，X为原始数据，X_max、X_min分别为原始数据集的最大值和最小值。

数据正则化具体为，将每个属性减去该属性对应的均值，然后，再除以该属性对应方差。经过标准化与正则化处理后，每个属性的数据都聚集在0附近，且方差为1，即获得的样本数据具有零均值和单位方差。

数据降维具体为，采用PCA(Principal Component Analysis)，即主成分分析方法，对数据集进行降维，得到处理后的降维群集R。

降维的过程中，若降维数为q，那么降维后的降维群集R则为p个样本、每个样本有q个属性的数据集矩阵。

之后，采用聚类算法，对数据集R内的数据进行聚类，获得用电行为相似的的用户群，具体包括，首先，采用Mean-shift算法，将数据集中的p个样本聚成N类，其中N为正整数，然后采用K-means算法对Mean-shift算法得到的N个聚类中心进行聚类，在聚类数目N范围内，对[2，N]分别聚类，其中，N为正整数，并使用Calinski-Harabasz(CH)指标对聚类结果进行评估，选取CH值最大的结果，最终得到M个聚类中心，其中M为[2，N]中的正整数，最后，采用得到的M个聚类中心作为K-means算法的初始聚类中心对数据集中的每个样本，即每个用户或每条记录，进行聚类，最后得到M个类的用户。

本实施例中，Mean-shift算法的具体过程包括：

首先，从数据集中找到任意一样本i，对该样本点进行均值漂移向量计算并改变当前中心点位置；然后，平移窗口，重新计算概率密度；最终收敛到概率密度极大值处，Mean-shift处理数据集R中的下一个对象。

同一个类中的数据属性值越相似或者相等，这个类中的样本密度就越大。每个行为相似的用户群称为一个类，最终获得多个相似的类，每个类都有其中心样本点，用户群依次命名为类1，类2…，类N。

本实施例中，K-means算法的具体过程包括：

第一步，将N个中心样本点记为X＝{x₁,x₂,...,x_N}，从集群X中任意找到k个点Y＝{y₁,y₂,...,y_k}作为聚类中心，其中k属于[2，N]；

第二步，计算集群X中的每个点到Y中k个聚类中心点的距离，并将其分到距离最小的聚类中心点所对应的类中；

第三步，对每个聚类中心进行重新计算；

第四步，重复第二步和第三步直到聚类中心的位置不再变化；

第五步，计算出对应k值的Calinski-Harabasz(CH)指标；

第六步，使用对于从2到N的每个k值，重复第一步到第五步，选取Calinski-Harabasz(CH)指标最大值对应的k值记为K，对应聚类中心记为Z＝{Z₁,Z₂,...,Z_K}；

第七步，计算数据集R中每个点到Z中K个聚类中心点的距离，并将其分到距离最小的聚类中心点所对应的类中；

第八步，重复第七步和第三步直到聚类中心的位置不再变化；

第九步，输出聚类结果。

本实施例中，Calinski-Harabasz(CH)指标的具体计算过程如下所示：

其中，g表示聚类的数目，h表示当前的类，trB(h)表示类间离差矩阵的迹，trW(h)表示类内离差矩阵的迹。CH越大代表着类自身越紧密，类与类之间越分散，即更优的聚类结果。

8页详细技术资料下载

上一篇：一种医用注射器针头装配设备

下一篇：一种基于机器学习的斜拉桥非结构化监测数据处理方法

基于复合聚类算法的电力居民用户日负荷曲线聚类方法

相关技术

网友询问留言