刘莉;王刚;翟登辉
【摘 要】为了提高电力系统状态估计结果的准确性,利用k-means聚类算法并结合有效指数准则,提出了一种辨识系统不良数据的新方法.研究内容是以某一节点负荷数据为研究对象,运用数据挖掘中k-means聚类算法并结合有效指数准则提取出日负荷特征曲线,分别对输电网状态估计中的不良数据检测和辨识、配电网状态估计中的伪量测补充进行了研究.最终用Matlab编制算法程序并进行仿真分析,结果表明,此方法效果良好.%In order to improve the accuracy of the results of state estimation, this paper takes a node load data for research object and uses k- means algorithm combining with validity index to extract daily load characteristic curve, which is used for bad data detection and identification in transmission system and pseudo measurement complement in DSE. Eventually, we program with Matlab, then make the simulation analysis, and the result shows that this method is effective. 【期刊名称】《电力系统保护与控制》 【年(卷),期】2011(039)023 【总页数】5页(P65-68,73)
【关键词】状态估计;数据挖掘;不良数据检测和辨识 【作 者】刘莉;王刚;翟登辉
【作者单位】沈阳工程学院,辽宁沈阳100136;沈阳工程学院,辽宁沈阳100136;许继电气股份有限公司, 河南许昌461000
【正文语种】中 文 【中图分类】TM714 0 引言
电力系统状态估计是利用量测系统的冗余度来提高数据精度,自动排除随机干扰所引起的错误信息,来估计和预报系统的真实运行状态。估计结果的准确性是对电力系统状态估计的基本要求。
不良数据检测和辨识是电力系统状态估计的重要功能之一,它对状态估计结果的准确性起着重要作用。对输电网来说,由于量测装置多,实测量多,有冗余度,因此传统的不良数据检测和辨识主要集中在输电网,但是传统方法存在残差污染和残差淹没。因此,如何准确地对输电网状态估计中不良数据进行检测和辨识是不可回避的一个研究课题。对配电网而言,由于分布广,节点数目众多,量测装置匮乏,实测量少,需要产生伪量测来补充负荷数据进行配电网状态估计,由于以往采用的将配电变压器容量等方法来补充伪量测与实测数据准确度差别较大,导致配电网状态估计结果不准确甚至不收敛,因此,必须寻找一种新方法来补充与实测数据比较接近的伪量测数据。
本文围绕上述问题,以提高状态估计结果的准确性为目的,以某一节点负荷数据为研究对象,运用数据挖掘中k-means聚类算法并结合有效指数准则,提取出日负荷特征曲线,分别对输电网状态估计中的不良数据检测和辨识、配电网状态估计中的伪量测补充进行了研究。用Matlab编制算法程序并进行仿真分析,结果表明,此方法效果良好。
1 改进的k-means聚类算法
鉴于k-means聚类算法存在其固有的缺点:初始值k的选取直接影响聚类的最终
结果,而且有可能出现无解的情况,一般要事先确定聚类个数k是困难的,k的选定需要进行多次试验才能找到。目前k值的确定主要有以下几种方法: 1)经验法,根据问题性质、数据分布来来选择比较合理的k。
2)将全部样本随机分成k类,计算每一类的重心,然后将这些重心作为每类的代表点。
3)按照密度大小来选择代表点。
针对上述问题,要解决上述问题,需对k-means算法进行改进,使其能自动确定聚类个数k的大小。
基于类内距离和类间距离的指数度量方法,这种将有效指数准则与k-means进行结合的算法,一般称为基于有效指数的k-means聚类算法,也叫改进的k-means算法。它可以通过动态地调整参数k,从而自动地确定聚类个数 k,使最终的聚类结果达到最优。计算公式为
式中:k表示聚类个数;Zi表示每一类Ci的中心;N表示数据集中的数据的个数; i = 1,2,3,…, k −1;j = i+ 1 ,i + 2 ,i + 3 ,…, k 。
以上计算公式表明:为了使类内数据有最大相似度,就要使类内数据与类中心的距离最小。这个距离决定了类内数据的内聚性。同时,类间的距离应该尽可能大,因为这样才能使得类与类之间的数据相异度最大即相似度最小。有效指数算法的Inter(k)就是通过计算类间距离的最小值,从而可以保证所有类间距离都大于这个最小值。这样有效指数通过计算Validity(k)的最小值来确定k值。
在上述改进的k-means聚类算法中,k不用事先给定,但是,必须对k做个限制: 2 ≤k≤kmax ,一般情况下,这里的k是远小于k即k << N;也就是说聚类的数目k远小于数据的个数N,该基于有效指数的k-means聚类算法的工作流程如下所示。
输入:一个包含N个数据对象的集合;
输出:最佳聚类个数k以及每个聚类所包含的数据,此时的k使得有效指数Validity(k)的值达到最小; 算法步骤为: (1)选取kmax; (2)For k=2 to kmax;
(3)随机选择k个初始聚类中心:C 1 ( 1),C 2(1),C3 (1), ,C k (1); (4)把每个数据分配到离聚类中心最近的聚类中; (5)更新聚类的均值,对每个类中的数据求取平均值;
(6)重复步骤(3)和(4),使聚类中心不再改变即收敛为止,然后转到下一步; (7)计算聚类个数k时的有效指数Validity(k);
(8)比较Validity(k)与先前Validity(k-1)大小,保存使Validity值最小的k;
(9)算法结束,输出最佳聚类个数k和k个聚类中心以及每个类中的数据。 基于有效指数的k-means聚类算法流程图如图1。
图1 基于有效指数的k-means算法流程图Fig.1 k-means algorithm flowchart based on effective index
改进的k-means聚类算法是在k-means算法中引入了有效指数准则,并将其作为聚类结果的评价指标,在算法执行过程当中,它能对聚类参数进行动态调节并能确定最佳聚类个数k。
2 基于改进k-means的特征曲线提取
用特征曲线的方法来检测和辨识电力系统不良数据,主要包含以下两个部分: (1)检测某条日负荷曲线中是否含有不良数据; (2)对不良数据进行辨识,即确定不良数据的具体位置。
相似性和平滑性是电力日负荷曲线非常重要的两个特征。一般也将这两个特征分别称为横向相似性和纵向相似性。相似性即横向相似性是指相邻的几天内类型相同的日负荷曲线的几个峰谷时刻基本相同,曲线的大致形状也非常相似。平滑性即纵向相似性是指一条曲线的相邻点的负荷一般不会有大的变化,(极特殊情况除外,但此刻的负荷数据也被视为不良数据)。不良数据的存在将明显破坏了日负荷曲线的平滑性特征。
从模式识别的角度来说,对不良数据的辨识实际上就是对含有不良数据的日负荷曲线的辨识,这本质上就是一个分类问题。如果能将含有不良数据的不正常曲线模式同正常的曲线模式分开,那么不良数据辨识的任务也就完成了。不良数据的产生是一种偶然现象,不良数据的个数在一条负荷曲线中所占的比例一般都很小。假设曲线X1和X2是相似的,即使曲线 X1中存在几个少数不良数据,那么X1与曲线X2仍然相似,不良数据的存在仅仅破坏了曲线X1的平滑性而己。
聚类分析能将高维数据集合划分为很多类,使得同一类内数据对象相似度最高,类与类之间的数据对象的相似度最小即相异度最大。如果存在一种比较好的聚类方法能将曲线 X2和含有不良数据的曲线X1分开,并与和其相似的其他曲线聚成一类,那么这一类的代表曲线是一条不包含不良数据的正常负荷曲线,即日负荷特征曲线。本章采用改进的k-means聚类算法对日负荷曲线进行分类,从大量可能含有日负荷曲线中提取出正常曲线模式,即每一类的日负荷特征曲线Xt。本章之所以采用改进的k-means方法,原因主要有两个:
(1)由于有工作日、周末和节假日之分,再加上日负荷的本身两个特征,一段时间内的负荷曲线至少分为两类。
(2)基于k-means的要求 2 ≤k≤kmax ,并能自动判别最佳聚类个数。 3 基于特征曲线的不良数据处理 3.1 基于特征曲线的不良数据检测与辨识
利用提取出来的日负荷特征曲线Xt对待检测日负荷曲线进行辨识,从而确定日负荷曲线中是否含有不良数据,即确定该日负荷曲线模式是正常曲线模式还是非正常曲线模式,对非正常曲线模式要对不良数据进行辨识,即确定不良数据的具体位置。 由于日负荷曲线的横向相似性和纵向相似性这两个特征,因此有两种不同的不良数据辨识方法。
(1)利用横向相似性检测和辨识不良数据
首先,假设Xd代表待检测日负荷曲线,Xt代表日负荷特征曲线。
考虑待检测日负荷曲线 Xd上的第 i点,其中i∈ { 1 , 2,… , M },M为采样点数;它的负荷值为Xd(i),将其与日负荷特征曲线Xt(i)上第i点对应的负荷值Xt(i)进行比较,计算它们之间的负荷变化率δ(i)。公式如式(4)。
然后,统计历史上各日第i时刻的负荷变化率的正常范围,记为[+ r , − r ]。对比待检测日的第i时刻的负荷变化率是否在这个正常范围,来判断该点是否为不良数据所在点。若 δ ( i) >+ r ,或者δ( i) <− r ,则待检测日的第i时刻的负荷值被认为是不良数据。
(2)利用纵向相似性检测和辨识不良数据
负荷特征曲线代表了正常曲线的基本特征,它具有很好的纵向相似性即平滑性,这就决定了相邻时刻的正常负荷不可能突变,因此,可以利用特征曲线的平滑性特征来辨识负荷是否为不良数据。
统计历史上该日各采样点的负荷变化率δ(i)的正常范围,记为[+ r , − r ]。对比待检测日各时刻的负荷变化率是否在该正常范围,以认定该点是否为不良数据点。若 δ ( i ) >+r ,或者 δ ( i ) <− r ,则待检测日的第i时刻的负荷值被视为不良数据点,然后就必须对其进行修正。 3.2 基于特征曲线的不良数据修正
提取出来负荷特征曲线以后,首先以它为基准来对不良数据进行调整,使得不良数据恢复为正常值。具体方法是将负荷特征曲线Xt的相应部分平移到待检测负荷曲线Xd上。
假设待检测曲线Xd的p点至q点为不良数据,它的特征曲线设为Xt,修正后的曲线设为Xc,采用公式(5)对不良数据进行修正。
最终结果表明,修正后的曲线 Xc更加符合了它的日负荷曲线的特征,即使偶尔把正常数据误检,用公式(5)进行修正也不会产生较大偏差。不良数据处理的流程如图2所示。
图2 不良数据处理的流程图Fig. 2 Bad data processing flow chart 4 试验及结论
实测节点数据主要来源于SCADA系统,根据不良数据产生的原因可知,不良数据产生是随机的,因而在在数据库中的分布具有不确定性,各类不良数据的出现可能在某一时刻、在同一日连续的时段内等多种情况。因此,能够准确地检测和辨识不良数据,必须综合考虑多种情况。验证聚类方法检测和辨识不良数据的实用性,以我国某地区供电部门的2005年10月~1月每天24点的某节点的实测负荷数据为研究对象,一共有100天的负荷数据。为了测试此方法是否也能对出现在同一日连续的时段内的多个不良数据进行准确辨识,以上面处理过的数据集为研究对象,人为设置一些不良数据点,来测试方法的准确性。
将第6天的第15、16、17点原始数据751.46、754.7、761.19分别增加60%的误差,变为1 202.336、1 207.52、1 217.904,此时日负荷曲线如图3所示。 图3 含三个不良数据的日负荷数据曲线Fig.3 Daily load curves containing three bad data
则对含有这三个不良数据的数据集进行聚类,这样就得到新的特征曲线,结果发现,
Validity(2)=0.347 9为最小值,因此最佳聚类个数为2。
第6天负荷曲线与其特征曲线如图4,其中粗实线表示其所属的特征曲线。 图4 第6天数据处理前情况Fig. 4 Situation before data processing on the sixth day
第15、16、17点数据的负荷变化率分别为:39.41%、38.71%、37.95%,这几个变化率都不在正常范围内,因此被认定为是不良数据。 应用公式(5)对这些不良数据进行修正,修正后的数值为 修正后的曲线如图5虚线所示。
图5 第6天数据处理后情况Fig.5 Situation after data processing on the sixth day
修正后的数据与其实际值的误差百分比见表1。
表1 误差百分比Tab. 1 Error percentage实际值 修正值 误差百分比/%751.46 739.363 1.6 754.7 751.097 0.48 761.19 766.916 0.75
仿真结果表明,对于同一日内连续时段的多个连成片的不良数据,基于改进k-means的聚类方法能进行准确的检测和辨识,避免了漏检和误检现象,并且通过表1可知,修正后的数据和实际数据比较接近,从而为输电网状态估计提供了相对精度高的量测值 z,排除了不良数据的影响,进而运用状态估计算法(比如加权最小二乘法)来估计状态量x,确保了输电网状态估计结果的可靠性。 参考文献
【相关文献】
[1] 闫丽梅, 张士元, 任伟建. 基于粒子群进化算法的电力系统状态估计研究[J]. 电力系统保护与控制,2010,38(22):86-89.YAN Li-mei, ZHANG Shi-yuan, REN Wei-jian.Power system state
estimation based on particle swarm optimization algorithm[J]. Power System Protection and Control, 2010, 38(22):86-89.
[2] 刘浩. 状态估计中不良数据的混合检测辨识法[J]. 电工技术杂志, 1999, 11(6): 18-20.LIU Hao. Hybrid detection and identification method of bad data in state estimation[J]. Electro Technical Journal,1999, 11(6): 18-20.
( continued on page 73)( continued from page 49)WANG Jun-fei, ZHAO Guo-sheng, BAI Rong. A novel shunt hybrid active power filter based on magnetic flux compensation[J]. Power System Protection and Control,2008, 36(13): 37-42.
[4] 刘卫民, 赵国生, 滑道衡, 等. 新型的基于磁通补偿的有源电力滤波器的暂稳态特性分析[J]. 电力系统保护与控制, 2010, 38(20): 17-20.LIU Wei-min, ZHAO Guo-sheng, HUA Dao-heng, et al.Analysis on transient and steady-state characteristics of the novel active power filter based on magnetic flux compensation[J]. Power System Protection and Control,2010, 38(20): 17-20.
[5] 陈群, 焦留成. 一种基于基波磁通调谐补偿的无源滤波新方法[J]. 电力系统保护与控制,2010,38(9):27-30.CHEN Qun,JIAO Liu-cheng. A new passive filtering method based on fundamental magnetic flux tuned compensation[J]. Power System Protection and Control,2010, 38(9): 27-30.
因篇幅问题不能全部显示,请点此查看更多更全内容