《基于数据挖掘的配电网故障风险预警》
刘科研1,吴心忠2,石琛2,贾东梨1 (1.中国电力科学研究院,北京 100192;2.北京交通大学 电气工程学院,北京 100044〉
摘要:为了提高配电网风险预警的准确性,提出了基于数据挖掘的配电网故障关联因素分析与风险预警的方法。通过数据清洗、数据变换、数据集成和离群样本剔除,归纳配电网四大类共28个故障特征;采用改进的 Relief-Wrapper算法进行故障关联因素分析,剔除了 6个冗余特征,形成了由22个故障特征组成的最优故障 特征子集;提出了兼顾故障发生频率和失电负荷比例的配电网故障风险指标和风险等级划分方法,采用基于径向基函数的支持向量机(SVM)方法和最优故障特征子集进行风险预警—对某市120条馈线配电网进行了 风险预警算例分析,结果验证了所提方法的有效性。 关键词:配电网;数据挖掘;故障关联因素;最优故障特征子集;风险预警;支持向量机;风险指标
0 引言 据统计,用户停电事故中80%以上都为配电网发生故障导致的,因此,对配电网运行过程中存在的故障风险进行有效的预警,及时采取风险防控措施,对保障供电安全性和可靠性显得尤为重要。 停电事故风险预警技术已较多地应用在输电网 中,主要基于潮流、电压、频率等状态监测数据,并对 输电网的运行风险进行评估并预警,但是这些成果很难应用到配电网中。配电网的网络拓扑复杂, 设备种类众多、分布相对分散,设备运行状态容易受 到外部因素的影响,故障发生的随机性强,因此难 以通过分析机理实现风险预警。 文献在配电网实时风险评估中,考虑了设 备实时故障率,并对故障停电影响后果中的各指标 进行量化。文献以用户为中心进行风险评估, 近似采用稳态的失效率计算故障率,但仅能用于评 估短期的运行风险状况。文献通过分析突发事 件对设备故障率的影响建立评估模型,考虑孤岛运 行情况,并给出了风险预警等级和划分方法。文献以最小过热区域为单位计算停运概率,同时考虑故障恢复重构,计算不同灾害下的停电指标,缩短了计算时间。传统的配电网风险评估预警研究主要从故障率和故障影响后果人手,偏向于建立停电风 险指标,对停电风险关联因素及其风险预警模型的 建立涉及较少。 近年来,数据挖掘算法凭借计算速度快、泛化能力强等优点广泛应用于电网研究和工程实际。数据挖掘的重要应用之一就是预测性分析,数据挖掘算法能够从大规模海量数据中挖掘数据间的潜在规则。文献在电力系统暂态稳定评估中综合 利用不同参数训练的支持向量机SVM ( Support Vector Machine),减少了“误判稳定”样本的个数。 文献利用因子分析法提取风险指标中的共有因素,采用SVM构建故障风险模型,实现了电网的 故障风险评估。文献在分析发电机的进相能 力时,建立了基于相关向量机(RVM)的模型,提高了模型精度。 因此,针对配电网故障停电风险,本文提出一种基于数据挖掘的配电网风险预警方法。基于改进 Relief-Wrapper算法分析配电网故障关联因素,筛选 22个与故障强相关的故障特征变量构成最优故障 特征子集;提出一种基于径向基核函数RBF(Radical Basic Function) 的SVM方法和最优故障特征子集的配电网风险评估指标和风险等级划分方法;以某地 级市配电网120条馈线作为算例进行测试,验证了所提风险预警模型和方法的有效性、准确性,对工程 实际应用有一定的指导意义。
1 配电网原始故障数据的预处理 本文研究是针对某地级市配电网120条馈线展开的。通过对该市配电网信息管理系统进行调研, 从营销业务管理系统、企业资源计划(ERP)系统、配 电自动化系统、用电信息采集系统、配电线路在线监 测系统、生产管理系统、配电地理信息系统、智能公 用配变监测系统这8个信息子系统中,获取了从 2014年1月至2015年6月1.5 a的馈线故障相关数据,并收集该区域对应时间段的温度、降水等天气数据。 数据预处理包括数据清洗、数据变换、数据集成和离群样本剔除4个步骤。 a. 数据清洗:包含数据空缺值处理、数据异常值处理、数据重复值处理。数据空缺值处理主要是对原始数据中记录缺失和记录中的某个缺失字段缺失 进行剔除或补充;数据异常值处理是根据原始数据 的特点,制定相应的规则对偏差过大的数据进行剔 除或替换;数据重复值处理是根据数据自身的特点,对重复的数据进行剔除。
b. 数据变换:将原有的数据转换为易于分析和 应用的形式,主要内容包含特征构造、数据分级及数据量化等,如量化位置信息、投运时间构建特征属 性、天气数据的分级分析等。以月降水M为例,据统 计该地级市的月降水量主要集中于5—9月,约占全年降水量的57%(其中6月降水量最高,7月次之,5月和8、9月降水量比较相近);3、4月的降水量次之,约占全年降水量的18.9%;10月至次年2月的降水量较少,其降水量和仅约占全年降水量的24.1%。故可将月降水量分成3个等级。同样地,月雷暴曰 数和月大风日数也分成3个等级。从数据分析的结 果可知,馈线的故障情况与温度、降雨、大风和雷击 等环境条件密切相关,且在一年四季中是随时间而 变化的。 c. 数据集成:进行数据统计,将数据合并到某个 统一的数据库中,馈线故障风险预警所需数据来自于不同的配电信息管理系统,因此需要对原始数据进行统计分析与合并。 d. 离群样本剔除:经过前述预处理的原始数据中还可能包含异常的样本,与同一数据集中的绝大 部分数据差异很大,这种数据称之为离群样本。可采用基于统计的、基于邻近值或基于聚类的方法,加 以识别和剔除。限于篇幅,本文不再展开。 由于各特征变童的影响程度与其取值范围有密 切关系,所以所有变量都预先按式(1)进行归一化处理。
其中,xmax、xmin分别为变量取值的最大值和最小值。
通过数据预处理可将配电网故障特征分成故障 因素、外部因素、自身因素和运行因素4类共28个,如表1所示。
2 配电网故障关联因素分析 为了提高配电网风险预警的效率和准确性,必 须先从海量数据和众多故障特征中识别和提取与配 电网故障密切相关的故障特征,剔除相关性不强和 冗余的特征。Relief算法是一种得到广泛应用的特 征选择算法,由Kim和Rendel首先提出,该算法的 要点是根据特征对近距离样本的区分能力来评价特 征的重要性。其基本思想是:对所有特征各赋予一个权值,以表征特征与每类的相关程度,然后利用假设间隔的概念对权值进行迭代计算,最后根据权 重的大小确定所选择的特征。
表1配电网故障特征变量分类
Relief算法的步骤如下:对每个特征赋予权值初值Wj=0(j=1,2,…,N);选择样本x i(i =1,2,…,t;t为从样本集中抽取的样本数),从同类样本集中找到样本x i的最近邻样本H(x i),从异类样本集中找到x i的最近邻样本特征M(x i)。Wj的更新方式如下:
其中,x i为从数据集随机选择的一个样本;Wj为特征j的权值;H(x i)为与x i同类的最近邻样本;M(x i)为与x i非同类的最近邻样本;diff(•)为距离函数。 Relief算法可以给出每个特征的权重系数,但不 能识别冗余特征。因此本文提出一种改进的Relief- Wrapper算法,采用Pearson相关系数的绝对值衡量2个特征fi和fj,的相关性ρij
其中,cov(fi,fj)为fi与fj的协方差;σfi
单个特征fi与已选特征集合s之间的相关性指 标可以用fi与s中任一特征之间相关系数绝对值的 最大值描述:
综合考虑特征的重要性与冗余性,定义如下的 特征评价指标:
其中,Wfi ∈[0,1]为归一化后的单个特征fi的Relief权重,该值越大,表示该特征与配电网故障之间的关系越密切;ρfi,s ∈[0,1]为特征fi与已选特征集合s之间的相关性指标,ρfi,s 的值越大,表示特征fi与已选特征集s中的特征越冗余;R为相关性指标所占的惩罚因子,当R=0时,式(4)退化为不考虑冗余因素的原始Relief权重计算公式,当R的值较大时,相当于加重了由相关系数描述的冗余性的惩罚力度,使冗余度越小的特征综合权重越大,越容易被选中。
3 基于RBF-SVM的配电网风险预警 SVM是数据挖掘中用于分类识别的常用技术,本文采用的是基于RBF的SVM,其非线性映射能力能将低维空间的非线性问题映射到高维空间,增强识别对象的线性可分性。基于RBF的SVM算法的 详细步骤参见文献,本文不再赘述。
配电网的风险不但与停电的频繁程度有关,还与每次停电事故中的失电范围有关。频繁程度可以用停电次数表示,它是一个基于统计的概率量;
而失电范围可以用每次停电的失负荷总量表示,它 表征了此次事故的严重程度。实际工作中每个馈线 分区核定的报装负荷总量不一样,给本文的故障风险评估和风险等级划分带来一定的困难。为此本文
提出一种配电网风险评估指标和风险等级划分方 法。以每一个馈线分区每个月的运行数据和状态为统计分析对象和风险预警对象,记SiN
根据以上指标将配电网馈线风险划分成3个等级,如表2所示。综合考虑nf
表2 配电网风险等级划分
本文采用预警准确率及Kappa统计指标作为馈
线故障预测模型评估指标。Kappa统计指标一般用
于评判预测模型的分类预测结果与随机分类的差异度,通过误差矩阵的值计算得到。误差矩阵是一个ns×ns
其中,K为Kappa统计指标;r为误差矩阵的行数;xii为第i行第i列(主对角线)上的值;xi+和x+i分别为第i行的和与第i列的和;Ns为测试样本总数。K∈[0,1],K值越大表明准确率越高。
本文的研究思路和风险预警流程如图1所示。
图1 风险预警流程图
4 算例分析 4.1 故障关联因素分析 以某地级市配电网120条馈线1.5 a的运行数据为基础,以从8个配电网管理信息子系统中采集 的数据为分析对象,以每一条馈线每个月的运行数据为一个统计单位,采用前述的方法进行数据清洗、数据变换、数据集成和离群样本剔除,归纳得到如表1所示的4类28个故障特征;采用前述改进的 Relief-Wrapper算法进行故障关联因素分析,形成由22个故障特征组成的最优故障特征子集,剔除6个冗余特征,如表3所示。
表3 预测方法结果对比
采用Relief算法可以计算得到所有特征值的权重大小,如图2所示。本文作为特征筛选阈值的设定遵循统计学计算的经验,即将这些权重值归一化为[0,1]的值。基于统计的置信区间的概念,通常95%的置信水平是大概率事件,因此,可以假设特征的权重值大小表示该特征所包含整个特征集中信息量的多少,那么,如果信息的累积比例达到95%,则可以认为这些特征包含了全体特征集合的大部分信息量,同时,这些特征可以被认为是最重要的。根据这一假设,门槛值τ的设定规则如下:归一化权重值已经按照降序进行排序并累加计算,当计算停止时,该累积值达到95%;上述假设中所提到的通过Relief算法计算的权重值表示特征的重要程度,因此,当累加计算停止时,所对应的归一化的权重值就可以设定为特征筛选阈值τ。图2中的虚线即为通过计算得到的阈值τ,因此,这里被筛选剔除的关联度较低的特征为{f18,f19,f20,f26,f27, f28}。
图2 特征权重值
4.2 风险预警
表4 各风险等级样本数量
表5 配电网故障风险等级预警结果
由表5可见,每个月的预警准确率都在90%以上,2个月的平均预警准确率为93.75%,说明本文提取的故障特征子集和预警方法具有较高的准确性和实用性;预警失误的样本最多只偏差一个等级,不会跨越2个等级,说明本文方法的鲁棒性较强;5月份等级2和3的样本预测精度较低,是因为这2个等级的原始样本太少。在原始样本中,风险等级1的样本占74%,等级2和3的样本分别只占20%和 6%,这也符合配电网故障的实际情况。若能在训练样本中增加高风险等级的样本数量,还能进一步提 高预警的准确率。由于各特征变量的时变性,导致配电网的风险也是随时间变化的,而本文提出的方法可以很好地适应这种时变特征,为风险防控提供及时的技术支持。 为了验证本文采用的基于KBF的SVM进行风险预警的优越性,还与人工神经网络(ANN)、C4.5决策树和基于线性核函数的SVM这3种常用的预测方法进行了对比,其准确率和Kappa指标如表6所示。 由表6可见,本文采用的基于RBF的SVM预警方法,不论是在预警准确率还是Kappa统计指标上,都优于其他3种方法。
表6 预测方法结果对比
![]()
5 结论 a. 本文基于数据挖掘的方法以某地级市配电网120条馈线1.5 a的数据为研究对象,对配电网故障关联因素分析和风险预警的模型和方法进行了研究;提出了基于改进Relief-Wrapper算法的配电网故障关联因素分析方法,提取了22个与故障强相关的故障特征构成最优故障特征子集,提高了风险预警的效率和准确性。 b. 提出了兼顾故障发生频率和失电负荷比例的配电网故障风险指标和风险等级划分方法,采用基于RBF的SVM方法和最优故障特征子集进行风险预警。对某地级市120条馈线进行了风险预警算例分析,验证了本文所提风险预警模型和方法的有效性和正确性,为后续配电网在线风险防控提供了理论依据。 c. 建议加强配电网信息管理系统的互联与融合,加强配电网海量数据的挖掘和应用力度,进一步提高配电网的精益化管理水平,降低故障停电风险。 d. 本文旨古提出一种基于大数据的配电网故障因素关联分析和风险预警的模型和方法,由于配 电网故障具有地域性、环境敏感性和时变性,所以针对不同地区的配电网,必须从当地的配电系统中获取第一手的运行与故障数据,识别的故障关联因素也可能不尽相同。 |