收稿日期:2022-04-27
基金项目:兴辽英才计划项目(XLYC1907138)作者简介:敬尔森(1996-),男,辽宁营口人,硕士研究生。
基于CEMD -CNN -LSTM 的中长期电力负荷预测
敬尔森a ,关焕新b
(沈阳工程学院a.电力学院;b.新能源学院,辽宁沈阳110136)
要:针对诸多复杂因素影响电力负荷在中长期运行阶段中的预测准确度的问题,提出一
种卷积神经网络(CNN )与长短期记忆网络(LSTM )混合的预测算法,从而达到优化负荷预测性能的目的。CNN -LSTM 混合预测算法利用模态分解法将负荷数据进行分解,并将其转化为本征模态分量IMF 及残差两个部分。同时,引入k 均值聚类方法,确定最优聚类标签,搭建神经网络并完成数据输入。在形成特征向量的过程中,运用神经网络挖掘数据间的各类特征并进行预测。最后,采用线性相加的形式处理预测结果,获取预测负荷。仿真结果表明了CNN -LSTM 混合预测算法在预测速度与精度上的性能更为优越。
关键词:电力系统;CNN -LSTM 算法;模态分解;中长期负荷预测;大数据中图分类号:TM862
文献标识码:A
文章编号:1673-1603(2023)03-0045-07
DOI :10.13888/jki.jsie (ns ).2023.03.009
第19卷第3期2023年7月
Vol.19No.3Jul.2023
沈阳工程学院学报(自然科学版)
Journal of Shenyang Institute of Engineering (Natural Science )
在对电网线路规划及设计时,精准的预测结果能够为其提供可靠的数据基础,可以提升现代电力系统的运行效率,从根本上优化电网的运行与规划[1-3]。提高中长期负荷预测准确率的问题始终是学术界重点研究的问题之一。当前阶段有关中长期负荷预测的方法涵盖两个类别:一是以负荷本身时序规律为基础,二是统筹与负荷运行相关的各类影响因素[4-5]。以负荷本身时序规律为基础的预测方法有指数平
滑法、生长曲线法等,此类方法的预测视角是单一的,仅从时间出发,未考虑其他因素所带来的影响。此后,统筹负荷运行相关的各类因素的预测方法随之出现,比较具有代表性的有单耗法及回归分析法等[6-10]。不论是政府部门制定的政策指引,还是气象等客观自然影响因素,均会影响电力负荷的状态,而且上述因素具有随机波动的特
点[11]。具体来说,电力负荷与影响因素之间并不是简单的线性关系,通常无法用数学关系式表达[12-13]。因此,迫切需要研究如何对数据进行有效地处理。文献[14-16]以中长期负荷为研究对象,采用了改进的灰模型,明显提高了相关预测的准确性。文献[17]提出了一种基于深度学习的中长期负荷预测模型,该模型最大的创新之处在于其运行原理是以改进遗传神经网络为基础的。文献[18]提出了深度信念网络模型,该模型能够直接作用于各类具有差异性的负荷中,强化了负荷预测的性能。
随着负荷预测研究的深入,在充分吸收已有中长期负荷预测方法的优越性的基础上,加之经验模态分解预测模型计算规模庞大的特征,本文提出一种基于模态分解的CNN -LSTM 混合预测算法。影响中长期负荷预测结果的因素之间具有明显的
第19卷
沈阳工程学院学报(自然科学版)
依赖性质,因此将模型确定为堆叠神经网络模型。
堆叠神经网络模型是借助EMD算法,以负荷数据
为分解对象,将其转化为本征模态分量及残差两个
部分,使负荷序列能够保持在一种相对稳定的状态
下。同时,为避免复杂计算所带来的工作量,按照
分组的形式,将分解后的分量进行聚类,并对各类
聚类数展开相应分析,确定最优聚类标签,搭建神
经网络并完成数据输入。在形成特征向量的过程
中,主要是借助CNN对数据间的各类特征展开挖
掘,并以此为基础进行预测。最终采用线性相加的
形式处理预测结果,获取预测负荷。与传统算法不
同的是,本文所采用的算法能够弱化外界因素带来
的影响,有助于降低模型的计算量,提高单位时间
内的预测效率。
1算法模型原理
1.1聚类经验模态分解(CEMD)
用户端的用电负荷具有一定的随机性,会受到
气温及电价等因素变动的影响出现波动,而这种动
态预测的需求是传统方法无法实现的。从负荷序
列自身时间尺度出发,经验模态分解法能够把数据
信息作为分解对象,将其转化为本征模态分量IMF
及残差两个部分。在各个时间尺度上的电力负荷
数据所形成的特征分量分别对应相应的IMF,且状
态独立,任意二者之间不存在联动关系。完整的
IMF必须遵循两个前提条件:一是在数量层面上,
IMF极值点和零点之差不大于1;二是IMF上下包
络线的均值始终为0。在借助EMD方式进行负荷
分解的过程中,需按照下述步骤展开:
电力英才网
1)明确处于原始状态上的负荷序列P(t)的极
大或极小值点,连接极大值点构成上包络线
e max(t),连接极小值点构成下包络线e min(t)。
2)计算两个包络线的中间值:
m1(t)=e max (t)+e min(t)
2(1)
3)P(t)与m1(t)的差作为新时间序列T1(t),即
T1(t)=P(t)-m1(t)(2)4)若T1(t)满足IMF的两个条件,则记T1(t)为I MF1,否则令T1(t)为新的序列,重复步骤1)~3),经
过k次操作后,T
k(t)达到IMF的应用前提,并将其标记为首个IMF,即
I MF1(t)=T k(t)(3)5)初始序列减去模态分量I MF1(t)得到残差R1(t),即
R1(t)=P(t)-I MF1(t)(4)6)把R1(t)作为数据处理对象,执行上述5个
步骤,执行时长以残差R
n(t)满足以下两个条件为
界限:①R
n(t)的幅值小于基准值;②其序列变为单调序列。
6个步骤操作完成后,能够获取有关原始负荷序列P(t)的IMF及残余分量的完整信息,且函数频率呈现从高到低的特征。由于计算量较大,在进入后续预测阶段之前,应秉持“先分解、后集成”的原则,然后再对负荷进行预测。
聚类算法是数学统计中的核心方法之一,在数据分类领域具有极高的应用价值。本文以经过EMD分解所得到的分量为对象,引入k-means算法展开分类处理,从而确保处于相同组别中的分量能够达到时序特征最大相似化的标准。以聚类标签为基础,借助线性相加原理将处于相同组别中的分量依次相加,从而获取目标时序序列。在完成聚类集成操作后,数据规模被压缩,序列时间特征得到强化,然后搭建神经网络完成数据输入,执行传输并进行预测。通过这一过程,既能够达到压缩计算规模的目的,也能够强化预测的精准程度。
1.2CNN
CNN能够使算法简化,并且有助于精准捕捉数据中的潜在深层次特征。CNN的构成涵盖卷积层及池化层两大部分,前者能够对数据展开卷积计算并捕捉深层特征,后者以网络参数为对象展开取样及压缩处理,且二者处于交替作业的运行模式
··46
第3期
敬尔森,等:基于CEMD -CNN -LSTM 的中长期电力负荷预测中,能够在充分捕捉深层特征的同时,降低人为操作的失误率。因此,本文以CNN 为基础,对数据进
行聚类经验模态分解,进而提取相应特征并进行预测。图1为CNN
结构。
图1CNN 结构
1.3LSTM
LSTM 是深度学习中一种重要的神经网络体
系。图2为LSTM 的具体结构。LSTM 的优势之一是能够完成对长时间序列的高效处理及保存。完整的系统由遗忘门、输入门及输出门组成,其中遗忘门能够实时阻断无用信息的逐层传递,输入门及输出门能够获取数据信息并推进逐层传递。具体计算公式如下:
f t =σ()W fx x t +W fh h t -1+b f (5)i t =σ()W ix x t +W ih h t -1+b i (6)
g t =tan
h ()W gx x t +W gh h t -1+b g (7)O t =σ()W ox x t +W oh h t -1+b o (8)C t =g t ×
i t +C t -1×f t
(9)h t =tanh ()C t ×O t
(10)
式中,
W 为权值;b 为偏置;h t -1为t -1时刻的状态;x t 为t 时刻的输入值;f t 、g t 、i t 及O t 分别为遗忘门、输入节点、输入门及输出门的输出情况;C t 为输出单元状态;
h t
为输出中间状态。图2LSTM 结构
2
预测模型整体结构
2.1
整体堆叠网络结构
中长期负荷受到各类宏观或者客观因素的影
响。各类影响因素之间是彼此关联的,如月度负荷和年度经济密切相关。本文在充分考虑各类时间数据间的相互依赖属性后,把年、月、日3种时间尺度同时纳入到模型的运行中,借助三层堆叠神经网络进行详细处理。在处理月时间尺度因素数据的过程中,引入日层面的因素,以此类推。图3为整
体堆叠网络模型的具体结构。
图3整体堆叠网络模型结构
2.2CEMD-CNN-LSTM 模型
本文利用数据预处理算法的优势,同时引入深
度学习网络模型,经过多重分析后提出基于聚类经
·
·47
第19卷
沈阳工程学院学报(自然科学版)验模态分解的CNN -LSTM 预测模型。该模型以聚类经验模态分解过程为前提,其数据经过预处理后再展开预测,能够降低外部环境因素的影响,提升预测精度。
为避免因各方面因素对中长期负荷数据信息的状态造成影响,必须以统一的原始负荷数据为基础,借助EMD 算法对其展开分解处理,得到不同的IMF 分量及残差。若对每个分量依次展开预测,则所需的计算量较为庞大,出于压缩计算量的目的,可以引入k -means 算法进行聚类处理。完成聚类处理的数据分量结果可以进行相应分类及叠加,从而获取目标时间序列并展开预测。图4为CEMD -CNN -LSTM
网络模型结构。
图4
CEMD-CNN-LSTM 网络模型结构
在经过聚类经验模态分解操作处理后,分量被传输至CNN -LSTM 混合神经网络中。图5为CNN -LSTM 网络模型的具体结构。该网络包括输入层、CNN 网络层、LSTM 网络层及输出层。不同层级的任务是不同的:输入层负责传输经聚类处理的分量,同时借助CNN 捕捉输入数据,收集有关输入序列的所有特征;卷积层和池化层共同形成
CNN 网络层,二者的共同点在于激活函数都是ReLU ,其中卷积层负责捕捉输入数据的特征,池化层有助于简化模型参数。LSTM 网络的构成相对复杂,包括LSTM 层、全连接层及ropout 层。在聚类经验模态分解后分量会形成明显的规律特性,这也是将LSTM 层数界定为两层的原因,能够实现更准确的预测。全连接层的存在有助于减少数据体量及网络参数。而dropout 层的作用在于避免出现过度拟合问题。输出层由单层全连接层组成,能够在全连接的基础上进行最终的输出和预测。在对预测结果展开叠加操作后,能够完整获取负
荷预测值。
图5CNN-LSTM 网络结构
3实例分析
为确保仿真实验的可行性及准确性,本文选取
我国某地区2012年—2019年具有最大负荷特征的年经济数据、月负荷数据及日气象数据。借助经典传统的评估指标,将CEMD -CNN -LSTM 算法所得的预测结果与BPNN 、CNN -GRU [19]和常规CNN -LSTM [20]算法的结果进行对比。
3.1数据的归一化及评估指标
本文选取平均绝对百分比误差(MAPE )、平均
绝对误差(MAE )及均方根误差(RMSE )评价指标对算法进行评价。各评价指标的计算式如下:
e MAPE
=1n ∑i n ||
||||||y i -y i y i
×100%(11)e MAE =
1n
∑i =1
n
||y i -y i (12)
·
·48
e RMSE
=
(13)
式中,
n 代表预估点个数;y i 和y i 分别代表预测数据中第i 个负荷点的预测数值和真实数值。
为提高模型对数据规模的把控程度,运用最大最小归一化原理进行处理[21],全部数据均处于0~1范围内。归一化公式为
l '=
l -l min
l max -l min
(14)
式中,
l '代表归一化后的数据;l 代表要归一化的数据;l min 和l max 分别代表负荷的最小值和最大值。3.2
EMD 分解及k-means 聚类
负荷数据在经归一化处理后,进入经验模态分解过程,最终分解为16个IMF 分量及1个残差,此时IMF 分量具有周期性特征并趋于稳定,避免了出现模态混叠问题。
为避免后续模型需要处理过多的计算量,引入k-means 算法,针对各个子序列展开聚类操作。首先,以聚类标签为基础,将分解后的子序列划分至相应的组别中,运用叠加原理处理单个组内的子序列;其次,搭建神经网络并输入数据,在CNN -LSTM 神经网络中展开预测。由图6和图7可知:如果聚类数存在差异,
那么预测误差也不同。
图6
不同聚类数下的均方根误差
聚类数与误差情况如表1所示。由表1可知:在聚类数为10的情况下,预测误差会达到最低水平;在聚类数为17的情况下,预测精度无法得到保障,计算效率也随之降低;在聚类数为1的情况下,
分解分量已经叠加,此时预测时长虽然较短,但不具有经验模态分解的意义。因此,最优聚类数既能够优化预测的精准程度,也可以提升单位时间内的
计算效率。
图7
不同聚类数下的平均绝对百分比误差
表1聚类数与误差聚类数124681012141617MAE 14.1619.52712.6338.16910.0764.3575.1136.0265.3115.027
MAPE/%8.5318.9196.9345.8616.6933.8214.1954.8954.5494.911
RMSE 21.33927.37219.43514.07415.9185.5145.6916.9356.5237.019
时间/s 160.838328.216666.3481002.8221316.9361630.8991960.9682439.712650.8322730.219
3.3预测与结果分析
本文所应用的时间序列数据均进行了聚类集
成处理。在步长的设定上,根据时间尺度的不同进行分类设计,日、月、年的步长分别为24h 、30d 、12个月。为实现重构输入数据,把特征界定在单个尺度前143个数据上,此时数据标签为第144个。
以聚类标签为基础,对分解序列展开集成操作,产生新的时间序列,共计10个。经过完整训练的模型能够应用到我国各个地区的实践环节中,满足预测最大负荷的需要。根据图8的负荷预测结果可知:模型所预测的数据与真实数据较接近。与传统
第3期
敬尔森,等:基于CEMD -CNN -LSTM 的中长期电力负荷预测
·
·49