一种基于极限学习机的时空序列预测方法
   来源:中国科技博览     2021年08月23日 20:07

简单易学的机器学习算法 极限学习机ELM

王航

[摘 要]现有时空序列预测方法在建模时没有考虑时空数据的异质性,为此,本文以北京市PM2.5浓度的预测为例研究了时空ELM模型的建模方法。该方法考虑时空数据的异质性,将研究区域用聚类的方法划分为若干均质子区域,同时考虑时空数据的自相关特性,对每个均质的子区域构建ELM模型进行预测。最后,用本文提出的方法对北京市PM2.5浓度进行预测分析,实验结果表明本文所提方法的有效、正确。

[关键词]时空预测;时空异质性;ELM;PM2.5

中图分类号:TM721 文献标识码:A 文章编号:1009-914X(2017)12-0381-01

1 引言

时空序列预测分析作为时空数据挖掘中一个重要技术,是对在空间上有相互关系的多个时间序列演变趋势与规律进行研究,推测未来时空序列数据的取值或变化趋势。时空序列预测广泛地应用于交通控制、气象预报、传染病防治、环境监测等领域。

时空序列数据除了存在自相关性外,还具有异质性,这里的异质性我们主要是讨论空间异质性。空间异质性的存在使得在地理空间数据分析中,需要提高对局部异质性识别与分析能力,否则很难保证分析结果的可靠性,甚至在局部问题认识上产生错误的结论[9]。地理学中的空间分布模式或过程受到诸多因素的影响,并随着区域不同而发生改变,也就难以用一个统一的全局模型来表达。由于以上的限制,本文提出一种解决异质性时空序列预测的新策略。首先,ELM由于其在极限快速学习中的良好生成表现,被选作预测模型。第二,空间相关性和空间异质性等空间属性将会被引入到ELM方法中。对于空间异质性,通过空间聚类的方法将时空序列数据分组为几个同质的簇。然后为每个同质子区域构建极限学习机,输入节点包括自相关变量以及协变量。

2 实验分析

2.1 实验数据

本实验采用的数据是北京市的PM2.5浓度时空序列数据,对其进行预测分析。实验数据来自北京市35个空气质量监测站,监测站记录PM2.5每小时浓度,其空间分布情况如图1所示,监测数据的时间跨度为2014年4月1日到2014年5月29日,时间分辨率为一小时(即每小时采样一次)。此外,还包括北京市18个区县的气象要素(包括温度,湿度,风力,风向,降水量)的监测数据,时间跨度和分辨率与PM2.5浓度数据一致。

2.2 模型构建与实验分析

实验数据分为两个部分,一部分(4月1日到5月28日的数据)用于建模,另一部分(5月29日的数据)用于预测,进行测试。在聚类分析的步骤中,鉴于GeoSOM算法具有学习和结合空间自相关计算的功能,因此选择GeoSOM算法将PM2.5时空数据进行聚类,分成若干个簇。为了得到较好的聚类结果,本文选择了两种聚类评价指标,包括Davies Bouldin指数(DB)和轮廓指数(SI),来确定最佳聚类个数。一般来说,SI指数越大聚类的结果越可靠,而DB指数评价原理则相反,其值越小聚类的结果越可靠。不同聚类数目对应的DB指数和轮廓指数(SI)值。可以看到簇的个数为14时SI指数能取到极大值,而此时DB指数取到最小值,因此认为簇的个数为14时聚类结果比较可靠。

对全局时空序列进行分析,计算时空自相关系数和时空偏相关系数可得知,时空自相关变量为一阶延迟期对应的相关变量,也就是前一时刻PM2.5的浓度。依据先验知识可知:PM2.5浓度的变化受到气象要素的影响,因而,互相关分析则主要是对相关关系进行验证。我们绘制污染级别与气象要素间的散点矩阵图,可以发现温度、湿度、风力和风向对污染物浓度的影响较为明显,而降水量则没有显著的影响。因此我们将温度、湿度、风力和风向这四个变量选为互相关变量。

然后,对每个局部时空序列分别建立STELM模型。网络的输入层包括时空自相关变量和协变量。时空自相关变量为该监测站点前一时刻的浓度值,协变量为站点所在区县的温度、湿度、风力与风向。鉴于三层的网络结构可以实现任意精度的输入到输出层的非线性映射,因此选用三层的STELM网络对每个局部时空序列建模,网络的输入层为t时刻各站点PM2.5浓度以及t+1时刻各站点所对应的温度、湿度、风速和风向,输出层为t+1时刻各站点的PM2.5浓度。以4月1日到5月28日的数据为训练样本,预测结果与观测数据进行交叉验证,并与全局STELM模型进行对比。

由于12小时以后观测值出现明显波动,导致相对误差急剧增加,评价精度的意义不大,因而仅给出前12个时刻预测值的平均精度,可以发现前12个小时中,顾及异质性的局部模型预测结果精度整体上优于全局模型的预测结果。随着时间的推移,局部模型和全局模型的预测精度都出现了逐渐下降的趋势,而局部模型的精度下降比全局模型缓慢,说明局部模型比全局模型更穩健。

3 结论

本文提出了基于极限学习机的时空序列预测建模方法,该方法同时考虑了时空序列建模中时空数据的自相关性与异质性,为了解决传统机器学习方法中输入参数和训练时间长的问题,采用极限学习机的人工智能方法。通过PM2.5浓度时空序列数据进行建模预测,结果表明考虑异质性的局部时空模型的预测精度高于不考虑异质性的全局模型。同时,本文方法亦存在一定的局限性,本文采用时空序列聚类方法进行异质性处理,不同的聚类方法可能导致不同的均质子区域划分结果,如何选取合理的聚类方法还需要进一步开展深入研究。

参考文献

[1] 基于改进极限学习机的短期电力负荷预测方法[J].毛力,王运涛,刘兴阳,李朝锋. 电力系统保护与控制.2012(20).

[2] 基于LSSVM的混沌时间序列的多步预测[J].江田汉,束炯.控制与决策.2006(01).

文章 时空 序列