文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于相似日聚类及模态分解的短期光伏发电功率组合预测研究》 - 码农知识堂

文章解读与仿真程序复现思路——电网技术EI\CSCD\北大核心《基于相似日聚类及模态分解的短期光伏发电功率组合预测研究》
本专栏栏目提供文章与程序复现思路，具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》

这个标题描述了一个关于短期光伏发电功率预测的研究。让我们逐步解读：
1. 基于相似日聚类：这指的是使用相似日聚类的方法来进行预测。相似日聚类是一种将数据按照日历时间进行分组的技术。在这种情况下，可能是将历史的光伏发电功率数据按照相似的天气条件、季节性变化或者其他因素进行聚类，以便更好地理解不同时间段之间的模式和趋势。
2. 模态分解：这可能是指使用模态分解方法，如小波变换、奇异值分解（SVD）等，对光伏发电功率数据进行分解。模态分解能够将信号分解成不同的模态，每个模态代表了数据中的一种特定模式或趋势。通过这种方式，可以更好地理解数据中的周期性、趋势性和噪声成分。
3. 短期光伏发电功率组合预测：这是研究的主题，即预测未来短期（可能是几天或几周）内光伏发电功率的变化。这可能涉及到对历史数据进行分析和建模，以便预测未来的发电功率，这对于光伏发电系统的运营和电网管理非常重要。
因此，整个标题的含义是：这个研究将使用相似日聚类和模态分解的方法来预测短期内光伏发电功率的变化，并且可能会探索如何将不同的预测结果组合起来，以提高预测的准确性和可靠性。

摘要：短期光伏发电功率预测是电站制定发电计划并进行调度的重要组成部分，有助于电力系统的动态稳定。针对光伏时序预测中存在的噪声干扰及单一模型预测效果不稳定等问题，该文提出一种基于改进型自适应白噪声的完全集合经验模态分解(improved complete ensemble empirical mode decomposition with adaptive noise， ICEEMDAN)的组合预测模型。首先，利用相关系数提取重要气象特征，并采用模糊C均值聚类(fuzzy C-means clustering， FCM)将原始数据集划分为晴天、晴转多云和雨天。其次，每种相似日以最后一天为待预测日，其余为历史训练集；利用ICEEMDAN将历史训练集分解成若干个较为规律的子序列，并用排列熵(permutation entropy， PE)对各子序列进行重构。最后，高频项采用由卷积神经网络(convolutional neural network，CNN)、(bidirectional gated recurrent unit，BiGRU)双向门控循环单元与注意力机制组合而成的CNN-BiGRU-ATTENTION神经网络预测，低频项和趋势项采用最小二乘支持向量回归机（least squares support vector regression， LSSVR）进行预测，将预测结果叠加得到最终光伏发电功率预测值。通过实例验证：该文组合模型在不同天气条件下，可以解决单一模型预测精度低、预测效果不稳定等问题；相比其他模态分解，能够更精确地预测波动较大的局部特征。

这篇摘要提出了一种基于改进型自适应白噪声的完全集合经验模态分解 (improved complete ensemble empirical mode decomposition with adaptive noise, ICEEMDAN) 的组合预测模型，用于解决光伏时序预测中的噪声干扰和单一模型预测效果不稳定的问题。该模型包括以下步骤：
1. 利用相关系数提取重要气象特征：通过相关系数分析得到对光伏发电功率影响最大的气象特征。
2. 采用模糊C均值聚类 (fuzzy C-means clustering, FCM) 将原始数据集划分为晴天、晴转多云和雨天三种天气条件，以便更好地区分不同天气条件下的发电功率模式。
3. 使用ICEEMDAN将历史训练集分解为若干个规律的子序列，然后使用排列熵 (permutation entropy, PE) 对这些子序列进行重构。
4. 高频项的预测采用卷积神经网络 (convolutional neural network, CNN) 、双向门控循环单元 (bidirectional gated recurrent unit, BiGRU) 和注意力机制 (attention mechanism) 的组合神经网络 (CNN-BiGRU-ATTENTION) 进行预测。
5. 低频项和趋势项的预测采用最小二乘支持向量回归机 (least squares support vector regression, LSSVR) 进行预测。
6. 将以上步骤得到的预测结果进行叠加，得到最终的光伏发电功率预测值。
通过实例验证，该模型在不同天气条件下能够解决单一模型预测精度低和预测效果不稳定等问题。相比其他模态分解方法，该模型能够更精确地预测波动较大的局部特征。

关键词：光伏发电;模态分解;相似日聚类;卷积神经网络;最小二乘支持向量回归机;注意力机制;

这些关键词涉及到短期光伏发电功率预测的研究方法和技术。让我们逐一解读：
1. 光伏发电： 这是指利用太阳能光伏电池将阳光转换为电能的发电过程。在这个上下文中，研究的焦点是对光伏发电功率进行预测。
2. 模态分解： 这是一种信号处理技术，通常用于将时间序列数据分解成不同的模态或成分。在这个研究中，可能采用了模态分解方法来分析光伏发电功率数据的不同频率或模式。
3. 相似日聚类： 这是一种按照相似的天气条件或其他特定因素将时间进行分组的方法。在光伏发电预测中，相似日聚类可能用于识别在相似天气条件下光伏发电功率的共同特征。
4. 卷积神经网络 (CNN)： 这是一种深度学习模型，特别适用于处理具有空间结构的数据，例如图像。在这个研究中，CNN可能用于处理高频项的预测，即那些变化比较快的部分。
5. 最小二乘支持向量回归机 (LSSVR)： 这是一种机器学习算法，常用于回归问题。在这里，LSSVR可能被用来对低频项和趋势项进行预测，即那些变化较为缓慢的部分。
6. 注意力机制： 这是一种机制，使得模型能够在处理序列数据时更加关注不同时间点的重要性。在这个研究中，可能使用注意力机制来强调在预测过程中更重要的子序列或时间点。
综合而言，关键词提到的方法和技术组合起来，构成了一个综合的短期光伏发电功率预测模型，旨在提高预测的准确性和稳定性。

仿真算例：实验数据来源于澳大利亚沙漠中心 (desert knowledge Australia solar center, DKASC)网站的公开数据集，以艾丽斯斯普林斯(Alice Springs）站点的光伏阵列为研究对象。选取 2020 年的光伏发电功率数据和其对应的气象特征数据为测试数据，分辨率为5min。经过相似日聚类后，每种天气类型以最后一天为待预测日也就是测试集，其余均为历史数据集也就是训练集。本文采用迭代预测的方法，输入和输出的序列长度分别设定为288和1，通过滚动迭代方式得到预测结果。为了客观评价模型预测精度，每种天气类型均进行 10 次实验并取平均值作为最终预测值，与真实值进行误差计算分析。为了评估本文所提出的预测模型的效果，选取 3 种评价指标，分别是平均绝对误差(mean absolute error，MAE)和均方根误差(root mean square error， RMSE)及拟合系数𝑅2作为误差指标。

仿真程序复现思路：

为了复现这篇文章中描述的实验，我们可以按照以下步骤进行：
1. 数据获取和预处理： 首先，我们需要获取澳大利亚沙漠中心网站提供的公开数据集，包括艾丽斯斯普林斯站点2020年的光伏发电功率数据和对应的气象特征数据。然后，我们需要对数据进行预处理，包括缺失值处理、数据标准化等。
2. 相似日聚类： 使用相似日聚类方法对历史数据集进行聚类，得到不同的天气类型。对于每种天气类型，选择最后一天作为待预测日（测试集），其余天作为历史数据（训练集）。
3. 模型训练和预测： 对于每种天气类型，采用迭代预测的方法。设定输入序列长度为288（即288个5分钟数据），输出序列长度为1。通过滚动迭代方式，逐步预测未来的光伏发电功率数据。
4. 模型评估： 对每种天气类型进行10次实验，取平均值作为最终预测结果。使用MAE、RMSE和R^2等指标对模型的预测精度进行评估。
下面是一个简化的Python示例代码，用于模拟实验的过程（实际数据集和模型的实现需要根据具体情况进行调整）：
```
import numpy as np
import pandas as pd
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score
 
# 步骤1: 数据获取和预处理
# 假设我们有光伏发电功率数据和气象特征数据
# 这里使用随机生成数据作为示例
def generate_random_data(num_samples, num_features):
    X = np.random.rand(num_samples, num_features)  # 假设有num_samples个样本，每个样本有num_features个特征
    y = np.random.rand(num_samples)  # 对应的光伏发电功率
    return X, y
 
num_samples = 1000
num_features = 10
X, y = generate_random_data(num_samples, num_features)
 
# 步骤2: 相似日聚类
# 这里简单地使用K均值聚类将历史数据划分为不同的天气类型
def cluster_similar_days(X_train, num_clusters):
    kmeans = KMeans(n_clusters=num_clusters, random_state=0)
    labels = kmeans.fit_predict(X_train)
    return labels
 
num_clusters = 5
labels = cluster_similar_days(X, num_clusters)
 
# 步骤3: 模型训练和预测
def train_and_predict(X_train, y_train, X_test):
    model = RandomForestRegressor()  # 使用随机森林回归作为示例模型
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    return y_pred
 
# 步骤4: 模型评估
def evaluate_model(y_true, y_pred):
    mae = mean_absolute_error(y_true, y_pred)
    rmse = np.sqrt(mean_squared_error(y_true, y_pred))
    r2 = r2_score(y_true, y_pred)
    return mae, rmse, r2
 
# 假设我们已经有了测试集数据
X_test, y_test = generate_random_data(100, num_features)
 
# 对每个天气类型进行迭代预测和评估
results = []
for label_id in range(num_clusters):
    # 获取当前天气类型的数据
    X_train_label = X[labels == label_id]
    y_train_label = y[labels == label_id]
    
    # 分割数据集为训练集和测试集
    X_train, _, y_train, _ = train_test_split(X_train_label, y_train_label, test_size=0.2, random_state=0)
    
    # 训练模型并进行预测
    y_pred = train_and_predict(X_train, y_train, X_test)
    
    # 评估模型
    mae, rmse, r2 = evaluate_model(y_test, y_pred)
    results.append((mae, rmse, r2))
 
# 打印评估结果
for i, (mae, rmse, r2) in enumerate(results):
    print(f"天气类型{i + 1}:")
    print(f"MAE: {mae:.4f}")
    print(f"RMSE: {rmse:.4f}")
    print(f"R^2: {r2:.4f}")
```
请注意，这只是一个简化的示例代码，实际的实验过程中需要根据具体情况调整和完善代码，包括数据的获取、模型的选择和调参等。

本专栏栏目提供文章与程序复现思路，具体已有的论文与论文源程序可翻阅本博主免费的专栏栏目《论文与完整程序》
相关阅读:
Video Caption / 视频字幕：数据集总结
 2022.11.8-----leetcode.1684
k8s service
OPENCV实现DNN图像分类
 FineReport制作任务日历
 期货开户保证金是一把双刃剑
 C语言入门 Day_13 二维数组
 100ms的SQL把服务器搞崩溃了
 什么是 NPM？
检测Windows环境中的内部威胁
原文地址：https://blog.csdn.net/LIANG674027206/article/details/136312838