基于多尺度分解集成组合模型的碳价格预测研究

图1 LSTM单元的内部结构

Fig.1　Internal structure of the LSTM unit

LSTM单元的计算过程可以被分为以下步骤。

(1)计算t时刻的候选记忆细胞状态：

(9) $\tilde{c} (t) = tanh (W_{c} [h (t - 1), x (t)] + b_{c})$

式中：tanh( )表示激活函数双曲正切函数；h(t－1)表示上一时刻的输出向量；x(t)表示预测模型的输入，也就是碳价格的历史数据；W_c和b_c分别表示当前记忆细胞的权重矩阵和偏置向量。

(2)计算输入门i(t)的值，输入门决定了当前信息有多少应该被输入到记忆细胞的状态值。

(10) $i (t) = σ (W_{i} [h (t - 1), x (t)] + b_{i})$

式中：σ(·)表示激活函数sigmoid函数；W_i和b_i分别表示输入门的权重矩阵和偏置向量。

(3)计算遗忘门f(t)的值，遗忘门决定前一期的状态c(t－1)有多少信息可以被保存。

(11) $f (t) = σ (W_{f} [h (t - 1), x (t)] + b_{f})$

式中：W_f和b_f分别表示遗忘门的权重矩阵和偏置向量。可以观察到，i(t)和f(t)有相似的形式，而且2个门都由h(t－1)和x(t)决定。

(4)计算当前时刻记忆细胞c(t)的值

(12) $c (t) = f (t) c (t - 1) + i (t) \tilde{c} (t)$

式中：c(t－1)是上一期LSTM单元状态的值。记忆细胞的更新取决于上一期细胞和候选细胞的状态取值，记忆细胞的更新由输入门和遗忘门控制。长期信息由f(t)控制，短期信息由i(t)控制。

(5)计算输出门的取值o(t)，输出门控制记忆细胞状态取值的输出，即

(13) $o (t) = σ (W_{o} [h (t - 1), x (t)] + b_{o})$

式中：W_o和b_o分别表示输出门的权重矩阵和偏置向量。

(6)计算LSTM单元的输出h(t)

(14) $h (t) = o (t) tanh (c (t))$

得益于记忆细胞和3个控制门的结构，LSTM模型可以容易地保存、读取、重置和更新长期信息。梯度爆炸和梯度消失的问题在LSTM模型中得到了解决。

1.3.2　超参数优化

(1)超参数。

当学习速率过大时，寻优过程中的参数会在最优解附近变动而非趋近于最优点；当学习速率过小时，模型的收敛速度会变慢。一个迭代就是将所有训练样本训练一次的过程，迭代数量设置的过大，会造成模型过拟合，模型泛化能力不足；迭代次数设置的过小，会造成模型欠拟合，降低预测精度。如果隐藏层节点数过少，模型不能学习到足够的经验；若隐藏层节点过多，会使模型结构变得更复杂，使得网络的收敛速度变慢。本模型设置2层隐藏层，故2个隐藏层各自的节点数计为2个超参数。LSTM模型的上述4个超参数被选择作为应用启发式算法进行寻优的目标。

(2) CS算法。

CS算法中有3个理想状态的假设：1)每只布谷鸟一次生下一枚卵并随机选择一个鸟巢进行孵化。2)在一个随机选择的巢群，将最高质量的鸟巢保存作为下一代。3)可利用的鸟巢数目固定，鸟巢拥有者发现外来卵的概率为P_a∈[0，1]。若鸟巢拥有者发现了巢中的外来卵，它将弃置这枚卵并重建一个新巢穴。基于上述3个理想状态，搜索布谷鸟巢穴位置和路径的更新公式如下：

(15) $x_{i, t + 1} = x_{i, t} + α \otimes L (λ)$

(16) $L (λ) ~ μ = t^{- λ}, 1 \leq λ \leq 3$

式中：x_i，t表示第t次迭代中第i个鸟巢的位置；步长因子α服从正态分布，并且α>0；L(λ)服从莱维随机分布，并定义了莱维随机搜索路径。

在式(15)的位置更新后，产生了随机数r(r∈[0，1])，并且将ε与p_a比较。如果ε>p_a，那么巢穴位置进行随机更新；否则，巢穴位置不变。

(17) $x_{i, t + 1} = x_{i, t} + α s \otimes H (p_{a} - ε) \otimes (x_{j, t} - x_{k, t})$

其中：x_i，t和x_k，t为2个不同的随机序列；H(·)表示Heaviside函数；ε为一个从随机分布中提取的随机数；s表示步长。CS算法的实现过程具体见图2。

图2

图2 CS算法的流程图

Fig.2　Flowchart of the CS algorithm

1.4　ARMA-TGARCH模型

如果x₁, x₂，…，x_m表示ARMA(p，q)-GARCH(r，s)模型的碳价格观测值，x_t可以被解释为

(18) $x_{t} = c + \sum_{i = 1}^{P} a_{i} (x_{t - i} - c) - \sum_{j = 1}^{Q} b_{j} ε_{t - j} + ε_{t}$

(19) $ε_{t} = \sqrt{h_{t}} η_{t}$

(20) $h_{t} = ω + \sum_{i = 1}^{r} α_{i} ε_{t - i}^{2} + \sum_{j = 1}^{s} β_{j} h_{t - j}$

为了刻画金融风险非对称性的特征，Zakoian(1994)提出了TGARCH模型以描述金融市场的起伏波动的回报率。该模型的均值模型和GARCH模型相同，该模型的条件方差可被描述为

(21) $h_{t} = ω + \sum_{i = 1}^{r} α_{i} ε_{t - i}^{2} + \sum_{j = 1}^{s} β_{j} h_{t - j} + \sum_{k = 1}^{m} φ_{k} ε_{t - k}^{2} d_{t - k}$

式中d_t作为名义变量。若ε_t－k<0,则d_t－k＝1；若ε_t－k>0，则d_t－k＝0。

当价格上升时， $φ ε_{t - k}^{2}$ d_t－k＝0， $\sum_{i = 1}^{r} α_{i}$ 表示条件异方差性的影响；而当价格下降时，则用 $\sum_{i = 1}^{r} α_{i} + \sum_{k = 1}^{m} φ_{k}$ 表示。如果φ_k＝0，则表示价格变化的信息对价格震荡的影响是对称的；反之，则表示该影响是非对称的，并且有一个杠杆效应。

1.5　ICEEMDAN-TGARCH/LSTM(CS)-LSTM(CS)模型构建

图3给出了组合模型的构建流程。首先，以ICEEMDAN对碳价格原始序列进行分解，并基于CCI指数对分解的各经验模态IMF进行重组，得到短、长期和趋势分量；然后，基于对各分量数据特征的分析，以ARMA-TGARCH预测短期分量，以CS优化超参数的LSTM预测长期分量和趋势分量；最后，对各分量预测值进行非线性集成，得到碳价预测结果，并进行比较分析。

图3

图3 构建的组合模型流程图

Fig.3　Flowchart of the proposed hybrid model

2　实证分析

2.1　样本数据

湖北碳排放权交易市场始于2014年4月2日，截至2021年3月12日，其碳交易量达到78.276万t，交易额达到1 688.347万元。作为交易量和交易额最大的试点碳交易市场，市场机制更完善，价格更具有代表性。因此，本文采用湖北碳市场日度价格数据作为研究样本。样本区间为2015-08-28—2021-04-16，共1 320个样本数据。参照已有研究的样本区间划分设定，将总样本的前90%(2015-08-28—2020-10-20，1 200个样本)作为训练集，将剩余的10%(2020-10-21—2021-04-16，120个样本)作为预测模型的测试集，用来检验模型的预测效果。数据均来源于Wind数据库。

2.2　碳价格序列分解及重构

采用ICEEMDAN算法对碳价格原始序列进行分解，共得到10个IMF模态分量和1个残余项，如图4所示。为了降低模型构建复杂程度，对分解得到的10个IMF分量进行重构，先计算各个分量的CCI指数。根据CCI指数和进化聚类算法得到重构结果：IMF1—IMF5构成短期分量MR1，IMF6—IMF10构成长期分量MR2，IMF11构成趋势分量R，具体结果如图5所示。

图4

图4 碳价格序列ICEEMDAN分解结果

Fig.4　ICEEMDAN decomposition result of the carbon price series

图5

图5 分量重构结果

Fig.5　The reconstruction modes

2.3　碳价格预测

2.3.1　基于ARMA-TGARCH模型的碳价格短期分量MR1预测

MR1表征了碳价格高频短期分量，其描述性统计量见表1。从表1中可以看出MR1拒绝正态分布假设，具有尖峰厚尾特征，增强迪基－福勒(augmented Dickey-Fuller, ADF))检验表明MR1拒绝单位根零假设，可以构建ARMA-TGARCH模型。

表1 MR1的描述性统计指标Table 1　Descriptive statistics of component MR1

观测次数	均值	最小值	最大值	方差	标准差	偏态	峰度	JB统计量	ADF统计量
1 320	－0.014	－10.89	15.07	1.99	1.41	2.23	32.13	58 062.5	－11.1

基于赤池信息量准则(akaike information criterion，AIC)，选择滞后阶数，确定ARMA(15，4)模型，以此为基础进行ARCH效应检验，检验结果表明残差序列存在条件异方差，因此可以构建GARCH模型。进一步检验发现GARCH、EGARCH、TGARCH的AIC值分别为1.408 1、1.472 5和1.388 5，基于AIC，选定能反应非对称效应的TGARCH模型为基础，构建ARMA(15，4)-TGARCH(1，2)用于MR1序列的预测，具体见图6。表2是对模型预测效果的评价，表中：MAPE为平均绝对误差百分比；RMSE为均方根误差；MAE为平均绝对误差；TIC为Theil不等系数。

表2 基于ARMA(15，4)-TGARCH(1，2)模型对MR1预测的损失函数Table 2　Loss functions of ARMA(15，4)-TGARCH(1，2) in forecasting MR1

MAPE/%	RMSE	MAE	TIC/%
61.044 5	0.320 01	0.217 33	0.118 78

图6

图6 TGARCH模型对MR1的预测结果

Fig.6　MR1 forecasting result of TGARCH model

2.3.2　基于LSTM(CS)模型的碳价格长期分量MR2及趋势分量R的预测

ADF检验表明碳价格长期分量MR2和趋势分量R是非平稳序列，采用偏自相关函数(partial autocorrelation function, PACF)分析选定预测模型的输入变量，具体见表3。

表3 MR2分量和<i>R</i>分量的输入变量Table 3　Input variables of the component MR2 and R

重组模态	滞后期
MR2	x_t－1，x_t－2，x_t－3，x_t－4，x_t－5，x_t－6，x_t－7，x_t－8，x_t－9，x_t－10，x_t－11，x_t－12
R	x_t－1

LSTM模型中的4个超参数，包括迭代次数、学习率、第1隐含层和第2隐含层节点数，本文采用CS确定，结果发现：当学习率为0.003 788，迭代次数为475，第1隐含层和第2隐含层节点数分别为199和64时，MR2预测结果最优；而当学习率为0.004 482，迭代次数为189，第1隐含层和第2隐含层节点数分别为111和128时，R预测结果最好。

2.3.3　预测结果

在对短期分量MR1、长期分量MR2和R分别预测的技术上，通过布谷鸟优化的超参数LSTM进行非线性集成得到碳价格的预测结果。具体参数如下：当学习率为0.005 436，迭代次数为107，第1隐含层和第2隐含层节点数分别为30和53。图7给出了碳价格最终预测结果，表4是对预测结果的评价。

表4 非线性集成方法预测的4个评价指标Table 4　Four evaluation indicators of nonlinear ensemble method

MAPE/%	RMSE	MAE	TIC/%
0.715 71	0.264 33	0.212 53	0.444 47

图7

图7 非线性集成方法的碳价格预测结果

Fig.7　Carbon price forecasting result of nonlinear ensemble method

3　实证结果分析

为验证本文所构建的预测模型的优越性，选取了16个基准预测模型进行比较，具体结果见图8和表5。表5的结果表明本文所构建的预测模型的MAPE、RMSE、MAE、TIC的值分别为0.715 71%, 0.264 33, 0.212 53和0.444 47%，证实了模型的有效性。

表5 模型预测效果对比Table 5　Four evaluation criteria of the various methods

比较项目	MAPE/%	RMSE	MAE	TIC/%
(1) BP	3.344 47	1.466 44	1.028 19	2.467 27
(2) RNN	2.946 66	1.439 96	0.895 82	2.423 77
(3) GRU	2.882 17	1.431 47	0.895 95	2.414 7
(4) LSTM	2.837 34	1.405 34	0.885 17	2.375 87
(5) LSTM(CS)	1.777 82	0.618 99	0.534 24	1.052 37
(6) ICEEMDAN-TGARCH/ LSTM(CS)-LSTM(CS)	0.715 71	0.264 33	0.212 53	0.444 47
(7) ICEEMDAN-GARCH/ LSTM(CS)-LSTM(CS)	0.822 8	0.332 66	0.250 2	0.563 1
(8) ICEEMDAN-LSTM(CS)-LSTM(CS)	0.907 64	0.447 56	0.279 85	0.756 01
(9) ICEEMDAN-TGARCH/ LSTM(CS)- $\sum$	0.764 95	0.328 79	0.235 56	0.555 44
(10) ICEEMDAN-GARCH/ LSTM(CS)- $\sum$	0.810 07	0.352 45	0.249 48	0.595 39
(11) ICEEMDAN-LSTM(CS)- $\sum$	1.118 44	0.460 01	0.336 09	0.774 52
(12) EMD-LSTM(CS)- $\sum$	1.294 15	0.636 41	0.401 09	1.073 85
(13) EEMD-LSTM(CS)- $\sum$	1.205 28	0.495 24	0.367 72	0.838 74
(14) CEEMDAN-LSTM(CS)- $\sum$	1.131 39	0.464 66	0.343 09	0.787 24
(15) ICEEMDAN-TGARCH/LSTM-LSTM	0.802 61	0.320 23	0.244 33	0.539 69
(16) ICEEMDAN-GARCH/LSTM-LSTM	0.832 55	0.342 38	0.254 2	0.577 09
(17) ICEEMDAN-LSTM-LSTM	1.706 82	0.621 73	0.508 34	1.044 1

图8

图8 各种方法的预测结果

Fig.8　Forecasting results of the various methods

图9(a)为组合模型与BP, RNN, GRU, LSTM和LSTM(CS)等单一模型预测结果的比较，从图9(a)中可以看出，组合模型的预测效果均优于单一模型，其中单一模型(1)—(4)的MAPE大于2.5%，而组合模型(6)—(16)的MAPE均小于1.5%。其原因可能是，由于碳价格的非平稳、非线性特征，没有分解和重组过程的单一模型可能不太适合进行直接的预测。在对原始碳价格进行分解和重组之后，复杂的时间序列数据被转化为相对简单、有规律的平稳时间序列数据，显著地改进了预测的精度。

图9

图9 采用不同方法的预测模型的4个评价指标结果(MAPE、RMSE、MAE、TIC)

Fig.9　Four different evaluation criteria of different methods

图9(b)比较了基于不同分解方法的模型预测结果，从图9(b)中可以看出，基于ICEEMDAN分解的预测结果更优，以MAPE的值来看，基于ICEEMDAN分解预测的结果要比基于EMD、EEMD、CEEMDAN分解的预测误差分别下降0.17%、0.10%和0.02%，这意味着ICEEMDAN能够很好地改进CEEMDAN中的残差噪声问题。而EEMD的改进消除了EMD的模态混合问题，CEEMDAN进一步降低了EEMD的重构误差。

图9(c)比较了基于人工智能模型和计量经济学的集成模型共同构成的混合方法与单纯基于人工智能模型在预测结果上的不同。结果说明，由于前者能考虑到不同成分是否平稳和频率的不同，更适合预测由具有不同数字特征成分构成的数据。MAPE, RMSE, TIC和MAE这4个预测评价指标显示：包含LSTM(CS)方法和TGARCH方法的集成模型(模型(6))具有最优的预测效果，其优于包含LSTM(CS)模型和标准GARCH模型的混合模型(7)，更优于只包含LSTM(CS)方法的模型(8)。其中模型(7)和模型(8)的MAPE指标分别为0.882 8%和0.907 64%，大于所提出的模型(6)。究其原因在于，相对于标准GARCH模型，TGARCH模型考虑到了短期价格震荡的非对称性。除此之外，计量经济学的方法在预测短期的高频分量MR1时，其效果好于单纯的人工智能方法。

图9(d)比较了LSTM模型是否有对超参数优化的CS算法对预测结果的影响。结果表明以CS算法优化LSTM超参数会提升模型的整体预测效果。以MAPE的值来看，所提出的模型(6)对LSTM超参数进行了CS优化，其误差要比未进行CS优化的模型(15)的结果小0.1%。采用LSTM模型的其他复合模型(7)(8)的MAPE、RMSE、MAE和TIC指标也均小于未对LSTM进行CS优化的对照组复合模型(16)(17)。这说明了LSTM(CS)方法相比于LSTM方法显著地降低了预测误差，因此，对LSTM的超参数进行群智能寻优是有意义且有效果的。

图9(e)比较了不同集成方法对预测结果的影响，预测精度结果的评价指标表明，采用LSTM(CS)模型的非线性集成方法要优于传统的简单加和加总的方法。究其原因在于，上述提到的分解集成模型分别预测了每一个分量成分，导致了在简单加和加总过程中会产生误差的累积。当每一个预测结果经非线性集成方法汇总后，会有效地克服上述问题。

上述统计检验结果表明，本文所提出的ICEEMDAN-TGARCH/LSTM(CS)-LSTM(CS)模型在捕获碳价格时间序列特征和对碳价格进行的预测中具有显著的优势。

4　结论

碳金融市场作为应对气候变化、解决碳排放污染问题的有效措施之一，对其价格的精准预测就显得尤为重要。为了进一步提升碳价格预测精度，本文构建了ICEEMDAN-TGARCH/LSTM(CS)- LSTM(CS)碳价组合预测模型。首先采用ICEEMDAN算法对碳价原始序列进行分解，并以CCI指数对分量进行重构，得到短期、长期和趋势分量；然后采用TGARCH预测短期分量，以CS算法优化超参数的LSTM模型预测长期和趋势分量；在此基础上，采用非线性集成算法对各分量预测结果进行集成，得到最终的碳价预测结果。以湖北碳市场为样本数据进行实证分析，结果表明与其他模型相比，所构建的预测模型性能最优。

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

, ZHANG

, GENG

Information linkage, dynamic spillovers in prices and volatility between the carbon and energy markets

[J]. Journal of Cleaner Production, 2018(198): 972-978.

[2]

ÇANAKOĞLU

, ADIYEKE

, AĞRALI

Modeling of carbon credit prices using regime switching approach

[J]. Journal of Renewable and Sustainable Energy, 2018, 10(3), 035901.

[3]

BYUN

S J

, CHO

Forecasting carbon futures volatility using GARCH models with energy volatilities

[J]. Energy Economics, 2013(40): 207-221.

[4]

DUTTA

Modeling and forecasting the volatility of carbon emission market: The role of outliers, time-varying jumps and oil price risk

[J]. Journal of Cleaner Production, 2018, 172, 2773-2781.

[5]

HAN

, DING

, ZHAO

, et al.

Forecasting carbon prices in the Shenzhen market, China: The role of mixed-frequency factors

[J]. Energy, 2019(171): 69-76

[6]

YILDIZ

Layered feedforward neural network is relevant to empirical physical formula construction: A theoretical analysis and some simulation results

[J]. Physics Letters A, 2015, 345(1-3), 69-87.

[7]

JIANG

, WU

International carbon market price forecasting using an integration model based on SVR

[C]//2015 International Conference on Engineering Management, Engineering Education and Information Technology.

DOI:10.2991/emeeit-15.2015.61 [本文引用: 1]

[8]

ZHU

, SHI

, CHEVALLIER

, et al.

An adaptive multiscale ensemble learning paradigm for nonstationary and nonlinear energy price time series forecasting

[J]. Journal of Forecasting, 2016, 35(7), 633-651.

[本文引用: 2]

[9]

, WANG

, JIANG

, et al.

Carbon price forecasting with complex network and extreme learning machine

[J]. Physica A: Statistical Mechanics and its Applications, 2020(545), 122830.

[10]

ZHU

, WEI

Carbon price forecasting with a novel hybrid ARIMA and least squares support vector machines methodology

[J]. Omega, 2013, 41(3), 517-524

[11]

, LU

The research on setting a unified interval of carbon price benchmark in the national carbon trading market of China

[J]. Applied Energy, 2015, 155, 728-739.

[12]

, MA

, HUANG

, et al.

Carbon trading volume and price forecasting in China using multiple machine learning models

[J]. Journal of Cleaner Production, 2010, 249, 119386.

[13]

COLOMINAS

M A

, SCHLOTTHAUER

, TORRES

M E

Improved complete ensemble EMD: A suitable tool for biomedical signal processing

[J]. Biomedical Signal Processing and Control, 2014, 14, 19-29.

[14]

HAO

, TIAN

A hybrid framework for carbon trading price forecasting: the role of multiple influence factor

[J]. Journal of Cleaner Production, 2010, 262, 120378.