中国金融机构风险关联性: 基于DBN-LGCNET多层网络的计量研究

任晓航, 付晨佳, 周玲, 杨晓光, 卢祖帝

计量经济学报 ›› 2025, Vol. 5 ›› Issue (1) : 148-170.

PDF(6049 KB)
PDF(6049 KB)
计量经济学报 ›› 2025, Vol. 5 ›› Issue (1) : 148-170. DOI: 10.12012/CJoE2024-0276
论文

中国金融机构风险关联性: 基于DBN-LGCNET多层网络的计量研究

    任晓航1(), 付晨佳1(), 周玲1,*(), 杨晓光2(), 卢祖帝3,4()
作者信息 +

Risk Correlation of Chinese Financial Institutions: An Econometric Study Based on DBN-LGCNET Multilayer Network

    Xiaohang REN1(), Chenjia FU1(), Ling ZHOU1,*(), Xiaoguang YANG2(), Zudi LU3,4()
Author information +
文章历史 +

摘要

金融系统的结构在宏观环境的冲击下不断变化, 而风险溢出是分析系统性风险的关键. 为了突破传统参数模型的维数限制与模型规范, 本文提出了一种半参数方法——动态贝叶斯-局部高斯相关网络(DBN-LGCNET) 来衡量整体和尾部风险的时变非线性关联. 将该模型应用于我国A股65家上市金融机构数据, 结果表明: 1) 金融系统存在明显的尾部风险溢出现象. 2) 金融行业的风险溢出具有异质性, 一般风险传播的来源主要是银行业, 尾部风险传播的来源主要是证券业. 3) 风险在金融机构间动态传播, 国有银行接受风险溢出较为稳定, 中小银行对极端事件的抵御能力较弱. 4) 极端事件发生后, 一般关联网络中银行业影响增强, 证券业影响减弱. 尾部关联网络中金融机构间的联系增强, 尤其是保险机构.

Abstract

The structure of the financial system is constantly changing under the impact of the macro environment, and risk spillover is the key to analyze systemic risk. In order to break through the dimension limitation and model specification of traditional parametric models, this paper proposes a semiparametric method, Dynamic Bayesian-Local Gaussian Correlation Network (DBN-LGCNET) to measure the time-varying nonlinear correlation between the general and tail risks. The model is applied to the data of 65 listed financial institutions in China's A-share market, and the results show that: 1) There are obvious tail risk spillovers in the financial system. 2) Risk spillover in the financial industry display heterogeneity, with the source of general risk propagation mainly in the banking sector and the source of tail risk propagation mainly in the securities sector. 3) Risks propagate dynamically among financial institutions, state-owned banks demonstrate a consistent capacity to absorb risk spillovers, whereas small and medium-sized banks show a lesser ability to cope with extreme events. 4) After an extreme event, the impact of the banking industry in the general correlation network is enhanced and the impact of the securities industry is weakened. Links between financial institutions in the tail correlation network are strengthened, especially insurance institutions.

关键词

风险溢出 / 局部高斯相关 / 半参数方法 / 多层网络

Key words

risk spillover / local Gaussian correlation / semiparametric method / multilayer network

引用本文

导出引用
任晓航 , 付晨佳 , 周玲 , 杨晓光 , 卢祖帝. 中国金融机构风险关联性: 基于DBN-LGCNET多层网络的计量研究. 计量经济学报, 2025, 5(1): 148-170 https://doi.org/10.12012/CJoE2024-0276
Xiaohang REN , Chenjia FU , Ling ZHOU , Xiaoguang YANG , Zudi LU. Risk Correlation of Chinese Financial Institutions: An Econometric Study Based on DBN-LGCNET Multilayer Network. China Journal of Econometrics, 2025, 5(1): 148-170 https://doi.org/10.12012/CJoE2024-0276

1 引言

准确度量和预测金融波动率是资产组合管理、资产定价以及风险管理等金融实务问题的前提和关键基础, 也是金融学者关注和研究的热点. 以往文献主要采用GARCH族模型、SV族模型以及多分形建模方法等对金融波动率展开研究并取得了良好效果, 如Bollerslev (1986), Harvey and Shephard (1996), Yu (2005), Mandelbrot (1999)等. 然而, 这些传统模型都是基于低频数据, 无法挖掘出更多有价值的日内交易信息, 其预测性能有较大的改进空间. 随着信息技术的飞速发展和金融高频数据库的不断完善, 如何充分挖掘高频数据隐含的日内交易信息并对其进行波动率建模是近年来金融计量领域广泛关注的热点问题. 由Andersen and Bollerslev (1998)首次提出基于高频数据的已实现波动率极大地推动了金融资产波动率的研究进展, 在高频数据框架下对金融波动率进行建模和预测得到了飞速发展, 如Blair, Poon and Taylor (2001), Martens and Zein (2004)构建的GARCH-RV模型、Andersen, Torben and Bollerslev (2003)构建的VAR-RV模型以及Koopman, Jungbacker and Hol (2005)构建的SV-RV模型和ARFIMA-RV模型对金融波动率的预测能力明显优于传统波动率模型. 虽然这些研究都取得了较好的预测效果, 但普遍缺乏明确的经济含义, 并且在建模过程中仍然易损失市场交易信息.
Corsi (2009)在异质市场假说和HARCH模型基础上, 构建了异质性自回归已实现波动率模型(HAR-RV模型). 该模型通过自回归结构加总日、周以及月波动率成分, 仅采用OLS就能估计其参数, 能成功地捕获已实现波动率的长记忆性, 并且对金融波动率的预测性能明显优于GARCH和ARFIMA-RV等模型. 在此之后, 许多学者在HAR-RV模型的基础上, 构建了各类新的波动率预测模型以进一步提高金融波动率的预测精度, 比较有代表性有: Andersen, Bollerslev and Diebold (2007)将连续方差和离散跳跃方差引入HAR-RV模型, 构建的HAR-RV-J和HAR-RV-CJ模型; Chen and Diebold (2011)通过将已实现波动率分解为好消息驱动的波动率成分和坏消息驱动的波动率成分并引入跳跃波动率成分, 构建的HAR-S-RV-J模型; Patton and Sheppard (2015)通过将已实现波动率分解为上下行已实现半方差并引入符号跳跃方差, 构建的HAR-RSV、HAR-RV-SJV和HAR-RV-SJVD模型. 此外, 国内学者也构建了一些新的基于高频数据的波动率预测模型, 并取得了比较好的预测效果. 例如, 田凤平和杨科(2016)构建的同时考虑HAR模型参数时变性和预测因子时变性的具有时变稀疏度的HAR模型(TVS-HAR), 龚旭, 文凤华和黄创霞等(2017)结合EMD方法和HAR-RV-J模型构建的HAR-RV-EMD-J模型, 罗嘉雯和陈浪南(2018)基于Kalli and Griffin (2014)的时变稀疏模型和多元HAR模型构建的具有时变稀疏性的多元HAR模型(TVS-MHAR), 陈声利, 李一军和关涛(2018)基于跳跃、好坏波动率与符号跳跃构建了单级纠偏HARQ类模型和多级纠偏HARQF类模型, 龚旭, 曹杰和文凤华等(2020)构建的带杠杆效应和结构突变的HAR族模型, 瞿慧和沈微(2020)将百度指数作为逻辑平滑转移结构的转移变量引入到HAR模型, 构建的LSTHAR模型等.
虽然上述HAR类模型对金融波动率的预测性能较好, 但仍存在较大的改进空间. 大量研究表明, 金融波动率的影响因素数目非常多, 如已实现波动率的滞后值、跳跃成分等, 而任何潜在的影响因素对已实现波动率的预测能力总是随市场和预测期的不同而改变. 因此, 运用HAR类模型预测已实现波动率时将面临模型选择方面的问题. 为了避免模型选择风险, 通常的有效方法是将所有潜在的影响因素全部纳入HAR模型, 但当潜在影响因素数目很大时, 又会面临过度拟合问题, 反而降低预测模型的样本外预测精度. 另外, 经典的HAR模型建模时只使用了日、周以及月波动率成分, 但并不代表其他波动率成分的预测效果不显著. 因此, 如何对数目巨大的潜在影响因素进行特征选择以同时避免模型选择风险和过度拟合问题是进一步改进和扩展HAR类模型的重要研究方向. 此外, 金融时间序列大多的表现出非线性特征, 而HAR模型只能解释已实现波动率序列的线性部分, 因此, 需要在此基础上构建一些新的模型来捕获这些非线性特征. 有鉴于此, 本文通过融合新兴的机器学习方法和经典的HAR模型, 降低了模型的预测误差, 以期有效提高股市波动率的预测精度, 其创新和对文献的贡献主要体现为如下几个方面: 1) 将机器学习中的Lasso方法和随机森林方法融入传统HAR模型, 实现对潜在影响因素进行特征选择, 以克服模型选择风险和过度拟合问题; 2) 将神经网络模型引入到预测模型中, 有效刻画已实现波动率序列的非线性特征; 3) 构建了八类崭新的已实现波动率预测模型, 并采用MCS检验和随机抽样模拟检验等方法实证评价和比较了新构建的预测模型与传统的HAR和HAR-J模型、基于低频数据的经典GARCH族模型以及最新发展的单级纠偏HARQ-RV-SJ模型、多级纠偏HARQF-RV-CJ模型和TVS-HAR模型对股票市场已实现波动率的预测性能. 本研究为股市波动率的预测提供了新的思路和方法, 拓展了机器学习在金融时间序列上的运用, 有助于投资者准确预判股市走势、实时优化资产配置、及时规避市场风险以及增强经济决策的前瞻性和审慎性, 有助于监管层更高效的监控市场动态、更前瞻和更灵活地引导股市的风险预期并强化市场监管绩效, 对于保持金融市场的长期稳定运行等具有比较重要的现实意义.
后文的结构安排如下: 第二节阐述本文构建的已实现波动率模型和相关的研究方法; 第三节为各类已实现波动率模型预测性能的评价和比较; 第四节给出本文的主要研究结论.

2 模型与方法

2.1 已实现波动率及其跳跃成分的估计

Andersen and Bollerslev (1998)首次提出了基于高频数据的已实现波动率度量方法, 其表述如下:
RVt=j=1n[pj,tpj1,t]2=j=1nrj,t2,
(1)
其中, pj,tt日的第j个日内对数价格, rt,j=pj,tpj1,t为第j个日内对数收益率, n为每个交易日内对数收益率的数量. 从理论上讲, 如果价格没有噪声, RV是累积波动率的一致地估计量. Bandi and Russell (2006), Hansen and Lunde (2006)的研究表明, 由于市场微观结构噪声引起的自相关性, 式(1) 估计的RV可能不是一致估计量, 目前绝大多数文献采用5分钟频率的高频数据来减弱市场微观结构噪声的影响.
为了考察跳跃对已实现波动率预测的影响, Barndorff-Nielsen (2004)基于二次幂变差理论将已实现波动率分解为连续成分和离散跳跃成分, 并将离散跳跃成分定义为跳跃波动率. 根据Andersen, Bollerslev and Huang (2011)的研究, 可以通过式(2) 估计跳跃波动率:
Jt=max(RVtBPVt,0),
(2)
其中, BPV为已实现二次幂变差, 该估计量是积分波动率的一致估计量, 其可以表述为:
BPVt=π2j=2n|rt,j1||rt,j|.
(3)

2.2 HAR模型和HAR-J模型

Corsi (2009)在异质市场假说的基础上构建的HAR-RV模型不仅能刻画不同期限的投资者对金融波动率的贡献, 还能近似捕获波动率的长记忆性. Vortelinos (2017)的研究也指出该模型能很好地探究波动率的运行规律. 标准的HAR-RV模型可表述为:
RVt=β0+βDRVt1+βWRVt1W+βMRVt1M+εt,
(4)
其中, RVtW=15i=15RVti+1$ {\rm RV}_{t}^{M} = \frac{1}{22} \sum_{i=1}^{22} {\rm RV}_{t-i+1} $分别表示周度和月度RV. HAR-RV模型相当于有约束条件的AR(22) 模型, 其系数β0, βD, βWβM可通过简单的OLS估计得到. 在HAR-RV模型中加入式(2) 估计的跳跃波动率成分, 可以得到如下的HAR-J模型:
RVt=β0+βDRVt1+βWRVt1W+βMRVt1M+βDJJt1+βWJJt1W+βMJJt1M+εt.
(5)

2.3 基于特征选择的HAR类模型

为了同时避免模型选择风险和过度拟合问题, 本文根据HAR模型和HAR-J模型的设定形式, 运用Lasso (全称least absolute shrinkage and selection operator)和随机森林(random forest, RF) 对模型的解释变量进行特征选择, 构建了四类新的基于特征选的HAR扩展模型: Lasso-HAR模型、Lasso-HAR-J模型、RF-HAR模型和RF-HAR-J模型, 以期通过特征选择来进一步提高已实现波动率模型的预测精度.

2.3.1 基于Lasso的HAR模型

Lasso是由Tibshirani (1996)提出的一种降维变量选择方法, 该方法通过将惩罚函数引入目标函数来压缩最优变量系数解中所含的变量个数. 自Kock (2012)的研究以来, 越来越多学者在计量经济学领域开始使用Lasso作为模型特征选择工具. 假设xt=(xt1,xt2,,xtp)为预测变量, 在本文中为已实现波动率的影响因素, 包括$ {\rm RV}_{t-i} \ (i=1, 2, \cdots, 22) $$ {J}_{t-i} \ (i=1, 2, \cdots, 22) $, 考虑如下回归方程:
RVt=α+ϕ×xt+εt.
(6)
该回归模型的Lasso模型估计如下:
ϕ^lasso =argminϕ{t=1n(RVij=1pϕjxtj)2+λj=1p|ϕj|}.
(7)
在式(7) 中, 由L1-范数作为正则项, 所以Lasso的解是稀疏的, 即部分ϕj将会等于0, 这就达到了特征选择的结果. 由于ϕj对调整参数或惩罚系数λ比较敏感, 调整参数λ对于特征选择和预测结果影响较大, 因此Lasso模型的关键在于调整参数λ的选取. 文献中经常采用Bootstrap交叉验证、K折交叉验证和蒙特卡罗交叉验证等方法来选择调整参数λ. 基于数据驱动的准则, 本文采用K折交叉验证和均方误差(MSE) 结合的方法来选择最优的调整参数λ, 然后在此基础上分析预测模型的样本内和样本外预测结果.
本文首先确定调整参数λ的最优取值, 然后通过使用Lasso模型对解释变量$ {\rm RV}_{t-i} \ (i=1, 2, \cdots, 22) $进行特征选择, 并将选择得到的变量运用OLS回归得到Lasso-HAR模型:
RVt=β0+βlassoRVt1lasso+εt,
(8)
其中, RVt1lasso是由最优惩罚系数λ选择出来的特征, βlasso为相应的回归系数. 同样, 通过使用Lasso模型对解释变量$ {\rm RV}_{t-i} \ (i=1, 2, \cdots, 22) $$ J_{t-i} \ (i=1, 2, \cdots, 22) $进行选择, 并将选择得到的变量运用OLS回归得到Lasso-HAR-J模型:
RVt=β0+βlassoRVt1lasso+βlassoJJt1lasso+εt,
(9)
其中, RVt1lassoJt1lasso为在给定惩罚系数λ选择出来的特征, βlassoβlassoJ为相应的回归系数.

2.3.2 基于RF的HAR模型

Breiman (2001)提出的RF是一种集成算法, 其基分类器是决策树, 在进行决策时, 根据某一规则对决策树的叶子结点进行划分, 直到满足终止条件为止. 常用的规则包括信息增益和基尼系数. 本文采用基尼系数作为评价标准, 通过控制RF选择变量的个数和Lasso选择变量的个数保持一致, 以便更好地研究模型的特征选择能力. 具体而言, 通过使用RF对解释变量$ {\rm RV}_{t-i} \ (i=1, 2, \cdots, 22) $进行选择, 选择与式(8) RVt1lasso相同的维度作为选择特征个数, 得到解释变量RVt1rf, 并运用OLS回归得到RF-HAR模型:
RVt=β0+βrfRVt1rf+εt.
(10)
同样, 通过使用RF对解释变量$ {\rm RV}_{t-i} \ (i = 1, 2, \cdots, 22) $$ J_{t-i} \ (i = 1, 2, \cdots, 22) $进行选择, 并将选择得到的变量运用OLS回归得到RF-HAR-J模型:
RVt=β0+βrfRVt1rf+βrfJJt1rf+εt,
(11)
其中, RVt1rfJt1rf是由最优惩罚系数λ选择出来的特征, βrfβrfJ为相应的回归系数.

2.4 基于NN的HAR类模型

金融时间序列往往表现出非线性的特征, 而传统的HAR模型等价于带约束的AR (22) 模型, 属于线性模型范畴, 无法捕获金融已实现波动率的非线性特征, 因此本文将神经网络(neural network, 后简称NN) 引入到HAR模型, 构建了基于NN的HAR模型. 相比如其他机器学习模型, NN模型的参数较多, 容易出现过拟合问题. 因此, 本文对NN的深度和每一层的节点数进行了严格的限制, 通过构建相对简单的NN来防止过拟合风险. 本文将RVt1, RVt5$ {\rm RV}_{t-22} $作为输入, RVt作为输出, 构建的HAR-NN模型为:
$ \begin{align} {\rm RV}_{t}=f\left(\phi_{co}+\sum\limits_{h=1}^{2} \phi_{ho} g\left(\phi_{ch}+\phi_{1h} {\rm RV}_{t-1}+\phi_{2h} {\rm RV}_{t-5}+\phi_{3h} {\rm RV}_{t-22}\right)\right)+\varepsilon_{t}, \end{align} $
(12)
其中, f()g()分别是隐含层和输出层的激活函数. 由于本文侧重于探讨采用NN模型刻画已实现波动率之间非线性的关系, 对于不同激活函数的选取以及隐含层数量的确定均沿用文献中普遍采用的方法. 在本文中, g采用tanh激活函数(y=exexex+ex), f采用线性激活函数(y=x), 输入层的维数为3, 隐藏层的维度为2.
此外, 本文还将RVt1, RVt5, $ {\rm RV}_{t-22} $, Jt1, Jt5$ J_{t-22} $作为输入, 将RVt作为输出, 构建的HAR-NN-J模型表述如下:
$ \begin{align} \begin{split} {\rm RV}_{t}=&f\left(\phi_{co}+\sum\limits_{k=1}^{3} \phi_{ko} g^{2}\left(\phi_{ck}+\sum\limits_{h=1}^{6} \phi_{ho} g^{1}(\phi_{ch}+\phi_{1h} {\rm RV}_{t-1}+\phi_{2h} {\rm RV}_{t-5}+\phi_{3h} {\rm RV}_{t-22}\right.\right.+ \ &\phi_{4h} J_{t-1}+\phi_{5h} J_{t-5}+\phi_{6h} J_{t-22}\Bigg)+\varepsilon_{t}, \end{split} \end{align} $
(13)
其中, 输出层维度为6, 隐含层选择2层, 各隐含层神经元的个数分别为6和3. g1为第一个隐含层的激活函数, 采用sigmoid激活函数(y=11+ex), g2为第一个隐含层的激活函数, 采用tanh激活函数, f为输出层的linear激活函数.

2.5 基于神经网络和特征选择的HAR模型

结合NN类模型以及Lasso和RF, 本文进一步构建了另外四类新的已实现波动率模型: Lasso-NN模型、Lasso-NN-J、RF-NN模型和RF-NN-J, 以期同时考虑特征选择和非线性特征来进一步提高已实现波动率模型的预测精度. 具体而言, 通过使用Lasso模型对解释变量$ {\rm RV}_{t-i} \ (i = 1, 2, \cdots, 22) $进行选择, 并将选择得到变量构建神经网络模型得到Lasso-NN模型:
RVt={f(ϕco+h=12ϕhog(ϕch+i=1pϕihRVt1,i lasso))+εt,  p<5,f(ϕco+k=13ϕkog2(ϕck+h=16ϕhog(ϕch+i=1pϕihRVt1,ilasso)))+εt,  p5,
(14)
其中, RVt1,ilasso为在给定惩罚系数λ选择出来的特征, 当使用Lasso选择出来的特征维度小于5时, 使用1层隐含层, 采用tanh激活函数; 当使用tanh激活函数. 同样, 使用Lasso模型对解释变量$ {\rm RV}_{t-i} \ (i = 1, 2, \cdots, 22) $$ J_{t-i} \ (i = 1, 2, \cdots, 22) $进行选择, 并将选择得到的变量使用NN模型训练得到Lasso-NN-J模型:
RVt={f(ϕco+h=12ϕhog(ϕch+i=1pϕihRVt1,ilasso+i=1qϕihJt1,ilasso ))+εt,  p+q<5,f(ϕco+k=13ϕkog2(ϕck+h=16ϕhog(ϕch+i=1pϕihRVt1,ilasso +i=1qϕihJt1,ilasso)))+εt,  p+q5,
(15)
其中, RVt1lassoJt1lasso为在给定惩罚系数λ选择出来的特征, 当输入特征维度小于5时, 使用1层隐含层, 隐含层的神经元数量为2个, 采用tanh激活函数; 当输入特征维度大于等于5时, 使用2层隐含层, 分别采用sigmoid激活函数和tanh激活函数, 隐含层的神经元数量分别为6个和3个.
通过使用RF对解释变量$ {\rm RV}_{t-i} \ (i = 1, 2, \cdots, 22) $进行选择, 并将选择得到的变量构建NN模型, 得到如下的RF-NN模型:
RVt={f(ϕco+h=12ϕhog(ϕch+i=1pϕihRVt1,irf))+εt,  p<5,f(ϕco+k=13ϕkog2(ϕck+h=16ϕhog(ϕch+i=1pϕihRVt1,irf)))+εt,  p5,
(16)
其中, RVt1,irf为在给定惩罚系数λ选择出来的特征, 当使用RF选择出来的特征维度小于5时, 使用1层隐含层, 采用tanh激活函数; 当使用随机森林选择出来的特征维度大于等于5时, 使用2层隐含层, 分别采用sigmoid激活函数和tanh激活函数. 同样, 使用随机森林模型对解释变量$ {\rm RV}_{t-i} \ (i = 1, 2, \cdots, 22) $$ J_{t-i} \ (i = 1, 2, \cdots, 22) $进行选择, 并将选择得到的变量使用NN模型训练得到RF-NN-J模型:
RVt={f(ϕco+h=12ϕhog(ϕch+i=1pϕihRVt1,irf+i=1qϕihJt1,irf))+εt,  p+q<5,f(ϕco+k=13ϕkog2(ϕck+h=16ϕhog(ϕch+i=1pϕihRVt1,irf +i=1qϕihJt1,irf)))+εt,  p+q5,
(17)
其中, RVt1rfJt1rf为在给定惩罚系数λ选择出来的特征, 当输入特征维度小于5时, 使用1层隐含层, 采用tanh激活函数, 隐含层的神经元数量为2个; 当输入特征维度大于等于5时, 使用2隐含层, 分别采用sigmoid激活函数和tanh激活函数, 隐含层的神经元数量分别为6个和3个.

3 预测性能评价和比较

3.1 研究数据

鉴于文献中大多采用5分钟频率的高频数据来减弱市场微观结构噪声的影响, 本文采用上证指数的5分钟高频数据作为研究样本来计算已实现波动率及其跳跃波动成分. 数据来源于CSMAR数据库, 其时间跨度为2006年1月1日至2018年3月31日. 表 1给出了上证指数已实现波动率及其跳跃成分的描述性统计量. 从表 1可以看出, 跳跃波动成分的均值相对于已实现波动率的均值而言比较小, 在总共2990个交易日中发生了768次跳跃, 跳跃占比25.69%.
表1 上证指数RV及其Jump成分的描述性统计量
均值 标准差 最小值 最大值 偏度 峰度
RV 0.8325 0.4574 0.2317 4.7522 2.4918 10.9068
Jump 0.0063 0.0246 0.0000 0.7225 16.3752 396.9947
注: RV表示当期已实现波动率; Jump表示当期跳跃, 0表示不存在跳跃.

3.2 预测结果与分析

本文通过比较样本内和样本外预测结果来评估上述模型的预测性能. 样本内预测方面, 选用全样本对上述HAR模型进行估计, 并在此基础上得到样本内预测值; 样本外预测方面, 采用滚动的固定时间窗口方法得到样本外的向前一步预测值, 具体步骤参见魏宇(2010), 龚旭, 曹杰和文凤华等(2020), 其中, 滚动的固定窗口长度为全样本长度的1/3, 这里取990天, 预测区间覆盖了异常波动的牛熊市和窄幅波动的低迷市等.

3.2.1 样本内预测结果评价和比较

首先使用Lasso进行特征选择, 对于调整参数λ选择的特征个数, 在运用随机森林进行特征选择时, 控制特征的维数选择与Lasso相同的维度. 本文基于前990天的样本数据采用K折交叉验证法选择最优的调整参数λ, 并同时将其作为样本内和样本外预测的调整参数1. 表 2给出了基于最优调整参数的样本内预测结果, 评价指标采用MSE, MAE, R2和可解释方差EV (Explained Variance). 从表 2的样本内预测评价结果可知: 1) 调整参数λ取最优值时, 不带跳跃和带跳跃特征的模型选择中都选择了6个特征, 根据Lasso模型选择的结果, 选择的特征均是RVt1, RVt2, RVt3, RVt4, RVt17, RVt20, 都没有选择跳跃特征, 这说明跳跃成分在固定的样本期内对上证指数RV的解释性不强2; 2) 基于Lasso特征选择的HAR族模型在所有评价标准下对上证指数RV的样本内预测效果都明显优于经典的HAR模型和HAR-J模型, 而基于RF特征选择的HAR族模型仅在R2和EV评价标准下对上证指数RV的样本内预测效果优于经典的HAR模型和HAR-J模型, 但在MSE和MAE评价标准下其样本内预测效果表现不佳; 3) 除了EV评价标准, 在其他所有评价标准下, 基于Lasso特征选择的Lasso-NN-J模型对上证指数RV的样本内预测效果最优. 因此, 总体而言, 基于Lasso特征选择的HAR族模型对上证指数RV的样本内预测效果都明显优于HAR模型和HAR-J模型, 而基于RF特征选择的HAR族模型的样本内预测效果相对较差; 在大多数的情况下, 基于Lasso特征选择的Lasso-NN-J模型对上证指数RV的样本内预测效果最优.
表2 样本内预测精度评价结果
模型 特征数 MSE MAE R2 EV
HAR 3 0.0634 0.1503 0.5651 0.5651
HAR-J 6 0.0620 0.1498 0.5786 0.5786
Lasso-HAR 6 0.0619 0.1498 0.5601 0.5601
Lasso-HAR-J 6 0.0619 0.1498 0.5601 0.5601
Lasso-NN 6 0.0583 0.1467 0.4057 0.4062
Lasso-NN-J 6 0.0582 0.1460 0.3918 0.3941
RF-HAR 6 0.0638 0.1516 0.5609 0.5609
RF-HAR-J 6 0.0639 0.1518 0.5603 0.5603
RF-NN 6 0.0683 0.1561 0.4095 0.4099
RF-NN-J 6 0.0684 0.1523 0.3923 0.3939
注: 加粗数据表示所有预测模型中评价指标值最小者.
1由于篇幅限制, 正文中没有报告Lasso模型进行交叉验证的结果, 有需要的读者可以向作者索取调整参数λ与预测误差的关系图.
2大量研究表明, 跳跃成分包含了股票市场或经济市场的重要信息, 其对已实现波动率预测具有显著的重要影响, 而本文的样本内拟合结果显示, Lasso模型选择都没有选择跳跃特征, 其原因是在固定的样本内期间, 跳跃成分对上证指数RV的影响程度不如RV滞后值强, 当我们进一步考虑不同的样本内区间时, 我们发现在大部分所考虑样本内区间, Lasso模型选择会选择跳跃特征. 因此, 就平均而言, 跳跃成分对我国股市已实现波动率的样本内预测确实具有显著的重要影响, 这与现有研究结论是一致的.

3.2.2 样本外预测结果评价和比较

本节采用HAR、HAR-J、Lasso-HAR、Lasso-HAR-J、Lasso-NN、Lasso-NN-J、RF-HAR、RF-HAR-J、RF-NN和RF-NN-J模型, 运用基于滚动固定时间窗的样本外预测方法对上证指数RV进行预测. 为了更好地比较上述各模型的样本外预测性能, 本文还同时考虑了陈声利, 李一军和关涛(2018)构建的单级纠偏HARQ类模型和多级纠偏HARQF类模型以及田凤平和杨科(2016)构建的同时考虑HAR模型参数时变性和预测因子时变性的TVS-HAR模型作为对照模型. 陈声利, 李一军和关涛(2018)的研究表明, 单级纠偏HARQ类模型的样本外预测性能普遍优于多级纠偏HARQF类模型, 并且HARQ-RV-SJ模型表现最佳, 为了避免实证中比较模型过多, 造成预测评价比较结果混乱, 本文选取了HARQ-RV-SJ模型以及多级纠偏HARQF类模型中样本外向前一步预测性能表现最优(MSE评价标准下) 的HARQF-RV-CJ模型作为对照模型, 模型的设定形式参见陈声利, 李一军和关涛(2018). TVS-HAR模型的样本外预测值基于所有参数的后验均值计算得到, 具体模型设定形式和预测步骤可参见田凤平和杨科(2016)以及罗嘉雯和陈浪南(2018). 此外, 本文还考虑了基于低频数据的经典GARCH族模型: GARCH, TARCH, GJR和EGARCH作为对照模型, 借此考察运用高频数据是否具备优越性.
表 3给出了在调整参数取最优值情况下, 评价指标MSE, MAE, R2和EV对各个预测模型的样本外预测精度评价结果. 尽管这些评价指标给出了各类HAR模型的预测精度排名, 但无法提供模型预测性能在统计学意义上的显著差异, 只能判断在一个特定的数据样本和某一特定的评价指标下, 某些模型比其他模型的预测精度高, 而这一判断无法推广到其他数据样本或其他评价标准. 为了增强结论的稳健性, 本文还进一步采用Hansen, Lunde and Nason (2011)的"模型置信集" (model confidence set, MCS) 检验来评价和比较上述各种预测模型的预测性能. MCS检验是在一组候选预测模型集合M0中进行持续的显著性检验, 不断剔除集合M0中预测能力较差的候选预测模型, 直到没有模型被剔除为止, 剩余幸存模型即为模型置信集. 该检验每次检验的零假设都是候选预测模型集合M0中某两个模型具有相同的预测能力, 文献中大多采用范围统计量和二次方统计量作为实证检验准则来检验这一零假设. 由于范围统计量和二次方统计量的真实分布非常复杂, 实证研究中这两个统计量及相应的p值可通过"自助法" (bootstrap) 模拟获得. 若某些预测模型的p值大于临界值, 则这些模型通过MCS检验, 为模型置信集中的幸存模型, 具有比MCS检验剔除的模型更好的预测性能. MCS检验p值越大, 表明对应预测模型的预测性能越优. 该检验的具体流程和原理可参考Hansen, Lunde and Nason (2011).
表3 样本外预测精度评价结果
模型 MSE MAE R2 EV
HAR 0.1031 0.1781 0.5928 0.5929
HAR-J 0.1032 0.1802 0.5988 0.5993
Lasso-HAR 0.1012 0.1766 0.6018 0.6019
Lasso-HAR-J 0.1012 0.1766 0.6018 0.6019
Lasso-NN 0.0950 0.1698 0.4444 0.4448
Lasso-NN-J 0.0935 0.1616 0.4398 0.4403
RF-HAR 0.1016 0.1774 0.5927 0.5923
RF-HAR-J 0.1022 0.1777 0.5905 0.5907
RF-NN 0.0934 0.1650 0.4575 0.4575
RF-NN-J 0.0936 0.1609 0.4404 0.4420
HARQ-RV-SJ 0.0956 0.1724 0.4572 0.4896
HARQF-RV-CJ 0.0960 0.1736 0.4605 0.4899
TVS-HAR 0.0938 0.1619 0.4401 0.4439
GARCH 0.1048 0.1885 0.6132 0.6005
TARCH 0.1033 0.1814 0.6105 0.6004
GJR 0.1032 0.1811 0.6106 0.6000
EGARCH 0.1033 0.1817 0.6108 0.6007
注: 加粗数据表示所有预测模型中评价指标值最小者.
表 4报告了, 在显著水平为0.1和0.25时, 所有预测模型在MSE和MAE评价标准和范围统计量下, 自助法模拟1000次的MCS检验结果, p值小于0.1 (或0.25) 的预测模型为样本外预测性能较差的模型, 将在MCS检验中被剔除, 而p值大于0.1 (或0.25) 的预测模型则是样本外预测能力较好的模型, 将在MCS检验中保留下来, 即为显著水平为10% 或(25%)的模型置信集M0.90 (或M0.75) 的元素. 若p值等于1, 则说明该预测模型是所有候选模型中最优的预测模型. 结合表 3的样本外预测精度评价结果以及表 4的MCS检验结果可知:
表4 MCS检验结果
模型 MSE MAE
HAR 0.003 0.001
HAR-J 0.002 0.000
Lasso-HAR 0.003 0.001
Lasso-HAR-J 0.000 0.000
Lasso-NN 0.002 0.001
Lasso-NN-J 1.000** 1.000**
RF-HAR 0.002 0.000
RF-HAR-J 0.002 0.000
RF-NN 0.265** 0.240*
RF-NN-J 0.860** 0.851**
HARQ-RV-SJ 0.228* 0.219*
HARQF-RV-CJ 0.228* 0.211*
TVS-HAR 0.711** 0.718**
GARCH 0.001 0.000
TARCH 0.002 0.000
GJR 0.000 0.000
EGARCH 0.000 0.000
注: 表中的数值表示MCS检验的p值, p值越大, 表明该模型的预测精度越高; **表示模型属于置信水平为25%的模型置信集M0.75, *表示模型属于置信水平为10%的模型置信集M0.90, 其中M0.75M0.90.
1) 基于低频数据的经典GARCH族模型: GARCH, TARCH, GJR和EGARCH模型的损失函数值都明显高于基于高频数据的HAR模型及其扩展模型, 并且这几类经典GARCH模型的MCS检验p值都小于0.1, 均被排除在模型置信集之外, 说明对基于高频数据的已实现波动率进行预测建模能显著提高波动率的样本外预测精度, 这一结论与经典文献Andersen, Torben and Bollerslev (2003), Corsi (2009)的研究结论一致.
2) 基于特征选择的Lasso-HAR、Lasso-HAR-J、RF-HAR和RF-HAR-J模型在所有评价标准下对上证指数RV的样本外预测精度都明显优于经典的HAR模型和HAR-J模型, 并且在MCS检验中得以幸存的模型均是带有特征选择的HAR类模型, 而HAR模型和HAR-J模型的MCS检验p值都小于0.1, 说明特征选择对于已实现波动的样本外预测极为重要. 其原因可能有两个方面: 一方面, 由于HAR模型和HAR-J模型中只包含了日线、周线和月线的波动率和跳跃, 这些因子可能并不是最好的预测因子; 另一方面, 近些年来国际金融市场的冲击、投资者情绪的变化以及一些政策性的影响, 上证指数的已实现波动率可能存在着结构性的突变, 导致不同时间段预测因子的预测性能可能不同, 经典HAR模型和HAR-J模型无法反映这些信息, 而通过特征选择可以根据不同的市场环境适时地选择出不同的最优预测因子, 类似于考虑了预测因子预测性能的时变性, 能较大程度地缓解结构突变对样本外波动率预测造成的影响. 因此, 投资者应结合市场行情和需要, 利用Lasso和RF等特征选择方法相机挑选出预测性能较好的预测因子, 进而构建融合特征选择方法的波动率模型来提高波动率的预测精度, 增加获利机会.
3) 相比于线性的基于特征选择的HAR类模型(Lasso-HAR、Lasso-HAR-J、RF-HAR和RF-HAR-J模型), 其对应形式的非线性NN模型(Lasso-NN、Lasso-NN-J、RF-NN和RF-NN-J模型) 对上证指数RV的样本外预测的评价指标值普遍更低, 并且在MCS检验中模型置信集所包含的基于特征选择的HAR类模型均是非线性的NN类模型(Lasso-NN-J、RF-NN和RF-NN-J模型的MCS检验p值均大于0.25, 都通过了MCS检验), 说明采用NN刻画波动率序列的非线性特征可以进一步提高预测模型的样本外预测精度, 这一结论与Vortelinos (2017), Yang, Chen and Tian (2015)的研究结论一致.
4) 通过比较基于特征选择的HAR类模型中不带跳跃成分模型和对应带跳跃成分模型, 我们发现: Lasso-HAR模型与Lasso-HAR-J模型的所有损失函数值都相等, 在MCS检验中的p值也几乎无差别, Lasso-NN-J模型的所有损失值均小于Lasso-NN模型, 且Lasso-NN-J模型的MCS检验p值等于1, 而Lasso-NN模型的MCS检验p值小于0.1, 未能通过MCS检验; RF-HAR-J模型的R2和EV值比RF-HAR模型小, 但两者的MCS检验p值基本无差别, RF-NN-J模型的MAE、R2和EV值均比RF-NN模型小, 且RF-NN-J模型的MCS检验p值大于0.1, 通过了MCS检验, 而RF-NN模型的MCS检验p值小于0.1, 未能通过MCS检验. 此外, MCS检验的模型置信集中总共包含了5个模型, 其中4个为带跳跃成分的模型. 因此, 带跳跃成分的模型对上证指数RV的样本外预测精度在大多数情况下要高于不带跳跃成分的模型, 说明预测模型中引入跳跃成分可以进一步提高模型的样本外预测性能, 这一发现与Andersen, Bollerslev and Diebold (2007), Patton and Sheppard (2015), 龚旭, 文凤华和黄创霞等(2017)以及马锋, 魏宇和黄登仕(2017)的研究结论一致. 因此, 投资者和相关的监管部门应密切关注宏观信息尤其是隔夜信息等引发的跳跃风险, 应将这些市场极端风险来源纳入金融风险预警机制, 并为系统性风险的监控和政策调控的针对性提供参考.
5) HARQ-RV-SJ和HARQF-RV-CJ模型对上证指数RV的样本外预测精度明显高于HAR和HAR-J模型, 并且两者的MCS检验p值均大于0.1, 说明通过单级纠偏和多级纠偏可以进一步提高预测模型的样本外预测性能, 这一结论与陈声利, 李一军和关涛(2018)的研究结论一致; TVS-HAR模型在所有情况下对上证指数RV的样本外预测表现很稳健, 其预测精度排名都在第2或者第3位, 并且在所有损失函数下, 该模型的MCS检验p值均大于0.25, 这与田凤平和杨科(2016), 罗嘉雯和陈浪南(2018)的研究结论一致, 其原因可能是TVS-HAR模型采用时变稀疏度的方法同时考虑了HAR模型参数的时变性和预测因子的时变性, 一定程度上类似于特征选择; 在所有考察的预测模型中, Lasso-NN-J模型的损失函数值最低, 且MCS检验p值等于1, 说明该模型是对上证指数RV的样本外预测性能最优的模型. 因此, 投资者在基于高频数据的已实现波动率建模分析中, 应同时注重预测因子预测性能的时变特征以及波动率的非线性特征, 应结合市场行情和需要, 利用Lasso和RF特等特征选择方法在不同的市场环境下相机挑选出预测性能较好的预测因子, 并利用神经网络等方法捕获波动率序列的非线性特征, 进而构建融合特征选择方法和神经网络的波动率模型实现对股票市场波动率的准确预测, 增强经济决策的前瞻性和审慎性.

3.3 稳健性检验

为更充分地验证上述实证结果的准确性, 本文采用三种方式对模型预测性能进行稳健性检验: 1) 调整滚动窗口宽度重新进行预测, 并检验模型在不同滚动窗口下的预测性能; 2) 采用个股高频数据重新检验模型的预测性能; 3) 采用随机抽样模拟检验模型的预测性能.

3.3.1 基于不同滚动窗的预测性能比较

本文进一步将固定滚动窗调整为500和1500重新进行样本外预测, 并继续采用基于MSE和MAE的MCS检验对预测结果进行稳健性检验, 表 5报告了所有预测模型在滚动窗口分别为500和1500时MCS检验p值.
表5 MCS检验结果(预测滚动窗口为500和1500)
预测滚动窗口为500 预测滚动窗口为1500
模型 MSE MAE MSE MAE
HAR 0.000 0.001 0.000 0.006
HAR-J 0.001 0.000 0.004 0.000
Lasso-HAR 0.005 0.001 0.000 0.000
Lasso-HAR-J 0.000 0.000 0.000 0.000
Lasso-NN 0.000 0.002 0.002 0.002
Lasso-NN-J 0.897** 0.901** 1.000** 1.000**
RF-HAR 0.000 0.000 0.004 0.000
RF-HAR-J 0.000 0.000 0.003 0.001
RF-NN 0.314** 0.318** 0.289** 0.280**
RF-NN-J 0.749** 0.718** 0.904** 0.896**
HARQ-RV-SJ 0.305** 0.302** 0.253** 0.220*
HARQF-RV-CJ 0.305** 0.301** 0.252** 0.221*
TVS-HAR 0.647** 0.652** 0.711** 0.718**
GARCH 0.000 0.000 0.003 0.000
TARCH 0.001 0.000 0.000 0.001
GJR 0.000 0.000 0.000 0.000
EGARCH 0.001 0.000 0.000 0.001
注: 表中的数值表示MCS检验的p值, p值越大, 表明该模型的预测精度越高; **表示模型属于置信水平为25%的模型置信集M0.75, *表示模型属于置信水平为10%的模型置信集M0.90, 其中M0.75M0.90.
表 5可以看出, 预测检验结果与前文基本一致, 在不同的滚动窗口下, 从MCS检验幸存下来的模型置信集中包含了Lasso-NN-J模型、RF-NN模型和RF-NN-J模型, 其MCS检验p值分别为0.897、0.314和0.749, 而经典的HAR模型和HAR-J模型均未通过MCS检验, 说明在HAR模型基础上同时融入特征选择方法、波动率的非线性特征以及跳跃成分可以提高已实现波动率的样本外预测精度; 在所有考察模型中, 新提出的Lasso-NN-J模型在所有损失函数下的MCS检验p值均为最大值(其p值等于1或者接近1), 说明该模型是所有考察模型中预测性能表现最好的模型.

3.3.2 基于个股高频数据的预测性能比较

本文选择了我国股市最具代表性的10只规模最大、流动性较好的个股, 包括浦发银行、上海机场、民生银行等, 具体的个股名称缩写参见表 6第1行, 时间跨度为2007年12月12日至2019年12月31日, 共2934个交易日, 仍采用固定滚动窗为990对各个预测模型进行滚动样本外预测, 表 6报告了各个预测模型滚动样本外预测的基于MSE的MCS检验p值及其预测精度排名均值. 从表 6可以看出, 对于所有个股而言, 从MCS检验幸存下来的模型置信集中均包含了Lasso-NN-J模型、RF-NN模型和RF-NN-J模型, 且这些模型的排名均值都优于经典的HAR模型和HAR-J模型, 而经典的HAR模型和HAR-J模型均未通过MCS检验, 再次验证了在HAR模型基础上同时融入特征选择方法、波动率的非线性特征以及跳跃成分可以提高已实现波动率的样本外预测精度; Lasso-NN-J模型的MCS检验p值在所有考察模型中再次显示为最大值(等于1或者接近于1), 进一步说明Lasso-NN-J模型是所有考察模型中预测性能最优的模型.
表6 MCS检验结果(个股样本)
PFYH SHJC MSYH CPCC ZXZQ ZSYH BLDC ZGLT SQJT FXYY 排名均值
HAR 0.000 0.000 0.000 0.006 0.000 0.001 0.001 0.001 0.000 0.006 12.6
HAR-J 0.002 0.000 0.002 0.000 0.001 0.000 0.007 0.000 0.002 0.000 12.3
Lasso-HAR 0.008 0.003 0.000 0.000 0.005 0.001 0.003 0.001 0.000 0.000 10.4
Lasso-HAR-J 0.001 0.004 0.002 0.000 0.002 0.010 0.008 0.000 0.004 0.000 7.8
Lasso-NN 0.000 0.002 0.002 0.002 0.000 0.004 0.002 0.001 0.002 0.001 8.5
Lasso-NN-J 0.882** 0.912** 1.000** 0.940** 0.992** 0.835** 1.000** 0.794** 1.000** 0.922** 1.1
RF-HAR 0.001 0.002 0.004 0.002 0.000 0.000 0.002 0.000 0.009 0.004 10.6
RF-HAR-J 0.002 0.001 0.003 0.008 0.003 0.002 0.008 0.002 0.001 0.000 9.4
RF-NN 0.414** 0.354** 0.217* 0.272** 0.300** 0.353** 0.286** 0.251** 0.301** 0.296** 4.6
RF-NN-J 0.701** 0.676** 0.822** 0.830** 0.765** 0.704** 0.765** 0.702** 0.883** 0.853** 2.6
HARQ-RV-SJ 0.312** 0.384** 0.238* 0.231* 0.274** 0.314** 0.324** 0.316** 0.230** 0.249* 5.2
HARQF-RV-CJ 0.321** 0.275** 0.260** 0.272** 0.354** 0.311** 0.276** 0.240* 0.241** 0.206* 5.2
TVS-HAR 0.710** 0.677** 0.711** 0.725** 0.848** 0.791** 0.812** 0.824** 0.760** 0.698** 2.4
GARCH 0.000 0.001 0.003 0.001 0.000 0.000 0.001 0.000 0.001 0.000 16.8
TARCH 0.001 0.002 0.000 0.001 0.002 0.000 0.001 0.000 0.000 0.001 16.2
GJR 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 0.000 14.7
EGARCH 0.002 0.001 0.001 0.001 0.001 0.000 0.000 0.000 0.000 0.003 14.3
注: 表中的数值表示MCS检验的p值, p值越大, 表明该模型的预测精度越高; **表示模型属于置信水平为25%的模型置信集M0.75, *表示模型属于置信水平为10%的模型置信集M0.90, 其中M0.75M0.90.

3.3.3 随机抽样模拟检验

第三种稳健性检验方式是根据Beyaztas, Firuzan and Beyaztas (2017)的研究, 采用区组长度为480的SONBB随机抽样方法(具体抽样步骤参见Beyaztas, Firuzan and Beyaztas (2017), 于孝建和王秀花(2018)) 对实证研究中采用的上证指数5分钟高频数据进行重复抽样5000次, 利用抽样得到的高频数据计算已实现波动率、跳跃及其所需的滞后值, 然后对各预测模型的样本外波动率预测损失函数进行MCS检验, 表 7报告了在损失函数MSE、MAE和EV下的MCS检验p值大于0.9的次数(表中未带括号的数值) 及其中位数(表中带括号的数值). 因为在每个损失函数评价标准下得到的实证结果基本一致, 本文以MSE为例进行具体分析. 在损失函数MSE评价标准下, Lasso-HAR、Lasso-HAR-J、Lasso-NN、Lasso-NN-J、RF-HAR、RF-HAR-J、RF-NN和RF-NN-J模型MCS检验p值大于0.9的次数分别为796、1359、1024、4592、788、957、2411和3281, 其中Lasso-NN-J、RF-NN和RF-NN-J模型MCS检验p值的中位数大于0.25, 分别为0.941、0.485和0.794, 而经典的HAR模型和HAR-J模型MCS检验p值大于0.9的次数仅为103和335, 对应的中位数都接近0, 说明在HAR模型基础上融入特征选择方法、波动率的非线性特征以及跳跃成分确实可以提高已实现波动率的样本外预测精度. 此外, 无论在哪一个损失函数下, 新构建的Lasso-NN-J模型的MCS检验p值大于0.9的次数及其中位数(分别为4592和0.941) 在所有考察模型中均为最大值, 表明Lasso-NN-J模型在所有考察模型中是预测性能最佳的模型.
表7 随机抽样模拟检验结果
MSE MAE R2 EV
HAR 103 154 208 246
(0.000) (0.000) (0.001) (0.000)
HAR-J 335 392 371 287
(0.001) (0.001) (0.001) (0.001)
Lasso-HAR 796 874 857 904
(0.001) (0.001) (0.001) (0.002)
Lasso-HAR-J 1359 1281 1302 1115
(0.003) (0.008) (0.005) (0.005)
Lasso-NN 1024 1105 986 929
(0.001) (0.002) (0.002) (0.002)
Lasso-NN-J 4592 4124 4035 4033
(0.941) (0.934) (0.901) (0.900)
RF-HAR 788 892 905 893
(0.001) (0.001) (0.001) (0.002)
RF-HAR-J 957 1032 1237 1189
(0.003) (0.002) (0.003) (0.001)
RF-NN 2411 2856 2903 2844
(0.485) (0.405) (0.358) (0.372)
RF-NN-J 3281 3397 2679 3048
(0.794) (0.816) (0.727) (0.715)
HARQ-RV-SJ 2015 2189 2614 2149
(0.385) (0.326) (0.318) (0.283)
HARQF-RV-CJ 2024 2207 2960 2367
(0.396) (0.310) (0.289) (0.307)
TVS-HAR 3495 3102 3369 3206
(0.873) (0.815) (0.796) (0.810)
GARCH 0 0 0 0
(0.000) (0.000) (0.000) (0.000)
TARCH 0 0 0 0
(0.000) (0.000) (0.000) (0.000)
GJR 10 0 0 21
(0.000) (0.000) (0.000) (0.000)
EGARCH 0 0 0 0
(0.000) (0.000) (0.000) (0.000)
综合表 5表 6表 7给出的预测评价和比较结果可知, 在不同的预测滚动窗口宽度、不同的个股高频数据以及随机抽样模拟检验下, 检验结果与前文得到的实证结果一致: 采用基于高频数据的已实现波动率预测建模能显著提高金融资产未来波动率的样本外预测精度, 基于特征选择的Lasso-HAR、Lasso-HAR-J、RF-HAR和RF-HAR-J模型的样本外预测精度明显优于经典的HAR模型和HAR-J模型, 具有非线性特征的Lasso-NN、Lasso-NN-J、RF-NN和RF-NN-J模型的样本外预测性能在大多数情况下都优于线性的HAR类模型, 带跳跃成分的模型的样本外预测精度在大多数情况下要高于不带跳跃成分的模型, 并且在所有考察的预测模型中, Lasso-NN-J模型的样本外预测性能最强.

4 主要结论及启示

本文将机器学习中的Lasso和RF融入HAR模型中进行模型特征选择, 采用NN刻画波动率序列的非线性特征, 构建了几类崭新的已实现波动率模型, 并采用MCS检验实证评价和比较了各类已实现波动率预测模型的预测性能. 此外, 本文还通过调整滚动窗口宽度、采用不同的研究样本(个股高频数据)和随机抽样模拟检验方法对模型样本外预测性能进行了稳健性检验. 研究结论表明, 采用基于高频数据的已实现波动率预测建模能显著提高波动率的样本外预测精度, 模型中引入跳跃成分可以进一步提高模型的样本外预测性能, 分别融入特征选择方法和考虑波动率的非线性特征的HAR类模型对已实现波动率的样本外预测性能明显优于经典的HAR模型和HAR-J模型, 同时融入Lasso特征选择、神经网络和跳跃成分的Lasso-NN-J模型是所有考察的预测模型中样本内和样本外预测性能最佳的模型. 这些研究结论在不同的预测滚动窗口宽度、不同的个股高频数据以及随机抽样模拟检验下都是稳健的. 基于以上研究结论, 本文得到如下启示: 首先, 相关监管部门在建立金融风险预警机制时应充分结合隔夜信息等引发的跳跃风险, 及时预判未来市场风险的走势, 提高政策调控的针对性和时效性, 避免市场的过度波动, 实现国内金融市场的稳定发展; 其次, 投资者在优化资产配置和规避市场风险时, 应结合市场行情和需要, 可利用Lasso和RF等特征选择方法在不同市场环境下相机挑选出预测性能较好的预测因子, 并利用NN等方法捕获波动率序列的非线性特征, 进而实现对股票市场波动率的准确预测, 增强经济决策前瞻性和审慎性. 此外, 还需综合运用不同预测性能检验方法, 避免方法上的误差, 提高风险预判和风险管理效果.
本文在高频数据下初步探讨了通过融合机器学习和HAR模型来提高金融资产波动率的预测精度, 以此为基础可以进一步拓展的研究方向包括: 1) 使用更加全面的机器学习模型与HAR模型融合, 以进一步提高金融波动率的预测精度, 尤其是最近金融机器学习中的有监督数据降维方法, 如Huang, Jiang and Tu et al. (2015)的PLS模型, Huang, Jiang and Li et al. (2022)的Scaled PCA模型等; 2) 参照Huang, Jiang and Tu et al. (2015), Jiang, Lee and Martin et al. (2019), 姜富伟, 孟令超和唐国豪(2021), 姜富伟, 胡逸驰和黄楠(2021)以及闵峰, 文凤华和吴楠(2021)的研究, 从流动性冲击、信息冲击和情绪冲击等角度进一步解释金融资产价格波动的经济学来源.

参考文献

陈守东, 康晶, 林思涵, 金融机构尾部系统风险与行业风险关联效应研究——基于尾部相依性视角[J]. 金融论坛, 2020, 25 (11): 17- 28.
Chen S D , Kang J , Lin S H , A Research on Correlation of Tail Systematic Risk and Crosssection Risk in Financial Institutions—Based on Tail Dependence Perspective[J]. China Journal of Econometrics, 2020, 25 (11): 17- 28.
方意, 刘江龙, 银行关联性与系统性金融风险: 传染还是分担?[J]. 金融研究, 2023, (6): 57- 74.
Fang Y , Liu J L , Bank Interconnectedness and Systemic Risk: Contagion or Sharing?[J]. Journal of Financial Research, 2023, (6): 57- 74.
方颖, 蔡宗武, 刘泽琴, 林明, 宏观审慎与金融稳定: 基于计量经济政策评估方法的研究[J]. 计量经济学报, 2022, 2 (4): 715- 737.
Fang Y , Cai Z W , Liu Z Q , Lin M , Econometric Evaluation of Macro Prudential Policy Effects on Financial Stability[J]. China Journal of Econometrics, 2022, 2 (4): 715- 737.
傅强, 石泽龙, 系统性金融风险的联合网络关联度测量及频率研究——基于局部平稳的非参数时变VHAR模型[J]. 中国管理科学, 2024, 32 (2): 1- 10.
Fu Q , Shi Z L , Research on Frequency of the Joint Network Connectedness of Systemic Financial Risks in China—Based on the Locally Stationary Non-parametric Time-varying Vector HAR Model[J]. Chinese Journal of Management Science, 2022, 32 (2): 1- 10.
宫晓莉, 熊熊, 波动溢出网络视角的金融风险传染研究[J]. 金融研究, 2020, (5): 39- 58.
Gong X L , Xiong X , A Study of Financial Risk Contagion from the Volatility Spillover Network Perspective[J]. Journal of Financial Research, 2020, (5): 39- 58.
何德旭, 苗文龙, 闫娟娟, 沈悦, 全球系统性金融风险跨市场传染效应分析[J]. 经济研究, 2021, 56 (8): 4- 21.
He D X , Miao W L , Yan J J , Shen Y , Analysis on the Global Systemic Financial Risks Cross-market Contagion Effect[J]. Economic Research Journal, 2021, 56 (8): 4- 21.
蒋海, 纪佳帆, 唐绅峰, 尾部风险溢出网络与系统性金融风险研究——基于TENET方法的多角度实证[J]. 金融监管研究, 2021, (11): 18- 36.
Jiang H , Ji J F , Tang S F , Tail Risk Spillover Network and Systemic Financial Risk—A Multi Angle Empirical Study Based on TENET Method[J]. Financial Regulation Research, 2021, (11): 18- 36.
李红权, 周亮, 系统性金融风险的测度指标及其经济预测能力[J]. 计量经济学报, 2021, 1 (4): 892- 903.
Li H Q , Zhou L , Systemic Financial Risk Measurement and Its Economic Forecasting Ability[J]. China Journal of Econometrics, 2021, 1 (4): 892- 903.
李嘉琪, 郭文伟, 网络特征、金融机构效率与风险承担[J]. 经济学报, 2024, 11 (1): 138- 163.
Li J Q , Guo W W , Network Characteristics, Effciency of Financial Institutions, and Risktaking[J]. China Journal of Economics, 2024, 11 (1): 138- 163.
李绍芳, 李方圆, 刘晓星, 新冠肺炎疫情冲击下全球金融市场系统性风险跨市场传染研究——基于G20国家的经验证据[J]. 金融评论, 2022, 14 (3): 1- 38.
Li S F , Li F Y , Liu X X , Cross-market Contagion of Systemic Risk under the COVID-19 Pandemic: Evidence from G20[J]. Chinese Review of Financial Studies, 2022, 14 (3): 1- 38.
李永, 郭逸群, 郝凤霞, 重大外部冲击如何影响系统性金融风险传染[J]. 金融监管研究, 2022, (12): 20- 39.
Li Y , Guo Y Q , Hao F X , How Do Major External Shocks Affect Systemic Financial Risk Contagion[J]. Financial Regulation Research, 2022, (12): 20- 39.
梁洪, 李树, 王雨, 数字金融、货币政策与系统性金融风险——基于TVP-VAR-SV模型的实证研究[J]. 统计研究, 2023, 40 (11): 68- 79.
Liang H , Li S , Wang Y , Digital Finance, Monetary Policy, and Systemic Financial Risk: An Empirical Study Based on TVP-VAR-SV Model[J]. Statistical Research, 2023, 40 (11): 68- 79.
梁琪, 常姝雅, 我国金融混业经营与系统性金融风险——基于高维风险关联网络的研究[J]. 财贸经济, 2020, 41 (11): 67- 82.
Liang Q , Chang S Y , China's Universal Financial Operation and Financial Systemic Risk—A Study on High-Dimensional Risk Interconnected Network[J]. Finance and Trade Economics, 2020, 41 (11): 67- 82.
刘晓东, 欧阳红兵, 中国金融机构的系统性风险贡献度研究[J]. 经济学(季刊), 2019, 18 (4): 1239- 1266.
Liu X D , Ouyang H B , The Systemic Risk Contribution of China's Financial Institutions[J]. China Economic Quarterly, 2019, 18 (4): 1239- 1266.
欧阳资生, 周学伟, 系统性金融风险对宏观经济的溢出效应研究——基于分位数对分位数方法[J]. 统计研究, 2022, 39 (10): 68- 83.
Ouyang Z S , Zhou X W , The Spillover Effect of Systemic Financial Risks on Macro Economy: Based on Quintile on Quantile Approach[J]. Statistical Research, 2022, 39 (10): 68- 83.
单敬群, 王浩楠, 资本市场与实体部门的金融风险溢出及宏观政策调控效果[J]. 中央财经大学学报, 2024, (4): 3- 17.
Shan J Q , Wang H N , Financial Risk Spillover between Capital Market and Real Sector and the Effect of Macroeconomic Policy Regulation[J]. Journal of Central University of Finance and Economics, 2021, (4): 3- 17.
沈悦, 孟万山, 龙腾, 张贝宁, 美国货币政策对我国系统性金融风险的溢出效应——兼论重大突发事件冲击的影响[J]. 经济问题探索, 2023, (12): 160- 174.
Shen Y , Meng W S , Long T , Zhang B N , The Spillover Effect of the U. S. Monetary Policy on China's Systemic Financial Risk—Also on the Impact of Major Emergencies[J]. Inquiry into Economic Issues, 2023, (12): 160- 174.
谭中明, 康勤, 谭璇, 胡百灵, 基于新关联网络的金融机构关联度及其尾部风险溢出效应研究[J]. 金融发展研究, 2023, (12): 49- 60.
Tan Z M , Kang Q , Tan X , Hu B L , A Study of Financial Institutions' Affliations and Their Tail Risk Spillover Effects Based on New Affliated Networks[J]. Journal of Financial Development Research, 2023, (12): 49- 60.
王纲金, 徐梓双, 谢赤, 中国金融机构关联性与系统性风险贡献研究——基于尾部风险溢出网络视角[J]. 管理科学学报, 2022, 25 (5): 109- 126.
Wang G J , Xu Z S , Xie C , Connectedness and Systemic Risk Contribution of Chinese Financial Institutions: A Perspective from Tail Risk Spillover Network[J]. Journal of Management Sciences in China, 2022, 25 (5): 109- 126.
谢赤, 胡雪晶, 王纲金, 金融危机10年来中国股市动态演化与市场稳健研究——一个基于复杂网络视角的实证[J]. 中国管理科学, 2020, 28 (6): 1- 12.
Xie C , Hu X J , Wang G J , Dynamic Evolution and Market Robustness of Chinese Stock Market in the Past 10 Years of the Financial Crisis: An Empirical Research Based on Complex Network Perspective[J]. Chinese Journal of Management Science, 2020, 28 (6): 1- 12.
杨科, 郭亚飞, 田凤平, 经济政策不确定性冲击下全球系统性金融风险的跨市场传染——基于TVPFAVAR和TVP-VAR模型的研究[J]. 统计研究, 2023, 40 (7): 70- 84.
Yang K , Guo Y F , Tian F P , Cross-market Contagion of Global Systemic Financial Risk under the Impact of Economic Policy Uncertainty: An Analysis Based on TVP-FAVAR and TVPVAR Model[J]. Statistical Research, 2023, 40 (7): 70- 84.
杨子晖, 戴志颖, 中国上下行风险的非对称溢出冲击研究——基于高频数据合成网络的分析[J]. 中国工业经济, 2023, (3): 77- 95.
Yang Z H , Dai Z Y , Research on Asymmetric Spillover of Upside and Downside Risks in China—An Analysis Based on High-frequency Composite Network[J]. China Industrial Economics, 2023, (3): 77- 95.
张飞鹏, 徐一雄, 邹胜轩, 陈艳, 基于LGCNET多层网络的中国A股上市公司系统性风险度量[J]. 中国管理科学, 2022, 30 (12): 13- 25.
Zhang F P , Xu Y X , Zou S X , Chen Y , An Empirical Study on the Systemic Risk of Chinese A-Share Listed Companies Based on Multi-layer Network[J]. Chinese Journal of Management Science, 2022, 30 (12): 13- 25.
张伟平, 庄新田, 王健, 中国股市跨行业系统性风险空间溢出关联及风险预测分析——基于尾部风险网络模型[J]. 中国管理科学, 2021, 29 (12): 15- 28.
Zhang W P , Zhuang T X , Wang J , Systematic Risk Spatial Spillover Correlation and Risk Prediction Analysis of Cross-industry in China' Stock Market—Based on the Tail Risk Network Model[J]. Chinese Journal of Management Science, 2021, 29 (12): 15- 28.
赵修仪, 邓创, 中国系统性金融风险及其对金融周期、经济周期的影响动态[J]. 经济评论, 2022, (4): 114- 129.
Zhao X Y , Deng C , China's Systemic Financial Risk and Its Dynamic Impact on Financial and Business Cycles[J]. Economic Review, 2022, (4): 114- 129.
Acemoglu D , Ozdaglar A , Tahbaz-Salehi A , Systemic Risk and Stability in Financial Networks[J]. American Economic Review, 2015, 105 (2): 564- 608.
Acharya V V , Pedersen L H , Philippon T , Richardson M , Measuring Systemic Risk[J]. The Review of Financial Studies, 2017, 30 (1): 2- 47.
Adrian T , Brunnermeier M K , CoVaR[J]. American Economic Review, 2016, 106 (7): 1705- 1741.
Akhtaruzzaman M , Boubaker S , Sensoy A , Financial Contagion during Covid-19 Crisis[J]. Finance Research Letters, 2021, 38, 101604.
Ando T , Greenwood-Nimmo M , Shin Y , Quantile Connectedness: Modeling Tail Behavior in the Topology of Financial Networks[J]. Management Science, 2022, 68 (4): 2401- 2431.
Artzner P , Delbaen F , Eber J M , Heath D , Coherent Measures of Risk[J]. Mathematical Finance, 1999, 9 (3): 203- 228.
Billio M , Getmansky M , Lo A W , Pelizzon L , Econometric Measures of Connectedness and Systemic Risk in the Finance and Insurance Sectors[J]. Journal of Financial Economics, 2012, 104 (3): 535- 559.
Brownlees C , Engle R F , SRISK: A Conditional Capital Shortfall Measure of Systemic Risk[J]. The Review of Financial Studies, 2017, 30 (1): 48- 79.
Chen W , Hou X , Jiang M , Jiang C , Identifying Systemically Important Financial Institutions in Complex Network: A Case Study of Chinese Stock Market[J]. Emerging Markets Review, 2022, 50, 100836.
Chu Y , Deng S , Xia C , Bank Geographic Diversification and Systemic Risk[J]. The Review of Financial Studies, 2020, 33 (10): 4811- 4838.
Curcio D , Gianfrancesco I , Vioto D , Climate Change and Financial Systemic Risk: Evidence from US Banks and Insurers[J]. Journal of Financial Stability, 2023, 66, 101132.
Gnecco N , Meinshausen N , Peters J , Engelke S , Causal Discovery in Heavy-tailed Models[J]. The Annals of Statistics, 2021, 49 (3): 1755- 1778.
Gofman M , Effciency and Stability of a Financial Architecture with Too-interconnected-to-fail Institutions[J]. Journal of Financial Economics, 2017, 124 (1): 113- 146.
Gong X L , Liu X H , Xiong X , Zhang W , Financial Systemic Risk Measurement Based on Causal Network Connectedness Analysis[J]. International Review of Economics and Finance, 2019, 64, 290- 307.
Härdle W K , Wang W , Yu L , Tenet: Tail-event Driven Network Risk[J]. Journal of Econometrics, 2016, 192 (2): 499- 513.
Mantegna R N , Hierarchical Structure in Financial Markets[J]. The European Physical Journal B—Condensed Matter and Complex Systems, 1999, 11, 193- 197.
McNeil A J , Frey R , Estimation of Tail-related Risk Measures for Heteroscedastic Financial Time Series: An Extreme Value Approach[J]. Journal of Empirical Finance, 2000, 7 (3-4): 271- 300.
Naeem M A , Yousaf I , Karim S , Yarovaya L , Ali S , Tail-event Driven Network Dependence in Emerging Markets[J]. Emerging Markets Review, 2023, 55, 100971.
Ouyang Z , Zhou X , Multilayer Networks in the Frequency Domain: Measuring Extreme Risk Connectedness of Chinese Financial Institutions[J]. Research in International Business and Finance, 2023, 65, 101944.
Spirtes P , Glymour C N , Scheines R , Causation, Prediction, and Search[M]. Cambridge: MIT Press, 2000.
Tian J , Pearl J , Probabilities of Causation: Bounds and Identification[J]. Annals of Mathematics and Artificial Intelligence, 2000, 28 (1-4): 287- 313.
Tjøstheim D , Hufthammer K O , Local Gaussian Correlation: A New Measure of Dependence[J]. Journal of Econometrics, 2013, 172 (1): 33- 48.
Umar Z , Polat O , Choi S Y , Teplova T , The Impact of the Russia-Ukraine Conflict on the Connectedness of Financial Markets[J]. Finance Research Letters, 2022, 48, 102976.
Zhang D , Hu M , Ji Q , Financial Markets under the Global Pandemic of COVID-19[J]. Finance Research Letters, 2020, 36, 101528.

基金

国家自然科学基金(72403258)
国家自然科学基金(72401299)
湖南省教育厅优秀青年项目(23B0004)

版权

版权所有,未经授权。
PDF(6049 KB)

Accesses

Citation

Detail

段落导航
相关文章

/