计量经济学报, 2022, 2(4): 738-759 DOI: 10.12012/CJoE2022-0044

论文

一种新的绿色激励指标构建方法及其应用

张逸飞,1,2, 池文豪,1,2, 魏云捷,1,3, 孙少龙,4, 王珏,1,3

1. 中国科学院数学与系统科学研究院, 北京 100190

2. 中国科学院大学, 北京 100190

3. 中国科学院预测科学研究中心, 北京 100190

4. 西安交通大学管理学院, 西安 710049

A Novel Approach of Green Incentive Index Construction and Its Application

ZHANG Yifei,1,2, CHI Wenhao,1,2, WEI Yunjie,1,3, SUN Shaolong,4, WANG Jue,1,3

1. Academy of Mathematics and Systems Science, Chinese Academy of Sciences, Beijing 100190, China

2. University of Chinese Academy of Sciences, Beijing 100190, China

3. Center for Forecasting Science, Chinese Academy of Sciences, Beijing 100190, China

4. School of Management, Xi'an Jiaotong University, Xi'an 710049, China

通讯作者: 魏云捷, 副研究员, 研究方向:经济分析与预测, E-mail:weiyunjie@amss.ac.cn

第一联系人:

注: 张逸飞和池文豪为共同第一作者.

收稿日期: 2022-04-28  

基金资助: 国家自然科学青年科学基金项目(71801213);国家自然科学基金面上项目(72101197); 国家自然科学基金基础科学中心项目(71988101)

Received: 2022-04-28  

Fund supported: National Natural Science Foundation of China (71801213, 72101197, 71988101)

作者简介 About authors

张逸飞,博士研究生,研究方向:经济预测与智能计算,E-mail:yfzhang@amss.ac.cn

池文豪,博士研究生,研究方向:机器学习、计算机视觉,E-mail:whchi@amss.ac.cn

孙少龙,特聘研究员,研究方向:大数据挖掘、经济与金融预测;E-mail:sunshaolong@xjtu.edu.cn

王珏,研究员,国家领军人才计划入选者,研究方向:经济预测与智能计算,E-mail:wjue@amss.ac.cn

摘要

完善和发展绿色金融体系是实现碳达峰与碳中和目标战略下的重要一环, 研究中国证券市场中绿色激励(green incentive, GI)的存在性和显著性有利于进一步发现绿色风险补偿机制以及把握政策对市场的引导效应.与现有相关研究思路不同, 首先本文以中国股票市场环保行业板块为切入点, 从指标构造的时效性和便捷性出发, 通过经典的资本资产定价模型及行业α收益, 在不同激励因子的设置下构建了全新的绿色激励指标. 其次, 为探究绿色激励指标的性质和特点, 本文提出了一种系统的混合分析方法并进行了综合应用, 包括GI指标关于中证环保指数的因果检验分析、趋势分析和回归分析等, 全面地反映了所建指标的优势与参考价值. 最后, 对绿色激励指标的预测价值进行了实证研究与讨论. 研究结果表明, 在不同激励因子影响下构建的绿色激励指标对于环保板块指数均具备一定的趋势先行性、回归系数显著性和预测模型解释性.其结论既指出了环保指数的变化趋势仍然长期受市场对环保板块要求的绿色风险补偿影响, 同时也为跟踪和预测行业指数趋势提供了新的参考思路.

关键词: 环保行业 ; 激励因子 ; 绿色激励 ; 趋势分析 ; 指数预测

Abstract

Improving and developing the green financial system is a vital tool to achieve emission peak and carbon neutrality, and the research on green incentive (GI) in Chinese securities market is conducive to further discovering the impacts of policies and green risk compensation on the market. First, based on the classical CAPM and α return, we construct brand-new GI indicators with distinct incentive factors by the index of environmental protection industry. Second, to investigate the characteristics of GI indexes, this work proposes a systematic hybrid analysis method by integrating the causality test, trend analysis and regression significance test, which can also reveal the advantages and merits of our established indicators. Third, the empirical results demonstrate that under different incentive factors, GIs can exhibit obvious leading trend, significant regression coefficient and predictive explanatory power, with regard to the environmental protection industry index. The conclusion points out that the trend of the environmental protection index is affected by the green risk compensation required by the market in a long term, and meanwhile, it also provides a valuable reference for tracking and predicting the index.

Keywords: environmental protection industry ; incentive factor ; green incentive ; trend analysis ; index forecasting

PDF (2464KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

张逸飞, 池文豪, 魏云捷, 孙少龙, 王珏. 一种新的绿色激励指标构建方法及其应用. 计量经济学报[J], 2022, 2(4): 738-759 DOI:10.12012/CJoE2022-0044

ZHANG Yifei, CHI Wenhao, WEI Yunjie, SUN Shaolong, WANG Jue. A Novel Approach of Green Incentive Index Construction and Its Application. China Journal of Econometrics[J], 2022, 2(4): 738-759 DOI:10.12012/CJoE2022-0044

1 引言

党的十八大以来, 随着我国生态文明建设不断推进, 绿色技术研发不断取得突破和显著成效, 国家节能减排目标得以加快实现, 国务院新闻办公室发布的《中国应对气候变化的政策与行动》白皮书显示, 2005以来中国累计节能量占全球50%以上, 2020年碳排放强度较2005年下降了48.4%. 2020年9月22日, 习近平主席在第七十五届联合国大会一般性辩论上发表重要讲话, 宣布我国"二氧化碳排放力争于2030年前达到峰值, 努力争取2060年前实现碳中和", 自此"双碳"战略目标成为我国社会主义现代化建设中重要的指导方向之一. 未来40年, 我国经济和产业结构都将迎来重要的调整和改变, 为新兴的绿色、低碳产业的发展带来了新的机遇, 也为建立健全绿色金融体系、推动绿色金融投资、推出创新绿色金融工具等营造友好宽松的环境氛围. 多数研究机构预计, 中国实现"双碳"战略目标所需的投资规模在100万亿元以上, 绿色金融成为了当今金融领域热门的风口之一.

央行数据显示, 2020年末中国绿色贷款余额约12万亿元, 存量规模居世界第一, 但在社会融资规模存量中的比例不到5%. 此外, 当前我国绿色债券体量在2万亿元以下, 占债券比重仅为2%, 绿色投资基金则仅有2000亿元. 这些数据侧面说明了我国绿色金融市场具备广阔的发展前景. 近年来, ESG1投资规模快速发展, 截至2020年末全球ESG资产规模已达35万亿美元, 占整体资产管理规模的三分之一, 较2018年末增长15%. ESG评估信息也逐渐对投资效益产生重要影响(Amel-Zadeh et al. (2018), Pedersen et al. (2021)). 中国金融期货交易所党委书记、董事长何庆文表示"后续我们将适时选取符合中国市场需要、市场特征、有一定市场基础的产品, 参与推出ESG指数期货和绿色债券指数期货, 助力我国的绿色金融发展" (李雨琪(2021)).

1Environmental, Social and Governance, 代表环境、社会和治理, 是一种新的价值理念和评价工具.

完善和发展绿色金融体系是实现碳达峰与碳中和目标战略下的重要一环. 在"双碳"目标战略的指导下, 随着绿色金融工具的推出与支持, 绿色产业的发展具有广阔的前景, 但由于环保产业前期投入周期较长, 在实现经济效益的同时也必须兼顾社会效益, 因此会导致绿色产业的发展存在一定的不确定性. 由此, 看好或持有环保行业相关股票或指数基金的投资者将期望获得额外的风险补偿, 这种风险补偿则可以被视为绿色激励. 研究中国证券市场中绿色激励的存在性和显著性有利于进一步发现绿色风险补偿机制以及把握政策对市场的引导效应. 同时, 在股票市场中对绿色行业相关指数或股价趋势的准确预测有利于政府制定行业政策刺激绿色产业发展, 也有利于投资者采取恰当的交易策略获得投资收益等. 本文将通过探究绿色激励指标的构建方式以用于日度指数预测建模, 为跟踪和预测行业指数趋势提供新的参考思路并做出一定贡献. 下面将简要回顾现有文献中关于绿色激励和股指股价预测的研究成果.

1.1 关于绿色激励的研究

在全球产业链对环保政策的持续关注和不断加码绿色投资的背景下, 投资者的行为决策将更倾向于纳入绿色因素的考量, 从而对市场估值产生一定影响(Gimeno et al. (2022)), 因此研究绿色激励有助于对绿色市场收益率的经济解释, 并为绿色板块投资者提供有效信息. 绿色激励是绿色企业承担绿色特有风险的同时, 所获得的风险补偿. 关于中国股票市场的绿色激励现象, 已有研究者做了相关研究. 韩立岩等(2017)在Fama-French三因子模型(Fama et al. (1993))的基础上引入绿色因子构建了绿色激励四因素模型, 更好地解释了绿色概念股在2005–2014年间的超额收益率. 刘勇等(2020)以满足可持续发展标准的绿色企业为样本, 在Fama-French五因子模型(Fama et al. (2015))框架下构建六因子模型, 发现2009–2015年间在可持续发展观下, 中国股票市场存在显著且稳健的绿色激励. 韩国文等(2021)在投资组合方法和因子模型方法两个维度下, 从碳排放的视角发现中国股票市场在2012–2014年间存在显著的绿色激励, 而在2013–2017年存在显著的碳风险溢价. 申学峰(2019)指出绿色股相较非绿色股盈利能力更强, 财务风险更高, 从而产生了绿色激励现象.

1.2 关于股指股价预测的研究

得益于数字经济的快速发展, 丰富而复杂的数据结构、多样而严谨的科学理论和与时俱进的技术设备等为统计学、预测科学等领域的不断进步带来了深刻挑战与巨大机遇(洪永淼等(2021)). 股指股价的预测是金融市场经典而又重要的问题, 合理准确的预测能为投资者带来更好的收益, 因此也吸引了许多研究者参与到股指股价预测的相关研究中, 至今已发展出大量的预测技术. 最常用的两类方法为统计学方法和机器学习方法. 统计学方法中的ARIMA模型(Adebiyi et al. (2014), Ariyo et al. (2014), Bhardwaj et al. (2019)), GARCH模型(Herwartz (2017), Wang et al. (2020)), 以及机器学习方法中的支持向量机(SVM) (Bao et al. (2004), Hegazy et al. (2014), Kim (2003)), XGBoost算法(王燕等(2019), Basak et al. (2019)), 人工神经网络(Du (2018), Guresen et al. (2011)), 长短期记忆网络(马超群等(2021), Fischer et al. (2018), Selvin et al. (2017))等都被广泛应用于股指股价预测. 由于传统的统计学方法通常假定数据是由线性过程生成的, 有着较为精简的模型架构, 而机器学习方法通常会对原始数据做一些非线性的变换, 模型结构相对更加复杂(Januschowski et al. (2020)), 因此机器学习方法在预测股指股价这类呈现高度非线性性, 非平稳性以及异方差性的数据上具有更大的潜力. Adebiyi et al. (2014)使用戴尔(Dell)公司1988–2011年的股票数据比较了ARIMA模型和人工神经网络(ANN)模型的预测效果, 发现二者都有较高的预测精度, 但人工神经网络模型在多数情况下要优于ARIMA模型. Du (2018)分别用ARIMA模型和反向传播神经网络(BPNN) 模型预测上证指数, 另外以ARIMA模型预测的残差序列训练反向传播神经网络, 然后将两者的预测结果相加作为最终预测. 实证结果显示集成方法的预测效果要优于反向传播神经网络, 而反向传播神经网络要优于ARIMA模型. 孙宏鑫等(2021)利用混合神经网络模型对沪深300股指期货进行价格预测和趋势预测, 并据此设计投资策略. 该研究对比了LSTM和CNN的单模型预测结果, 论证了混合模型的优越性和趋势预测的可行性.

一般而言, 在股指股票预测模型的建模中除了直接利用原始时间序列及其滞后阶进行预测以外, 大多数预测方法还引入了其他的解释变量如盘面数据、技术指标、文本或图像数据等. 但由于目前在预测绿色股指或股价时将绿色激励指标考虑进来的相关研究较少, 这为我们探究和构建绿色激励指标并将其应用于绿色股指预测提供了研究动机.

从上述文献调研可知, 一方面绿色激励指标的构建和显著性分析等研究表明了中国股票市场中存在绿色激励, 另一方面关于绿色激励的进一步应用, 例如引入绿色激励指标进行绿色股指股票的预测和高频交易的决策等, 存在一定的研究空白. 从时间频度的及时性和指标构造的便利性等角度考虑, 由于传统的绿色激励因子以月度频率为主, 而且对市场中所有绿色概念股票和非绿色概念股票相关数据均需要进行一定地提取和处理, 对于更高频的预测(如日度预测)和投资组合决策(如绿色股票的投资组合)缺乏一定的效用. 本文提出了一种更便捷高效的构造方式, 既不失绿色激励的核心内涵, 同时能够有效提高后期的预测效果.

基于以上讨论并结合本研究内容, 本文创新点主要体现在以下三个方面:

1) 构建了一种全新的绿色激励指标.不同于现有相关研究思路, 本文以中国股票市场中证环保指数为切入点, 通过经典的资本资产定价模型及行业$ \alpha $收益, 在不同激励因子的设置下, 便利、高效地构建日度绿色激励指标GI, 为后续深入研究与预测应用奠定良好基础.

2) 提出了一种全面的混合分析方法并对相关指标的性质特点进行探究. 在指标构建完成后和将其应用于实证预测研究前, 为了进一步理解GI指标的性质特点, 以及与预测目标(即中证环保指数)之间的关联性、趋势性和解释性, 本文提出了一种新的混合分析方法, 其中包括GI指标关于中证环保指数的因果检验分析、趋势分析和简单回归分析等, 能够全面地反映所建指标的优势与特点.

3) 应用绿色激励指标于绿色指数预测模型, 对该指标的预测价值进行了实证研究与讨论. 面对高度非线性和波动性的复杂数据结构, 本文利用与绿色指数相关的特征变量以及GI指标建立基于机器学习方法的指数预测模型, 并通过控制变量法进行实证分析. 整体而言, 实验结果能够从一定程度上有效支持GI指标的预测价值与参考意义.

全文结构安排如下: 第二部分介绍绿色激励指标构建方法以及相关混合分析结果, 包括对于指标的动态因果检验、相关性分析、趋势分析和简单回归分析等; 第三部分为实证研究, 将基于绿色激励指标以及其他解释变量对中证环保指数收盘价进行日度预测, 预测模型以机器学习模型为主, 同时讨论实证结果并对比简单线性模型的优劣性; 第四部分是对全文研究内容的总结与展望.

2 绿色激励指标构建与分析

本部分将具体介绍绿色激励指标的构建方法, 同时对照中国股票市场中环保行业指数, 采用混合分析方法, 对绿色激励指标进行相关动态因果检验、KL信息量与时差相关系数等趋势分析以及回归系数显著性检验等, 从而探究绿色激励指标与环保行业指数之间的关联性, 为后续指数预测工作提供有效参考.

2.1 绿色激励指标的构建

对于中国证券市场中的绿色激励, 现有研究主要是通过在控制市值规模和账面市值比后, 以绿色概念股票收益率与非绿色概念股票收益率的差值所表达, 而后运用Fama-French模型来刻画绿色效应对绿色股票超额收益率的统计显著性(韩立岩等(2017), 许瀚元(2020)). 另一方面, 本文研究和构建绿色激励指标以经典的资本资产定价模型(CAPM)为基础, 计算环保行业板块的$ \alpha $ 收益率以反映当期市场对绿色行业所要求的超额风险补偿, 即当期绿色激励. 其中在运用CAPM模型进行计算时, 本研究选用了代表整体股票市场的沪深300指数(000300)及其收益率$ R_m $、代表环保行业的中证环保指数(000827)2及其收益率$ R_g $和代表无风险收益率的短期(一个月)国债收益率$ R_f $. 事实上, 由于环保行业自身具有短期波动不确定性和周期性, 而政策和社会环境变化对整体行业的积极影响是一个循序渐进的过程, 因此行业的经济和社会效益主要立足于长远的目标. 除了部分资金的短期投机, 更有一部分资金对环保行业保持长期关注, 不会在短期内退出行业投资, 也考虑更长远的超额风险补偿. 那么在考虑当期绿色激励的同时, 我们认为市场对环保行业所产生的绿色激励具有长期性和叠加性, 但这种叠加性随时间的推移不断衰减, 其衰减程度以激励因子$ \tau $的大小来度量. 公式(1)和公式(2)分别给出了当期绿色激励$ \alpha_t $和绿色激励指标$ {\rm GI}_t $的计算方式, 其中在估计中证环保指数的$ \beta_t $系数时, 样本采用最近100个交易日的数据(包括第$ t $日), 而在计算绿色激励指标$ {\rm GI}_t $时, 样本采用最近100个交易日的$ \alpha_t $ (不包括第$ t $日). 图 1展示了2012年6月5日至2021年9月30日期间中证环保指数走势以及对应当期绿色激励$ \alpha_t $的估计值. 从图中可以发现在2020年下半年以来, 随着碳达峰和碳中和战略的提出与推进, 股票市场中环保板块的热度开始逐渐提升, 市场对于环保行业的投资热情显著增加, 并要求更多的超额风险补偿, 当期绿色激励波动加大. 同时对环保行业的长期投资资金必将增加, 环保行业整体的绿色激励也将更为明显.

2本文中关于"中证环保指数"的分析或预测均指代其收盘价数据.

$ \begin{align} &R_{gt} - R_{ft} = \alpha_t + \frac{\mathrm{Cov}(R_g, R_m)}{\mathrm{Var}(R_m)}(R_{mt}-R_{ft}) = \alpha_t +\beta_t(R_{mt}-R_{ft}), \end{align} $

$ \begin{align} &{\rm GI}_t = \sum\limits_{i=t-100}^{t-1}\tau^{t-i}\cdot\alpha_i, \ \ \tau\in(0, 1). \end{align} $

图1

图1   当期绿色激励$\alpha_t$ (左轴)和中证环保指数000827 (右轴)


从公式(2)和图 2可以看出, 绿色激励指标$ {\rm GI}_t $不但反映当期绿色激励$ \alpha_t $的影响, 而且叠加了长期激励效应, 这种叠加效应以激励因子$ \tau $指数衰减的形式所呈现. 本文主要考虑了4种不同的激励因子$ \tau=0.95, \ 0.90, \ 0.85, \ 0.80 $.$ \tau $越大时, $ {\rm GI}_t $所蕴含的长期激励信息越多, 且近期$ \alpha_t $$ {\rm GI}_t $所造成的波动冲击越平缓, 例如$ \tau=0.95 $时, 最近一期的绿色激励$ \alpha_{t-1} $的权重在总权重中占比为$ 0.95/\sum_{i=1}^{100}(0.95)^i\approx0.05 $, 而$ \tau=0.80 $$ \alpha_{t-1} $的权重在总权重中占比约为0.2. 因此激励因子越大表明对应的绿色激励指标越能反映长期市场趋势. 另一方面, $ {\rm GI}_t $是样本每期环保行业指数$ \alpha $收益率的加权平均, 它将收益率序列移动加权平均. 激励因子越大则绿色激励指标越平滑, 越能反映趋势性, 而激励因子越小则绿色激励尺度越接近当期$ \alpha $收益率, 越能反映波动性(图 3). 我们认为对于绿色环保行业来说长期效应的优先级高于短期波动, 因此$ \tau $不宜过小.

图2

图2   激励因子$\tau^t$的指数衰减效应


图3

图3   当期绿色激励$\alpha_t$和不同激励因子下的绿色激励指标${\rm GI}_t$


现有相关研究在对GI指标进行构建时, 首先对不同股票依据市值规模大小和账面市值比大小进行了相应划分, 在控制相应市值和账面市值比后计算绿色概念股票与非绿色概念股票之间收益率的差值. 这种方法能够精细和全面地发现和刻画绿色激励形成机制. 然而值得一提的是, 基于以上方法对于GI的刻画在时间频度上主要以月度为主, 同时由于纳入模型的部分影响因子只有在企业公布财报后方能更新, 因此所含信息具有一定的滞后性, 对日度频率时间序列(如日度指数序列、价格序列等)预测的建模上优势亦有所欠缺. 另一方面, 本文从指标构造的时效性和便捷性出发提取整个环保行业指数所蕴含的绿色激励, 虽然构造方式不同, 但是从另一个角度也能反映绿色激励的内涵, 即绿色行业的超额风险补偿. 本方法一定程度上节省了传统方法所需的计算时间, 而通过公式(1)和公式(2)构建的GI指标能够在日度频率上获取, 有利于进一步构建指数预测模型, 为后续预测和决策奠定基础.

在GI指标构建之后, 为了加深GI对于绿色指数的关联性、趋势性和解释性等性质的理解, 通常单方面的因果分析或趋势判断具有一定的局限性, 因此我们提出并采用一种新的混合分析方法, 旨在全面地探讨与发现所建指标与预测目标之间的相关关系. 在混合分析方法中, 因果分析、趋势分析(即先行/一致/滞后等关系分析)、简单回归分析等均纳入了考量体系. 因果分析中采用动态因果检验方法, 从统计和计量经济学的角度探究GI对于绿色指数的信息溢出效应. 趋势分析中利用6种不同的评估准则, 从指标形态、相关关系和预测能力评分等方面考察GI指标对于绿色指数的趋势性与相关性. 最后通过简单回归分析中系数显著性特征以及回归方法的预测表现初步评价GI指标的优劣性. 下文将具体介绍本研究中运用的混合分析方法.

2.2 绿色激励指标的动态因果检验

因果因素是衡量预测变量优劣的重要标准, 在大数据时代背景下, 机器学习算法有助于识别相关因果变量并将其用于预测(萧政(2021)). 为研究绿色激励指标的因果因素, 本节以基于DCC-GARCH模型(Engle (2002))的动态因果检验方法, 考察本文所构建的绿色激励指标GI对中证环保指数是否具有信息溢出效应. DCC-GARCH模型常应用于研究各市场之间(Lu et al. (2017))的波动率关系或联动关系, 而应用该模型前要求输入的序列具有平稳性. 因此在实际模型输入前, 我们对中证环保指数和$ {\rm GI}^{\tau} $ 进行了平稳性检验以及(对数)差分平稳过程; 在模型输入时, 我们将GI的滞后阶设定为50个交易日, 采用DCC-GARCH $ (1, 1) $模型, 而后构造相应检验统计量(Hong et al. (2009)). 该动态因果检验的原假设为: 绿色激励指标对中证环保指数不具有信息溢出效应, 拒绝原假设则表明从统计理论上看GI对中证环保指数具有信息溢出效应.

图 4对绿色激励指标的动态因果检验结果进行了相应可视化, 其中标记为黑色的点说明在对应时间节点上以95%的置信水平无法拒绝原假设, 其余时间点上表明GI指标对中证环保指数具有信息溢出. 从图中可见, 2012年11月至2021年9月期间, 在不同激励因子的设定下, GI指标在大部分时间内对中证环保指数均具备一定的信息溢出效应, 而且随着激励因子$ \tau $ 的增加, 红色标记时间点有减少的趋势, 即信息溢出效应表现更为丰富. 具体而言, 当$ \tau $在较高水平的GI仍无法对中证环保指数有信息溢出时, 在相对偏小的$ \tau $下构建GI亦无法对指数有信息溢出. 从绿色激励指标的动态因果检验结果来看, 文本提出的GI构造方法具备一定的参考和解释价值.

图4

图4   绿色激励指标${\rm GI}_t^{\tau}$的动态因果检验


2.3 绿色激励指标的趋势分析

本文从构造绿色激励指标出发, 其落脚点旨在服务于绿色环保市场相关指数的预测建模, 也为未来进一步预测绿色股票价格和相关证券的投资组合决策提供一定的信息或解释变量的支持. 在被解释变量选为中证环保指数后, 作为解释变量的绿色激励指标GI的趋势分析既有利于从总体上把握此二者之间的相关关系和先行滞后关系, 也为预测建模中解释变量滞后阶的选取提供理论支撑.

本节将借助6种检验指标之间趋势关系或相关关系的方法入手, 对GI进行趋势分析, 其分别为: 皮尔森相关系数(Pearson)、斯皮尔曼相关系数(Spearman)、Kullback-Leibler散度(KL散度)、Jensen-Shannon散度(JS散度)、最大信息系数(maximal information coefficient, MIC)和预测能力评分(predictive power score, PPS). 以下将简要介绍上述各方法的计算规则和意义内涵:

Pearson相关系数和Spearman相关系数. Pearson常用于度量两个连续变量之间的线性关系, 而Spearman则强调度量两个连续变量之间的单调关系. 设$ X, Y $分别为两个连续变量, 其分别的观测值为$ \{x_i\}_{i=1}^n, \{y_i\}_{i=1}^n $, $ \{d_i\}_{i=1}^n $ 表示变量$ X, Y $在分别排序后成对变量的位置差, 则Pearson与Spearman可由公式(3)和由公式(4)得到:

$ \begin{align} &\rho_p = \frac{\sum\nolimits_{i=1}^n(x_i-\bar{x})(y_i-\bar{y})}{\sqrt{\sum\nolimits_{i=1}^n(x_i-\bar{x})^2}\sqrt{\sum\nolimits_{i=1}^n(y_i-\bar{y})^2}}\in[-1, 1], \end{align} $

$ \begin{align} &\rho_s = 1-\frac{6\sum\nolimits_{i=1}^nd_i^2}{n(n^2-1)}\in[-1, 1]. \end{align} $

$ \rho_p $$ \rho_s $越接近$ 1(-1) $说明$ X, Y $之间的正(负)相关性越强, 越接近0说明相关性越弱. 然而Pearson和Spearman只能片面地捕捉变量之间的线性关系, 对于变量之间存在的非线性关系无法很好地刻画, 因此需要借助其他相关性指标进行判断.

KL散度和JS散度. KL散度又称为信息散度或相对熵, 它能够度量两个概率分布$ P, Q $之间的差别, 记为$ D_{\rm {KL}}(P\parallel Q) $. 由于KL散度不具有对称性, 即$ D_{\rm {KL}}(P\parallel Q)\neq D_{\rm {KL}}(Q\parallel P) $, KL散度的变体形式JS散度解决了非对称的问题, 同样能够度量两个概率分布的相似度, 记为$ D_{\rm {JS}}(P\parallel Q) $. 具体计算方式由公式(5)和由公式(6)给出:

$ \begin{align} &D_{\rm {KL}}(P\parallel Q) = \sum\limits_{x\in X}P(x)\log\frac{P(x)}{Q(x)}, \end{align} $

$ \begin{align} &D_{\rm {JS}}(P\parallel Q) = \frac{1}{2}D_{\rm {KL}}\left(P\parallel \frac{P+Q}{2}\right)+\frac{1}{2}D_{\rm {KL}}\left(Q\parallel \frac{P+Q}{2}\right). \end{align} $

KL散度具有非负性, 而JS散度取值在0到1之间, 但无论是KL散度还是JS散度, 其取值越小表明两个分布越接近.

最大信息系数MIC. MIC的概念最初发表于Science期刊(Reshef et al. (2011)), 常用于衡量两个变量$ X, Y $之间的关联程度、线性或非线性关系的强度, 具有高鲁棒性和低计算复杂性等优点, 目前它也是机器学习领域中热门的特征选择方法之一(Kinney et al. (2014)). 在MIC的计算中利用了互信息(mutual information, MI)的概念, 记变量$ X, Y $之间的互信息和MIC分别为$ I[X; Y] $$ \mathrm{MIC}[X; Y] $, 则有:

$ \begin{align} &I[X;Y] = \int p(x, y)\log_2\frac{p(x, y)}{p(x)p(y)}\mathrm{d}x{\rm d}y\approx \sum\limits_{X, Y}P(X, Y)\log_2\frac{P(X, Y)}{P(X)P(Y)}, \end{align} $

$ \begin{align} &\mathrm{MIC}[X;Y] = \underset{\mid X\mid\mid Y\mid<B}{\max}\frac{I[X;Y]}{\log_2\min(|X|, |Y|)}, \end{align} $

其中$ P(X, Y) $为变量的联合概率, 但一般来说计算相对复杂, 因此MIC方法先对这两个随机变量的样本点离散化在二维空间中, 对空间不断地用小方格子去分割, 然后计算每个方格子里面散点的落入概率, 以此估计$ X $$ Y $的联合概率密度分布. 公式(8) 中$ |X| $$ |Y| $分别表示在$ X $$ Y $方向上划分格子的个数, $ B $为超参数, 常取数据总量的0.6或0.55次方. MIC取值在0到1之间, 越大表明两个变量之间的关联度越大. 值得一提的是MIC对于处理大数据集的优势更为明显, 对于小样本数据的估计可能存在一定的不足.

预测能力评分PPS. PPS算法的提出一是为了解决部分相关性度量方法无法检测到非线性关系的问题(例如Pearson、Spearman等), 二是引入相关性的非对称性质, 即$ X $$ Y $的相关性可能并不等于$ Y $$ X $的相关性(以预测解释力为例, $ X $$ Y $的相关解释力和$ Y $$ X $的解释力通常是不同的). PPS算法即是计算解释变量$ X $对被解释变量$ Y $的预测能力得分, 其中$ Y $是目标变量, 而$ X $ 被视为唯一特征. PPS算法通过构建一个交叉验证的决策树模型, 并得到关于$ Y $的预测值及其对应的评估度量, 例如当面对回归任务时, 我们可以使用平均绝对误差(MAE). PPS的计算可通过基于Python的ppscore程序包实现, 其中PPS$ > $0表示在加入变量$ X $后, 决策树模型在预测$ Y $的能力上可以以一定概率优于基准比较模型, 概率的大小即为PPS的取值大小.

本文在研究解释变量绿色激励指标GI与被解释变量中证环保指数的相关关系时, 不但考察了这两个变量同期的关系, 而且计算了GI的先行或滞后值同中证环保指数的相关性和趋势性. 具体而言, 本研究中使用的总数据样本为2012年11月1日至2021年9月30日的日度数据, 共计2170个交易日, 包括GI指标和中证环保指数. 按照$ 8:2 $的训练集和测试集样本划分比例, 我们将2012年11月1日– 2019年12月31日的样本划分为训练样本, 其余为测试样本. 为了在趋势分析和相关性分析中不使用测试集信息, 我们用训练样本进行相应测算, 同时由于我们需要预留出一定长度的先行或滞后期(这里选取250个交易日), 在实际测算过程中基准样本期选为2014年1月2日– 2019年12月31日. 设$ 0\leq t\leq250 $为先行或滞后期数, $ T_s $为基准样本期起始日$ (2014.01.02) $, $ T_e $为基准样本期结束日$ (2019.12.31) $, 基准样本期总长度为$ L $, $ M(S_1, S_2): \mathbb{R}^{L\times1}\times\mathbb{R}^{L\times1}\rightarrow \mathbb{R}^1 $为时间序列$ S_1, S_2 $的评价函数, 如Pearson, Spearman, KL, JS, MIC, PPS等, 则我们能够计算解释变量$ X $和被解释变量$ Y $之间的相关性特征:

$ \begin{align} & X\mbox{先行于}\quad Y: M\left(X[T_s-t:T_e-t], Y[T_s:T_e]\right); \end{align} $

$ \begin{align} & X\mbox{同期于}\quad Y: M\left(X[T_s:T_e], Y[T_s:T_e]\right); \end{align} $

$ \begin{align} & X\mbox{滞后于}\quad Y: M\left(X[T_s:T_e], Y[T_s-t:T_e-t]\right). \end{align} $

图 5$ \sim $图 7分别展示了相关系数、信息熵、MIC和PPS的计算结果, 其中横坐标为负数表示绿色激励指标先行中证环保指数时对应先行期的评价值, 横坐标为正表示绿色激励指标滞后中证环保指数时对应滞后期的评价值. 从图中可以有趣地发现, 激励因子$ \tau $ 越高, 对应的绿色激励指标GI与中证环保指数的相关性和先行性越明显, 同时解释力也越强, 不过这也与GI本身的形态有关. 对于中证环保指数来说, 同期或滞后的GI的分布相似性(KL散度与JS散度)、非线性相关性(MIC)和解释性(PPS)都弱于先行的GI, 虽然在线性相关性上滞后的相关系数绝对值略高于先行, 但是随着先行期从0增加至100期, 相关系数呈现先增后减的趋势, 说明GI对于中证环保的走势呈现出一定的先行特征. 以$ {\rm GI}_t^{0.95} $为例, 根据图 5图 6大致可判断先行期在50个交易日左右, 而根据图 7判断MIC的最高点约先行100个交易日, 但在先行50个交易日时也依然保持相对较高的水平.

图5

图5   ${\rm GI}_t$关于中证环保的Pearson和Spearman相关性


图6

图6   ${\rm GI}_t$关于中证环保的KL和JS散度


图7

图7   ${\rm GI}_t$关于中证环保的MIC和PPS值


2.4 绿色激励指标的简单回归分析

众所周知, 股指或股票价格数据具有高复杂性和高波动性等特点, 而解释变量如盘面数据、技术指标、文本情感数据等与指数或价格之间的相关关系往往是非线性的, 因此以传统计量方法进行建模通常无法达到理想的预测效果. 本节目的主要研究绿色激励指标若作为回归因子, 其回归系数是否对于预测中证环保指数收盘价具有一定的显著性. 我们将中证环保指数收盘价($ {\rm close}_t $)作为被解释变量, 解释变量我们选择指数收盘价的一阶滞后($ {\rm close}_{t-1} $)以及绿色激励指标($ {\rm GI}_{t-{\rm lag}} $, 其中$ \rm lag $ 从上节的趋势分析中选定), 最后通过多元线性回归(MLR)考察: 1) 绿色激励指标回归系数是否显著; 2) 简单回归模型在加入绿色激励指标后是否能比在不加入时预测效果有一定提升.

在绿色激励指标滞后阶的选择上, 我们根据相关系数的最大值、散度的最小值和MIC的最大值选择相应的滞后阶数, 并同时考虑当期GI指标(注意到根据公式(2), $ {\rm GI}_t $并没有使用当期$ \alpha_t $的信息). 当$ \tau=0.95 $时, 我们选取$ {\rm GI}_t $, $ {\rm GI}_{t-32} $, $ {\rm GI}_{t-52} $, $ {\rm GI}_{t-100} $; 当$ \tau=0.90 $时, 选取$ {\rm GI}_t $, $ {\rm GI}_{t-44} $, $ {\rm GI}_{t-54} $, $ {\rm GI}_{t-104} $; 当$ \tau=0.85 $时, 选取$ {\rm GI}_t $, $ {\rm GI}_{t-45} $, $ {\rm GI}_{t-55} $, $ {\rm GI}_{t-159} $; 当$ \tau=0.80 $时, 选取$ {\rm GI}_t $, $ {\rm GI}_{t-45} $, $ {\rm GI}_{t-55} $, $ {\rm GI}_{t-159} $. 在线性回归过程中, 回归系数不显著的解释变量将被移除.

表 1展示了在不同激励因子下4组多元线性回归结果. 首先, 绿色激励指标的当期或滞后期对环保指数收盘价的回归具有一定的系数显著性; 其次, 对比加入GI指标和不考虑GI指标下的线性回归预测结果, 从均方根误差(RMSE)、平均绝对误差(MAE)、平均绝对百分比误差(MAPE)和方向准确度(Dstat)来度量预测表现, 可见加入GI指标有助于提升简单预测模型的预测精度和方向准确度; 最后, 虽然并非我们选取的所有GI滞后阶都被纳入线性回归模型中, 但是这并不能说明GI指标的滞后阶对于预测模型是失效的. 由于指数的高度非线性特征, 仅用线性模型刻画和预测既片面也不准确. 事实上, 我们将在第4部分进一步利用机器学习模型进行指数预测, 除了考虑指数自身滞后和GI指标外, 加入了更多的盘面数据和技术指标等, 以学习和获取特征中更多的知识信息. 在下一部分中我们也将指出线性模型在预测指数所表现出的缺点, 包括呈现明显的趋势跟随特性以及无法良好地捕获波动性等, 一方面说明智能方法预测的必要性, 另一方面也希望继续探究GI指标对于机器学习的预测是否同样有效.

表1   多元线性回归结果

组别对照类型解释变量(系数)RMSEMAEMAPE(%)Dstat(%)
第一组无GI变量${\rm close}_{t-1}$(0.99$^{***}$)38.2827.951.5245.05
含GI变量${\rm close}_{t-1}$(0.99$^{***}$)38.3127.861.5155.42
($\tau=0.95$)${\rm GI}_t$(86.12$^{***}$)
${\rm GI}_{t-100}$($-$63.63$^{**}$)
第二组无GI变量${\rm close}_{t-1}$(0.99$^{***}$)38.4128.001.5152.59
$c$(6.12$^{*}$)
含GI变量${\rm close}_{t-1}$(0.99$^{***}$)38.1227.711.5053.54
($\tau=0.90$)${\rm GI}_t$(99.84$^{**}$)
第三组无GI变量${\rm close}_{t-1}$(0.99$^{***}$)38.4028.001.5151.65
$c$(6.23$^{*}$)
含GI变量${\rm close}_{t-1}$(0.99$^{***}$)38.1527.741.5055.19
($\tau=0.85$)${\rm GI}_t$(151.87$^{**}$)
第四组无GI变量${\rm close}_{t-1}$(0.99$^{***}$)38.4028.001.5151.65
$c$(6.23$^{*}$)
含GI变量${\rm close}_{t-1}$(0.99$^{***}$)38.2927.881.5150.00
($\tau=0.80$)${\rm GI}_{t-45}$(181.18$^{**}$)

注: (1) $*, {**}, {***}$分别表示回归系数在10%, 5%和1%的置信水平下显著的显著性水平上显著. (2)由于不同$\tau$下选用的GI变量最大滞后阶不同, 因此不同组别下训练集长度相应调整, 导致无GI变量组的回归系数略有差异. 测试区间均为2020年1月2日– 2021年9月30日. (3) $c$表示常数项.

新窗口打开| 下载CSV


3 实证研究与讨论

虽然传统计量方法具有更加科学合理的模型解释性, 然而机器学习方法相较于计量模型在学习和预测高维、高波动的复杂数据时优势更为突出. 本部分将主要利用三种热门的机器学习方法(SVR, LightGBM, XGBoost)对中证环保指数收盘价进行预测. 与2.4节中多元线性回归不同的是, 在解释变量的选择上除了一阶滞后的收盘价和GI指标外, 更多的盘面数据、技术指标等也将作为特征输入预测模型. 该部分旨在探究GI指标对于机器学习方法是否仍然具备一定的预测解释力, 即是否能够提升模型预测表现. 其次我们从预测结果中发现, 从指数预测评价指标而言, 简单线性模型略优于机器学习模型, 然而从波动性刻画而言, 机器学习方法更胜一筹, 因此本文也将对这种差异性进行探讨.

3.1 数据准备

在特征变量的选择上, 对于每一组$ \tau $下绿色激励指标及其滞后阶的选择与2.4节保持一致(即每一组$ \tau $下4个$ {\rm GI}_{t-{\rm lag}} $均保留). 传统的计量方法需要考虑变量的多重共线性等问题, 而机器学习方法能够较好地应对该问题, 因此我们纳入了更多的盘面数据和技术指标: 开盘价、最高价、最低价、收盘价、成交量、振幅、涨跌幅、换手率、顺势指标CCI、相对强弱指标RSI、指数平滑移动平均MACD、加权市净率和算术平均滚动市盈率等, 数据来源为Wind数据库(https://www.wind.com.cn/). 在特征输入时, 除GI指标外, 其余变量均采用一阶滞后数据.

在预测方法上, 对于每一组$ \tau $, 我们考察机器学习方法在添加或不添加GI指标后预测精度是否具有差异. 实验中测试集时长为2020年1月2日– 2021年9月30日, 共计425个交易日. 本文采用滚动预测的方式对测试集样本进行预测, 即训练窗宽为前250个交易日, 对后1个交易日的样本进行预测, 因此共计训练或滚动425次. 由于训练次数较多, 对机器学习模型的训练学习效率有较高的要求, 而神经网络模型在超参数优化和训练方面的时间复杂度较高. 经过综合考虑, 本文选用以支持向量机和梯度提升决策树为基础的预测模型进行实证分析.

3.2 模型介绍

我们将使用多种方法对股票指数进行预测, 本节将简要介绍我们所用的模型与算法, 分别为支持向量机(support vector machine, SVM) (Cortes et al. (1995))和梯度提升决策树(gradient boost decision tree, GBDT) (Friedman (2001)).

支持向量机. 支持向量机是针对二分类问题而提出的. 对于线性可分数据, 支持向量机会寻找一个超平面将两类数据分离, 并使得分离间隔最大; 对于线性不可分的数据, 则可用核技巧将原始数据映射到新空间, 再在新空间中使用线性方法得到模型. 但是支持向量机只适用于二分类问题, 故本文使用它的一个应用分支——支持向量回归(support vector regression). 支持向量回归是一个回归模型, 其目的不再是寻找超平面尽可能分离两类数据, 而是使得数据尽量拟合到超平面上. 核技巧在支持向量回归中也同样适用.

梯度提升决策树. 梯度提升决策树是基于Boosting的一种集成学习方法, 由若干决策树串联构成——训练时, 每棵树学习在它之前的所有树的预测结果之和与真实值的残差. 梯度提升决策树具有很强的学习能力, 但如果不经过额外的正则化处理, 容易发生过拟合. 此外, 由于各决策树之间存在依赖关系, 训练过程难以并行, 计算复杂度较高. 因此本文将使用梯度提升决策树的两个改进方法XGBoost (Chen et al. (2016))和LightGBM (Ke et al. (2017)). XGBoost在梯度提升决策树的基础上做了大量的优化, 是梯度提升决策树算法的工程实现, 使用时更加高效灵活. 它在目标函数中显式地加入正则项防止过拟合, 并将损失函数进行二阶泰勒展开, 提高了计算的精确度. LightGBM也是梯度提升决策树框架下的一种优化改进. 它采用直方图算法将连续特征进行分段化处理, 从而降低了时间复杂度和空间复杂度. 同时, LightGBM采用leaf-wise策略生长树, 相较于多数决策树生长树所用的level-wise策略可以减少更多的损失. 并且LightGBM也提供了并行学习优化算法. 值得一提的是, XGBoost和LightGBM的性能同样也依赖于超参数的设定, 如何调参是机器学习领域一个重要问题, 但是本文对此并不展开研究, 仅凭经验设定模型的超参数, 而未进行优化.

3.3 预测结果与讨论

表 2展示以均方根误差(RMSE), 绝对平均误差(MAE), 绝对平均百分比误差(MAPE)和方向统计量(Dstat)为评价指标, 分别使用SVR, XGBoost和LightGBM在测试集上预测效果.

表2   机器学习模型结果

模型$^{(1)}$RMSEMAEMAPE(%)Dstat(%)
SVR$^{(2)}$39.3928.531.5551.42
SVR (0.95)39.4228.321.5353.54
SVR (0.90)39.6628.511.5451.42
SVR (0.85)39.6328.471.5451.42
SVR (0.80)39.3428.411.5453.30
XGBoost47.3935.341.9050.71
XGBoost (0.95)45.2933.401.8051.18
XGBoost (0.90)47.8834.971.8852.59
XGBoost (0.85)46.9934.861.8852.12
XGBoost (0.80)54.7439.052.0851.65
LightGBM56.2640.422.1549.76
LightGBM (0.95)53.5238.512.0552.59
LightGBM (0.90)56.0339.582.1051.89
LightGBM (0.85)55.6739.922.1351.65
LightGBM (0.80)63.3243.872.3150.24

注: (1)模型名称后括号中的数字表示此模型在预测时使用该激励因子$\tau$构造的GI指标. (2) SVR模型所用的核函数均为线性核.

新窗口打开| 下载CSV


表 2中我们发现, 使用XGBoost和LightGBM时, 加入绿色激励指标可以改善预测结果, 不同的激励因子对预测精度的改进程度也有所不同, 在模型中加入较大激励因子$ \tau $构建的GI指标后的预测效果整体上优于使用较小激励因子时的效果. 在使用SVR时, 从整体上看加入不同激励因子的GI指标均能有效提升模型预测性能, 而$ \tau=0.95 $时GI对于提升预测精度贡献最大. 从第二章中混合分析结果来看, 激励因子越大的GI无论从与中证环保指数的动态因果关系上, 还是从相应的趋势关系、相关关系以及预测能力评价上, 均优于以较小激励因子所构建的GI指标, 这意味着机器学习方法更能从较高激励因子下的GI中捕捉和刻画解释关系, 学习到更多有效信息, 从而达到更好的预测效果. 另外, 激励因子越高的GI表明该指标蕴含的长期激励效应越多, 越能反映市场的长期趋势. 因此, 该实验结果也暗示着绿色指数预测模型能力的提升也将得益于深刻把握历史时期中市场对绿色板块的长期投资行为与超额回报要求.

上述结果从整体上支持了本文所构建的绿色激励指标GI在预测环保指数上的可行性和实用性. 另一方面, 综合表 1表 2的各模型预测结果可以发现, 多元线性回归模型在RMSE, MAE和MAPE上均小于其余三种机器学习模型, 这或许与一般直觉产生了分歧. 我们认为这种分歧产生的原因可能在:

1) 从模型预测机理来看, 线性回归模型倾向于预测趋势, 而机器学习模型倾向于预测值(Adebiyi et al. (2014)). 这种特性导致线性回归模型具有比较强的趋势跟随性, 即模型对第$ t+1 $期的预测通常在第$ t $期的真实值附近波动, 虽然这种预测相较于其他智能方法可能会带来更小的偏误, 但是它显得过于"保守", 对未来的估计无法提供有效的信息. 我们将所有模型对中证环保指数收盘价的预测值进行了相应收益率的转换: 设$ y_t $是第$ t $期的真实值, $ \hat{y}_t $是对应的预测值, 则第$ t+1 $期真实的收益率应为$ (y_{t+1}-y_t)/y_t $, 而利用模型预测值转为预测的收益率是$ (\hat{y}_{t+1}-y_t)/y_t $. 图 8展示了模型预测值在换成收益率后的相应预测表现, 它印证了MLR模型在刻画和预测波动性上的失效, 即使MLR在环保指数上的预测精度是相对最高的. 其次, SVR在对波动性的捕捉上弱于基于梯度提升决策树的方法. 本文的实验结果一方面表明机器学习方法由于更侧重预测"值的大小", 一定程度上能摆脱趋势跟随的困境, 有利于刻画未来的波动性特征, 能为未来投资决策提供更有效的信息; 另一方面这种现象或许预示着"追求精度"和"刻画波动"往往难以兼得, 需要一定的权衡取舍或对模型精益求精.

图8

图8   模型预测值在转为收益率后表现效果


2) 正如前文提到的, 机器学习方法的性能往往依赖于超参数的设定, 考虑到我们是采用滚动窗口的方式预测的, 训练数据的不同导致每一期的预测时所用的模型也不同, 如果对每一期的模型进行调参, 则需要大量的时间成本. 若不计时间成本对超参数进行优化, 机器学习方法在预测精度上有进一步提高的潜力.

另一方面, 本文所构建的GI指标对比传统绿色激励指标具有时效性、便捷性和较强的预测解释性等优点, 更适用于作为预测模型的解释变量. 现有相关文献主要通过Fama-French因子模型及其变体形式, 对传统绿色激励指标进行回归分析, 对于认识我国证券市场中绿色激励效应的存在性与显著性具有重要意义. 然而, 由于传统的绿色激励指标具有较高的构造复杂度以及较低的时间频度(以月度为主)等局限性, 在指标构造过程中尤其需要获取财报数据, 例如账面市值比、息税前利润、投入产出比率等, 进而导致传统指标具有一定的滞后性(财报数据通常滞后数日甚至数月才发布)和弱解释性(例如5、6月的指标构造只能采用一季报的数据, 不能反映当前水平). 从预测的角度而言, 传统GI指标的时滞性和低频特征等缺点为高频预测来带一定的困难和挑战, 这也是本文提出一种新的GI指标构建方法的主要动机来源.

3.4 不同激励因子下GI预测能力的适应性研究

本节旨在研究与讨论在不同激励因子设定下构建的GI指标适用环境的差异性. 具体而言, 不同激励因子$ \tau $下的GI呈现出明显的特征差异性, $ \tau $越大表明GI蕴含了更长期的激励信息$ \alpha $, 更反映趋势性, 而$ \tau $越小说明GI尺度特征越接近短期$ \alpha $, 因此反映的是波动性. 由于证券市场在牛熊周期的不同阶段所表现的波动特征存在显著差异, 不同激励因子下构建的GI指标对不同阶段绿色指数的预测能力会产生适用性差异. 为了研究相关特点, 本文根据市场表现和绿色指数波动的历史特征, 对绿色指数的全样本序列(2012年11月1日– 2021年9月30日)进行了子样本的划分采样, 并以它们作为预测目标探究不同激励因子的适应性差异.

图 9所示, 我们对绿色指数进行了样本采样, 分别包括两条牛市样本序列(2014年6月3日– 2015年6月12日, 2020年9月30日– 2021年9月30日), 均呈现明显上升趋势, 其区间累计收益率分别为176.75%和80.83%; 两条熊市样本序列(2015年6月15日– 2016年6月15日, 2018年1月2日– 2019年1月2日), 均呈现显著下跌态势, 其区间累计收益率分别为$ - $46.90%和$ - $40.12%; 以及两条震荡市样本序列(2017年1月3日– 2017年12月29日, 2019年6月3日– 2020年6月3日), 表现出明显的震荡波动特征, 其区间累计收益率分别为$ -1.58\% $和7.73%.

图9

图9   绿色指数的样本采样及其走势表现


与3.1和3.2节类似, 我们将每一段时期的样本进一步划分为训练集(80%)和测试集(20%), 采用滚动预测的方式, 对各个模型进行了评估, 结果如表 3所示. 从表中结果可知, 在三种市场阶段的六条序列样本上, 对比无GI变量加入的预测模型, 在预测模型的变量集合中考虑GI指标将有助于提升模型的预测表现, 该结果与3.3节中相关结论具有一致性. 从不同的市场阶段来看, 对于牛市和熊市阶段, 激励因子较大的GI指标的预测解释性优于较小$ \tau $构建的GI, 反映了趋势性较强的GI更能捕捉牛市或熊市中的绿色指数信息. 而对于震荡市阶段, 激励因子更小的GI指标取得更为优异的表现, 说明波动性较强的GI在震荡市中发挥出更出色的解释能力与预测能力.

表3   不同$\tau$下的GI指标在市场不同阶段的预测表现

牛市阶段
样本1样本2
模型$^{(1)}$RMSEMAEMAPE$^{(2)}$Dstat$^{(2)}$RMSEMAEMAPEDstat
$\tau=0.95^{(3)}$SVR61.01$^{(4)}$45.881.8170.0059.1844.951.6756.25
XGB72.2660.062.3256.0075.2256.392.0865.50
LGB73.2455.492.1750.0081.9268.572.5352.08
$\tau=0.90$SVR61.6346.151.8270.0059.1244.801.6656.25
XGB70.1858.572.2652.0081.1163.052.3356.25
LGB70.3354.922.1062.0087.8870.522.6158.33
$\tau=0.85$SVR61.5846.141.8270.0059.4044.921.6656.25
XGB73.9661.592.3854.0081.1763.852.3547.92
LGB70.2059.712.3150.0095.0774.262.7554.17
$\tau=0.80$SVR61.6246.301.8370.0059.4445.041.6756.25
XGB70.5559.302.2954.0081.2664.422.3754.17
LGB74.5961.902.3948.0097.5174.782.7658.33
无GI变量SVR61.6646.261.8270.0060.3746.381.7260.42
XGB80.0864.292.4556.0076.8057.972.1358.33
LGB80.4164.502.4560.0086.8872.662.6856.25
熊市阶段
样本1样本2
模型RMSEMAEMAPEDstatRMSEMAEMAPEDstat
$\tau=0.95$SVR28.2619.411.1752.0818.1214.001.2852.08
XGB38.8129.301.7866.6724.1119.271.7554.17
LGB45.3034.732.0858.3333.8025.422.3045.83
$\tau=0.90$SVR28.3319.391.1752.0818.0113.751.2560.42
XGB42.4632.401.9654.1730.6322.032.0045.83
LGB48.9038.782.3252.0838.2728.612.6160.42
$\tau=0.85$SVR28.3419.401.1752.0817.8513.651.2460.42
XGB40.7831.651.9258.8326.5420.431.8552.08
LGB46.7138.402.3250.0034.9727.892.5556.25
$\tau=0.80$SVR28.3719.431.1752.0816.7612.871.1750.00
XGB46.8935.932.1760.4130.4722.682.0647.92
LGB46.8938.292.3158.3348.1835.683.2756.25
无GI变量SVR28.3819.461.1852.0816.7313.111.1952.08
XGB48.7536.322.1860.4227.9121.601.9735.42
LGB50.3741.442.5056.2545.3438.533.5052.08
震荡市阶段
样本1样本2
模型RMSEMAEMAPEDstatRMSEMAEMAPEDstat
$\tau=0.95$SVR20.4915.980.8950.0019.9214.931.2245.83
XGB23.0118.501.0350.0023.5119.101.5552.08
LGB24.6317.991.0054.1726.5720.641.6760.42
$\tau=0.90$SVR20.4715.930.8950.0019.9814.931.2250.00
XGB22.4017.981.0052.0823.1518.281.4950.00
LGB22.9717.390.9758.3325.7620.381.6658.33
$\tau=0.85$SVR20.4815.950.8947.9219.9614.921.2250.00
XGB22.4517.220.9658.3323.6617.821.4550.00
LGB24.4019.181.0760.4227.0320.431.6556.25
$\tau=0.80$SVR20.4815.960.8947.9219.9614.911.2150.00
XGB22.1118.051.0047.9223.1418.351.4952.08
LGB22.7417.130.9564.5825.7620.631.6764.58
无GI变量SVR20.5015.960.8947.9219.9814.931.2250.00
XGB24.8621.471.1945.8327.2920.811.6952.08
LGB28.9623.071.2847.9130.7623.831.9352.08

注: (1) SVR均采用线性核, XGB和LGB分别指3.2节中的XGBoost和LightGBM模型. (2) MAPE和Dstat的结果均为百分数(%). $\tau=0.95$表示在预测模型中加入了以该激励因子所构造的GI变量, 下同. (3) 数据加粗表示在同一个预测模型中加入不同的预测变量后表现最好的结果.

新窗口打开| 下载CSV


本实验论证了在不同激励因子$ \tau $下构建的GI指标在市场周期的不同阶段具备不同的预测解释能力, 具有适用环境的差异性. 在牛市或熊市阶段, 市场趋势明显, 因此趋势性更强的GI发挥更大的预测能力, 则在构建GI时可以考虑采用较高的绿色激励因子. 另一方面, 在震荡市阶段, 市场不具备明显的上升或下降趋势, 那么波动性强的GI对于提升模型的预测表现将更显著, 因此可以用较低的绿色激励因子构造GI以用于绿色指数预测.

此外, 在$ \tau $更高的GI指标构造过程中, GI包含更多的历史激励信息, 即更蕴含市场对绿色板块长线的投资情绪. 相反, 激励因子更低的GI更反映绿色市场短期波动和短线投机情绪. 在市场的牛熊周期轮动中, 市场波动受情绪和资金面的深远影响. 通常而言, 短线资金和情绪往往是牛市的"助手"或熊市的"帮凶", 而长线资金与长期投资情绪的不断累积或悄然退场却是牛市或熊市的形成主力. 在震荡阶段, 市场由投机情绪和短线资金主导, 从而呈现波动趋势. 从以上市场的角度对GI指标关于市场不同阶段中适应性差异的相关解释也表明: 牛熊阶段的绿色指数预测采用包含长期激励信息的GI将更有效, 在震荡阶段的指数预测可以更关注包含短期激励的GI.

4 总结与展望

从现有文献中可知, 中国证券市场上的绿色概念股存在显著的超额收益, 其源于绿色股承担特有风险时带来的风险补偿, 即绿色激励. 不同于传统的绿色激励指标构造方法, 为了探究绿色激励并将其应用于日度绿色股指预测, 本文从指标构造的便捷和实用性出发, 参考经典的资本资产定价模型, 构建了四种不同激励因子下的绿色激励指标. 同时, 为了进一步理解所建指标的性质特征以及其与预测目标之间的关系, 我们提出了一种新的混合分析方法, 包括因果分析、趋势分析以及简单回归分析等. 其中, 本研究使用2012年11月到2021年9月的中证环保指数检验绿色激励指标与环保指数之间的动态因果关系, 结果显示绿色激励指标对于中证环保指数在大部分时间中都存在显著的信息溢出. 为了构建日度预测模型, 我们利用训练集信息对绿色激励指标和中证环保指数进行了相应的相关性分析和趋势分析, 既表明了GI指标关于中证环保存在一定的先行特征, 又为预测模型的解释变量GI滞后阶的判定提供一定依据. 简单的多元线性回归结果也证实了GI指标存在线性显著性, 同时能够提升回归模型的预测表现. 考虑到线性模型的预测缺陷, 本文考虑了更多的解释变量, 包括盘面数据和技术指标等, 并利用机器学习方法如XGBoost, LightGBM和SVR等对中证环保指数收盘价进行预测, 其中既考察了加入GI与否是否造成预测表现差异, 又对比了智能模型和简单线性方法的预测能力区别. 实证研究结果显示, GI指标在机器学习模型中仍然能够提供额外的信息以提升模型的预测精度, 尤其是在激励因子较高水平下构造的GI. 对比线性模型, 虽然智能方法在传统的评价准则下或许显得不及简单方法, 但是从收益率的角度来看, 由于简单线性回归存在较强的趋势跟随, 无法良好刻画和预测未来波动特征, 从侧面突出了智能方法的优势. 总而言之, 本文提出的绿色激励指标构造方法对于高频的日度绿色指数预测能够提供有效信息, 在不同激励因子下构造的GI指标具备不同市场阶段的适用性, 并在一定程度上提升预测精度.

本文的研究方法主要体现在绿色指标的构造、分析和预测应用上. 从指标构造方面而言, 得益于方法的实用性和便捷性, 该方法也适用于单只绿色股票乃至其他投资板块中激励指标的构建. 从指标分析方法而言, 该混合分析方法有助于提前对各类预测解释变量进行特征分析与特征筛选, 并检验其可解释性与可预测性. 在预测领域, 本方法能够考察和分析例如宏观经济预测模型中加入的合成指数、价格或波动率预测模型中考虑的文本情感指数等新型指标与预测目标之间的相关关系, 进而拥有广阔的应用空间. 此外, 本文所提出的绿色激励指标不仅能够应用于预测领域, 在决策领域中例如设计绿色股票的投资组合策略时也可考虑绿色激励的影响. 因此在未来研究中, 我们将于解释变量中纳入更多的信息, 例如搜索指数和文本情感数据等; 在机器学习模型构建上将持续优化模型结构并调整超参数, 以进一步提升指数预测精度; 在预测目标上, 下一步将探究绿色激励对波动率或收益率预测的有效性和可行性; 在后期决策中, 特别在基于机器学习的绿色股票的投资组合方法中, 组合权重的优化将纳入绿色激励和模型预测值等.

参考文献

韩国文, 樊呈恒,

企业碳排放与股票收益——绿色激励还是碳风险溢价

[J]. 金融经济学研究, 2021, 36 (4): 78- 93.

URL     [本文引用: 1]

Han G W , Fan C H ,

Corporate Carbon Emissions and Stock Returns: Green Incentive or Carbon Risk Premium?

[J]. Financial Economics Research, 2021, 36 (4): 78- 93.

URL     [本文引用: 1]

韩立岩, 蔡立新, 尹力博,

中国证券市场的绿色激励: 一个四因素模型

[J]. 金融研究, 2017, 439 (1): 145- 161.

URL     [本文引用: 2]

Han L Y , Cai L X , Yin L B ,

Green Incentive in Chinese Securities Market: Four Factor Model

[J]. Journal of Financial Research, 2017, 439 (1): 145- 161.

URL     [本文引用: 2]

洪永淼, 汪寿阳,

大数据, 机器学习与统计学: 挑战与机遇

[J]. 计量经济学报, 2021, 1 (1): 17- 35.

URL     [本文引用: 1]

Hong Y M , Wang S Y ,

Big Data, Machine Learning and Statistics: Challenges and Opportunities

[J]. China Journal of Econometrics, 2021, 1 (1): 17- 35.

URL     [本文引用: 1]

李雨琪, (2021). 助力"双碳"目标 国际金融"绿色枢纽"发展空间广阔[N]. 上海证券报, 2021-12-27(6).

[本文引用: 1]

Li Y Q, (2021). Facilitating the 'Dual Carbon' Goal, the International Financial 'Green Hub' Has Broad Space for Development[N]. Shanghai Securities News, 2021-12-27(6).

[本文引用: 1]

刘勇, 白小滢,

中国股票市场的绿色激励: 可持续发展视角

[J]. 经济管理, 2020, 42 (1): 155- 173.

DOI      [本文引用: 1]

Liu Y , Bai X Y ,

Does Chinese Stock Market Reward for Going Green? Based on Enterprise Sustainable Development

[J]. Business and Management Journal, 2020, 42 (1): 155- 173.

DOI      [本文引用: 1]

马超群, 杨竟澜, 任奕帅, 谢志斌,

基于H-LSTM模型的沪深300指数价格预测研究

[J]. 计量经济学报, 2021, 1 (2): 437- 451.

URL     [本文引用: 1]

Ma C Q , Yang J L , Ren Y S , Xie Z B ,

The Prediction of Shanghai and Shenzhen 300 Index Based on H-LSTM Model

[J]. China Journal of Econometrics, 2021, 1 (2): 437- 451.

URL     [本文引用: 1]

申学峰,

A股市场的绿色激励现象及其产生原因

[J]. 中国市场, 2019, (35): 11- 13.

URL     [本文引用: 1]

Shen X F ,

The Phenomenon of Green Incentives in the A-share Market and Its Causes

[J]. China Market, 2019, (35): 11- 13.

URL     [本文引用: 1]

孙宏鑫, 魏先华,

基于趋势学习的混合神经网络股指期货预测研究

[J]. 计量经济学报, 2021, 1 (4): 921- 934.

URL     [本文引用: 1]

Sun H X , Wei X H ,

Research on Stock Index Futures Forecast Based on Trend Learning and Hybrid Neural Network

[J]. China Journal of Econometrics, 2021, 1 (4): 921- 934.

URL     [本文引用: 1]

王燕, 郭元凯,

改进的XGBoost模型在股票预测中的应用

[J]. 计算机工程与应用, 2019, 55 (20): 202- 207.

DOI      [本文引用: 1]

Wang Y , Guo Y K ,

Application of Improved XGBoost Model in Stock Forecasting

[J]. Computer Engineering and Applications, 2019, 55 (20): 202- 207.

DOI      [本文引用: 1]

萧政,

大数据时代关于预测的几点思考

[J]. 计量经济学报, 2021, 1 (1): 1- 16.

URL     [本文引用: 1]

Hsiao C ,

Some Thoughts on Prediction in the Presence of Big Data

[J]. China Journal of Econometrics, 2021, 1 (1): 1- 16.

URL     [本文引用: 1]

许瀚元, (2020). 中国股票市场绿色效应实证研究[D]. 济南: 山东大学.

[本文引用: 1]

Xu H Y, (2020). An Empirical Study on the Green Effect in China Stock Market[D]. Jinan: Shandong University.

[本文引用: 1]

Adebiyi A A , Adewumi A O , Ayo C K ,

Comparison of ARIMA and Artificial Neural Networks Models for Stock Price Prediction

[J]. Journal of Applied Mathematics, 2014, (1): 1- 7.

[本文引用: 3]

Amel-Zadeh A , Serafeim G ,

Why and How Investors Use ESG Information: Evidence from a Global Survey

[J]. Financial Analysts Journal, 2018, 74 (3): 87- 103.

[本文引用: 1]

Ariyo A A, Adewumi A O, Ayo C K, (2014). Stock Price Prediction Using the ARIMA Model[C]// 2014 UKSim-AMSS 16th International Conference on Computer Modelling and Simulation: 106-112.

[本文引用: 1]

Bao Y, Lu Y, Zhang J, (2004). Forecasting Stock Price by SVMs Regression[C]// International Conference on Artificial Intelligence: Methodology, Systems, and Applications. Springer: 295-303.

[本文引用: 1]

Basak S , Kar S , Saha S , Khaidem L , Dey S R ,

Predicting the Direction of Stock Market Prices Using Tree-based Classifiers

[J]. The North American Journal of Economics and Finance, 2019, 47, 552- 567.

[本文引用: 1]

Bhardwaj N , Ansari M ,

Prediction of Stock Market Using Machine Learning Algorithms

[J]. International Research Journal of Engineering and Technology, 2019, 6 (5): 5994- 6005.

[本文引用: 1]

Chen T, Guestrin C, (2016). Xgboost: A Scalable Tree Boosting System[C]// Proceedings of the 22nd ACM SIGKDD International Conference on Knowledge Discovery and Data Mining: 785-794.

[本文引用: 1]

Cortes C , Vapnik V ,

Support-vector Networks

[J]. Machine Learning, 1995, 20 (3): 273- 297.

[本文引用: 1]

Du Y, (2018). Application and Analysis of Forecasting Stock Price Index Based on Combination of ARIMA Model and BP Neural Network[C]// 2018 Chinese Control And Decision Conference (CCDC): 2854-2857.

[本文引用: 2]

Engle R ,

Dynamic Conditional Correlation: A Simple Class of Multivariate Generalized Autoregressive Conditional Heteroskedasticity Models

[J]. Journal of Business & Economic Statistics, 2002, 20 (3): 339- 350.

[本文引用: 1]

Fama E F , French K R ,

Common Risk Factors in the Returns on Stocks and Bonds

[J]. Journal of Financial Economics, 1993, 33 (1): 3- 56.

[本文引用: 1]

Fama E F , French K R ,

A Five-factor Asset Pricing Model

[J]. Journal of Financial Economics, 2015, 116 (1): 1- 22.

[本文引用: 1]

Fischer T , Krauss C ,

Deep Learning with Long Short-term Memory Networks for Financial Market Predictions

[J]. European Journal of Operational Research, 2018, 270 (2): 654- 669.

[本文引用: 1]

Friedman J H ,

Greedy Function Approximation: A Gradient Boosting Machine

[J]. The Annals of Statistics, 2001, 29 (5): 1189- 1232.

[本文引用: 1]

Gimeno R , Gonzalez C I ,

The Role of a Green Factor in Stock Prices. When Fama French Go Green

[J]. Social Science Electronic Publishing, 2022,

[本文引用: 1]

Guresen E , Kayakutlu G , Daim T U ,

Using Artificial Neural Network Models in Stock Market Index Prediction

[J]. Expert Systems with Applications, 2011, 38 (8): 10389- 10397.

[本文引用: 1]

Hegazy O , Soliman O S , Salam M A ,

A Machine Learning Model for Stock Market Prediction

[J]. Computer Science, 2014, 4 (12): 17- 23.

[本文引用: 1]

Herwartz H ,

Stock Return Prediction under GARCH — An Empirical Assessment

[J]. International Journal of Forecasting, 2017, 33 (3): 569- 580.

[本文引用: 1]

Hong Y M , Liu Y H , Wang S Y ,

Granger Causality in Risk and Detection of Extreme Risk Spillover between Financial Markets

[J]. Journal of Econometrics, 2009, 150 (2): 271- 287.

[本文引用: 1]

Januschowski T , Gasthaus J , Wang Y , Salinas D , Flunkert V , et al.

Criteria for Classifying Forecasting Methods

[J]. International Journal of Forecasting, 2020, 36 (1): 167- 177.

[本文引用: 1]

Ke G, Meng Q, Finley T, Wang T, (2017). LightGBM: A Highly Efficient Gradient Boosting Decision Tree[C]// Advances in Neural Information Processing Systems, 30: 3146-3154.

[本文引用: 1]

Kim K J ,

Financial Time Series Forecasting Using Support Vector Machines

[J]. Neurocomputing, 2003, 55 (1): 307- 319.

[本文引用: 1]

Kinney J B , Atwal G S ,

Equitability, Mutual Information, and the Maximal Information Coefficient

[J]. Proceedings of the National Academy of Sciences, 2014, 111 (9): 3354- 3359.

[本文引用: 1]

Lu F , Qiao H , Wang S Y , Lai K K , Li Y Z ,

Time-varying Coefficient Vector Autoregressions Model Based on Dynamic Correlation With an Application to Crude Oil and Stock Markets

[J]. Environmental Research, 2017, 152, 351- 359.

[本文引用: 1]

Pedersen L H , Fitzgibbons S , Pomorski L ,

Responsible Investing: The ESG-efficient Frontier

[J]. Journal of Financial Economics, 2021, 142 (2): 572- 597.

[本文引用: 1]

Reshef D N , Reshef Y A , Finucane H K , Grossman S R , McVean G , et al.

Detecting Novel Associations in Large Data Sets

[J]. Science, 2011, 334 (6062): 1518- 1524.

[本文引用: 1]

Selvin S, Vinayakumar R, Gopalakrishnan E A, Menon V K, Soman K P, (2017). Stock Price Prediction Using LSTM, RNN and CNN-sliding Window Model[C]// 2017 International Conference on Advances in Computing, Communications and Informatics (ICACCI): 1643-1647.

[本文引用: 1]

Wang L , Ma F , Liu J , Yang L ,

Forecasting Stock Price Volatility: New Evidence from the GARCH-MIDAS Model

[J]. International Journal of Forecasting, 2020, 36 (2): 684- 694.

[本文引用: 1]

/