中国A股的Group LASSO非参数样条估计多因子选股策略研究

陈一秋, 吕大永, 吴文锋

计量经济学报 ›› 2021, Vol. 1 ›› Issue (2) : 452-468.

PDF(791 KB)
PDF(791 KB)
计量经济学报 ›› 2021, Vol. 1 ›› Issue (2) : 452-468. DOI: 10.12012/CJoE2020-0036
论文

中国A股的Group LASSO非参数样条估计多因子选股策略研究

    陈一秋1(), 吕大永2(), 吴文锋1()
作者信息 +

Study on the Application of Group LASSO and Non-Parametric Estimation Approaches in Multi-Factor Models for Stock Selection: Evidence From the Chinese A-share Market

    Yiqiu CHEN1(), Dayong LÜ2(), Wenfeng WU1()
Author information +
文章历史 +

摘要

有效定价因子的筛选是多因子量化选股策略的关键.本文采用Group LASSO算法与非参数样条估计相结合的方法筛选中国A股市场的有效因子,结果得到了个别与其他方法一样的因子(如移动平均成交量),但筛选出很多独特因子(如流动比率、市盈率、去趋势换手率、营业利润增长率).进一步地,基于得到的有效因子构建的投资组合在样本外也有相对更高的超额收益率、更低的收益波动率以及更高的夏普比率.与相关研究的美股因子比较发现,两个市场的因子存在较大差异,美股中的各类动量因子、收益率波动率等并不是A股的有效因子,而A股的市盈率、流动比率也不是美股的有效因子.

Abstract

Characteristics selection approach is quite critical to multi-factor model for stock selection. Based on data from the Chinese A-share stock market, this paper uses Group LASSO to select characteristics and to nonparametrically estimate the effect of selected factors on future returns. We find that, although a few selected factors are the same as traditional characteristics selection models, many (e.g., current ratio, de-trended turnover, price-to-earnings ratio) are unique. In addition, we use the selected characteristics to predict 1-month-ahead returns, and construct a portfolio going long 20 stocks with the highest predicted returns. We show that, compared with portfolios generated by traditional models, portfolios based on Group LASSO and non-parametric estimation approaches perform better, with higher abnormal return and greater Sharp ratio. Furthermore, selected factors using Group LASSO and non-parametric estimation approaches are quite different between the Chinese and US stock markets. For example, momentum (or reversal), and volatility which are selected factors in the US stock market are not related to future stock return in the Chinese stock market; price-to-earnings ratio and current ratio, which are selected characteristics in the Chinese stock market, are not significant in the US stock market.

关键词

LASSO / 非参数估计 / 多因子 / 选股策略 / 中国

Key words

LASSO / non-parametric estimation / multi-factors model / stock selection / China

引用本文

导出引用
陈一秋 , 吕大永 , 吴文锋. 中国A股的Group LASSO非参数样条估计多因子选股策略研究. 计量经济学报, 2021, 1(2): 452-468 https://doi.org/10.12012/CJoE2020-0036
Yiqiu CHEN , Dayong LÜ , Wenfeng WU. Study on the Application of Group LASSO and Non-Parametric Estimation Approaches in Multi-Factor Models for Stock Selection: Evidence From the Chinese A-share Market. China Journal of Econometrics, 2021, 1(2): 452-468 https://doi.org/10.12012/CJoE2020-0036

1 引言

多因子选股模型认为股票的市场表现与某些因子有关, 通过筛选出影响未来收益率的有效因子, 可以构建投资组合并获得超额收益.除了Fama-French三因子、动量因子等传统的因子之外(Fama and French (1992), Carhart (1997)), 现有研究也尝试使用专家打分、主成分分析、逐步回归分析等多种方法寻找更多的有效因子, 并构建相应的量化投资策略以期获得更高、更稳定的投资收益(Novy-Marx (2013), Frazzini and Pedersen (2014), Liu et al. (2019)).然而, 专家打分筛选因子的做法主要依赖专家的从业经验, 更容易受到专家个人主观判断的影响.主成分分析、逐步回归等基于线性回归框架的因子筛选方法对候选因子以及模型残差项的分布有较高的要求(例如, 服从正态分布、不存在序列相关等), 很难完全有效刻画各因子与未来收益率的关系, 据此筛选得到的因子是否真正有效仍不确定.因此, 不管是理论研究还是量化投资实践都不断地利用最新的数学模型、计算机技术寻找更优的因子筛选方法, 以提高多因子选股策略的预期收益、降低相应的投资风险, 获得更稳定的策略收益(Mohanram (2005), 王淑燕等(2016), 蒋翠侠等(2016), Freyberger et al. (2020)).
与传统的多元线性回归、Logistics回归等参数回归模型不同, 非参数估计(non-parametric estimation)方法并不要求样本的分布满足严格的假设条件, 其参数空间维度甚至可以是无限的, 因此也被广泛应用于金融市场的复杂系统分析(Chen (2008), 姚海祥和李仲飞(2014), 王江涛和周勇(2018)).在高维数据分析领域, Tibshirani (1996)提出的LASSO (least absolute shrinkage and selection operator)算法被证明能有效处理高维数据的变量选择问题(Efron et al. (2004), Huang et al. (2010), Chernozhukov and Belloni (2011)). Yuan and Lin (2006)提出了Group LASSO算法, 进一步将LASSO方法推广到含有"组"结构的模型上.近年来, 部分学者也开始利用LASSO或Group LASSO算法构建投资组合或筛选定价因子, 并取得了较好的投资收益(Fastrich et al. (2015), Chinco and Clark-Joseph (2019)).基于非参数估计与LASSO算法的优点, Freyberger et al. (2020)提出了一种非参数估计与Group LASSO算法相结合的因子筛选方法, 发现该方法在美国股市中能更有效地筛选出与未来收益相关的定价因子.那么, LASSO算法与非参数估计相结合的因子筛选方法是否适用于A股市场? 这是本文要研究的主要内容.
本文首先以沪深300指数成分股作为股票池, 以2009年1月1日至2013年12月31日为训练集进行因子筛选.结果表明: LASSO算法与非参数估计相结合的因子筛选方法得到的个别有效因子(包括"近5年利润增长率""近10日成交量的移动平均""近10日平均换手率")也入选了LASSO线性回归模型与逐步回归模型(统称"参数模型")筛选出来的有效因子, 而流动比率、去趋势换手率、营业利润增长率、盈利市值比、市盈率、"现金-流动负债比"等大部分因子与参数模型得到的有效因子存在较大差异.与Freyberger et al. (2020)的美股因子进行对比, 发现两个市场存在较大差异, 美股的各类动量因子、收益率波动率等不是A股的有效因子, 而A股的市盈率、流动比率也不是美股的有效因子.进一步地, 以2014年1月1日至2018年12月31日为测试集, 我们发现, 基于LASSO算法与非参数估计相结合的方法筛选出的有效因子构建的投资组合具有更好的市场表现, 可以获得相对更高的超额收益率、更低的收益波动以及更高的夏普比率.最后, 滚动测试结果还表明, 以36个月为训练区间时, 基于该方法滚动筛选因子构建投资组合持有一个月, 能够获得相对更好的投资收益(年化收益率在41%以上).上述研究表明, LASSO算法与非参数估计相结合的因子筛选方法也适用于A股市场, 且能够更有效地筛选出与未来收益率更相关的因子.文章的研究结论对量化投资实践也具有一定的参考价值.

2 已有相关研究综述

2.1 有关多因子量化选股的研究

Sharpe (1964), Mossin (1966), Lintner (1969)提出了著名的资本资产定价模型(CAPM), 认为资产收益率可以由无风险收益率和风险补偿来衡量. 在CAPM基础上, Ross (1976)提出了套利定价理论(APT), 以一组因子的线性函数来刻画证券的预期收益率, 但APT未能充分解释具体哪些因素影响了股票的预期收益. Fama and French (1992)在CAPM的基础上提出了三因子模型, 认为市场因子、市值因子和账面市值比因子共同决定了股票的预期收益.在此之后, 大量学者运用多种方法尝试寻找Fama-French三因子之外的其他定价因子, 以期进一步解释证券收益的变化. Carhart (1997)提出了动量因子, 将Fama-French三因子模型扩展为四因子模型. Haugen and Baker (1996), Novy-Marx (2013), Asness et al. (2017)增加了盈利因子, 认为盈利能力较高的公司将有更好的市场表现. Blitz and Van Vliet (2007), Ang et al. (2009)发现历史波动率较高的股票具有较低的未来收益率. Frazzini and Pedersen (2014)则发现了低贝塔现象, 通过买入低贝塔资产并卖出高贝塔资产可以获得超额收益. Liu et al. (2019)发现市盈率、换手率等因子能够解释A股市场的大部分异象.
国内关于多因子模型的研究主要集中于定价因子的有效性检验.例如, 范龙振和余世典(2002)实证检验了中国证券市场的三因素模型, 发现A股市场存在市值效应、账面市值比效应、市盈率效应和价格效应.杨炘和陈展辉(2003)邓长荣和马永开(2005)利用中国股票市场数据研究发现, 三因素模型能够较好地解释我国股票收益率的截面差异.田利辉等(2014)对比了三因素定价模型在中美两国股票市场的表现, 发现市场因素、规模因素能够较好解释中国股票收益率的差异, 而账面市值比效应并不显著.赵胜民等(2016)比较了三因素模型与五因素模型在A股的适用性, 发现三因素模型能更好地诠释A股市场的收益率波动.
除了经典多因子模型之外, 部分学者也通过打分法、主成分分析以及其他数据挖掘方法探索潜在的定价因子.例如, Mohanram (2005)按P/B大小排序, 选取排名前20%的股票作为研究的样本, 并将收益和现金流等传统基本面指标以及增长稳定性、研发支出、资本支出等成长性指标结合起来构建G-score指数, 发现G-score得分越高的股票组合具有较好的市场表现.王淑燕等(2016)综合运用相关性分析和随机森林算法, 构建了八因子选股指标体系, 取得较好的预测效果.干伟明等(2018)采用2007年1月至2016年12月的国内A股月度收益率数据进行实证研究, 发现盈利因子、估值因子、成长速度因子和成长质量因子均对未来市场表现具有较强的影响.

2.2 LASSO算法及其在金融领域的运用

LASSO算法由Tibshirani (1996)首次提出.然而, 受当时计算机运算能力限制, LASSO算法并未得到统计学的有力支持, 其应用推广仍比较有限.随着高维数据的日益增多, LASSO算法也受到越来越多的关注, 相关算法也取得了有效的突破. Efron et al. (2004)提出了最小角回归LARS算法解决了LASSO的计算问题, 此后关于LASSO的运用不断增多. Huang et al. (2010)为参数可加模型提出了基于自适应Group LASSO的变量选择方法. Xu and Ghosh (2015)提出了基于LASSO算法的贝叶斯稀疏组变量选择模型, 认为LASSO算法在变量筛选和参数估计方面都具备有效性.
关于LASSO在金融领域应用的研究主要集中在变量选择和资产组合构建等方面. Huang and Shi (2010)使用自适应Group LASSO算法检验了影响债券风险溢价的宏观因素. Fastrich等(2015)对均值-方差投资组合的资产权重向量的范数施加LASSO约束, 发现基于此构建的投资组合在美国股票市场中能获得超额收益. Chinco and Clark-Joseph (2019)运用基于LASSO算法的线性回归模型研究过去收益率对未来收益率的预测能力, 发现LASSO算法有效提高回归模型的预测能力. Freyberger et al. (2020)提出了基于LASSO非参数模型的多因子筛选方法, 并利用1963年至2015年的美国股市数据进行实证检验, 发现基于此方法构建的投资策略显著优于线性模型下的多因子选股策略.
国内关于LASSO算法应用的研究也随着计算机技术的发展而兴起.例如, 孙燕(2012)提出了随机效应Logit模型的自适应LASSO变量选择方法.刘睿智和杜溦(2012)的实证研究也表明LASSO方法在组合构建和模型预测方面都具有一定的优势.秦磊和谢邦昌(2015)构建了基于ArctanLASSO惩罚函数的一种非凸惩罚似然估计方法, 并对Logistic回归模型进行参数估计和变量选取.蒋翠侠等(2016)运用LASSO分位数回归方法筛选与对冲基金收益有关的风险因子, 发现LASSO分位数回归有助于提高投资风格识别的有效性, 基于此构建的投资组合也能获得更高的超额收益.迟国泰等(2020)以LASSO最小二乘回归模型的误差最小为优化目标, 筛选出了对股票ST状态判别能力最强的一组指标组合.

3 数据与方法

3.1 数据与样本

本文研究的数据期间为2009年1月1日至2018年12月31日, 其中: 2009年1月1日至2013年12月31日为训练集, 运用这部分数据估计模型系数, 筛选有效因子; 2014年1月1日到2018年12月31日为测试集, 考察多因子选股策略的市场表现.本文股票池为沪深300指数成分股, 数据来源于优矿(UQER)数据平台.
Freyberger et al. (2020)的做法类似, 本文选择每个月月初调整投资组合.个股it月的收益率(Ri,t)由月收盘价(Pi,t)的自然对数后差分得到, 即Ri,t=ln(Pi,t)ln(Pi,t1).此外, 参考已有相关文献, 本文选择动量类、财务质量类、市场情绪类、价值类、成长类等共计30个可能与未来收益率有关的指标作为候选因子(表 1).
表1 候选因子及其定义
变量名称 含义 描述
Panael A: 成长类因子
NPGR 净利润增长率 NPGR = (今年净利润(TTM)/去年净利润(TTM)) - 1
EGRO 近5年利润增长率 EGRO =近5年的年净利润关于时间(年)的线性回归系数/近5年平均净利润的绝对值
NAGR 净资产增长率 NAGR = (今年股东权益/去年股东权益) - 1
OPGR 营业利润增长率 OPGR = (今年营业利润(TTM)/去年营业利润(TTM)) - 1
Panel B: 价值类因子
ETOP 盈利市值比 ETOP净利润(TTM)/总市值
PB 市净率 PB =总市值/归属于母公司所有者权益合计
PE 市盈率 PE =总市值/归属于母公司所有者的净利润(TTM)
LFLO 对数流通市值 LFLO =流通市值的对数
Panel C: 财务质量类因子
APTR 应付账款周转率 APTR =营业成本(TTM)/应付账款+应付票据+预付款项
CR 流动比率 CR =流动资产合计/流动负债合计
BtoToR 息税前利润与营业总收入之比 BtoToR = (利润总额+利息支出利息收入)/营业总收入.如果没有利息支出, 用财务费用代替, 以上科目使用的都是TTM的数值.
EqToAs 股东权益比率 EqToAs =股东权益/总资产
InvTRate 存货周转率 InvTRate =营业成本(TTM)/存货
MLEV 市场杠杆 MLEV =非流动负债合计/(非流动负债合计+总市值)
NPR 销售净利率 NPR =净利润(TTM)/营业收入(TTM)
OCToCL 现金流动负债比 OCToCL =经营活动产生的现金流量净额(TTM)/流动负债合计
Panel C: 财务质量类因子
GroInRa 销售毛利率 GroInRa = (营业收入(TTM) -营业成本(TTM))/营业收入(TTM)
BLEV 账面杠杆 BLEV =非流动负债合计/股东权益
REVS10 固定资产比率 REVS10 = (固定资产+工程物资+在建工程)/总资产
ROA 资产回报率 ROA =净利润(TTM)/总资产
ROE 权益回报率 ROE =净利润(TTM)/股东权益
DilEPS 稀释每股收益 假设企业所有发行在外的稀释性潜在普通股均已转换为普通股, 由此调整后的每股收益
EPS 基本每股收益 EPS=归属于普通股股东的当期净利润/当期实际发行在外普通股的加权平均数
Panel D: 情绪类因子
DTO10 换手变动率 10日平均换手率与120日平均换手率(turnover rate)之比
TO10 10日平均换手率 TO1010 =日平均成交量/流通总股数× 100%
VolMA10 成交量的10日移动平均 10日平均成交量
Panel E: 动量类因子
REVS10 股票的10日收益 个股的前1个交易日的累计收益率
High52Week 价格位置 High52Week = (当前股价年内最低股价)/(年内最高股价年内最低股价)
Panel F: 其他因子
HBETA 历史贝塔 利用前12个月数据估计CAPM模型的β系数
Skew 股价偏度 过去20个交易日股价的偏度
由于候选因子之间数量级差异较大, 且部分因子甚至呈现尖峰或厚尾分布特征, 本文参考Fr-eyberger等(2020)的做法, 根据因子的实际值排序后对各因子进行归一化处理.具体而言, 对于t月的第k个候选因子Ck,t, 我们将该月所有个股的Ck,t值从小到大排序. 假设个股i按照Ck,t值从小到大排序的秩为Rank(Ck,i,t), 则个股i该候选因子的归一化值(C~k,i,t)为:
C~k,i,t=Rank(Ck,i,t)Nt,
(1)
其中, Ntt月末股票池中参与排序的个股数量.

3.2 基于Group LASSO非参数二次样条估计的因子筛选方法

多因子选股模型假定股票的收益可以由一组候选定价因子(例如, 成长类、价值类、质量类、动量类、情绪类因子等)的组合来决定.该投资策略成功的关键在于筛选出关键有效因子, 使得利用t1期的因子值能够有效预测t期的收益率.假设个股it月的收益率(Ri,t)关于候选因子的条件均值函数为:
mt(c1,,cS)=E(Ri,t|C1,i,t1=c1,,CS,i,t1=cS),
(2)
其中, C1,i,t1,,CS,i,t1为个股iS个候选因子.
因子筛选的过程实际上就是对上述条件均值函数的刻画过程, 包括确定函数形式和参数估计.传统基于线性回归方程的因子筛选方法假定该条件均值函数(mt)是关于各候选因子的一个线性函数, 即:
Ri,t=β0+s=1SβsCs,i,t1+εi,t.
(3)
然而, 基于线性回归模型的因子筛选方法在具体应用过程中仍存在参数估计假设过于严苛等不足(Mohanram (2005), 王淑燕等(2016), 蒋翠侠等(2016), Freyberger et al. (2020)). 相比而言, 非参数估计(non-parametric estimation)方法并不要求样本的分布满足严格的假设条件, 其参数空间维度甚至可以是无限的.同时, 非参数估计不受总体分布的限制, 而是完全由数据驱使, 并逐步建立对变量的数学描述和统计模型, 具有较强的稳健性和适应性.
Freyberger et al. (2020)证明, 可以用非参数估计框架下的如下可加函数来刻画条件均值函数(mt):
mt(c1,,cS)=s=1Sms,t(cs),
(4)
其中, ms,t()为未知函数.
同时, Freyberger et al. (2020)还指出, 可使用公式(1)归一化得到的因子值(C~k,i,t)代替各因子的初始值(Ck,i,t).他们还证明了, 总是存在一个函数(m~t), 使得:
m~(C~1,i,t1,,C~s,i,t1)=mt(C1,i,t1,,Cs,i,t1).
(5)
因此, 对条件均值函数mt的估计可以转化为对m~t的估计.与传统排序分组做法(portfolio sorts)类似, 用C~k,i,t代替Ck,i,t的做法并不关心个股因子的实际取值大小, 而只是关注个股该因子的相对排序.
类似于模型(4), 我们可以使用如下可加模型刻画C~k,i,t1与未来收益率Ri,t的关系:
m~=s=1Sm~s,t(c~s,i,t1),
(6)
Ri,t=s=1Sm~s,t(c~s,i,t1)+εi,t,
(7)
其中, m~s,t()为未知函数.
在高维数据分析处理领域, Tibshirani (1996)首次提出的LASSO算法通过在回归系数估计的目标函数中加入模型系数的一阶惩罚项, 可以在多种情形下有效处理高维数据并进行变量选择.同时, 考虑到回归中部分变量之间可能存在"组结构" (例如, 存在多分类变量的回归模型、多项式回归转化为线性回归的模型等), 在进行变量筛选时应将这部分变量看作一个"组" (Group)同时进入或退出模型.为了解决这一问题, Yuan and Lin (2006)将LASSO方法推广到含有"组"结构的模型上面, 提出了Group LASSO算法.
具体而言, Group LASSO因子筛选首先对m~s,t()进行非参数估计.若第k个因子对未来收益率不具有预测能力, 则将该因子对应的m~s,t()整体设置为0, 从而将该因子从模型(6)或模型(7)中剔除, 即起到因子筛选的作用.
Freyberger et al. (2020)使用二次样条法对m~s,t()进行非参数估计.具体而言, 对于第s个因子, 根据C~s,t1从小到大进行排序将样本分成L组: 第l(l<L)对应样条空间为Il=[tl1,tl)(l=1,,L1;t0=0;tl=l/L); 第L组对应的样条空间为IL=[1(1/L),1];tl(l=1,,L1)称为样条节点(Knot).在每一样条空间中, m~s,t()均为二次函数且在[0,1]内连续可导.则m~s,t()可用如下基函数的线性组合近似表示:
m~s,t(c~)=k=1L+2bs,kpk(c~).
(8)
上式中, bs.k为未知待估计参数; pk(c)为已知基函数, p1(c)=1,p2(c)=c,p3(c)=c2,pk(c)=[max(ctk3;0)]2(k=4,5,,L+2).则模型(7)转化为:
Ri,t=s=1Sk=1L+2bs,kpk(c~s,i,t1)+εi,t.
(9)
上述模型中, 一个因子c~s对应了L+2个待估计参数, 对该因子的筛选(加入模型或移出模型)将同时涉及到这L+2个参数.因此, 可以将一个因子对应的待估计参数视为一个"组" (Group), 并利用Group LASSO对模型(9)进行参数估计:
β~t=argminbs,k:s=1,,s;k=1,,L+2(Ri,ts=1Sk=1L+2bsk,pk(c~s,i,t1))2+λ1s=1S(k=1L+2bs,k2)12,
(10)
其中, β~t(L+2)×S个待估计参数, λ1为Group LASSO算法引入的惩罚系数.
模型(10)中, 目标函数第一部分(即(Ri,ts=1Sk=1L+2bsk,pk(c~s,i,t1))2)类似于普通最小二乘法的残差平方和.与传统LASSO算法不同, Group LASSO算法将属于同一个因子的所有系数作为一个整体计算平方和并开根号后再加总作为惩罚函数(即λ1s=1S(k=1L+2bs,k2)12)1.通过Group LASSO惩罚函数, 如果一个因子Cs未能有效预测未来收益率, 则C~s对应的系数bs,k都将被统一设为0, 从而起到因子筛选的目的.
1传统LASSO算法直接对所有系数的绝对值加总作为惩罚函数.

4 因子筛选结果与多因子选股策略表现

4.1 候选因子的描述性统计

表 2报告了各候选因子的描述性统计.可以看出, 由于候选因子涉及多种财务指标或技术指标等, 因子之间的数量级存在较大差异(例如, VolMA10与Skew变量相差了13个数量级).同时, 大部分因子不符合正态分布特征, NPR、NAGR等个别因子甚至还呈现了尖峰或厚尾的分布特征.
表2 变量描述性统计
均值 标准差 峰度 偏度 Rt+1的相关系数
APTR 3.051 508.089 979.620 28.011 0.010
BLEV 1.487 1.273 1153.054 27.117 0.017
CR 1.989 2.206 30.636 3.359 0.014
DTO10 0.001 0.011 21.567 1.885 0.037
DilEPS 0.392 0.628 81.900 6.757 0.021
EBtoToR 0.164 0.167 7.620 1.512 0.027
EGRO 0.332 8.438 511.975 18.614 0.003
EPS 0.666 1.004 65.737 6.493 0.037
ETOP 0.044 0.049 6.220 0.176 0.015
EqToAs 0.500 0.202 0.787 0.259 0.028
High52Week 0.477 0.311 1.266 0.088 0.020
REVS10 0.305 0.223 0.258 0.820 0.016
GroInRa 0.282 0.240 376.412 10.647 0.002
HBETA 0.976 0.261 0.248 0.028 0.013
InvTRate 12.738 32.539 74.868 7.404 0.004
LFLO 23.227 1.300 0.425 0.067 0.110
MLEV 1.227 0.488 32.786 4.940 0.024
NAGR 0.960 30.929 2459.325 49.546 0.011
NPGR 0.181 12.479 899.148 14.684 0.005
NPR 0.139 0.980 2997.973 53.640 0.001
OCToCL 0.303 0.514 21.297 3.290 0.008
OPGR 0.610 13.428 1344.328 31.021 0.001
PB 4.445 4.421 237.198 9.740 0.013
PE 101.429 2275.018 1789.320 38.826 0.002
REVS10 0.994 0.081 5.921 1.039 0.066
ROA 0.077 0.078 4.922 1.280 0.026
ROE 0.150 0.148 10.439 0.811 0.041
Skew 6.867×106 0.598 0.802 0.142 0.034
VolMA10 1.830×107 2.719×107 34.471 4.604 0.054
TO10 0.016 0.018 20.289 3.382 0.024
R 0.007 0.130 4.168 0.216

4.2 因子筛选结果分析

为了降低异常值的干扰, 同时提高不同因子之间数值的可比性, 本文利用公式(1)对各候选因子进行归一化处理.在此基础上, 利用Group LASSO二次样条估计方法(简称"Group LASSO +二次样条")进行因子筛选.作为比较, 本文还分别构建了基于LASSO算法的多元线性回归模型(简称"LASSO +线性回归")以及多元线性逐步回归模型(简称"线性逐步回归")分别进行定价因子筛选.最后, 我们通过控制这三种策略的相关参数, 分别比较有效因子为2个、5个、10个时选股策略的表现:
1) "Group LASSO +二次样条"因子筛选结果
样条节点数量knot和λ值是"Group LASSO +二次样条"筛选因子的关键参数.其中, knot决定了样条数量. knot太大会增加模型构建和估计的难度, 太小则难以准确刻画收益率与因子的关系.根据以往文献关于因子分组数量的选取, 本文将knot设置为4, 并据此将样本空间分为L=5个区间. 根据公式(8), 有L+2=7个基函数, 分别为: p1(c)=1; p2(c)=c; p3(c)=c2; p4(c)=max(c0.2;0)2; p5(c)=max(c0.4;0)2; p6(c)=max(c)0.6;0)2; p7(c)=max(c0.8;0)2.因此, 一个解释变量将对应7个待估系数bs,k, 通过Group LASSO算法实现7个bs,k系数同时为0或同时不为0.为了方便与其他两个模型对比, 本文根据多次测试结果, 将λ值设定为0.2、0.18、0.13, 筛选出的有效因子数量分别为2个、5个、10个(表 3).
表3 "Group LASSO +二次样条"多因子筛选结果
(1) (2) (3)
λ 0.20 0.18 0.16
有效因子数量 2 5 10
入选的有效因子 CR CR CR
VolMA10 VolMA10 VolMA10
DTO10 DTO10
OPGR OPGR
TO10 TO10
EGRO
ETOP
OCToCL
PE
ROE
表 3可以看出, 列(1)中的流动比率(CR)和成交量10日移动平均值(VolMA10)最早入选有效因子, 可以作为"Group LASSO +二次样条"法筛选出的对未来收益率具有最强解释力的两个关键因子.列(3)筛选出的10个有效因子分别为流动比率、换手变动率、5年收益增长率、盈利市值比、现金流动负债比、营业利润增长率、市盈率、权益回报率、成交量10日移动平均值、10日平均换手率, 包括2个成长类因子、2个价值类因子、3个财务质量类因子和3个情绪类因子, 未包括动量类因子和其他因子.
2) "LASSO +线性回归"因子筛选结果
作为比较, 我们构建了基于LASSO算法的多元线性回归模型进行因子筛选.具体而言, 以收益率(Ri,t)作为被解释变量、上一期各候选因子作为解释变量构建多元线性回归模型, 并利用LASSO算法对模型参数进行估计, 即目标函数为:
minβ(Ri,tβ0j=1JβjCj,i,t1)2+λj=1J|βj|.
(11)
为了便于不同策略之间的比较, 我们通过测试, 将λ设定为0.09、0.07、0.0345, 分别筛选得到2个、5个、10个有效因子(表 4).从表 4可以看出, 5年收益增长率(EGRO)和总资产回报率(ROA)最早入选有效因子, 可以看作"LASSO+线性回归"方法筛选出的关键性因子.列(3)中筛选出的10个变量分别为5年收益增长率、基本每股收益、固定资产比率、净利润增长率、股票10日收益、资产回报率、权益回报率、股价偏度、成交量10日移动平均值、10日平均换手率, 包括了2个成长类因子、4个财务质量类因子、2个情绪类因子、1个动量类因子和1个其他类因子, 覆盖了表 1中的7类候选因子.其中, 除成交量10日移动平均值(VolMA10)的回归系数为正以外, 其余变量均与下一个月收益率呈负相关关系.
表4 "LASSO+线性回归"多因子筛选结果
(1) (2) (3)
λ 0.090 0.070 0.0345
有效因子数量 2 5 10
EGRO 0.194 0.387 0.715
ROA 0.007 0.168 0.313
REVS10 0.116 0.461
ROE 0.051 0.088
TO10 0.043 0.411
EPS 0.143
FixAsRa 0.003
NPGR 0.272
Skew 0.123
VolMA10 0.411
3) "线性逐步回归"因子筛选结果
在运用多元线性逐步回归法筛选有效因子时, 因子进入回归方程需满足一定的显著性条件, 一般根据因子回归系数对应的p值是否小于某一个阈值(Thresholdp)来判断.为了便于与其他策略比较, 本文将Thresholdp分别设定为0.05、0.17、0.3, 对应筛选得到的有效因子个数分别为2个、5个、10个(表 5).
表5 "线性逐步回归"多因子筛选结果
(1) (2) (3)
Thresholdp 0.05 0.17 0.3
有效因子数量 2 5 10
EGRO 1.284 1.144 1.169
REVS10 0.973 0.905 0.901
NPGR 0.732 0.634
VolMA10 1.034 0.897
TO10 0.820 0.822
BLEV 0.908
REVS10 0.498
INVTRATE 0.562
MLEV 1.162
ROA 0.754
注: 分别表示1%、5%、10%的显著性水平下显著.
表 5可以看出, 5年收益增长率(EGRO)和股票10日收益(REVS10)最早入选有效因子, 且回归系数均在5%显著性水平下显著, 因此这两个因子可以看作逐步回归模型筛选得到的关键因子.模型(3)中筛选出的10个变量分别为账面杠杆、5年收益增长率、固定资产比率、存货周转率、市场杠杆、净利润增长率、股票10日收益、资产回报率、成交量10日移动平均值、10日平均换手率共计10个变量, 包括了2个成长类因子、5个财务质量类因子、2个情绪类因子和1个动量类因子, 未包含价值类因子以及其他类因子.其中, 除成交量10日移动平均值(VolMA10)、存货周转率(InvTRate)、市场杠杆(MLEV)以外, 其他变量与下一个月的收益率均呈现负相关关系.
4) 因子筛选方法结果的比较与分析
通过对比三种方法的结果, 我们发现:
第一, "Group LASSO +二次样条"方法下的有效因子与另外两种方法得到的有效因子有较大差异. "Group LASSO +二次样条"方法得到的10个有效因子中: 仅有4个有效因子(EGRO、ROE、VolMA10、TO10)同时入选"LASSO +线性回归"方法下的有效因子; 仅有3个有效因子(EGRO、VolMA10、TO10)也入选"线性逐步回归"方法下的有效因子.然而, "LASSO +线性回归"与"线性逐步回归"方法得到的共同有效因子则高达7个(EGRO、EPS、FixAsRa、NPGR、REVS10、ROA、ROE、Skew、VolMA10、TO10), 因子数量重复率高达70%.可见, 在使用多元线性回归模型的框架限制下, "LASSO +线性回归"与"线性逐步回归"方法的筛选结果具有高度相似性; 而"Group LASSO +二次样条"方法则突破了参数估计方法的限制, 得到了差异性更大的有效因子组合.这意味着, 非参数估计方法有助于筛选更能预测未来收益率的定价因子(Freyberger et al. (2020)).
第二, 从"Group LASSO +二次样条"的因子筛选结果来看, 大部分研究使用的既有定价因子未能入选该方法得到的有效因子组合, 这一结论与Freyberger et al. (2020)基于美股的研究发现一致.同时, 中国A股的有效定价因子中, 成交量、换手率、利润增长率等相关因子也与美股有效因子类似.但与Freyberger et al. (2020)不同的是, 美股中各类动量因子、收益率波动率、与历史最高价的相对价格等并不是中国A股的有效定价因子.特别地, 市盈率、流动比率并不是美股市场的有效定价因子, 却成功入选了中国A股"Group LASSO +二次样条"的有效定价因子组合.因此, 量化基金等机构投资者在A股市场运用多因子选股策略时, 应根据中美股市定价因子的差异适当调整模型因子, 剔除动量(或反转)、与历史最高价的相对价格等非有效定价因子, 并增加市盈率、流动比率作为有效定价因子, 以优化股票组合、提高投资收益.
第三, 近5年利润增长率(EGRO)、近10日移动平均成交量(VolMA10)、近10日平均换手率(TO10)均入选三个模型的有效因子, 意味着这三个因子与未来收益率的关系比较稳定, 可以看作多因子选股模型中的关键有效因子.然而, 净资产增长率、应付账款周转率、息税前利润与营业总收入之比、股东权益比率、销售净利率、销售毛利率、历史贝塔、市净率、对数流通市值、价格位置、稀释每股收益等变量未包含在任何模型中, 说明这些因子与未来收益率的关系相对较弱.

4.3 不同因子筛选方法下选股策略表现的比较分析

在因子筛选的基础上, 本部分将以2014年1月1日至2018年12月31日作为测试集, 检验基于三种筛选方法得到的有效因子构建的投资组合在未来的市场表现.与前面一致, 本部分的依然采用每月月初调仓的做法.具体而言, 在每个月的月初, 根据各有效因子的最新数据以及上一部分中计算得到的因子系数, 分别计算沪深300指数每一只成分股的因子得分; 根据因子得分从高到低排序, 筛选得到因子得分最靠前的20只股票; 将持仓股票与这20只股票进行比较, 卖出跌出前20的股票、买入新进入前20的个股, 并保持投资组合中20只股票数量不变.在回测过程中, 我们剔除由于停牌或其他原因未能交易的股票, 并设定买入的交易费用为千分之一、卖出的交易费用为千分之二.
根据前一部分设计的三种因子筛选方法, 我们分别构建了有效因子为2个、5个、10个时选股策略, 并分别计算不同策略的年化收益率、收益率波动率、夏普比率、最大回撤、年化换手率等指标(表 6).以同期沪深300指数市场表现为基准(年化收益率为4.8%), 各策略均能取得较高的超额收益率, 说明多因子量化选股策略是可行的.平均来看, 随着有效因子数量从2个增到10个, 策略的收益率有较大幅度提高而收益率波动变化不大, 夏普比率也有所提高.更重要的是, 当有效因子数量分别为2个、5个、10个时, "Group LASSO +二次样条"选股策略的年化收益率分别为24.80%、27.70%、30.60%, 均高于"LASSO +线性回归"和"线性逐步回归"选股策略对应的年化收益率, 说明"Group LASSO +二次样条"因子筛选方法有助于提高多因子选股策略的市场表现.
表6 三种多因子选股策略市场表现的测试结果
效因子数量 年化收益率 收益波动率 夏普比率 最大回撤 年化换手率
Panel A: "Group LASSO+二次样条"选股策略
2 24.80% 25.70% 0.83 41.60% 15.88
5 27.70% 24.20% 1.00 41.50% 14.17
10 30.60% 26.90% 1.00 44.40% 11.25
Panel B: "LASSO +线性回归"选股策略
2 22.20% 28.80% 0.66 49.80% 4.71
5 21.10% 27.80% 0.63 47.20% 7.93
10 23.70% 26.80% 0.75 42.60% 10.00
Panel C: "线性逐步回归"选股策略
2 22.80% 28.70% 0.67 47.80% 15.13
5 22.80% 27.90% 0.69 48.20% 10.92
10 24.30% 28.20% 0.74 46.50% 8.95

4.4 "Group LASSO +二次样条"选股策略滚动测试结果分析

在前一部分的测试过程中, 我们采用训练集得到的回归系数且在整个测试期间保持系数不变.然而, 一个因子对未来收益率的预测能力可能不是恒定的, 采用固定回归系数难以完全刻画定价因子有效性存在的"时变"特征(Freyberger et al. (2020)).为了解决这一问题, 本部分拟采用滚动测试的做法, 在测试集内(2014年1月1日至2018年12月31日)的每一个月月末(假设为t月), 先利用t(N+1)t1月共N个月的因子及股票收益率数据构建"Group LASSO +二次样条"模型筛选有效因子, 并估计各因子对应的系数.在此基础上, 利用t月最新的因子的数据计算沪深300指数各成分股的得分, 并根据得分结果在t+1月第一个交易日调整仓位以保证交易策略在t+1月月初开始就持有因子得分最高的前20只股票.
在测试过程中, 我们分别选取不同的训练集长度(24个月、36个月、48个月)和不同的λ值(λ=0.15、0.17), 计算"Group LASSO +二次样条"选股策略在不同参数组合下的年化收益率、收益率标准差、夏普比率等指标以衡量投资组合的市场表现(表 7).与采用固定参数下的"Group LASSO +二次样条"选股策略市场表现(表 6的Panel A)相比, 滚动测试情况下的收益率有了明显的提高, 收益波动率未有明显的变化, 整体夏普比率提高至1.3左右.这说明"Group LASSO +二次样条"滚动选股策略可以在不明显增加风险的情况下, 有效提高投资组合的收益率.
表7 "Group LASSO +二次样条"选股策略滚动测试结果
λ 平均有效因子数 年化收益率 收益率波动 夏普比率 最大回撤 年化换手率
Panel A: 训练集长度= 48个月
0.15 11.2 39.20% 26.00% 1.37 40.40% 12.98
0.17 6.7 33.10% 26.70% 1.11 40.20% 12.83
Panel B: 训练集长度= 36个月
0.15 14.6 41.80% 25.90% 1.48 39.50% 13.57
0.17 10.9 43.80% 29.70% 1.36 43.40% 12.64
Panel C: 训练集长度= 24个月
0.15 19.0 41.00% 27.70% 1.35 40.70% 14.08
0.17 15.7 40.00% 27.70% 1.32 42.00% 14.34
此外, 在选取的训练时间长度和λ的参数组合中, 训练时间为36个月时策略的平均表现优于训练时间为48个月和24个月的情况, 因此可以将36个月作为较合适的训练时间长度.然而, 在同一个训练时间长度下, λ取值的变化与投资组合的市场表现之间并不存在明显的规律, 这可能与每期因子数量差异较大有关2.
2表 3中将2009年1月1日至2013年12月31日这一样本期间作为一个整体进行因子筛选, 因此可以通过调整λ值精确控制有效因子数量.而在本部分滚动筛选因子过程中, 由于每一期因子数据、收益率数据的差异, 我们难以通过简单设定λ值保证每一期筛选得到相同数量的有效因子.

5 结论

多因子模型一直受到学术界关注, 也被广泛应用于量化投资实践.然而, 现有的因子筛选方法仍存在主观性较强或模型假设不符合实际等问题, 因子筛选结果仍存在较大的提升空间.本文利用Freyberger et al. (2020)提出的Group LASSO算法与非参数样条估计相结合的因子筛选方法, 从30多个可能与未来收益率有关的候选因子中筛选有效因子, 并据此构建投资组合.训练集(2009年1月1日至2013年12月31日)的因子筛选结果表明, Group LASSO非参数估计方法得到的大部分因子与LASSO线性回归模型、逐步回归模型等方法的结果存在较大差异, 中国A股的Group LASSO非参数样条估计因子筛选结果也异于Freyberger et al. (2020)的美股因子筛选结果.进一步地, 基于有效因子构建的投资组合在测试集(2014年1月1日到2018年12月31日)的市场表现的显示, Group LASSO非参数估计方法构建的投资策略在未来具有更好的市场表现, 可以获得相对更高的超额收益率、更低的收益率波动以及更高的夏普比率.因此, 本文的研究表明, Group LASSO非参数估计的因子筛选方法也适用于A股市场, 能有效筛选、识别更丰富的与未来收益率相关的信息, 起到优化有效因子筛选、提高选股策略市场表现作用.

参考文献

迟国泰, 章彤, 张志鹏, 基于非平衡数据处理的上市公司ST预警混合模型[J]. 管理评论, 2020, 32 (3): 3- 20.
Chi G T , Zhang T , Zhang Z P , Special Treatment Warning Hybrid Model Dealing with Imbalanced Data of Chinese Listed Companies[J]. Management Review, 2020, 32 (3): 3- 20.
邓长荣, 马永开, 我国证券市场行业收益三因素模型的实证研究[J]. 系统工程理论方法应用, 2005, 14 (3): 226- 230.
Deng C R , Ma Y K , Research and Test of the Three Factor-Factor Model in Chinese Stock Market[J]. Systems Engineering—Theory Methodology Applications, 2005, 14 (3): 226- 230.
范龙振, 余世典, 中国股票市场的三因子模型[J]. 系统工程学报, 2002, 17 (6): 537- 546.
Fan L Z , Yu S D , Three-Factor Model in China Stock Market[J]. Journal of Systems Engineering, 2002, 17 (6): 537- 546.
干伟明, 张涤新, 基于价值投资的多因子定价模型在中国资本市场的实证研究[J]. 经济经纬, 2018, 35 (4): 136- 140.
Gan W M , Zhang D X , An Empirical Study on Multi-Factor Pricing Model in Chinese Capital Market Based on Value Investment[J]. Economic Survey, 2018, 35 (4): 136- 140.
蒋翠侠, 刘玉叶, 许启发, 基于LASSO分位数回归的对冲基金投资策略研究[J]. 管理科学学报, 2016, 19 (3): 107- 126.
Jiang C X , Liu Y Y , Xu Q F , Hedge fund investment strategies based on LASSO quantile regression[J]. Journal of Management Sciences in China, 2016, 19 (3): 107- 126.
刘睿智, 杜溦, 基于LASSO变量选择方法的投资组合及实证分析[J]. 经济问题, 2012, (9): 103- 107.
Liu R Z , Du W , Portfolio Construction Using Variable Selection: Based on LASSO Method[J]. On Economic Problems, 2012, (9): 103- 107.
秦磊, 谢邦昌, Logistic回归的ArctanLASSO惩罚似然估计及应用[J]. 数量经济技术经济研究, 2015, 32 (6): 135- 146.
Qin L , Xie B C , ArctanLASSO Penalized Likelihood Estimator of Logistic Regression and Its Application[J]. The Journal of Quantitative & Technical Economics, 2015, 32 (6): 135- 146.
孙燕, 随机效应Logit计量模型的自适应LASSO变量选择方法研究——基于Gauss-Hermite积分的EM算法[J]. 数量经济技术经济研究, 2012, 29 (12): 147- 157.
Sun Y , Variable Selection via Random Effect Adaptive Lasso for Logit Model[J]. The Journal of Quantitative & Technical Economics, 2012, 29 (12): 147- 157.
田利辉, 王冠英, 张伟, 三因素模型定价: 中国与美国有何不同?[J]. 国际金融研究, 2014, (7): 37- 45.
Tian L H , Wang G Y , Zhang W , Application of Fama-French Three-Factor Model: Evidence from the Chinese and American Stock Markets[J]. Studies of International Finance, 2014, (7): 37- 45.
王江涛, 周勇, 高频数据波动率非参数估计及窗宽选择[J]. 系统工程理论与实践, 2018, 38 (10): 2491- 2500.
Wang J T , Zhou Y , The Non-parametric Estimation of Volatility in High Frequency Data and Its Bandwidth Selection[J]. Systems Engineering—Theory & Practice, 2018, 38 (10): 2491- 2500.
王淑燕, 曹正凤, 陈铭芷, 随机森林在量化选股中的应用研究[J]. 运筹与管理, 2016, 25 (3): 163- 168.
Wang S Y , Cao Z F , Chen M Z , Research on Application of Random Forests in the Quantitative Stock Selection Model[J]. Operations Research and Management Science, 2016, 25 (3): 163- 168.
杨炘, 陈展辉, 中国股市三因子资产定价模型实证研究[J]. 数量经济技术经济研究, 2003, (12): 137- 141.
Yang X , Chen Z H , Empirical Studies on Three Factors Asset Pricing Model in China's Stock Market[J]. Quantitative and Technical Economics, 2003, (12): 137- 141.
姚海祥, 李仲飞, 基于非参数估计框架的期望效用最大化最优投资组合[J]. 中国管理科学, 2014, 22 (1): 1- 9.
Yao H X , Li Z F , Expected Utility Maximization Optimal Portfolio Selection Based on Nonparametric Estimation Framework[J]. Chinese Journal of Management Science, 2014, 22 (1): 1- 9.
赵胜民, 闫红蕾, 张凯, Fama-French五因子模型比三因子模型更胜一筹吗?——来自中国A股市场的经验证据[J]. 南开经济研究, 2016, (2): 41- 59.
Zhao S M , Yan H L , Zhang K , Does Fama-French Five Factor Model Outperform Three Factor Model? Evidence from China's A-Share Market[J]. Nankai Economic Studies, 2016, (2): 41- 59.
Ang A , Hodrick R J , Xing Y , et al. High Idiosyncratic Volatility and Low Returns: International and Further U.S. Evidence[J]. Journal of Financial Economics, 2009, 91 (1): 1- 23.
Asness C S, Frazzini A, Pedersen L H, (2017). Quality Minus Junk[R/OL]. SSRN, https://ssrn.com/ab-stract=2312432.
Blitz D , Van Vliet P , The Volatility Effect[J]. Journal of Portfolio Management, 2007, 34 (1): 102- 113.
Carhart M M , On Persistence in Mutual Fund Performance[J]. Journal of Finance, 1997, 52 (1): 57- 82.
Chen S X , Nonparametric Estimation of Expected Shortfall[J]. Journal of Financial Econometrics, 2008, 6 (1): 87- 107.
Chernozhukov V , Belloni A , ℓ1-Penalized Quantile Regression in High-dimensional Sparse Models[J]. Annals of Statistics, 2011, 39 (1): 82- 130.
Chinco A , Clark-Joseph A D , Sparse Signals in the Cross-section of Returns[J]. Journal of Finance, 2019, 74 (1): 449- 492.
Efron B , Hastie T , Johnstone I , Least Angle Regression[J]. Annals of Statistics, 2004, 32 (2): 407- 499.
Fama E F , French K R , The Cross-section of Expected Stock Returns[J]. Journal of Finance, 1992, 47 (2): 427- 465.
Fastrich B , Paterlini S , Winker P , Constructing Optimal Sparse Portfolios Using Regularization Methods[J]. Computational Management Science, 2015, 12 (3): 417- 434.
Frazzini A , Pedersen L H , Betting Against Beta[J]. Journal of Financial Economics, 2014, 111 (1): 1- 25.
Freyberger J , Neuhierl A , Weber M , Dissecting Characteristics Nonparametrically[J]. Review of Financial Studies, 2020, 33 (5): 2326- 2377.
Haugen R A , Baker N L , Commonality in the Determinants of Expected Stock Returns[J]. Journal of Financial Economics, 1996, 41 (3): 401- 439.
Huang J J, Shi Z, (2010). Determinants of Bond Risk Premia: A Machine-Learning-Based Resolution of the Spanning Controversy[C]//AFA 2011 Denver Meetings Paper, https://ssrn.com/abstract=1573186.
Huang J , Horowitz J L , Wei F , Variable Selection in Nonparametric Additive Models[J]. Annals of Statistics, 2010, 38 (4): 2282- 2313.
Lintner J , The Valuation of Risky Assets and the Selection of Risky Investments in Stock Portfolios and Capital Assets[J]. Stochastic Optimization Models in Finance, 1969, 51 (2): 220- 221.
Liu J , Stambaugh R F , Yuan Y , Size and Value in China[J]. Journal of Financial Economics, 2019, 134 (1): 48- 69.
Mohanram P S , Separating Winners from Losers Among Low Book-to-Market Stocks Using Financial Statement Analysis[J]. Review of Accounting Studies, 2005, 10 (2-3): 133- 170.
Mossin J , Equilibrium in a Capital Asset Market[J]. Econometrica, 1966, 34 (4): 768- 783.
Novy-Marx R , The other Side of Value: The Gross Profitability Premium[J]. Journal of Financial Economics, 2013, 108 (1): 1- 28.
Ross S A , Options and Efficiency[J]. Quarterly Journal of Economics, 1976, 90 (1): 75- 89.
Sharpe W F , Capital Asset Prices: A Theory of Market Equilibrium Under Conditions of Risk[J]. Journal of Finance, 1964, 19 (3): 425- 442.
Tibshirani R , Regression Shrinkage and Selection Via the LASSO[J]. Journal of the Royal Statistical Society: Series B (Methodological), 1996, 58 (1): 267- 288.
Xu X , Ghosh M , Bayesian Variable Selection and Estimation for Group LASSO[J]. Bayesian Analysis, 2015, 10 (4): 909- 936.
Yuan M , Lin Y , Model Selection and Estimation in Regression with Grouped Variables[J]. Journal of the Royal Statistical Society: Series B (Statistical Methodology), 2006, 68 (1): 49- 67.

基金

国家自然科学基金(71850010)
国家自然科学基金(71772121)
国家自然科学基金(71790592)
上海市"科技创新行动计划"软科学重点项目(20692191700)

版权

版权所有,未经授权。
PDF(791 KB)

3802

Accesses

0

Citation

Detail

段落导航
相关文章

/