在大数据框架下基于吉布斯抽样的随机搜索方法在金融风险特征提取中的应用

袁先智, 狄岚, 李祥林, 郭铁信, 李波, QIANGuoqi, 张千友, 严诚幸, 刘海洋, 吴桐, 曾途, 周云鹏

计量经济学报 ›› 2021, Vol. 1 ›› Issue (2) : 377-408.

PDF(1732 KB)
PDF(1732 KB)
计量经济学报 ›› 2021, Vol. 1 ›› Issue (2) : 377-408. DOI: 10.12012/CJoE2020-0038
论文

在大数据框架下基于吉布斯抽样的随机搜索方法在金融风险特征提取中的应用

    袁先智1,2,5,6,8(), 狄岚3, 李祥林4, 郭铁信2, 李波5, QIANGuoqi7, 张千友8, 严诚幸6, 刘海洋6, 吴桐6, 曾途6, 周云鹏6,*()
作者信息 +

The Framework for the Extraction of Risk Factors by using Stochastic Search Method based on Gibbs Sampling Algorithm in Fintech

    George YUAN1,2,5,6,8(), Lan DI3, David LI4, Tiexin GUO2, Bo LI5, Guoqi QIAN7, Qianyou ZHANG8, Chengxing YAN6, Haiyang LIU6, Tong WU6, Tu ZENG6, Yunpeng ZHOU6,*()
Author information +
文章历史 +

摘要

本文的目的是在大数据框架下,系统地陈述了如何利用吉布斯抽样(Gibbs sampling)方法作为工具,以样本误差容忍度为标准的大数据关联特征因子提取的推断原理为基础,在金融衍生品场景下对关联风险特征进行有效提取的思维和路径.具体来讲,采用马尔可夫链蒙特卡罗(MCMC)框架下的吉布斯抽样(Gibbs sampling)算法为工具,通过"OR值"(odds ratio)(也称为"比值比"或"优势比")为验证标准,在大数据(包含传统的结构化和非结构化数据)一般框架下对高度关联特征因子提取推断的原理下,系统性地陈述了如何从海量数据中提取与金融衍生品价格或者风险关联度高的风险特征因子的随机搜索方法.为了能够比较全面地展示如何利用吉布斯抽样方法通过随机搜索算法来实现对金融衍生品风险特征的提取,在本文中,我们对三种金融产品的关联特征提取进行了比较全面和系统的讨论,他们是:1)对支持"基金中的基金"(fund of funds,简称"FOF")组建的影响基金业绩关联特征的挖掘;2)对影响大宗商品期货螺纹钢价格趋势变化的关联特征指标的挖掘;3)对影响大宗商品期货铜价格趋势分析的关联特征刻画的提取.本文的分析和实证结果表明,我们在大数据框架下建立的特征提取方法除了能够有效地筛选出刻画影响基金业绩的关联特征外,也够提取出影响螺纹钢期货和铜期货价格趋势变化的关联特征,这为业界对FOF的组建与管理,对应金融衍生品价格变化走势,特别是大宗期货交易和风险管理方面提供了一种新的分析维度和风险特征因子应用方向.另外,本文讨论的从大数据的视角筛选金融衍生品风险特征因子的方法,也与过去传统的计量分析方法不同,是金融科技在大数据金融方面分析和应用的创新点.

Abstract

The purpose of this paper is to systematically state how to use the Gibbs sampling method as a tool, based on the inference principle of big data association feature factors to conduct the extraction of related risk characteristics in the context of financial derivatives. Specifically, using stochastic search method based on Gibbs sampling algorithm under the framework of Markov chain Monte Carlo (MCMC), incorporating the "odd ratio" as criteria, taking FOF, commodity futures as examples, this report systematically discusses how to extract related risk factors for financial derivatives based on big data (including traditional and non-structure data) approach as shown by using so-called stochastic research method. Furthermore, we like to point out the way to identify the risk factors based on big data method established in this paper is quite now and should be useful for the financial service in the practice of Fintech.

关键词

大数据 / 吉布斯抽样 / 随机搜索 / 马尔可夫链蒙特卡罗 / 金融科技 / 关联风险特征 / 基金中的基金 / 大宗商品期货 / 价格趋势 / 特征因子方法 / 大数据特征推断框架

Key words

big data / Gibbs sampling / stochastic search / Markov chain Monte Carlo / fintech / risk characteristics / FOF / commodity futures / price trend / risk factor method / the framework for the extraction of risk characteristics

引用本文

导出引用
袁先智 , 狄岚 , 李祥林 , 郭铁信 , 李波 , QIANGuoqi , 张千友 , 严诚幸 , 刘海洋 , 吴桐 , 曾途 , 周云鹏. 在大数据框架下基于吉布斯抽样的随机搜索方法在金融风险特征提取中的应用. 计量经济学报, 2021, 1(2): 377-408 https://doi.org/10.12012/CJoE2020-0038
George YUAN , Lan DI , David LI , Tiexin GUO , Bo LI , Guoqi QIAN , Qianyou ZHANG , Chengxing YAN , Haiyang LIU , Tong WU , Tu ZENG , Yunpeng ZHOU. The Framework for the Extraction of Risk Factors by using Stochastic Search Method based on Gibbs Sampling Algorithm in Fintech. China Journal of Econometrics, 2021, 1(2): 377-408 https://doi.org/10.12012/CJoE2020-0038

1 引言

近十几年来, 随着科技的进步和金融全球化, 金融行业呈现出快速发展的趋势.科技创新与金融的有机结合不断推动着全球数字经济的发展, 普惠金融、数字资产、量化投资和金融大数据等在金融行业中得到了广泛的应用, 不断扩张和高速发展的复杂信息网络, 使得海量的数据运用到金融领域.大数据规模庞大, 诸多数据源不仅包含基于结构化数据, 还包含基于不同时间和不同领域融合的非结构化数据, 这些数据随着市场规模扩大和时间延伸呈几何递增, 在金融行业中形成了动态演化的复杂数据网络结构.在金融行业中提取海量数据中的有效关联信息, 特别是对非结构化信息的处理, 并运用于风险管理、决策分析等领域, 具有重大的理论和实践价值, 本文讨论的在大数据框架下对金融行业中高度相关的风险特征因子的提取方法, 正是在金融行业的场景问题日益增加的情况下, 结合大数据思维和方法推出的一种解决方案, 特别是在处理非结构化风险因子特征数据方面提供了一个全新的角度和思维, 是金融计量分析方法的创新.
本文在大数据的框架下, 结合宏观和微观的传统的结构化和非结构化因素, 从大数据角度出发, 以金融行业产品相关的非结构化和结构化风险特征数据作为初始特征因子, 在给定随机样本的误差容忍度下(比如不超过5%的误差), 系统性地陈述了基于吉布斯抽样(Gibbs sampling)的随机搜索实现提取金融风险高度关联特征的方法和推断原理, 并进一步将特征进行强弱关联关系分类, 用于支持金融产品管理评估, 产品价格变化的趋势分析等具体应用.本文选择取了FOF (fund of funds, 基金中的基金), 大宗商品期货螺纹钢和期货铜三种产品进行对应的实证分析, 其分析结果表明了方法的可靠性.本文的特征提取和分类方法为解决在大数据复杂场景情况下如何进行金融风险特征因子的筛选和特征因子的分类, 对应金融衍生品的分析与风险防范, 特别是支持大宗期货交易和风险对冲管理方面提供了一种新的分析维度和问题解决的新方法.
本文的安排如下: 第1节是引言介绍; 第2节是文献综述; 第3节是基于大数据思维针对金融关联特征提取与推断原理框架建立的陈述; 第4节是针对金融真实场景的非结构化风险特征因子提取的分析与结果讨论; 最后第5节是本论文结果的综述.
我们希望指出的是, 基于大数据思维, 利用吉布斯抽样(Gibbs sampling)方法作为随机搜索的工具, 针对金融场景进行大数据(因此, 多维度)的关联特征因子筛选, 这种新方法可以为我们更加深刻的展示影响金融场景变化的本质关联特征.

2 文献综述

近十年, 随着中国与国际接轨的步伐加快, 金融市场在中国的发展越来越迅速和稳健, 对于金融衍生品的定价及价格趋势演变的研究也成为了学术界研究的重点领域.本文要讨论的FOF、大宗期货期货铜和螺纹钢, 相关的研究评述如下.

2.1 基金

在他们的研究中, 学者Ippolito (1993) and Wermers (2000)认为基金历史业绩反映了基金经理的管理能力, 从而会影响基金未来业绩. Brennan and Hughes (1991)的研究发现, 基金规模越大, 将有利于内部的资源整合, 可以大幅降低交易费用和交易成本, 从而提高业绩.但Elton et al. (1995)的实证研究表明, 基金规模会侵蚀基金业绩, 即达到一定规模的基金会出现规模不经济. Chen et al. (2004)则认为导致基金规模侵蚀基金业绩的原因在于流动性和组织不经济的相互作用. Sharpe (1966)以美国34家共同基金为样本, 发现收取较低管理费的基金业绩表现更突出, 而Golec (1996)通过对基金的月度收益数据进行回归分析发现, 基金业绩与费用负相关.
梁珊等(2016)通过实证检验发现, 开放式股票型基金规模对基金选股能力和基金平均风格收益存在倒U型的影响.关于基金费用对基金业绩影响的研究, 一般认为较高的费用代表基金管理者个人投入多, 实力强, 则基金投资管理能力也应该较好, 则投资业绩较佳.除此之外, 国内学者还关注于基金业绩和基金资金流量之间的关系以及对"赎回异象"进行分析, 即基金的净资金流随着基金业绩的增长反而下降(陆蓉等(2007), 李志冰和刘晓宇(2019)), 但也有研究表明基金业绩和资金流量之间具有一定的正相关关系(肖峻和石劲(2011), 刘京军和苏楚林(2016)).
除了基金自身的因素外, 基金经理的个人特质、职业特质和能力特质也会影响基金的业绩.就基金经理的性别而言, Barber and Odean (2001)的研究表明, 男性基金经理比女性基金经理交易更加频繁, 而频繁交易所带来的交易成本的增加会使得男性基金经理的收益率较低, 与之相反, Bliss et al. (2008)的研究则发现性别对风险调整后的收益没有明显影响.赵秀娟和汪寿阳(2010)的研究结果发现, 在我国基金市场发展的初始阶段, 与一般的基金经理相比, 经验丰富的基金经理获得了更高的投资收益率.基金公司特征对基金业绩也会产生影响, 基金管理公司经营规模反映了基金管理公司的整体实力, 通常会认为基金管理公司规模越庞大, 实力越雄厚, 旗下基金数量越大, 基金整体水平可能较高, 存在规模效应(Pollet and Wilson (2008), Gruber (1996), Massa (2003)).
基金的特征种类繁多, 海量的特征中包含非结构化的文本数据特征, 难以进行有效的量化判断.王天思(2016)提出在大数据中, 相关关系是对因果派生关系的描述.与大部分研究基金特征与基金业绩关系均基于回归分析所不同, 本文将从特征关联规则的角度进行特征筛选.关联规则是对事物间存在的相互依存的关联关系的描述, 研究如何从海量随机数据中快速有效的挖掘有价值的关联规则信息具有重要的理论和实际意义. Agrawal et al. (1993)首先提出了关联规则的概念及Apriori算法, 提出动机是针对购物篮分析(Market Basket Analysis)问题.但在搜索关联规则空间时实现这些算法计算上非常困难, 规则空间随着特征数的增加呈指数级扩大.之后诸多学者都对关联规则挖掘问题进行了大量的理论探索、算法改进和设计. Qian et al. (2016)袁先智等(2020)提出基于吉布斯采样构建的算法, 在不损失信息情况下大大减少后续挖掘规则空间.

2.2 大宗商品期货

期货市场具有规避风险和价格发现的功能.期货价格是期货交易的核心要素之一, 同时也是反映整个期货市场的运行状况主要因素, 合理有效的期货价格可以起到先导作用及弥补现货价格滞后的问题.随着国内期货市场的不断完善和发展, 期货市场在宏观经济运行中的作用也显得愈发突出, 因此对于期货定价的研究具有重要意义.
大宗商品作为期货市场的主要标的, "消费属性" 是大宗商品的基本属性.不过, 随着金融市场不断发展以及期货、期权、ETF等金融产品不断丰富, 大宗商品的金融化特征不断加强(Krippner (2005), Tang and Xiong (2012)), 除了传统意义下的"微观"和"宏观" (基本面)等因素外, 更多影响大宗商品的价格变化的特征因素(因子)愈发明显.同时, 由于大数据时代带来的信息的量级递增, 许多高度关联大宗商品价格的关联因素以非结构化数据的形式出现, 对大数据的分析处理正成为解决和分析传统问题与盲区的有效手段和新的角度.因此在大数据框架下, 以大量(海量)的结构化和非结构化的大宗商品数据为基础数据池, 通过大数据特征筛选和提取方法, 建立关于大宗商品的影响因素研究, 尝试建立在给定的误差容忍度下与大宗商品价格变化关联度较高的特征指标体系, 该类通过大数据的非结构化与结构化数据融合后的特征指标, 将会成为改善优化传统数据分析处理结果的重要因素.
从国际的相关研究中可以发现, 单因素模型中以现货的价格为变量, 并假设其价格服从布朗运动, 被Brennan and Schwartz (1985)提出用来解释期货价格变化相关的问题. Schwartz (1997)提出的由现货价格和随机便利收益两个状态变量来决定期货定价的两因子模型也是判断和预测期货价格的一种方法, 同时Schwartz (1997)在两因子中加入了利率的状态变量形成的三因子模型, Cassassus et al. (2005)改进提出了三因子仿射期限结构模型, 都是为了研究和解决期货价格变化的问题.部慧(2016)构建了期货价格期限结构的两因子模型, 针对铜期货市场期货价格期限结构进行了研究, 也证实了Schwartz (1997)两因子模型适用于拟合我国的铜期货价格合约.王苏生等(2010), 韩立岩等(2012)在三因子的选择和研究中, 分别加入了短、中期偏离, 长期均衡的影响因素来判断期货价格走势, 还运用了便利和长期收益与现货价格之间的关系来构建模型, 目的是为了在期货价格变化因子无规律的假设前提条件下, 找到对期货价格影响的重要因素.
学术界和业界对于大宗商品期货的价格影响特征因素分析也存在着诸多的研究, 试图从中找到解释其价格变化的方法. Bhar and Hamori (2004)通过黄金期货合约交易量和价格之间的关系分析, 希望找出解释两者之间和黄金价格波动的关系. Hamilton and Susmel (1994)提出RS-ARCH模型, 用以刻画随时间变化下的期货价格波动规律. Tully and Lucey (2007)利用GARCH模型对1982–2002年间COMEX黄金期货数据进行检验, 发现其收益率波动呈现明显的日历效应. Wang et al. (2019)从供求因素、金融因素和投机因素三个方面对国际黄金期货的价格方向和强度进行了研究分析.部慧等(2008)从国际期货交易商行为的角度实证分析了国际基金行为与国际期货价格之间的关系, 为国际期货的价格分析和风险管理提供了方法.
刘轶芳等(2006)采用GARCH-EWMA模型来预测期货价格, 对衰减因子进行确定来区分不同期货商品的预测模型.刘立霞和马军海(2008)提出了基于最小二乘支持向量机的石油期货价格预测模型, 用于简化神经网络预测的复杂性问题.董晓娟等(2018)研究了铜铝锌期货价格的联动关系, 并得到了多个网络拓扑结构的演化特征和期货联动价格之间的关系.周伟和王强强(2016)通过Granger因果检验、GARCH模型分析了贵金属与其他金属期货之间的价格联动关系, 给出了不同前置条件下的价格传导效应发生的时间先后及方向性分类.陈海鹏等(2017)提出了基于产业链的多元线性回归来预测螺纹钢价格的模型.朱晋(2004)提出了多元模型分析, 强调影响期货价格的因素太多, 用多元模型分析找出关联因素, 用来反映期货价格变动, 实现预测.
另外, 在针对大宗商品期货价格波动率变动方面, 张保银和陈俊(2012), 董珊珊和冯芸(2015), 黄健柏等(2014)分别通过建立VEC模型、分数协整向量自回归模型(FC-VAR)、状态空间模型, 基于实证分析认为我国沪铜商品其后果价格波动具有尖峰厚尾、集聚性和长记忆性等特征. Hamilton and Susmel (1994)将马尔可夫链引入自回归模型中, 提出了RS-ARCH模型, Gray (1996)则将其发展到RS-GARCH模型, 认为这一模型具有较好的拟合效果.
还有, 在基于不同金融市场与期货价格之间联动性的研究方面, 高辉等(2007), 张屹山等(2006), 郭树华等(2010)分别从格兰杰检验、协整分析、误差修正模型(ECM)等计量方法分析了国内外金属期货市场之间的价格联动性.胡东滨和张展英(2012)运用DCC-GARCH模型对于金属期货与外汇、货币市场的动态相关性进行了深入研究. Yue et al. (2015)等采用VAR-DCC-GARCH模型, 研究中国金属市场和LME市场金属价格间的动态联动性.李洁和杨莉(2017)考虑不同期货市场、不同期货品种间的关联关系, 对中英期货市场的期铜、期铝、期锌之间的价格交叉影响和风险传导进行了针对性的分析.

2.3 综述

到目前为止, 尽管大多数的大宗商品定价模型能够在很大程度上拟合期货价格的期限结构以及价格变化规律, 但是这些传统模型对于期货价格的解释还存在许多问题, 比如不能很好地反映所有相关指标对期货价格的影响: 一个基本的原因在于目前的大宗商品定价模型只是基于传统的结构化数据信息通过因果关系来对商品价格的变化进行描述.但是, 我们知道大宗商品的"消费、金融二重属性" 给期货价格变化的带来的影响是复杂的, 传统的定价模型无法反映海量的非结构化数据提供的相关信息.本文旨在基于上述方法, 在给定的误差容忍度标准下, 提炼出与大宗商品价格变化具有高度相关的特征指标, 围绕大宗商品的基础指标、产业指标、宏观指标等指标建立一套完善的大宗商品价格特征指标体系, 为大宗商品的定价和趋势分析提供一种全新的大数据分析方法.
国内外学者对基金业绩的特征影响和大宗商品期货的价格趋势波动也进行了大量的研究, 但在金融科技领域, 基于大数据框架下对多维海量数据的特征信息提取的方法运用还比较少, 特别是基于随机搜索方法及其应用, 以Gibbs抽样方法的研究应用为例, Geman (1984), Schwarz (1978), Qian and Field (2002)先后完成了一系列基础性的工作. 比如, Qian et al. (2019)利用基于Gibbs抽样方法针对贝叶斯多变点问题进行了研究; Glasserman (2013)利用在马尔可夫链框架下的蒙特卡罗(MCMC) 方法在计量金融方面进行了大量的应用研究; Narisetty et al. (2019)讨论了一种用于支持模型选择的一致可伸缩Gibbs抽样算法的研究, 但是比较全面的基于Gibbs抽样计算利用随机搜索方法针对金融衍生品的关联(风险)特征指标的提取方面的系统性研究和方法目前并不多见, 特别是在大数据框架下以多维度数据信息为基础, 样本的控制误差容忍度(比如不大于5%)的前提下建立与基金业绩管理相关或与期货价格趋势变化的强弱关联关系相关的特征因子提取和关联程度分类方面的工作更是少见.因此, 本文希望比较系统性地讨论如何提出支持金融衍生品特征风险因子提取的筛选方法, 并进一步将关联特征因子按强弱相关性进行强弱的分类, 最终形成在大数据框架下针对金融衍生品的大数据复杂(非结构化和结构化数据)结构提取风险特征的一般方法论与实现步骤.

3 基于大数据思维针对金融关联特征提取与推断原理框架建立的陈述

本部分的目的是以吉布斯抽样(Gibbs sampling)为工具, 通过随机搜寻方法来实现基于大数据思维对金融场景的关联特征提取与配套推断原理相结合的框架建立进行系统性的陈述.基于前述文献回顾和理论分析, 本节分两部分阐述特征提取的基本思路和介绍特征筛选算法.

3.1 关联特征因子提取的基本思路

本文的重点是如何建立针对金融衍生品如基金业绩或大宗商品期货价格变化的主要特征指标(变量)的提取方法.需要指出的是提取该类关联特征指标不是基于传统统计计量回归分析工具来直接实现, 本文需要考虑多维复杂数据中存在金融衍生品相关特征因子的同时, 又面临样本观测量不够的客观现实困难的情况下, 需要采用新的方法和路径来实现有效的特征提取工作.
在通常情况下, 假定有M个可能影响基金业绩或大宗商品期货价格的变量, 最基本的筛选方法是考虑所有可能的组合情形.但对这种考虑所有可能组合的方法, 即使只考虑线性组合, 也至少有2M次的判断处理, 这就是典型的NP问题(1981).另一方面, 如果使用统计回归分析方法, 可能会出现在建模时, 支持M个自变量的统计推断模型方法面临样本观测量不够的问题.为了解决NP问题和样本观测量不够的困难, 从20世纪50年代开始, 在马尔可夫链蒙特卡罗模拟(MCMC)框架下的Gibbs抽样方法, 其实质是通过随机搜索(stochastic search)的思想(参见3.2节五大步骤的陈述, Qian et al. (2016,2019), Narisetty et al. (2019)的讨论)就日趋流行和发展起来, 可以解决本文提到的面临NP问题(Paz and Moran (1981))和样本观测量数据不够的前提下的许多实践与应用问题. Gibbs抽样方法在过去30多年来也得到极大发展, 见参考文献(Qian and Field (2002), Glasserman (2013)), 在此不再详述.
因此本文工作的核心是在MCMC框架下利用Gibbs抽样方法来建立影响基金业绩或大宗商品期货价格趋势变化的关联特征因子的随机会搜索提取的方法, 即假定每个特征因子服从伯努利分布, 然后对特征空间(所有可能的特征因子的集合)进行随机抽样, 在随机抽取特征因子时, 保证随机抽取出的特征因子包含观测到的样本的初始特征(即下面第3小节中陈述的实现路径的第一步), 然后通过引进AIC标准(Akaike information criterion) (Akaike (1974))或者BIC标准(Bayesian information criterions) (Geman (1984))实现对特征因子的随机搜索(即下面第3.2节中陈述的实现路径的第二步).同时, 在特征因子服从伯努利分布的假定下, 通常要求使用的Gibbs抽样方法结果的显著性表现误差不能大于5%, 需要设定控制误差的随机抽样样本次数为400次(参见下面第3.2节中陈述的实现路径的第三步的推导解释), 这样就解决了特征空间复杂度高而且观测样本不足的问题, 并将NP问题通过Gibbs抽样方法中用到的随机搜索(stochastic search)转化为多项式复杂度问题, 从而减少计算的复杂度: 即在观测样本数量有限的条件下, 通过Gibbs抽样方法(基于AIC或BIC准则构造转移矩阵)对特征因子的所有情况(构建成的幂集)进行筛选, 筛选并得出与基金业绩或期货价格相关的关联特征.
在通常情况下, 基于多维数据, 可以得到许多关联特征因子, 为了筛选出与基金业绩或期货价格变化高度关联的特征因子, 在本文的讨论中, 以Logistic回归模型为工具, 通过对应的odds ratio指标作为分类的标准参数, 将Gibbs抽样方法得到的影响基金业绩或期货价格趋势变化的特征因子进行分类.在本文中将特征因子分为"强相关特征" "一般相关特征"和"弱相关特征" (或者分为"核心关联"和"高度关联"二大类) (见下面第4节中的讨论应用).在对关联风险特征因子的提取中, 本文通过Gibbs抽样的方法解决了基金业绩或期货价格变化趋势的风险特征因子筛选所面临的NP问题和样本观测量不足的问题.为了便于读者理解, 下面阐述Gibbs抽样方法的技术实现流程.

3.1.1 支持随机搜索的吉布斯抽样(Gibbs sampling)方法的技术实现

在人类面临的几乎所有问题中, 我们都面临数据样本(特别是坏样本, 或者包含特征因素样本)不够的问题. 20世纪推出的吉布斯抽样(Gibbs sampling) (Geman (1984))是一种简单有效并且广泛应用的马尔可夫链蒙特卡罗(MCMC) 的算法, 由于在复杂采样的过程中不易造成偏差的特性, 特别适宜于从复杂的多元概率分布中产生随机向量.一般来讲, 基金业绩或期货价格变化是受众多复杂因素决定, 假定需要找到与基金业绩或期货价格变化有潜在关联的M个特征(记为zi,i=1,2,,M)的观测值, 假设价格涨跌是服从依赖于这M个特征的概率模型, 那些影响价格涨跌但未被观测到的特征归入该概率模型的随机部分, 基于此概率模型, 本方法的目标是将M个特征进行分类, 分为"强相关特征" "一般相关特征"和"弱相关特征"三类, 将与价格涨跌形成核心和高度关联的特征区分出来, 形成基金业绩或期货价格趋势分析的关联特征和方法.由于M的个数的值可能很大, 且M个元素之间存在互相关联的关系, 不能简单孤立地处理, 而任何一组给定的特征和价格涨跌的可能的关联可以考虑用logistic回归模型进行分析, 这样就可以用logistic回归模型来构造关于价格涨跌与任何一组特征关联关系的概率分布函数, 表示为p(z)=p(z1,,zM), 其中zi=1表示特征i被用在所分析的logistic回归模型里, zi=0表示特征i没有被用在所分析的logistic回归模型里.在这种情况下, 可以将原始目标转换为找出(z1,,zM)的最优值使得p(z)在那里取得最大概率.但因为搜索特征因子所有可能组合构成的集合空间的大小是2M, 直接找最优的(z1,,zM)在计算上不可行, 所以必须尝试降低复杂度.将最优值问题转换成从概率分布p(z)产生一系列随机向量问题.因为最优z值在生成随机样本里是最有可能出现, 这样就可以在生成随机样本里搜索最优关联特征集, 并降低计算复杂度.
基于以上的思路, 本文把基于logistic回归模型获得的关联关系强弱度用条件概率来进行描述, 然后按照Gibbs的抽样方法, 把每个步骤涉及到的一个变量的值替换为以剩余变量的值为条件, 从这个条件概率分布中抽取对应变量的值.本文将zi替换为从概率分布p(zi|zi)中抽取的值(其中zi表示zi个元素的指标变量, zi表示z1,z2,,zM去掉zi这一项).这个步骤要么按照某种特定的顺序在变量之间循环, 要么每一步按照某个概率分布随机地选择一个变量进行更新.这个Gibbs抽样的整体过程的实现流程可以表达如下:
初始化zi:i=1,,M;
对于τ=1,,T, 进行如下步骤抽样:
抽样z1(τ+1)p(z1|z2τ,z3τ,,zMτ);
抽样z2(τ+1)p(z2|z1(τ+1),z3τ,,zMτ);
抽样zm(τ+1)p(zm|z1(τ+1),,z(m1)(τ+1),z(j+1)τ,,zMτ);
抽样zM(τ+1)p(zM|z1(τ+1),z2(τ+1),,z(M1)(τ+1));
通过抽样得到随机变量组: (z11,z21,,zM1),(z12,z22,,zM2),,(z1T,z2T,,zMT).
经过多次迭代后, 样本与初始状态的分布无关.正是由于Gibbs的特殊性质, 本文将基于Gibbs抽样构建全新的大数据特征筛选方法, 用于特征指标的筛选.

3.2 基于Gibbs抽样方法支持下的关联特征因子的提取方法陈述

如前文所述, 影响基金业绩或期货价格变化的因素非常多, 本文在数据复杂, 观测数据有限的前提下, 采用在马尔可夫链蒙特卡罗(MCMC)框架下的Gibbs抽样算法, 通过odds ratio作为验证标准参数, 实现基金业绩或期货价格变化趋势相关的特征因子的提取, 并根据关联强弱性进行分类, 从而支持对基金业绩或期货价格变化趋势的分析.在Gibbs抽样方法技术实现流程的基础上, 对影响基金绩效或期货价格特征因子的提取方法的具体实现步骤如下:
第一步: 建立初始化模型, 构建初始特征集合.随机抽取一个特征子集I0用于初步的模拟建模, 将初始模型中系数不为0的特征记为1, 系数为0的特征记为0, 则有:
I0=(0,1,1,,0){0,1}k.
(1)
第二步: 构建支持随机抽样的标准.基于AIC (Akaike information criterion) (Akaike (1974))、BIC (Bayesian information criterions) (Geman (1984))构建指标条件概率函数p(z), 如等式(2)和等式(3)所示.
PC(js=1|Js)=PC(js=1|JsIC)PC(js=1|JsIC)+PC(js=0|JsIC),
(2)
其中, js表示第s个特征, Js表示除第s个特征之外的全部特征的组合, IC表示Js这一组合的确定值. 然后分别基于AIC和BIC方法构建两组条件概率分布函数, 目的是在最后一步中比较两者的模型效果, 条件概率分布函数可表示为:
{PAIC(js=1|Js)=exp(AIC(js=1|Js))exp(AIC(js=0|Js))+exp(AIC(js=1|Js)),PBIC(js=1|Js)=exp(BIC(js=1|Js))exp(BIC(js=0|Js))+exp(BIC(js=1|Js)).
(3)
第三步: 构建支持随机抽样样本量.为构建并设定在给定控制误差(通常使用显著性表现误差小于5%)下需要实现随机样本量, 进入抽样过程需要完成随机模拟至少为400次, 推导如下:
计算每一个特征进入模型的频率, 这个频率即表示该特征与被预测变量之间的关联显著性.对于各个特征的Gibbs抽样, 整个抽样过程是对所有特征构建的集合空间进行的抽样, 每个特征子集是否包含某一个特征由于假定服从伯努利分布, 根据蒙特卡罗模拟的标准差公式, 反映关联规则显著性的频率指标的标准差(Std(p)) 如下面等式(4)所示:
Std(p)=p(1p)M<14M.
(4)
由等式(4)可知, 进行风险特征的提取在2σ的误差控制准则下(当p=1/2时), 若要保证显著性表现误差小于5%, 其对应的模拟需要进行至少M=400次的抽样.
第四步: 通过计算关联的显著性进行特征因子的分类.即通过odds ratio指标对特征因子与基金绩效或期货价格变化的关联强度进行分类.可以把基于Gibbs抽样得到的特征指标结果解释为每个特征进入模型的次数, 经过进一步计算可以得到关联显著性(关联显著性=特征出现次数/抽样总次数(400)).关联显著性表示一个参数的重要程度, 特征指标的关联显著性越高, 与特征关联性就越强, 但由于关联显著性存在误差, 为了更精确地反映特征与基金绩效或期货价格变化的相关性, 本文将应用odds ratio来对特征因子与基金绩效或期货价格变化的相关性强弱进行分类.
第五步: 构建最终趋势分析模型并进行模型效果测试.选择关联显著性的大于某个设定水平(根据实际工作的需要设定)的特征指标建立逻辑回归模型, 分别在训练集合和测试集合中检验模型的效果.
这样, 以吉布斯抽样(Gibbs sampling)为工具, 通过随机搜索方法, 本节完成了基于大数据思维对金融场景关联特征提取框架及配套的推断远离的构建. 作为应用, 下文将讨论如何将本部分的方法和推断原理对真实金融场景的风险特征进行提取和刻画工作.

4 针对金融场景的非机构化风险特征因子提取的分析讨论

针对真实的FoF和大宗商品的螺纹钢和铜期货产品, 本节从下面两个层面来阐述如何使用上述一般方法到实证分析: 第一, 建立初始特征样本池, 提取关联特征; 第二, 基于OR值标准进行相关强弱性验证和分类, 构建支持基金绩效和期货价格变化的特征指标.

4.1 基金绩效变化的关联特征提取的实证分析

4.1.1 基金初始特征样本的选取

本文选择Wind基金评级无缺失的701个债券型基金样本用于特征挖掘及分类模型构建.训练集和测试集的样本中"好" "中" "坏"三个等级的样本比率相同, 并按照3:1的比例将总样本划分为训练集(526个样本)和测试集(175个样本).在本文的分析中, 训练集将用于特征挖掘、模型的参数估计与模型效果的初步检验, 测试集将用于模型效果的最终检验及"坏"样本的阈值划定.
基金的业绩表现通常从基金的投资收益与风险的角度进行衡量.综合考虑基金投资收益与风险的指标中较为经典的三个指标分别为: 詹森指数、夏普比率、特雷诺比率(Jensen (1969), Sharpe (1966), Treynor (1965)).目前多家评级机构和学者都提出了较新的业绩评价体系和方法, 这些方法基本上都是对传统的经典方法的拓展和改进.为了使分析结果符合中国市场的一般规律, 本文中对于基金业绩表现将基于万得资讯(下文中简称Wind)提出的Wind基金评级给出. Wind基金评级是建立在投资者风险偏好的基础上的, 它通过投资者的风险厌恶指数对基金收益进行调整定义了万得风险调整收益(简称WRAR), 再根据基金的WRAR的相对排名将基金划分为五个等级(一星至五星), 其中一星最差, 五星最好.本文基于基金样本中Wind评级对基金业绩表现进行重新划分: 将评级为一星的定义为"坏"基金, 将评级为二星和三星的定义为"中"基金, 将评级为四星和五星的定义为"好"基金.

4.1.2 影响基金业绩的特征因素分析

目前为止, 大多数对与基金的业绩表现评估的研究主要还是集中于财务类指标维度, 对于基金公司和基金经理维度方面的研究没有过多的涉及, 主要原因是对非结构化数据的处理存在一定的困难.针对这些情况, 本文从基金本身、基金经理和基金公司三个维度出发, 建立基础评分指标, 同时结合特征筛选方法提取与基金业绩表现高度相关的特征指标, 实现对基金业绩表现的评估.
1) 基金本身维度的特征
通过对文献的梳理可以发现基金本身的特征将会对基金业绩产生影响.如前文所述基金历史业绩能够对基金未来业绩产生影响, Brennan and Hughes (1991)的研究认为基金规模的扩大能够带来费用和成本的降低, 对基金业绩带来积极影响.基金的风险指标、投资结构及其他关联特征也有可能对基金的业绩表现产生影响, 特别是面临行情变化时前两者对基金业绩的影响就显得较为重要.
2) 基金经理维度的特征
基金经理维度特征由个人特质、职业特质和能力特质三方面组成. Barber and Odean (2001)针对男女投资经理的投资行为进行对比发现男性经理投资行为更加积极, 国内高鹤等(2014)针对基金经理的性别、基金经理的教育背景与基金业绩表现的关系进行了研究, 结果显示性别和教育背景对基金业绩表现的影响并不显著.赵秀娟等(2011)的研究表明基金经理经验和能力与基金业绩间存在正相关关系, 肖继辉和彭文平(2012)的研究进一步说明了基金经理的基金从业经验和教育程度等个人特征将影响投资者申赎行为, 与基金的超额收益存在正相关关系.综上, 基金经理的业绩、声望、管理费激励等反映基金经理能力特质的因素也可以纳入与基金业绩有关联的特征指标池.
3) 基金公司维度的特征
毛磊等(2012)的研究结果表明, 机构投资者表现出对企业社会绩效的持股偏好.袁知柱等(2014)的研究结果表明, 机构投资者持股比例与真实盈余管理程度显著负相关, 与应计盈余管理程度显著正相关; 曾德明等(2006)的研究认为基金公司规模越大, 对每只基金的支持和提供的资源越分散, 会对基金的业绩表现产生负面影响, Elton et al. (1995)持有同样的观点.但是Pollet and Wilson (2008)持有刚好相反的观点, 与Gruber (1996)一样, 认为基金公司规模越庞大, 整体水平越高.本文认为基金公司维度特征由经营规模、财务指标、经营能力、基本信息、股权结构等方面的特征组成, 这些特征都有可能对基金的业绩表现产生不同程度的影响.
基于以上的因素分析, 本文从三个维度中选择了58个初始特征样本来构建初始样本池, 用于进一步的特征提取和筛选, 见附录附表 1.

4.1.3 基金绩效关联特征的提取与筛选

本文基于表现基金"较好"与"较差"的特征分类, 基于Gibbs特征筛选算法, 第一步从58个初步特征中筛选出36个与基金表现之间存在显著关联性的特征.第二步使用这些特征建立三分类逻辑回归模型, 以逻辑回归模型中各个特征的比值比(odds ratio, 即在逻辑回归模型中以自然对数为底数的回归系数的指数函数)作为衡量特征与基金表现关联性的显著性衡量标准.然后与使用全部58个特征构建的三分类逻辑回归模型进行对比来验证提炼出的特征结果的表现程度.
应用比值比对特征与基金表现("好"或者"不好")的关联性强弱按照如下规则定义:
1) 强关联: 对应特征的比值比小于0.8或大于1.2时, 此特征为与基金表现("好"或者"不好")的关联性较强;
2) 一般关联: 对应特征的比值比大于1.1且小于1.2, 或比值比大于0.8且小于0.9时, 此特征为与基金表现("好"或者"不好")的关联性一般;
3) 弱关联: 对应特征的比值比大于0.9且小于1.1时, 此特征为与基金表现("好"或者"不好")的关联性较弱.
基于上面的特征分析和对应好坏基金的特征刻画, 本文根据36个特征与基金表现的关联性强弱来定义划分为"强相关特征" "一般相关特征"和"弱相关特征"三类, 分类结果见附录附表 2, 可以看到:
1) "强相关特征"共有16个, 它们对基金业绩表现"较好"和"较差"都呈现出较强关联性;
2) "一般相关特征"共有9个, 它们包含两类: 第一类为对于基金业绩表现为"较差"体现较强关联而对表现为"较好"呈现出弱关联的特征; 第二类为在基金业绩表现为"较差"和"较好"中都有呈现出一般关联的特征;
3) "弱相关特征"共有11个, 它们对基金业绩表现为"较差"呈现出较弱关联.
需要说明的是, 本文中"强相关特征" "一般相关特征"和"弱相关特征" 的定义不同于特征与基金业绩表现的关联性强弱, 它们是基于特征与基金业绩表现的关联性强弱来定义的, 因此使用"相关性"来命名, 从而与上文中使用的"关联性"区别开来.
对基于Gibbs抽样所得到的特征进行分析可以发现, 强相关特征与一般相关特征都能从基金评价的业务逻辑层面得到解释.例如, 在17个强相关特征和8个一般相关特征从投资表现、风险管理、团队能力、公司经营状况四个方面反映了基金业绩表现.

4.1.4 实证结果和分析

本节将使用逻辑回归模型对测试集中"较差"基金的预测能力来检验特征筛选效果.首先, 使用筛选得到的36个特征进行逻辑回归建模, 并与使用初始特征集中的所有58个特征建立的逻辑回归模型的效果进行比较.最后再比较使用不同的数据处理方法和建模方法的模型效果, 从而找出最佳的建模方案.
对于分类模型, 本文希望其能在准确预测出"坏"样本的基础上尽可能少地将"好"样本归类为坏样本, 因此使用ROC方法(receiver operating characteristic)进行模型检验. ROC曲线的横轴为假阳率(false positive ration, 简记为FPR), 表示非"坏"样本被归类为"坏"样本的比率; ROC曲线的纵轴为真阳率(true positive ratio, 简记为TPR), 表示被识别出的"坏"样本在所有"坏"样本中所占比例.
本文选择使用假阳率为0.1和0.2时的真阳率衡量模型效果将模型效果, 将其分为六个级别, 分类标准如表 1.测试集的模型表现结果如表 2, 其中模型编号1至4分别表示使用相应的特征集合及建模方法得出的模型效果, 四个模型的ROC曲线见图 1(a)(d).
表1 ROC分类标准
级别 Ⅱ-a Ⅱ-b Ⅲ-a Ⅲ-b 未达标
FPR=0.1 TPR>0.9 0.8<TPR<0.9 0.8<TPR<0.9 TPR<0.8 TPR<0.8 TPR<0.8
FPR=0.2 TPR>0.9 TPR>0.9 0.8<TPR<0.9 TPR>0.9 0.8<TPR<0.9 TPR<0.8
表2 模型的测试集表现
模型编号 建模方法 特征集 TPR (FPR=0.1) TPR (FPR=0.2)
1 二分类逻辑回归 标签化处理的初始特征集 0.529 0.706
2 二分类逻辑回归 标签化处理的筛选特征 0.684 0.789
3 二分类逻辑回归 归一化处理的筛选特征 0.857 0.904
4 三分类逻辑回归 归一化处理的筛选特征 0.842 0.894
图1(a) 模型1的ROC曲线

Full size|PPT slide

图1(b) 模型2的ROC曲线

Full size|PPT slide

图1(c) 模型3的ROC曲线

Full size|PPT slide

图1(d) 模型4的ROC曲线

Full size|PPT slide

表 2可以发现, 模型2在假阳率为0.1或0.2时都有比模型1更高的真阳率, 证明风险基因筛选得到的36个特征能够有效刻画基金的表现, 但模型效果仍未达标; 模型3在假阳率为0.1或0.2时都有比模型2更高的真阳率, 模型效果达到Ⅲ-a级标准.由此可以看出, 对筛选特征中的结构化数据进行归一化处理比对所有特征都做标签化处理更有利于建模, 说明了针对多维数据进行特征提取再进行分类对模型效果具有显著的提升; 模型4在假阳率为0.1或0.2时的真阳率都比模型3更低, 模型效果达到了Ⅲ-b级标准, 由此可以看出, 二分类逻辑回归对"坏"样本的识别效率略优于三分类逻辑回归.
综上所述, 对比模型1与模型2的模型效果可见本文提出的大数据特征提取方法得到的特征子集能够更有效地识别"较差"基金.再对比模型2与模型3的模型效果可见对结构化数据进行归一化处理, 对非结构化数据进行标签化处理对模型效果有非常显著的提升.对比模型3和模型4可见, 在对某一类("较差")基金进行识别的建模工作中, 二分类逻辑回归和多分类逻辑回归模型的效果差异不大, 则在本例中二分类逻辑回归会因其计算复杂度较低而体现出优势.
由于本文在评价模型时已经确定了对假阳率的容忍度为0.2, 则可以按照假阳率为0.2时对应的逻辑回归概率作为判定的阈值, 阈值设定结果如表 3所示.
表3 逻辑回归概率阈值划定
模型编号 模型 数据集 概率阈值
1 二分类逻辑回归 标签化(全特征) 0.108
2 二分类逻辑回归 标签化(筛选特征) 0.117
3 二分类逻辑回归 原始数据(筛选特征) 0.07
4 三分类逻辑回归 原始数据(筛选特征) 0.107
根据四个模型的ROC表现, 在当模型的假阳率控制在0.2以内使真阳率达到最大时的概率阈值都在0.1左右.

4.2 大宗商品期货价格变化关联特征提取的实证分析

4.2.1 大宗商品期货价格影响因素分析

本文通过梳理国内外文献中的期货价格影响因素(参见表 4), 从以下三个方面对大宗商品期货(主要以及螺纹钢和铜为例子的)价格影响因素进行综合描述.
表4 26个基础特征指标及分类
一级编号 指标维度 指标来源 二级编号 描述维度 三级编号 指标名称
(一) 宏观经济因素 顾秋阳, 周有林, 华秀萍, 王瑞(2019) 1 GDP指数 1 当季度GDP
2 当季度GDP同比增长率
郑尊信, 徐晓光(2009) 2 货币政策与货币环境 3 流通中现金(M0)供应量同比增长率
Frankel (1984) 4 货币(M1)供应量同比增长率
5 货币和准货币(M2)供应量同比增长率
顾秋阳, 周有林, 华秀萍, 王瑞(2019) 3 采购经理人指数 6 非制造业采购经理指数
7 制造业采购经理指数
4 人民币兑美元汇率 8 人民币兑美元中间价
5 商品房销售面积 9 房地产竣工面积
10 房地产开发投资完成额
11 房地产施工面积
12 房地产新开工施工面积
(二) 市场供需关系 伍景琼, 蒲云, 伍锦群(2012) 6 海运费 13 波罗的海干散货指数(BDI)
14 好望角型运费指数(BCI)
铁矿石供需 15 铁矿石进口数量当月值(澳大利亚)
16 铁矿石进口数量当月值(巴西)
17 铁矿石进口数量当月值(合计)
18 铁矿石进口数量当月值(南非)
19 铁矿石进口数量当月值(印度)
胡建兰, 高瑜(2019) 7 钢铁库存 20 螺纹钢库存
陈海鹏, 卢旭旺, 申铉京, 杨英卓(2017) 8 铁矿石期货结算价 21 大商所铁矿石指数合约价格
9 焦煤期货结算价 22 大商所焦煤指数合约价格
23 郑商所动力煤指数合约价格
(三) 金融以及其他 Bodie, Rosansky (1980) 10 股票指数 24 沪深300指数
金剑峰(2019) 25 180基建
金涛(2014) 26 沪深300金融地产指数
1) 影响期货价格趋势变化的宏观经济因素
宏观经济因素反映了经济发展状况, 包括中国各个季度的GDP、每个月的CPI、PMI、货币供给(包括M0、M1、M2)等数据, 这些指标一方面反映了过去一段时间内经济发展状况, 另一方面也会对数据公布后一段时间的经济发展预期构成影响, 本文将这些指标纳入到初始特征池.顾秋阳等(2019)的研究也指出生产价格指数、采购经理人指数、人民币对美元汇率、同业间银行拆借利率对我国螺纹钢期货价格的影响.蔡慧和华仁海(2007)对商品期货与GDP指数间的关系进行了相应的研究. Frankel (1984), 郑尊信和徐晓光(2009)的研究说明了货币政策与商品价格之间存在一定的关系.除了上述的宏观经济指标外, 本文还将黑色金属、采矿、煤炭等行业的工业增加值纳入初始特征池.工业增加值是使用生产法核算GDP的基础, 即各个行业部门的总产出减去该部门的中间投入, 反映了各个行业的发展状况, 因此将工业增加值纳入初始特征池, 能够更准确地刻画黑色金属行业的发展状况.
2) 影响期货价格趋势变化的市场供需关系因素
供需关系是反映行业结构的有效途径.一个行业的上游产品的供需关系反映了该行业的生产成本, 而下游行业的供需关系反映了市场对该行业的盈利状况.从钢铁冶炼的行业关系网络看, 其上游原材料铁矿石、煤炭的开采、进口依赖于采矿、冶炼和航运, 因此采矿、航运、炼钢设备制造等行业的情况都会直接影响到钢铁冶炼的成本.陈海鹏等(2017)研究提出铁矿石期货结算价格和焦煤期货结算价对螺纹钢价格的分析作用, 伍景琼等(2012)进一步提出运费等对铁矿石影响铁矿石价格的因素, 胡建兰和高瑜(2019)的研究表明钢铁库存对钢铁价格的影响.从产业链角度出发, 本文将铁矿石、焦炭的进口量、人民币汇率、航运成本(由波罗的海干散货指数反映)这些对钢铁冶炼行业产生显著影响的因素纳入到初始特征池.
从需求端看, 螺纹钢需求量主要由基础设施建设、房地产开发等因素决定, 因此房地产开发相关的指标(如开工面积、竣工面积)、固定资产投资完成额等指标应该纳入初始特征池进行特征提取.顾秋阳等(2019)的研究也发现房地产指标对我国螺纹钢期货价格的变动有着一定程度的影响.
3) 影响期货价格趋势变化的金融市场和其它因素
随着中国金融市场的逐步发展完善, 中国的钢铁产品的金融属性也在逐渐增强, 也有许多相关的研究指出螺纹钢期货价格与股票市场存在联动性. Bodie and Rosansky (1980)指出股指与期货之间存在一定程度的关联关系, 金剑峰(2019)指出螺纹钢期货价格与钢铁类股票具有互动关系, 金涛(2014)指出中国螺纹钢期货市场与沪深300股指期货之间存在较强的联动性.因此本文在考虑金融市场因素时还需要将沪深300指数、上证180基建指数、沪深300房地产指数等纳入初始特征池.

4.2.2 大宗商品期货初始特征池构建

为了最大限度地发现、挖掘和筛选出尽可能多与期货价格变化高度关联的特征因子, 根据到目前为止分散于学术文献和业界实践的知识经验积累, 本文针对大宗商品期货螺纹钢和铜从宏观经济、市场供需、金融市场三个方面分别构建了236个和472个特征因子组成的初始特征因子特征池, 构建与筛选方式如下:
首先通过梳理国内外相关文献研究结果, 本文并没有直接选取文献中的原始的指标描述, 而是根据文献研究的同一描述维度下的去扩展出对应的指标, 并给出了相应的指标分类, 以螺纹钢特征指标为例, 见表 4.
以螺纹钢的初始特征选取为例, 除以上26个初始特征指标, 进一步从"宏观经济、市场需求、金融市场" 三个层面选取33个特征指标(这部分指标是否影响螺纹钢期货价格不需要特别考虑, 因为本文的目的之一就是实现从大量特征指标中筛选对螺纹钢期货价格有影响的特征指标), 将初始特征指标扩展到59个, 然后对每个特征考虑4个不同的滞后阶数, 这样就形成236个带时间标签的特征指标. 综合相关文献研究成果和本文对初始特征指标进行的拓展, 建立可能有效的特征因子(59个特征因子及分类组成(不含滞后阶数)), 详情见附录附表 3.同样的方法, 本文构建了期货铜的带时间标签的初始特征指标472个, 用于进行特征抽取工作.

4.2.3 大宗商品期货(螺纹钢和铜)关联特征提取

1. 大宗商品期货螺纹钢关联特征提取
本文使用2016年1月至2019年6月的上期所螺纹钢指数合约月度涨跌幅度(下文中简称"螺纹钢月度行情")和上期所螺纹钢指数合约季度涨跌幅度(下文中简称"螺纹钢季度行情"), 作为训练和被预测变量的数据源, 支持本文对螺纹钢月度和季度行情特征提取的分析.其中期货合约数据选取了"期货指数合约"的每日收盘价格来计算每月或每季度的价格变化趋势, "期货指数合约"是当前交易所中所有相同标的物的期货合约按照持仓量大小为权重的加权平均, 通常在每个月的第一个交易日时剩余期限为5个月的合约持仓量占所有同标的物合约持仓量的比例最大(如图 2), 因此本文可以近似地认为期货指数合约价格代表了"(剩余)期限为5个月左右的期货价格".
图2 螺纹钢期货合约持仓比例

Full size|PPT slide

1) 影响期货价格趋势变化的特征提取效果
基于大数据特征提取结果, 可以发现螺纹钢价格趋势变化是多方面作用的结果.无论是月度数据还是季度数据, 各个特征与螺纹钢行情的关联显著性之间差距并不明显, 如图 3图 4所示, 所有236个与螺纹钢行情(季度和月度)的价格变化关联的特征因子呈现高度抱团现象: 关联性分布非常集中, 基本保持在35%到47%之间.因此螺纹钢价格变化关联特征因子与袁先智等(2019)对上期所铜期货价格变化的行情刻画显示出极大的差异性.这与螺纹钢的消费属性是相符合的, 由于螺纹钢最主要的用途是基础设施建设方面, 这一方面的用途的影响范围相较铜更为广泛, 进而能够影响到螺纹钢行情的特征数量也需更多的因子来进行可靠的刻画.因此本文将按照关联性强弱将关联特征划分为三类: "强关联特征" "一般关联特征"和"弱关联特征".
图3 螺纹钢季度和月度行情特征关联显著性分布

Full size|PPT slide

图4 2014–2019螺纹钢累计产量及产量累积同比
数据来源: 中国钢铁工业协会.

Full size|PPT slide

基于各个特征的关联显著性强弱, 本文挑选出44个与螺纹钢季度行情关联度为核心和高度关联的特征因子, 44个与螺纹钢月度行情关联度为核心和高度关联的特征因子(见表 5表 6), 通过logistic回归模型来刻画螺纹钢行情(价格变化方向), 根据模型系数计算各个特征的Odds Ratio, 来衡量各个特征与螺纹钢行情的关联显著性.
表5 2015年1月至2018年6月训练集的测试结果
测试结果 数据频率 训练集时间段 测试集时间段 测试集样本数 测试样本正确数 预测正确率
测试1 季度 2015年 2018年 2018年 2019年 4 2 50.00%
月度 1月 6月 7月 6月 12 8 66.67%
表6 2017年1月至2018年6月训练集的测试结果
测试结果 数据频率 训练集时间段 测试集时间段 测试集样本数 测试样本正确数 预测正确率
测试2 季度 2017年 2018年 2018年 2019年 4 3 75.00%
月度 1月 6月 7月 6月 12 10 83.33%
对于不同区间的Odds Ratio指标做如下的定义: 高于1.1或低于0.9的特征定义为"核心关联特征"; 介于0.9与1.1之间但不等于1的特征定义为"高度关联特征"; 并把其他定义为"弱关联特征".基于这个标准, 本文得到用来刻画螺纹钢季度价格变化趋势行情的核心关联特征为15个(参见附录附表 4), 用来刻画螺纹钢月度价格变化趋势行情的核心关联特征为23个(参见附录附表 5).在月度行情的预测中需要更多的特征是因为在越短的时间内, 对行情构成冲击的因素更复杂, 自然需要更多的特征来刻画其价格的趋势变化; 相对与期限较长的螺纹钢期货, 其价格趋势变化更趋于稳定, 因此可用较少的关联特征因子来进行有效刻画.
2) 基于大数据风险特征提取的价格趋势分析
使用筛选得到的高关联特征建立logistic回归模型对上期所螺纹钢季度和月度行情建立预测模型.本文随机地将2018年6月30日作为分水岭, 即将2016年1月至2018年6月的月度数据和2015年1月至2018年6月的季度数据作为训练集螺纹钢价格趋势分析模型, 将2018年7月至2019年6月的行情数据作为测试集检验模型的预测性能, 表 5的"测试1"表明月度行情的预测准确率为66.67%, 季度模型的预测准确率为50%, 这说明提取的特征因子并不能够有效地刻画螺纹钢行情, 进行价格变化趋势的分析预测.
但是考虑到中国政府"去产能政策"的提出时间是2015年12月, 本文推断2016年是螺纹钢市场发生深刻变化的一年.实际数据显示, 2016年底中国宣布基本完成钢铁行业的"去产能"任务, 从2017年1月开始, 螺纹钢市场进入一个与2016年底之前不同的市场.图 4的数据信息正好印证了本文的推断.
来自中国钢铁工业协会的数据表明: 在2015年, 中国钢材总产量(粗钢)在9亿吨左右, 其中螺纹钢产量为5千万吨左右.在2016年"去产能"的主旋律下, 2016年螺纹钢行情触底, 2017年年初开始反弹, 钢铁行业"供给侧改革"轰轰烈烈, 随着中频炉全面退出, "地条钢"全面清退, 国内螺纹钢供应略显紧张, 同时也支撑螺纹钢价格在2017年上半年持续上涨, 随后在旺季需求下, 叠加"取暖季限产"预期, 2017年下半年螺纹钢现货再度掀起一轮牛市行情, 螺纹钢和钢价重回历史高位.
根据数据可知2016年底是螺纹钢市场的分水岭, 一个合理的实证测试是将2017年1月到2019年6月的市场数据为一个整体进行测试.基于这个基本思路, 本文仍将2018年6月作为切入点, 即用2017年1月到2018年6月的市场真实数据作为训练集, 用来测试2018年7月到2019年6月前的市场价格的趋势变化. "测试2"的数据结果见表 6.
"测试2"的结果表明, 本文提取的刻画月度行情预测模型的预测可靠性达到83%, 而季度行情预测模型的预测可靠性达到75%.这二组数据结果表明2016年年底是螺纹钢市场的分水岭的判断是合理的.该模型的测试结果也说明在较短的历史数据的前提下, 本文提取的月度和季度的螺纹钢期货价格变化趋势的关联特征因子对价格变化趋势的刻画是较为有效的(对样本外数据达到75%以上的有效性).另外, 本文的实证也表明从2017年1月开始, 螺纹钢进入一个与原来不同的市场结构状态.
上述结果说明使用大数据特征提取方法能够比较有效地刻画上期所螺纹钢的价格变化趋势, 同时, 本文的分析结果说明了宏观经济政策会对大宗商品价格趋势的关联结构形成影响.由于2016年正是中国推行"三去一降一补"的实施阶段, 基本关联特征与螺纹钢之间的关联关系发生深刻的变化, 因此使用2017年1月以后的数据建立的logistic回归模型的测试具有更强的预测可靠性和解释能力.
基于表 6的测试结果和讨论, 2016年12月是中国螺纹钢市场的分水岭, 即2016年12月前的市场与2017年1月开始的市场结构是不一样的.因此, 对于本文构建的螺纹钢期货价格趋势分析的风险特征指标, 一个比较合理的测试是用2017年1月到2018年6月的数据(4个样本)来测试2018年7月到2019年6月时间段的表现.这是由于螺纹钢市场结构在2016年年底发生了本质变化, 不能用2016年12月前的历史数据来训练风险特征指标, 进而测试对从2017年开始的螺纹钢期货价格趋势分析的市场预测能力.在本节数据选取的方法不存在投机的嫌疑, 是符合市场结构情况下的模型体现.第二, 基于2016年中国推行的"三去一降一补"政策, 不同行业受到的影响不一样, 导致市场结构发生的变化也不一样, 因此在本文也没有考虑对一般市场指数进行预测分析(如果不同行业市场结构变化不一样, 传统统计学的测试方法对大数据风险特征因子的测试方法不一定有效).
2. 大宗商品期货铜的关联特征提取
本文将以2011年7月至2019年6月之间沪铜期货指数合约价格(下文简称为"沪铜价格")的每月累计涨跌幅度为被预测变量.期货指数合约价格即以当前市场中正在交易的所有同品种期货合约价格以成交量为权重的加权平均, 通常而言, 剩余期限为3个月的期货合约持仓量最大(如图 5所示), 因此可以近似认为铜期货指数合约价格近似为3个月铜期货合约价格.
图5 2011年7月至2019年6月期间上期所铜合约日均持仓量比例

Full size|PPT slide

解释变量则包括以下几个部分: 商品期货指数合约行情数据、人民币兑美元中间价、沪深300指数及其行业子指数、宏观经济数据、ICSG (国际铜业研究组织)统计数据、精炼铜产量、出口量等数据.针对时间序列的预测需要对数据泄露的问题进行处理, 因此在建模时需要保证解释变量滞后于被预测变量.通过不同滞后阶数得到472个备选解释变量(下文中称为"初始特征"), 经过大数据特征提取获得的与沪铜行情具有强关联性的指标称为特征.
1) 特征提取效果
为了研究沪铜价格趋势特征的变化的情况, 本文以每5年为一个时间窗口分别进行特征提取, 分别挖掘2011年7月至2017年6月、2012年7月至2018年6月、2013年7月至2019年6月三个时间窗口内与沪铜价格强相关性的特征, 并对比特征关联性强弱的变化情况.
在每个自然月内, 若月内累计对数回报率大于0为1, 表示当月沪铜行情为牛市, 月累计对数回报率小于0记为0, 表示当月沪铜行情为熊市.
强关联特征分为三类: 第一类为基础特征(参见表 7中编号1至编号5), 即为反映沪铜的需求和供给的特征, 同时也是最受沪铜交易者们关注的特征, 经过大数据特征提取可见, 同产能缺口、精炼铜、铜材产量分别在不同年份中体现出与沪铜价格的强关联性.
表7 强关联特征及其关联显著性
编号 特征名称 各时间窗内关联显著性
2011–2017 2012–2018 2013–2019
1 前1个月沪铜价格涨跌幅 100.00% 98.50% 99.75%
2 前1个月ICSG: 期间库存变化: 当月值_lag1 99.25% 86.00% 17.50%
3 前1个月铜材产量同比增长率 89.25% 53.25% 17.00%
4 前1个月精炼铜产量同比增长率 54.25% 55.50% 86.50%
5 前6个月精炼铜产量(矿产)平均同比增长率 53.75% 39.75% 93.25%
6 前1个月精炼铜(再生)同比增长率 64.25% 32.00% 96.00%
7 前1个月彩电产量同比增长率 56.50% 98.25% 52.75%
8 前3个月冷柜产量平均同比增长率 51.00% 57.25% 90.00%
9 前1个月房地产竣工面积同比增长率 99.50% 80.25% 37.75%
10 前1个月新增固定资产同比增长率 31.00% 93.25% 32.00%
11 前1个月商务活动指数平均值 14.75% 11.25% 11.50%
12 前1个月PMI 13.00% 12.50% 9.75%
13 前1个月CPI平均增长率 12.50% 10.50% 13.00%
14 前12个月GDP计值同比增长率 11.25% 13.50% 11.00%
第二类为消费市场特征(参见表 7中编号6至编号9), 即为从产业链角度反映铜消费情况的特征, 通过大数据特征提取发现家电行业(彩电、冰柜产量)、房地产面积(房地产竣工面积同比增长率)、基础设施建设(电网设施建设完成率)等特征同样是与沪铜价格趋势存在强关联的特征.
由消费市场类特征的关联显著性可见, 随时间推移家电产量增长率、房地产竣工面积增长率与沪铜价格趋势的关联显著性逐渐增强, 而电网基本建设投资完成额同比增长率与沪铜价格趋势的关联显著性逐渐减弱.这一现象与我国当前电网建设逐渐趋向完善, 国民消费升级的经济转型大趋势相吻合.
第三类为宏观经济指标(参见表 7中编号10至编号14)为反映宏观经济情况的常用指标.通过大数据特征提取后宏观指标并没有体现出很强的关联显著性, 但是由于宏观经济指标具有对于经济整体状况的刻画能力, 同时能够影响市场预期, 因此在进一步对沪铜价格趋势的预测建模中仍将使用宏观经济指标作为特征.
2) 沪铜指数价格趋势预测
为了检验上文中提取得到的特征对于沪铜价格趋势的预测效果, 本文还将采用二分类逻辑回归模型对价格趋势预测试.使用2011年7月至2017年6月的数据为训练集, 2017年7月至2019年6月的数据为测试集检验本文提取得到的特征对样本外数据的预测效果.
建模时采用二分类逻辑回归, 将沪铜价格收涨的月份作为正例, 记为1, 将收跌的月份作为负例, 记为1.采用L2正则化的方法降低特征共线性对模型预测效果的影响.模型对测试集数据的预测效果很好, 说明本文中提取得到的特征具备对沪铜价格的变化趋的预测能力.
参见表 8中预测模型的模型系数可见, 反映沪铜市场供需状态的基本特征体具有最强的解释能力; 消费市场特征能够在模型中对铜价格趋势的预测形成有效的补充; 而宏观因子的系数接近或等于0, 说明同时宏观因子与其他特征具有共线性, 即(至少在训练集样本数据内)月度的宏观经济数据中的信息可以由基础特征和消费市场特征的线性组合所替代, 其结果与他数据特征提取中显示出的结果相吻合.
表8 沪铜价格趋势关联特征强弱关系及预测正确率
编号 特征名称 关联强弱
1 前1个月沪铜价格涨跌幅 2.1117
2 前1个月ICSG: 期间库存变化: 当月值_lag1 0.2143
3 前1个月铜材产量同比增长率 0.0103
4 前1个月精炼铜产量同比增长率 0.1031
5 前6个月精炼铜产量(矿产)平均同比增长率 0.0353
6 前1个月精炼铜(再生)同比增长率 0.0838
7 前1个月彩电产量同比增长率 0.0024
8 前3个月冷柜产量平均同比增长率 0.0493
9 前1个月房地产竣工面积同比增长率 0.0588
10 前1个月新增固定资产同比增长率 0.152
11 前1个月商务活动指数平均值 0.2931
12 前1个月PMI 0.4079
13 前1个月CPI平均增长率 0.0563
14 前12个月GDP累计值同比增长率 0.0096
15 常数项 0.0012
预测正确率(测试集数据) 95.83%

5 结果讨论

本文基于大数据框架下的多维复杂数据信息构建初始的特征数据池, 假定每个特征因子服从伯努利分布, 在给定样本控制误差的前提下, 通过Gibbs抽样方法来实现对影响基金绩效或期货价格变化趋势的有效关联特征进行提取; 然后以Logistic回归模型为工具, 通过Odds Ratio指标作为验证特征关联性强弱的标准, 将有效关联特征因子分类子进行相关性分类("强相关特征" "一般相关特征"和"弱相关特征"), 从而建立与基金绩效或期货价格趋势变化之间的强弱关联关系的特征因子分类, 并利用强相关性的特征因子来达到对影响基金绩效或期货价格趋势变化的解释目标.
基于大数据框架的实证分析结果显示, 本文讨论的特征提取方法能够更加全面和可靠地刻画基金绩效或期货价格的趋势变化, 为FOF基金池的建立提供了全面的理论基础和实证支持, 也为业界进行大宗期货交易和风险对冲提供一种新的分析工具.
正是基于大数据分析思维在马尔可夫链蒙特卡罗(MCMC)框架下的Gibbs抽样算法, 通过"Odds Ratio" 指标作为特征指标的分类, 本文实现了对高维度, 多关联海量数据中的有效特征的提取和分类(其中包含非结构化数据和结构化数据的特征刻画), 最终用于基金绩效或期货价格变化的趋势分析.更进一步的应用可以用来研究衡量宏观经济政策、自然环境等众多因素变化对于金融行业的影响程度, 从而建立更加全面的基于非结构化特征因素对金融行业产业结构的影响预测模型.
作为本文的结尾,文中涉及的部分初步工作在袁先智等(2019,2020)中有阐述, 作为吉布斯抽样的随机搜索方法在金融科技中的应用的系统性研究, 我们在本文比较全面地讨论了在大数据框架下建立对金融产品特征的提取方法和实现路径, 这为业界对FOF的组建与管理, 对应金融衍价格变化走势, 特别是大宗期货交易和风险管理方面提供了一种新的分析维度和风险特征因子应用方向, 并建立了基于给定样本误差容忍度下的人工智能(Gibbs)算法针对大数据(非结构化) 特征提取的一般框架.另外, 本文讨论的从大数据角度的视角来筛选金融衍生品的风险特征因子方法, 也与过去传统的计量分析方法不同, 是金融科技在大数据金融方面分析和应用的创新点.
最后, 基于针对三个真实金融产品场景的大数据特征提取分析, 希望指出的是基于大数据思维, 利用吉布斯抽样(Gibbs sampling)方法作为随机搜索的工具, 针对金融场景进行大数据(多维度)的关联特征因子筛选, 这种新的方法确实可以为我们展示影响金融场景变化的本质关联特征.

附录

表附表 1 基金初始特征指标明细
维度 指标来源 一级编号 一级指标 二级编号 二级指标 三级编号 三级指标
基金自身维度 Ippolito (1993), Wermers (2000), Brennan, Hughes (1991), Elton, Gruber, Blake (1995), Chen, Hong, Huang, Kubik (2004), Sharpe (1966), Golec (1996), 梁珊, 王正刚, 郭葆春(2016), 陆蓉, 陈百助, 徐龙炳, 谢新厚(2007), 李志冰, 刘晓宇(2019), 肖峻, 石劲(2011), 刘京军, 苏楚林(2016) 1 基金财务指标 1 业绩指标 1 平均收益
2 最大回撤
2 基金规模 3 基金资产净值
3 投资结构 4 股票市值占比
5 其他资产市值占比
6 投资集中度
7 N名重仓股占比
4 基金风险 8 是否分级基金
9 基金风险等级
5 费用类 10 管理费率
11 托管费率
12 销售服务费
13 费率优惠
14 是否收取浮动管理费
2 基金其他关联指标 6 其他关联特征类 15 基金类型
16 是否初始基金
7 基金声誉 17 成立年限
8 个人特质 18 基金经理国籍
19 基金经理性别
20 基金经理学历
基金经理维度 Barber, Odean (2001), 赵秀娟, 汪寿阳(2010), 高鹤, 李文, 高峰(2014), 肖继辉, 彭文平(2012) 3 基金经理个人特征 9 职业特质 21 基金经理平均工作年限
22 基金经理最大工作年限
23 基金经理人数
24 基金经理管理基金数量
25 基金经理是否有变更
26 任职过基金公司数量
27 任职天数
4 基金经理个人业绩 10 业绩指标 28 几何平均年化收益率
29 超越基准几何平均年化收益率
30 注册资本(万元)
11 基金公司经营规模 31 基金只数
32 全部基金市值
33 股票型占比
34 混合型占比
35 特殊占比
基金公司维度 Pollet, Wilson (2008), Elton, Gruber, Blake (1995), 毛磊, 王宗军, 王玲玲(2012), 曾德明, 龙淼, 龚红(2006) 5 基金公司经营指标 12 基金公司财务指标 36 资产负债率
37 资产净利润率
38 净资产收益率
39 营业利润率
13 基金公司经营能力 40 Wind五星基金占比(%)
41 获奖情况
42 基金经理人数
43 团队稳定性
44 基金经理成熟度
6 基金公司基本信息 14 基金公司基本信息 45 成立日
46 机构类型
47 机构派系
48 基本信息
49 公司性质
7 基金公司董监高信息 15 股权结构 50 独立董事占比
51 股权集中度
52 男/女比例
53 董监人数比
54 董投人数比
16 董监高 55 董监高平均任期
17 其他信息 56 总经理是否为法人
57 总/副总经理是否为董事会成员
58 是否有外籍主要成员
表附表 2 基金相关特征筛选结果
相关性 序号 特征名称 odds ratio比值比
较差 较好
强相关 1 浮动管理费 3.044 1.306
2 基金分类 1.983 0.85
3 平均收益 1.733 0.79
4 基金公司基金只数 1.599 0.451
5 成立年限 1.51 0.605
6 风险评级 1.512 1.023
7 基金经理学历 1.358 0.719
8 托管费率 1.426 0.676
9 任职过的基金公司数量 1.141 0.723
10 几何平均年化收益率 0.617 1.819
11 净资产收益率 0.588 1.243
12 股票市值占比 0.589 1.45
13 获奖情况 0.615 1.477
14 基金类型 0.396 2.425
15 基金经理人数 0.544 1.526
16 最大回撤 0.244 5.109
一般相关 17 基金经理性别 1.28 0.836
18 营业利润率 1.174 0.914
19 董监高平均任期 0.854 1.51
20 基金经理最大工作年限 1.132 1.072
21 费率优惠 1.084 1.346
22 混合型占比 0.778 1.489
23 基本信息 0.69 0.804
24 基金经理成熟度 0.75 1.15
25 团队稳定性 0.658 1.15
弱相关 26 资产净利润率 1.09 1.124
27 总经理/副总经理是否为董事会成员 1.069 1.031
28 董监人数比 0.977 0.867
29 男/女比例 1.175 0.9
30 股票型占比 0.997 1.055
31 基金经理国籍 1 1
32 基金经理管理基金数量 0.978 0.836
33 董投人数比 0.942 1.141
34 独立董事占比 0.899 1.099
35 是否初始基金 0.832 0.964
36 公司性质 0.883 1.123
表附表 3 螺纹钢59个初始特征指标及分类
序号 指标名称 所属分类
1 流通中现金(M0)供应量同比增长率 宏观经济因素
2 非制造业采购经理人指数 宏观经济因素
3 制造业采购经理指数 宏观经济因素
4 人民币兑美元中间价 宏观经济因素
5 货币和准货币(M2)供应量同比增长率 宏观经济因素
6 当季度GDP 宏观经济因素
7 当季度GDP同比增长率 宏观经济因素
8 货币(M1)供应量同比增长率 宏观经济因素
9 电力、热力的生产和供应业增加值_同比增长 宏观经济因素
10 煤炭开采和洗选业增加值_同比增长 宏观经济因素
11 燃气生产和供应业增加值_同比增长 宏观经济因素
12 石油和天然气开采业增加值_同比增长 宏观经济因素
13 石油加工、炼焦及核燃料加工业增加值_同比增长 宏观经济因素
14 黑色金属矿采选业固定资产投资完成额累计同比增长率 宏观经济因素
15 黑色金属矿采选业固定资产投资完成额累计同比增长率 宏观经济因素
16 黑色金属矿采选业增加值_同比增长 宏观经济因素
17 黑色金属冶炼及压延加工业增加值_同比增长 宏观经济因素
18 固定资产投资完成额累计同比增长率 宏观经济因素
19 固定资产投资完成额累计同比增长率 宏观经济因素
20 非金属矿采选业增加值_同比增长 宏观经济因素
21 非金属矿物制品业增加值_同比增长 宏观经济因素
22 金属制品业增加值_同比增长 宏观经济因素
23 开采辅助活动增加值_同比增长 宏观经济因素
24 通用设备制造业增加值_同比增长 宏观经济因素
25 有色金属矿采选业增加值_同比增长 宏观经济因素
26 有色金属冶炼及压延加工业增加值_同比增长 宏观经济因素
27 波罗的海干散货指数(BDI) 市场供需关系
28 好望角型运费指数(BCI) 市场供需关系
29 铁矿石进口数量当月值(澳大利亚) 市场供需关系
30 铁矿石进口数量当月值(巴西) 市场供需关系
31 铁矿石进口数量当月值(合计) 市场供需关系
32 铁矿石进口数量当月值(南非) 市场供需关系
33 铁矿石进口数量当月值(印度) 市场供需关系
34 螺纹钢库存 市场供需关系
35 房地产竣工面积 市场供需关系
36 房地产开发投资完成额 市场供需关系
37 房地产施工面积 市场供需关系
38 房地产新开工施工面积 市场供需关系
39 房地产开发投资完成额累计同比增长率 市场供需关系
40 大商所铁矿石指数合约价格 市场供需关系
41 大商所焦煤指数合约价格 市场供需关系
42 郑商所动力煤指数合约价格 市场供需关系
43 焦炭及半焦炭出口数量当月值 市场供需关系
44 焦炭及半焦炭进口数量当月值 市场供需关系
45 炼焦煤出口数量当月值 市场供需关系
46 炼焦煤进口数量当月值 市场供需关系
47 黑色金属矿采选业用电量当月值 市场供需关系
48 黑色金属冶炼及压延加工业用电量当月值 市场供需关系
49 钢材产量当月值 市场供需关系
50 钢材出口数量当月值 市场供需关系
51 钢筋出口数量当月值 市场供需关系
52 基础设施建设投资累计同比增长率 市场供需关系
53 基础设施建设投资累计同比增长率 市场供需关系
54 热轧螺纹钢出口数量当月值 市场供需关系
55 热轧螺纹钢进口数量当月值 市场供需关系
56 上期所螺纹钢指数合约价格 市场供需关系
57 沪深300指数 金融以及其他
58 180基建 金融以及其他
59 沪深300金融地产指数 金融以及其他
表附表 4 螺纹钢期货指数合约关联显著性特征列表(季度)
序号 关联类型 特征名称 滞后阶数 关联显著性 odds ratio
1 核心关联特征 铁矿石进口数量当月值(印度) 2 0.4250 1.4548
2 房地产施工面积 3 0.4300 1.2079
3 钢材出口数量当月值 2 0.4300 1.1591
4 上期所螺纹钢库存量 2 0.4300 1.1531
5 开采辅助活动增加值_同比增长 3 0.4225 1.1216
6 电力、热力的生产和供应业增加值_同比增长 1 0.4125 1.1166
7 基础设施建设投资累计同比增长率 3 0.4600 0.8978
8 炼焦煤出口数量当月值 3 0.4525 0.8806
9 铁矿石进口数量当月值(合计) 2 0.4125 0.8664
10 铁矿石进口数量当月值(巴西) 2 0.4300 0.8486
11 房地产开发投资完成额 2 0.4175 0.7581
12 房地产新开工施工面积 2 0.4450 0.6796
13 焦炭及半焦炭出口数量当月值 1 0.4350 0.6771
14 黑色金属矿采选业固定资产投资完成额累计同比增长率 1 0.4450 0.6753
15 固定资产投资完成额累计同比增长率 1 0.4175 0.6180
16 高度关联特征 钢筋出口数量当月值 4 0.4325 1.0959
17 热轧螺纹钢出口数量当月值 4 0.4250 1.0936
18 燃气生产和供应业增加值_同比增长 3 0.4450 1.0921
19 黑色金属冶炼及压延加工业增加值_同比增长 3 0.4575 1.0541
20 钢材产量当月值 2 0.4725 1.0474
21 有色金属冶炼及压延加工业增加值_同比增长 2 0.4275 1.0399
22 热轧螺纹钢进口数量当月值 4 0.4275 1.0290
23 房地产开发投资完成额累计同比增长率 2 0.4300 1.0169
24 有色金属矿采选业增加值_同比增长 3 0.4325 1.0096
25 大商所焦煤指数合约价格 3 0.4650 1.0019
26 大商所铁矿石指数合约价格 3 0.4425 1.0006
27 180基建 2 0.4350 1.0001
28 石油和天然气开采业增加值_同比增长 4 0.4200 0.9993
29 炼焦煤进口数量当月值 4 0.4250 0.9971
30 郑商所动力煤指数合约价格 2 0.4375 0.9970
31 固定资产投资完成额累计同比增长率 3 0.4325 0.9941
32 黑色金属矿采选业用电量当月值 4 0.4400 0.9901
33 金属制品业增加值_同比增长 1 0.4150 0.9851
34 黑色金属矿采选业增加值_同比增长 3 0.4225 0.9849
35 非金属矿采选业增加值_同比增长 2 0.4500 0.9822
36 商务活动指数 2 0.4375 0.9821
37 制造业采购经理指数 4 0.4200 0.9790
38 通用设备制造业增加值_同比增长 4 0.4300 0.9789
39 波罗的海干散货指数(BDI) 1 0.4625 0.9718
40 非金属矿物制品业增加值_同比增长 3 0.4575 0.9710
41 焦炭及半焦炭进口数量当月值 1 0.4250 0.9695
42 货币(M1)供应量同比增长率 2 0.4300 0.9339
43 铁矿石进口数量当月值(南非) 2 0.4125 0.9231
44 黑色金属冶炼及压延加工业用电量当月值 3 0.4175 0.9110
表附表 5 螺纹钢期货指数合约关联显著性特征列表(月度)
序号 odds ratio 特征名称 滞后阶数 关联显著性 关联类型
1 焦炭及半焦炭出口数量当月值 3 0.4375 1.5595 核心关联特征
2 石油加工、炼焦及核燃料加工业增加值_同比增长 1 0.4150 1.5149
3 钢材产量当月值 1 0.4050 1.4035
4 房地产新开工施工面积 6 0.3950 1.2720
5 石油和天然气开采业增加值_同比增长 1 0.4000 1.1984
6 开采辅助活动增加值_同比增长 12 0.3975 1.1752
7 钢材出口数量当月值 6 0.3950 1.1746
8 热轧螺纹钢出口数量当月值 12 0.3975 0.8974
9 当季度GDP同比增长率 1 0.3925 0.8849
10 流通中现金(M0)供应量同比增长率 12 0.3875 0.8804
11 上期所螺纹钢库存量 6 0.4125 0.8755
12 人民币兑美元中间价 3 0.4000 0.8488
13 大商所焦煤指数合约价格 3 0.3775 0.8390
14 180基建 3 0.3950 0.8357
15 沪深300金融地产指数 3 0.3900 0.8347
16 大商所铁矿石指数合约价格 1 0.3900 0.8333
17 郑商所动力煤指数合约价格 3 0.4175 0.8264
18 房地产竣工面积 1 0.4050 0.8093
19 黑色金属冶炼及压延加工业增加值_同比增长 3 0.4150 0.8066
20 钢筋出口数量当月值 1 0.3875 0.7231
21 基础设施建设投资累计同比增长率 1 0.4325 0.7184
22 房地产施工面积 3 0.4000 0.5598
23 炼焦煤出口数量当月值 1 0.4225 0.4569
24 燃气生产和供应业增加值_同比增长 6 0.4150 1.0918 高度关联特征
25 煤炭开采和洗选业增加值_同比增长 3 0.4175 1.0549
26 非金属矿采选业增加值_同比增长 6 0.4375 1.0438
27 有色金属矿采选业增加值_同比增长 12 0.4075 1.0418
28 非制造业采购经理人指数 1 0.4375 1.0204
29 金属制品业增加值_同比增长 6 0.4000 1.0087
30 货币(M1)供应量同比增长率 3 0.4050 1.0067
31 房地产开发投资完成额 12 0.4325 0.9993
32 当季度GDP 12 0.4175 0.9976
33 黑色金属矿采选业固定资产投资完成额累计同比增长率 12 0.3950 0.9863
34 黑色金属冶炼及压延加工业用电量当月值 12 0.3975 0.9810
35 非金属矿物制品业增加值_同比增长 12 0.4025 0.9732
36 有色金属冶炼及压延加工业增加值_同比增长 1 0.4075 0.9692
37 通用设备制造业增加值_同比增长 3 0.4175 0.9629
38 黑色金属矿采选业增加值_同比增长 1 0.4200 0.9591
39 电力、热力的生产和供应业增加值_同比增长 12 0.3825 0.9553
40 上期所螺纹钢指数合约价格 12 0.4550 0.9552
41 沪深300指数 12 0.4375 0.9534
42 货币和准货币(M2)供应量同比增长率 6 0.4250 0.9505
43 制造业采购经理指数 6 0.4175 0.9436
44 波罗的海干散货指数(BDI) 12 0.4550 0.9269

参考文献

部慧, 李艺, 汪寿阳, 国际基金持仓与大豆商品期货价格关系的实证研究[J]. 管理评论, 2008, 20 (5): 3- 8.
Bu H , Li Y , Wang S Y , Relationship Between Funds and Commodity Futures Prices: An Empirical Study Based on Soybean Futures[J]. Management Review, 2008, 20 (5): 3- 8.
部慧, 中国铜期货市场期货价格期限结构研究[J]. 系统工程学报, 2016, 31 (2): 192- 201.
Bu H , Study on Backwardation and Term Structure of Futures Prices in Chinese Copper Futures Market[J]. Journal of Systems Engineering, 2016, 31 (2): 192- 201.
蔡慧, 华仁海, 中国商品期货指数与GDP指数的关系研究[J]. 金融理论与实践, 2007, (8): 3- 6.
Cai H , Hua R H , A Study of the Relationship Between China's Commodities Futures Index and GDP Index[J]. Financial Theory & Practice, 2007, (8): 3- 6.
陈海鹏, 卢旭旺, 申铉京, 杨英卓, 基于多元线性回归的螺纹钢价格分析及预测模型[J]. 计算机科学, 2017, 44 (S2): 61- 64.
Chen H P , Lu X W , Shen X J , Yang Y Z , Analysis and Prediction on Rebar Price Based on Multiple Linear Regression Model[J]. Computer Science, 2017, 44 (S2): 61- 64.
董珊珊, 冯芸, 基于FCVAR模型研究SHFE和LME铜期货和现货市场价格发现功能[J]. 现代管理科学, 2015, (11): 67- 69.
Dong S S , Feng Y , Research on Price Discovery Function of SHFE and LME Copper Futures and Spot Market Based on FCVAR Model[J]. Modern Management Science, 2015, (11): 67- 69.
董晓娟, 安海岗, 董志良, 有色金属国际期货市场价格联动效应演化分析——以铜、铝、锌为例[J]. 复杂系统与复杂性科学, 2018, 15 (4): 50- 59.
Dong X J , An H G , Dong Z L , Evolution Analysis of Price Linkage Effect in the International Futures Market of Non-Ferrous Metals: Case of Copper, Aluminum and Zinc[J]. Complex Systems and Complexity Science, 2018, 15 (4): 50- 59.
高鹤, 李旻文, 高峰, 基金经理风险偏好、投资风格与基金业绩——基于性别个人特征的视角[J]. 投资研究, 2014, (5): 82- 96.
Gao H , Li M W , Gao F , Risk Attitudes, Investment Styles and Fund Performance of Fund Managers: From the Perspective of Gender[J]. Review of Investment Studies, 2014, (5): 82- 96.
高辉, 赵进文, 期货价格收益率与波动性的实证研究——以中国上海与英国伦敦为例[J]. 财经问题研究, 2007, (2): 54- 66.
Gao H , Zhao J W , The Empirical Research of Futures Price Return and Volatilities in Shanghai of China and London of U.K[J]. Research on Financial and Economic Issues, 2007, (2): 54- 66.
顾秋阳, 周有林, 华秀萍, 王瑞, 我国螺纹钢期货价格波动的机理研究——基于SVAR模型的实证分析[J]. 价格理论与实践, 2019, (7): 95- 98.
Gu Q Y , Zhou Y L , Hua X P , Wang R , Research on the Mechanism of China's Rebar Futures Price Fluctuation-An Empirical Analysis Based on SVAR Model[J]. Price: Theory & Practice, 2019, (7): 95- 98.
郭树华, 王华, 高祖博, 王俐娴, 金属期货市场价格联动及其波动关系研究——以SHFE和LME的铜铝为例[J]. 国际金融研究, 2010, (4): 79- 88.
Guo S H , Wang H , Gao Z B , Wang L X , A Study on the Interactive Linkage and Fluctuation of the Prices Among Metal Futures Markets—Taking the Copper and Aluminum of SHFE and LME for Example[J]. Studies of International Finance, 2010, (4): 79- 88.
韩立岩, 尹力博, 投机行为还是实际需求?——国际大宗商品价格影响因素的广义视角分析[J]. 经济研究, 2012, 47 (12): 83- 96.
Han L Y , Yin L B , Speculation or Real Demand? A Multi-Vision Economic Analysis of the International Commodity Prices Impact Factors[J]. Economic Research Journal, 2012, 47 (12): 83- 96.
胡东滨, 张展英, 基于DCC-GARCH模型的金属期货市场与外汇、货币市场的动态相关性研究[J]. 数理统计与管理, 2012, 31 (5): 906- 914.
Hu D B , Zhang Z Y , The Dynamic Conditional Correlation Between Metals Futures Markets and Exchange Markets or Money Market Based on DCC-GRACH Model[J]. Journal of Applied Statistics and Management, 2012, 31 (5): 906- 914.
胡建兰, 高瑜, 基于灰色模型的钢铁价格影响因素研究[J]. 价值工程, 2019, 38 (32): 71- 72.
Hu J L , Gao Y , Research on Factors Affecting Steel Price Based on Grey Model[J]. Value Engineering, 2019, 38 (32): 71- 72.
黄健柏, 刘凯, 郭尧琦, 沪铜期货市场价格发现的动态贡献——基于状态空间模型的实证研究[J]. 技术经济与管理研究, 2014, (2): 69- 74.
Huang J B , Liu K , Guo Y Q , An Empirical Study on Dynamic Contribution of Price Discovery in Shanghai Copper Futures Market—Based on the State-Space Model[J]. Journal of Technical Economics & Management, 2014, (2): 67- 72.
金剑峰, 钢铁类股票与螺纹钢期货的互动关系研究[J]. 科技经济市场, 2019, (7): 83- 85.
Jin J F , Study on the Interactive Relationship Between Steel Stocks and Rebar Futures[J]. Science & Technology Ecnony Market, 2019, (7): 83- 85.
金涛, 螺纹钢期货和沪深300股指期货的价格联动性研究[J]. 会计之友, 2014, (8): 21- 24.
Jin T , Research on Price Linkage Between Rebar Futures and CSI300 Stock Market Index Futures[J]. Friends of Accounting, 2014, (8): 21- 24.
李洁, 杨莉, 上海和伦敦金属期货市场价格联动性研究——以铜铝锌期货市场为例[J]. 价格理论与实践, 2017, (8): 100- 103.
Li J , Yang L , Research on Futures Price Relations Between the Shanghai Futures Exchange and the London Mental Exchange[J]. Price: Theory & Practice, 2017, (8): 100- 103.
李志冰, 刘晓宇, 基金业绩归因与投资者行为[J]. 金融研究, 2019, (2): 188- 206.
Li Z B , Liu X Y , Fund Performance Attribution and Investor Behavior[J]. Journal of Financial Research, 2019, (2): 188- 206.
梁珊, 王正刚, 郭葆春, 基金规模与业绩关系的再检验——基于DGTW方法的业绩评价[J]. 投资研究, 2016, 35 (3): 151- 158.
Liang S , Wang Z G , Guo B C , Relationship Between Fund Scale and the Fund Performance-Based on DGTW Performance Evaluation Method[J]. Review of Investment Studies, 2016, 35 (3): 151- 158.
刘京军, 苏楚林, 传染的资金: 基于网络结构的基金资金流量及业绩影响研究[J]. 管理世界, 2016, (1): 54- 65.
Liu J J , Su C L , Contagious Capital: A network Analysis on Mutual Fund's Capital Flow and Performance[J]. Management World, 2016, (1): 54- 65.
刘立霞, 马军海, 基于LS-SVM的石油期货价格预测研究[J]. 计算机工程与应用, 2008, (32): 230- 231.
Liu L X , Ma J H , Least squared Support Vector Machine for petroleum Futures Price Prediction[J]. Computer Engineering and Applications, 2008, (32): 230- 231.
刘轶芳, 迟国泰, 余方平, 孙韶红, 王玉刚, 基于GARCH-EWMA的期货价格预测模型[J]. 哈尔滨工业大学学报, 2006, (9): 1572- 1575.
Liu Y F , Chi G T , Yu F P , Sun S H , Wang Y G , Forecast Model of futures Price Based on GARCH and EWMA[J]. Journal of Harbin Institute of Technology, 2006, (9): 1572- 1575.
陆蓉, 陈百助, 徐龙炳, 谢新厚, 基金业绩与投资者的选择——中国开放式基金赎回异常现象的研究[J]. 经济研究, 2007, (6): 39- 50.
Lu R , Chen B Z , Xu L B , Xie X H , Fund Performance and Investors' Choice—Analysis on the Redemption Puzzle of Open-End Fund Market in China[J]. Economic Research Journal, 2007, (6): 39- 50.
毛磊, 王宗军, 王玲玲, 机构投资者持股偏好、筛选策略与企业社会绩效[J]. 管理科学, 2012, 25 (3): 21- 33.
Mao L , Wang Z J , Wang L L , Institutional Investors Preferences, Screening and Corporate Social Performance[J]. Journal of Management Science, 2012, 25 (3): 21- 33.
王苏生, 王丽, 李志超, 向静, 基于卡尔曼滤波的期货价格仿射期限结构模型[J]. 系统工程学报, 2010, 25 (3): 346- 353.
Wang S S , Wang L , Li Z C , Xiang J , Affine Term Structure Models of Futures Prices Based on Kalman Filter[J]. Journal of Systems Engineering, 2010, 25 (3): 346- 353.
王天思, 大数据中的因果关系及其哲学内涵[J]. 中国社会科学, 2016, (5): 22- 42.
Wang T S , Causality in Big Data and Its Philosophical Connotation[J]. Social Sciences in China, 2016, (5): 22- 42.
伍景琼, 蒲云, 伍锦群, 钢铁企业进口铁矿石价格影响因素强度及对策研究[J]. 经济问题探索, 2012, (3): 93- 97.
Wu J Q , Pu Y , Wu J Q , Study on the Intensity of Influencing Factors and Countermeasures of Imported Iron Ore Price in Steel Company[J]. Inquiry into Economic Issues, 2012, (3): 93- 97.
肖继辉, 彭文平, 基金经理特征与投资能力、投资风格的关系[J]. 管理评论, 2012, 24 (7): 40- 48.
Xiao J H , Peng W P , Relationship of Fund Manager Characteristics, Investment Abilities and Investment Styles[J]. Management Review, 2012, 24 (7): 40- 48.
肖峻, 石劲, 基金业绩与资金流量: 我国基金市场存在"赎回异象"吗?[J]. 经济研究, 2011, 46 (1): 112- 125.
Xiao J , Shi J , Historical Performance and Fund Flows: Does "Redemption Anomaly" Exist in China's Open-End Fund Market?[J]. Economic Research Journal, 2011, 46 (1): 112- 125.
袁先智, 刘海洋, 周云鹏, 严诚幸, 冯驰, 等. 基金关联特征提取的大数据随机搜索算法及应用[J]. 管理科学, 2020, 33 (6): 41- 53.
Yuan X Z , Liu H Y , Zhou Y P , Yan C X , Feng C , et al. The Extraction of Risk Factors for Funds by Using Bigdata Stochastic Search Algorithms and Applications[J]. Journal of Management Science, 2020, 33 (6): 41- 53.
袁先智, 周云鹏, 刘海洋, 严诚幸, 曾途(2019). 大数据框架下对大宗商品期货(铜)价格趋势分析的关联特征刻划研究[R].
BBD Working Paper. Yuan X Z, Liu H Y, Zhou Y P, Yan C X, Ceng T, (2019). A Study of Risk Characteristics for Commodity (Cooper) Futures Price Trend Under The Big Data Framework[R]. BBD Working Paper.
袁先智, 周云鹏, 刘海洋, 严诚幸, 钱国骐, 在金融科技中基于人工智能算法的风险特征因子筛选框架的建立和在期货价格趋势预测相关的特征因子刻画的应用[J]. 安徽工程大学学报, 2020, 35 (4): 1- 13.
Yuan X Z , Zhou Y P , Liu H Y , Yan C X , Qian G Q , The Framework of Extract for Related Risk Factors by Using AI Algorithms and Applications to the Forecast of Trend for Commodity Futures Prices in Practice[J]. Journal of Anhui Polytechnic University, 2020, 35 (4): 1- 13.
袁知柱, 王泽燊, 郝文瀚, 机构投资者持股与企业应计盈余管理和真实盈余管理行为选择[J]. 管理科学, 2014, 27 (5): 104- 119.
Yuan Z Z , Wang Z S , Hao W H , Institutional Ownership and the Choice between Accrual and Real Earnings Management Activities[J]. Journal of Management Science, 2014, 27 (5): 104- 119.
曾德明, 龙淼, 龚红, 机构投资者持股对公司绩效的影响研究[J]. 软科学, 2006, (1): 37- 39.
Zeng D M , Long M , Gong H , Analysis of the Influence of Institutional Investors' Share-holding on Corporate Performance[J]. Soft Science, 2006, (1): 37- 39.
张保银, 陈俊, 基于动态VECM的我国铜期货的价格发现功能研究[J]. 天津大学学报(社会科学版), 2012, 14 (6): 492- 496.
Zhang B Y , Chen J , Price Discovery Function of Copper Futures in China Based on the Dynamic VECM[J]. Journal of Tianjin University (Social Sciences), 2012, 14 (6): 492- 496.
张屹山, 方毅, 黄琨, 中国期货市场功能及国际影响的实证研究[J]. 管理世界, 2006, (4): 28- 34.
Zhang Y S , Fang Y , Huang K , An Empirical Study on the Function and International Influence of China's Futures Market[J]. Management World, 2006, (4): 28- 34.
赵秀娟, 程刚, 汪寿阳, 基金经理的运气是否比能力更重要?[J]. 系统工程理论与实践, 2011, 31 (5): 834- 840.
Zhao X J , Cheng G , Wang S Y , Is luck more important than the fund managers ability?[J]. Systems Engineering—Theory & Practice, 2011, 31 (5): 834- 840.
赵秀娟, 汪寿阳, 基金经理在多大程度上影响了基金业绩?——业绩与个人特征的实证检验[J]. 管理评论, 2010, 22 (1): 3- 12.
Zhao X J , Wang S Y , How Much Do the Managers Affect Funds Performance?—Empirical Study of Performance and Personal Characteristics[J]. Management Review, 2010, 22 (1): 3- 12.
郑尊信, 徐晓光, 基差、随机冲击与不对称相关结构下的期货套期保值——来自亚洲股指期货市场的证据[J]. 数量经济技术经济研究, 2009, 26 (3): 91- 105.
Zhen Z X , Xu X G , Basis, Stochastic Impulse and Futures Hedging with Asymmetric Correlation[J]. The Journal of Quantitative & Technical Economics, 2009, 26 (3): 91- 105.
周伟, 王强强, 贵金属与其他金属期货间的价格交叉影响及其传导效应[J]. 商业研究, 2016, (2): 81- 86.
Zhou W , Wang Q Q , The Cross Linkage of Price and Conduction Effect between the Non-precious and Precious Metals Futures[J]. Commercial Research, 2016, (2): 81- 86.
朱晋, 市场因素影响商品期货价格的多元模型分析[J]. 数量经济技术经济研究, 2004, (1): 75- 79.
Zhu J , Multivariate Model Analysis of Market Factors Affecting Commodity Futures Prices[J]. The Journal of Quantitative & Technical Economics, 2014, (1): 75- 79.
Agrawal R, Imieliński T, Swami A, (1993). Mining Association Rules Between Sets of Items in Large Databases[C]//Proceedings of the 1993 ACM SIGMOD International Conference on Management of Data: 207-216.
Akaike H , A New Look at the Statistical Model Identification[J]. IEEE Transactions on Automatic Control, 1974, 19 (6): 716- 723.
Barber B M , Odean T , Boys will be Boys: Gender, Overconfidence, and Common Stock Investment[J]. The Quarterly Journal of Economics, 2001, 116 (1): 261- 292.
Bhar R , Hamori S , Information Flow Between Price Change and Trading Volume in Gold Futures Contracts[J]. International Journal of Business and Economics, 2004, 3 (1): 45- 56.
Bliss R T , Potter M E , Schwarz C , Performance Characteristics of Individually-managed Versus Team-managed Mutual Funds[J]. The Journal of Portfolio Management, 2008, 34 (3): 110- 119.
Bodie Z , Rosansky V I , Risk and Return in Commodity Futures[J]. Financial Analysts Journal, 1980, 36 (3): 27- 39.
Brennan M J , Hughes P J , Stock Prices and the Supply of Information[J]. The Journal of Finance, 1991, 46 (5): 1665- 1691.
Brennan M J , Schwartz E S , Evaluating Natural Resource Investments[J]. Journal of Business, 1985, 58 (2): 135- 157.
Casassus J , Colli-Dufresne P , Stochastic Convenience Yield Implied from Commodity Futures and Interest Rates[J]. The Journal of Finance, 2005, 60 (5): 2283- 2331.
Chen J , Hong H , Huang M , Kubik D J , Does Fund Size Erode Mutual Fund Performance? The Role of Liquidity and Organization[J]. American Economic Review, 2004, 94 (5): 1276- 1302.
Elton E J , Gruber M J , Blake C R , Fundamental Economic Variables, Expected Returns, and Bond Fund Performance[J]. The Journal of Finance, 1995, 50 (4): 1229- 1256.
Frankel J A , Commodity Prices and Money: Lessons from International Finance[J]. American Journal of Agricultural Economics, 1984, 66 (5): 560- 566.
Geman S , Gibbs Distribution, and the Bayesian Restoration of Images[J]. IEEE Proceedings of Pattern Analysis and Machine Intelligence, 1984, 6, 774- 778.
Glasserman P , Monte Carlo Methods in Financial Engineering[M]. Berlin: Springer Science & Business Media., 2013.
Golec J H , The Effects of Mutual Fund Managers' Characteristics on their Portfolio Performance, Risk and Fees[J]. Financial Services Review, 1996, 5 (2): 133- 147.
Gray S F , Modeling the Conditional Distribution of Interest Rates as a Regime-switching Process[J]. Journal of Financial Economics, 1996, 42 (1): 27- 62.
Gruber M J , Another Puzzle: The Growth in Actively Managed Mutual Funds[J]. The Journal of Finance, 1996, 51 (3): 783- 810.
Hamilton J D , Susmel R , Autoregressive Conditional Heteroskedasticity and Changes in Regime[J]. Journal of Econometrics, 1994, 64 (1-2): 307- 333.
Ippolito R A , On Studies of Mutual Fund Performance, 1962-1991[J]. Financial Analysts Journal, 1993, 49 (1): 42- 50.
Jensen M C , Risk, the Pricing of Capital Assets, and the Evaluation of Investment Portfolios[J]. The Journal of Business, 1969, 42 (2): 167- 247.
Krippner G R , The Financialization of the American Economy[J]. Socio-Economic Review, 2005, 3 (2): 173- 208.
Massa M , How do Family Strategies Affect Fund Performance? When Performance-maximization is not the Only Game in Town[J]. Journal of Financial Economics, 2003, 67 (2): 249- 304.
Narisetty N N , Shen J , He X M , Skinny Gibbs: A Consistent and Scalable Gibbs Sampler for Model Selection[J]. Journal of the American Statistical Association, 2019, 114 (527): 1205- 1217.
Paz A , Moran S , Non Deterministic Polynomial Optimization Problems and Their Approximations[J]. Theoretical Computer Science, 1981, 15 (3): 251- 277.
Pollet J M , Wilson M , How does Size Affect Mutual Fund Behavior?[J]. The Journal of Finance, 2008, 63 (6): 2941- 2969.
Qian G , Field C , Monte Carlo and Quasi-monte Carlo Methods 2000[M]. Heidelberg: Springer, 2002: 460- 474.
Qian G , Rao C R , Sun X , et al. Boosting Association Rule Mining in Large Datasets via Gibbs Sampling[J]. Proceedings of the National Academy of Sciences, 2016, 113 (18): 4958- 4963.
Qian G , Wu Y , Xu M , Multiple Change-points Detection by Empirical Bayesian Information Criteria and Gibbs Sampling Induced Stochastic Search[J]. Applied Mathematical Modelling, 2019, 72, 202- 216.
Schwartz E S , The Stochastic Behavior of Commodity Prices: Implications for Valuation and Hedging[J]. The Journal of Finance, 1997, 52 (3): 923- 973.
Schwarz G , Estimating the Dimension of a Model[J]. The Annals of Statistics, 1978, 6 (2): 461- 464.
Sharpe W F , Mutual Fund Performance[J]. Journal of Business, 1966, 39 (1): 119- 138.
Tang K , Xiong W , Index Investment and the Financialization of Commodities[J]. Financial Analysts Journal, 2012, 68 (6): 54- 74.
Treynor J L , How to Rate Management of Investment Funds[M]. Treynor on Institutional Investing, 1965.
Tully E , Lucey B M , A Power GARCH Examination of the Gold Market[J]. Research in International Business and Finance, 2007, 21 (2): 316- 325.
Wang H , Sheng H , Zhang H W , Influence Factors of International Gold Futures Price Volatility[J]. Transactions of Nonferrous Metals Society of China, 2019, 29 (11): 2447- 2454.
Wermers R , Mutual Fund Performance: An Empirical Decomposition into Stock-picking Talent, Style, Transactions Costs, and Expenses[J]. The Journal of Finance, 2000, 55 (4): 1655- 1695.
Yue Y D , Liu D C , Xu S , Price Linkage Between Chinese and International Nonferrous Metals Commodity Markets Based on VAR-DCC-GARCH Models[J]. Transactions of Nonferrous Metals Society of China, 2015, 25 (3): 1020- 1026.

基金

国家自然科学基金联合基金项目(U1811462)
国家自然科学基金面上项目(71971031)

版权

版权所有,未经授权。
PDF(1732 KB)

2896

Accesses

0

Citation

Detail

段落导航
相关文章

/