计量经济学报, 2021, 1(1): 1-16 DOI: 10.12012/T01-16

论文

大数据时代关于预测的几点思考

萧政,

南加利福尼亚大学经济系, 加利福尼亚州 90089, 美国

Some Thoughts on Prediction in the Presence of Big Data

HSIAO Cheng,

Department of Economics, University of Southern California, California 90089, USA

收稿日期: 2020-07-17  

基金资助: 国家自然科学基金.  71631004
国家自然科学基金.  72033008

Received: 2020-07-17  

Fund supported: National Natural Science Foundation of China.  71631004
National Natural Science Foundation of China.  72033008

作者简介 About authors

萧政,南加州大学经济学教授,世界计量经济学会会士,研究方向:计量经济学、面板数据分析,E-mail:chsiao@usc.edu

摘要

我们有选择地回顾了一些关于大数据下预测的文献.考虑了基于数据的方法与因果的方法、微观建模与宏观建模、同质性与异质性、模型不确定性与抽样误差、常参数建模与时变参数建模、模型评估、交叉验证以及聚类等问题.

关键词: 人工智能 ; 机器学习预测 ; 同质性 ; 异质性 ; 聚类 ; 模型不确定性 ; 模型平均

Abstract

We selectively review some literature on prediction in the presence of big data. Issues of data based approach versus causal approach, micro versus macro modeling, homogeneity versus heterogeneity, model uncertainty versus sampling errors, constant parameter versus time-varying parameter modeling, model evaluation and cross-validation as well as aggregation, etc. are considered.

Keywords: artificial intelligence ; machine learning ; homogeneity ; heterogeneity ; aggregation ; model uncertainty ; average estimation

PDF (989KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

萧政. 大数据时代关于预测的几点思考. 计量经济学报[J], 2021, 1(1): 1-16 DOI:10.12012/T01-16

HSIAO Cheng. Some Thoughts on Prediction in the Presence of Big Data. China Journal of Econometrics[J], 2021, 1(1): 1-16 DOI:10.12012/T01-16

1 引言

大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战.

第2节简要回顾了一些对计量经济学有用的机器学习方法; 第3节讨论了基于数据的预测和因果预测的优缺点, 并论证了组合方法的优点; 第4节讨论聚类问题.第5节考虑组合不同来源和/或不同时间频率的数据的问题.第6节考虑突变式结构变化; 结论在第7节.

2 机器学习算法

庞大的数据规模需要强大的数据操作工具.通常需要做一些探索性的数据分析来总结数据中的关系.机器学习(ML)是指应用人工智能(AI), 通过模式识别(pattern recognition)对大量数据进行处理, 并从经验(experience)中改进.在这种方式下, 机器学习为计算机系统提供了自动执行特定任务或预测的能力.机器学习通常被分为监督式学习(supervised learning)和非监督式学习(unsupervised learning).监督学习是识别具有特定目标(目标变量)的信息, 它由带有特征的标记数据组成.非监督式学习没有特定的目标, 机器通过研究数据来识别模式.没有答案, 机器通过解析数据来确定分组.

现在有很多不同类型的机器学习算法.每一种都有特定用途的独特特性, 其中常见的学习模型有如下.

2.1 回归分析

当条件变量的值发生变化时, 使用统计学中的回归方法预测结果, 以表现因变量$ y $和解释(或条件)变量$ x $之间的关系.

2.2 决策树和随机森林算法

决策树方法是一种探索性(explorative)建模方法.该方法使用树形模型根据某些属性将数据分割成子集进而对观察到的样本(训练样本)进行分类.决策树采用流程图结构.根是目标变量(比如, 天气展望), 内部节点代表属性, 分支是一个连接节点, 连接具有特定属性(节点)的数据组(例如, 高、正常或低湿度), 叶节点是终端节点, 表示观察值或者具有相关属性观察值的百分比(例如, 晴天、正常湿度、弱风速).然而, 树的生长(样本分割)需要“训练”.在每个节点上, 必须先对每个候选分割字段进行排序, 然后才能找到最佳分割.最佳分割是通过一种称为递归分区(recursive partitioning)的递归方式确定的.当某节点上的子集都与目标变量值相同, 或者进一步分割不能根据一定的准则(如预测均方误差)提高对目标变量的预测时, 停止递归.

决策树方法的优点是, 它的计算简单, 因为它执行分类不需要估计底层模型的参数, 它提供了一个明确的指示, 哪些特征(或变量)对预测来说是最重要的.缺点是容易出现分类误差和抽样误差, 特别是当(训练)样本相对于分类(属性)比较小的时侯.为了克服依赖单一决策树进行决策的缺点, Breiman(1996, 2001)提出了一种随机森林(random forest)算法, 它可以从多棵一起工作的树(综合体, ensemble)中形成决策.这种生成与样本概率分布相同的多个不相关树的过程(multiple uncorrelated trees)是通过将观察到的特征随机化, 从观察到的样本中抽取样本进行置换(自助抽样法(Efron (1979))).步骤如下:

步骤1  如果数据中有$ n $个观察值, 从原始数据中随机抽取$ n $个样本进行替换.

步骤2  如果有$ M $个输入变量(特征), 数$ m \ll M $是指定的, 使得在每个节点, $ m $个变量是从$ M $个随机变量中随机挑选的, 这些$ m $个变量上的最佳分割用于分割节点.

步骤3  在森林生长过程中, $ n $$ m $的值保持不变.

2.3 支持向量机和$ K $-均值聚类

它们是一种数据驱动的方法, 用来寻找数据点之间的相似性, 并将它们分类成许多不同的组.分裂过程是通过寻找最优超平面(hyperplane, 从超平面到最近向量点的距离)或通过凝聚(agglomerative, 将两个最相似的集群合并)或通过分裂(divisive, 在同一个集群中开始的对象被划分为单独的集群).当达到所需的组数时, 该过程将停止.

2.4 神经网络

系统通过模仿人类行为来完成这项任务.数据中的模式通过三层来检测:一个(可观测的)输入层, 一个(可观测的)输出层和一个或多个隐藏层, 即神经元(neurons).隐藏层神经元的权值是通过一定的统计方法确定的(例如, White (1992)).

所有的这些人工智能算法都旨在获得良好的样本外预测.在样本内获得较好拟合的方法, 其样本外也可能表现糟糕.为了避免在这些程序中过分强调给定数据集的“模型精度”, 通常会给目标函数施加基于统计标准的惩罚项(例如, LASSO (Tibshirani (1996))、贝叶斯神经网络(Mullachery et al. (2018))).交叉验证方法是将数据集随机划分为“训练”样本(在其中选择一个模型)和“验证”样本(其中所选模型的可预测性被某些标准评估), 可以用于避免所选模型具有欺骗的准确性.

前两种算法通常适用于监督式学习, 第三种算法通常适用于无监督式学习, 第四种算法主要用于强化学习(reinforcement learning), 其中(游戏的)规则和目标是明确定义的.然而, 两种或两种以上的算法的组合也被用于监督式或非监督式学习, 以提高确定变量之间的相关性和关系的效率.

ML算法在有明确定义的任务、性能指标和学习经验的情况下工作得很好. ML是一种强大的工具, 可以从大量数据仓库中提取和扩展具有经济意义的信息.关于ML的文献正在快速增长. Athey and Imbens (2017), Bressons (2020), Fomby (2020), Varian (2014)提供了对经济学家和计量经济学家有用的ML方法的综述. Acemoglu et al. (2016)提供了使用ML工具可以在自动化、经济增长、结构转型、收入分配等领域获得显著提升的例子. Matillion (2019)和Nevada (2019)等都提供了有用的用户指南.

3 基于数据或因果预测模型

能够准确地预测未知的结果对决策者来说是非常重要的.很多时候, 一个决定可能涉及数十亿美元.例如, Netflix公司曾经为尚未制作的“Avater 2”动画系列预算了10亿美元.人们普遍认为, 大数据很快就能预测我们的一举一动.在开始制作自己的电视节目之前, Netflix公司已经将大数据预测用于决策.气象学家已经使用大数据天气预报来获得准确的预测.如果一个向前$ h $期变量的结果$ y_{i, t+h} $是确定的, 那么就有可能获得良好的预测结果.如果$ y_{i, t+h} $是随机的, 那么就没有办法获得完美的预测. $ y_{i, t+h} $的预测必须依赖$ t $时刻有用的信息$ I^{t} $, 然后有:

$ \begin{align} y_{i, t+h}& = E(y_{i, t+h}|I^t)+\epsilon_{i, t+h} \\ & = g_{i, t+h}(\cdot)+\epsilon_{i, t+h}, h = 0, 1, \cdots, \end{align} $

其中$ i\geq 1 $, $ \epsilon_{i, t+h} $表示$ t $$ t+h $之间未知因素的影响.当$ E(\epsilon_{i, t+h}) = 0 $时, $ g_{i, t+h} $是一个无偏估计, 令$ f(x_{it};\theta) $$ y_{i, t+h} $的一个预测模型, 其中$ x_{it} $$ I_t $中的一些可观察协变量$ \theta $是该模型的未知参数.令$ \hat{\theta} $$ \theta $基于$ t $时刻的信息$ I^t $的估计量.则$ f(x_{it};\theta) $的预测误差是:

$ \begin{align} y_{i, t+h}-f(x_{it};\hat{\theta}) = [g_{i, t+h}(\cdot)-f(x_{it}; \theta)]+[f(x_{it};\theta)-f(x_{it};\hat{\theta}]+\epsilon_{i, t+h}. \end{align} $

(2) 式的第一部分是设定误差, 第二部分是样本估计误差, 第三部分是$ t $$ t+h $之间由未知因素造成的影响.如果$ y_{i, t+h} $是确定的, $ \epsilon_{i, t+h} $可以变为$ 0 $.如果$ y_{i, t+h} $是随机的, $ \epsilon_{i, t+h} $通常不等于$ 0 $.例如, 天气预报在一周之后仍然是不准确的, 即使$ g_{i, t+h} $是已知的.由于缺乏可靠的因果模型, 大量的地震数据的存在也无助于地震预测的精度.

数据驱动的方法和因果方法的目标都是构建尽可能接近$ g_{i, t+h}(\cdot) $的预测模型, 也就是最小化(2)式的前两个组成部分造成的误差.数据驱动的方法是利用人工智能算法挖掘高维、大容量的数据, 生成预测模型.令$ f_{i, t+h}(x_{i, t+h}) $是为$ g(\cdot) $挑选出来的模型, 基于数据的预测模型可以通过以下步骤生成:

步骤1  变量选择.通过AI算法挖掘数据, 从而找到相关的预测因素, 记为$ x_{it} $.

步骤2  构造一个简单的预测模型(稀疏性).为了避免样本内的“过拟合”或“噪音扭曲信号”, 通过最小化具有下述形式的带有惩罚项的目标函数来构造一个预测模型$ f_{i, t+h}(x_{it}^{*}; \hat{\theta}^*), $

$ \begin{align} \sum\limits_{t = 1}^{T} L(y_{i, t+h}-f_{i, t+h}(x_{it}^{*}; \hat{\theta}))+\lambda h(\hat{\theta}), \end{align} $

其中$ L(\cdot) $代表预测结果$ y_{i, t+h} $损失函数, 例如$ L(y_{i, t+h}-f_{i, t+h}(x_{it}^{*}; \hat{\theta})) = (y_{i, t+h}-f_{i, t+h} (x_{it}^{*};\hat{\theta}))^2 $, $ h(\hat{\theta}) $是罚函数, 例如设定$ h(\hat{\theta}) $$ \hat{\theta} $的Euclidian范数$ \lVert \hat{\theta} \rVert $, 或者$ \hat{\theta}_k $绝对值的和$ \sum_{k = 1}^{K} \lvert \hat{\theta}_k \rvert $, $ \lambda $是研究者设定的调优参数(Tibshirani (1996)).用$ f_{i, t+h}(x_{it}^{*}; \hat{\theta^*}) $表示运算结果的模型, 这里$ x_{it}^{*} $$ \theta^* $$ x_{it} $$ \theta $的识别子集.

步骤3  后样本验证

将数据分为两个(或$ k $个)子集, 使用数据的一个子集来估计预测模型$ f_{i, t+h}(x_{it}^{*}; \hat{\theta}^*) $.$ f_{i, t+h}(x_{it}^{*}; \hat{\theta}^*) $代入第二个子集中来估计$ f_{i, t+h}(x_{it}^{*}; \hat{\theta}^*) $的精确度.如果认为模型不满意, 重复步骤1$ \sim $3, 直到找到一个满意的模型.

步骤4  模型平均

有了大数据, 就有可能扩展条件协变量列表.此外, 可能存在几种相互竞争的经济模型, 即: $ f_{i, t+h}^l(x_{it}^{l}; \hat{\theta}^l), l = 1, \cdots, m $.由于模型的不确定性, 模型平均预测方法被经常使用(例如, Bates and Granger (1969), Elliott and Timmermann (2016), Hsiao and Wan (2014), Hsiao and Zhou (2019)), Kotchon et al. (2019)提出一种正则化数据丰富的平均方法(regularized data-rich averaging approach), 包括通过以下步骤来预测$ y_{i, t+h} $:

步骤1  将数据集随机地分成$ m $个大致相等的子集.

步骤2  在第$ l $个数据集中使用人工智能算法搜索相关预测因素$ x_{it}^l $, 构造最小化下式的$ f_{i, t+h}^l(x_{it}^{*l}; \hat{\theta}^*) $:

$ \begin{align} \sum\limits_{t = 1}^{T} [y_{i, t+h}-f_{i, t+h}^l(x_{it}^{l}; \hat{\theta}^l)]^2+\lambda h(\hat{\theta}^l). \end{align} $

步骤3  通过下式预测$ y_{i, t+h} $:

$ \begin{align} \hat{y}_{i, t+h} = \frac{1}{m}\sum\limits_{l = 1}^{m}\hat{y}_{i, t+h}^l, \end{align} $

其中

构建预测模型的传统计量经济学方法基本上可以遵循相同的步骤.唯一的区别在于确定相关预测因素的子集, 以及是否强加来自经济理论的先验约束.例如, 经济学家或计量经济学家会根据他们认为重要的因果模型来选择变量子集, 比如克莱恩-戈德伯格(Klein-Goldberger)的美国宏观经济计量模型(1955年), 动态随机一般均衡模型(如: Sbordone et al. (2010))或一些稳定条件(如: Damrongplasit and Hsiao (2020))等.

数据驱动或因果预测的利弊可以从最小均方预测误差的角度来考虑.如(2)式第三部分均方误差所示, $ \epsilon_{i, t+h} $不在研究人员控制范围之内.为了最小化均方预测误差$ E[y_{i, t+h}-f_{i, t+h}(x_{it};\hat{\theta})]^2 $, 我们需要最小化由于错误设定造成的均方误差的总和$ E[g_{i, t+h}(\cdot)-f_{i, t+h}(x_{it};\theta)]^2 $, 以及样本估计误差引起的均方误差$ E[f_{i, t+h}(x_{it};\theta)-f_{i, t+h}(x_{it};\hat{\theta})]^2 $.第二个部分取决于预测模型$ f_{i, t+h}(x_{it};\theta) $的复杂性和样本的变异性以及自由度.这是一个正确设定的误差和估计误差之间的一个权衡.数据科学家和计量经济学家或统计学家提出了各种方法来平衡两者, 如Akike $ (1970, 1971) $信息准则(AIC), Bayesian信息准则(BIC) (Shwarz (1978)), Bayesian模型平均等.

预测与因果分析是不同的.正确设定的均方误差$ E[g_{i, t+h}(\cdot)-f_{i, t+h}(x_{it};\theta)]^2 $依赖于$ g_{i, t+h}(\cdot) $$ f_{i, t+h}(x_{it};\theta) $的接近程度.任何降低误差$ [g_{i, t+h}(\cdot)-f_{i, t+h}(x_{it};\theta)] $的变量都可以被看作是有用的预测因素, 无论它是否是$ y_{i, t+h} $的因果因素.然而, 一个变量是否是有用的预测因素取决于预测水平$ h $.以一个地区的犯罪率和该地区的警察集中度为例.如果警察的分配取决于该地区的犯罪率, 那么警察集中比率是该地区短期内犯罪率的一个很好的预测指标, 记为$ h = 1, 2, 3 $, 而人工智能算法很可能将一个地区的警察集中度作为该地区犯罪率的预测指标.然而, 警察集中率并不是一个地区犯罪率的原因.要获得对多期预测的良好预测, 就需要确定一个地区犯罪率的基本因果因素, 如人均GDP、教育水平等.换句话说, 对于一个地区犯罪率的短期预测, 即$ h = 0, 1 $或2, 警察集中率可能是一个很好的预测因素, 但对于长期预测, 包含警察集中率可能会给预测模型增加不相关的噪声.

除了选择变量子集的差异性外, 数据驱动的方法通常不会对选择的变量子集施加任何先验限制, 而经济或计量经济学方法可能会基于经济理论施加先验限制.可以想象, 将数据驱动的方法与因果方法相结合, 可能会产生更准确的预测模型.事实上, Chen, Hsieh and Lin (2020) (CHL)提出了一种将传统机器学习算法与匹配经济模型相结合的矩阵分解与均衡协同过滤算法(Shapley and Shubik (1972)), 来预测一个在线约会平台上的男女配对, 并且能够证明它能比仅仅依靠数据驱动的方法或因果关系的方法产生更好的预测.

CHL算法是基于假设一个男性客户$ i $匹配一个女性客户$ j $的净效用函数:

$ \begin{align} d_{ij, t}^{1*} = \beta_1'z_{jt}+\beta_2's^1(x_{it}, z_{jt})+\alpha_{1i}-\tau_{ij, t}+\epsilon_{ij, t}^1, \end{align} $

一个女性用户$ j $匹配一个男性$ i $,

$ \begin{align} d_{ji, t}^{2*} = \gamma_1'x_{jt}+\gamma_2' s^2(z_{jt}, x_{it})+\alpha_{2i}-\tau_{ji, t}+\epsilon_{ji, t}^2, \end{align} $

其中$ x_{it} $$ z_{jt} $分别代表男性$ i $和女性$ j $的属性, $ s^1(\cdot) $$ s^2(\cdot) $$ i $$ j $之间的距离测度, $ \tau_{ij, t} $$ \tau_{ji, t} $是匹配的成本, $ \alpha_{1i} $$ \alpha_{2i} $是细化到个体的影响, $ \epsilon_{ij, t}^1 $$ \epsilon_{ji, t}^2 $是随机误差项, 独立于$ x_{it}, z_{jt}, \alpha_{1i}, \alpha_{2i} $, $ \tau_{ij, t} $$ \tau_{ji, t} $.如果第$ i $个男性喜欢第$ j $个女性, 则令虚拟变量$ d_{ij, t}^1 = 1 $否则为0, 如果第$ j $个女性喜欢第$ i $个男性, 则令$ d_{ji, t}^2 = 1 $否则为0.观测的$ (d_{ij, t}^1, d_{ji, t}^2) $取值,

$ \begin{align} d_{ij, t}^1& = 1, \quad \text{如果} \quad d_{ij, t}^{1*}\ge 0, \\ & = 0, \quad \text{其他} \end{align} $

$ \begin{align} d_{ij, t}^2& = 1, \quad \text{如果} \quad d_{ij, t}^{2*}\ge 0, \\ & = 0, \quad \text{其他} \end{align} $

进而

$ \begin{align} P(d_{ij, t}^1 = 1) = \int_{-(\beta_1'z_{jt}+\boldsymbol {\beta}_2's^1(x_{it}, z_{jt})+\alpha_{1i}-\tau_{ij, t})}^{\infty}f(\epsilon_{ij, t}^1){\rm d}\epsilon_{ij, t}^1, \end{align} $

$ \begin{align} P(d_{ji, t}^2 = 1) = \int_{-(\gamma_1'x_{jt}+\gamma_2' s^2(z_{jt}, x_{it})+\alpha_{2i}-\tau_{ji, t})}^{\infty}f(\epsilon_{ji, t}^2){\rm d}\epsilon_{ji, t}^2. \end{align} $

模型(10)和(11)的未知参数可以用Hsiao (2014, Chapter 7)中讨论的方法估计.

$ (\beta_1, \beta_2, \gamma_1, \gamma_2, \alpha_{1i}, \alpha_{2i}, \tau_{ij, t}, \tau_{ji, t}) $为条件, CHL通过求解Choo and Siow (2006)提出的可转移效用匹配模型的均衡条件, 为具有特征$ x_{it} $的男性客户推导推荐候选人列表的预测模型, 以匹配女性候选人$ z_{jt} $, 或者为具有特征$ z_{jt} $女性客户提供具有特征$ x_{it} $的男性候选人名单,

$ \begin{align} n_{x_{it}}{\rm Prob}(d_{ij, t}^{1} = 1|x_{it}, z_{jt}, \tau_{ij, t}, \alpha_{1i}) = n_{z_{jt}}{\rm Prob}(d_{ij, t}^{2} = 1|z_{it}, x_{it}, \tau_{ji, t}, \alpha_{2i}). \end{align} $

这里$ n_{x_{it}} $$ n_{z_{jt}} $分别代表类型$ x_{it} $的男性和类型$ z_{jt} $的女性的总人数. Choo and Siow (2006)表明在假设$ \tau_{ij, t} = \tau_{ji, t} $下, 平衡的匹配满足下述方程组:

$ \begin{align} &\mu_{xzt} = \mu_{xot}^{0.5}\mu_{ozt}^{0.5}\exp\left(\frac{U_{xzt}+V_{xzt}}{2}\right), \\ &\mu_{xot}+\sum\limits_{j}\mu_{xzt} = n_{x_{it}}, \quad \forall x_{it}, \\ &\mu_{ozt}+\sum\limits_{j}\mu_{xzt} = n_{z_{jt}}, \quad \forall z_{jt}, \end{align} $

其中$ U_{xzt} $$ V_{zxt} $是男性或女性的净效用,当男性类型$ x_{it} $匹配女性类型$ z_{jt} $, $ \mu_{xzt} $是匹配类型$ z_{jt} $女性的类型$ x_{it} $男性的人数, $ \mu_{xot}, \mu_{ozt} $是保持单身的类型$ x_{it} $男性和类型$ z_{jt} $的女性的人数.

以(12)和(13)为基础, CHL算法给出了一个矩阵分解与均衡协同迭代算法, 由下列步骤组成:

步骤1  使用AI矩阵分解算法通过过去的用户行为(协作过滤)来识别用户项属性(内容过滤), 即依据男性属性$ x_{it} $和女性属性$ z_{jt} $, 通过下式最小化匹配的预测误差:

$ \begin{align} \sum\limits_{t = 1}^{T}\sum\limits_{i = 1}\sum\limits_{j = 1}(y_{ij, t}-x_{it}'z_{jt})^{2}+\frac{\lambda_1}{2}\lVert x_{it}\rVert^2+\frac{\lambda_2}{2}\lVert z_{jt}\rVert^2, \end{align} $

其中, 如果第$ i $个男性喜欢第$ j $个女性, 则$ y_{ij, t} = 1 $, 否则$ y_{ij, t} = -1 $, $ \lVert \cdot\rVert $表示Euclidian范数, $ \lambda_1 $$ \lambda_2 $是调优参数.

步骤2  在$ x_{it}, z_{jt} $和价格$ \tau_{ij, t}, \tau_{ji, t} $的条件下, 用数据$ (d_{ij, t}, d_{ji, t}) $估计二元模型参数$ (\beta_1, \beta_2, $$ \gamma_1, \gamma_2, \alpha_{1i}, \alpha_{2i}) $ (CHL采用一个线性概率模型).

步骤3  求解(12)和(13)式定义的匹配均衡问题, 向具有特征$ x_{it} $的客户推荐具有特征$ z_{jt} $的候选人名单, 或者向具有特征$ z_{jt} $的客户推荐具有特征$ x_{it} $的候选人名单.

步骤3可视为根据经济理论对AI选择的预测模型加以制约(prior restrictions). CHL利用台湾在线匹配平台上超过49万男性和女性的数据, 比较了他们提出的算法与数据科学中流行的矩阵分解算法的预测性能.他们挑选出喜欢概率最高的10位女性, 通过简化算法将其推荐给拥有$ x_{it} $特征的男性客户:

1) 在矩阵分解算法的步骤1中, 不使用观察到的$ x_{it}, z_{jt} $, 他们把它们当作“潜在变量”来估计.这实际上是一个纯粹的双向因素模型(交互模型在Hsiao (2014 Chapter 9)中讨论).因此, 在他们的简化算法中没有步骤2.

2) 通过求解(13)式得到推荐的候选人列表, 简化算法假设$ U_{xzt}+V_{zxt} = x_{it}'z_{jt} $, 其中$ x_{it} $$ z_{jt} $是简化步骤1中估计的潜在因子(或因子负荷).

他们表明, 他们的推荐列表比仅依赖流行的矩阵分解算法的推荐列表更能预测“喜欢”的点击量.

4 聚类或非聚类的预测模型

大多数大数据方法都关注于寻找微观单元的预测模型.在许多情况下, 政策制定者对微观结果不感兴趣, 而是对平均(或总体)结果感兴趣.这就提出了一些问题, 例如: (a)如何在微观单元中总结平均信息; (b)当微观单元是“异质的”时, 如何将观察到的数据分类为相对“同质的”组? (c)如果微观单元被认为是异质的, 那么应该采用固定系数还是随机系数的方法来表征随时间变化的截面单元之间的异质性?

4.1 聚类方法

考虑用该方法将$ y_{it} $聚类到$ N $个截面单元上,

$ \begin{align} y_t = \sum\limits_{i = 1}^{N}\omega_{i}y_{it}, \end{align} $

它满足

$ \begin{align} \omega_{i}\geq 0, \quad \text{and} \quad \sum\limits_{i = 1}^{N}\omega_{i} = 1, \end{align} $

不同的聚类方法提供不同的聚类关系.传统的简单平均聚类方法是令$ \omega_{i} = \frac{1}{N} $, 则有:

$ \begin{align} \bar{y_t} = \frac{1}{N}\sum\limits_{i = 1}^{N}y_{it}. \end{align} $

然而有很多聚类方法满足(15)式和(16)式.例如, Hsiao et al. (2020)建议选择$ \omega_{i} = \omega_{i}^{*2} $$ \omega_{i} = \omega_{i}^{**2} $, 其中$ \omega_{i}^{*} $$ \omega_{i}^{**} $是特征向量的对应元素, $ \omega^{*} = (\omega_1^*, \cdots, \omega_N^*)' $以及$ \omega^{**} = (\omega_1^{**}, \cdots, \omega_N^{**})' $对应$ N\times N $矩阵的最小和最大特征值,

$ \begin{align} \frac{1}{T}\sum\limits_{t = 1}^{T}(y_t-\bar{y})(y_t-\bar{y})'. \end{align} $

然后

$ \begin{equation} y_t^* = \sum\limits_{i = 1}^{N}\omega_{i}^{*2}y_{it}, \end{equation} $

$ \begin{equation} y_t^{**} = \sum\limits_{i = 1}^{N}\omega_{i}^{**2}y_{it}, \end{equation} $

假设这$ N $个微型单元$ y_{it} $是长期项$ \mu_{it} $和短期项$ v_{it} $的和, 其中$ E(v_{it}) = 0 $, 则:

$ \begin{align} & E\bar{y_t} = \frac{1}{N}\sum\limits_{i = 1}^{N}\mu_{it}, \end{align} $

$ \begin{align} Ey_t^* = \sum\limits_{i = 1}^{N}\omega_{i}^{*2}\mu_{it}, \end{align} $

$ \begin{align} Ey_t^{**} = \sum\limits_{i = 1}^{N}\omega_{i}^{**2}\mu_{it}, \end{align} $

以及

$ \begin{align} {\rm Var}(y_t^*)\leq {\rm Var}(\bar{y_t})\leq {\rm Var}(y_t^{**}). \end{align} $

换句话说, 采用$ \omega_{i}^{*2} $作为权重, 给予那些有更小$ v_{it} $的变动的单元更多的权重.采用$ \omega_{i}^{**2} $作为权重, 给予那些有更大$ v_{it} $的变动的单元更多的权重.采用简单平均聚类法, 对所有横截面单元$ v_{it} $给予同等权重.我们希望采用$ \omega_{i} = \omega_{i}^{*2} $趋向于给予一个平稳的长期趋势, 采用$ \omega_{i} = \omega_{i}^{**2} $趋向于给出一个更不稳定的趋势, 而简单平均聚类法给出的长期趋势介于两者之间.

如果所有的微观单元都有相同的$ \mu_{it} = \mu_{jt} = \mu_t $, 那么三种聚类方法都具有相同的长期趋势.如果$ \mu_{it} $对不同的$ i $是不同的, 那么$ E\bar{y_t}\neq Ey_t^*\neq Ey_t^{**} $.三种不同的聚类方法生成三种不同的聚类长期关系, 选择哪种聚类方法取决于研究的目标.如果关注点是找出聚类变量之间的长期关系, 则应该选择(18)式的最小特征值对应的特征向量; 如果关注点是波动性, 则应选择(18)式最大特征值对应的特征向量; 如果研究者想平衡趋势和时间的变化, 那么简单平均(常规的聚类方法)是比较好的方法.

综上所述, 聚类是在微观单元中对信息进行汇总的一种方便的方法.如果微观单元是同质的(在这个意义上, 不同的微观单元条件下的一些协变量可以被认为是由于偶然机制), 使用对应于(17)式最小特征值的特征向量的聚类会产生更多关于潜在趋势的信息.如果对波动率感兴趣, 那么应该使用(18)式最大特征值对应的特征向量进行聚类.如果微观单元是异质的, 那么决策者应该在考虑采用什么聚类方法之前明确他们的讨论重点.

4.2 用“一致性(Coherence)”和“协调(Reconciliation)”的方法将微观单元划分为同质的组

当微观单元“异质”时, 可以将$ n $个微观单元划分为$ G $个子集, 其中每个子集成员之间的差异可以归因于偶然机制.

当组内的单位是“同质”时, 不存在聚类偏差.基于微观单元聚类的预测, 记为$ \hat{y}_{g, t+h} $, 对属于第$ g $个组的$ i $, 它的期望值$ E(\hat{y}_{g, t+h}|I_t) $$ E(\hat{y}_{i, t+h}|I_t) $相同.因此, 我们可以考虑在预测文献中根据“一致性”和“协调”的思想将微观单位划分为“同质的”组(例如: Hyndman et al. (2016), Wickramasuriya et al. (2018)).

如果对聚类或非聚类数据的所有预测模型都是无偏的, 那么“一致性”就是一种约束, 即对聚类数据的预测应等于相应的分类预测的总和.因此, 假设人们希望将所有$ n $个微观单元分成$ G $个同质的组.令$ \hat{y}_{g, t+h} $表示基于将第$ g $组种所有元素都聚类的向前$ h $期预测, 以及$ \hat{y}_{gi, t+h} $表示基于$ I_t $中信息的第$ g $组第$ i $个元素的$ y_{gi, t+h} $的预测.令$ \hat{y}_{G, t+h} = (\hat{y}_{1, t+h}, \cdots, \hat{y}_{G, t+h})' $$ G $个组的$ G $聚类预测, 以及$ \hat{y}_{t+h} = (\hat{y}_{1, t+h}, \cdots, \hat{y}_{n, t+h}) $是微观的预测. “一致性”意味着:

$ \begin{align} E(\hat{y}_{G, t+h}|I_t) = S_G E(\hat{y}_{1, t+h}|I_t), \end{align} $

其中$ I_t $$ t $时刻的信息, $ S_G $是一个$ G\times n $的“求和矩阵”, 它把$ n $个微观单元划分为$ G $个互相排斥的组, 如此一来, $ S_G $中的每一列的和都等于1.例如, 假设$ G = 2 $, 则$ S $可以具有下述形式:

$ \begin{align} S_G = \begin{bmatrix} 1 & 1 & 0 & 1 & 0 & \cdots \\ 0 & 0 & 1 & 0 & 1 & \cdots \end{bmatrix}. \end{align} $

“协调”是调整预测以使其前后一致的过程. “协调”可以被认为是找到$ S_G $来最小化:

$ \begin{align} \sum\limits_{t = 1}^{T}(y_{G_t+h}-S_G \hat{y}_{t+h})'(y_{G, t+h}-S_G y_{t+h}), \end{align} $

满足

$ \begin{align} s_{gi} = 0 \text{ or } 1, \sum\limits_{g = 1}^{G}s_{gi} = 1 \text{ for } i = 1, \cdots, N, \end{align} $

其中$ y_{G, t+h} $$ (y_{1, t+h}, \cdots, y_{G, t+h}) $的一个$ G\times 1 $的向量, 其中$ y_{g, t+h} $表示$ y_{i, t+h} $的聚类, $ i $属于第$ g $个组.

然而, (27)式的解是以$ G $为条件导出的.一个人先验地不知道在$ n $个横截面单元中有多少个相对“同质的”组.选择组数$ G $的一种方法是使用贝叶斯信息准则(Schwarz (1978)), 通过选择$ G $来最小化:

$ \begin{align} \frac{1}{T}\sum\limits_{t = 1}^{T}(y_{G, t+h}-S_G \hat{y}_{t+h})'(y_{G, t+h}-S_G \hat{y}_{t+h})+\frac{G\log{T}}{T}. \end{align} $

4.3 对于构建异质预测模型的固定系数和随机系数

当微观单元是异质的, 微观序列和宏观序列的基本关系是不同的(例如, Amemiya and Wu (1971), Pesaran et al. (2011), Stoker (1993), Theil (1954), Trivedi (1985)).如果微观单元的非均匀参数随时间保持不变, 且$ T $较大, 原则上, 我们可以用单个时间序列数据来估计微观行为关系, 然后考虑哪种聚类方法可以为决策者提供有用的汇总信息.当$ T $是有限的时候, 估计大量的微观预测模型是不可行的, 一种将聚类数据的预测模型与非聚类数据的预测模型联系起来的随机系数模型方法(例如, Hsiao (2014, Chapter 6))或是可行替代方案.

例如, 考虑聚类数据的预测模型采用下述形式:

$ \begin{align} y_t = x_t'\beta+u_t, \end{align} $

其中$ y_t = \frac{1}{N}\sum_{i = 1}^{N}y_{it}, x_t = \frac{1}{N}\sum_{i = 1}^{N}x_{it} $, 令,

$ \begin{align} y_{it} = x_{it}'\beta_i+u_{it}, \quad i = 1, \cdots, N. \end{align} $

如果以$ \beta_i $固定常数的微观预测模型(31)被看成是基础模型, 那么聚类预测模型(30)不是聚类数据的预测模型(例如, Amemiya and Wu (1971), Theil (1954)).另一方面, 如果模型(30)被看成是$ y_{it} $$ x_{it} $之间的平均关系, 以及模型(31)的系数$ \beta_i $是服从均值$ \beta $和恒定的方差-协方差矩阵的随机分布, 聚类模型(31)生成模型(30) (Zellner (1966)).此外, $ \beta $$ \beta_i $都可以用Hsiao (2014)中的公式(6.6.16)和(6.6.17)来估计.

例如, Hsiao, Shen and Fujiki (2004)考虑估算日本县政府名义货币需求方程的形式:

$ \begin{align} y_{it} = \gamma_{i}y_{i, t-1}+x_{it}'\beta_i+\alpha_i+u_{it}, \quad \lvert \gamma_{i} \rvert \le 1, \quad i = 1, \cdots, N, \end{align} $

与总货币需求的关系:

$ \begin{align} y_t = \gamma y_{t-1} +x_t'\beta+v_t, \end{align} $

其中$ y_t = \frac{1}{N}\sum_{t = 1}^{T}y_{it} $, $ x_t = \frac{1}{N}\sum_{i = 1}^{N}x_{it} $.他们通过假设$ (\gamma_i, \beta_i, \alpha_i) $是固定常数或者是有常数均值$ (\gamma, \beta) $和常数协方差矩阵的随机分布.

Hsiao (2014)的表格6.9给出了Hsiao, Shen and Fujiki (2004)的关于(实际)货币需求、实际GDP和(五年)债券利率之间聚类关系的估计.它们是不稳定的, 对所覆盖的时间段很敏感.根据所涵盖的样本周期, 估计的关系要么是错误的符号, 要么在统计上不显著.估计的长期收入弹性M1为75.23, M2为11.04, 这是一个“难以置信”的量级.

Hsiao (2014)的表格6.10给出了Hsiao, Shen and Fujiki (2004)的关于日本40个县的(实际)货币需求与(实际) GDP和(5年期)债券利率之间的平均关系的随机系数模型估计值.估计M1和M2的短期收入弹性分别为0.88和0.47. M1的长期收入弹性为2.56, M2的长期收入弹性为1.01.这些结果与经济理论和广泛观察到的有关日本的事实一致.实际M2增长率为7.36%, 这一时期GDP的实际增长率为4.13%.考虑到五年期债券利率从1980年第一季度的9.332%下降到1989年第四季度的5.767%, 结果确实非常接近基于非聚类数据分析估计的长期收入弹性.随机系数的方法在这里有效的原因, 因为尽管各个县的参数是不同的, 他们也满足Be Finnetti (1964)可交换性的假设.

如果“异质性”确实存在于微观单元中, 那么我们是根据估计的微观关系总和来预测总体结果, 还是根据估计的总体关系来预测总体结果呢?不幸的是, 在这个具体问题上并没有很多研究.在选择是使用聚类方程$ (H_a) $还是非聚类方程$ (H_d) $来预测聚类变量时, Grunfeld and Griliches (1960)建议使用下述标准:

$ \begin{align} \text{选择 }\quad H_d \text{ 如果 }\quad e_d'e_d \leq e_a'e_a, \text{ 否则选择 }\quad H_a, \end{align} $

其中$ e_d $$ e_a $分别是在$ H_d $$ H_a $下预测总体结果误差的估计. Hsiao (2014)中的表格6.11给出了Hsiao, Shen and Fujiki (2004)基于每个地区人工生成的时间序列数据进行模拟比较, 这些数据证实了观察到的典型事实特征, 并表明当微观单位之间存在异质性时, 首先基于$ (\gamma_{i}, \beta_i') $的随机系数估计获得个体预测然后聚类的方法优于先聚类微观单元然后生成样本内拟合和样本后预测比较的聚类预测方法.通过对安大略地区对数千瓦时需求的固定系数估计和随机系数估计的预测比较, 也表明随机系数预测的均方根误差更小(Hsiao et al. (1989)).这些有限的证据表明, 当$ T $很小的时候, 随机系数方法可能是一个估计微观和宏观的可行选择.

5 合并不同来源和/或不同时间频率的数据

大数据可以采取多种形式, 也可以是非结构化的.例如, 有人认为“情绪”可以帮助预测结果(例如, Baker et al. (2016)).但是, 没有正式的规则将定性信息转换为便于统计分析的数字.对于来自不同来源的数据的兼容性也没有太多的讨论.

合并或不合并来自不同来源的数据.如果来自不同来源的数据都包含一些参数$ \delta $的信息, 那么我们可以从传统似然原则中考虑不同源组合的相容性.例如, 假设有两个数据集Ⅰ和Ⅱ, 那么可以构造如下形式的似然比统计量,

$ \begin{align} L = \frac{L^{\rm I+II} (\hat{\delta})}{L^{\rm I}(\hat{\delta}^{\rm I}) + L^{\rm II}(\hat{\delta}^{\rm II})}, \end{align} $

其中$ L^{\rm I}(\hat{\delta}^{\rm I}) $, $ L^{\rm II}(\hat{\delta}^{\rm II}) $$ L^{\rm I+II}(\hat{\delta}) $, 是在数据集I、数据集II和组合数据集中$ \delta $的极大似然估计处取值的对数极大似然函数值.在两组数据都包含关于公共参数$ \delta $的信息的条件下, 如果样本容量较大, $ -2L $, 是渐近卡方分布, 自由度等于$ \delta $的维数.问题是:什么是合适的显著性水平?如果错误地接受假设和拒绝假设的代价是一样的, Maddala (1971)建议将显著性水平设为25%到30%, 而不是在我们对显著性的初步检验中的5%.

最大似然估计值及其方差协方差的规范只是根据其最大值的位置和最大值周围的曲率总结了似然函数.可能的情况是, 似然函数所包含的信息没有完全由这些信息表达出来.在研究不同数据源的相容性时, 广泛地绘制似然函数是有用的.为了这个目的, Maddala (1971)建议人们也应该把每个数据集的相对极大似然性制成表格并画出来,

$ \begin{align} R_{M}(\delta) = \frac{\max_{\theta}L(\delta, \theta)} {\max_{\delta_{1}, \theta}L(\delta_{1}, \theta)}. \end{align} $

对不同的$ \delta $值, 其中$ \theta $代表剩余参数的集合, $ \max_{\theta}L(\delta, \theta) $表示给定$ \delta $, $ L $关于$ \theta $的极大值, 以及$ \max_{\delta_{1}, \theta}L(\delta_{1}, \theta) $表示$ L $关于$ \delta $$ \theta $的极大值. (36)式的图总结了关于$ \delta $的数据集所包含的几乎所有信息.因此, 相对极大似然值的形状和位置将比单一的检验统计量揭示更多关于不同数据集的兼容性的信息.

Maddala (1971)使用了与美国粮食需求有关的简单计量经济学模型(Tobin (1950))来说明这个基本思想.

Maddala (1971)表明, 虽然使用组合数据可以在估计系数的准确性方面有很大的提高, 他的似然比统计结果是17.2, 这是Tobin模型中仅从横截面数据得到的参数$ \delta_1 $ (需求收入弹性)的相对极大似然比$ R_M(\delta_1) $的显著情形.该数字显示, 时间序列数据提供的关于$ \delta $的信息几乎与横截面数据提供的一样精确(否则, 似然函数将相对平坦).此外, 时间序列数据和横截面数据的似然函数之间几乎没有重叠.这再次明确地表明, 数据不应该被合并.

除了可合并的问题, 还有一个问题是如何最好地组合以不同时间频率记录的数据.关于插值或外推的文献都被考虑在离散区间数据框架中(例如, Hsiao (1979)).然而, 数据采集的速度使得连续时间建模相对于本书中考虑的离散时间间隔数据的建模以及如何将离散时间间隔数据与连续时间数据相结合的问题变得复杂起来(例如, Cai et al. (2018), Chang, Hu and Pack (2018), Li, Robinson and Shang (2019), Phillips (1974), Robinson (1976)).

6 结构突变

以上的讨论是基于预测模型的参数随时间保持不变的假设.然而, 由于政策(如Lucas (1976))的变化, 或技术, 或外部条件(如COVID-19的爆发)的变化, 存在可能导致决策规则发生变化的结构性变化.如果断点是已知的, 并且有大量的断点后样本观测, 那么可以使用断点后数据来构建预测模型.如果断点未知或接近采样期的结束, Wang et al. (2013)建议忽略结构突变的波动率, 只利用观测到的所有样本构建一个合适的时间序列模型来预测波动率. Pesaran and Pick (2011)证明了在不同估计窗口上(简单)平均预测通常比基于单一估计窗口的预测产生更低的偏差和均方根预测误差.另一方面, Sun et al. (2020), SHLWZ, 注意到可能有多个候选预测模型, 大数据的可用性允许研究者构建参数随时间平稳变化的预测模型, 而不是在给定的断点突然变化.因此, 他们建议在局部时变平均方法上采用不同的权重, 以考虑随着时间推移可能出现的结构突变.

假设有$ M $个预测$ y_{t+h} $的模型, 并且所有的预测模型都服从平滑的时间变化.为简单起见, 我们假设每个预测都采用以下形式:

$ \begin{align} y_t^{(j)} = x_t^{(j)'}\beta_t^{(j)}+\epsilon_t^{(j)}, \quad t = 1, \cdots, T, \end{align} $

其中$ x_t^{(j)} $表示可数无穷个$ I^t $中协变量的子集, SHLWZ假设$ \beta_t^{(j)} $是比值$ t/T $的光滑函数, 如同参考文献Cai (2007), Chen and Hong (2012), Robinson (1989)中一样.

$ \begin{align} \beta_s^{(j)}\approx \beta_t^{(j)}, \quad s\in(t-Th, t+Th), \end{align} $

$ \beta_t^{(j)} $可以被估计为:

$ \begin{align} \hat{\beta}_t^{(j)} = (X^{(j)'} K_t X^{(j)})^{-1}(X^{(j)'} K_t y). \end{align} $

这里$ y = (y_1, \cdots, y_T)', X^(j) = (x_t^{(j)'}) $, $ K_t $是光滑核$ K_t = {\rm diag}\{k_{1t}, \cdots, k_{Tt}\} $其中$ k_{st} = k(\frac{s-t}{Th}) $是一个预先指定的对称概率密度函数, $ h $是带宽参数, 满足当$ T\rightarrow \infty, h\rightarrow 0 $$ Th\rightarrow \infty $, 则$ y_t $可通过下式预测:

$ \begin{align} \hat{\mu}_t^{(j)} = x_t^{(j)'}\hat{\beta}_t^{(j)}. \end{align} $

为了进一步减少$ \hat{\beta}_t^{(j)} $$ \hat{\mu}_t^{(j)} $的偏差, SHLWZ建议采用折刀估计量(jackknife estimator)代替(39)式, 它被定义为$ K_{-t} = {\rm diag}\{k_{1t}, k_{2t}, \cdots, k_{(t-1)t}, 0, k_{(t+1)t}, \cdots, k_{Tt}\} $,

$ \begin{align} \tilde{\beta}_t^{(j)} = (X^{(j)'} K_{-t} X^{(j)})^{-1}(X^{(j)'} K_{-t} y), \end{align} $

以及

$ \begin{align} \tilde{\mu}_t^{(j)} = x_t^{(j)'}\tilde{\beta}_t^{(j)}. \end{align} $

考虑到有$ M $个候选预测模型, SHLWZ在得到第$ j $个预测模型的最佳局部时间平均后, 进一步提出了一种变权方案, 通过最小化下式:

$ \begin{align} \sum\limits_{t = 1}^{T}\left(y_t-\sum\limits_{j = 1}^{M} \omega_j^M \tilde{\mu}_{jt}^{(j)} \right)^2 k_{st}, \end{align} $

满足

$ \begin{align} \sum\limits_{j = 1}^{M} \omega_j^M = 1, \end{align} $

其中$ \mu_{jt}^{(j)} $表示基于局部折刀平均的第$ j $个预测模型.通过允许权值随时间平稳变化, 他们的时变平均方法的均方误差渐近等于这些$ M $个候选模型1的不可行最佳可能平均误差的局部均方误差.

1每个候选预测模型的潜在协变量可能很大.为进一步提高时变模型平均法的预测精度, Sun, Hong and Wang (2020)已经证实了一种简洁的时变前向验证模型平均法, 该方法同时从每个预测模型选择的协变量$ x_t^{(j)} $中选择模型平均权值和回归元子集.

7 结论

信息技术的发展为收集和存储定性和定量信息提供了无限的能力.人工智能算法依靠一套基本原则来指导从数据中提取知识.重点是模式识别或寻找一组特征或协变量来总结大数据中的信息.大数据预测方法可以看作是一种数据驱动的决策方法.这就像用“显微镜”找到现实的镜像一样.例如, 谷歌预测模型在过度简化的缺陷下, 可以认为是“趋势+季节性+计算机算法选择大量协变量”.既没有考虑样本选择问题, 也没有考虑结构突变.然而, 观察到的数据可能不是随机抽取的.比如, 亚马逊取消了她识别潜在员工的秘密算法, 因为这些数据是从以男性为主的亚马逊员工那里收集的. Lucas (1976)提出, 随着时间的推移, 数据也会经历结构性突变, 即政策变化会导致决策规则的变化.本文考虑了预测个体行为或平均行为的问题, 包括: 1)在预测有或没有结构断点的平均行为时, 个体行为的异质性; 2)在大数据存在的情况下进行聚类, 假设观测数据是随机抽取的.

预测与因果分析是不同的.一个变量可以是非因果的, 但只要该变量的相关性和被预测变量的结果在考虑的预测范围内保持一致, 它就是一个很好的预测因素.但是, 如果预测因素不是因果变量, 那么预测因素的变化不一定会导致变量利益结果的变化.例如, 目前对经济低迷的观察与COVID-19病毒的传播是高度相关的.所以人们可以用一个经济体的变化来预测冠状病毒在那个国家传播的严重程度.但经济发展并不是冠状病毒传播的原因.利用经济手段对冠状病毒传播的严重程度进行预测, 在任何时间段都没有预测能力.一个好的预测因素必须基于因果因素.另一方面, 传统的计量经济学模型是建立在经济学家或计量经济学家认为重要的几个因果因素之上的.影响这些结果的因素有很多.大数据和机器学习算法的可用性可以帮助经济学家识别相关的因果变量, 以便纳入预测模型.大数据、机器学习算法和经济理论的结合可以帮助构建更准确的预测模型(如, Chen et al. (2020), Sun, Hong and Lee et al. (2020), Sun, Hong and Wang (2020)).

参考文献

Amemiya T Wu R

The Effect of Aggregation on Prediction in the Autoregressive Model

Journal of the American Statistical Association 1971 67 339 628 632

Amemiya T, Wu R, (1971). The Effect of Aggregation on Prediction in the Autoregressive Model[J]. Journal of the American Statistical Association, 67(339):628-632.

[本文引用: 2]

Athey S, (2018). The Impact of Machine Learning on Economics[D]. San Francisco: Standford University.

[本文引用: 2]

Athey S Imbens G Pham T Wager S

Estimating Average Treatment Effects:Supplementary Analyses and Remaining Challenges

American Economic Review 2017 107 5 271 281

Athey S, Imbens G, Pham T, Wager S, (2017). Estimating Average Treatment Effects:Supplementary Analyses and Remaining Challenges[J]. American Economic Review, 107(5):271-281.

[本文引用: 2]

Athey S, Imbens G W, (2019). Machine Learning Methods Economists Should Know About[D]. Palo Alto: Standford University.

Bai Z D Silverstein J W

CLT for Linear Spectral Statistics of Large-dimensional Sample Covariance Matrices

Annals of Probability 2002 32 553 605

Bai Z D, Silverstein J W, (2002). CLT for Linear Spectral Statistics of Large-dimensional Sample Covariance Matrices[J]. Annals of Probability, 32:553-605.

[本文引用: 1]

Bates J M Granger C W J

The Combination of Forecasts

Journal of the Operational Research Society 1969 20 4 451 468

Bates J M, Granger C W J, (1969). The Combination of Forecasts[J]. Journal of the Operational Research Society, 20(4):451-468.

DOI      [本文引用: 1]

Breiman L

Random Forests

Machine Learning 2001 45 1 5 32

Breiman L, (2001). Random Forests[J]. Machine Learning, 45(1):5-32.

DOI      [本文引用: 1]

Cai Z

Trending Time-varying Coeffcient Time Series Models with Serially Correlated Errors

Journal of Econometrics 2007 136 1 163 188

Cai Z, (2007). Trending Time-varying Coeffcient Time Series Models with Serially Correlated Errors[J]. Journal of Econometrics, 136(1):163-188.

DOI      [本文引用: 2]

Cai Z Chen L Fang Y

Quantile Panel Data Models with Partially Varying Coefficients

Journal of Econometrics 2018 206 531 553

Cai Z, Chen L, Fang Y, (2018). Quantile Panel Data Models with Partially Varying Coefficients[J]. Journal of Econometrics, 206:531-553.

DOI      [本文引用: 1]

Chang Y, Hu B, Park J, (2018). Econometric Analysis of Functional Dynamics Inthe Presence of Persistence[C]//Conference in Honor of P.C.B. Phillips, Yale University, 17.

[本文引用: 1]

Chang Y, Kim S, Park J, (2018). Effects of Monetary Policy Shocks on Income Distribution: A Functional Svar Approach[C]//Conference in Honor of Choi, Sogang University.

[本文引用: 1]

Chen B Hong Y

Testing for Smooth Structural Changes in Time Series Models via Nonparametric Regression

Econometrica 2012 80 3 1157 1183

Chen B, Hong Y, (2012). Testing for Smooth Structural Changes in Time Series Models via Nonparametric Regression[J]. Econometrica, 80(3):1157-1183.

DOI      [本文引用: 2]

Chen J Li D Linton O B

A New Semiparametric Estimation Approach of Large Dynamic Covariance Matrices with Multiple Conditioning Variables

Journal of Econometrics 2019 212 155 176

Chen J, Li D, Linton O B, (2019). A New Semiparametric Estimation Approach of Large Dynamic Covariance Matrices with Multiple Conditioning Variables[J]. Journal of Econometrics, 212:155-176.

DOI      [本文引用: 2]

Chen K M, Hsieh Y W, Lin M J, (2020). Prediction and Inequality in Two-sided Markets: An Experiment of Online Dating Recommender Systems.

[本文引用: 2]

Chernozhukov V, Chetverikov D, Demirer M, Duflo E, Hansen C, et al, (2016). Double Machine Learning for Treatment and Causal Parameters[EB/OL]. arXiv. https://arxiv.org/abs/1608.00060v1.

[本文引用: 1]

Chernozhukov V, Hausman J A, Newey W K, (2019). Demand Analysis with Many Prices[C]//2nd Annual Econometrics Forum, University of the Chinese Academy of Sciences, Beijing.

[本文引用: 1]

Choo E S Y Siow A

Who Marries Whom and Why

Journal of Political Economy 2006 114 1 175 201

Choo E S Y, Siow A, (2006). Who Marries Whom and Why[J]. Journal of Political Economy, 114(1):175-201.

DOI      [本文引用: 2]

Chudik A Kapetanios G Pesaran M H

A One-covariateat a Time, Multiple Testing Approach to Variable Selection in High-dimensional Linear Regression Models

Econometrica 2016 86 4 1479 1512

Chudik A, Kapetanios G, Pesaran M H, (2016). A One-covariateat a Time, Multiple Testing Approach to Variable Selection in High-dimensional Linear Regression Models[J]. Econometrica, 86(4):1479-1512.

[本文引用: 1]

Chudik A Pesaran M H

Econometric Analysis of High Dimensional VARs Featuring a Dominant Unit

Econometric Reviews 2010 32 5-8 592 649

Chudik A, Pesaran M H, (2010). Econometric Analysis of High Dimensional VARs Featuring a Dominant Unit[J]. Econometric Reviews, 32(5-8):592-649.

Damrongplasit K, Hsiao C, (2020). Heterogeneity, Lucas Critique, and Dynamic Econometric Modeling in Light of Panel Analysis of Individual Behavior[D]. Mimeo.

[本文引用: 1]

Efron B

Bootstrap Methods:Another Look at the Jackknife

The Annals of Statistics 1979 7 1 26

Efron B, (1979). Bootstrap Methods:Another Look at the Jackknife[J]. The Annals of Statistics, 7:1-26.

DOI      [本文引用: 1]

Elliott G Timmermann A Economic Forecasting Princeton Princeton University Press 2016

Elliott G, Timmermann A, (2016). Economic Forecasting[M]. Princeton:Princeton University Press.

[本文引用: 1]

Fan J Kim D

Robust High-dimensional Volatility Matrix Estimation for High-frequency Factor Model

Journal of the American Statistical Association 2018 113 523 1268 1283

Fan J, Kim D, (2018). Robust High-dimensional Volatility Matrix Estimation for High-frequency Factor Model[J]. Journal of the American Statistical Association, 113(523):1268-1283.

DOI      [本文引用: 1]

Grunfeld Y Griliches Z

Is Aggregation Necessarily Bad

The Review of Economics and Statistics 1960 42 1 1 13

Grunfeld Y, Griliches Z, (1960). Is Aggregation Necessarily Bad[J]. The Review of Economics and Statistics, 42(1):1-13.

DOI      [本文引用: 1]

Hsiao C

Linear Regression Using Both Temporally Aggregated and Temporally Disaggregated Data

Journal of Econometrics 1979 10 2 243 252

Hsiao C, (1979). Linear Regression Using Both Temporally Aggregated and Temporally Disaggregated Data[J]. Journal of Econometrics, 10(2):243-252.

DOI      [本文引用: 2]

Hsiao C Analysis of Panel Data Cambridge Cambridge University Press 2014

Hsiao C, (2014). Analysis of Panel Data[M]. Cambridge:Cambridge University Press.

[本文引用: 5]

Hsiao C Mountain D C Chan M W L Tsui K Y

Modeling Ontario Regional Electricity System Demand Using a Mixed Fixed and Random Coeffcients Approach

Regional Science & Urban Economics 1989 19 4 565 587

Hsiao C, Mountain D C, Chan M W L, Tsui K Y, (1989). Modeling Ontario Regional Electricity System Demand Using a Mixed Fixed and Random Coeffcients Approach[J]. Regional Science & Urban Economics, 19(4):565-587.

[本文引用: 1]

Hsiao C Shen Y Fujiki H

Aggregate vs Disaggregate Data Analysis-A Paradox in the Estimation of a Money Demand Function of Japan Under the Low Interest Rate Policy

Journal of Applied Econometrics 2004 20 579 601

Hsiao C, Shen Y, Fujiki H, (2004). Aggregate vs Disaggregate Data Analysis-A Paradox in the Estimation of a Money Demand Function of Japan Under the Low Interest Rate Policy[J]. Journal of Applied Econometrics, 20:579-601.

[本文引用: 4]

Hsiao C Shen Y Zhou Q

Panel Data Approach for Measuring the Average Treatment Effects with Multiple Treated Units:To Aggregate or Not

Advance in Economics Forthcoming 2020

Hsiao C, Shen Y, Zhou Q, (2020). Panel Data Approach for Measuring the Average Treatment Effects with Multiple Treated Units:To Aggregate or Not[J]. Advance in Economics Forthcoming.

[本文引用: 2]

Hsiao C Wan S K

Is There an Optimal Forecast Combination

Journal of Econometrics 2014 178 294 309

Hsiao C, Wan S K, (2014). Is There an Optimal Forecast Combination[J]. Journal of Econometrics, 178:294-309.

DOI      [本文引用: 1]

Hsiao C Zhou Q

Incidental Parameters, Initial Conditions and Sample Size in Statistical Inference for Dynamic Panel Data Models

Journal of Econometrics 2018 207 1 114 128

Hsiao C, Zhou Q, (2018). Incidental Parameters, Initial Conditions and Sample Size in Statistical Inference for Dynamic Panel Data Models[J]. Journal of Econometrics, 207(1):114-128.

DOI      [本文引用: 1]

Hsiao C Zhou Q

Panel Parametric, Semiparametric, and Nonparametric Construction of Counterfactuals

Journal of Applied Econometrics 2019 34 4 463 481

Hsiao C, Zhou Q, (2019). Panel Parametric, Semiparametric, and Nonparametric Construction of Counterfactuals[J]. Journal of Applied Econometrics, 34(4):463-481.

DOI      [本文引用: 1]

Hyndman R J Lee A J Wang E

Fast Computation of Reconciled Forecasts for Hierarchical and Grouped Time Series

Computational Stats and Data Analysis 2016 97 16 32

Hyndman R J, Lee A J, Wang E, (2016). Fast Computation of Reconciled Forecasts for Hierarchical and Grouped Time Series[J]. Computational Stats and Data Analysis, 97:16-32.

DOI      [本文引用: 1]

Klein L R Goldberger A S

An Econometric Model of the United States, 1929-1952

Economic Journal 1955

Klein L R, Goldberger A S, (1955). An Econometric Model of the United States, 1929-1952[J]. Economic Journal. doi:10.2307/2227976.

DOI     

Kotchon R Leroux M Stevanovic D

Macroeconomic Forecast Accuracy in a Data-rich Environment

Journal of Applied Econometrics 2019

Kotchon R, Leroux M, Stevanovic D, (2019). Macroeconomic Forecast Accuracy in a Data-rich Environment[J]. Journal of Applied Econometrics, doi:10.1002/jae.2725.

DOI      [本文引用: 1]

Li D, Robinson P M, Shang H L, (2019). Long-range Dependent Curve Time Series[R]. Journal of the American Statistical Association: 1-30.

[本文引用: 2]

Lindley D V Smith A F M

Bayes Estimates for the Linear Model

Journal of the Royal Statistical Society, Series B:Methodological 1972 34 1 41

Lindley D V, Smith A F M, (1972). Bayes Estimates for the Linear Model[J]. Journal of the Royal Statistical Society, Series B:Methodological, 34:1-41.

[本文引用: 1]

Lucas R E, (1976). Econometric Policy Evaluation: A Critique[C]//Carnegie-Rochester Conference Series on Public Policy, 1(1): 19-46.

[本文引用: 2]

Maddala G S

The Likelihood Approach to Pooling Cross-section and Time-series Data

Econometrice 1971 39 939 958

Maddala G S, (1971). The Likelihood Approach to Pooling Cross-section and Time-series Data[J]. Econometrice, 39:939-958.

DOI      [本文引用: 5]

Nevala K, (2020). The Machine Learning Primer[M/OL]. Sas Best Practices E-Book. https://www.sas.com/en_id/whitepapers/machine-learning-primer-108796.html.

Pesaran M H

Forecast Combination Across Estimation Windows

Journal of Business and Economic Statistics 2001 29 2 307 318

Pesaran M H, (2001). Forecast Combination Across Estimation Windows[J]. Journal of Business and Economic Statistics, 29(2):307-318.

Pesaran M H Pick A

Forecast Combination Across Estimation Windows

Journal of Business and Economic Statistics 2011 29 307 318

Pesaran M H, Pick A, (2011). Forecast Combination Across Estimation Windows[J]. Journal of Business and Economic Statistics, 29:307-318.

DOI      [本文引用: 2]

Phillips P C B

The Estimation of Some Continuous Time Models

Econometrica 1974 42 5 803 823

Phillips P C B, (1974). The Estimation of Some Continuous Time Models[J]. Econometrica, 42(5):803-823.

DOI      [本文引用: 2]

Phillips P C B Moon H R

Linear Regression Limit Theory for Nonstationary Panel Data

Econometrica 1999 67 5 1057 1111

Phillips P C B, Moon H R, (1999). Linear Regression Limit Theory for Nonstationary Panel Data[J]. Econometrica, 67(5):1057-1111.

DOI      [本文引用: 1]

Rao K Sbordone A M Tambalotti A Walsh K

Policy Analysis Using DSGE Models:An Introduction

Economic Policy Review 2010 16 2 23 43

Rao K, Sbordone A M, Tambalotti A, Walsh K, (2010). Policy Analysis Using DSGE Models:An Introduction[J]. Economic Policy Review, 16(2):23-43.

Robinson P M

Nonparametric Estimation of Time-varying Parameters

Statistical Analysis and Forecasting of Economic Structural Change 1989 19 253 264

Robinson P M, (1989). Nonparametric Estimation of Time-varying Parameters[J]. Statistical Analysis and Forecasting of Economic Structural Change, 19:253-264.

[本文引用: 1]

Robinson P

The Estimation of Linear Differential Equations with Constant Coeffcients

Econometrica 1976 44 4 751 764

Robinson P, (1976). The Estimation of Linear Differential Equations with Constant Coeffcients[J]. Econometrica, 44(4):751-764.

DOI      [本文引用: 2]

Schwarz G

Estimating the Dimension of a Model

The Annals of Statistics 1978 6 461 464

Schwarz G, (1978). Estimating the Dimension of a Model[J]. The Annals of Statistics, 6:461-464.

DOI      [本文引用: 1]

Shapley L S Shubik M

The Assignment Game I:The Core

International Journal of Game Theory 1972 1 1 111 130

Shapley L S, Shubik M, (1972). The Assignment Game I:The Core[J]. International Journal of Game Theory, 1(1):111-130.

[本文引用: 1]

Sun Y Hong Y Lee T H Wang S Zhang X

Time-varying Model Averaging

Journal of Econometrics, Forthcoming 2020

Sun Y, Hong Y, Lee T H, Wang S, Zhang X, (2020). Time-varying Model Averaging[J]. Journal of Econometrics, Forthcoming. doi:doi:10.1016/j.jeconom.2020.02.006.

[本文引用: 2]

Sun Y, Hong Y, Wang S, (2018). How to Distinguish Smooth Structural Changes from Structural Breaks?[R]. Department of Economics, Cornell University.

[本文引用: 1]

Sun Y, Hong Y, Wang S, (2020). Time-varying Model Averaging with Adaptive Lasso[R]. Memeo, Chinese Academy of Sciences.

[本文引用: 3]

Theil H Linear Aggregation of Economic Relations Amsterdam North-Holland 1954

Theil H, (1954). Linear Aggregation of Economic Relations[M]. Amsterdam:North-Holland.

[本文引用: 2]

Tibshirani R

Regression Shrinkage and Selection via the Lasso

Journal of the Royal Statistical Society Series:B-Methodological 1996 58 1 267 288

Tibshirani R, (1996). Regression Shrinkage and Selection via the Lasso[J]. Journal of the Royal Statistical Society Series:B-Methodological, 58(1):267-288.

[本文引用: 2]

Tobin J

A Statistical Demand Function for Food in the U.S.A.

Review of Economic Studies 1950 52 19 35

Tobin J, (1950). A Statistical Demand Function for Food in the U.S.A.[J]. Review of Economic Studies, 52:19-35.

[本文引用: 1]

Trivedi P K, (1985). Distributed Lags, Aggregation and Compounding: Some Econometric Implications[M]. Review of Economic Studies, 52: 19-35.

[本文引用: 1]

Varian H R

Big Data:New Tricks for Econometrics

Journal of Economic Perspectives 2014 28 2 3 28

Varian H R, (2014). Big Data:New Tricks for Econometrics[J]. Journal of Economic Perspectives, 28(2):3-28.

DOI      [本文引用: 2]

Wang C S Bauwens L Hsiao C

Forecasting a Long Memory Process Subject to Structural Breaks

Journal of Econometrics 2013 177 2 171 184

Wang C S, Bauwens L, Hsiao C, (2013). Forecasting a Long Memory Process Subject to Structural Breaks[J]. Journal of Econometrics, 177(2):171-184.

DOI      [本文引用: 1]

White H Artificial Neural Networks:Approximation and Learning Theory Oxford Basil Blackwell 1992

White H, (1992). Artificial Neural Networks:Approximation and Learning Theory[M]. Oxford:Basil Blackwell.

[本文引用: 1]

Wickramasuriya S L Athanasopoulos G Hyndman R J

Optimal Forecast Reconciliation for Hierarchical and Grouped Time Series Through Trace Minimization

Journal of the American Statistical Association 2018 114 526 804 819

Wickramasuriya S L, Athanasopoulos G, Hyndman R J, (2018). Optimal Forecast Reconciliation for Hierarchical and Grouped Time Series Through Trace Minimization[J]. Journal of the American Statistical Association, 114(526):804-819.

[本文引用: 1]

Zellner A On the Aggregation Problem:A New Approach to a Troublesome Problem Berlin Springer 1966

Zellner A, (1966). On the Aggregation Problem:A New Approach to a Troublesome Problem[M]. Berlin:Springer.

[本文引用: 1]

/