We selectively review some literature on prediction in the presence of big data. Issues of data based approach versus causal approach, micro versus macro modeling, homogeneity versus heterogeneity, model uncertainty versus sampling errors, constant parameter versus time-varying parameter modeling, model evaluation and cross-validation as well as aggregation, etc. are considered.
Keywords:artificial intelligence
;
machine learning
;
homogeneity
;
heterogeneity
;
aggregation
;
model uncertainty
;
average estimation
预测与因果分析是不同的.一个变量可以是非因果的, 但只要该变量的相关性和被预测变量的结果在考虑的预测范围内保持一致, 它就是一个很好的预测因素.但是, 如果预测因素不是因果变量, 那么预测因素的变化不一定会导致变量利益结果的变化.例如, 目前对经济低迷的观察与COVID-19病毒的传播是高度相关的.所以人们可以用一个经济体的变化来预测冠状病毒在那个国家传播的严重程度.但经济发展并不是冠状病毒传播的原因.利用经济手段对冠状病毒传播的严重程度进行预测, 在任何时间段都没有预测能力.一个好的预测因素必须基于因果因素.另一方面, 传统的计量经济学模型是建立在经济学家或计量经济学家认为重要的几个因果因素之上的.影响这些结果的因素有很多.大数据和机器学习算法的可用性可以帮助经济学家识别相关的因果变量, 以便纳入预测模型.大数据、机器学习算法和经济理论的结合可以帮助构建更准确的预测模型(如, Chen et al. (2020), Sun, Hong and Lee et al. (2020), Sun, Hong and Wang (2020)).
The Effect of Aggregation on Prediction in the Autoregressive Model
197167339628632
Amemiya T, Wu R, (1971). The Effect of Aggregation on Prediction in the Autoregressive Model[J]. Journal of the American Statistical Association, 67(339):628-632.
Athey S, Imbens G W, (2019). Machine Learning Methods Economists Should Know About[D]. Palo Alto: Standford University.
BaiZ DSilversteinJ W
CLT for Linear Spectral Statistics of Large-dimensional Sample Covariance Matrices
200232553605
Bai Z D, Silverstein J W, (2002). CLT for Linear Spectral Statistics of Large-dimensional Sample Covariance Matrices[J]. Annals of Probability, 32:553-605.
Chang Y, Hu B, Park J, (2018). Econometric Analysis of Functional Dynamics Inthe Presence of Persistence[C]//Conference in Honor of P.C.B. Phillips, Yale University, 17.
Chang Y, Kim S, Park J, (2018). Effects of Monetary Policy Shocks on Income Distribution: A Functional Svar Approach[C]//Conference in Honor of Choi, Sogang University.
A New Semiparametric Estimation Approach of Large Dynamic Covariance Matrices with Multiple Conditioning Variables
2019212155176
Chen J, Li D, Linton O B, (2019). A New Semiparametric Estimation Approach of Large Dynamic Covariance Matrices with Multiple Conditioning Variables[J]. Journal of Econometrics, 212:155-176.
Chernozhukov V, Chetverikov D, Demirer M, Duflo E, Hansen C, et al, (2016). Double Machine Learning for Treatment and Causal Parameters[EB/OL]. arXiv. https://arxiv.org/abs/1608.00060v1.
Chernozhukov V, Hausman J A, Newey W K, (2019). Demand Analysis with Many Prices[C]//2nd Annual Econometrics Forum, University of the Chinese Academy of Sciences, Beijing.
A One-covariateat a Time, Multiple Testing Approach to Variable Selection in High-dimensional Linear Regression Models
201686414791512
Chudik A, Kapetanios G, Pesaran M H, (2016). A One-covariateat a Time, Multiple Testing Approach to Variable Selection in High-dimensional Linear Regression Models[J]. Econometrica, 86(4):1479-1512.
Econometric Analysis of High Dimensional VARs Featuring a Dominant Unit
2010325-8592649
Chudik A, Pesaran M H, (2010). Econometric Analysis of High Dimensional VARs Featuring a Dominant Unit[J]. Econometric Reviews, 32(5-8):592-649.
Damrongplasit K, Hsiao C, (2020). Heterogeneity, Lucas Critique, and Dynamic Econometric Modeling in Light of Panel Analysis of Individual Behavior[D]. Mimeo.
Robust High-dimensional Volatility Matrix Estimation for High-frequency Factor Model
201811352312681283
Fan J, Kim D, (2018). Robust High-dimensional Volatility Matrix Estimation for High-frequency Factor Model[J]. Journal of the American Statistical Association, 113(523):1268-1283.
Modeling Ontario Regional Electricity System Demand Using a Mixed Fixed and Random Coeffcients Approach
1989194565587
Hsiao C, Mountain D C, Chan M W L, Tsui K Y, (1989). Modeling Ontario Regional Electricity System Demand Using a Mixed Fixed and Random Coeffcients Approach[J]. Regional Science & Urban Economics, 19(4):565-587.
Aggregate vs Disaggregate Data Analysis-A Paradox in the Estimation of a Money Demand Function of Japan Under the Low Interest Rate Policy
200420579601
Hsiao C, Shen Y, Fujiki H, (2004). Aggregate vs Disaggregate Data Analysis-A Paradox in the Estimation of a Money Demand Function of Japan Under the Low Interest Rate Policy[J]. Journal of Applied Econometrics, 20:579-601.
Panel Data Approach for Measuring the Average Treatment Effects with Multiple Treated Units:To Aggregate or Not
2020
Hsiao C, Shen Y, Zhou Q, (2020). Panel Data Approach for Measuring the Average Treatment Effects with Multiple Treated Units:To Aggregate or Not[J]. Advance in Economics Forthcoming.
Incidental Parameters, Initial Conditions and Sample Size in Statistical Inference for Dynamic Panel Data Models
20182071114128
Hsiao C, Zhou Q, (2018). Incidental Parameters, Initial Conditions and Sample Size in Statistical Inference for Dynamic Panel Data Models[J]. Journal of Econometrics, 207(1):114-128.
Panel Parametric, Semiparametric, and Nonparametric Construction of Counterfactuals
2019344463481
Hsiao C, Zhou Q, (2019). Panel Parametric, Semiparametric, and Nonparametric Construction of Counterfactuals[J]. Journal of Applied Econometrics, 34(4):463-481.
Fast Computation of Reconciled Forecasts for Hierarchical and Grouped Time Series
2016971632
Hyndman R J, Lee A J, Wang E, (2016). Fast Computation of Reconciled Forecasts for Hierarchical and Grouped Time Series[J]. Computational Stats and Data Analysis, 97:16-32.
Macroeconomic Forecast Accuracy in a Data-rich Environment
2019
Kotchon R, Leroux M, Stevanovic D, (2019). Macroeconomic Forecast Accuracy in a Data-rich Environment[J]. Journal of Applied Econometrics, doi:10.1002/jae.2725.
Nevala K, (2020). The Machine Learning Primer[M/OL]. Sas Best Practices E-Book. https://www.sas.com/en_id/whitepapers/machine-learning-primer-108796.html.
PesaranM H
Forecast Combination Across Estimation Windows
2001292307318
Pesaran M H, (2001). Forecast Combination Across Estimation Windows[J]. Journal of Business and Economic Statistics, 29(2):307-318.
PesaranM HPickA
Forecast Combination Across Estimation Windows
201129307318
Pesaran M H, Pick A, (2011). Forecast Combination Across Estimation Windows[J]. Journal of Business and Economic Statistics, 29:307-318.
Rao K, Sbordone A M, Tambalotti A, Walsh K, (2010). Policy Analysis Using DSGE Models:An Introduction[J]. Economic Policy Review, 16(2):23-43.
RobinsonP M
Nonparametric Estimation of Time-varying Parameters
198919253264
Robinson P M, (1989). Nonparametric Estimation of Time-varying Parameters[J]. Statistical Analysis and Forecasting of Economic Structural Change, 19:253-264.
Sun Y, Hong Y, Lee T H, Wang S, Zhang X, (2020). Time-varying Model Averaging[J]. Journal of Econometrics, Forthcoming. doi:doi:10.1016/j.jeconom.2020.02.006.
Tibshirani R, (1996). Regression Shrinkage and Selection via the Lasso[J]. Journal of the Royal Statistical Society Series:B-Methodological, 58(1):267-288.
Optimal Forecast Reconciliation for Hierarchical and Grouped Time Series Through Trace Minimization
2018114526804819
Wickramasuriya S L, Athanasopoulos G, Hyndman R J, (2018). Optimal Forecast Reconciliation for Hierarchical and Grouped Time Series Through Trace Minimization[J]. Journal of the American Statistical Association, 114(526):804-819.
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... 等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
Estimating Average Treatment Effects:Supplementary Analyses and Remaining Challenges
2
2017
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
CLT for Linear Spectral Statistics of Large-dimensional Sample Covariance Matrices
1
2002
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
The Combination of Forecasts
1
1969
... 有了大数据, 就有可能扩展条件协变量列表.此外, 可能存在几种相互竞争的经济模型, 即: $ f_{i, t+h}^l(x_{it}^{l}; \hat{\theta}^l), l = 1, \cdots, m $.由于模型的不确定性, 模型平均预测方法被经常使用(例如, Bates and Granger (1969), Elliott and Timmermann (2016), Hsiao and Wan (2014), Hsiao and Zhou (2019)), Kotchon et al. (2019)提出一种正则化数据丰富的平均方法(regularized data-rich averaging approach), 包括通过以下步骤来预测$ y_{i, t+h} $: ...
Trending Time-varying Coeffcient Time Series Models with Serially Correlated Errors
2
2007
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... 其中$ x_t^{(j)} $表示可数无穷个$ I^t $中协变量的子集, SHLWZ假设$ \beta_t^{(j)} $是比值$ t/T $的光滑函数, 如同参考文献Cai (2007), Chen and Hong (2012), Robinson (1989)中一样. ...
Quantile Panel Data Models with Partially Varying Coefficients
1
2018
... 除了可合并的问题, 还有一个问题是如何最好地组合以不同时间频率记录的数据.关于插值或外推的文献都被考虑在离散区间数据框架中(例如, Hsiao (1979)).然而, 数据采集的速度使得连续时间建模相对于本书中考虑的离散时间间隔数据的建模以及如何将离散时间间隔数据与连续时间数据相结合的问题变得复杂起来(例如, Cai et al. (2018), Chang, Hu and Pack (2018), Li, Robinson and Shang (2019), Phillips (1974), Robinson (1976)). ...
1
... 除了可合并的问题, 还有一个问题是如何最好地组合以不同时间频率记录的数据.关于插值或外推的文献都被考虑在离散区间数据框架中(例如, Hsiao (1979)).然而, 数据采集的速度使得连续时间建模相对于本书中考虑的离散时间间隔数据的建模以及如何将离散时间间隔数据与连续时间数据相结合的问题变得复杂起来(例如, Cai et al. (2018), Chang, Hu and Pack (2018), Li, Robinson and Shang (2019), Phillips (1974), Robinson (1976)). ...
1
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
Testing for Smooth Structural Changes in Time Series Models via Nonparametric Regression
2
2012
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... 其中$ x_t^{(j)} $表示可数无穷个$ I^t $中协变量的子集, SHLWZ假设$ \beta_t^{(j)} $是比值$ t/T $的光滑函数, 如同参考文献Cai (2007), Chen and Hong (2012), Robinson (1989)中一样. ...
A New Semiparametric Estimation Approach of Large Dynamic Covariance Matrices with Multiple Conditioning Variables
2
2019
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... ); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
2
... 除了选择变量子集的差异性外, 数据驱动的方法通常不会对选择的变量子集施加任何先验限制, 而经济或计量经济学方法可能会基于经济理论施加先验限制.可以想象, 将数据驱动的方法与因果方法相结合, 可能会产生更准确的预测模型.事实上, Chen, Hsieh and Lin (2020) (CHL)提出了一种将传统机器学习算法与匹配经济模型相结合的矩阵分解与均衡协同过滤算法(Shapley and Shubik (1972)), 来预测一个在线约会平台上的男女配对, 并且能够证明它能比仅仅依靠数据驱动的方法或因果关系的方法产生更好的预测. ...
... 预测与因果分析是不同的.一个变量可以是非因果的, 但只要该变量的相关性和被预测变量的结果在考虑的预测范围内保持一致, 它就是一个很好的预测因素.但是, 如果预测因素不是因果变量, 那么预测因素的变化不一定会导致变量利益结果的变化.例如, 目前对经济低迷的观察与COVID-19病毒的传播是高度相关的.所以人们可以用一个经济体的变化来预测冠状病毒在那个国家传播的严重程度.但经济发展并不是冠状病毒传播的原因.利用经济手段对冠状病毒传播的严重程度进行预测, 在任何时间段都没有预测能力.一个好的预测因素必须基于因果因素.另一方面, 传统的计量经济学模型是建立在经济学家或计量经济学家认为重要的几个因果因素之上的.影响这些结果的因素有很多.大数据和机器学习算法的可用性可以帮助经济学家识别相关的因果变量, 以便纳入预测模型.大数据、机器学习算法和经济理论的结合可以帮助构建更准确的预测模型(如, Chen et al. (2020), Sun, Hong and Lee et al. (2020), Sun, Hong and Wang (2020)). ...
1
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
1
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
A One-covariateat a Time, Multiple Testing Approach to Variable Selection in High-dimensional Linear Regression Models
1
2016
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
Econometric Analysis of High Dimensional VARs Featuring a Dominant Unit
0
2010
1
... 构建预测模型的传统计量经济学方法基本上可以遵循相同的步骤.唯一的区别在于确定相关预测因素的子集, 以及是否强加来自经济理论的先验约束.例如, 经济学家或计量经济学家会根据他们认为重要的因果模型来选择变量子集, 比如克莱恩-戈德伯格(Klein-Goldberger)的美国宏观经济计量模型(1955年), 动态随机一般均衡模型(如: Sbordone et al. (2010))或一些稳定条件(如: Damrongplasit and Hsiao (2020))等. ...
... 有了大数据, 就有可能扩展条件协变量列表.此外, 可能存在几种相互竞争的经济模型, 即: $ f_{i, t+h}^l(x_{it}^{l}; \hat{\theta}^l), l = 1, \cdots, m $.由于模型的不确定性, 模型平均预测方法被经常使用(例如, Bates and Granger (1969), Elliott and Timmermann (2016), Hsiao and Wan (2014), Hsiao and Zhou (2019)), Kotchon et al. (2019)提出一种正则化数据丰富的平均方法(regularized data-rich averaging approach), 包括通过以下步骤来预测$ y_{i, t+h} $: ...
Robust High-dimensional Volatility Matrix Estimation for High-frequency Factor Model
1
2018
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
Linear Regression Using Both Temporally Aggregated and Temporally Disaggregated Data
2
1979
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... 除了可合并的问题, 还有一个问题是如何最好地组合以不同时间频率记录的数据.关于插值或外推的文献都被考虑在离散区间数据框架中(例如, Hsiao (1979)).然而, 数据采集的速度使得连续时间建模相对于本书中考虑的离散时间间隔数据的建模以及如何将离散时间间隔数据与连续时间数据相结合的问题变得复杂起来(例如, Cai et al. (2018), Chang, Hu and Pack (2018), Li, Robinson and Shang (2019), Phillips (1974), Robinson (1976)). ...
5
2014
... 当微观单元是异质的, 微观序列和宏观序列的基本关系是不同的(例如, Amemiya and Wu (1971), Pesaran et al. (2011), Stoker (1993), Theil (1954), Trivedi (1985)).如果微观单元的非均匀参数随时间保持不变, 且$ T $较大, 原则上, 我们可以用单个时间序列数据来估计微观行为关系, 然后考虑哪种聚类方法可以为决策者提供有用的汇总信息.当$ T $是有限的时候, 估计大量的微观预测模型是不可行的, 一种将聚类数据的预测模型与非聚类数据的预测模型联系起来的随机系数模型方法(例如, Hsiao (2014, Chapter 6))或是可行替代方案. ...
Panel Data Approach for Measuring the Average Treatment Effects with Multiple Treated Units:To Aggregate or Not
2
2020
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... 有了大数据, 就有可能扩展条件协变量列表.此外, 可能存在几种相互竞争的经济模型, 即: $ f_{i, t+h}^l(x_{it}^{l}; \hat{\theta}^l), l = 1, \cdots, m $.由于模型的不确定性, 模型平均预测方法被经常使用(例如, Bates and Granger (1969), Elliott and Timmermann (2016), Hsiao and Wan (2014), Hsiao and Zhou (2019)), Kotchon et al. (2019)提出一种正则化数据丰富的平均方法(regularized data-rich averaging approach), 包括通过以下步骤来预测$ y_{i, t+h} $: ...
Incidental Parameters, Initial Conditions and Sample Size in Statistical Inference for Dynamic Panel Data Models
1
2018
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
Panel Parametric, Semiparametric, and Nonparametric Construction of Counterfactuals
1
2019
... 有了大数据, 就有可能扩展条件协变量列表.此外, 可能存在几种相互竞争的经济模型, 即: $ f_{i, t+h}^l(x_{it}^{l}; \hat{\theta}^l), l = 1, \cdots, m $.由于模型的不确定性, 模型平均预测方法被经常使用(例如, Bates and Granger (1969), Elliott and Timmermann (2016), Hsiao and Wan (2014), Hsiao and Zhou (2019)), Kotchon et al. (2019)提出一种正则化数据丰富的平均方法(regularized data-rich averaging approach), 包括通过以下步骤来预测$ y_{i, t+h} $: ...
Fast Computation of Reconciled Forecasts for Hierarchical and Grouped Time Series
1
2016
... 当组内的单位是“同质”时, 不存在聚类偏差.基于微观单元聚类的预测, 记为$ \hat{y}_{g, t+h} $, 对属于第$ g $个组的$ i $, 它的期望值$ E(\hat{y}_{g, t+h}|I_t) $和$ E(\hat{y}_{i, t+h}|I_t) $相同.因此, 我们可以考虑在预测文献中根据“一致性”和“协调”的思想将微观单位划分为“同质的”组(例如: Hyndman et al. (2016), Wickramasuriya et al. (2018)). ...
An Econometric Model of the United States, 1929-1952
0
1955
Macroeconomic Forecast Accuracy in a Data-rich Environment
1
2019
... 有了大数据, 就有可能扩展条件协变量列表.此外, 可能存在几种相互竞争的经济模型, 即: $ f_{i, t+h}^l(x_{it}^{l}; \hat{\theta}^l), l = 1, \cdots, m $.由于模型的不确定性, 模型平均预测方法被经常使用(例如, Bates and Granger (1969), Elliott and Timmermann (2016), Hsiao and Wan (2014), Hsiao and Zhou (2019)), Kotchon et al. (2019)提出一种正则化数据丰富的平均方法(regularized data-rich averaging approach), 包括通过以下步骤来预测$ y_{i, t+h} $: ...
2
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... 除了可合并的问题, 还有一个问题是如何最好地组合以不同时间频率记录的数据.关于插值或外推的文献都被考虑在离散区间数据框架中(例如, Hsiao (1979)).然而, 数据采集的速度使得连续时间建模相对于本书中考虑的离散时间间隔数据的建模以及如何将离散时间间隔数据与连续时间数据相结合的问题变得复杂起来(例如, Cai et al. (2018), Chang, Hu and Pack (2018), Li, Robinson and Shang (2019), Phillips (1974), Robinson (1976)). ...
Bayes Estimates for the Linear Model
1
1972
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
2
... 以上的讨论是基于预测模型的参数随时间保持不变的假设.然而, 由于政策(如Lucas (1976))的变化, 或技术, 或外部条件(如COVID-19的爆发)的变化, 存在可能导致决策规则发生变化的结构性变化.如果断点是已知的, 并且有大量的断点后样本观测, 那么可以使用断点后数据来构建预测模型.如果断点未知或接近采样期的结束, Wang et al. (2013)建议忽略结构突变的波动率, 只利用观测到的所有样本构建一个合适的时间序列模型来预测波动率. Pesaran and Pick (2011)证明了在不同估计窗口上(简单)平均预测通常比基于单一估计窗口的预测产生更低的偏差和均方根预测误差.另一方面, Sun et al. (2020), SHLWZ, 注意到可能有多个候选预测模型, 大数据的可用性允许研究者构建参数随时间平稳变化的预测模型, 而不是在给定的断点突然变化.因此, 他们建议在局部时变平均方法上采用不同的权重, 以考虑随着时间推移可能出现的结构突变. ...
The Likelihood Approach to Pooling Cross-section and Time-series Data
5
1971
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... 当微观单元是异质的, 微观序列和宏观序列的基本关系是不同的(例如, Amemiya and Wu (1971), Pesaran et al. (2011), Stoker (1993), Theil (1954), Trivedi (1985)).如果微观单元的非均匀参数随时间保持不变, 且$ T $较大, 原则上, 我们可以用单个时间序列数据来估计微观行为关系, 然后考虑哪种聚类方法可以为决策者提供有用的汇总信息.当$ T $是有限的时候, 估计大量的微观预测模型是不可行的, 一种将聚类数据的预测模型与非聚类数据的预测模型联系起来的随机系数模型方法(例如, Hsiao (2014, Chapter 6))或是可行替代方案. ...
... 以上的讨论是基于预测模型的参数随时间保持不变的假设.然而, 由于政策(如Lucas (1976))的变化, 或技术, 或外部条件(如COVID-19的爆发)的变化, 存在可能导致决策规则发生变化的结构性变化.如果断点是已知的, 并且有大量的断点后样本观测, 那么可以使用断点后数据来构建预测模型.如果断点未知或接近采样期的结束, Wang et al. (2013)建议忽略结构突变的波动率, 只利用观测到的所有样本构建一个合适的时间序列模型来预测波动率. Pesaran and Pick (2011)证明了在不同估计窗口上(简单)平均预测通常比基于单一估计窗口的预测产生更低的偏差和均方根预测误差.另一方面, Sun et al. (2020), SHLWZ, 注意到可能有多个候选预测模型, 大数据的可用性允许研究者构建参数随时间平稳变化的预测模型, 而不是在给定的断点突然变化.因此, 他们建议在局部时变平均方法上采用不同的权重, 以考虑随着时间推移可能出现的结构突变. ...
The Estimation of Some Continuous Time Models
2
1974
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... 除了可合并的问题, 还有一个问题是如何最好地组合以不同时间频率记录的数据.关于插值或外推的文献都被考虑在离散区间数据框架中(例如, Hsiao (1979)).然而, 数据采集的速度使得连续时间建模相对于本书中考虑的离散时间间隔数据的建模以及如何将离散时间间隔数据与连续时间数据相结合的问题变得复杂起来(例如, Cai et al. (2018), Chang, Hu and Pack (2018), Li, Robinson and Shang (2019), Phillips (1974), Robinson (1976)). ...
Linear Regression Limit Theory for Nonstationary Panel Data
1
1999
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
Policy Analysis Using DSGE Models:An Introduction
0
2010
Nonparametric Estimation of Time-varying Parameters
1
1989
... 其中$ x_t^{(j)} $表示可数无穷个$ I^t $中协变量的子集, SHLWZ假设$ \beta_t^{(j)} $是比值$ t/T $的光滑函数, 如同参考文献Cai (2007), Chen and Hong (2012), Robinson (1989)中一样. ...
The Estimation of Linear Differential Equations with Constant Coeffcients
2
1976
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... 除了可合并的问题, 还有一个问题是如何最好地组合以不同时间频率记录的数据.关于插值或外推的文献都被考虑在离散区间数据框架中(例如, Hsiao (1979)).然而, 数据采集的速度使得连续时间建模相对于本书中考虑的离散时间间隔数据的建模以及如何将离散时间间隔数据与连续时间数据相结合的问题变得复杂起来(例如, Cai et al. (2018), Chang, Hu and Pack (2018), Li, Robinson and Shang (2019), Phillips (1974), Robinson (1976)). ...
Estimating the Dimension of a Model
1
1978
... 然而, (27)式的解是以$ G $为条件导出的.一个人先验地不知道在$ n $个横截面单元中有多少个相对“同质的”组.选择组数$ G $的一种方法是使用贝叶斯信息准则(Schwarz (1978)), 通过选择$ G $来最小化: ...
The Assignment Game I:The Core
1
1972
... 除了选择变量子集的差异性外, 数据驱动的方法通常不会对选择的变量子集施加任何先验限制, 而经济或计量经济学方法可能会基于经济理论施加先验限制.可以想象, 将数据驱动的方法与因果方法相结合, 可能会产生更准确的预测模型.事实上, Chen, Hsieh and Lin (2020) (CHL)提出了一种将传统机器学习算法与匹配经济模型相结合的矩阵分解与均衡协同过滤算法(Shapley and Shubik (1972)), 来预测一个在线约会平台上的男女配对, 并且能够证明它能比仅仅依靠数据驱动的方法或因果关系的方法产生更好的预测. ...
Time-varying Model Averaging
2
2020
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
... 预测与因果分析是不同的.一个变量可以是非因果的, 但只要该变量的相关性和被预测变量的结果在考虑的预测范围内保持一致, 它就是一个很好的预测因素.但是, 如果预测因素不是因果变量, 那么预测因素的变化不一定会导致变量利益结果的变化.例如, 目前对经济低迷的观察与COVID-19病毒的传播是高度相关的.所以人们可以用一个经济体的变化来预测冠状病毒在那个国家传播的严重程度.但经济发展并不是冠状病毒传播的原因.利用经济手段对冠状病毒传播的严重程度进行预测, 在任何时间段都没有预测能力.一个好的预测因素必须基于因果因素.另一方面, 传统的计量经济学模型是建立在经济学家或计量经济学家认为重要的几个因果因素之上的.影响这些结果的因素有很多.大数据和机器学习算法的可用性可以帮助经济学家识别相关的因果变量, 以便纳入预测模型.大数据、机器学习算法和经济理论的结合可以帮助构建更准确的预测模型(如, Chen et al. (2020), Sun, Hong and Lee et al. (2020), Sun, Hong and Wang (2020)). ...
1
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...
3
... 以上的讨论是基于预测模型的参数随时间保持不变的假设.然而, 由于政策(如Lucas (1976))的变化, 或技术, 或外部条件(如COVID-19的爆发)的变化, 存在可能导致决策规则发生变化的结构性变化.如果断点是已知的, 并且有大量的断点后样本观测, 那么可以使用断点后数据来构建预测模型.如果断点未知或接近采样期的结束, Wang et al. (2013)建议忽略结构突变的波动率, 只利用观测到的所有样本构建一个合适的时间序列模型来预测波动率. Pesaran and Pick (2011)证明了在不同估计窗口上(简单)平均预测通常比基于单一估计窗口的预测产生更低的偏差和均方根预测误差.另一方面, Sun et al. (2020), SHLWZ, 注意到可能有多个候选预测模型, 大数据的可用性允许研究者构建参数随时间平稳变化的预测模型, 而不是在给定的断点突然变化.因此, 他们建议在局部时变平均方法上采用不同的权重, 以考虑随着时间推移可能出现的结构突变. ...
... 1每个候选预测模型的潜在协变量可能很大.为进一步提高时变模型平均法的预测精度, Sun, Hong and Wang (2020)已经证实了一种简洁的时变前向验证模型平均法, 该方法同时从每个预测模型选择的协变量$ x_t^{(j)} $中选择模型平均权值和回归元子集. ...
... 预测与因果分析是不同的.一个变量可以是非因果的, 但只要该变量的相关性和被预测变量的结果在考虑的预测范围内保持一致, 它就是一个很好的预测因素.但是, 如果预测因素不是因果变量, 那么预测因素的变化不一定会导致变量利益结果的变化.例如, 目前对经济低迷的观察与COVID-19病毒的传播是高度相关的.所以人们可以用一个经济体的变化来预测冠状病毒在那个国家传播的严重程度.但经济发展并不是冠状病毒传播的原因.利用经济手段对冠状病毒传播的严重程度进行预测, 在任何时间段都没有预测能力.一个好的预测因素必须基于因果因素.另一方面, 传统的计量经济学模型是建立在经济学家或计量经济学家认为重要的几个因果因素之上的.影响这些结果的因素有很多.大数据和机器学习算法的可用性可以帮助经济学家识别相关的因果变量, 以便纳入预测模型.大数据、机器学习算法和经济理论的结合可以帮助构建更准确的预测模型(如, Chen et al. (2020), Sun, Hong and Lee et al. (2020), Sun, Hong and Wang (2020)). ...
2
1954
... 当微观单元是异质的, 微观序列和宏观序列的基本关系是不同的(例如, Amemiya and Wu (1971), Pesaran et al. (2011), Stoker (1993), Theil (1954), Trivedi (1985)).如果微观单元的非均匀参数随时间保持不变, 且$ T $较大, 原则上, 我们可以用单个时间序列数据来估计微观行为关系, 然后考虑哪种聚类方法可以为决策者提供有用的汇总信息.当$ T $是有限的时候, 估计大量的微观预测模型是不可行的, 一种将聚类数据的预测模型与非聚类数据的预测模型联系起来的随机系数模型方法(例如, Hsiao (2014, Chapter 6))或是可行替代方案. ...
... 当微观单元是异质的, 微观序列和宏观序列的基本关系是不同的(例如, Amemiya and Wu (1971), Pesaran et al. (2011), Stoker (1993), Theil (1954), Trivedi (1985)).如果微观单元的非均匀参数随时间保持不变, 且$ T $较大, 原则上, 我们可以用单个时间序列数据来估计微观行为关系, 然后考虑哪种聚类方法可以为决策者提供有用的汇总信息.当$ T $是有限的时候, 估计大量的微观预测模型是不可行的, 一种将聚类数据的预测模型与非聚类数据的预测模型联系起来的随机系数模型方法(例如, Hsiao (2014, Chapter 6))或是可行替代方案. ...
Big Data:New Tricks for Econometrics
2
2014
... 大数据是现在最为重要的研究主题之一.大数据通常是指具有如下一个或几个特征的数据集:高维、高变体(high variety)、高容量(high volume)和高速收集数据.可获得的大数据开辟了新的理论研究和实证分析, 比如结合人工智能和机器学习技术(例如, Athey (2018), Athey et al. (2017), Chernozhukov et al. (2016), Chernozhukov, Hausman and Newey (2019)); 一维渐近性和多维渐近性(例如, Bai et al. (2002), Hsiao and Zhou (2018), Phillips and Moon (1999)); 降维方法(例如, Chen et al. (2019), Chudik, Kapetanios and Pesaran (2016), Fan et al. (2018)); 函数型动态机制(例如, Chang et al. (2018), Cai et al. (2007), Li et al. (2019), Phillips (1974), Robinson (1976)); 渐进式结构变化与突变式结构变化(例如, Chen and Hong (2012), Sun, Hong and Wang (2018), Sun, Hong and Lee et al. (2020)); 来自不同来源和/或不同时间频率的组合数据(例如, Chen (2019), Hsiao (1979), Maddala (1971)); 一阶段模型或多阶段模型(例如: Lindley and Smith (1972)等).对更为一般的讨论, 参见Athey (2018), Hsiao et al.(2020), Varian (2014)等文献.本文讨论了基于大数据产生更准确预测的一些挑战. ...