计量经济学报, 2021, 1(1): 36-65 DOI: 10.12012/T02-30

论文

空间计量经济学中的空间自回归模型

李龙飞,

俄亥俄州立大学, 哥伦布, 俄亥俄州 43210, 美国

The Spatial Autoregression Model in Spatial Econometrics

LEE Lungfei,

The Ohio State University, Columbus, OH 43210, USA

收稿日期: 2020-12-30  

Received: 2020-12-30  

作者简介 About authors

李龙飞,世界计量经济学会会士,美国俄亥俄州立大学经济学讲席教授,E-mail:lee.1777@osu.edu

摘要

本文对SAR模型进行了综述,将自回归时间序列模型推广到空间的设定.这是空间计量经济学中最受欢迎的模型,在经济学实证研究中有着广泛的应用,因为它捕捉了经济主体之间的相互作用和溢出效应.本文首先给出了在完全信息静态博弈设定下的纳什均衡模型的经济解释.比较静态经济比较分析提供了对结果有直接和间接影响以及乘数效应的经济解释.本文讨论了传统的ML估计及其在QML估计方面的扩展.我们也阐述了近来对数似然函数凹性方面的最新研究,和其他的估计方法,包括GMM和GEL.利用线性二阶矩构造最优GMM估计方法是可行的.对SAR模型进行估计和检验的GEL方法对未知异方差具有较好的稳健性.

关键词: 空间自回归 ; 交互作用 ; 溢出效应 ; 完全信息博弈 ; 纳什均衡 ; QML ; GMM ; GEL ; QMLE的唯一性 ; 最优线性二次矩 ; 未知异方差

Abstract

This paper provides an overall view on the SAR model, which generalizes the autoregessive time series model to a spatial setting. It is the most popular model in spatial econometrics with broad applications in empirical economics as it captures interactions and spilled over effects across economic agents. We first provide some economic justification of such a model in an complete information static game setting, of which observed outcomes are Nash equilibria. Comparative statics analysis in economics provides economic implications on direct and indirect effects and multiplier effect on outcomes. The traditional ML estimation and its extension in terms of QML estimation are discussed. Recent developments on concavity of its log likelihood function are established, and alternative estimation methods, GMM and GEL, are presented. The construction of best GMM estimation with linear-quadratic moments is feasible. The GEL approach on estimation and testing for the SAR model can be robust against unknown heteroskedasticity.

Keywords: spatial autoregression ; interactions ; spill-over effects ; complete information game ; Nash equilibrium ; QML ; GMM ; GEL ; uniqueness of QMLE ; best linear-quadratic moment ; unknown heteroskedasticity

PDF (1265KB) 元数据 多维度评价 相关文章 导出 EndNote| Ris| Bibtex  收藏本文

本文引用格式

李龙飞. 空间计量经济学中的空间自回归模型. 计量经济学报[J], 2021, 1(1): 36-65 DOI:10.12012/T02-30

LEE Lungfei. The Spatial Autoregression Model in Spatial Econometrics. China Journal of Econometrics[J], 2021, 1(1): 36-65 DOI:10.12012/T02-30

1 引言

本文回顾了最受欢迎的空间自回归(SAR)模型的研究现状, 并对其经典估计方法和推断进行了探讨.

空间计量经济学模型关注经济个体活动的相互作用、溢出效应和相关性.当个体(例如个人、公司、地方政府或者国家/地区)考虑在因为博弈而产生的某种联系造成的潜在影响时, 其决策可能在空间或经济层面相互关联, 这些相互作用的联系可以看作是一个网络.我们观察到的结果是这些个体相互博弈的结果, 即纳什均衡.本文回顾了空间自回归模型及其计量估计和推断.我们提供的模型是在横截面数据设置中最流行的(线性)空间自回归(SAR)模型, 该模型在社交互动、区域经济学、地方政府机构竞争或合作的决策、房地产市场、金融市场、国际贸易、跨国竞争与合作等经济学领域具有广泛应用.

我们所考虑的SAR模型是线性模型.代理人之间的相互作用使得他们的决定和博弈的结果具有互相关联的特征.两阶段最小二乘法(2SLS)、广义矩估计(GMM)、极大似然估计(ML)或拟极大似然估计(QML)等估计方法是常见的估计方法.线性SAR模型估计量渐近性质的研究可以基于线性二次统计量, 其中鞅中心极限定理是建立估计量渐近分布的最重要的统计工具.在估计SAR模型时, 鞅差分表示在经验似然(EL)或广义经验似然(GEL)估计方法中也十分有效.在EL或GEL中, 检验统计量也可以基于带有某些特征的比率检验, 例如似然比检验, 但缺点是没有参数分布.

在第2节中, 我们回顾了SAR模型及其估计方法的发展过程.对于SAR模型, 我们提供了一个博弈模型作为理论论证.在一个静态完全信息博弈中, 每个个体最大化自己的效用时, 都要考虑到其他人的行动的影响.当个体的效用或者收益与他人决策成正比、而成本为决策的二次函数的时候, 纳什均衡结果表现为SAR模型.假设所有参与者都执行自己的决策, 那么个体的行为可以用SAR模型表示, 观察到的结果是纳什均衡.另外, 在社交网络中, 人们可能会假设, 如果每个代理人的行为决定偏离了其朋友们的行为, 那么他/她就会付出成本/代价.上述两种模型都可以推导出SAR模型.同群效应或空间效应的交互系数也可以视作对结果的乘数效应.从计量经济学的角度来看, 因为个体的行为结果是互相影响的, 所以SAR方程是一个联立方程组.因此, 选取估计方法时应同时考虑空间效应.我们在这一节中讨论基于正态分布的极大似然(ML)估计或更一般的拟极大似然(QML)估计. ML或QML可以考虑联合结果中涉及的空间滤波器, 而两阶段最小二乘(2SLS)只考虑结果的同时性特征, 而没有考虑结果的隐含相关性特征.作为包含一个$ n\times n $方阵的空间滤波器的似然函数, 我们需要特别注意雅可比行列式的计算, 以及对数似然函数能够取到唯一最大值的情况.我们总结了一些近来在重参数化(reparameterization)方面的最新进展, 例如对数似然在其参数空间中可以严格凹.关于QML估计量的渐近分析, 鞅中心极限定理是建立各种估计量的渐近分布的重要工具.与回归模型相反, QML方法在扰动项中存在未知异方差时可能不具备一致性.

在第3节中, 我们介绍了IV和GMM的估计方法.由于空间滞后可以作为解释变量, 空间滞后变量存在联立性, 因此估计方法可以是2SLS估计, 这相当于线性矩估计的使用.然而, 在2SLS估计中, 因变量之间的隐含的空间相关性尚未被利用.为了捕获这种空间相关性, 我们建议除了使用线性矩方法外, 还使用二阶矩进行估计.线性矩和二阶矩源于ML或QML方法的Score向量.但是, 当拟似然函数并非确切的似然函数时, QML方法不一定产生渐近有效的估计量, 因此最佳线性二阶矩的存在性和构造就成为了一个研究问题.在本节中, 我们提供了一种构造最佳线性二阶矩的方法; 对于具有同方差的SAR模型, 它比QML有效.我们也提出了线性二阶矩, 它可以为具有未知形式异方差的SAR模型提供一致的估计.

在第4节中, 对于计量经济学文献中的经典GMM估计, 有蒙特卡罗证据表明可行最优GMM (FOGMM)的估计量可能存在严重的有限样本偏差.因此, 存在关于使用经验似然(EL)或广义经验似然(GEL)方法进行矩条件估计的计量经济学文献. GEL估计的发展主要是基于独立同分布的样本, 另外有少数基于时间序列数据的研究.对于SAR模型, Jin and Lee (2019)意识到我们可以基于线性二阶矩进行GEL估计.因为线性二阶矩可以写成鞅差数组(martingale difference arrays, MDA)之和, 所以我们可以建立GEL估计量的渐近理论. GEL方法在估计公式中并没有显式地包含经验矩方差, 而是使用了经验矩样本方差, 因此, 只要矩有效, 该方法可以允许未知形式异方差的存在.类似于似然比检验, GEL方法的另一种用途是可以对参数约束和矩条件进行统计检验.作为矩检验, 我们将以空间相关性的Moran检验为例阐述这一点.

在结论部分, 我们指出了一些计量经济学模型的扩展, 以及潜在的重要研究领域, 如面板数据模型和具有空间相互作用的非线性模型的分析, 因为非线性空间计量经济学可以提供有价值的工具.对于未来的研究, 我们指出研究领域可能包括分析当前的COVID-19病毒问题、股票市场溢出问题和国际贸易问题.

2 SAR模型与拟极大似然估计

对于一个有$ n $个观察值的因变量$ y $, 我们希望基于相关的外生变量(回归变量)来解释它.最重要最流行的计量经济学模型是线性回归模型$ y_i = x_i\beta+v_i $, $ i = 1, \cdots, n $, 其中, $ v_i $是扰动项, 其概括了除了观测到的因素$ x_{i1}, \cdots, x_{ik} $ (其中, $ x_i = (x_{i1}, \cdots, x_{ik}) $)之外, 不可观测因素的影响.估计未知系数$ \beta $的最小二乘估计为$ \min_\beta \sum_{i = 1}^n (y_i-x_i\beta)^2 $. $ \beta $的最小二乘估计是否具有良好的统计性质取决于扰动项$ v_i $$ (i = 1, \cdots, n) $的随机性质.如果样本观测值$ (y_i, x_i), \ i = 1, \cdots, n $是随机的, 只要$ v_i $$ x_i $不是统计相关的, 最小二乘估计可以具有较好的统计性质.但是, 如果观察值$ (y_t, x_t), \ t = 1, \cdots, t $是时间序列数据, 人们可能认为$ y_t $不是统计独立的, 而是相关的.为了捕获$ y_t $之间可能的相关性, 比较受欢迎的方式是回归模型允许$ v_t $是一个统计相关的随机过程.一个相对简单的随机过程是一阶自回归过程AR(1), $ v_t = \rho v_{t-1}+\epsilon_t $, 其中$ \epsilon_t $独立同分布, 具有零均值和共同方差$ \sigma^2 $.另一个流行的模型是动态模型, $ y_t = \lambda y_{t-1}+x_t\beta+v_t $, 其中$ y_t $受到时间滞后$ y_{t-1} $的直接影响.这些时间序列模型有一个共同的特征, 即随着时间变化具有方向性, 近期内变量的历史结果会影响当前的结果$ y_t $.这种影响具有时间上向前(moving forward)的方向.

2.1 SAR模型

另一方面, 如果观察值$ (y_i, x_i), i = 1, \cdots, n $在空间中被获得, 则$ y_i $有可能在统计上存在相关性.我们的目标是在$ y_i $的模型设定中捕获这种空间统计依赖关系.在地理学, 第一定律指任何事物都是与其他事物相关的, 只不过相近的事物关联更紧密.空间计量经济模型是基于这一定律对相邻单元及其相对影响来设定的.从数学上讲, 可以设定一个$ n\times n $矩阵$ W = [w_{ij}] $, 其中$ w_{ij} $表示单位$ i $受单位$ j $影响的相对强度.具有空间相关扰动的回归模型具有如下结构: $ y_i = x_i\beta+u_i $$ u_i = \rho w_{i.}U_n+v_i $, 其中$ w_{i.} $$ W_n $的第$ i $行, $ U_n = (u_1, \cdots, u_n)' $, $ v_i $独立同分布, 且该分布均值为0方差有限.更加结构化的模型为:

$ \begin{equation} y_i = \lambda w_{i.}Y_n+x_i\beta+v_i, \ \ \ i = 1, \cdots, n, \end{equation} $

其中, $ Y_n $是因变量的$ n $维样本向量.作为一个包含所有观测结果的系统, SAR模型是

$ \begin{equation} Y_n = \lambda W_nY_n+X_n\beta+V_n, \end{equation} $

其中$ X_n = (x'_1, \cdots, x'_n)' $$ n\times k $的解释变量矩阵, 且$ V_n = (v_1, \cdots, v_n)' $是均值$ 0 $和方差矩阵$ \sigma^2 I_n $的干扰向量, i.e., $ (0, \sigma^2I_n) $.该模型是时间序列自回归模型在横截面空间数据上的推广, 所以它被称为空间自回归模型(spatial autoregressive model or spatial autoregression, SAR).

通常, 区域的数量不会太小, 而是足够大到可以进行统计渐近分析.因此, 我们需要指定$ w_{ij} $的值; 否则, 就会有太多的参数(大于样本观测的数量)而难以处理.矩阵$ W_n $称为空间权值矩阵(spatial weights matrix).为了分析, 我们认为$ n $很大.从数学上讲, 我们认为$ \{W_n\} $是由$ n $为指标的序列.为了数学的严谨, $ W_n $的第$ i $行第$ j $列元素记为$ w_{n, ij} $, $ W_n $中的$ i $行记为$ w_{n, i.} $. $ w_{n, ij} $表示空间个体$ j $到个体$ i $之间链接的强度, 所以$ w_{n, ij} $对于所有的$ i $$ j $通常都取非负值.这种联系可以由两个单位的距离的倒数或两个单位之间的经济因素决定.对于许多应用, 我们可以假定$ W_n $的对角元素为零, $ w_{n, ii} = 0 $对于$ i = 1, \cdots, n $以排除自我影响.然而, 这种约束可能对某些应用问题(如贸易流)不合适, 因为贸易可以在本地发生.在典型的实证区域研究中, 空间权矩阵通常是归一化的, 即每一行的行和归一化为1.这样, $ w_{n, i.}Y_n $表示$ i $邻居的平均结果, SAR模型中$ i $'s neighbor的平均结果对$ i $有溢出效应.但在一些研究中, 人们可能不喜欢对空间权重矩阵做行归一化.然而, 归一化空间权矩阵在空间计量经济学中的应用却受到了许多实证研究的推动.另一方面, 使用非归一化权值矩阵不会对某些SAR模型的估计造成很大的理论困难.

2.2 SAR框架中其他一些流行的模型

还有一些其他的横截面模型可以捕捉空间相互作用和空间相关性.这里我们将介绍外部性模型(externality model)、空间误差回归模型(spatial error regression model)和空间杜宾SAR模型(spatial Durbin models SAR model).他们分别是是回归模型、自回归过程和自回归模型在横截面数据时间序列中的推广.值得注意的是, 这些模型可以表示为带有参数约束的SAR模型.

带有SAR扰动项$ U_n $的回归模型(SE模型)可以被记为$ Y_n = X_n\beta+U_n $, 其中$ U_n $中的扰动项$ u_{ni} $是和$ U_n = \rho W_nU_n+V_n $空间相关的, 并且$ V_n $中的$ v_{ni} $是独立同分布$ (0, \sigma_0^2) $.在该回归模型中, 回归方程的扰动项是一个SAR过程. $ U_n $的方差矩阵为$ \sigma^2 S_n^{-1}(\rho)S_n^{'-1}(\rho) $, 其中$ S_n(\rho) = I_n-\rho W_n $.因为$ S_n^{-1}(\rho)S_n^{'-1}(\rho) $的非对角元素可能不为零, 扰动项$ u_i $存在空间相关性.一般来说, $ u_i $的方差在$ U_n $的方差-协方差矩阵对角线上, 它可以随空间单位的变化而变化, 也就是说扰动项$ u_i $是异方差的.外部性模型是指回归模型$ Y_n = X_n\beta+W_nX_n\gamma+V_n $.这里, 对于第$ i $个单元, $ x_i $不仅有对$ y_i $的直接影响$ \beta $, 也会通过相邻(网络)结构(以$ W_n $表示)对其他单位产生溢出效应.这个模型在研究邻里关系对个体结果影响的社会学中有很多应用.带有Durbin回归的SAR模型是除了$ X_n $之外还带有回归$ W_nX_n $的SAR模型: $ Y_n = \lambda W_{n}Y_{n}+l_n\alpha+X_{n1}\beta_{1}+W_{n}X_{n1}\beta _{2}+V_n, $$ W_n $为行归一化空间权值矩阵时, $ X_{n1} $是由单个变量组成的矩阵.有许多使用Durbin项$ W_nX_{n1} $的动机.在社交互动中, $ W_nX_n $捕获上下文(外生邻居)效应.在空间模型中, $ W_nX_n $可以捕获“外部性(externality)" (LeSage and Pace (2009)).

这些模型可嵌入到一些空间计量经济学家青睐的SAR模型框架中(LeSage and Pace (2009), Elhorst (2010)).对于一个有SE误差的回归模型: $ Y_n = l_n\mu+X_{n1}\beta+U_n $, 其中$ U_n = \lambda W_n U_n+V_n, $这里$ l_n $为截距项, 通过空间变换, 当$ W_n $行归一化时, $ Y_n = \lambda W_nY_n+l_n(1-\lambda)\mu+X_{n1}\beta+W_nX_{n1}(-\lambda\beta)+V_n. $ SAR模型$ Y_n = \lambda W_nY_n+l_n\alpha+X_{n1}\beta_1+W_nX_{n1}\beta_2+V_n $用扩展的回归变量矩阵$ X_n = [l_n, X_{n1}, W_nX_{n1}] $可以将带有SE误差的回归模型嵌入到以$ \beta_2 = -\lambda\beta_1 $为约束条件的SAR模型中.

2.3 经济学基础

在SAR模型中, 相邻的结果可能会溢出, 从而影响空间单元的结果.这样, 空间滞后就捕捉到了溢出效应. SAR模型有理论上的经济合理性.在经济博弈的理论方面, SAR模型可以看作是一个具有线性二次效用的静态完全信息博弈模型的纳什均衡.在有$ n $个个体的博弈中, 每个个体选择一个行动(努力)来最大化自己的效用.个体代理人$ i $从其行为中获得的收益$ y_{ni} $与其行为成正比, 其收益也取决于个体特征和其他个体的行为$ y_{ni}(\lambda \sum_{j = 1}^n w_{n, ij}y_{nj}+x_{ni}\beta+v_{ni}) $, 根据$ \lambda $的符号和它的强度, 它可以被替换或补充.一个行动的代价是$ y_{ni}^2/2 $, 代理$ i $的效用为:

$ \begin{equation} u_i(y_{ni}) = y_{ni}\left(\lambda\sum\limits_{j = 1}^n w_{n, ij}y_{nj}+x_{ni}\beta+v_{ni}\right)-y_{in}^2/2, \end{equation} $

其中$ x_{ni} $$ v_{ni} $假设在完全信息下所有代理已知(Calvo-Armengol et al. (2009)).第$ i $个代理人使他/她的效用最大化是在考察在给定的$ Y_{-i, n} $, $ x_{ni} $$ v_{ni} $时, 也即$ \max_{y_{ni}}U_i(y_{ni}|Y_{-i, n}) $, 其中$ U_i(y_{ni}|Y_{-i, n}) = u_i(y_{ni}) $, 和$ Y_{-i, n} = (y_{n1}, \cdots, y_{n, i-1}, y_{n, i+1}, \cdots, y_{nn})' $.所有个体的优化得到线性SAR方程$ Y_n = \lambda W_n Y_n+X_n\beta+V_n $, 正如模型(2)观察到的结果向量$ Y_n $是这个完全信息博弈的纳什均衡.根据这个模型的应用情景, 还可以有不同的理论论证.对于社交互动, 一个人可能拥有由两部分组成的效用为:

其中第一个组成部分代表一个与$ y_{ni} $相关的个体效应, 第二个组成部分体现了与朋友相关的从众效应(社会规范) (Brock and Durlauf (2001)).对于截面数据, 两种效用函数都给出了SAR模型(2).

2.4 经济学意义

在SAR方程(1)中, $ \lambda w_{n, i.}Y_n $表示相邻空间个体行为对空间单元$ i $作用的溢出效应.由于邻居被定义为相邻的个体(在地理或经济空间中), 个体之间的相互作用是局部的.在某种意义上说, 对于邻近的邻居, 个体之间的行为关联可能会更强, 但对于遥远的单元则会变得较弱.这在$ S_n^{-1} $的纽曼级数展开(Neumann's series expansion)中变得很清楚, 其中$ S_n = I_n-\lambda W_n $, 由式(2)简化为$ Y_n = S_n^{-1}(X_n\beta+V_n) $.假设对于某个矩阵范数$ ||\cdot|| $, $ ||\lambda W_n||<1 $, 则$ S_n^{-1} $的纽曼展开$ S_n^{-1} = I_n+\sum_{i = 1}^\infty \lambda^i W_n^i $是一个定义明确的收敛级数.在$ ||W_n|| = 1 $$ |\lambda|<1 $的情况下, 我们可以看到当$ m $变大时, $ ||\sum_{i = m}^\infty \lambda^i W_n^i||\le \sum_{i = m}^\infty |\lambda|^i = {|\lambda|^m\over 1-|\lambda|} $将会变小.通过这种展开, 简化后的SAR方程有了表示方式:

$ \begin{equation} Y_n = X_n\beta+\sum\limits_{j = 1}^\infty \lambda W_n^j X_n\beta +V_{n}+\sum\limits_{j = 1}^\infty \lambda W_n^j V_{n}, \end{equation} $

其中$ \lambda W_n $捕获直接邻居的特征对每个单元可能产生的影响, $ \lambda^2W_n^2 $抓住第二层邻居的影响, 以此类推.但因为$ ||\lambda W_n||<1 $, 随着$ m $的增加, 高阶邻域的影响将呈几何级数递减.这样, SAR过程在空间上是稳定的, 所以假设$ ||\lambda W_n||<1 $通常用于SAR模型.对于行归一化$ W_n $, 我们认为$ \lambda $的参数空间是区间$ (-1, 1) $的子集. SAR模型中的参数(系数)捕获了各区域在结果上的特征信息.一个地区的有关解释变量的任何变化都将直接影响该区域的结果, 也可能间接影响所有其他地区的结果.捕捉地区相互作用或溢出效应的能力是SAR模型的一个重要方面(LeSage and Pace (2009)).从简化形式的SAR模型来看, 地区$ j $的第$ k $个回归量$ x_{kj} $对地区$ i $上的边际影响为$ {\partial y_{ni}\over\partial x_{kj}} = \beta_k\{(I_n-\lambda W_n)^{-1}\}_{ij} $, 因此, 单个地区解释变量的变化可能会影响所有其他地区的结果.第$ i $个区域自身的导数$ {\partial y_{ni}\over \partial x_{ki}} = \beta_k \{(I_n-\lambda W_n)\}_{ii} $度量的是$ x_{ki} $变化时的影响, 而不仅仅是$ \beta_k $, 因为它的影响也包括地区$ i $通过影响其他地方再返回到自身的所有路径来影响自身.人们可以用各种方法总结不同区域变量变化的影响.第$ i $个解释变量$ x_{ki} $的变化对$ y_{ni} $的影响在上文, 通过对所有区域的总和取平均值, 得到平均的直接影响$ {1\over n}{\rm tr}[(I_n-\lambda W_n)^{-1}]\beta_k $.平均的总影响是$ {1\over n}l'_n[(I_n-\lambda W_n)^{-1}]l_n\beta_k $, 它等于对观测结果的平均总影响也等于观察到的平均总影响.平均的间接影响是$ {1\over n}\{l'_n[(I_n-\lambda W_n)^{-1}]l_n - {\rm tr}[(I_n-\lambda W_n)^{-1}]\}\beta_k $.因子$ {1\over 1-\lambda} $也可以被解释为当$ W_n $行归一化时所有单位的回归变量的微小$ \Delta $变化的乘数效应(multiplier effect), 因为

其中$ |\lambda|<1 $.$ x_{ik} $ ($ i = 1, \cdots, n $)都变化一个单位, 也即$ \Delta = 1 $, 对于每个空间个体$ Y_{ni} $的影响是$ \beta_k/(1-\lambda) $, 所以$ {1\over(1-\lambda)} $是乘数效应.

2.5 SAR模型的ML或QML估计

对SAR模型(2)进行估计, 假设$ V_n $的元素都是均值为零, 方差为$ \sigma^2 $的独立同分布随机变量, 即$ V_n\sim (0, \sigma^2 I_n) $, 我们可以建立一个基于正态分布的拟极大似然方法(quasi-likelihood approach).对数拟似然函数是:

$ \begin{equation} \ln L_n(\lambda, \beta, \sigma^2) = -{n\over 2}\ln(2\pi)-{n\over 2}\ln \sigma^2+\ln|S_n(\lambda)| -{1\over 2\sigma^2}(Y_nS_n(\lambda)-X_n\beta)'(S_n(\lambda)Y_n-X_n\beta), \end{equation} $

其中对任意在其参数空间中的$ \lambda $, $ S_n(\lambda) = I_n-\lambda W_n $, 且$ S_n = S_n(\lambda_0) $代表$ S_n(\lambda) $在真实参数$ \lambda_0 $处的求值.这个对数似然函数涉及到$ S_n(\lambda) $行列式的计算.当样本容量$ n $较大时, 需要专门设计计算方法.当$ W_n $是对称矩阵$ W^{\ast}_n $的行标准化矩阵时, 例如$ w_{n, ij}^\ast $$ i $$ j $之间距离的函数, $ W_n $是一个具有实特征值的可对角化矩阵(Ord (1975)).正是因为$ W_n = D_nW_n^* $, 其中$ D_n = {\rm Diag}\{\sum_{j = 1}^n w^\ast _{n, ij}\}^{-1} $是一个对角矩阵, $ W_n^\ast $是一个行标准化的对角矩阵, 则:

其中$ Q_n = D^{1\over 2}_n\Gamma_n $, 并且$ D_n^{1\over 2}W^\ast _n D_n^{1\over 2} $是一个具有特征值和特征向量分解的对称矩阵$ \Gamma_n{\rm Diag}\{\mu_i\}\Gamma'_n $, 其中所有的特征值$ \mu_i $都是实数.通过对角化$ W_n $, 我们得出:

$ \begin{equation} |I_n-\lambda W_n| = |I_n-\lambda Q_n{\rm Diag}\{\mu_{ni}\}Q_n^{-1}| = |I_n-\lambda {\rm Diag}\{\mu_{ni}\}| = \prod\limits_{i = 1}^n (1-\lambda \mu_{ni}). \end{equation} $

因此, 在最大化迭代中, 因为特征值$ \mu_{ni} $只需要计算一次, 因此$ |I_n-\lambda W_n| $可以很容易地更新.另一种方法甚至可能用于非标准化或非对称的$ W_n $, 它可以基于$ \ln |I_n-\lambda W_n| $$ \lambda $进行泰勒级数展开(LeSage and Pace (2009)): $ \ln|I_n-\lambda W_n| = -\sum_{l = 1}^\infty {\lambda^l\over l!}{\rm tr}(W_n^l) $, 其中泰勒展开可以使用我们熟悉的公式, 即对于带有标量参数$ \alpha $的可逆矩阵$ A $, $ {\partial\ln |A|\over\partial\alpha} = {\rm tr}(A^{-1} {\partial A\over\partial \alpha}) $以及$ {\partial A^{-1}\over\partial\alpha} = -A^{-1}{\partial A\over \partial\alpha} A^{-1} $. ML或QML估计量将由对数似然函数(5)的一阶条件来表表示.该SAR模型的对数似然函数的导数为:

$ \begin{equation} \begin{split} & {\partial\ln L_n\over\partial\lambda} = {1\over \sigma^2}[W_n S^{-1}_n(\lambda)X_n\beta]'V_n(\theta) +{1\over\sigma^2}V'_n(\theta)W_n S^{-1}_n(\lambda)V_n(\theta)-{\rm tr}(W_n S^{-1}_n(\lambda)), \\ & {\partial\ln L_n\over\partial\beta} = {1\over \sigma^2}X'_nV_n(\theta), \\ & {\partial\ln L_n\over\partial\sigma^2} = -{n\over 2\sigma^2}+{1\over 2\sigma^4} V'_n(\theta) V_n(\theta), \end{split} \end{equation} $

其中$ \theta = (\lambda, \beta', \sigma^2)' $$ V_n(\theta) = S_n(\lambda)Y_n-X_n\beta $.

ML估计量和QML估计量是否具有良好的渐近性质, 如相合性和渐近正态性, 取决于空间权矩阵$ W_n $的一些结构.利用$ {\partial \ln L_n(\hat\theta_n)\over\partial\theta} = 0 $$ \theta_0 $处展开的中值定理, 可以导出ML估计量$ \hat\theta_n $的渐近分布, 即$ \sqrt{n}(\hat\theta_n-\theta_0) = [-{1\over n}{\partial^2\ln L_n(\theta^\ast _n)\over\partial\theta\partial \theta'}]^{-1} {\partial\ln L_n(\theta_0)\over\partial\theta}, $其中$ \theta^\ast _n $是一个向量, 在二阶导的每一行中它可在$ \hat\theta_n $$ \theta_0 $之间取值.假设$ {1\over n}{\partial^2\ln L_n(\theta^\ast _n)\over\partial\theta\partial\theta'} $的极限是非奇异矩阵, 对它应用强大数定律和对$ {1\over\sqrt{n}}{\partial \ln L_n(\theta_0)\over\partial \theta} $应用中心极限定理, 我们可以证明估计量收敛到正态分布.在真值$ \theta_0 $处, $ V_n = V_n(\theta_0) $是SAR模型的扰动向量, 相关的中心极限定理应为线性二次统计量渐近分布的中心极限定理.稍后讨论更多有关大数定律和中心极限定理的细节.

对于计算来说, 不是最大化对数似然函数$ \ln L_n(\theta) $, 而是最大化其浓缩对数似然函数(concentrated log likelihood).对于SAR模型, 给定$ \lambda $, $ \beta $$ \sigma^2 $的QMLE就是我们熟悉的来自基于正态分布的线性回归的QML, 其中$ S_n(\lambda)Y_n $是线性回归方程中的因变量而回归量为$ X_n $:

其中$ M_n = I_n-X_n(X'_nX_n)^{-1}X'_n $.则浓缩对数似然为$ \ln L_n(\lambda) = -{n\over 2}[\ln (2\pi)+1]-{n\over 2}\ln\hat\sigma_n^2(\lambda)+\ln |S_n(\lambda)|. $$ \lambda_0 $的QML估计可以由$ \ln L_n(\lambda) $在其参数空间上进行一维搜索而得到.

2.6 拟极大似然估计的唯一性和对数似然函数的凹性

至少当$ W_n $可以对角化并且所有特征值都是实数时, 带参数向量$ \theta = (\lambda, \beta', \sigma^2)' $的SAR模型(2)的对数拟似然函数(5)可以有一个唯一的最大值.后面的实特征值情况将由$ W_n $是对称或由前面在Ord (1975)中展示的对称矩阵行的标准化来保证.有了这个特性, 数值最大化拟似然函数将更容易, 因此QMLE $ \hat\theta_n $在计算不会有太多困难. Liu et al (2020)证明了SAR模型(2)可以通过双射重新参数化, 重新参数化后的对数似然函数在其重新参数化空间中可以是严格凹的, 从而实现了这一特性.重新参数化遵循了Olsen (1978)对一般Tobit模型的建议. $ \theta = (\lambda, \beta', \sigma^2)' $的参数可以重新参数化为$ \theta^\ast = (\lambda^\ast, \beta^{\ast '}, h)' $, 其中$ h = {1\over\sigma} $, $ \lambda^\ast = {\lambda\over\sigma} $$ \beta^\ast = {\beta\over\sigma} $.因为$ \sigma>0 $作为一个标准差, 很明显从$ \theta $$ \theta^\ast $的重新参数化是一个一一映射.由原始SAR模型(2), $ Y_n/\sigma = (\lambda/\sigma)W_nY_n+X_n(\beta/\sigma)+V_n/\sigma $.因此, 该模型(2)可以转化为$ hY_n = \lambda^\ast W_nY_n+X_n\beta^\ast +V_n^\ast, $其中$ V_n^\ast = V_n/\sigma $有零均值和单位方差, 即, $ V_n^\ast \sim (0, I_n) $.函数(5)中的对数拟似然函数变为:

对于最后一个项, 因为

是一个具有负定二阶矩阵的二次型, 这一项在$ \theta^\ast $上是严格凹的.对雅可比变换的行列式, 从公式(6)得到$ |I_n-\lambda W_n| = \prod_{j = 1}^n (1-\lambda\mu_{nj}) $, 其中$ \mu_{nj} $$ W_n $的实数特征值.由此得出$ |h I_n-\lambda^\ast W_n| = \prod_{j = 1}^n (h-\lambda^\ast \mu_{nj}) $$ \log |h I_n-\lambda^\ast W_n| = \sum_{j = 1}^n \log (h-\lambda^\ast \mu_{nj}) $.因为对数函数是严格凹的, 并且一个严格凹函数和一个仿射函数的复合仍然是严格凹的, 所以$ \ln |h I_n -\lambda^\ast W_n| $是一个$ (h, \lambda^\ast) $中的严格凹函数.两个严格凹函数的和必然是严格凹的, 因此$ \ln L_n(\theta^\ast) $$ \theta^\ast $的严格凹函数.因为从$ \theta^\ast $$ \theta $的映射是一一映射, 而$ \ln L_n(\theta^\ast) $由于其严格的凹性而具有唯一的最大值, 所以相应的原始参数的$ \ln L_n(\theta) $也具有唯一的最大化. Liu et al. (2020)利用对数似然函数的严格凹性, 当$ \theta_0 $可识别时(也即$ \theta^\ast _0 $可识别), 在不依赖紧参数空间的条件下建立了估计量的一致性, 可以使用一个唯一的最大化建立不需要紧参数空间的QMLE的一致性. $ \lambda $的浓缩对数似然估计在QMLE $ \hat\lambda_n $处取得唯一的最大值, 并且浓缩对数似然的导数在$ \hat\lambda_n $的右边为负数, 在$ \hat\lambda_n $的左边为正数.这个特性意味着$ \hat\lambda_n $的(有限样本)分布可以用$ Y_n $的二次函数来刻画:其中对于任何取值的$ \lambda $,

其中$ H_n(\lambda) = M_n(G_n(\lambda)-{{\rm tr}(G_n(\lambda))\over n}I_n) + (G_n(\lambda)-{{\rm tr}(G_n(\lambda))\over n}I_n)'M_n $是一个对称矩阵. Hillier and Martellosio (2018)阐述了在$ W_n $上的几种特殊情况下, 此类二次函数的有限样本分布, 以及在一般情况下, 使用高阶鞍点近似构造$ \hat\lambda_n $的置信区间.

2.7 模型参数识别

在SAR模型参数识别中, 空间权值矩阵$ W_n $起着重要作用.如果扰动项服从正态分布, 则函数(5)中的对数似然将是准确的, 并且参数向量$ \theta_0 = (\lambda_0, \beta'_0, \sigma_0^2)' $的识别可以从ML估计方法中得到.在得到可识别后, 通过一致大数定律, 我们可以证明MLE的一致性.对于非正态分布扰动项的SAR模型, 函数(5)中对数拟似然函数$ \ln L_n(\theta) $在QMLE处取得最大值, 如果它的期望值的平均值$ {1\over n}E(\ln L_n(\theta)) $一致收敛到极限函数$ \lim\limits_{n\to\infty} {1\over n}E(\ln L_n(\theta)) $, 那么$ \theta_0 $的识别可以通过以下方式实现: $ \lim\limits_{n\to\infty} {1\over n}E(\ln L_n(\theta)) $在真值$ \theta_0 $处获得一个唯一的全局最大值.可进一步推广到用平均期望函数序列来识别$ \theta_0 $:对于任意$ \epsilon>0 $, $ \limsup\limits_{n\to\infty}\max\limits_{\theta\in \bar N_\epsilon(\theta_0)} {1\over n}|E(\ln L_n(\theta))-E(\ln L_n(\theta_0))|<0 $, 其中$ \bar N_\epsilon(\theta_0) $是参数空间中$ \theta_0 $的开邻域的补集. ML方法中$ \theta_0 $的识别依赖于对数似然函数的信息不等式.对于SAR模型中参数的识别, 信息不等式一般是基于准确的对数似然函数, 该不等式可推广到SAR模型的对数拟似然函数(5), 因为期望函数依赖于正确设定的一阶矩和二阶矩.函数(5)的期望对数似然函数为:

给定$ \lambda $, $ \beta_n(\lambda) = (X'_nX_n)^{-1}X'_n S_n(\lambda) S_n^{-1}X_n\beta_0 $$ E(\ln L_n(\lambda, \beta, \sigma^2)) $关于$ \beta $的最大值.从$ \beta_n(\lambda) $的表达式, 我们有:

其中$ M_n = I_n-X_n(X'_nX_n)^{-1}X'_n $是一个正交投影算子, $ G_n = W_nS_n^{-1} $.上式推导使用了恒等式$ S_n(\lambda)S_n^{-1} = I_n+(\lambda_0-\lambda)G_n $以及投影性质$ M_nX_n = 0 $.通过将$ \beta_n(\lambda) $代入$ \bar Q_n(\lambda, \beta_n(\lambda), \sigma^2) $, 得到浓缩函数$ \bar Q_n(\lambda, \sigma^2) $.给定$ \lambda $, 浓缩的最大值$ \bar Q_n(\lambda, \sigma^2) $$ \sigma_n^2(\lambda) = {\sigma_0^2\over n}{\rm {\rm tr}}(S_n^{'-1}S'_n(\lambda)S_n(\lambda)S_n^{-1}) +{1\over n}(\lambda_0-\lambda)^2(G_nX_n\beta_0)'M_n(G_nX_n\beta_0) $处取得.因此, 在$ \lambda $处浓缩期望对数似然为$ \bar Q_n(\lambda) = -{n\over 2}[\ln(2\pi)+1]-{n\over 2}\ln\sigma_n^2(\lambda)+\ln |S_n(\lambda)| $.因此

根据算术平均数和几何平均数的不等式,

其中只有在$ S_n^{'-1}S'_n(\lambda)S_n(\lambda)S_n^{-1} $$ I_n $成正比的情况下, 两者才相等. $ {1\over n}\bar Q_n(\lambda)<{1\over n}\bar Q_n(\lambda_0) $对任何$ \lambda \not = \lambda_0 $成立的充分条件是$ (G_nX_n\beta_0)'M_n(G_nX_n\beta_0)>0 $$ S_n^{'-1}S'_n(\lambda) S_n(\lambda)S_n^{-1} $$ I_n $不成比例.后者在$ I_n $, $ (W_n+W'_n) $$ W'_nW_n $不是线性相关的情况下成立.

2.8 渐近分析的统计工具

Score向量$ {\partial\ln L_n(\theta_0)\over\partial\theta} $中包含线性统计量$ X'_n V_n $$ (G_nX_n\beta_0)'V_n $, 和二阶矩$ V'_nG_nV_n -\sigma_0^2 {\rm tr}(G_n) $$ V'_nV_n-\sigma_0^2 $.这些统计量是SAR模型中QMLE渐近分析的基本统计量. $ (G'_nX_n\beta_0)'V_n $$ V'_nG_nV_n-\sigma_0^2 {\rm tr}(G_n) $两个统计量依赖于矩阵$ G_n = W_nS_n^{-1} $, 它是$ W_n $的函数.因此需要更多关于$ W_n $的结构信息.模型(2)中的SAR模型有简化式$ Y_n = S_n^{-1}(X_n\beta_0)+U_n $, 其中$ U_n = S_n^{-1}V_n $. $ Y_n $的方差矩阵等于$ U_n $的方差矩阵, 即$ ({\rm var})(Y_n) = \sigma_0^2 S_n^{-1}S_n^{'-1} $.对于不同空间个体, 即使$ v_{ni} $的方差是相同的$ \sigma_0^2 $, $ y_{ni} $的方差也可以是不同的.这是由于不同的空间单元可能有不同的网络连接.然而, 即使$ W_n $的网络规模变大了, 直观上$ Y_n $的方差也不应该是爆炸性的.为了保证这一点, 我们可以假设序列$ \{W_n\} $的行范数和列范数都一致有界, 即$ \{||W_n||_\infty\} $$ \{||W_n||_1\} $有界.然而, 它们的一致有界性并不足以保证$ \{{\rm Var}(Y_n)\} $的一致有界性, 因此我们另外假设$ \{S_n^{-1}\} $的行范数和列范数都一致有界.这个额外的假设将足以保证方差序列$ \{{\rm Var}(Y_n)\} $是有界的, 因为$ ||S_n^{-1}S_n^{'-1}||_\infty\le ||S_n^{-1}||_\infty ||S_n^{'-1}||_\infty = ||S_n^{-1}||_\infty ||S_n^{-1}||_1<\infty $一致有界; 类似地, $ ||S_n^{-1}S_n^{'-1}||_1\le ||S_n^{-1}||_1 ||S_n^{'-1}||_1 = ||S_n^{-1}||_1 ||S_n^{-1}||_\infty<\infty $关于$ n $一致成立.

2.9 线性二次型统计量的LLN和CLT

为了研究线性形式$ Q'_nV_n $统计量和二次形式$ V'_nA_nV_n $统计量的随机收敛性, 这里$ Q_n $$ n\times k $的非随机矩阵而$ A_n $是对称的$ n\times n $非随机矩阵, 我们需要推导其均值和方差.对任意$ n\times n $的矩阵$ A_n $$ B_n $, 假设$ V_n\sim (0, \sigma_0^2 I_n) $, 和三阶矩$ \mu_3 $和四阶矩$ \mu_4 $存在, 我们可以得到一个线性型和一个二次型统计量的协方差: $ E[(Q'_nV_n) (V'_n A_nV_n)] = Q'_n {\rm vec}_D(A_n)\mu_3 $, 其中$ {\rm vec}_D(A_n) $是由$ A_n $对角元素构成的向量; $ {\rm cov}(V'_nA_n V_n, V'_nB_n V_n) = (\mu_4-3\sigma_0^4){\rm vec}'_D(A_n){\rm vec}_D(B_n) +\sigma_0^4 {\rm tr}[A_n (B_n+B'_n)] $.假设$ A_n $$ B_n $的行范数和列范数都是一致有界的, $ Q_n $的元素是一致有界的, 那么这些协方差的阶为$ O(n) $.通过切比雪夫不等式, 我们可以得到$ {1\over n}V'_n A_n V_n - {1\over n}E(V'_n A_n V_n) = o_p(1) $, 这是二次型统计量的(弱) LLN.对于线性统计量$ {1\over\sqrt{n}}C'_nA_nV_n $, 假设$ n\times k $矩阵$ C_n $的所有元素都是一致有界的, $ v_{ni} $是独立同分布 $ (0, \sigma^2) $且有一致有界的的三阶矩$ E(|v_{ni}|^3)<\infty $.如果$ {1\over n}C'_nA_nA'_nC_n $的极限存在并且是正定的, 由李雅普诺夫中心极限定理(Lyapunov CLT), 有$ {1\over\sqrt{n}}C'_n A_nV_n\buildrel d\over\rightarrow N(0, \sigma^2\lim\limits_{n\to\infty} {1\over n}C'_nA_nA'_nC_n) $.对于线性二次统计量$ q_n = V'_nA_nV_n+b'_nV_n-\sigma^2 {\rm tr}(A_n) $, $ A_n $是一个对称的矩阵, 其行范数与列范数一致有界, $ b_n $是一个对于对某个$ \eta>0 $, 满足$ \sup_n{1\over n}\sum_{i = 1}^n |b_{ni}|^{2+\eta}<\infty $的列向量. $ q_n $可以表示为一个鞅差双数组(martingale difference double array)的和.然后, 利用鞅差序列的中心极限定理, 我们可以建立线性二次统计量的渐近正态分布. $ A_n = [a_{n, ij}] $不妨假定为一个对称矩阵, 因为它是以二次形式出现的.因为$ V'_nA_nV_n = \sum_{i = 1}^n a_{n, ii}v_{ni}+2\sum_{i = 1}^n\sum_{j = 1}^{i-1}a_{n, ij}v_{ni}v_{nj} $, 所以$ q_n = \sum_{i = 1}^nZ_{ni}, $其中,

$ \begin{equation} Z_{ni} = b_{ni}v_{ni}+\sum\limits_{i = 1}^n a_{n, ii}(v_{ni}^2-\sigma^2) +2\sum\limits_{i = 1}^n\sum\limits_{j = 1}^{i-1}a_{n, ij}v_{ni}v_{nj}. \end{equation} $

定义$ \sigma $-$ {\cal J}_{ni} = <v_{n1}, \cdots, v_{ni}> $$ v_{n1}, \cdots, v_{ni} $生成.因为$ v_{ni} $是独立同分布并有零均值和有限方差, 所以$ E(Z_{ni}|{\cal J}_{n, i-1}) = b_{ni}E(v_{ni})+a_{n, ii} (E(v_{ni}^2)-\sigma^2) +2E(v_{ni})\sum_{j = 1}^{i-1}a_{n, ij}v_{nj} = 0. $$ \{(Z_{ni}, {\cal J}_{ni})|1\le i\le n, 1\le n\} $构成一个鞅差双数组.我们注意到$ \sigma_{q_n}^2 = \sum_{i = 1}^nE(Z_{ni}^2) $, 其中$ Z_{ni} $是鞅差序列, $ Z_{ni} $$ Z_{nj} $对于任何$ i\not = j $是不相关的.同时, 对于稀疏权重矩阵和足够大的$ n $, 对于某个常数$ c $, 有$ {1\over n}\sigma_{q_n}^2\ge c>0 $.定义标准化变量$ Z_{ni}^\ast = Z_{ni}/\sigma_{q_n} $. $ \{(Z_{ni}^\ast, {\cal J}_{ni})| 1\le i\le n \} $它是一个鞅差双数组且$ {q_n\over\sigma_{q_n}} = \sum_{i = 1}^nZ_{ni}^\ast $.为了使鞅CLT适用于SAR模型, 我们证明了存在一个$ \delta^\ast >0 $使得当$ n $趋于无穷时, $ \sum_{i = 1}^n E|Z_{ni}^\ast |^{2+\delta^\ast }\to 0 $, 同时$ \sum_{i = 1}^n E(Z_{ni}^{\ast 2}| {\cal J}_{n, i-1})\buildrel p\over\rightarrow 1 $.具体的证明可以在Kelejian and Prucha (2001)以及Lee (2004)中找到.线性二次型统计量的CLT可以在几个方面得到推广.例如, Kelejian and Prucha (2010)允许扰动项$ v_{ni} $是独立的, 但具有一致有界异方差.

2.10 SAR模型QMLE的渐近分布

在一些正则条件下(这些条件要求当空间个体距离较远时, 权重矩阵相应该元素应足够小), QMLE可以是一致和渐近正态分布的.对于具有对数似然函数(5)和score向量(7)的SAR模型, 通过一阶条件(FOC)在$ \theta_0 $处的均值展开, 可以得到QMLE $ \hat{\theta}_n $的渐近分布. QMLE $ (\hat\theta_{n}, \hat\sigma_{n}^2) $的渐近方差是:

(见, Anselin and Bera (1998), p.256).由此说明了$ \lambda $的MLE $ \hat\lambda_n $的渐近分布不会渐近独立于$ \sigma^2 $的QMLE $ \hat\sigma_n $.通过分块矩阵的逆, 得到MLE $ \hat\theta_{n} $的渐近方差是:

注意到$ {\rm tr}(G_n^2)+{\rm tr}(G'_nG_n)-{2\over n}{\rm tr}^2(G_n) = {\rm tr}((G_n-{{\rm tr}(G_n)\over n}I_n)^sG_n) = {1\over 2}{\rm tr}((G_n-{{\rm tr}(G_n)\over n}I_n)^s(G_n-{{\rm tr}(G_n)\over n}I_n)^s) $, 其中$ A^s = A+A' $为一个非负方阵$ A $.渐近精度矩阵是:

2.11 线性二次统计量的方差、鞅和外积梯度

对于SAR模型的统计推断, 统计量是线性二次型, 它刻画了SAR模型的各种估计方法.对于QML估计, $ {1\over \sqrt n}{\partial \ln L_n(\theta_0)\over\partial\theta} $中的线性二次型的方差在可以在前面上一节或Kelejian and Prucha (2001), Lee (2004)中找到解析式.对于非正态扰动, 扰动项的三阶矩和四阶矩参数将出现.对于这些统计量和估计量的渐近分布, 鞅CLT提供了一个重要的工具.这些统计量的鞅性质也可以在计算中提供额外的用途.这里我们指出鞅差序列在使用外积构造线性二次统计量的渐近方差的价值.

线性SAR模型的统计量具有线性二次型$ q_n = V'_n A_n V_n -\sigma_0^2 {\rm tr}(A_n) + b'_n V_n $, 其中$ A_n $是一个$ n\times n $的非随机性矩阵, $ b_n $$ n\times 1 $的非随机向量, $ V_n $的元素相互独立.我们可以把$ q_n $写为鞅差序列的和, $ q_n = \sum_{i = 1}^n Z_{ni} $, 其中$ Z_{ni} $的表达式参考公式(8).对于$ j\not = i $, 鞅差分随机变量$ Z_{ni} $$ Z_{nj} $是不相关的, 但可以包含未知的参数.因此$ {\rm var}(q_n) = \sum_{i = 1}^n E(Z_{ni}Z'_{ni}) = E(\varphi_n'\varphi_n), $其中$ \varphi_n = (Z_{n1}, \cdots, Z_{nn})' $是由鞅差序列$ Z_{ni} $组成的矩阵.在正则性条件下, $ {\rm var}(q_n) $可以用外积估计$ \hat{\varphi}'_n\hat{\varphi}_n = \sum_{i = 1}^n \hat{Z}_{ni}\hat{Z}_{ni}', $其中$ \hat{Z}_{ni} $$ Z_{ni} $插入一致的参数估计量得到. $ {1\over n}\hat{\varphi}'_n\hat{\varphi}_n = {1\over n}{\rm var}(q_n) +o_p(1) $.此方差估计的优点是不需要该方差的解析形式, 因此不需要特别估计方差、扰动项的三阶和四阶矩.在Born and Breitung (2011)以及Jin and Lee (2018)的研究中, 梯度外积在SAR模型的统计检验上的使用一直是焦点.

2.12 未知异方差下SAR模型QMLE的不一致性

在前面的段落中, 我们考虑对在模型(2)中的SAR模型$ Y_{n} = \lambda _{0}W_{n}Y_{n}+X_{n}\beta _{0}+ V_{n} $的估计.当$ V_n $中的扰动项$ v_{ni} $服从独立同分布$ (0, \sigma_0^2) $, QMLE $ \hat\theta_n $有一致性和渐近正态性.然而, 如果$ v_{ni} $相互独立, 而它们的方差$ \sigma_{ni}^2 $可能不同, 即扰动项可能是异方差的.如果异方差的形式是未知的, 那么我们可以忽略异方差问题, 用对数似然函数(5)估计SAR模型的系数, 而不考虑异方差.对于一个回归模型, 我们知道, 即使方差是异方差, 通常回归系数的OLS的估计也可以是一致的.然而, 对于SAR模型的ML(或QML), 如果不考虑异方差, MLE可能是不一致的(Lin and Lee (2010)).

当SAR模型中扰动项服从独立同分布$ N(0, \sigma^2) $的时候, 对数极大似然函数为:

其中$ \theta = (\lambda, \beta^{\prime }, \sigma ^{2})' $, $ V_n(\theta) = S_n(\lambda)Y_n-X_n\beta $.给定$ \lambda $, $ \beta $的MLE是$ \widehat{\beta}_{n}(\lambda) = (X_{n}^{\prime}X_{n})^{-1}X_{n}^{\prime} S_{n}(\lambda)Y_{n}, $同时$ \sigma ^{2} $的MLE是$ \widehat{\sigma}_{n}^{2}(\lambda) = {1\over n}[S_{n}(\lambda)Y_{n}-X_{n}\widehat{\beta}_{n}(\lambda)]^{\prime} [S_{n}(\lambda)Y_{n}-X_{n}\widehat{\beta}_{n}(\lambda)] = {1\over n}Y_{n}^{\prime}S_{n}^{\prime}(\lambda)M_{n}S_{n}(\lambda)Y_{n}, $其中$ M_{n} = I_{n}-X_{n}(X_{n}^{\prime}X_{n})^{-1}X_{n}^{\prime}. $因此, $ \lambda $的浓缩对数似然函数为$ \ln L_{n}(\lambda) = -{n\over 2}(\ln(2\pi)+1)-{n\over 2} \ln\widehat{\sigma }_{n}^{2}(\lambda)+\ln|S_{n}(\lambda)|. $浓缩对数似然函数的一阶条件是$ {\partial\ln L_{n}(\lambda)\over \partial\lambda} = {1\over \widehat{\sigma }_{n}^{2}(\lambda)}Y_{n}^{\prime} W_{n}^{\prime}M_{n}S_{n}(\lambda)Y_{n}-{\rm tr}(W_{n}S_{n}^{-1}(\lambda)). $对于MLE $ \widehat{\lambda}_n $的一致性, 必要条件是$ \mathop{\rm plim}\limits_{n\to\infty}{1\over n} {\partial\ln L_{n}(\lambda_{0})\over\partial\lambda} = 0. $但对于异方差扰动, 这个条件不一定满足.因此, 无法保证MLE的一致性.在异方差存在的情况下, 在真值$ \lambda_{0} $处, $ \widehat{\sigma}_{n}^{2}(\lambda_{0}) = {1\over n}[S_{n}Y_{n}-X_{n} \widehat{\beta}_{n}(\lambda_{0})]^{\prime}[S_{n}Y_{n}-X_{n}\widehat{ \beta}_{n}(\lambda_{0})] = {1\over n} V_{n}^{\prime}M_{n} V_{n} = {1\over n} V_{n}^{\prime} V_{n}+o_{p}(1) = {1\over n}\sum_{i = 1}^{n}\sigma_{ni}^{2}+o_{p}(1). $所以, $ \widehat{\sigma}_{n}^{2}(\lambda_{0}) $$ \sigma_{ni}^{2} $的平均数$ \overline{\sigma}_n^{2} $是渐近等价的.直观上, $ \widehat{\sigma}_n^2 $提供对$ \overline{\sigma}_n^2 $的估计.那么, 在$ \lambda _{0} $处, $ G_n = W_nS_n^{-1} $,

其中$ \overline{G}_{n} $, $ = {1\over n}{\rm tr}(G_{n}) = {1\over n}\sum_{i = 1}^nG_{n, ii} $.因此, $ {1\over n}{\partial \ln L_{n}(\lambda _{0})\over \partial \lambda } $的极限为零当且仅当矩阵$ G_{n} $的对角元素, 即$ G_{n, ii} $$ (i = 1, \cdots, n) $, 的样本方差$ \sigma _{ni}^{2} $$ (i = 1, \cdots, n) $的极限为零.在异方差情况下, 当矩阵$ G_{n} $的所有对角线元素相等时, 该条件得到满足.在某些特殊情况下, $ G_{n} $矩阵中的常数对角线元素可以成立, 例如:对于一个“圆形"的世界, 其中单位排列在一个圆上, 使得最后一个个体单位$ n $有邻居$ 1 $$ (n-1) $, 个体$ 1 $有邻居$ 2 $$ n $, 等等.如果我们给相同单位的每个邻居分配同等的权重时, 那么$ G_{n} $矩阵的对角线元素将是常数.“圆形"世界中的单位可以有更多的邻居, 只要每个单位有一些类似的邻居结构, $ G_{n} $矩阵的对角元素将是相同的.一般来说, 如果一些空间单元不具有类似的相邻结构, 就不会期望$ G_n $的对角线是一个常数. $ \lambda_0 $的MLE的不一致性也会导致$ \beta_0 $的MLE的不一致性:因为$ \hat{\lambda}_n $不一致, 所以$ \widehat{\beta}_{n}(\widehat\lambda_n) = \beta _{0}+(\lambda _{0}-\widehat{\lambda }_n) (X_{n}^{\prime }X_{n})^{-1}X_{n}^{\prime }G_{n}X_{n}\beta _{0}+o_p(1), $将不会收敛到$ \beta_{0} $.因此, 对于异方差未知的SAR模型, 由于$ \hat\lambda_n $不一致, 其MLE可能也不一致.

3 SAR模型的GMM估计

除了对SAR模型进行估计的QML方法外, 我们还有兴趣探索其他可能的估计方法.对于具有同方差扰动项的SAR模型, 如果扰动项不是正态分布, 则QMLE估计量的渐近有效性质不一定成立.因此, 探索其他可能的估计方法以提高相对于QML估计的渐近效率方面仍然是一个问题.对于具有未知异方差扰动项的SAR模型, 由于QML估计量甚至可能不一致, 有必要考虑能够提供一致估计的替代估计方法.针对这些问题, 我们提出了一种基于广义矩量估计的替代估计方法.建议的矩可能包括SAR模型可能的IV估计的线性矩, 其中空间滞后项$ W_nY_n $是内生的, 并与扰动项向量$ V_n $相关(Kelejian and Prucha (1998)). IV矩考虑了$ W_nY_n $$ V_n $的相关性, 但IV没有考虑到观察变量$ y_{ni} $在空间单元上的可能相关性.为了捕捉这种相关性, 我们建议除了使用线性矩外, 还使用二阶矩进行估计.这些矩的使用也可以通过ML或QML估计中的score向量来论证.

由方程$ {\partial\ln L_n\over\partial\sigma^2} = 0 $可知, 对于给定值$ \theta $, QMLE $ \hat\sigma_n^2(\theta) = {1\over n}V'_n(\theta)V_n(\theta) $.$ \hat\sigma_n^2(\theta) $代入对数似然函数的其它导数中, QMLE $ \hat\theta_{n} $可由以下两个矩方程来解得:

上述方程中, 第一部分源自于(IV)线性矩$ X'_nV_n(\theta) $$ [W_n S_n^{-1}(\lambda)X_n\beta]'V_n(\theta) $, 第二个分量基于二阶矩来捕捉因变量之间的相关性, 即使用$ V'_n(\theta)\left[W_n S_n^{-1}(\lambda) -{1\over n}{\rm tr}(W_n S_n^{-1}(\lambda))I_n\right] V_n(\theta) $来进行估计.这种直觉促使我们用2SLS估计SAR模型, 以及用线性矩和二阶矩进行GMM估计(Lee (2007)).

为了估计模型(2)中的SAR模型的$ k+1 $维参数$ \theta = (\lambda, \beta')' $, 考虑具有零迹的非随机$ n\times n $矩阵$ P_{1n}, \cdots, P_{mn} $.$ {\cal P}_{1n} = \{P_n : P_n\ \mbox{是}\ n\times n $的矩阵$ {\rm tr}(P_n) = 0\} $是具有零迹的非随机$ n\times n $矩阵的集合.因此, 这些$ P_{jn} $取自于$ {\cal P}_{1n} $.除了线性矩$ Q'_nV_n(\theta) $, 其中$ Q_n $由其列中的IV变量组成, 也是用矩函数$ (P_{jn}V_n(\theta))'V_n(\theta) $, $ j = 1, \cdots, m $.这些函数构成了一个矩向量,

$ \begin{equation} g_n(\theta) = (V'_n(\theta)P_{1n}V_n(\theta), \cdots, V'_n(\theta)P_{mn}V_n(\theta), V'_n(\theta)Q_n)'. \end{equation} $

用于GMM估计.对于线性矩, 显然$ E(Q'_nV_n) = Q'_nE(V_n) = 0 $.对于二阶矩, 对于任意常数$ n\times n $矩阵$ P_n $$ {\rm tr}(P_n) = 0, E((P_nV_n)'V_n) = E(V'_nP'_nV_n) = E(V'_nP_nV_n) = \sigma_0^2 {\rm tr}(P_n) = 0 $.因此, $ P_nV_n $$ V_n $不相关, 即$ ((P_nV_n)'V_n) = 0 $.这表明在真实值$ \theta_0 $处, $ E(g_n(\theta_0)) = 0 $.因此, $ g_n(\theta) $由有效的矩方程组成.令$ a_n $为一列矩阵, 其中每个矩阵具有满行秩而且行秩大于或等于$ \theta $的维度$ (k+1) $. GMM估计是$ \min_\theta g'_n(\theta)a'_na_ng_n(\theta) $.类似于其他GMM文献, $ a_n $的最优选择是$ a_n = \hat\Omega_n^{-1/2} $, 其中$ \hat\Omega_n $是矩$ g_n(\theta_0) $的方差矩阵$ \Omega_n $的一致估计量.由$ \min_\theta g'_n(\theta)\hat\Omega_n^{-1} g_n(\theta) $得到的GMM估计量$ \hat\theta_{o, n} $称为(可行)最优GMME (OGMME).对于线性矩和二阶矩$ ({\rm var})(g_n(\theta_0)) = \Omega_n $, 其中,

$ \begin{equation} \Omega_n = \begin{pmatrix} (\mu_4-3\sigma_0^4)\omega'_{nm}\omega_{nm} & \mu_3\omega'_{nm}Q_n \\ \mu_3 Q'_n\omega_{nm} & 0 \end{pmatrix} +\sigma_0^4 \begin{pmatrix} \Delta_{mn} & 0 \\ 0 & {1\over\sigma_0^2}Q'_nQ_n \end{pmatrix}, \end{equation} $

$ \omega_{nm} = [{\rm vec}_D(P_{1n}), \cdots, {\rm vec}_D(P_{mn})] $, 且$ \Delta_{mn} = [{\rm vec}(P'_{1n}), \cdots, {\rm vec}(P'_{mn})]'[ {\rm vec}(P^s_{1n}), \cdots, {\rm vec}(P^s_{mn})] $.

3.1 参数识别

在GMM估计框架中, 参数的(渐近)识别依赖于使用矩$ g_n(\theta) $进行估计.它要求对于足够大的$ n $, $ {\frac{1}{n}}E(g_n(\theta)) = 0 $$ \theta_0 $处有唯一解.对于利用公式(9)中的线性矩和二阶矩对SAR模型(2)进行估计, 从线性二阶矩方程中识别$ \theta_0 $的充分条件是: (i) $ \lim\limits_{n\to\infty}{1\over n}Q'_n (G_nX_n\beta_0, X_n) $具有满秩$ (k+1) $; 或(ii) $ \lim\limits_{n\to\infty}{1\over n}Q'_nX_n $具有满秩$ k $, 以及$ \lim\limits_{n\to\infty}{1\over n}[{\rm tr}(P_{1n}^sG_n), \cdots, {\rm tr}(P_{mn}^sG_n)]' $$ \left.\lim\limits_{n\to\infty}{1\over n}[{\rm tr}(G'_nP_{1n}G_n), \cdots, {\rm tr}(G'_nP_{mn}G_n)]'\right. $是线性无关的(Lee (2007)).

3.2 GMM及OGMM估计量的渐近分布

在扰动项、回归量、空间权矩阵和相关二阶矩阵的正则性条件下, 我们可以得到估计量的渐近性质.对于GMM估计, 由于由$ P_{1n} $得到的矩阵$ {\cal P}_{jn} $通常是$ W_n $的函数, 我们还假设它们的行范数和列范数都是一致有界的; 并且$ Q_n $的元素是一致有界的.正如我们前面提到的, 关于$ W_n $和相关矩阵的一致有界性假设保证了SAR模型的稳定性.在这些正则和识别条件下, 由$ \min_{\theta\in\Theta}g'_n(\theta)a'_na_ng_n(\theta) $导出的GMME $ \tilde\theta_n $$ \theta_0 $的一致估计.对于$ \tilde\theta_n $的渐近分布, 我们研究了$ {\partial g'_n(\tilde\theta_n)\over\partial\theta}a'_na_ng_n(\tilde\theta_n) = 0 $$ \theta_0 $的泰勒展开, $ \sqrt{n}(\tilde\theta_n-\theta_0) = -[{1\over n}{\partial g'_n(\tilde\theta_n)\over \partial\theta}a'_na_n{1\over n}{\partial g_n(\bar\theta_n)\over\partial\theta'}]^{-1} {1\over n}{\partial g'_n(\tilde\theta_n)\over\partial\theta}a'_n {1\over \sqrt{n}} a_n g_n(\theta_0), $其中$ \bar\theta_n $位于$ \tilde\theta_n $$ \theta_0 $之间.正如:

于是出现了$ {1\over n}{\partial g_n(\tilde\theta_n)\over\partial\theta'} = -{1\over n}D_n+o_P(1) $的结果, 其中,

$ \begin{equation} D_n = \left(\begin{array}{cccc} \sigma_0^2{\rm tr}(P_{1n}^sG_n) & \cdots & \sigma_0^2{\rm tr}(P_{mn}^sG_n) & (G_nX_n\beta_0)'Q_n \\ 0 & \cdots & 0 & X'_nQ_n \end{array} \right)'. \end{equation} $

根据线性二次函数的中心极限定理, $ {1\over\sqrt{n}}a_ng_n(\theta_0)\buildrel D\over\rightarrow N(0, \lim\limits_{n\to\infty}{1\over n}a_n\Omega_n a'_n) $.因此, $ \sqrt{n}(\tilde\theta_n-\theta_0)\buildrel D\over\rightarrow N(0, \Sigma), $其中

对于OGMM估计, 具有初始的一致估计量$ \hat\Omega_n $, 由$ \min_{\theta\in\theta}g'_n(\theta)\hat\Omega_n^{-1}g_n(\theta) $导出的可行的OGMME $ \tilde\theta_{o, n} $具有渐近分布

此外, 基于OGMME, 我们可以构造过度识别检验统计量, 它等于整体的拟合优度: $ g'_n(\tilde\theta_{o, n})\hat\Omega_n^{-1}g_n (\tilde\theta_{o, n}) \buildrel D\over\rightarrow \chi^2((m+k_x)-(k+1)), $其中$ k_x $是线性矩的个数, 矩的总个数为$ (m+k_x) $以及$ \theta = (\lambda, \beta')' $中未知参数的个数为$ (k+1) $.

3.3 相对效率和最优GMME (BGMME)

在线性矩(IVs)内, 最好的$ Q_n $$ Q_n^\ast = E(Z_n|X_n) = (G_nX_n\beta_0, X_n) $ (Lee (2003)).因为2SLSE是具有较少矩的GMM估计的特例, OGMME $ \tilde\theta_{o, n} $相对于2SLSE是有效的.剩下的问题是$ P_{jn} $的最优选择.对于$ V_n $$ N(0, \sigma_0^2I_n) $的情况, 最优二阶矩阵的选择相对比较容易.由于SAR模型的扰动项是服从正态分布的, 在公式(10)的$ \Omega_n $中涉及$ \mu_3 $$ \mu_4 $的方差矩阵分量是不相关的, 因此由公式(11)中的$ D_n $,

其中$ C_{mn} = [{\rm tr}(P_{1n}^sG_n), \cdots, {\rm tr}(P_{mn}^sG_n)] $.$ Q_n^\ast $代替$ Q_n $,

因为$ {\rm tr}(P_{jn}P_{ln}^s) = {1\over 2} {\rm tr}(P_{jn}^sP_{ln}^s) $, 所以$ \Delta_{mn} = {1\over 2}[{\rm vec}(P_{1n}^s) \cdots {\rm vec}(P_{mn}^s)]'[{\rm vec}(P_{1n}^s)\cdots {\rm vec}(P_{mn}^s)] $.$ P_{jn} $是从迹为零的$ {\cal P}_{1n} $中选取时, $ {\rm tr}(P_{jn}^sG_n) = {1\over 2}{\rm vec}'([G_n-{{\rm tr}(G_n)\over n}I_n]^s){\rm vec}(P_{jn}^s), $因此, 由广义Schwartz不等式, 我们有$ C_{mn}\Delta_{mn}^{-1}C'_{mn}\le {\rm tr}([G_n-{{\rm tr}(G_n)\over n}I_n]^s G_n). $因此, 在类$ {\cal P}_{1n} $中, $ [G_n-{{\rm tr}(G_n)\over n}I_n] $$ [G_nX_n\beta_0, X_n] $给出了IV函数的最优集合.在正态扰动下, 函数(5)中的SAR模型的对数似然是准确的, 因此MLE $ \hat\theta_{n} $, 现在记为$ \hat\theta_{n, ml} $, 将是渐近正态的.由公式(7)中的一阶条件, $ \hat\theta_{n, ml} $是由IVs $ [G_nX_n\beta_0, X_n] $构造的线性二阶矩的线性组合和以$ [G_n-{{\rm tr}(G_n)\ / n}I_n] $作为精确识别的线性矩和二阶矩来求解.因此, BGMME $ \tilde\theta_{b, n} $和MLE $ \hat\theta_{n, ml} $是渐近有效的.在正态扰动下, BGMME $ \tilde\theta_{b, n} $$ \sqrt{n}(\tilde\theta_{bn}-\theta_0)\buildrel d\over\rightarrow N(0, \Sigma_b) $, 其中,

它与MLE$ \hat\theta_{n, ml} $的渐近方差相同.

对于扰动项不是正态分布的情况, 最优线性二阶矩不太明显, 但它们确实存在, 如下所示.

3.4 具有同方差扰动项的SAR模型的最优线性二阶矩估计

通过GMM估计中矩的冗余性的试错法(trial by error, 见Breusch et al. (1999)), Liu et al. (2010)得出了显式的最优线性二阶矩.本节提供构造最优线性矩和二阶矩的分析方法.

我们正在考虑模型(2)中SAR模型$ Y_n = \lambda W_nY_n+X_n\beta+V_n $的估计问题.令$ \theta = (\lambda, \beta')' $为该SAR模型系数的向量.扰动项$ v_{ni} $的分布不受约束, 即不假定为正态分布, 只是要求具有零均值和同方差$ \sigma^2 $.由于我们对基于线性矩和二阶矩的GMM估计感兴趣, 我们想解析地推导出用于估计的最优线性矩和二阶矩.对于有正态扰动的模型, Lee (2007)给出了最优线性矩和二阶矩的存在性, Liu et al. (2010)也证实了它们的存在性, 即使扰动项可能是非正态的.然而, Liu et al. (2010)的最优线性矩和最优二阶矩的构造, 除了三阶扰动矩为零的情况外, 并不是解析的.具有非零三阶矩的非正态扰动下最优线性矩和最优二阶矩的存在性被Liu et al. (2010)证实, 但是, 它们的推导是通过对Breusch et al. (1999)冗余矩特性校正的试错法, 即给定一组可能的线性矩和二阶矩, 任何额外的线性二阶矩都是多余的.后者的线性矩和二阶矩将是最好的矩. Breusch et al. (1999)研究的冗余矩问题是基于比较使用全部矩条件和部分矩条件的GMME的极限方差.假设所有矩条件$ g_n(\theta) $可以分为两个子集, 也就是$ g_n(\theta) = (g'_{n1}(\theta), g'_{n2}(\theta))' $, 其中子集$ g_{n1}(\theta) $可以识别$ \theta_0 $.我们可以用OGMM和$ g_n $估计$ \theta_0 $, 也可以只用OGMM和$ g_{n1} $来估计. $ \min_\theta g'_n(\theta)\Omega^{-1}g_n(\theta) $, 其中$ \Omega $$ \sqrt{n} g_n(\theta_0) $的(极限)方差, 给出OGMME $ \tilde\theta_n $.另一方面, 基于$ g_{n1} $的OGMME, 记为$ \tilde\theta_{1n} $, 是由$ \min_\theta g'_{n1}(\theta)\Omega_{11}^{-1}g_{n1}(\theta) $给出的, 其中$ \Omega_{11} $$ \sqrt{n} g_{n1}(\theta_0) $的(极限)方差. $ \sqrt{n}(\tilde\theta_n-\theta_0) $$ \sqrt{n}(\tilde\theta_{1n}-\theta_{10}) $的(极限)方差分别为$ (D'\Omega^{-1}D)^{-1} $$ (D'_1\Omega_{11}^{-1} D_1)^{-1} $, 其中$ \mathop{\rm plim}\limits_{n\to\infty}{\partial g_{n}(\theta_0)\over\partial\theta'} = D = (D'_1, D'_2)' = \mathop{\rm plim}\limits_{n\to\infty}({\partial g'_{n1}(\theta_0)\over\partial\theta}, {\partial g'_{n2}(\theta_0)\over\partial\theta})' $.由二次划分(参见Ruud (2000)), 我们有:

因此, 给定$ g_{n1} $时, $ g_{n2} $的冗余由$ (D_2-\Omega_{21}\Omega_{11}^{-1} D_1)' (\Omega_{22}-\Omega_{21}\Omega_{11}^{-1}\Omega_{12})^{-1} (D_2-\Omega_{21}\Omega_{11}^{-1} D_1) = 0 $得出.此条件等价于:

$ \begin{equation} (D_2-\Omega_{21}\Omega_{11}^{-1} D_1) = 0. \end{equation} $

从而, 在基于这个特征寻找可能的最优线性二阶矩时, 我们寻找一组特定的线性二阶矩$ g_{n1} $和它们特定的$ \Omega_{11} $, 使任何额外的线性二阶矩$ g_{n2} $及其相应的协方差矩阵$ \Omega_{21} $$ g_{n1} $满足冗余条件(12).显然, 这种寻找最优(结果)的方法就是用试错.寻找最优结果的复杂性源于额外峰度$ (\mu_4-3\sigma_0^4) $的存在, 以及线性二阶矩的方差矩阵$ \Omega_n $中的三阶矩$ \mu_3 $不为零.对于$ \mu_3 = 0 $的特殊情况, Liu at al. (2010)给出了最优线性矩和最优二阶矩的解析推导.其思想是探索广义Schwartz不等式, 以获得方差矩阵的一个可能的尖锐的下界, 以期望能够构造相关的线性二阶矩, 使其GMME方差可能达到下界.这里, 我们解析和建设性地推导了估计一般SAR模型(2)的最优线性矩和二阶矩.

我们考虑了一个带有$ m $个带有零对角线的二阶矩阵$ P_{jn}, j = 1, \cdots, m $, $ d $个带有零迹的对角矩阵$ A_{jn} $$ (j = 1, \cdots, d) $, 以及具有有限个IV变量的IV矩阵$ Q_n $的GMM估计的一般框架.有了它们, 线性二阶矩向量为

$ \begin{equation} g_n(\theta) = (V'_n(\theta)P_{1n}V_n(\theta), \cdots, V'_n(\theta)P_{mn}V_n(\theta), V'_n(\theta)A_{1n}V_n(\theta), \cdots, V'_n(\theta)A_{dn}V_n(\theta), V'_n(\theta)Q_n)', \end{equation} $

其中$ V_n(\theta) = (I_n-\lambda W_n)Y_n-X_n\beta $.在真实参数向量$ \theta_0 $处, $ V_n = V_n(\theta_0) $.对于二次型的统计量, 当$ P_{jn} $的对角线为零时$ E(V'_n P_{jn}V_n) = \sigma_0 {\rm tr}(P_{jn}) = 0 $.对于迹为零的对角矩阵, 因为$ A_{jn} $的对角线上的迹为零, 所以$ E(V'_nA_{jn}V_n) = \sigma_0^2 {\rm tr}(A_{jn}) = 0 $.我们可以像文献Lee (2007)中那样从迹为零的二阶矩阵开始.然而, 由于技术上的原因, 同时考虑零对角线的二阶矩阵和零迹的对角线矩阵是可取的.对于SAR模型, 正如前文讨论过的, 如Lee (2007)等中得到了有限个具有零迹的线性和二阶矩的方差-协方差矩阵.这些具有对角线为零的二阶矩阵和零迹对角矩阵的二阶矩都是特殊的二阶矩.对于公式(13)中的矩, 在真实的$ \theta_0 $处, 如前面关于统计量的线性二次型统计量的章节所示, 我们有:

其中$ \omega_{nd} = [{\rm vec}_D(A_{1n}), \cdots, {\rm vec}_D(A_{dn})] $, $ \bar\Delta_{mn} = [{\rm vec}(P^{s}_{1n}), \cdots, {\rm vec}(P_{mn}^{s})]' [{\rm vec}(P_{1n}), \cdots, {\rm vec}(P_{mn})] $, 以及

对于从这些矩得到的的$ \theta_0 $的OGMM估计$ \tilde{\theta}_{o, n} $, 它的渐近方差是$ (\bar D'_n\bar\Omega_n^{-1}\bar D_n)^{-1} $, 其中,

其中$ B_n = [{\rm vec}(P_{1n}^s), \cdots, {\rm vec}(P_{mn}^s)]'{\rm vec}(G_n) $, $ C_n = [{\rm vec}(A_{1n}^s), \cdots, {\rm vec}(A_{dn}^s)]'{\rm vec}(G_n) $.

$ D_n = \left(\begin{array}{cccc} \sigma_0^2 C_n & 0 \\ Q'_n(G_nX_n\beta_0) & Q'_nX_n \end{array} \right) $, 则

其中$ \Omega_n = \left(\begin{array}{cccc} (\mu_{4}-3\sigma_0^4)\omega'_{nd}\omega_{nd} & \mu_{3}\omega'_{nd}Q_n\\ \mu_{3}Q'_n\omega_{nd} & 0 \end{array} \right) +\sigma_0^4 \left(\begin{array}{cccc} \Delta_{dn} & 0 \\ 0 & {1\over\sigma_0^2} Q'_nQ_n \end{array} \right) $.从这个结果可以看出, $ P_{jn} $的选择与$ A_{jn} $$ Q_n $的选择是分开的, 因为$ P_{jn} $的优化只是对$ B'_n\bar\Delta_{mn}^{-1}B_n $, 而$ A_{jn} $$ Q_n $的最优选择是从$ D'_n\Omega_n^{-1} D_n $的优化中得到.

在前述GMM估计中, 具有零对角线的经验二阶矩与线性IV统计量以及那些具有零迹的对角矩阵的二次统计量不相关.这些性质使最优矩的解析推导更容易处理.这种GMM设置不会失去它的普遍性, 因为一个具有零迹二阶矩阵的二阶矩可以被分割成两个二阶矩, 其中一个具有对角线为零的二阶矩阵, 另一个具有零迹的对角矩阵.这两个用于估计的二阶矩的最佳合用(optimum pooling)将导致GMM估计相对于那些具有零迹二阶矩阵的二阶矩渐近有效.

3.5 零对角线二阶矩阵的最优选择

最优零对角线二阶矩阵$ P_{jn} $的选择很简单, 因为它正如Lee (2007)中一样, 直接来自于Schwartz不等式. $ B_n $可以重写为:

其中$ {\rm Diag}(G_n) $表示$ G_n $的对角线元素构成的对角矩阵.这是因为$ P_{jn} $的对角线为零.因为$ {\rm tr}(P_{jn}^sP'_{kn}) = {\rm tr}(P_{jn}^sP_{kn}) $, 方差分量$ \bar\Delta_{mn} $可以用对称形式重写为:

因此, 由Schwartz不等式, 可以得到:

这个等式可以用一个单独的(最优)二阶矩阵$ P_n^\ast = G_n-{\rm Diag}(G_n) $得到, 它的对角线是零.

3.6 具有零迹对角矩阵的线性二阶矩的GMME的方差界

下面是一个著名的公式“二次分割(quadratic partition)" (如Ruud (2000)).令$ z = (z'_1, z'_2)' $是一个分块向量以及$ \Omega = \left(\begin{array}{cccc} \Omega_{11} & \Omega_{12} \\ \Omega_{21} & \Omega_{22} \end{array} \right) $是与$ z $维数相同的正定矩阵相一致的分割.然后,

由此得出, 通过二次分割,

其中$ H_n = (\mu_{4}-3\sigma_0^4)\omega'_{nd}\omega_{nd}+\sigma_0^4\Delta_{dn} -({\mu_{3}^2\over\sigma_0^2})\omega'_{nd}Q_n(Q'_nQ_n)^{-1}Q'_n \omega_{nd} $.

对于迹为零的对角矩阵$ A_n $, 它可以表示为$ A_n = {\rm {\rm Diag}}(a_n) $, 其中$ a_n = (a_{n1}, \cdots, a_{nn})' $满足$ \sum_{i = 1}^n a_{ni} = 0 $.因此, $ {\rm tr}(A_n^2) = a'_na_n $$ n $乘以$ a_n $的样本方差.只有一个对角矩阵$ A_n $的单一矩条件的情况对应于$ d = 1 $.对于这一情况, $ \omega_{nd} = a_n $, $ \Delta_{dn} = {\rm vec}'(A_n^s){\rm vec}(A_n) = {\rm tr}(A_n^s A_n) = 2 a'_na_n $.因此, $ (\mu_4-3\sigma^4)\omega'_{nd}\omega_{nd}+\sigma^4\Delta_{dn} = (\mu_4-\sigma^4)a'_na_n = \sigma^4(\eta_4-1)a'_na_n $, 其中$ \eta_4 = \mu_4/\sigma^4 $.所以,

以及

其中$ h_n = (\eta_4-1)^{1\over 2}(I_n -Q_n(Q'_nQ_n)^{-1}Q'_n)+ (\eta_4-1- \left({\mu_3\over\sigma^3}\right)^2)^{1\over 2} Q_n(Q'_nQ_n)^{-1}Q'_n $.注意到$ (\eta_4-1) $$ (\eta_4-1- ({\mu_3\over\sigma^3})^2) $是正的.因此$ h_n $是可逆的, 并且它的逆可简单地表示为:

更进一步, 因为$ {\rm tr}(A_n^sG_n) = {\rm tr}(A_n^s\tilde G_n) $$ A_n $有零迹, 其中$ \tilde G_n = G_n-{{\rm tr}(G_n)\over n}I_n $, 所以

以及

其中

以及

由此得出:

我们注意到, 在常向量$ l_n $$ Q_n $中的一个组成部分的设计下, 可以适当地替换一些项.例如$ Q_n(Q'_nQ_n)^{-1}Q'_n l_n = l_n $, $ (h_na_n)'l_n = a'_n h'_n l_n = \left(\eta_4-1-({\mu_3\over \sigma^3})^2\right)^{1\over 2}a'_n Q_n (Q'_nQ_n)^{-1} Q'_nl_n = (\eta_4- 1-({\mu_3\over \sigma^3})^2)^{1\over 2}a'_n l_n = 0 $, 这是因为$ \sum_{i = 1}^n a_{ni} = 0 $.由此得出$ (h_n a_n)'Q_n(Q'_nQ_n)^{-1}Q'_n(G_nX_n\beta) = (h_n a_n)'Q_n(Q'_nQ_n)^{-1}Q'_n{\widetilde {G_nX_n}}\beta $$ (h_n a_n)'Q_n(Q'_nQ_n)^{-1}Q'_nX_n = (h_n a_n)'Q_n(Q'_nQ_n)^{-1}Q'_n{\tilde X}_n, $其中$ {\tilde X}_n $的每一列等于$ X_n $的相应列减去其均值; 类似地, 从$ {G_nX_n} $可以得到$ \widetilde {G_nX_n} $.

通过Schwartz不等式得到一个上界, 我们将面临一个困难: $ {\rm vec}'_D({\tilde G_n}) (I_n-Q_n(Q'_nQ_n)^{-1} Q'_n) $.然而, 如果$ {\rm vec}'_D({\tilde G_n}) $已经是$ Q_n $的一个组成部分, 那么$ {\rm vec}'_D({\tilde G_n}) (I_n-Q_n(Q'_nQ_n)^{-1}Q'_n) = 0 $.因此, 搜索最优线性二阶矩的策略可以从$ {\rm vec}_D({\tilde G_n}) $作为$ Q_n $中的一个部分开始.当使用$ Q_n $中IV进行估计时, 可以把$ {\rm vec}_D({\tilde G_n}) $放进$ Q_n $作为一个额外的IV.有了扩展的IV列表, 相应的GMM估计的渐近方差不会变大, 但可能会得到改进.假设$ {\rm vec}_D({\tilde G_n}) $$ Q_n $的一个组成部分, 那么$ (I_n -Q_n(Q'_nQ_n)^{-1}Q'_n){\rm vec}_D({\tilde G_n}) = 0 $.因此$ {\rm vec}'_D({\tilde G_n})h_n^{-1} = \left(\eta_4-1- ({\mu_3\over\sigma^3})^2\right)^{-{1\over 2}}{\rm vec}'_D({\tilde G_n}) $并且:

有了上述结论, 可以得出$ (h_na_n)'k'_n = (h_na_n)'\tilde k'_n $, 其中,

因此, 在这种设计下,

由Schwartz不等式可以得出

前面的推导用$ d = 1 $来简化, 但它也适用于有限$ d $个对角矩阵的迹为零二阶矩的一般情形.对于一个有限的$ d $, 在前面的分析中的$ a_n $是维数$ n\times d $的矩阵.因此上面的上界为这些GMME提供了一个精度上界.

3.7 具有同质扰动的SAR模型的最优的$ a_n $$ Q_n $设计

本节给出了$ a_n $$ Q_n $的优化设计, 以达到精度上界.从前面推导的上界, 我们看到两个投影算子$ Q_n(Q'_nQ_n)^{-1}Q'_n $$ (h_na_n)[(h_na_n)'(h_na_n)]^{-1}(h_na_n)' $需要相互协调.因为$ a_n $的列和为零, 但是$ Q_n $的列可能不是, 需要扩展$ Q_n $以包含$ l_n $作为列(即IV)来满足以下需求, 即$ a_n $的列可以写成$ Q_n $的列的线性组合, 即$ a_n $位于$ Q_n $的列空间中.由于$ a_n $$ Q_n $具有这样的特性, $ Q_n(Q'_nQ_n)^{-1}Q'_n a_n = a_n $, 并且, 因此有$ (I_n-Q_n(Q'_nQ_n)^{-1}Q'_n)a_n = 0 $$ h_na_n = \left(\eta_4-1-({\mu_3\over \sigma^3})^2\right)^{1\over 2}a_n $.紧接着由此得出:

上述考虑启示我们以下的对于具有同质扰动的SAR模型的GMM估计的线性和二阶矩的最优选择.

1) 最优的$ a_n $$ a_n^\ast = [{\rm vec}_D({\tilde{G_n}}), \widetilde{G_nX_n\beta}, \tilde X_{n2}, \cdots, \tilde X_{nk}] $, 其中$ X_n = [l_n, X_{n2}, \cdots, X_{nk}] $.

2) 最优$ Q_n $可以是$ Q_n^\ast = [G_nX_n\beta, X_n, {\rm vec}_D({G_n})] $.

给定这些$ a_n^\ast $$ Q_n^\ast $, 我们有$ Q_n^\ast (Q_n^{\ast '}Q_n^\ast)^{-1}Q_n^{\ast '}a_n^\ast = a_n^\ast $, 因为$ {\rm vec}_D({\tilde{G_n}}) = {\rm vec}_D({G_n})-{{\rm tr} (G_n)\over n}l_n $$ \widetilde{G_nX_n\beta} = G_nX_n\beta - {1\over n}(l'_n G_{n}X_n\beta)l_n $.对于相应的最优

我们有$ (h_n^\ast a_n^\ast)[ (h_n^\ast a_n^\ast)'(h_n^\ast a_n^\ast)]^{-1}(h_n^\ast a_n^\ast)' = a_n^\ast (a_n^{\ast '}a_n^\ast)^{-1}a_n^{\ast '} $.更进一步, 有

另外$ Q_n^\ast (Q^{\ast '}_nQ_n^\ast)^{-1}Q_n^{\ast '}(G_nX_n\beta, X_n) = (G_nX_n\beta, X_n) $.因此, 我们得出结论这些$ a_n^\ast $$ Q_n^\ast $达到上界, 因此它们为GMM估计提供了渐近最优线性矩和二阶矩.

3.8 带有未知异方差的SAR模型的GMM估计

如前所述, 对于带有未知异方差的SAR模型, 当矩阵$ G_{n} $的对角元素不都相等且与那些未知扰动项的方差有经验(empirically)相关时, 其MLE可能不一致.因此, 另一种稳健估计是值得关注的.对于2SLS, 由于它仅利用扰动项的线性矩特性进行估计, 所以在异方差未知的情况下, 2SLSE可以是一致的.然而, 为了提高超过2SLS估计的估计效率, 适当地探索二阶矩可能是有用的.

考虑SAR模型$ Y_{n} = \lambda_{0}W_{n}Y_{n}+X_{n}\beta _{0}+V_{n} $, 它扩展了SAR模型(2), 因为$ V _{n} $的元素$ v_{ni} $与均值$ 0 $无关, 但方差$ \sigma _{ni}^{2} $$ (i = 1, \cdots, n) $是具有未知模式的异方差.如果扰动项$ v _{ni} $具有异方差, 当$ P_{n} $只有条件$ {\rm tr}(P_n) = 0 $时, $ E(V _{n}^{^{\prime }}P_{n}V _{n}) = {\rm tr}[P_{n}E(V _{n}V _{n}^{^{\prime }})] $并不一定为零, 因为$ E(V_nV'_n) $是一个对角线矩阵, 对角线上可能有不同的值.相反, 如果$ P_{n} $的对角线为零, 即$ i = 1, \cdots, n $, $ p_{n, ii} = 0 $, $ E(V _{n}^{^{\prime }}P_{n}V _{n}) = 0 $.这是因为$ E(V_nV'_n) $是一个对角矩阵, $ {\rm tr}[P_{n}E(V _{n}V _{n}^{^{\prime }})] = {\rm tr}[{\rm Diag}(P_{n})E(V _{n}V _{n}^{^{\prime }})] = 0 $.我们可以通过将$ V_{n} $中的每个组成成分从$ v_{ni} $$ P_{n}V _{n} $中相应的项$ P_{n, i.}V_n $中除去, 成功地保持$ P_{n}V_{n} $$ V _{n} $之间的不相关性, 其中$ P_{n, i.} $$ P_n $的第$ i $行.或者, 我们也可以通过一般二次形式的调整来激发对角线为零的$ P_n $的选择.设$ A_n $$ V'_nA_nV_n $中的一个二阶矩阵.同样地, 令$ \Sigma_{dn} = {\rm Diag}\{\sigma_{n1}^2, \cdots, \sigma_{nn}^2\} $, 其中$ \sigma_{ni}^2 = E(v_{ni}^2) $, $ i = 1, \cdots, n $.这个二次型的均值是$ E(V'_nA_nV_n) = {\rm {\rm tr}}(A_n E(V_nV'_n)) = {\rm tr}(A_n \Sigma_{dn}) = \sum_{i = 1}^n A_{n, ii}\sigma_{ni}^2 $.然而, 我们可以用$ V'_n {\rm Diag}(A_n)V_n $为等式右边的总体矩构造一个无偏经验矩, 因为$ E(V'_n{\rm Diag}(A_n)V_n) = {\rm tr}({\rm Diag}(A_n)\Sigma_{dn}) = \sum_{i = 1}^n A_{n, ii}\sigma_{ni}^2 $.因此将会得到经验二阶矩$ V'_n P_nV_n $, 其中$ P_n = A_n-{\rm Diag}(A_n) $.在SAR模型存在未知异方差的情况下, 其GMM估计可以基于一类具有零对角线的二阶矩阵$ {\cal P}_{2n} = \{P_n: {\rm Diag}(P_n) = 0\} $, 而不是更广泛的类$ {\cal P}_{1n} = \{P_n: {\rm tr}(P_n) = 0\} $.一组用于GMM估计的矩函数是$ g_{n}(\theta) = (V_{n}^{^{\prime}}(\theta)P_{1n}V_{n}(\theta), \cdots, $$ V_{n}^{^{\prime}}(\theta)P_{mn}V_{n}(\theta), V'_{n}(\theta)Q_{n})' $.

为了分析在$ {\cal P}_{2n} $下的GMM估计的稳健性, 我们对齐次扰动模型采用了GMM估计中的大部分正则性假设, 但对其进行了适当的修正以适应异方差设置.假设$ v_{ni} $是独立的, $ (0, \sigma_{ni}^{2}) $具有大于四阶的有限矩, 存在某个$ \eta>0 $使得$ \sup_{n, i}E|v_{ni}|^{4+\eta}<\infty $, 即对所有的$ n $$ i $一致有界. $ n\times k $维回归矩阵$ X_{n} $的元素是一致有界序列, $ X_{n} $具有满秩$ k $, 且$ \lim\limits_{n\rightarrow\infty}{1\over n} X_{n}^{\prime }X_{n} $存在并且是非奇异的. $ Q_{n} $的元素是一致有界的.为了模型的稳定性, 假设空间权矩阵$ \{W_{n}\} $和矩阵$ \{S_{n}^{-1}\} $的行范数和列范数是一致有界的.此外, 对角线为零的矩阵$ P_{jn} $的行范数和列范数也都是一致有界的.为了识别, 要么有1) $ \lim\limits_{n\rightarrow\infty}{1\over n} $$ Q_{n}^{\prime }(G_{n}X_{n}\beta_{0}, X_{n}) $具有满秩$ (k+1) $, 要么2) $ \lim\limits _{n\rightarrow\infty}{1\over n} $$ Q_{n}^{\prime}X_{n} $具有满秩$ k $, 并且$ \lim\limits_{n\rightarrow\infty}{1\over n}({\rm tr}(\Sigma_{dn}G_{n}^{s}P_{1n}), \cdots, {\rm tr}(\Sigma_{dn}G_{n}^{s}P_{mn}))^{\prime} $$ \lim\limits _{n\rightarrow\infty}{1\over n}({\rm tr}(\Sigma_{dn}G_{n}^{\prime}P_{1n}G_{n}), \cdots, {\rm tr} (\Sigma_{dn}G_{n}^{\prime}P_{mn}G_{n}))^{\prime} $是线性无关的.

对于任意两个对角为零的$ n $维方阵$ A_n = [a_{n, ij}] $$ B_n = [b_{n, ij}] $, 由于$ v_{ni} $的相互独立性, 有$ E(V'_nA_nV_n) = {\rm tr}(A_n\Sigma_{dn}) = 0 $, $ E(A_nV_n\cdot V'_nB_nV_n) = A_n {\rm vec}_D(B_n)\otimes \mu_{n3} = 0 $, 其中$ \mu_{n3} $$ V_n $的三阶矩向量; $ {\rm Var}(V'_nA_nV_n) = {\rm tr}[\Sigma_{dn}A_n\Sigma_{dn}(A'_n+A_n)] $, 且$ E(V'_nA_nV_n\cdot V'_nB_nV_n) = {\rm tr}[\Sigma_{dn} A_n\Sigma_{dn}(B'_n+B_n)] $ (Lin and Lee (2010)).异方差模型$ g_n(\theta_0) $中矩的方差和协方差可以用这些矩表示:

$ \min_{\theta\in\Theta}g'_{n}(\theta)a'_{n}a_{n}g_{n}(\theta) $得到的GMME $ \hat{\theta}_{n} $$ \theta_{0} $的一致估计量, 并且对未知的异方差具有稳健性.要获得$ \tilde\theta_n $的渐近分布, 通过对一阶条件$ {\partial g'_n(\hat\theta_n)\over\partial\theta}a'_na_ng_n(\tilde\theta_n) $$ \theta_0 $处的泰勒展开, 我们得到:

因为$ {\partial g_n(\theta)\over\partial\theta'} = -(P_{1n}^sV_n(\theta), \cdots, P_{mn}^sV_n(\theta), Q_n)'(W_nY_n, X_n) $, 通过LLN $ {1\over n}{\partial g_n(\tilde\theta_n)\over\partial\theta} = -{1\over n}D_n+o_P(1) $, 其中,

由线性二次型的CLT, 用$ c' $构成线性组合,

所以$ {1\over\sqrt{n}}a_ng_n(\theta_0) \buildrel D\over\rightarrow N(0, \lim\limits_{n\to\infty}{1\over n}a_n\Omega_n a'_n) $. $ \sqrt{n}(\hat\lambda_n-\lambda_0) $的渐近分布可从$ \sqrt{n}(\hat{\theta}_{n}-\theta _{0})\buildrel D\over\rightarrow N(0, \Gamma) $得到, 其中$ \Gamma = \lim\limits_{n\rightarrow\infty}{1\over n}(D'_{n}a'_{n}a_{n}D_{n})^{-1}D'_{n} a'_{n}a_{n}\Omega_{n}a'_{n}a_{n}D_{n}(D'_{n}a'_{n}a_{n}D_{n})^{-1} $.即使存在未知方差形式的扰动项, 也可能存在$ \Omega_{n} $的一致估计$ \hat\Omega_{n} $, 也即$ {1\over n}(\widehat{\Omega}_{n}-\Omega_{n}) = o_P(1) $, 给出可行的OGMME.选择$ a'_na_n = ({1\over n}\widehat{\Omega_{n}})^{-1} $, 可行的OGMME可以由$ \min_{\theta\in\Theta}g'_n(\theta) ({1\over n}\widehat{\Omega_{n}})^{-1}g_n(\theta) $给出. $ \hat{\Omega}_{n} $可以是$ \Omega_{n} $的估计, 由$ \hat{\Sigma}_{dn} $代替$ \Sigma_{dn} $, 其中$ \hat{\Sigma}_{dn} = {\rm Diag}\{\hat{v}_{n1}^{2}, \cdots, \hat{v}_{nn}^{2}\} $并且$ \hat{v}_{ni} $是用$ \hat{\theta}_{n} $估计$ \theta_0 $的模型的残差.这些是从White (1980)的渐近理论中得出的.首先, 我们可以一致地估计$ \Omega_{n} $中的$ {1\over n}Q_{n}^{^{\prime }}\Sigma_{dn}Q_{n} $, 但不能一致地估计涉及$ n $个未知数的$ \Sigma_{dn} $.因为$ {1\over n}Q'_{n}\Sigma_{dn}Q_{n} = {1\over n}\sum_{i = 1}^{n} \sigma_{ni}^{2}q'_{ni}q_{ni} $, 其中$ q_{ni} $$ Q_n $的第$ i $列, 所以用一致大数定律(uniform laws of large numbers)的论证, 我们可以得到$ {1\over n}\sum_{i = 1}^{n} \hat{v}_{ni}^{2}q'_{ni}q_{ni}- {1\over n}\sum_{i = 1}^{n}\sigma _{ni}^{2}q'_{ni}q_{ni} = o_P(1) $, 其中$ \hat v_{ni} $一致地估计$ v_{ni} $.棘手的部分是其他元素的估计, 因为它们牵涉到二阶矩函数.这些元素由$ {1\over n} $乘以$ n^{2} $项的总和组成.然而, $ P_{n} $的一致有界性保证了这些和的收敛性. $ {1\over n}\Omega_{n} $中这类元素的一般形式是$ {1\over n}\sum_{i = 1}^{n}\sum_{j = 1}^{n}P_{\Delta n, ij}\sigma_{ni}^{2}\sigma_{nj}^{2} $, 其中$ n\times n $维矩阵$ P_{\Delta n} = [P_{\Delta n, ij}] $, $ P_{\Delta n, ij} = P_{an, ij}(P_{bn, ij}+P_{bn, ji}) $$ P_{\Delta n, ii} = 0 $.由于$ P_{bn} $的行范数和列范数都是一致有界的, 因此它的元素都是一致有界的, 即存在一个常数$ c $, 使得对与所有的$ i, j $$ n $$ |P_{bn, ij}+P_{bn, ji}|\le c $.因此$ |P_{\Delta n, ij}|\le c|P_{an, ij}| $.因为$ P_{an} $的行范数和列范数都是一致有界的, 所以$ P_{\Delta n} $的行范数和列范数都是一致有界的.有了$ P_{\Delta n} $的这些一致有界性, 我们首先可以得到$ {1\over n}\sum_{i = 1}^{n}\sum_{j = 1}^{n}P_{\Delta n, ij}v_{ni}^{2}v_{nj}^{2}-{1\over n} \sum_{i = 1}^{n}\sum_{j = 1}^{n}P_{\Delta n, ij}\sigma_{ni}^{2}\sigma_{nj}^{2} = o_p(1) $, 当$ v_{ni}^{\prime} $被残差$ \widehat{v}_{ni}^{\prime} $替换时, 该收敛性成立, 即$ {1\over n}\sum_{i = 1}^{n}\sum_{j = 1}^{n}P_{\Delta n, ij}\widehat{v} _{ni}^{2}\widehat{v }_{nj}^{2}-{1\over n}\sum_{i = 1}^{n}\sum_{j = 1}^{n}P_{ \Delta n, ij}v _{ni}^{2}v _{nj}^{2} = o_{p}(1) $.详细的论证相对枯燥乏味, 内容可参考Lin and Lee (2010).因为$ {1\over n}\widehat{\Omega}_{n}-{1\over n}\Omega_{n} = o_p(1) $, 所以从$ \min_{\theta \in \Theta }g'_{n}(\theta)\hat{\Omega }_{n}^{-1}g_{n}(\theta) $中得到的可行的ORGMME $ \hat{\theta }_{o, n} $具有渐近分布$ \sqrt{n}(\hat{\theta}_{o, n}-\theta_{0})\buildrel D\over\rightarrow N(0, (\lim\limits_{n\rightarrow\infty}{1\over n}D'_{n}\Omega_{n}^{-1}D_{n})^{-1}) $.

因为没有更具体的结构, 未知的方差太过一般, 所以不可能选择最优的矩.如果每个方差都是一些变量的函数, 例如, 一个逆距离.可能会有一种非参数方法来一致估计方差函数, 即使非参数估计可能有一些较低的收敛速度, 然后人们可能会考虑使用估计的逆方差作为估计权重的估计方法(Robinson (1987)).

4 SAR模型的EL和GEL估计和检验

估计SAR模型的方法除了QML和GMM方法外, 另一种卓有成效的估计和检验方法是广义经验似然(GEL)法. GEL法最初主要是用于截面独立的样本.在某些情况下, OGMM估计可能出现严重的有限样本偏差(Altonji and Segal (1996)).但独立样本的GEL方法不存在偏差, 因为在OGMM中不需要最优权重, 虽然GEL和OGMM估计量可以渐近相等(在一阶情况下). GEL对时间序列研究有一定的扩展, 并且可以推广到分析鞅差数据.然而没有人认识到它也可以用于分析空间数据. Jin and Lee (2019)首次借助线性二阶矩的鞅差分表示采用GEL方法作为(线性) SAR模型GMM估计的替代方法, 因此GEL方法可以正式用于分析空间数据.

一个广义经验似然估计(GEL)具有形式:

$ \begin{equation} \min\limits_{\theta\in\Theta}\sup\limits_{\lambda_L\in \Lambda_n(\theta)} \sum\limits_{i = 1}^n \rho(\lambda'_L g_{ni}(\theta)), \end{equation} $

$ \hat\theta_{n, {\rm GEL}} $是GEL估计量, 其中$ g_{ni}(\theta) $是第$ i $个观测样本的矩条件向量, $ \Lambda_n(\theta) = \{\lambda_L: \lambda'_L g_{ni}(\theta)\in{\cal V}, i = 1, \cdots, n\} $, $ {\cal V} $是包含$ 0 $的开区间, $ \lambda_L $是矩的拉格朗日乘子向量, $ \rho(V) $$ {\cal V} $上的二次连续可微凹函数, 同时有$ \rho_1 = {{\rm d} \rho(0)\over {\rm d}v} = -1 $$ \rho_2 = {{\rm d}^2 \rho(0)\over {\rm d}^2 v} = -1 $. GEL方法给出了一类基于选定$ \rho(\cdot) $函数的估计量.其中, 经验似然(empirical likelihood, EL)有以下几种特殊情形:对于$ v<1 $, $ \rho(v) = \ln (1-v) $ (Owen (1991); Smith (1997)); 指数型倾斜似然(exponential tilting, ET)具有$ \rho(v) = -{\rm e}^v $ (Kitamura and Stutzer (1997), Smith (1997)); 连续更新广义矩法(continuous updating generalized method of moments, CUGMM)具有二次式$ \rho(v) = -{1\over 2} (v + 1)^2 $ (Hansen et al. (1996); Newey and Smith (2004)). EL方法在Owen (1991)中被引入用于研究独立样本的观测值.对于随机样本, 它可以被解释为非参数ML方法(Owen (1991))和广义最小对比估计方法(Kitamura (2007)). EL方法和GEL方法对分布假设是稳健的.它们在检验中具有一些类似于参数似然法的良好抽样性质.两步最优GMM估计, 通常需要第一步估计一个含有未知参数的最优加权矩阵, 而作为替代方法的EL估计量和GEL估计量是一步估计量.在有限样本中, 两步最优GMM法有较大的偏差, GEL方法估计优于GMM估计.它们是一致的, 并具有与两步最优GMM估计相同的渐近分布, 并且对于i.i.d.的样本观测, 它们改善了高阶性质(Newey and Smith (2004))——GEL估计从雅可比矩阵的估计来看不存在渐近偏差; 而EL进一步从二阶矩矩阵的估计中去除了偏差分量.这些特征都在CUGMM的估计中. CUGMM与相应GEL估计的相似性非常明显, 如下所示. CUGMM是$ \min_{\theta\in\Theta}g'_n(\theta) \Omega_n(\theta)^{-1} g_n(\theta) $, 其中$ \Omega_n(\theta) = {1\over n}\sum_{i = 1}^n g_{ni}(\theta)g'_{ni}(\theta) $以及$ g_n(\theta) = {1\over n}\sum_{i = 1}^n g_{ni}(\theta) $.对应的GEL有$ \rho(v) = -{1\over 2}(v+1)^2 $, 所以$ {1\over n}\sum_{i = 1}^n \rho(\lambda'_L g_{ni}(\theta)) = -{1\over 2}\lambda'_L \Omega_n(\theta)\lambda_L -\lambda'_L g_n(\theta)-{1\over 2} $, 以及对于$ \lambda_L $它的FOC是$ \Omega_n(\theta)\lambda_L+g_n(\theta) = 0 $.因此, 对给定$ \theta $, $ \lambda_L $的估计是$ \hat\lambda_{Ln}(\theta) = -\Omega_n(\theta)^{-1}g_n(\theta) $.通过替换, $ {1\over n}\sum_{i = 1}^n \rho(\hat\lambda'_{Ln}(\theta) g_{ni}(\theta)) = -{1\over 2}\hat\lambda'_{Ln}(\theta) \Omega_n(\theta)\hat\lambda_{Ln}(\theta) -\hat\lambda'_{Ln}(\theta) g_n(\theta) -{1\over 2} = {1\over 2}g'_n(\theta)\Omega_n(\theta)^{-1}g_n(\theta)-{1\over 2}, $因此, $ \min_\theta {1\over n}\sum_{i = 1}^n \rho(\hat\lambda'_{Ln}(\theta) g_{ni}(\theta)) = {1\over 2}[\min_\theta g'_n(\theta)\Omega_n(\theta)^{-1}g_n(\theta)-1] $.对于$ \theta_0 $, CUGMM估计量和具有二次函数$ \rho(\cdot) $的GEL估计量是相同的.

EL法和GEL法可以应用于检验与参数似然比统计量类似的问题, 参数似然比统计量是非负的, 并在原假设下服从渐近卡方分布. EL比检验和置信区域通常是Bartlett可校正的(DiCiccio et al. (1991)), 并且EL检验对于独立样本可以有一些有效性质(Bahadur效率(Otsu (2010))和大偏差的最优性性质(Kitamura (2001)). EL法和GEL法最初被认为用于研究独立的数据, 但也有一些尝试将它们推广到时间序列数据中(Anatolyev (2005)).对于时间序列, 一些作者研究了具有鞅结构的EL方法(Mykland (1995), 双重似然); 以及Chuang and Chan (2002)对带有扰动项的自回归模型开发了EL方法, 其扰动项形成了一个鞅差序列.通过Kelejian and Prucha (2001), 鞅过程对空间随机变量的重要性已经被认识到. Hall and Heyde (1980), Kelejian and Prucha (2001)等指出, 独立扰动项的线性二次型可以写成鞅差序列的和.他们通过研究鞅结构, 对独立扰动项的线性二次型建立了中心极限定理.因此EL和GEL方法对于基于线性二次统计量的鞅性质的线性模型的空间依赖数据的估计和检验是有用的(Jin and Lee (2019)).

对于线性矩和二阶矩, 将每个鞅差当作数据观测来处理, 我们可以建立EL和GEL目标函数来推导相应的估计和相关的检验统计量.对于带有未知异方差的模型, EL或GEL可以利用线性二阶梯度的外积得到方差和协方差, 所以不需要担心那些方差和协方差的复杂性, 以及可以用线性矩和二阶矩的显式估计来表示扰动项的三阶矩和四阶矩.对于模型(1)或(2)中SAR模型的估计, 我们考虑$ v_{ni} $的两种方差情况.在第一种情况下, $ v_{ni} $是同方差的; 在第二种情况下, $ v_{ni} $具有未知形式的异方差.如果模型中的扰动项$ v_{ni} $为i.i.d.的$ (0, \sigma_0^2) $, 则GMM估计的矩向量为:

其中$ V_n(\theta) = S_n(\lambda)Y_n+X_n\beta $, $ \theta = (\lambda, \beta', \sigma^2)' $$ k_\theta $-维向量, $ k_\theta = k_x + 2 $, 对$ l = 1, \cdots, m $, $ P_{ln} $$ n\times n $的非随机矩阵, $ Q_n $是列满秩为$ q $的IV变量的$ n\times q $维矩阵; 对于$ l = 1, \cdots, m $, $ P_{ln} $$ n $阶对称矩阵且线性独立.一般来说, 可以考虑线性二次型:

我们可以将$ {\cal Z}_n $重写为鞅差的和, $ {\cal Z}_n = {1\over n}\sum_{i = 1}^n\xi_{ni} $, 其中$ P_{ln} = [p_{ln, ij}] $以及$ b_{ln} = (b_{ln, i}) $, $ \xi_{ni} = [p_{1n, ii}(v^2_{ni}-\sigma_0^2)+2v_{ni}\sum_{j = 1}^{i-1} p_{1n, ij} v_{nj}+b_{1n, i}v_{ni}, \cdots, p_{mn, ii}(v^2_{ni}-\sigma_0^2)+2v_{ni}\sum_{j = 1}^{i-1} p_{mn, ij} v_{nj}+b_{mn, i}v_{ni}]. $定义$ \sigma $-$ {\cal F}_{n0} = \{0, \bar{\cal V}\} $, 其中$ \bar{\cal{V}} $是样本空间, $ {\cal F}_{ni} = \sigma(v_{n1}, \cdots, v_{ni}) $, $ 1\le i\le n $.因为$ {\cal F}_{n, i-1}\subseteq {\cal F}_{ni} $以及$ E(\xi_{ni}| {\cal F}_{n, i-1}) = 0 $, $ \{(\xi_{ni}, {\cal F}_{ni}): 1\le i\le n, n\ge 1\} $形成一个鞅差数组.因此, $ \xi_{ni}' $彼此不相关, $ {\cal Z}_n $的方差为$ {1\over n^2}\sum^n_{i = 1}E(\xi_{ni}\xi'_{ni}) $.$ Q'_n V_n(\theta) = \sum_{i = 1}^n Q'_{ni}v_{ni}(\theta) $, 其中$ Q_{ni} $$ Q_n $的第$ i $行, 并且$ V'_n(\theta)P_{ln}V_n(\theta)-\sigma^2 {\rm tr}(P_{ln}) = \sum_{i = 1}^n \omega_{nl, i}(\theta) $, 其中$ \omega_{nl, i}(\theta) = p_{ln, ii}[v^2_{ni}(\theta)-\sigma^2]+2v_{ni}(\theta)\sum_{j = 1}^{i-1} p_{ln, ij}v_{nj}(\theta) $.接下来, $ g_n(\theta) = {1\over n}\sum_{i = 1}^n g_{ni}(\theta) $, 其中对$ i = 1, \cdots, n $, $ g_{ni}(\theta_0) = (\omega_{n1, i}(\theta_0), \cdots, \omega_{nm, i}(\theta_0), v_{ni}(\theta_0)Q_{ni})' $. $ g_n(\theta_0) $的方差为$ {1\over n^2}\sum_{i = 1}^n E[g_{ni}(\theta_0) g'_{ni}(\theta_0)] $.我们注意到, 对于GEL方法, 我们希望联合估计模型中包括$ \sigma^2 $在内的所有参数, 而不是仅估计GMM方法中的$ \sigma^2 $以外的结构参数.之所以如此, 是因为需要将$ g_n(\theta) $中的每一项$ g_{ni}(\theta) $分别分配到函数$ \rho(\lambda'_L g_{ni}(\theta)) $中, 然后形成样本GEL目标函数$ \sum_{i = 1}^n \rho(\lambda'_L g_{ni}(\theta)) $而不是用样本均值$ g_n(\theta) $.在GEL目标函数中, 对每个$ i $都需要有$ E(g_{ni}(\theta_0)) = 0 $, 而不是简单地让样本均值$ E(g_n(\theta_0)) = 0 $.在存在未知异方差的情况下, 正如在Kelejian and Prucha (2010)Lin and Lee (2010), 为了得到有效的矩条件, 我们可以选择令所有$ {\cal P}_{2n} $中的$ P_{ln} $的对角线为零.这样的$ P_{ln} $可以是$ W_n $, $ W_n^2-{\rm Diag}(W_n^2) $等.矩向量可以是$ g_n(\theta) = {1\over n}[V'_n(\theta)P_{1n}V_n(\theta), \cdots, V'_n(\theta)P_{mn}V_n(\theta), V'_n(\theta)Q_n]' $.因为$ P_{ln} $的对角线为零以及$ \Sigma_{dn} = {\rm Diag}(\sigma_1^2, \cdots, \sigma_n^2) $, 所以$ P_{ln}\Sigma_{dn} $的对角线为零, 因此$ E(V'_nP_{ln}V_n) = {\rm tr}(P_{ln}\Sigma_{dn}) = 0 $.

为了证明GEL估计和检验的渐近性质, 假设通常的稳定正则性和矩条件, 即1)要么(i) $ v_{ni} $是i.i.d. $ (0, \sigma_0^2) $的, 以及对某些$ \iota > 0 $$ E(|v_{ni}|^{4+\iota}) < \infty $; 或者(ii) $ v_{ni} $是独立的$ (0, \sigma_{ni}^{2}) $, 以及$ {\rm sup}_n {\rm sup}_{1\le i\le n} E(|v_{ni}|^{4+\iota}) < \infty $成立; 2)$ X_n $的元素是一致有界常数, 且$ \lim\limits_{n\to\infty}{1\over n}X'_nX_n $存在且非奇异; 3) (i) $ W_n $对角线为零; (ii) $ S_n $是非奇异的; 和(iii)矩阵序列$ \{W_n\} $$ \{S^{-1}_n(\theta)\} $$ \theta $上的行范数和列范数都一致有界; 4)在$ k_\Theta $维欧氏空间中, $ \theta_0 $在紧参数空间$ \Theta $的内部; 以及5) $ \rho(v) $$ {\cal V} $上是凹的, 在0的邻域上是连续二阶可微的, 并且$ \rho_1 = \rho_2 = -1 $.

4.1 一致性和渐近分布

在正则性条件和同方差异方差情况的识别条件下, Jin and Lee (2019)证明了: 1) $ \hat\theta_{n, {\rm GEL}}\buildrel p\over \rightarrow \theta_0 $, 以及$ g_n(\hat\theta_{n, {\rm GEL}}) = O_p(n^{-1/2}) $; 2) $ \hat\lambda_{n, {\rm GEL}} = {\rm \arg\max}_{\lambda_L\in\Lambda_n(\hat\theta_{n, {\rm GEL}})} {1\over n}\sum_{i = 1}^n \rho(\lambda'_Lg_n(\hat\theta_{n, {\rm GEL}})) $存在的概率接近1, 并且3) $ \hat\lambda_{n, {\rm GEL}} = O_p(n^{-1/2}) $.对于GEL估计量的渐近分布, 假设$ \lim\limits_{n\to\infty}E ({\partial g'_n(\theta_0)\over\partial\theta}) $具有满(行)秩.令$ \gamma = (\theta', \lambda'_L)' $以及$ \gamma_0 = (\theta'_0, 0)' $.那么, 对于同方差的或异方差的情况,

$ \begin{equation} \sqrt{n}(\hat\gamma_{n, {\rm GEL}}-\gamma_0)\buildrel d\over \rightarrow N\left(0, \lim\limits_{n\to\infty}{\rm diag}(\bar\Sigma_n, \bar D_n)\right), \end{equation} $

其中$ {\rm diag}(\bar\Sigma_n, \bar D_n) $是一个由$ \bar\Sigma_n = [E({\partial g'_n(\theta_0)\over\partial\theta})\bar\Omega_n^{-1} E({\partial g_n(\theta_0)\over\partial\theta'})]^{-1} $$ \bar D_n = \bar\Omega_n^{-1}-\bar\Omega_n^{-1}E({\partial g'_n(\theta_0)\over\partial\theta}) \bar\Sigma_n E({\partial g_n(\theta_0)\over\partial\theta'})\bar\Omega_n^{-1}, $组成的分块对角矩阵, 并且假设对足够大的$ n $, $ \bar \Omega_n = E(\Omega_n) $是非奇异的.

4.2 随机展开和高阶渐近偏差

人们可以比较GEL估计量和OGMM估计量的性质.令$ \Omega_n(\theta) = {1\over n}\sum_{i = 1}^n g_{ni}(\theta)g'_{ni}(\theta) $, $ \Omega_n = \Omega_n(\theta_0) $以及$ \tilde\theta_n $$ \theta $的一个初始一致估计.一种可行的OGMM (FOGMM)估计是$ \hat\theta_{n, {\rm OGMM}} = {\rm arg}\min_{\theta\in\Theta}g'_n(\theta)\Omega_n^{-1}(\tilde \theta_n) g_n(\theta) $.为了实现FOGMM, 假设初始估计$ \tilde\theta_n $来自$ {\rm min}_{\theta\in \Theta}g'_n(\theta) \hat J_n^{-1} g_n(\theta) $, 其中正如Newey and Smith (2004)中所提到的, 我们假设$ \hat J_n = \bar J_n +n^{-1/2}\xi^J_n+O_p(n^{-1}) $, 其中$ {\bar J}_n $是一个非随机正定矩阵, 因为它的正则性条件, $ \lim\limits_{n\to\infty}{\bar J}_n $是非奇异的, $ \xi_n^J = O_p(1) $以及$ E(\xi_n^J) = 0 $.从GEL估计量的渐近分布来看, GEL和FOGMM很明显是渐近等价的(在一阶情况下).然而它们可能有不同的高阶渐近偏差.

为了研究GMM和GEL估计量的高阶渐近偏差, 我们推导了$ \gamma_0 $$ \sqrt{n} $-一致估计量$ \hat\gamma_n $的Nagar型展开式(Nagar (1959)), 它具有如下形式:

$ \begin{equation} \sqrt{n}(\hat\gamma_n -\gamma_0) = \xi_n + n^{-1/2}\psi_n + O_p(n^{-1}), \end{equation} $

其中$ \xi_n = O_p(1) $, $ E(\xi_n) = 0 $, $ \psi_n = O_p(1) $.估计量的高阶偏差$ \hat\gamma_n $可以计算为$ {1\over n} E(\psi_n) $.随机展开要求扰动项的高阶矩的存在, 使得$ \sup_n \sup_{1\le i\le n} E|v_{ni}|^8 <\infty $. (16)式中的Nagar型展开适用于矩的FOGMM估计量$ \hat\gamma_{n, {\rm GMM}} = (\hat\theta'_{n, {\rm GMM}}, \hat\lambda'_{n, {\rm GMM}})' $, 这些矩是为同方差情形或异方差情形设计的, 其中$ \hat\lambda_{n, {\rm GMM}} = -\Omega_n^{-1}(\tilde\theta_n) g_n(\hat\theta_{n, {\rm GMM}}) $为已定义的辅助参数向量.在同方差和异方差的情况下, 展开式对GEL估计量$ \hat\gamma_{n, {\rm GEL}} $也成立.如Jin and Lee (2019)所示, 与i.i.d.样本情况相反, GEL仅部分地消除了$ G_n $$ g_n $之间相关性的渐近偏差, 其中$ G_n = {\partial g_n(\theta_0)\over\partial\theta'} $以及$ g_n = g_n(\theta_0) $.更详细地定义$ g_{ni} = g_{ni}(\theta_0) $, $ \Omega_n = \Omega_n(\theta_0) $, $ \bar G_n = E(G_n) $, $ \bar G_n^{(l)} = E({\partial G_n(\theta_0)\over \partial\theta_l}) $以及$ g_{ni}^{(l)} = {\partial g_{ni}(\theta_0)\over\partial\theta_l} $, $ l = 1, \cdots, k_\theta $并且$ e_{k_\theta, l} $$ k_\theta\times k_\theta $的单位矩阵的第$ l $列.

在高阶渐近展开式下, FOGMM估计量$ \hat\theta_{n, {\rm GMM}} $的偏差为:

其中$ B^I_n = \bar H_n E(G_n\bar H_n g_n)-{1\over 2n}\sum_{l = 1}^{k_\theta}\bar H_n \bar G^{(l)}_n \bar\Sigma_n e_{k_\theta, l} $, $ B^G_n = -\bar\Sigma_n E(G'_n\bar D_ng_n) $, $ B^\Omega_n = \bar H_n E(\Omega_n\bar D_n \\ g_n) $, 以及

其中$ \bar H_n = (\bar G'_n\bar \Omega_n^{-1}\bar G_n)^{-1} \bar G'_n\bar\Omega_n^{-1} $$ \bar H^J_n = (\bar G'_n\bar J^{-1}_n\bar G_n)^{-1}\bar G'_n\bar J_n^{-1} $.在这些结果中, $ B^I_n $是经验矩$ g_n(\theta_0) $的具有最优线性组合$ \bar G'_n\bar\Omega_n^{-1}g_n(\theta_0) $的GMM估计的渐近偏差; $ B^G_n $由估计$ \bar G_n $产生; $ B^\Omega_n $来自于估计具有经验方差$ \Omega_n $的二阶矩矩阵$ \bar\Omega_n $; $ B^J_n $由初始GMM估计量的选择产生.对于GEL估计量, 其偏差为:

其中$ \tilde B^G_n = -{1\over n^2}\bar\Sigma_n\sum^n_{i = 1}E(G'_{ni}\bar D_n g_{ni}) $, $ G_{ni} = {\partial g_{ni}(\theta_0)\over\partial\theta'} = [g^{(1)}_{ni}, \cdots, g^{(k_\theta)}_{ni}] $; $ \rho_3 = {\rm d}^3\rho(0)/{\rm d}v^3 $$ \rho(v) $$ v = 0 $时的三阶导数, 以及$ \tilde B_n^\Omega = {1\over n^2}\sum^n_{i = 1}\bar H_n E(g_{ni}g'_{ni}\bar D_n g_{ni}) $.由于$ g_{ni}(\theta_0)' $$ i $上不是独立的, 一般而言$ B^G_n\not = \tilde B^G_n $以及$ B_n^\Omega\not = \tilde B^\Omega_n $.与i.i.d.数据的情况不同, GEL估计的偏差不会减少到$ B^I_n +B_n^{\Omega} + {\rho_3\over 2} \tilde B_n^\Omega $, 并且对于$ \rho_3 = -2 $的EL不进一步减少为$ B_I^n $. GEL只部分地消除了$ G_n(\theta_0) $$ G_n(\theta_0) $之间相关性的渐近偏差, 这一结论与Anatolyev (2005)在平稳时间序列模型中的结论相似.

4.3 空间依赖性的Moran $ I $检验

对于一个简单的检验示例, 考虑简单SAR过程$ Y_n = \lambda W_nY_n + V_n $空间相关性的Moran检验.在没有空间相关性的原假设$ H_0 $下, $ Y_n = V_n $, 二次型表示为$ Y'_nW_nY_n = V'_nW_nV_n = \sum_{j = 1}^nZ_{nj} $, 其中$ Z_{n, i} $是一个MDA(鞅差数组). Moran检验可以写成GEL框架的比率检验统计量

其中$ \rho(\cdot) $是一个二次连续可微凹函数.在这种情况下, 比率检验统计量依分布收敛到$ \chi^2(1) $.即使$ v_{ni} $是异方差的, 这个比率检验统计量也是有效的, 因为MDA的异方差已经内化在GEL公式中.这种内化特征可以很容易以二次函数$ \rho(v) = -{1\over 2}(v+1)^2 $作为例子来说明.在这个例子中, $ {1\over n}\sum_{i = 1}^n \rho(\lambda_L g_{ni}) = -{1\over 2}\Omega_n\lambda_L^2 -\lambda_L g_n-{1\over 2} $, 其中$ g_{ni} = Z_{ni} $$ g_n = {1\over n}\sum_{i = 1}^n g_{ni} $. $ \lambda_L $的FOC为$ \Omega_n\lambda_L+g_n = 0 $, 其中$ \Omega_n = {1\over n}\sum_{i = 1}^n g_{ni}g'_{ni} $. $ \lambda_L $的GEL估计为$ \hat\lambda_{Ln} = -\Omega_n^{-1}g_n $.通过替换, $ {1\over n}\sum_{i = 1}^n \rho(\hat\lambda_{Ln} g_{ni}) = -{1\over 2}\hat\lambda_{Ln} \Omega_n\hat\lambda_{Ln}-\hat\lambda_{Ln} g_n -{1\over 2} = {1\over 2}g_n\Omega_n^{-1}g_n-{1\over 2} $, 所以

一般来说, 对于其他$ \rho(\cdot) $函数, 我们可以通过泰勒展开证明:

由于$ g_{ni} = Z_{ni} $, 因此$ g_{ni} $具有鞅差分性质. $ \Omega_n = {1\over n}\sum_{i = 1}^n g_{ni}g'_{ni} $的逆给出了经验矩$ {1\over \sqrt{n}}\sum_{i = 1}^ng_{ni} $的适当权重.对于所有样本量, 得到的检验统计量都是非负的, 并且渐近服从$ \chi^2(1) $分布.无论模型是具有同方差还是异方差, GEL框架中的Moran检验都是稳健的, 而传统的Moran检验统计量公式对于同方差或异方差是不同的.

5 结论和其他专题

本文提出了空间计量经济学中最流行的空间自回归模型, 并讨论了估计和推断的经典方法. SAR模型为线性模型.研究估计量渐近性质的基本工具是基于线性二次统计量的鞅中心极限定理.鞅差分设定适合于SAR模型的经验似然(EL)或广义经验似然(GEL)方法.

虽然所提出的SAR模型是空间计量经济学中用于分析截面空间数据的重要模型, 但由于篇幅限制, 许多重要的发展未被揭示.提出的SAR模型只有一个空间滞后项, 但它可以被扩展到有多个空间滞后项的形式上, 每一个滞后项都可能捕捉不同的因素, 例如, 其中一种空间权重矩阵可以基于地理距离, 但另一种可能基于经济相似性或距离(Lee and Liu (2010)).所提出的SAR模型只有一个因变量, 但它可以扩展为具有多元因变量的方程组, 也可以扩展为联立方程组(Yang and Lee (2017)).空间计量模型的扩展可能包括面板数据和动态面板的空间分析模型, 其中动态情况可能涉及非平稳性和协整性.空间协整模型已经被应用于研究中国历史上(即清代中期)的大米价格(Lee and Yu (2010)).虽然SAR模型可以被证明是一个静态的完全信息博弈模型, 但动态(微分)博弈也可以被描述为参与者在理性预期下考虑未来事件和决策(Hanbat and Lee (2020)).除了线性空间模型的研究之外, 非线性空间计量模型及其估计的计量问题的研究也在进行.近年来在空间计量经济学领域学者们发展了一些渐近理论.空间混合(spatial mixing)和近期相依性(near epoch dependence)理论也已经或正在发展(Jenish and Prucha $ (2009, 2012) $).它们可以应用于分析非线性空间模型, 如空间Tobit模型(Xu and Lee (2018))和空间样本选择模型等, 也可以应用于基于内生空间矩阵的SAR模型(Qu, Lee and Yu (2017)).

最后, 我们想指出的是, 当前经济学中一些前沿研究课题是很有趣的, 其中包括: COVID-19病毒大流行、金融股票市场溢出问题、国际贸易流动.从计量经济学的角度来看, 这些问题需要处理不可观察的因变量、方差中的溢出效应和具有多重下标的因变量.

参考文献

Anatolyev S

GMM, GEL, Serial Correlation, and Asymptotic Bias

Econometrica 2005 73 983 1002

Anatolyev S, (2005). GMM, GEL, Serial Correlation, and Asymptotic Bias[J]. Econometrica, 73: 983-1002.

DOI      [本文引用: 2]

Altonji J G Segal L M

Small-sample Bias in GMM Estimation of Covariance Structures

Journal of Business and Economic Statistics 1996 14 353 366

Altonji J G, Segal L M, (1996). Small-sample Bias in GMM Estimation of Covariance Structures[J]. Journal of Business and Economic Statistics, 14: 353-366.

[本文引用: 1]

Anselin L, Bera A, (1998). Spatial Dependence in Linear Regression Models with an Introduction to Spatial Econometrics[M]//Ullah A, Giles D.Handbook of Applied Economic Statistics. New York: Marcel Dekker: 237-289.

[本文引用: 1]

Born B Breitung J

Simple Regression-based Tests for Spatial Dependence

The Econometrics Journal 2011 14 330 342

Born B, Breitung J, (2011). Simple Regression-based Tests for Spatial Dependence[J]. The Econometrics Journal, 14: 330-342.

DOI      [本文引用: 1]

Brock W, Durlauf S N, (2001). Interactions-based Models[M]//Heckman J, Leamer E. Handbook of Econometrics. Amsterdam: North-Holland.

[本文引用: 1]

Breusch T Qian H Schmidt P Wyhowski D

Redundancy of Moment Conditions

Journal of Econometrics 1999 91 89 111

Breusch T, Qian H, Schmidt P, Wyhowski D, (1999). Redundancy of Moment Conditions[J]. Journal of Econometrics, 91: 89-111.

DOI      [本文引用: 3]

Calvo-Armengol A. Patacchini E Zenou Y

Peer Effects and Social Networks in Education

Reivew of Economic Studies 2009 76 1239 1267

Calvo-Armengol A. Patacchini E, Zenou Y, (2009). Peer Effects and Social Networks in Education[J]. Reivew of Economic Studies, 76: 1239-1267.

DOI      [本文引用: 1]

Chuang C S Chan N H

Empirical Likelihood for Autoregressive Models, with Applications to Unstable Time Series

Statistica Sinica 2002 12 387 407

Chuang C S, Chan N H, (2002). Empirical Likelihood for Autoregressive Models, with Applications to Unstable Time Series[J]. Statistica Sinica, 12: 387-407.

[本文引用: 1]

DiCiccio T Hall P Romano J

Empirical Likelihood is Bartlett-correctable

Annal of Statistics 1991 19 1053 1061

DiCiccio T, Hall P, Romano J, (1991). Empirical Likelihood is Bartlett-correctable[J]. Annal of Statistics, 19: 1053-1061.

DOI      [本文引用: 1]

Elhorst J P

Applied Spatial Econometrics:Raising the Bar

Spatial Economic Analysis 2010 5 9 28

Elhorst J P, (2010). Applied Spatial Econometrics:Raising the Bar[J]. Spatial Economic Analysis, 5: 9-28.

DOI      [本文引用: 1]

Hall P Heyde C Martingale Limit Theory and Its Applications New York Academic Press 1980

Hall P, Heyde C, (1980). Martingale Limit Theory and Its Applications[M]. New York:Academic Press.

[本文引用: 1]

Hanbat J Lee L F

Spatial Dynamic Models with Intertemporal Optimization:Specification and Estimation

Journal of Econometrics 2020 218 82 104

Hanbat J, Lee L F, (2020). Spatial Dynamic Models with Intertemporal Optimization:Specification and Estimation[J]. Journal of Econometrics, 218: 82-104.

DOI      [本文引用: 1]

Hansen L P Heaton J Yaron A

Finite-sample Properties of Some Alternative GMM Estimators

Journal of Business and Economic Statistics 1996 14 262 280

Hansen L P, Heaton J, Yaron A, (1996). Finite-sample Properties of Some Alternative GMM Estimators[J]. Journal of Business and Economic Statistics, 14: 262-280.

[本文引用: 1]

Hillier G Martellosio F

Exact and High-order Properties of the MLE in Spatial Autoregressive Models, with Applications to Inference

Journal of Econometrics 2018 205 402 422

Hillier G, Martellosio F, (2018). Exact and High-order Properties of the MLE in Spatial Autoregressive Models, with Applications to Inference[J].Journal of Econometrics, 205: 402-422.

DOI      [本文引用: 1]

Jenish N Prucha I R

Central Limit Theorems and Uniform Laws of Large Numbers for Arrays of Random Fields

Journal of Econometrics 2009 150 86 98

Jenish N, Prucha I R, (2009). Central Limit Theorems and Uniform Laws of Large Numbers for Arrays of Random Fields[J]. Journal of Econometrics, 150: 86-98.

DOI     

Jenish N Prucha I R

On Spatial Processes and Asymptotic Inference under Near-epoch Dependence

Journal of Econometrics 2012 170 178 190

Jenish N, Prucha I R, (2012). On Spatial Processes and Asymptotic Inference under Near-epoch Dependence[J]. Journal of Econometrics, 170: 178-190.

DOI     

Jin F Lee L F

Outer-product-of-gradients Tests for Spatial Autoregressive Models

Regional Science and Urban Economics 2018 72 35 57

Jin F, Lee L F, (2018). Outer-product-of-gradients Tests for Spatial Autoregressive Models[J]. Regional Science and Urban Economics, 72: 35-57.

DOI      [本文引用: 1]

Jin F Lee L F

GEL Estimation and Tests of spatial Autoregressive Models

Journal of Econometrics 2019 208 585 612

Jin F, Lee L F, (2019). GEL Estimation and Tests of spatial Autoregressive Models[J]. Journal of Econometrics, 208: 585-612.

DOI      [本文引用: 5]

Kelejian H H Prucha I R

A Generalized Spatial Two-stage Least Squares Procedure for Estimating a Spatial Autoregressive Model with Autoregressive Disturbances

Journal of Real Estate Finance and Economics 1998 17 99 121

Kelejian H H, Prucha I R, (1998). A Generalized Spatial Two-stage Least Squares Procedure for Estimating a Spatial Autoregressive Model with Autoregressive Disturbances[J]. Journal of Real Estate Finance and Economics, 17: 99-121.

DOI      [本文引用: 1]

Kelejian H H Prucha I R

On the Asymptotic Distribution of the Moran I Test Statistic with Applications

Journal of Econometrics 2001 104 219 257

Kelejian H H, Prucha I R, (2001). On the Asymptotic Distribution of the Moran I Test Statistic with Applications[J]. Journal of Econometrics, 104: 219-257.

DOI      [本文引用: 4]

Kelejian H H Prucha I R

Specification and Estimation of Spatial Autoregressive Models with Autoregressive and Heteroskedastic Disturbances

Journal of Econometrics 2010 157 1 53 67

Kelejian H H, Prucha I R, (2010). Specification and Estimation of Spatial Autoregressive Models with Autoregressive and Heteroskedastic Disturbances[J]. Journal of Econometrics, 157(1): 53-67.

DOI      [本文引用: 2]

Kitamura Y Stutzer M

An Information-theoretical Alternative to Generalized Method of Moments Estimation

Econometrica 1997 65 861 874

Kitamura Y, Stutzer M, (1997). An Information-theoretical Alternative to Generalized Method of Moments Estimation[J]. Econometrica, 65: 861-874.

DOI      [本文引用: 1]

Kitamura Y

Asymptotic Optimality of Empirical Likelihood for Testing Moment Restrictions

Econometrica 2001 69 1661 1672

Kitamura Y, (2001). Asymptotic Optimality of Empirical Likelihood for Testing Moment Restrictions[J]. Econometrica, 69: 1661-1672.

DOI      [本文引用: 1]

Lee L F

Best Spatial Two-stage Least Squares Estimators for a Spatial Autoregressive Model with Autoregressive Disturbances

Econometric Reviews 2003 22 307 335

Lee L F, (2003). Best Spatial Two-stage Least Squares Estimators for a Spatial Autoregressive Model with Autoregressive Disturbances[J]. Econometric Reviews, 22: 307-335.

DOI      [本文引用: 1]

Lee L F

Asymptotic Distributions of Quasi-maximum Likelihood Estimators for Spatial Autoregressive Models

Econometrica 2004 72 1899 1925

Lee L F, (2004). Asymptotic Distributions of Quasi-maximum Likelihood Estimators for Spatial Autoregressive Models[J]. Econometrica, 72: 1899-1925.

DOI      [本文引用: 2]

Lee L F

GMM and 2SLS Estimation of Mixed Regressive, Spatial Autoregressive Models

Journal of Econometrics 2007 137 489 514

Lee L F, (2007). GMM and 2SLS Estimation of Mixed Regressive, Spatial Autoregressive Models[J]. Journal of Econometrics, 137: 489-514.

DOI      [本文引用: 6]

Lee L F Liu X

Efficient GMM Estimation of High Order Spatial Autoregressive Models with Autoregressive Disturbances

Econometric Theory 2010 26 187 230

Lee L F, Liu X, (2010). Efficient GMM Estimation of High Order Spatial Autoregressive Models with Autoregressive Disturbances[J]. Econometric Theory, 26: 187-230.

DOI      [本文引用: 2]

Lee L F Yu J

Some Recent Developments in Spatial Panel Data Models

Regional Science and Urban Economics 2010 40 255 271

Lee L F, Yu J, (2010). Some Recent Developments in Spatial Panel Data Models[J]. Regional Science and Urban Economics, 40: 255-271.

DOI     

LeSage J Pace R K Introduction to Spatial Econometrics CRC Press, Chapman and Hall 2009

LeSage J, Pace R K, (2009). Introduction to Spatial Econometrics[M].CRC Press, Chapman and Hall.

[本文引用: 4]

Lin X Lee L F

GMM Estimation of Spatial Autoregressive Models with Unknown Heteroskedasticity

Journal of Econometrics 2010 157 34 52

Lin X, Lee L F, (2010). GMM Estimation of Spatial Autoregressive Models with Unknown Heteroskedasticity[J]. Journal of Econometrics, 157: 34-52.

DOI      [本文引用: 4]

Liu T, Xu X, Lee L F, (2020). Consistency Without Compactness of the Parameter Space in Spatial Econometrics[R].Xiamen: Working Paper, Wang Yanan Institute for Studies in Economics, Xiamen University.

[本文引用: 2]

Liu X Lee L F Bollinger C

Improved Efficient Quasi Maximum Likelihood Estimator of Spatial Autoregressive Models

Journal of Econometrics 2010 159 303 319

Liu X, Lee L F, Bollinger C, (2010). Improved Efficient Quasi Maximum Likelihood Estimator of Spatial Autoregressive Models[J]. Journal of Econometrics, 159: 303-319.

DOI      [本文引用: 5]

Mykland P A

Dual Likelihood

Annals of Statistics 1995 23 396 421

Mykland P A, (1995). Dual Likelihood[J]. Annals of Statistics, 23: 396-421.

DOI      [本文引用: 1]

Nagar A L

The Bias and Moment Matrix of the General k-class Estimators of the Parameters in Simultaneous Equations

Econometrica 1959 27 4 575 595

Nagar A L, (1959). The Bias and Moment Matrix of the General k-class Estimators of the Parameters in Simultaneous Equations[J]. Econometrica, 27(4): 575-595.

DOI      [本文引用: 1]

Newey W K Smith R J

Higher Order Properties of GMM and Generalized Empirical Likelihood Estimators

Econometrica 2004 72 219 255

Newey W K, Smith R J, (2004). Higher Order Properties of GMM and Generalized Empirical Likelihood Estimators[J]. Econometrica, 72: 219-255.

DOI      [本文引用: 3]

Olsen R J

Note on the Uniqueness of the Maximum Likelihood Estimator for the Tobit Model

Econometrica 1978 46 1211 1215

Olsen R J, (1978). Note on the Uniqueness of the Maximum Likelihood Estimator for the Tobit Model[J]. Econometrica, 46: 1211-1215.

DOI      [本文引用: 1]

Ord J K

Estimation Methods for Models of Spatial Interaction

Journal of American Statistical Association 1975 70 120 126

Ord J K, (1975). Estimation Methods for Models of Spatial Interaction[J]. Journal of American Statistical Association, 70: 120-126.

DOI      [本文引用: 2]

Otsu T

On Bahadur Efficiency of Empirical Likelihood

Journal of Econometrics 2010 157 248 256

Otsu T, (2010). On Bahadur Efficiency of Empirical Likelihood[J]. Journal of Econometrics, 157: 248-256.

DOI      [本文引用: 1]

Owen A

Empirical Likelihood for Linear Models

Annal of Statistics 1991 19 1725 1747

Owen A, (1991). Empirical Likelihood for Linear Models[J]. Annal of Statistics, 19: 1725-1747.

DOI      [本文引用: 3]

Qu X Lee L F Yu J

QML Estimation of Spatial Dynamic Panel Data Models with Endogenous Time Varying Spatial Weights Matrices

Journal of Econometrics 2017 197 173 201

Qu X, Lee L F, Yu J, (2017). QML Estimation of Spatial Dynamic Panel Data Models with Endogenous Time Varying Spatial Weights Matrices[J]. Journal of Econometrics, 197: 173-201.

DOI      [本文引用: 1]

Robinson P

Asymptotically Efficient Estimation in the Presence of Heteroskedasticity of Unknown Form

Econometrica 1987 55 875 891

Robinson P, (1987). Asymptotically Efficient Estimation in the Presence of Heteroskedasticity of Unknown Form[J]. Econometrica, 55: 875-891.

DOI      [本文引用: 1]

Ruud P An Introduction to Classical Econometric Theory New York Oxford University Press 2000

Ruud P, (2000). An Introduction to Classical Econometric Theory[M]. New York:Oxford University Press.

[本文引用: 2]

Smith R J

Alternative Semi-parametric Likelihood Approaches to Generalized Method of Moments Estimation

Economic Journal 1997 107 503 519

Smith R J, (1997). Alternative Semi-parametric Likelihood Approaches to Generalized Method of Moments Estimation[J]. Economic Journal, 107: 503-519.

DOI      [本文引用: 2]

White H

A Heteroskedasticity Covariance Matrix Estimator and a Direct Test for Heteroskedasticity

Econometrica 1980 48 817 838

White H, (1980). A Heteroskedasticity Covariance Matrix Estimator and a Direct Test for Heteroskedasticity[J]. Econometrica, 48: 817-838.

DOI      [本文引用: 1]

Xu X Lee L F

Sieve Maximum Likelihood Estimation of the Spatial Autoregressive Tobit Model

Journal of Econometrics 2018 203 96 112

Xu X, Lee L F, (2018). Sieve Maximum Likelihood Estimation of the Spatial Autoregressive Tobit Model[J]. Journal of Econometrics, 203: 96-112.

DOI      [本文引用: 1]

Yang K Lee L F

Identification and QML Estimation of Multivariate and Simultaneous Spatial Autoregressive Models

Journal of Econometrics 2017 196 196 214

Yang K, Lee L F, (2017). Identification and QML Estimation of Multivariate and Simultaneous Spatial Autoregressive Models[J]. Journal of Econometrics, 196: 196-214.

DOI      [本文引用: 1]

/