原文链接:http://www.360doc.com/content/19/1015/23/32762466_867125527.shtml
---
# 一、什么是空间权重矩阵
顾名思义,**空间权重矩阵**是一个反映个体在空间中相互依赖关系的矩阵,那为什么又叫权重呢?乍一看似乎有点困惑,但是细细想来其实也很自然,首先我们来看矩阵的形式:
$$
W=\begin{pmatrix}
w_{1,1} & w_{1,2} & \cdots & w_{1,n} \\
w_{2,1} & w_{2,2} & \cdots & w_{2,n} \\
\vdots & \vdots & \ddots & \vdots \\
w_{n,1} & w_{n,2} & \cdots & w_{n,n}
\end{pmatrix}
$$
其中 $w_{i,j}(i,j=1,2,...n)$ 表示空间中第 $i$ 个个体对空间中第 $j$ 个个体的影响程度,考虑空间个体 $i$ 的度量 $Y_i$ ,为了使问题更加直观,假设 $Y$ 是我们关注的地区经济发展水平GDP,则 $Y_i$ 就是我地区 $i$ 的GDP,我们已经知道,空间相关性的存在使得某一地区的经济发展受到其他地区的影响,即地区 $i$ 的经济发展与其余个 $n-1$ 个地区相关,表述为:
$$
Y=f(Y_1,Y_2,\cdots,Y_{i-1},Y_{i+1},\cdots,Y_{n-1},Y_n)+\mu_i,i=1,2,\cdots,n
$$
为了更进一步描述上式,我们可以简单的假设这种函数关系是线性函数,也即其余 $n-1$ 个地区与地区 $i$ 之间线性相关,如下所示:
$$
Y_i=\sum_{j \ne i}\beta_jY_j+\mu_i,i=1,2,\cdots,n
$$
那么,新的问题来了,每个地区对地区i的影响程度是否相等?也就是说线性函数的系数是否相等呢?答案是否定的,试想安徽省和江苏省、浙江省、河南省、湖北省和江西省相邻,其中浙江省和江苏省的经济较为发达,经济实力雄厚,与安徽省之间的经济往来和互动越频繁,对其溢出作用越显著;相反江西省、河南省或者湖北省本身经济实力与安徽省可能差距并不明显,故对安徽省经济的促进作用并不强,因此江苏省和浙江省对安徽省GDP的系数应该大于其余省份。
进一步思考,如何将空间依赖强弱引入到上述关系中?我们不仅仅想要考察各地区的变量回归,更想从空间相关性角度考察这种回归关系,因此,空间权重矩阵很好的解决了这一问题,既然 $W_{i,j}$ 是区域 $i$ 对区域 $j$ 的空间影响程度,那么当然可以将上述回归系数换成空间权重矩阵的元素 $W_{i,j}$ ,如下所示:
$$
Y_i=\sum_{j \ne i}w_{i,j}Y_j+\mu_i,i=1,2,\cdots,n
$$
不同系数大小不同,代表的就是不同地区对地区 $i$ 的影响权重大小,提起权重我们总是认为权重之和为1更好理解,因此一个建议的做法是将空间权重矩阵 $W$ 进行行标准化,这样便可得到每一行和为1,具体应用中更直观易懂。此外,需要特别注意的是,通常我们认为一个地区对其自身不产生空间影响,即空间权重矩阵对角线元素 $W_{i,i}=0,(i=1,2,\cdots,n)$。
讲到这里,相信大家已经完全明白为什么称 $W$ 为空间权重矩阵了,下面我们介绍如何构建空间权重矩阵 $W$。
# 二、如何构建空间权重矩阵 $W$
为什么要构造空间权重矩阵?听起来有很大的主观性。没错,空间权重矩阵在很多情况下都是外生给定的,需要研究者根据所研究的问题自己设定,因此既需要研究者对所研究问题的深刻理解,也需要其对空间权重矩阵的结构和元素特征非常熟悉。
那么,如何恰当量化空间位置关系和空间属性关系呢?简单来讲,$W_{i,j}$ 需要反映空间单元 $i$ 与 $j$ 的邻接关系或者关联程度,基础这个原则,空间权重矩阵有三大分类:
## 1. 基于共享空间要素的空间权重矩阵
这类空间权重矩阵主要是根据邻接关系确定空间权重矩阵,当地区 $i$ 与地区 $j$ 相邻时,$W_{i,j}=1$,否则 $W_{i,j}=0$。对于网格(Lattice)空间相邻关系中,相邻既可以是有共同边界又可以是有共同顶点,相应的可以定义 Rook 邻接矩阵、Bishop 邻接矩阵和 Queen 邻接矩阵,如下图所示:

其中 图(1) A 的邻接单元只考虑那些与其有公共边界的B,称为 Rook 邻接;图(2) A 的邻接单元只考虑与其有公共顶点的单元 B,称之为 Bishop 邻接; 图(3) A 的邻接单元既考虑与其有公共边有考虑有公共顶点的 B,称之为 Queen 邻接,可见 Queen 邻接是 Rook 邻接和 Bishop 邻接的叠加。并且邻接矩阵是对称矩阵,我们称上述所以空间权重矩阵都是一阶邻接矩阵。基于此原则,我们就可以写出网格情形下的空间权重矩阵,以 Rook 邻接为例,对于 3\*3 的网格而言,共有 9 个空间单元,相应的空间权重矩阵是 9\*9 的方阵,如下所示:
$$
\begin{pmatrix}
0 & 1 & 0 & 1 & 0 & 0 & 0 & 0 & 0 \\
1 & 0 & 1 & 0 & 1 & 0 & 0 & 0 & 0 \\
0 & 1 & 0 & 0 & 0 & 1 & 0 & 0 & 0 \\
1 & 0 & 0 & 0 & 1 & 0 & 1 & 0 & 0 \\
0 & 1 & 0 & 1 & 0 & 1 & 0 & 1 & 0 \\
0 & 0 & 1 & 0 & 1 & 0 & 0 & 0 & 1 \\
0 & 0 & 0 & 1 & 0 & 0 & 0 & 1 & 0 \\
0 & 0 & 0 & 0 & 1 & 0 & 1 & 0 & 1 \\
0 & 0 & 0 & 0 & 0 & 1 & 0 & 1 & 0
\end{pmatrix}
$$
当然可以定义高阶邻接矩阵,例如考察与 A 一阶 Rook 邻接的单元 B 的 Rook 邻接单元,将这些单元也看做 A 的邻接,这时就是二阶 Rook 邻接,如下图所在:

二阶邻接空间矩阵其实是一阶邻接矩阵的邻接,反映的是邻接地区的邻接地区的影响权重。
## 2. 基于距离概念的空间权重矩阵
除了邻接关系可以刻画空间单元之间的关系外,距离也是体现空间格局的一个重要指标,Tobler 地理学第一定律告诉我们:任何事物都是与其他事物相关的,只不过相近的事物关联更紧密。因此,距离越近也可以预示着关系越密切,权重影响 $W_{i,j}$ 越大。但是在空间计量经济学中,距离不仅仅有狭义距离还有广义距离,狭义的距离通常指物理距离,仅仅从地理角度测度:比如说两个区域的质心距离或者行政中心距离,而广义的距离就包括多种形式的虚拟距离,比如说:经济距离、社会距离或者时间距离等等。之所以要考察这类虚拟距离,是因为在空间计量经济学中我们往往关注的是变量的经济意义以及其在经济发展和社会文化中的区域相关性,这层意义是简单的地理距离所不能解释的,很多情况下物理距离很近的两个区域并不必然产生某一经济现象的集聚,例如安徽省和浙江省、江苏省三省相邻,但是很明显江苏省和浙江省的经济发展实力相当,而安徽省较弱,那么我们有理由相信江苏省与浙江省的“**经济距离**”更近,安徽省与江苏、浙江的“**经济距离**”较远,进而前者的空间权重系数相较于后者更大,空间相关性更强。基于此思想,我们可以构建如下基于距离的空间权重矩阵:
### (1)物理距离权重矩阵
设空间单元 $i$ 与空间单元 $j$ 之间的地理距离(可以是区域质心距离也可以是区域行政中心之间的距离)为 $d_{i,j}$,那么距离权重矩阵的元素分别对应于上述距离的倒数或者平方的倒数,如下所示:
$$
\begin{pmatrix}
0 & \frac{1}{d_{1,2}} & \frac{1}{d_{1,3}} & \cdots & \frac{1}{d_{1,n}} \\
\frac{1}{d_{2,1}} & 0 & \frac{1}{d_{2,3}} & \cdots & \frac{1}{d_{2,n}} \\
\frac{1}{d_{3,1}} & \frac{1}{d_{3,2}} & 0 & \cdots & \frac{1}{d_{3,n}} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\frac{1}{d_{n,1}} & \frac{1}{d_{n,2}} & \frac{1}{d_{n,3}} & \cdots & 0
\end{pmatrix}
\text{或}
\begin{pmatrix}
0 & \frac{1}{(d_{1,2})^2} & \frac{1}{(d_{1,3})^2} & \cdots & \frac{1}{(d_{1,n})^2} \\
\frac{1}{(d_{2,1})^2} & 0 & \frac{1}{(d_{2,3})^2} & \cdots & \frac{1}{(d_{2,n})^2} \\
\frac{1}{(d_{3,1})^2} & \frac{1}{(d_{3,2})^2} & 0 & \cdots & \frac{1}{(d_{3,n})^2} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\frac{1}{(d_{n,1})^2} & \frac{1}{(d_{n,2})^2} & \frac{1}{(d_{n,3})^2} & \cdots & 0
\end{pmatrix}
$$
由于距离满足对称性:$d_{i,j}=d_{j,i}$,因此上述倒数距离权重矩阵是对称矩阵。
### (2)经济距离权重矩阵
用GDP衡量区域经济发展水平,设空间单元 $i$ 与空间单元 $j$ 的GDP分别为 $Y_i$ 和 $Y_j$,若定义地区 $i$ 与地区 $j$ 之间的经济距离(经济差距)为 $e_{i,j}=|Y_i-Y_j|$,那么 $e_{i,j}$ 越小就说明区域 $i$ 与区域 $j$ 之间的经济发展水平越相似,经济距离越近,两者之间的空间权重系数越大,定义空间权重矩阵中的元素 $w_{i,j}=\frac{1}{|Y_i-Y_j|}$,就可以得到经济距离权重矩阵,如下所示:
$$
\begin{pmatrix}
0 & \frac{1}{|Y_1-Y_2|} & \frac{1}{|Y_1-Y_3|} & \cdots & \frac{1}{|Y_1-Y_n|} \\
\frac{1}{|Y_2-Y_1|} & 0 & \frac{1}{|Y_2-Y_3|} & \cdots & \frac{1}{|Y_2-Y_n|} \\
\frac{1}{|Y_3-Y_1|} & \frac{1}{|Y_3-Y_2|} & 0 & \cdots & \frac{1}{|Y_3-Y_n|} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
\frac{1}{|Y_n-Y_1|} & \frac{1}{|Y_n-Y_2|} & \frac{1}{|Y_n-Y_3|} & \cdots & 0
\end{pmatrix}
$$
其实,阅读文献的时候你会发现研究人员多是用人均GDP代表区域经济发展水平,这样可以消除规模效应,那么相应的经济距离权重矩阵就变为区域人均GDP差值的倒数。
## 3. 复合型空间权重矩阵
既然说空间权重矩阵是外生给定的,那么研究者当然可以充分发挥“**组合艺术**”之美。单独的邻接关系、地理距离或者经济距离都不能全面刻画空间单元的真实相依关系,那么为什么不将他们组合在一起呢?
### (1)邻接与距离组合权重矩阵
因为空间范围广,很可能出现两个单元之间的距离非常远,其倒数或者倒数的平方就非常小,进而权重就微乎其微甚至趋于零,为了避免这种情况,我们可以设置门槛距离 $d$,当空间单元 $i$ 与空间单元 $j$ 的距离 $d_{i,j}$ 大于门槛值 $d$ 时,认为这两个空间单元相互影响很弱,忽略不计,$w_{i,j}=0$;当空间单元 $i$ 与空间单元 $j$ 的距离 $d_{i,j}$ 小于门槛值 $d$ 时,认为这两个空间单元相互影响较强,$w_{i,j}=1$。因此,基于门槛距离的权重矩阵其实是一个 0-1 矩阵:
$$
w_{i,j}=
\begin{cases}
1\quad,\text{当区域 $i$ 与区域 $j$ 在距离 $d$ 之内,认为两者相邻} \\
0\quad,\text{当区域 $i$ 与区域 $j$ 在距离 $d$ 之外,认为两者不相邻}
\end{cases}
$$
有时,区域面积相差很大,有些面积很小的空间单元会有很多邻居,而面积大的单元邻居反而很小,邻接矩阵就会出现严重不平衡状态,空间权重矩阵不能准确的反映空间关联关系,此时我们可以采用距离与邻接组合的另一种权重矩阵 —— **K-最近邻权重矩阵**(K-nearest neighbor weight matrix),K 是一个门槛值,通常设为4,那么就可构建 4-最近邻空间权重矩阵:
$$
w_{i,j}=
\begin{cases}
1\quad,\text{与区域 $i$ 所有距离中最短的 4 个地区,认为与区域 $i$ 相邻} \\
0\quad,\text{其余情况均认为与区域 $i$ 不相邻}
\end{cases}
$$
因此,事实上,K-最近邻权重矩阵也是一个 0-1 矩阵,并且通常是不对称矩阵。
### (2)邻接与经济组合权重矩阵
将相邻关系和经济发展差异综合考虑比单独的任何一种权重矩阵都包含更加丰富的信息,也更能准确反映空间单元的关联关系。通常我们采用乘积的形式,记 $W_n$ 为邻接权重矩阵(0-1矩阵),$W_e$ 为经济权重矩阵,我们只认为相互邻接的区域才会发生经济关联,那么组合权重矩阵 $W_c$ 就可以表示为:
$$
W_c=W_n*W_e
$$
### (3)距离与经济组合权重矩阵
越来越多的实证研究喜欢采用这种形式的组合矩阵,因为研究者逐渐发现简单的邻接矩阵或者距离矩阵反映空间关联都过于粗糙,经济现象必然受到许多非地理近邻因素的影响,比如贸易、交通、经济、社会......,那么我们就有动机构建更加精细的权重矩阵 $W_c$:
$$
W_c=W_d*W_e
$$
这类矩阵的构造形式多种多样,只要符合所研究问题的逻辑和实证需求,都是合理可行的,一个经典的案例是:李婧等2010年在《管理世界》发表的一篇题为“中国区域创新生产的空间计量分析——基于静态与动态空间面板模型的实证研究”的文章,将经济距离空间权重矩阵定义为如下形式:
$$
W_c=W_d\times diag(\frac{\bar{Y_1}}{\bar{Y}},\frac{\bar{Y_2}}{\bar{Y}},\cdots,\frac{\bar{Y_n}}{\bar{Y}})
$$
其中
$$
\begin{aligned}
&\bar{Y_i}=\frac{1}{t_1-t_0+1}\sum_{t_0}^{t_1}Y_{i,t}\quad\text{表示考察期内地区 $i$ 经济发展的平均水平} \\
&\bar{Y}=\frac{1}{n(t_1-t_0+1)}\sum^{n}_{i=1}\sum_{t_0}^{t_1}Y_{i,t}\quad\text{表示考察期内所有地区经济发展的平均水平}
\end{aligned}
$$
这样构造的精妙之处在于:一方面,将时间维度纳入,考察的时段时间的平均水平,更加客观准确;另一方面,$W_c$ 不仅包含距离信息也包含经济信息,并且**经济信息还具有方向性**,你会发现作者其实是假设了较高经济发展水平的区域对较低经济发展水平的地区具有更强的溢出效应。因此空间权重矩阵是一个非对称矩阵。
除此以外,读者们还可以参考唐礼智等(2014)的文章“宏观调控视角下房地产价格影响因素的新测度”中采用的另一种空间权重矩阵构建方法,其中不仅考虑了时期影响,而且认为各时间点的影响权重不同,这种构建思路同样具有价值和新意。
# 三、空间权重矩阵的困惑
空间权重矩阵最大的诟病可能就是它的外生性,每个人给出的矩阵形式可以都不相同,只要你能够说出足够的理由证明它是合理的,或者至少在你所研究的问题中是合理的。那么,如此随意性的做法必定引起不严谨、不科学的质疑声。的确,正如Kelejian和 Robinson(1995)所说:空间权重矩阵仍是空间计量经济学中亟待解决的一个问题。
目前,大多数空间计量研究都将重心放在了模型估计和检验上,涉及到空间权重矩阵的选择时,都选择了常见的形式,避免了问题的复杂性。但就Yu在科研中的心得而言,很多时候(特别是实证研究中),空间权重矩阵的选择非常敏感和关键,直接决定了模型估计结果的好坏,有时候为了研究的严谨性,甚至需要选取多种空间权重矩阵分别估计,逐一对比,找到最佳选择。
如果你检索空间权重矩阵的最新文献,也会发现已经有部分学者开始关注空间权重矩阵的内生性问题,即假设空间权重矩阵不再是外生给定的,而是具有未知的非参数函数,需要通过模型进行估计的,比如:M Koroglu, Y Sun(2016)的文章“Functional-Coefficient Spatial Durbin Models with Nonparametric SpatialWeights: An Application to Economic Growth”,有兴趣的读者可以下载阅读。
OK,今日份的分享就告一段落~祝大家周末愉快!
![[转载] 漫谈空间权重矩阵](https://cdn.hkt1998.com/upload/1015111701672_1610700234179.png/normal)
[转载] 漫谈空间权重矩阵