1. 帽子阵的迹等于帽子阵的阶数吗
不一定。帽子阵的迹和阶数并不总是相等的。
帽子阵是一种矩阵,它的每个元素都是一个组合数。帽子阵的阶数是指它的行数和列数相等的大小,通常用n表示。帽子阵模困的迹是指矩阵的主对角线上的元素之和。
对于一个n阶的帽子阵,它的迹不一定等于n。例如,当所有元素都是1时,帽子阵的迹为n,但当所有元素都是0时,帽子阵的迹为0。因此,帽子阵的迹取决于帽子阵中组合拦薯数的取值和排列方式。具体而言,帽子阵的迹可以表示为:
Trace(A) = C(n,0)*a_1,1 + C(n,1)*a_2,2 + ... + C(n,n-1)*a_n-1,n-1 + C(n,n)*a_n,n
其中,简码者a_i,j表示帽子阵中第i行第j列的元素,C(n,k)表示从n个元素中选取k个元素的组合数。
因此,帽子阵的迹与它的阶数并不总是相等的,而是取决于帽子阵中各个元素的取值和排列方式。
2. 帽子矩阵的迹为什么是p+1
帽子矩阵Hat matrix
帽子矩阵是回归分析中根据数据计算得到一个矩阵. 设线性回归模型的数据矩阵为, 那么称下列矩阵
为帽子矩阵; 其中为矩阵的转置矩阵. 容易验证, 帽子矩阵为一个投影矩阵.
If z is any n× 1 vector, and H is a
hat matrix, then
z = Hz + (I − H)z = z1+ z2,
say, where z1⊥ z2. The first is in col(X)
and the second is in the space of vec-
tors orthogonal to every vector in col(X). We
write z2∈ col(X)⊥. You should verify that
this is a vector space (i.e. is closed under ad-
dition and scalar multiplication).
3. 残差是什么
残差在数理统计中是指实际观察值与估计值(拟合值)之间的差。“残差”蕴含了有关模型基本假设的重要信息。如果回归模型正确的话, 我们可以将残差看作误差的观测值。
它应符合模型的假设条件,且具有误差的一些性质。利用残差所提供的信息,来考察模型假设的合理性及数据的可靠性称为残差分析。
有多少对数据,就有多少个残差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。
拓展资料:
普通残差
设线性回归模型为
。
这解释了帽子矩阵与残差的关系,因为残差可以通过帽子矩阵与真实值得出。
在回归分析中,测定值与按回归方程预测的值之差,以δ表示。残差δ遵从正态分布N(0,σ2)。(δ-残差的均值)/残差的标准差,称为标准化残差,以δ*表示。δ*遵从标准正态分布N(0,1)。实验点的标准化残差落在(-2,2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2,2)区间以外,可在95%置信度将其判为异常实验点,不参与回归直线拟合。
显然,有多少对数据,就有多少个残差。残差分析就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰。
残差分析(resial analysis)就是通过残差所提供的信息,分析出数据的可靠性、周期性或其它干扰 。用于分析模型的假定正确与否的方法。所谓残差是指观测值与预测值(拟合值)之间的差,即是实际观察值与回归估计值的差。在回归分析中,测定值与按回归方程预测的值之差,以δ表示。残差δ遵从正态分布N(0,σ2)。
(δ-残差的均值)/残差的标准差,称为标准化残差,以δ*表示。δ*遵从标准正态分布N(0,1)。实验点的标准化残差落在(-2,2)区间以外的概率≤0.05。若某一实验点的标准化残差落在(-2,2)区间以外,可在95%置信度将其判为异常实验点,不参与回归线拟合。显然,有多少对数据,就有多少个残差。
4. 第三节 违背基本假设的情况
本节主要包括:
在这里先给大家普及一个单词 aftermath 创伤!真的是,,,学完实变函数心灵受到了极大的创伤,,,
言归正传,接下来的几章我们会说明,在回归的 三大基本假设 不满足的情况下,会有什么解决方案。
还记得回归的三大假设嘛?他们是:
在本章中我们主要研究不满足第二条的情况我们该如何处理。
数学上说就是 。现实中这样的例子也有很多,比方说收入模型,贫穷如我的人整天就会想怎么才能吃饱,就算想买点东西也买不起,穷人之间的购买力差异就很小,而富有的人的话,有的人出手阔绰,有的人比较节约,这就导致了富有的人支出差异很大。在异方差出现的时候,会有很多问题。比方说 参数不再是最佳线性无偏估计(但依然无偏),显著性检验也失效了。所以回归的效果也很不理想 。所以统计学家要想办法去侦测到它,并且努力去消除它。
因为正常情况下, ,所以异方差性是可以通过残差看出来的,这就是残差图检验的由来。
以残差ei为纵坐标,以其他适宜的变量为横坐标画散点图。
常用的横坐标有:
1.拟合值 ;
2.横坐标, ;
3.观测时间或序号.
在 满足假设时 残差图上的n个点散布应是随机的,无任何规律; 存在异方差 时,残差图上的点散布呈现相应的趋势.比方说我的残差长下面这个样子
这种方法简单来说就是计算自变量 与残差绝对值 之间的相关性,看看他们之间有没有什么系统的关系(函数关系)。注意我们采用Spearman 等级相关系数而没有采用 Pearson 简单相关系数,这是因为等级相关系数可以反映非线性相关的情况。
定义:
等级相关系数:
斯皮尔曼检验量:
在做等级相关系数检验之前需要先对模型做一次回归(虽然我们这里已经知道异方差性存在的情况下,回归没啥用了。但是如果你不做回归测试异方差性,你又怎么确定回归没用的呢?)。得到随机误差 的估计值残差 .然后取残差绝对值 ,把 与 都按照从高到低的顺序或者从低到高排序,最后标记二者的排位(就是第几大或者第几小),算出二者等级的对应差值计算出来就是 。比如说一个数据的自变量值 是第8大的,但是它的对应的残差绝对值 是第三大的,那么对应的 。
这个检验量在 的时候是近似服从 t 分布的,因此如果检验量的值 ,就可以认为没有异方差。否则说明 与 之间存在系统关系。
加权最小二乘估计是解决异方差问题的一种办法。还有Box-Cox变换法,等等。
一般来说,在最小二乘回归中,我们实际上就是要最小化 。注意到的是这个和式的每一项的期望都是 (因为异方差性假设存在,所以我们不再使用 )。所以如果某一项方差越大,实际上这一项所占的比重就很大,那么为了最小化我们的离差平方和,就必须要让回归直线“尽量偏向”这个方差很大的数据点。
从这里也可以看出来加权最小二乘法的一个局限性: 照顾小残差项是以牺牲大残差项为代价的。
为了解决这个问题我们把平方和改一下,写成下面的样子:
按照相同的方法回归,可得:
得到啥你自己看书吧-.-!P97 4.5
所以这个回归的关键就是如何选择我们的 。直观上来看,因为每一项的期望是 ,所以!只要让 就可以啦~(让回归直线“尽量偏向”这个方差很大的数据点嘛,方差越大权重就小一点,回归系数就大了)
problem solved~
不好意思没那么简单,理论可行,可是 是啥你不知道啊。所以如果没有电脑,我们一般是通过残差图去“猜测”应该用什么权。比方说如果 与 成正比,那么这个时候可以考虑拿 去作为权函数。实际上我们也是 一般使用类似于 这样的自变量的幂函数来构造权函数 。
如果使用 SPSS 计算就简单多了,通过寻找 m 值使得对数似然函数值最大,具体参见 P98。
多元的情况与一元十分相似,有一个问题就是我们权函数的构造,在一元中我们可以用自变量的幂函数构造。但是多元的情况,如果我们用每一个自变量的幂函数构造,那么对应的计算量可能就是 级别的,所以在多元的情况下我们 一般都只使用其中一个自变量 。所以问题来了,我们用哪一个自变量呢?
这也是有一个法则的,一般来说需要计算每一个自变量 与变通残差( )的等级相关系数(斯皮尔曼等级相关系数),取最大的那个构造即可。
具体的例子见 P103
随机误差项之间存在自相关性 的意思就是 。简单点来说就是误差项之间存在相关关系。
这种自相关包括 一阶自相关 与 多阶自相关 。
这在现实生活中也是很常见的。比如说金融危机一般都是要延后两三年才会有很显著的负面影响。另外时间序列模型本质上也就是一种自相关的模型。
(1)遗漏关键变量;
(2)经济变量的滞后性;
(3)采用错误的回归函数形式;
(4)蛛网现象带来的序列自相关性;
(5)对数据加工整理导致误差项之间产生自相关性。
自相关其实就相当于不满足G-M条件了,如果还是使用普通最小二乘法估计参数就会产生很多问题:
(1)参数估计值不再具有最小方差线性无偏性;
(2)均方误差(MSE)可能严重低估误差项的方差;
(3)容易导致 t 值过高,所以 F 检验、 t 检验就失效了
(4)最小二乘估计量也会对抽样的波动很敏感,意思是说在一些特定的样本中, 虽然无偏,但是估计出来的值 却可能严重与 真实值不同。
(5)预测和分析会带来较大的方差,甚至错误的解释。
这个问题还是挺严重的,下面瞅瞅怎么把这个问题检验出来:
首先直接使用普通最小二乘法估计参数,根据回归残差项 的相关性来判断随机误差项 的序列相关性。一般有两种方法:
可以看出这相当于是说随着时间的推移,残差并不是散乱,而是有序,或者说以一个函数形式出现的。这就说明存在自相关性了。
但是这种定性的分析总是感觉不够精确,所以我们需要更好的方法。
自相关系数说白了就是计算随机误差项之间的相关程度总和的一个量。如果这个量超过了某个数我们就认为这些随机误差项之间有关系,也就是说存在自相关性。
首先给出 误差序列 的系相关系数 定义:
这也是时间序列中一个很重要的统计量。和简单相关系数对比容易得到它的范围是 。
当 接近 -1 时表明误差序列存在负相关,当 接近 1 时表明误差序列存在正相关 。
还是有一个问题就是,误差序列 的真实值是未知的,那么我们就只能使用其估计值:残差 去代替。这就可以得到自相关系数的估计值 。
估计是可以的,但是这样又产生了一个问题,就是这个 作为 的估计值就与样本量有关了(直观来想就是样本量越多估计的越好呗),这就需要构造统计量,做一下显著性检验才能确定自相关性是否存在。一般使用下面的 DW 检验代替对 的检验。
DW (Durbin-Watson)检验其实说白了就是一假设检验。要有假设,需要构造统计量,计算拒绝域,最后根据显著性水平判断。DW 检验是很常用的一种检验自相关的方法。
DW 检验有一定的 使用条件 :
首先需要知道,随机扰动项的一阶自回归形式为:
其中 为自回归系数(数值上等于自相关系数,就是刚刚刚学的自相关系数还记得吗), 是满足 G-M 条件的随机误差项。
为了检验序列相关性,(其实就是检验上面的方程成立) 原假设 是:
构造的 统计量 是:
其中: 是回归估计式的残差 。
接下来的问题就是求拒绝域啦,首先我们来看看 DW 的取值范围:其实只需要将 DW 的分子展开一下就可以得到:
分子的第一项与第二项在 n 比较大的时候几乎是相同的(所以一般来说 DW 检验要求 ),而第三项与分母的比就是我们的 。 所以有 ,换句话说 。 根据以上的分析我们大约知道 DW 的取值范围为 。
因而 DW 值与 的对应关系表如下表所示:
在书上的P109页有一张表。(假装这里有表)
所以 确定拒绝域的方法是:根据样本量 n 和解释变量的数目 k (这里包括常数项)查 DW 分布表,得到临界值 和 ,最后根据计算得到的 DW 值决定模型的自相关状态。 如下图所示:
行,我们费了老大劲把自相关问题检验出来了,下面看看咋处理吧,,,咋整呀,,,
在处理自相关问题的时候需要首先查明自相关产生的原因,我们顺便复习一下 5 点奥(其实我也没记住翻回去看的,逃有几个问题可以直接解决,实在不行咱再想办法:
迭代法的想法就是想办法消掉误差项中相关的那一部分(剩下的不就是不相关的),这样就可以使用普通最小二乘回归啦,最后再把所做的变量替换带回去就可以的。
我们就以一阶自相关来举例:假设我们的模型为:
其中 满足 G-M 条件(期望值相等,相互独立)。
根据这个模型让时间倒退回去一点,就可以得到:
为了消除自相关性,归根结底是要让误差项回到 ,(谁让人家满足G-M条件嘛)
这就需要我们得到 。所以我们来计算
对应的变量做换元就可以可到: 。这个时候可以看出误差项就满足 G-M 条件啦。接下来就对变换后的模型使用普通最小二乘法就可以啦,然后再把变量带回去。
那么这样的方法可以看出如果真的误差项存在一阶自相关的话,那么很明显是有效的。但是实际情况并不总是如此,有时候误差项的自相关阶数是很高的,所以我们的方法是不停的迭代,直到我们的 DW 检验能够说明它没有自相关了为止,可以说是简单粗暴啊。
差分法的适用范围就更窄了,它是适用于原模型存在 较高程度一阶自相关 的情况才可使用。在迭代法的模型中我们设 ,就可以得到一个差分法的模型:( 注意这个模型不带常数项 ,回归直线过原点)
其中 ,
对它做一个回归就可以得到: (注意 t = 2 开始是因为差分肯定只能从第二项开始才会有数据)。
一般来说我们先使用 估计 ,(注意这里的 是自相关系数,而不是普通相关系数),如果 接近 1 就 采用差分法而不使用迭代法 ,这是因为:
有时候数据中会包含一两个极端或异常的观测值,这些数据与其他数据远远分开,会引起较大的残差,影响回归效果(这可不是啥好事儿),所以呢我们就想着怎么把这些害群之马给踢了,一般对于二元三元呢,我们画一个散点图看一下就知道了,但是多元就麻烦了,这家伙,没法儿画啊,你说气不气人,想想有没有啥其他招吧。
一般来说我们会分为 x y 两个维度讨论异常值:
在数据分析中,刚开始总是要看有没有特别特别“高”的点。一般来说会认为残差 超过 的残差的话它就是异常值。但是问题在于,多元回归中 ,其中 为帽子矩阵 的主对角线元素,这也就说明每一个数据点的误差是不相同的。那么单纯的因为它“特别高”就认为数据异常就不合适了。因为这很有可能是残差导致的,换句话说这个数据“特别高”不是因为它异常,而是因为它“就完全有可能这么高”。换句话说,因为误差是每一个数据点的固有性质,所以如果是因为残差特别大,导致某一个数据点像异常值,那么即使你剔除掉这个异常值,也不会对回归有任何帮助。(就是你踢错人了,人家不异常)
那么应该如何去做呢?我们在之前介绍过一个学生化残差
看似通过把杠杆值的影响去除掉可以解决方差不等的问题,但是如果观测数据中真的存在异常值,学生化残差也没有什么卵用。这是因为这个时候,异常值的存在会使得回归线“偏向”它,进而使得回归的标准差 实际上是偏大的。那么这样子的话,实际的学生化残差是偏小的,这就不能使用 的原则来判断残差了。
为了解决异常值的问题,我们需要别的办法。
我们这么构造删除残差:针对第 i 个观测值,我们计算它的残差时,用其余 n-1 个观测值拟合回归方程,计算出第 i 个观测值的删除拟合值 ,那么这个值显然不会受到第 i 个值是否是异常值的影响。所以我们定义 删除残差 为:
进一步:
删除化学生残差为 :
一般来说,认为 的时候就是异常值点。
首先需要知道啥叫强影响点:还是关于残差的方差式 ,可以看出 大的点残差小,因此如果观测值的杠杆值( )大,就会使得回归方程偏移产生影响。所以一般来说 杠杆值大的点我们叫做强影响点 ,注意它不一定是 y 的异常值。
强影响点并不总是 y 值的异常点, 此强影响点并不总会对回归方程造成不良影响 ,但是实际上,强影响点还是很需要被关注的,这是因为:
实际情况是很复杂的,所以一般使用一个粗略的标准,认为 就是异常值, 就是非异常值。
Box-Cox 变换也叫 方差稳定性变换 。这个方法比较特殊,所以把它单独拿出来了,说他特殊是因为它真的太!好!使!了! B-C 变换可以处理异方差、自相关、误差非正态、回归函数非线性等情况。
够狠!
它是对 y 做如下的变换:
在实际应用时,我们一般使用计算机找到一个 使得对数似然函数达到极大,也就是 达到最小即可(具体的推导见 P117)
最后找到最佳的 之后再把方程还原回去。下面举一个特例,考试喜欢这么出一个:
转化为原始变量方程:只需要把 代入,还原为原始方程为:
5. 什么是帽子矩阵(hat matrix)
对于线性模型Y=Xβ+e,E(e)=0,cov(e)=σ2I,矩阵H≙...X(XTX)-1XT是将观测向量Y正交投影到由X的列向量所生成的子空间上的投影矩阵。Y^=HY,习惯上称H为帽子矩阵。
6. 地理加权回归难吗
难,空间回归模型中的回归系数不随空间位置而变化,因此空间回归模型是全局模型。但是由于空间异质性和空间非平稳性,不同空间子区域中自变量和因变量的关系很可能不同,因此就需要处理空间异质性的局部空间回归方法,因此就有了地理加权回归模型(Geographically Weighted Regression, GWR)的提出。地理加权回归同时考虑了空间的相关性与异质性。
地理加权回归模型一般形式如下:
第 1 页
防火板首选福建原时态
A级防火板生产厂家,技术领先品质保障,尺寸齐全,厂家直销 。可按需定制。详情欢迎来电咨询
点击立即咨询,了解更多详情
咨询
福建原时态建筑工程 广告
;
其中,与是因变量与自变量在处的观测值,为第个采样点的坐标,是第个采样点上的第个回归参数,点被称为回归点。,当时,。简便记为:
第 2 页
地理加权回归会得出个回归方程,对应每个回归点,都会有一个回归方程。若郑誉贺,则地理加权回归模型退化为普通线性回归模型。
模型回归参数需要通过局部加权最小二乘进行估计。假设在位置的权重为,(),那么位置的参数估计为使达到最小的值。
上式中的为权函数,反映其他观测点的样本对回归点的影响。权函数值越大,影响越大。该值通常由对应两点之间的距离决定。常用的权函数有:
第 3 页
(1)Gauss函数:
(2)bi-square函数:
以上两式中的为点到点的距离。被称为带宽,是需要人工选择的参数。这两个函数中,距离越大,函数值都越小。这说明选择这两个函数时,都假设观测点越远,影响越小。
第 4 页
地理加权回归模型将数据的空间位置嵌入到回归参数中,因此考虑了空间的异质性。同时,由于不同位置虚告的观测点对回归参数的影响大小不同(通常离回归点越近,影响越大),因此该模型也考虑了空间相关性。地理加权回归的使用,也当同时以空间相关性与异质性为前提。如果没有空间相关性,那么该模型就缺乏合理性。如果没有空间异质性,那么该模型就缺乏必要性。
【案例72】
以2011年北京、天津、唐山各县(区)疾病发病率和同期各县(区)的人口密度、人均GDP、年平均风速、光照强度
第 5 页
、相对湿度、年降水量等数据为例,研究社会经济和气象因素对该疾病发病率在各地区影响的不稳定性。
本节所用的数据为2011年某地区某疾病的发病率(C:\Example\Data\7.3WGR\地区汇总.csv),命名为“地区汇总.csv”。此处只展示前10条
表 73 2011年某地区的某疾病发病情况
code
precp
relHum
sunShn
wndspd
PopuDen
PerGdp
rate
110101
58.06842
49.82301
206.0755
2.195716
15318.95
0.002438
347.1859
110102
62.59835
52.05048
202.8901
2.169381
14956.04
0.003675
447.7185
110105
57.65938
50.06015
205.5302
2.189571
8528.913
0.00096
1139.069
110106
55.73981
50.20182
205.5477
2.215026
7698.981
0.000419
1759.943
110107
52.39305
50.77886
205.6759
2.255836
8249.254
0.000541
1561.691
110108
52.13075
51.01494
207.5023
2.255693
8524.685
0.001021
1010.973
110109
44.66608
53.70504
218.3655
2.473628
224.6719
0.00038
758.6155
110111
46.62295
52.79277
208.7774
2.333494
532.4592
0.000457
2082.544
110112
55.23023
51.21378
201.2761
2.186171
1454.807
0.00036
2406.252
110113
50.22722
55.34219
195.5819
2.014273
967.6505
0.001211
1643.1
第 6 页
表 74各变量的含义
变量名称
变量含义
单位
code
地理编码
无
precp
降喊派水量
毫米
relHum
相对湿度
%
sunShn
日照强度
瓦/平方米
wndspd
风速
千米/时
popuDen
人口密度
千人/平方公里
PerGdp
人均国内生产总值
千元
rate
发病率
此外,还需要的数据是包含该地区所有区县的地图文件(.dbf文件和.shp文件
从光盘中获取,C:\Example\Data\Geodata\JJT)。该文件也可以通过arcgis软件从全国各区县地图中选择生成。
(2)采用R语言建立地理加权回归模型
第一步,加载如下程序包,代码如下:
library(spgwr)
第二步,导入所需的数据,代码如下:
hData <- read.csv("C: /Example/Data/7.3WGR/地区汇总.csv ")#导入发病率和影响因素的数据
dbf <- read.dbf("C: /Example/Data/Ge
odata /JJT.dbf")#导入地图的数据(dbf格式)
第三步,将导入的两组数据合并,代码如下:
Data <- merge(hData,dbf, by.x="code" , by.y = "CNTY_CODE" , all.x =T)
第四步,确定带宽,采用gwr.sel函数。所使用的参数如下:
formula:模型公式,用于指出因变量与自变量;
data:自变量与因变量取值的数据集;
coords:代表空间观测值位置的坐标矩阵。
代码如下:
col.bw <- gwr.sel(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y)) #利用交叉验证选择最优带宽
第五步,生成地理加权回归模型,采用gwr函数,使用的各参数意义如下:
formula:模型公式,用于指出因变量与自变量;
data:自变量与因变量取值的数据集;
coords:代表空间观测值位置的坐标矩阵;
第 10 页
bandwidth:带宽,由上步gwr.sel生成;
gweight:不指定时,默认使用高斯函数确定权重矩阵;
hatmatrix:如果为TRUE,帽子矩阵作为结果的一部分返回。
代码如下:
col.gauss <- gwr(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y), bandwidth=col.bw, hatmatrix=TRUE)
col.gauss
此外,地理加权回归还经常使用bi-square权函数,该方法和Gauss权函数方法相似,这里只将实现代码列出,代码如下:
col.d <- gwr.sel(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y), gweight=gwr.bisquare) #确定带宽
col.bisq <- gwr(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y), bandwidth=col.d, gweight=gwr.bisquare, hatmatrix=T) #建立地理加权回归模型
第 12 页
col.bisq #结果展示
(3)结果分析
建立的地理加权回归截距和系数统计如表 75所示:
表 75 加权回归系数统计表
变量
最小
四分之一分位数
中位数
四分之三分位数
最大值
全局
截距
-3478.00
-2391.00
896.50
4100.00
11420.00
1223.24
PopuDen
-0.05
-0.04
-0.04
-0.03
0.01
-0.04
PerGdp
-191700.00
-106600.00
-24080.00
-1769.00
44410.00
-37167.70
precp
-0.68
-0.34
-0.26
0.28
2.29
-0.08
relHum
-133.90
-72.10
-21.84
32.26
52.46
-31.49
sunShn
-16.88
0.50
0.84
1.45
2.94
0.66
wndspd
-91.81
357.90
625.00
667.20
874.70
775.70
从计算结果可以看出,由于地理加权回归得出了影响因素在每个地区的影响系数,各个因素对每个地区的影响程度并不相同,若系数的变化范围较大,说明该影响因素总体上影响程度有很大的不稳定性,若系数的变化范围较小,说明该影响因素总体上影响比较稳定。从该案例可以看出,当月人均国内生产总值对疾病的发病率影响最大,并且在大部分地区呈负相关关系,即当月人均国内生产总值越高,疾病发病率越低,此外该变量的系数变化范围十分大,说明该因素在不同地区的影响程度有很大差别,具有不稳定性。其次,风速对该病的发病率影响也较大,但风速与该病的
第 14 页
发病率大部分呈正相关,即风速越大,该病的发病率越大,可以推断该病可以通过空间传染。在6个影响因素中人口密度对疾病的发病率影响最低。
地理加权回归模型的R2为0.47,即该模型能解释疾病发病率总变异的47%,比全局普通线性回归的R2(0.23)大一倍。因此对于存在空间相关性的变量,应该使用地理加权回归进行计算。
空间回归与地理加权回归的比较:
空间回归与地理加权回归都是在经典的回归模型上考虑事物的空间属性,从而发展出来的。
空间回归通常只考虑空间相关性,而地
理加权回归同时考虑了空间相关性与异质性。
从本质上说,两种模型考虑空间相关性的角度也不同。空间回归模型实质是考虑值的空间相关性。而地理加权回归模型考虑的是数量关系或规律的空间相关性。
与只考虑空间相关性的空间回归模型相比,同时考虑空间相关性与异质性的地理加权回归模型显然考虑得更为细致。但是地理加权回归模型的求解更为复杂,且结果更难解读。比如需要逐个解读n个回归方程。这意味着通过地理加权回归较难掌握全局的规律。因此,空间回归模型更善于刻画全局规律。