導航:首頁 > 帽子知識 > 回歸模型帽子矩陣

回歸模型帽子矩陣

發布時間:2023-05-05 18:36:36

1. 帽子陣的跡等於帽子陣的階數嗎

不一定。帽子陣的跡和階數並不總是相等的。

帽子陣是一種矩陣,它的每個元素都是一個組合數。帽子陣的階數是指它的行數和列數相等的大小,通常用n表示。帽子陣模困的跡是指矩陣的主對角線上的元素之和。

對於一個n階的帽子陣,它的跡不一定等於n。例如,當所有元素都是1時,帽子陣的跡為n,但當所有元素都是0時,帽子陣的跡為0。因此,帽子陣的跡取決於帽子陣中組合攔薯數的取值和排列方式。具體而言,帽子陣的跡可以表示為:

Trace(A) = C(n,0)*a_1,1 + C(n,1)*a_2,2 + ... + C(n,n-1)*a_n-1,n-1 + C(n,n)*a_n,n

其中,簡碼者a_i,j表示帽子陣中第i行第j列的元素,C(n,k)表示從n個元素中選取k個元素的組合數。

因此,帽子陣的跡與它的階數並不總是相等的,而是取決於帽子陣中各個元素的取值和排列方式。

2. 帽子矩陣的跡為什麼是p+1

帽子矩陣Hat matrix
帽子矩陣是回歸分析中根據數據計算得到一個矩陣. 設線性回歸模型的數據矩陣為, 那麼稱下列矩陣
為帽子矩陣; 其中為矩陣的轉置矩陣. 容易驗證, 帽子矩陣為一個投影矩陣.
If z is any n× 1 vector, and H is a
hat matrix, then
z = Hz + (I − H)z = z1+ z2,
say, where z1⊥ z2. The first is in col(X)
and the second is in the space of vec-
tors orthogonal to every vector in col(X). We
write z2∈ col(X)⊥. You should verify that
this is a vector space (i.e. is closed under ad-
dition and scalar multiplication).

3. 殘差是什麼

殘差在數理統計中是指實際觀察值與估計值(擬合值)之間的差。「殘差」蘊含了有關模型基本假設的重要信息。如果回歸模型正確的話, 我們可以將殘差看作誤差的觀測值。
它應符合模型的假設條件,且具有誤差的一些性質。利用殘差所提供的信息,來考察模型假設的合理性及數據的可靠性稱為殘差分析。
多少對數據,就有多少個殘差。殘差分析就是通過殘差所提供的信息,分析出數據的可靠性、周期性或其它干擾。

拓展資料:

普通殘差

設線性回歸模型為

這解釋了帽子矩陣與殘差的關系,因為殘差可以通過帽子矩陣與真實值得出。

在回歸分析中,測定值與按回歸方程預測的值之差,以δ表示。殘差δ遵從正態分布N(0,σ2)。(δ-殘差的均值)/殘差的標准差,稱為標准化殘差,以δ*表示。δ*遵從標准正態分布N(0,1)。實驗點的標准化殘差落在(-2,2)區間以外的概率≤0.05。若某一實驗點的標准化殘差落在(-2,2)區間以外,可在95%置信度將其判為異常實驗點,不參與回歸直線擬合。

顯然,有多少對數據,就有多少個殘差。殘差分析就是通過殘差所提供的信息,分析出數據的可靠性、周期性或其它干擾。


殘差分析(resial analysis)就是通過殘差所提供的信息,分析出數據的可靠性、周期性或其它干擾 。用於分析模型的假定正確與否的方法。所謂殘差是指觀測值與預測值(擬合值)之間的差,即是實際觀察值與回歸估計值的差。在回歸分析中,測定值與按回歸方程預測的值之差,以δ表示。殘差δ遵從正態分布N(0,σ2)。


(δ-殘差的均值)/殘差的標准差,稱為標准化殘差,以δ*表示。δ*遵從標准正態分布N(0,1)。實驗點的標准化殘差落在(-2,2)區間以外的概率≤0.05。若某一實驗點的標准化殘差落在(-2,2)區間以外,可在95%置信度將其判為異常實驗點,不參與回歸線擬合。顯然,有多少對數據,就有多少個殘差。

4. 第三節 違背基本假設的情況

本節主要包括:

在這里先給大家普及一個單詞 aftermath 創傷!真的是,,,學完實變函數心靈受到了極大的創傷,,,

言歸正傳,接下來的幾章我們會說明,在回歸的 三大基本假設 不滿足的情況下,會有什麼解決方案。
還記得回歸的三大假設嘛?他們是:

在本章中我們主要研究不滿足第二條的情況我們該如何處理。

數學上說就是 。現實中這樣的例子也有很多,比方說收入模型,貧窮如我的人整天就會想怎麼才能吃飽,就算想買點東西也買不起,窮人之間的購買力差異就很小,而富有的人的話,有的人出手闊綽,有的人比較節約,這就導致了富有的人支出差異很大。在異方差出現的時候,會有很多問題。比方說 參數不再是最佳線性無偏估計(但依然無偏),顯著性檢驗也失效了。所以回歸的效果也很不理想 。所以統計學家要想辦法去偵測到它,並且努力去消除它。

因為正常情況下, ,所以異方差性是可以通過殘差看出來的,這就是殘差圖檢驗的由來。

以殘差ei為縱坐標,以其他適宜的變數為橫坐標畫散點圖。
常用的橫坐標有:
1.擬合值 ;
2.橫坐標, ;
3.觀測時間或序號.

滿足假設時 殘差圖上的n個點散布應是隨機的,無任何規律; 存在異方差 時,殘差圖上的點散布呈現相應的趨勢.比方說我的殘差長下面這個樣子

這種方法簡單來說就是計算自變數 與殘差絕對值 之間的相關性,看看他們之間有沒有什麼系統的關系(函數關系)。注意我們採用Spearman 等級相關系數而沒有採用 Pearson 簡單相關系數,這是因為等級相關系數可以反映非線性相關的情況。

定義:
等級相關系數:

斯皮爾曼檢驗量:

在做等級相關系數檢驗之前需要先對模型做一次回歸(雖然我們這里已經知道異方差性存在的情況下,回歸沒啥用了。但是如果你不做回歸測試異方差性,你又怎麼確定回歸沒用的呢?)。得到隨機誤差 的估計值殘差 .然後取殘差絕對值 ,把 與 都按照從高到低的順序或者從低到高排序,最後標記二者的排位(就是第幾大或者第幾小),算出二者等級的對應差值計算出來就是 。比如說一個數據的自變數值 是第8大的,但是它的對應的殘差絕對值 是第三大的,那麼對應的 。

這個檢驗量在 的時候是近似服從 t 分布的,因此如果檢驗量的值 ,就可以認為沒有異方差。否則說明 與 之間存在系統關系。

加權最小二乘估計是解決異方差問題的一種辦法。還有Box-Cox變換法,等等。

一般來說,在最小二乘回歸中,我們實際上就是要最小化 。注意到的是這個和式的每一項的期望都是 (因為異方差性假設存在,所以我們不再使用 )。所以如果某一項方差越大,實際上這一項所佔的比重就很大,那麼為了最小化我們的離差平方和,就必須要讓回歸直線「盡量偏向」這個方差很大的數據點。

從這里也可以看出來加權最小二乘法的一個局限性: 照顧小殘差項是以犧牲大殘差項為代價的。

為了解決這個問題我們把平方和改一下,寫成下面的樣子:

按照相同的方法回歸,可得:
得到啥你自己看書吧-.-!P97 4.5

所以這個回歸的關鍵就是如何選擇我們的 。直觀上來看,因為每一項的期望是 ,所以!只要讓 就可以啦~(讓回歸直線「盡量偏向」這個方差很大的數據點嘛,方差越大權重就小一點,回歸系數就大了)

problem solved~

不好意思沒那麼簡單,理論可行,可是 是啥你不知道啊。所以如果沒有電腦,我們一般是通過殘差圖去「猜測」應該用什麼權。比方說如果 與 成正比,那麼這個時候可以考慮拿 去作為權函數。實際上我們也是 一般使用類似於 這樣的自變數的冪函數來構造權函數

如果使用 SPSS 計算就簡單多了,通過尋找 m 值使得對數似然函數值最大,具體參見 P98。

多元的情況與一元十分相似,有一個問題就是我們權函數的構造,在一元中我們可以用自變數的冪函數構造。但是多元的情況,如果我們用每一個自變數的冪函數構造,那麼對應的計算量可能就是 級別的,所以在多元的情況下我們 一般都只使用其中一個自變數 。所以問題來了,我們用哪一個自變數呢?

這也是有一個法則的,一般來說需要計算每一個自變數 與變通殘差( )的等級相關系數(斯皮爾曼等級相關系數),取最大的那個構造即可。

具體的例子見 P103

隨機誤差項之間存在自相關性 的意思就是 。簡單點來說就是誤差項之間存在相關關系。

這種自相關包括 一階自相關 多階自相關

這在現實生活中也是很常見的。比如說金融危機一般都是要延後兩三年才會有很顯著的負面影響。另外時間序列模型本質上也就是一種自相關的模型。

(1)遺漏關鍵變數;
(2)經濟變數的滯後性;
(3)採用錯誤的回歸函數形式;
(4)蛛網現象帶來的序列自相關性;
(5)對數據加工整理導致誤差項之間產生自相關性。

自相關其實就相當於不滿足G-M條件了,如果還是使用普通最小二乘法估計參數就會產生很多問題:
(1)參數估計值不再具有最小方差線性無偏性;
(2)均方誤差(MSE)可能嚴重低估誤差項的方差;
(3)容易導致 t 值過高,所以 F 檢驗、 t 檢驗就失效了
(4)最小二乘估計量也會對抽樣的波動很敏感,意思是說在一些特定的樣本中, 雖然無偏,但是估計出來的值 卻可能嚴重與 真實值不同。
(5)預測和分析會帶來較大的方差,甚至錯誤的解釋。

這個問題還是挺嚴重的,下面瞅瞅怎麼把這個問題檢驗出來:

首先直接使用普通最小二乘法估計參數,根據回歸殘差項 的相關性來判斷隨機誤差項 的序列相關性。一般有兩種方法:

可以看出這相當於是說隨著時間的推移,殘差並不是散亂,而是有序,或者說以一個函數形式出現的。這就說明存在自相關性了。

但是這種定性的分析總是感覺不夠精確,所以我們需要更好的方法。

自相關系數說白了就是計算隨機誤差項之間的相關程度總和的一個量。如果這個量超過了某個數我們就認為這些隨機誤差項之間有關系,也就是說存在自相關性。

首先給出 誤差序列 的系相關系數 定義:

這也是時間序列中一個很重要的統計量。和簡單相關系數對比容易得到它的范圍是 。

當 接近 -1 時表明誤差序列存在負相關,當 接近 1 時表明誤差序列存在正相關

還是有一個問題就是,誤差序列 的真實值是未知的,那麼我們就只能使用其估計值:殘差 去代替。這就可以得到自相關系數的估計值 。

估計是可以的,但是這樣又產生了一個問題,就是這個 作為 的估計值就與樣本量有關了(直觀來想就是樣本量越多估計的越好唄),這就需要構造統計量,做一下顯著性檢驗才能確定自相關性是否存在。一般使用下面的 DW 檢驗代替對 的檢驗。

DW (Durbin-Watson)檢驗其實說白了就是一假設檢驗。要有假設,需要構造統計量,計算拒絕域,最後根據顯著性水平判斷。DW 檢驗是很常用的一種檢驗自相關的方法。

DW 檢驗有一定的 使用條件

首先需要知道,隨機擾動項的一階自回歸形式為:

其中 為自回歸系數(數值上等於自相關系數,就是剛剛剛學的自相關系數還記得嗎), 是滿足 G-M 條件的隨機誤差項。

為了檢驗序列相關性,(其實就是檢驗上面的方程成立) 原假設 是:
構造的 統計量 是:

其中: 是回歸估計式的殘差 。

接下來的問題就是求拒絕域啦,首先我們來看看 DW 的取值范圍:其實只需要將 DW 的分子展開一下就可以得到:

分子的第一項與第二項在 n 比較大的時候幾乎是相同的(所以一般來說 DW 檢驗要求 ),而第三項與分母的比就是我們的 。 所以有 ,換句話說 。 根據以上的分析我們大約知道 DW 的取值范圍為 。

因而 DW 值與 的對應關系表如下表所示:
在書上的P109頁有一張表。(假裝這里有表)

所以 確定拒絕域的方法是:根據樣本量 n 和解釋變數的數目 k (這里包括常數項)查 DW 分布表,得到臨界值 和 ,最後根據計算得到的 DW 值決定模型的自相關狀態。 如下圖所示:

行,我們費了老大勁把自相關問題檢驗出來了,下面看看咋處理吧,,,咋整呀,,,

在處理自相關問題的時候需要首先查明自相關產生的原因,我們順便復習一下 5 點奧(其實我也沒記住翻回去看的,逃有幾個問題可以直接解決,實在不行咱再想辦法:

迭代法的想法就是想辦法消掉誤差項中相關的那一部分(剩下的不就是不相關的),這樣就可以使用普通最小二乘回歸啦,最後再把所做的變數替換帶回去就可以的。

我們就以一階自相關來舉例:假設我們的模型為:


其中 滿足 G-M 條件(期望值相等,相互獨立)。

根據這個模型讓時間倒退回去一點,就可以得到:
為了消除自相關性,歸根結底是要讓誤差項回到 ,(誰讓人家滿足G-M條件嘛)

這就需要我們得到 。所以我們來計算

對應的變數做換元就可以可到: 。這個時候可以看出誤差項就滿足 G-M 條件啦。接下來就對變換後的模型使用普通最小二乘法就可以啦,然後再把變數帶回去。

那麼這樣的方法可以看出如果真的誤差項存在一階自相關的話,那麼很明顯是有效的。但是實際情況並不總是如此,有時候誤差項的自相關階數是很高的,所以我們的方法是不停的迭代,直到我們的 DW 檢驗能夠說明它沒有自相關了為止,可以說是簡單粗暴啊。

差分法的適用范圍就更窄了,它是適用於原模型存在 較高程度一階自相關 的情況才可使用。在迭代法的模型中我們設 ,就可以得到一個差分法的模型:( 注意這個模型不帶常數項 ,回歸直線過原點)


其中 ,

對它做一個回歸就可以得到: (注意 t = 2 開始是因為差分肯定只能從第二項開始才會有數據)。

一般來說我們先使用 估計 ,(注意這里的 是自相關系數,而不是普通相關系數),如果 接近 1 就 採用差分法而不使用迭代法 ,這是因為:

有時候數據中會包含一兩個極端或異常的觀測值,這些數據與其他數據遠遠分開,會引起較大的殘差,影響回歸效果(這可不是啥好事兒),所以呢我們就想著怎麼把這些害群之馬給踢了,一般對於二元三元呢,我們畫一個散點圖看一下就知道了,但是多元就麻煩了,這傢伙,沒法兒畫啊,你說氣不氣人,想想有沒有啥其他招吧。

一般來說我們會分為 x y 兩個維度討論異常值:

在數據分析中,剛開始總是要看有沒有特別特別「高」的點。一般來說會認為殘差 超過 的殘差的話它就是異常值。但是問題在於,多元回歸中 ,其中 為帽子矩陣 的主對角線元素,這也就說明每一個數據點的誤差是不相同的。那麼單純的因為它「特別高」就認為數據異常就不合適了。因為這很有可能是殘差導致的,換句話說這個數據「特別高」不是因為它異常,而是因為它「就完全有可能這么高」。換句話說,因為誤差是每一個數據點的固有性質,所以如果是因為殘差特別大,導致某一個數據點像異常值,那麼即使你剔除掉這個異常值,也不會對回歸有任何幫助。(就是你踢錯人了,人家不異常)

那麼應該如何去做呢?我們在之前介紹過一個學生化殘差

看似通過把杠桿值的影響去除掉可以解決方差不等的問題,但是如果觀測數據中真的存在異常值,學生化殘差也沒有什麼卵用。這是因為這個時候,異常值的存在會使得回歸線「偏向」它,進而使得回歸的標准差 實際上是偏大的。那麼這樣子的話,實際的學生化殘差是偏小的,這就不能使用 的原則來判斷殘差了。

為了解決異常值的問題,我們需要別的辦法。

我們這么構造刪除殘差:針對第 i 個觀測值,我們計算它的殘差時,用其餘 n-1 個觀測值擬合回歸方程,計算出第 i 個觀測值的刪除擬合值 ,那麼這個值顯然不會受到第 i 個值是否是異常值的影響。所以我們定義 刪除殘差 為:

進一步:

刪除化學生殘差為

一般來說,認為 的時候就是異常值點。

首先需要知道啥叫強影響點:還是關於殘差的方差式 ,可以看出 大的點殘差小,因此如果觀測值的杠桿值( )大,就會使得回歸方程偏移產生影響。所以一般來說 杠桿值大的點我們叫做強影響點 ,注意它不一定是 y 的異常值。

強影響點並不總是 y 值的異常點, 此強影響點並不總會對回歸方程造成不良影響 ,但是實際上,強影響點還是很需要被關注的,這是因為:

實際情況是很復雜的,所以一般使用一個粗略的標准,認為 就是異常值, 就是非異常值。

Box-Cox 變換也叫 方差穩定性變換 。這個方法比較特殊,所以把它單獨拿出來了,說他特殊是因為它真的太!好!使!了! B-C 變換可以處理異方差、自相關、誤差非正態、回歸函數非線性等情況。

夠狠!

它是對 y 做如下的變換:

在實際應用時,我們一般使用計算機找到一個 使得對數似然函數達到極大,也就是 達到最小即可(具體的推導見 P117)

最後找到最佳的 之後再把方程還原回去。下面舉一個特例,考試喜歡這么出一個:

轉化為原始變數方程:只需要把 代入,還原為原始方程為:

5. 什麼是帽子矩陣(hat matrix)

對於線性模型Y=Xβ+e,E(e)=0,cov(e)=σ2I,矩陣H≙...X(XTX)-1XT是將觀測向量Y正交投影到由X的列向量所生成的子空間上的投影矩陣。Y^=HY,習慣上稱H為帽子矩陣。

6. 地理加權回歸難嗎

難,空間回歸模型中的回歸系數不隨空間位置而變化,因此空間回歸模型是全局模型。但是由於空間異質性和空間非平穩性,不同空間子區域中自變數和因變數的關系很可能不同,因此就需要處理空間異質性的局部空間回歸方法,因此就有了地理加權回歸模型(Geographically Weighted Regression, GWR)的提出。地理加權回歸同時考慮了空間的相關性與異質性。
地理加權回歸模型一般形式如下:
第 1 頁
防火板首選福建原時態
A級防火板生產廠家,技術領先品質保障,尺寸齊全,廠家直銷 。可按需定製。詳情歡迎來電咨詢

點擊立即咨詢,了解更多詳情
咨詢
福建原時態建築工程 廣告


其中,與是因變數與自變數在處的觀測值,為第個采樣點的坐標,是第個采樣點上的第個回歸參數,點被稱為回歸點。,當時,。簡便記為:


第 2 頁
地理加權回歸會得出個回歸方程,對應每個回歸點,都會有一個回歸方程。若鄭譽賀,則地理加權回歸模型退化為普通線性回歸模型。
模型回歸參數需要通過局部加權最小二乘進行估計。假設在位置的權重為,(),那麼位置的參數估計為使達到最小的值。
上式中的為權函數,反映其他觀測點的樣本對回歸點的影響。權函數值越大,影響越大。該值通常由對應兩點之間的距離決定。常用的權函數有:
第 3 頁
(1)Gauss函數:

(2)bi-square函數:

以上兩式中的為點到點的距離。被稱為帶寬,是需要人工選擇的參數。這兩個函數中,距離越大,函數值都越小。這說明選擇這兩個函數時,都假設觀測點越遠,影響越小。
第 4 頁
地理加權回歸模型將數據的空間位置嵌入到回歸參數中,因此考慮了空間的異質性。同時,由於不同位置虛告的觀測點對回歸參數的影響大小不同(通常離回歸點越近,影響越大),因此該模型也考慮了空間相關性。地理加權回歸的使用,也當同時以空間相關性與異質性為前提。如果沒有空間相關性,那麼該模型就缺乏合理性。如果沒有空間異質性,那麼該模型就缺乏必要性。
【案例72】
以2011年北京、天津、唐山各縣(區)疾病發病率和同期各縣(區)的人口密度、人均GDP、年平均風速、光照強度
第 5 頁
、相對濕度、年降水量等數據為例,研究社會經濟和氣象因素對該疾病發病率在各地區影響的不穩定性。
本節所用的數據為2011年某地區某疾病的發病率(C:\Example\Data\7.3WGR\地區匯總.csv),命名為「地區匯總.csv」。此處只展示前10條
表 73 2011年某地區的某疾病發病情況
code
precp
relHum
sunShn
wndspd
PopuDen
PerGdp
rate
110101
58.06842
49.82301
206.0755
2.195716
15318.95
0.002438
347.1859
110102
62.59835
52.05048
202.8901
2.169381
14956.04
0.003675
447.7185
110105
57.65938
50.06015
205.5302
2.189571
8528.913
0.00096
1139.069
110106
55.73981
50.20182
205.5477
2.215026
7698.981
0.000419
1759.943
110107
52.39305
50.77886
205.6759
2.255836
8249.254
0.000541
1561.691
110108
52.13075
51.01494
207.5023
2.255693
8524.685
0.001021
1010.973
110109
44.66608
53.70504
218.3655
2.473628
224.6719
0.00038
758.6155
110111
46.62295
52.79277
208.7774
2.333494
532.4592
0.000457
2082.544
110112
55.23023
51.21378
201.2761
2.186171
1454.807
0.00036
2406.252
110113
50.22722
55.34219
195.5819
2.014273
967.6505
0.001211
1643.1
第 6 頁
表 74各變數的含義
變數名稱
變數含義
單位
code
地理編碼

precp
降喊派水量
毫米
relHum
相對濕度
%
sunShn
日照強度
瓦/平方米
wndspd
風速
千米/時
popuDen
人口密度
千人/平方公里
PerGdp
人均國內生產總值
千元
rate
發病率
此外,還需要的數據是包含該地區所有區縣的地圖文件(.dbf文件和.shp文件

從光碟中獲取,C:\Example\Data\Geodata\JJT)。該文件也可以通過arcgis軟體從全國各區縣地圖中選擇生成。
(2)採用R語言建立地理加權回歸模型
第一步,載入如下程序包,代碼如下:
library(spgwr)
第二步,導入所需的數據,代碼如下:
hData <- read.csv("C: /Example/Data/7.3WGR/地區匯總.csv ")#導入發病率和影響因素的數據
dbf <- read.dbf("C: /Example/Data/Ge

odata /JJT.dbf")#導入地圖的數據(dbf格式)
第三步,將導入的兩組數據合並,代碼如下:
Data <- merge(hData,dbf, by.x="code" , by.y = "CNTY_CODE" , all.x =T)
第四步,確定帶寬,採用gwr.sel函數。所使用的參數如下:
formula:模型公式,用於指出因變數與自變數;
data:自變數與因變數取值的數據集;
coords:代表空間觀測值位置的坐標矩陣。

代碼如下:
col.bw <- gwr.sel(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y)) #利用交叉驗證選擇最優帶寬
第五步,生成地理加權回歸模型,採用gwr函數,使用的各參數意義如下:
formula:模型公式,用於指出因變數與自變數;
data:自變數與因變數取值的數據集;
coords:代表空間觀測值位置的坐標矩陣;
第 10 頁
bandwidth:帶寬,由上步gwr.sel生成;
gweight:不指定時,默認使用高斯函數確定權重矩陣;
hatmatrix:如果為TRUE,帽子矩陣作為結果的一部分返回。
代碼如下:
col.gauss <- gwr(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y), bandwidth=col.bw, hatmatrix=TRUE)
col.gauss
此外,地理加權回歸還經常使用bi-square權函數,該方法和Gauss權函數方法相似,這里只將實現代碼列出,代碼如下:
col.d <- gwr.sel(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y), gweight=gwr.bisquare) #確定帶寬
col.bisq <- gwr(rate ~ PopuDen + PerGdp+precp+relHum+sunShn+wndspd, data=data, coords=cbind(data$x, data$y), bandwidth=col.d, gweight=gwr.bisquare, hatmatrix=T) #建立地理加權回歸模型
第 12 頁
col.bisq #結果展示
(3)結果分析
建立的地理加權回歸截距和系數統計如表 75所示:
表 75 加權回歸系數統計表
變數
最小
四分之一分位數
中位數
四分之三分位數
最大值
全局
截距
-3478.00
-2391.00
896.50
4100.00
11420.00
1223.24
PopuDen
-0.05
-0.04
-0.04
-0.03
0.01
-0.04
PerGdp
-191700.00
-106600.00
-24080.00
-1769.00
44410.00
-37167.70
precp
-0.68
-0.34
-0.26
0.28
2.29
-0.08
relHum
-133.90
-72.10
-21.84
32.26
52.46
-31.49
sunShn
-16.88
0.50
0.84
1.45
2.94
0.66
wndspd
-91.81
357.90
625.00
667.20
874.70
775.70

從計算結果可以看出,由於地理加權回歸得出了影響因素在每個地區的影響系數,各個因素對每個地區的影響程度並不相同,若系數的變化范圍較大,說明該影響因素總體上影響程度有很大的不穩定性,若系數的變化范圍較小,說明該影響因素總體上影響比較穩定。從該案例可以看出,當月人均國內生產總值對疾病的發病率影響最大,並且在大部分地區呈負相關關系,即當月人均國內生產總值越高,疾病發病率越低,此外該變數的系數變化范圍十分大,說明該因素在不同地區的影響程度有很大差別,具有不穩定性。其次,風速對該病的發病率影響也較大,但風速與該病的
第 14 頁
發病率大部分呈正相關,即風速越大,該病的發病率越大,可以推斷該病可以通過空間傳染。在6個影響因素中人口密度對疾病的發病率影響最低。
地理加權回歸模型的R2為0.47,即該模型能解釋疾病發病率總變異的47%,比全局普通線性回歸的R2(0.23)大一倍。因此對於存在空間相關性的變數,應該使用地理加權回歸進行計算。
空間回歸與地理加權回歸的比較:
空間回歸與地理加權回歸都是在經典的回歸模型上考慮事物的空間屬性,從而發展出來的。
空間回歸通常只考慮空間相關性,而地

理加權回歸同時考慮了空間相關性與異質性。
從本質上說,兩種模型考慮空間相關性的角度也不同。空間回歸模型實質是考慮值的空間相關性。而地理加權回歸模型考慮的是數量關系或規律的空間相關性。
與只考慮空間相關性的空間回歸模型相比,同時考慮空間相關性與異質性的地理加權回歸模型顯然考慮得更為細致。但是地理加權回歸模型的求解更為復雜,且結果更難解讀。比如需要逐個解讀n個回歸方程。這意味著通過地理加權回歸較難掌握全局的規律。因此,空間回歸模型更善於刻畫全局規律。

與回歸模型帽子矩陣相關的資料

熱點內容
日本正絹做旗袍怎麼拼接 瀏覽:34
工裝外套英文怎麼說 瀏覽:990
男淺綠色褲子配什麼鞋 瀏覽:533
羽絨服工廠店北京雅鹿 瀏覽:982
明星白褲子圖片 瀏覽:420
男士格紋襯衫搭配圖片 瀏覽:48
三星s2平板怎麼裝外套 瀏覽:253
米白色的最佳搭配絲巾顏色 瀏覽:708
牛仔褲顏色手機壁紙 瀏覽:621
漆皮皮衣品牌及商品 瀏覽:550
高端服裝男裝品牌有哪些 瀏覽:120
落肩款襯衫打版 瀏覽:81
什麼裙子配運動鞋好看圖片 瀏覽:372
嬰兒褲子的帶子怎麼綁 瀏覽:379
星星睡衣男款 瀏覽:449
白色褲子有臟污怎麼洗干凈 瀏覽:973
冬裝如何陳列才能吸引顧客 瀏覽:448
冬天花衣搭外套好看 瀏覽:79
銅陵市有千仞崗羽絨服賣嗎 瀏覽:145
手工青蛙帽子製作方法 瀏覽:616