免费视频淫片aa毛片_日韩高清在线亚洲专区vr_日韩大片免费观看视频播放_亚洲欧美国产精品完整版

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
蔡云飛:SPSS 軟件實現(xiàn)多重線性回歸及共線性解決辦法
軟件
皮膚科的統(tǒng)計學(xué)家(蔡云飛) · 2016-01-02 20:30
本文章參照多個文章材料整合而成。
1. 模型簡介
本文所要討論的問題是如何同時考慮多個因素對同一觀測結(jié)果的影響,這一觀測結(jié)果是需要滿足正態(tài)分布的計量資料。此時,因變量(Dependent Variable)只有一個,也稱為反應(yīng)變量或響應(yīng)變量(Response Variable),常用 Y 表示。自變量(Independent Variable),也稱解釋變量(Explanatory Variable)可有多個,p 個自變量用向量形式表示為(X1,X2,X3,...,Xp)。設(shè)有 n 例觀察對象,第 i 例(i=1,2,3,…,n)的一組觀察值為(Yi, Xi1,Xi2,Xi3,…,Xip)。當(dāng)因變量與自變量組之間存在多重線性關(guān)系時,應(yīng)用多重線性回歸模型可以很好地刻畫它們之間的關(guān)系。
由上式可以看出,實測值由兩部分組成,第一部分為其估計值,用
表示,即給定各自變量取值時,因變量Y的估計值,表示能由自變量決定的部分。
為殘差,是應(yīng)變量實測值 Y 與其估計值
之間的差值,表示不由自變量決定的部分。它對于判斷當(dāng)前建立的模型是否成立,是否還有別的變量需要引入模型等一系列問題是非常有價值的。式中
為常數(shù)項,它表示當(dāng)所有自變量取值均為 0 時因變量的估計值,
為偏回歸系數(shù),表示當(dāng)其他自變量取值固定時(所以在回歸系數(shù)前加上“偏”字),自變量 Xi 每改變一個單位時,
的變化量。
2. 案例
某醫(yī)生收集了 97 名成年男性的資料,并分別測得其血常規(guī)和血生化指標(biāo),原始數(shù)據(jù)如下表,試以血紅蛋白為因變量,其他變量為自變量進(jìn)行線性回歸分析。
3. SPSS 錄入數(shù)據(jù)
變量賦值如下:
X1:性別
女=0 ;男=1
X2:年齡
青年= 1,中年= 2,老年= 3
X3:紅細(xì)胞數(shù)
不用賦值
X4:白細(xì)胞數(shù)
不用賦值
X5:血小板
不用賦值
X6:總膽紅素
不用賦值
X7:直接膽紅素
不用賦值
Y:血紅蛋白
不用賦值
圖1 變量視圖
圖2 數(shù)據(jù)視圖
4. SPSS 操作過程
分析→回歸→線性
圖3 操作步驟1
圖4 操作步驟2
圖5 操作步驟3
5. SPSS 計算結(jié)果解讀
5.1 模型中移入/移去的變量
共納入“年齡量化”、“紅細(xì)胞”、“性別量化”三個變量?!澳挲g量化”為有序分類變量,“紅細(xì)胞”為連續(xù)型變量,“性別量化”為二分類變量。自變量進(jìn)入模型的方法為“Enter”法,即“進(jìn)入法”,為默認(rèn)選項,意即所有選入自變量框的候選變量均進(jìn)入模型,不涉及變量篩選的問題。推薦選擇此方法,變量篩選可考慮通過單因素分析聯(lián)合臨床專業(yè)知識判斷進(jìn)行,比如首先通過臨床專業(yè)知識確定潛在需要納入回歸方程的變量,然后通過單因素篩選出 p 值小于 0.2 的變量最終納入回歸方程。
Variables Entered/Removeda
Model
Variables Entered
Variables Removed
Method
1
年齡量化, 紅細(xì)胞, 性別量化b
.
Enter
a. Dependent Variable: 血紅蛋白Y
b. All requested variables entered.
圖6 模型中移入/移去的變量
5.2 模型匯總結(jié)果
“R”,“R Square”, “Adjusted R Square”, “Std. Error of the Estimate”分別代表“復(fù)相關(guān)系數(shù)”,“決定系數(shù)”,“校正的決定系數(shù)”,“剩余標(biāo)準(zhǔn)差”。R值越大代表線性回歸關(guān)系越密切。R Square 表示因變量 Y 的總變異可由回歸模型中自變量解釋的那部分所占的比例,R Square 越大越好。根據(jù)樣本含量及模型中自變量的個數(shù)即可計算Adjusted R Square,該值越大,模型擬合效果越好。在第一個“模型匯總”表里,我們看到R、R方及調(diào)整R方,在簡單線性回歸模型時,這里的R相當(dāng)于自變量與因變量的pearson相關(guān)系數(shù);R方即前面R的平方,意義是有多大比例的因變量變異能被自變量解釋,在這里即肺活量的36%的變量可以由身高解釋(影響);調(diào)整R方在多重線性回歸模型里,可以通過查看增加或減少某個自變量后調(diào)整R方的變化來決定是否在模型里保留某變量。
Model Summary
Model
R
R Square
Adjusted R Square
Std. Error of the Estimate
1
.827a
.684
.674
14.125
a. Predictors: (Constant), 年齡量化, 紅細(xì)胞, 性別量化
圖7 模型匯總結(jié)果
5.3 Anova 結(jié)果
因變量 Y 的總變異可分為兩個部分:①回歸平方和,表示因變量變異種由回歸模型中所包含的自變量所能解釋的部分;②殘差平方和,表示因變量的變異種沒有被回歸模型所包含的變量解釋的部分。本例中 F=67.125,p=0.000。說明至少一個自變量的回歸系數(shù)不為 0,所建立的回歸模型有統(tǒng)計學(xué)意義。
下圖是判斷方程模型是否成立的方差檢驗,在多重線性回歸里,只要有一個自變量對因變量的影響有統(tǒng)計學(xué)意義,此檢驗的P值都會小于0.05,也即如果此檢驗P值不小于0.05,可認(rèn)為所有自變量與因變量都沒有線性關(guān)系。
圖8 Anova 結(jié)果
5.4 回歸系數(shù)表(最重要的結(jié)果)
表格中給出了這個回歸方程中常數(shù)項(Constant)、紅細(xì)胞、性別量化、年齡量化的偏回歸系數(shù)(Unstandardized Coefficients)及對應(yīng)的標(biāo)準(zhǔn)誤,分別為:23.967、22.467、8.164、2.510,其中常數(shù)項表示當(dāng)自變量取值為 0 時,因變量的取值,本例中沒有實際意義。為了消除原始變量單位不同或者量綱不同的影響,軟件同時計算了標(biāo)準(zhǔn)化的偏回歸系數(shù)(Standardized Coefficients),分別為:0.781、0.165、0.067。回歸系數(shù)絕對值越大說明對回歸模型的貢獻(xiàn)越大。同時對回歸系數(shù)進(jìn)行了假設(shè)檢驗,并給出了相應(yīng)的 p 值,分別為:0.007、0.000、0.008、0.260,其中常數(shù)項的回歸系數(shù)沒有實際意義,其他 p 值表明紅細(xì)胞、性別的回歸系數(shù)有統(tǒng)計學(xué)意義?!癈ollinearity Statistics”提供了共線性診斷兩個參數(shù)。容忍度(Tolerance)越小,多重共線性越嚴(yán)重,一般認(rèn)為容忍度小于 0.1 時,存在嚴(yán)重的共線性。方差膨脹因子(VIF)即容忍度的倒數(shù),一般認(rèn)為其不應(yīng)大于 5。本例中,可以認(rèn)為不存在明顯的共線性問題。
圖9 回歸系數(shù)表(最重要的結(jié)果)
5.5 共線性診斷
該圖進(jìn)一步給出了特征根(Eigenvalue):對模型中常數(shù)項及所有自變量計算主成分,如果自變量間存在較強(qiáng)的線性相關(guān)關(guān)系,則前面的幾個主成分?jǐn)?shù)值較大,而后面的幾個主成分較小,甚至接近 0。事實上,本例中單從特征根這個結(jié)果上并不好判斷共線性的問題。下面我們再看看條件指數(shù)(Condition Index):其等于最大的主成分與當(dāng)前主成分的比值的算術(shù)平方根。所以第一個主成分相對應(yīng)的條件指數(shù)總為 1。同樣,如果幾個條件指數(shù)較大,比如大于 30,則提示存在多重共線性。本例中,從條件指數(shù)這個結(jié)果中并未見明顯的共線性。我們再看看變異構(gòu)成(Variance Proportions):回歸模型中各項(包括常數(shù)項)的變異被各主成分所能解釋的比例,換句話說,即各主成分對模型中各項的貢獻(xiàn)。如果某個主成分對兩個或多個自變量的貢獻(xiàn)均較大(如大于0.5),說明這幾個自變量間存在一定程度的共線性。本例中并未出現(xiàn)這種情況。綜合圖 9 與圖 10 共線性診斷的各項參數(shù),并未檢測到明顯的共線性問題。本例也提醒我們共線性的診斷要從多個維度去綜合判斷。
圖10 共線性診斷
到此小伙伴們是不是認(rèn)為回歸做完了呢?答案是否定的,線性回歸模型還要滿足以下5個條件:獨立、正態(tài)、線性、等方差和無異常值或強(qiáng)影響點。
獨立:即我們數(shù)據(jù)是各個case是獨立的,不能有一個人測量兩次或者多次數(shù)據(jù),或者對稱器官的數(shù)據(jù)作為兩條數(shù)據(jù)使用,主要從數(shù)據(jù)來源判斷數(shù)據(jù)是否獨立。
正態(tài):回歸分析對自變量及因變量的分布均沒有要求,因此正態(tài)不是指因變量或自變量正態(tài),而是指回歸之后的殘差正態(tài),具體檢驗方法:在回歸對話框里點擊“保存”按鈕,如下圖選擇未標(biāo)準(zhǔn)差殘差:
這樣在數(shù)據(jù)集最后一列多出一列變量,即未標(biāo)準(zhǔn)化殘差,可檢查此殘差是否符合正態(tài)分布(檢查方法可以回復(fù)“正態(tài)”查看)。
線性:是看自變量與因素是否有線性關(guān)系。主要查看兩個變量的散點圖,觀察是否線性關(guān)系。
如下圖可以認(rèn)為兩者有線性關(guān)系。如果如下圖數(shù)據(jù)如果直接做回歸分析,可能都沒有線性關(guān)系(r=0),但觀察散點圖,左側(cè)認(rèn)為沒有線性關(guān)系,右側(cè)有曲線關(guān)系(拋物線)。因此散點圖在相關(guān)及回歸分析中至關(guān)重要。
等方差:等方差不是指因變量或自變量方差相等,而是在因變量的每個預(yù)測值處,殘差的方差相等。在SPSS里可以直接畫殘差與因變量預(yù)測值的散點圖查看,如下圖所示:
結(jié)果如下圖,如果隨著預(yù)測值變量,殘差在預(yù)測值上下分布分布基本相同,可以認(rèn)為殘差相等。
異常值或強(qiáng)影響點:即某一個或幾個點可能會對線性關(guān)系影響很大,這一組(或幾組)數(shù)往往是離群值,因此可以通過畫因變量與自變量的散點圖查看。本例子中散點圖見前面的圖,認(rèn)為沒有觀察到強(qiáng)影響點。如下圖可認(rèn)為有強(qiáng)影響點,是否為異常值需要再查看數(shù)據(jù)或進(jìn)行專業(yè)判斷。
在多重線性回歸中,除要滿足上述要求外,還要滿足各自變量間沒有共線性,在線性回歸中,可以在線性回歸對話框“統(tǒng)計量”-“共線性診斷”查看。
在結(jié)果中,一般認(rèn)為容忍度(SPSS中文譯為“容差”)<0.1或方差膨脹因子(VIF)大于10時認(rèn)為有共線性。
下面我們以一個例子說明共線性的診斷及處理。如下面數(shù)據(jù),我們有11年的經(jīng)濟(jì)數(shù)據(jù),我們想看總產(chǎn)量、存儲量、總消費量與進(jìn)口總額的關(guān)系。我們以進(jìn)口總額(y)為因變量,以總產(chǎn)量(x1)、存儲量(x2)、總消費量(x3)為自變量,進(jìn)行多重線性回歸,結(jié)果如下:
我們發(fā)現(xiàn)結(jié)果中,進(jìn)口總額與總產(chǎn)量沒有關(guān)系,而與存儲量、總消費量正相關(guān)(方程中系數(shù)為正值),這與我們常識可能不符合,我們一般認(rèn)為總產(chǎn)量應(yīng)該會影響進(jìn)口額,而存儲量越高,進(jìn)口應(yīng)該減少。再看后面容差及VIF,發(fā)現(xiàn)有兩個VIF超過180,即存在嚴(yán)重共線性。
從上面例子中也可以看出,共線性會影響結(jié)果的解讀,即可能使某自變量的系數(shù)偏大或偏小,甚至改變系數(shù)正負(fù)號,如果我們使用前進(jìn)或后退法篩選變量,可能導(dǎo)致我們認(rèn)為有意義的變量被踢除方程。
怎么解決共線性問題呢?有幾種方法供大家參考。
1.一般產(chǎn)生共性問題的兩個或多個變量之間相關(guān)性r值達(dá)到0.9或更高,也即我們可以人為選擇其中一個變量代表共線性的另外變量進(jìn)行回歸,即選擇專業(yè)上認(rèn)為有意義或更容易解讀的變量進(jìn)行回歸。在前面例子中我們發(fā)現(xiàn)總產(chǎn)量與總消費量高度相關(guān)(r=0.997,見下圖),我們可以選擇這兩個變量其中之一進(jìn)行回歸;
2.可以進(jìn)行因子分析,用提取的公因子進(jìn)行回歸分析,因子分析過程較復(fù)雜,詳細(xì)可以查看書籍。
3.進(jìn)行嶺回歸分析。嶺回歸原理較難理解,感興趣的可以查看相關(guān)資料。在SPSS可以作嶺回歸,但不能在菜單操作,需要調(diào)用安裝文件下的嶺回歸程序。
皮膚科的統(tǒng)計學(xué)家(statistician_derma)
本站僅提供存儲服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
SPSS超詳細(xì)操作:分層回歸(hierarchical multiple regression)
回歸模型中哪個自變量的作用更大?標(biāo)準(zhǔn)化回歸系數(shù)來解答!
四步搞定SPSS多元線性回歸視頻教程(含超詳細(xì)操作及結(jié)果解讀——深度好文,建議收藏)
多重線性回歸的SPSS實現(xiàn)以及文獻(xiàn)案例分析 | 護(hù)理科研
SPSS數(shù)據(jù)分析心得小結(jié)_數(shù)據(jù)分析心得分享
回歸系列(四)| 一個完整的線性回歸是怎樣做的
更多類似文章 >>
生活服務(wù)
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服