前面學(xué)習(xí)的直線回歸是研究一個(gè)應(yīng)變量和一個(gè)字變量之間的線性依從關(guān)系的一種統(tǒng)計(jì)方法,但實(shí)際工作中,常會(huì)出現(xiàn)一個(gè)應(yīng)變量受到多個(gè)自變量的影響,如:人的肺活量與身高、體重、胸圍等因素有關(guān);糖尿病病人的血糖變化會(huì)受到胰島素、糖化血紅蛋白、血清總膽固醇、甘油三酯等多種生化指標(biāo)的影響。對(duì)這樣的情況,僅用簡(jiǎn)單的直線回歸分析是不夠的,所以需要使用多元統(tǒng)計(jì)分析方法。
第十三章 多重線性回歸與相關(guān)
第一節(jié) 多重線性回歸的概念及其統(tǒng)計(jì)描述
一、概念
1.定義
研究一個(gè)因變量Y與多個(gè)自變量X1、X2、…、Xm之間的線性依從關(guān)系的一種統(tǒng)計(jì)方法。
2.表達(dá)形式
研究的這種依從關(guān)系主要是通過(guò)方程來(lái)反映,如果能寫(xiě)出一個(gè)方程,則表示它們之間有線性依從關(guān)系,方程中有哪幾個(gè)自變量,Y就與哪幾個(gè)X有關(guān)。
多元線性回歸方程的一般形式為:
其中Y——因變量
X1(X1~Xm)——自變量,j=1,2, …,m
m——自變量的個(gè)數(shù)
β0——常數(shù)項(xiàng),又稱(chēng)截距
βj——Xj的偏回歸系數(shù)
ε——去除m個(gè)自變量對(duì)Y的影響后的隨機(jī)誤差,即殘差
上面的多元線性回歸方程是由總體數(shù)據(jù)而得出的,但在實(shí)際工作中往往得到的是樣本數(shù)據(jù),此時(shí),求得的方程表達(dá)式為:
其中——因變量
Xj(X1~Xm)——自變量,j=1,2, …,m
m——自變量的個(gè)數(shù)
b0——常數(shù)項(xiàng),是β0的估計(jì)值
bj——Xj的偏回歸系數(shù),是βj的估計(jì)值
3.偏回歸系數(shù)的統(tǒng)計(jì)意義
通過(guò)一個(gè)簡(jiǎn)單的多元線性回歸方程來(lái)講解
為研究b1的意義,將X2固定在一個(gè)常數(shù)上,為計(jì)算方便取一個(gè)特殊的值,令X2=0
當(dāng)X1=0時(shí),Y=1
X1=1時(shí),Y=3
X1=2時(shí),Y=5
可以看出,X1每增加一個(gè)單位,對(duì)應(yīng)的Y平均增加b1個(gè)單位,所以bj的統(tǒng)計(jì)意義為:當(dāng)固定X1、X2、…、X-j-1、X-j+1、…、Xm后Xj每改變一個(gè)單位,因變量Y平均改變的單位數(shù)。
4.多元線性回歸模型的應(yīng)用條件
應(yīng)滿足下列3個(gè)條件:①Y與X1、X2、…、Xm之間存在線性關(guān)系;②各觀察值Yi相互獨(dú)立;③殘差ε服從均數(shù)為0,標(biāo)準(zhǔn)差為σ2的正態(tài)分布(對(duì)任意一組自變量X1、X2、…、Xm和因變量Y具有相同方差,并且服從正態(tài)分布)
5.多元線性回歸分析的一般步驟
1)根據(jù)樣本數(shù)據(jù)建立模型,即求b0、b1、b2、…、bm,
2)對(duì)回歸方程及各偏回歸系數(shù)進(jìn)行假設(shè)檢驗(yàn)
二、多元線性回歸方程的建立
學(xué)習(xí)多元線性回歸分析的關(guān)鍵就是要找到對(duì)應(yīng)的方程,即求b0、b1、b2、…、bm。求偏回歸系數(shù)bj和常數(shù)項(xiàng)b0也是根據(jù)最小二乘原則。
1.建立方程的方法
1)根據(jù)最小二乘原則,可以首先建立一個(gè)正規(guī)方程組,
正規(guī)方程組為:
該方程組有以下幾個(gè)特點(diǎn):
①方程組中有m個(gè)方程,每個(gè)方程中有m個(gè)未知數(shù),每個(gè)未知數(shù)的系數(shù)為lij(離均差積和或離均差平方和)
當(dāng)i=j時(shí),為離均差平方和,
當(dāng)i≠j時(shí),為離均差積和,
另外,在方程的右側(cè)ljy也是離均差積和,
②方程組中的離均差平方和及離均差積和構(gòu)成了一離差矩陣,表示為
2)求解這個(gè)方程組即可得到b0、b1、b2、…、bm
3)根據(jù)公式求b0:
2.例題
P242 例15-1
1)準(zhǔn)備計(jì)算
①求各自變量和因變量的均數(shù)、觀察值之和合觀察值的平方和
②求離均差積和及離均差平方和
2)寫(xiě)出正規(guī)方程組
3)求解方程組,可以用代入法、消元法,也可以使用統(tǒng)計(jì)軟件
4)求b0
5)寫(xiě)出多元線性回歸方程
第二節(jié) 多重線性回歸方程的假設(shè)檢驗(yàn)
建立的方程是根據(jù)樣本算出的,不可避免的會(huì)存在抽樣誤差,所以需進(jìn)行假設(shè)檢驗(yàn)。假設(shè)檢驗(yàn)的內(nèi)容有兩方面
一、對(duì)回歸方程假設(shè)檢驗(yàn)及評(píng)價(jià)
1.假設(shè)檢驗(yàn)——方差分析
H0:文字?jǐn)⑹觯核ǚ匠虩o(wú)統(tǒng)計(jì)意義(即因變量Y與一組自變量Xj間無(wú)線性依從關(guān)系)
符號(hào)表示:β1=β2=…=βm=0(所有偏回歸系數(shù)均為0)
H1:文字?jǐn)⑹觯核ǚ匠逃薪y(tǒng)計(jì)意義(即因變量Y與一組自變量Xj間有線性依從關(guān)系)
符號(hào)表示:βj不為零或不全為零
α=0.05
其中 ν=m
SS殘=SS總-SS回 ν=n-m-1
SS總=lyy ν=n-1
2.決定系數(shù)R2
多元線性回歸方程的決定系數(shù)
決定系數(shù)R2的取值范圍0≤R2≤1,說(shuō)明自變量X1、X2、…、Xm能夠解釋Y變化的百分比,R2越接近1,說(shuō)明回歸模型對(duì)數(shù)據(jù)的擬合程度越好。
3)復(fù)相關(guān)系數(shù)R
用來(lái)衡量因變量Y與多個(gè)自變量間的線性相關(guān)程度,即觀察值Y與之間的相關(guān)程度。
二、各偏回歸系數(shù)的假設(shè)檢驗(yàn)與評(píng)價(jià)
若H0成立,所建回歸方程無(wú)統(tǒng)計(jì)意義,則多元線性回歸分析結(jié)束;但若如本例H0不成立,說(shuō)明Y與一組X間有線性依從關(guān)系,但不能說(shuō)明Y與每個(gè)X均有關(guān)系,故應(yīng)進(jìn)一步對(duì)每個(gè)偏回歸系數(shù)進(jìn)行檢驗(yàn)。
1.偏F檢驗(yàn)
計(jì)算統(tǒng)計(jì)量:Xj的偏F值
SS回(Xj)——Xj的偏回歸平方和,表示模型中含有其他m-1個(gè)自變量的條件下,該自變量對(duì)Y的回歸貢獻(xiàn)52667788.cn/jianyan/,相當(dāng)于從回歸方程中剔除Xj后所引起的回歸平方和減少醫(yī)學(xué)全.在線量,或在m-1個(gè)自變量的基礎(chǔ)上新增加Xj后所引起的回歸平方和增加。偏回歸平方和越大,說(shuō)明相應(yīng)的自變量Xj越重要,對(duì)方程的貢獻(xiàn)越大。
SS回(Xj)的計(jì)算方法:原始數(shù)據(jù)中將Xj去除后,重新建立另一個(gè)方程,求出新建的方程的SS回,表示為SS回(-j),此時(shí)用含m個(gè)自變量的回歸方程的SS回減去含m-1個(gè)字變量的回歸方程的SS回即為SS回(Xj),即:SS回(Xj)=SS回- SS回(-j)
2.t檢驗(yàn)法
,Sbj為bj的標(biāo)準(zhǔn)誤,其計(jì)算方法復(fù)雜需使用矩陣獲得。偏F檢驗(yàn)等價(jià),
tj服從自由度為n-m-1的t分布,查界值表,確定P,從而得出結(jié)論。
對(duì)于統(tǒng)一資料,t值和偏回歸平方和一樣,能說(shuō)明自變量對(duì)方程的貢獻(xiàn)大小,t越大說(shuō)明該自變量對(duì)方程的作用越大。
3.標(biāo)準(zhǔn)化偏回歸系數(shù)
前面講到了使用偏回歸平方和、tj可以衡量各自變量對(duì)Y貢獻(xiàn)大小,但我們更希望通過(guò)方程中回歸系數(shù)的大小來(lái)描述。偏回歸系數(shù)的統(tǒng)計(jì)意義為:固定X1、X2、…、X-j-1、X-j+1、…、Xm后Xj每改變一個(gè)單位,因變量Y平均改變的單位數(shù)。雖然bj決定了Y平均改變的單位數(shù),但由于各自變量的單位不同,但從各個(gè)偏回歸系數(shù)的絕對(duì)值大小不能判斷該自變量對(duì)Y的貢獻(xiàn)大小。所以我們對(duì)數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)化,,利用標(biāo)準(zhǔn)化后的數(shù)據(jù)建立回歸方程,稱(chēng)為標(biāo)準(zhǔn)化回歸方程,,相應(yīng)的各偏回歸系數(shù)稱(chēng)為標(biāo)準(zhǔn)化偏回歸系數(shù)。標(biāo)準(zhǔn)化后回歸方程的截距為0,且
用標(biāo)準(zhǔn)化偏回歸系數(shù)可以比較各自變量Xj對(duì)Y的貢獻(xiàn)大小,通常在偏回歸系數(shù)有統(tǒng)計(jì)意義的前提下,標(biāo)準(zhǔn)化偏回歸系數(shù)的絕對(duì)值越大,說(shuō)明相應(yīng)自變量對(duì)Y的作用越大。