二、回歸分析(regression analysis)
醫(yī)學(xué)上,不少孌量間雖存在一定關(guān)系,但這種關(guān)系不象函數(shù)關(guān)系那樣十分確定。例如正常人的血壓隨年齡而增高,但這只是總的趨勢(shì),有些高齡人的血壓卻不一定偏高;一群正常人按年齡和血壓兩個(gè)變量在坐標(biāo)上的方位點(diǎn),并非集中在一條上升直線上,而是圍繞著一條有代表性的直線上升。
直線回歸分析的任務(wù)在于找出兩個(gè)變量有依存關(guān)系的直線方程,以確定一條最接近于各實(shí)測(cè)點(diǎn)的直線,使各實(shí)測(cè)點(diǎn)與該線的縱向距離的平方和為最小。這個(gè)方程稱(chēng)為直線回歸方程,據(jù)此方程描繪的直線就是回歸直線。
(一)直線回歸方程式(linear regression equation)的計(jì)算
直線回歸方程的通式為:
=a+bX 公式(22.3)
式中Y為自由變量X推算因變量Y的估計(jì)值,a為回歸直線在Y軸上的截距,即X=0時(shí)的Y值;b為樣本回歸系數(shù)(regression coefficient),即回歸直線的斜率(slope或稱(chēng)坡度),表示當(dāng)X變動(dòng)一個(gè)單位時(shí),Y平均變動(dòng)b個(gè)單位。如果已知a與b,用以代入公式(22.3),即可求得直線回歸方程。求a和b的公式分別為:
公式(22.4)
公式(22.5)
對(duì)樣本中兩個(gè)變量分析,不但可作相關(guān)分析,還可進(jìn)一步作直線回歸分析。仍以表22-1為示范,該例經(jīng)過(guò)直線相關(guān)分析,r=0.6097,兩變量間有直線關(guān)系,從相關(guān)系數(shù)計(jì)算時(shí),已求得:
Σ(X-x)(Y-Y)=41.2000
Σ(X-x)2=677.4194
而 Y=ΣY/n=99.2/31=3.2000
x=ΣY/n=534/31=17.2258
代入公式(22.4)
b=41.2000/677.4194=0.0608
代入公式(22.5)
a=3.2000-0.0608×17.2258=2.1527
代入公式(22.3)
=2.1527+0.0608X
。ǘ)樣本回歸系數(shù)的假設(shè)檢驗(yàn)
樣本回歸系數(shù)也有抽樣誤差問(wèn)題,故需對(duì)b作假設(shè)檢驗(yàn),以評(píng)估b是否可能從回歸系數(shù)為零(即β=0)的總體中隨機(jī)抽得的。
檢驗(yàn)步驟:
H0:β=0 即b是由β=0的總體中隨機(jī)抽樣的樣本回歸系數(shù)。
H1:β≠0
α=0.05
t檢驗(yàn):檢驗(yàn)公式為
tb=|b|/sb 公式(22.6)
式中sb是回歸系數(shù)的標(biāo)準(zhǔn)誤,計(jì)算公式為
公式(22.7)
式中sy.x為各觀察值Y距回歸直線(Y)的標(biāo)準(zhǔn)差,是當(dāng)X的影響被扣除后Y方面的變異指標(biāo)。可用以下公式計(jì)算:
公式(22.8)
公式(22.9)
本例上述已算得
Σ(X-x)2=677.4194
Σ(Y-Y)2=6.7400
Σ(X-x)(Y-Y)=41.2000
分別代入公式(22.9),(22.8),(22.7)和(22.6)得
Σ(Y-Y)2=6.7400-41.20002/677.4194=4.2343
tb=0.0608/0.01468=4.1417
分析評(píng)價(jià) 本例自由度v=31-2=29,查t值表,t0.01(29)=2.756,P<0.01,按α=0.05檢驗(yàn)水準(zhǔn),拒絕無(wú)效假設(shè),可以認(rèn)為待產(chǎn)婦24小時(shí)尿中雌三醇含量與初生兒體重之間存在直線回歸關(guān)系。醫(yī)學(xué)全在線www.med126.com
(三)描繪回歸直線
根據(jù)以上求得回歸方程Y=2.1527+0.0608x,可以在自變量X的實(shí)測(cè)范圍內(nèi)(本例為7~27)任取X1和X2兩值代入上式求得在圖22-2中的P1(X1,Y1)和P2(X2,Y2)兩坐標(biāo)點(diǎn),將兩點(diǎn)連結(jié)為一直線,就屬該方程的回歸直線。作圖要注意的是P1、P2兩點(diǎn)最好距離遠(yuǎn)些,繪出的直線在坐標(biāo)上誤差就小些。
三、應(yīng)用直線相關(guān)與回歸分析時(shí)的注意事項(xiàng)
1.作相關(guān)與回歸分析要有實(shí)際意義,不要把毫無(wú)關(guān)聯(lián)的兩個(gè)事物或兩種現(xiàn)象作相關(guān)、回歸分析。
2.兩事物或現(xiàn)象間有相關(guān),不一定有回果關(guān)系,也可能僅是伴隨關(guān)系。但是,如果兩事物或現(xiàn)象間存在因果關(guān)系,則兩者必然是相關(guān)的。
3.相關(guān)與回歸分析所說(shuō)明的問(wèn)題是不同的,但又是有聯(lián)系的。相關(guān)表示相互關(guān)系,回歸表示從屬關(guān)系?梢宰C明,同一批資料所算得的r與b的檢驗(yàn)統(tǒng)計(jì)量(tr,tb)是相同的,如本章的案例前后算得的tr=tb=4.14。由于相關(guān)系數(shù)的計(jì)算及假設(shè)檢驗(yàn)比較方便,故可用相關(guān)系數(shù)的顯著性檢驗(yàn)取代回歸系數(shù)的顯著性檢驗(yàn)。事實(shí)上在作回歸分析之前,一般先作相關(guān)分析,而只有在確定了兩變量間有直線關(guān)系的前提下,求回歸方程及回歸線才有意義。
4.相關(guān)與回歸的應(yīng)用,僅限于原實(shí)測(cè)數(shù)據(jù)的范圍內(nèi),而不能隨意外推。因?yàn)椴恢涝诖朔秶猓瑑勺兞块g是否仍存在同樣的直線關(guān)系。如果確有進(jìn)行外推的充分根據(jù)和需要,亦應(yīng)十分慎重。
5.在X與Y均呈正態(tài)變量時(shí)的加歸分析中,由X 推算Y與由Y推算X的回歸系數(shù)及回歸方程是不同的,切勿混淆。
附表22-1 相關(guān)系數(shù)顯著性界值表
v | R0.05(v´) | R0.01(v´) | V´ | R0.05(v´) | R0.01(v´) |
1 | 0.997 | 1.000 | 24 | 0.388 | 0.496 |
2 | 0.950 | 0.990 | 25 | 0.381 | 0.487 |
3 | 0.872 | 0.959 | 26 | 0.375 | 0.478 |
4 | 0.811 | 0.917 | 27 | 0.367 | 0.470 |
5 | 0.754 | 0.874 | 28 | 0.361 | 0.463 |
6 | 0.707 | 0.834 | 29 | 0.355 | 0.456 |
7 | 0.666 | 0.798 | 30 | 0.349 | 0.449 |
8 | 0.632 | 0.765 | 35 | 0.325 | 0.418 |
9 | 0.602 | 0.735 | 40 | 0.304 | 0.393 |
10 | 0.576 | 0.708 | 45 | 0.288 | 0.372 |
11 | 0.553 | 0.684 | 50 | 0.273 | 0.354 |
12 | 0.532 | 0.661 | 60 | 0.250 | 0.325 |
13 | 0.514 | 0.641 | 70 | 0.232 | 0.302 |
14 | 0.497 | 0.623 | 80 | 0.217 | 0.283 |
15 | 0.482 | 0.606 | 90 | 0.205 | 0.267 |
16 | 0.468 | 0.590 | 100 | 0.195 | 0.254 |
17 | 0.456 | 0.575 | 125 | 0.174 | 0.228 |
18 | 0.444 | 0.561 | 150 | 0.159 | 0.208 |
19 | 0.433 | 0.549 | 200 | 0.138 | 0.181 |
20 | 0.423 | 0.537 | 300 | 0.113 | 0.148 |
21 | 0.413 | 0.526 | 400 | 9.098 | 0.128 |
22 | 0.404 | 0.515 | 500 | 0.088 | 0.115 |
23 | 0.396 | 0.505 | 1000 | 0.062 | 0.081 |