醫(yī)學(xué)統(tǒng)計(jì)學(xué)教案-第九章相關(guān)和回歸分析:9.2 教案回歸

來源：南方醫(yī)科大學(xué)精品課程網(wǎng) 精品課程網(wǎng)

醫(yī)學(xué)統(tǒng)計(jì)學(xué)教案第九章相關(guān)和回歸分析:9.2 教案回歸:南方醫(yī)科大學(xué)教案2007—2008學(xué)年秋季學(xué)期所在單位公共衛(wèi)生與熱帶醫(yī)學(xué)學(xué)院系、教研室生物統(tǒng)計(jì)學(xué)系課程名稱衛(wèi)生統(tǒng)計(jì)學(xué)授課對(duì)象2004級(jí)預(yù)防醫(yī)學(xué)本科授課教師閻玉霞職稱講師教材名稱衛(wèi)生統(tǒng)計(jì)學(xué)南方醫(yī)科大學(xué)教案首頁授課題目簡單回歸分析授課形式講授授課時(shí)間2007-12-11授課學(xué)時(shí)

南方醫(yī)科大學(xué)

教案

2007 — 2008 學(xué)年秋季學(xué)期

所在單位公共衛(wèi)生與熱帶醫(yī)學(xué)學(xué)院

系、教研室生物統(tǒng)計(jì)學(xué)系

課程名稱衛(wèi)生統(tǒng)計(jì)學(xué)

授課對(duì)象 2004級(jí)預(yù)防醫(yī)學(xué)本科

授課教師閻玉霞

職稱講師

教材名稱衛(wèi)生統(tǒng)計(jì)學(xué)

南方醫(yī)科大學(xué)教案首頁

授課題目	簡單回歸分析	授課形式	講授
授課時(shí)間	2007-12-11	授課學(xué)時(shí)	3
教學(xué)目的與要求	了解回歸的思想來源掌握線性回歸方程的計(jì)算，回歸系數(shù)的假設(shè)檢驗(yàn)的思想和步驟了解回歸方程的應(yīng)用
基本內(nèi)容	1. 回歸思想的來源 2. 散點(diǎn)圖、線性回歸方程 3. 回歸系數(shù)的假設(shè)檢驗(yàn) 4. 回歸系數(shù)與預(yù)測(cè)值的區(qū)間估計(jì) 5. 回歸方程的應(yīng)用及注意事項(xiàng)
重點(diǎn) 難點(diǎn)	其中，1、4、5為了解內(nèi)容，2、3為重點(diǎn)內(nèi)容，對(duì)最小二乘法和可信區(qū)間與容許區(qū)間的區(qū)別的理解是難點(diǎn)（了解)。
主要教學(xué) 媒體	多媒體投影儀
主要外語詞匯	regression coefficient， linear regression analysis， linear， independent ， normal， equal variance
有關(guān)本內(nèi)容的新進(jìn)展
主要參考資料或相關(guān)網(wǎng)站	http://www.smmu.edu。cn/zykj/~statistics/index/index.htm 1. 徐勇勇主編. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)（第二版). 北京：高等教育出版社，2004 2. 楊樹勤主編. 衛(wèi)生統(tǒng)計(jì)學(xué)（第二版). 北京：人民衛(wèi)生出版社，1991 3. 方積乾主編. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)與電腦實(shí)驗(yàn)（第二版). 上海：上海科學(xué)技術(shù)出版社，2001 4. 孫振球主編. 醫(yī)學(xué)統(tǒng)計(jì)學(xué)（供研究生用). 北京：人民衛(wèi)生出版社，2004
系、教研室審查意見
課后體會(huì)

南方醫(yī)科大學(xué)教案

教學(xué)內(nèi)容

時(shí)間分配和

媒體選擇

第十二章簡單回歸分析

第一節(jié) 簡單線性回歸

導(dǎo)入

一、線性回歸的概念及其統(tǒng)計(jì)描述

1 線性回歸的概念

2直線回歸方程的求法

3最小二乘法

二、回歸模型的前提假設(shè)

線性(linear)

獨(dú)立(independent)

正態(tài)(normal)

等方差(equal variance)

三、回歸系數(shù)的估計(jì)

例題

解題步驟

1．由原始數(shù)據(jù)及散點(diǎn)圖觀察兩變量間是否有直線趨勢(shì)

2．計(jì)算、的均數(shù)、，離均差平方和、與離均差積和。

3．計(jì)算有關(guān)指標(biāo)的值

4．計(jì)算回歸系數(shù)和截距

5．列出回歸方程

四、總體回歸系數(shù)β的統(tǒng)計(jì)推斷

應(yīng)變量的離均差平方和作分析。

方差分析法舉例

T檢驗(yàn)法舉例

第二節(jié) 線性回歸的應(yīng)用

一、總體回歸線的95%置信帶

二、個(gè)體Y預(yù)測(cè)值的區(qū)間估計(jì)

第三節(jié) 殘差分析

回歸方程的應(yīng)用

回歸分析的注意事項(xiàng)

小結(jié)

幻燈片5分鐘

幻燈片10分鐘

幻燈片15分鐘

幻燈片5分鐘

幻燈片3分鐘

幻燈片2分鐘

幻燈片3分鐘

幻燈片5分鐘

幻燈片2分鐘

幻燈片3分鐘

幻燈片5分鐘

幻燈片10分鐘

幻燈片5分鐘

幻燈片10分鐘

幻燈片5分鐘

教學(xué)進(jìn)程

教學(xué)內(nèi)容

時(shí)間分配

媒體選擇

第十二章 52667788.cn/zhicheng/簡單回歸分析

第一節(jié) 簡單線性回歸

導(dǎo)入

兩變量之間的關(guān)系

無關(guān)系

確定性關(guān)系

有關(guān)系

非確定性關(guān)系

確定性關(guān)系：已知一個(gè)變量能精確求出另一個(gè)變量的值，兩變量是完全對(duì)應(yīng)的。例：S=VT，C=2pr。

非確定性關(guān)系：兩變量存在某種關(guān)系，但非完全一一對(duì)應(yīng)關(guān)系，而是有某種趨勢(shì)。例：正常人收縮壓隨年齡增高而增高，但不能講某一年齡的人血壓一定是多少。

兩個(gè)或更多變量之間的關(guān)系，如：

廣告費(fèi)支出～商品銷售額

受教育程度～收入水平

藥物劑量～動(dòng)物死亡率

年齡、體重～血壓

回歸與相關(guān)的思想來源

Francis Galton (1822-1911)和Karl Pearson (1890-1920)

“Regression toward mediocrity in heredity stature”

Journal of the Anthropological Institute, 1886, 15: 246 – 263

Ÿ 父親身高(X)～兒子身高(Y)

幻燈片5分鐘

教學(xué)過程

教學(xué)內(nèi)容

時(shí)間分配

媒體選擇

依存關(guān)系：應(yīng)變量（dependent variable)Y隨自變量（independent variable )X變化而變化 ——回歸分析

Ÿ 姐妹身高(X)～兄弟身高(Y)

互依關(guān)系：變量X 與Y 之間的彼此關(guān)系

——相關(guān)分析

一、線性回歸的概念及其統(tǒng)計(jì)描述（linear regression analysis)

直線回歸的概念

目的：研究應(yīng)變量Y對(duì)自變量X的數(shù)量依存關(guān)系。

特點(diǎn)：統(tǒng)計(jì)關(guān)系。 X值和Y的均數(shù)的關(guān)系，

不同于一般數(shù)學(xué)上的X 和Y的函數(shù)關(guān)系

為了直觀地說明直線回歸的概念，以15名健康人凝血酶濃度（X)與凝血時(shí)間(Y)數(shù)據(jù)（表12-1)進(jìn)行回歸分析，得到圖12-1所示散點(diǎn)圖（scatter plot)

圖12-1 15名健康人凝血酶濃度（X)與凝血時(shí)間(Y)散點(diǎn)圖

由圖12-1可見，凝血時(shí)間隨凝血酶濃度的增加而減低且呈直線趨勢(shì)，但并非所有點(diǎn)子恰好全都在一直線上，此與兩變量間嚴(yán)格的直線函數(shù)關(guān)系不同，稱為直線回歸（linear regression),其方程叫直線回歸方程，以區(qū)別嚴(yán)格意義的直線方程。回歸是回歸分析中最基本、最簡單的一種，故又稱簡單回歸。

直線回歸方程的求法

直線回歸方程的一般表達(dá)式為

為回歸直線在軸上的截距(intercept)。>0，表示直線與縱軸的交點(diǎn)在原點(diǎn)的上方；<0，則交點(diǎn)在原點(diǎn)的下方；=0，則回歸直線通過原點(diǎn)。

為回歸系數(shù)(regression coefficient)，即直線的斜率(slope)。>0，表示直線從左下方走向右上方，即隨增大而增大；<0，表示直線從左上方走向右下方，即隨增大而減��；=0，表示直線與軸平行，即與無直線關(guān)系。由公式可以看出的統(tǒng)計(jì)學(xué)意義是每增加(減)一個(gè)單位，平均改變個(gè)單位。

為了求解、兩個(gè)系數(shù)，根據(jù)數(shù)學(xué)上的最小二乘法(least square method)原理，保證各實(shí)測(cè)點(diǎn)至直線的縱向距離的平方和最小，故又稱最小二乘回歸

二、回歸模型的前提假設(shè)

線性回歸模型的前提條件是：

線性(linear)

獨(dú)立(independent)

正態(tài)(normal)

等方差(equal variance)

回歸參數(shù)的估計(jì)
——最小二乘原則

Ø殘差(residual)或剩余值，即實(shí)測(cè)值Y與假定回歸線上的估計(jì)值的縱向距離。

Ø求解a、b實(shí)際上就是“合理地”找到一條能最好地代表數(shù)據(jù)點(diǎn)分布趨勢(shì)的直線。

原則：最小二乘法(least sum of squares)，即可保證各實(shí)測(cè)點(diǎn)至直線的縱向距離的平方和最小

三、回歸系數(shù)的估計(jì)

幻燈片10分鐘

幻燈片15分鐘

幻燈片5分鐘

幻燈片3分鐘

幻燈片2分鐘

幻燈片3分鐘

教學(xué)內(nèi)容

時(shí)間分配

媒體選擇

。

可導(dǎo)出、的算式如下

本例：n=15 ΣX=14.7 ΣX2=14.81 ΣY=224 ΣXY=216.7 ΣY2=3368

幾個(gè)公式

均數(shù)： =，

教學(xué)內(nèi)容

時(shí)間分配

媒體選擇

離均差平方和：

離均差乘積和：

除了圖中所示兩變量呈直線關(guān)系外，一般還假定每個(gè)對(duì)應(yīng)的總體為正態(tài)分布，各個(gè)正態(tài)分布的總體方差相等且各次觀測(cè)相互獨(dú)立。這樣，公式（12-2)中的實(shí)際上是所對(duì)應(yīng)的總體均數(shù)的一個(gè)樣本估計(jì)值，稱為回歸方程的預(yù)測(cè)值（predicted value),而、分別為和的樣本估計(jì)。

解題步驟

1．由原始數(shù)據(jù)及散點(diǎn)圖觀察兩變量間是否有直線趨勢(shì)

2．計(jì)算、的均數(shù)、，離均差平方和、與離均差積和。

3．計(jì)算有關(guān)指標(biāo)的值

4．計(jì)算回歸系數(shù)和截距

5．列出回歸方程

繪制回歸直線

此直線必然通過點(diǎn)( , )且與縱坐標(biāo)軸相交于截距a 。如果散點(diǎn)圖沒有從坐標(biāo)系原點(diǎn)開始，可在自變量實(shí)測(cè)范圍內(nèi)遠(yuǎn)端取易于讀數(shù)的值代入回歸方程得到一個(gè)點(diǎn)的坐標(biāo)，連接此點(diǎn)與點(diǎn)( , )也可繪出回歸直線。

幻燈片5分鐘

幻燈片2分鐘

幻燈片3分鐘

幻燈片5 分鐘

教學(xué)內(nèi)容

時(shí)間分配

媒體選擇

圖12-2 應(yīng)變量Y的離均差劃分示意圖

四、總體回歸系數(shù)β的統(tǒng)計(jì)推斷

建立樣本直線回歸方程，只是完成了統(tǒng)計(jì)分析中兩變量關(guān)系的統(tǒng)計(jì)描述，研究者還須回答它所來自的總體的直線回歸關(guān)系是否確實(shí)存在，即是否對(duì)總體有？

無論如何取值，總在一條水平線上，即，總體直線回歸方程并不成立，意即與無直線關(guān)系，此時(shí)。然而在一次隨機(jī)抽樣中，如果所得樣本為實(shí)心園點(diǎn)所示，則會(huì)得到一個(gè)并不等于0的樣本回歸系數(shù)。與0相差到多大可以認(rèn)為具有統(tǒng)計(jì)學(xué)意義？可用方差分析或與其等價(jià)的t檢驗(yàn)來回答這一問題。

前面所求得的回歸方程是否成立，即、是否有直線關(guān)系，是回歸分析要考慮的首要問題。我們知道即使、的總體回歸系數(shù)β為零，由于抽樣誤差，其樣本回歸系數(shù)也不一定為零。因此需作β是否為零的假設(shè)檢驗(yàn)，用方差分析或t檢驗(yàn)。在講述假設(shè)檢驗(yàn)之前，讓我們先對(duì)應(yīng)變量的離均差平方和作分析。

教學(xué)內(nèi)容

時(shí)間分配

媒體選擇

如圖12-2，p點(diǎn)的縱坐標(biāo)被回歸直線與均數(shù)截成三個(gè)線段：

第一段()，表示p點(diǎn)與回歸直線的縱向距離，即實(shí)際值與估計(jì)值之差，稱為剩余或殘差。

第二段()，即估計(jì)值與均數(shù)之差，它與回歸系數(shù)的大小有關(guān)。│b│值越大，()的差值也越大，回歸方程越有效，殘差越小，估計(jì)誤差越小。

第三段，是應(yīng)變量的均數(shù)。

上述三段的代數(shù)和為：將等式兩端平方后再求和，因 ^*，則有：

上式用符號(hào)表示為：

：即，為的離均差平方和(total sum of squares)，說明未考慮與的回歸關(guān)系時(shí)的變異。

：即，為回歸平方和(regression sum of squares)，它反映在的總變異中由于與的直線關(guān)系而使變異減小的部分，也就是在總平方和中可以用解釋的部分。越大，說明回歸效果越好。

:即，為剩余平方和(residual sum of squares)，它反應(yīng)對(duì)的線性影響之外的一切因素對(duì)的變異的作用，也就是在總平方和中無法用解釋的部分。在散點(diǎn)圖中，各實(shí)測(cè)點(diǎn)離回歸直線越近，也就越小，說明直線回歸的估計(jì)誤差越小。

上述三個(gè)平方和，各有其相應(yīng)的自由度，并有如下的關(guān)系：

＝＋

＝n-1，＝1，＝n-2

方差分析：其步驟與一般假設(shè)檢驗(yàn)相同。統(tǒng)計(jì)量F的計(jì)算公式為:

幻燈片10分鐘

幻燈片5分鐘

教學(xué)內(nèi)容

時(shí)間分配

媒體選擇

分別稱為回歸均方與剩余均方。統(tǒng)計(jì)量F服從自由度為的F分布。求F值后，查F界值表，得P值，按所取檢驗(yàn)水準(zhǔn)作出推斷結(jié)論。

回歸系數(shù)的t檢驗(yàn)

例12-4 對(duì)表12-1數(shù)據(jù)回歸系數(shù)進(jìn)行t檢驗(yàn)。

解：1. 提出檢驗(yàn)假設(shè)，確定顯著性水平

2. 計(jì)算統(tǒng)計(jì)量

3. 確定P值，下結(jié)論

查t界值表，P<0.001，按a=0.05的檢驗(yàn)水準(zhǔn)拒絕H₀ ,接受H₁。

注意：。

第二節(jié) 線性回歸的應(yīng)用

1．總體均數(shù)的可信區(qū)間（總體回歸線的95%置信帶)

給定的數(shù)值，由樣本回歸方程算出的只是相應(yīng)總體均數(shù)的一個(gè)點(diǎn)估計(jì)。會(huì)因樣本而異, 存在抽樣誤差。

幻燈片5分鐘

教學(xué)內(nèi)容

時(shí)間分配

媒體選擇

o 以上是給定某一X值時(shí)所對(duì)應(yīng)的總體均數(shù)的置信區(qū)間。當(dāng)同時(shí)考慮X的所有可能取值時(shí)，總體均數(shù)的點(diǎn)估計(jì)就是根據(jù)樣本算得的回歸直線

o （1-α)置信區(qū)間的上下限連起來形成一個(gè)弧形區(qū)帶，稱為回歸直線的（1-α)置信帶（confidence band)。同樣，因?yàn)槠錁?biāo)準(zhǔn)誤是X的函數(shù)，所以在均數(shù)（ )點(diǎn)處置信帶寬度最小，越遠(yuǎn)離該均數(shù)點(diǎn)，置信帶寬度越大。

o 圖12-4中，左圖顯示位于最小二乘回歸線上下兩側(cè)的兩條弧形虛線為總體回歸線的（1-α)置信區(qū)帶。右圖的實(shí)線表示可能的總體回歸線，它們落在弧形虛線所確定的置信帶內(nèi)。

o （1-α)置信帶的意義是：在滿足線性回歸的假設(shè)條件下，可以認(rèn)為真實(shí)的回歸直線落在兩條弧形曲線所形成的區(qū)帶內(nèi), 置信度為（1-α)

2．個(gè)體值的預(yù)測(cè)區(qū)間（區(qū)間估計(jì))

所謂預(yù)測(cè)就是把預(yù)報(bào)因子（自變量X)代入回歸方程對(duì)總體中預(yù)報(bào)量（應(yīng)變量Y)的個(gè)體值進(jìn)行估計(jì)。給定X的數(shù)值，對(duì)應(yīng)的個(gè)體Y值也存在一個(gè)波動(dòng)范圍。其標(biāo)準(zhǔn)差（注意勿與樣本觀察值Y的標(biāo)準(zhǔn)差相混)按公式（12-10)計(jì)算

o 以第一觀測(cè)點(diǎn)數(shù)據(jù)（X1=1.1)點(diǎn)為例，該點(diǎn)預(yù)測(cè)值的標(biāo)準(zhǔn)差為

o =0.52489182

o 第一數(shù)據(jù)點(diǎn)的預(yù)測(cè)區(qū)間為：

14.0957±(2.16)(0.0.5249)=12.9618~15.2297

當(dāng)同時(shí)考慮X的所有可能取值時(shí)，個(gè)體Y值的95%預(yù)測(cè)區(qū)間形成一個(gè)

幻燈片5分鐘

教學(xué)內(nèi)容

時(shí)間分配

媒體選擇

o 帶子，稱為Y值的95%預(yù)測(cè)帶，它比總體回歸線95%置信帶更寬。圖12-5和圖12-6同時(shí)顯示個(gè)體Y值的預(yù)測(cè)帶與總體回歸線的置信帶，可見，在相同信度下，個(gè)體值預(yù)測(cè)帶的曲線要比回歸線置信帶的曲線離回歸直線更遠(yuǎn)。

決定系數(shù)(coefficient of determination)

定義為回歸平方和與總平方和之比，計(jì)算公式為：

取值在0到1之間且無單位，其數(shù)值大小反映了回歸貢獻(xiàn)的相對(duì)程度，也就是在Y的總變異中回歸關(guān)系所能解釋的百分比。

第三節(jié) 殘差分析

o殘差（residual)是指觀測(cè)值Yi與回歸模型擬合值之差

o 殘差分析(residual analysis)旨在通過殘差深入了解數(shù)據(jù)與模型之間的關(guān)系，評(píng)價(jià)實(shí)際資料是否符合回歸模型假設(shè)，識(shí)別異常點(diǎn)等。

o例如，第一數(shù)據(jù)點(diǎn)的殘差e1=14-14.0957=-0.0957，如此類推，計(jì)算出各數(shù)據(jù)點(diǎn)的殘差值示于表12-2的第10列中。將第10列的殘差減去其均數(shù)，除以其標(biāo)準(zhǔn)差，便得標(biāo)準(zhǔn)化殘差。

若以反應(yīng)變量取值Yi為橫坐標(biāo)，以標(biāo)準(zhǔn)化殘差為縱坐標(biāo)，構(gòu)成的散點(diǎn)圖如圖12-7所示。類似地，也可以自變量取值Xi為橫坐標(biāo), 以標(biāo)準(zhǔn)化殘差為縱坐標(biāo)，構(gòu)成的散點(diǎn)圖。這類散點(diǎn)圖統(tǒng)稱為標(biāo)準(zhǔn)化殘差圖。

o圖12-8給出的是以自變量取值為縱坐標(biāo)，以殘差為橫坐標(biāo)的殘差圖的常見類型。其中，圖(e)顯示殘差呈隨機(jī)分布；圖(a)、(b ) 和(f)表示殘差不滿足方差齊性條件；圖(c)顯示存在非線性關(guān)系；圖(d)顯示有的點(diǎn)處于±2倍標(biāo)準(zhǔn)差以外，可能是異常點(diǎn)。

例12-5 例12-2樣本回歸系數(shù)b=0.0648，估計(jì)總體回歸系數(shù)b的95％可信區(qū)間。

解：S_b=0.00688，df=12-2=10

查t界值表，得t_0.05/2,10=2.228，故b的95％可信區(qū)間是

(0.0648-2.228×0.00688， 0.0648+2.228×0.00688)

= (0.0495，0.0801)