第五章 參數(shù)估計(jì)基礎(chǔ)
第一節(jié)抽樣分布與抽樣誤差
抽樣研究的目的就是要用樣本信息來推斷相應(yīng)總體的特征,這一過程稱為統(tǒng)計(jì)推斷。
統(tǒng)計(jì)推斷包括兩方面的內(nèi)容:參數(shù)估計(jì)和假設(shè)檢驗(yàn)
熟悉總體與樣本、統(tǒng)計(jì)量與參數(shù)、誤差與抽樣誤差
誤差:泛指測(cè)得值與真值之差,樣本指標(biāo)與總體指標(biāo)之差。誤差按其產(chǎn)生的原因與性質(zhì)分為兩大類(系統(tǒng)誤差和偶然誤差)。
1.系統(tǒng)誤差:由于受試對(duì)象、研究者、儀器設(shè)備、研究方法、非實(shí)驗(yàn)因素影響等確定性原因造成,有一定52667788.cn/kuaiji/傾向性或規(guī)律性的誤差?梢员苊。
2.隨機(jī)測(cè)量誤差:由于多種無法控制的偶然因素引起,對(duì)同一樣品多次測(cè)量數(shù)據(jù)的不一致。無傾向性,不可避免。只可控制在一定的范圍內(nèi)。
3.抽樣誤差:由個(gè)體變異產(chǎn)生的、由于抽樣而造成的樣本統(tǒng)計(jì)量與樣本統(tǒng)計(jì)量及樣本統(tǒng)計(jì)量與總體參數(shù)之間的差異稱為抽樣誤差。無傾向性,不可避免
一、樣本均數(shù)的抽樣分布與抽樣誤差
均數(shù)的抽樣誤差:
由個(gè)體變異產(chǎn)生的、由于抽樣而造成的樣本均數(shù)與樣本均數(shù)及樣本均數(shù)與總體均數(shù)之間的差異稱為均數(shù)的抽樣誤差。用于表示均數(shù)抽樣誤差的指標(biāo)叫樣本均數(shù)的標(biāo)準(zhǔn)差,也稱樣本均數(shù)的標(biāo)準(zhǔn)誤。
抽樣實(shí)驗(yàn):假定從13歲女學(xué)生身高總體均數(shù),總體標(biāo)準(zhǔn)差 的正態(tài)總體中進(jìn)行隨機(jī)抽樣。
v 樣本均數(shù)的分布特點(diǎn):
1.各樣本均數(shù)未必等于總體均數(shù);
2.樣本均數(shù)之間存在差異;
3.樣本均數(shù)的分布很有規(guī)律,圍繞著總體均數(shù),中間多,兩邊少,左右基本對(duì)稱,也服從正態(tài)分布。
數(shù)理統(tǒng)計(jì)推理和中心極限定理表明:
1)從正態(tài)總體N(µ,σ2)中,隨機(jī)抽取例數(shù)為n的多個(gè)樣本,樣本均數(shù)服從正態(tài)分布;即使是從偏態(tài)總體中隨機(jī)抽樣,當(dāng)n足夠大時(shí)(如n>50),也近似正態(tài)分布。
2)從均數(shù)為µ,標(biāo)準(zhǔn)差為σ的正態(tài)或偏態(tài)總體中抽取例數(shù)為n的樣本,樣本均數(shù)的標(biāo)準(zhǔn)差即標(biāo)準(zhǔn)誤為:
表 100個(gè)樣本均數(shù)的頻數(shù)表與標(biāo)準(zhǔn)誤的計(jì)算表
身高組段 頻數(shù) 組中值 fX fX2 |
152.6~ 1 152.9 153.2~ 4 153.5 153.8~ 4 154.1 154.4~ 22 154.7 155.0~ 25 155.3 155.6~ 21 155.9 156.2~ 17 156.5 156.8 ~ 3 157.1 157.4 ~ 2 157.7 158.0 ~ 1 158.3 |
合計(jì) 100 |
(標(biāo)準(zhǔn)誤的理論值)
標(biāo)準(zhǔn)誤的大小與σ的大小成正比,與n成反比,而σ為定值,說明可以通過增加樣本例數(shù)來減少標(biāo)準(zhǔn)誤,以降低抽樣誤差。
σ未知,用樣本標(biāo)準(zhǔn)差S來估計(jì)總體標(biāo)準(zhǔn)差σ。
(標(biāo)準(zhǔn)誤的估計(jì)值)
用來表示均數(shù)抽樣誤差的大小。
例5-1 2000年某研究所隨機(jī)調(diào)查某地健康成年男子27人,得到血紅蛋白的均數(shù)為125g/L,標(biāo)準(zhǔn)差為15g/L 。試估計(jì)該樣本均數(shù)的抽樣誤差。
二 、樣本頻率的抽樣分布與抽樣誤差
從同一總體中隨機(jī)抽出觀察單位相等的多個(gè)樣本,樣本率與總體率及各樣本率之間都存在差異,這種差異是由于抽樣引起的,稱為頻率的抽樣誤差。
表示頻率的抽樣誤差大小的指標(biāo)叫頻率的標(biāo)準(zhǔn)誤。
據(jù)數(shù)理統(tǒng)計(jì)的原理,率的標(biāo)準(zhǔn)誤用表示:
π :總體率,n:樣本例數(shù)。
當(dāng)π未知時(shí),p π(為樣本含量足夠大,且p和1-p不太小)
公式為:
:率的標(biāo)準(zhǔn)誤的估計(jì)值,p:樣本率。
例5-2 某市隨機(jī)調(diào)查了50歲以上的中老年婦女776人,其中患有骨質(zhì)疏松癥者322人,患病率為41.5%,試計(jì)算該樣本頻率的抽樣誤差。
第二節(jié) t 分布
一、t分布的概念
在統(tǒng)計(jì)應(yīng)用中,可以把任何一個(gè)均數(shù)為µ,標(biāo)準(zhǔn)差為σ的正態(tài)分布N(µ,σ2)轉(zhuǎn)變?yōu)?micro;=0,σ=1的標(biāo)準(zhǔn)正態(tài)分布,即將正態(tài)變量值X用來代替
也服從正態(tài)分布,, 服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)
服從ν=n-1的t分布
二、t 分布的圖形和t 分布表
t分布曲線特點(diǎn):
1) t分布曲線是單峰分布,它以0為中心,左右對(duì)稱。
2)t分布的形狀與樣本例數(shù)n有關(guān)。自由度越小,則 越大,t 值越分散,曲線的峰部越矮,尾部翹的越高。
3) 當(dāng) n→∞時(shí),則S逼近σ,t分布逼近標(biāo)準(zhǔn)正態(tài)分布。t分布不是一條曲線,而是一簇曲線。
正確使用t界值表!
與單側(cè)概率相對(duì)應(yīng)的t值用表示,與雙側(cè)概率相對(duì)應(yīng)的t值用表示。
由于t分布是以0為中心的對(duì)稱分布,表中只列出了正值,故查表時(shí),不管t值正負(fù)只用絕對(duì)值表示。
第三節(jié) 總體均數(shù)及總體概率的估計(jì)
一、參數(shù)估計(jì)的概念
統(tǒng)計(jì)推斷包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)。參數(shù)估計(jì)就是用樣本指標(biāo)(統(tǒng)計(jì)量)來估計(jì)總體指標(biāo)(參數(shù))。
點(diǎn)估計(jì)(point estimation)
參數(shù)估計(jì)
區(qū)間估計(jì)(interval estimation)
二、置信區(qū)間的計(jì)算
(一)總體均數(shù)的置信區(qū)間
1.點(diǎn)估計(jì):
用樣本統(tǒng)計(jì)量直接作為總體參數(shù)的估計(jì)值。
例如 于2000年測(cè)得某地27例健康成年男性血紅蛋白量的樣本均數(shù)為125g/L,試估計(jì)其總體均數(shù)。
,即認(rèn)為2000年該地所有健康成年男性血紅蛋白量的總體均數(shù)為125g/L 。
同理,例5-2中776名50歲以上的中老年婦女骨質(zhì)疏松癥的樣本患病率作為總體患病率的點(diǎn)值估計(jì)值,即認(rèn)為該市所有50歲以上的中老年婦女骨質(zhì)疏松癥的總體患病率約為41.5%。
2. 區(qū)間估計(jì):按預(yù)先給定的概率(1-α)估計(jì)總體參數(shù)的可能范圍,該范圍就稱為總體參數(shù)的1-α置信區(qū)間(confidence interval CI)。
預(yù)先給定的概率(1-α)稱為置信度,常取95%或99%。如無特別說明,一般取雙側(cè)95%。
可信區(qū)間由兩個(gè)數(shù)值即置信限構(gòu)成,其中最小值稱為下限,最大值稱為上限。嚴(yán)格講,可信區(qū)間不包括上下限兩個(gè)端點(diǎn)值。
2.置信區(qū)間的計(jì)算
(1)σ已知,按標(biāo)準(zhǔn)正態(tài)分布原理計(jì)算
由z分布,標(biāo)準(zhǔn)正態(tài)曲線下有95%的z值在±1.96之間。
95%的雙側(cè)置信區(qū)間:
99%的雙側(cè)置信區(qū)間:
通式:(雙側(cè)) Zа/2為標(biāo)準(zhǔn)正態(tài)變量,Zа/2相當(dāng)于按ν=∞時(shí)及P取α,由附表2查的的t界值。
(2)σ未知但樣本例數(shù)n足夠大(n>50)時(shí)
由t分布可知,自由度越大,t分布越逼近標(biāo)準(zhǔn)正態(tài)分布,此時(shí)t曲線下有95%的t值約在±1.96之間,即
95%的雙側(cè)置信區(qū)間:
99%的雙側(cè)置信區(qū)間:
通式:(雙側(cè))
例5-4 某市2000年隨機(jī)測(cè)量了90名19歲健康男大學(xué)生的身高,其均數(shù)為172.2cm,標(biāo)準(zhǔn)差為4.5cm,,試估計(jì)該地19歲健康男大學(xué)生的身高的95%置信區(qū)間。
該市19歲健康男大學(xué)生的身高的95%置信區(qū)間(171.3,173.1)cm
(3)σ未知且樣本例數(shù)n較小時(shí),按t分布原理,此時(shí)
某自由度的t曲線下有95%的t值約在±t0.05(ν)之間,
95%的雙側(cè)置信區(qū)間:醫(yī)學(xué)全.在線52667788.cn
99%的雙側(cè)置信區(qū)間:
通式: tа/2,ν 是按自由度ν=n-1,由附表2查得的t值。
例5-3 已知某地27例健康成年男性血紅蛋白量的均數(shù)為,標(biāo)準(zhǔn)差S=15g/L,試問該地健康成年男性血紅蛋白量的95%和99%置信區(qū)間。
本例n=27,S=15
95%CI:
99%CI:
置信區(qū)間的兩個(gè)要素
1. 準(zhǔn)確度:反映置信度1-α的大小,即區(qū)間包含總體均數(shù)的概率大小。
2. 精度:反映區(qū)間的長度。
在置信區(qū)間確定的情況下,增加樣本例數(shù),會(huì)減小 tа,ν 和,可減少區(qū)間長度,提高精度。
3.思考
(1)均數(shù)置信區(qū)間與參考值范圍的區(qū)別
意義:
95%的參考值范圍是指同質(zhì)總體內(nèi)包括95%個(gè)體值的估計(jì)范圍。若總體為正態(tài)分布,常按計(jì)算。
95%的可信區(qū)間是指按95%的置信度估計(jì)的總體參數(shù)的所在范圍。若為大樣本,按計(jì)算。
計(jì)算上:
置信區(qū)間用標(biāo)準(zhǔn)誤,參考值范圍用標(biāo)準(zhǔn)差。
(2)標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤的區(qū)別與聯(lián)系
區(qū)別:
1)概念不同:標(biāo)準(zhǔn)差是描述樣本中個(gè)體值間的變異程度的指標(biāo),標(biāo)準(zhǔn)差越小,表示變量值圍繞均數(shù)的波動(dòng)越小。標(biāo)準(zhǔn)誤是描述樣本均數(shù)間變異程度的指標(biāo),標(biāo)準(zhǔn)誤越小,表示樣本均數(shù)圍繞總體均數(shù)的波動(dòng)越小。
2) 用途不同:標(biāo)準(zhǔn)差常用于表示變量值對(duì)均數(shù)波動(dòng)的大小,當(dāng)資料呈正態(tài)分布時(shí),與均數(shù)結(jié)合可估計(jì)正常值范圍,計(jì)算變異系數(shù)等;標(biāo)準(zhǔn)誤常用于表示樣本統(tǒng)計(jì)量(樣本均數(shù),樣本率)對(duì)總體參數(shù)(總體均數(shù),總體率)的波動(dòng)情況,可估計(jì)參數(shù)的可信區(qū)間,進(jìn)行假設(shè)檢驗(yàn)。
3)與例數(shù)的關(guān)系不同:當(dāng)樣本含量足夠大時(shí),標(biāo)準(zhǔn)差趨向穩(wěn)定。而標(biāo)準(zhǔn)誤隨例數(shù)的增大而減小,甚至趨向于0。若樣本含量趨向于總例數(shù),則標(biāo)準(zhǔn)誤接近于0。
聯(lián)系;
二者均為變異指標(biāo),如果把總體中各樣本均數(shù)看成一個(gè)變量,則標(biāo)準(zhǔn)誤可稱為樣本均數(shù)的標(biāo)準(zhǔn)差。當(dāng)樣本含量不變時(shí),均數(shù)的標(biāo)準(zhǔn)誤與標(biāo)準(zhǔn)差成正比。兩者均可與均數(shù)結(jié)合運(yùn)用,但描述的內(nèi)容各不相同。
(二)、總體概率的置信區(qū)間
總體概率的置信區(qū)間與樣本含量n,陽性頻率p的大小有關(guān),可根據(jù)n和p的大小選擇以下兩種方法。
1. 正態(tài)近似法
當(dāng)樣本含量足夠大,且p和1-p不太小,則樣本率
的分布近似正態(tài)分布。
公式為: P為樣本率,為率的標(biāo)準(zhǔn)誤的估計(jì)值,
例5-7 用某種儀器檢查已確診的乳腺癌患者94例,檢出率為78.3%。估計(jì)該儀器乳腺癌總體檢出率的95%置信區(qū)間。
分析:本例樣本例數(shù)較大,且樣本率p不太小,可用正態(tài)近似法:
2. 查表法
當(dāng)n較小,如n≤50,特別是p和1-p接近0或1時(shí),應(yīng)按照二項(xiàng)分布的原理估計(jì)總體率的可信區(qū)間。
例5-5 某醫(yī)院對(duì)39名前列腺癌患者實(shí)施開放手術(shù)治療,術(shù)后有合并癥者2人,試估計(jì)該手術(shù)合并癥發(fā)生概率的95%置信區(qū)間。
注意:此表僅列出X≤n/2 的95%置信區(qū)間。
例5-6 某醫(yī)生用某藥物治療31例腦血管梗塞患者,其中25例患者治療有效,試求該藥物治療腦血管梗塞有效概率的95%置信區(qū)間。