衛(wèi)生統(tǒng)計(jì)學(xué)-電子教材:第五章

來源：河北醫(yī)科大學(xué) 精品課程網(wǎng)

衛(wèi)生統(tǒng)計(jì)學(xué):電子教材第五章:第五章參數(shù)估計(jì)基礎(chǔ)第一節(jié)抽樣分布與抽樣誤差抽樣研究的目的就是要用樣本信息來推斷相應(yīng)總體的特征，這一過程稱為統(tǒng)計(jì)推斷。統(tǒng)計(jì)推斷包括兩方面的內(nèi)容：參數(shù)估計(jì)和假設(shè)檢驗(yàn)熟悉總體與樣本、統(tǒng)計(jì)量與參數(shù)、誤差與抽樣誤差誤差：泛指測(cè)得值與真值之差，樣本指標(biāo)與總體指標(biāo)之差。誤差按其產(chǎn)生的原因與性質(zhì)分為兩大類（系統(tǒng)誤差和偶然誤差)。1.系統(tǒng)誤差：由于受試對(duì)象、研究者、儀器設(shè)備、研究方法、非實(shí)驗(yàn)因素影響等確定性原因

第五章 參數(shù)估計(jì)基礎(chǔ)

第一節(jié)抽樣分布與抽樣誤差

抽樣研究的目的就是要用樣本信息來推斷相應(yīng)總體的特征，這一過程稱為統(tǒng)計(jì)推斷。

統(tǒng)計(jì)推斷包括兩方面的內(nèi)容：參數(shù)估計(jì)和假設(shè)檢驗(yàn)

熟悉總體與樣本、統(tǒng)計(jì)量與參數(shù)、誤差與抽樣誤差

誤差：泛指測(cè)得值與真值之差，樣本指標(biāo)與總體指標(biāo)之差。誤差按其產(chǎn)生的原因與性質(zhì)分為兩大類（系統(tǒng)誤差和偶然誤差)。

1.系統(tǒng)誤差：由于受試對(duì)象、研究者、儀器設(shè)備、研究方法、非實(shí)驗(yàn)因素影響等確定性原因造成，有一定52667788.cn/kuaiji/傾向性或規(guī)律性的誤差�？梢员苊�。

2.隨機(jī)測(cè)量誤差：由于多種無法控制的偶然因素引起，對(duì)同一樣品多次測(cè)量數(shù)據(jù)的不一致。無傾向性，不可避免。只可控制在一定的范圍內(nèi)。

3.抽樣誤差：由個(gè)體變異產(chǎn)生的、由于抽樣而造成的樣本統(tǒng)計(jì)量與樣本統(tǒng)計(jì)量及樣本統(tǒng)計(jì)量與總體參數(shù)之間的差異稱為抽樣誤差。無傾向性，不可避免

一、樣本均數(shù)的抽樣分布與抽樣誤差

均數(shù)的抽樣誤差：

由個(gè)體變異產(chǎn)生的、由于抽樣而造成的樣本均數(shù)與樣本均數(shù)及樣本均數(shù)與總體均數(shù)之間的差異稱為均數(shù)的抽樣誤差。用于表示均數(shù)抽樣誤差的指標(biāo)叫樣本均數(shù)的標(biāo)準(zhǔn)差，也稱樣本均數(shù)的標(biāo)準(zhǔn)誤。

抽樣實(shí)驗(yàn)：假定從13歲女學(xué)生身高總體均數(shù)，總體標(biāo)準(zhǔn)差的正態(tài)總體中進(jìn)行隨機(jī)抽樣。

v 樣本均數(shù)的分布特點(diǎn)：

1.各樣本均數(shù)未必等于總體均數(shù)；

2.樣本均數(shù)之間存在差異；

3.樣本均數(shù)的分布很有規(guī)律，圍繞著總體均數(shù)，中間多，兩邊少，左右基本對(duì)稱，也服從正態(tài)分布。

數(shù)理統(tǒng)計(jì)推理和中心極限定理表明：

1)從正態(tài)總體N(µ,σ2)中，隨機(jī)抽取例數(shù)為n的多個(gè)樣本，樣本均數(shù)服從正態(tài)分布；即使是從偏態(tài)總體中隨機(jī)抽樣，當(dāng)n足夠大時(shí)(如n＞50)，也近似正態(tài)分布。

2)從均數(shù)為µ，標(biāo)準(zhǔn)差為σ的正態(tài)或偏態(tài)總體中抽取例數(shù)為n的樣本，樣本均數(shù)的標(biāo)準(zhǔn)差即標(biāo)準(zhǔn)誤為：

表 100個(gè)樣本均數(shù)的頻數(shù)表與標(biāo)準(zhǔn)誤的計(jì)算表

身高組段頻數(shù) 組中值 fX fX²

152.6～ 1 152.9

153.2～ 4 153.5

153.8～ 4 154.1

154.4～ 22 154.7

155.0～ 25 155.3

155.6～ 21 155.9

156.2～ 17 156.5

156.8 ～ 3 157.1

157.4 ～ 2 157.7

158.0 ～ 1 158.3

合計(jì) 100

（標(biāo)準(zhǔn)誤的理論值)

標(biāo)準(zhǔn)誤的大小與σ的大小成正比，與n成反比，而σ為定值，說明可以通過增加樣本例數(shù)來減少標(biāo)準(zhǔn)誤，以降低抽樣誤差。

σ未知，用樣本標(biāo)準(zhǔn)差S來估計(jì)總體標(biāo)準(zhǔn)差σ。

（標(biāo)準(zhǔn)誤的估計(jì)值)

用來表示均數(shù)抽樣誤差的大小。

例5-1 2000年某研究所隨機(jī)調(diào)查某地健康成年男子27人，得到血紅蛋白的均數(shù)為125g/L，標(biāo)準(zhǔn)差為15g/L 。試估計(jì)該樣本均數(shù)的抽樣誤差。

二、樣本頻率的抽樣分布與抽樣誤差

從同一總體中隨機(jī)抽出觀察單位相等的多個(gè)樣本，樣本率與總體率及各樣本率之間都存在差異，這種差異是由于抽樣引起的，稱為頻率的抽樣誤差。

表示頻率的抽樣誤差大小的指標(biāo)叫頻率的標(biāo)準(zhǔn)誤。

據(jù)數(shù)理統(tǒng)計(jì)的原理，率的標(biāo)準(zhǔn)誤用表示：

π ：總體率，n：樣本例數(shù)。

當(dāng)π未知時(shí)，p π（為樣本含量足夠大，且p和1-p不太小)

公式為:

：率的標(biāo)準(zhǔn)誤的估計(jì)值，p：樣本率。

例5-2 某市隨機(jī)調(diào)查了50歲以上的中老年婦女776人，其中患有骨質(zhì)疏松癥者322人，患病率為41.5%，試計(jì)算該樣本頻率的抽樣誤差。

第二節(jié) t 分布

一、t分布的概念

在統(tǒng)計(jì)應(yīng)用中，可以把任何一個(gè)均數(shù)為µ，標(biāo)準(zhǔn)差為σ的正態(tài)分布N(µ,σ2)轉(zhuǎn)變?yōu)?micro;=0,σ=1的標(biāo)準(zhǔn)正態(tài)分布，即將正態(tài)變量值X用來代替

也服從正態(tài)分布，，服從標(biāo)準(zhǔn)正態(tài)分布N(0,1)

服從ν=n-1的t分布

二、t 分布的圖形和t 分布表

t分布曲線特點(diǎn)：

1) t分布曲線是單峰分布，它以0為中心，左右對(duì)稱。

2)t分布的形狀與樣本例數(shù)n有關(guān)。自由度越小，則越大，t 值越分散，曲線的峰部越矮，尾部翹的越高。

3) 當(dāng) n→∞時(shí)，則S逼近σ，t分布逼近標(biāo)準(zhǔn)正態(tài)分布。t分布不是一條曲線，而是一簇曲線。

正確使用t界值表！

與單側(cè)概率相對(duì)應(yīng)的t值用表示，與雙側(cè)概率相對(duì)應(yīng)的t值用表示。

由于t分布是以0為中心的對(duì)稱分布，表中只列出了正值，故查表時(shí)，不管t值正負(fù)只用絕對(duì)值表示。

第三節(jié) 總體均數(shù)及總體概率的估計(jì)

一、參數(shù)估計(jì)的概念

統(tǒng)計(jì)推斷包括參數(shù)估計(jì)和假設(shè)檢驗(yàn)。參數(shù)估計(jì)就是用樣本指標(biāo)（統(tǒng)計(jì)量)來估計(jì)總體指標(biāo)（參數(shù))。

點(diǎn)估計(jì)(point estimation)

參數(shù)估計(jì)

區(qū)間估計(jì)(interval estimation)

二、置信區(qū)間的計(jì)算

（一)總體均數(shù)的置信區(qū)間

1.點(diǎn)估計(jì)：

用樣本統(tǒng)計(jì)量直接作為總體參數(shù)的估計(jì)值。

例如于2000年測(cè)得某地27例健康成年男性血紅蛋白量的樣本均數(shù)為125g/L，試估計(jì)其總體均數(shù)。

，即認(rèn)為2000年該地所有健康成年男性血紅蛋白量的總體均數(shù)為125g/L 。

同理，例5-2中776名50歲以上的中老年婦女骨質(zhì)疏松癥的樣本患病率作為總體患病率的點(diǎn)值估計(jì)值，即認(rèn)為該市所有50歲以上的中老年婦女骨質(zhì)疏松癥的總體患病率約為41.5%。

2. 區(qū)間估計(jì)：按預(yù)先給定的概率(1－α)估計(jì)總體參數(shù)的可能范圍，該范圍就稱為總體參數(shù)的1－α置信區(qū)間(confidence interval CI)。

預(yù)先給定的概率(1－α)稱為置信度，常取95%或99%。如無特別說明，一般取雙側(cè)95%。

可信區(qū)間由兩個(gè)數(shù)值即置信限構(gòu)成，其中最小值稱為下限，最大值稱為上限。嚴(yán)格講，可信區(qū)間不包括上下限兩個(gè)端點(diǎn)值。

2．置信區(qū)間的計(jì)算

（1)σ已知，按標(biāo)準(zhǔn)正態(tài)分布原理計(jì)算

由z分布，標(biāo)準(zhǔn)正態(tài)曲線下有95%的z值在±1.96之間。

95%的雙側(cè)置信區(qū)間：

99%的雙側(cè)置信區(qū)間：

通式：（雙側(cè)) Z_а_/2為標(biāo)準(zhǔn)正態(tài)變量，Z_а_/2相當(dāng)于按ν=∞時(shí)及P取α，由附表2查的的t界值。

（2)σ未知但樣本例數(shù)n足夠大（n＞50)時(shí)

由t分布可知，自由度越大，t分布越逼近標(biāo)準(zhǔn)正態(tài)分布，此時(shí)t曲線下有95%的t值約在±1.96之間，即

95%的雙側(cè)置信區(qū)間：

99%的雙側(cè)置信區(qū)間：

通式：（雙側(cè))

例5-4 某市2000年隨機(jī)測(cè)量了90名19歲健康男大學(xué)生的身高，其均數(shù)為172.2cm，標(biāo)準(zhǔn)差為4.5cm,，試估計(jì)該地19歲健康男大學(xué)生的身高的95%置信區(qū)間。

該市19歲健康男大學(xué)生的身高的95%置信區(qū)間(171.3,173.1)cm

（3)σ未知且樣本例數(shù)n較小時(shí)，按t分布原理，此時(shí)

某自由度的t曲線下有95%的t值約在±t0.05(ν)之間，

95%的雙側(cè)置信區(qū)間：_{醫(yī)學(xué)全.在線52667788.cn}

99%的雙側(cè)置信區(qū)間：

通式： t_а_/2,ν 是按自由度ν=n-1，由附表2查得的t值。

例5-3 已知某地27例健康成年男性血紅蛋白量的均數(shù)為，標(biāo)準(zhǔn)差S=15g/L,試問該地健康成年男性血紅蛋白量的95%和99%置信區(qū)間。
本例n=27，S=15

95%CI：

99%CI：

置信區(qū)間的兩個(gè)要素

1. 準(zhǔn)確度：反映置信度1-α的大小，即區(qū)間包含總體均數(shù)的概率大小。

2. 精度：反映區(qū)間的長度。

在置信區(qū)間確定的情況下，增加樣本例數(shù)，會(huì)減小 t_а_,_ν 和，可減少區(qū)間長度，提高精度。

3．思考

（1)均數(shù)置信區(qū)間與參考值范圍的區(qū)別

意義：

95%的參考值范圍是指同質(zhì)總體內(nèi)包括95%個(gè)體值的估計(jì)范圍。若總體為正態(tài)分布，常按計(jì)算。

95%的可信區(qū)間是指按95%的置信度估計(jì)的總體參數(shù)的所在范圍。若為大樣本，按計(jì)算。

計(jì)算上：

置信區(qū)間用標(biāo)準(zhǔn)誤，參考值范圍用標(biāo)準(zhǔn)差。

（2)標(biāo)準(zhǔn)差與標(biāo)準(zhǔn)誤的區(qū)別與聯(lián)系

區(qū)別：

1)概念不同：標(biāo)準(zhǔn)差是描述樣本中個(gè)體值間的變異程度的指標(biāo)，標(biāo)準(zhǔn)差越小，表示變量值圍繞均數(shù)的波動(dòng)越小。標(biāo)準(zhǔn)誤是描述樣本均數(shù)間變異程度的指標(biāo)，標(biāo)準(zhǔn)誤越小，表示樣本均數(shù)圍繞總體均數(shù)的波動(dòng)越小。

2) 用途不同：標(biāo)準(zhǔn)差常用于表示變量值對(duì)均數(shù)波動(dòng)的大小，當(dāng)資料呈正態(tài)分布時(shí)，與均數(shù)結(jié)合可估計(jì)正常值范圍，計(jì)算變異系數(shù)等；標(biāo)準(zhǔn)誤常用于表示樣本統(tǒng)計(jì)量（樣本均數(shù)，樣本率)對(duì)總體參數(shù)（總體均數(shù)，總體率)的波動(dòng)情況，可估計(jì)參數(shù)的可信區(qū)間，進(jìn)行假設(shè)檢驗(yàn)。

3)與例數(shù)的關(guān)系不同：當(dāng)樣本含量足夠大時(shí)，標(biāo)準(zhǔn)差趨向穩(wěn)定。而標(biāo)準(zhǔn)誤隨例數(shù)的增大而減小，甚至趨向于0。若樣本含量趨向于總例數(shù)，則標(biāo)準(zhǔn)誤接近于0。

聯(lián)系；

二者均為變異指標(biāo)，如果把總體中各樣本均數(shù)看成一個(gè)變量，則標(biāo)準(zhǔn)誤可稱為樣本均數(shù)的標(biāo)準(zhǔn)差。當(dāng)樣本含量不變時(shí)，均數(shù)的標(biāo)準(zhǔn)誤與標(biāo)準(zhǔn)差成正比。兩者均可與均數(shù)結(jié)合運(yùn)用，但描述的內(nèi)容各不相同。

（二)、總體概率的置信區(qū)間

總體概率的置信區(qū)間與樣本含量n，陽性頻率p的大小有關(guān)，可根據(jù)n和p的大小選擇以下兩種方法。

1. 正態(tài)近似法

當(dāng)樣本含量足夠大，且p和1-p不太小，則樣本率

的分布近似正態(tài)分布。

公式為： P為樣本率，為率的標(biāo)準(zhǔn)誤的估計(jì)值，

例5-7 用某種儀器檢查已確診的乳腺癌患者94例，檢出率為78.3%。估計(jì)該儀器乳腺癌總體檢出率的95%置信區(qū)間。

分析：本例樣本例數(shù)較大，且樣本率p不太小，可用正態(tài)近似法：

2. 查表法

當(dāng)n較小，如n≤50，特別是p和1-p接近0或1時(shí)，應(yīng)按照二項(xiàng)分布的原理估計(jì)總體率的可信區(qū)間。

例5-5 某醫(yī)院對(duì)39名前列腺癌患者實(shí)施開放手術(shù)治療，術(shù)后有合并癥者2人，試估計(jì)該手術(shù)合并癥發(fā)生概率的95%置信區(qū)間。

注意：此表僅列出X≤n/2 的95%置信區(qū)間。