参数估计
1 参数估计
1.1 统计量
统计量实际上是一种对样本数据信息的压缩。一个好的统计量,应该能把样本中包含总体的信息全部提炼出来,而不损失任何信息,这样的统计量称为充分统计量(sufficient statistic)。
1.2 抽样分布
1.2.1 样本均数\(\bar X\)的抽样分布
抽样误差是抽样研究固有的属性,不可避免,它是由个体变异和抽样共同引起的。
- 总体方差已知,或总体方差未知但样本量足够大时
\[\bar X \sim N(\mu,\sigma_{\bar X}^2)\] 将\(\bar X\)标准化,有: \[U=\frac{\bar X-\mu}{\sigma_{\bar X}}=\frac{\bar X-\mu}{\sigma_ X/\sqrt{n}}\] U为标准化随机变量,\(U\sim N(0,1)\)。
若从一个非正态总体中随机抽样,且样本量足够大\((n\geq30)\),样本均数\(\bar X\)的抽样分布又该如何?
中心极限定理(Central limit theorems):中心极限定理指的是给定一个任意分布的总体\(X\),只要存在有限的方差\(\sigma^2(\sigma^2\neq0)\),则当样本量n足够大时,样本均数\(\bar X\)的抽样分布将近似的服从均数为\(\mu\)和方差为\(\sigma_{\bar X}^2\)的正态分布。 \[\bar X\simeq N(\mu,\frac{\sigma^2}{n})\] 在大样本量条件下,由于样本方差\(S^2\)对总体方差\(\sigma^2\)的估计误差非常小,实践中我们可以直接用\(S^2\)替代\(\sigma^2\)进行计算。
每次从这些总体中随机抽取\(n\)个抽样,一共抽\(m\)次。然后把这\(m\)组抽样分别求出平均值。这些平均值的分布接近正态分布。
1.2.2 样本方差\(S^2\)的抽样分布
\[\frac{(n-1)S^2}{\sigma^2}\sim \chi^2(v)\] \(\chi^2\)分布式赫尔默特(F.R. Helmert)于1875年研究来自正态总体的样本方差的抽样分布时得出的,其密度函数为: \[f_v(x)=\begin{cases} \frac{1}{2^{\frac{v}{2}}\Gamma\left(\frac{v}{2}\right)}y^{\frac{v}{2}-1}\mathrm{e}^{-\frac{\chi^2}{2}},&\chi^2>0\\ 0,&\chi^2\leq0\end{cases}\] \(\chi^2\)分布和\(t\)分布一样,是依赖于参数(自由度)的一簇分布。随着自由度的增加,其分布曲线由正偏态分布趋近于正态分布。
1.2.3 样本率的抽样分布
率的统计指标 | 计算公式 |
---|---|
样本率\(p\)的总体均数 | \(\mu_{p}=\pi\) |
样本量\(p\)的方差 | \(\sigma_p^2=\frac{\pi(1-\pi)}{n}\)(理论值);\(S_p^2=\frac{p(1-p)}{n}\)(估计值) |
样本率\(p\)的标准差 | \(\sigma_p=\sqrt{\frac{\pi(1-\pi)}{n}}\)(理论值);\(S_p=\sqrt{\frac{p(1-p)}{n}}\)(估计值) |
率的标准误 | \(\sigma_p=\sqrt{\frac{\pi(1-\pi)}{n}}\)(理论值);\(S_p=\sqrt{\frac{p(1-p)}{n}}\)(估计值) |
1.2.4 样本均数及其抽样分布
均数的统计指标 | 计算公式 |
---|---|
样本均数 | \(\bar X=\frac{\sum_\limits{i=1}^{n}X_i}{n}\) |
样本方差 | \(\sigma^2=\frac{\sum_\limits{i=1}^{n}(\mu-\bar \mu)^2}{n}\)(理论值);\(S^2=\frac{\sum_\limits{i=1}^{n}(X_i-\bar X)^2}{n-1}\)(估计值) 1 |
样本均数标准误(SE) | \(\sigma_{\bar X}=\frac{\sigma}{\sqrt{n}}\)(理论值);\(S_{\bar X}=\frac{S}{\sqrt{n}}\)(估计值) |
大数定律(Law of large Numbers):当随机事件发生的次数足够多时,随机事件发生的频率趋近于预期的概率。可以简单理解为样本数量越多,其平概率越接近于期望值。大数定律的条件:
- 独立重复事件;
- 重复次数足够多。
2 置信区间
2.1 置信区间与医学参考值范围的辨析
2.1.1 标准差与标准误
类目 | 标准差 | 均数的标准误 |
---|---|---|
定义 | 描述一组变量的离散程度,并可以作为总体标准差的点估计 | 描述多个样本均数的离散程度,并且是样本均数的标准差估计值 |
应用 | 1. 标准差越小,个体资料的离散程度就越小,说明变量值围绕均数分布越紧密,均数的代表性越好 2.估计医学参考值范围,计算变异系数和标准误 |
1. 标准误越小,统计量的平均抽样误差就越小,说明样本均数和总体均数的平均差异越小,用样本均数估计总体均数的可靠性越大; 2. 计算置信区间、进行假设检验 |
与n的关系 | n越大,样本标准差随机波动的幅度越来越小,并且稳定在总体标准差附近 | n越大,样本均数的标准误越小,并且趋向于0 |
控制方法 | 个体差异,不能通过统计方法控制 | 增加n,可以减小标准误 |
二者联系 | 1. 两者都是变异指标 2. 在n相同的情况下,标准差越大,标准误相对越大;标准差越小,标准误也相对越小。正比关系 3. \(\sigma_{\bar x}=\frac{\sigma}{\sqrt{n}}\),\(\sigma_{\bar x}\)与\(\sigma\)成正比,与\(\sqrt{n}\)成反比。 |
2.1.2 置信区间与医学参考值范围
类目 | 总体均数的置信区间 | 医学参考值范围 |
---|---|---|
含义 | 按照预先给定的概率,确定的包含未知总体参数\(\mu\)(总体均数)的可能范围 | 指特定的“正常”人群(排除了对所研究指标有影响的疾病和有关因素的人群)的生理生化指标中大多数个体的取值所在的范围 |
举例 | 若某一样本的均值为10,其95%可信区间为(9.5,10.5),这就表示总体均数介于(9.5,10.5)之间的可信度为95% | 假设空腹血糖95%正常值范围为(3.6,6.1),这就是指95%正常人的空腹血糖值介于(3.6,6.1)之间 |
计算 | 1. 总体标准差位置,且样本量n不大,根据t分布计算; 2. 总体标准差未知,n足够大,正态近似法; 3. 总体标准差已知,根据Z分布计算 |
1. 正态分布法; 2. 偏态分布法 |
用途 | 总体均数的区间估计(估计未知的总体均数所在范围 | 1. 个体值的波动范围; 2. 绝大多数观察对象某指标分布范围; 3. 医学判断个体某指标是否正常 |
95%理解的常见误区 | ||
区别 |
2.2 置信区间的含义与常见说法辨析
- 在95%置信区间内有95%的总体参数在该区间?×
- 在95%置信区间内,该区间包含了95%的总体参数?×
- 以\(1-\alpha=95\%\)算得的100个可信区间中,平均有95个可信区间包含了总体均数,而另外5个未包含总体均数。√
- 在95%置信区间,该区间有95%的可能包含总体参数?×
- 该区间包含总体参数,可信度在95%。√
- 总体参数有95%的可能落在该区间。×
2.3 置信区间的两要素及影响因素
2.3.1 置信区间的两要素
置信水平(Confidence Level)
置信水平是指在多次重复抽样时,置信区间覆盖总体参数的比例。常见的置信水平有95%、99%等。置信水平越高,表示对总体参数的估计越保守,但置信区间也会变得更宽。置信区间的宽度(Width of Confidence Interval)
置信区间的宽度是指上下限之间的距离,反映了估计的精确程度。置信区间越窄,说明估计的精度越高,越宽则精度越低。
2.3.2 置信区间的影响因素
样本大小(Sample Size)
样本大小是置信区间宽度的一个关键决定因素。样本量越大,标准误差越小,置信区间越窄,从而提高估计的精确度。样本标准差(Sample Standard Deviation)
样本标准差反映数据的离散程度。样本的波动越大,置信区间越宽;样本的波动越小,置信区间越窄。置信水平
提高置信水平(例如从95%提高到99%)会导致置信区间变宽,因为要包含更多可能的参数值范围。总体分布的形状
如果数据服从正态分布且样本量较大,置信区间估计会更精确;对于非正态分布,特别是在样本量较小时,置信区间的估计可能不够准确。估计方法(Point Estimate and Statistical Technique)
使用不同的统计方法(如t分布、z分布)会对置信区间的范围造成影响。通常情况下,样本量较小时采用t分布,样本量较大时可以近似采用z分布。
3 假设检验
3.1 假设检验的基本步骤
步骤 | 内容 |
---|---|
建立假设检验,确定检验水准 | 1. 双侧检验:\(H_{0}:\mu_{d}=0;H_{1}:\mu_{d}\neq 0,\alpha=0.05\) 2. 单侧检验:\(H_{0}:\mu_{d}=0;H_{1}:\mu_{d}<0或\mu_{d}>0,\alpha=0.05\) |
1. 假设检验是针对总体的,而非样本; 2. 单双侧检验主要根据专业知识预先确定,并且还需要考虑差异的方向; 3. 单侧检验的检验效能更高。 |
|
计算并选择检验统计量 | 1. 根据研究设计方案、资料类型、样本含量大小及分析目的选用适当的检验方法,并根据样本资料计算相应的检验统计量; 2. 不同的检验方法要用不同的公式计算现有样本的检验统计量(\(t\)检验、\(\chi^2\)检验、\(F\)检验); 3. 检验统计量是在\(H_{0}\)成立的前提下计算的。 |
确定P值,做出推断 | 假设检验的统计学结论: 1. 若\(P\le \alpha\),按所取\(\alpha\)检验水准,拒绝\(H_{0}\),接受\(H_{1}\),可以认为…有差异; 2. 若\(P>\alpha\)时,现有样本信息还不足以拒绝H0,尚不能认为…有差异 |
假设检验所做出的的结论是具有概率性质的,不是绝对的肯定或否定。不论拒绝或不拒绝\(H_{0}\)都可能发生错误。下结论时,只能两种: 1. 两总体有无差异; 2. 两样本差异有无统计学意义。 |
3.2 假设检验的两型错误、检验效能
客观实际 | 拒绝\(H_{0}\),接受\(H_{1}\) | 不拒绝\(H_{0}\) |
---|---|---|
\(H_{0}\)成立 | \(\textrm{I}\)型错误(\(\alpha\))(假阳性) 错误拒绝实际成立的\(H_{0}\) |
正确推断(\(1-\alpha\)) |
\(H_{0}\)不成立 | 正确推断(\(1-\beta\)) \(H_{1}\)为真,能够拒绝\(H_{0}\)的概率称为发现该\(H_{1}\)的检验效能,用\(1-\beta\)表示 |
\(\textrm{II}\)型错误(\(\beta\))(假阴性) 不拒绝实际不成立的\(H_{0}\) |
3.2.1 \(1-\beta\)的影响因素:
- 检验水准\(\alpha\)(正向)——检验水准\(\alpha\)越大,检验效能越大
- \(H_{0}\)与\(H_{1}\)的差异大小(正向)——差异越大,检验效能越大
- 样本量(正向)——样本量越大,检验效能越大
- 标准差越大(反向)——个体差异(标准差)越小,检验效能越大
- 单双侧检验:单侧检验效能高于双侧检验效能
3.2.2 \(\alpha 、\beta 、1-\beta\)关系:
- 当样本量确定时,\(\alpha\)与\(\beta\)呈反向变化关系,与\(1-\beta\)呈正向变化关系。如果把\(\alpha\)设置得很小,势必增加犯\(\textrm{II}\)型错误的概率,从而降低检验效能;反之,如果把重点放在减少\(\beta\)上,势必增加犯\(\textrm{I}\)型错误的概率,从而降低了置信度。
- 要同时减小\(\alpha\)和\(\beta\),只有通过增加样本含量来计算。
3.3 假设检验与置信区间的关系
基本思想 | 假设检验 | 置信区间 |
---|---|---|
基本思想 | 假设检验的假设是指我们对总体特征(如参数、分布)的某种推测,从而用概率来判断样本数据所提供的的信息和我们对总体特征猜想的一致性,进而结合专业知识判断这一猜想的正确性 | 置信区间是指有样本统计量所构造的总体参数的估计区间,区间估计是按照一定的概率和可信度\((1-\alpha)\)用一个区间估计总体参数所在的范围,这个范围称作可信度为\((1-\alpha)\)的可信区间 |
区别 | 1. 假设检验用于推断总体参数之间是否不同 | 1. 置信区间用于推断总体参数所在范围; 2.置信区间比假设检验提供更多的信息,置信区间能够回答假设检验的问题; 3. 置信区间在回答差别有无统计学意义时,还可以提示差别是否具有实际意义。 |
联系 | 1. 假设检验与置信区间都属于统计推断方法; 2. 置信区间估计总体参数所采用的的统计量与假设检验的检验统计量相同; |
3.置信区间能够回答假设检验的问题。根据置信度\(1-\alpha\)构造置信区间,如果统计量在置信区间内,那么不拒绝原假设;如果不在置信区间中,那么拒绝原假设; 4. 双侧检验时,置信区间确定的\(z'\)与检验水准\(\alpha\)确定的检验统计量的分布界值相同,因此,在双侧检验时\(C=1-\alpha\)。根据显著水平\(\alpha\),可以构造置信度为\(1-\alpha\)的置信区间 |
Footnotes
无偏方差:\(S^2\)作为样本方差,称之为无偏方差。样本方差是度量样本离散程度的统计量,其中n为样本量, \(\sum_{i=1}^{n}(x_i-\bar x)^2\)为偏差平方和,\(n-1\)称为偏差平方和的自由度,因为在\(\bar x\)确定后,\(x_i(i=1,2,\dots,n)\)中只有\(n-1\)个可以自由变动。↩︎