卫生统计学重点笔记
来源:四六级 发布时间:2020-09-11 点击:
医师资格考试蓝宝书- 预防医学 医学统计学方法 第一节
基础概念和基础步骤(很关键)
一、统计工作基础步骤 设计(最关键、决定成败)、搜集资料、整理资料、分析资料。
总体:依据研究目标决定同质研究对象全体,确切地说,是性质相同全部观察单位某一变量值集合。总体指标为参数。
实际工作中,常常是从总体中随机抽取一定数量个体,作为样本,用样本信息来推断总体特征。样本指标为统计量。
因为总体中存在个体变异,抽样研究中所抽取样本,只包含总体中一部分个体,这种由抽样引发差异称为抽样误差。抽样误差愈小,用样本推断总体正确度愈高;反之,其正确度愈低。
某事件发生可能性大小称为概率,用 P 表示,在 0~1 之间,0 和 1 为肯定不发生和肯定发生,介于之间为偶然事件,<0.05 或 0.01 为小概率事件。
二、变量分类 变量:观察单位特征,分数值变量和分类变量。
第二节
数值变量数据统计描述(关键考点)
一、描述计量资料集中趋势指标有 1.均数
均数是算术均数简称,适适用于正态或近似正态分布。
2.几何均数
适适用于等比资料,尤其是对数正态分布计量资料。对数正态分布即原始数据呈偏态分布,经对数变换后(用原始数据对数值 lgX 替换 X)服从正态分布,观察值不能为 0,同时有正和负。
3.中位数
一组按大小次序排列观察值中位次居中数值。可用于描述任何分布,尤其是偏态分布资料集中位置,和分布不明或分布末端无确定数据资料中心位置。不能求均数和几何均数,但可求中位数。百分位数是个界值,将全部观察值分为两部分,有 X%比小,剩下比大,可用于计算正常值范围。
二、描述计量资料离散趋势指标 1.全距和四分位数间距。
2.方差和标准差
最为常见,适于正态分布,既考虑了离均差(观察值和总体均数之差),又考虑了观察值个数,方差使原来单位变成了平方,所以开方为标准差。均为数值越小,观察值变异度越小。
3.变异系数
多组间单位不一样或均数相差较大情况。变异系数计算公式为:CV=s/ X ×100%,公式中 s 为样本标准差, X 为样本均数。
三、标准差应用 表示观察值变异程度(或离散程度)。
在两组(或几组)资料均数相近、度量单位相同条件下,标准差大,表示观察值变异度大,即各观察值离均数较远,均数代表性较差;反之,表示各观察值多集中在均数周围,均数代表性很好。(常考!)
四、医学参考值计算方法,单双侧问题,医学为 95% 医学参考值是指正常人体或动物体多种生理常数,因为存在变异,多种数据不仅因人而异,而且同一个人还会随机体内外环境改变而改变,所以需要确定其波动范围,即正常值范围。
医学参考值计算公式:①正态分布资料 95%医学参考值:
X ±1.96s(双侧); X +1.645s或 X -1.645s(单侧),s 为标准差。②百分位数法 P 2.5 和 P 97.5 (双侧);P 5 或 P 95 (单侧)。
第三节
数值变量数据统计推断(关键考点)
一、标准误,标准误和标准差和样本含量关系 标准差和标准误区分。
样本标准误等于样本标准差除以根号下样本含量。标准误和标准差成正比;和样本含量平方根成反比。所以。为降低抽样误差,应尽可能确保足够大样本含量。
样本标准差和样本标准误是现有联络又有区分两个统计量,二者联络是公式:二者区分在于:样本标准差是反应样本中各观察值 X 1 ,X 2 ,……,X n 变异程度大小一个指标,它大小说明了对该样本代表性强弱。样本标准误是样本平均数 1,2,……标准差,它是抽样误差估量值,其大小说明了样本间变异程度大小及正确性高低。(掌握!)
二、t 分布和标准正态 u 分布关系 均以 0 为中心左右两侧完全对称分布,只是 t 分布曲线顶端较 u 分布低,两端翘。(v逐步增大,t 分布逐步迫近 u 分布)。
正态分布特点:①以均数为中心左右两侧完全对称分布;②两个参数,均数 u(位置参数)和 s(变异参数);③对称均数两侧面积相等。
三、总体均数估量 样本统计量推算总体均数有两个关键方面:区间估量和假设检验。样本均数估量总体均数称点估量。
总体均数区间估量(可信区间)概念:按一定可信度估量未知总体均数所在范围。其统计上习常见 95%(或 99%)可信区间表示总体均数μ有 95%(或 99%)可能在某一范围。可信区间两个要素,一为正确度,反应在可信度 1-α大小,即区间包含总体均数概率大小,当然愈靠近 1 愈好;二是精度,反应在区间长度,当然长度愈小愈好。在样本例数确定情况下,二者是矛盾,需要兼顾。
总体均数可信区间计算方法:
1.当 n 小按 t 分布原理用式计算可信区间为:
X ±t α /2 ,vS X
2.当 n 足够大
因 n 足够大时,t 分布迫近μ分布,按正态分布原理。用式估量可信区间为:
X ±μ α /2 SX 可信区间和医学参考值范围区分:二者意义和算法不一样。
四、假设检验步骤 1.建立假设:H 0 (无效,两样本代表总体均数相同),H 1 (备择,两样原来自不一样总体),当拒绝 H 0 就接收 H 1 ,不拒绝就不接收 H 1 。
2.确定显著性水平:区分大约率和小概率事件标准,通常取α=0.05。
3.计算统计量:依据资料类型和分析目标选择合适公式计算。
4.确定概率 P 值:将计算得到 t 值或 u 值查界值表得到 P 值和α值比较。
5.做出推断结论。
|t|值、P 值和统计结论 α |t|值 P 值 统计结论 0.05 <t0.05(v)
>0.05 不拒绝 H 0 ,差异无统计学意义 0.05 ≥t0.05(v)
≤0.05 拒绝 H 0 ,接收 H 1 ,差异有统计学意义 0.01 ≥t0.01(v)
≤0.01 拒绝 H 0 ,接收 H 1 ,差异有高度统计学意义 五、两均数假设检验(常考!)
1.样本均数和总体均数比较
u 检验和 t 检验用于样本均数和总体均数比较。理论上要求样原来自正态分布总体实际中,只要样本例数 n 较大,或 n 小但总体标准差σ已知,就选择 u 检验。n 较小且σ未知时,用于 t 检验。两样本均数比较时还要求两总体方差等。
XSt X 以算得统计量 t,按表所表示关系作判定。
2.配对资料比较
在医学研究中,常见配对设计。配对设计关键有四种情况:①同一受试对象处理前后数据;②同一受试对象两个部位数据;③同一样品用两种方法(仪器等)检验结果;④配正确两个受试对象分别接收两种处理后数据。情况①目标是推断其处理有没有作用;情况②、③、④目标是推断两种处理(方法等)结果有没有差异。
n S Std d/d 0 d
v=对子数-1;如处理前后或两法无差异,则其差数 d 总体均数应为 0,可看作样本均数d 和总体均数 0 比较。
d 为差数均数;dS 为差数均数标准误,S d 为差数标准差;n 为对子数。因计算统计量是 t,按表所表示关系作判定。
3.完全随机设计两样本均数比较
亦称成组比较。目标是推断两样本各自代表总体均数μ 1 和μ 2 是否相等。依据样本含量 n 大小,分 u 检验和 t 检验。
t 检验用于两样本含量 n 1 、n 2 较小时,且要求两总体方差相等,即方差齐。若被检验两样本方差相差显著则需用 t′检验。
u 检验:两样本量足够大,n>50。
2X XXX2 11St
2 1X XS= ) (2 12 1 2Cn nn nS 2 -1) - ( 1) - (2 1122 121 2Cn nn S n SS
v=(n 1 -1)+(n 2 -1)=n 1 +n 2 -2 式中2 1X XS,为两样本均数之差标准误,Sc 2 为合并估量方差(combined estimate variance)。算得统计量为 t,按表所表示关系做出判定。
4.Ⅰ型错误和Ⅱ型错误
弃真,拒绝正确 H 0 为Ⅰ型错误α表示,若显著性水平α定为
0.05,则犯Ⅰ型错误概率 0.05;接收错误 H 0 为Ⅱ型错误,概率用β表示,β值大小极难确切估量。当样本含量一定时,二者反比,增大 n,当α一定时,可降低β。1-β称为检验效能或把握度,其统计意义是若两总体确有差异,按α水准能检出其差异能力。
客观实际
拒绝 H 0
不拒绝 H 0
H 0 成立
Ⅰ型错误(α)
推断正确 1-α H 0 不成立
推断正确(1-β)
Ⅱ型错误(β)
5.假设检验注意事项
确保组间可比性;依据研究目标、资料类型和设计类型选择合适检验方法,熟悉多种检验方法应用条件;“显著是否”是统计学术语,为“有没有统计学意义”,不能了解为“差异是不是大”;结论不能绝对化。
第四节
分类变量资料统计描述(通常考点)
相对数是两个相关联事物数据之比。常见相对数指标有组成比、率、相对比等。
一、组成比 表示事物内部各个组成部分所占比重,通常以 100 为例基数,故又称为百分比。其公式以下:
组成比=个体数总和 事物内部各构成部分的的个体数 事物内部某一构成部分×100% 该式可用符号表示以下:
组成比= C B AA×100% 组成比有两个特点:
(1)各组成部分相对数之和为 100%. (2)某一部分所占比重增大,其它部分会对应地降低。
二、率 用以说明某种现象发生频率或强度,故又称频率指标,以 100,1000,10000 或 100000为百分比基数(K)均可,标准上以结果最少保留一位整数为宜,其计算公式为:
率和组成比不一样之处:率大小仅取决于某种现象发生数和可能发生该现象总数,不受其它指标影响,而且各率之和通常不为 1。
率=可能发生某现象的总数某现象实际发生例数×K 该式亦可用符号表示以下 阳性率=) ( ) () ( A AA×K(若算阴性率则分子为 A ( - )
)
式中 A ( + )
为阳性人数,A ( - )
为阴性人数。
三、相对比 表示相关事物指标之对比,常以百分数和倍数表示,其公式为:
相对比:甲指标/乙指标(或×100%)
或用符号表示为:A/B×K 四、注意事项 ①组成比和率不一样,不能以比代率;②计算相对数时,观察例数不宜过小;③率比较注意可比性,尤其是混杂原因问题,有话,可用标准化法和分层分析消除;④观察单位不一样多个率平均率不等于多个率算术均数;⑤样本率或组成比比较应做假设检验。
第五节
分类变量资料统计推断(很关键)
一、率抽样误差 用抽样方法进行研究时,肯定存在抽样误差。率抽样误差大小可用率标准误来表示,计算公式以下:
σ p=nπ) π(1 式中:σ p 为率标准误,π为总体阳性率,n 为样本含量。因为实际工作中极难知道总体阳性率π,故通常采取样本率 P 来替换,而上式就变为 S p=nP) P(1 二、总体率可信区间 因为样本率和总体率之间存在着抽样误差,所以也需依据样本率来推算总体率所在范围,依据样本含量 n 和样本率 P 大小不一样,分别采取下列两种方法:
(一)正态近似法(常考!)
当样本含量 n 足够大,且样本率 P 和(1-P)均不太小,如 nP 或 n(1-P)均≥5 时,样本率分布近似正态分布。则总体率可信区间可由下列公式估量:
总体率(π)95%可信区间:p±1.96s p
总体率(π)99%可信区间:p±2.58s p
(二)查表法
当样本含量 n 较小,如 n≤50,尤其是 P 靠近 0 或 1 时,则按二项分布原理确定总体率可信区间,其计算较繁,读者可依据样本含量 n 和阳性数 x 参考专用统计学介绍二项分布中 95%可信限表。
三、u 检验(很关键!)
当样本含量 n 足够大,且样本率 P 和(1-P)均不太小,如 nP 或 n(1-P)均≥5 时,样本率分布近似正态分布。样本率和总体率之间、两个样本率之间差异判定可用 u 检验。
1.样本率和总体率比较公式
u=|P-π|/σ P =|P-π|/ n π)/ π(1 ; 2.两样本率比较公式
u=|P 1 -P 2 |/Sp 1 -P 2 =|P 1 -P 2 |/ ) 1/ )(1/ (12 1n n p pc c
也可用χ 2 检验,二者相等。
四、χ 2 检验(很关键!)
可用于两个及两个以上率或组成比比较;两分类变量相关关系分析。其数据组成,一定是相互对立两组数据,四格表资料自由度 v 永远=1。
四格表χ 2 检验多种公式适用条件,n>40 且每个格子 T>5,可用基础公式或专用公式,不用校正。
基础公式:χ 2 =∑(A-T)
2 /T 专用公式:χ 2 =∑(ad-bc)
2 n/(a+b)(c+d)(a+c)(b+d)
只要有一个格子 T 在 1~5 之间,需校正。校正公式:
基础公式:χ 2 =∑(|A-T|-0.5)
2 /T 专用公式:χ 2 =∑(|ad-bc|-n/2)
2 n/(a+b)(c+d)(a+c)(b+d)
n<40 或 T<1,用确切概率法。
五、行×列表χ 2 检验 当行数或列数超出 2 时,称为行×列表。行×列表χ 2 检验是对多个样本率(或组成比)
检验。
适用条件:通常认为行×列表中不宜有 1/5 以上格子理论数小于 5,或有小于 1 理论数。
1.当理论数太小可采取下列方法处理
①增加样本含量以增大理论数;②删去上述理论数太小行和列;③将太小理论数所在组和性质相近组合并,使重新计算理论数增大。因为后两法可能会损失信息,损害样本随机性,不一样合并方法有可能影响推断结论,故不宜作常规方法。另外,不能把不一样性质实际数合并,如研究血型时,不能把不一样血型资料合并。
2.如检验结果拒绝检验假设,只能认为各总体率或总体组成比之间总来说有差异,但不能说明它们相互之间全部有差异,或某二者间有差异。
3.相关单向有序行列表统计处理
在比较各处理组效应有没有差异时,宜用秩和检验法,如作χ 2 检验只说明各处理组效应在组成比上有没有差异。
六、配对计数资料χ 2 检验 同一样品用两种方法处理,观察阳性和阴性个数。判定两种处理方法是否相同。当b+c>40 时,χ 2 =(b-c)
2 /b+c;b+c<40 时,校正公式:χ 2 =(|b-c|-1)
2 /b+c
第六节
直线相关和回归(通常考点)
一、直线相关分析用途、相关系数及其意义 相关分析是研究事物或现象之间有没相关系、关系方向和亲密程度。
相关系数:是定量表示两个变量(X,Y)之间线性关系方向和亲密程度指标,用 r 表示,r=lxy/ lxxlxy ,其值在-1 至+1 间,r 没有单位。r 呈正值,两变量间呈正相关,即二者改变趋势是同向,r=1 时为完全正相关;如 r 呈负值,两变量呈负相关,即二者改变趋势是反向,r=-1 时为完全负相关。r 绝对值越靠近 1,两变量间线性相关越亲密;越靠近于 0,相关越不亲密。当 r=0 时,说明 X 和 Y 两个变量之间无直线关系。
二、直线回归分析作用、回归系数及其意义 直线回归分析任务在于找出两个变量有依存关系直线方程,以确定一条最靠近于各实测点直线,使各实测点和该线纵向距离平方和为最小。这个方程称为直线回归方程,据此方程描绘直线就是回归直线。
直线同归方程式通常表示式 Y=a+bX 式中 a 为回归直线在 Y 轴上截距,即 a>0 表示直线和 Y 轴交点在原点上方,<0 在原点下方,a=0 过原点。
b 为样本回归系数,即回归直线斜率,表示当 X 变动一个单位时,Y 平均变动 b 个单位。
b>0:表示 Y 随 X 增大而增大 b<0:表示 Y 随 X 增大而降低 b=0:表示 Y 不随 X 改变而改变
第七节
统计表和统计图(关键考点)
一、统计表 标准:结构简单、层次分明、内容安排合理、关键突出、数据正确。
1.标题
简练表示表中心内容,位置在表上方。
2.标目
有横标和纵标目,横标目通常在表内左侧;纵标目列在表内上方,其表示结果和主辞呼应。
3.线条
努力争取简练,通常为三线表。
4.用阿拉伯数表示,如无数据或暂缺资料,也可用“-”或“…”来表示。
5.备注
通常不列入表内,解释在表下。
内容排列:通常按事物发生频率大小次序来排列,对比鲜明,关键突出。
二、统计图 1.线图(line diagram)(常考!)
资料性质:适适用于连续变量资料。
分析目标:用线段升降表示某事物动态(差值)改变。
2.半对数线图(semilogarithmic line graph)
资料性质:适适用于连续变量资料。
分析目标:用线段升降表示事物发展速度改变趋势。
3.直方图(histogram)
资料性质:适适用于数值变量,连续性资料频数表资料。
分析目标:直方图是以直方面积表示各组段频数或频率。
4.直条图(bar chart)
资料性质:适适用于相互独立资料。
分析目标:直条图是用等宽直条和长短来表示各统计量大小,进行比较。
5.百分条图(percentchart)
资料性质:组成比。
分析目标:用长条各段长度(面积)表示内部组成比。
6.圆形图(circulargraph)(常考!)
资料性质:组成比。
分析目标:用圆扇形面积表示内部组成比。
7.散点图(scatterdiagram)
资料性质:双变量资料。
分析目标:用点密集度和趋势表示两变量间相关关系。
8.统计地图(statistical map)
资料性质:地域性资料。
分析目标:用不一样纹线或颜色代表指标高低,说明地域分布。
推荐访问:统计学 重点 卫生