卫生统计学重点笔记

来源:四六级 发布时间:2020-09-11 点击:

 医师资格考试蓝宝书- 预防医学 医学统计学方法 第一节

 基础概念和基础步骤(很关键)

 一、统计工作基础步骤 设计(最关键、决定成败)、搜集资料、整理资料、分析资料。

  总体:依据研究目标决定同质研究对象全体,确切地说,是性质相同全部观察单位某一变量值集合。总体指标为参数。

 实际工作中,常常是从总体中随机抽取一定数量个体,作为样本,用样本信息来推断总体特征。样本指标为统计量。

 因为总体中存在个体变异,抽样研究中所抽取样本,只包含总体中一部分个体,这种由抽样引发差异称为抽样误差。抽样误差愈小,用样本推断总体正确度愈高;反之,其正确度愈低。

 某事件发生可能性大小称为概率,用 P 表示,在 0~1 之间,0 和 1 为肯定不发生和肯定发生,介于之间为偶然事件,<0.05 或 0.01 为小概率事件。

 二、变量分类 变量:观察单位特征,分数值变量和分类变量。

 第二节

 数值变量数据统计描述(关键考点)

 一、描述计量资料集中趋势指标有 1.均数

 均数是算术均数简称,适适用于正态或近似正态分布。

 2.几何均数

 适适用于等比资料,尤其是对数正态分布计量资料。对数正态分布即原始数据呈偏态分布,经对数变换后(用原始数据对数值 lgX 替换 X)服从正态分布,观察值不能为 0,同时有正和负。

 3.中位数

 一组按大小次序排列观察值中位次居中数值。可用于描述任何分布,尤其是偏态分布资料集中位置,和分布不明或分布末端无确定数据资料中心位置。不能求均数和几何均数,但可求中位数。百分位数是个界值,将全部观察值分为两部分,有 X%比小,剩下比大,可用于计算正常值范围。

 二、描述计量资料离散趋势指标 1.全距和四分位数间距。

 2.方差和标准差

 最为常见,适于正态分布,既考虑了离均差(观察值和总体均数之差),又考虑了观察值个数,方差使原来单位变成了平方,所以开方为标准差。均为数值越小,观察值变异度越小。

 3.变异系数

 多组间单位不一样或均数相差较大情况。变异系数计算公式为:CV=s/ X ×100%,公式中 s 为样本标准差, X 为样本均数。

 三、标准差应用 表示观察值变异程度(或离散程度)。

 在两组(或几组)资料均数相近、度量单位相同条件下,标准差大,表示观察值变异度大,即各观察值离均数较远,均数代表性较差;反之,表示各观察值多集中在均数周围,均数代表性很好。(常考!)

 四、医学参考值计算方法,单双侧问题,医学为 95% 医学参考值是指正常人体或动物体多种生理常数,因为存在变异,多种数据不仅因人而异,而且同一个人还会随机体内外环境改变而改变,所以需要确定其波动范围,即正常值范围。

 医学参考值计算公式:①正态分布资料 95%医学参考值:

 X ±1.96s(双侧); X +1.645s或 X -1.645s(单侧),s 为标准差。②百分位数法 P 2.5 和 P 97.5 (双侧);P 5 或 P 95 (单侧)。

 第三节

 数值变量数据统计推断(关键考点)

 一、标准误,标准误和标准差和样本含量关系 标准差和标准误区分。

 样本标准误等于样本标准差除以根号下样本含量。标准误和标准差成正比;和样本含量平方根成反比。所以。为降低抽样误差,应尽可能确保足够大样本含量。

 样本标准差和样本标准误是现有联络又有区分两个统计量,二者联络是公式:二者区分在于:样本标准差是反应样本中各观察值 X 1 ,X 2 ,……,X n 变异程度大小一个指标,它大小说明了对该样本代表性强弱。样本标准误是样本平均数 1,2,……标准差,它是抽样误差估量值,其大小说明了样本间变异程度大小及正确性高低。(掌握!)

 二、t 分布和标准正态 u 分布关系 均以 0 为中心左右两侧完全对称分布,只是 t 分布曲线顶端较 u 分布低,两端翘。(v逐步增大,t 分布逐步迫近 u 分布)。

 正态分布特点:①以均数为中心左右两侧完全对称分布;②两个参数,均数 u(位置参数)和 s(变异参数);③对称均数两侧面积相等。

 三、总体均数估量 样本统计量推算总体均数有两个关键方面:区间估量和假设检验。样本均数估量总体均数称点估量。

 总体均数区间估量(可信区间)概念:按一定可信度估量未知总体均数所在范围。其统计上习常见 95%(或 99%)可信区间表示总体均数μ有 95%(或 99%)可能在某一范围。可信区间两个要素,一为正确度,反应在可信度 1-α大小,即区间包含总体均数概率大小,当然愈靠近 1 愈好;二是精度,反应在区间长度,当然长度愈小愈好。在样本例数确定情况下,二者是矛盾,需要兼顾。

 总体均数可信区间计算方法:

 1.当 n 小按 t 分布原理用式计算可信区间为:

 X ±t α /2 ,vS X

 2.当 n 足够大

 因 n 足够大时,t 分布迫近μ分布,按正态分布原理。用式估量可信区间为:

 X ±μ α /2 SX 可信区间和医学参考值范围区分:二者意义和算法不一样。

 四、假设检验步骤 1.建立假设:H 0 (无效,两样本代表总体均数相同),H 1 (备择,两样原来自不一样总体),当拒绝 H 0 就接收 H 1 ,不拒绝就不接收 H 1 。

 2.确定显著性水平:区分大约率和小概率事件标准,通常取α=0.05。

 3.计算统计量:依据资料类型和分析目标选择合适公式计算。

 4.确定概率 P 值:将计算得到 t 值或 u 值查界值表得到 P 值和α值比较。

 5.做出推断结论。

 |t|值、P 值和统计结论 α |t|值 P 值 统计结论 0.05 <t0.05(v)

 >0.05 不拒绝 H 0 ,差异无统计学意义 0.05 ≥t0.05(v)

 ≤0.05 拒绝 H 0 ,接收 H 1 ,差异有统计学意义 0.01 ≥t0.01(v)

 ≤0.01 拒绝 H 0 ,接收 H 1 ,差异有高度统计学意义 五、两均数假设检验(常考!)

 1.样本均数和总体均数比较

 u 检验和 t 检验用于样本均数和总体均数比较。理论上要求样原来自正态分布总体实际中,只要样本例数 n 较大,或 n 小但总体标准差σ已知,就选择 u 检验。n 较小且σ未知时,用于 t 检验。两样本均数比较时还要求两总体方差等。

 XSt X 以算得统计量 t,按表所表示关系作判定。

 2.配对资料比较

 在医学研究中,常见配对设计。配对设计关键有四种情况:①同一受试对象处理前后数据;②同一受试对象两个部位数据;③同一样品用两种方法(仪器等)检验结果;④配正确两个受试对象分别接收两种处理后数据。情况①目标是推断其处理有没有作用;情况②、③、④目标是推断两种处理(方法等)结果有没有差异。

 n S Std d/d 0 d

 v=对子数-1;如处理前后或两法无差异,则其差数 d 总体均数应为 0,可看作样本均数d 和总体均数 0 比较。

 d 为差数均数;dS 为差数均数标准误,S d 为差数标准差;n 为对子数。因计算统计量是 t,按表所表示关系作判定。

 3.完全随机设计两样本均数比较

 亦称成组比较。目标是推断两样本各自代表总体均数μ 1 和μ 2 是否相等。依据样本含量 n 大小,分 u 检验和 t 检验。

 t 检验用于两样本含量 n 1 、n 2 较小时,且要求两总体方差相等,即方差齐。若被检验两样本方差相差显著则需用 t′检验。

 u 检验:两样本量足够大,n>50。

 2X XXX2 11St

 2 1X XS= ) (2 12 1 2Cn nn nS 2 -1) - ( 1) - (2 1122 121 2Cn nn S n SS

 v=(n 1 -1)+(n 2 -1)=n 1 +n 2 -2 式中2 1X XS,为两样本均数之差标准误,Sc 2 为合并估量方差(combined estimate variance)。算得统计量为 t,按表所表示关系做出判定。

 4.Ⅰ型错误和Ⅱ型错误

 弃真,拒绝正确 H 0 为Ⅰ型错误α表示,若显著性水平α定为

 0.05,则犯Ⅰ型错误概率 0.05;接收错误 H 0 为Ⅱ型错误,概率用β表示,β值大小极难确切估量。当样本含量一定时,二者反比,增大 n,当α一定时,可降低β。1-β称为检验效能或把握度,其统计意义是若两总体确有差异,按α水准能检出其差异能力。

 客观实际

 拒绝 H 0

  不拒绝 H 0

 H 0 成立

  Ⅰ型错误(α)

 推断正确 1-α H 0 不成立

 推断正确(1-β)

 Ⅱ型错误(β)

 5.假设检验注意事项

 确保组间可比性;依据研究目标、资料类型和设计类型选择合适检验方法,熟悉多种检验方法应用条件;“显著是否”是统计学术语,为“有没有统计学意义”,不能了解为“差异是不是大”;结论不能绝对化。

 第四节

 分类变量资料统计描述(通常考点)

 相对数是两个相关联事物数据之比。常见相对数指标有组成比、率、相对比等。

 一、组成比 表示事物内部各个组成部分所占比重,通常以 100 为例基数,故又称为百分比。其公式以下:

 组成比=个体数总和 事物内部各构成部分的的个体数 事物内部某一构成部分×100% 该式可用符号表示以下:

 组成比=     C B AA×100% 组成比有两个特点:

 (1)各组成部分相对数之和为 100%. (2)某一部分所占比重增大,其它部分会对应地降低。

 二、率 用以说明某种现象发生频率或强度,故又称频率指标,以 100,1000,10000 或 100000为百分比基数(K)均可,标准上以结果最少保留一位整数为宜,其计算公式为:

 率和组成比不一样之处:率大小仅取决于某种现象发生数和可能发生该现象总数,不受其它指标影响,而且各率之和通常不为 1。

 率=可能发生某现象的总数某现象实际发生例数×K 该式亦可用符号表示以下 阳性率=) ( ) () (  A AA×K(若算阴性率则分子为 A ( - )

 )

 式中 A ( + )

 为阳性人数,A ( - )

 为阴性人数。

 三、相对比 表示相关事物指标之对比,常以百分数和倍数表示,其公式为:

 相对比:甲指标/乙指标(或×100%)

 或用符号表示为:A/B×K 四、注意事项 ①组成比和率不一样,不能以比代率;②计算相对数时,观察例数不宜过小;③率比较注意可比性,尤其是混杂原因问题,有话,可用标准化法和分层分析消除;④观察单位不一样多个率平均率不等于多个率算术均数;⑤样本率或组成比比较应做假设检验。

 第五节

 分类变量资料统计推断(很关键)

 一、率抽样误差 用抽样方法进行研究时,肯定存在抽样误差。率抽样误差大小可用率标准误来表示,计算公式以下:

 σ p=nπ) π(1 式中:σ p 为率标准误,π为总体阳性率,n 为样本含量。因为实际工作中极难知道总体阳性率π,故通常采取样本率 P 来替换,而上式就变为 S p=nP) P(1  二、总体率可信区间 因为样本率和总体率之间存在着抽样误差,所以也需依据样本率来推算总体率所在范围,依据样本含量 n 和样本率 P 大小不一样,分别采取下列两种方法:

 (一)正态近似法(常考!)

 当样本含量 n 足够大,且样本率 P 和(1-P)均不太小,如 nP 或 n(1-P)均≥5 时,样本率分布近似正态分布。则总体率可信区间可由下列公式估量:

 总体率(π)95%可信区间:p±1.96s p

 总体率(π)99%可信区间:p±2.58s p

 (二)查表法

 当样本含量 n 较小,如 n≤50,尤其是 P 靠近 0 或 1 时,则按二项分布原理确定总体率可信区间,其计算较繁,读者可依据样本含量 n 和阳性数 x 参考专用统计学介绍二项分布中 95%可信限表。

 三、u 检验(很关键!)

 当样本含量 n 足够大,且样本率 P 和(1-P)均不太小,如 nP 或 n(1-P)均≥5 时,样本率分布近似正态分布。样本率和总体率之间、两个样本率之间差异判定可用 u 检验。

 1.样本率和总体率比较公式

 u=|P-π|/σ P =|P-π|/ n π)/ π(1 ; 2.两样本率比较公式

 u=|P 1 -P 2 |/Sp 1 -P 2 =|P 1 -P 2 |/ ) 1/ )(1/ (12 1n n p pc c 

 也可用χ 2 检验,二者相等。

 四、χ 2 检验(很关键!)

 可用于两个及两个以上率或组成比比较;两分类变量相关关系分析。其数据组成,一定是相互对立两组数据,四格表资料自由度 v 永远=1。

 四格表χ 2 检验多种公式适用条件,n>40 且每个格子 T>5,可用基础公式或专用公式,不用校正。

 基础公式:χ 2 =∑(A-T)

 2 /T 专用公式:χ 2 =∑(ad-bc)

 2 n/(a+b)(c+d)(a+c)(b+d)

 只要有一个格子 T 在 1~5 之间,需校正。校正公式:

 基础公式:χ 2 =∑(|A-T|-0.5)

 2 /T 专用公式:χ 2 =∑(|ad-bc|-n/2)

 2 n/(a+b)(c+d)(a+c)(b+d)

 n<40 或 T<1,用确切概率法。

 五、行×列表χ 2 检验 当行数或列数超出 2 时,称为行×列表。行×列表χ 2 检验是对多个样本率(或组成比)

 检验。

 适用条件:通常认为行×列表中不宜有 1/5 以上格子理论数小于 5,或有小于 1 理论数。

 1.当理论数太小可采取下列方法处理

 ①增加样本含量以增大理论数;②删去上述理论数太小行和列;③将太小理论数所在组和性质相近组合并,使重新计算理论数增大。因为后两法可能会损失信息,损害样本随机性,不一样合并方法有可能影响推断结论,故不宜作常规方法。另外,不能把不一样性质实际数合并,如研究血型时,不能把不一样血型资料合并。

 2.如检验结果拒绝检验假设,只能认为各总体率或总体组成比之间总来说有差异,但不能说明它们相互之间全部有差异,或某二者间有差异。

 3.相关单向有序行列表统计处理

 在比较各处理组效应有没有差异时,宜用秩和检验法,如作χ 2 检验只说明各处理组效应在组成比上有没有差异。

 六、配对计数资料χ 2 检验 同一样品用两种方法处理,观察阳性和阴性个数。判定两种处理方法是否相同。当b+c>40 时,χ 2 =(b-c)

 2 /b+c;b+c<40 时,校正公式:χ 2 =(|b-c|-1)

 2 /b+c

 第六节

 直线相关和回归(通常考点)

 一、直线相关分析用途、相关系数及其意义 相关分析是研究事物或现象之间有没相关系、关系方向和亲密程度。

 相关系数:是定量表示两个变量(X,Y)之间线性关系方向和亲密程度指标,用 r 表示,r=lxy/ lxxlxy ,其值在-1 至+1 间,r 没有单位。r 呈正值,两变量间呈正相关,即二者改变趋势是同向,r=1 时为完全正相关;如 r 呈负值,两变量呈负相关,即二者改变趋势是反向,r=-1 时为完全负相关。r 绝对值越靠近 1,两变量间线性相关越亲密;越靠近于 0,相关越不亲密。当 r=0 时,说明 X 和 Y 两个变量之间无直线关系。

 二、直线回归分析作用、回归系数及其意义 直线回归分析任务在于找出两个变量有依存关系直线方程,以确定一条最靠近于各实测点直线,使各实测点和该线纵向距离平方和为最小。这个方程称为直线回归方程,据此方程描绘直线就是回归直线。

 直线同归方程式通常表示式 Y=a+bX 式中 a 为回归直线在 Y 轴上截距,即 a>0 表示直线和 Y 轴交点在原点上方,<0 在原点下方,a=0 过原点。

 b 为样本回归系数,即回归直线斜率,表示当 X 变动一个单位时,Y 平均变动 b 个单位。

 b>0:表示 Y 随 X 增大而增大 b<0:表示 Y 随 X 增大而降低 b=0:表示 Y 不随 X 改变而改变

 第七节

 统计表和统计图(关键考点)

 一、统计表 标准:结构简单、层次分明、内容安排合理、关键突出、数据正确。

 1.标题

 简练表示表中心内容,位置在表上方。

 2.标目

 有横标和纵标目,横标目通常在表内左侧;纵标目列在表内上方,其表示结果和主辞呼应。

 3.线条

 努力争取简练,通常为三线表。

 4.用阿拉伯数表示,如无数据或暂缺资料,也可用“-”或“…”来表示。

 5.备注

 通常不列入表内,解释在表下。

 内容排列:通常按事物发生频率大小次序来排列,对比鲜明,关键突出。

 二、统计图 1.线图(line diagram)(常考!)

 资料性质:适适用于连续变量资料。

 分析目标:用线段升降表示某事物动态(差值)改变。

 2.半对数线图(semilogarithmic line graph)

 资料性质:适适用于连续变量资料。

 分析目标:用线段升降表示事物发展速度改变趋势。

 3.直方图(histogram)

 资料性质:适适用于数值变量,连续性资料频数表资料。

 分析目标:直方图是以直方面积表示各组段频数或频率。

 4.直条图(bar chart)

 资料性质:适适用于相互独立资料。

 分析目标:直条图是用等宽直条和长短来表示各统计量大小,进行比较。

 5.百分条图(percentchart)

 资料性质:组成比。

 分析目标:用长条各段长度(面积)表示内部组成比。

 6.圆形图(circulargraph)(常考!)

 资料性质:组成比。

 分析目标:用圆扇形面积表示内部组成比。

 7.散点图(scatterdiagram)

 资料性质:双变量资料。

 分析目标:用点密集度和趋势表示两变量间相关关系。

 8.统计地图(statistical map)

 资料性质:地域性资料。

 分析目标:用不一样纹线或颜色代表指标高低,说明地域分布。

推荐访问:统计学 重点 卫生
上一篇:在全市“十四五”规划编制工作推进会议上讲话
下一篇:交通组织方案

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有