首页 > 外语 > 四六级 > 卫生统计学重点笔记

卫生统计学重点笔记

来源：四六级发布时间：2020-09-11 点击：

　医师资格考试蓝宝书- 预防医学医学统计学方法第一节

　基础概念和基础步骤（很关键）

　一、统计工作基础步骤设计（最关键、决定成败）、搜集资料、整理资料、分析资料。

　总体：依据研究目标决定同质研究对象全体，确切地说，是性质相同全部观察单位某一变量值集合。总体指标为参数。

　实际工作中，常常是从总体中随机抽取一定数量个体，作为样本，用样本信息来推断总体特征。样本指标为统计量。

　因为总体中存在个体变异，抽样研究中所抽取样本，只包含总体中一部分个体，这种由抽样引发差异称为抽样误差。抽样误差愈小，用样本推断总体正确度愈高；反之，其正确度愈低。

　某事件发生可能性大小称为概率，用 P 表示，在 0～1 之间，0 和 1 为肯定不发生和肯定发生，介于之间为偶然事件，<0.05 或 0.01 为小概率事件。

　二、变量分类变量：观察单位特征，分数值变量和分类变量。

　第二节

　数值变量数据统计描述（关键考点）

　一、描述计量资料集中趋势指标有 1.均数

　均数是算术均数简称，适适用于正态或近似正态分布。

　2.几何均数

　适适用于等比资料，尤其是对数正态分布计量资料。对数正态分布即原始数据呈偏态分布，经对数变换后（用原始数据对数值 lgX 替换 X）服从正态分布，观察值不能为 0，同时有正和负。

　3.中位数

　一组按大小次序排列观察值中位次居中数值。可用于描述任何分布，尤其是偏态分布资料集中位置，和分布不明或分布末端无确定数据资料中心位置。不能求均数和几何均数，但可求中位数。百分位数是个界值，将全部观察值分为两部分，有 X％比小，剩下比大，可用于计算正常值范围。

　二、描述计量资料离散趋势指标 1.全距和四分位数间距。

　2.方差和标准差

　最为常见，适于正态分布，既考虑了离均差（观察值和总体均数之差），又考虑了观察值个数，方差使原来单位变成了平方，所以开方为标准差。均为数值越小，观察值变异度越小。

　3.变异系数

　多组间单位不一样或均数相差较大情况。变异系数计算公式为：CV=s/ X ×100％，公式中 s 为样本标准差， X 为样本均数。

　三、标准差应用表示观察值变异程度（或离散程度）。

　在两组（或几组）资料均数相近、度量单位相同条件下，标准差大，表示观察值变异度大，即各观察值离均数较远，均数代表性较差；反之，表示各观察值多集中在均数周围，均数代表性很好。（常考！）

　四、医学参考值计算方法，单双侧问题，医学为 95％医学参考值是指正常人体或动物体多种生理常数，因为存在变异，多种数据不仅因人而异，而且同一个人还会随机体内外环境改变而改变，所以需要确定其波动范围，即正常值范围。

　医学参考值计算公式：①正态分布资料 95％医学参考值：

　X ±1.96s（双侧）； X +1.645s或 X -1.645s（单侧），s 为标准差。②百分位数法 P 2.5 和 P 97.5 （双侧）；P 5 或 P 95 （单侧）。

　第三节

　数值变量数据统计推断（关键考点）

　一、标准误，标准误和标准差和样本含量关系标准差和标准误区分。

　样本标准误等于样本标准差除以根号下样本含量。标准误和标准差成正比；和样本含量平方根成反比。所以。为降低抽样误差，应尽可能确保足够大样本含量。

　样本标准差和样本标准误是现有联络又有区分两个统计量，二者联络是公式：二者区分在于：样本标准差是反应样本中各观察值 X 1 ，X 2 ，……，X n 变异程度大小一个指标，它大小说明了对该样本代表性强弱。样本标准误是样本平均数 1，2，……标准差，它是抽样误差估量值，其大小说明了样本间变异程度大小及正确性高低。（掌握！）

　二、t 分布和标准正态 u 分布关系均以 0 为中心左右两侧完全对称分布，只是 t 分布曲线顶端较 u 分布低，两端翘。（v逐步增大，t 分布逐步迫近 u 分布）。

　正态分布特点：①以均数为中心左右两侧完全对称分布；②两个参数，均数 u（位置参数）和 s（变异参数）；③对称均数两侧面积相等。

　三、总体均数估量样本统计量推算总体均数有两个关键方面：区间估量和假设检验。样本均数估量总体均数称点估量。

　总体均数区间估量（可信区间）概念：按一定可信度估量未知总体均数所在范围。其统计上习常见 95％（或 99％）可信区间表示总体均数μ有 95％（或 99％）可能在某一范围。可信区间两个要素，一为正确度，反应在可信度 1-α大小，即区间包含总体均数概率大小，当然愈靠近 1 愈好；二是精度，反应在区间长度，当然长度愈小愈好。在样本例数确定情况下，二者是矛盾，需要兼顾。

　总体均数可信区间计算方法：

　1.当 n 小按 t 分布原理用式计算可信区间为：

　X ±t α /2 ，vS X

　2.当 n 足够大

　因 n 足够大时，t 分布迫近μ分布，按正态分布原理。用式估量可信区间为：

　X ±μ α /2 SX 可信区间和医学参考值范围区分：二者意义和算法不一样。

　四、假设检验步骤 1.建立假设：H 0 （无效，两样本代表总体均数相同），H 1 （备择，两样原来自不一样总体），当拒绝 H 0 就接收 H 1 ，不拒绝就不接收 H 1 。

　2.确定显著性水平：区分大约率和小概率事件标准，通常取α=0.05。

　3.计算统计量：依据资料类型和分析目标选择合适公式计算。

　4.确定概率 P 值：将计算得到 t 值或 u 值查界值表得到 P 值和α值比较。

　5.做出推断结论。

　｜t｜值、P 值和统计结论 α ｜t｜值 P 值统计结论 0.05 <t0.05（v）

　>0.05 不拒绝 H 0 ，差异无统计学意义 0.05 ≥t0.05（v）

　≤0.05 拒绝 H 0 ，接收 H 1 ，差异有统计学意义 0.01 ≥t0.01（v）

　≤0.01 拒绝 H 0 ，接收 H 1 ，差异有高度统计学意义五、两均数假设检验（常考！）

　1.样本均数和总体均数比较

　u 检验和 t 检验用于样本均数和总体均数比较。理论上要求样原来自正态分布总体实际中，只要样本例数 n 较大，或 n 小但总体标准差σ已知，就选择 u 检验。n 较小且σ未知时，用于 t 检验。两样本均数比较时还要求两总体方差等。

　XSt X 以算得统计量 t，按表所表示关系作判定。

　2.配对资料比较

　在医学研究中，常见配对设计。配对设计关键有四种情况：①同一受试对象处理前后数据；②同一受试对象两个部位数据；③同一样品用两种方法（仪器等）检验结果；④配正确两个受试对象分别接收两种处理后数据。情况①目标是推断其处理有没有作用；情况②、③、④目标是推断两种处理（方法等）结果有没有差异。

　n S Std d/d 0 d

　v=对子数-1；如处理前后或两法无差异，则其差数 d 总体均数应为 0，可看作样本均数d 和总体均数 0 比较。

　d 为差数均数；dS 为差数均数标准误，S d 为差数标准差；n 为对子数。因计算统计量是 t，按表所表示关系作判定。

　3.完全随机设计两样本均数比较

　亦称成组比较。目标是推断两样本各自代表总体均数μ 1 和μ 2 是否相等。依据样本含量 n 大小，分 u 检验和 t 检验。

　t 检验用于两样本含量 n 1 、n 2 较小时，且要求两总体方差相等，即方差齐。若被检验两样本方差相差显著则需用 t′检验。

　u 检验：两样本量足够大，n>50。

　2X XXX2 11St

　2 1X XS= ) (2 12 1 2Cn nn nS 2 -1) - ( 1) - (2 1122 121 2Cn nn S n SS

　v=(n 1 -1)+(n 2 -1)=n 1 +n 2 -2 式中2 1X XS，为两样本均数之差标准误，Sc 2 为合并估量方差（combined estimate variance）。算得统计量为 t，按表所表示关系做出判定。

　4.Ⅰ型错误和Ⅱ型错误

　弃真，拒绝正确 H 0 为Ⅰ型错误α表示，若显著性水平α定为

　0.05，则犯Ⅰ型错误概率 0.05；接收错误 H 0 为Ⅱ型错误，概率用β表示，β值大小极难确切估量。当样本含量一定时，二者反比，增大 n，当α一定时，可降低β。1-β称为检验效能或把握度，其统计意义是若两总体确有差异，按α水准能检出其差异能力。

　客观实际

　拒绝 H 0

　不拒绝 H 0

　H 0 成立

　 Ⅰ型错误（α）

　推断正确 1-α H 0 不成立

　推断正确（1-β）

　Ⅱ型错误（β）

　5.假设检验注意事项

　确保组间可比性；依据研究目标、资料类型和设计类型选择合适检验方法，熟悉多种检验方法应用条件；“显著是否”是统计学术语，为“有没有统计学意义”，不能了解为“差异是不是大”；结论不能绝对化。

　第四节

　分类变量资料统计描述（通常考点）

　相对数是两个相关联事物数据之比。常见相对数指标有组成比、率、相对比等。

　一、组成比表示事物内部各个组成部分所占比重，通常以 100 为例基数，故又称为百分比。其公式以下：

　组成比＝个体数总和事物内部各构成部分的的个体数事物内部某一构成部分×100％该式可用符号表示以下：

　组成比＝     C B AA×100％组成比有两个特点：

　（1）各组成部分相对数之和为 100％. （2）某一部分所占比重增大，其它部分会对应地降低。

　二、率用以说明某种现象发生频率或强度，故又称频率指标，以 100，1000，10000 或 100000为百分比基数（K）均可，标准上以结果最少保留一位整数为宜，其计算公式为：

　率和组成比不一样之处：率大小仅取决于某种现象发生数和可能发生该现象总数，不受其它指标影响，而且各率之和通常不为 1。

　率＝可能发生某现象的总数某现象实际发生例数×K 该式亦可用符号表示以下阳性率＝) ( ) () (  A AA×K（若算阴性率则分子为 A （ - ）

　）

　式中 A （ + ）

　为阳性人数，A （ - ）

　为阴性人数。

　三、相对比表示相关事物指标之对比，常以百分数和倍数表示，其公式为：

　相对比：甲指标/乙指标（或×100％）

　或用符号表示为：A/B×K 四、注意事项 ①组成比和率不一样，不能以比代率；②计算相对数时，观察例数不宜过小；③率比较注意可比性，尤其是混杂原因问题，有话，可用标准化法和分层分析消除；④观察单位不一样多个率平均率不等于多个率算术均数；⑤样本率或组成比比较应做假设检验。

　第五节

　分类变量资料统计推断（很关键）

　一、率抽样误差用抽样方法进行研究时，肯定存在抽样误差。率抽样误差大小可用率标准误来表示，计算公式以下：

　σ p=nπ) π(1 式中：σ p 为率标准误，π为总体阳性率，n 为样本含量。因为实际工作中极难知道总体阳性率π，故通常采取样本率 P 来替换，而上式就变为 S p=nP) P(1  二、总体率可信区间因为样本率和总体率之间存在着抽样误差，所以也需依据样本率来推算总体率所在范围，依据样本含量 n 和样本率 P 大小不一样，分别采取下列两种方法：

　（一）正态近似法（常考！）

　当样本含量 n 足够大，且样本率 P 和（1-P）均不太小，如 nP 或 n（1-P）均≥5 时，样本率分布近似正态分布。则总体率可信区间可由下列公式估量：

　总体率（π）95％可信区间：p±1.96s p

　总体率（π）99％可信区间：p±2.58s p

　（二）查表法

　当样本含量 n 较小，如 n≤50，尤其是 P 靠近 0 或 1 时，则按二项分布原理确定总体率可信区间，其计算较繁，读者可依据样本含量 n 和阳性数 x 参考专用统计学介绍二项分布中 95％可信限表。

　三、u 检验（很关键！）

　当样本含量 n 足够大，且样本率 P 和（1-P）均不太小，如 nP 或 n（1-P）均≥5 时，样本率分布近似正态分布。样本率和总体率之间、两个样本率之间差异判定可用 u 检验。

　1.样本率和总体率比较公式

　u=｜P-π｜/σ P =｜P-π｜/ n π)/ π(1 ； 2.两样本率比较公式

　u=｜P 1 -P 2 ｜/Sp 1 -P 2 =｜P 1 -P 2 ｜/ ) 1/ )(1/ (12 1n n p pc c 

　也可用χ 2 检验，二者相等。

　四、χ 2 检验（很关键！）

　可用于两个及两个以上率或组成比比较；两分类变量相关关系分析。其数据组成，一定是相互对立两组数据，四格表资料自由度 v 永远=1。

　四格表χ 2 检验多种公式适用条件，n>40 且每个格子 T>5，可用基础公式或专用公式，不用校正。

　基础公式：χ 2 =∑（A-T）

　2 /T 专用公式：χ 2 =∑（ad-bc）

　2 n/（a+b）（c+d）（a+c）（b+d）

　只要有一个格子 T 在 1～5 之间，需校正。校正公式：

　基础公式：χ 2 =∑（｜A-T｜-0.5）

　2 /T 专用公式：χ 2 =∑（｜ad-bc｜-n/2）

　2 n/（a+b）（c+d）（a+c）（b+d）

　n<40 或 T<1，用确切概率法。

　五、行×列表χ 2 检验当行数或列数超出 2 时，称为行×列表。行×列表χ 2 检验是对多个样本率（或组成比）

　检验。

　适用条件：通常认为行×列表中不宜有 1/5 以上格子理论数小于 5，或有小于 1 理论数。

　1.当理论数太小可采取下列方法处理

　①增加样本含量以增大理论数；②删去上述理论数太小行和列；③将太小理论数所在组和性质相近组合并，使重新计算理论数增大。因为后两法可能会损失信息，损害样本随机性，不一样合并方法有可能影响推断结论，故不宜作常规方法。另外，不能把不一样性质实际数合并，如研究血型时，不能把不一样血型资料合并。

　2.如检验结果拒绝检验假设，只能认为各总体率或总体组成比之间总来说有差异，但不能说明它们相互之间全部有差异，或某二者间有差异。

　3.相关单向有序行列表统计处理

　在比较各处理组效应有没有差异时，宜用秩和检验法，如作χ 2 检验只说明各处理组效应在组成比上有没有差异。

　六、配对计数资料χ 2 检验同一样品用两种方法处理，观察阳性和阴性个数。判定两种处理方法是否相同。当b+c>40 时，χ 2 =（b-c）

　2 /b+c；b+c<40 时，校正公式：χ 2 =（｜b-c｜-1）

　2 /b+c

　第六节

　直线相关和回归（通常考点）

　一、直线相关分析用途、相关系数及其意义相关分析是研究事物或现象之间有没相关系、关系方向和亲密程度。

　相关系数：是定量表示两个变量（X，Y）之间线性关系方向和亲密程度指标，用 r 表示，r=lxy/ lxxlxy ，其值在-1 至+1 间，r 没有单位。r 呈正值，两变量间呈正相关，即二者改变趋势是同向，r=1 时为完全正相关；如 r 呈负值，两变量呈负相关，即二者改变趋势是反向，r=-1 时为完全负相关。r 绝对值越靠近 1，两变量间线性相关越亲密；越靠近于 0，相关越不亲密。当 r=0 时，说明 X 和 Y 两个变量之间无直线关系。

　二、直线回归分析作用、回归系数及其意义直线回归分析任务在于找出两个变量有依存关系直线方程，以确定一条最靠近于各实测点直线，使各实测点和该线纵向距离平方和为最小。这个方程称为直线回归方程，据此方程描绘直线就是回归直线。

　直线同归方程式通常表示式 Y=a+bX 式中 a 为回归直线在 Y 轴上截距，即 a>0 表示直线和 Y 轴交点在原点上方，<0 在原点下方，a=0 过原点。

　b 为样本回归系数，即回归直线斜率，表示当 X 变动一个单位时，Y 平均变动 b 个单位。

　b>0：表示 Y 随 X 增大而增大 b<0：表示 Y 随 X 增大而降低 b=0：表示 Y 不随 X 改变而改变

　第七节

　统计表和统计图（关键考点）

　一、统计表标准：结构简单、层次分明、内容安排合理、关键突出、数据正确。

　1.标题

　简练表示表中心内容，位置在表上方。

　2.标目

　有横标和纵标目，横标目通常在表内左侧；纵标目列在表内上方，其表示结果和主辞呼应。

　3.线条

　努力争取简练，通常为三线表。

　4.用阿拉伯数表示，如无数据或暂缺资料，也可用“-”或“…”来表示。

　5.备注

　通常不列入表内，解释在表下。

　内容排列：通常按事物发生频率大小次序来排列，对比鲜明，关键突出。

　二、统计图 1.线图（line diagram）（常考！）

　资料性质：适适用于连续变量资料。

　分析目标：用线段升降表示某事物动态（差值）改变。

　2.半对数线图（semilogarithmic line graph）

　资料性质：适适用于连续变量资料。

　分析目标：用线段升降表示事物发展速度改变趋势。

　3.直方图（histogram）

　资料性质：适适用于数值变量，连续性资料频数表资料。

　分析目标：直方图是以直方面积表示各组段频数或频率。

　4.直条图（bar chart）

　资料性质：适适用于相互独立资料。

　分析目标：直条图是用等宽直条和长短来表示各统计量大小，进行比较。

　5.百分条图（percentchart）

　资料性质：组成比。

　分析目标：用长条各段长度（面积）表示内部组成比。

　6.圆形图（circulargraph）（常考！）

　资料性质：组成比。

　分析目标：用圆扇形面积表示内部组成比。

　7.散点图（scatterdiagram）

　资料性质：双变量资料。

　分析目标：用点密集度和趋势表示两变量间相关关系。

　8.统计地图（statistical map）

　资料性质：地域性资料。

　分析目标：用不一样纹线或颜色代表指标高低，说明地域分布。

推荐访问:统计学重点卫生

上一篇：在全市“十四五”规划编制工作推进会议上讲话
下一篇：交通组织方案

推荐文章

推荐内容

四六级推荐文章

四六级热门文章

卫生统计学重点笔记

来源：四六级 发布时间：2020-09-11 点击：

来源：四六级发布时间：2020-09-11 点击：