卡方检验法在检验学生成绩中应用

来源:加拿大留学 发布时间:2021-04-22 点击:

检验法在检验学生成绩中的应用 摘 要 在对学生成绩分析时,采用数理统计中的检验法可以方便有效地得出相关数据。以某初中全体学生的数学成绩为总体,采用卡方拟合检验法来检验初三学生的数学成绩近似的服从正态分布,以及检验其相应的方差是否正确,完成对考试成绩客观准确的分析,充分了解学生的学习情况。利用卡方分布检验中重要应用列联表独立检验对学生数学成绩与学校对其所培养的重视程度的关系进行研究,这可以帮助我们去发现教育教学中所要发生的问题,为教育质量的认定与评价提供有效的保障。

关键词: 检验法;
假设检验;
卡方分布 The application of -test in test scores of students Abstract In the analysis of student achievement, using the test statistics can be conveniently and effectively get the relevant data. A junior high school student with math scores for overall, using the chi-squared fit to test the students mathematical results approximately obey the normal distribution, and test the corresponding variance is correct, complete analysis of test scores of objective and accurate, the full understanding of students learning. Using the card application distribution test of contingency table test for students to study mathematics achievement and school emphasis on its culture, which can help us to discover what happens in education and teaching, to provide an effective guarantee for the monitoring and evaluation of the quality of education. Keywords: -test, hypothesis testing, distribution 目 录 中文摘要 I 英文摘要 II 引 言 1 1. 常用统计量 2 1.1 中值 2 1.2 平均值 2 1.3 标准差 2 1.4 区域 2 1.5 模式 2 2.假设检验的基本概念 4 2.1 问题的提法 4 2.2 假设检验的基本思想 4 2.3 假设检验的定义与步骤 5 3.检验法在检验学生成绩中的应用 7 3.1 参数检验 7 3.2 非参数检验 10 3.3 列联表独立性检验 16 4 结语 19 参考文献 20 引 言 在现实生活中,我们经常遇到一些现象可以利用数学知识进行解释与解决的。面对一堆数据我们可以应用数理统计的知识去进行分析,然后找到它们的规律,这对我们生活工作有着理论指导作用。现实中有很多数据可以建立数据模型进行分析利用,如学生成绩、股票收益、人的身高体重等等。

在教学过程中考试是必不可少,它能够检验与反映学生所掌握的知识水平,也是检验教师所实施的教学方式所达到的效果的一种重要方法。通过考试,我们可以将学生的成绩看成数据资源,然后运用所学数理统计中知识,进行利用分析这些数据。在分析这些数据之前我们是不知道它们的总体是如何分布的,所以我们就需要利用样本对总体进行假设检验,而这种假设检验称为非参数检验[1]。非参数检验方法有很多,如拟合检验法、t检验、柯尔莫哥洛夫检验、符号检验、秩检验等。这里采用检验法来检验初三学生的数学成绩近似的服从正态分布。通过理统计分析之后,我们能够对教育教学中效果得到一定了解,这对今后教育教学工作有一定的借鉴作用。1. 常用统计量 为了方便对数据分析的说明以及建立模型的需要,我们将成绩视为总体随机变量,记作,而学生成绩里的数据就可视为总体的一组样本,那么利用统计学中经常用的统计量对样本作出数据分析,就能够得出一些相关的教育教学的结论[2]。在平时教育教学工作中,我们经常运用以下几个统计量进行数据分析: 1.1 中值 中值是表示对总学生成绩按照高低进行排序之后,处于在总成绩中间位置的分数。它是用来反映全体学生考试成绩的具有代表性的数值,在一定程度上可以反映学生成绩整体水平,且不受到学生成绩两极分化的影响。它的主要不足之处是不具有很强的可靠性,不能客观的说明学生成绩的水平。

1.2 平均值 平均值用来反映学生学习成果的平均水平,运用它的主要的意义在于方便学生知道自己在班级的地位,教师也可以利用在各个班级间作比较。它的不足之处是易受到个别数据的影响,使其不具有客观的代表性,从而无法客观的反映学生的成绩情况。

1.3 标准差 标准差是在数理统计中经常使用并作为统计分布程度上的测量。标准差定义是总体各单位标志值与其平均数离差平方的算术平均数的平方根,它反映组内个体间的离散程度[3]。而标准差运用在教育教学中就是用来反映了学生成绩的分布相对于总体的均值的离散程度。如果标准差越大,则说明学生成绩的高低相差越大,由此可看出学生间学习成绩相距较大。

1.4 区域 区域是指一段数据的分布范围,而运用到学生成绩中是指学生成绩的最高分与最低分之差,它是用来反映总体学生的学习成绩上的所分布的范围,运用它可以让我们对学生成绩的有一个大体的了解。

1.5 模式 模式运用到学生成绩中去,主要是指总体成绩中出现次数最多的一个分数,它是用来反映学生成绩主要分布在什么地方。利用它我们能够大体知道学生水平在什么位置,它的不足之处在于不具有客观的可靠性。

2.假设检验的基本概念 2.1 问题的提法 在数学学习中,我们常常遇到“假设正确”、“假设函数单调递增”……之类的语句。而在数理统计假设中的“假设”与这些的意义是不同的。它不是一个正确的命题出现的,而是作为一个陈述,其是否正确,我们是否愿意认可它,这些都是需要依据样本分析才能做出最后的决定。而这做出决定的过程,我们称作对该假设进行检验[4]。在统计学中,我们把需要根据样本去推断命题是否正确的称为一个假设,通过样本对一个假设做出“是”或“不是”的一个判断的过程,称这为检验这个假设,具体的判断规则称为该假设的一个检验,检验的结果若是肯定该命题,则称为接受该假设,反之则是否定或拒绝该假设[5]。

利用统计假设检验处理实际问题时,我们一般可以分为四条:
(1)明确所需处理的问题,其答案只能是“不是”或“是”。

(2)取得样本并知道样本的分布。

(3)把回答是“是”的转化到样本分布上所得命题称为假设。

(4)根据样本数据,进行分析计算,得到“拒绝”、“接受”的假设的决定。

2.2 假设检验的基本思想 为了方便理解假设检验的基本思想,我们先说明相应的问题。

例 假设小明说他的袋子里装了10个大小相同的球,其中5个白球,5个黑球。现在我们进行有放回的摸球试验,每次摸一个球后记录颜色,试验结果是全部是黑色的球,那么我们对小明的说法两种看法:一种是他的说的是对的,我们的试验只是运气好而已;
另一种看法是认为他是说谎,我们运气哪有这么好,而这只是我们自己的想法,这还需要一个科学客观的分析论证。

现在我们对上面问题进行分析论证:
现在我们假设“一半为黑球”是真命题,那么在有放回的试验中,我们可以知道其概率分布为 得出这次试验中黑球总数为 根据以前所学知识我们随机变量 (2.2.1)
显然这是一个小概率的事件,也就是说100人中大约只有3个人才会出现这样的结果。然而我们就是三人中的一个人,而现实生活经验告诉我们这个可能性太低。当然我们也不能否认这种事件可能出现的,所以我们得出一个比较科学结论:冒着的错误来不赞成他的说法。

以上的分析论证就是数理统计学中假设检验的基本思想,它有点像中学数学证明中的反证法,首先需要假设一个命题为真的,然后根据这命题和已知的条件进行推理,最后得到一个矛盾的结果,这就可以说该命题不成立,从而确定反命题成立。而在统计学中这种“矛盾”跟我们以前学习的“矛盾”不同,这里我们指小概率事件,还有一点需要说明的是在以前数学证明中一旦命题不成立时,我们就认为其反命题成立,而我们在数理统计中否定一个假设是指“冒多大”的风险[6]。

2.3 假设检验的定义与步骤 1.零假设与对立假设 在检验假设中,常把一个被检验的假设称作为零假设(原假设),记为,未知的总体参数等于某个特殊的常数值,记作,而与零假设的对立面叫作对立假设(备择假设)[7]。

2.检验统计量 在检验一个假设时所要使用的统计量称为检验统计量,使原假设得到接受的那些样本所在的区域,称为该假设检验的接受域,而使原假设被否定的那些样本所成德区域,则称为该检验的否定域[8]。

3.假设检验的步骤 (1)根据相关的问题做出相应的零假设,同时也给出它的对立假设;

(2)在的前提下,选择相应的统计量,而统计量需要包含检验的参数,并且总体分布已知;

(3)根据相应问题定出显著性水平,然后根据对立假设和总体统计量的分布,计算出其小概率事件及其概率表达式。

(4)按照样本值计算出需要的数值;

(5)判断小概率事件是否发生,需要综合(3)(4)就可以看出。根据实际推动原理:若小概率事件在一次实验中发生就认为原假设不合理,于是就拒绝。若小概率事件不发生,就认为原假设合理,即接受[9]. 3.检验法在检验学生成绩中的应用 3.1 参数检验 我们这里仅介绍母体的分布为正态时的检验方法,正态分布含有两个参数和,因此,这里的假设都是对这两个参数的假设,现在我们讨论有关方差假设的显著性检验问题[10]。

设是取自正态分布的母体的子样。现在需要检验假设 . 下面分别对已知和未知两种情况说明与论证。

1. 是已知的常量。由于样本的方差是母体方差的无偏估计,那么统计量为 当是真命题时,那么统计量应该在1的附近随机的分布,那么当假设成立时,统计量 (3.1.1)
服从自由度为的分布[11]。而现在对于给定的显著性水平,那么怎么去确定临界域? 因为统计量的值是在一个闭区间内,设存在与,使得 上述可知,临界域的结构形式是。定出和的方法有很多。这是由于我们把分成任意两个,;
分别由 确定和。通常和的选取,都是有犯第二类错误的发生概率来确定的。

这就需要选定和使得出现第二类错误的可能性尽量小。可是在实际中计算最优的和很麻烦。通常就选取。那么这时和分别是自由度为的分布的和分位点,即, 这样我们就得到临界域 当样本观测值时,就拒绝零假设,不然就接受零假设。或者通过样本观测值算出的统计量的值,若它小于或大于时,就拒绝原假设,否则就接受原假设[12]。

2. 为未知常数。这时(3.1.1)式所表示的已经不是一个统计量。因为它含有的未知数。运用前面的方法,利用样本的均值来替代未知的总体均值。

零假设成立时,根据定理可以知道统计量 (3.1.2)
服从自由度为的分布。确定相应的后,可以跟前面一样,通过 确定出两个临界值。不过此时的和都是通过查自由度为的分布表得出的。上这种通过统计量(3.1.1)和(3.1.2)给出的检验法则称作检验。

例 某班级学生进入高中前的中考成绩服从正态分布。现在随机从中抽取10个学生的参加中考的成绩,具体抽样分数如下:
568,570,578,570,572,572,570,596,572,584 在检测水平为情况下,我们能不能相信该班学生成绩方差为64呢? 解:根据题目的意思,可以知道是要进行检验假设 由于未知,所以检验统计量是 而,然后计算得。

由此可知 因为,根据检验法,应该接受,即认为这个班级的学生成绩的方差为64。

3.2 非参数检验 在前面一节中,介绍了总体分布形式是在已知的条件下来进行假设检验相应问题,但是在很多地方,我们常常事先并不知道总体的分布类型,而这时我们就需要根据样本的分布对总体的分布类型提出相应假设并进行相应检验,而这种检验得方法一般被称为分布拟合检验或非参数检验。例如,我们需要考察一个产品的可靠性从而打算运用指数分布的模型,在此之前可能有些理论或检验上的依据,但是这可不可行呢?通常我们就需要根据样本对总体进行检验。

那么现在我们说明其中一种分布拟合检验的方法——非参数检验。

现设离散型总体只能选取个数值,现在需要进行检验 (3.2.1) 其中,=1且已知。可令事件,则式(1)可以写成 (3.2.2)
设为取自总体的样本,记为样本中取值为的个数 且为生的频率。由于频率的稳定性,故当较大时,两者应比较接近,所以在成立时,应与非常接近。由此可知,与的差异的大小就可以反映的真伪。

皮尔逊提出用= (3.2.3) 作为检验的统计量,利用可以均衡两者的差异的程度,当不真时,的值应较大,这时拒绝域可取为其中,为某正数,为了得到水平为的检验,还需要检验统计量在下的分布。

下面我们介绍下皮尔逊定理中指出了的渐近分布。

(皮尔逊定理)若总体的真实分布已知。那么可以令 则(3.2.3)式所定义的统计量近似地服从自由度为的分布[13]。

有时把(3.2.3)式中的和和分别称为(或第组的,因的具体值不起作用,它只是起一个标识的作用)经验频数和理论频数。

而有上述定理可知,假设检验(3.2.2)的一个水平为的拒绝域为 注意到事件群满足:
(1)
互不相容,即;

(2)

则称做为有限完备事件群,所以上述检验也可以叫作为有限完备事件群的检验。

由于定理的结论为近似结果,应用时一般要求,且每个,否则相邻组要进行合并。

而皮尔逊拟合检验法大体是根据检验各个小组服从的实测频数与理论频数之间的相距多少来判断经验分布是否服从任何一个预先给定的分布。它就是通过用各个小组的实测数据与理论频数之间的差异构成了一个符合分布的统计量,并且利用这个统计量来进行相应的假设检验.使用这种方法时要求选取的样本容量比较大,并在进行分组中,每组的理论频数至少不小于5。设总体分布为,选取总体中的样本为,那么现在我们就利用这组样本的数据来进行检验假设: ,其中是一个给定的分布函数[14]。

具体的操作方法可以分为以下几条: (1)
数据分组:把样本值出现的范围划为组. , ,…,, 其中。

(2)
先求出各个小组的频数,然后求出各个小组的频率为 (其中表示 内的频数)。

(3)
需要求理论频率为:当为真命题时,样本X出现在区间中的频率 为:。

(4)
计算出统计量: ==.根据上述可以证明:无论是什么样的分布,当为真命题时,只要充分大那么统计量就 近似的服从自由度为的分布.对于给定的显著检验水平,可查得分布的分位数。

(5)
具体进行相应计算:根据样本的数据进行分析计算出统计量的具体值. (6)
作出相应的判断:当时,则拒绝假设命题;不然就接受假设.不 过需要注意的地方是,在进行计算时, 的分布必须全部知道。如果中还有个参数不能完全确定,那么可以利用这些参数的极大似然估计量来替代它,以此来使得分布函数能够完全确定下来,然后再根据上述方法进行检验,不过这时的自由度为[15]。

例1 本文选定某个中学初三学生的数学成绩为进行研究,运用抽样调查法从该学校的学生中随机地抽取200名学生作为样本,对这200名学生的数学成绩进行调查收取,通过对数据进行分析计算,观察其是否服从某种分布,从而来预测整个初三学生的数学成绩。

调查数据表如下: 图表3.2.4 80 56 61 59 65 63 28 90 56 73 57 68 69 88 65 55 58 33 73 50 87 67 86 57 68 72 58 67 45 63 31 65 43 63 58 69 37 85 78 28 75 49 64 52 72 47 69 86 45 23 51 35 63 54 45 69 30 63 61 48 78 64 53 52 25 96 77 47 76 83 57 37 66 55 73 56 54 75 49 65 58 50 66 59 40 78 98 63 53 65 96 58 70 48 75 62 93 65 36 61 85 58 29 64 56 64 35 64 67 65 56 68 79 57 54 51 36 92 71 58 45 33 53 52 45 55 52 41 53 57 67 48 64 43 64 57 52 42 58 47 58 35 62 57 43 52 37 53 46 64 63 64 62 68 53 57 43 62 37 43 53 64 54 36 63 44 64 46 66 64 53 68 52 62 46 73 57 65 53 76 68 45 63 73 42 63 45 65 74 65 75 63 85 75 64 76 83 85 72 53 那么我们现在对学生数学成绩进行假设检验:
根据图表3.2.4中所列的数据为初三学生数学成绩的容量为的样本调查值,记为初三学生的数学成绩,那么我们现在对这些数据进行分析整理: (1)首先需要找出这些数据的最大值与最小值,以此来确定成绩的分布区域: 根据图表3.2.4我们得出: =23; =96,从而定出区间 ,区间的长度为: . (2)然后确定需要分组的分组数,我们把区间分成个小的区间,使得每个小的区间上有不少于5个样本值,为了方便进行计算,可以选取=8. (3)确定组距: ,则,则把分成8个小区间,即, ,…,。

(4)根据上述数据做出相应的直方图,然后再根据图像来进行假设概率分布,从而进行验证.将X的取值离散化,这里将的取值分成8组,如图表3.2.5所示。

图表3.2.5 组限 频数 6 14 29 51 组限 频数 60 24 11 5 图表3.2.6 (5)进行估计分布:我们通过观察样本的直方图可以得到,学生成绩的直方图基本上是单峰对称的,根据外轮廓线可以估计总体可能服从正态分布. (6)进行假设检验:假设初三学生的数学成绩的分布近似的服从正态分布,即.首先,我们需要给出确定的显著水平,然后假设,其中为初三学生数学成绩的分布函数。

现在我们对上述结论进行检验:在给出的显著水平下的情况下进行检验假设。

因为中含有未知的参数,所以需要先进行参数的估计。然而我们可以知道和 的极大似然估计值分别为样本的均值与样本的方差 . 那么现在需要计算和。= ==59.48, == 216.56,则= 14.72 所以原假设可写成. 现在算每一个区间的理论概率值,随后计算出相应的理论频数与统计量的数值. = -; …… -;; 通过进行计算我们得到的结果如图表3.2.7中所列. 图表3.2.7 编号 1 6 0.019 3.8 2.2 1.273684 2 14 0.071 14.2 -0.2 0.002817 3 29 0.167 33.4 -4.4 0.579641 4 51 0.251 50.2 0.8 0.012749 5 60 0.249 49.8 10.2 2.089157 6 24 0.157 31.4 -7.4 1.743949 7 11 0.063 12.6 -1.6 0.203175 8 5 0.016 3.2 1.8 1.0125 Σ 6.917671 根据上面的表中计算得出的观测值为6.917671. 然而在显著水平情况下,通过查阅的分布表,我们很容易得到相应的临界值: 因为,则不能拒绝原假设. 所以可以认为随机抽取的200名初三学生的数学成绩的总体服从正态分布.因此可以推测整个初三全体学生的数学成绩服从正态分布。

3.3 列联表独立性检验 检验的一个重要应用是列联表独立性检验,列联表是描述两个分类变量的频数分布表[16]。设每一个体可能具有或不具有属性或,而希望考察这两个属性是否关联。属性分成个等级,分成个等级。比如要考察学生的数学成绩与其所在的班级的受教育的培养程度是否有关联,可以把人按其数学成绩分成若干个等级,按其所在的班分成若干的等级。

设在所考察的总体中随机抽出若干个体,比方说从特定的一群人中抽出若干人。在此假定总体所含个体数比于所抽出的人数是很大的,或者,在相反的情况,则设想抽样是有放回的试验。那么这样能假定所抽个体的类别是独立同分布的。

考虑二元总体可以有限离散化,不妨假定X与Y的取值范围可以分成r和s个互不相交的子区间和记[17] 显然 , 现在我们考虑到下面非参数假设检验的相关问题 与Y独立 显然它可以转化为 可以设是总体的容量为的样本,记为样本中各个分量落入矩形区域的频数,且记 , 显然 表3.3.1 1 2 … 1 … 2 … … … 根据上述的方法,我们可以对其进行列联表的独立性检验操作。

首先,我们可以进行论证,其中参数和的最大似然估计值为 其次,因为所以个参数和中仅有个独立参数。所以相应的统计量 其中, ,渐近服从分布。

拒绝域相应为 上述检验通常称为联立表的独立性检验,它在实际应用中非常广泛。

例2 某研究机构欲对学生数学成绩与所在班级关系进行研究。为此将学生数学成绩分成了三个水平阶段:优秀、良好与合格,并且相应的将所在班级依学校培养重视程度分成了三个层次:普通班、重点班和实验班。现在有一个有500人 的样本资料,见表3.3.2,请在的情况下检验学生数学成绩与其所在的班级是否有关系。

表3.3.2 调查资料表 数学成绩 所在班级 合计 普通班 重点班 实验班 优秀 25 21 10 56 良好 82 88 30 200 合格 223 16 5 244 合计 330 125 45 500 解:本例要检验学生数学成绩与所在班级的关系,也即检验独立性问题,根据题意建立假设 本例中行与列相等,,所涉及的一个的列联表,所以需要计算9个期望频数值。

表3.3.3 经计算的调查资料 数学成绩 所在班级 合计 普通班 重点班 实验班 优秀 25(36.96)
21(14)
10(5.04)
56 良好 200 合格 223(161.04)
16(61)
5(21.96)
244 合计 330 125 45 500 其中括号中的数字为的值 计算统计量 在给定的情况下,通过查阅的分布表,我们可以得到。

由于,而其落在的是拒绝域上,故我们拒绝,从而接受,即认为学生数学成绩与其所在班级有关联。

4 结语 对学生成绩及其相关内容进行分析时, 首先要分析的是这批学生成绩是否服从正态分布, 而利用检验法就非常方便有效的统计出相应数据。其次,要观察其标准差和均值是否在一个合理的范围中,这是因为它们不仅让我们对教学效果有个直观印象, 也是衡量相应试卷质量的重要指标。

参考文献 [1]陈希孺.数理统计引论[M]. 北京:科技出版社.1981:
386-393 [2]严士健. 概率论基础[M]. 北京:科技出版社.1982:
74-77 [3]费鹤良.分布拟合优度检验方法综述[J]. 上海师范学院学报,1982( 2): 129 - 142. [4] 赵 慧.卡方拟合检验及其计算机实现[M].1006- 7353( 2001) 01- 0014- 03 [5]杨振海,程维虎,张军舰.拟合优度检验[M].北京: 科学出版社, 2011:68-74 [6]黄代新,杨庆恩.卡方检验和精确检验在HWE检验中的应用[J] .法医学杂志,2004(2):75-79. [7]牛莉.模糊数学在考试成绩分析中的应用[J].华北航天工业学院学报. 2005.15(3):34-36 [8]王玉孝.概率论、随机过程与数理统计[M].北京邮电大学出版社2008:269-386 [9]吴群英,林亮. 应用数理统计 [M].北京理工大学出版社,2008:102-116 [10]吴传志,杨秀文. 应用概率统计 [M] .清华大学出版社,2000:159-168 [11]朱伟民.实用试卷成绩统计分析 [J].中国教育技术装备. 2006,(5):13-15 [12]袁显春.运用统计手段科学分析考试成绩[J]. 现代学报.2003.(10):200-203 [13]祝东进.概率论与数理统计教程[M].国防工业出版社. 2010:313-345 [14]李子强.概率论与数理统计教程[M].北京:科技出版社. 2007:365-389 [15]邰淑彩,何娟娟. 应用数理统计 [M].武汉大学出版社. 2005:
349-356 [16]张德丰.MATLAB 概率与数理统计分析[M].北京: 机械工业出版社,2010:279-308 XX学院本科学生毕业论文(设计)指导教师评阅表 内容包括:学生写作态度、科研作风,论文选题的理论意义和实践价值,论据是否充分、可靠,掌握基础理论、专门知识、研究方法和技能的水平,写作的逻辑性、技巧及其他优缺点。

成绩:
指导教师签名:        年  月  日  XX学院本科学生毕业论文(设计)综合评定意见表 答 辩 委员会 评 定 意 见 终评成绩:
答辩委员会主席签名:        年  月  日 院系 意 见 院长(主任)签名:        年  月  日 

推荐访问:
上一篇:2021春节见闻小学二年级作文_二年级作文
下一篇:2021创业管理学习心得体会总结

Copyright @ 2013 - 2018 优秀啊教育网 All Rights Reserved

优秀啊教育网 版权所有