卡方检验
卡方分布是统计学中一种重要的概率分布,广泛应用于假设检验、独立性检验和拟合优度检验等领域。当需要判断两个分类变量是否独立时,卡方检验是一种常用方法。以下是具体说明:
一、卡方检验的独立性检验
卡方检验通过比较观察频数与期望频数的差异,判断两个分类变量是否独立。例如,研究血型(A、B、AB、O型)与性别(男、女)是否独立。
-
原假设与备择假设
-
H0 :两个变量独立(即血型与性别无关)
-
H1 :两个变量不独立(即血型与性别相关)
-
-
计算卡方统计量
使用公式: $$\chi^2 = \sum \frac{(O_i - E_i)^2}{E_i}$$
其中,$O_i$为观察频数,$E_i$为期望频数
-
确定临界值与结论
根据自由度(如血型×性别为2×2矩阵,自由度=1)和显著性水平(如α=0.05),查卡方分布表获取临界值。若计算结果大于临界值,则拒绝原假设,认为两个变量相关
二、卡方分布的应用场景
-
独立性检验
除血型与性别外,还用于判断吸烟与肺癌、职业与疾病等关联性。
-
拟合优度检验
评估观测数据是否符合某种理论分布(如正态分布、泊松分布)。
-
方差分析
通过卡方分布检验样本方差与总体方差的差异。
三、注意事项
-
样本要求 :需满足“n≥40”且每个单元格频数≥5,否则需使用Fisher精确检验。
-
结果解释 :p值小于0.05表示拒绝原假设,但需结合实际背景判断关联性强度(如列联系数C)。
通过以上方法,卡方分布可有效判断分类变量间的关联性,是统计学中不可或缺的工具。