卡方检验的五个核心标准如下:
一、基本前提条件
-
样本独立性
数据需来自独立个体或样本,观测值之间无关联。
-
分类数据
仅适用于名义数据或顺序数据(如性别、地区、减肥方式等),而非连续型数据。
二、样本量与期望频数要求
-
总体样本量
-
四格表:$n \geq 40$
-
行×列表:每个格子理论频数 $T \geq 5$,或 $1 < T < 5$ 的格子数不超过总格子的1/5。
-
-
单元格期望频数
-
基本要求:$E_{ij} \geq 5$(无校正)
-
校正条件:若存在 $1 \leq E_{ij} < 5$ 的格子,需采用连续性校正或 Fisher 精确检验。
-
三、统计量与显著性判断
-
卡方值($\chi^2$)
衡量观察频数与理论频数的偏离程度,计算公式为: $$\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}$$
其值越大,偏离程度越高。
-
P值与假设检验
-
若 $\chi^2$ 值对应的 P 值 < 0.05,则拒绝原假设,认为存在显著差异;
-
若 P 值 $\geq 0.05$,则不拒绝原假设,差异可能由抽样误差导致。
-
四、结果解释与注意事项
-
效应量分析(可选)
在显著差异的基础上,可通过效应量指标(如Cramer's V)量化差异幅度。
-
数据适配性检查
-
若理论频数过小,需考虑合并组、删除无关变量或增大样本量;
-
对于有序分类数据,卡方检验不适用,需采用其他方法(如非参数检验)。
-
五、应用场景示例
-
四格表 :比较两种处理方式的有效性(如药物 vs. 对照组);
-
行×列表 :分析多组分类变量的关联性(如地区与饮食习惯)。
总结 :卡方检验需在满足样本量、独立性和频数要求的前提下,通过计算卡方值与 P 值判断差异显著性,并结合效应量分析深入理解结果。