卡方检验的三个核心公式如下:
一、基本公式
$$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$
-
$O_i$ :实际观测频数(样本中某类别的观测次数)
-
$E_i$ :期望频数(在零假设下,根据理论分布计算得到的预期频数)
-
自由度(df) :$(行数-1) \times (列数-1)$
二、四格表专用公式
当数据为$2 \times 2$四格表时,卡方值为: $$ \chi^2 = \frac{(ad - bc)^2 \cdot n}{(a+b)(c+d)(a+c)(b+d)} $$
-
$a, b, c, d$ :四格表四个格子的频数
-
自由度(df) :$(2-1) \times (2-1) = 1$
三、连续性校正公式
当样本量较大但理论频数较小时(如$1 \leq T < 5$),需对卡方值进行连续性校正: $$ \chi^2' = \chi^2 - \frac{(\text{最小理论频数}-1)}{n} $$
- 条件 :$n \geq 40$ 且至少有一个理论频数$T \geq 5$
补充说明
-
自由度计算 :自由度反映了数据中可自由变化的类别数,公式为$(行数-1) \times (列数-1)$。
-
应用条件 :需满足$n \geq 40$且所有理论频数$\geq 5$,否则需使用Fisher精确检验($n < 40$或$T < 5$)。
-
结果解读 :通过查卡方分布表或计算p值,判断观测数据与理论分布的差异是否显著(通常以$\alpha = 0.05$为临界值)。
以上公式和条件综合了不同场景下的卡方检验应用,需根据具体数据结构选择合适公式。