卡方检验的统计量在满足一定条件下服从卡方分布,具体如下:
-
基本假设与统计量
卡方检验用于检验观察频数与期望频数是否独立(如列联表分析)。统计量计算公式为:
[
\chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}}
]
其中 \(O_{ij}\) 为观察频数,\(E_{ij}\) 为期望频数,\(n\) 为总样本量。
-
自由度计算
自由度 \(df = (R-1)(C-1)\),其中 \(R\) 为行数,\(C\) 为列数。例如,四行四列的列联表自由度为 \(7\)(即 \((4-1)(4-1)=9\))。
-
分布近似条件
-
样本量要求 :总样本量通常需 \(n \geq 50\),且每个单元格的期望频数 \(E_{ij} \geq 5\)(若存在 \(E_{ij} < 5\) 的情况,需合并单元或使用校正方法)。
-
独立性假设 :观察值需相互独立,且为离散型数据。
-
-
应用与结论
当满足上述条件时,卡方统计量近似服从自由度为 \(df = (R-1)(C-1)\) 的卡方分布。通过计算 \(p\) 值并与显著性水平(如 \(\alpha = 0.05\))比较,决定是否拒绝原假设。
总结 :卡方检验的统计量在样本量足够大且满足期望频数条件时,服从自由度为 \((R-1)(C-1)\) 的卡方分布,用于推断分类变量间的独立性。