卡方统计量的计算公式为:
$$ \chi^2 = \sum \frac{(O - E)^2}{E} $$
其中:
-
O 表示实际观测频数(Observed Frequency)
-
E 表示期望频数(Expected Frequency)
-
Σ 表示对所有类别求和
公式说明
-
核心计算步骤
-
计算每个类别的观测频数与期望频数的差异(O - E);
-
将差异平方后除以期望频数;
-
对所有类别的结果求和,得到卡方统计量。
-
-
期望频数计算
期望频数根据行总计、列总计和总样本数计算,公式为: $$ E_{ij} = \frac{(\text{行总计}_i) \times (\text{列总计}_j)}{\text{总样本数}} $$
其中 \(i\) 和 \(j\) 分别表示行和列的索引。
-
应用条件
-
需满足“至少80%的理论次数≥5”且“每个理论次数≥1”;
-
卡方值越大,表明观测数据与理论分布的偏离程度越大,可能拒绝原假设。
-
示例
假设有2×2列联表,实际观测频数和期望频数分别为: $$ \begin{array}{|c|c|c|} \hline & \text{类别1} & \text{类别2} \ \hline \text{行1} & O_{11} & O_{12} \ \text{行2} & O_{21} & O_{22} \ \hline \end{array} $$
则期望频数 \(E_{ij}\) 分别为: $$ E_{11} = \frac{(\text{行总计1}) \times (\text{列总计1})}{\text{总样本数}}, \quad E_{12} = \frac{(\text{行总计1}) \times (\text{列总计2})}{\text{总样本数}} $$
代入公式计算卡方值。