卡方统计量的计算步骤可分为以下五个核心环节,结合理论公式与实际应用场景:
一、数据准备与列联表构建
-
整理数据 :将分类变量按行、列交叉分类,形成列联表。例如,比较性别与产品喜好的情况,行表示性别(男/女),列表示喜好(喜欢/不喜欢)。
-
计算频数 :统计每个单元格的观察频数(实际样本数)。
二、期望频数计算
在零假设(变量独立)下,计算每个单元格的期望频数: $$ E_{ij} = \frac{(行合计) \times (列合计)}{总样本数} $$
例如,男生组中喜欢产品的期望频数为:$\frac{50 \times 50}{100} = 25$。
三、卡方统计量计算
使用公式: $$ \chi^2 = \sum \frac{(O_{ij} - E_{ij})^2}{E_{ij}} $$
对所有单元格求和,得到卡方值。
四、自由度确定
自由度计算公式为: $$ df = (行数 - 1) \times (列数 - 1) $$
例如,2×2列联表自由度为1。
五、显著性检验
-
查找临界值 :根据自由度和显著性水平(如0.05),查卡方分布表确定临界值。
-
做出决策 :若计算得到的卡方值大于临界值,拒绝原假设,认为变量存在显著关联;否则接受原假设。
注意事项 :实际应用中需注意理论频数(期望频数)的合理性,通常要求每个单元格的期望频数≥5,且不超过20%的频数低于5,否则需采用校正方法。