Σ((O - E)² / E)
卡方分布统计量的计算涉及以下关键步骤和要点,综合多个权威来源整理如下:
一、卡方统计量公式
卡方统计量的核心计算公式为: $$ \chi^2 = \sum \frac{(O_i - E_i)^2}{E_i} $$
其中:
-
$O_i$ 表示第 $i$ 个类别的观察频数(Observed Frequency);
-
$E_i$ 表示第 $i$ 个类别的期望频数(Expected Frequency);
-
$\sum$ 表示对所有类别求和。
二、期望频数的计算
期望频数 $E_i$ 的计算公式为: $$ E_i = \frac{(行数 - 1) \times (列数 - 1)}{行数} $$
或者对于单行数据: $$ E_i = \text{行总计} \times \frac{列总计}{行总计} $$
例如,在2×2列联表中,若行总计为 $R$,列总计为 $C$,则 $E_{ij} = \frac{(R-1)(C-1)}{R}$。
三、自由度的确定
自由度(Degrees of Freedom, df)的计算公式为: $$ df = (行数 - 1) \times (列数 - 1) $$
例如,2×2列联表的自由度为 $(2-1)(2-1)=1$。
四、卡方分布的应用
-
拟合优度检验 :用于检验观测数据与理论分布的拟合程度。若计算得到的 $\chi^2$ 值小于临界值,则接受原假设(即观测数据与理论分布一致)。
-
独立性检验 :用于判断两个分类变量是否独立。通过比较观测频数与期望频数的差异,评估变量间的关联性。
五、示例计算
假设有以下2×2列联表:
类别1 | 类别2 | 总计 |
---|---|---|
观测频数 | 40 | 60 |
观测频数 | 30 | 70 |
总计 | 70 | 130 |
-
计算期望频数 :
-
$E_{11} = \frac{(70-1) \times 100}{130} \approx 53.85$
-
$E_{12} = \frac{(70-1) \times 30}{130} \approx 16.15$
-
$E_{21} = \frac{(60-1) \times 100}{130} \approx 46.15$
-
$E_{22} = \frac{(60-1) \times 30}{130} \approx 13.85$
-
-
计算卡方统计量 : $$ \chi^2 = \frac{(40-53.85)^2}{53.85} + \frac{(60-16.15)^2}{16.15} + \frac{(30-46.15)^2}{46.15} + \frac{(70-13.85)^2}{13.85} \approx 11.58 $$
-
确定临界值并作出决策 :
-
自由度为1,显著性水平0.05时,临界值约为3.841。
-
由于 $\chi^2 = 11.58 > 3.841$,拒绝原假设,认为观测数据与理论分布存在显著差异。
-
六、注意事项
-
卡方统计量值需大于0,且与自由度相关;
-
实际应用中常结合卡方分布表或统计软件(如Excel的CHISQ.DIST函数)计算累积概率和临界值。
通过以上步骤,可系统计算卡方统计量并应用于统计推断中。