Σ((O-E)/E)²
卡方统计量的推算涉及以下步骤,结合了理论期望与实际观测值的差异分析:
一、核心计算公式
卡方统计量的基本公式为: $$ \chi^2 = \sum \frac{(O - E)^2}{E} $$
其中:
-
$O$ 表示观察频数(实际数据值)
-
$E$ 表示期望频数(理论预测值)
-
$\sum$ 表示对所有类别求和
二、计算步骤
-
整理数据为列联表
将数据按行和列分类,例如比较性别与产品喜好的2×2列联表:
喜欢 不喜欢 总计 男生 20 30 50 女生 40 10 50 -
计算期望频数
期望频数是在假设变量独立的情况下,各类别的预测值。计算公式为: $$ E_{ij} = \frac{(行总计) \times (列总计)}{总计} $$
例如,男生组中喜欢产品的期望频数为: $$ E_{男,喜欢} = \frac{50 \times 60}{100} = 30 $$
-
计算卡方统计量
对每个类别,计算$(O - E)^2 / E$并求和: $$ \chi^2 = \frac{(20-30)^2}{30} + \frac{(30-20)^2}{20} + \frac{(40-30)^2}{30} + \frac{(10-40)^2}{10} = 16.67 $$
三、补充说明
-
自由度计算
自由度公式为: $$ df = (行数 - 1) \times (列数 - 1) $$
对于2×2列联表,自由度为1。
-
应用场景
-
独立性检验 :判断两个变量是否独立(如性别与产品偏好)。
-
拟合优度检验 :评估观测数据是否符合预期分布(如年龄分布)。
-
-
显著性判断
通过卡方分布表或软件(如Excel的
CHISQ.TEST
)计算p值,判断差异是否显著。
四、示例总结
以2×2列联表为例,通过计算卡方值16.67,并结合自由度1,可判断性别与产品偏好是否存在显著关联。若p值小于0.05,则拒绝原假设,认为两者相关。
以上步骤综合了理论推导与实际应用,确保了卡方统计量的准确计算与合理解读。