卡方检验是统计学中用于分析分类变量关联性的核心方法,其核心依赖于四个基本公式:观察频数(O)记录实际数据,理论频数(E)基于独立假设计算期望值,卡方值(χ²)量化观察与理论的差异(公式为),自由度(df)调整行列维度影响(公式为)。这些公式共同构成假设检验的基础,广泛应用于医学、社会科学等领域。
-
观察频数(O)
实际数据中每个类别的计数,直接反映样本分布。例如,调查性别与吸烟习惯时,男性吸烟者人数即为观察频数。 -
理论频数(E)
假设变量独立时的期望频数,计算公式为。若性别与吸烟无关,则男性吸烟者的理论频数由边缘分布推算。 -
卡方值(χ²)
通过累加所有单元格的得到,值越大表明实际数据与独立假设偏离越显著。例如,χ²=9.42时可能拒绝原假设。 -
自由度(df)
由列联表的行列数决定,影响卡方分布的临界值选择。2×2表格的自由度为1,而3×3表格的自由度为4。
掌握这四个公式可准确判断分类变量的关联性,但需注意样本量(避免理论频数<5)和适用条件。合理应用卡方检验能有效揭示数据背后的规律,辅助科学决策。