卡方分布的自由度确定方法主要取决于其定义和具体应用场景,具体如下:
一、自由度的基本定义
自由度(df)指独立变量的数量,是卡方分布的核心参数。其计算方式如下:
-
独立正态变量平方和
若 $Q = \sum_{i=1}^k Z_i^2$,其中 $Z_i$ 为独立标准正态分布随机变量,则自由度 $df = k$。
-
列联表独立性检验
对于 $r \times c$ 的列联表,自由度 $df = (r-1) \times (c-1)$。
-
拟合优度检验
若将观测数据分为 $k$ 个类别,且需估计参数(如正态分布的均值和标准差),则自由度 $df = k - p$($p$ 为参数个数)。
二、自由度在卡方分布中的影响
-
分布形状
自由度越小(如 $df=2$),曲线右偏且峰值较低;自由度增大时,分布趋近对称,峰值向右移动(如 $df=10$ 时峰值约在 9 左右)。
-
取值范围
自由度越大,卡方值可取范围越广(如 $df=2$ 时常见值在 0-10,$df=10$ 时可到 30 以上)。
三、应用示例
-
独立性检验 :若列联表为 $2 \times 2$,自由度 $df = (2-1) \times (2-1) = 1$。
-
拟合正态分布 :若将高度分为 3 类(高、中、低),需估计均值和标准差,自由度 $df = 3 - 2 = 1$。
四、注意事项
-
自由度必须为非负整数,且与样本独立性直接相关。
-
在实际应用中,需根据检验类型选择正确的自由度计算方法。