评价分类模型的四个核心指标为: 准确率(Accuracy) 、 精确率(Precision) 、 召回率(Recall) 和 F1分数(F1 Score) 。以下是具体说明:
一、准确率(Accuracy)
-
定义 :正确分类的样本数占总样本数的比例
-
公式 :
$$
\text{Accuracy} = \frac{TP + TN}{TP + TN + FP + FN}
$$ -
应用场景 :适用于类别均衡的数据集,但易受不平衡数据影响(如正负样本数量差异大时)。
二、精确率(Precision)
-
定义 :预测为正样本中实际为正样本的比例
-
公式 :
$$
\text{Precision} = \frac{TP}{TP + FP}
$$ -
应用场景 :需关注负样本预测能力,例如医疗诊断中误诊的代价通常高于漏诊。
三、召回率(Recall)
-
定义 :实际为正样本中被正确预测为正样本的比例
-
公式 :
$$
\text{Recall} = \frac{TP}{TP + FN}
$$ -
应用场景 :需关注正样本预测能力,例如疾病检测中漏诊的后果更严重。
四、F1分数(F1 Score)
-
定义 :精确率与召回率的调和平均,综合评估模型性能
-
公式 :
$$
\text{F1 Score} = 2 \times \frac{\text{Precision} \times \text{Recall}}{\text{Precision} + \text{Recall}}
$$ -
应用场景 :当需平衡精确率和召回率时使用,例如信息检索系统需兼顾查全率和查准率。
补充说明
-
混淆矩阵 :通过TP、FP、TN、FN的可视化工具,辅助理解模型在各类别的表现。
-
不平衡数据处理 :
-
宏平均(Macro Average):类别均衡时使用,对各类别平等对待;
-
微平均(Micro Average):类别不平衡时使用,关注整体性能。
-
-
其他指标 :在多分类问题中,可扩展至多标签分类,需结合具体场景选择评估指标。
通过综合运用这些指标,可更全面地评估分类模型的性能,避免单一指标的局限性。