type
status
date
slug
summary
tags
category
icon
password
comment
在深度学习和机器学习中,有许多常用的评测指标用于评估模型的性能。
准确率(Accuracy)
定义:正确预测的样本数量与总样本数量的比率。
公式:Accuracy = (TP + TN) / (TP + TN + FP + FN)
适用场景:分类问题,特别是类别平衡的情况。
优点:直观易懂。
缺点:在类别不平衡的情况下可能产生误导。
精确率(Precision)
定义:正确预测为正类的样本数量与所有预测为正类的样本数量的比率。
公式:Precision = TP / (TP + FP)
适用场景:当减少假阳性很重要时,如垃圾邮件检测。
优点:衡量模型预测正类的准确性。
缺点:不考虑假阴性。
召回率(Recall)
定义:正确预测为正类的样本数量与所有实际为正类的样本数量的比率。
公式:Recall = TP / (TP + FN)
适用场景:当减少假阴性很重要时,如疾病诊断。
优点:衡量模型查全率。
缺点:不考虑假阳性。
F1分数(F1 Score)
定义:精确率和召回率的调和平均值。
公式:F1 = 2 * (Precision * Recall) / (Precision + Recall)
适用场景:需要在精确率和召回率之间取得平衡时。
优点:综合考虑了精确率和召回率。
缺点:可能掩盖精确率和召回率的极端差异。
AUC(Area Under the ROC Curve)
定义:ROC曲线下的面积,ROC曲线是以不同阈值下的真正率(TPR)为纵轴,假正率(FPR)为横轴绘制的曲线。
取值范围:0.5到1,0.5表示随机猜测,1表示完美分类。
适用场景:二分类问题,特别是需要权衡不同阈值时。
优点:不受类别不平衡的影响,综合考虑了所有可能的分类阈值。
缺点:可能对某些特定的错误分类不敏感。
平均精度(AP)和平均平均精度(mAP)
定义:AP是精确率-召回率曲线下的面积,mAP是多个类别AP的平均值。
适用场景:目标检测和图像分类任务。
优点:综合考虑了精确率和召回率,适用于多类别问题。
缺点:计算复杂,对于非专业人士可能难以解释。
均方误差(Mean Squared Error, MSE)
定义:预测值与真实值差的平方的平均值。
公式:MSE = (1/n) * Σ(y_true - y_pred)^2
适用场景:回归问题。
优点:对大误差惩罚较重,易于求导。
缺点:单位与原始数据不同,对异常值敏感。
平均绝对误差(Mean Absolute Error, MAE)
定义:预测值与真实值差的绝对值的平均值。
公式:MAE = (1/n) * Σ|y_true - y_pred|
适用场景:回归问题。
优点:单位与原始数据相同,对异常值不如MSE敏感。
缺点:在零点不可导,优化可能较困难。
R平方(R-squared)
定义:解释方差与总方差的比率。
公式:R^2 = 1 - (残差平方和 / 总平方和)
适用场景:回归问题。
优点:直观地表示模型解释数据变异的程度。
缺点:可能被过拟合的模型误导。
困惑度(Perplexity)
定义:语言模型中常用的指标,表示模型对下一个词的预测的不确定性。
公式:Perplexity = exp(交叉熵损失)
适用场景:语言模型评估。
优点:直观反映模型的预测能力。
缺点:不同数据集之间难以比较。
BLEU分数(Bilingual Evaluation Understudy)
定义:机器翻译质量的评估指标,比较机器翻译结果与人工参考翻译的相似度。
适用场景:机器翻译和文本生成任务。
优点:自动化评估,广泛使用。
缺点:可能不完全符合人类对翻译质量的判断。