分类评估、回归评估

分类评估


混淆矩阵

混淆矩阵

准确率:

ACC=TP+TNFP+FN+TP+TN=1ERRACC=\frac{TP+TN}{FP+FN+TP+TN}=1-ERR

精度:(实际上精度和真正率是一回事)

PRE=TPTP+FPPRE=\frac{TP}{TP+FP}

召回率:

REC=TPTP+FNREC=\frac{TP}{TP+FN}


ROC

ROC(受试者工作特征)曲线是选择分类模型的有用工具,他以FPR(FP rate)和TPR(TP rate)的性能比较结果为移除,通过移动分类器的阈值完成计算。ROC曲线和精度召回曲线类似

TPR=TPTP+FNTPR=\frac{TP}{TP+FN}

FPR=FPFP+TNFPR=\frac{FP}{FP+TN}

image-20231130222803522

中间虚线对角线表示纯随机分类器的ROC曲线,一个好的分类器尽量远离该线

比较分类器的一种方法是测量曲线下面积 (AUC) 。完美分类器的 ROC AUC 等于 1 ,而纯随机分类器的 ROC AUC 等于 0 . 5 。


KS曲线

我们训练出来的模型,一般不是直接给出是正类还是负类的结果,给的是为正类的概率,我们还需要选择一个阈值,实例通过模型得到的概率大于阈值,判断为正类,小于阈值判断为负类。也就是说阈值的不同,以上的各个指标的值也是不同的。把阈值看成自变量,以上TPR、和FPR看成因变量,在二维坐标系里面做关系曲线,这就是KS曲线。

img


结束

回归评估


MAE(平均绝对误差)

它用于衡量预测值与实际观测值之间差异的平均绝对值。
给定一组预测值y^i\hat{y}_i 和实际观测值 yiy_inn为观测值的数量MAE 定义为

MAE=1ni=1nyiy^iMAE=\frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y}_i|

特点:

  1. 非负值:MAE 的值总是非负的,因为它是绝对值的平均。
  2. 直观:MAE 提供了一个直观的衡量模型误差的方法。它直接表示平均每个预测值与实际值相差的程度。
  3. 鲁棒性:相比于平均平方误差(Mean Squared Error, MSE),MAE 对异常值(outliers)的影响较小,因为它不涉及平方。

相对于MSE:MSE会对较大的误差赋予更高的权重(因为误差被平方了),因此对异常值更敏感。
相对于均方根误差(Root Mean Squared Error, RMSE):RMSE 通过对MSE开根号,使得误差的单位与原数据一致,但依然对大的误差赋予更多权重。


MSE(均方误差)/RMSE(均方根误差)

MSE是预测误差的平方和的平均值

MSE=1ni=1n(yiy^i)2MSE=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2

RMSE是MSE的平方根。其公式为:

RMSE=1ni=1n(yiy^i)2RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}


R2R^2

它衡量的是回归模型能够解释的因变量方差的比例。

R2R^2 定义为由模型解释的方差占总方差的比例。其值范围通常在 0 到 1 之间。

R2=1SSresSStotR^2=1-\frac{SS_{res}}{SS_{tot}}

其中,SSresSS_{res}是残差平方和(实际观测值和模型预测值之差的平方和),SStotSS_{tot} 是总平方和(实际观测值和平均值之差的平方和)。

解释

  • R2=1R^2=1表示模型能够完美地预测因变量。
  • R2=0R^2=0 表示模型的预测效果与平均水平一样。
  • R2R^2 的值越接近 1,表明模型的拟合优度越高。
  • 在某些情况下,R2R^2 可以为负数,这意味着模型的表现比简单使用平均值还要差。

结束