分类评估、回归评估

zhou2024-01-052024-01-04

分类评估

混淆矩阵

准确率：

$ACC=\frac{TP+TN}{FP+FN+TP+TN}=1-ERR$

精度：(实际上精度和真正率是一回事)

$PRE=\frac{TP}{TP+FP}$

召回率：

$REC=\frac{TP}{TP+FN}$

ROC

ROC(受试者工作特征)曲线是选择分类模型的有用工具，他以FPR(FP rate)和TPR(TP rate)的性能比较结果为移除，通过移动分类器的阈值完成计算。ROC曲线和精度召回曲线类似

$TPR=\frac{TP}{TP+FN}$

$FPR=\frac{FP}{FP+TN}$

中间虚线对角线表示纯随机分类器的ROC曲线，一个好的分类器尽量远离该线

比较分类器的一种方法是测量曲线下面积 (AUC) 。完美分类器的 ROC AUC 等于 1 ，而纯随机分类器的 ROC AUC 等于 0 . 5 。

KS曲线

我们训练出来的模型，一般不是直接给出是正类还是负类的结果，给的是为正类的概率，我们还需要选择一个阈值，实例通过模型得到的概率大于阈值，判断为正类，小于阈值判断为负类。也就是说阈值的不同，以上的各个指标的值也是不同的。把阈值看成自变量，以上TPR、和FPR看成因变量，在二维坐标系里面做关系曲线，这就是KS曲线。

结束

回归评估

MAE（平均绝对误差）

它用于衡量预测值与实际观测值之间差异的平均绝对值。
给定一组预测值 $\hat{y}_i$ 和实际观测值 $y_i$ ， $n$ 为观测值的数量MAE 定义为

$MAE=\frac{1}{n}\sum_{i=1}^{n}|y_i-\hat{y}_i|$

特点：

非负值：MAE 的值总是非负的，因为它是绝对值的平均。
直观：MAE 提供了一个直观的衡量模型误差的方法。它直接表示平均每个预测值与实际值相差的程度。
鲁棒性：相比于平均平方误差（Mean Squared Error, MSE），MAE 对异常值（outliers）的影响较小，因为它不涉及平方。

相对于MSE：MSE会对较大的误差赋予更高的权重（因为误差被平方了），因此对异常值更敏感。
相对于均方根误差（Root Mean Squared Error, RMSE）：RMSE 通过对MSE开根号，使得误差的单位与原数据一致，但依然对大的误差赋予更多权重。

MSE(均方误差)/RMSE(均方根误差)

MSE是预测误差的平方和的平均值

$MSE=\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2$

RMSE是MSE的平方根。其公式为：

$RMSE=\sqrt{\frac{1}{n}\sum_{i=1}^{n}(y_i-\hat{y}_i)^2}$

$R^2$

它衡量的是回归模型能够解释的因变量方差的比例。

$R^2$ 定义为由模型解释的方差占总方差的比例。其值范围通常在 0 到 1 之间。

$R^2=1-\frac{SS_{res}}{SS_{tot}}$

其中， $SS_{res}$ 是残差平方和（实际观测值和模型预测值之差的平方和）， $SS_{tot}$ 是总平方和（实际观测值和平均值之差的平方和）。

解释

$R^2=1$ 表示模型能够完美地预测因变量。
$R^2=0$ 表示模型的预测效果与平均水平一样。
$R^2$ 的值越接近 1，表明模型的拟合优度越高。
在某些情况下， $R^2$ 可以为负数，这意味着模型的表现比简单使用平均值还要差。