机器学习 - 性能指标


我们可以使用多种指标来评估机器学习算法、分类以及回归算法的性能。我们必须仔细选择评估机器学习性能的指标,因为 -

  • 如何衡量和比较机器学习算法的性能将完全取决于您选择的指标。

  • 您如何权衡结果中各种特征的重要性将完全受到您选择的指标的影响。

分类问题的性能指标

我们在前面的章节中讨论了分类及其算法。在这里,我们将讨论可用于评估分类问题预测的各种性能指标。

混淆矩阵

这是衡量分类问题性能的最简单方法,其中输出可以是两种或多种类型的类。混淆矩阵只不过是一个二维表,即。“实际”和“预测”,此外,这两个维度都有“真阳性(TP)”、“真阴性(TN)”、“假阳性(FP)”、“假阴性(FN)”,如下所示 -

实际预测

与混淆矩阵相关的术语解释如下 -

  • 真阳性 (TP) - 数据点的实际类别和预测类别均为 1 时的情况。

  • True Negatives (TN) - 数据点的实际类别和预测类别均为 0 时的情况。

  • 误报 (FP) - 数据点的实际类别为 0 而数据点的预测类别为 1 时的情况。

  • 假阴性 (FN) - 数据点的实际类别为 1 而数据点的预测类别为 0 时的情况。

我们可以使用sklearn.metrics的confusion_matrix函数来计算分类模型的混淆矩阵。

分类准确率

它是分类算法最常见的性能指标。它可以被定义为正确预测的数量与所有预测的比率。我们可以借助以下公式通过混淆矩阵轻松计算它 -

$$准确度=\frac{TP+TN}{