CNTK - 分类模型


本章将帮助您了解如何衡量 CNTK 中分类模型的性能。让我们从混淆矩阵开始。

混淆矩阵

混淆矩阵 - 包含预测输出与预期输出的表是衡量分类问题性能的最简单方法,其中输出可以是两种或多种类型的类。

为了理解它是如何工作的,我们将为二元分类模型创建一个混淆矩阵,用于预测信用卡交易是正常还是欺诈。如下所示 -

实际诈骗 实际正常

预测欺诈

真阳性

假阳性

预测正常

假阴性

真阴性

我们可以看到,上面的样本混淆矩阵包含 2 列,一列用于类欺诈,另一列用于类正常。同样,我们有 2 行,一行是为班级欺诈添加的,另一行是为班级正常添加的。以下是与混淆矩阵相关的术语的解释 -

  • 真阳性- 当数据点的实际类别和预测类别均为 1 时。

  • True Negatives - 当数据点的实际类别和预测类别均为 0 时。

  • 误报- 当数据点的实际类别为 0 且数据点的预测类别为 1 时。

  • 假阴性- 当数据点的实际类别为 1 且数据点的预测类别为 0 时。

让我们看看如何从混淆矩阵中计算不同事物的数量 -

  • 准确度- 这是我们的 ML 分类模型做出的正确预测的数量。可以借助以下公式计算 -

  • 准确性
  • 精度-它告诉我们在我们预测的所有样本中,有多少样本被正确预测。可以借助以下公式计算 -

  • 精确
  • 召回率或灵敏度- 召回率是我们的 ML 分类模型返回的阳性数量。换句话说,它告诉我们模型实际检测到数据集中有多少欺诈案例。可以借助以下公式计算 -

  • 记起
  • 特异性- 与召回相反,它给出了我们的 ML 分类模型返回的负数数量。可以借助以下公式计算 -

  • 特异性

F 测量

我们可以使用 F-measure 作为混淆矩阵的替代。其背后的主要原因是,我们无法同时最大化召回率和精度。这些指标之间存在非常密切的关系,可以通过以下示例来理解 -

假设,我们想使用深度学习模型将细胞样本分类为癌性细胞或正常细胞。在这里,为了达到最大精度,我们需要将预测数量减少到 1。虽然,这可以让我们达到 100% 左右的精度,但召回率会变得非常低。

另一方面,如果我们想达到最大召回率,我们需要做出尽可能多的预测。虽然,这可以让我们达到 100% 左右的召回率,但精确率会变得非常低。

在实践中,我们需要找到一种平衡精确率和召回率的方法。F-measure 指标使我们能够做到这一点,因为它表达了精确率和召回率之间的调和平均值。

F 测量

该公式称为 F1 度量,其中称为 B 的额外项设置为 1,以获得相等的查准率和查全率。为了强调召回率,我们可以将因子B设置为2。另一方面,为了强调精确度,我们可以将因子B设置为0.5。

使用 CNTK 衡量分类性能

在上一节中,我们使用鸢尾花数据集创建了一个分类模型。在这里,我们将使用混淆矩阵和 F 度量来衡量其性能。

创建混淆矩阵

我们已经创建了模型,因此我们可以开始验证过程,其中包括混淆矩阵。首先,我们将借助scikit-learn中的fusion_matrix函数创建混淆矩阵。为此,我们需要测试样本的真实标签和相同测试样本的预测标签。

让我们使用以下 python 代码计算混淆矩阵 -

from sklearn.metrics import confusion_matrix
y_true = np.argmax(y_test, axis=1)
y_pred = np.argmax(z(X_test), axis=1)
matrix = confusion_matrix(y_true=y_true, y_pred=y_pred)
print(matrix)

输出

[[10 0 0]
[ 0 1 9]
[ 0 0 10]]

我们还可以使用热图函数来可视化混淆矩阵,如下所示 -

import seaborn as sns
import matplotlib.pyplot as plt
g = sns.heatmap(matrix,
     annot=True,
     xticklabels=label_encoder.classes_.tolist(),
     yticklabels=label_encoder.classes_.tolist(),
     cmap='Blues')
g.set_yticklabels(g.get_yticklabels(), rotation=0)
plt.show()
鸢尾花

我们还应该有一个单一的性能数字,可以用来比较模型。为此,我们需要使用分类错误函数从 CNTK 中的指标包计算分类误差,就像创建分类模型时所做的那样。

现在要计算分类误差,请使用数据集对损失函数执行测试方法。之后,CNTK 将采用我们提供的样本作为该函数的输入,并根据输入特征 X_ test进行预测。

loss.test([X_test, y_test])

输出

{'metric': 0.36666666666, 'samples': 30}

实施 F 措施

为了实现F-Measures,CNTK还包括称为fmeasures的函数。我们可以使用此函数,同时通过替换单元cntk.metrics.classification_error来训练神经网络,并在定义标准工厂函数时调用cntk.losses.fmeasure ,如下所示 -

import cntk
@cntk.Function
def criterion_factory(output, target):
   loss = cntk.losses.cross_entropy_with_softmax(output, target)
metric = cntk.losses.fmeasure(output, target)
   return loss, metric

使用 cntk.losses.fmeasure 函数后,我们将得到loss.test方法调用的不同输出,如下所示 -

loss.test([X_test, y_test])

输出

{'metric': 0.83101488749, 'samples': 30}