机器学习 - 监督

监督学习是训练机器所涉及的重要学习模型之一。本章详细讨论了相同的内容。

监督学习算法

有多种算法可用于监督学习。一些广泛使用的监督学习算法如下所示 -

k-最近邻
决策树
朴素贝叶斯
逻辑回归
支持向量机

当我们继续本章的内容时，让我们详细讨论每种算法。

k-最近邻

k 最近邻，简称 kNN，是一种统计技术，可用于解决分类和回归问题。让我们讨论使用 kNN 对未知对象进行分类的情况。考虑对象的分布，如下图所示 -

来源：

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

该图显示了三种类型的对象，以红色、蓝色和绿色标记。当您在上述数据集上运行 kNN 分类器时，每种类型的对象的边界将被标记为如下所示 -

来源：

https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm

现在，考虑一个新的未知物体，您想要将其分类为红色、绿色或蓝色。如下图所示。

正如您所看到的，未知数据点属于一类蓝色对象。从数学上讲，这可以通过测量该未知点与数据集中所有其他点的距离来得出。当您这样做时，您会知道它的大部分邻居都是蓝色的。到红色和绿色物体的平均距离肯定大于到蓝色物体的平均距离。因此，这个未知物体可以被归类为属于蓝色类。

kNN 算法也可用于回归问题。kNN 算法可在大多数 ML 库中随时使用。

决策树

流程图格式的简单决策树如下所示 -

您将编写一段代码来根据此流程图对输入数据进行分类。该流程图是不言自明且简单的。在这种情况下，您尝试对传入电子邮件进行分类以确定何时阅读它。

实际上，决策树可能很大而且很复杂。有多种算法可用于创建和遍历这些树。作为机器学习爱好者，您需要了解并掌握这些创建和遍历决策树的技术。

朴素贝叶斯

朴素贝叶斯用于创建分类器。假设您想从水果篮中挑选（分类）不同种类的水果。您可以使用水果的颜色、大小和形状等特征，例如，任何颜色为红色、形状为圆形、直径约为 10 厘米的水果都可以被视为苹果。因此，为了训练模型，您将使用这些特征并测试给定特征与所需约束匹配的概率。然后将不同特征的概率组合起来，得出给定水果是苹果的概率。朴素贝叶斯通常需要少量的训练数据来进行分类。

逻辑回归

看下图。它显示了数据点在 XY 平面上的分布。

从图中，我们可以直观地检查红点和绿点的分离情况。您可以画一条边界线来分隔这些点。现在，要对新数据点进行分类，您只需确定该点位于线的哪一侧。

支持向量机

看下面的数据分布。这里三类数据不能线性分离。边界曲线是非线性的。在这种情况下，找到曲线方程就变成了一项复杂的工作。

来源： http: //uc-r.github.io/svm

在这种情况下，支持向量机 (SVM) 可以方便地确定分离边界。