机器学习 - 无监督

到目前为止，您所看到的是让机器学习找出我们目标的解决方案。在回归中，我们训练机器来预测未来值。在分类中，我们训练机器将未知对象分类为我们定义的类别之一。简而言之，我们一直在训练机器，以便它可以根据我们的数据 X 预测 Y。给定一个巨大的数据集并且不估计类别，我们很难使用监督学习来训练机器。如果机器可以查找和分析数千兆字节和兆兆字节的大数据，并告诉我们这些数据包含如此多不同的类别，该怎么办？

例如，考虑选民的数据。通过考虑每个选民的一些输入（这些在人工智能术语中称为特征），让机器预测有多少选民会投票给 X 政党，有多少选民会投票给 Y，等等。因此，一般来说，我们在给定大量数据点 X 的情况下询问机器，“你能告诉我关于 X 的什么信息？”。或者可能是这样的问题：“我们可以从 X 中组成哪五个最好的组？”。或者甚至可以是“X 中哪三个特征最常一起出现？”。

这正是无监督学习的全部内容。

无监督学习算法

现在让我们讨论无监督机器学习中广泛使用的分类算法之一。

k-均值聚类

2000 年和 2004 年美国总统选举的比分非常接近。候选人获得的普选票最多为50.7%，最低为47.9%。如果一定比例的选民改变立场，选举结果将会有所不同。有一小群选民，如果受到适当的呼吁，就会改变立场。这些团体可能规模不大，但由于竞选如此接近，它们可能大到足以改变选举结果。您如何找到这些人群？如何在预算有限的情况下吸引他们？答案是聚类。

让我们了解它是如何完成的。

首先，您在经过或未经同意的情况下收集有关人们的信息：任何可能提供一些线索的信息，这些信息对他们来说很重要，以及什么会影响他们的投票方式。
然后将这些信息放入某种聚类算法中。
接下来，对于每个集群（首先选择最大的集群是明智之举），您需要制作一条能够吸引这些选民的消息。
最后，您交付营销活动并进行衡量以查看其是否有效。

聚类是一种无监督学习，可以自动形成相似事物的聚类。就像自动分类一样。您几乎可以对任何东西进行聚类，并且聚类中的项目越相似，聚类就越好。在本章中，我们将研究一种称为 k-means 的聚类算法。它被称为 k 均值，因为它找到“k”个独特的簇，并且每个簇的中心是该簇中值的平均值。

簇识别

簇识别告诉算法：“这是一些数据。现在将类似的事物分组在一起并告诉我有关这些组的信息。” 与分类的主要区别在于，在分类中你知道你在寻找什么。但在聚类中情况并非如此。

聚类有时称为无监督分类，因为它产生与分类相同的结果，但没有预定义的类。

现在，我们对监督学习和无监督学习都很满意。要了解机器学习类别的其余部分，我们必须首先了解人工神经网络（ANN），我们将在下一章中学习它。