机器学习 - 无监督


到目前为止,您所看到的是让机器学习找出我们目标的解决方案。在回归中,我们训练机器来预测未来值。在分类中,我们训练机器将未知对象分类为我们定义的类别之一。简而言之,我们一直在训练机器,以便它可以根据我们的数据 X 预测 Y。给定一个巨大的数据集并且不估计类别,我们很难使用监督学习来训练机器。如果机器可以查找和分析数千兆字节和兆兆字节的大数据,并告诉我们这些数据包含如此多不同的类别,该怎么办?

例如,考虑选民的数据。通过考虑每个选民的一些输入(这些在人工智能术语中称为特征),让机器预测有多少选民会投票给 X 政党,有多少选民会投票给 Y,等等。因此,一般来说,我们在给定大量数据点 X 的情况下询问机器,“你能告诉我关于 X 的什么信息?”。或者可能是这样的问题:“我们可以从 X 中组成哪五个最好的组?”。或者甚至可以是“X 中哪三个特征最常一起出现?”。

这正是无监督学习的全部内容。

无监督学习算法

现在让我们讨论无监督机器学习中广泛使用的分类算法之一。

k-均值聚类

2000 年和 2004 年美国总统选举的比分非常接近。候选人获得的普选票最多为50.7%,最低为47.9%。如果一定比例的选民改变立场,选举结果将会有所不同。有一小群选民,如果受到适当的呼吁,就会改变立场。这些团体可能规模不大,但由于竞选如此接近,它们可能大到足以改变选举结果。您如何找到这些人群?如何在预算有限的情况下吸引他们?答案是聚类。

让我们了解它是如何完成的。

  • 首先,您在经过或未经同意的情况下收集有关人们的信息:任何可能提供一些线索的信息,这些信息对他们来说很重要,以及什么会影响他们的投票方式。

  • 然后将这些信息放入某种聚类算法中。

  • 接下来,对于每个集群(首先选择最大的集群是明智之举),您需要制作一条能够吸引这些选民的消息。

  • 最后,您交付营销活动并进行衡量以查看其是否有效。

聚类是一种无监督学习,可以自动形成相似事物的聚类。就像自动分类一样。您几乎可以对任何东西进行聚类,并且聚类中的项目越相似,聚类就越好。在本章中,我们将研究一种称为 k-means 的聚类算法。它被称为 k 均值,因为它找到“k”个独特的簇,并且每个簇的中心是该簇中值的平均值。

簇识别

簇识别告诉算法:“这是一些数据。现在将类似的事物分组在一起并告诉我有关这些组的信息。” 与分类的主要区别在于,在分类中你知道你在寻找什么。但在聚类中情况并非如此。

聚类有时称为无监督分类,因为它产生与分类相同的结果,但没有预定义的类。

现在,我们对监督学习和无监督学习都很满意。要了解机器学习类别的其余部分,我们必须首先了解人工神经网络(ANN),我们将在下一章中学习它。