Weka - 特征选择


当数据库包含大量属性时,将有几个属性在您当前正在寻求的分析中变得不重要。因此,从数据集中删除不需要的属性成为开发良好的机器学习模型的一项重要任务。

您可以直观地检查整个数据集并决定不相关的属性。对于包含大量属性的数据库(例如您在前面的课程中看到的超市案例)来说,这可能是一项艰巨的任务。幸运的是,WEKA 提供了一个用于特征选择的自动化工具。

本章在包含大量属性的数据库上演示了此功能。

加载数据中

在WEKA 资源管理器的Preprocess标签中,选择Labor.arff文件以加载到系统中。当您加载数据时,您将看到以下屏幕 -

加载数据中

请注意,有 17 个属性。我们的任务是通过消除一些与我们的分析无关的属性来创建简化的数据集。

特征提取

单击“选择属性”选项卡。您将看到以下屏幕 -

选择属性

属性评估器搜索方法下,您将找到几个选项。我们在这里只使用默认值。在属性选择模式中,使用完整训练集选项。

单击“开始”按钮处理数据集。您将看到以下输出 -

启动数据集

在结果窗口的底部,您将获得选定属性的列表。要获取直观表示,请右键单击结果列表中的结果。

输出如下图所示 -

截图输出

单击任何方块都会为您提供数据图以供进一步分析。典型的数据图如下所示 -

数据图

这与我们在前面章节中看到的类似。尝试使用不同的选项来分析结果。

下一步是什么?

到目前为止,您已经看到了 WEKA 在快速开发机器学习模型方面的强大功能。我们使用的是一个名为Explorer 的图形工具来开发这些模型。WEKA 还提供了一个命令行界面,它为您提供了比资源管理器中提供的更多功能。

单击GUI Chooser应用程序中的Simple CLI按钮将启动此命令行界面,如下面的屏幕截图所示 -

Gui选择器

在底部的输入框中输入命令。您将能够完成迄今为止在资源管理器中完成的所有操作以及更多操作。有关更多详细信息,请参阅 WEKA文档(https://www.cs.waikato.ac.nz/ml/weka/documentation.html)。

最后,WEKA 是用 Java 开发的,并为其 API 提供了接口。因此,如果您是一名 Java 开发人员并热衷于在自己的 Java 项目中包含 WEKA ML 实现,那么您可以轻松做到这一点。

结论

WEKA 是开发机器学习模型的强大工具。它提供了几种最广泛使用的机器学习算法的实现。在将这些算法应用于您的数据集之前,它还允许您对数据进行预处理。支持的算法类型分为“分类”、“聚类”、“关联”和“选择”属性。处理各个阶段的结果可以通过美丽而强大的视觉表示来可视化。这使得数据科学家可以更轻松地在其数据集上快速应用各种机器学习技术,比较结果并创建最终使用的最佳模型。