Weka - 文件格式


WEKA 支持多种数据文件格式。这是完整的列表 -

  • 阿尔夫
  • arff.gz
  • 英国标准协会
  • 数据集
  • 数据
  • 数据
  • json
  • json.gz
  • 库支持虚拟机
  • 名字
  • 辐射源
  • xrff.gz

屏幕底部的下拉列表框中列出了它支持的文件类型。这如下面的屏幕截图所示。

下拉列表

您会注意到它支持多种格式,包括 CSV 和 JSON。默认文件类型是 Arff。

阿尔夫格式

Arff文件包含两个部分 - 标头和数据。

  • 标头描述了属性类型。
  • 数据部分包含逗号分隔的数据列表。

作为 Arff 格式的示例,从 WEKA 示例数据库加载的天气数据文件如下所示 -

示例数据库

从屏幕截图中,您可以推断出以下几点 -

  • @relation 标签定义数据库的名称。

  • @attribute 标签定义属性。

  • @data 标记启动数据行列表,每个数据行包含逗号分隔的字段。

  • 这些属性可以采用名义值,就像此处所示的 Outlook 的情况一样 -

@attribute Outlook(晴天、阴天、雨天)
  • 属性可以采用实际值,如本例所示 -

@属性温度实数
  • 您还可以设置一个名为 play 的目标或类变量,如下所示 -

@属性播放(是,否)
  • 目标假定两个标称值是或否。

其他格式

资源管理器可以加载前面提到的任何格式的数据。由于 arff 是 WEKA 中的首选格式,因此您可以从任何格式加载数据并将其保存为 arff 格式以供以后使用。数据预处理后,只需将其保存为arff格式以供进一步分析。

现在您已经学习了如何将数据加载到 WEKA 中,在下一章中,您将学习如何预处理数据。