大数据分析 - 数据生命周期


传统数据挖掘生命周期

为了提供一个框架来组织组织所需的工作并提供来自大数据的清晰见解,将其视为具有不同阶段的循环是有用的。它绝不是线性的,这意味着所有阶段都是相互关联的。该周期与CRISP 方法中描述的更传统的数据挖掘周期有表面上的相似之处。

CRISP-DM 方法论

CRISP -DM 方法代表数据挖掘的跨行业标准流程,是一个描述数据挖掘专家用来解决传统 BI 数据挖掘问题的常用方法的周期。它仍在传统 BI 数据挖掘团队中使用。

看看下面的插图。它显示了 CRISP-DM 方法所描述的周期的主要阶段以及它们如何相互关联。

生命周期

CRISP-DM 于 1996 年构思,次年作为 ESPRIT 资助计划下的欧盟项目启动。该项目由五家公司牵头:SPSS、Teradata、戴姆勒股份公司、NCR 公司和 OHRA(一家保险公司)。该项目最终被纳入SPSS。该方法非常详细地说明了如何指定数据挖掘项目。

现在让我们更多地了解 CRISP-DM 生命周期中涉及的每个阶段 -

  • 业务理解- 这个初始阶段的重点是从业务角度理解项目目标和要求,然后将这些知识转换为数据挖掘问题定义。初步计划旨在实现目标。可以使用决策模型,尤其是使用决策模型和符号标准构建的决策模型。

  • 数据理解- 数据理解阶段从初始数据收集开始,并继续进行活动,以熟悉数据,识别数据质量问题,发现对数据的第一见解,或检测有趣的子集以形成隐藏的假设信息。

  • 数据准备- 数据准备阶段涵盖从初始原始数据构建最终数据集(将输入建模工具的数据)的所有活动。数据准备任务可能会执行多次,并且不按任何规定的顺序执行。任务包括表、记录和属性选择以及建模工具的数据转换和清理。

  • 建模- 在此阶段,选择并应用各种建模技术,并将其参数校准为最佳值。通常,对于同一数据挖掘问题类型有多种技术。有些技术对数据的形式有特定的要求。因此,常常需要退回到数据准备阶段。

  • 评估- 在项目的这个阶段,您已经构建了一个(或多个)模型,从数据分析的角度来看,该模型似乎具有高质量。在进行模型的最终部署之前,彻底评估模型并检查构建模型所执行的步骤非常重要,以确保它正确实现业务目标。

    一个关键目标是确定是否存在一些尚未充分考虑的重要业务问题。在此阶段结束时,应就数据挖掘结果的使用做出决定。

  • 部署- 模型的创建通常不是项目的结束。即使模型的目的是增加数据知识,所获得的知识也需要以对客户有用的方式进行组织和呈现。

    根据需求,部署阶段可以像生成报告一样简单,也可以像实施可重复的数据评分(例如段分配)或数据挖掘过程一样复杂。

在许多情况下,执行部署步骤的是客户,而不是数据分析师。即使分析师部署了模型,客户也必须提前了解需要执行的操作,以便实际使用所创建的模型。

SEMMA方法论

SEMMA 是 SAS 开发的另一种用于数据挖掘建模的方法。它代表Sample(样本)、E xplore(探索)、Modify(修改)、Model(模型)和A sses(评估)。这是其阶段的简要描述 -

  • 样本- 该过程从数据采样开始,例如,选择用于建模的数据集。数据集应足够大以包含足够的信息以供检索,但又应足够小以有效使用。此阶段还处理数据分区。

  • 探索- 此阶段涵盖通过在数据可视化的帮助下发现变量之间的预期和意外关系以及异常来理解数据。

  • 修改- 修改阶段包含选择、创建和转换变量以准备数据建模的方法。

  • 模型- 在模型阶段,重点是将各种建模(数据挖掘)技术应用于准备好的变量,以创建可能提供所需结果的模型。

  • 评估- 建模结果的评估显示了所创建模型的可靠性和有用性。

CRISP-DM 和 SEMMA 之间的主要区别在于,SEMMA 侧重于建模方面,而 CRISP-DM 更重视建模之前的周期阶段,例如了解要解决的业务问题、了解和预处理要处理的数据。用作输入,例如机器学习算法。

大数据生命周期

在当今的大数据背景下,以前的方法要么不完整,要么不是最优的。例如,SEMMA方法完全忽略了不同数据源的数据收集和预处理。这些阶段通常构成了成功的大数据项目的大部分工作。

大数据分析周期可以通过以下阶段来描述 -

  • 业务问题定义
  • 研究
  • 人力资源评估
  • 数据采集
  • 数据修改
  • 数据存储
  • 探索性数据分析
  • 建模和评估的数据准备
  • 造型
  • 执行

在本节中,我们将简要介绍大数据生命周期的每个阶段。

业务问题定义

这是传统 BI 和大数据分析生命周期中的一个共同点。通常,定义问题并正确评估它可能为组织带来多少潜在收益是大数据项目的一个重要阶段。提到这一点似乎是显而易见的,但必须评估该项目的预期收益和成本是多少。

研究

分析其他公司在相SymPy况下的做法。这涉及寻找适合您公司的解决方案,即使它涉及根据您公司拥有的资源和要求调整其他解决方案。在此阶段,应定义未来阶段的方法。

人力资源评估

一旦问题被定义,继续分析当前员工是否能够成功完成项目是合理的。传统的BI团队可能无法为所有阶段提供最优的解决方案,因此在项目开始之前就应该考虑是否需要外包部分项目或雇用更多人员。

数据采集

这部分是大数据生命周期的关键;它定义了交付结果数据产品所需的配置文件类型。数据收集是该过程的一个重要步骤;它通常涉及从不同来源收集非结构化数据。举个例子,它可能涉及编写一个爬虫来从网站检索评论。这涉及到处理文本,可能是不同语言的文本,通常需要大量时间才能完成。

数据修改

一旦从网络等检索数据,就需要以易于使用的格式存储。为了继续查看评论示例,我们假设数据是从不同的站点检索的,每个站点都有不同的数据显示。

假设一个数据源以星级评分的形式给出评论,因此可以将其解读为响应变量y ∈ {1, 2, 3, 4, 5} 的映射。另一个数据源使用两个箭头系统提供评论,一个用于向上投票,另一个用于向下投票。这意味着响应变量的形式为y ∈ {positive, negative}

为了组合两个数据源,必须做出决定以使这两个响应表示等效。这可以涉及将第一数据源响应表示转换为第二形式,将一颗星视为负面,将五颗星视为正面。此过程通常需要分配大量时间才能高质量交付。

数据存储

数据处理后,有时需要将其存储在数据库中。关于这一点,大数据技术提供了很多替代方案。最常见的替代方案是使用 Hadoop 文件系统进行存储,为用户提供有限版本的 SQL,称为 HIVE 查询语言。从用户的角度来看,这使得大多数分析任务能够以与传统 BI 数据仓库中类似的方式完成。其他需要考虑的存储选项包括 MongoDB、Redis 和 SPARK。

周期的这个阶段与人力资源知识有关,即他们实现不同架构的能力。传统数据仓库的修改版本仍在大规模应用程序中使用。例如,Teradata 和 IBM 提供可以处理 TB 级数据的 SQL 数据库;postgreSQL 和 MySQL 等开源解决方案仍在大规模应用程序中使用。

尽管不同存储在后台的工作方式存在差异,但从客户端来看,大多数解决方案都提供 SQL API。因此,对 SQL 的良好理解仍然是大数据分析的一项关键技能。

这个阶段先验似乎是最重要的话题,实际上,事实并非如此。这甚至不是一个必要的阶段。可以实现一个处理实时数据的大数据解决方案,因此在这种情况下,我们只需要收集数据来开发模型,然后实时实现它。因此根本不需要正式存储数据。

探索性数据分析

一旦数据被清理并以可以从中检索见解的方式存储,数据探索阶段就必不可少。此阶段的目标是理解数据,这通常是通过统计技术并绘制数据来完成的。这是评估问题定义是否有意义或可行的良好阶段。

建模和评估的数据准备

此阶段涉及重塑先前检索到的清理数据,并使用统计预处理来进行缺失值插补、离群值检测、归一化、特征提取和特征选择。

造型

前一阶段应该生成多个用于训练和测试的数据集,例如预测模型。此阶段涉及尝试不同的模型并期待解决手头的业务问题。在实践中,通常希望模型能够提供对业务的一些洞察。最后,选择最佳模型或模型组合,评估其在遗漏数据集上的性能。

执行

该阶段开发的数据产品在公司的数据管道中落地。这涉及在数据产品运行时设置验证方案,以跟踪其性能。例如,在实施预测模型的情况下,此阶段将涉及将模型应用于新数据,一旦响应可用,就评估模型。