亚马逊网络服务 - 数据管道


AWS Data Pipeline是一项 Web 服务,旨在让用户更轻松地集成分布在多个 AWS 服务中的数据并从单个位置对其进行分析。

使用 AWS Data Pipeline,可以从源访问数据并进行处理,然后将结果有效地传输到相应的 AWS 服务。

如何设置数据管道?

以下是设置数据管道的步骤 -

步骤 1 - 使用以下步骤创建管道。

  • 登录 AWS 账户。

  • 使用此链接打开 AWS Data Pipeline 控制台 - https://console.aws.amazon.com/datapipeline/

  • 在导航栏中选择区域。

  • 单击创建新管道按钮。

  • 在相应字段中填写所需的详细信息。

    • 在源字段中,选择使用模板构建,然后选择此模板 - 使用 ShellCommandActivity 入门。

创建管道
    • 仅当选择模板时,参数部分才会打开。保留 S3 输入文件夹和 Shell 命令以默认值运行。单击 S3 输出文件夹旁边的文件夹图标,然后选择存储桶。

    • 在计划中,将值保留为默认值。

    • 在管道配置中,将日志记录保留为启用状态。单击日志的 S3 位置下的文件夹图标,然后选择存储桶。

    • 在安全/访问中,将 IAM 角色值保留为默认值。

    • 单击激活按钮。

如何删除管道?

删除管道也会删除所有关联的对象。

步骤 1 - 从管道列表中选择管道。

步骤 2 - 单击操作按钮,然后选择删除。

创建新管道

步骤 3 - 将打开确认提示窗口。单击删除。

AWS 数据管道的功能

简单且经济高效- 其拖放功能可以轻松在控制台上创建管道。它的可视化管道创建器提供了一个管道模板库。这些模板可以更轻松地为处理日志文件、将数据归档到 Amazon S3 等任务创建管道。

可靠- 其基础设施专为容错执行活动而设计。如果活动逻辑或数据源发生故障,AWS Data Pipeline 会自动重试该活动。如果失败仍然存在,则会发送失败通知。我们甚至可以针对成功运行、失败、活动延迟等情况配置这些通知警报。

灵活- AWS Data Pipeline 提供各种功能,如调度、跟踪、错误处理等。它可以配置为执行诸如运行 Amazon EMR 作业、直接针对数据库执行 SQL 查询、执行在 Amazon EC2 上运行的自定义应用程序等操作。