Talend - 大数据


Open Studio with Big data 的口号是“使用领先的免费开源大数据 ETL 工具简化 ETL 和 ELT”。在本章中,我们将探讨如何使用 Talend 作为大数据环境中的数据处理工具。

介绍

Talend Open Studio – 大数据是一款免费的开源工具,可在大数据环境中轻松处理数据。Talend Open Studio 中有大量可用的大数据组件,让您只需简单拖放几个 Hadoop 组件即可创建和运行 Hadoop 作业。

此外,我们不需要编写大行MapReduce代码;Talend Open Studio Big data 可帮助您使用其中的组件来实现此目的。它会自动为您生成MapReduce代码,您只需拖放组件并配置几个参数即可。

它还让您可以选择连接多个大数据发行版,例如 Cloudera、HortonWorks、MapR、Amazon EMR 甚至 Apache。

大数据 Talend 组件

下面显示了在大数据下包含的在大数据环境上运行作业的组件的类别列表 -

大数据

Talend Open Studio 中的大数据连接器和组件列表如下所示 -

  • tHDFSConnection - 用于连接到 HDFS(Hadoop 分布式文件系统)。

  • tHDFSInput - 从给定的 hdfs 路径读取数据,将其放入 talend 架构中,然后将其传递到作业中的下一个组件。

  • tHDFSList - 检索给定 hdfs 路径中的所有文件和文件夹。

  • tHDFSPut - 将文件/文件夹从本地文件系统(用户定义)复制到给定路径的 hdfs。

  • tHDFSGet - 将文件/文件夹从 hdfs 复制到给定路径的本地文件系统(用户定义)。

  • tHDFSDelete - 从 HDFS 删除文件

  • tHDFSExist - 检查 HDFS 上是否存在文件。

  • tHDFSOutput - 在 HDFS 上写入数据流。

  • tCassandraConnection - 打开与 Cassandra 服务器的连接。

  • tCassandraRow - 在指定数据库上运行 CQL(Cassandra 查询语言)查询。

  • tHBaseConnection - 打开与 HBase 数据库的连接。

  • tHBaseInput - 从 HBase 数据库读取数据。

  • tHiveConnection - 打开与 Hive 数据库的连接。

  • tHiveCreateTable - 在配置单元数据库内创建一个表。

  • tHiveInput - 从配置单元数据库读取数据。

  • tHiveLoad - 将数据写入 hive 表或指定目录。

  • tHiveRow - 在指定数据库上运行 HiveQL 查询。

  • tPigLoad - 将输入数据加载到输出流。

  • tPigMap - 用于在 Pig 进程中转换和路由数据。

  • tPigJoin - 根据连接键执行 2 个文件的连接操作。

  • tPigCoGroup - 对来自多个输入的数据进行分组和聚合。

  • tPigSort - 根据一个或多个定义的排序键对给定数据进行排序。

  • tPigStoreResult - 将猪操作的结果存储在定义的存储空间中。

  • tPigFilterRow - 过滤指定的列,以便根据给定条件分割数据。

  • tPigDistinct - 从关系中删除重复的元组。

  • tSqoopImport - 将数据从关系数据库(如 MySQL、Oracle DB)传输到 HDFS。

  • tSqoopExport - 将数据从 HDFS 传输到关系数据库,如 MySQL、Oracle DB