Spark SQL - 数据源


DataFrame 接口允许不同的数据源在 Spark SQL 上工作。它是一个临时表,可以像普通的RDD一样操作。将 DataFrame 注册为表允许您对其数据运行 SQL 查询。

在本章中,我们将描述使用不同的 Spark DataSource 加载和保存数据的一般方法。此后,我们将详细讨论可用于内置数据源的特定选项。

SparkSQL 中有不同类型的数据源,下面列出了其中一些 -

先生 否 数据源
1 JSON 数据集

Spark SQL 可以自动捕获 JSON 数据集的架构并将其作为 DataFrame 加载。

2 蜂巢表

Hive 作为 HiveContext 与 Spark 库捆绑在一起,它继承自 SQLContext。

3 镶木地板文件

Parquet 是一种柱状格式,许多数据处理系统都支持。