Spark SQL 数据源

2018-12-20 17:32 更新

DataFrame接口允许不同的DataSource在Spark SQL上工作。 它是一个临时表,可以作为正常的RDD操作。 将DataFrame注册为表允许您对其数据运行SQL查询。
在本章中,我们将描述使用不同Spark DataSource加载和保存数据的一般方法。 此后,我们将详细讨论可用于内置数据源的特定选项。
SparkSQL中提供了不同类型的数据源,下面列出了其中的一些数据源:

编号数据源
1JSON数据集
Spark SQL可以自动捕获JSON数据集的模式,并将其作为DataFrame加载。

2蜂巢表
Hive与Spark库捆绑为HiveContext,它继承自SQLContext。

3Parquet文件
Parquet是一种柱状格式,由许多数据处理系统支持。

以上内容是否对您有帮助:
在线笔记
App下载
App下载

扫描二维码

下载编程狮App

公众号
微信公众号

编程狮公众号