Spark SQL 數(shù)據(jù)源

2018-12-20 17:32 更新

DataFrame接口允許不同的DataSource在Spark SQL上工作。 它是一個(gè)臨時(shí)表,可以作為正常的RDD操作。 將DataFrame注冊(cè)為表允許您對(duì)其數(shù)據(jù)運(yùn)行SQL查詢。
在本章中,我們將描述使用不同Spark DataSource加載和保存數(shù)據(jù)的一般方法。 此后,我們將詳細(xì)討論可用于內(nèi)置數(shù)據(jù)源的特定選項(xiàng)。
SparkSQL中提供了不同類型的數(shù)據(jù)源,下面列出了其中的一些數(shù)據(jù)源:

編號(hào)數(shù)據(jù)源
1JSON數(shù)據(jù)集
Spark SQL可以自動(dòng)捕獲JSON數(shù)據(jù)集的模式,并將其作為DataFrame加載。

2蜂巢表
Hive與Spark庫(kù)捆綁為HiveContext,它繼承自SQLContext。

3Parquet文件
Parquet是一種柱狀格式,由許多數(shù)據(jù)處理系統(tǒng)支持。

以上內(nèi)容是否對(duì)您有幫助:
在線筆記
App下載
App下載

掃描二維碼

下載編程獅App

公眾號(hào)
微信公眾號(hào)

編程獅公眾號(hào)