Bryan's Notes for Big Data & Career
2015年3月25日 星期三
[Apache Spark] Spark SQL 1.3.0 簡介及心得
Introduce to Spark sql 1.3.0
from
Li-Wei Yang
SPARK SQL 1.3.0 有了重大的改變,將原本的SCHEMA RDD轉成 DATAFRAME,發展方向也更加明確,這是綜合一些資源和嘗試的投影片,給大家參考,也請不吝指教.
幾個綜合的心得:
透過SPARK SQL簡化寫code整理資料的過程,SQL已經將流程優化,有更佳的效率和閱讀性.
和HIVE以及一些資料格式有更深的結合,讓SPARK讀取資料同時可以同時讀取欄位,方便資料分析作業.
透過JDBC讓外部利用SPARK讀取資料,或是用SPARK讀取外部資料庫.
SPARK SQL成為ML作業中的一環,透過PIPELINE和ML結合.
和PATHON的結合更進一步,DATAFRAME可以直接轉成PANDAS的資料結構,方便後續的視覺化或其他分析.
沒有留言:
張貼留言
較新的文章
較舊的文章
首頁
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言