Bryan's Notes for Big Data & Career: [Apache Spark] Spark SQL 1.3.0 簡介及心得

2015年3月25日星期三

[Apache Spark] Spark SQL 1.3.0 簡介及心得

Introduce to Spark sql 1.3.0 from Li-Wei Yang

SPARK SQL 1.3.0 有了重大的改變，將原本的SCHEMA RDD轉成 DATAFRAME，發展方向也更加明確，這是綜合一些資源和嘗試的投影片，給大家參考，也請不吝指教．
幾個綜合的心得：

透過SPARK SQL簡化寫code整理資料的過程，SQL已經將流程優化，有更佳的效率和閱讀性．
和HIVE以及一些資料格式有更深的結合，讓SPARK讀取資料同時可以同時讀取欄位，方便資料分析作業．
透過JDBC讓外部利用SPARK讀取資料，或是用SPARK讀取外部資料庫．
SPARK SQL成為ML作業中的一環，透過PIPELINE和ML結合．
和PATHON的結合更進一步，DATAFRAME可以直接轉成PANDAS的資料結構，方便後續的視覺化或其他分析．

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)