2014年10月7日 星期二

[Apache Spark][開發] 建立第一個RDD物件,體驗in Memory Computing的威力(一)


        RDD(Resilient Distributed Dataset)是SAPRK的核心概念和特色,最主要的特色在於:
        1. RDD是基於在記憶體上的儲存和運算
        2. RDD具備平行運算處理的能力
RDD背後有很深的理論和演算法基礎,想要有更深的了解可以參考這篇論文:Resilient Distributed Datasets: A Fault-Tolerant Abstraction forIn-Memory Cluster Computing
本文從實作方面來看一下如何透過python在spark上建立RDD物件,以及做基本的操作.


在進入pysaprk的環境(改天再寫如何在ipython notebook上建立pyspark環境)後,先啟動saprk:

”local“代表我是從本機端作為master,後面的“app”是UI界面的名稱.啟動後再Terminal界面可以看到SPARK UI也一併啟動
將路徑貼到瀏覽器中,即可看到Spark-UI的畫面,目前因為我們尚未建立任何一個RDD物件,所以還沒有任何東西在裡面


要建立RDD物件的方式很簡單,就像建立一個任何的PYTHON物件一樣:

透過我們剛剛建立的sparkContext物件,來建立RDD物件.這時候回到spark UI中重新整理畫面,你會發現什麼東西都沒有改變,這不是你做錯(也不是我耍你),原因留待下篇文章說明.(保證絕對不會富姦)