2014年9月21日 星期日

[Apache Spark][教學] Spark 單機版安裝教學(for mac)

圖片來源:https://spark.apache.org

        最近SPARK在台灣相當火熱名媛最愛李宗瑞來這撿屍,潮男潮女富二代去的是(http://www.sparktaipei.com.tw),宅宅工程師只能在家玩Spark(https://spark.apache.org).



        隨著數據量越來越大,除了需要更大的儲存空間,更快的存取速度,也需要更快地計算速度,Spark就是在這樣的需求下的產物.因為Spark我也剛開始摸索,所以還無法提供太詳細的心得.只知道spark的計算主要是依賴記憶體空間,同時計算速度是傳統hodoop的N倍以上,而且處理時間不太會隨著處理資料的增加而大幅成長(資料來源:http://www.jdon.com/bigdata/spark.html; 原始論文:http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf.照這樣的特性來看,的確相當適合做big data的計算.不過在使用之前總是先要架設環境,雖然我沒有分散是的環境,但是spark也可以架設在單機上,這篇文章主要講的就是部署在單機上的過程.
  1. 下載Spark(http://spark.apache.org/downloads.html),下載後解壓縮在硬碟上.
  2. 下載JAVA JDK http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htm.安裝好JDK後,要先設定JAVA和SPARK的環境.
  3. 接著進入spark的目錄,執行$sbt\sbt.cmd assembly,這邊會自動下載和部署環境,時間會花久一點,我自己是跑了1300秒.
  4. 上述步驟結束後,執行spark-shell,應該會出現下列畫面:
  5. 注意中間有個Spark UI的訊息後面會有一串網址,將網址丟到瀏覽器應該會出現
這個畫面出現就表示spark 單機部署成功,可以開始玩了~
如果中間出現錯誤訊息可能有幾個原因:

  1. JAVA JDK沒裝
  2. JAVA 環境變項沒有設定
  3. JAVA環境變項路徑設定錯誤(我就是在這邊卡超久...)
一樣又是一篇血淚教訓給各位參考T_T

2015/01/18 現在你有更好的選擇--使用Docker吧!:[Spark][教學] Spark x Docker x ipython Notebook !(一)-Docker + Spark安裝篇