Bryan's Notes for Big Data & Career: [Apache Spark][教學] Spark 單機版安裝教學（for mac)

2014年9月21日星期日

[Apache Spark][教學] Spark 單機版安裝教學（for mac)

圖片來源：https://spark.apache.org

最近SPARK在台灣相當火熱名媛最愛李宗瑞來這撿屍，潮男潮女富二代去的是（http://www.sparktaipei.com.tw），宅宅工程師只能在家玩Spark（https://spark.apache.org）.

隨著數據量越來越大，除了需要更大的儲存空間，更快的存取速度，也需要更快地計算速度，Spark就是在這樣的需求下的產物．因為Spark我也剛開始摸索，所以還無法提供太詳細的心得．只知道spark的計算主要是依賴記憶體空間，同時計算速度是傳統hodoop的Ｎ倍以上，而且處理時間不太會隨著處理資料的增加而大幅成長（資料來源：http://www.jdon.com/bigdata/spark.html; 原始論文：http://www.eecs.berkeley.edu/Pubs/TechRpts/2011/EECS-2011-82.pdf）．照這樣的特性來看，的確相當適合做big data的計算．不過在使用之前總是先要架設環境，雖然我沒有分散是的環境，但是spark也可以架設在單機上，這篇文章主要講的就是部署在單機上的過程．

下載Spark(http://spark.apache.org/downloads.html)，下載後解壓縮在硬碟上．
下載JAVA JDK http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.htm．安裝好JDK後，要先設定JAVA和SPARK的環境．
接著進入spark的目錄，執行$sbt\sbt.cmd assembly，這邊會自動下載和部署環境，時間會花久一點，我自己是跑了1300秒．
上述步驟結束後，執行spark-shell，應該會出現下列畫面：
注意中間有個Spark UI的訊息後面會有一串網址，將網址丟到瀏覽器應該會出現

這個畫面出現就表示spark 單機部署成功，可以開始玩了～
如果中間出現錯誤訊息可能有幾個原因：

JAVA JDK沒裝
JAVA 環境變項沒有設定
JAVA環境變項路徑設定錯誤（我就是在這邊卡超久...）

一樣又是一篇血淚教訓給各位參考T_T

2015/01/18 現在你有更好的選擇--使用Docker吧!：[Spark][教學] Spark x Docker x ipython Notebook !(一)-Docker + Spark安裝篇

11 則留言:

隨風漂流2015年1月12日上午10:09
Bryan大大您好，我是Big Data的初學者，最近開始研究Spark，現在有個課題是如何把MS SQL資料轉到Spark，但會有一些driver錯誤，不知道大大有沒有相關的研究，謝謝
回覆刪除
回覆
Unknown2015年3月5日晚上8:27
請問一下，
[frankieSpark@frankie spark-1.2.1]$ sbt\sbt.cmd assembly
-bash: sbtsbt.cmd：命令找不到
[frankieSpark@frankie spark-1.2.1]$
為什麼會出錯呢?

謝謝
回覆刪除
回覆
Bryan Yang2015年3月6日下午4:30
可以檢查一下sbt的路徑有沒有放到PATH或是看一下執行路徑對不對
因為我現在手邊沒有環境，看一下有沒有sbt.cmd這個檔案，看是不改成 sbt 就可以了
回覆刪除
回覆
Unknown2016年3月14日凌晨12:22
请問這是Linux嘅方法，还是Windows?
回覆刪除
回覆

新增留言

2014年9月21日 星期日

[Apache Spark][教學] Spark 單機版安裝教學（for mac)

11 則留言:

2014年9月21日星期日