Bryan's Notes for Big Data & Career: [Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境-- numpy 設定

2015年9月19日星期六

[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境-- numpy 設定

之前設定完Docker和Spark後好不容易解決了一堆問題（請參考連結）：

[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境

[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境--HiveContext設定

但是卻在在跑MLlib時發生了嚴重的問題！

天啊～真的是晴天霹靂．因為環境橫跨Jupyter-Docker-Master和Slave等環境，光確認每台的版本就花了很多時間...

相關文章：

[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境--HiveContext設定
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境-- numpy 設定

但是就算每台都裝了numpy還是會出現一樣的錯誤Orz...

總之找問題的過程花了很多時間，只好一一測試看問題出在哪一段：

現在主機上測試單機的Spark
透過master連線是否正確
透過docker的pyspark連線到Master
透過Jupyter連線到Master

最後總算歸納出兩個地方的設定檔要注意：

/spark-dictionary/conf/spark-env.sh
以及這個真的很難找~/.ipython/profile_default/start_up/00.py

要在裡面設定“PYTHON_PYTHON”和“PYSPARK_DRIVER_PYTHON”的路徑，這樣當job summit到master後，才找得到對應的python library路徑．

沒有留言:

張貼留言

訂閱：張貼留言 (Atom)