2015年9月19日 星期六

[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境-- numpy 設定



之前設定完Docker和Spark後好不容易解決了一堆問題(請參考連結):
但是卻在在跑MLlib時發生了嚴重的問題!
天啊~真的是晴天霹靂.因為環境橫跨Jupyter-Docker-Master和Slave等環境,光確認每台的版本就花了很多時間...
相關文章:
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境--HiveContext設定
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境-- numpy 設定


但是就算每台都裝了numpy還是會出現一樣的錯誤Orz...
總之找問題的過程花了很多時間,只好一一測試看問題出在哪一段:
  • 現在主機上測試單機的Spark
  • 透過master連線是否正確
  • 透過docker的pyspark連線到Master
  • 透過Jupyter連線到Master
最後總算歸納出兩個地方的設定檔要注意:
  • /spark-dictionary/conf/spark-env.sh
  • 以及這個真的很難找~/.ipython/profile_default/start_up/00.py
要在裡面設定“PYTHON_PYTHON”和“PYSPARK_DRIVER_PYTHON”的路徑,這樣當job summit到master後,才找得到對應的python library路徑.