Bryan's Notes for Big Data & Career: [Apache Spark][開發] 建立第一個RDD物件，體驗in Memory Computing的威力(一）

2014年10月7日星期二

[Apache Spark][開發] 建立第一個RDD物件，體驗in Memory Computing的威力(一）

圖片來源：http://blog.csdn.net/hao707822882/article/details/38039891

RDD（Resilient Distributed Dataset）是SAPRK的核心概念和特色，最主要的特色在於：
1. RDD是基於在記憶體上的儲存和運算
2. RDD具備平行運算處理的能力
RDD背後有很深的理論和演算法基礎，想要有更深的了解可以參考這篇論文：Resilient Distributed Datasets: A Fault-Tolerant Abstraction forIn-Memory Cluster Computing
本文從實作方面來看一下如何透過python在spark上建立RDD物件，以及做基本的操作．

在進入pysaprk的環境（改天再寫如何在ipython notebook上建立pyspark環境）後，先啟動saprk：

”local“代表我是從本機端作為master，後面的“app”是UI界面的名稱．啟動後再Terminal界面可以看到SPARK UI也一併啟動

將路徑貼到瀏覽器中，即可看到Spark-UI的畫面，目前因為我們尚未建立任何一個RDD物件，所以還沒有任何東西在裡面

要建立RDD物件的方式很簡單，就像建立一個任何的PYTHON物件一樣：

透過我們剛剛建立的sparkContext物件，來建立RDD物件．這時候回到spark UI中重新整理畫面，你會發現什麼東西都沒有改變，這不是你做錯~~（也不是我耍你）~~，原因留待下篇文章說明．（保證絕對不會富姦）

Bryan's Notes for Big Data & Career

2014年10月7日星期二

[Apache Spark][開發] 建立第一個RDD物件，體驗in Memory Computing的威力(一）

沒有留言:

張貼留言

2014年10月7日 星期二

[Apache Spark][開發] 建立第一個RDD物件，體驗in Memory Computing的威力(一）

沒有留言:

張貼留言

2014年10月7日星期二