顯示具有 Linux 標籤的文章。 顯示所有文章
顯示具有 Linux 標籤的文章。 顯示所有文章

2015年8月31日 星期一

[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境--HiveContext設定




Spark在1.3.0之後發佈新的DataFrame,與Hive有更多的結合,預設也會啟動HiveContext,可以直接使用sql指令撈取hive中的資料.一般如果Spark與Hive放在同一個環境,只要將hive的hive-site.xml放到spark路徑/conf下面,就可以直接使用.但是現在當我們的環境放在docker裡面的話,設定上就要動點手腳.
相關文章:
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境--HiveContext設定
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境-- numpy 設定

2015年8月26日 星期三

[Linux] 駭人之心不可有,防人之心不可無,Ubuntu簡單防護

enter image description here
上禮拜拿到Softlayer的時候,因為是實體機,有朋友告知安全性的問題,都已經將防火牆架設列在todo list裡面,但是因為大家平常都各自有事情要忙,想說沒有重要資料就先擺著.沒想到今天一早就接到ibm大大的聯繫說有不明人士嘗試進入主機…orz 沒想到平常看人家笑話今天自己變成笑話,果然出來跑的總是要還,在網路上的遲早會被駭.
事情是這樣的:

2015年8月12日 星期三

[閒聊] 資料科學家的日常(外傳)


前幾個禮拜過去同事想了解傳說中的資料科學家到底平常在做什麼事情.報章媒體總是喧嘩的好像有資料科學家就能把大便變成黃金,但是身材其中就覺得根本不是這麼回事,就跟一般工作一樣有一堆鳥事要處理,所有神奇的東西都是血汗換來的.

直接放上投影片內容:

相關閱讀:
[Python] 資料科學家的日常(一) Read Data
[Python] 資料科學家的日常(二) Clean Data-清理HTML標籤 l.html

2015年4月19日 星期日

[linux][教學] 用grep + awk+sed處理文字資料

enter image description here
資料來源:http://animals.oreilly.com/origin-of-species/
過去處理資料可能會使用像是R之類的工具,但是最近開始k些linux的指令後,認識了awk & sed,從此愛上他們.awk和sed是linux中處理使用串流方式處理字串的工具,特色是支援pipeline(亦即可以接其他資料來源,以及將處理完的資料丟給別人處理),正規表達式,而且速度極快!平常可以用awk & sed搭配像是grep等文字工具,來處理linux中的文件檔案(特別是log檔),做一些字串的篩選和判斷.這次將用網頁log資來作為範例.

2015年4月9日 星期四

[linux] 將pipe結果當成if條件使用

enter image description here
shell script真的是方便的工具,最近剛學會一點awk,一些過去很難處理的東西,現在都被簡化了.今天遇到的狀況是:想用shell script將另外一支程式包起來,並將程式的output另外存放,並且根據output的內容回饋給使用者一些訊息.

2015年3月16日 星期一

[Linux] Crontab低手紀錄(Scrapyd管理)

crontab
說到linux的排程工具,第一個都會想到crontab,crontab的確方便使用,但是剛接觸的時候也是花了不少時間瞭解,紀錄一下最近遇到的狀況,以免自己以後又犯同樣的錯Orz.