Bryan's Notes for Big Data & Career: Linux

顯示具有 Linux 標籤的文章。顯示所有文章

2015年8月31日星期一

[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境--HiveContext設定

Spark在1.3.0之後發佈新的DataFrame，與Hive有更多的結合，預設也會啟動HiveContext，可以直接使用sql指令撈取hive中的資料．一般如果Spark與Hive放在同一個環境，只要將hive的hive-site.xml放到spark路徑/conf下面，就可以直接使用．但是現在當我們的環境放在docker裡面的話，設定上就要動點手腳．
相關文章：
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境--HiveContext設定
[Apache Spark][Docker] 利用Jupyterhub打造隨開即用的spark教學環境-- numpy 設定

2015年8月26日星期三

[Linux] 駭人之心不可有，防人之心不可無，Ubuntu簡單防護

上禮拜拿到Softlayer的時候，因為是實體機，有朋友告知安全性的問題，都已經將防火牆架設列在todo list裡面，但是因為大家平常都各自有事情要忙，想說沒有重要資料就先擺著．沒想到今天一早就接到ibm大大的聯繫說有不明人士嘗試進入主機…orz 沒想到平常看人家笑話今天自己變成笑話，果然出來跑的總是要還，在網路上的遲早會被駭．
事情是這樣的：

2015年8月12日星期三

[閒聊] 資料科學家的日常（外傳）

前幾個禮拜過去同事想了解傳說中的資料科學家到底平常在做什麼事情．報章媒體總是喧嘩的好像有資料科學家就能把大便變成黃金，但是身材其中就覺得根本不是這麼回事，就跟一般工作一樣有一堆鳥事要處理，所有神奇的東西都是血汗換來的．

直接放上投影片內容：

Data Scientist's Daily Life from Li-Wei Yang

2015年4月19日星期日

[linux][教學] 用grep + awk＋sed處理文字資料

資料來源：http://animals.oreilly.com/origin-of-species/
過去處理資料可能會使用像是R之類的工具，但是最近開始k些linux的指令後，認識了awk & sed，從此愛上他們．awk和sed是linux中處理使用串流方式處理字串的工具，特色是支援pipeline（亦即可以接其他資料來源，以及將處理完的資料丟給別人處理），正規表達式，而且速度極快！平常可以用awk & sed搭配像是grep等文字工具，來處理linux中的文件檔案（特別是log檔），做一些字串的篩選和判斷．這次將用網頁log資來作為範例．