2015年3月25日 星期三

[Apache Spark] Spark SQL 1.3.0 簡介及心得



SPARK SQL 1.3.0 有了重大的改變,將原本的SCHEMA RDD轉成 DATAFRAME,發展方向也更加明確,這是綜合一些資源和嘗試的投影片,給大家參考,也請不吝指教.
幾個綜合的心得:

2015年3月20日 星期五

[DB] Teradata SQL最佳化教學(三)-- Reducing Table Update Time

這是系列文的最後一篇文章,介紹怎樣減少更新資料表的時間.根據上面的文章,如果基本的資料分散有做好的話,要加快資料查詢速度,要不就要浪費硬碟容量(產生非正規劃的資料表),或是將時間轉移到更新時間上,這時候需要去抉擇到底要犧牲哪部分.

2015年3月19日 星期四

[DB] Teradata SQL最佳化教學(二)-- 減少大型SQL語句


前一篇談的是SQL和INDEX的優化方式,接下來是指縮減大型的SQL語句.一般寫程式會盡量把步驟在一個SQL裡面做完,但是TERADATA在運作上,由於會運用Spool暫存SQL運行產生的表格,加上資料量又大,如果SQL語句太複雜,將會把Spool吃滿,反而增加運行時間,這時候,可以參考這篇文章的策略,將SQL語句簡化.

2015年3月17日 星期二

[DB] Teradata SQL最佳化教學(一)-- SQL and Indexes

Teradata是一平行化儲存處理的資料庫,雖然完全支援SQL,但是一些邏輯還是不太一樣.特別是資料倉儲多半存放量大的資料(動則幾百萬筆,數百G的Table),寫得好和寫得不好的SQL執行起來效率差得非常多,這篇文章提供幾個大方向的建議.


2015年3月16日 星期一

[DB] Teradata 架構入門


Teradata(http://www.teradata.com)是資料倉儲的知名廠商,但是因為售價昂貴,通常只有大型企業採用,而且也沒有OPEN SOURCE,所以相關資訊都相當集中在Teradata手上.反正工作上會用到,所以把幾個有公開釋出的資料翻譯一下,給有相關需求,英文又苦手的人參考.

[Linux] Crontab低手紀錄(Scrapyd管理)

crontab
說到linux的排程工具,第一個都會想到crontab,crontab的確方便使用,但是剛接觸的時候也是花了不少時間瞭解,紀錄一下最近遇到的狀況,以免自己以後又犯同樣的錯Orz.

2015年3月15日 星期日

[Docker][教學] 使用Vagrant建立PostgreSQL環境(下)

        經歷過先前多次失敗,聽大大建議果斷放棄boot2docker,改用VM模擬一個Ubuntu來當作docker的執行環境,並且使用Vagrant來管理VM.Vagrant並不是一個真正的VM運行平台,而是一套方便管理VM的工具,可以透過Vagrant來簡化VM設定的流程(特別是要開很多個VM的時候),Vagrant實際上是使用virtual Box來運行VM.

2015年3月11日 星期三

[心得] 看模仿遊戲(Imitation Game)學管理(內有大量雷,未看過慎入)

圖片來源:http://brackety-ack.pages.roanoke.edu/2015/02/12/movie-review-the-imitation-game/

這個週末去朝聖了模仿遊戲.模仿遊戲主要在描述圖靈這位電腦科學的始祖,破解二次大戰時德國的加密設備(Enigma),以及晚年因為同性戀的身份被迫害而死的故事.整部片的重點雖然跟管理無關,但是打贏戰爭的確也不是個人英雄主義式的勝利,劇中也相當合理的帶到一些管理的議題,趁著記憶猶新的時候紀錄一下我的感想.

2015年3月5日 星期四

[Docker][教學] 使用Vagrant建立PostgreSQL環境(上)

enter image description here

開始使用docker後,現在都盡量將環境建立在docker上方便環境的設定以及移轉.最近想把postgresql移轉到docker上,但是怎樣都不成功(我的環境是OSX).試過官方的版本postgres,也有非官方的版本Painted-Fox/postgresql,搞了整整兩天經歷過無數次的失敗,才學到的血淚教訓–放下boot2docker,立地成佛