2014年10月25日 星期六

[Python] K-means 分組 Script


        K-means是一種非監督式學習的分類方式,原理將向量空間中的點分成k群後,計算每個點到群組中心的距離,目的在於使點到群心的距離成為最小(參考資料:http://en.wikipedia.org/wiki/K-means_clusteringhttps://www.youtube.com/watch?v=aiJ8II94qck).K-means因為容易理解,所以業界中也很常使用,本篇主要不是講解演算法,而是利用python中的sikit-learn套件製作一個小程式,讓使用者可以輕鬆的使用k-means演算法.

2014年10月23日 星期四

[職涯] 舒緩學習焦慮--沒有沒有用的學習歷程


        我不知道有多少跟我一樣有學習焦慮,症狀就是覺得自己趕不上別人,有好多東西沒有學,但是學了之後又怕之後沒有用,常起處於焦慮狀態的人.這個禮拜一在Taiwan R User Group上聽到很多大大的學習歷程也是十分曲折,所以我也開始思考了自己過去的路徑.

2014年10月17日 星期五

[職涯] 在就職當天準備離職

圖片來源:http://intao.deviantart.com/art/Darkest-Path-193708896

        標題下得很聳動,但是我不是在暗示想要離職(怕老闆看到,趕快澄清) ,而是一種心態--保持隨時都要可以離職的心態.(感覺好像跟什麼隨時都可以去死的心態一樣

        見過一些朋友,工作了兩三年,覺得在現在的工作沒有發展性,調薪幅度有限,想要換工作時,發現自己除了現在的工作以外,其他什麼事情都不會做.這時候比較積極的一點會開始進修,培養新的專長;稍微平順一點的,就想不如再待一下,等有好機會再走.

        結果這樣一待過了兩年,當拿著五年同工作的經歷去就業市場尋找機會時,沒想到自己年齡也大了,其他工作都寧可要更新鮮的肝;而這些職場五年級生也不干區就新鮮人的薪水,只好一邊留在原公司領那一年多不到3%的調薪,一邊抱怨薪水不如預期工作難找.

2014年10月12日 星期日

人生就是不停地戰鬥


        “人生就是不停地戰鬥”這句話是九把刀的名言.我不是刀迷,但是很喜歡他這種用熱血包裝踏實的行動理念.我默約是從大學時代接觸到九把刀的小說,記得第一部吸引我的是“樓下的房客”,後來追了一系列的都市恐怖系列,也有follow它最早在kkcity上的個版.不過今天的重點不是要談小說.

        記得他很早就有提到,寫小說沒什麼訣竅,就是固定一天寫三千字.我寫論文期間一天卯起來也才寫5000字而已,可見每天持續三千字的創作有多不容易(這還不包括了取材跟思考的時間).當時正值準備研究所的階段,說實在唸書也沒啥訣竅,每天固定八小時無論颳風下雨還是過年過節,就連分手隔天也是

2014年10月11日 星期六

[R] 相見太晚,回頭是岸,分析WOE和IV值的神器套件

        

        最近因為投入研究Spark,對於資料分析的東西比較沒時間琢磨,難得一個雙十假日又可以來體驗一下礦工的生活了.
        
        Data mining不管是用何種方式建立模型,從幾百個變項中選出幾個候選變項往往是整個資料採掘過程最耗人的一個過程,實務上常使用WOE和IV用於變項篩選和分析(特別是信用評分卡模型),並透過WOE將原始資料離散化並取代後放入logistic模型中進行二分變項(結果只有0或1)的分析.

2014年10月10日 星期五

[Apache Spark][開發] 建立第一個RDD物件,體驗in Memory Computing的威力(二)

        拖稿了一下,繼續來介紹SPARK的平行運算能力.前一篇[Spark] 建立第一個RDD物件,體驗平行運算的威力(一)我們透過python在SPARK上建立了第一個RDD物件,接著我們將開始對這個物件做一些操作.

2014年10月7日 星期二

[Apache Spark][開發] 建立第一個RDD物件,體驗in Memory Computing的威力(一)


        RDD(Resilient Distributed Dataset)是SAPRK的核心概念和特色,最主要的特色在於:
        1. RDD是基於在記憶體上的儲存和運算
        2. RDD具備平行運算處理的能力
RDD背後有很深的理論和演算法基礎,想要有更深的了解可以參考這篇論文:Resilient Distributed Datasets: A Fault-Tolerant Abstraction forIn-Memory Cluster Computing
本文從實作方面來看一下如何透過python在spark上建立RDD物件,以及做基本的操作.

2014年10月4日 星期六

Like a Bat 從行銷中的分析單位到IT中的分析單位 - 後記


     
        圖片來源:黑暗騎士劇照

        前天發了篇Like a Bat 從行銷中的分析單位到IT中的分析單位,提到一些兩造的差異.但是過了一天又覺得差異其實並不若那麼大.

        昨天和部門主管報告未來的專案規劃,被問到很多技術上的問題,諸如資料平台,可用的資料庫等等.在回答這些問題的過程中,我突然想起來過去在調查分析時的情況.過去在提案的時候,不也是會回答種種執行方法上的問題嗎?

2014年10月2日 星期四

Like a Bat 從行銷中的分析單位到IT中的分析單位


        放Batman的圖片不是想說我變得很有錢。只是最近的心情讓我想到那個有關蝙蝠的預言故事。那個故事是這樣的:

        很久以前,鳥類和走獸,因為發生一點爭執,就爆發了戰爭。并且,雙方僵持,各不相讓。 
  有一次,雙方交戰,鳥類戰胜了。蝙蝠突然出現在鳥類的堡壘。“各位,恭禧啊!能將那些粗暴的走獸打敗,真是英雄啊!我有翅膀又能飛,所以是鳥的伙伴!請大家多多指教!” 
  這時,鳥類非常需要新伙伴的加入,以增強實力。所以很歡迎蝙蝠的加入。 
  可使蝙蝠是個膽小鬼,等到戰爭開始,便秘不露面,躲在一旁觀戰。後來,當走獸戰勝鳥類時,走獸們高聲地唱著勝利的歌。蝙蝠卻又突然出現在走獸的營區。“各位恭禧!把鳥類打敗!實在太棒了!我是老鼠的同類,也是走獸!敬請大家多多指教!” 
  走獸們也很樂意的將蝙蝠納入自己的同伴羣中。 
  於是,每當走獸們剩利,蝙蝠就加入走獸。每當鳥類們打贏,卻又成為鳥類們的伙伴。 
  最後戰爭結束了,走獸和鳥類言歸和好,雙方都知道了蝙蝠的行為。當蝙蝠再度出現在鳥類的世界時,鳥類很不客氣的對他說:“你不是鳥類!” 
  被鳥類趕出來的蝙蝠只好來到走獸的世界,走獸們則說:“你不是走獸!”並趕走了蝙蝠。 最後,蝙蝠只能在黑夜,偷偷的飛著。

        ---- 資料來源:https://tw.knowledge.yahoo.com/question/question?qid=1007032307854