2015年1月25日 星期日

[心得] 寫在三萬人次之前的Q&A

        
        記得去年十二月才剛破兩萬人次,還來不及發文,一轉眼就來到三萬人次了,真的很感謝大家的支持.比起資料分析,寫程式方面我只是個小小的新手,越寫越覺得自己的不足,還有非常多需要努力的地方.原本只當這裡是記錄學習過程的地方,但是從寫作過程中,因為開始有些讀者,更有動力去學習新東西來跟大家分享,更重視文字和內容的品質,也因此認識了一些好朋友,是個相當難得的經驗.以下以Q&A來回答一些讀者常問到問題:


  • Q:請問為什麼會開始寫網誌呢?
  • A:很早之前看過大大分享自己為什麼寫網誌,大大是早上起床寫一篇網誌,可以以此激勵自己閱讀以及分享的習慣.所以我很早期就開始寫網誌,但是一直斷斷續續.要生產一篇文章,可能要先消化十篇,二十篇的文章才有辦法.所以常常因為沒有內容可以分享而中斷.這個網誌相當難得持續了大概一年,寫了100多篇文章(笑)

  • Q:你以前是顧問業,現在跑來當IT,怎麼會有那麼大的變化呢?
  • A:這邊我要先澄清一下,雖然現在常常寫程式,但是並不是純粹的軟體開發.而是利用程式在做資料分析(也就是一般俗稱的資料科學家).就資料分析而言,不管你用SAS,SPSS,R,PYTHON,SQL甚至SPARK概念上都沒差多少(畢竟平均數,機率,或是回歸分析不會因為軟體有差異)對我來說只是換個工具而已.比較大的差異在於,換了工具之後,思考的模式會有根本上的轉換.當使用SPSS或SAS這樣的套裝軟體,能用的方法都會被限制在軟體提供的範圍內.但是進入程式的領域後,不但有更多的套件,更多的選擇,如果沒有適合的方式,還可以自己寫XD,在資料分析上有更多的靈活度和可能性.

  • Q:要怎樣才能做Big Data呢?
  • A:最近很流行大數據,但是老實說,真正用到大數據的公司根本不多...而且通常關鍵不在於資料大小,而是在於到底有會不會分析資料,以及利用資料分析結果才做決策.如果決策方式還是停留在印象派,那就算把google整套搬回去都沒用.回到big data上,當資料從小資料到big data,真的會有量變造成質變的效應.不但資料儲存的架構改變,連演算法都要改成平行化的方式處理.如果真的有big data需要分析,就要學習使用合適的儲存(例如hadoop)以及分析架構(如spark).當然,這些東西都只是工具,要產生價值還是需要依賴看資料的眼光.

  • Q:怎樣才能當個資料科學家呢?
  • A:資料科學家也是超夯的話題,事實上台灣相關職缺根本超少,這個職缺和概念太新,公司或主管往往也搞不太清楚.之前看過某大大分享,資料科學家的統計要比程式設計師強,而寫程式的能力要比統計學家強.照這個路線來看,如果你原本念統計的,就來寫程式吧~學習使用data mining和機器學習的方式來分析資料(因為大資料下很多統計推論是無效的);寫程式的就得學習統計,培養觀察資料的敏感程度,研究設計,以及小樣本時的分析方式,兩者的思考模式是不太一樣的.

  • Q:要從哪開始呢?
  • A:從用得到的地方開始吧.資料科學是很注重實用以及實戰的科學,就現在手上拿的到的資料分析,需要用的技術去學習,遇到的問題去解決,最好還能將資料分析結果與應用相結合,才能了解資料與實務之間的連結,也就是所謂Domain Know how.

  • Q:寫網誌好玩嗎?
  • A:超級痛苦,每篇大概至少寫一個小時,長的兩三個小時都有orz.寫了才知道大大們有多厲害.
        有點掰不出來了,再次感謝各位讀者.