2014年4月17日 星期四

[R]最近投入了R的世界

     
        說實在的,在習慣SAS EG之後,實在很難習慣其他統計軟體,但是每年SAS的開銷實在不小,如果能夠從軟體上精簡成本,說不定老闆會把這筆錢拿來直接投資在我身上。

        其實四、五年前就接觸過R,但是當時R的介面實在很陽春,而且如果DATA又多又大,在原始的R裡面是很難查看的。但是最近上課認識一套很棒的IDE,讓R操作起來相對平易近人很多。


        這套IDE是叫做 RSTUDIO (https://www.rstudio.com/) 除了保有原本R的介面之外,另外還整合了Script、Data、以及Help視窗,對於不習慣直接寫script的人來說相當友善。

        這次認真地摸了一下R之後,發現R的幾個特色:

        1. 矩陣運算:R預設的資料格式都是矩陣,所有傳統的統計DATA都可以想像成一個大型的Matrix在運算或是處理資料上自然叫一般SAS或SPSS分成觀察值和變項這樣的DATA格式還要來得靈活。以最簡單的排序來說,在統計軟體上通常都是只能依照欄位(也就是變項)來排序,但是由於R的資料格式是矩陣,除了欄排序之外,列也可以排序,在做一些特別的資料分析或是計算上相當方便快速。

         2. 套件和資源多:套件多就不贅述了,平均一天都有兩三個套件推出,光是Cluster的演算法就比別人多了四五種,更新也比一般統計軟體迅速(而且免費)。教學資源相對來說也很多,雖然R才短短幾年歷史,但是在DATA MING界的占比可是第一名,相關的討論也比其他統計軟體多很多。

        3. 可程式化能力高:雖然SAS和SPSS都可以寫語法,但是R的語法更貼近一般物件導向語言,在速度還有靈活性上都是一般統計軟體比不上的。

        以上是摸了兩三天的心得,未來會逐漸把專案移到R上來處理,屆時有更多想法再來跟大家分享。