2014年8月18日 星期一

[R][翻譯] 快速計算統計資訊(使用dplyr 套件)

        dplyr是個實用好用的套件,主要功能是用來取代運算慢的SQL套件,來做變項的aggregate運算。(不過在我還是新手的時候SQL套件真的幫了我很多忙XD) 這篇文章的原文為:

Using R: quickly calculating summary statistics (with dplyr)

        dplyr是屬於ddply套件,要使用前請先安裝。



        這是一個簡單的範例,首先使用group by將data分成兩群,注意在輸入欄位時不需要加上任何引號。group by的結果會長得像這樣:

         分組的data仍然是一個data frame,但是分組資訊已經包含在其中。下一個指令(summarise),會將欄位依分組聚集(aggregate),聚集指令可依您的需求而定,這邊使用的是平均數和標準差:

         從上面的例子可以看得出來dplyr提供了比較簡潔的指令。當然我們也可以換種表示方式:

        第一個指令沒什麼特別的。但是第二種就需要注意一下,dplyr使用了 %.% 這個計算符號來將符號左邊的function放入右邊的function中計算。melted指的是我們要用來的分析的data,透過%.% 放入了group by中運算;group by的結果再放入summarise中運算,算是另外一種表示巢狀計算方式。

        


沒有留言:

張貼留言