Using R: quickly calculating summary statistics (with dplyr)
dplyr是屬於ddply套件,要使用前請先安裝。
這是一個簡單的範例,首先使用group by將data分成兩群,注意在輸入欄位時不需要加上任何引號。group by的結果會長得像這樣:
分組的data仍然是一個data frame,但是分組資訊已經包含在其中。下一個指令(summarise),會將欄位依分組聚集(aggregate),聚集指令可依您的需求而定,這邊使用的是平均數和標準差:
從上面的例子可以看得出來dplyr提供了比較簡潔的指令。當然我們也可以換種表示方式:
第一個指令沒什麼特別的。但是第二種就需要注意一下,dplyr使用了 %.% 這個計算符號來將符號左邊的function放入右邊的function中計算。melted指的是我們要用來的分析的data,透過%.% 放入了group by中運算;group by的結果再放入summarise中運算,算是另外一種表示巢狀計算方式。
分組的data仍然是一個data frame,但是分組資訊已經包含在其中。下一個指令(summarise),會將欄位依分組聚集(aggregate),聚集指令可依您的需求而定,這邊使用的是平均數和標準差:
從上面的例子可以看得出來dplyr提供了比較簡潔的指令。當然我們也可以換種表示方式:
第一個指令沒什麼特別的。但是第二種就需要注意一下,dplyr使用了 %.% 這個計算符號來將符號左邊的function放入右邊的function中計算。melted指的是我們要用來的分析的data,透過%.% 放入了group by中運算;group by的結果再放入summarise中運算,算是另外一種表示巢狀計算方式。
沒有留言:
張貼留言