2014年6月5日 星期四

資料的切與不切,is a critical choice

        為了瞭解雨量和業績之間的關係,先前以用R抓網頁資料抓到了台灣的雨量資料,觀察三年來每一天雨量和業績的關係,我們去觀察是否雨量越大,業績會越好(或越不好),但是結果是相當不顯著的。直到有一天與同事聊天,同事以前是在達美樂上班,說有下雨和沒下雨對業績是有非常大的差別的。


        聽了之後,我重新將雨量資料從原本的連續型資料分為有/無下雨來觀察(可以參考用R將連續型資料轉離散)。發現有/無下雨對於業績也是有顯著的影響! 接著進一步,為了想了解影響業績的臨界點在哪邊,也就是雨要下到多大才會對業績有影響,又嘗試不同的分組方式:分為三組、五組、十組;也嘗試不同的切點。最後發現,高雄只要一下雨(無論雨多大)業績立刻下降;台北則相反,有沒有雨的差異不大,除非單日雨量超過50mm才有顯著的影響。

        這個finding對我來意義重大,因為過去我相當偏好連續型資料(檢定力強、可以使用的分析方法多),但是真的不見得不能將資料轉成離散型來觀察,而且不同的分組方式對於資料也有相當明顯的影響。只有讓自己對於資料更熟悉,而且要真正進入資料中,不能強加自己的想像到資料上,才能看出更多的insight。


2 則留言:

  1. 資料分析真的是相當深奧,好像也有一些data mining的方法可以找到臨界點,像是SVM之類的

    回覆刪除