2014年2月2日 星期日

資料分析鍊金術(二)--理解、分解、再構成

        雖然近年來流行將海量資料分析稱為是資料採礦(Data Mining),但是對我來說,整個資料分析的過程也很像是幾年前很紅的漫畫"鋼之鍊金術師(簡稱鋼煉)"中的煉金術。
資料來源:http://zh.wikipedia.org/wiki/%E9%8B%BC%E4%B9%8B%E9%8D%8A%E9%87%91%E8%A1%93%E5%B8%AB

        鋼煉畢竟是個漫畫,不是專門探討如何煉金,但是其中對於煉金術有幾個很棒的說明,那就是:理解、分解、再構成。
 
        理解、分解、再構成說明了煉金術的發動是來自理解自然,將自然元素分解後,再依自己的意願重新塑型,資料分析也是如此。資料分析不是說一定要套用很多很厲害的Model不可,任何資料分析的源頭都是來自於對於"問題"以及"資料"本身的理解。
 
        商務上會面對各種問題,而且原始問題都是相當模糊,像是"要如何增加銷售"、"為什麼業績下滑"、"為什麼某某商品賣不好"之類範圍很廣的問題。資料分析人員的主要工作就是將這些商業問題轉化為資料分析的問題。例如"影響銷售量的主要變項"、"業績與會員人數的關係"、"客戶喜歡的商品類型",可以透過資料分析來處理的題目。要能做到這樣的轉換,必須對於企業問題以及資料兩者都相當了解--我們必須了解手上的資料可以回答哪些問題,以及商業問題與資料之間的關係,才能將商業問題轉換為資料分析的問題,並且透過資料分析結果來回達商業問題。

        理解、分解、再構成的範圍不僅限於問題與資料,資料分析的本身亦然。我們必須足夠了解資料,並且在實務上可能需要將資料重新拆解、轉換為可以分析的資料類型。以及對於Model本身也需要有足夠的理解,才能更靈活的運用並解釋各種模型。實務上常遇到不了解資料、或是不懂model背後邏輯的人,在分析資料上不但少了靈活度,對於應用和解釋model更是容易發生悲劇。畢竟資料分析人員提供的各種分析報告都很可能影響公司未來數月或是當年的決策,在處理以及分析上不可不慎。