2014年8月30日 星期六

資料分析鍊金術(七)-insight?

圖片來源:http://www.cgma.org/Resources/Reports/Pages/insight-to-impact-big-data.aspx?TestCookiesEnabled=redirect

        這幾年除了Big Data被超級濫用之外,Insight也是個聽到爛掉的名詞。人們已經無法滿足於單純的分析,而是想更進一步取得Insight,像是Custimer Research變成Customer Insight、或是乾脆用Insight代替Analysis的說法也有。那到底什麼是Insight?



        從字面上來看,Insigh,就是In(內部、裡面)、Sight(視線、觀點)。分析者通常自詡為處在第三方觀點,來觀察消費者。在一般情況下,分析人員都會是站在研究對象的對立面,也就是站在研究對象的"外面",例如像生物或化學實驗,研究人員怎樣都不會是躺在實驗台上的那一位。但是研究者和被研究者的兩造區分,在社會科學或是消費者研究中的界線可能不會是那麼模糊。

        理由很簡單,因為在社會科學中,研究者常常也是被研究對象的一份子。例如很多女性研究者專門研究女性主義或女性自覺,研究政治的研究者也同時後到政治影響,研究消費者的人也永遠會是個消費者。當研究者也是被研究者時,研究者往往更容易以自身的經驗和角度來觀察被研究者(在實驗室裡面應該很難想像自己是個氧分子或是兔子),因為有辦法打破研究者與被研究者的藩籬,也才有Insight的可能性。

        講了一堆有的沒的,我們直接來看看如何培養研究中的Insight。這個培養方式是我個人相當主觀的看法,沒有實證科學的支持(XD),既然是Insight,那當然要先來sight囉! 就像要寫書之前必定閱讀大量書籍,好的樂手也是從聽了別人的音樂開始,那好的分析當然也是從觀察開始。幾個觀察資料的方法:

  1. 拿到資料後,先閱讀每個欄位的定義和值域
  2. 用summary和frequency table and plot觀察每個值的變項範圍和分布狀況
  3. 閱讀幾筆case,將剛剛看到欄位資訊帶入其中,想像研究對象的真實狀況
比如說如果我今天拿到了台灣民眾的年紀和收入的資料:

資料來源:中華民國內政部,http://www.moi.gov.tw/outline/tw-03.html

資料來源:中華民國統計資訊網,http://www.stat.gov.tw/ct.asp?xItem=24658&ctNode=513

        從中會發現,年齡資料近似常態分配,集中在25-50歲;而所得資料是個右偏圖形,表示收入越高的人數越少。將這樣的資訊帶到樣本集中觀察的話,如果我們看到一個人是35歲,可支配所得是20萬,就可以想像這就是一個一般在路上都會看到的人;但如果是一個20歲,可支配所得為80萬的人,那麼就會想到這一定是個富二代,或是青年創業家。

        當研究者就生活在被研究對象的環境中時,研究者會更容易站在研究對象的方向來想像資料以及欄位之間的關係。好好的觀察資料是要取得Insight的第一步,卻也是最基本的一步(不管是Big Data或是Sampling Data都同樣重要)。


沒有留言:

張貼留言