2014年2月5日 星期三

資料分析鍊金術(三)--先從輪廓開始吧! 認識你的消費者!

        從這篇文章開始,會陸續帶入一些常用的分析方法,雖然分析方法百百種,但是在頭一次接觸資料時,總會有個先後順序,由淺入深,由外表到內在,由粗糙的細緻。整個資料分析的報告架構就如同說故事般,透過數據引導聽眾建立對於消費者的想像。故事的第一頁通常會描寫時間季節,寫到人物時也只會初步描述人物的年齡長相,資料分析的第一個環節也由這邊展開......

        以消費者資料庫為例,分析之前先確認要分析的資料期間,是最近一年有消費者消費者? 還是歷史以來的消費者? 以第一次接觸資料來說,可以先分析歷史以來的消費者以及最近一年的消費者,好處是可以知道整體的消費者樣貌,並且從整體以及今年的資料比較中了解消費者有沒有轉變。

        確定好分析的時間後,接著就會就各個人口變項觀察消費者的樣貌。通常我們在描述一個人的樣貌的時候,可能會說黑色短髮、身高160公分、體重60公斤、30歲男性上班族等等特性,然後透過每個人對於這些特性的了解,我們可以大致想像口中描述的人的樣貌,但這是對一個人的描述。資料庫分析或是統計分析,也是在描述消費者樣貌,但是不同的是分析對象並非"單一個人",而是"一群人"。如果我要介紹我辦公室的同事,或許有辦法跟你一一介紹,但是如果我需要介紹幾百人、幾千人、甚至幾萬人的時候,我就不可能用這種一一介紹的方式,而是會用組成結構的方式來描述這群人。例如,這一群人平均身高165公分,平均70公斤,有一半男生、一半女生。你可以發現,我所介紹的特性與剛剛介紹一個人的時候並無不同,只是我所描述的並非單一個人的狀況,而改用一些所謂"統計"術語(例如平均、百分比)來介紹這"一群人"的人狀況。以下我們將介紹兩種最常用來描述消費者輪廓的統計術語。

        1.) 平均數:平均應該是大家最常聽到的統計概念,但也是最容易被誤用的統計概念。平均數的計算單純就是把N個數量加總後除以N而得,像是平均身高160公分,表示有些人高於160公分、有些人低於160公分,雖然我不知道最高多少最低多少,但是這個群體整體來說大概就是160公分。如果我知道有另外一群人平均身高170公分,那我還可以進一步想像當兩群人同時出現,平均身高160公分的那群人應該是普遍比較矮的。因為平均數很好算,大部分的情況也通用,因此平均數很適合,也很常用來描述一群數量的中心位置。不過在使用平均數前,請先注意資料的分配是不是貼近常態,以及有沒有特別極端的值來影響數據。因為平均數雖然好用,但是也很常被誤用,甚至誤解。

        大部分的人對於平均數的想像其實更貼近統計上"眾數"的概念,而非真正的平均數。例如當我說A團體平均身高160公分的時候,腦海中會直覺的想像這一群人大部分都是在160公分上下。但是如果有個B團體裡面有十個人身高180公分,十個人身高140公分,這個B團體平均身高也是160公分。或是如果有個C團體,一個人身高200,另外幾個人身高都150的時候,C團體平均身高也會是160公分。那如果我們直接說A、B、C三個團體平均身高都160公分時,會容易誤導聽故事的人對於這三個團體的想像。因為一般人對於統計的不熟悉,以及誤用,所以研究者更需要注意這種情形,來選擇適合的描述方式,避免誤導聽眾。

        2.) 百分比:如果需要描述的特性是不能相加的,例如頭髮的顏色,或是"年齡層",那我們可以使用百分比的方式來描述消費者。百分比的計算也相當簡單,有該特性的人口數量,除以整體人口數量,再乘以100,即可知道具有該特性的人口佔所有人口的比例是多少。50%是女性,代表團體裡面有一半是女性。25-34歲占20%、35-44歲占30%、45-54歲占40%、55歲以上占10%,那我們可以知道這個團體大部分的人年齡在35-54歲之間。百分比的好處是相當直覺,生活中也相當常見,因此聽故事的人通常會很容易想像你所描繪的輪廓。

        但是在描述百分比的時候,會建議標一下實際數值在旁邊以供參考,然後選擇想要強調的重點來使用百分比或實際數值。比如說:"我們家會員有10萬人每年只消費一次",這是個聽起來很大的數字,但是說不定這10萬每年只消費一次的會員只占整體會員的0.1%,這時候就可以不用強調100萬這個實際數字。又或者"我們有30%的消費者不喜歡紅色的上衣",但是這個調查的母體只是個總共10人的焦點座談會,這時候就可以用實際人數來代替百分比。兩者的使用單純視需求而定。

        人口描述是最簡單,但是也最基本、最重要的分析。透過人口描述可以初步了解、觀察消費者的樣貌,提供想像的基礎,事後其他的分析都是從這些分析中延伸出來。當然,描述的方法當然不只有平均數和百分比而已,要用什麼統計值來描述資料純粹就資料的性質和需求而定。雖然我們常說數字不會說謊,但是選擇要使用何種數字以及何種解釋方式的,終究是人,這點我認為才是研究人員最為重要,也最難拿捏的地方。